Subiendo el listón: nuevos SLO en 99 % (y 99.9 % para la salud general)
created: domingo, jun. 15, 2025
TL;DR
| Metric |
Old SLO |
New SLO |
| Any DTZ customer-facing service |
95 % |
99 % |
| dtz overall health (aggregated heartbeat) |
95 % |
99.9 % |
The new objectives take effect **1 July 2025** and will be measured over the same rolling 30-day window you already know from the [status page](https://status.dtz.rocks).
Over the past year our platform has quietly evolved from “promising” to “battle-hardened”:
- Los datos hablan: Desde el 1 de abril hemos registrado 11 incidentes en producción que suman 7 h 28 m de tiempo de inactividad. Eso supone 99.66 % de disponibilidad durante un periodo de 75 días—ya por encima del nuevo objetivo global.
- La salud general es sólida como una roca: La sonda agregada dtz overall health ha estado indisponible solo 16 m en lo que va de 2025, lo que se traduce en 99.97 %.
- El tiempo medio de recuperación (MTTR) se redujo un 42 % gracias a reversiones automáticas, despliegues blue/green y una suite creciente de pruebas de humo.
- Observabilidad en todas partes: Cada ruta crítica ahora emite métricas RED (tasa, errores, duración) y las alertas de consumo del SLO alimentan directamente los canales de slack de guardia.
Qué cambia para ti
- Presupuestos de error más estrictos. Con 99 % de disponibilidad, un servicio puede ahora estar caído aproximadamente ~7 h 18 m por mes (antes ~36 h). Para la comprobación de salud al 99.9 % la asignación es de solo 43 m.
- Respuesta a incidentes más rápida. Los umbrales de paginación se están acortando de 3 m a 60 s de sondas fallando para que podamos actuar antes de que lo notes.
- Créditos transparentes. Si incumplimos el SLO, los créditos de servicio se aplicarán automáticamente—no se requiere ticket. Los ToS actualizados entran en vigor la próxima semana.
- Telemetría pública más completa. Se añadirán percentiles de latencia y gráficos de tasa de consumo a cada componente en la página de estado para que puedas correlacionar problemas con tus propios paneles.
Cómo nos mantendremos dentro del presupuesto
- Sondas redundantes desde tres regiones para cada latido.
- Reversiones instantáneas de despliegue. El 90 % de las reversiones ya se completan en menos de tres minutos; la meta es menos de un minuto.
- Simulacros de caos mantienen frescos los playbooks de recuperación.
- Operaciones sostenibles, no operaciones derrochadoras. Continuamos funcionando con horarios conscientes del carbono; más nueves no significan más megavatios.
Una mirada rápida a los números
Since 1 April 2025 we have seen:
- 11 incidentes en cinco servicios.
- Duración media de los incidentes: 41 m.
- Corte único más largo: 1 h 5 m (objectstore, 06 de abril).
- Última ventana de 30 días: 2 incidentes, 1 h 9 m de tiempo de inactividad total → 99.85 % de disponibilidad.
Estas cifras nos dan margen de sobra para cumplir los nuevos objetivos incluso antes de que lleguen las próximas mejoras de redundancia.
Gracias
La fiabilidad no es un interruptor que se activa—es el efecto acumulado de revisiones de diseño, cobertura de pruebas, observabilidad y un equipo que se preocupa. Tus informes de errores y sugerencias de funciones nos empujaron a subir el listón. Sigue enviando retroalimentación, y brindemos por menos páginas, operaciones más verdes y un nueve extra.