Elevando el Nivel: Nuevos SLOs al 99 % (y 99.9 % para la Salud General)
created: domingo, jun. 15, 2025
TL;DR
Métrica |
SLO Anterior |
Nuevo SLO |
Cualquier servicio de DTZ orientado al cliente |
95 % |
99 % |
salud general dtz (latido agregado) |
95 % |
99.9 % |
Los nuevos objetivos entran en vigor el **1 de julio de 2025** y se medirán en la misma ventana móvil de 30 días que ya conoces de la [página de estado](https://status.dtz.rocks).
Durante el último año nuestra plataforma ha evolucionado silenciosamente de “prometedora” a “probada en batalla”:
- Los datos hablan: Desde el 1 de abril registramos 11 incidentes en producción con un total de 7 h 28 m de tiempo inactivo. Eso significa una disponibilidad del 99.66 % en 75 días, ya por encima del nuevo objetivo global.
- La salud general es sólida como una roca: La prueba agregada salud general dtz solo ha estado indisponible 16 m en lo que va de 2025, lo que se traduce en un 99.97 %.
- El tiempo medio de recuperación (MTTR) se redujo un 42 % gracias a retrocesos automáticos, despliegues blue/green y una suite creciente de pruebas básicas.
- Observabilidad en todas partes: Cada ruta crítica ahora emite métricas RED (tasa, errores, duración) y las alertas de consumo del SLO se envían directamente a los canales de Slack del turno de guardia.
Qué cambia para ti
- Presupuestos de error más ajustados. Con una disponibilidad del 99 %, un servicio puede estar caído aproximadamente ~7 h 18 m al mes (antes ~36 h). Para la verificación general de salud al 99.9 %, la tolerancia es solo de 43 m.
- Respuesta a incidentes más rápida. Los umbrales de pager se reducen de 3 m a 60 s de pruebas fallidas para que podamos actuar antes de que lo notes.
- Créditos transparentes. Si incumplimos el SLO, los créditos por servicio se aplicarán automáticamente, sin necesidad de abrir ticket. Los Términos de Servicio actualizados se activan la próxima semana.
- Telemetría pública más completa. Se añadirán percentiles de latencia y gráficos de tasa de consumo a cada componente en la página de estado para que puedas correlacionar problemas con tus propios paneles.
Cómo nos mantendremos dentro del presupuesto
- Pruebas redundantes desde tres regiones para cada latido.
- Retrocesos instantáneos de despliegues. El 90 % de las reversiones ya se completan en menos de tres minutos; el objetivo es menos de un minuto.
- Ejercicios de caos para mantener frescos los manuales de recuperación.
- Operaciones sostenibles, no derrochadoras. Seguimos funcionando con horarios conscientes de carbono; más nueves no significan más megavatios.
Una mirada rápida a los números
Desde el 1 de abril de 2025 hemos tenido:
- 11 incidentes en cinco servicios.
- Duración promedio del incidente: 41 m.
- Mayor interrupción única: 1 h 5 m (objectstore, 06 de abril).
- Última ventana móvil de 30 días: 2 incidentes, 1 h 9 m de tiempo total inactivo → 99.85 % de disponibilidad.
Estas cifras nos dan un margen amplio para alcanzar los nuevos objetivos incluso antes de que lleguen las próximas mejoras de redundancia.
Gracias
La confiabilidad no es un interruptor que se enciende; es el efecto acumulativo de revisiones de diseño, cobertura de pruebas, observabilidad y un equipo que se preocupa. Tus reportes de fallos y sugerencias de funciones nos impulsaron a elevar el nivel. Sigue enviando tus comentarios, y brindemos por menos páginas, operaciones más verdes y un nueve extra.