Elevando el Nivel: Nuevos SLOs al 99 % (y 99.9 % para la Salud General)
created: domingo, jun. 15, 2025
TL;DR
| Metric |
Old SLO |
New SLO |
| Any DTZ customer-facing service |
95 % |
99 % |
| dtz overall health (aggregated heartbeat) |
95 % |
99.9 % |
Los nuevos objetivos entran en vigor el **1 de julio de 2025** y se medirán en la misma ventana móvil de 30 días que ya conoces desde la [página de estado](https://status.dtz.rocks).
En el último año nuestra plataforma ha evolucionado silenciosamente de “prometedora” a “probada en combate”:
- Los datos hablan: Desde el 1 de abril hemos registrado 11 incidentes en producción con un total de 7 h 28 m de tiempo de inactividad. Eso representa un 99.66 % de disponibilidad en un período de 75 días—ya por encima de la nueva meta global.
- La salud general es sólida como una roca: La sonda agregada dtz overall health solo ha estado no disponible durante 16 m en 2025 hasta la fecha, lo que se traduce en un 99.97 %.
- El tiempo medio de recuperación (MTTR) se redujo un 42 % gracias a retrocesos automáticos, despliegues blue/green y un conjunto creciente de pruebas de verificación rápida.
- Observabilidad en todas partes: Cada camino crítico ahora emite métricas RED (tasa, errores, duración) y las alertas de consumo de SLO se envían directamente a los canales de Slack de guardia.
Qué cambia para ti
- Presupuestos de error más ajustados. Con un 99 % de disponibilidad, un servicio puede estar caído hasta ~7 h 18 m por mes (antes ~36 h). Para la comprobación de salud general al 99.9 % el margen es de solo 43 m.
- Respuesta más rápida a incidentes. Los umbrales para la activación del pager se reducen de 3 minutos a 60 segundos de sondas fallidas para poder actuar antes de que lo notes.
- Créditos transparentes. Si incumplimos el SLO, los créditos de servicio se aplicarán automáticamente—sin necesidad de ticket. Los Términos de Servicio actualizados se activan la próxima semana.
- Telemetría pública más completa. Se agregarán percentiles de latencia y gráficos de tasa de consumo para cada componente en la página de estado para que puedas correlacionar los problemas con tus propios paneles.
Cómo mantendremos el presupuesto
- Sondas redundantes desde tres regiones para cada latido.
- Retrocesos instantáneos en despliegues. El 90 % de las reversiones ya se completan en menos de tres minutos; la meta es menos de un minuto.
- Simulacros de caos para mantener frescos los planes de recuperación.
- Operaciones sostenibles, no derrochadoras. Seguimos funcionando con horarios conscientes del carbono; más nueves no significan más megavatios.
Una rápida mirada a los números
Desde el 1 de abril de 2025 hemos visto:
- 11 incidentes en cinco servicios.
- Duración promedio de incidente: 41 m.
- Mayor interrupción única: 1 h 5 m (objectstore, 6 de abril).
- Última ventana móvil de 30 días: 2 incidentes, 1 h 9 m de tiempo total de inactividad → 99.85 % de disponibilidad.
Estas cifras nos dan un margen cómodo para alcanzar los nuevos objetivos incluso antes de que se implementen las próximas mejoras de redundancia.
Gracias
La confiabilidad no es un interruptor que se active—es el efecto acumulativo de revisiones de diseño, cobertura de pruebas, observabilidad y un equipo que se preocupa. Tus reportes de errores y sugerencias de funciones nos impulsaron a subir el nivel. Sigue enviándonos tu feedback, y brindemos por menos alertas, operaciones más verdes y un nueve extra.