Raising the Bar: New SLOs at 99 % (and 99.9 % for Overall Health)
created: dimanche, juin 15, 2025
TL;DR
| Metric |
Old SLO |
New SLO |
| Any DTZ customer-facing service |
95 % |
99 % |
| dtz overall health (aggregated heartbeat) |
95 % |
99.9 % |
Les nouveaux objectifs prennent effet **le 1er juillet 2025** et seront mesurés sur la même fenêtre glissante de 30 jours que celle que vous connaissez déjà depuis la [page de statut](https://status.dtz.rocks).
Au cours de l’année passée, notre plateforme est passée discrètement de « prometteuse » à « éprouvée » :
- Les données parlent : Depuis le 1er avril, nous avons enregistré 11 incidents de production totalisant 7 h 28 m de temps d’indisponibilité. Cela correspond à une disponibilité de 99,66 % sur une période de 75 jours—déjà au-dessus du nouvel objectif global.
- La santé globale est solide comme un roc : La sonde agrégée dtz overall health n’a été indisponible que 16 m en 2025 jusqu’à présent, ce qui représente 99,97 %.
- Le temps moyen de récupération (MTTR) a diminué de 42 % grâce aux retours automatiques en arrière, aux déploiements blue/green et à une suite croissante de tests de fumée.
- Observabilité partout : Chaque chemin critique émet désormais des métriques RED (taux, erreurs, durée) et les alertes de consommation du SLO alimentent directement les canaux Slack des équipes de garde.
What changes for you
- Budgets d’erreur plus stricts. Avec 99 % de disponibilité, un service peut désormais être indisponible environ 7 h 18 m par mois (contre ~36 h auparavant). Pour le contrôle global à 99,9 %, la marge n’est que de 43 m.
- Réponse aux incidents plus rapide. Les seuils du pager sont raccourcis de 3 m à 60 s d’échecs de sondes afin que nous puissions agir avant que vous ne le remarquiez.
- Crédits transparents. En cas de dépassement du SLO, les crédits de service seront appliqués automatiquement—sans nécessité d’un ticket. Les conditions de service mises à jour seront mises en ligne la semaine prochaine.
- Télémétrie publique enrichie. Des percentiles de latence et des graphiques de taux de consommation seront ajoutés à chaque composant sur la page de statut pour que vous puissiez corréler les problèmes avec vos propres tableaux de bord.
How we’ll stay inside budget
- Sondes redondantes issues de trois régions pour chaque heartbeat.
- Retours de déploiement instantanés. 90 % des retours sont déjà réalisés en moins de trois minutes ; l’objectif est moins d’une minute.
- Exercices de chaos pour maintenir à jour les playbooks de récupération.
- Opérations durables, pas gourmandes. Nous continuons à fonctionner selon des plannings sensibles au carbone ; plus de neufs ne signifie pas plus de mégawatts.
A quick look at the numbers
Depuis le 1er avril 2025, nous avons constaté :
- 11 incidents sur cinq services.
- Durée moyenne des incidents : 41 m.
- La plus longue coupure unique : 1 h 5 m (objectstore, 6 avril).
- Dernière fenêtre de 30 jours : 2 incidents, 1 h 9 m de temps d’arrêt total → 99,85 % de disponibilité.
Ces chiffres nous laissent une marge confortable pour atteindre les nouveaux objectifs même avant la mise en place prochaine des améliorations de redondance.
Thank you
La fiabilité n’est pas un interrupteur qu’on active—c’est l’effet cumulatif des revues de conception, de la couverture des tests, de l’observabilité et d’une équipe engagée. Vos rapports de bugs et suggestions de fonctionnalités nous ont poussés à relever la barre. Continuez à nous faire part de vos retours, et à la santé de moins de pages, d’opérations plus vertes et d’un neuf supplémentaire.