Élever la barre : Nouveaux SLO à 99 % (et 99,9 % pour la santé globale)
created: dimanche, juin 15, 2025
TL;DR
Métrique |
Ancien SLO |
Nouveau SLO |
Tout service DTZ en contact avec les clients |
95 % |
99 % |
santé globale dtz (battement cardiaque agrégé) |
95 % |
99,9 % |
Les nouveaux objectifs prennent effet **le 1er juillet 2025** et seront mesurés sur la même fenêtre glissante de 30 jours que vous connaissez déjà via la [page de statut](https://status.dtz.rocks).
Pourquoi nous sommes prêts pour un neuf supplémentaire
Au cours de l’année écoulée, notre plateforme a discrètement évolué de « prometteuse » à « éprouvée » :
- Les données parlent : Depuis le 1er avril, nous avons enregistré 11 incidents en production totalisant 7 h 28 m d’interruption. Cela correspond à une disponibilité de 99,66 % sur une période de 75 jours — déjà au-dessus du nouvel objectif global.
- La santé globale est solide comme un roc : La sonde agrégée santé globale dtz n’a été indisponible que pendant 16 m en 2025 à ce jour, ce qui donne 99,97 %.
- Le temps moyen de récupération (MTTR) a diminué de 42 % grâce aux retours en arrière automatiques, aux déploiements bleu/vert et à une suite croissante de tests simples.
- Observabilité partout : Chaque chemin critique émet maintenant des métriques RED (taux, erreurs, durée) et les alertes de consommation des SLO sont directement envoyées dans les canaux Slack de garde.
Ce qui change pour vous
- Budgets d’erreur resserrés. Avec 99 % de disponibilité, un service peut désormais être indisponible environ 7 h 18 m par mois (contre environ 36 h auparavant). Pour la vérification de la santé globale à 99,9 %, la tolérance est de seulement 43 m.
- Réponse aux incidents plus rapide. Les seuils d’alerte Pager sont réduits de 3 min à 60 s de sondes défaillantes afin que nous puissions agir avant que vous ne le remarquiez.
- Crédits transparents. En cas de dépassement du SLO, des crédits de service seront automatiquement attribués — sans besoin de ticket. Les Conditions Générales mises à jour seront en vigueur la semaine prochaine.
- Télémétrie publique enrichie. Des percentiles de latence et des graphiques de taux de consommation seront ajoutés à chaque composant sur la page de statut pour que vous puissiez corréler les problèmes avec vos propres tableaux de bord.
- Sondes redondantes depuis trois régions pour chaque battement cardiaque.
- Retours en arrière instantanés. 90 % des retours sont déjà complétés en moins de trois minutes ; l’objectif est moins d’une minute.
- Exercices de chaos maintiennent à jour les plans de reprise.
- Exploitation durable, pas gaspilleuse. Nous continuons de fonctionner selon des horaires conscients du carbone ; plus de neufs ne signifie pas plus de mégawatts.
Un aperçu rapide des chiffres
Depuis le 1er avril 2025, nous avons enregistré :
- 11 incidents sur cinq services.
- Durée moyenne d’un incident : 41 m.
- Plus longue panne unique : 1 h 5 m (objectstore, 06 avril).
- Dernière fenêtre de 30 jours : 2 incidents, 1 h 9 m de temps d’arrêt total → 99,85 % de disponibilité.
Ces chiffres nous donnent une marge confortable pour atteindre les nouveaux objectifs avant même l’arrivée des futurs renforcements de redondance.
Merci
La fiabilité n’est pas un interrupteur que l’on actionne — c’est l’effet cumulatif des revues de conception, de la couverture des tests, de l’observabilité et d’une équipe qui se soucie. Vos rapports de bugs et suggestions de fonctionnalités nous ont poussés à relever la barre. Continuez à nous faire part de vos retours, et voici à moins de pages, une exploitation plus verte et un neuf supplémentaire.