Relever la barre : Nouveaux SLO à 99 % (et 99.9 % pour la santé globale)

created: dimanche, juin 15, 2025

En bref

Metric	Old SLO	New SLO
Any DTZ customer-facing service	95 %	99 %
dtz overall health (aggregated heartbeat)	95 %	99.9 %

Les nouveaux objectifs prennent effet le **1 July 2025** et seront mesurés sur la même fenêtre glissante de 30 jours que celle que vous connaissez déjà depuis la [status page](https://status.dtz.rocks).

Pourquoi nous sommes prêts pour un neuf supplémentaire

Au cours de l’année écoulée, notre plateforme est passée discrètement de « prometteuse » à « aguerrie » :

Les données parlent : Depuis le 1er avril nous avons enregistré 11 incidents de production totalisant 7 h 28 m d’indisponibilité. Cela représente 99.66 % de disponibilité sur une période de 75 jours — déjà au-dessus du nouvel objectif global.
La santé globale est solide comme un roc : La sonde agrégée dtz overall health n’a été indisponible que pendant 16 m en 2025 à ce jour, soit 99.97 %.
Le temps moyen de rétablissement (MTTR) a diminué de 42 % grâce aux retours en arrière automatiques, aux déploiements blue/green et à une suite croissante de smoke tests.
Observabilité partout : Chaque chemin critique émet désormais des métriques RED (taux, erreurs, durée) et les alertes de burn-rate des SLO alimentent directement les canaux Slack des astreintes.

Ce qui change pour vous

Budgets d’erreur plus serrés. Avec 99 % de disponibilité, un service peut maintenant être indisponible environ ~7 h 18 m par mois (précédemment ~36 h). Pour la vérification de santé globale à 99.9 % l’allocation n’est que de 43 m.
Réponse aux incidents plus rapide. Les seuils d’alerte des pagers sont raccourcis de 3 m à 60 s de sondes en échec afin que nous puissions agir avant que vous ne le remarquiez.
Crédits transparents. Si nous manquons l’SLO, des crédits de service seront appliqués automatiquement — aucun ticket requis. Les CGU mises à jour entrent en vigueur la semaine prochaine.
Télémétrie publique enrichie. Des percentiles de latence et des graphes de burn-rate seront ajoutés à chaque composant sur la page de statut afin que vous puissiez corréler les incidents avec vos propres tableaux de bord.

Comment nous resterons dans les limites du budget d’erreurs

Sondes redondantes depuis trois régions pour chaque heartbeat.
Retours en arrière de déploiement instantanés. 90 % des reversions se complètent déjà en moins de trois minutes ; l’objectif est inférieur à une minute.
exercices de chaos gardent les playbooks de récupération à jour.
Opérations durables, pas gaspillantes. Nous continuons à fonctionner selon des calendriers tenant compte du carbone ; plus de neuf ne signifie pas plus de mégawatts.

Un rapide aperçu des chiffres

Depuis 1 April 2025 nous avons observé :

11 incidents sur cinq services.
Durée moyenne des incidents : 41 m.
La plus longue panne unique : 1 h 5 m (objectstore, 06 avril).
Dernière fenêtre de 30 jours : 2 incidents, 1 h 9 m d’indisponibilité totale → 99.85 % de disponibilité.

Ces chiffres nous laissent une marge confortable pour atteindre les nouveaux objectifs avant même l’arrivée des prochaines améliorations de redondance.

Merci

La fiabilité n’est pas un interrupteur que l’on active — c’est l’effet cumulatif des revues de conception, de la couverture des tests, de l’observabilité et d’une équipe qui s’investit. Vos rapports de bugs et vos suggestions de fonctionnalités nous ont poussés à relever la barre. Continuez à nous envoyer vos retours, et à la santé de moins d’alertes, d’opérations plus vertes et d’un neuf supplémentaire.