Die Messlatte höher legen: Neue SLOs bei 99 % (und 99,9 % für die Gesamtgesundheit)
created: Sonntag, Juni 15, 2025
TL;DR
| Kennzahl |
Altes SLO |
Neues SLO |
| Jeder DTZ-kundenorientierte Dienst |
95 % |
99 % |
| dtz overall health (aggregierter Heartbeat) |
95 % |
99,9 % |
Die neuen Ziele treten am **1. Juli 2025** in Kraft und werden über dasselbe rollierende 30-Tage-Fenster gemessen, das Sie bereits von der [Statusseite](https://status.dtz.rocks) kennen.
Warum wir bereit sind für eine zusätzliche Neun
In den letzten zwölf Monaten hat sich unsere Plattform still und leise von „vielversprechend“ zu „kampferprobt“ entwickelt:
- Daten sprechen für sich: Seit dem 1. April haben wir 11 Produktionsvorfälle mit insgesamt 7 h 28 m Ausfallzeit verzeichnet. Das entspricht einer Verfügbarkeit von 99,66 % über einen Zeitraum von 75 Tagen – bereits über dem neuen globalen Ziel.
- Gesamtgesundheit ist sehr stabil: Die aggregierte dtz overall health Probe war 2025 bislang nur für 16 m nicht verfügbar, was 99,97 % entspricht.
- Mittlere Wiederherstellungszeit (MTTR) um 42 % verkürzt dank automatischer Rücksetzungen, Blue/Green-Deployments und einer wachsenden Reihe an Smoke-Tests.
- Überall Observability: Jeder kritische Pfad sendet nun RED-Metriken (Rate, Fehler, Dauer) und SLO-Burn-Alarme fließen direkt in die On-Call-Slack-Kanäle ein.
Was sich für Sie ändert
- Engere Fehlerbudgets. Bei 99 % Verfügbarkeit darf ein Dienst nun etwa ~7 h 18 m pro Monat ausfallen (zuvor ~36 h). Für den 99,9 % Gesamtgesundheitscheck sind nur 43 m zulässig.
- Schnellere Incident-Reaktion. Pager-Schwellenwerte werden von 3 Minuten auf 60 Sekunden bei fehlschlagenden Probes verkürzt, damit wir handeln können, bevor Sie es bemerken.
- Transparente Gutschriften. Wenn wir das SLO brechen, werden Servicegutschriften automatisch gutgeschrieben – ohne Ticket. Die aktualisierten AGB gehen nächste Woche live.
- Umfangreichere öffentliche Telemetrie. Latenz-Perzentile und Burn-Rate-Grafiken werden für jede Komponente auf der Statusseite ergänzt, damit Sie Probleme mit Ihren eigenen Dashboards korrelieren können.
Wie wir im Budget bleiben
- Redundante Probes aus drei Regionen für jeden Heartbeat.
- Sofortige Deploy-Rollbacks. 90 % der Rücksetzungen sind bereits in unter drei Minuten abgeschlossen; Ziel ist unter einer Minute.
- Chaos-Drills halten Recovery-Playbooks auf dem neuesten Stand.
- Nachhaltiger Betrieb, kein verschwenderischer Betrieb. Wir arbeiten weiterhin mit carbon-aware Zeitplänen; mehr Neunen bedeutet nicht mehr Megawatt.
Ein kurzer Blick auf die Zahlen
Seit dem 1. April 2025 haben wir erlebt:
- 11 Vorfälle über fünf Dienste verteilt.
- Durchschnittliche Vorfallzeit: 41 m.
- Längster einzelner Ausfall: 1 h 5 m (objectstore, 06. April).
- Letztes 30-Tage-Fenster: 2 Vorfälle, 1 h 9 m Gesamtausfallzeit → 99,85 % Verfügbarkeit.
Diese Werte geben uns komfortablen Spielraum, um die neuen Ziele zu erreichen, noch bevor die bevorstehenden Redundanz-Upgrades eintreffen.
Danke
Zuverlässigkeit ist kein Schalter, den man umlegt – sie ist die kumulative Wirkung von Design-Reviews, Testabdeckung, Observability und einem Team, das sich kümmert. Ihre Bugreports und Feature-Vorschläge haben uns motiviert, die Messlatte höher zu legen. Geben Sie weiterhin Feedback, und auf weniger Pages, grünere Operationen und eine zusätzliche Neun.