Die Messlatte höher legen: Neue SLOs bei 99 % (und 99,9 % für die Gesamtgesundheit)
created: Sonntag, Juni 15, 2025
TL;DR
Metrik |
Altes SLO |
Neues SLO |
Jeder DTZ kundenorientierte Dienst |
95 % |
99 % |
dtz Gesamtgesundheit (aggregierter Heartbeat) |
95 % |
99,9 % |
Die neuen Ziele treten am **1. Juli 2025** in Kraft und werden über dasselbe rollierende 30-Tage-Fenster gemessen, das Sie bereits von der [Statusseite](https://status.dtz.rocks) kennen.
Warum wir bereit sind für eine weitere Neun
Im vergangenen Jahr hat sich unsere Plattform still und leise von „vielversprechend“ zu „kampferprobt“ entwickelt:
- Daten sprechen für sich: Seit dem 1. April haben wir 11 Produktionsvorfälle mit insgesamt 7 h 28 m Ausfallzeit protokolliert. Das entspricht 99,66 % Verfügbarkeit über einen Zeitraum von 75 Tagen – bereits über dem neuen globalen Ziel.
- Gesamtgesundheit ist Fels in der Brandung: Die aggregierte dtz Gesamtgesundheit-Messung war im Jahr 2025 bisher nur für 16 m nicht verfügbar, was 99,97 % entspricht.
- Mittlere Wiederherstellungszeit (MTTR) sank um 42 % dank automatischer Rollbacks, Blue/Green-Deployments und einer wachsenden Anzahl von Smoke Tests.
- Observability überall: Jeder kritische Pfad liefert nun RED-Metriken (Rate, Fehler, Dauer) und SLO-Brennalarmierungen gehen direkt in die On-Call-Slack-Kanäle ein.
Was sich für Sie ändert
- Engere Fehlerbudgets. Bei 99 % Verfügbarkeit darf ein Dienst jetzt etwa ~7 h 18 m pro Monat ausfallen (zuvor ~36 h). Für die 99,9 %-Gesamtgesundheitsprüfung sind es nur 43 m.
- Schnellere Vorfallreaktion. Die Pager-Schwellen werden von 3 m auf 60 s fehlerhafte Prüfungen verkürzt, damit wir handeln können, bevor Sie es bemerken.
- Transparente Gutschriften. Wenn wir das SLO überschreiten, werden Service-Gutschriften automatisch gutgeschrieben – ohne Ticket. Die aktualisierten AGB treten nächste Woche in Kraft.
- Umfassendere öffentliche Telemetrie. Latenz-Perzentile und Burn-Rate-Grafiken werden für jede Komponente auf der Statusseite hinzugefügt, damit Sie Probleme mit Ihren eigenen Dashboards korrelieren können.
Wie wir im Budget bleiben
- Redundante Prüfungen aus drei Regionen für jeden Heartbeat.
- Sofortige Rollbacks bei Deployments. 90 % der Rücknahmen sind bereits in unter drei Minuten abgeschlossen; das Ziel ist unter einer Minute.
- Chaos-Drills halten die Wiederherstellungs-Playbooks aktuell.
- Nachhaltiger Betrieb, kein verschwenderischer Betrieb. Wir arbeiten weiterhin mit kohlenstoffbewussten Zeitplänen; mehr Neunen bedeuten nicht mehr Megawatt.
Ein kurzer Blick auf die Zahlen
Seit dem 1. April 2025 haben wir gesehen:
- 11 Vorfälle über fünf Dienste verteilt.
- Durchschnittliche Vorfalllänge: 41 m.
- Längster einzelner Ausfall: 1 h 5 m (objectstore, 6. April).
- Letztes 30-Tage-Fenster: 2 Vorfälle, 1 h 9 m Gesamtausfallzeit → 99,85 % Verfügbarkeit.
Diese Zahlen geben uns ausreichenden Spielraum, um die neuen Ziele zu erreichen, noch bevor die bevorstehenden Redundanz-Upgrades umgesetzt sind.
Danke
Zuverlässigkeit ist kein Schalter, den man umlegt – sie ist die kumulative Wirkung von Design-Reviews, Testabdeckung, Observability und einem Team, dem es am Herzen liegt. Ihre Fehlerberichte und Funktionsvorschläge haben uns motiviert, die Messlatte höher zu legen. Bitte geben Sie weiterhin Feedback, und auf weniger Pager-Meldungen, umweltfreundlichere Abläufe und eine zusätzliche Neun.