Die Messlatte erhöhen: Neue SLOs bei 99 % (und 99,9 % für Overall Health)
created: Sonntag, Juni 15, 2025
TL;DR
| Metric |
Old SLO |
New SLO |
| Jeder DTZ-kundenorientierte Dienst |
95 % |
99 % |
| dtz overall health (aggregierter Heartbeat) |
95 % |
99,9 % |
Die neuen Ziele treten am **1. Juli 2025** in Kraft und werden über dasselbe rollierende 30-Tage-Fenster gemessen, das Sie bereits von der [status page](https://status.dtz.rocks) kennen.
Warum wir bereit für eine zusätzliche Neun sind
Im vergangenen Jahr hat sich unsere Plattform stillschweigend von „vielversprechend“ zu „kampferprobt“ entwickelt:
- Daten sprechen: Seit dem 1. April haben wir 11 Produktionsvorfälle mit insgesamt 7 h 28 m Ausfallzeit protokolliert. Das sind 99,66 % Verfügbarkeit über einen 75-Tage-Zeitraum—bereits über dem neuen globalen Ziel.
- Overall Health ist extrem stabil: Der aggregierte dtz overall health-Probe war 2025 bisher nur 16 m nicht verfügbar, was 99,97 % entspricht.
- Die mittlere Wiederherstellungszeit (MTTR) sank um 42 % dank automatischer Rollbacks, Blue/Green-Deploys und einer wachsenden Suite von Smoke-Tests.
- Observability überall: Jeder kritische Pfad liefert jetzt RED-Metriken (Rate, Fehler, Dauer) und SLO-Burn-Alarme gehen direkt in die On-Call-Slack-Kanäle.
Was sich für Sie ändert
- Engere Error Budgets. Bei 99 % Verfügbarkeit darf ein Dienst nun ~7 h 18 m pro Monat ausfallen (zuvor ~36 h). Für die 99,9 %-Overall-Health-Prüfung beträgt die Zulassung nur 43 m.
- Schnellere Incident-Reaktion. Die Pager-Schwellen werden von 3 m auf 60 s bei fehlschlagenden Probes verkürzt, damit wir reagieren können, bevor Sie es bemerken.
- Transparente Gutschriften. Wenn wir das SLO verletzen, werden Service-Guthaben automatisch gutgeschrieben—kein Ticket erforderlich. Die aktualisierten AGB treten nächste Woche in Kraft.
- Erweiterte öffentliche Telemetrie. Latenz-Perzentile und Burn-Rate-Grafiken werden zu jeder Komponente auf der Statusseite hinzugefügt, damit Sie Probleme mit Ihren eigenen Dashboards korrelieren können.
Wie wir innerhalb des Budgets bleiben
- Redundante Probes aus drei Regionen für jeden Heartbeat.
- Sofortige Deploy-Rollbacks. 90 % der Rückrollungen sind bereits in unter drei Minuten abgeschlossen; das Ziel ist unter einer Minute.
- Chaos-Drills halten die Recovery-Playbooks aktuell.
- Nachhaltiger Betrieb, nicht verschwenderischer Betrieb. Wir arbeiten weiterhin mit CO2-bewussten Zeitplänen; mehr Neunen bedeuten nicht mehr Megawatt.
Ein kurzer Blick auf die Zahlen
Seit 1. April 2025 haben wir:
- 11 Vorfälle in fünf Diensten.
- Durchschnittliche Vorfallsdauer: 41 m.
- Längster einzelner Ausfall: 1 h 5 m (objectstore, 06 April).
- Letztes 30-Tage-Fenster: 2 Vorfälle, 1 h 9 m Gesamtausfallzeit → 99,85 % Verfügbarkeit.
Diese Zahlen geben uns einen komfortablen Puffer, um die neuen Ziele bereits vor den anstehenden Redundanz-Upgrades zu erreichen.
Vielen Dank
Zuverlässigkeit ist kein Schalter, den man umlegt—sie ist die kumulative Wirkung von Design-Reviews, Testabdeckung, Observability und einer Crew, der es wichtig ist. Ihre Fehlerberichte und Feature-Vorschläge haben uns dazu gebracht, die Messlatte zu erhöhen. Weiterhin Feedback erwünscht — auf weniger Pager, grünere Betriebsabläufe und eine zusätzliche Neun.