Die Messlatte erhöhen: Neue SLOs bei 99 % (und 99,9 % für Overall Health)

created: Sonntag, Juni 15, 2025

TL;DR

Metric	Old SLO	New SLO
Jeder DTZ-kundenorientierte Dienst	95 %	99 %
dtz overall health (aggregierter Heartbeat)	95 %	99,9 %

Die neuen Ziele treten am **1. Juli 2025** in Kraft und werden über dasselbe rollierende 30-Tage-Fenster gemessen, das Sie bereits von der [status page](https://status.dtz.rocks) kennen.

Warum wir bereit für eine zusätzliche Neun sind

Im vergangenen Jahr hat sich unsere Plattform stillschweigend von „vielversprechend“ zu „kampferprobt“ entwickelt:

Daten sprechen: Seit dem 1. April haben wir 11 Produktionsvorfälle mit insgesamt 7 h 28 m Ausfallzeit protokolliert. Das sind 99,66 % Verfügbarkeit über einen 75-Tage-Zeitraum—bereits über dem neuen globalen Ziel.
Overall Health ist extrem stabil: Der aggregierte dtz overall health-Probe war 2025 bisher nur 16 m nicht verfügbar, was 99,97 % entspricht.
Die mittlere Wiederherstellungszeit (MTTR) sank um 42 % dank automatischer Rollbacks, Blue/Green-Deploys und einer wachsenden Suite von Smoke-Tests.
Observability überall: Jeder kritische Pfad liefert jetzt RED-Metriken (Rate, Fehler, Dauer) und SLO-Burn-Alarme gehen direkt in die On-Call-Slack-Kanäle.

Was sich für Sie ändert

Engere Error Budgets. Bei 99 % Verfügbarkeit darf ein Dienst nun ~7 h 18 m pro Monat ausfallen (zuvor ~36 h). Für die 99,9 %-Overall-Health-Prüfung beträgt die Zulassung nur 43 m.
Schnellere Incident-Reaktion. Die Pager-Schwellen werden von 3 m auf 60 s bei fehlschlagenden Probes verkürzt, damit wir reagieren können, bevor Sie es bemerken.
Transparente Gutschriften. Wenn wir das SLO verletzen, werden Service-Guthaben automatisch gutgeschrieben—kein Ticket erforderlich. Die aktualisierten AGB treten nächste Woche in Kraft.
Erweiterte öffentliche Telemetrie. Latenz-Perzentile und Burn-Rate-Grafiken werden zu jeder Komponente auf der Statusseite hinzugefügt, damit Sie Probleme mit Ihren eigenen Dashboards korrelieren können.

Wie wir innerhalb des Budgets bleiben

Redundante Probes aus drei Regionen für jeden Heartbeat.
Sofortige Deploy-Rollbacks. 90 % der Rückrollungen sind bereits in unter drei Minuten abgeschlossen; das Ziel ist unter einer Minute.
Chaos-Drills halten die Recovery-Playbooks aktuell.
Nachhaltiger Betrieb, nicht verschwenderischer Betrieb. Wir arbeiten weiterhin mit CO2-bewussten Zeitplänen; mehr Neunen bedeuten nicht mehr Megawatt.

Ein kurzer Blick auf die Zahlen

Seit 1. April 2025 haben wir:

11 Vorfälle in fünf Diensten.
Durchschnittliche Vorfallsdauer: 41 m.
Längster einzelner Ausfall: 1 h 5 m (objectstore, 06 April).
Letztes 30-Tage-Fenster: 2 Vorfälle, 1 h 9 m Gesamtausfallzeit → 99,85 % Verfügbarkeit.

Diese Zahlen geben uns einen komfortablen Puffer, um die neuen Ziele bereits vor den anstehenden Redundanz-Upgrades zu erreichen.

Vielen Dank

Zuverlässigkeit ist kein Schalter, den man umlegt—sie ist die kumulative Wirkung von Design-Reviews, Testabdeckung, Observability und einer Crew, der es wichtig ist. Ihre Fehlerberichte und Feature-Vorschläge haben uns dazu gebracht, die Messlatte zu erhöhen. Weiterhin Feedback erwünscht — auf weniger Pager, grünere Betriebsabläufe und eine zusätzliche Neun.