Raising the Bar: New SLOs at 99 % (and 99.9 % for Overall Health)
created: domenica, giu 15, 2025
TL;DR
| Metric |
Old SLO |
New SLO |
| Any DTZ customer-facing service |
95 % |
99 % |
| dtz overall health (aggregated heartbeat) |
95 % |
99.9 % |
I nuovi obiettivi entreranno in vigore **1 luglio 2025** e saranno misurati sulla stessa finestra mobile di 30 giorni che già conosci dalla [pagina di stato](https://status.dtz.rocks).
Nell’ultimo anno la nostra piattaforma è passata silenziosamente da “promettente” a “temperata da battaglia”:
- I dati parlano: Dal 1° aprile abbiamo registrato 11 incidenti in produzione per un totale di 7 h 28 m di downtime. Si tratta di una disponibilità del 99,66 % su un arco di 75 giorni—già superiore al nuovo obiettivo globale.
- La salute complessiva è solida come una roccia: La sonda aggregata dtz overall health è stata indisponibile per soli 16 m nel 2025 fino ad ora, traducendosi in un 99,97 % di disponibilità.
- Il tempo medio di recupero (MTTR) è diminuito del 42 % grazie a rollback automatici, deploy blue/green e a una suite crescente di test di fumo.
- Osservabilità ovunque: Ogni percorso critico ora emette metriche RED (rate, errori, durata) e gli alert di burn SLO vengono indirizzati direttamente nei canali Slack di reperibilità.
What changes for you
- Budget di errore più stretti. Con una disponibilità al 99 % un servizio può stare giù per circa ~7 h 18 m al mese (in precedenza ~36 h). Per il controllo di salute complessiva al 99,9 % la tolleranza è solo di 43 m.
- Risposta agli incidenti più rapida. Le soglie di pager vengono ridotte da 3 m a 60 s di sonde in errore affinché possiamo agire prima che tu te ne accorga.
- Crediti trasparenti. Se superiamo l’SLO, i crediti di servizio verranno erogati automaticamente—senza bisogno di aprire ticket. I ToS aggiornati saranno attivi dalla prossima settimana.
- Telemetria pubblica più ricca. Percentili di latenza e grafici di burn rate saranno aggiunti a ogni componente sulla pagina di stato per permetterti di correlare i problemi con i tuoi dashboard.
How we’ll stay inside budget
- Sonde ridondanti da tre regioni per ogni heartbeat.
- Rollback di deploy istantanei. Il 90 % dei rollback si completa già in meno di tre minuti; l’obiettivo è sotto il minuto.
- Esercitazioni di caos mantengono aggiornati i playbook di recovery.
- Operazioni sostenibili, non sprecone. Continuiamo a lavorare con orari carbon-aware; più nove non significa più megawatt.
A quick look at the numbers
Dal 1 aprile 2025 abbiamo osservato:
- 11 incidenti su cinque servizi.
- Durata media incidente: 41 m.
- Blackout singolo più lungo: 1 h 5 m (objectstore, 06 aprile).
- Ultima finestra mobile di 30 giorni: 2 incidenti, 1 h 9 m totale di downtime → 99,85 % di disponibilità.
Questi numeri ci danno un margine confortevole per raggiungere i nuovi obiettivi anche prima che arrivino i prossimi aggiornamenti di ridondanza.
Thank you
L’affidabilità non è un interruttore da attivare—è l’effetto cumulativo di revisioni progettuali, copertura di test, osservabilità e di un team che tiene davvero. I tuoi report di bug e suggerimenti sulle funzionalità ci hanno spinto ad alzare l’asticella. Continua a inviarci feedback, e brindiamo a meno pagine, operazioni più verdi e un nove in più.