Alzare l'asticella: nuovi SLO al 99 % (and 99.9 % for Overall Health)
created: domenica, giu 15, 2025
TL;DR
| Metrica |
Vecchio SLO |
Nuovo SLO |
| Qualsiasi servizio DTZ rivolto al cliente |
95 % |
99 % |
| dtz overall health (battito aggregato) |
95 % |
99.9 % |
I nuovi obiettivi entreranno in vigore il **1 luglio 2025** e saranno misurati sullo stesso intervallo mobile di 30 giorni che già conoscete dalla [pagina di stato](https://status.dtz.rocks).
Perché siamo pronti per un nove in più
Nell’ultimo anno la nostra piattaforma è passata silenziosamente da “promettente” a “tempra da campo di battaglia”:
- I dati parlano: Dal 1 aprile abbiamo registrato 11 incidenti in produzione per un totale di 7 h 28 m di downtime. Questo corrisponde a una disponibilità del 99.66 % per un periodo di 75 giorni—già sopra il nuovo target globale.
- La salute complessiva è solida come una roccia: La sonda aggregata dtz overall health è stata indisponibile per soli 16 m nel 2025 fino ad oggi, traducendosi in 99.97 %.
- Il tempo medio di ripristino (MTTR) si è ridotto del 42 % grazie a rollback automatici, deploy blue/green e a una suite sempre più ampia di smoke test.
- Osservabilità ovunque: Ogni percorso critico ora emette metriche RED (rate, errors, duration) e gli alert sul burn degli SLO confluiscono direttamente nei canali Slack del personale on-call.
Cosa cambia per voi
- Budget di errore più stringenti. Con il 99 % di disponibilità un servizio può ora rimanere giù per ~7 h 18 m al mese (prima ~36 h). Per il controllo di salute overall al 99.9 % la tolleranza è di appena 43 m.
- Risposta agli incidenti più rapida. Le soglie dei pager vengono accorciate da 3 m a 60 s di sonde in errore in modo da poter intervenire prima che ve ne accorgiate.
- Crediti trasparenti. Se violiamo lo SLO, i crediti di servizio verranno accreditati automaticamente—non è necessario aprire un ticket. I ToS aggiornati saranno attivi la prossima settimana.
- Telemetria pubblica più ricca. I percentili di latenza e i grafici di burn-rate verranno aggiunti a ogni componente sulla pagina di stato così potrete correlare i problemi con le vostre dashboard.
Come rimarremo entro il budget
- Sonde ridondanti da tre regioni per ogni heartbeat.
- Rollback istantanei dei deploy. Il 90 % delle inversioni è già completato in meno di tre minuti; l’obiettivo è sotto il minuto.
- Chaos drills mantengono freschi i playbook di recovery.
- Operazioni sostenibili, non sprecone. Continuiamo a operare con schedule consapevoli del carbonio; più nove non significano più megawatt.
Uno sguardo rapido ai numeri
Dal 1 aprile 2025 abbiamo osservato:
- 11 incidenti distribuiti su cinque servizi.
- Durata media degli incidenti: 41 m.
- Interruzione singola più lunga: 1 h 5 m (objectstore, 06 aprile).
- Ultima finestra di 30 giorni: 2 incidenti, 1 h 9 m di downtime totale → 99.85 % di disponibilità.
Queste cifre ci lasciano un margine confortevole per raggiungere i nuovi obiettivi anche prima che vengano implementati i prossimi upgrade di ridondanza.
Grazie
La affidabilità non è un interruttore da azionare—è l’effetto cumulativo di review di design, copertura dei test, osservabilità e di un team che ci tiene. I vostri report di bug e i suggerimenti sulle funzionalità ci hanno spinto ad alzare l’asticella. Continuate a mandare feedback: a meno pagine di allarme, operazioni più verdi e a un nove in più.