Alzare l'asticella: nuovi SLO al 99 % (and 99.9 % for Overall Health)

created: domenica, giu 15, 2025

TL;DR

Metrica	Vecchio SLO	Nuovo SLO
Qualsiasi servizio DTZ rivolto al cliente	95 %	99 %
dtz overall health (battito aggregato)	95 %	99.9 %

I nuovi obiettivi entreranno in vigore il **1 luglio 2025** e saranno misurati sullo stesso intervallo mobile di 30 giorni che già conoscete dalla [pagina di stato](https://status.dtz.rocks).

Perché siamo pronti per un nove in più

Nell’ultimo anno la nostra piattaforma è passata silenziosamente da “promettente” a “tempra da campo di battaglia”:

I dati parlano: Dal 1 aprile abbiamo registrato 11 incidenti in produzione per un totale di 7 h 28 m di downtime. Questo corrisponde a una disponibilità del 99.66 % per un periodo di 75 giorni—già sopra il nuovo target globale.
La salute complessiva è solida come una roccia: La sonda aggregata dtz overall health è stata indisponibile per soli 16 m nel 2025 fino ad oggi, traducendosi in 99.97 %.
Il tempo medio di ripristino (MTTR) si è ridotto del 42 % grazie a rollback automatici, deploy blue/green e a una suite sempre più ampia di smoke test.
Osservabilità ovunque: Ogni percorso critico ora emette metriche RED (rate, errors, duration) e gli alert sul burn degli SLO confluiscono direttamente nei canali Slack del personale on-call.

Cosa cambia per voi

Budget di errore più stringenti. Con il 99 % di disponibilità un servizio può ora rimanere giù per ~7 h 18 m al mese (prima ~36 h). Per il controllo di salute overall al 99.9 % la tolleranza è di appena 43 m.
Risposta agli incidenti più rapida. Le soglie dei pager vengono accorciate da 3 m a 60 s di sonde in errore in modo da poter intervenire prima che ve ne accorgiate.
Crediti trasparenti. Se violiamo lo SLO, i crediti di servizio verranno accreditati automaticamente—non è necessario aprire un ticket. I ToS aggiornati saranno attivi la prossima settimana.
Telemetria pubblica più ricca. I percentili di latenza e i grafici di burn-rate verranno aggiunti a ogni componente sulla pagina di stato così potrete correlare i problemi con le vostre dashboard.

Come rimarremo entro il budget

Sonde ridondanti da tre regioni per ogni heartbeat.
Rollback istantanei dei deploy. Il 90 % delle inversioni è già completato in meno di tre minuti; l’obiettivo è sotto il minuto.
Chaos drills mantengono freschi i playbook di recovery.
Operazioni sostenibili, non sprecone. Continuiamo a operare con schedule consapevoli del carbonio; più nove non significano più megawatt.

Uno sguardo rapido ai numeri

Dal 1 aprile 2025 abbiamo osservato:

11 incidenti distribuiti su cinque servizi.
Durata media degli incidenti: 41 m.
Interruzione singola più lunga: 1 h 5 m (objectstore, 06 aprile).
Ultima finestra di 30 giorni: 2 incidenti, 1 h 9 m di downtime totale → 99.85 % di disponibilità.

Queste cifre ci lasciano un margine confortevole per raggiungere i nuovi obiettivi anche prima che vengano implementati i prossimi upgrade di ridondanza.

Grazie

La affidabilità non è un interruttore da azionare—è l’effetto cumulativo di review di design, copertura dei test, osservabilità e di un team che ci tiene. I vostri report di bug e i suggerimenti sulle funzionalità ci hanno spinto ad alzare l’asticella. Continuate a mandare feedback: a meno pagine di allarme, operazioni più verdi e a un nove in più.