Scenari di catastrofe in watsonx.data

Scenario 1: corruzione della configurazione di Kubernetes

Descrizione: Corruzione o cancellazione di formazioni, ConfigMaps, Segreti e altro ancora.

Impatto generale:
- SRE riceve gli avvisi e ripristina le configurazioni o le formazioni di Kubernetes.
- Le interrogazioni di bordo falliscono, causando un'interruzione temporanea.
- RTO e RPO vengono rivisti con SRE.
Milvus:
- Le query di volo e l'ingestione dei dati falliscono.
- SRE ripristina la formazione dal backup.
- Interruzione temporanea; RPO e RTO sono aggiornati.
Presto:
- Le query e l'ingestione durante il volo falliscono.
- Formazione ripristinata dal backup.
MDS:
- Le chiamate API di bordo non funzionano.
- Interruzione fino al ripristino della formazione.
- Il backup di Velero garantisce il ripristino del servizio, ma i rari conflitti tra le porte potrebbero richiedere modifiche manuali del servizio.
Scintilla:
- Solo i carichi di lavoro legati alle configurazioni danneggiate falliscono.
- Gli altri carichi di lavoro continuano.
- Gli utenti devono rieseguire i lavori falliti.
Coinvolgimento dei clienti: Nessuno

Descrizione: Corruzione dei volumi persistenti.

Impatto generale:
- I servizi che utilizzano i PVC sono interessati.
Milvus:
- PVC ripristinato dal backup.
- Interruzione temporanea dovuta al fermo dell'ETCD.
- Nessuna perdita di dati.
Presto, MDS, Spark:
- Nessun impatto (non utilizzare PVC).
Coinvolgimento del cliente: Nessuno

Descrizione: Corruzione dei dati o dei metadati memorizzati.

Impatto generale:
- Interruzioni del servizio durante il recupero.
Milvus:
- Metadati ETCD ripristinati dai backup orari.
- Potenziale perdita di 1 ora di metadati.
- Il cliente è responsabile dei backup dello storage vettoriale.
Presto:
- Backup point-in-time utilizzati per ripristinare la configurazione e i metadati.
MDS, Spark:
- Nessun impatto.
Coinvolgimento dei clienti: Nessuno

Descrizione: Guasto completo del cluster.

Milvus:
- Formazione e ripristino dei dati dal backup.
- Possibile perdita di metadati per 1 ora.
- Il cliente è responsabile dei backup dello storage vettoriale.
Presto:
- Formazione e ripristino dei dati dal backup.
MDS:
- Le chiamate API di bordo non funzionano.
- Interruzione fino al ripristino del cluster o della formazione.
Scintilla:
- Tutti i carichi di lavoro in esecuzione falliscono.
- Nessuna perdita di dati.
- SRE ripristina la formazione su un nuovo cluster.
- Gli utenti devono rieseguire i lavori falliti.
Coinvolgimento dei clienti: Nessuno

Descrizione: Un AZ diventa indisponibile.

Impatto generale:
- Il cluster ha la capacità di migrare i carichi di lavoro.
- I pod vengono riprogrammati automaticamente su AZ sane.
Milvus:
- I metadati sono attivi nel piano Enterprise.
- Le interrogazioni in volo falliscono; nessun impatto a lungo termine.
Presto:
- Le navette vengono riprogrammate; le interrogazioni a bordo falliscono.
MDS:
- Se solo un AZ è inattivo, non c'è alcun impatto.
- Se due o più AZ sono fuori uso, il servizio è compromesso finché non viene ripristinato almeno un AZ.
Scintilla:
- I carichi di lavoro con i driver nell'AZ non funzionante falliscono.
- Gli esecutori si riprendono nelle AZ sane.
- Nessun impatto sui carichi di lavoro negli AZ non interessati.
Coinvolgimento dei clienti: Nessuno

Descrizione: L'intera regione diventa non disponibile.

Milvus:
- Il cliente prevede una nuova istanza di watsonx.data e una formazione di Milvus in un'altra regione.
- Devono essere utilizzati lo stesso bucket e lo stesso percorso.
- Il cliente condivide i CRN delle formazioni vecchie e nuove.
- SRE ripristina i metadati ETCD.
Presto:
- Le disposizioni del cliente per la nuova formazione.
- SRE ripristina i metadati e il DB della console.
MDS:
- Se sono abilitati i backup orari di Postgres, ripristinare su una nuova istanza del DB.
- Aggiornare le variabili d'ambiente del pod MDS per puntare al nuovo DB.
- RPO: 1 ora; RTO: 2-3 ore.
- Anche il Console DB e l'AMS DB hanno subito un impatto.
Scintilla:
- Tutti i carichi di lavoro in esecuzione falliscono.
- Il cliente crea una nuova istanza di watsonx.data e un motore Spark.
- Nessuna perdita di dati (registri o eventi nell'archivio oggetti).
Coinvolgimento del cliente:
- Predisporre nuove formazioni e condividere i CRN.
Milvus utilizza Kafka in modalità attiva-attiva (piano Enterprise), pertanto non è necessario alcun intervento da parte del cliente per il ripristino di Kafka.