Scenari di catastrofe in watsonx.data
Scenario 1: corruzione della configurazione di Kubernetes
Descrizione: Corruzione o cancellazione di formazioni, ConfigMaps, Segreti e altro ancora.
-
Impatto generale:
- SRE riceve gli avvisi e ripristina le configurazioni o le formazioni di Kubernetes.
- Le interrogazioni di bordo falliscono, causando un'interruzione temporanea.
- RTO e RPO vengono rivisti con SRE.
-
Milvus:
- Le query di volo e l'ingestione dei dati falliscono.
- SRE ripristina la formazione dal backup.
- Interruzione temporanea; RPO e RTO sono aggiornati.
-
Presto:
- Le query e l'ingestione durante il volo falliscono.
- Formazione ripristinata dal backup.
-
MDS:
- Le chiamate API di bordo non funzionano.
- Interruzione fino al ripristino della formazione.
- Il backup di Velero garantisce il ripristino del servizio, ma i rari conflitti tra le porte potrebbero richiedere modifiche manuali del servizio.
-
Scintilla:
- Solo i carichi di lavoro legati alle configurazioni danneggiate falliscono.
- Gli altri carichi di lavoro continuano.
- Gli utenti devono rieseguire i lavori falliti.
-
Coinvolgimento dei clienti: Nessuno
Scenario 2: corruzione dello storage persistente
Descrizione: Corruzione dei volumi persistenti.
-
Impatto generale:
- I servizi che utilizzano i PVC sono interessati.
-
Milvus:
- PVC ripristinato dal backup.
- Interruzione temporanea dovuta al fermo dell'ETCD.
- Nessuna perdita di dati.
-
Presto, MDS, Spark:
- Nessun impatto (non utilizzare PVC).
-
Coinvolgimento del cliente: Nessuno
Scenario 3: corruzione di dati o metadati
Descrizione: Corruzione dei dati o dei metadati memorizzati.
-
Impatto generale:
- Interruzioni del servizio durante il recupero.
-
Milvus:
- Metadati ETCD ripristinati dai backup orari.
- Potenziale perdita di 1 ora di metadati.
- Il cliente è responsabile dei backup dello storage vettoriale.
-
Presto:
- Backup point-in-time utilizzati per ripristinare la configurazione e i metadati.
-
MDS, Spark:
- Nessun impatto.
-
Coinvolgimento dei clienti: Nessuno
Scenario 4: Guasto del cluster
Descrizione: Guasto completo del cluster.
-
Milvus:
- Formazione e ripristino dei dati dal backup.
- Possibile perdita di metadati per 1 ora.
- Il cliente è responsabile dei backup dello storage vettoriale.
-
Presto:
- Formazione e ripristino dei dati dal backup.
-
MDS:
- Le chiamate API di bordo non funzionano.
- Interruzione fino al ripristino del cluster o della formazione.
-
Scintilla:
- Tutti i carichi di lavoro in esecuzione falliscono.
- Nessuna perdita di dati.
- SRE ripristina la formazione su un nuovo cluster.
- Gli utenti devono rieseguire i lavori falliti.
-
Coinvolgimento dei clienti: Nessuno
Scenario 5: Interruzione della zona di disponibilità (AZ)
Descrizione: Un AZ diventa indisponibile.
-
Impatto generale:
- Il cluster ha la capacità di migrare i carichi di lavoro.
- I pod vengono riprogrammati automaticamente su AZ sane.
-
Milvus:
- I metadati sono attivi nel piano Enterprise.
- Le interrogazioni in volo falliscono; nessun impatto a lungo termine.
-
Presto:
- Le navette vengono riprogrammate; le interrogazioni a bordo falliscono.
-
MDS:
- Se solo un AZ è inattivo, non c'è alcun impatto.
- Se due o più AZ sono fuori uso, il servizio è compromesso finché non viene ripristinato almeno un AZ.
-
Scintilla:
- I carichi di lavoro con i driver nell'AZ non funzionante falliscono.
- Gli esecutori si riprendono nelle AZ sane.
- Nessun impatto sui carichi di lavoro negli AZ non interessati.
-
Coinvolgimento dei clienti: Nessuno
Scenario 6: catastrofe regionale
Descrizione: L'intera regione diventa non disponibile.
-
Milvus:
- Il cliente prevede una nuova istanza di watsonx.data e una formazione di Milvus in un'altra regione.
- Devono essere utilizzati lo stesso bucket e lo stesso percorso.
- Il cliente condivide i CRN delle formazioni vecchie e nuove.
- SRE ripristina i metadati ETCD.
-
Presto:
- Le disposizioni del cliente per la nuova formazione.
- SRE ripristina i metadati e il DB della console.
-
MDS:
- Se sono abilitati i backup orari di Postgres, ripristinare su una nuova istanza del DB.
- Aggiornare le variabili d'ambiente del pod MDS per puntare al nuovo DB.
- RPO: 1 ora; RTO: 2-3 ore.
- Anche il Console DB e l'AMS DB hanno subito un impatto.
-
Scintilla:
- Tutti i carichi di lavoro in esecuzione falliscono.
- Il cliente crea una nuova istanza di watsonx.data e un motore Spark.
- Nessuna perdita di dati (registri o eventi nell'archivio oggetti).
-
Coinvolgimento del cliente:
- Predisporre nuove formazioni e condividere i CRN.
Milvus utilizza Kafka in modalità attiva-attiva (piano Enterprise), pertanto non è necessario alcun intervento da parte del cliente per il ripristino di Kafka.