IBM Cloud Docs
Scenari di catastrofe in watsonx.data

Scenari di catastrofe in watsonx.data

Scenario 1: corruzione della configurazione di Kubernetes

Descrizione: Corruzione o cancellazione di formazioni, ConfigMaps, Segreti e altro ancora.

  • Impatto generale:

    • SRE riceve gli avvisi e ripristina le configurazioni o le formazioni di Kubernetes.
    • Le interrogazioni di bordo falliscono, causando un'interruzione temporanea.
    • RTO e RPO vengono rivisti con SRE.
  • Milvus:

    • Le query di volo e l'ingestione dei dati falliscono.
    • SRE ripristina la formazione dal backup.
    • Interruzione temporanea; RPO e RTO sono aggiornati.
  • Presto:

    • Le query e l'ingestione durante il volo falliscono.
    • Formazione ripristinata dal backup.
  • MDS:

    • Le chiamate API di bordo non funzionano.
    • Interruzione fino al ripristino della formazione.
    • Il backup di Velero garantisce il ripristino del servizio, ma i rari conflitti tra le porte potrebbero richiedere modifiche manuali del servizio.
  • Scintilla:

    • Solo i carichi di lavoro legati alle configurazioni danneggiate falliscono.
    • Gli altri carichi di lavoro continuano.
    • Gli utenti devono rieseguire i lavori falliti.
  • Coinvolgimento dei clienti: Nessuno

Scenario 2: corruzione dello storage persistente

Descrizione: Corruzione dei volumi persistenti.

  • Impatto generale:

    • I servizi che utilizzano i PVC sono interessati.
  • Milvus:

    • PVC ripristinato dal backup.
    • Interruzione temporanea dovuta al fermo dell'ETCD.
    • Nessuna perdita di dati.
  • Presto, MDS, Spark:

    • Nessun impatto (non utilizzare PVC).
  • Coinvolgimento del cliente: Nessuno

Scenario 3: corruzione di dati o metadati

Descrizione: Corruzione dei dati o dei metadati memorizzati.

  • Impatto generale:

    • Interruzioni del servizio durante il recupero.
  • Milvus:

    • Metadati ETCD ripristinati dai backup orari.
    • Potenziale perdita di 1 ora di metadati.
    • Il cliente è responsabile dei backup dello storage vettoriale.
  • Presto:

    • Backup point-in-time utilizzati per ripristinare la configurazione e i metadati.
  • MDS, Spark:

    • Nessun impatto.
  • Coinvolgimento dei clienti: Nessuno

Scenario 4: Guasto del cluster

Descrizione: Guasto completo del cluster.

  • Milvus:

    • Formazione e ripristino dei dati dal backup.
    • Possibile perdita di metadati per 1 ora.
    • Il cliente è responsabile dei backup dello storage vettoriale.
  • Presto:

    • Formazione e ripristino dei dati dal backup.
  • MDS:

    • Le chiamate API di bordo non funzionano.
    • Interruzione fino al ripristino del cluster o della formazione.
  • Scintilla:

    • Tutti i carichi di lavoro in esecuzione falliscono.
    • Nessuna perdita di dati.
    • SRE ripristina la formazione su un nuovo cluster.
    • Gli utenti devono rieseguire i lavori falliti.
  • Coinvolgimento dei clienti: Nessuno

Scenario 5: Interruzione della zona di disponibilità (AZ)

Descrizione: Un AZ diventa indisponibile.

  • Impatto generale:

    • Il cluster ha la capacità di migrare i carichi di lavoro.
    • I pod vengono riprogrammati automaticamente su AZ sane.
  • Milvus:

    • I metadati sono attivi nel piano Enterprise.
    • Le interrogazioni in volo falliscono; nessun impatto a lungo termine.
  • Presto:

    • Le navette vengono riprogrammate; le interrogazioni a bordo falliscono.
  • MDS:

    • Se solo un AZ è inattivo, non c'è alcun impatto.
    • Se due o più AZ sono fuori uso, il servizio è compromesso finché non viene ripristinato almeno un AZ.
  • Scintilla:

    • I carichi di lavoro con i driver nell'AZ non funzionante falliscono.
    • Gli esecutori si riprendono nelle AZ sane.
    • Nessun impatto sui carichi di lavoro negli AZ non interessati.
  • Coinvolgimento dei clienti: Nessuno

Scenario 6: catastrofe regionale

Descrizione: L'intera regione diventa non disponibile.

  • Milvus:

    • Il cliente prevede una nuova istanza di watsonx.data e una formazione di Milvus in un'altra regione.
    • Devono essere utilizzati lo stesso bucket e lo stesso percorso.
    • Il cliente condivide i CRN delle formazioni vecchie e nuove.
    • SRE ripristina i metadati ETCD.
  • Presto:

    • Le disposizioni del cliente per la nuova formazione.
    • SRE ripristina i metadati e il DB della console.
  • MDS:

    • Se sono abilitati i backup orari di Postgres, ripristinare su una nuova istanza del DB.
    • Aggiornare le variabili d'ambiente del pod MDS per puntare al nuovo DB.
    • RPO: 1 ora; RTO: 2-3 ore.
    • Anche il Console DB e l'AMS DB hanno subito un impatto.
  • Scintilla:

    • Tutti i carichi di lavoro in esecuzione falliscono.
    • Il cliente crea una nuova istanza di watsonx.data e un motore Spark.
    • Nessuna perdita di dati (registri o eventi nell'archivio oggetti).
  • Coinvolgimento del cliente:

    • Predisporre nuove formazioni e condividere i CRN.

    Milvus utilizza Kafka in modalità attiva-attiva (piano Enterprise), pertanto non è necessario alcun intervento da parte del cliente per il ripristino di Kafka.