IBM Cloud Docs
Scénarios de catastrophes en watsonx.data

Scénarios de catastrophes en watsonx.data

Scénario 1 : Kubernetes corruption de la configuration

Description: Corruption ou suppression de formations, ConfigMaps, Secrets, etc.

  • Impact général:

    • Le SRE reçoit des alertes et restaure les configurations ou formations Kubernetes.
    • Les requêtes en vol échouent, ce qui entraîne une panne temporaire.
    • Le RTO et le RPO sont examinés avec le SRE.
  • Milvus:

    • Les requêtes en vol et l'ingestion de données échouent.
    • Le SRE restaure la formation à partir de la sauvegarde.
    • Interruption temporaire; les RPO et RTO sont mis à jour.
  • Presto:

    • Les requêtes en vol et l'ingestion échouent.
    • Formation restaurée à partir d'une sauvegarde.
  • MDS:

    • Les appels à l'API en vol échouent.
    • Interruption jusqu'à ce que la formation soit rétablie.
    • La sauvegarde Velero assure la restauration du service, mais de rares conflits de ports peuvent nécessiter des modifications manuelles du service.
  • Etincelle:

    • Seules les charges de travail liées aux configurations corrompues échouent.
    • D'autres charges de travail se poursuivent.
    • Les utilisateurs doivent réexécuter les travaux qui ont échoué.
  • Participation des clients: Aucune

Scénario 2 : corruption persistante du stockage

Description: Corruption des volumes persistants.

  • Impact général:

    • Les services utilisant des PVC sont affectés.
  • Milvus:

    • PVC restauré à partir de la sauvegarde.
    • Interruption temporaire due à un temps d'arrêt de l'ETCD.
    • Pas de perte de données.
  • Presto mDS, Spark:

    • Pas d'impact (ne pas utiliser de PVC).
  • Participation des clients: Aucune

Scénario 3 : corruption de données ou de métadonnées

Description: Corruption des données ou métadonnées stockées.

  • Impact général:

    • Interruptions de service pendant le rétablissement.
  • Milvus:

    • Métadonnées ETCD restaurées à partir de sauvegardes horaires.
    • Perte potentielle d'une heure de métadonnées.
    • Le client est responsable des sauvegardes du stockage vectoriel.
  • Presto:

    • Sauvegardes ponctuelles utilisées pour restaurer la configuration et les métadonnées.
  • MDS, Spark:

    • Aucun impact.
  • Participation des clients: Aucune

Scénario 4 : panne de la grappe

Description: Défaillance complète de la grappe.

  • Milvus:

    • Formation et données restaurées à partir de la sauvegarde.
    • Perte possible de métadonnées pendant une heure.
    • Le client est responsable des sauvegardes du stockage vectoriel.
  • Presto:

    • Formation et données restaurées à partir de la sauvegarde.
  • MDS:

    • Les appels à l'API en vol échouent.
    • Interruption jusqu'à ce que la grappe ou la formation soit rétablie.
  • Etincelle:

    • Toutes les charges de travail en cours d'exécution échouent.
    • Pas de perte de données.
    • SRE restaure la formation sur un nouveau cluster.
    • Les utilisateurs doivent réexécuter les travaux qui ont échoué.
  • Participation des clients: Aucune

Scénario 5 : panne de la zone de disponibilité (AZ)

Description: Un AZ devient indisponible.

  • Impact général:

    • La grappe a la capacité de migrer les charges de travail.
    • Les pods sont automatiquement replanifiés sur des AZ sains.
  • Milvus:

    • Les métadonnées sont actives-actives dans le plan d'entreprise.
    • Les requêtes à bord des avions échouent; pas d'impact à long terme.
  • Presto:

    • Les pods sont reprogrammés; les requêtes à bord échouent.
  • MDS:

    • Si un seul AZ est en panne, il n'y a pas d'impact.
    • Si deux ou plusieurs AZ sont en panne, le service est affecté jusqu'à ce qu'au moins un AZ soit rétabli.
  • Etincelle:

    • Les charges de travail dont les pilotes se trouvent dans l'AZ défaillant échouent.
    • Les exécuteurs se rétablissent dans les AZ saines.
    • Pas d'impact sur les charges de travail dans les zones non affectées.
  • Participation des clients: Aucune

Scénario 6 : Catastrophe régionale

Description: La région entière devient indisponible.

  • Milvus:

    • Le client fournit une nouvelle instance watsonx.data et une formation Milvus dans une autre région.
    • Le même seau et le même chemin d'accès doivent être utilisés.
    • Le client partage les CRN des anciennes et des nouvelles formations.
    • Le SRE restaure les métadonnées ETCD.
  • Presto:

    • Dispositions relatives aux clients nouvelle formation.
    • Le SRE restaure les métadonnées et la base de données de la console.
  • MDS:

    • Si les sauvegardes horaires de Postgres sont activées, restaurer vers une nouvelle instance de la base de données.
    • Mettez à jour les variables d'environnement du pod MDS pour qu'elles pointent vers la nouvelle base de données.
    • RPO : 1 heure; RTO : 2-3 heures.
    • Les bases de données Console et AMS sont également touchées.
  • Etincelle:

    • Toutes les charges de travail en cours d'exécution échouent.
    • Le client fournit une nouvelle instance watsonx.data et un moteur Spark.
    • Aucune perte de données (journaux ou événements dans le magasin d'objets).
  • Participation des clients:

    • Fournir de nouvelles formations et partager les CRN.

    Milvus utilise Kafka en mode Actif-Actif (plan Entreprise), de sorte qu'aucune action du client n'est nécessaire pour la récupération de Kafka.