Scénarios de catastrophes en watsonx.data

Scénario 1 : Kubernetes corruption de la configuration

Description: Corruption ou suppression de formations, ConfigMaps, Secrets, etc.

Impact général:
- Le SRE reçoit des alertes et restaure les configurations ou formations Kubernetes.
- Les requêtes en vol échouent, ce qui entraîne une panne temporaire.
- Le RTO et le RPO sont examinés avec le SRE.
Milvus:
- Les requêtes en vol et l'ingestion de données échouent.
- Le SRE restaure la formation à partir de la sauvegarde.
- Interruption temporaire; les RPO et RTO sont mis à jour.
Presto:
- Les requêtes en vol et l'ingestion échouent.
- Formation restaurée à partir d'une sauvegarde.
MDS:
- Les appels à l'API en vol échouent.
- Interruption jusqu'à ce que la formation soit rétablie.
- La sauvegarde Velero assure la restauration du service, mais de rares conflits de ports peuvent nécessiter des modifications manuelles du service.
Etincelle:
- Seules les charges de travail liées aux configurations corrompues échouent.
- D'autres charges de travail se poursuivent.
- Les utilisateurs doivent réexécuter les travaux qui ont échoué.
Participation des clients: Aucune

Description: Corruption des volumes persistants.

Impact général:
- Les services utilisant des PVC sont affectés.
Milvus:
- PVC restauré à partir de la sauvegarde.
- Interruption temporaire due à un temps d'arrêt de l'ETCD.
- Pas de perte de données.
Presto mDS, Spark:
- Pas d'impact (ne pas utiliser de PVC).
Participation des clients: Aucune

Description: Corruption des données ou métadonnées stockées.

Impact général:
- Interruptions de service pendant le rétablissement.
Milvus:
- Métadonnées ETCD restaurées à partir de sauvegardes horaires.
- Perte potentielle d'une heure de métadonnées.
- Le client est responsable des sauvegardes du stockage vectoriel.
Presto:
- Sauvegardes ponctuelles utilisées pour restaurer la configuration et les métadonnées.
MDS, Spark:
- Aucun impact.
Participation des clients: Aucune

Description: Défaillance complète de la grappe.

Milvus:
- Formation et données restaurées à partir de la sauvegarde.
- Perte possible de métadonnées pendant une heure.
- Le client est responsable des sauvegardes du stockage vectoriel.
Presto:
- Formation et données restaurées à partir de la sauvegarde.
MDS:
- Les appels à l'API en vol échouent.
- Interruption jusqu'à ce que la grappe ou la formation soit rétablie.
Etincelle:
- Toutes les charges de travail en cours d'exécution échouent.
- Pas de perte de données.
- SRE restaure la formation sur un nouveau cluster.
- Les utilisateurs doivent réexécuter les travaux qui ont échoué.
Participation des clients: Aucune

Description: Un AZ devient indisponible.

Impact général:
- La grappe a la capacité de migrer les charges de travail.
- Les pods sont automatiquement replanifiés sur des AZ sains.
Milvus:
- Les métadonnées sont actives-actives dans le plan d'entreprise.
- Les requêtes à bord des avions échouent; pas d'impact à long terme.
Presto:
- Les pods sont reprogrammés; les requêtes à bord échouent.
MDS:
- Si un seul AZ est en panne, il n'y a pas d'impact.
- Si deux ou plusieurs AZ sont en panne, le service est affecté jusqu'à ce qu'au moins un AZ soit rétabli.
Etincelle:
- Les charges de travail dont les pilotes se trouvent dans l'AZ défaillant échouent.
- Les exécuteurs se rétablissent dans les AZ saines.
- Pas d'impact sur les charges de travail dans les zones non affectées.
Participation des clients: Aucune

Description: La région entière devient indisponible.

Milvus:
- Le client fournit une nouvelle instance watsonx.data et une formation Milvus dans une autre région.
- Le même seau et le même chemin d'accès doivent être utilisés.
- Le client partage les CRN des anciennes et des nouvelles formations.
- Le SRE restaure les métadonnées ETCD.
Presto:
- Dispositions relatives aux clients nouvelle formation.
- Le SRE restaure les métadonnées et la base de données de la console.
MDS:
- Si les sauvegardes horaires de Postgres sont activées, restaurer vers une nouvelle instance de la base de données.
- Mettez à jour les variables d'environnement du pod MDS pour qu'elles pointent vers la nouvelle base de données.
- RPO : 1 heure; RTO : 2-3 heures.
- Les bases de données Console et AMS sont également touchées.
Etincelle:
- Toutes les charges de travail en cours d'exécution échouent.
- Le client fournit une nouvelle instance watsonx.data et un moteur Spark.
- Aucune perte de données (journaux ou événements dans le magasin d'objets).
Participation des clients:
- Fournir de nouvelles formations et partager les CRN.
Milvus utilise Kafka en mode Actif-Actif (plan Entreprise), de sorte qu'aucune action du client n'est nécessaire pour la récupération de Kafka.