Scénarios de catastrophes en watsonx.data
Scénario 1 : Kubernetes corruption de la configuration
Description: Corruption ou suppression de formations, ConfigMaps, Secrets, etc.
-
Impact général:
- Le SRE reçoit des alertes et restaure les configurations ou formations Kubernetes.
- Les requêtes en vol échouent, ce qui entraîne une panne temporaire.
- Le RTO et le RPO sont examinés avec le SRE.
-
Milvus:
- Les requêtes en vol et l'ingestion de données échouent.
- Le SRE restaure la formation à partir de la sauvegarde.
- Interruption temporaire; les RPO et RTO sont mis à jour.
-
Presto:
- Les requêtes en vol et l'ingestion échouent.
- Formation restaurée à partir d'une sauvegarde.
-
MDS:
- Les appels à l'API en vol échouent.
- Interruption jusqu'à ce que la formation soit rétablie.
- La sauvegarde Velero assure la restauration du service, mais de rares conflits de ports peuvent nécessiter des modifications manuelles du service.
-
Etincelle:
- Seules les charges de travail liées aux configurations corrompues échouent.
- D'autres charges de travail se poursuivent.
- Les utilisateurs doivent réexécuter les travaux qui ont échoué.
-
Participation des clients: Aucune
Scénario 2 : corruption persistante du stockage
Description: Corruption des volumes persistants.
-
Impact général:
- Les services utilisant des PVC sont affectés.
-
Milvus:
- PVC restauré à partir de la sauvegarde.
- Interruption temporaire due à un temps d'arrêt de l'ETCD.
- Pas de perte de données.
-
Presto mDS, Spark:
- Pas d'impact (ne pas utiliser de PVC).
-
Participation des clients: Aucune
Scénario 3 : corruption de données ou de métadonnées
Description: Corruption des données ou métadonnées stockées.
-
Impact général:
- Interruptions de service pendant le rétablissement.
-
Milvus:
- Métadonnées ETCD restaurées à partir de sauvegardes horaires.
- Perte potentielle d'une heure de métadonnées.
- Le client est responsable des sauvegardes du stockage vectoriel.
-
Presto:
- Sauvegardes ponctuelles utilisées pour restaurer la configuration et les métadonnées.
-
MDS, Spark:
- Aucun impact.
-
Participation des clients: Aucune
Scénario 4 : panne de la grappe
Description: Défaillance complète de la grappe.
-
Milvus:
- Formation et données restaurées à partir de la sauvegarde.
- Perte possible de métadonnées pendant une heure.
- Le client est responsable des sauvegardes du stockage vectoriel.
-
Presto:
- Formation et données restaurées à partir de la sauvegarde.
-
MDS:
- Les appels à l'API en vol échouent.
- Interruption jusqu'à ce que la grappe ou la formation soit rétablie.
-
Etincelle:
- Toutes les charges de travail en cours d'exécution échouent.
- Pas de perte de données.
- SRE restaure la formation sur un nouveau cluster.
- Les utilisateurs doivent réexécuter les travaux qui ont échoué.
-
Participation des clients: Aucune
Scénario 5 : panne de la zone de disponibilité (AZ)
Description: Un AZ devient indisponible.
-
Impact général:
- La grappe a la capacité de migrer les charges de travail.
- Les pods sont automatiquement replanifiés sur des AZ sains.
-
Milvus:
- Les métadonnées sont actives-actives dans le plan d'entreprise.
- Les requêtes à bord des avions échouent; pas d'impact à long terme.
-
Presto:
- Les pods sont reprogrammés; les requêtes à bord échouent.
-
MDS:
- Si un seul AZ est en panne, il n'y a pas d'impact.
- Si deux ou plusieurs AZ sont en panne, le service est affecté jusqu'à ce qu'au moins un AZ soit rétabli.
-
Etincelle:
- Les charges de travail dont les pilotes se trouvent dans l'AZ défaillant échouent.
- Les exécuteurs se rétablissent dans les AZ saines.
- Pas d'impact sur les charges de travail dans les zones non affectées.
-
Participation des clients: Aucune
Scénario 6 : Catastrophe régionale
Description: La région entière devient indisponible.
-
Milvus:
- Le client fournit une nouvelle instance watsonx.data et une formation Milvus dans une autre région.
- Le même seau et le même chemin d'accès doivent être utilisés.
- Le client partage les CRN des anciennes et des nouvelles formations.
- Le SRE restaure les métadonnées ETCD.
-
Presto:
- Dispositions relatives aux clients nouvelle formation.
- Le SRE restaure les métadonnées et la base de données de la console.
-
MDS:
- Si les sauvegardes horaires de Postgres sont activées, restaurer vers une nouvelle instance de la base de données.
- Mettez à jour les variables d'environnement du pod MDS pour qu'elles pointent vers la nouvelle base de données.
- RPO : 1 heure; RTO : 2-3 heures.
- Les bases de données Console et AMS sont également touchées.
-
Etincelle:
- Toutes les charges de travail en cours d'exécution échouent.
- Le client fournit une nouvelle instance watsonx.data et un moteur Spark.
- Aucune perte de données (journaux ou événements dans le magasin d'objets).
-
Participation des clients:
- Fournir de nouvelles formations et partager les CRN.
Milvus utilise Kafka en mode Actif-Actif (plan Entreprise), de sorte qu'aucune action du client n'est nécessaire pour la récupération de Kafka.