Cenários de desastres em watsonx.data

Cenário 1: Kubernetes corrupção de configuração

Descrição: Corrupção ou exclusão de formações, ConfigMaps, Secrets e muito mais.

Impacto geral:
- O SRE recebe alertas e restaura as configurações ou formações do Kubernetes.
- As consultas a bordo falham, resultando em uma interrupção temporária.
- O RTO e o RPO são revisados com o SRE.
Milvus:
- As consultas durante o voo e a ingestão de dados falham.
- O SRE restaura a formação a partir do backup.
- Interrupção temporária; RPO e RTO são atualizados.
Presto:
- As consultas e a ingestão durante o voo falham.
- Formação restaurada a partir do backup.
MDS:
- Falha nas chamadas de API a bordo.
- Interrupção até que a formação seja restaurada.
- O backup do Velero garante a restauração do serviço, mas raros conflitos de porta podem exigir edições manuais do serviço.
Spark:
- Somente as cargas de trabalho vinculadas a configurações corrompidas falham.
- Outras cargas de trabalho continuam.
- Os usuários devem executar novamente os trabalhos com falha.
Envolvimento do cliente: Nenhum

Descrição: Corrupção de volumes persistentes.

Impacto geral:
- Os serviços que usam PVCs são afetados.
Milvus:
- PVC restaurado do backup.
- Interrupção temporária devido ao tempo de inatividade do ETCD.
- Sem perda de dados.
Presto, MDS, Spark:
- Sem impacto (não use PVCs).
Envolvimento do cliente: Nenhum

Descrição: Corrupção de dados ou metadados armazenados.

Impacto geral:
- Interrupções de serviço durante a recuperação.
Milvus:
- Metadados do ETCD restaurados a partir de backups de hora em hora.
- Possível perda de até 1 hora de metadados.
- O cliente é responsável pelos backups do armazenamento de vetores.
Presto:
- Backups pontuais usados para restaurar a configuração e os metadados.
MDS, Spark:
- Nenhum impacto.
Envolvimento do cliente: Nenhum

Descrição: Falha completa do cluster.

Milvus:
- Formação e dados restaurados a partir do backup.
- Possível perda de metadados de 1 hora.
- O cliente é responsável pelos backups do armazenamento de vetores.
Presto:
- Formação e dados restaurados a partir do backup.
MDS:
- Falha nas chamadas de API a bordo.
- Interrupção até que o cluster ou a formação seja restaurada.
Spark:
- Todas as cargas de trabalho em execução falham.
- Sem perda de dados.
- O SRE restaura a formação em um novo cluster.
- Os usuários devem executar novamente os trabalhos com falha.
Envolvimento do cliente: Nenhum

Descrição: Um AZ fica indisponível.

Impacto geral:
- O cluster tem capacidade para migrar cargas de trabalho.
- Os pods são automaticamente reprogramados para AZs saudáveis.
Milvus:
- Os metadados são Active-Active no plano Enterprise.
- As consultas a bordo falham; não há impacto a longo prazo.
Presto:
- Pods reprogramados; as consultas a bordo falham.
MDS:
- Se apenas um AZ estiver inativo, não haverá impacto.
- Se dois ou mais AZs estiverem inativos, o serviço será afetado até que pelo menos um AZ seja restaurado.
Spark:
- As cargas de trabalho com drivers na AZ com falha falham.
- Os executores se recuperam em AZs saudáveis.
- Nenhum impacto sobre as cargas de trabalho em AZs não afetadas.
Envolvimento do cliente: Nenhum

Descrição: Toda a região fica indisponível.

Milvus:
- O cliente fornece uma nova casa de instância watsonx.data e uma formação Milvus em outra região.
- O mesmo bucket e caminho devem ser usados.
- O cliente compartilha CRNs de formações antigas e novas.
- O SRE restaura os metadados do ETCD.
Presto:
- Provisões para clientes com nova formação.
- O SRE restaura os metadados e o banco de dados do console.
MDS:
- Se os backups Postgres de hora em hora estiverem ativados, restaure em uma nova instância de BD.
- Atualize as variáveis de ambiente do pod MDS para apontar para o novo banco de dados.
- RPO: 1 hora; RTO: 2-3 horas.
- O BD do console e o BD do AMS também foram afetados.
Spark:
- Todas as cargas de trabalho em execução falham.
- O cliente provisiona uma nova instância do watsonx.data e um mecanismo Spark.
- Sem perda de dados (registros ou eventos no armazenamento de objetos).
Envolvimento do cliente:
- Provisione novas formações e compartilhe CRNs.
Milvus usa o Kafka no modo Active-Active (plano Enterprise), portanto, nenhuma ação do cliente é necessária para a recuperação do Kafka.