IBM Cloud Docs
Cenários de desastres em watsonx.data

Cenários de desastres em watsonx.data

Cenário 1: Kubernetes corrupção de configuração

Descrição: Corrupção ou exclusão de formações, ConfigMaps, Secrets e muito mais.

  • Impacto geral:

    • O SRE recebe alertas e restaura as configurações ou formações do Kubernetes.
    • As consultas a bordo falham, resultando em uma interrupção temporária.
    • O RTO e o RPO são revisados com o SRE.
  • Milvus:

    • As consultas durante o voo e a ingestão de dados falham.
    • O SRE restaura a formação a partir do backup.
    • Interrupção temporária; RPO e RTO são atualizados.
  • Presto:

    • As consultas e a ingestão durante o voo falham.
    • Formação restaurada a partir do backup.
  • MDS:

    • Falha nas chamadas de API a bordo.
    • Interrupção até que a formação seja restaurada.
    • O backup do Velero garante a restauração do serviço, mas raros conflitos de porta podem exigir edições manuais do serviço.
  • Spark:

    • Somente as cargas de trabalho vinculadas a configurações corrompidas falham.
    • Outras cargas de trabalho continuam.
    • Os usuários devem executar novamente os trabalhos com falha.
  • Envolvimento do cliente: Nenhum

Cenário 2: corrupção persistente do armazenamento

Descrição: Corrupção de volumes persistentes.

  • Impacto geral:

    • Os serviços que usam PVCs são afetados.
  • Milvus:

    • PVC restaurado do backup.
    • Interrupção temporária devido ao tempo de inatividade do ETCD.
    • Sem perda de dados.
  • Presto, MDS, Spark:

    • Sem impacto (não use PVCs).
  • Envolvimento do cliente: Nenhum

Cenário 3: corrupção de dados ou metadados

Descrição: Corrupção de dados ou metadados armazenados.

  • Impacto geral:

    • Interrupções de serviço durante a recuperação.
  • Milvus:

    • Metadados do ETCD restaurados a partir de backups de hora em hora.
    • Possível perda de até 1 hora de metadados.
    • O cliente é responsável pelos backups do armazenamento de vetores.
  • Presto:

    • Backups pontuais usados para restaurar a configuração e os metadados.
  • MDS, Spark:

    • Nenhum impacto.
  • Envolvimento do cliente: Nenhum

Cenário 4: Falha no cluster

Descrição: Falha completa do cluster.

  • Milvus:

    • Formação e dados restaurados a partir do backup.
    • Possível perda de metadados de 1 hora.
    • O cliente é responsável pelos backups do armazenamento de vetores.
  • Presto:

    • Formação e dados restaurados a partir do backup.
  • MDS:

    • Falha nas chamadas de API a bordo.
    • Interrupção até que o cluster ou a formação seja restaurada.
  • Spark:

    • Todas as cargas de trabalho em execução falham.
    • Sem perda de dados.
    • O SRE restaura a formação em um novo cluster.
    • Os usuários devem executar novamente os trabalhos com falha.
  • Envolvimento do cliente: Nenhum

Cenário 5: interrupção da zona de disponibilidade (AZ)

Descrição: Um AZ fica indisponível.

  • Impacto geral:

    • O cluster tem capacidade para migrar cargas de trabalho.
    • Os pods são automaticamente reprogramados para AZs saudáveis.
  • Milvus:

    • Os metadados são Active-Active no plano Enterprise.
    • As consultas a bordo falham; não há impacto a longo prazo.
  • Presto:

    • Pods reprogramados; as consultas a bordo falham.
  • MDS:

    • Se apenas um AZ estiver inativo, não haverá impacto.
    • Se dois ou mais AZs estiverem inativos, o serviço será afetado até que pelo menos um AZ seja restaurado.
  • Spark:

    • As cargas de trabalho com drivers na AZ com falha falham.
    • Os executores se recuperam em AZs saudáveis.
    • Nenhum impacto sobre as cargas de trabalho em AZs não afetadas.
  • Envolvimento do cliente: Nenhum

Cenário 6: Desastre regional

Descrição: Toda a região fica indisponível.

  • Milvus:

    • O cliente fornece uma nova casa de instância watsonx.data e uma formação Milvus em outra região.
    • O mesmo bucket e caminho devem ser usados.
    • O cliente compartilha CRNs de formações antigas e novas.
    • O SRE restaura os metadados do ETCD.
  • Presto:

    • Provisões para clientes com nova formação.
    • O SRE restaura os metadados e o banco de dados do console.
  • MDS:

    • Se os backups Postgres de hora em hora estiverem ativados, restaure em uma nova instância de BD.
    • Atualize as variáveis de ambiente do pod MDS para apontar para o novo banco de dados.
    • RPO: 1 hora; RTO: 2-3 horas.
    • O BD do console e o BD do AMS também foram afetados.
  • Spark:

    • Todas as cargas de trabalho em execução falham.
    • O cliente provisiona uma nova instância do watsonx.data e um mecanismo Spark.
    • Sem perda de dados (registros ou eventos no armazenamento de objetos).
  • Envolvimento do cliente:

    • Provisione novas formações e compartilhe CRNs.

    Milvus usa o Kafka no modo Active-Active (plano Enterprise), portanto, nenhuma ação do cliente é necessária para a recuperação do Kafka.