IBM Cloud Docs
재해 시나리오 watsonx.data

재해 시나리오 watsonx.data

시나리오 1: Kubernetes 구성 손상

설명: 포메이션의 손상 또는 삭제, ConfigMaps, 비밀 등.

  • 일반적인 영향:

    • SRE는 알림을 수신하고 Kubernetes 구성 또는 포메이션을 복원합니다.
    • 기내 쿼리가 실패하여 일시적인 서비스 중단이 발생합니다.
    • RTO 및 RPO는 SRE로 검토됩니다.
  • Milvus:

    • 기내 쿼리 및 데이터 수집이 실패합니다.
    • SRE는 백업에서 포메이션을 복원합니다.
    • 일시적인 중단, RPO 및 RTO가 업데이트됩니다.
  • Presto:

    • 기내 쿼리 및 수집이 실패합니다.
    • 백업에서 포메이션이 복원되었습니다.
  • MDS:

    • 기내 API 호출이 실패합니다.
    • 포메이션이 복구될 때까지 중단됩니다.
    • 벨레로 백업은 서비스 복원을 보장하지만 드물게 포트 충돌이 발생하면 수동으로 서비스를 수정해야 할 수도 있습니다.
  • Spark:

    • 손상된 구성에 연결된 워크로드만 실패합니다.
    • 다른 워크로드는 계속 진행됩니다.
    • 사용자는 실패한 작업을 다시 실행해야 합니다.
  • 고객 참여: 없음

시나리오 2: 지속적인 스토리지 손상

설명: 영구 볼륨이 손상되었습니다.

  • 일반 영향:

    • PVC를 사용하는 서비스가 영향을 받습니다.
  • Milvus:

    • 백업에서 PVC가 복원되었습니다.
    • ETCD 다운타임으로 인한 일시적인 서비스 중단.
    • 데이터 손실이 없습니다.
  • Presto, MDS, Spark:

    • 충격 없음(PVC를 사용하지 않음).
  • 고객 참여: 없음

시나리오 3: 데이터 또는 메타데이터 손상

설명: 저장된 데이터 또는 메타데이터가 손상되었습니다.

  • 일반적인 영향:

    • 복구 중 서비스 중단.
  • Milvus:

    • 시간별 백업에서 복원된 ETCD 메타데이터.
    • 최대 1시간의 메타데이터가 손실될 수 있습니다.
    • 벡터 스토리지 백업을 담당하는 고객입니다.
  • Presto:

    • 특정 시점 백업은 구성 및 메타데이터를 복원하는 데 사용됩니다.
  • MDS, Spark:

    • 영향은 없습니다.
  • 고객 참여: 없음

시나리오 4: 클러스터 장애

설명: 클러스터가 완전히 실패했습니다.

  • Milvus:

    • 백업에서 복원된 서식 및 데이터.
    • 1시간 동안 메타데이터 손실이 발생할 수 있습니다.
    • 벡터 스토리지 백업을 담당하는 고객입니다.
  • Presto:

    • 백업에서 복원된 서식 및 데이터.
  • MDS:

    • 기내 API 호출이 실패합니다.
    • 클러스터 또는 포메이션이 복구될 때까지 중단됩니다.
  • Spark:

    • 실행 중인 모든 워크로드가 실패합니다.
    • 데이터 손실이 없습니다.
    • SRE는 새 클러스터에서 형성을 복원합니다.
    • 사용자는 실패한 작업을 다시 실행해야 합니다.
  • 고객 참여: 없음

시나리오 5: 가용 영역(AZ) 가동 중단

설명: 하나의 AZ를 사용할 수 없게 됩니다.

  • 일반 영향:

    • 클러스터에는 워크로드를 마이그레이션할 수 있는 용량이 있습니다.
    • 파드는 자동으로 정상 AZ로 스케줄이 변경된다.
  • Milvus:

    • 메타데이터는 엔터프라이즈 요금제에서 활성-활성 상태입니다.
    • 기내 쿼리 실패, 장기적인 영향 없음.
  • Presto:

    • 파드 일정이 변경되고, 인비트로 쿼리가 실패합니다.
  • MDS:

    • AZ가 하나만 다운된 경우 영향이 없습니다.
    • 두 개 이상의 AZ가 다운된 경우 최소 하나의 AZ가 복구될 때까지 서비스가 영향을 받습니다.
  • Spark:

    • 실패한 AZ에 드라이버가 있는 워크로드는 실패합니다.
    • 실행자는 건강한 AZ에서 회복합니다.
    • 영향을 받지 않는 AZ의 워크로드에는 영향을 미치지 않습니다.
  • 고객 참여: 없음

시나리오 6: 지역 재난

설명: 전체 지역을 사용할 수 없게 됩니다.

  • Milvus:

    • 고객이 다른 지역에 새로운 watsonx.data 인스턴스 하우스와 Milvus 형성을 프로비저닝합니다.
    • 동일한 버킷과 경로를 사용해야 합니다.
    • 고객은 기존 및 신규 형성의 CRN을 공유합니다.
    • SRE는 ETCD 메타데이터를 복원합니다.
  • Presto:

    • 고객이 새로운 구성을 제공합니다.
    • SRE는 메타데이터 및 콘솔 DB를 복원합니다.
  • MDS:

    • 시간별 Postgres 백업이 활성화된 경우 새 DB 인스턴스로 복원합니다.
    • 새 DB를 가리키도록 MDS 포드 환경 변수를 업데이트합니다.
    • RPO: 1시간, RTO: 2~3시간.
    • 콘솔 DB와 AMS DB도 영향을 받았습니다.
  • Spark:

    • 실행 중인 모든 워크로드가 실패합니다.
    • 고객이 새 watsonx.data 인스턴스와 Spark 엔진을 프로비저닝합니다.
    • 데이터 손실이 없습니다(개체 저장소의 로그 또는 이벤트).
  • 고객 참여:

    • 새 포메이션을 프로비저닝하고 CRN을 공유하세요.

    Milvus 는 액티브-액티브 모드(엔터프라이즈 요금제)에서 Kafka 를 사용하므로 Kafka 복구를 위해 고객 조치가 필요하지 않습니다.