재해 시나리오 watsonx.data
시나리오 1: Kubernetes 구성 손상
설명: 포메이션의 손상 또는 삭제, ConfigMaps, 비밀 등.
-
일반적인 영향:
- SRE는 알림을 수신하고 Kubernetes 구성 또는 포메이션을 복원합니다.
- 기내 쿼리가 실패하여 일시적인 서비스 중단이 발생합니다.
- RTO 및 RPO는 SRE로 검토됩니다.
-
Milvus:
- 기내 쿼리 및 데이터 수집이 실패합니다.
- SRE는 백업에서 포메이션을 복원합니다.
- 일시적인 중단, RPO 및 RTO가 업데이트됩니다.
-
Presto:
- 기내 쿼리 및 수집이 실패합니다.
- 백업에서 포메이션이 복원되었습니다.
-
MDS:
- 기내 API 호출이 실패합니다.
- 포메이션이 복구될 때까지 중단됩니다.
- 벨레로 백업은 서비스 복원을 보장하지만 드물게 포트 충돌이 발생하면 수동으로 서비스를 수정해야 할 수도 있습니다.
-
Spark:
- 손상된 구성에 연결된 워크로드만 실패합니다.
- 다른 워크로드는 계속 진행됩니다.
- 사용자는 실패한 작업을 다시 실행해야 합니다.
-
고객 참여: 없음
시나리오 2: 지속적인 스토리지 손상
설명: 영구 볼륨이 손상되었습니다.
-
일반 영향:
- PVC를 사용하는 서비스가 영향을 받습니다.
-
Milvus:
- 백업에서 PVC가 복원되었습니다.
- ETCD 다운타임으로 인한 일시적인 서비스 중단.
- 데이터 손실이 없습니다.
-
Presto, MDS, Spark:
- 충격 없음(PVC를 사용하지 않음).
-
고객 참여: 없음
시나리오 3: 데이터 또는 메타데이터 손상
설명: 저장된 데이터 또는 메타데이터가 손상되었습니다.
-
일반적인 영향:
- 복구 중 서비스 중단.
-
Milvus:
- 시간별 백업에서 복원된 ETCD 메타데이터.
- 최대 1시간의 메타데이터가 손실될 수 있습니다.
- 벡터 스토리지 백업을 담당하는 고객입니다.
-
Presto:
- 특정 시점 백업은 구성 및 메타데이터를 복원하는 데 사용됩니다.
-
MDS, Spark:
- 영향은 없습니다.
-
고객 참여: 없음
시나리오 4: 클러스터 장애
설명: 클러스터가 완전히 실패했습니다.
-
Milvus:
- 백업에서 복원된 서식 및 데이터.
- 1시간 동안 메타데이터 손실이 발생할 수 있습니다.
- 벡터 스토리지 백업을 담당하는 고객입니다.
-
Presto:
- 백업에서 복원된 서식 및 데이터.
-
MDS:
- 기내 API 호출이 실패합니다.
- 클러스터 또는 포메이션이 복구될 때까지 중단됩니다.
-
Spark:
- 실행 중인 모든 워크로드가 실패합니다.
- 데이터 손실이 없습니다.
- SRE는 새 클러스터에서 형성을 복원합니다.
- 사용자는 실패한 작업을 다시 실행해야 합니다.
-
고객 참여: 없음
시나리오 5: 가용 영역(AZ) 가동 중단
설명: 하나의 AZ를 사용할 수 없게 됩니다.
-
일반 영향:
- 클러스터에는 워크로드를 마이그레이션할 수 있는 용량이 있습니다.
- 파드는 자동으로 정상 AZ로 스케줄이 변경된다.
-
Milvus:
- 메타데이터는 엔터프라이즈 요금제에서 활성-활성 상태입니다.
- 기내 쿼리 실패, 장기적인 영향 없음.
-
Presto:
- 파드 일정이 변경되고, 인비트로 쿼리가 실패합니다.
-
MDS:
- AZ가 하나만 다운된 경우 영향이 없습니다.
- 두 개 이상의 AZ가 다운된 경우 최소 하나의 AZ가 복구될 때까지 서비스가 영향을 받습니다.
-
Spark:
- 실패한 AZ에 드라이버가 있는 워크로드는 실패합니다.
- 실행자는 건강한 AZ에서 회복합니다.
- 영향을 받지 않는 AZ의 워크로드에는 영향을 미치지 않습니다.
-
고객 참여: 없음
시나리오 6: 지역 재난
설명: 전체 지역을 사용할 수 없게 됩니다.
-
Milvus:
- 고객이 다른 지역에 새로운 watsonx.data 인스턴스 하우스와 Milvus 형성을 프로비저닝합니다.
- 동일한 버킷과 경로를 사용해야 합니다.
- 고객은 기존 및 신규 형성의 CRN을 공유합니다.
- SRE는 ETCD 메타데이터를 복원합니다.
-
Presto:
- 고객이 새로운 구성을 제공합니다.
- SRE는 메타데이터 및 콘솔 DB를 복원합니다.
-
MDS:
- 시간별 Postgres 백업이 활성화된 경우 새 DB 인스턴스로 복원합니다.
- 새 DB를 가리키도록 MDS 포드 환경 변수를 업데이트합니다.
- RPO: 1시간, RTO: 2~3시간.
- 콘솔 DB와 AMS DB도 영향을 받았습니다.
-
Spark:
- 실행 중인 모든 워크로드가 실패합니다.
- 고객이 새 watsonx.data 인스턴스와 Spark 엔진을 프로비저닝합니다.
- 데이터 손실이 없습니다(개체 저장소의 로그 또는 이벤트).
-
고객 참여:
- 새 포메이션을 프로비저닝하고 CRN을 공유하세요.
Milvus 는 액티브-액티브 모드(엔터프라이즈 요금제)에서 Kafka 를 사용하므로 Kafka 복구를 위해 고객 조치가 필요하지 않습니다.