IBM Cloud® Object Storage에 대한 고가용성 및 재해 복구 이해

고가용성서비스 또는 작업 부하가 장애를 견디고 사전 정의된 서비스 수준에 따라 처리 기능을 계속 제공할 수 있는 능력. 서비스의 경우, 가용성은 서비스 수준 협약에 정의되어 있습니다. 가용성에는 유지보수, 고장, 재해 등 계획된 이벤트와 계획되지 않은 이벤트가 모두 포함됩니다. (HA)은 예기치 않은 장애가 발생하더라도 서비스가 계속 작동하고 액세스할 수 있는 기능입니다.
재해 복구는서비스 중단과 같은 드물지만 심각한 사고와 광범위한 장애로부터 복구할 수 있는 서비스 또는 작업량 능력. 여기에는 전체 지역에 영향을 미치는 물리적 재해, 데이터베이스 손상, 또는 작업 부하에 기여하는 서비스의 손실이 포함됩니다. 이 영향은 고가용성 설계가 처리할 수 있는 능력을 초과합니다. 서비스 인스턴스를 작동 상태로 복구하는 프로세스입니다.

{ IBM Cloud Object Storage 고가용성을 유지하면서 스토리지 데이터 복원력을 구성할 수 있는 글로벌 서비스입니다. 자세한 내용은 서비스 수준 계약(SLA) 을 참조하세요. 사용 가능한 지역 및 데이터 센터 위치는 서비스에서, 인프라 가용성은 현지 문서에서 확인할 수 있습니다.

고가용성 아키텍처

Object Storage 글로벌 서비스이며 스토리지 복원력을 구성할 수 있습니다. 버킷의 복원력은 버킷을 만드는 데 사용된 엔드포인트(예: 교차 지역, 지역 및 단일 사이트)에 따라 정의됩니다.

지역 간 복원력은 데이터를 여러 대도시 지역에 분산 저장합니다
지역 복원력은 단일 대도시권에 걸쳐 데이터를 분산할 것이다
단일 데이터 센터 복원력은 단일 데이터 센터 내 여러 어플라이언스에 데이터를 분산합니다

지역 및 지역 간 버킷은 구성 변경 없이도 사이트 또는 영역 중단 시 가용성을 유지할 수 있으므로 고가용성을 위해 워크로드를 구성할 때 이러한 스토리지 버킷 복원력 설정을 사용하는 것이 좋습니다. 단일 사이트에 저장된 데이터는 여전히 여러 물리적 스토리지 어플라이언스에 분산되어 있지만, 존 지원 없이 단일 데이터 센터 내에 포함됩니다.

고가용성 기능

{ Object Storage 장애 발생 시 고가용성을 계획하는 데 도움이 되는 다음과 같은 기능을 제공합니다:

Object Storage 대한 HA 기능
기능	설명	고려사항
스토리지 버킷 복원력	고객 데이터에 대한 특정 복원력 옵션을 구성할 수 있습니다.	지역 엔드포인트에서 생성된 Object Storage 버킷은 대도시 지역에 포함된 3개 이상의 영역에 데이터를 배포합니다. 이러한 구역 중 어느 하나라도 가동 중단이나 심지어 파괴를 겪더라도 가용성에 영향을 미치지 않습니다. 크로스 리전 엔드포인트에서 생성된 버킷은 지리적 위치 내 세 개의 리전에 데이터를 분산 저장합니다. 이러한 지역 중 하나에서 가동 중단 또는 심지어 파괴가 발생하는 경우에도 가용성에는 영향을 주지 않습니다. 요청은 글로벌 서버 부하 분산(GSLB)을 사용하여 가장 가까운 지역 간 대도시 지역으로 라우팅됩니다. 자세한 내용은 엔드포인트 및 저장소 위치를 참조하세요.
복제	복제는 새로 만든 개체와 개체 업데이트를 소스 버킷에서 대상 버킷으로 복사하고, 개체의 자동 비동기 복사에 대한 규칙을 정의할 수 있습니다.	재해 발생 시 사용할 수 있는 백업 사본을 확보하려면 복제를 구성하고 설정하는 것이 좋습니다. 복제 이벤트 추적에 대해 자세히 알아보세요.

재해 복구 아키텍처

지역 간, 지역 및 단일 사이트 버킷은 특정 재해 시나리오에 대해 다양한 수준의 허용 오차를 제공합니다. 비즈니스의 재해 복구 요구사항에 따라 버킷에 적합한 복원력 모델을 선택하세요. 데이터 센터 또는 지역 단위의 많은 재해 시나리오에서 IBM 서비스 및 관련 콘텐츠의 복구 시간을 1시간의 RPO로 24시간 이내로 목표할 계획입니다.

고객이 복구 시간을 개선하기 위해 추가 옵션 아키텍처를 구현할 수 있습니다.

예를 들어, 원본 데이터를 복원할 수 없는 COS 지역이 완전히 중단되는 경우에 대비하여 대체 지역에 복제 버킷을 생성하여 복구할 수 있습니다. 영향을 받은 지역이나 서비스가 복구될 때까지 IBM Cloud 기다리는 것도 유효한 방법이지만, 재해 시나리오에 따라 몇 시간 이상 걸릴 수 있고 데이터 손실이 발생할 수 있습니다.

복제된 버킷은 프로덕션 버킷을 미러링하되 지역 서비스에 대한 참조가 업데이트되도록 구성할 수 있습니다. 예를 들어 Key Protect 사용하는 경우, 마드리드에 복제된 버킷은 마드리드 Key Protect 인스턴스에 저장된 루트 키를 참조해야 합니다. 재해 시나리오에서 IBM 해당 지역을 완전히 복구할 때까지 기다릴 수 없는 경우, 고객은 복제된 버킷에 원본 데이터의 백업 복사본을 소스 버킷에 다시 채워 넣을 수 있습니다. 또는 고객은 중단 전에 복제 규칙을 설정하여 소스 버킷과 복제된 버킷 간에 데이터를 동기화할 수 있습니다. 최고 수준의 복원력을 위해 이러한 복제 버킷은 재해가 발생하기 전에(잠재적인 재해가 발생하기 전에) 생성하고 복제를 사용하는 소스 버킷과 동기화 상태를 유지해야 합니다. 오브젝트 복제 기능의 사용은 소스 버킷의 복원력 모델 및 전반적인 비즈니스 재해 복구 목표와 함께 고려해야 합니다.

복구 지역으로의 복구를 계획합니다. 복제된 버킷은 IBM Cloud 내의 워크로드 재해 복구 접근 방식과 일치해야 합니다. 재해가 프로덕션 소스 버킷의 구성이나 가용성에 영향을 미치지 않는 경우(예: 단순한 데이터 손실), 고객이 소스 버킷의 데이터를 제자리에서 복구하는 것이 가능할 수 있습니다. 복제된 버킷으로의 장애 조치가 필요한 경우, 대상 복제 버킷의 엔드포인트를 호출하도록 클라이언트 애플리케이션을 다시 구성해야 합니다.

재해 복구 기능

IBM COS는 고객이 구성할 수 있는 다음과 같은 재해 복구 기능을 제공합니다:

Object Storage 대한 DR 기능
기능	설명	고려사항
오브젝트 복제	복제는 새로 만든 개체와 개체 업데이트를 소스 버킷에서 대상 버킷으로 복사하고, 개체의 자동 비동기 복사에 대한 규칙을 정의할 수 있습니다.	재해 발생 시 두 번째 복사본을 사용할 수 있도록 프로덕션 버킷과 대상 복구 버킷 간에 복제를 구성할 수 있습니다. 비즈니스의 복원력 요구 사항에 따라 지역 간 또는 지역 버킷을 사용하는 경우 복제가 필요하지 않을 수도 있습니다. 복제 이벤트 추적에 대해 자세히 알아보세요.
오브젝트 버전화	개체 버전 관리를 활성화하여 데이터가 손상되거나 삭제된 경우 복원할 수 있는 이전 버전의 개체를 유지합니다.	고객은 버킷에서 개체 버전 관리를 활성화하고 데이터 손상 시 이전 버전을 복원할 수 있습니다. 버전 복구를 수행하려면 버킷을 사용할 수 있어야 합니다. 자세히 알아보기
오브젝트 잠금	객체 잠금은 지정된 보존 기간 동안 객체 버전이 삭제되는 것을 방지합니다.	개체 잠금을 활성화하여 실수로 또는 무단으로 개체를 삭제하거나 덮어쓰지 않도록 보호하세요. 안전한 개체 버전을 복구에 사용할 수 있는지 확인합니다. 자세히 알아보기

기타 재해 복구 옵션은 고객이 만들고 지원합니다.

Object Storage 대한 고객 DR 기능
기능	설명	고려사항
백업 및 복원	스크립트 또는 타사 백업 애플리케이션을 사용하여 소스 버킷의 데이터를 복구 영역으로 백업하십시오.	고객은 COS 버킷에 저장된 데이터를 백업하기 위해 모든 스크립트 또는 제3자 백업 솔루션을 호스팅하고 관리해야 합니다.

DR 계획 수립

DR 단계는 정기적으로 실행해야 합니다. 계획을 수립할 때 다음과 같은 실패 시나리오와 해결 방법을 고려하세요.

Object Storage 대한 DR 시나리오
실패	분석
하드웨어 장애(단일 지점)	{ Object Storage 버킷은 영역 내 단일 지점 하드웨어 장애로부터 복원력이 있습니다. 구성이 필요하지 않습니다.
데이터 센터 장애	지역 간 및 지역별 COS 버킷은 개별 데이터센터 장애에 대해 복원력이 있습니다. 고객이 구성하거나 장애 조치를 취할 필요가 없습니다. 단일 데이터 센터 영역에 버킷을 보유한 고객은 복제를 구성하거나 타사 백업 솔루션을 사용하여 해당 영역 외부에서 데이터의 안전한 사본을 확보할 수 있습니다. IBM Cloud 가 영향을 받은 영역이나 서비스를 복구하기를 기다리는 것도 유효한 방법이지만, 데이터 센터 장애의 성격에 따라 수 시간 이상 걸릴 수 있음을 명심하십시오.
데이터 손상	데이터 손상 또는 실수로 인한 삭제 시 복구할 수 있도록 손상되지 않은 객체 버전이 존재하도록 객체 버전 관리, 객체 복제 또는 타사 백업 솔루션을 사용하십시오.
지역별 실패	지역 간 COS 버킷은 지역 장애에 탄력적으로 대응합니다. Key Protect 같은 일부 통합 지역 서비스에는 지역 간 버킷에 대한 추가 장애 조치 단계가 필요할 수 있습니다. 지역 또는 단일 데이터센터 COS 버킷에 버킷이 있는 고객은 전체 지역 장애가 발생한 경우 위의 재해 복구 단계를 따라야 합니다. 영향을 받은 지역이나 서비스가 복구될 때까지 IBM Cloud 기다리는 것도 유효한 방법이지만, 지역 중단의 성격에 따라 몇 시간 이상 걸릴 수 있다는 점을 기억하세요.

봉투 암호화를 추가하기 위해 IBM Cloud 키 관리 서비스 사용:

봉투 암호화를 추가하기 위해 다른 IBM Cloud IBM Cloud 서비스 통합(예: Key Protect 또는 Hyper Protect 등)을 사용하는 경우, 키 복제본에 적합한 구성 계획을 사용해야 합니다. 이는 정전 시 복제 키를 사용할 수 있도록 하는 교차 지역 구성을 사용할 때 필수적입니다. 고가용성 및 재해 복구에 대한 Key Protect 설명서를 참조하세요.

HA 및 DR에 대한 책임

HA 및 DR에 대한 책임
책임	설명
복원성	특정 워크로드 및 사용 사례에 필요한 적절한 복원력 옵션, 스토리지 클래스, 데이터 위치, 선택적 구성으로 Object Storage 버킷을 프로비저닝하세요.
데이터 백업	조직 요구 사항에 따라 필요한 경우 고객 데이터 백업을 보장합니다.
네트워크	IBM IBM 네트워크 리소스를 모니터링하고 관리하여 용량 및 가용성을 포함한 IBM Cloud 서비스 엔드포인트에 대한 적절한 액세스를 보장합니다.
봉투 암호화를 추가하기 위해 IBM Cloud KMS 사용	봉투 암호화를 추가하기 위해 IBM Cloud Key Protect 또는 Hyper Protect Crypto Services 사용하는 경우, 해당 고가용성 및 재해 복구 설명서를 검토하여 그 의미를 완전히 이해해야 합니다. 장애 조치 시 사용할 수 있는 키 복제본이 있는 키 인스턴스 위치를 사용해야 할 수도 있습니다. 또한 적절한 라이선스 및 요금제 정보를 반드시 검토하세요.

고객과 Object Storage 간의 책임 소유권에 대해 자세히 알아보려면 [Object Storage 사용 시 귀하의 책임(/docs/cloud-object-storage?topic=cloud-object-storage-responsibilities] )을 참조하세요.

복구 시간 목표(RTO) 및 복구 지점 목표(RPO)

IBM Cloud Object Storage 오퍼링은 해당 재해 발생 시 몇 시간 내에 클라우드 서비스와 관련 콘텐츠를 모두 복구할 수 있는 계획을 갖추고 있습니다.

Object Storage 대한 RTO/RPO 기능
기능	RTO 및 RPO
하드웨어 장애로부터 복구(단일 지점)	모든 복원력 모델에 대해 RTO = 0, RPO = 0
데이터 센터 정전 복구	지역 간 및 지역별 복원력 모델의 경우 RTO = 0, RPO = 0
이전 개체 버전 복원	RTO = 초, RPO = 0에 가까움
활성 복제를 통해 별도의 리전에 있는 버킷으로 복구하기	RTO = 분, 스크립팅으로 시간을 더 개선할 수 있으며 복구 버킷을 대상으로 워크로드를 조정하는 시간도 고려, , , RPO = 1시간 가까이
활성 복제 없이 새 리전의 새 버킷으로 복구하기	RTO = 분에서 일까지, 새 버킷을 재구성하고 새 버킷 엔드포인트를 대상으로 워크로드를 조정하는 데 걸리는 시간을 고려합니다. 또한 원본 데이터의 사본으로 버킷을 채우는 데 걸리는 시간도 고려하세요. RPO는 고객의 백업 및 복구 계획에 따라 달라집니다

변경 관리

변경 관리에는 업그레이드, 구성 변경 및 삭제와 같은 작업이 포함됩니다. 사용자에게 역할 요구 사항에 따라 액세스 권한이 부여되도록 하려면 IAM 시작하기를 검토하세요.

사용자와 프로세스에 업무에 필요한 최소한의 권한으로 IAM 역할 및 작업을 부여하는 것이 좋습니다. 서비스의 실수로 인한 삭제를 방지하려면 어떻게 해야 하나요?

IBM® 재해 복구를 지원하는 방법

{ IBM® 재해 발생 시 구체적인 복구 조치를 취합니다.

영역 또는 지역 장애로부터 복구
영역 장애 발생 시 IBM Cloud 영역 중단을 해결하고 영역이 다시 온라인 상태가 되면 글로벌 로드 밸런서가 고객의 조치 없이도 복원된 인스턴스 노드로 API 요청 전송을 재개합니다.
{ IBM® 매년 다양한 재해 시나리오에 대한 테스트를 수행하고 이러한 테스트에서 발견된 결과를 바탕으로 복구 문서를 지속적으로 개선하고 있습니다.
24 × 7 글로벌 지원은 IBM® 고객에게 제공됩니다 재해 발생 시 도움을 줄 수 있는 주제별 전문가가 대기하고 있습니다.
모든 IBM® 주제별 전문가는 매년 비즈니스 연속성 및 재해 복구 정책과 절차에 대한 교육을 받아 재해 발생 시 대비할 수 있도록 합니다.

IBM 서비스를 유지 관리하는 방법

모든 업그레이드는 IBM 서비스 모범 사례를 따르며 복구 계획 및 롤백 프로세스가 마련되어 있습니다. 새로운 기능 및 유지보수를 위한 정기적인 업그레이드는 정상적인 운영의 일부로 이루어집니다. 이러한 유지 관리로 인해 클라이언트 가용성 재시도 로직에 의해 처리되는 짧은 중단 간격이 발생할 수 있습니다. 변경 사항은 지역별로, 그리고 한 지역 내에서 구역별로 순차적으로 적용됩니다. 결함이 처음 발견되면 업데이트가 백업됩니다.

복잡한 변경 사항은 기능 플래그를 통해 활성화 및 비활성화하여 노출을 제어합니다.

고객 워크로드에 영향을 미치는 변경 사항은 알림에 자세히 설명되어 있습니다. 자세한 내용은 이 서비스에 영향을 미치는 계획된 유지 관리, 공지사항 및 릴리스 노트에 대한 모니터링 알림 및 상태를 참조하세요.