IBM Cloud Logs에 대한 고가용성 및 재해 복구 이해

고가용성(HA)서비스 또는 작업 부하가 장애를 견디고 사전 정의된 서비스 수준에 따라 처리 기능을 계속 제공할 수 있는 능력. 서비스의 경우, 가용성은 서비스 수준 협약에 정의되어 있습니다. 가용성에는 유지보수, 고장, 재해 등 계획된 이벤트와 계획되지 않은 이벤트가 모두 포함됩니다. 은 예기치 않은 장애가 발생하더라도 서비스가 계속 운영되고 액세스할 수 있는 기능입니다. 재해 복구는서비스 중단과 같은 드물지만 심각한 사고와 광범위한 장애로부터 복구할 수 있는 서비스 또는 작업량 능력. 여기에는 전체 지역에 영향을 미치는 물리적 재해, 데이터베이스 손상, 또는 작업 부하에 기여하는 서비스의 손실이 포함됩니다. 이 영향은 고가용성 설계가 처리할 수 있는 능력을 초과합니다. 서비스 인스턴스를 작동 상태로 복구하는 프로세스입니다.

IBM Cloud Logs 는 가용성이 높은 다중 테넌트 지역 서비스이며, 사용 가능한 지역과 데이터 센터 위치는 위치 문서 에서 확인할 수 있습니다. IBM Cloud Logs 는 지역 서비스로서, 표준 플랜을 통해 정의된 서비스 수준 목표(SLO)를 충족합니다. SLO는 보증이 아니며, 목표를 달성하지 못한 경우에는 크레딧을 발행하지 않습니다.

서비스 수준 목표(SLO)는 IBM Cloud 서비스가 충족하도록 설계된 설계 포인트를 설명합니다. IBM Cloud Logs 은 다음과 같은 가용성 목표를 달성하도록 설계되었습니다.

SLO 대상 IBM Cloud Logs
가용성 대상	목표 값
가용성 %	99.99%

고가용성 아키텍처

가용성 구역은 데이터가 처리되고 호스팅되는 IBM Cloud 지역 내에서 논리적이며 물리적으로 격리되는 위치입니다.

가용성 구역에는 구역 간 단일 실패 지점을 피함으로써 결함 허용을 강화하도록 다른 구역에서 격리되는 독립적인 전기, 냉각 및 네트워크 인프라가 있습니다.
가용성 구역은 지역에서 높은 대역폭 및 짧은 구역 내 대기 시간을 제공합니다.

지역(위치)은 다른 지역에서 격리되는 독립적인 전기 및 네트워크 인프라가 있는 지리적이며 물리적으로 별도인 하나 이상의 가용성 구역 그룹입니다.

지역은 다른 지역과 공유된 단일 실패 지점을 제거하고 지역에서 짧은 구역 내 대기 시간을 보장하도록 설계되었습니다.
각 지역에는 중복성을 위해 서로 다른 세 개의 데이터 센터(DC)가 있습니다.

높은 가용성 기능

IBM Cloud Logs 다음과 같은 고가용성 기능을 지원합니다

HA 기능 IBM Cloud Logs
기능	설명
다중 구역 지역 배치	IBM Cloud Logs 은 다중 존 지역(MZR)에만 배치되며, MZR 내에서 데이터 플레인 클러스터는 세 존 모두에 걸쳐 있어 존의 손실이 서비스 가용성에 영향을 미치지 않도록 합니다.
IBM Cloud Logs 영역 간 리소스 복제	경고, 지표, 로그와 같은 모든 IBM Cloud Logs 의 자료는 MZR 내의 세 구역에 걸쳐 복제됩니다. 이렇게 하면 구역이 손실되는 경우에도 데이터가 유지됩니다.
활성/준비 상태 모니터링	모든 마이크로서비스는 Kubernetes 의 활성과 준비 상태 탐색을 통해 모니터링됩니다.

재해 복구 아키텍처

IBM Cloud Logs Red Hat OpenShift on IBM Cloud 를 기반으로 구축된 VPC에서 멀티 존 리전을 사용하고 모든 작업자 노드를 세 개의 존에 분산합니다. VPC 로드 밸런서는 들어오는 트래픽을 처리하고 클러스터에서 실행되는 서비스 메시로 전달합니다.

지역 간 자동 장애 복구나 지역 간 재해 복구 기능이 없습니다. 지역의 모든 가용 영역에 장애가 발생하면 해당 지역에서 IBM Cloud Logs 을 사용할 수 없게 됩니다.

재해 복구 기능

IBM Cloud Logs 다음과 같은 재해 복구 기능을 지원합니다

DR 기능 IBM Cloud Logs
기능	설명
대체 지역	대체 지역에서 실행되는 서비스는 메인 서비스와 별개로 사용할 수 있습니다
데이터베이스 백업	현재 데이터 세트의 사본이 저장됩니다

재해 복구 계획

DR 단계는 정기적으로 연습해야 합니다. 계획 수립 시, 다음과 같은 실패 시나리오와 해결책을 고려하십시오.

DR 시나리오를 위한 IBM Cloud Logs
실패	분석
하드웨어 고장(단일 지점)	IBM 한 구역 내의 단일 하드웨어 고장으로부터 복원력이 있는 데이터베이스를 제공합니다 - 별도의 설정이 필요하지 않습니다.
구역 장애	IBM Cloud Logs 지역 장애 지점에서 복구할 수 있는 다중 지역 배포를 사용합니다.
데이터 손상	데이터가 손상된 경우, 데이터베이스는 백업 사이트에서 사용할 수 있는 마지막 안정 상태로 롤백됩니다. 복구를 위해 IBM Cloud Object Storage 백업을 사용합니다. 백업을 참조하세요.
지역적 실패	HA 및 DR에 대한 귀하의 책임 아래의 단계를 따르십시오

HA 및 DR에 대한 귀하의 책임

IBM Cloud 는 재해 발생 시 몇 시간 내에 서비스를 복구할 수 있도록 비즈니스 연속성가동 중단의 영향을 받지 않고 사전정의된 SLA(Service Level Agreement)에 따라 중단 없이 미션 크리티컬 서비스를 정상적으로 운영할 수 있는 기업의 능력입니다. 계획을 수립하고 있습니다. 사용자는 데이터 백업 및 컨텐츠의 연관된 복구를 담당합니다.

지진, 홍수 또는 토네이도와 같은 대규모 지역 재해가 발생하면 전체 지역이 영향을 받을 수 있습니다.

IBM Cloud Logs 인스턴스를 복구하려면 새로운 IBM Cloud Logs 인스턴스를 프로비저닝하고 IBM Cloud Logs 리소스를 다시 만들어야 합니다. 또한 인스턴스와 관련된 DR 전략( IBM Cloud Object Storage )과 알림 경보를 트리거하도록 구성했을 수 있는 DR 인스턴스( IBM Cloud Event Notifications )가 있어야 합니다.

이러한 상황에 대비하여 작업량을 탄력적으로 조정하려면 다음 단계를 완료하십시오

다운된 구성을 복원할 수 있는 지역 전략을 정의하십시오.

복구 지역을 선택할 때 데이터 위치와 규정 준수 요건을 확인하십시오.

위치에 대한 자세한 정보는 다음을 참조하십시오:
- IBM Cloud Logs 지원 지역
- IBM Cloud Object Storage 지원 지역
- IBM Cloud Event Notifications 지원되는 지역. IBM Cloud Logs 이 지원되는 모든 지역에서 IBM Cloud Event Notifications 이 지원되는 것은 아닙니다.
Terraform을 사용하지 않는 구성이 있다면, API를 사용하여 현재 구성을 백업하십시오. Terraform을 사용하는 경우, 다운된 지역을 재현하는 데 도움이 되도록 Terraform 스크립트를 저장하십시오. 백업 파일이나 Terraform 스크립트를 저장하기 위해 버전 관리 시스템을 사용하는 것을 고려해 보십시오.

Terraform을 사용하여 IBM Cloud Logs 인스턴스를 생성할 수 있습니다. 리소스 관리 Terraform 리소스를 참조하세요.

Terraform을 사용하여 IBM Cloud Logs 리소스를 생성할 수 있습니다. IBM Cloud Logs Terraform 리소스를 참조하세요.

여러 지역 간 복원력을 통해 여러 지역에 걸쳐 데이터를 저장하고 액세스할 수 있으며, 고가용성, 내구성, 재해 복구 기능을 보장하기 위해 테라폼을 사용하여 데이터 버킷, 메트릭스 버킷 또는 둘 다를 만들 수 있습니다. IBM Cloud Object Storage Terraform 리소스를 참조하세요.

Terraform을 사용하여 IBM Cloud Event Notifications 의 리소스를 생성할 수 있습니다. IBM Cloud Event Notifications Terraform 리소스를 참조하세요.

Terraform을 사용하여 IAM 인증과 권한을 생성할 수 있습니다. IAM Terraform 리소스를 참조하십시오.

항상 다른 지역으로 백업 구성을 복원할 수 있는지 테스트하십시오.

지역 재해의 경우, 새로운 지역에서 인스턴스를 복구하려면 다음 단계를 완료해야 합니다

IBM Cloud Logs 인스턴스를 복원할 대체 지역을 확인합니다.
IBM Cloud Logs 의 새로운 인스턴스를 생성합니다. 자세한 정보는 인스턴스 프로비저닝을 참조하십시오.
데이터 또는 지표 버킷이 구성된 경우, 다음 단계를 완료하십시오
- 재해 지역에 있는 IBM Cloud Logs 인스턴스가 교차 지역 IBM Cloud Object Storage (COS) 버킷을 사용하고 있는 경우 동일한 버킷을 새 IBM Cloud Logs 인스턴스에 연결할 수 있지만, 새 IBM Cloud Logs IBM Cloud Logs 인스턴스에서 생성된 데이터를 쿼리할 수 없습니다. 새로운 지역에 수집된 데이터만 조회할 수 있습니다. 다운된 지역의 기존 데이터를 다운로드하여 볼 수 있습니다. 아카이브 데이터 구조에 대한 자세한 내용은 아카이브에서 직접 데이터 쿼리하기를 참조하십시오.
- 새로 생성된 IBM Cloud Logs 인스턴스의 대시보드 또는 CLI를 사용하여 재해 지역의 IBM Cloud Logs 인스턴스 로그에 액세스해야 하는 경우 IBM 지원팀에 문의하십시오. IBM Cloud Object Storage 의 재해 복구 전략에 대한 자세한 내용은 지역 간 엔드포인트, 데이터 보안, 안전한 Content Store 만들기, 그리고 비즈니스 연속성과 재해 복구를 위한 복제 사용을 참조하십시오.
- 해당 지역의 로컬 또는 지역 버킷을 사용 중이라면, 새로운 버킷을 만드세요. IBM Cloud Logs 의 새 인스턴스에 버킷을 연결합니다. 더 자세한 정보는 데이터 버킷 구성하기 와 메트릭스 버킷 구성하기를 참고하세요.
- IBM Cloud Logs 인스턴스와 버킷 사이에 IAM 권한을 정의합니다. 더 자세한 정보는 버킷에 대한 접근 권한을 부여하는 S2S 의 권한 설정을 참고하세요.
재해 피해 지역의 인스턴스가 IBM Cloud Object Storage 버킷으로 구성되어 있지 않은 경우, 로그와 메트릭스 데이터가 손실됩니다.
사용 중인 인스턴스에 알림이 설정되어 있다면, 다음 단계를 완료하십시오:
- 새로운 IBM Cloud Event Notifications 인스턴스를 생성하거나 다른 지역에서 사용할 수 있는 기존 인스턴스를 사용하십시오. 항상 규정 준수 및 데이터 지역 요구 사항을 충족하는지 확인하십시오. 자세한 정보는 인스턴스 프로비저닝을 참조하십시오. IBM Cloud Event Notifications 의 재해 복구 전략에 대한 자세한 내용은 IBM Cloud Event Notifications 의 데이터 보안 과 재해 복구를 참조하십시오.
- IBM Cloud Logs 인스턴스와 IBM Cloud Event Notifications 인스턴스 간의 IAM 권한을 정의합니다. 더 자세한 정보는 IBM Cloud Event Notifications 서비스와 함께 작동하는 권한 부여(S2S authorization)작성을 참고하세요.
- IBM Cloud Event Notifications 를 아웃바운드 통합으로 설정합니다. 자세한 내용은 IBM Cloud Event Notifications 에서 대상으로의 이벤트 라우팅 구성을 참조하세요.
IBM Cloud Logs 의 새 인스턴스에서 리소스를 다시 만듭니다.

보기 작성.

대시보드 만들기.

알림을 만듭니다.

총소유비용 정책을 만듭니다.

구문 분석 규칙을 만듭니다.

이벤트 생성하기

데이터 사용을 활성화합니다.

데이터 규칙을 설정합니다.

데이터 강화 정책을 구성합니다.

IBM Cloud Logs 인스턴스를 더 쉽게 복구하려면 Terraform을 사용하여 인스턴스, 구성 및 IAM 액세스를 관리하십시오. Terraform을 사용하면 다른 지역에서 인스턴스를 구성할 때 수동 단계를 거칠 필요가 없습니다.

인스턴스를 복구한 후에는 로그를 새 인스턴스로 보내도록 데이터 소스를 다시 구성해야 합니다

새로운 지역에 IBM Cloud Logs Routing 테넌트가 구성되어 있는 경우, 해당 지역에 연결된 현재 대상을 사용하여 플랫폼 로그를 보고 모니터링해야 합니다. 새로운 지역에 IBM Cloud Logs Routing 테넌트가 구성되어 있지 않다면, 새로운 IBM Cloud Logs 인스턴스를 참조하는 IBM Cloud Logs Routing 테넌트를 생성하십시오. IBM Cloud Logs Routing 테넌트 만들기 및 IBM Cloud Logs Routing 의 고가용성 및 재해 복구 이해를 참조하십시오.
새로운 지역에 다운된 지역의 활동 추적 이벤트를 수집하는 IBM Cloud Activity Tracker Event Routing 구성이 있는 경우, 기존 구성을 사용하여 이벤트를 보고 관리할 수 있습니다. 새로운 지역에 다운된 지역의 활동 추적 이벤트를 수집하는 IBM Cloud Activity Tracker Event Routing 구성이 없는 경우, 이벤트를 수집할 위치와 방법을 나타내는 규칙을 추가해야 합니다. 더 자세한 정보는 지역 재해에 탄력적인 경로 설정 만들기에서 확인하실 수 있습니다.
로깅 에이전트 를 IBM Cloud Logs 복구 영역의 수집 엔드포인트를 가리키도록 재구성하십시오.

IBM Cloud IBM Cloud Logs 사용에 대한 소유권 책임에 대해 더 자세히 알아보려면 IBM Cloud Logs 사용 시의 책임 이해를 참조하십시오.

복구 시간 목표(RTO)와 복구 지점 목표(RPO)

IBM Cloud Logs 는 데이터를 보호하고 서비스 기능을 복원하는 방법을 제공합니다. 서비스의 목표 복구 시점 목표재해 복구 계획에서 데이터 복구 시간은 복구된 시점부터 재해 발생 시점까지 걸린 시간(초, 분, 시간)으로 측정됩니다. (RPO) 및 복구 시간 목표재해 복구 계획에서, 재해 발생 후 비즈니스 프로세스를 복구하는 데 걸리는 시간입니다. (RTO)를 달성하기 위한 비즈니스 연속성 계획이 마련되어 있습니다. 다음 표는 IBM Cloud Logs 의 대상을 간략하게 설명합니다.

RPO 및 RTO IBM Cloud Logs
재해 복구 목적	목표 값
RPO	4시간 이내
RTO	24시간 안에

변경 관리

변경 관리에는 업그레이드, 구성 변경 및 삭제와 같은 작업이 포함됩니다.

사용자와 프로세스에 IAM 역할과 권한을 부여할 때는 업무 수행에 필요한 최소한의 권한만 부여하는 것이 좋습니다. 서비스가 실수로 삭제되는 것을 방지하는 방법을 확인해 보 세요.

Terraform을 사용하지 않는 구성이 있는 경우, 새로운 버전의 IBM Cloud Logs 로 업그레이드하기 전에 API를 사용하여 백업을 만드는 것을 고려해 보십시오.

IBM® 재해 복구 계획을 지원하는 방법

IBM® 다양한 재난 시나리오에 대한 연례 테스트를 실시하고, 이 테스트를 통해 발견된 결과를 바탕으로 복구 문서를 지속적으로 개선합니다.
IBM® 를 보유한 고객은 24시간 365일 글로벌 지원을 받을 수 있습니다. 재해 발생 시 도움을 줄 수 있는 주제 전문가가 대기하고 있습니다.

IBM® 의 모든 주제 전문가들은 매년 비즈니스 연속성 및 재해 복구 정책과 절차에 대한 교육을 받으며, 재해 발생 시 대비할 수 있도록 합니다.

IBM Cloud Logs은(는) 고가용성인 지역 서비스입니다.

IBM Cloud Logs 를 이용할 수 있는 지역에 대한 자세한 정보는 위치 페이지를 참조하십시오.
각 리전에는 active/active 모드로 구성된 중복성을 위한 세 개의 서로 다른 데이터 센터가 있습니다.
위치의 모든 데이터 센터가 실패하면 IBM Cloud Logs이(가) 해당 위치에서 사용할 수 없게 됩니다.
지원되는 각 지역에서 트래픽은 단일 실패 지점 없이 여러 가용성 구역의 인프라 전반에 로드 밸런싱됩니다.

다음 표는 지역(위치)에 대한 고가용성(HA) 상태가 나열되어 있습니다. 여기서, IBM Cloud Logs 서비스는 사용 가능합니다.

서비스 이용 가능 지역 목록
지리적 위치	지역	EU 지원	HA 상태
아시아 태평양	오사카(`jp-osa`)	해당사항 없음	`MZR`
아시아 태평양	시드니(`au-syd`)	해당사항 없음	`MZR`
아시아 태평양	도쿄(`jp-tok`)	해당사항 없음	`MZR`
유럽	프랑크푸르트(`eu-de`)	예	`MZR`
유럽	런던(`eu-gb`)	아니오	`MZR`
유럽	마드리드 (`eu-es`)	예	`MZR`
북미	토론토(`ca-tor`)	해당사항 없음	`MZR`
북미	몬트리올 (`ca-mon`)	해당사항 없음	`MZR`
북미	댈러스(`us-south`)	해당사항 없음	`MZR`
북미	워싱턴(`us-east`)	해당사항 없음	`MZR`
남미	상파울루(`br-sao`)	해당사항 없음	`MZR`

여기서,

_지리학_은 하나 이상의 지역을 포함하는 지역 또는 지리적 영역입니다.
_지역_은 정의된 지리적 영역입니다.
지역은 특정 우편 번호 지역, 마을, 도시, 주, 주 그룹 또는 국가 그룹일 수 있습니다.
지역에는 해당 지역의 로컬 액세스, 짧은 지연 시간 및 보안 요구 사항을 충족하기 위한 여러 가용성 영역이 포함되어 있습니다.
MZR은 다중 구역 지역을 의미합니다. 자세히 보기

지역 및 데이터 센터 내 서비스 가용성에 대한 자세한 정보는 위치별 서비스 및 인프라 가용성을 참조하십시오.

지역에서 IBM Cloud Logs에서 관리되는 데이터는 해당 지역 근처의 데이터 센터에 보관됩니다.

다중 영역 영역(MZR)은 단일 장애 이벤트가 단일 영역에만 영향을 미치도록 서로 독립적인 3개 이상의 가용 영역으로 구성됩니다.

IBM Cloud Logs 는 기본적으로 3개의 구역에 배치됩니다. 각 구역은 다음의 규칙에 따라 설정됩니다. active/active/active:

각 구역은 지역 내 다른 데이터 센터에 위치합니다.
각 영역의 데이터는 지연 시간이 짧은 다른 영역으로 자동으로 복제됩니다. 복제를 활성화하기 위해 아무것도 할 필요가 없습니다.
이 서비스는 중단 없이 단일 구역 실패를 견디도록 디자인되었습니다.

MZR 아키텍처는 지역 내 영역 간 자동 장애 조치와 지역 내 IBM Cloud Logs 배포를 위한 고가용성을 제공합니다.

IBM Cloud Logs e2m 에서 관리되는 메타데이터에는 키, 알림 정의, 메트릭스 정의, 메트릭스 데이터 등과 같은 중요한 설정에 대한 정보와 같은 고객 메타데이터가 포함됩니다.

IBM Cloud Logs 각 지역의 데이터를 정기적으로 백업합니다

정기적인 백업은 매일 수행되며 30일 동안 보관되고 지역 간 IBM Cloud Object Storage 버킷에 저장됩니다
지속적 증가분 백업은 이전 7일 동안 보관됩니다.

완전한 지역 장애가 발생하면 백업 데이터가 계속 사용 가능하게 유지되며, 이 데이터는 복구 서비스( IBM Cloud Logs )의 일부로 복원됩니다.

IBM 가 존 실패에서 어떻게 회복하는가

존 장애의 경우, IBM Cloud 에서 존 장애를 해결합니다. 데이터 평면이 한 지역의 세 구역에 걸쳐 있기 때문에 서비스 가용성에 영향을 미치지 않으며, 글로벌 로드 밸런서가 복구된 구역으로 데이터 전송을 재개합니다. 이 시점에서는 고객님의 조치가 필요하지 않습니다.

IBM 가 지역적 실패에서 회복하는 방법

장애 발생 후 지역이 복구되면, IBM 는 지역 상태로부터 서비스 인스턴스를 복구하려고 시도합니다. 지역 국가가 손상된 경우, 서비스는 마지막 내부 백업의 상태로 복원되며, 이 백업은 서비스가 관리하는 지역 간 IBM Cloud Object Storage 버킷의 대체 데이터 사이트로 지속적으로 스트리밍됩니다. 백업 데이터가 손상되면 24시간 분량의 데이터가 손실될 수 있습니다. 고객이 관리하는 재해 복구에는 이러한 백업이 제공되지 않습니다.

IBM 가 서비스 인스턴스를 복구할 수 없는 경우, 고객은 재해 복구 아키텍처 에 설명된 대로 복구해야 합니다.

IBM 가 서비스를 유지하는 방법

모든 업그레이드는 서비스 모범 사례( IBM )를 따르며, 복구 계획과 롤백 프로세스를 갖추고 있습니다. 새로운 기능과 유지보수를 위한 정기적인 업그레이드는 정상적인 운영의 일부로 이루어집니다. 이러한 유지보수는 간혹 짧은 중단 간격을 유발할 수 있으며, 이는 클라이언트 가용성 재시도 로직 에 의해 처리됩니다. 변경 사항은 지역별로, 지역 내의 구역별로 순차적으로 적용됩니다. 결함이 발견되는 즉시 업데이트가 취소됩니다.

고객의 업무량에 영향을 미치는 변경 사항은 알림에 자세히 설명되어 있습니다. 더 자세한 정보를 원하시면, 이 서비스에 영향을 미치는 예정된 유지보수, 공지사항, 릴리스 노트 에 대한 알림과 상태를 모니터링하는 방법을 참고하세요.