클러스터 네트워크 정보
클러스터 네트워크는 여러 컴퓨팅 시스템 또는 노드를 연결하여 이들 간의 성능과 통신을 최적화하는 데 사용되는 가상 프라이빗 클라우드(VPC) 내의 소프트웨어 정의 네트워크입니다. 이러한 네트워크는 고성능 컴퓨팅(HPC) 및 대규모 데이터 처리와 같이 고속 데이터 전송과 짧은 지연 시간이 필요한 작업을 지원하도록 설계되었습니다. 대규모 AI 학습 사용 사례에 이상적인 클러스터 네트워크를 사용하면 상호 연결된 시스템 그룹에 대한 성능 기준 세트를 정의할 수도 있습니다.
각 클러스터 네트워크에는 연결할 수 있는 구성 요소의 유형을 설명하는 연결된 클러스터 네트워크 프로필이 있습니다. 클러스터 네트워크에는 고성능 워크로드를 구성하는 데 필요한 유연성과 제어 기능을 제공하는 일련의 기본 네트워킹 추상화 기능이 있습니다.
키 기능에는 다음이 포함됩니다.
- 격리 및 최적화
- 컴퓨팅 리소스 그룹을 위한 높은 대역폭과 짧은 지연 시간의 네트워킹을 제공합니다. 클러스터 네트워크는 외부로 라우팅되지 않는 별도의 IPv4 주소 공간에 격리되어 있습니다.
- 전문 기술
- CPU의 개입 없이 다른 노드의 메모리 간에 직접 데이터를 전송할 수 있는 RDMA(원격 직접 메모리 액세스)와 같은 고급 네트워킹 기술을 지원하여 성능을 더욱 향상시킵니다.
- 고성능 컴퓨팅
- 높은 대역폭과 짧은 지연 시간이 중요한 인공 지능(AI) 교육이나 복잡한 시뮬레이션과 같은 까다로운 애플리케이션에 적합합니다.
- 유연성 및 제어
- 기존 VPC 네트워크의 보조 네트워크입니다. 클러스터 네트워크 연결은 VPC 네트워크와 분리되어 있으므로 사용자는 고속 RDMA 네트워크를 VPC 네트워크와 함께 혼합하여 사용할 수 있습니다.
클러스터 네트워크 시작하기
클러스터 네트워크는 네트워크로 연결된 시스템 그룹 내에서 데이터 전송의 효율성과 속도를 향상시켜 고성능 컴퓨팅 작업을 위한 필수 구성 요소입니다. 다음 일반적인 단계에 따라 AI 학습을 위한 간단한 클러스터 네트워크를 생성하세요:
-
클러스터 네트워크에 대한 계획 고려 사항을 검토하고 알려진 문제와 제한 사항을 숙지하세요.
-
만들려는 인스턴스 수에 해당 인스턴스 프로필에 정의된 리소스를 곱하여 클러스터에 필요한 총 리소스를 결정합니다.
-
클러스터에 필요한 계산된 총 리소스를 기본 할당량과 비교하여 할당량 증가가 필요한지 확인합니다.
-
클러스터링을 지원하는 NVIDIA H100 및 H200 프로필을 위한 용량이 있는 지역에 기존 VPC가 있는지 확인합니다.
현재 지원되는 유일한 영역은
us-east-wdc07-a
. 영역에 대한 자세한 내용은 계정별 영역 매핑을 참조하세요. -
클러스터 네트워크를 만듭니다. 현재 클러스터 네트워킹은 H100 및 Hopper-1 프로필을 모두 지원합니다. NVIDIA Hopper HGX 인스턴스. 그러나 H100 클러스터 네트워크 프로필은 향후 더 이상 사용되지 않으며 NVIDIA 및 H200 인스턴스 프로필을 모두 지원하는 Hopper-1 클러스터 네트워크 프로필로 대체될 예정입니다.
-
클러스터 네트워크 서브넷 생성 (8, 16, or 32) as child objects on the cluster network.
콘솔에서 클러스터 네트워크를 만드는 경우 클러스터 네트워크 서브넷을 동시에 만들 수 있습니다. 8개 서브넷을 사용하는 것이 좋지만, 특정 시나리오에서는 더 많은 수의 서브넷을 사용하게 됩니다.
호퍼 1 클러스터 네트워크 유형 내의 서브넷은 서로 라우팅할 수 있습니다. 그러나 클러스터 네트워크는 외부에서 라우팅할 수 없습니다.
-
다음 중 하나를 수행하십시오.
-
가상 서버 인스턴스를 프로비저닝합니다.
-
인스턴스 템플릿을 만든 다음 인스턴스를 만듭니다. 반드시 해야 합니다:
- 호퍼 1 인스턴스 프로필을 선택합니다.
- 클러스터링을 사용 설정합니다.
- 클러스터 서브넷에 해당하는 첨부파일(8, 16 또는 32)을 추가합니다.
고급 사용자는 IP 주소 또는 인터페이스를 미리 할당할 수 있습니다. 그러나 인스턴스를 만들 때 IP 또는 인터페이스를 생성하는 것이 좋습니다.
-
클러스터 네트워크 사용 사례
VPC용 클러스터 네트워크는 다음과 같은 사용 사례를 지원합니다.
사용 사례 1: H100/H200 인스턴스를 네트워크로 연결하여 Hopper-1 클러스터 네트워크에서 RDMA 사용
다음 다이어그램은 H100/H200 인스턴스를 hopper-1 클러스터 네트워크에 연결하여 IBM Cloud 에서 RDMA를 활용하는 방법을 보여줍니다:
먼저 클러스터 네트워크 서브넷을 사용하여 클러스터 네트워크를 설정했는지 확인하세요. 그런 다음 클러스터 네트워크에 연결할 H100 또는 H200 인스턴스를 만듭니다. 인스턴스가 생성되면 VPC 네트워크와 클러스터 네트워크를 지정합니다. VPC 네트워크는 클라우드 리소스에 대한 연결을 제공하고 외부 라우팅을 제공할 수 있습니다. 클러스터 네트워크는 인스턴스 내에서 노드 간의 연결을 제공하는 추가 인터페이스입니다.
사용 사례 2: 나머지 IBM Cloud 에코시스템으로부터 클러스터 네트워크 보호
클러스터 네트워크는 VPC 클라우드 네트워크와 별도의 네트워크 도메인으로 격리됩니다. 클러스터 네트워크 격리 도메인을 사용하면 보안 그룹, 네트워크 ACL 또는 라우팅 테이블을 사용하지 않고도 보안을 유지할 수 있습니다. 클러스터 네트워크 내의 통신은 클러스터 네트워크에 직접 연결된 장치 간에만 이루어집니다.
클러스터 네트워크에 연결된 리소스도 하나 이상의 VPC 네트워크에 연결해야 합니다. Transit Gateway VPC 네트워크는 표준 VPC 리소스의 모든 IBM Cloud 네트워크 사용 사례(플로팅 IP, 퍼블릭 게이트웨이, 프록시 서버, 프록시 서버, 프록시 서버 등)를 지원합니다. 따라서 사용자는 클러스터 네트워크의 리소스에 연결된 가상 네트워크 인터페이스의 보안 정책을 검토하는 것이 좋습니다.
클러스터 네트워크에 대한 액세스를 최소한으로 유지해야 합니다:
- 클러스터 네트워크에 연결된 인스턴스에 대한 액세스를 제한합니다.
- 클러스터 네트워크에 액세스할 수 있는 각 인스턴스의 VPC VNI(가상 네트워크 인터페이스)에 대한 보안 그룹이 엄격하게 설정되어 있는지 확인합니다.
- 인바운드 TCP 요청을 주의 깊게 보호하고 아웃바운드 TCP 요청을 보호하는 것도 고려하세요. 자세한 내용은 리소스에 대한 보안 그룹 설정하기를 참조하세요.
- 클러스터 네트워크 사용 인스턴스에 연결된 서브넷에 적절한 네트워크 ACL이 있는지 확인합니다.
- 클러스터 네트워크 권한에 대한 IAM 정책을 구성하세요.