关于集群网络
集群网络是虚拟专用云(VPC)中的软件定义网络,用于连接多个计算系统或节点,以优化它们之间的性能和通信。 这些网络旨在支持需要高速数据传输和低延迟的任务,如高性能计算(HPC)和大规模数据处理。 集群网络是大规模人工智能培训使用案例的理想选择,它还允许您为一组给定的互联系统定义性能标准。
每个集群网络都有一个相关的集群网络配置文件,描述它可以连接的组件类型。 集群网络内有一套基本的网络抽象,可为您提供配置高性能工作负载所需的灵活性和控制力。
主要功能包括:
- 隔离和优化
- 为计算资源组提供高带宽、低延迟的网络。 集群网络被隔离在单独的IPv4地址空间中,不对外路由。
- 专业技术
- 支持远程直接内存访问(RDMA)等先进的网络技术,可在不同节点的内存之间直接传输数据,无需 CPU 参与,进一步提高了性能。
- 高性能计算
- 适用于要求苛刻的应用,如人工智能(AI)训练或复杂模拟,在这些应用中,高带宽和低延迟至关重要。
- 灵活性和控制
- 是现有 VPC 网络的补充网络。 集群网络附件与 VPC 网络是分开的,允许用户将高速 RDMA 网络与 VPC 网络混合使用。
开始使用集群网络
集群网络可提高联网系统组内数据传输的效率和速度,是高性能计算任务的重要组成部分。 请按照以下一般步骤创建用于人工智能训练的简单集群网络:
-
审查 集群网络的规划注意事项,了解任何 已知问题和限制。
-
将打算创建的实例数乘以相应 实例配置文件 中定义的资源,即可确定群集所需的总资源。
-
对照 默认配额 检查计算出的群集所需资源总量,以确定是否需要增加配额。
-
确保在一个区域内有一个现有的 VPC,该区域可容纳 NVIDIA H100 和支持群集的 H200 配置文件。
目前,唯一支持的区域是
us-east-wdc07-a
。 有关区的更多信息,请参阅 每个帐户的区映射。 -
创建集群网络。 目前,群集网络支持 NVIDIA Hopper HGX 实例的 H100 和 Hopper-1 配置文件。 不过,H100 集群网络配置文件今后将被淘汰,取而代之的是同时支持 NVIDIA 和 H200 实例配置文件的 Hopper-1 集群网络配置文件。
-
创建集群网络子网 (8, 16, or 32) as child objects on the cluster network.
如果在控制台中创建群集网络,可以同时创建群集网络子网。 虽然建议使用 8 个子网络,但某些情况下需要使用更多的子网络。
Hopper 1 集群网络类型内的子网可相互路由。 不过,集群网络不能对外路由。
-
请执行以下操作之一:
高级用户可能希望预先分配 IP 地址或接口。 不过,建议您在创建实例时创建 IP 或接口。
集群网络使用案例
VPC 群集网络支持以下用例。
用例 1:通过 Hopper-1 集群网络连接 H100/H200 实例以使用 RDMA
下图演示了如何将 H100/H200 实例连接到 hopper-1 集群网络,以利用 IBM Cloud 上的 RDMA:
首先,确保您已设置了 集群网络子网的集群网络。 然后,创建将连接到群集网络的 H100 或 H200 实例。 创建实例时,请指定 VPC 网络和群集网络。 VPC 网络提供与云资源的连接,并可提供外部路由选择。 群集网络是实例中的附加接口,提供节点之间的连接。
使用案例 2:从IBM Cloud生态系统的其他部分确保群集网络的安全
集群网络与 VPC 云网络隔离在不同的网络域中。 集群网络隔离域使用户无需使用安全组、网络 ACL 或路由表即可确保安全。 群集网络内的通信只发生在直接连接到群集网络的设备之间。
连接到群集网络的资源也必须至少连接一个 VPC 网络。 VPC网络支持所有 IBM Cloud 网络使用案例的标准VPC资源——浮动IP、公共网关、Transit Gateway 等。 因此,建议用户检查群集网络资源所连接的虚拟网络接口的安全策略。
要保持对群集网络的最小访问权限,您必须
- 限制对连接到群集网络的实例的访问。
- 确保每个可访问群集网络的实例上的 VPC 虚拟网络接口 (VNI) 都有一个严密的安全组。
- 请务必仔细保护入站 TCP 请求,并考虑保护出站 TCP 请求。 有关详细信息,请参阅 为资源设置安全组。
- 确保连接到群集网络启用实例的子网具有适当的网络 ACL。
- 为群集网络权限配置 IAM 策略。