IBM Cloud Docs
关于集群网络

关于集群网络

集群网络是虚拟专用云(VPC)中的软件定义网络,用于连接多个计算系统或节点,以优化它们之间的性能和通信。 这些网络旨在支持需要高速数据传输和低延迟的任务,如高性能计算(HPC)和大规模数据处理。 集群网络是大规模人工智能培训使用案例的理想选择,它还允许您为一组给定的互联系统定义性能标准。

每个集群网络都有一个相关的集群网络配置文件,描述它可以连接的组件类型。 集群网络内有一套基本的网络抽象,可为您提供配置高性能工作负载所需的灵活性和控制力。

主要功能包括:

隔离和优化
为计算资源组提供高带宽、低延迟的网络。 集群网络被隔离在单独的IPv4地址空间中,不对外路由。
专业技术
支持远程直接内存访问(RDMA)等先进的网络技术,可在不同节点的内存之间直接传输数据,无需 CPU 参与,进一步提高了性能。
高性能计算
适用于要求苛刻的应用,如人工智能(AI)训练或复杂模拟,在这些应用中,高带宽和低延迟至关重要。
灵活性和控制
是现有 VPC 网络的补充网络。 集群网络附件与 VPC 网络是分开的,允许用户将高速 RDMA 网络与 VPC 网络混合使用。

开始使用集群网络

集群网络可提高联网系统组内数据传输的效率和速度,是高性能计算任务的重要组成部分。 请按照以下一般步骤创建用于人工智能训练的简单集群网络:

  1. 审查 集群网络的规划注意事项,了解任何 已知问题和限制

  2. 将打算创建的实例数乘以相应 实例配置文件 中定义的资源,即可确定群集所需的总资源。

  3. 对照 默认配额 检查计算出的群集所需资源总量,以确定是否需要增加配额。

  4. 确保在一个区域内有一个现有的 VPC,该区域可容纳 NVIDIA H100 和支持群集的 H200 配置文件。

    目前,唯一支持的区域是 us-east-wdc07-a。 有关区的更多信息,请参阅 每个帐户的区映射

  5. 创建集群网络。 目前,群集网络支持 NVIDIA Hopper HGX 实例的 H100 和 Hopper-1 配置文件。 不过,H100 集群网络配置文件今后将被淘汰,取而代之的是同时支持 NVIDIA 和 H200 实例配置文件的 Hopper-1 集群网络配置文件。

  6. 创建集群网络子网 (8, 16, or 32) as child objects on the cluster network.

    如果在控制台中创建群集网络,可以同时创建群集网络子网。 虽然建议使用 8 个子网络,但某些情况下需要使用更多的子网络。

    Hopper 1 集群网络类型内的子网可相互路由。 不过,集群网络不能对外路由。

  7. 请执行以下操作之一:

    • 配置 虚拟服务器实例

    • 创建实例模板,然后创建实例。 确保

      • 选择料斗 1 实例配置文件。
      • 启用群集。
      • 添加与群集子网相对应的附件(8、16 或 32)。

    高级用户可能希望预先分配 IP 地址或接口。 不过,建议您在创建实例时创建 IP 或接口。

集群网络使用案例

VPC 群集网络支持以下用例。

用例 1:通过 Hopper-1 集群网络连接 H100/H200 实例以使用 RDMA

下图演示了如何将 H100/H200 实例连接到 hopper-1 集群网络,以利用 IBM Cloud 上的 RDMA:

首先,确保您已设置了 集群网络子网的集群网络。 然后,创建将连接到群集网络的 H100 或 H200 实例。 创建实例时,请指定 VPC 网络和群集网络。 VPC 网络提供与云资源的连接,并可提供外部路由选择。 群集网络是实例中的附加接口,提供节点之间的连接。

将 H100/H200 实例联网,以便在 IBM Cloud
将 Hopper-1 启用的实例联网,以便在 上使用 RDMA IBM Cloud

使用案例 2:从IBM Cloud生态系统的其他部分确保群集网络的安全

集群网络与 VPC 云网络隔离在不同的网络域中。 集群网络隔离域使用户无需使用安全组、网络 ACL 或路由表即可确保安全。 群集网络内的通信只发生在直接连接到群集网络的设备之间。

连接到群集网络的资源也必须至少连接一个 VPC 网络。 VPC网络支持所有 IBM Cloud 网络使用案例的标准VPC资源——浮动IP、公共网关、Transit Gateway 等。 因此,建议用户检查群集网络资源所连接的虚拟网络接口的安全策略。

确保您的集群网络安全,不受IBM Cloud生态系统其他部分的影响*
确保您的集群网络安全,不受IBM Cloud
其他部分的影响确保您的集群网络安全,不受生态系统其他部分的影响*

要保持对群集网络的最小访问权限,您必须

  • 限制对连接到群集网络的实例的访问。
  • 确保每个可访问群集网络的实例上的 VPC 虚拟网络接口 (VNI) 都有一个严密的安全组。
    • 请务必仔细保护入站 TCP 请求,并考虑保护出站 TCP 请求。 有关详细信息,请参阅 为资源设置安全组
    • 确保连接到群集网络启用实例的子网具有适当的网络 ACL。
    • 为群集网络权限配置 IAM 策略。