关于 IBM Spectrum Scale
通过 IBM® Storage Scale,您可以使用 IBM Storage Scale 作为存储解决方案来部署高性能计算 (HPC) 集群。 此产品使用基于开放式源代码 Terraform 的自动化来供应和配置 IBM Cloud® 资源。 通过定义配置属性和使用自动部署的简单步骤,您可以在几分钟内构建自己的富存储集群。 IBM® Storage Scale 启用计算节点和存储节点的配置,以构建完整的端到端工作 HPC 集群。 该产品使用引导程序节点,在该节点中实际供应计算和存储节点以及安装和配置 Storage Scale 。 顶级 Terraform 代码将部署引导程序节点并启动子流程以触发 Terraform 代码的辅助层,从而实际部署集群组件。
引导节点 ( 体系结构图中的Ansible Controller Node ) 执行计算和存储集群资源的部署和配置。 定制映像 (请参阅 部署值中的
bootstrap_osimage_name
) 是作为此解决方案的一部分提供的,它包含引导程序节点所需的所有自动化脚本和软件包。 引导程序节点在此集群的整个生命周期内都是关键节点。 例如,您需要此节点以执行将来的操作,例如清除资源。 如果需要对集群部署问题进行故障诊断,那么需要引导程序节点,因为它包含用于创建计算和存储集群的 Terraform 日志。 在不再需要集群之前,不应删除引导程序节点。
已根据为并行部署计算和存储集群资源而触发的 Ansible 脚本的性能选择引导程序节点的缺省 VPC 实例概要文件。 如果选择较小的 VPC 实例概要文件,那么部署时间可能更长。
该产品支持根据应用程序需求部署临时 (或临时) 或持久存储器。 临时配置使用具有实例存储器的虚拟服务器实例,而持久配置使用具有本地连接的 NVMe 存储器的裸机服务器。 如果已关闭具有实例存储器的虚拟服务器实例的电源,那么在虚拟服务器实例的后续电源启动后,将无法访问存储在实例存储卷上的所有数据。 因此,对于长时间运行的工作负载或任务关键型工作负载,建议不要使用临时存储器。 除了更高的弹性外,与临时存储器相比,持久存储器还提供了更高的性能和容量。
该产品支持 IBM Storage Scale 的自带许可证 (BYOL) 模型,以在 IBM Cloud上部署 HPC 集群。 确保您有足够的软件许可证来部署 IBM Cloud 集群上所需的容量。 请联系 IBM Cloud 销售或支持团队以获取评估许可证。 或者,您还可以通过选择评估存储类型,在没有许可证的情况下在 IBM Cloud 上试用产品的临时存储功能。 有关更多信息,请参阅 存储类型。
Storage Scale 启用所有三个接口 :UI , API 和 CLI。 要使用 API 和 CLI 接口,此 公共 GitHub 存储库中提供了基于 Terraform 的自动化代码。
该产品支持创建基于 Storage Scale的初始 HPC 集群。 应使用 Storage Scale 工具和命令来执行有关 Storage Scale 配置或设置的任何部署后所需的更新。 如果使用 Schematics 接口对配置属性进行更改并重新应用这些更改,那么可能会导致运行中的 Storage Scale 集群中断。 将其恢复到工作状态可能并不容易。
体系结构图