IBM Cloud Docs
IBM Spectrum Symphony 故障诊断

IBM Spectrum Symphony 故障诊断

为何 IBM Cloud Schematics 无法克隆专用 GitHub 存储库?

Schematics 无法克隆专用 GitHub 存储库,您看到以下错误消息: Failed to clone git repository, repository not found (check url, also check the scope 'repo' of the personal access token if SCHEMATICSGITTOKEN is used)

您未提供正确的 GitHub 令牌,或者未完全提供 GitHub 令牌。

提供 GitHub 令牌,并检查是否在创建工作空间 API 的 github_token 参数中提供了正确的 GitHub 令牌。

为何 IBM Cloud Schematics 无法克隆公共 GitHub 存储库?

Schematics 无法克隆公共 GitHub 存储库,您将看到下列其中一条错误消息:

  • Fatal, could not download repo, Failed to clone git repository, authentication required (or the git url is incorrect). Problems found with the Repository. Please Rectify and Retry
  • Template error: Failed to clone git repository, authentication required (or the git url is incorrect)

您未提供正确的 GitHub URL,或者提供了 GitHub 令牌,克隆公共存储库不需要此令牌。 仅需要 GitHub 访问令牌才能访问专用存储库。

请勿提供 GitHub 令牌,并检查在使用公共存储库创建工作空间时是否在 github_token 参数中提供了 GitHub 令牌。

为什么 IBM Cloud Schematics 无法创建工作空间?

Schematics 无法创建工作空间,您看到以下错误消息: You don't have the required to create a workspace in any resource groups. You must be assigned the manager role on the Schematics service in at least one resource group. Contact your account administrator for access.

您没有在任一资源组中创建工作空间的必需访问权。 必须在至少一个资源组中的 Schematics 服务上为您分配管理者角色。

请与帐户管理员联系,并在至少一个资源组中的 Schematics 服务上分配管理员角色。

为什么 IBM Cloud Schematics 无法供应集群,并且失败并显示 symphony_license_confirmation 变量的错误消息?

Schematics 无法供应集群,您看到以下错误消息: Error: Invalid value for variable "symphony_license_confirmation"

您为属性 symphony_license_confirmation 输入了除 "true" 以外的值。

属性 symphony_license_confirmation 仅接受 "true" 作为有效值。 "true" 值表示您已同意以下两个条件之一:

  1. 如果要部署生产集群,那么您已与业务团队确认您具有足够的许可证以在 IBM Cloud 上部署 IBM Spectrum LSF,并且这些许可证涵盖在“国际程序许可协议”(IPLA) 下使用。
  2. 您将在 IBM Cloud 上部署具有 IBM Spectrum LSF 的评估集群,并同意遵守国际程序评估许可协议 (ILAE)。

可以在 此处找到针对 IPLA 和 ILAE 的 IBM 软件使用条款。

在您同意其中一个条件后,将属性值更新为 "true",然后重试。

为什么 IBM Cloud Schematics 无法供应集群,并且由于授权错误而失败?

Schematics 无法供应集群,您看到以下错误消息: Request is not authorized. Check your user permissions and authorizations and try again.

您没有必需的访问权来供应任何 VPC 资源。

请联系您的帐户管理员并获取所有必需的访问权。 有关更多信息,请参阅 必需许可权

为什么 IBM Cloud Schematics 无法供应集群,并且由于提供的名称不是唯一的错误而失败?

Schematics 无法供应集群,您将看到以下示例错误消息:

"code": "validation_unique_failed",
"message": "Provided Name (sample-symphony-vpc) is not unique",
"target": {
"name": "name",
"type": "field",
"value": "sample-symphony-vpc"
}

VPC 资源名称必须唯一。 如果存在具有相同名称的资源,那么可能会发生类似错误。

请取消供应现有资源,然后重试。

为何 IBM Cloud Schematics 在使用定制映像时无法供应集群?

使用定制映像时,Schematics 无法供应集群,您将看到下列其中一条错误消息:

  • The argument "image" is required, but no definition was found.
  • Unknown variable. There is no variable named "image_id".

用于其中一个虚拟服务器实例的定制映像在目标区域和区域中不存在,或者无法通过用于供应集群的帐户和 API 密钥进行访问。

如果要将定制映像用于任何虚拟服务器实例,请确保该定制映像在目标区域和区域中可用,并且可供用于供应集群的帐户和 API 密钥访问。

为什么我收到刷新令牌的错误?

generate a planapply a plandestroy resources 请求中接收到刷新令牌错误: Error: The provided Refresh Token is invalid. Please provide a proper refresh token for Terraform to run the configuration. Code: 400

您未提供正确的刷新令牌,或者未完全提供刷新令牌。

检查使用 curl 命令生成的刷新令牌是否正确; 否则,重新生成刷新令牌。

对工作空间应用更改时,为什么会收到错误?

当您尝试将更改应用于工作空间时,收到以下错误: Apply failed due to "Error: Error Deleting Volume : The volume is still attached to an instance."

在重新配置卷概要文件,容量或 IOPS 之后,需要先清除工作空间,然后再应用更改。

您需要销毁现有资源,然后再次尝试应用更改。 如果破坏现有资源,那么将删除存储节点上的数据。

为什么我接收到提供的 ssh_key_name 值的错误?

尝试在 Schematics 工作空间上生成或应用计划时,您收到以下错误: failed due to "Error: No SSH Key found with name <KEY_NAME>".

Terraform 找不到您提供的给定 SSH 密钥名称。

  1. 请检查在供应集群的当前区域中是否存在给定的 SSH 密钥。 如果给定的 SSH 密钥不存在,请在当前区域中创建 SSH 密钥。
  2. 配置多个 SSH 密钥时,请确保在 SSH 密钥名称之前或之后未添加任何空格。
  3. 如果要使用多个 SSH 密钥,请检查是否使用逗号 (,) 作为 SSH 密钥之间的定界符,并且在 SSH 密钥之前或之后未添加空格。

为什么在尝试运行 Spectrum Symphony VaR 模拟时迂到错误?

尝试运行 Spectrum Symphony Value at Risk(VaR)模拟时迂到 Failed to Login 错误。

您可能正在使用 VaR 模拟来达到限制,这要求集群前缀不超过 10 个字符,并且 Symphony 主主机主机名少于 20 个字符。

确保集群前缀长度不超过 10 个字符。

当工作负载正在进行时,将释放工作程序节点

symA 请求者可能会在工作负载仍在进行时释放计算节点虚拟机。 当属性 return_idle_only 设置为 true 并且立即返回策略 symA 无法获取此主机的分配时,会发生此情况,因此假定它没有分配。 如果受监视应用程序仅剩几个任务,那么会发生此问题。 有关更多信息,请参阅 在除去工作程序节点之前更新空闲时间

不正确的提供程序配置值不会导致错误

从 Symphony GUI 更新 IBM Cloud 提供程序配置时,在 “菜单”图标 “菜单”图标 资源> 云> 配置处,不会验证配置中设置的值。 如果配置中存在无效值,那么虚拟机供应将失败。 如果发生故障,请检查在 /opt/ibm/spectrumcomputing/hostfactory/log for more information 中运行 HostFactory 服务的主机上的主机工厂日志。

专用主机的可用概要文件限制

产品会自动选择专用主机的实例概要文件作为工作程序实例 (worker_node_instance_type) 的相同前缀 (例如,bx2 和 cx2)。但是,可以根据您的目标区域来限制可用的实例前缀。 如果使用专用主机,请检查 ibmcloud target -r {region_name}ibmcloud is dedicated-host-profiles 以查看 worker_node_instance_type 是否具有目标区域的可用前缀。

为什么我看到由于认证或超时问题导致的资源错误?

在创建任何特定资源期间,您将接收到以下错误消息:

  • Error: An error occurred while performing the ‘authenticate’ step: Post “https://iam.cloud.ibm.com/identity/token”: context deadline exceeded (Client.Timeout exceeded while awaiting headers)
  • Error: timeout while waiting for state to become 'done, ' (last state: 'provisioning', timeout: 10m0s)

当 Schematics 部署基础架构资源时,它会通过 API 调用向 IBM Cloud 进行认证。 如果通过 API 向云环境发出的请求过多,那么 Schematics 将无法进行认证,并且可能会发生认证错误。

要解决任一问题 (由于认证错误或超时错误导致资源失败),请销毁 Schematics 工作空间中的资源,然后重试部署资源。

为何由于 SSH 问题而导致集群创建失败?

当 Ansible 供应程序尝试在工作程序和存储节点资源上设置 Storage Scale 函数时,您将接收到以下错误消息:

  • msg": "Failed to connect to the host via ssh, Connection closed by UNKNOWN port 65535", "unreachable": true}
  • Error: Failed to connect to the host via ssh: Connection timed out during banner exchange", "unreachable

当 Schematics 部署基础结构资源时,会使用一些 Ansible 运行手册来配置自动化代码,需要这些运行手册才能在虚拟服务器实例节点上设置 Storage Scale 函数,并提供 Ansible 配置程序的帮助。 当 Ansible 供应程序尝试通过 SSH 连接到这些节点以使用 Storage Scale 功能时,这些节点将进入 unreachable 状态。

要解决此问题,您可以:

  1. 请尝试销毁工作空间中的资源,然后重新部署。
  2. 如果在所有部署上都发现此问题,请向 IBM Cloud 支持团队提出支持问题,以调查是否存在基础架构问题。
  3. 如果基础结构没有问题,请向可以进一步调查的自动化团队报告此问题。

为什么我接收到未找到图像的错误?

尝试生成计划或将计划应用于工作空间时,您收到以下错误: Apply failed due to "Error: [ERROR] No image found with name hpcc-symp731-scale5151-rhel84-v1-4".

在生成或应用计划期间,Terraform 会尝试验证 image_map.tf 文件中是否存在所提供的映像名称及其映像标识。 如果 Terraform 找到正确的映像详细信息,那么它会供应实例,但如果找不到正确的映像详细信息,那么 Terraform 会尝试从 IBM Cloud 到 data_source 访存映像详细信息。

即使提供的映像在该特定区域的云中不存在,您仍可能会接收到错误。

您需要检查所提供的映像名称是否具有任何空间,以及该映像是否存在于要执行部署的区域中。

为什么我接收到 cannot_start_capacity 错误?

尝试将计划应用于工作空间时,您收到以下错误: Apply failed due to "code : cannot_start_capacity : message : Can't start instance because resource capacity is unavailable.

在应用计划过程中,Terraform 会根据所选部署值启动虚拟服务器实例供应或裸机服务器过程。 如果在尝试部署的区域中存在资源容量问题或配额问题,那么资源不会按预期供应。

您需要与帐户管理员交谈以增加特定区域的配额,或者可以尝试清除与云基础结构相关联的所有不需要的资源。 如果清除不需要的资源,那么可能会释放空间以供部署处理。

集群为何会因 IBM 客户编号错误而失败?

尝试将计划应用于工作空间时,您收到以下错误: Apply failed due to "ERROR - [CLOUD-DEPLOY] Provided IBM Customer Number is not entitled to use Spectrum Symphony on Cloud. Kindly contact IBM Support Team. Exiting!

在应用计划过程中,引导程序节点启动供应资源以创建存储器和计算集群。 在此过程中,需要通过 BYOL 概念对 RPM 和 GPFS 相关包以及 Symphony 包进行解密。 如果 IBM 客户编号有效,那么将开始部署。 如果没有,那么自动化会导致部署发生错误。

您需要提供有权使用 Spectrum Symphony 的有效 IBM 客户编号,而该编号中不包含任何空格。 如果您提供的值有效并且仍收到此错误,请联系 IBM 支持人员以澄清有关权利的信息。

为什么我的实例供应仍处于 Starting 状态?

应用计划后,工作空间需要很长时间来供应虚拟服务器实例,并且您在用户界面中注意到该虚拟服务器实例仍处于 Starting 状态。

在应用计划过程中,Terraform 会启动云基础架构中虚拟服务器实例的供应过程。 如果存在容量问题或来自该特定区域和区域的基础结构方面的任何问题,那么您可能会看到此问题。

您可以尝试使用自动化过程中使用的相同映像在用户界面中手动创建实例,以查看您是否迂到相同问题,也可以尝试使用其他区域进行部署。 您还可以针对此问题提出支持请求,以查看该问题是否源自基础架构方面。

在裸机服务器供应失败后尝试删除资源时,为什么会发生错误?

在裸机服务器无法供应并且您尝试从引导程序节点中删除资源之后,在应用 mmcloudworkflows cluster destroy 命令之后,您将接收到以下错误: [ERROR] Error deleting security group target binding while deleting security group : The specified network interface is not attached to any other security groups.

如果集群供应失败,建议先从失败的供应中清除所有资源,然后再尝试重新供应集群。

在销毁过程中,引导程序节点尝试清除在供应阶段创建的所有资源。 如果裸机服务器供应花费的时间可能超出预期,然后失败,那么在后续清除期间,破坏进程会抱怨失败的裸机服务器仍连接到它尝试破坏的安全组。

复制集群前缀名称并完成以下步骤:

  1. 转至安全组并访问 -storage-sg。

  2. 转至安全组的“附加资源”部分。

  3. 单击连接的裸机服务器并复制服务器的标识。

  4. 从 CLI 运行以下命令以停止和删除服务器:

    ibmcloud is bare-metal-server-stop $bare_metal_server_id
    
    ibmcloud is bare-metal-server-delete $bare_metal_server_id
    

删除裸机服务器需要几秒钟时间。 删除裸机节点后,转至 Schematics 并应用销毁资源。

在 VPC 和子网创建期间,subnet_not_in_address_prefix 错误或 invalid CIDR format 错误是什么?

尝试将计划应用于工作空间时,您收到以下错误: Apply failed due to Error: [ERROR] Error while creating subnet. The specified CIDR does not fit in any of the address prefixes in the specified VPC. Make sure the subnet's CIDR is a subset of the CIDR of one of the address prefixes.

在应用计划过程中,工作空间尝试根据部署值创建具有指定范围的 CIDR 地址前缀的 VPC 和子网。 如果地址前缀范围超出范围或不属于 VPC 的 IP 地址范围的系列,那么您会收到一个错误,表明该地址不在范围内。

验证为子网创建提供的地址前缀范围是否来自用于 VPC 的相同地址范围。 例如,如果 VPC 地址前缀为 10.241.0.0/18,那么子网应该在 10.241.x.x 范围内。 如果使用其他 IP 地址范围,那么需要划分子网并选择子网创建所需的 IP 地址范围。

为何部署失败并显示 "process exited with status 2" 错误消息?

尝试将计划应用于工作空间时,您收到以下错误: Apply failed due to Error: Error: remote-exec provisioner error and error executing "/tmp/terraform_1756078506.sh": Process exited with status 2.

使用逻辑来实现解决方案,以评估所提供的许可证号是否有效。 此功能是在定制映像的基础上设计的,因此每次完成部署时,它都会评估并解密产品部署所需的软件包以完成。 如果使用的映像不具有此功能,那么自动化代码会发生错误。

使用解决方案团队提供的相应定制映像,该映像具有评估许可证和解密软件包的功能。

为什么 IBM Cloud Schematics 无法供应集群,并且由于 Enabling the Custom resolver 错误而失败?

当 Schematics 尝试创建 VPC 资源时,它尝试创建定制解析器,但失败并返回以下错误: [ERROR] Error Enabling the Custom resolver : MaxTimeout

Terraform 尝试创建定制解析器环境,并等待定制解析器状态达到活动状态。 在此过程中,如果定制解析器花费的时间超过预期,那么 Terraform 会抛出错误消息。

部署失败后,请清除所有资源。 在后续尝试期间,使用新的集群前缀以避免与先前失败尝试中的资源发生任何名称冲突。 如果问题继续发生,请向 IBM Cloud 支持人员提交问题。

为什么 IBM Cloud Schematics 无法供应集群,并且由于无密码 SSH 错误而失败?

Schematics 在 spectrum_scale_enabled 设置为 true 时创建所有资源后,解决方案会触发 Ansible 代码以在 Storage 裸机服务器上配置整个 Scale 配置。 在 Ansible 配置期间,发生以下错误: [ERROR] Check passwordless SSH on all scale inventory hosts (1 retries left)

在启动并运行所有与基础结构相关的资源后,Ansible 代码尝试通过无密码 SSH 方法执行 Scale 配置。 在此过程中,在存储裸机服务器上,如果 SSH 服务未处于运行状态,那么 Ansible 无法通过 SSH 连接到该特定裸机存储节点,并且此操作将失败并返回错误。

部署失败后,请清除所有资源。 在后续尝试期间,使用新的集群前缀以避免与先前失败尝试中的资源发生任何名称冲突。 如果问题继续发生,请向 IBM Cloud 支持人员提交问题。

为什么 IBM Cloud Schematics 无法供应集群,并且由于 nmmcrcluster 错误而失败?

Schematics 在 spectrum_scale_enabled 设置为 true 时创建所有资源后,解决方案会触发 Ansible 代码以在 Storage 裸机服务器上配置整个 Scale 配置。 在 Ansible 配置期间,发生以下错误: [ERROR] nmmcrcluster: Error found while checking node descriptor

在启动并运行所有与基础结构相关的资源后,Ansible 代码尝试通过无密码 SSH 方法执行 Scale 配置。 在此过程中,在 Storage 裸机服务器上,如果未从先前的 destroy 命令正确清除其中一个裸机配置,那么可能会看到错误。

部署失败后,请清除所有资源。 在后续尝试期间,使用新的集群前缀以避免与先前失败尝试中的资源发生任何名称冲突。 如果问题继续发生,请向 IBM Cloud 支持人员提交问题。