故障诊断

为何 IBM Cloud Schematics 无法克隆公共 GitHub 存储库?

Schematics 无法克隆公共 GitHub 存储库，您将看到下列其中一条错误消息:

Fatal, could not download repo, Failed to clone git repository, authentication required (or the git url is incorrect). Problems found with the Repository. Please Rectify and Retry
Template error: Failed to clone git repository, authentication required (or the git url is incorrect)

您未提供正确的 GitHub URL ，或者提供了 GitHub 令牌，克隆公共存储库不需要此令牌。仅需要 GitHub 访问令牌才能访问专用存储库。

请勿提供 GitHub 令牌，并检查在使用公用存储库创建工作空间时是否在 github_token 参数中提供了 GitHub 令牌。

为什么 IBM Cloud Schematics 无法创建工作空间?

Schematics 无法创建工作空间，您将看到以下错误消息: You don't have the required to create a workspace in any resource groups. You must be assigned the manager role on the Schematics service in at least one resource group. Contact your account administrator for access.

您没有在任一资源组中创建工作空间的必需访问权。必须为您分配对要在其中部署集群资源的资源组的 Schematics 服务的管理者角色。

请与帐户管理员联系，并分配给您要在其中部署集群资源的资源组的 Schematics 服务上的管理员角色。

为什么 IBM Cloud Schematics 无法供应集群，并且由于授权错误而失败?

Schematics 无法供应集群，您将看到以下错误消息: Request is not authorized. Check your user permissions and authorizations and try again.

您没有必需的访问权来供应任何 VPC 资源。

请联系您的帐户管理员并获取所需的访问许可权。有关更多信息，请参阅必需许可权。

为什么 IBM Cloud Schematics 无法供应集群，并且由于提供的名称不是唯一的错误而失败?

Schematics 无法供应集群，您将看到以下示例错误消息:

"code": "validation_unique_failed",
"message": "Provided Name (sample-scale-vpc) is not unique",
"target": {
"name": "name",
"type": "field",
"value": "sample-scale-vpc"
}

资源名称必须唯一。如果存在具有相同名称的资源，那么可能会发生类似错误。

由于资源名称需要唯一，请检查生成错误的资源。在 UI 和 CLI 中，可以访存该特定资源的详细信息。如果该资源由您拥有，请更新资源名称以使其唯一。如果资源由其他用户拥有，请浏览到 Schematics 工作空间并销毁所有资源。更改集群前缀名称，然后通过 Schematics再次供应集群。

为何 IBM Cloud Schematics 在使用定制映像时无法供应集群?

使用定制映像时， Schematics 无法供应集群，并且您会看到下列其中一条错误消息:

The argument "image" is required, but no definition was found.
Unknown variable. There is no variable named "image_id".

用于其中一个虚拟服务器实例的定制映像在目标区域和区域中不存在，或者无法通过用于供应集群的帐户和 API 密钥进行访问。

如果要将定制映像用于任何虚拟服务器实例，请确保该定制映像在目标区域和区域中可用，并且可供用于供应集群的帐户和 API 密钥访问。

为什么我收到刷新令牌的错误?

在 generate a plan， apply a plan和 destroy resources 请求中接收到刷新令牌错误: Error: The provided Refresh Token is invalid. Please provide a proper refresh token for Terraform to run the configuration. Code: 400

您未提供正确的刷新令牌，或者未完全提供刷新令牌。

检查使用 curl 命令生成的刷新令牌是否正确; 否则，重新生成刷新令牌。

对工作空间应用更改时，为什么会收到错误?

当您尝试将更改应用于工作空间时，收到以下错误: Apply failed due to "Error: Error Deleting Volume : The volume is still attached to an instance."

在重新配置卷概要文件，容量或 IOPS 之后，需要先清除工作空间，然后再应用更改。

您需要销毁现有资源，然后再次尝试应用更改。如果破坏现有资源，那么将删除存储节点上的数据。

为什么我在生成或应用计划时接收到资源组错误?

尝试生成计划或将计划应用于工作空间时，您收到以下错误: Apply failed due to "[ERROR] Given Resource Group is not found in the account %!!(MISSING)s()."

在生成或应用计划期间， Terraform 会尝试验证为配置资源而提供的所有基本输入参数是否都可用。在此过程中， Terraform 会检查资源组的名称是否有效以及在 IBM Cloud上是否可用。

您需要检查提供的资源组名称是否在部署所在的特定帐户中可用。您还可以检查资源组名称中是否包含任何空格，并验证该名称是否区分大小写。

为什么我接收到未找到图像的错误?

尝试生成计划或将计划应用于工作空间时，您收到以下错误: Apply failed due to "Error: [ERROR] No image found with name hpcc-spectrumscalecontroller513-06may2021-rhel84-v6."

在生成或应用计划期间， Terraform 会尝试验证 image_map.tf 文件中是否存在提供的映像名称及其映像标识。如果 Terraform 找到正确的映像详细信息，那么它会供应实例，但如果找不到正确的映像详细信息，那么 Terraform 会尝试从 IBM Cloud 到 data_source访存映像详细信息。

即使提供的映像在该特定区域的云中不存在，您仍可能会接收到错误。

您需要检查所提供的映像名称是否具有任何空间，以及该映像是否存在于要执行部署的区域中。

为什么我接收到 `cannot_start_capacity` 错误?

尝试将计划应用于工作空间时，您收到以下错误: Apply failed due to "code : cannot_start_capacity : message : Can't start instance because resource capacity is unavailable."

在应用计划过程中， Terraform 会根据所选部署值启动虚拟服务器实例供应过程。如果在尝试部署的区域中存在资源容量问题或配额问题，那么资源不会按预期供应。

您需要与帐户管理员交谈以增加特定区域的配额，或者可以尝试清除与云基础结构相关联的所有不需要的资源。如果清除不需要的资源，那么可能会释放空间以供部署处理。

集群为何会因 IBM 客户编号错误而失败?

尝试将计划应用于工作空间时，您收到以下错误: Apply failed due to "ERROR - [CLOUD-DEPLOY] Provided IBM Customer Number is not entitled to use Spectrum Scale on Cloud. Kindly contact IBM Support Team. Exiting!"

在应用计划过程中，引导程序节点启动供应资源以创建存储器和计算集群。在此过程中，需要通过 Bring-Your-Own-License 概念对 rpm-and gpfs-related 软件包进行解密。如果 IBM 客户编号有效，那么部署将开始。如果没有，那么自动化会导致部署发生错误。

您需要提供有权使用 Storage Scale 的有效 IBM 客户编号，而该编号中不包含任何空格。如果您提供的值有效并且仍收到此错误，请联系 IBM 支持人员以澄清有关权利的信息。

为什么 SSH 连接失败，而我无法连接到节点?

在成功部署集群之后，无法从本地机器通过 SSH 连接到节点。

成功部署集群后，由于以下问题，您将无法通过 SSH 连接到节点:

在自动化过程中， SSH 密钥未正确安装在虚拟服务器实例上。
使用了错误的 SSH 密钥名称。例如，使用了不是由尝试建立 SSH 连接的个人拥有的 SSH 密钥名称。
安全组没有相应的源范围。

您可以尝试以下过程来帮助对 SSH 问题进行故障诊断:

请确保您具有正确的 IP 地址来建立 SSH 连接。刷新 UI 以访存最新的 IP 地址详细信息。
检查 SSH 连接是否适用于防御主机 (例如， ` ssh ubuntu @) )。如果连接成功，那么可以对其他节点的 SSH 问题进行故障诊断。
打开防御主机的安全组，并检查是否从用户机器打开了具有源范围的 TCP 端口 22。
使用 https://ipv4.icanhazip.com/ 来访存当前 IP 地址，并验证源地址范围的安全组上是否存在其他已更新的 IP 地址。
打开引导程序，计算和存储节点的安全组，以查看防御节点安全组源详细信息，从而访问 SSH 以连接到其他节点。
确保区域中使用的公用 SSH 密钥与本地机器中的 id_rsa.pub 内容相匹配。使用命令 cd .ssh 和 cat id_rsa.pub 进行检查。
确保本地机器中的 .ssh 文件夹中不存在重复的 id_rsa.pub 文件。

在创建 VPC 和子网期间， `subnet_not_in_address_prefix` 错误或无效 CIDR 格式错误是什么?

尝试将计划应用于工作空间时，您收到以下错误: Apply failed due to Error: [ERROR] Error while creating subnet. The specified CIDR does not fit in any of the address prefixes in the specified VPC. Make sure the subnet's CIDR is a subset of the CIDR of one of the address prefixes.

在应用计划过程中，工作空间尝试根据部署值创建具有指定范围的 CIDR 地址前缀的 VPC 和子网。如果地址前缀范围超出范围或不属于 VPC 的 IP 地址范围的系列，那么您会收到一个错误，表明该地址不在范围内。

验证为子网创建提供的地址前缀范围是否来自用于 VPC 的相同地址范围。例如，如果 VPC 地址前缀为 10.241.0.0/18，那么子网应该在 10.241.x.x 范围内。如果使用其他 IP 地址范围，那么需要划分子网并选择子网创建所需的 IP 地址范围。

为什么我的实例供应仍处于 `Starting` 状态?

应用计划后，工作空间需要很长时间来供应虚拟服务器实例，并且您在 UI 中注意到该虚拟服务器实例仍处于 Starting 状态。

在应用计划过程中， Terraform 会启动云基础架构中虚拟服务器实例的供应过程。如果存在容量问题或来自该特定区域和区域的基础结构方面的任何问题，那么您可能会看到此问题。

您可以尝试使用自动化过程中使用的相同映像在 UI 中手动创建实例，以查看您是否迂到相同的问题，也可以尝试使用其他区域进行部署。您还可以针对此问题提出支持请求，以查看该问题是否源自基础架构方面。

为什么我收到一个错误，即我无权查看该实例?

尝试将计划应用于工作空间时，您接收到以下错误:

Apply failed due to error fetching keys. The provided token is not authorized to list keys in this account
Error: the provided token is not authorized to view the specified instance (ID:*) in this account

在应用计划过程中， Storage Scale 自动化与可信概要文件集成，用于授权目的，为引导节点提供创建计算资源的许可权。

请与管理员联系，以提供对可信概要文件的所需许可权集，以便进行部署。要获取更多支持，您可以向 IBM 支持人员提出请求。

为什么 PERFMON 的运行状况显示为失败状态?

完成集群设置后，运行命令 mmhealth node show 或 mmhealth cluster show 以验证节点的运行状况， PERFMON 节点处于失败状态。

PERFMON 节点将其中一个 pmsensors 用于设置，并且 pmsensors 服务可能未按预期启动。

运行以下命令以查看特定日志来解决此问题:

运行以下命令以检查 pmsensors的状态:

systemctl status pmsensors

样本响应

pmsensors.service - zimon sensor daemon
Loaded: loaded (/usr/lib/systemd/system/pmsensors.service; enabled; vendor preset: disabled)
Active: failed (Result: start-limit) since Wed 2022-05-11 11:13:44 UTC; 2h 5min ago
Main PID: 19206 (code=exited, status=78)
May 11 11:13:44 anbu-scale-r4-compute-1 systemd[1]: pmsensors.service failed.

运行以下命令以重新启动 pmsensors 服务:
```
systemctl restart pmsensors
```

可以在 cd /var/adm/ras 和 cat mmsysmonitor.log上检查日志。

为什么我的集群部署在 Schematics 中失败，并返回 `signal KILL` 错误?

当 Schematics 设置集群时，部署失败，错误类似于: Error: error executing "/tmp/terraform_516879781.sh": Process exited with status 137 from signal KILL

集群供应是一个两阶段过程。在第一阶段中， Schematics 部署一些初始资源和防御主机。在第二阶段中， Schematics 使用 SSH 从防御主机远程访问引导程序节点，然后启动后续资源供应。在第二阶段中，如果任何资源供应耗时过长，那么 Schematics 将停止 SSH 进程，这将导致 signal KILL 错误。如果裸机供应需要超过 40 分钟的时间，那么可能会发生此情况。

由于 Schematics 是免费服务，因此远程执行的时间限制为 1 小时。如果经过一个小时的时间限制，那么 Schematics 会自动停止部署并返回 signal KILL 错误。

解决此问题的唯一方法是从失败的部署中清除所有资源，然后尝试执行新的部署。

为何集群部署失败并出现 "唯一名称" 错误?

在集群供应期间，部署失败，发生以下错误: The provided name is not unique name: <bare_metal_server_name>。

在云环境中，应该唯一地命名所有资源。在集群供应期间，所有资源名称都存储在后端数据库中。如果集群供应尝试失败，并且您尝试从此失败尝试中清除资源，那么可能需要一段时间才能从后端数据库中清除资源名称。如果在后续重新供应尝试期间使用了相同的集群前缀，那么可能是新资源的名称与先前尝试的旧条目发生冲突。

部署失败后，请清除所有资源。在后续尝试期间，使用新的集群前缀以避免与先前失败尝试中的资源发生任何名称冲突。

为什么我的集群因 "API Marketplace" 检查错误而失败?

在集群供应期间，部署失败，发生以下错误:

ERROR - IBM Marketplace API error: An error occurred processing the request
ERROR - IBM Marketplace API error: Internal Server Error

Storage Scale 解决方案基于 "自带许可证" 模型。在集群供应期间，将进行检查以确保您有权使用 Storage Scale 软件。

为了验证软件权利，自动化代码使用 Marketplace API URL 来检查所提供的 IBM 客户编号 (ICN) 是否有权使用 Storage Scale 软件部件号。可能是 Marketplace API 服务迂到了临时问题，无法为请求提供服务。

请向 IBM Cloud 支持人员提交问题。这需要报告给提供此功能的特定 API 团队。请求 IBM 客户支持团队将此问题传递给 Marketplace API 团队。

在裸机服务器供应失败后尝试删除资源时，为什么会发生错误?

在裸机服务器无法供应并且您尝试从引导程序节点中删除资源之后，在应用 mmcloudworkflows cluster destroy ibmcloud 命令之后，您将接收到以下错误: [ERROR] Error deleting security group target binding while deleting security group : The specified network interface is not attached to any other security groups..

如果集群供应失败，建议先从失败的供应中清除所有资源，然后再尝试重新供应集群。

在销毁过程中，引导程序节点尝试清除在供应阶段创建的所有资源 (例如，计算节点，裸机服务器，安全组等)。可能是如果裸机服务器供应耗时超过预期，然后失败，那么在后续清除期间，破坏进程会抱怨失败的裸机服务器仍连接到它正在尝试破坏的安全组。

复制集群前缀名称并完成以下步骤:

转至安全组并访问 -storage-sg。
转至安全组的 "附加资源" 部分。
单击连接的裸机服务器并复制服务器的标识。

从 CLI 运行以下命令以停止和删除服务器:

ibmcloud is bare-metal-server-stop $bare_metal_server_id

ibmcloud is bare-metal-server-delete $bare_metal_server_id

删除裸机服务器需要几秒钟时间。删除裸机节点后，请访问引导节点并重新应用 mmcloudworkflows cluster destroy ibmcloud 命令。

为什么 IBM Cloud Schematics 无法供应集群，并且由于无密码 SSH 错误而失败?

引导程序节点创建所有资源后，该解决方案会触发 Ansible 代码以在 Storage 裸机服务器上配置整个 Scale 配置。在 Ansible 配置期间，发生以下错误: [ERROR] Check passwordless SSH on all scale inventory hosts (1 retries left)

在启动并运行所有与基础结构相关的资源后， Ansible 代码尝试通过无密码 SSH 方法执行 Scale 配置。在此过程中，在存储裸机服务器上，如果 SSH 服务未处于运行状态，那么 Ansible 无法通过 SSH 连接到该特定裸机存储节点，并且此操作将失败并返回错误。

部署失败后，请清除所有资源。在后续尝试期间，使用新的集群前缀以避免与先前失败尝试中的资源发生任何名称冲突。如果问题继续发生，请向 IBM Cloud 支持人员提交问题。

为什么 IBM Cloud Schematics 无法供应集群，并且由于 `Enabling the Custom resolver` 错误而失败?

当 Schematics 尝试创建 VPC 资源时，它会尝试创建定制解析器，但失败并返回以下错误: [ERROR] Error Enabling the Custom resolver : MaxTimeout

Terraform 尝试创建定制解析器环境，并等待定制解析器状态达到活动状态。在此过程中，如果定制解析器花费的时间超过预期，那么 Terraform 会抛出错误消息。