IBM Cloud Docs
监视 Satellite

监视 Satellite

IBM Cloud Satellite® 随附基本工具,可帮助您管理 Satellite 资源的运行状况,例如复审位置和主机运行状况。 此外,您可以将 Satellite 和其他 IBM Cloud 资源与 IBM Cloud® Monitoring 集成,以获取全面的视图和工具来管理所有资源。

必须单独设置 Satellite 位置以及在您的位置中运行的 IBM Cloud 服务的监视。 例如,要收集 Satellite 位置设置的度量值,请启用 Monitoring 实例以在管理位置的同一区域中收集平台度量值。 然后,要收集在 Satellite 位置中运行的 Red Hat OpenShift on IBM Cloud 集群的度量值,请在集群中创建监视代理程序以自动收集 pod 度量值并将其转发到 Monitoring 实例。 请注意,您可以使用相同的 Monitoring 实例来收集在 Satellite 位置中运行的 Satellite 位置和服务的度量值。

了解缺省情况下记录和监视的内容

缺省情况下,Satellite 生成特定活动事件并监视位置和主机资源的状态。

审计 Satellite 操作的事件

请参阅 Satellite

IBM 监视以解析和报告位置警报

当您创建 Satellite 位置并设置位置控制平面时,IBM 会自动监视并解决有关位置设置和主机基础结构问题的特定警报。 下表描述了不同的方案以及 IBM 为解决这些方案而执行的操作。

此外,如果您 将 Satellite 设置为将日志转发到 IBM Cloud Logs,则 IBM 监控组件中的信息和更多详细信息将被捕获并存储到您的 IBM Cloud Logs 实例中。

IBM 监视操作以解决特定场景。
场景 操作
位置控制平面在三个单独的区域中没有主机。 检查位置中是否存在已连接的未分配主机。 如果主机可用,请将该主机分配给缺少的区域的位置控制平面,并优先选择具有与该区域匹配的标签的主机。
区域中的集群容量超过 80%。 阻止或允许创建 Red Hat OpenShift 集群。 将可用主机分配给位置控制平面以获取更多计算资源。
Red Hat OpenShift 集群处于不正常状态。 解决 Red Hat OpenShift 集群的某些运行状况问题。
缺省监视工具 (如 Prometheus ) 不起作用。 向 IBM Cloud Logs 实例发送警报,并返回包含进一步故障排除信息的状态信息。
入口子域注册失败。 提醒 IBM 工程师进一步对问题进行故障诊断,并返回状态消息以及进一步的故障诊断信息。

查看位置,主机和集群运行状况

您可以查看 Satellite 资源 (例如,在集群中运行的位置,主机,集群和 Kubernetes 资源) 的运行状况。

查看位置运行状况

当您设置 Satellite 位置时,IBM Cloud 将监视主机并报告可用于保持位置正常的状态。 有关更多信息,请参阅 IBM 监视以解析和报告位置警报。 有关故障诊断帮助,请参阅 调试位置运行状况

您可以从 Satellite 控制台中的 位置 表查看主机运行状况,也可以通过运行 ibmcloud sat location ls 来查看主机运行状况。

位置运行状况状态
运行状态 描述
action required 位置需要您注意。 请检查状态和消息以获取更多信息,然后尝试 调试位置
completed Satellite 在分配给控制平面的主机上完成了位置控制平面组件的设置。 该地点很快就可以投入使用。
completing Satellite 正在设置分配给控制平面的主机上的位置控制平面组件。 请稍等会儿再检查。
critical Satellite 位置控制平面需要您注意。 请检查状态和消息以获取更多信息,然后尝试 调试位置控制平面
failed Satellite 未成功解决您所在位置的问题。 有关详细信息,请参阅状态信息。
host required Satellite 位置已创建,但您必须 将主机分配给位置控制平面。 以 3 的倍数分配主机,例如 6,9 或 12。
normal Satellite 位置已准备就绪可供使用。
provisioning Satellite 的控制平面正在供应。 在控制平面就绪之前,无法将主机分配给位置中的其他 Satellite 资源 (例如集群)。
resolving Satellite 正在尝试为您解决问题,例如,将可用主机分配给控制平面以缓解容量问题。 有关详细信息,请参阅状态信息。

查看主机运行状况

将主机连接到 Satellite 位置时,IBM Cloud 会监视主机并报告可用于保持主机正常运行的状态。 有关更多信息,请参阅 IBM 监视以解析和报告位置警报。 有关故障诊断帮助,请参阅 调试主机运行状况

您可以从 Satellite 控制台中的 主机 表查看主机运行状况,也可以通过运行 ibmcloud sat host ls --location <location_name_or_ID> 来查看主机运行状况。

主机运行状况。
运行状态 描述
assigned 主机分配给 Satellite 资源,例如位置控制平面或集群。 查看状态,了解更多信息。 如果状态为 -,那么主机未完成到 Satellite 资源的引导过程。 对于刚刚分配的主机,请等待一个小时左右以完成此过程。 如果您仍看到状态,请 登录到主机以继续调试
health-pending 主机将作为供应和部署的工作程序节点分配并引导到集群中。 但是,IBM 在主机中设置的运行状况组件无法将状态通信回 IBM Cloud。 确保主机满足 最低主机和网络连接需求,并且主机不会被基础结构提供程序中的防火墙阻塞。
provisioning 主机连接到 Satellite 位置,并且正在引导过程中,以成为 Satellite 资源 (例如 Red Hat OpenShift on IBM Cloud 集群的工作程序节点) 的一部分。 当主机报告 provisioning 状态时,工作程序节点将经历供应和部署状态。 您可以在处于此状态时登录到主机以查看日志。 请参阅 登录到 RHEL 主机以进行调试登录到 RHCOS 主机以进行调试
ready 主机已连接到 Satellite 位置,并且已准备好 分配到 Satellite 资源
normal 主机已分配给 Satellite 资源 (例如,位置控制平面或集群),并且可供使用。
reload-required 主机连接到 Satellite 位置,但需要重新装入,然后才能将其分配到 Satellite 资源。 例如,您可能已删除 Satellite 集群,现在集群中的所有主机都需要重新装入。 要重新装入主机,必须 从位置中除去主机,在底层基础结构提供程序中重新装入操作系统,然后 将主机连接 回该位置。
unassigned 主机已连接到 Satellite 位置,并且已准备好 分配到 Satellite 资源。 如果尝试未成功分配主机,请参阅 无法将主机分配给集群
unknown 宿主的健康状况不明。 如果未分配主机,请尝试 将主机 分配给 Satellite 资源 (例如集群)。 如果分配了主机,请遵循 调试主机的运行状况 中的步骤来尝试调试主机。 如果主机仍存在问题,请尝试除去,更新和重新连接主机。
unresponsive 主机在过去 5 分钟内未使用 Satellite 位置控制平面进行检入。 当主机无响应时,无法分配该主机。 尝试 调试主机的运行状况,尤其是网络连接。

查看集群运行状况

要查看在 Satellite 位置中运行的 Red Hat OpenShift on IBM Cloud 集群的运行状况,请参阅 Red Hat OpenShift on IBM Cloud 文档

在集群中查看 Kubernetes 资源

将集群添加到 Satellite 配置时,Kubernetes 资源将自动添加到您可以查看的清单中。 有关更多信息,请参阅 使用 Satellite 配置管理应用程序

将群集添加到 Satellite 配置不会自动设置日志记录和监控解决方案,如 IBM Cloud Logs 和 IBM Cloud Monitoring。

查看集群的 Satellite 配置注册状态

您可以查看已启用以用于 Satellite 配置的集群的注册状态。 请注意,某些集群可能位于公共云位置,而不是您的Satellite位置。

  1. 列出向 Satellite 配置注册的集群。 记下 状态位置 列中的输出。
    ibmcloud sat cluster ls
    
  2. 查看以下 Satellite 配置注册状态。
主机运行状况。
状态 描述
active Satellite 该位置的配置组件安装在集群中,并且至少正在监视一个资源。
inactive Satellite 配置组件已从集群中手动除去,或已安装,但不再响应 Satellite 配置。 例如,网络连接可能已断开。 现有资源 (如果有) 将继续运行,但不会接收更新。 要解决此问题,请尝试调试 Satellite 位置集群
registered Satellite 配置组件安装在集群中,但当前未监视任何资源。 要设置 Watch-keeper,请参阅 查看由 Satellite 配置 管理的资源。

针对 Satellite 位置平台度量设置 Monitoring

在为平台级别度量启用的 IBM Cloud Monitoring 实例中转发和查看 Satellite 的其他度量。

度量可用于位置的 Satellite 链接组件,以帮助您监视该位置的特定链接端点或所有链接端点的性能。 例如,您可以监视所创建的特定链路端点的等待时间或吞吐量。

  1. 创建或选择现有 Monitoring 实例。

  2. 在“监视”仪表板中,单击 Monitoring 实例的 打开仪表板

  3. 在 Monitoring 仪表板中,单击 仪表板 > IBM > Satellite Link-概述。 此时将打开 Satellite 链接度量的预定义仪表板。 请注意,如果您刚刚创建了此 Monitoring 实例,那么可能需要最多两个小时才能使 **IBM ** 仪表板变为可用。

    您可以创建此仪表板的副本以定制所显示的度量。 要添加为 IBM Cloud Satellite启用的度量值,请搜索 ibm_satellite_link 前缀。

  4. 查看 可用度量用于分段的属性

  5. 查看可以 使用平台度量 的更多方法。

使用 Satellite 链接度量值的预定义仪表板设置 Monitoring 后,您可以通过单击 启动监视,从 Satellite 位置控制台的 链接端点 选项卡快速访问此仪表板。

可用度量值

以下度量可用于 Satellite 位置控制平面。

分段的属性

查看可用于对 Satellite 度量进行分段的以下全局属性和其他属性。

全局属性

以下全局属性可用于对所有 可用度量 进行分段。

度量分段的全局属性
属性 属性名称 属性描述
Cloud Type ibm_ctype 云类型,可以是公用,专用或本地
Location ibm_location 受监控资源的位置,可以是区域、数据中心或全球
Resource ibm_resource 由服务度量的资源,通常报告为标识名称或 GUID
Resource Type ibm_resource_type 由服务度量的资源类型
Resource group ibm_resource_group_name 创建 Satellite 位置的资源组
Scope ibm_scope 与此度量相关联的帐户 GUID
Service name ibm_service_name 生成此度量的服务的名称

其他属性

以下特定于 Satellite 的其他属性可用于对一个或多个 可用度量 进行分段。 请参阅每个度量的 Segment By 字段以确定其可用分段属性。

度量分段的其他属性
属性 属性名称 属性描述
Endpoint ID ibm_satellite_link_endpoint_id 终端的标识符
Endpoint Name ibm_satellite_link_endpoint_name 终端名称
Location ID ibm_satellite_link_location_id 地点的标识符
Service instance ibm_service_instance 服务实例段可识别度量值所关联的实例
Service instance name ibm_service_instance_name 用户提供的服务实例名称,在帐户中的区域之间可能不唯一

为集群设置监视

目前,您无法使用 Red Hat OpenShift on IBM Cloud 控制台来启用对 Satellite 群集的监控。 您必须在群集中手动部署监控代理,以便将指标转发到 Monitoring。

要为 Satellite 位置中运行的 Red Hat OpenShift 集群设置监视,请参阅 在 Red Hat OpenShift 集群中部署监视代理程序。 为 COLLECTOR_ENDPOINT 指定地址时,可以使用 satellite-sysdig 链接端点地址,以便不需要打开新的防火墙规则。