IBM Cloud Docs
监视集群运行状况

监视集群运行状况

对于集群指标和应用程序监控,Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,可帮助您管理单个集群实例的健康状况。 您还可以为多集群分析或其他用例设置 IBM Cloud 工具,如 IBM Cloud Kubernetes Service 集群附加组件:IBM Cloud Logs 和 IBM Cloud Monitoring。

了解用于监视的选项

为帮助了解何时使用内置 Red Hat OpenShift 工具或 IBM Cloud 集成,请查看以下信息。

具有 RHCOS 工作程序节点的专用集群中的监视限制: 监视代理程序依赖于操作系统中的内核头,但是 RHCOS 没有内核头。 在此场景中,代理程序返回到 sysdig.com 以使用预编译的代理程序。 在没有公用网络访问权的集群中,此过程失败。 要允许对 RHCOS 集群进行监视,必须 允许出站流量 或参阅 Sysdig 文档以了解 在气郄环境中安装代理程序

IBM Cloud Monitoring

查看有关 IBM Cloud Monitoring的以下详细信息。

  • 可定制用户界面,用于统一查看集群度量值、容器安全性、资源使用情况、警报和定制事件。
  • 通过脚本与集群快速集成。
  • 跨集群和云提供者的聚集度量值和容器监视。
  • 基于时间线和套餐,具有对度量值的历史访问权,以及捕获和下载跟踪文件的能力。
  • 可用性和可伸缩性高,符合行业安全标准。
  • 与 IBM Cloud IAM 集成,以进行用户访问管理。

内置 Red Hat OpenShift 监控工具

OpenShift 包含预配置,预安装和自更新的监视堆栈,用于针对每个集群提供对核心平台组件的监视。 此监视包括 openshift-monitoring 项目中用于集群度量的内置 Prometheus 和 Grafana 部署,仅在单个专区中可用。 您可以从 Red Hat OpenShift Web 控制台查看和管理监视仪表板,度量值和警报。 有关更多信息,请参阅 Red Hat OpenShift 文档中的 监视

默认情况下,监控堆栈不使用持久性存储来备份指标历史记录,而是使用主机文件系统中的临时 EmptyDir 卷。 度量历史记录的保留期从 11 到 15 天不等,具体取决于集群版本。 对于某些工作负载,这些设置可能使用大量磁盘空间和内存,或者可能不满足度量值保留的需求。 您可以配置监视堆栈以使用持久存储器,更改度量值保留时间策略或在专用节点上运行 Prometheus。 更多信息,请参阅 配置监控堆栈

请注意,Red Hat OpenShift on IBM Cloud 版本 4.16 设置了默认的 10 GB 大小保留。

监视 Red Hat® OpenShift® on IBM Cloud® 存储度量

Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,用于帮助集群管理员获取有关存储卷的可用性和容量的信息。

如果无法在 Red Hat OpenShift 监视仪表板中查看存储度量值,请参阅 调试 Block Storage for VPC 度量值

可以针对 Red Hat® OpenShift® on IBM Cloud® 集群监视以下度量。

  • kubelet_volume_stats_available_bytes
  • kubelet_volume_stats_capacity_bytes
  • kubelet_volume_stats_inodes
  • kubelet_volume_stats_inodes_free
  • kubelet_volume_stats_inodes_used

要为诸如电子邮件或 Slack 之类的平台设置存储监视警报吗? 请参阅 Red Hat OpenShift 文档中的 向外部系统发送通知

在监视 Block Storage for VPC的度量之前,必须具有已启用 Block Storage for VPC 集群附加组件的集群,并且必须将 Block Storage for VPC 卷连接到工作程序节点。Red Hat® OpenShift® on IBM Cloud® 仅针对已安装的存储卷填充存储度量值。

  1. 浏览至 Red Hat OpenShift Web 控制台,然后选择 监视,然后选择 度量

  2. 在对话框中输入要监视的度量值,然后选择 运行查询

    kubelet_volume_stats_used_bytes{persistentvolumeclaim="NAME OF PVC"} / kubelet_volume_stats_capacity_bytes{persistentvolumeclaim="NAME OF PVC"}
    

    示例输出

    endpoint       instance      job     metrics_path  namespace  node         persistentvolumeclaim  prometheus               service  value
    https-metrics  11.111.1.1:XX kubelet /metrics      default    11.111.1.1   PVC-NAME               openshift-monitoring/k8s kubelet  0.003596851526321722
    

有关更多信息,请参阅 监视

如果卷正在达到容量,请尝试设置 卷扩展

启用远程运行状况报告

遥测是一种远程运行状况监视功能,用于收集有关集群的聚集数据,例如组件的运行状况以及正在使用的资源的数量和类型。 如果您有公共集群,那么可以选择在帐户中显示自己的 Telemetry 数据以供您使用。 有关更多信息,请参阅 远程运行状况监视的遥测