IBM Cloud Docs
监视集群运行状况

监视集群运行状况

对于集群指标和应用程序监控,Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,可帮助您管理单个集群实例的健康状况。 您还可以为多集群分析或其他用例设置 IBM Cloud 工具,如 IBM Cloud Kubernetes Service 集群附加组件:IBM Cloud Logs 和 IBM Cloud Monitoring。

了解用于监视的选项

为帮助了解何时使用内置 Red Hat OpenShift 工具或 IBM Cloud 集成,请查看以下信息。

具有 RHCOS 工作程序节点的专用集群中的监视限制: 监视代理程序依赖于操作系统中的内核头,但是 RHCOS 没有内核头。 在此场景中,代理程序返回到 sysdig.com 以使用预编译的代理程序。 在没有公用网络访问权的集群中,此过程失败。 要允许对 RHCOS 集群进行监视,必须 允许出站流量 或参阅 Sysdig 文档以了解 在气郄环境中安装代理程序

IBM Cloud Monitoring

查看有关 IBM Cloud Monitoring的以下详细信息。

  • 可定制用户界面,用于统一查看集群度量值、容器安全性、资源使用情况、警报和定制事件。
  • 通过脚本与集群快速集成。
  • 跨集群和云提供者的聚集度量值和容器监视。
  • 基于时间线和套餐,具有对度量值的历史访问权,以及捕获和下载跟踪文件的能力。
  • 可用性和可伸缩性高,符合行业安全标准。
  • 与 IBM Cloud IAM 集成,以进行用户访问管理。

内置 Red Hat OpenShift 监控工具

OpenShift 包含预配置,预安装和自更新的监视堆栈,用于针对每个集群提供对核心平台组件的监视。 此监视包括 openshift-monitoring 项目中用于集群度量的内置 Prometheus 和 Grafana 部署,仅在单个专区中可用。 您可以从 Red Hat OpenShift Web 控制台查看和管理监视仪表板,度量值和警报。 有关更多信息,请参阅 Red Hat OpenShift 文档中的 监视

默认情况下,监控堆栈不使用持久性存储来备份指标历史记录,而是使用主机文件系统中的临时 EmptyDir 卷。 度量历史记录的保留期从 11 到 15 天不等,具体取决于集群版本。 对于某些工作负载,这些设置可能使用大量磁盘空间和内存,或者可能不满足度量值保留的需求。 您可以配置监视堆栈以使用持久存储器,更改度量值保留时间策略或在专用节点上运行 Prometheus。 更多信息,请参阅 配置监控堆栈

请注意,Red Hat OpenShift on IBM Cloud 版本 4.16 设置了默认的 10 GB 大小保留。

监视 Red Hat® OpenShift® on IBM Cloud® 存储度量

Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,用于帮助集群管理员获取有关存储卷的可用性和容量的信息。

如果无法在 Red Hat OpenShift 监视仪表板中查看存储度量值,请参阅 调试 Block Storage for VPC 度量值

可以针对 Red Hat® OpenShift® on IBM Cloud® 集群监视以下度量。

  • kubelet_volume_stats_available_bytes
  • kubelet_volume_stats_capacity_bytes
  • kubelet_volume_stats_inodes
  • kubelet_volume_stats_inodes_free
  • kubelet_volume_stats_inodes_used

要为诸如电子邮件或 Slack 之类的平台设置存储监视警报吗? 请参阅 Red Hat OpenShift 文档中的 向外部系统发送通知

在监视 Block Storage for VPC的度量之前,必须具有已启用 Block Storage for VPC 集群附加组件的集群,并且必须将 Block Storage for VPC 卷连接到工作程序节点。Red Hat® OpenShift® on IBM Cloud® 仅针对已安装的存储卷填充存储度量值。

  1. 浏览至 Red Hat OpenShift Web 控制台,然后选择 监视,然后选择 度量

  2. 在对话框中输入要监视的度量值,然后选择 运行查询

    kubelet_volume_stats_used_bytes{persistentvolumeclaim="NAME OF PVC"} / kubelet_volume_stats_capacity_bytes{persistentvolumeclaim="NAME OF PVC"}
    

    示例输出

    endpoint       instance      job     metrics_path  namespace  node         persistentvolumeclaim  prometheus               service  value
    https-metrics  11.111.1.1:XX kubelet /metrics      default    11.111.1.1   PVC-NAME               openshift-monitoring/k8s kubelet  0.003596851526321722
    

有关更多信息,请参阅 监视

如果卷正在达到容量,请尝试设置 卷扩展

将日志记录和监控代理迁移到云日志

不再支持可观察性 CLI 插件 ibmcloud obv2/observe 端点。 目前还没有直接替代方案,但您现在可以通过控制台或 Helm 图表管理日志记录和监控集成。 最新步骤:管理 Red Hat OpenShift on IBM Cloud 集群的日志记录代理使用 Red Hat OpenShift 监控代理

您不能再使用 ob 插件、Terraform或API在集群上安装可观察性代理或修改现有配置。 Sysdig代理继续向指定的 IBM Cloud Monitoring 实例发送指标。 LogDNA 代理无法再发送日志,因为 已被 Logs取代。IBM Cloud Log Analysis IBM Cloud

检查您的可观察性代理

可观察性插件在 ibm-observe 命名空间中安装 Sysdig 和 LogDNA 代理。

  1. 访问您的 Red Hat OpenShift 集群
  1. 查看 ibm-observe 命名空间中的配置文件。
    kubectl get cm -n ibm-observe
    
    Example output
    
    NAME                                   DATA   AGE
    
    e405f1fc-feba-4350-9337-e7e249af871c   6      25m
    
    f59851a6-ede6-4719-afa0-eee7ce65eeb5   6      20m
    
  1. 由可观察性插件安装的可观察性代理使用配置映射,其中包含日志或指标发送到的 IBM Cloud Monitoring 实例或 IBM Cloud Log Analysis 实例的GUID。 如果集群中的代理位于 ibm-observe 以外的命名空间,或者 ibm-observe 中的配置映射未使用实例 GUID 命名,则这些代理未安装 IKS Observability (ob) 插件。

移除可观察性插件代理

  1. 清理守护进程和配置文件。
    kubectl delete daemonset logdna-agent -n ibm-observe
    kubectl delete daemonset sysdig-agent -n ibm-observe
    kubectl delete configmap <logdna-configmap> -n ibm-observe
    kubectl delete configmap <sysdig-configmap> -n ibm-observe
    
  2. 可选:删除命名空间。 在命名空间中没有其他资源可用之后。
    kubectl delete namespace ibm-observe
    

移除插件后,使用集群仪表板、Terraform或手动在集群中重新安装记录和监控代理。

有关更多信息,请参阅以下链接:

启用远程运行状况报告

遥测是一种远程运行状况监视功能,用于收集有关集群的聚集数据,例如组件的运行状况以及正在使用的资源的数量和类型。 如果您有公共集群,那么可以选择在帐户中显示自己的 Telemetry 数据以供您使用。 有关更多信息,请参阅 远程运行状况监视的遥测