监视集群运行状况
对于集群指标和应用程序监控,Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,可帮助您管理单个集群实例的健康状况。 您还可以为多集群分析或其他用例设置 IBM Cloud 工具,如 IBM Cloud Kubernetes Service 集群附加组件:IBM Cloud Logs 和 IBM Cloud Monitoring。
了解用于监视的选项
为帮助了解何时使用内置 Red Hat OpenShift 工具或 IBM Cloud 集成,请查看以下信息。
具有 RHCOS 工作程序节点的专用集群中的监视限制: 监视代理程序依赖于操作系统中的内核头,但是 RHCOS 没有内核头。 在此场景中,代理程序返回到 sysdig.com
以使用预编译的代理程序。 在没有公用网络访问权的集群中,此过程失败。 要允许对 RHCOS 集群进行监视,必须 允许出站流量 或参阅 Sysdig 文档以了解 在气郄环境中安装代理程序。
IBM Cloud Monitoring
查看有关 IBM Cloud Monitoring的以下详细信息。
- 可定制用户界面,用于统一查看集群度量值、容器安全性、资源使用情况、警报和定制事件。
- 通过脚本与集群快速集成。
- 跨集群和云提供者的聚集度量值和容器监视。
- 基于时间线和套餐,具有对度量值的历史访问权,以及捕获和下载跟踪文件的能力。
- 可用性和可伸缩性高,符合行业安全标准。
- 与 IBM Cloud IAM 集成,以进行用户访问管理。
内置 Red Hat OpenShift 监控工具
OpenShift 包含预配置,预安装和自更新的监视堆栈,用于针对每个集群提供对核心平台组件的监视。 此监视包括 openshift-monitoring
项目中用于集群度量的内置 Prometheus 和 Grafana 部署,仅在单个专区中可用。 您可以从 Red Hat OpenShift Web 控制台查看和管理监视仪表板,度量值和警报。 有关更多信息,请参阅 Red Hat OpenShift 文档中的 监视。
默认情况下,监控堆栈不使用持久性存储来备份指标历史记录,而是使用主机文件系统中的临时 EmptyDir
卷。 度量历史记录的保留期从 11 到 15 天不等,具体取决于集群版本。 对于某些工作负载,这些设置可能使用大量磁盘空间和内存,或者可能不满足度量值保留的需求。 您可以配置监视堆栈以使用持久存储器,更改度量值保留时间策略或在专用节点上运行 Prometheus。 更多信息,请参阅 配置监控堆栈。
请注意,Red Hat OpenShift on IBM Cloud 版本 4.16 设置了默认的 10 GB 大小保留。
监视 Red Hat® OpenShift® on IBM Cloud® 存储度量
Red Hat® OpenShift® on IBM Cloud® 集群包含内置工具,用于帮助集群管理员获取有关存储卷的可用性和容量的信息。
如果无法在 Red Hat OpenShift 监视仪表板中查看存储度量值,请参阅 调试 Block Storage for VPC 度量值。
可以针对 Red Hat® OpenShift® on IBM Cloud® 集群监视以下度量。
kubelet_volume_stats_available_bytes
kubelet_volume_stats_capacity_bytes
kubelet_volume_stats_inodes
kubelet_volume_stats_inodes_free
kubelet_volume_stats_inodes_used
要为诸如电子邮件或 Slack 之类的平台设置存储监视警报吗? 请参阅 Red Hat OpenShift 文档中的 向外部系统发送通知。
在监视 Block Storage for VPC的度量之前,必须具有已启用 Block Storage for VPC 集群附加组件的集群,并且必须将 Block Storage for VPC 卷连接到工作程序节点。Red Hat® OpenShift® on IBM Cloud® 仅针对已安装的存储卷填充存储度量值。
-
浏览至 Red Hat OpenShift Web 控制台,然后选择 监视,然后选择 度量。
-
在对话框中输入要监视的度量值,然后选择 运行查询。
kubelet_volume_stats_used_bytes{persistentvolumeclaim="NAME OF PVC"} / kubelet_volume_stats_capacity_bytes{persistentvolumeclaim="NAME OF PVC"}
示例输出
endpoint instance job metrics_path namespace node persistentvolumeclaim prometheus service value https-metrics 11.111.1.1:XX kubelet /metrics default 11.111.1.1 PVC-NAME openshift-monitoring/k8s kubelet 0.003596851526321722
有关更多信息,请参阅 监视。
如果卷正在达到容量,请尝试设置 卷扩展。
将日志记录和监控代理迁移到云日志
不再支持可观察性 CLI 插件 ibmcloud ob
和 v2/observe
端点。 目前还没有直接替代方案,但您现在可以通过控制台或 Helm 图表管理日志记录和监控集成。 最新步骤:管理 Red Hat OpenShift on IBM Cloud 集群的日志记录代理 和 使用 Red Hat OpenShift 监控代理。
您不能再使用 ob
插件、Terraform或API在集群上安装可观察性代理或修改现有配置。 Sysdig代理继续向指定的 IBM Cloud Monitoring 实例发送指标。 LogDNA 代理无法再发送日志,因为 已被 Logs取代。IBM Cloud Log Analysis IBM Cloud
检查您的可观察性代理
可观察性插件在 ibm-observe
命名空间中安装 Sysdig 和 LogDNA 代理。
- 查看
ibm-observe
命名空间中的配置文件。kubectl get cm -n ibm-observe
Example output NAME DATA AGE e405f1fc-feba-4350-9337-e7e249af871c 6 25m f59851a6-ede6-4719-afa0-eee7ce65eeb5 6 20m
- 由可观察性插件安装的可观察性代理使用配置映射,其中包含日志或指标发送到的 IBM Cloud Monitoring 实例或 IBM Cloud Log Analysis 实例的GUID。 如果集群中的代理位于
ibm-observe
以外的命名空间,或者ibm-observe
中的配置映射未使用实例 GUID 命名,则这些代理未安装 IKS Observability (ob) 插件。
移除可观察性插件代理
- 清理守护进程和配置文件。
kubectl delete daemonset logdna-agent -n ibm-observe kubectl delete daemonset sysdig-agent -n ibm-observe kubectl delete configmap <logdna-configmap> -n ibm-observe kubectl delete configmap <sysdig-configmap> -n ibm-observe
- 可选:删除命名空间。 在命名空间中没有其他资源可用之后。
kubectl delete namespace ibm-observe
移除插件后,使用集群仪表板、Terraform或手动在集群中重新安装记录和监控代理。
有关更多信息,请参阅以下链接:
启用远程运行状况报告
遥测是一种远程运行状况监视功能,用于收集有关集群的聚集数据,例如组件的运行状况以及正在使用的资源的数量和类型。 如果您有公共集群,那么可以选择在帐户中显示自己的 Telemetry 数据以供您使用。 有关更多信息,请参阅 远程运行状况监视的遥测。