IBM Cloud Docs
使用 IBM Cloud Monitoring 监视 Event Streams 服务度量

使用 IBM Cloud Monitoring 监视 Event Streams 服务度量

IBM Cloud® Monitoring is a third-party cloud-native, and container-intelligence management system that you can include as part of your IBM Cloud architecture. 使用此系统可了解应用程序、服务和平台的性能和运行状况。 它为管理员、DevOps 团队和开发者提供了全堆栈遥测功能,其中有多种高级功能,可用于监视和执行故障诊断,定义警报以及设计定制仪表板。

使用 IBM Cloud Monitoring监视服务度量值时,Kafka 客户机 (生产者和使用者) 具有自己的一组 度量值 来监视其性能和运行状况。

选择并启用Event Streams服务指标

Event Streams 服务度量大体上可以分为两个不同的组: DefaultEnhanced

启用缺省 Event Streams 服务度量

在开始使用Event Streams指标之前,您必须首先选择加入,然后通过完成以下步骤启用平台指标。IBM Cloud Monitoring指标之前,您必须首先选择加入,然后通过完成以下步骤启用平台指标:

  1. 为 Event Streams 启用平台度量值。 有关更多信息,请参阅 启用平台度量

    账户所有者可以完全访问这些指标数据。 有关管理其他用户的访问权的更多信息,请参阅 入门 IBM Cloud Monitoring-管理用户访问权

  2. 要从 Event Streams 实例页面浏览到 Monitoring 仪表板,请单击实例页面上的 操作,然后选择 监视

    首次使用时,您可能会看到欢迎向导。 要进入仪表板选择菜单,请在选择安装方法页面选择下一步,然后跳过。 接受随后的提示。 然后,根据您使用的套餐,可以选择 IBM Event StreamsIBM Event Streams (Enterprise) 仪表板。

启用增强型 Event Streams 度量

增强的 Event Streams 度量值由三个组组成: topicpartitionconsumers。 您可以选择“一”,“二”或“全部”。 主题分区使用者 表中描述了可用的度量值。

启用增强的度量值会引入更多全局标尺度量值,因此会增加成本。

必须先通过完成以下步骤来启用增强的 Event Streams 度量,然后才能开始使用这些度量:

  • 运行以下命令以更新服务实例,从而开始使用增强的度量值:

    ibmcloud resource service-instance-update <instance-name> -p '{"metrics":["topic","partition","consumers"]}'
    

根据选择启用增强的度量时,将提供以下新仪表板: IBM Event Streams(主题)IBM Event Streams(分区)IBM Event Streams(使用者)

要选择退出增强的度量,请运行以下命令:

ibmcloud resource service-instance-update <instance-name> -p '{"metrics":[]}'

仪表板只有在开始记录指标后才可用;初始化可能需要几分钟时间。

Event Streams 服务度量成本信息

选择使用 Monitoring 度量值之前,请注意由此产生的成本。 估算的成本取决于以下考虑因素:

  • 您使用的Event Streams计划。
  • 为每个计划发送多少个唯一的时间序列。
  • 您创建的主题数量。
  • 您创建的分区数量。
  • 是启用了主题,分区,使用者还是全部。

为企业集群启用镜像功能会在目标集群中为每个主题引入一个额外的全局度量指标和一个额外的度量指标(目标集群已根据上表发射度量指标),因此会增加成本。

有关更多信息,请参阅 Monitoring 定价

Event Streams 服务度量详细信息

下表描述了Event Streams为每个计划提供的具体指标。

按服务计划提供的服务指标

按计划名称提供的指标
度量值名称 企业 Lite 标准
认证失败次数 “勾选标记”图标
已连接的客户机软件名称和版本 “勾选标记”图标
使用消息转换时间 “勾选标记”图标
估算的已连接客户机百分比 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
每秒 IAM 标识字节数 “勾选标记”图标
每秒 IAM 标识输出字节数 “勾选标记”图标
不活动使用者组数 “勾选标记”图标
实例每秒流入字节数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
实例每秒流出字节数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
实例利用率 “勾选标记”图标
未命中 SNI 连接数 “勾选标记”图标
脱机分区数 “勾选标记”图标
分区数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
主题数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
正在同步的副本分区数 “勾选标记”图标
生成消息转换时间 “勾选标记”图标
重新均衡使用者组数 “勾选标记”图标
保留的磁盘空间百分比 “勾选标记”图标
每个主题的保留磁盘空间百分比 “勾选标记”图标
每秒 REST-生产者请求数 “勾选标记”图标
架构注册表请求率 “勾选标记”图标
模式最大版本百分比 “勾选标记”图标
模式已用百分比 “勾选标记”图标
稳定使用者组数 “勾选标记”图标
主题每秒流入字节数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
主题每秒流出字节数 “勾选标记”图标 “勾选标记”图标 “勾选标记”图标
已用磁盘空间百分比 “勾选标记”图标

启用镜像功能后可提供更强的服务指标

可用于镜像的度量
度量值名称 企业 Lite 标准
镜像等待时间 “勾选标记”图标
镜像吞吐量 “勾选标记”图标

在启用主题的情况下提供了增强的服务度量值

可用于主题的指标
度量值名称 企业 Lite 标准
最大分区保留时间百分比 “勾选标记”图标
每个主题的保留磁盘空间百分比 “勾选标记”图标
主题大小 “勾选标记”图标

在已启用使用者的情况下提供了增强的服务度量

为消费者提供的衡量标准
度量值名称 企业 Lite 标准
使用者组延迟 “勾选标记”图标

启用分区后可提供增强的服务指标

可用于分区的指标
度量值名称 企业 Lite 标准
每个分区的消息速率 “勾选标记”图标

此信息对于检测主题中各个分区之间的消息活动分布是否不平衡以及主题的分区数是否相应缩放非常有用。

启用配额后可增强服务指标

可用于配额的指标
度量值名称 企业 Lite 标准
已使用配额中的 IAM 标识字节数百分比 “勾选标记”图标
IAM 标识输出配额已用百分比 “勾选标记”图标

Kafka 配额使用采样来确定客户机在发送或接收更多数据之前应该暂停的时间长度。 对于不可预测的工作负载或导致仅使用几个样本来制定配额决策的配置,您可能会观察到已使用的配额百分比指标高于 100%。

认证失败次数

身份验证失败次数的递增计数。

认证失败元数据
元数据 描述
Metric Name ibm_eventstreams_kafka_authentication_failure_total
Metric Type counter
Value Type none
Segment By Service instance, Service instance name

理想情况下为零。 此值的非零值指示客户机尝试使用无效凭证进行连接。 确保所有客户都使用有效凭证。

已连接的客户机软件名称和版本

具有特定客户机软件名称和版本的已连接客户机数。

连接的客户端软件名称和版本元数据
元数据 描述
Metric Name ibm_eventstreams_instance_connected_clients_software_name_and_version
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name, Client software name, Client software version

此信息用于帮助您监视连接到 Event Streams 实例的活动客户机的软件名称和版本数据。

客户机软件名称和版本可用于 Kafka 客户机 (Java V 2.4 或更高版本以及支持软件名称和版本的其他实现),如 KIP-8855 中所述。 如果客户机软件名称和版本不可用,那么会将其设置为 unknown

使用消息转换时间

表示从使用旧版本协议的客户端进行报文转换所花费的累计时间。

消耗报文转换时间元数据
元数据 描述
Metric Name ibm_eventstreams_instance_consume_conversions_time_quantile
Metric Type gauge
Value Type second
Segment By Service instance, Quantile, Service instance name

理想情况下为零,因为非零表示客户端由于使用了较早的协议级别而产生了更多延迟。 这些客户端是低级的,必须升级。 请确保所有客户机都处于最新级别。

消费者团体滞后

Event Streams 实例中每个主题分区的每个使用者组的延迟。

消费者团体的元数据滞后
元数据 描述
Metric Name ibm_eventstreams_instance_consumer_groups_lag
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name, IBM Event Streams Kafka topic, IBM Event Streams Kafka partition, IBM Event Streams Consumer Group

越来越严重的延迟可能会突出显示组中的使用者未与生成消息的速率保持同步。 这可能要求您扩展处理组的消息的使用者数量。

由于采样和批处理影响,在短时间内查看时,此度量值会发生波动,这是正常情况。

每秒 IAM 标识字节数

每秒从 IAM 标识输入的字节数。

IAM ID 每秒元数据字节数
元数据 描述
Metric Name ibm_eventstreams_iam_id_bytes_in_per_second
Metric Type gauge
Value Type byte
Segment By Service instance name, IBM IAM Id, Service instance

这是帮助您监控使用趋势的信息,特别是如果任何 IAM ID 产生的吞吐量比预期的要多。

此度量允许查看从不同用户 (IAM 标识) 发送到服务的数据量中的任何差异,如果需要,请指导设置所需的任何配额。

IAM 标识字节数在已用配额中所占百分比

每个 IAM 标识使用的配额中的字节百分比。

IAM ID 配额中使用的字节数 百分比度量元数据
元数据 描述
Metric Name ibm_eventstreams_iam_id_bytes_in_quota_used_percentage
Metric Type gauge
Value Type percent
Segment By Service instance name, IBM IAM Id, Service instance

此信息用于帮助您监视使用趋势,尤其是在任何 IAM 标识生成接近其配额限制的情况下。

配额指标有时可能超过 100%。 Kafka 配额使用采样并以异步方式应用。 对于某些工作负载,尤其是在以大批量发送数据的情况下,这可能会导致与限制的偏差很小。

每秒 IAM 标识输出字节数

每秒从 IAM 标识输出的字节数。

IAM ID 每秒字节数元数据
元数据 描述
Metric Name ibm_eventstreams_iam_id_bytes_out_per_second
Metric Type gauge
Value Type byte
Segment By Service instance name, IBM IAM Id, Service instance

这是用于帮助您监控使用趋势的信息,特别是如果任何 IAM ID 消耗的吞吐量超出预期。

此度量允许您查看从服务发送到不同用户 (IAM 标识) 的数据量的任何差异,如果需要,请指导设置所需的任何配额。

IAM 标识字节输出配额已用百分比

每个 IAM 标识使用的字节输出配额百分比。

IAM ID 字节已用配额百分比元数据
元数据 描述
Metric Name ibm_eventstreams_iam_id_bytes_out_quota_used_percentage
Metric Type gauge
Value Type percent
Segment By Service instance name, IBM IAM Id, Service instance

此信息用于帮助您监视使用情况的趋势,尤其是在任何 IAM 标识使用的时间接近其配额限制时。

配额指标有时可能超过 100%。 Kafka 配额使用采样并以异步方式应用。 对于某些工作负载,尤其是在以大批量发送数据的情况下,这可能会导致与限制的偏差很小。

不活动使用者组数

Event Streams实例中的非活动用户组数量。

非活动消费者组元数据
元数据 描述
Metric Name ibm_eventstreams_instance_inactive_consumergroups
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

此信息仅供参考,并不是问题。 峰值表示一组消费者群体停止发送信息。

实例每秒流入字节数

每秒向Event Streams实例生成的字节数。

每秒元数据中的实例字节数
元数据 描述
Metric Name ibm_eventstreams_instance_bytes_in_per_second
Metric Type gauge
Value Type byte
Segment By Service instance, Service instance name

此信息可帮助您监控使用趋势,了解客户端向群集传输和从群集传输的入站或出站 MB/s 数量。 请参阅 Event Streams以确定您的计划和实例的建议限制。

实例每秒流出字节数

Event Streams实例每秒消耗的字节数。

实例每秒字节数元数据
元数据 描述
Metric Name ibm_eventstreams_instance_bytes_out_per_second
Metric Type gauge
Value Type byte
Segment By Service instance, Service instance name

此信息可帮助您监控使用趋势,了解客户端向群集传输和从群集传输的入站或出站 MB/s 数量。 请参阅 Event Streams以确定您的计划和实例的建议限制。

实例利用率

Event Streams 实例的利用率级别。 这是介于 0 和 2 (包括 0 和 2) 之间的数字值:

  • 0 指示此实例正在处理的工作负载在该实例的容量内。 更确切地说,利用率水平在 80% 以下。
  • 1 指示此实例正在处理的工作负载正在接近该实例的容量限制。 查看是否适合扩展服务实例。 更确切地说,利用率水平在 80% 以上,95% 以下。
  • 2 指示此实例正在处理的工作负载处于该实例的容量限制。 因此,消息传递等待时间可能会增加。 查看是否适合扩展服务实例。 更确切地说,利用率水平在 95% 以上。
实例利用率元数据
元数据 描述
Metric Name ibm_eventstreams_instance_utilization
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

最大分区保留时间百分比

最大分区保留百分比表示主题中数据最多的分区使用的配置保留大小的百分比。 例如,如果一个主题的保留大小为 10GB,一个分区为 4GB,另一个分区为 6GB,则该指标将报告 60%。 这可以帮助你监控主题内的单个分区是否接近其保留大小,从而触发日志段删除或影响性能。

最大分区保留百分比度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_max_partition_retention_percent
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name, IBM Event Streams Kafka topic

每个分区的消息速率

此度量值的更改速率提供每秒传入到 Event Streams 实例主题的分区的消息数。

每个分区的信息速率元数据
元数据 描述
Metric Name ibm_eventstreams_instance_message_rate_per_partition
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name, IBM Event Streams Kafka topic, IBM Event Streams Kafka partition

镜像延迟

来自源Event Streams实例的每个主题镜像延迟(以秒为单位)。

镜像延迟元数据
元数据 描述
Metric Name ibm_eventstreams_instance_mirroring_latency_seconds
Metric Type gauge
Value Type second
Segment By Service instance, Service instance name, IBM Event Streams Kafka topic

这对于确定落后于目标集群上的主题有多远很有用。

镜像吞吐量

源Event Streams实例每秒镜像吞吐量的字节数。

镜像吞吐量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_mirroring_throughput_bytes_per_second
Metric Type gauge
Value Type byte
Segment By Service instance, Service instance name

这对查看镜像是否激活以及容量规划非常有用。

未命中 SNI 连接数

由于不支持 TLS 的 SNI 扩展而被拒绝的连接数的递增计数。

缺少 SNI 连接元数据
元数据 描述
Metric Name ibm_eventstreams_kafka_missing_sni_host_total
Metric Type counter
Value Type none
Segment By Service instance, Service instance name

理想情况下,此值应为零。 这指示客户机配置不正确。 客户端必须使用 TLS SNI 扩展才能连接到服务。 如果该值不为零,请确保所有客户端都处于正确的级别,并为 SNI 正确配置。

脱机分区数

Event Streams 实例中脱机的分区数。

离线分区元数据的数量
元数据 描述
Metric Name ibm_eventstreams_kafka_offline_partitions
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

理想情况下,该值应为零。 非零值可能指示集群存在临时问题。 它还可能向 Kafka 分区引导程序指示选择困难。

分区数

Event Streams实例中领导分区的数量。

分区数量度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_partitions
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

此信息用于帮助您监视使用情况的趋势。 请参阅 Event Streams以确定您的计划和实例的建议限制。

主题数

Event Streams实例中的主题数量。

元数据主题数
元数据 描述
Metric Name ibm_eventstreams_instance_topics
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

正在同步的副本分区数

具有少于两个同步副本的分区数。

不同步复制分区的元数据数量
元数据 描述
Metric Name ibm_eventstreams_kafka_under_minisr_partitions
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

理想情况下,该值应为零。 非零值可能会突出显示集群的临时问题。

生成消息转换时间

表示从使用旧版本协议生产的客户端进行报文转换所花费的累计时间。

生成报文转换时间元数据
元数据 描述
Metric Name ibm_eventstreams_instance_produce_conversions_time_quantile
Metric Type gauge
Value Type second
Segment By Service instance, Quantile, Service instance name

理想情况下为零。 持续增长表明某些客户机处于低级别,应该升级。 请确保所有客户机都处于最新级别。

重新均衡使用者组数

Event Streams实例中重新平衡用户组的数量。

重新平衡消费者群体度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_rebalancing_consumergroups
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

虽然预计这一数字偶尔会大于 0(因为代理重启频繁发生),但持续的高水平表明,消费者可能会频繁重启,并离开或重新加入消费者群体。 请检查客户机日志。

保留的磁盘空间百分比

在全部使用的情况下,所有已分配分区所需的预留磁盘空间百分比。

预留磁盘空间百分比元数据
元数据 描述
Metric Name ibm_eventstreams_instance_reserved_disk_space_percent
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name

显示如果您的主题被填充到其配置的保留大小,所使用的磁盘空间百分比。

每个主题的预留磁盘空间百分比

如果分配的所有主题分区都已全部使用,每个主题所需的预留磁盘空间百分比。 您可以使用此指标来规划 Event Streams 的磁盘空间需求,还可以识别出预留了不必要的大量磁盘空间的错误配置主题。

每个主题元数据的预留磁盘空间百分比
元数据 描述
Metric Name ibm_eventstreams_instance_reserved_disk_space_per_topic_percent
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name, topic

显示如果您的主题被填充到其配置的保留大小,所使用的磁盘空间百分比。

每秒 REST-生产者请求数

每秒向 rest-producer API 发送的请求数。

休息生产者每秒请求元数据
元数据 描述
Metric Name ibm_eventstreams_instance_rest_producer_requests_per_sec
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

此信息用于帮助您监视 REST Producer API 的使用情况,包括使用模式编码器。

架构注册表请求率

每秒向任何 HTTP SerDes 端点发出的请求总数。

模式 注册表请求率元数据
元数据 描述
Metric Name ibm_eventstreams_instance_schema_registry_serdes_requests_per_sec
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

此信息可帮助您监控模式注册表的序列化和反序列化率。

模式最大版本百分比

注册表中版本最多的模式所使用的模式版本容量百分比。

模式最大版本百分比度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_schema_registry_schema_versions_greatest_percentage
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name

模式已用百分比

模式注册表中使用的模式容量百分比。

用于百分比元数据的模式
元数据 描述
Metric Name ibm_eventstreams_instance_schema_registry_schemas_used_percentage
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name

稳定使用者组数

Event Streams实例中稳定用户组的数量。

稳定的消费者群体度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_stable_consumergroups
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name

与重新平衡使用者组一起使用。 如果该值始终为零,而再平衡值很高,则表明集群出现了问题。 如果该值不为零,且再平衡值较高,则表明存在消费者群体问题。

主题每秒流入字节数

主题每秒产生的字节数。

每秒元数据中的主题字节数
元数据 描述
Metric Name ibm_eventstreams_instance_topic_bytes_in_per_second
Metric Type gauge
Value Type byte
Segment By Service instance, IBM Event Streams Kafka topic, Service instance name

这是帮助您监控使用趋势的信息,特别是如果任何主题产生了不寻常的吞吐量,超过或低于预期。

主题每秒流出字节数

主题每秒消耗的字节数。

主题每秒字节数元数据
元数据 描述
Metric Name ibm_eventstreams_instance_topic_bytes_out_per_second
Metric Type gauge
Value Type byte
Segment By Service instance, IBM Event Streams Kafka topic, Service instance name

此信息用于帮助您监视使用情况的趋势,特别是任何主题消耗的吞吐量异常高于或低于预期的情况。

主题大小

例如,如果一个主题有两个分区,一个分区的数据量为 2MB,另一个分区的数据量为 4MB,则度量值将报告数据量为 6MB。 这可用于监控存储使用情况和优化分区。

主题大小度量元数据
元数据 描述
Metric Name ibm_eventstreams_instance_topic_size
Metric Type gauge
Value Type none
Segment By Service instance, Service instance name, IBM Event Streams Kafka topic

已用磁盘空间百分比

当前使用的磁盘空间百分比。

已用磁盘空间百分比元数据
元数据 描述
Metric Name ibm_eventstreams_instance_utilised_disk_space_percent
Metric Type gauge
Value Type percent
Segment By Service instance, Service instance name

此信息用于帮助您监视使用情况的趋势。 请参阅 Event Streams以确定您的计划和实例的建议限制。

分段的属性

全局属性

以下属性可用于细分所有列出的指标。

全局属性
属性 属性名称 属性说明
Cloud Type ibm_ctype 云类型为公共云、专用云或本地云。
Location ibm_location 受监控资源的位置--可能是区域、数据中心或全球。
Scope ibm_scope 范围是与该指标相关的账户、组织或空间 GUID。
Service name ibm_service_name 生成此指标的服务名称。
Service instance ibm_service_instance 服务实例 GUID 用于标识与度量相关联的实例。
Service instance name ibm_service_instance_name 服务实例名称是用户提供的服务实例名称,不一定是唯一值,取决于用户提供的名称。
Resource ibm_resource 由服务度量的资源-通常是标识名称或 GUID。
Resource Type ibm_resource_type 由服务度量的资源类型。
Resource group ibm_resource_group_name 创建服务实例所在的资源组名称。

其他属性

以下属性可用于细分一个或多个属性。 有关细分选项,请参阅各个指标。

其他属性
属性 属性名称 属性说明
Client software name ibm_eventstreams_clientsoftwarename 客户机软件名称。
Client software version ibm_eventstreams_clientsoftwareversion 客户机软件版本。
IBM IAM Id ibm_eventstreams_iam_id IBM IAM ID。
IBM Event Streams Consumer Group ibm_eventstreams_consumergroup IBM Event Streams 消费群体。
IBM Event Streams Kafka partition ibm_eventstreams_partition IBM Event Streams Kafka分区。
IBM Event Streams Kafka topic ibm_eventstreams_topic IBM Event Streams Kafka主题。
Quantile ibm_quantile 度量值支持按分位数分段时表示的分位数

有关从Event Streams面板启用平台指标和查看指标的更多信息,请参阅 监控Event Streams指标