使用 IBM Cloud Monitoring 监视 Event Streams 服务度量
IBM Cloud® Monitoring is a third-party cloud-native, and container-intelligence management system that you can include as part of your IBM Cloud architecture. 使用此系统可了解应用程序、服务和平台的性能和运行状况。 它为管理员、DevOps 团队和开发者提供了全堆栈遥测功能,其中有多种高级功能,可用于监视和执行故障诊断,定义警报以及设计定制仪表板。
使用 IBM Cloud Monitoring监视服务度量值时,Kafka 客户机 (生产者和使用者) 具有自己的一组 度量值 来监视其性能和运行状况。
选择并启用Event Streams服务指标
Event Streams 服务度量大体上可以分为两个不同的组: Default 和 Enhanced。
启用缺省 Event Streams 服务度量
在开始使用Event Streams指标之前,您必须首先选择加入,然后通过完成以下步骤启用平台指标。IBM Cloud Monitoring指标之前,您必须首先选择加入,然后通过完成以下步骤启用平台指标:
-
为 Event Streams 启用平台度量值。 有关更多信息,请参阅 启用平台度量。
账户所有者可以完全访问这些指标数据。 有关管理其他用户的访问权的更多信息,请参阅 入门 IBM Cloud Monitoring-管理用户访问权。
-
要从 Event Streams 实例页面浏览到 Monitoring 仪表板,请单击实例页面上的 操作,然后选择 监视。
首次使用时,您可能会看到欢迎向导。 要进入仪表板选择菜单,请在选择安装方法页面选择下一步,然后跳过。 接受随后的提示。 然后,根据您使用的套餐,可以选择 IBM Event Streams 或 IBM Event Streams (Enterprise) 仪表板。
启用增强型 Event Streams 度量
增强的 Event Streams 度量值由三个组组成: topic
,partition
和 consumers
。 您可以选择“一”,“二”或“全部”。 主题,分区 和 使用者 表中描述了可用的度量值。
启用增强的度量值会引入更多全局标尺度量值,因此会增加成本。
必须先通过完成以下步骤来启用增强的 Event Streams 度量,然后才能开始使用这些度量:
-
运行以下命令以更新服务实例,从而开始使用增强的度量值:
ibmcloud resource service-instance-update <instance-name> -p '{"metrics":["topic","partition","consumers"]}'
根据选择启用增强的度量时,将提供以下新仪表板: IBM Event Streams(主题),IBM Event Streams(分区) 和 IBM Event Streams(使用者)。
要选择退出增强的度量,请运行以下命令:
ibmcloud resource service-instance-update <instance-name> -p '{"metrics":[]}'
仪表板只有在开始记录指标后才可用;初始化可能需要几分钟时间。
Event Streams 服务度量成本信息
选择使用 Monitoring 度量值之前,请注意由此产生的成本。 估算的成本取决于以下考虑因素:
- 您使用的Event Streams计划。
- 为每个计划发送多少个唯一的时间序列。
- 您创建的主题数量。
- 您创建的分区数量。
- 是启用了主题,分区,使用者还是全部。
为企业集群启用镜像功能会在目标集群中为每个主题引入一个额外的全局度量指标和一个额外的度量指标(目标集群已根据上表发射度量指标),因此会增加成本。
有关更多信息,请参阅 Monitoring 定价。
Event Streams 服务度量详细信息
下表描述了Event Streams为每个计划提供的具体指标。
按服务计划提供的服务指标
启用镜像功能后可提供更强的服务指标
度量值名称 | 企业 | Lite | 标准 |
---|---|---|---|
镜像等待时间 | |||
镜像吞吐量 |
在启用主题的情况下提供了增强的服务度量值
度量值名称 | 企业 | Lite | 标准 |
---|---|---|---|
最大分区保留时间百分比 | |||
每个主题的保留磁盘空间百分比 | |||
主题大小 |
在已启用使用者的情况下提供了增强的服务度量
度量值名称 | 企业 | Lite | 标准 |
---|---|---|---|
使用者组延迟 |
启用分区后可提供增强的服务指标
度量值名称 | 企业 | Lite | 标准 |
---|---|---|---|
每个分区的消息速率 |
此信息对于检测主题中各个分区之间的消息活动分布是否不平衡以及主题的分区数是否相应缩放非常有用。
启用配额后可增强服务指标
度量值名称 | 企业 | Lite | 标准 |
---|---|---|---|
已使用配额中的 IAM 标识字节数百分比 | |||
IAM 标识输出配额已用百分比 |
Kafka 配额使用采样来确定客户机在发送或接收更多数据之前应该暂停的时间长度。 对于不可预测的工作负载或导致仅使用几个样本来制定配额决策的配置,您可能会观察到已使用的配额百分比指标高于 100%。
认证失败次数
身份验证失败次数的递增计数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_kafka_authentication_failure_total |
Metric Type |
counter |
Value Type |
none |
Segment By |
Service instance, Service instance name |
理想情况下为零。 此值的非零值指示客户机尝试使用无效凭证进行连接。 确保所有客户都使用有效凭证。
已连接的客户机软件名称和版本
具有特定客户机软件名称和版本的已连接客户机数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_connected_clients_software_name_and_version |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name, Client software name, Client software version |
此信息用于帮助您监视连接到 Event Streams 实例的活动客户机的软件名称和版本数据。
客户机软件名称和版本可用于 Kafka 客户机 (Java V 2.4 或更高版本以及支持软件名称和版本的其他实现),如 KIP-8855 中所述。 如果客户机软件名称和版本不可用,那么会将其设置为 unknown
。
使用消息转换时间
表示从使用旧版本协议的客户端进行报文转换所花费的累计时间。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_consume_conversions_time_quantile |
Metric Type |
gauge |
Value Type |
second |
Segment By |
Service instance, Quantile, Service instance name |
理想情况下为零,因为非零表示客户端由于使用了较早的协议级别而产生了更多延迟。 这些客户端是低级的,必须升级。 请确保所有客户机都处于最新级别。
消费者团体滞后
Event Streams 实例中每个主题分区的每个使用者组的延迟。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_consumer_groups_lag |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name, IBM Event Streams Kafka topic, IBM Event Streams Kafka partition, IBM Event Streams Consumer Group |
越来越严重的延迟可能会突出显示组中的使用者未与生成消息的速率保持同步。 这可能要求您扩展处理组的消息的使用者数量。
由于采样和批处理影响,在短时间内查看时,此度量值会发生波动,这是正常情况。
估算的已连接客户机百分比
最大连接客户数的百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_kafka_recommended_max_connected_clients_percent |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name |
此信息用于帮助您监视使用情况的趋势。 请参阅 选择计划,确定计划和实例的建议限制。
每秒 IAM 标识字节数
每秒从 IAM 标识输入的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_iam_id_bytes_in_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance name, IBM IAM Id, Service instance |
这是帮助您监控使用趋势的信息,特别是如果任何 IAM ID 产生的吞吐量比预期的要多。
此度量允许查看从不同用户 (IAM 标识) 发送到服务的数据量中的任何差异,如果需要,请指导设置所需的任何配额。
IAM 标识字节数在已用配额中所占百分比
每个 IAM 标识使用的配额中的字节百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_iam_id_bytes_in_quota_used_percentage |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance name, IBM IAM Id, Service instance |
此信息用于帮助您监视使用趋势,尤其是在任何 IAM 标识生成接近其配额限制的情况下。
配额指标有时可能超过 100%。 Kafka 配额使用采样并以异步方式应用。 对于某些工作负载,尤其是在以大批量发送数据的情况下,这可能会导致与限制的偏差很小。
每秒 IAM 标识输出字节数
每秒从 IAM 标识输出的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_iam_id_bytes_out_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance name, IBM IAM Id, Service instance |
这是用于帮助您监控使用趋势的信息,特别是如果任何 IAM ID 消耗的吞吐量超出预期。
此度量允许您查看从服务发送到不同用户 (IAM 标识) 的数据量的任何差异,如果需要,请指导设置所需的任何配额。
IAM 标识字节输出配额已用百分比
每个 IAM 标识使用的字节输出配额百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_iam_id_bytes_out_quota_used_percentage |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance name, IBM IAM Id, Service instance |
此信息用于帮助您监视使用情况的趋势,尤其是在任何 IAM 标识使用的时间接近其配额限制时。
配额指标有时可能超过 100%。 Kafka 配额使用采样并以异步方式应用。 对于某些工作负载,尤其是在以大批量发送数据的情况下,这可能会导致与限制的偏差很小。
不活动使用者组数
Event Streams实例中的非活动用户组数量。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_inactive_consumergroups |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
此信息仅供参考,并不是问题。 峰值表示一组消费者群体停止发送信息。
实例每秒流入字节数
每秒向Event Streams实例生成的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_bytes_in_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance, Service instance name |
此信息可帮助您监控使用趋势,了解客户端向群集传输和从群集传输的入站或出站 MB/s 数量。 请参阅 Event Streams以确定您的计划和实例的建议限制。
实例每秒流出字节数
Event Streams实例每秒消耗的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_bytes_out_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance, Service instance name |
此信息可帮助您监控使用趋势,了解客户端向群集传输和从群集传输的入站或出站 MB/s 数量。 请参阅 Event Streams以确定您的计划和实例的建议限制。
实例利用率
Event Streams 实例的利用率级别。 这是介于 0 和 2 (包括 0 和 2) 之间的数字值:
0
指示此实例正在处理的工作负载在该实例的容量内。 更确切地说,利用率水平在 80% 以下。1
指示此实例正在处理的工作负载正在接近该实例的容量限制。 查看是否适合扩展服务实例。 更确切地说,利用率水平在 80% 以上,95% 以下。2
指示此实例正在处理的工作负载处于该实例的容量限制。 因此,消息传递等待时间可能会增加。 查看是否适合扩展服务实例。 更确切地说,利用率水平在 95% 以上。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_utilization |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
最大分区保留时间百分比
最大分区保留百分比表示主题中数据最多的分区使用的配置保留大小的百分比。 例如,如果一个主题的保留大小为 10GB,一个分区为 4GB,另一个分区为 6GB,则该指标将报告 60%。 这可以帮助你监控主题内的单个分区是否接近其保留大小,从而触发日志段删除或影响性能。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_max_partition_retention_percent |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name, IBM Event Streams Kafka topic |
每个分区的消息速率
此度量值的更改速率提供每秒传入到 Event Streams 实例主题的分区的消息数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_message_rate_per_partition |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name, IBM Event Streams Kafka topic, IBM Event Streams Kafka partition |
镜像延迟
来自源Event Streams实例的每个主题镜像延迟(以秒为单位)。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_mirroring_latency_seconds |
Metric Type |
gauge |
Value Type |
second |
Segment By |
Service instance, Service instance name, IBM Event Streams Kafka topic |
这对于确定落后于目标集群上的主题有多远很有用。
镜像吞吐量
源Event Streams实例每秒镜像吞吐量的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_mirroring_throughput_bytes_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance, Service instance name |
这对查看镜像是否激活以及容量规划非常有用。
未命中 SNI 连接数
由于不支持 TLS 的 SNI 扩展而被拒绝的连接数的递增计数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_kafka_missing_sni_host_total |
Metric Type |
counter |
Value Type |
none |
Segment By |
Service instance, Service instance name |
理想情况下,此值应为零。 这指示客户机配置不正确。 客户端必须使用 TLS SNI 扩展才能连接到服务。 如果该值不为零,请确保所有客户端都处于正确的级别,并为 SNI 正确配置。
脱机分区数
Event Streams 实例中脱机的分区数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_kafka_offline_partitions |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
理想情况下,该值应为零。 非零值可能指示集群存在临时问题。 它还可能向 Kafka 分区引导程序指示选择困难。
分区数
Event Streams实例中领导分区的数量。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_partitions |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
此信息用于帮助您监视使用情况的趋势。 请参阅 Event Streams以确定您的计划和实例的建议限制。
主题数
Event Streams实例中的主题数量。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_topics |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
正在同步的副本分区数
具有少于两个同步副本的分区数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_kafka_under_minisr_partitions |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
理想情况下,该值应为零。 非零值可能会突出显示集群的临时问题。
生成消息转换时间
表示从使用旧版本协议生产的客户端进行报文转换所花费的累计时间。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_produce_conversions_time_quantile |
Metric Type |
gauge |
Value Type |
second |
Segment By |
Service instance, Quantile, Service instance name |
理想情况下为零。 持续增长表明某些客户机处于低级别,应该升级。 请确保所有客户机都处于最新级别。
重新均衡使用者组数
Event Streams实例中重新平衡用户组的数量。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_rebalancing_consumergroups |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
虽然预计这一数字偶尔会大于 0(因为代理重启频繁发生),但持续的高水平表明,消费者可能会频繁重启,并离开或重新加入消费者群体。 请检查客户机日志。
保留的磁盘空间百分比
在全部使用的情况下,所有已分配分区所需的预留磁盘空间百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_reserved_disk_space_percent |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name |
显示如果您的主题被填充到其配置的保留大小,所使用的磁盘空间百分比。
每个主题的预留磁盘空间百分比
如果分配的所有主题分区都已全部使用,每个主题所需的预留磁盘空间百分比。 您可以使用此指标来规划 Event Streams 的磁盘空间需求,还可以识别出预留了不必要的大量磁盘空间的错误配置主题。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_reserved_disk_space_per_topic_percent |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name, topic |
显示如果您的主题被填充到其配置的保留大小,所使用的磁盘空间百分比。
每秒 REST-生产者请求数
每秒向 rest-producer API 发送的请求数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_rest_producer_requests_per_sec |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
此信息用于帮助您监视 REST Producer API 的使用情况,包括使用模式编码器。
架构注册表请求率
每秒向任何 HTTP SerDes 端点发出的请求总数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_schema_registry_serdes_requests_per_sec |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
此信息可帮助您监控模式注册表的序列化和反序列化率。
模式最大版本百分比
注册表中版本最多的模式所使用的模式版本容量百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_schema_registry_schema_versions_greatest_percentage |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name |
模式已用百分比
模式注册表中使用的模式容量百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_schema_registry_schemas_used_percentage |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name |
稳定使用者组数
Event Streams实例中稳定用户组的数量。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_stable_consumergroups |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name |
与重新平衡使用者组一起使用。 如果该值始终为零,而再平衡值很高,则表明集群出现了问题。 如果该值不为零,且再平衡值较高,则表明存在消费者群体问题。
主题每秒流入字节数
主题每秒产生的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_topic_bytes_in_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance, IBM Event Streams Kafka topic, Service instance name |
这是帮助您监控使用趋势的信息,特别是如果任何主题产生了不寻常的吞吐量,超过或低于预期。
主题每秒流出字节数
主题每秒消耗的字节数。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_topic_bytes_out_per_second |
Metric Type |
gauge |
Value Type |
byte |
Segment By |
Service instance, IBM Event Streams Kafka topic, Service instance name |
此信息用于帮助您监视使用情况的趋势,特别是任何主题消耗的吞吐量异常高于或低于预期的情况。
主题大小
例如,如果一个主题有两个分区,一个分区的数据量为 2MB,另一个分区的数据量为 4MB,则度量值将报告数据量为 6MB。 这可用于监控存储使用情况和优化分区。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_topic_size |
Metric Type |
gauge |
Value Type |
none |
Segment By |
Service instance, Service instance name, IBM Event Streams Kafka topic |
已用磁盘空间百分比
当前使用的磁盘空间百分比。
元数据 | 描述 |
---|---|
Metric Name |
ibm_eventstreams_instance_utilised_disk_space_percent |
Metric Type |
gauge |
Value Type |
percent |
Segment By |
Service instance, Service instance name |
此信息用于帮助您监视使用情况的趋势。 请参阅 Event Streams以确定您的计划和实例的建议限制。
分段的属性
全局属性
以下属性可用于细分所有列出的指标。
属性 | 属性名称 | 属性说明 |
---|---|---|
Cloud Type |
ibm_ctype |
云类型为公共云、专用云或本地云。 |
Location |
ibm_location |
受监控资源的位置--可能是区域、数据中心或全球。 |
Scope |
ibm_scope |
范围是与该指标相关的账户、组织或空间 GUID。 |
Service name |
ibm_service_name |
生成此指标的服务名称。 |
Service instance |
ibm_service_instance |
服务实例 GUID 用于标识与度量相关联的实例。 |
Service instance name |
ibm_service_instance_name |
服务实例名称是用户提供的服务实例名称,不一定是唯一值,取决于用户提供的名称。 |
Resource |
ibm_resource |
由服务度量的资源-通常是标识名称或 GUID。 |
Resource Type |
ibm_resource_type |
由服务度量的资源类型。 |
Resource group |
ibm_resource_group_name |
创建服务实例所在的资源组名称。 |
其他属性
以下属性可用于细分一个或多个属性。 有关细分选项,请参阅各个指标。
属性 | 属性名称 | 属性说明 |
---|---|---|
Client software name |
ibm_eventstreams_clientsoftwarename |
客户机软件名称。 |
Client software version |
ibm_eventstreams_clientsoftwareversion |
客户机软件版本。 |
IBM IAM Id |
ibm_eventstreams_iam_id |
IBM IAM ID。 |
IBM Event Streams Consumer Group |
ibm_eventstreams_consumergroup |
IBM Event Streams 消费群体。 |
IBM Event Streams Kafka partition |
ibm_eventstreams_partition |
IBM Event Streams Kafka分区。 |
IBM Event Streams Kafka topic |
ibm_eventstreams_topic |
IBM Event Streams Kafka主题。 |
Quantile |
ibm_quantile |
度量值支持按分位数分段时表示的分位数 |
有关从Event Streams面板启用平台指标和查看指标的更多信息,请参阅 监控Event Streams指标。