IBM Cloud Docs
利用抽样优化指标

利用抽样优化指标

使用采样分析数据子集,而不是处理每个数据点。 它有助于保持性能和可扩展性,同时提供准确的洞察力。 鉴于 CIS 所处理的数据量(每秒超过 7 亿个事件),采样对于在大型数据集上提供快速、经济高效的指标至关重要。

在少数情况下,CIS 面板和 GraphQL API 中提供的指标是基于_样本--_ 数据集的子集。 在这种情况下,CIS 指标会返回从采样值得出的估计值。 例如,如果在一次攻击中采样率为 10%,采样了 5,000 个事件,CIS 估计事件总数为 50,000 个(5,000 × 10),并报告这一数值。

CIS 主要使用 自适应采样,包括一种称为自适应比特率 (ABR) 的方法,该方法可根据查询的复杂性和数量调整返回数据的详细程度。 当记录数较少或查询简单时,使用全分辨率数据(100%)。 随着数据集的增长或查询变得更加复杂,采样率会逐渐降低(如 10%或 1%),以确保高效完成查询。

这种方法可防止大型查询占用过多计算资源,确保所有用户都能获得公平分配和一致的性能。 数据以多种分辨率(100%、10% 和 1% )存储,允许系统根据查询的复杂性和大小选择适当的分辨率,帮助 ABR 提供快速、准确的结果。

CIS GraphQL 应用程序接口公开了由自适应采样提供支持的数据集。 这些节点名称中带有“自适应”,可通过 内省发现。

为什么采样被应用

CIS 度量标准旨在尽快提供适当详细程度的数据。 采样可减少处理的数据量,从而有助于实现这一目标,使 CIS 能够在几秒钟内返回指标--即使在数据量激增时也是如此,例如攻击期间防火墙事件的爆发。 如果不进行采样,查询可能需要几分钟或更长时间才能完成,这对于验证缓解工作或排除故障来说时间太长了。

CIS 其全球网络每秒处理 7 亿多个事件。 实时存储和处理所有这些数据将耗费大量时间和计算能力,因此不切实际。 采样兼顾了准确性和性能,使度量更快、更可扩展、更高效。 由于数据集非常庞大,取样值在统计上仍然有意义,并能提供可靠的见解。

这种方法与其他领域类似:

  • Google 地图:放大时分辨率较低的图像反映了 如何根据查询大小调整采样率,以提供快速、相关的见解。CIS
  • 民意调查:具有代表性的小样本可以反映全系统的趋势。
  • 电影帧数:以每秒 30 帧(fps)而不是每秒 60 帧的速度观看,仍能呈现完整的故事情节。 同样,取样可以保持数据中的关键模式。

虽然 ABR 采样分辨率并不总是可见的,但读取的行数是一个很好的指标:读取的行数越多,分辨率和结果的可靠性就越高。

采样类型

CIS 度量使用两种主要类型的取样:自适应取样和固定取样。 所采用的方法取决于数据集和查询数据的方式。

自适应采样

CIS 度量主要依靠自适应采样,这意味着采样率会根据摄取或查询的数据量而波动。 如果记录数相对较少,通常不使用抽样,而是返回全部数据。 不过,随着记录量的增加,采样率会逐渐降低,以保持性能和响应速度。

该模型用于多个数据源,包括安全事件(也称为防火墙事件)和安全事件日志。 使用自适应采样的数据节点可通过节点名称中的 Adaptive 后缀轻松识别,如 firewallEventsAdaptive

固定采样

以下数据节点基于固定采样,其中采样率不会发生变化:

固定采样
数据集 费率 注释
防火墙规则预览

节点firewallRulePreviewGroups

1% 请谨慎使用。 对于小于特定阈值的数据集,1%的采样率无法提供准确的估计,CIS 仪表板明确指出了这种情况,但API没有。
网络指标

节点:

ipFlows1mGroups
ipFlows1hGroups
ipFlows1dGroups
ipFlows1mAttacksGroups

0.012% 采样率以数据包数量(每8192个数据包中有一个)为单位。

其他注意事项

应牢记的注意事项

原始数据访问
由于采样主要是自适应的,会自动调整以提供准确的估计,因此采样率无法直接控制。 企业客户可通过 CIS 日志 访问原始数据。
取样时
采样通常适用于高流量数据集,因为在这些数据集中,完整的数据指标是不切实际的。 对于较小的数据集,通常在不进行采样的情况下进行完整的数据分析。
采样率
采样率因数据集和产品而异。 CIS 有助于确保单个数据集内的采样率保持一致,以保持查询的准确性。
对衡量标准的影响
虽然抽样减少了处理数据的数量,但总量、平均值和百分位数等综合指标都是根据样本量推算出来的。 这样可以确保报告的指标准确地代表整个数据集。
限制
取样可能无法捕捉到发生率极低的极罕见事件。