IBM Cloud Docs
数据分析方法

数据分析方法

使用“内容挖掘”应用程序中的工具来分析数据。

您可以通过以下方式分析数据:

在查看分析结果时,您可以标记要在以后进一步研究的文档。 有关更多信息,请参阅 标记文档

当您找到重要洞察时,可以生成视图的快照,然后将其添加到报告中以与其他人共享。 有关更多信息,请参阅 创建报告

开始分析

使用内容挖掘应用程序可根据文档文本以及存储在文档中的任何注释或扩充项来分析集合中的文档。

要开始分析,请完成以下步骤:

  1. 输入搜索项,单击用于过滤文档的构面,或者将搜索字段留空以返回所有文档。
  2. 点击搜索

结果的指导式方式视图显示建议的后续步骤,您可以执行这些步骤来进一步分析数据。 如果您不希望看到建议,那么可以切换到 专家方式。 在“专家”方式下,每当您提交搜索时,都会返回列出搜索结果的“文档”视图。

本主题中的任务描述了如何以引导式方式使用应用程序。

查找相关关键字

要分析关键字相关性,请完成以下步骤:

  1. 从初始搜索页面,提交关键字搜索以过滤文档。

  2. 在引导式搜索结果页面中,单击 分析原因或特征

    在特征词窗格之后,将显示一个窗格,其中包含每种构面类型的相关性信息。

    面相关性{: caption="面" caption-side="bottom"}

    每个相关性窗格都显示与构面类型匹配的文档中出现的关键字的列表。

计数 列显示当前结果集中包含关键字的文档数。 相关性 列显示与与查询匹配的其他文档相比,频率计数的唯一性级别。 高相关性值以颜色阴影显示,并且强度越来越高。 颜色从黄色开始,然后增加到橙色,再增加到红色。

识别周期性模式中的异常

使用 主题 分析来查找数据中存在的季节性,月度甚至日常模式中的异常。

您的文档必须至少包含一个日期或时间字段,才能提供主题信息。

主题分析关注在特定时间段内,关键字的频率偏离预期平均频率的程度。 期望的平均值使用同一时间段内其他关键字的频率计数的所有平均值。 此分析方法对于识别周期性发生的模式很有用,并突出显示这些循环模式中可能发生的任何意外更改。

要查找异常,请完成以下步骤:

  1. 从初始搜索页面中,输入关键字或选择具有数字值的构面以过滤文档。

  2. 在引导式搜索结果页面中,单击 分析原因或特征

  3. 从“构面分析”窗格中,选择 主题

  4. 调整以下值以适合您的分析:

    • 结果数
    • 日期构面
    • 时间刻度
    • 日期范围
  5. 选择目标构面或子构面,然后单击 分析

    生成的时间序列图显示一段时间内关键字提及频率的更改。

    专题分析图显示,设备在夏季有一些橙色条纹*
    分析时间序列
    *

    颜色编码用于在提及次数偏离预期频率时突出显示。 偏差越高,颜色越浓,从黄色到橙色再到红色。 根据同一时间段内其他关键字的出现频率计算平均值。

周期性数据是根据您收藏的当前时区设置计算得出的。 如果要更改图形所使用的时区,请参阅 更改时区

查找重要术语

从数据集中查找特征词。 特征词视图是一个词云,用于显示您正在分析的文档中频繁提及的术语。

您可以单击字云中的字以将其添加到现有查询,并过滤当前文档集以仅包含同时提及指定字的文档。

要查找重要术语,请完成以下步骤:

  1. 在引导式搜索结果页面中,单击 分析原因或特征

    这样会显示特征词视图。

    面状词云
    特征
    *

    不同的字体颜色有助于区分单词之间的关系; 它们没有统计意义。

  2. 单击云中的某个词以将文档集限制为仅包含提及该词的文档。

分析两个构面之间的关系

使用 分析可查看两个构面如何相互关联。

要比较两个方面,请完成以下步骤:

  1. 从“构面分析”窗格中,选择

  2. 在列表中查找要比较的第一个构面。 单击与构面关联的 X 轴或 Y 轴图标,以指示要在二维图形中显示构面值的位置。

  3. 找到第二个构面,然后单击剩余的轴图标。 例如,如果先前选择了 X 轴图标,请为第二个构面选择 Y 轴图标。

    来自这两个构面的数据将显示在图形中。

    面对比较图
    面对比较
    *

图中显示了两个数字。 第一个数字是频率计数,第二个数字是相关性值。 频率计数用于度量在文档中一起找到两个数据点的次数。 相关性测量频率计数与其他与查询匹配的文档相比的唯一性级别。 如果相关性显示 2.0,那么表示两个数据点相交的次数比预期大 2 倍。 为了帮助您识别可能需要更深入分析的异常,高相关性值以颜色阴影显示,其强度从黄色到橙色再到红色。

分析多个构面之间的关系

使用 连接 分析可查看多个构面如何相互关联。

要比较两个或多个构面,请完成以下步骤:

  1. 从“构面分析”窗格中,选择 连接

  2. 首先选择要与其他构面进行比较的根构面。

  3. 从列表中最多选择 4 个其他构面,然后单击 分析

    在第一个构面与另一个构面之间依次进行对分析。

    面组比较图
    *

    生成的网络图仅显示高度相关的高频对。 每个节点表示一个构面值。 节点颜色反映构面类型。 节点之间的实线连接标识高度相关的对。 虚线连接标识高频对。

更改数字范围

如果图形的刻度未针对数据进行优化,那么可以对其进行更改。 例如,要绘制车辆速度,您可能需要的范围是递增数或递增数 (而不是递增数)。

要更改构面的图形比例,请完成以下步骤:

  1. 单击页面标题中的 集合 链接。

  2. 在集合的磁贴中,单击 打开和关闭选项列表 图标,然后选择 编辑集合

  3. 构面 选项卡中,查找要为其更改数字范围的构面。

  4. 在“范围”字段中,单击 编辑

  5. 定义要用作 JSON 对象的每个范围。 您可以添加或除去对象以更改范围内的数据点数。

    例如,标识车速范围的 JSON 对象可能如下所示:

    [
      {
        "query": "[1, 20)",
        "label": "1 - 19"
      },
      {
        "query": "[20, 40)",
        "label": "20 - 39"
      },
      {
        "query": "[40, 60)",
        "label": "40 - 59"
      },
      {
        "query": "[60, 80)",
        "label": "60 - 79"
      },
      {
        "query": "[80, 100000)",
        "label": "80+"
      }
    ]
    
  6. 单击应用

  7. 单击保存,然后单击关闭

  8. 单击收集磁贴以返回到收集并继续分析。

对车辆速度的数字范围的更改为要突出显示的数据中的关系或异常提供了更多机会。

显示一对比较图,其中每行列出一个状态,每列显示一个车速。 其中 TN 和 80 + MPH 会以橙色突出显示以显示异常。
Results after changed number range

在地图可视化中显示结果

可以在地图可视化中显示表示地理位置的构面。 例如,如果您具有具有 US 状态构面的集合,那么您可能希望显示可视化中每个状态的数据,以使用户能够从地图中选择每个状态。

显示美国地图,其中包含与所显示的所选状态相关的数据。
Results shown in a map visualization

缺省情况下,“美国地图”可用。 您可以添加以 GeoJSON 格式构建的定制映射。 有关更多信息,请参阅 RFC7946

要使用您定义的映射,请完成以下步骤以导入映射定义:

  1. 从“内容挖掘”应用程序主页,从页面标题中的面包屑单击 集合
  2. 点击页面开头的设置图标
  3. 点击管理自定义资源
  4. 单击添加资源
  5. 命名资源,然后单击 下一步
  6. 添加地图文件,然后单击 保存

要使您添加的地图可用作构面的可视化选项,必须编辑该构面。

  1. 从页眉中的面包屑单击 主页
  2. 右键单击集合的溢出菜单,然后选择 编辑集合
  3. 打开 构面 选项卡,然后查找要与地图可视化关联的构面。
  4. 可视化类型 值更改为 地图,然后从 资源 字段的列表中选取您添加的地图。
  5. 单击保存,然后单击关闭

标记感兴趣的文档

使用文档标记为文档或一组文档指定自定义标记,以便分类、导出或进一步分析。

标记文档是突出显示要在以后进一步检查的文档的有用方法。

必须先为集合创建标志,然后才能标记文档。 有关更多信息,请参阅 添加文档标志

要添加国旗,请完成以下步骤:

  1. 从集合的分析视图中,创建返回一组具有特定特征的文档的查询。

  2. 从文档视图中,单击 文档标志 图标。

  3. 选择标志。

  4. 您可以选择将该标志应用于所有查询结果或所选文档,然后单击 应用

    不能对每个集合设置超过 50 次的文档标志。 无论您是标记一个单独选择的文档,还是标记一个可能返回许多文档的查询,每个操作都算一次设置一个标志。

标记的文档集会随着集合的更新而动态更改。 已标记的文档集在索引中存储为查询。 每个标志都有一个查询来表示与之关联的文档集。 例如,创建文档标志,搜索术语 ice cream,并将红色标志应用于包含此词的所有文档后,ice cream 会存储为表示该标志的查询。 然后,如果您搜索 coffee,并在所有包含该词的文件上应用红色标记,内部标记查询将更改为 (ice cream) OR coffee。 因此,如果摄入包含单词 coffee 的新文档,那么会自动将红色标志应用于这些文档。

查看标记的文档

要查看应用了标志的文档,请完成以下步骤:

  1. 在“构面分析”面板中,向下滚动到 文档标志 构面。
  2. 选择构面,然后单击 分析 以打开“文档标志”仪表板。
  3. 单击其中一个标志,单击 分析更多,然后单击 显示文档

从文档标志查询中除去文档标志

要删除文档标记,请完成以下步骤:

  1. 从“要分析哪些内容?”页面中,通过单击 搜索来提交空查询。

    空查询将返回集合中的所有文档。

  2. 单击 显示文档

  3. 点击工具栏上的文档标记图标,取消选中文档标记复选框,然后点击应用

    这将从文档中除去文档标志。