IBM Cloud Docs
使用“内容挖掘”应用程序分析数据

使用“内容挖掘”应用程序分析数据

使用 Discovery 内容挖掘应用程序来分析数据。 应用程序在可视化中显示信息子集,这些子集可帮助您查找模式,趋势和异常。

只有已安装部署或企业版和高级版计划管理部署的用户才能使用内容挖掘应用程序。

概述视频

视频脚本

由 Stuart Strolin 提供的 Watson Discovery 内容挖掘项目。 (音乐简介) 本视频的目的是让您熟悉 Watson Discovery中的内容挖掘项目。

内容挖掘是 Watson Discovery 的主要用例之一,用于分析和探索结构化和非结构化数据,以找到洞察并提取隐藏含义。 它由居民分析人员和数据研究员使用。

内容挖掘项目可用于所有类型的分析,因为用户界面并非特定于特定行业或数据集。

在此场景中,您是一家虚构汽车公司的分析师。 运营报告已提醒该公司注意其中一辆汽车的异常事故率。 你的工作就是找出原因。

通过使用内容挖掘项目,您可以通过查看国家机动车事故报告中的非结构化数据来开始分析。 将向您显示一个界面,该界面允许您选择汽车模型并开始分析 (在 "集合" 页面上)。 在这种情况下,您对 Hill Walker 感兴趣。 您可以在页面开头的搜索部分中输入该信息。 但只需点击该项就更容易了。 您可以根据需要添加任意数量的搜索项和条件。 但实际上,你想让应用来指导你的分析。

您现在看到的是导航视图 (以指导式方式)。 它可跟踪您的分析,并为后续步骤提供选项。 它还提供与当前分析状态匹配的文档数的计数。 在这个小小的集合中,与希尔沃克有关的文件只有 51 份。 在生产数据集中,该数字通常要大得多。 分析趋势和异常通常是一个很好的启动方法,因为它允许您查看是否有任何异常。

马上,你注意到希尔沃克在 12 月和 1 月都有问题。 您决定通过将此初始探索范围缩小到仅为 12 月的月份来进一步调查。

请注意,顶部的导航视图始终让您了解您在分析中所处的位置。 接下来,选择 分析原因和特征,因为您对发生事件的原因感兴趣。

您会注意到“雪”和“刹车”之类的词会一起突出显示 (在 "词性" 部分),因此将这些词添加到您的分析中。

Content Miner 项目将您的调查范围缩小到可以轻松阅读的少量投诉。(单击 "显示文档")

这里的共同主题是,在雪地条件下,刹车的工作方式存在一个意想不到的问题。 您现在有了您需要的信息,可以要求工程部门对制动系统进行详细检查,并确定其在雪地条件下不按预期工作的原因。

在此演示中,您了解了使用 Watson Discovery 和内容挖掘的居民分析人员如何轻松发现非结构化文本中的隐藏含义。(功能部件,功能和用例列表)

您将如何处理 Watson Discovery? (音乐离谱)

运作方式

要分析数据,请使用 构面。 构面为您提供了一种分割数据和可视化信息子集的方法,以便更易于理解。

从集合的数据分析页面中,可以选择在下列其中一个视图中显示数据:

构面
显示从通过应用于文档的扩充项添加到文档的注释派生的构面。 扩充项可以包含内置 Natural Language Processing 扩充项,例如 词性实体。 它们还可以包含您添加的定制扩充项,例如字典,正则表达式模式和机器学习模型。
元数据构面
显示从数据派生的构面。 将文件添加到集合时,Discovery 会对数据进行分析并建立索引。 添加注释以标识内容类型并显示为元数据构面。 当您从 CSV 文件中摄入结构化数据 (例如记录) 时,会产生最佳元数据构面。 元数据构面的最大长度为 256 个字符。
定制
仅显示您选择添加到视图的构面。 您可以将扩充项派生构面和内容派生构面混合添加到定制视图。

创建 内容挖掘 项目类型时,词性 构面将自动应用于数据。 此构面是一个很好的开始位置,因为它对所有数据 (无论主题如何) 都有效。 通过输出,您可以快速了解数据中最常见的术语。

Watson Discovery content mining launch page
Watson Discovery Content Mining application home page

从此起点开始,您可以确定其他方法来过滤可能有用的数据。

例如,如果数据由交通报告组成,那么 词性 构面可能会显示高频关键字包含诸如 engine制动fire烟雾spark之类的术语。 鉴于此常用术语,您可以创建字典以帮助您对数据进行分类和过滤。 示例中的关键字可能会引导您创建以下字典:

  • 诸如引擎和制动器之类的术语的 component 字典
  • 术语 (例如,火灾,烟雾和 Spark) 的 phenomenon 字典

将字典扩充项应用于数据时,会生成 注释。 您可以将注释视为添加到词或短语的标记,其中标记会对词或短语的含义进行分类或标识。 生成的注释充当可用于进一步过滤和解剖数据的新构面。

例如,通过新的 componentphenomenon 构面,您可以查找交通事故中涉及的组件和现象之间的相关性。

了解分析数据的方法

深入挖掘

要更深入地挖掘数据,请应用或创建可以在文档中找到不同类型信息的 AI 模型。 您可以应用内置自然语言处理模型,例如 Entities 扩充项,可识别常见事物的提及项,例如业务或位置名称以及其他类型的适当名词。 或者,您可以应用可识别数据独有的术语和类别的定制模型。

通过添加您自己的构面来扩展分析

入门

必须先创建 Discovery 内容挖掘项目,然后才能使用该应用程序。 创建项目并上载数据后,可以打开“内容挖掘”应用程序。

有关更多信息,请参阅创建项目

当然,如果不把正确类型的信息放进去,就无法得出有用的见解。 请确保包含一致的数据。 如果要查找一段时间内的趋势,那么数据必须包含指定日期的数据点。

以 CSV 文件格式提交的数据是最佳数据。 有关提供相关分析功能的 CSV 文件的样本,请参阅 分析 CSV 文件