IBM Cloud Docs
添加切面

添加切面

为了帮助您分析语言处理和文本分析的结果,Discovery 将对具有相似模式或内容的文档进行组织和分类。

面孔可以帮助你过滤文档,从而更快地进行深入分析。 无论您是想大海捞针,还是想发现意想不到的趋势,从面入手都能加快研究过程。

  • 对于内容挖掘项目,将根据语音部分信息(由默认应用于此类项目的语音部分富集捕获)从您的集合中提取面。 您还可以查看从文件中的元数据导出的面。

    内容挖掘
    提取的语篇面*提取的
    **

  • 对于 Document Retrieval 项目,将根据识别的实体(由默认应用于该类型项目的 Entities 丰富度捕获)从集合中提取面。

    Watson Discovery "Customize display" section
    Top Entities facet

有关 EntitiesPart of Speech 增益的更多信息,请参阅 应用预构建的增益。 有关默认应用于项目的增强功能的更多信息,请参阅 默认项目设置

创建切面

有关如何向内容挖掘项目添加切面的详细信息,请参阅 添加切面

对于其他项目类型,可以通过以下方式创建面:

基于集合中的现有字段创建构面

在对数据集应用增益时,新字段会被添加到索引中。 这些新字段中存储了经增强识别的信息。 您可以使用丰富字段作为面的来源。

例如,如果应用 Keywords 预构建的丰富功能,您就可以根据在集合中找到的关键字创建一个面。 在处理文档的过程中,关键词丰富功能会识别出现的任何关键词提及,并将相关信息存储在一组以 enriched_{field_name}.keywords 开头的字段中。 要创建关键词分面,请添加一个分面,该分面的类别取自存储关键词提及的字段,即 enriched_{field_name}.keywords.mentions.text 字段。 有关关键词充实的更多信息,请参阅 应用预构建的充实

同样,您也可以使用由特定域增益生成的字段作为面的来源。 事实上,在创建 * 常规表达式*丰富度时,您可以定义一个面,用于对任何识别到的表达式提及进行分类。 有关更多信息,请参阅 添加特定于域的资源

要从现有字段中添加分面,请完成以下步骤:

  1. “改进和自定义”页面上,点击 “自定义显示”,然后点击 “面”。

  2. 单击新建构面 > 基于集合中的现有字段

  3. 选择要使用的字段,例如 enriched_text.entities.type。 添加面标签并选择过滤控制选项。

  4. 可选:您可以调整显示的面值的最大数量。

    最大数量是每个面类型显示的面值数量之和。 默认情况下,共显示 10 个面的值。

  5. 在测试构面时,可以调整选项。

通过创建字典来创建构面

通过创建字典,添加一个面,将对用例有特殊意义的一组术语分组。

例如,一家服装零售店的店主会收集顾客的评论,并希望能够找到任何重复出现的投诉,以确定要停售的零售商品。 所有者可以创建一个词典,帮助识别和标记评论文本中提到的特定衣物。 为支持按服装产品类型过滤客户反馈的目标,所有者可添加与下表所列条目类似的条目。

词典条目示例
词典条目 同义词 词典名称
衬衫 上衣,钮扣衫,外衣,衬衫,T恤,长袖,短袖,背心 clothing
pants 休闲裤,牛仔裤,紧身裤,运动衫,连裤袜,长裤,短裤 clothing

当您通过 clothing 面过滤文档时,会返回 This long-sleeve is so badly proportioned. Who has arms that long! 的评论。

要通过创建字典来创建面,请完成以下步骤:

  1. “改进和自定义”页面上,点击 “自定义显示”,然后点击 “面”。

  2. 单击新建构面 > 通过创建字典

  3. 输入面的名称,然后创建要分类的术语词典。

    保存字典后,用于构面标签的名称将显示在构面列表中。

  4. 在测试构面时,可以通过选择指导领域概念 > 字典,向已创建的字典添加更多词汇。

    您创建的词典会显示在词典页面的列表中。 有关详细信息,请参阅 字典

通过识别模式创建一个面

模式是一项测试版功能,仅支持英文文档。

IBM Cloud IBM Cloud 仅

该面仅适用于托管部署以及 Document RetrievalConversational Search 项目。

“模式”功能使用模式归纳来帮助 Discovery 学习如何识别数据中的模式。 模式归纳法可从您提供的示例中生成提取模式。 指定几个示例后,Discovery 会提示您必须验证的更多规则,以完成模式。

模式识别最适合用于处理具有一致的大小写、长度、文本或数字值结构的文本。 可让 Discovery 学习识别文档中的模式示例包括:

  • 所有 ISO 标准编号,例如 ISO 45001ISO 22000
  • 所有货币金额,例如 $50.5 million29 dollars$29.00
  • 所有日期,例如 8 September 2019June 12, 2020

如果需要识别特定术语或文本,可以创建一个面,作为词典条目的一部分。 例如,使用字典面将以下类型的信息分组:

  • 同一系列中的所有产品:Cloud Pak for DataCloud Pak for AutomationCloud Pak for Security
  • 同一类别中的所有术语:carburetorpistonvalves

有关详细信息,请参阅 通过创建字典创建面

要通过识别模式来添加切面,请完成以下步骤:

  1. “改进和自定义”页面上,点击 “自定义显示”,然后点击 “面”。

  2. 单击新建构面 > 通过识别模式

  3. 在新建模式页面的创建选项卡上,选择您想要选择文档的方式。 您可以让 Discovery 为您随机选择 10 个文档,也可以自己选择多达 20 个文档。

    如果您自己选择文件,请遵循以下指导原则:

    • 选择包含以各种不同格式提及该模式的文档,以便模型日后能够识别。

    • 如果您想让模型了解某个术语不符合模式的使用方式,可以包含一份以错误方式使用该术语的文档,这样您就可以有意省略对该术语的选择。

      例如,您要添加的模式可能会捕捉到有关服装的内容。 在提到 top 衬衫的文档中,您可以选择 top 作为服装提法。 但是,您也可能希望在文档中提及 the top 3 fashion trends,并特意不选择 top 在这种情况下使用该术语。 这一遗漏告诉模型,当这个词用来指 最好的时,top 并不符合模式。

    • 包括最多 5000 个字符的文件。 任何超过限制的文件将被截断为5000个字符。

  4. 单击下一步

  5. 选择符合您要定义的模式的示例单词或短语。

    例如,如果要定义日期模式,则开始高亮显示每个文档中提到的日期。 如果选择错了,可以将鼠标悬停在选择内容上,然后单击 x 以将其删除。

    请务必选择每一个提及的图案。 模型会从你省略的内容和选择的内容中学习。

  6. 继续选择示例。 确定足够多的示例后,Discovery 会显示建议示例列表供您验证。 请选择

    如果要在上下文中确认示例,请单击预览文档图标。

  7. 继续高亮显示示例并验证建议,直到显示信息表明您提供了足够的示例。

  8. 单击查看示例选项卡查看示例列表。

  9. 如果示例正确,请单击保存模式

如果系统无法确定有效的模式,则 “保存模式”按钮将始终处于禁用状态。 如果您选择相互矛盾的例子来说明模式,系统将无法确定有效的模式。 如果无法保存工作,请单击重置按钮重新开始。 文件将恢复原状,不再选择之前确定的任何示例。

保存模式后,为构面标签指定的名称将显示在构面列表中。

何时使用模式分面而不是正则表达式字段

创建基于模式的分面类似于从字段中创建模式,该字段是通过将 Regular expression 富集应用到集合而得到的。

  • 如果要捕获的信息遵循严格的格式规则,可以使用 Regular expression 丰富功能来查找。 应用增益后,就可以将生成的字段作为面的来源。
  • 如果要捕捉的信息可以以不同的格式样式出现,那么模式面是更好的选择。 例如,日期或货币可以有多种格式。 没有一个单一的 regex 规则可以捕捉到所有的变化。 通过模式面,您可以提供多个真实世界的示例,展示指定信息的不同方式。