IBM Cloud Docs
选择扩充项

选择扩充项

添加可以向 Discovery 传授对应用程序具有特殊含义的术语或模式的资源。

下表描述了要添加以满足不同需求的最佳资源。

域工具概述
目标 资源 注释
定义可对文档中的文本进行分类的类别。 分类器 不适用
识别对您很重要的术语的术语和同义词,例如您销售的产品的名称。 字典 不适用
定义用于捕获显着性模式的正则表达式,例如,AB10045 是用于订单编号的语法。 正则表达式 不适用
识别并标记定制机器学习模型中定义的实体和关系。 机器学习模型 需要从另一个 IBM 工具构建和导出的模型。
将规则应用于基于您通过在 IBM Watson® Knowledge Studio中创建高级规则模型所定义的规则的字段。 高级规则模型 需要从 IBM Watson® Knowledge Studio 构建和导出的高级规则模型,或者需要使用导出的 Patterns 资源的高级规则模型。
IBM Cloud 识别与您教导 Discovery 识别的语法模式匹配的句子中提到的术语。 模式(Beta) 仅作为受管部署中的英语集合的 Beta 功能提供。 无法将通过定义模式派生的扩充项应用于内容挖掘项目。 您可以导出资源并将其用作高级规则模型。
通过训练实体抽取器机器学习模型,识别为重要的实体。 实体抽取器 支持从导入的 Knowledge Studio 语料库开始。
将文档中的句子分类为用户定义的句子类。 句子分类器 支持智能标注,加快标注过程。

或者,您可以应用内置 Watson NLP 扩充项,以在集合中查找以下信息:

您可以通过定义“智能文档理解”(SDU) 模型,根据文档结构从文档中抽取含义。 使用“智能文档理解”工具可识别新字段,通过这些新字段将扩充项作为目标,或者将大型文档拆分为更易于管理的区块。 有关更多信息,请参阅 SDU 的结构含义

您添加到一个项目的字典和分类器可以由其他项目使用。

有关如何从扩充项中获取最大价值的更多信息,请阅读 扩充文档可使搜索更有效 博客帖子。

选择正确的扩充项类型

下图帮助您为用例选择正确的扩充项。

如果要标记数据中的重要信息,请通过回答以下问题来找到要使用的正确扩充项: 是否要标记术语,段落或文档? 如果是段落或文档,请创建分类器扩充项。 如果是术语,那么这些术语是否以有限列表表示? 如果是,请创建字典扩充项。 如果没有,术语语法是否遵循模式? 如果是这样,该术语的所有变体是否都符合单一模式? 如果是,请创建正则表达式扩充项。 如果没有,请创建一个使用您提供的术语示例来查找术语变体中的模式的模式扩充项。 如果没有一组模式可以捕获术语,请创建实体抽取器以根据使用术语的上下文来识别术语。
Flow diagram for choosing the right enrichment

一起使用扩充项

您可以一起使用许多扩充项来应对在开发搜索应用程序时可能迂到的各种挑战。

许多团队首先创建 字典 扩充项。 字典是一个很好的工具,用于识别重要术语并对其进行标记,以便以后可以检索这些术语。 假设您正在构建一个需要从食谱中提取成分的搜索应用程序。 字典扩充项可以识别大多数成分的提及项。 但是,字典扩充项可能与两个词的词汇部分匹配。 对于诸如 olive oilmustard greens 之类的术语,它可能仅不正确地识别 olivemustard。 为了提高搜索的准确性,您可以使用可识别两字成分提及项的 模式 扩充项来扩充字典扩充项。 也许有几个食谱提到了欧洲格式的食品着色代码 (E104)。您可以添加 正则表达式 扩充项以识别语法为 E1nn 的代码的出现。 最后,要捕获任何其他扩充项都无法识别的术语,您可以使用 机器学习 扩充项。 扩充项可以是您在外部工具中构建并导入到 Discovery 的扩充项,也可以是您通过创建 实体抽取器 扩充项在 Discovery 中构建的扩充项。

实体抽取器扩充项比其他扩充项更复杂。 例如,字典扩充项仅识别在文档中出现的字典词汇和同义词的完全匹配。 正则表达式扩充项仅识别特定模式。 相反,根据在句子中提到实体示例的上下文来识别实体的出现。

例如,您可能想要识别位置,而要处理的文档包含以下类型的句子:

  • 我住在 Massachusetts
  • 我们下周将从 New York City 前往 Paris

要使用字典扩充来成功识别位置名,字典必须列出每个可能的位置。 但是,如果使用实体抽取器扩充项,那么可以根据语句中引用位置的方式来确定提及位置的时间。 通过在其训练数据中使用诸如 "I live in x","I 'm from x" 或“I 'm 差旅 to x”之类的短语,实体抽取器可以了解 x 是对位置的引用。

当您需要在使用字典或实体抽取器扩充项之间进行选择时,请遵循以下准则:

  • 如果可能示例的列表很短,请使用字典。

    定义具有同义词 (例如 EarthSaturn ) 的字典术语 planet 比创建 planet 实体更高效,因为太阳系中仅存在 8 个行星。 但是,定义地球上每个可能位置的列表是不可行的。 实体抽取器可以识别更多位置提及项。

  • 如果可能的示例列表是静态的,请使用字典。

    关于冥王星的争议,planet 类别也是一个很好的例子,因为我们太阳系中的行星列表是静态的。 或者,您可能想要监视有关产品的一般客户情绪。 您需要能够识别产品名称提及项,但可能不需要具体信息。 如果您有大量的产品名称,那么可以创建 product name 实体。 随着新产品添加到您的产品服务组合中,或者产品名称随着时间的推移而更改,您不需要维护整体产品列表。 实体抽取器可以根据提及产品的语句的上下文继续识别有关产品的一般反馈。

添加资源

将定制扩充项添加到项目时,该扩充项可供项目中的任何集合使用。

要添加资源,请完成以下步骤:

  1. 打开项目并转至“改进和定制”页面。

  2. 在“改进工具”面板上,展开 Teach 域概念,然后选择要添加的资源。

    创建资源后,它将成为一种新的扩充项,您可以将其应用于数据。

  3. 指定要应用扩充项的集合和字段。

    您可以将扩充项应用于 texthtml 字段,以及从上载的 JSON 或 CSV 文件或从“智能文档理解”(SDU) 工具添加的定制字段。 将仅扩充 JSON 文件中定制字段的前 50,000 个字符。

    例如,如果添加字典并选择将其应用于集合的 text 字段,那么将重新处理集合中的文档。 如果将术语 vehicle 指定为 car 字典条目的同义词并出现在文档文本中,那么会将 vehicle 标记为提及 car 字典条目类型。 如果客户稍后搜索 car,那么包含 vehicle 提及项的段落将包含在搜索结果中。

    如果您选择的字段来自 JSON 文件,那么在应用扩充之后,字段数据类型将转换为数组。 即使字段包含单个值,也会将其转换为数组。 例如,"field1": "Discovery" 变为 "field1": ["Discovery"]

您可以选择稍后将资源派生的扩充项应用于数据。 您添加到项目的扩充项可供项目中的任何集合使用。 转至“管理集合”页面,选择要在其中应用扩充项的集合,然后打开 扩充项 选项卡。 确保扩充项的状态显示为 就绪,然后将扩充项应用于集合中的字段。 您启用的扩充项将按随机顺序应用于文档。 有关更多信息,请参阅管理扩充项

从已部署的“内容挖掘”应用程序中,您可以从字典,正则表达式,机器学习或 PEAR 文件创建分类器或定制注释器,并将其用作存储在其他项目类型中的集合中的扩充项。 有关更多信息,请参阅 添加构面