IBM Cloud Docs
使用内置 Watson NLP 来查找常用术语

使用内置 Watson NLP 来查找常用术语

通过向文档添加预构建的扩充项,利用屡获殊荣的 Watson Natural Language Processing (NLP) 功能。

通过 Watson NLP,您可以识别和标记集合中有意义的信息,以便了解所有信息的含义并做出更明智的决策。

以下 Watson NLP 扩充项可用:

  • 实体: 识别内容中提及的适当名词,例如人员,城市和组织。
  • 关键字: 识别内容中的重要术语。
  • 词性: 标识内容中的词性 (例如,名词和动词)。
  • 观点: 了解内容的整体观点。

以下其他预训练的扩充项可用于 Discovery:

Watson NLP 扩充项

例如,以下截屏显示已添加到启用了“实体”和“关键字”扩充项的 Discovery 集合的美国独立宣言的抄本。 由扩充项识别的提及项将在文档文本中突出显示。

显示美国独立宣言的摘录,其中突出显示了几个术语。
Excerpt of the US Declaration of Independence with highlighted terms

某些 NLP 扩充项会自动应用于项目。 如果您正在使用其中一种项目类型,那么不需要自己应用这些项目类型。

每个项目类型的缺省扩充项

某些预构建的扩充项将根据项目类型自动应用于项目中的集合。 下表显示了应用于每种项目类型的缺省扩充项。

每个项目类型的缺省扩充项
此表具有行和列标题。 行标题标识项目类型。 列标题标识不同的扩充项。 要了解缺省情况下哪些扩充项应用于项目类型,请转至描述扩充项的行,并查找您感兴趣的项目类型的列。
扩充 文档检索 合同的文档检索 会话式搜索 内容挖掘
合约 “勾选标记”图标
实体 “勾选标记”图标 “勾选标记”图标
关键字
词性 “勾选标记”图标
文档的观点
表理解 “勾选标记”图标

有关以下预构建扩充项的更多信息,请参阅以下主题:

有关如何创建定制扩充项的更多信息,请参阅 添加特定于域的资源

有关如何从扩充项中获取最大价值的更多信息,请阅读 扩充文档可使搜索更有效 博客帖子。

有关如何使用 API 应用扩充项的更多信息,请参阅 使用 API 应用扩充项

添加扩充项

要添加自然语言处理(NLP)功能,请完成以下步骤:

  1. 打开项目并转至“管理集合”页面。

  2. 单击以打开要扩充的集合。

  3. 打开 “增强”选项卡

  4. 滚动以查找要应用于文档的 NLP 扩充项。

    同时列出了内置扩充项和定制扩充项。 内置扩充项的类型值为 System

  5. 选择要应用扩充项的一个或多个字段。

    您可以将扩充项应用于 texthtml 字段,以及从上载的 JSON 或 CSV 文件或从“智能文档理解”(SDU) 工具添加的定制字段。

  6. 单击应用更改并重新处理

您启用的扩充项将按随机顺序应用于文档。 有关如何除去扩充项的信息,请参阅 管理扩充项

实体

标识实体。 实体 是通常表示数据收集中提及的人员,城市和组织等适当名词的术语。Discovery 可以识别属于 Watson Natural Language Processing (NLP) 服务定义的实体类型系统的实体。

如果您希望能够识别对您的业务很重要的不常见术语,那么可以训练自己的模型以识别定制实体。 有关更多信息,请参阅 实体抽取器

由 Discovery 使用的 Watson NLP 实体抽取器服务称为 NLU 类型系统。 该名称源自以下事实: 类型系统由 Watson Natural Language Understanding (NLU) 服务以及 Watson Discovery 服务使用。 但是,这是 Discovery 直接使用的类型系统的 Watson NLP 实现,而不是 Watson NLU 实现。 因此,这两个实现可以产生不同的结果。 要获取服务识别的实体类型的一般概念,请参阅 实体

以下截屏显示实体扩充项识别术语 政府系统大不列颠国王 (等),并将其标记为实体提及项。

显示声明中突出显示了各国政府和大不列颠国王的声明。
The recognized entities, Governments and King of Great Britain, are highlighted

从文档的 JSON 视图中,可以看到实体提及项的底层 JSON 结构。

{: caption="中已识别的 "政府系统 "和 "大不列颠国王 "实体的 JSON 视图已识别实体" caption-side="bottom"}的 JSON 表示

例如,如果要搜索组织实体类型,那么可以将所有 JSON 内容复制到文本编辑器中并搜索 Organization。 从 JSON 树形视图的根目录中单击 复制 图标。

示例

输入

"IBM is an American multinational technology company headquartered in Armonk."

响应

在 JSON 输出中:

  • text = 字符串。 实体文本
  • type = 字符串。 实体类型,例如 OrganizationLocationPersonNumber
  • mentions = 数组。 实体提及项和位置
  • model_name = 字符串。 对于定制车型,此字段包含用户提供的车型名称。 否则,该字段将包含默认的车型名称,例如 watson_knowledge_studiodictionarycharacter_patternnatural_language_understanding
{
  "entities": [
    {
      "model_name": "natural_language_understanding",
      "mentions": [
        {
          "confidence": 0.8317045,
          "location": {
            "end": 3,
            "begin": 0
          },
          "text": "IBM"
        }
      ],
      "text": "IBM",
      "type": "Organization"
    },
    {
      "model_name": "natural_language_understanding",
      "mentions": [
        {
          "confidence": 0.6114863,
          "location": {
            "end": 75,
            "begin": 69
          },
        "text": "Armonk"
        }
      ],
      "text": "Armonk",
      "type": "Location"
    }
  ]
}

关键字

返回内容中的重要关键字。

例如,以下截屏显示了美国独立宣言中由关键字扩充项识别的突出显示的术语。

显示文档文本中已识别的关键字
关键字
* 识别的术语

从文档的 JSON 视图中,可以看到 Declaration 关键字提及项的底层 JSON 结构。

显示{: caption="中已识别关键词的 JSON 视图JSON 表示关键词的丰富" caption-side="bottom"}

示例

输入

"Watson Discovery is an award-winning AI search technology."

响应

在 JSON 输出中:

  • text = 关键字文本
  • mentions = 实体提及项和位置
{
  "keywords": [
    {
      "mentions": [
        {
          "location": {
            "end": 157,
            "begin": 141
          },
          "text": "Watson Discovery"
        }
      ],
      "text": "Watson Discovery",
      "relevance": 0.503613
    },
    {
      "mentions": [
        {
          "location": {
           "end": 177,
            "begin": 164
          },
          "text": "award-winning"
        }
      ],
      "text": "award-winning",
      "relevance": 0.728722
    },
    {
      "mentions": [
        {
          "location": {
            "end": 198,
            "begin": 181
          },
          "text": "search technology"
        }
      ],
      "text": "search technology",
      "relevance": 0.779356
    }
  ]
}

关键字限制

“关键字”扩充项最多可识别 50 个关键字,每个关键字都有一个或多个提及项,每个文档都有一个或多个提及项。

词性

识别并标记词性,包括名词,动词,形容词,副词,连词,形容词和数字。