使用导入的 ML 模型来查找定制术语
使用使用规则或上下文来识别和标记实体的定制 Machine Learning 模型。
添加使用 IBM 工具创建的 Machine Learning 模型,这些模型可用于定义您自己的类型系统。
可添加的模型类型取决于您的部署:
-
IBM Cloud Pak for Data 您可以添加使用xml-ph-0000@deepl.internal xml-ph-0001@deepl.internal Studio模型或xml-ph-0002实例创建的模型。IBM Software Hub 您可以添加使用 Studio模型创建的模型,或使用托管在 或 上的 实例创建的模型。Watson Explorer Content Analytics IBM Cloud Pak® for Data IBM Cloud IBM Watson® Knowledge Studio 从 4.6.2 版本开始,您还可以添加在 Discovery 的另一个实例中创建并导出的自定义实体提取器模型。
-
IBM Cloud 您可以添加仅使用 IBM Cloud 中托管的 IBM Watson® Knowledge Studio 实例创建的模型。
要使用在 IBM Cloud Pak for Data上使用 Knowledge Studio 构建的 Knowledge Studio 模型,请将参考标准迁移到 Knowledge Studio的 IBM Cloud 实例,然后重新训练模型。
支持以下类型的模型:
- 在 Knowledge Studio 中创建的基于规则的模型,用于根据定义的规则在文档中查找实体。 (文件格式: .pear)
- 在 Knowledge Studio 中创建的机器学习模型,能够理解您所在行业的语言细微差别、含义和关系(文件格式:.zip)
- 在 Discovery中创建并导出的定制实体抽取器。 (文件格式: .ent)
- 在 Discovery中创建并导出的语句分类器。 (文件格式: .sc)
- IBM Cloud Pak for Data 自定义UIMA文本分析模型在xml-ph-0000@deepl.internal xml-ph-0001@deepl.internal Studio中创建。IBM Software Hub 在 Studio中创建的自定义UIMA文本分析模型。Watson Explorer Content Analytics (文件格式: .pear)
从已安装的部署中,使用 4.6.2 发行版添加了对导入实体抽取器模型的支持。
发现无法识别由 Knowledge Studio 模型定义的实体子类型。
要添加 Machine Learning 型号,请完成以下步骤:
-
创建模型并从用于创建该模型的工具中导出该模型。
有关更多信息,请参阅以下文档:
-
Knowledge Studio for IBM Cloud Pak® for Data
-
Knowledge Studio for IBM Cloud
-
Watson Explorer Content Analytics Studio
必须将模型从 Watson Explorer Content Analytics Studio 导出为 UIMA PEAR 文件。 有关更多信息,请参阅: 创建定制 PEAR 文件以用于词法分析流。
-
-
从“改进工具”面板的 Teach 域概念 部分,然后单击 导入机器学习模型。
-
指定模型的名称,然后选择用于定义模型的语言。
-
单击 上载 以浏览先前导出的文件。
-
单击创建。
-
选择要在其中应用模型扩充项的集合和字段,然后单击 应用。
如果模型太大而无法从产品用户界面上载,那么可以使用 API 的 创建扩充项 方法来导入文件。
基于规则的模型示例
例如,当机器学习模型作为字段扩展时,它会提取基于规则模型的 Knowledge Studio 规则中指定的该字段中的所有实体类型。 如果模型识别实体类型 (例如 person
,surname
和 job title
),那么将在您的文档中识别这些实体类型并对其进行标记。
在输出中,由 entities
数组中的 enriched_{field_name}
数组中的 Machine Learning 扩充项抽取的信息。 在此示例中,为扩充项选择的字段为 text
。
{
"enriched_text": [
{
"entities": [
{
"path": ".wksrule.entities.PERSON",
"text": "George Washington",
"type": "PERSON"
},
{
"path": ".wksrule.entities.GIVENNAME",
"text": "George",
"type": "GIVENNAME"
},
{
"path": ".wksrule.entities.SURNAME",
"text": "Washington",
"type": "SURNAME"
},
{
"path": ".wksrule.entities.POSITION",
"text": "politician",
"type": "POSITION"
},
{
"path": ".wksrule.entities.POSITION",
"text": "soldier",
"type": "POSITION"
},
{
"path": ".wksrule.entities.JOBTITLE",
"text": "President of the United States",
"type": "JOBTITLE"
}
],
"text": [
"George Washington (February 22, 1732‚ December 14, 1799) was an American politician and soldier who served as the first President of the United States from 1789 to 1797 and was one of the Founding Fathers of the United States."
]
}
]
}
因此,如果某人 使用 API 提交 Discovery 查询语言查询以查找出现的 enriched_{field_name}.entities.type:jobtitle
扩充项,那么将返回讨论人员职位的任何段落。
机器学习模型示例
在此示例中,机器学习模型将抽取实体类型 (例如 person
,oranization
和 date
) 以及有关实体之间的关系的信息。 当ML模型应用于某个领域时,它利用机器学习来理解文档中提到的语言细微差别、含义和关系。
在输出中,Machine Learning 扩充在 entities
和 relations
数组内的 enriched_{field_name}
数组中抽取的信息。 在此示例中,为扩充项选择的字段为 text
。
{
"enriched_text": [
{
"entities": [
{
"count": 1,
"text": "Democratic Party",
"type": "ORGANIZATION"
},
{
"count": 1,
"text": "March 15, 1767",
"type": "DATE"
},
{
"count": 1,
"text": "President",
"type": "POSITION"
},
{
"count": 1,
"text": "Andrew Jackson",
"type": "PERSON"
}
],
"relations": [
{
"sentence": "Andrew Jackson (March 15, 1767‚ June 8, 1845) was an American soldier and statesman who served as the seventh President of the United States from 1829 to 1837 and was the founder of the Democratic Party."
}
]
}
]
}
机器学习模型限制
每个服务实例可以创建的 Machine Learning (ML) 模型数取决于您的 Discovery 套餐类型。
计划 | 每个服务实例的 mL 模型 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 10 |
企业 | 10 |
加号 (包括试用) | 3 |
对于每个 Knowledge Studio 机器学习模型,可检测的最大实体数为 50。
高级规则模型
添加高级规则模型以将已创建并从 IBM Watson® Knowledge Studio 的高级规则编辑器导出的文本抽取模型应用于集合。
必须使用相应的 Knowledge Studio 部署来创建模型:
-
IBM Cloud Pak for Data 您可以添加从以下位置创建和导出的模型:IBM Software Hub 您可以添加从以下位置创建和导出的模型:
- 使用早于 4.5 发行版的 IBM Cloud Pak® for Data 部署构建的 IBM Watson® Knowledge Studio。
- 在 IBM Cloud 上托管的 IBM Watson® Knowledge Studio
- NLP Editor that is built by contributors to the Center for Open-source Data & AI Technologies
-
IBM Cloud 您可以添加仅使用 IBM Cloud 上托管的 IBM Watson® Knowledge Studio 实例创建的模型。
从 Knowledge Studio 中除去
在 Knowledge Studio 中使用 Beta 高级规则编辑器构建模型的支持已结束。 在支持日期结束之前从 Knowledge Studio 导出的任何规则模型都可以继续在 Discovery中使用。
支持结束日期因部署类型而异:
- IBM Cloud 2022 年 6 月 30 日
- IBM Cloud Pak for Data IBM Cloud Pak for Data于 2022 年 8 月 3 日发布 4.5.1。
IBM Cloud 作为使用由 Knowledge Studio 高级规则编辑器生成的模型的替代方法,您可以通过添加模式扩充项 来定义规则。
添加现有模型
要添加高级规则模型,请完成以下步骤:
-
创建模型并导出包含模型资源的 ZIP 文件。
有关如何导出模型的更多信息,请参阅模型源的指示信息:
-
从“改进工具”面板的 Teach 域概念 部分中,选择 高级规则模型。
-
单击上传。
-
指定模型的名称,然后选择用于定义模型的语言。
-
指定结果字段的名称,该字段是将存储此扩充项的输出的索引中的字段。
-
单击 上载 以浏览先前导出的 ZIP 文件。
-
单击创建。
-
选择要在其中应用模型扩充项的集合和字段,然后单击 应用。
高级规则的输出格式
Knowledge Studio 使用注释查询语言 (AQL) 在高级规则模型中定义规则。 每个模型由一个或多个视图定义。 每个视图都是包含多个数据记录的关系数据结构。 每个记录都由视图模式所定义的列中的值组成。 为了便于表示这些模型 (它们是定制的,因此具有各种模式),将使用统一的 JSON 输出模式。
- 每个 JSON 对象都表示一个“注释查询语言”(AQL) 视图。
- JSON 对象中的“名称/值”对表示视图中属性的名称和值。
- AQL 视图中的元组表示为 JSON 对象数组,视图中的每个元组都有一个对象。
下表描述了如何以 JSON 语法表示 AQL 数据类型。
AQL 数据类型 | JSON 语法 | JSON 示例 |
---|---|---|
整数 | 号 | 5 |
Float | 号 | 4.13 |
布尔型 | 布尔型 | true |
文本 | 字符串 | "some string" |
跨度 | 格式为 {"text": String, "location": {"begin": Integer, "end": Integer}} 的对象 |
{ "text": "Jane", location": {"begin": 5, "end": 9} } |
特殊情况: 空值 | 空值 | null |
整数列表 | 数字值数组 | [ 1, 2, 3, 4, 5] |
浮点列表 | 数字值数组 | [ 4.13, 4.5 ] |
布尔值列表 | 布尔值数组 | [ true, true, false] |
文本列表 | 字符串值数组 | [ "some string", "another string" ] |
范围列表 | 格式为 {"text":String, "location": {"begin": Integer, "end": Integer}} 的对象数组 |
[{ "text":"Jane", "location": {"begin": 5, "end": 9} }, { "text":"...", "location": {"begin": 15, "end": 40} }] |
特殊情况: 空列表 | 具有 0 元素的数组 | [ ] |
高级规则模型限制
每个服务实例可定义的高级规则模型数取决于 Discovery 套餐类型。
计划 | 每个服务实例的高级规则模型 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 3 |
企业 | 3 |
加号 (包括试用) | 1 |