使用模式来查找术语
识别与您教导 Discovery 识别的语法模式匹配的句子中提到的术语。
IBM Cloud Patterns 是 Beta 功能,仅在受管部署中可用。 该功能仅适用于英语文档。
添加模式资源以指导 Discovery 识别数据中的模式。 “模式”功能部件使用模式归纳,这将从作为训练数据提供的示例中生成抽取模式。 指定几个示例后,Discovery 会建议您可以复审并接受更多规则以完成模式。
模式通过使用人工循环过程来生成模型。 您不会被要求在前面构建大量训练数据集。 而是提供一些示例,然后参与交互式过程以定义训练数据。 您被动地接受或拒绝系统建议的智能建议。
模式识别最适合用于处理具有一致的大小写、长度、文本或数字值结构的文本。 可让 Discovery 学习识别文档中的模式示例包括:
- 标准编号,例如
ISO 45001
和ISO 22000
。 - 货币引用,例如
$50.5 million
和$29 million
。 - 日期引用,例如
8 September 2019
和12 June 2020
。
如果需要识别特定术语或文本 (例如产品名称),请添加 字典。
有关更多信息,请阅读以下博客帖子:
要定义模式,请完成以下步骤:
-
从“改进工具”面板的 Teach 域概念 部分中,选择 模式。
-
单击新建。
-
选择要选择文档的方式。
-
允许 Discovery 为您选择 10 个随机文档。
-
自行选择文档 (最多可选择 20 个)。
每个文档的长度必须小于 5,000 个字符。 超出限制的文档将截断为 5,000 个字符。
-
-
单击下一步。
-
开始选择符合您要定义的模式的一些单词或短语。
例如,如果您收藏了一系列讨论
ISO
标准的文章,那么您可能会开始强调每份文件中的标准编号。如果您对某些内容进行注释,然后改变主意,将鼠标悬停在所选内容上,然后单击
x
以将其删除。 -
继续选择示例。
确定足够多的示例后,Discovery 将显示建议的示例列表,供您复审并确定这些示例是否有效。 建议的示例取自配置为在搜索结果中使用的字段。 如果结果内容的源配置为段落,那么将使用
text
字段。 有关更多信息,请参阅 更改结果内容。 -
针对每个建议选择 是 或 否。
如果要在作出选择之前在上下文中查看示例,请单击 预览文档 图标。
-
继续突出显示示例并验证建议,直到显示一条消息来通知您已识别了足够多的示例。
-
点击 “查看示例”选项卡,查看您和 Discovery 确定的示例列表。
-
如果示例正确,请单击保存模式。
如果 Discovery 无法根据您提供的信息来识别一致且有效的模式,那么不会启用 保存模式 按钮。 例如,如果提供相互矛盾的示例,那么可能不会创建模式。 要从头开始,请单击重置按钮。 这些文档将返回到其原始状态,并且将除去先前标识的任何示例。
-
要立即应用模式,请选择要在其中应用模型扩充项的集合和字段,然后单击 应用。
当 Discovery 在与您定义的模式匹配的文档中找到文本时,将在 enriched_{fieldname}.entities
字段中对其进行注释。 您可以通过检查模式名称的 enriched_{fieldname}.entities.model_name
字段来查找该模式。
下载模式
要下载图案,请完成以下步骤:
-
在 “模式”视图中,点击下载图标。
模式模型以ZIP文件的形式下载。
您可以将下载的ZIP文件作为高级规则模型资源的源文件导入。 有关更多信息,请参阅 高级规则模型。
模式限制
每个服务实例可定义的模式数取决于 Discovery 套餐类型。
计划 | 每个服务实例的模式 |
---|---|
Premium | 100 |
企业 | 100 |
加号 (包括试用) | 20 |