定义用户训练的 SDU 模型
创建智能文档理解 (SDU) 模型,该模型根据文档的结构来学习文档内容。
使用“智能文档理解”工具向集合添加定制字段,以便您可以执行以下操作:
- 在文档的特定部分中目标预构建或定制扩充项。
- 将大型文档拆分为更小的文档。
有关决定 SDU 是否可以帮助您使用案例的帮助,请阅读 何时使用智能文档理解。
如果从表中捕获信息对于用例至关重要,请考虑使用预先训练的模型。 有关创建预训练的 SDU 模型的更多信息,请参阅 应用预训练的 SDU 模型。
何时使用智能文档理解
“智能文档理解”(SDU) 工具与某些项目类型配合使用的效果更好。
-
当与 Document Retrieval 项目配合使用时,该工具最有用。 使用此工具可将文档分成更小,更易使用的信息块。 当您帮助 Discovery 对文档中的正确信息集建立索引时,可以改进应用程序可以找到和返回的答案。
例如,文档可能包含在带有 H4 标题的部分中显示的提示。 如果要分别从这些提示中抽取信息,可以添加名为
tips
的字段,并教导模型识别该信息。 将模型应用于集合后,只能将扩充项应用于tips
字段。 稍后,可以将搜索限制为仅从tips
字段返回内容。或者,您可能有包含子节的超大文档。 您可以教导 SDU 模型识别这些子节,然后将大文档拆分为多个,更小,更易于管理的文档,这些文档以其中一个子节开头。
-
准备集合以在 对话式搜索 项目中使用的最佳方法是识别离散的问答对。 您可以使用 SDU 工具对其进行查找和注释。 如果将项目配置为包含答案字段中的答案,那么必须更新 watsonx Assistant 中的搜索配置,以从定制答案字段获取响应主体。
-
预先训练的 SDU 模型将自动应用于 Document Retrieval for Contract 项目。 预训练的 SDU 模型知道如何识别对合同具有重要意义的术语和概念。 因此,您无法将用户训练的 SDU 模型应用于此项目类型,但也不需要。
-
SDU 工具很少与 内容挖掘 项目配合使用。
可以使用 SDU 工具仅对以下文件类型进行注释:
- 图像文件 (PNG,TIFF 和 JPG)
- Microsoft PowerPoint
- Microsoft Word
要获取 Discovery 支持的文件类型的完整列表,请参阅 支持的文件类型。
“智能文档理解”工具使用光学字符识别 (OCR) 从其分析的文件中的图像中抽取文本。 映像必须满足 OCR 支持的最低质量要求。 有关更多信息,请参阅 光学字符识别。
该工具无法读取具有以下特征的文档; 请在开始之前将其从集合中除去:
- 如果文档中的文本与其他文本重叠,则视为双重覆盖,无法添加注释。
- 不能对在单个页面上包含多个文本列的文档进行注释。
当您构建自定义的智能文档理解模型时,由于将人工智能模型应用到文档所需的资源,您的收藏转换时间可能会增加。
从代表文档开始
文档具有所有形状和大小。 您的集合可能同时具有不同的文档结构。 当单个集合中的文档具有相似的样式特征时,“智能文档理解”最有效。 例如,文档对标题和标题使用一致的字体大小和颜色,并且文档中的表具有类似的布局。 要为集合创建最佳模型,请执行以下先决条件步骤:
-
复审文档以查找样式和布局模式,然后根据其样式将文档分隔成组。
例如,如果数据包含遵循四种不同格式样式的文档,请将这些文档分为四个单独的集合,每个集合对应一个样式。 向每个集合添加具有统一布局和样式的文档。 每个集合的良好目标大小为 40 个文档。
-
使用 SDU 工具对此代表性文档集进行注释,并训练 Watson 以识别数据中的定制内容。
-
将定制 SDU 模型应用于完整集合。 有关更多信息,请参阅 复用 SDU 模型。
创建模型
要将用户训练的“智能文档理解”模型应用于集合,请完成以下步骤:
-
从导航面板打开“管理集合”页面。
-
如果您的项目具有多个集合,请选择包含要注释的文档的集合。
-
打开 “识别字段” 页面。
-
选择 用户训练的模型。
缺省情况下使用 仅文本抽取 选项。 通过此模型,将在
text
字段中对源文档中识别的任何文本建立索引。 -
单击 提交,然后单击 应用更改并重新处理。
部分文档可供您进行注释。 将在列表中显示一组 20-50 个文档。 可用的文档数根据多个因素而有所不同,包括集合中的文档总数以及受支持文件类型的文档数。
如果用于训练SDU模型的任何训练文档在 Discovery 中进行了布局或结构更改,则之前的注释不再有效。 要更新 SDU 模型,您必须在导入更新后的文档后再次添加注释。 否则,之前的注释与文本内容会进行错误匹配,UI中的相应注释页面也会变得混乱。
标记视频
以下视频显示如何选择标签,然后将其应用于文档中文本的表示。
在视频中,用户单击 title
字段标签,然后单击表示 目录 页面标题的文本块以将文本标记为标题。 接下来,用户单击 table_of_contents
字段标签,然后选择目录文本块对其进行标签。 然后,用户单击 footer
字段标签并单击表示页脚的文本块。 标注文本后,用户单击 提交页面 按钮。
标注文档
开始之前,请先了解您计划注释的文档的结构。 是否存在您希望 Discovery 按答案返回的子标题部分? 如果是,请标识所有子标题。 稍后,您可以将文档拆分为独立的子文档,每个子文档都以子标题开头。 有关更多信息,请参阅 何时使用智能文档理解。
要标记文档,请完成以下步骤:
-
复审文档预览。
将显示原始文档的视图以及文档的表示,其中文本将替换为块。
这些块都是
text
字段标签的颜色,因为所有当前文本都被视为标准文本,并且将在text
字段中建立索引。用于表示特定信息类型 (例如,标题或页脚) 以及其他字段标签的标签块。 例如,当您将标题字段标签应用于要作为文本建立索引的文档标题时,您将定义更精确的文档内容表示。
使用标签来标识文档结构的不同部分的过程称为 注释 文档。
-
查看可用于对文档进行注释的字段标签。 它们显示在“字段标签”面板中。
请参阅 缺省字段标签 表以获取字段及其描述的列表。
-
要创建定制字段标签,请单击 新建。
-
指定没有空格的字段标签。 例如,
complex_task
是有效的字段标签。避免在对于 Discovery具有特殊含义的名称中使用字段标签名称或包含字符,例如数字符号 (#) 或句点 (.)。 有关更多信息,请参阅 如何处理字段。
-
如果要更改用于表示该字段的颜色,请重复单击颜色块
,直到它以您要使用的颜色显示为止。
以后不能更改字段标签颜色。
-
单击创建。
-
-
首先,单击字段标签以将其激活。
-
接下来,单击表示要标记为字段类型的内容的块。
块将更改为字段标签的颜色。 您已成功标记该字段!
-
重复此过程以注释文档中的更多字段。
请不要担心。 您不需要为每个页面添加标签。 在应用标签和提交页面时,Watson 会从您注释的内容中学习并开始预测注释。
请遵循以下准则:
- 如果某个部分没有任何特殊内容,请将其标记为
text
(缺省情况下应用)。 - 标签不能跨多个页面。
- 请勿对粗体、斜体或带下划线的文本进行特殊处理。 标签基于上下文,而不是基于样式。
- 在所有文档上使用一致的标签。
- 从多页文档的第一页到最后一页。
- 要除去单个注释,请选择另一个标签 (例如
text
),并将其应用于该项以覆盖先前的注释。 - 要除去添加到整个页面的注释,请单击工具栏中的 清除更改 图标。
- 要对表进行注释,请单击表开头的文本,然后拖动以选择整个表中的文本。
- 当您标注一个或多个表时,将自动对整个集合启用 表理解 扩充项。 有关更多信息,请参阅 了解表。
- 来自源文档的图像不会在预览中呈现。 如果启用了光学字符识别 (OCR),那么将抽取图像或图中的任何文本并在预览中呈现。
- 请勿标注空格。
- 如果某个部分没有任何特殊内容,请将其标记为
-
如果要标注的所有内容都已标注,请提交页面。 单击 提交页面。
继续对文档进行注释,直到 Watson 能够正确且一致地将不同类型的内容映射到适合您的字段。
-
在教授 Watson 以识别字段之后,单击 应用更改并重新处理。
使用 SDU 工具定义的定制字段将作为根级别字段建立索引。
下一步操作
构建用户训练的模型时,将更改信息存储在文档中的位置。 接下来,更改搜索结果的配置方式。 缺省情况下,将从段落或文本字段中检索搜索结果。 您可能有一个更好的字段可以用作结果主体的源。 有关更多信息,请参阅 更改结果内容。
如果您的项目正由虚拟助手使用,请更新搜索技能配置以从其他字段中提取答案主体。 有关更多信息,请参阅 配置搜索。
您可以将扩充项 (定制扩充项或预构建扩充项) 应用于 SDU 模型生成的新根字段。
如果要返回具有搜索结果的较短文本片段,那么可以根据您定义的其中一个新字段 (例如,章节或部分) 来拆分文档。
可用字段
以下字段可供您使用“智能文档理解”工具应用于文档。
这些字段是任意的。 如果需要,可以将 image
字段应用于文档中的每个标题。 虽然,如果字段名称与内容不匹配,那么可能很难知道稍后要在哪个字段中搜索所需的信息。 缺省集合是旨在帮助您入门的代表性字段类型。 只有 text
和 table
字段具有特殊意义。 请勿使用它们来标识除文本和表以外的任何内容。
字段 | 定义 |
---|---|
answer |
在问答对中(通常在常见问题解答中),问题的答案。 |
author |
作者姓名。 |
footer |
使用此标签表示文档的元信息(如页码或参考资料),这些信息显示在页面底部。 |
header |
使用此标签表示页面开头显示的文档元信息。 |
question |
在问答对中(通常在常见问题解答中),问题。 |
subtitle |
文档的副标题。 |
table_of_contents |
在文档目录的列表中使用此标签。 |
text |
缺省情况下,文档中的每个文本块都标记为文本。 仅将不同的标签应用于具有特殊含义的文本块。 |
title |
文档的主标题。 |
table |
使用此标记可对文档中的表进行注释。 |
image |
图像不会显示在文档预览中。 如果启用 OCR,那么将改为在预览中显示图像或图中的文本。 如果要防止某些图像中的文本包含在搜索结果中,请将图像文本标记为图像。 稍后可以从索引中排除图像字段。 |
复用 SDU 模型
使用 SDU 工具定义模型后,可以将其从一个集合导出并将其导入另一个集合,从而将其保存并在其他集合中复用。
导入新模型将覆盖集合中的现有模型。 如果已训练现有模型 (例如通过定制字段标签和注释),那么导入新模型会影响集合并可能导致数据丢失。
要重新使用模型,请完成以下步骤:
-
导出您要重复使用的模型。 从 SDU 工具栏菜单中,选择 导出模型。
导入和导出 -
创建要在其中复用模型的集合。 首先仅向集合添加一个文档。
-
从 SDU 工具栏导入模型。 导出的模型的文件扩展名为
.sdumodel
。 -
将其余文档添加到集合。 打开“管理集合”页面的 活动 选项卡,然后单击 上载数据 以向集合添加更多文件。
按原样使用导入的模型。 请勿再添加任何注释。 如果在导入 .sdumodel
文件之后进行注释,那么将覆盖导入的模型。
智能文档理解限制
每个“智能文档理解”模型可创建的定制字段数取决于 Discovery 计划类型。
计划 | 每个 SDU 模型的定制字段 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 100 |
企业 | 100 |
加号 (包括试用) | 400 |
可以对每个集合训练 SDU 模型进行注释的最大文档数取决于 Discovery 计划类型。
计划 | 每个集合的文档数 |
---|---|
Cloud Pak for Data | 400 |
Premium | 400 |
企业 | 400 |
加号 (包括试用) | 400 |
管理字段
管理字段选项卡包含多个选项:
- 标识要建立索引的字段
- 有关更多信息,请参阅 从查询结果中排除内容。
- 通过拆分文档来改善查询结果
- 有关更多信息,请参阅 拆分文档以使查询结果更简洁。
- 日期格式设置
- 有关更多信息,请参阅 日期格式设置。
要访问管理字段页面,请点击导航面板上的管理收藏图标并打开收藏。 单击管理字段选项卡。 有关集合的更多信息,请参阅 创建集合。