应用预先训练的 SDU 模型
应用预先构建的智能文档理解 (SDU) 模型,该模型可抽取文本并进行训练以识别文档中的表,列表和部分。
如果文档包含具有要捕获的有价值信息的表,请使用预先训练的模型。 该模型还能够保留表,列表和部分的嵌套结构中固有的含义。 使用预先训练的模型可加快从文档结构捕获信息的过程。
如果要定制如何使用文档结构从文档推断含义,或者要使用 SDU 模型生成的字段拆分文档,请改为创建用户训练的模型。 有关更多信息,请参阅 定义用户训练的 SDU 模型。
预先训练的模型将自动应用于 Document Retrieval for Contract 项目。 项目不会在文档中注释与合同相关的内容,而是应用已知道如何识别对合同具有重要意义的术语和概念的模型。
准备文档
只能将预训练的 SDU 模型应用于以下文件类型:
- 图像文件 (PNG,TIFF 和 JPG)
- Microsoft PowerPoint
- Microsoft Word
要获取 Discovery 支持的文件类型的完整列表,请参阅 支持的文件类型。
“智能文档理解”工具使用光学字符识别 (OCR) 从其分析的文件中的图像中抽取文本。 映像必须满足 OCR 支持的最低质量要求。 有关更多信息,请参阅 光学字符识别。
该工具无法读取具有以下特征的文档; 请在开始之前将其从集合中除去:
- 如果文档中的文本与其他文本重叠,则视为双重覆盖,无法添加注释。
- 不能对在单个页面上包含多个文本列的文档进行注释。
当您应用智能文档理解模型时,由于将AI模型应用到文档需要占用资源,因此您的收藏转换时间可能会增加。
应用预先训练的模型
要将预先训练的“智能文档理解”模型应用于集合,请完成以下步骤:
-
从导航面板打开“管理集合”页面。
-
选择要应用模型的集合。
-
打开 “识别字段” 页面。
-
选择 预训练模型
缺省情况下使用 仅文本抽取 选项。 通过此模型,将在
text
字段中对源文档中识别的任何文本建立索引。 -
单击 提交,然后单击 应用更改并重新处理。
了解输出
如果 SDU 模型在文档中找到并处理结构 (例如表),那么它会将该结构的表示存储在名为 enriched_{field}
的字段中,其中 {field}
是存储该结构的字段。
以下摘录显示了由预先训练的 SDU 模型处理的文档的 enriched_html
字段中表的 JSON 表示。

如果要从已处理的结构中抽取文本,那么可以使用 location
字段来查找用于标识文本字符串开始和结束位置的索引值。
有关已建立索引的表的结构的更多信息,请参阅 了解表。
对问题进行故障诊断
如果在使用“智能文档理解”工具时迂到问题,请遵循以下变通方法。
用于处理文档的资源不足
- 错误
- 将预先训练的模型应用于集合时,文档处理未成功完成,并且将显示
Insufficient resources to process document
消息。 - 原因
- 显示该错误是因为在构建机器学习模型的过程的解析,结构标识或组装阶段发生内存不足错误。 当集合中的一个或多个文档过大或有太多复杂表可供工具处理时,资源不足。
- 解决方案
- 在将预先训练的模型应用于集合之前,请查看集合中的大型文档或具有许多表的文档,并将其拆分为更多更小的文档。 根据文档的复杂性,精确限制有所不同。 通常,拆分长度超过 400 页的文档,并避免在单个文档中包含 20 个以上的复杂表。