IBM Cloud Docs
应用预先训练的 SDU 模型

应用预先训练的 SDU 模型

应用预先构建的智能文档理解 (SDU) 模型,该模型可抽取文本并进行训练以识别文档中的表,列表和部分。

如果文档包含具有要捕获的有价值信息的表,请使用预先训练的模型。 该模型还能够保留表,列表和部分的嵌套结构中固有的含义。 使用预先训练的模型可加快从文档结构捕获信息的过程。

如果要定制如何使用文档结构从文档推断含义,或者要使用 SDU 模型生成的字段拆分文档,请改为创建用户训练的模型。 有关更多信息,请参阅 定义用户训练的 SDU 模型

预先训练的模型将自动应用于 Document Retrieval for Contract 项目。 项目不会在文档中注释与合同相关的内容,而是应用已知道如何识别对合同具有重要意义的术语和概念的模型。

准备文档

只能将预训练的 SDU 模型应用于以下文件类型:

  • 图像文件 (PNG,TIFF 和 JPG)
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

要获取 Discovery 支持的文件类型的完整列表,请参阅 支持的文件类型

“智能文档理解”工具使用光学字符识别 (OCR) 从其分析的文件中的图像中抽取文本。 映像必须满足 OCR 支持的最低质量要求。 有关更多信息,请参阅 光学字符识别

该工具无法读取具有以下特征的文档; 请在开始之前将其从集合中除去:

  • 如果文档中的文本与其他文本重叠,则视为双重覆盖,无法添加注释。
  • 不能对在单个页面上包含多个文本列的文档进行注释。

当您应用智能文档理解模型时,由于将AI模型应用到文档需要占用资源,因此您的收藏转换时间可能会增加。

应用预先训练的模型

要将预先训练的“智能文档理解”模型应用于集合,请完成以下步骤:

  1. 从导航面板打开“管理集合”页面。

  2. 选择要应用模型的集合。

  3. 打开 “识别字段” 页面。

  4. 选择 预训练模型

    缺省情况下使用 仅文本抽取 选项。 通过此模型,将在 text 字段中对源文档中识别的任何文本建立索引。

  5. 单击 提交,然后单击 应用更改并重新处理

了解输出

如果 SDU 模型在文档中找到并处理结构 (例如表),那么它会将该结构的表示存储在名为 enriched_{field} 的字段中,其中 {field} 是存储该结构的字段。

以下摘录显示了由预先训练的 SDU 模型处理的文档的 enriched_html 字段中表的 JSON 表示。

显示包含 enriched_html 字段的 JSON 片段,该字段的表对象包含诸如 section_title,row_headers,table_headers 和 location 等部分。
JSON table representation

如果要从已处理的结构中抽取文本,那么可以使用 location 字段来查找用于标识文本字符串开始和结束位置的索引值。

有关已建立索引的表的结构的更多信息,请参阅 了解表

对问题进行故障诊断

如果在使用“智能文档理解”工具时迂到问题,请遵循以下变通方法。

用于处理文档的资源不足

错误
将预先训练的模型应用于集合时,文档处理未成功完成,并且将显示 Insufficient resources to process document 消息。
原因
显示该错误是因为在构建机器学习模型的过程的解析,结构标识或组装阶段发生内存不足错误。 当集合中的一个或多个文档过大或有太多复杂表可供工具处理时,资源不足。
解决方案
在将预先训练的模型应用于集合之前,请查看集合中的大型文档或具有许多表的文档,并将其拆分为更多更小的文档。 根据文档的复杂性,精确限制有所不同。 通常,拆分长度超过 400 页的文档,并避免在单个文档中包含 20 个以上的复杂表。