拆分文档以使查询结果更简洁
拆分文档,以便搜索功能可以查找要在查询结果中返回的更简明的信息。
有关拆分文档的优点的更多信息,请阅读 Medium.com上的 使用 IBM Watson Discovery的新文档分段功能 博客帖子。
只能拆分应用了用户训练的“智能文档理解”模型的文档。
当您拆分文档时,原始文档将细分为细分市场。 每个分段都包含一组更统一的信息。 通过将文档中的内容拆分为分段组,可以在更精细的级别对数据进行增补和建立索引。
要控制文档的拆分方式,请指定要用作分页标记的字段 (例如 subtitle
或 question
)。 分页符选项将使用在将用户训练的智能文档理解 (SDU) 模型应用于文档时创建的字段进行填充。 有关更多信息,请参阅 使用智能文档理解。 无法使用预先训练的“智能文档理解”模型生成的字段来拆分文档。
在重新处理文档时,将从头到尾对其进行求值。 每当出现分页标记字段时,就会拆分原始文档并创建新的分段。 分割在每个标记字段处继续,直到原始文档被分割成多个段。
开始之前,请确定要用作分页标记的字段。
- 您可以使用缺省情况下已建立索引的任何字段。 要查看您的选择,请检查 要建立索引的字段 列表。 具有 Type 值的字段存储在索引中。
- 每个文档的分段数限制为
1,000
。 创建段号999
后,任何剩余文档内容都将存储在段1,000
中。 - 将抽取 PDF 和 Microsoft Word 文档中的元数据以及任何定制元数据,并将其包含在每个分段的索引中。
请注意包含重复部分的文档,例如具有每个产品条目的描述和规范部分的目录。 如果以太精细的级别拆分文档,那么可以将子部分 (例如具有规范详细信息的部分) 与其所属的产品解除关联。
要拆分集合中的文档,请完成以下步骤:
-
从导航面板中单击 管理集合,然后单击以打开集合。
-
打开“管理字段”页面。
已识别字段的列表将显示。
-
从 “通过拆分文档来优化查询结果”部分,点击 “拆分文档”。
-
从 选择字段 下拉列表中选择要用作分页标记的字段。
您可以从中选择的列表包含所有已识别字段的子集。
-
单击应用更改并重新处理。
您可以从“活动”页面检查分割过程的状态。
元数据字段包含父文档标识。 原始文档的每个生成段都可以包含不同的信息。 例如,如果根据子标题字段拆分文档,那么第一个分段可能仅包含标题字段。 下一个段可能包含子标题和文本字段。 第三个可能包含子标题字段,文本字段和页脚字段。
更新已拆分的文档
如果已拆分的文档发生更改,并且您希望再次上载该文档,请与开发者一起使用 API 来替换该文档。 开发者可以使用 更新文档 方法来替换原始父文档。 更多信息,请参阅 API参考。 要提供必须随请求一起发送的 {document_id}
路径变量,请复制文档的其中一个段的
parent_document_id
字段的内容。
当您替换原始文档时,将覆盖所有段,除非更新后的文档版本的总段数少于原始段数。 这些较旧的段仍保留在索引中。
从索引中删除文档段
您可以从“管理数据”页面中删除集合中的文档。 要查找从单个文档生成的所有文档段,请检查具有相同 metadata.parent_document_id
字段值的文档。 有关更多信息,请参阅 从查询结果中排除内容。
IBM Cloud Pak for Data IBM Cloud Pak for Data 在 4.6.5 发布之前
从 4.6.5 发行版开始的已安装部署中提供了“管理数据”页面。 在先前发行版中,开发者可以使用 API 来删除文档段。 有关更多信息,请参阅 删除文档 API。