拆分文档以使查询结果更简洁

拆分文档，以便搜索功能可以查找要在查询结果中返回的更简明的信息。

有关拆分文档的优点的更多信息，请阅读 Medium.com上的使用 IBM Watson Discovery的新文档分段功能博客帖子。

只能拆分应用了用户训练的“智能文档理解”模型的文档。

当您拆分文档时，原始文档将细分为细分市场。每个分段都包含一组更统一的信息。通过将文档中的内容拆分为分段组，可以在更精细的级别对数据进行增补和建立索引。

要控制文档的拆分方式，请指定要用作分页标记的字段 (例如 subtitle 或 question)。分页符选项将使用在将用户训练的智能文档理解 (SDU) 模型应用于文档时创建的字段进行填充。有关更多信息，请参阅使用智能文档理解。无法使用预先训练的“智能文档理解”模型生成的字段来拆分文档。

在重新处理文档时，将从头到尾对其进行求值。每当出现分页标记字段时，就会拆分原始文档并创建新的分段。分割在每个标记字段处继续，直到原始文档被分割成多个段。

开始之前，请确定要用作分页标记的字段。

您可以使用缺省情况下已建立索引的任何字段。要查看您的选择，请检查 要建立索引的字段 列表。具有 Type 值的字段存储在索引中。
每个文档的分段数限制为 1,000。创建段号 999 后，任何剩余文档内容都将存储在段 1,000 中。
将抽取 PDF 和 Microsoft Word 文档中的元数据以及任何定制元数据，并将其包含在每个分段的索引中。

请注意包含重复部分的文档，例如具有每个产品条目的描述和规范部分的目录。如果以太精细的级别拆分文档，那么可以将子部分 (例如具有规范详细信息的部分) 与其所属的产品解除关联。

要拆分集合中的文档，请完成以下步骤:

从导航面板中单击 管理集合，然后单击以打开集合。
打开“管理字段”页面。

已识别字段的列表将显示。
从 “通过拆分文档来优化查询结果”部分，点击 “拆分文档”。
从 选择字段 下拉列表中选择要用作分页标记的字段。

您可以从中选择的列表包含所有已识别字段的子集。
单击应用更改并重新处理。

您可以从“活动”页面检查分割过程的状态。

元数据字段包含父文档标识。原始文档的每个生成段都可以包含不同的信息。例如，如果根据子标题字段拆分文档，那么第一个分段可能仅包含标题字段。下一个段可能包含子标题和文本字段。第三个可能包含子标题字段，文本字段和页脚字段。

更新已拆分的文档

如果已拆分的文档发生更改，并且您希望再次上载该文档，请与开发者一起使用 API 来替换该文档。开发者可以使用 更新文档 方法来替换原始父文档。更多信息，请参阅 API参考。要提供必须随请求一起发送的 {document_id} 路径变量，请复制文档的其中一个段的 parent_document_id 字段的内容。

当您替换原始文档时，将覆盖所有段，除非更新后的文档版本的总段数少于原始段数。这些较旧的段仍保留在索引中。

从索引中删除文档段

您可以从“管理数据”页面中删除集合中的文档。要查找从单个文档生成的所有文档段，请检查具有相同 metadata.parent_document_id 字段值的文档。有关更多信息，请参阅从查询结果中排除内容。

IBM Cloud Pak for Data IBM Cloud Pak for Data 在 4.6.5 发布之前

从 4.6.5 发行版开始的已安装部署中提供了“管理数据”页面。在先前发行版中，开发者可以使用 API 来删除文档段。有关更多信息，请参阅删除文档 API。