从查询结果中排除内容
防止不希望客户看到的内容包含在查询结果中。
您可以通过以下方式阻止内容包含在查询结果中:
-
删除整个集合。
有关更多信息,请参阅 删除集合。
-
从索引中除去包含您不想与客户共享的数据的字段。
您可以控制对哪些字段建立索引。 如果要阻止对字段建立索引,可以将其设置为排除。 例如,如果 PDF 文件包含未包含有用信息的正在运行的页眉或页脚,那么可以从索引中排除
header
和footer
字段。要管理要建立索引的字段,请完成以下步骤:
-
从导航窗格中,打开“管理集合”页面,然后单击集合以将其打开。
-
单击管理字段选项卡。
已识别字段的列表将显示。 您可以查看哪些字段包含在索引中,哪些字段不包含在索引中。
-
要从索引中除去字段,请将 包含 开关设置为关闭。
-
-
删除单个文档。
如果使用“智能文档理解”工具对文档进行注释,然后决定要删除该文档及其关联的 SDU 注释,那么必须先除去这些注释,然后再删除该文档。 要除去注释,请再次对文档进行注释。 这次,将所有内容标注为
text
。要删除文档,请完成以下步骤:
-
从导航窗格中,打开“管理集合”页面,然后单击集合以将其打开。
-
点击 “管理数据” 选项卡。
将显示集合中每个文档的信息列表。 如果显示的信息无法帮助您识别要删除的文档,那么可以更改显示的内容。
- 点击表格标题中的设置图标。
- 选择要从中访存数据以显示在第一列和第二列中的字段。 您可以选择诸如
extracted_metadata.filename
之类的字段来显示文档文件名,例如document_id
。
您可以使用表页脚中的控件来页面浏览集合中的文档。
-
确定要删除的文档后,选择与该文档关联的复选框,然后单击 删除。 确认删除操作。
从外部数据源添加到集合的文档将随该数据源的下一次调度搜寻一起添加回该集合。 删除函数将从集合的索引中除去文档,而不是从外部数据源中除去文档。
某些文件类型 (例如 CSV 或 JSON 文件) 在添加到集合时生成子文档。 拆分文档会将一个文档转换为多个文档段。 如果删除其中一个生成的文档,然后重复创建该文档的操作,那么会将已删除的文档重新添加到集合中。 要完全删除原始文档,必须使用 删除文档 API 来删除父文档,并从搜寻的数据源中除去原始文档。
IBM Cloud Pak for Data IBM Cloud Pak for Data 之前发布的 4.6.5
管理数据 页面在 4.6.5 发行版之前的已安装部署中不可用。 必须使用 发现 API 来删除文档。 您必须知道要删除的文档的文档标识。 要获取文档标识,请使用 List documents API 方法。
如果该文档是另一个文档的子文档,并且您想要除去该文档,其父文档以及与该父文档关联的任何其他子文档,请删除该父文档。 要获取父文档的文档标识,请查找文档的
metadata.parent_document_id
字段。 当在产品用户界面的“改进和定制”页面中作为响应返回时,将在文档的 JSON 表示中指定该值。 -