创建集合
集合是您添加到项目的一组文档,以便您可以从中分析,扩充和抽取有用信息。
您可以通过以下方式向项目添加数据:
-
使用产品用户界面上载本地可访问的文件。 此方法是入门和测试用例的最佳方法。
-
设置存储在外部数据源上的文档的调度搜寻。
产品用户界面提供了多个内置数据源连接器供您选择。 选项因部署类型而异。 更多信息,请参阅 支持的数据源。
-
连接到没有内置支持的外部数据源:
- IBM Cloud
- 使用 IBM App Connect 来设置存储在其他外部数据源上的文档的调度搜寻。
- IBM Cloud Pak for Data IBM Software Hub
- 构建连接器以搜寻存储在其他外部数据源上的文档。
-
要自动执行将数据添加到项目的过程,请使用 Discovery API 来创建集合并将文档上载到该集合。
将文档添加到 Discovery时,将搜寻原始文档,并将这些文档中的信息存储在索引中,以便稍后可以对其进行扩充和分析或检索。 并非保留原始文档中的所有丰富内容。 例如,不会存储来自 .ppt 或 .doc 文件的图像。 有关更多信息,请参阅 如何处理数据源。
IBM Cloud 创建集合后,可以单击 预览数据 以预览高级文档视图中的数据。
选择要添加到集合的内容
在决定如何将源内容拆分为集合时,需要考虑一些事项。
-
从不同数据源获取内容
如果将类似内容存储在多种类型的数据源 (例如,Web 站点和 Salesforce) 中,那么可以创建一个具有两个单独集合的项目。 每个集合都添加来自单个数据源的文档。 当它们一起构建到单个项目中时,用户可以同时跨两个源进行搜索。
-
应用扩充项
创建集合是以类似方式对要扩充的文档进行分组的好方法。 例如,可能您的文档子集包含行业术语,您希望添加一个识别术语的字典。 您可以创建单独的集合,并使用术语建议功能来加快创建字典的过程。
-
创建单独的智能文档理解 (SDU) 模型
您可以使用“智能文档理解”工具根据文档的结构来识别内容。 如果您有 20 个由销售部门创建的 PDF 文件,并且使用一个模板和 20 个由研究部门创建的 PDF 文件并使用不同的模板,请将每个集合分组到自己的集合中。 然后,您可以使用 SDU 工具为每个结构分别构建一个模型,一个了解唯一结构的模型。 您还可以使用此工具来定义对于源文档唯一的定制字段。
创建集合
必须先创建项目,然后才能创建集合。 有关更多信息,请参阅创建项目。
要牢记的事情:
- 一个集合只能支持一个外部数据源。
- 集合中的文档必须仅采用一种语言,即您为集合指定的语言。
要创建集合,请完成下列步骤:
-
打开项目,转至“管理集合”页面,然后单击 新建集合。
- 智能文档处理,会话式搜索,文档检索和定制项目类型最多可以包含 5 个集合。
- 内容挖掘项目只能包含一个集合。
-
上载数据 到集合。
IBM Cloud 要连接到其他数据源而不是上载数据,请单击 需要连接到数据源旁边的链接? 字段。
您可以选择以下方法来连接到数据源,而不是上载数据。
-
搜寻外部数据源。
有关受支持的数据源,请参阅适用于您的部署类型的主题:
- IBM Cloud Pak for DataIBM Software HubIBM Cloud Pak for Data 数据源
- IBM CloudIBM Cloud 数据源
这些主题还描述了如何连接到缺省情况下每种部署类型不支持的数据源。
有关如何对将文档添加到集合时可能迂到的问题进行故障诊断的信息,请参阅 对摄入进行故障诊断。
有关如何以编程方式创建集合的更多信息,请参阅 API 参考文档。
光学字符识别
创建集合时可应用于该集合的其中一个可选功能部件是光学字符识别。 光学字符识别 (OCR) 功能从图像中抽取文本。 此功能对于保留图或图形中描述的信息或嵌入在文件 (例如扫描的 PDF) 中的文本中的信息非常有用。 通过将视觉信息转换为文本,以后可以对其进行搜索。
在云管理的实例中引入了该技术的新版本。 OCR v2 由 IBM Research 开发,旨在更好地从具有以下限制的已扫描文档和其他图像中抽取文本:
- 由于扫描仪设置不正确,分辨率不足,照明不良 (如移动捕获),失去焦点,页面对齐不正确以及打印文档不正确,导致图像质量低下
- 具有不规则字体或各种颜色,字体大小和背景的文档
启用 OCR 时要记住的事项:
- 启用 OCR 时,摄入具有图像的文档所花费的时间会增加。
- OCR 当前不支持从文档和扫描图像中提取手写文本。
- OCR 可以读取清晰和嘈杂的图像。 它可以将嘈杂的图像转换为灰阶,并平滑和去偏斜它们。 但是,图像质量必须满足最低要求 80 DPI (点/英寸)。
- OCR 可以识别多种语言,但图像中文本的语言必须与为添加文件的集合指定的语言相同。
有关支持 OCR v1 和 OCR v2 的语言的更多信息,请参阅 语言支持。
要获取可以应用 OCR 的文件类型的列表,请参阅 支持的文件类型 表。
对未整理的数据启用词干提取
您可以配置 Discovery 以在创建集合时使用词干提取而不是词干化来进行规范化。 仅当集合和/或查询包含具有许多拼写错误,缺少重音符标记和语法错误的数据时,此配置才偶尔有用。
Discovery 将词规范化,以更快地识别和匹配词及其各种形式 (例如,复数或替代动词变位)。 缺省情况下,Discovery 使用词元化来根据词的含义规范化词。 词干仅使用词干使词规范化。
Lemmaated 更精确,但在整理数据方面效果最佳。 如果您的数据未很好地整理,那么词干生成可能更有效。 通常会检测到同一个词干是否拼写正确。 但是,词元化可能无法识别拼写错误的词或可能误解其含义。 因此,词源可以添加错误的根词来表示索引中的拼写错误的词。 针对拼写错误的词的词干版本的搜索可能比针对不正确的词干化词的搜索返回更好的结果。
下表显示了如何对词进行词干和词元化的示例。
表面形式 (surface form) | 勒马化形式 | 词干格式 |
---|---|---|
运行 | 运行 | 运行 |
ran | 运行 | ran |
讲师 | 讲师 | 指导 |
指令 | 指令 | 指导 |
从示例中可以看到,词源比词干分析器更能捕获词的含义。 running 和 ran 都可识别为同一根动词 run的不同形式。 并且保留了两个名词 instructor 和 instructor 之间的含义差异。 但是,如果数据包含错误拼写 (例如 instructer 和 instructoin),那么由词干 (instruct) 生成的规范化表单将返回更好的匹配项。
Discovery 在采集数据并将其存储在索引中时以及在运行时分析用户提交的查询时,将使词规范化。 这两个操作都使用相同的规范化方法,即使一个操作在集合级别发生,另一个操作在项目级别发生。 提交查询时,会将其联合到项目中的每个集合,其中将根据该集合的配置对该查询进行规范化。 配置为使用词干分析器通过使用词干提取对查询进行规范化的集合。 未使用 lemmaize 规范化查询的集合。
要在创建集合时启用词干分析器而不是词干分析器,请展开 更多处理选项,然后将 建立索引时使用词干提取而不是词干化 切换器设置为 On。
如果配置 Discovery 以使用词干分析器,请考虑还设计从集合中抽取信息的查询以允许在匹配期间存在字符差异。 有关更多信息,请参阅 字符串变体运算符。
有关支持词干分析器的语言的更多信息,请参阅 语言支持。
收集限制
每个项目可以创建的集合数因项目类型而异。
项目类型 | 每个项目的集合 |
---|---|
智能文档处理 | 5 |
文档检索 | 5 |
合同的文档检索 | 5 |
会话式搜索 | 5 |
内容挖掘 | 1 |
定制 | 5 |
每个服务实例可创建的收藏数量取决于您的 Discovery 计划类型。
计划 | 每个服务实例的集合 |
---|---|
Cloud Pak for Data | 300 |
Premium | 300 |
企业 | 300 |
加号 (包括试用) | 400 |
IBM Cloud Pak for Data 您可以创建的收藏数量取决于您的硬件配置。xml-ph-0000@deepl.internal 每个实例和安装最多支持 300 个收藏,但具体数量取决于许多因素,包括内存 IBM Software Hub 您可以创建的收藏数量取决于您的硬件配置。每个实例和安装最多支持 300 个收藏,但这个数字取决于许多因素,包括内存。Discovery
支持的文件类型
Discovery 可以摄入特定文件类型。 对于所有其他类型的文件,将显示一条警告消息,并且不会摄入该文件。
下表显示了受支持的文件类型以及有关随文件类型而异的功能支持的信息。
文件类型 | 文本抽取支持 | 智能文档理解 (SDU) 支持 | 光学字符识别 (OCR) 支持 |
---|---|---|---|
CSV | |||
DOC,DOCX | |||
GIF | |||
HTML | |||
JPG | |||
JSON | |||
PNG | |||
PPT 和 PPTX | |||
TIFF | |||
TXT | |||
XLS 和 XLSX |
- 您可以使用 PDF 生成工具 (例如,Adobe Acrobat,Microsoft Office,Preview on Apple 等) 来生成 PDF 文件。
在处理 PDF 时,将忽略向量对象,向量化文本和 SVG 图像。 此外,Discovery 当前不支持从 PDF 中具有透明层或透明组的图像中抽取文本。
- 仅呈现 PDF 中出现的受支持图像文件类型的图像。
- 对于扫描的图像,请使用 300 dpi 或更高版本以获取最佳 OCR。 根据 光学字符识别 中的准则,最小 dpi 必须为 80
- 仅支持单页图像文件。
- 将解压缩压缩归档文件 (ZIP,GZIP 和 TAR) 中的文件。Discovery 摄入归档中受支持的文件类型。 它将忽略所有其他文件类型。 文件名必须使用 UTF-8 编码。 例如,名称中包含日语字符的文件必须在添加到 ZIP 文件之前重命名。
- Discovery 仅支持使用类似下面的命令生成的 MacOS zip 文件:
zip -r my-folder.zip my-folder -x "*.DS_Store"
。 不支持通过右键单击文件夹并单击 压缩 创建的 ZIP 文件。 - 作为归档文件的一部分上载的 PDF 文件不会显示在从“改进和定制”页面打开的查询结果的高级视图中。 如果希望可以从高级视图中查看该文件,请从归档文件中单独重新导入 PDF 文件。
将文件添加到“文档检索以获取合同”项目类型时,将使用预先训练的“智能文档理解”模型和“光学字符识别”自动处理任何支持 SDU 和 OCR 的文件类型。
文档限制
每个服务实例允许的文档数取决于 Discovery 套餐类型。
文档限制适用于索引中的文档数。 如果您计划应用的扩充项稍后可能会增加文档数,那么在开始时上载更少的文档。 例如,以下配置将生成更多文档:
- 拆分文档时,该文档将分段为多个文档
- 上载的 CSV 文件每行生成一个文档
- 您搜寻的数据库数据源每行生成一个文档
- 在 JSON 文件中的数组中定义的每个对象都会生成单独的文档
计划 | 每个服务实例的文档数 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 无限制 |
企业 | 无限制 |
加号 (包括试用) | 500,000 起 |
对于企业套餐,您将在每月 100,000 个文档后付费。 有关定价的更多信息,请参阅 Discovery 定价套餐。
根据文档的大小,允许的最大数量可能略有不同。 使用这些值作为一般准则。
文件大小限制
已搜寻的文档
可以使用连接器搜寻的每个文件的最大大小因部署类型而异。
IBM Cloud IBM Cloud
-
仅限高级套餐:
- 框: 50 MB
- IBM Cloud 对象存储: 50 MB
- Salesforce Files 对象: 50 MB
- 所有其他数据源: 10 MB
-
所有其他计划: 10 MB
IBM Cloud Pak for Data 已安装部署在 IBM Software Hub 已部署在 IBM Cloud Pak for Data
- 所有数据源: 32 MB
已上载的文档
可上载的每个文件的大小取决于 Discovery 计划类型。 请参阅以下“最大文档大小”表以获取详细信息。
计划 | 每个文档的文件大小 |
---|---|
Cloud Pak for Data | 50 MB |
Premium | 50 MB |
企业 | 10 MB |
加号 (包括试用) | 10 MB |
字段限制
将文档添加到集合时,将对该文档中的内容进行求值并将其添加到内部索引中的相应字段。
对于结构化数据 (例如上载的 CSV 或 JSON 文件) 或来自已搜寻数据库的数据,每个列或对象都存储为根级别字段。 例如,如果将 CSV 文件添加到集合,那么 CSV 文件中的每列都将作为单独的字段存储在索引中。
最多可以向索引添加 1,000 个字段。
不能分配字段的数据类型,例如“日期”或“字符串”。 在文档采集期间,会自动检测数据类型并将其分配给字段。 分配基于从已建立索引的第一个文档中检测到的数据类型。 如果针对同一字段中的值检测到不同的数据类型,那么在后续文档中可能会发生摄入错误。 因此,如果您的文档在单个字段中混合了数据类型,请首先在该字段中采集具有最灵活数据类型 (例如 String) 的值的文档。
搜寻 Web 站点或上载 HTML 文件时,会将 HTML 内容添加到集合并在 html
字段中建立索引。
下表显示了每个文档的字段的最大大小限制。
字段类型 | 每个文档允许的最大大小 |
---|---|
html 字段 |
5 MB |
所有其他字段的总和 | 1 MB |
如果文档中字段的最大大小超过允许的限制,那么将按以下方式处理这些字段:
-
对于具有超大
html
字段的文档,除html
字段外,将对该文档中的所有字段建立索引。对于 IBM Cloud Pak for Data V 4.0 及更低版本,不会对整个文档建立索引。
-
对于具有超大非 HTML 字段的文档,不会对该文档建立索引。
如果要上载 Microsoft Excel 文件,并且显示一条消息指示超出了非 HTML 字段大小限制,请考虑将 XLS 文件转换为 CSV 文件。 上载逗号分隔值 (CSV) 文件时,每行都将作为单独的文档建立索引。 因此,不会超出字段大小限制。
有关如何处理已上载文件中的字段的更多信息,请参阅 如何处理字段。
支持的数据源
下表显示了每种部署类型的受支持数据源。
数据源 | IBM Cloud | IBM Cloud Pak for Data |
---|---|---|
Box | ||
数据库 (IBM Data Virtualization,IBM Db2,Microsoft SQL,Oracle,Postgres) | ||
FileNet P8 | ||
HCL Notes | ||
IBM Cloud Object Storage | ||
本地文件系统 | ||
Salesforce | ||
Microsoft SharePoint Online | ||
本地 Microsoft SharePoint | ||
Web 站点 | ||
Microsoft Windows 文件系统 |
搜寻安排选项
创建集合后,初始搜寻将立即启动。 您为搜寻调度选择的频率将确定下一次搜寻的开始时间。
要创建抓取计划,请完成以下步骤:
-
在 搜寻调度 部分中,选择频率。
您可以将搜寻器调度为在特定日期和时间运行。 如果要避免在工作时间内在目标系统上负载过重,那么此选项很有用。 如果指定 1-9 范围内的小时,请在小时数字之前添加零。 例如,您可以在星期六调度
01:00 AM
的搜寻。IBM Cloud 当您将搜寻调度为每月运行时,日数选项限制为 1 到 28,因为您必须指定每月发生的日期,包括有 28 天的二月。
IBM Cloud Pak for Data 已安装部署具有更多日程选项:
- 如果要每 12 小时或每 10 天搜寻一次,请选择 定制时间间隔。 您可以自定义爬虫运行的时长,如天数或小时数。
- 缺省情况下,搜寻安排在非高峰时段启动。
- 请勿将时间间隔设置为比搜寻完成所需的时间短的频率。
- 请勿将多个搜寻器配置为在短时间内运行。
- 如果在创建集合的时区以外的时区中打开集合,那么将显示全球标准时间 (UTC) 偏移量信息。
-
IBM Cloud Pak for Data 已安装部署有一个“更多调度设置”部分,您可以在其中选择用于抓取数据源的调度类型。IBM Software Hub 已安装部署有一个 “更多调度设置”部分,您可以在其中选择用于抓取数据源的调度类型。
所有连接器 ( Web 搜寻 连接器除外) 的选项如下所示:
- 完全搜寻: 重新搜寻外部数据源以更新集合中的文档。
- 搜寻更新 (查找新的,已修改的和已删除的内容): 仅当自上次搜寻以来添加,修改或删除了外部数据源中的数据时,才更新集合。
- 搜寻新内容和已修改内容: 仅当外部数据源中自上次搜寻以来添加或修改的数据时,才更新集合。
仅限 Web 搜寻连接器: Web 搜寻 连接器调度搜寻的方式与其他连接器类型不同。 仅对于 Web 搜寻 连接器,请在以下选项中进行选择:
-
要自行控制搜寻的频率,请选择以下选项:
完全搜寻
选择完全搜寻调度类型时,将以您在页面的 搜寻调度 部分中指定的频率进行搜寻。
-
要允许系统为您管理搜寻频率,请选择下列其中一个选项:
搜寻更新 (查找新的,已修改的和已删除的内容) 或 搜寻新的和已修改的内容
选择用于搜寻更新或新内容和已修改内容的调度类型时,将忽略为搜寻调度指定的频率。 搜寻每个文档的频率是可变的,完全由服务管理。 频率会根据在文档中找到更改的频率而变化。 例如,如果在第一个搜寻时间间隔结束时集合中的 10 个文档中的 5 已更改,那么将自动增加这些 5 文档的频率。 目前,这些自我管理的刷新可以运行的最高频率是每天。
您无法中断频率的自动管理,并且无法在配置这些类型的已调度搜寻时触发一次性搜寻。
如果要稍后更改灵活搜寻调度设置,那么可以转至“处理设置”页面,编辑设置,然后单击 应用更改并重新处理。
IBM Cloud 下一次调度的搜寻将显示在“活动”页面上。
如果更改调度频率,那么下一个调度搜寻时间可能不是您期望的时间。 缺省情况下,搜寻设置为在特定时间或日期定期执行。 例如,如果在 8 月 11 日将搜寻调度从每周更改为每月,那么下一次搜寻可能安排在 8 月 31 日而不是 9 月 11 日。 从您进行更改的日期起,未将其安排在正好一个月内。 而是安排在指定为所选搜寻频率的缺省运行日的日期运行。
停止搜寻
您可以停止搜寻而不更改搜寻调度频率。 如果要执行耗时的任务并且不希望搜寻在任务之间启动或运行,那么此操作很有用。
IBM Cloud 要停止爬行,请完成以下步骤:
-
从导航面板打开“管理集合”页面。
-
选择要停止搜寻的集合。
-
在“活动”页面上,如果正在进行搜寻,请单击 停止。
-
进入 “处理设置” 页面。
-
将 应用调度 设置为 否,然后单击 应用更改并重新处理。
搜寻将停止,直到您重新启动它之后才会再次启动。
IBM Cloud 要重新开始抓取,请完成以下步骤:
-
从导航面板打开“管理集合”页面。
-
选择要重新启动搜寻的集合。
-
进入 “处理设置” 页面。
-
将 应用调度 设置为 Yes,然后单击 应用更改并重新处理。
搜寻将立即开始。
下一次搜寻将根据搜寻调度选项中选择的频率开始。 如果要在预定频率之前的任何时间启动搜寻,请在“活动”页面上单击 重新搜寻。
IBM Cloud Pak for Data IBM Software Hub
您可以临时停止正在进行的搜寻。
要暂时停止爬网,请完成以下步骤:
-
从导航面板打开“管理集合”页面。
-
选择要暂时停止搜寻的集合。
-
在“活动”页面上,单击 停止。
搜寻将根据搜寻调度中指定的频率再次启动。