创建收藏
文档集是指添加到项目中的一组文档,以便从中分析、丰富和提取有用信息。
您可以通过以下方式将数据添加到项目中:
-
使用产品用户界面上传本地可访问的文件。 这种方法是入门和测试用例的最佳方式。
-
设置对存储在外部数据源上的文件进行定时抓取。
产品用户界面提供多个内置数据源连接器供您选择。 选项因部署类型而异。 更多信息,请参阅 支持的数据源。
-
连接到没有内置支持的外部数据源:
- IBM Cloud
- 使用 IBM App Connect 设置对存储在其他外部数据源上的文档的计划抓取。
- IBM Cloud Pak for Data IBM Software Hub
- 建立一个连接器,以抓取存储在其他外部数据源上的文档。
-
要自动将数据添加到项目中,可使用 Discovery API 创建一个集合并将文档上传到该集合中。
当您将文档添加到 Discovery 时,会对原始文档进行抓取,并将文档中的信息存储到索引中,以便日后对其进行丰富和分析或检索。 原始文件中的丰富内容不会全部保留。 例如,不会存储.ppt 或.doc 文件中的图像。 更多信息,请参阅 如何处理数据源。
IBM Cloud 创建集合后,可以单击“ 预览数据”在高级文档视图中预览数据。
选择加入收藏的内容
在决定如何将源内容分割成合集时,有几件事需要考虑。
-
从不同数据源获取内容
如果您在一种以上的数据源(例如网站和 Salesforce )中存储类似的内容,您可以在一个项目中创建两个独立的集合。 每个文件集都添加了来自单一数据源的文件。 如果将它们整合到一个项目中,用户就可以同时在两个来源中进行搜索。
-
应用增益
创建文件集是一种很好的方法,可以将希望以类似方式丰富内容的文件分组。 例如,您的文档中可能有一个子集包含行业术语,您想添加一个词典来识别这些术语。 您可以创建一个单独的合集,并使用术语建议功能来加快创建词典的过程。
-
创建独立的智能文档理解 (SDU) 模型
您可以使用智能文档理解工具,根据文档结构识别内容。 如果有 20 个 PDF 文件由销售部门创建并使用一种模板,而有 20 个 PDF 文件由研究部门创建并使用另一种模板,则将每组文件归入自己的集合。 然后,您可以使用 SDU 工具为每种结构分别建立一个模型,一个能够理解独特结构的模型。 您还可以使用该工具定义源文件独有的自定义字段。
创建集合
创建项目集之前,必须先创建一个项目。 有关更多信息,请参阅创建项目。
需要注意的事项
- 一个数据集只能支持一个外部数据源。
- 文件集中的文件必须只使用一种语言,即您为文件集中指定的语言。
要创建集合,请完成下列步骤:
-
打开一个项目,进入“管理收藏”页面,然后单击“新建收藏”。
- 智能文档处理、对话式搜索、文档检索和自定义项目类型最多可包含 5 个集合。
- 一个内容挖掘项目只能包含 1 个集合。
-
将数据上传到 您的收藏中。
IBM Cloud 要连接到不同的数据源而不是上传数据,请单击“需要连接到数据源吗?”字段旁边的链接。
您可以选择以下方式连接数据源,而不是上传数据。
-
抓取外部数据源
有关支持的数据源,请参阅部署类型的相应主题:
- IBM Cloud Pak for DataIBM Software HubIBM Cloud Pak for Data 数据源
- IBM CloudIBM Cloud 数据源
这些主题还介绍了如何连接到每个部署类型默认不支持的数据源。
有关如何排除将文档添加到集合时可能遇到的问题的信息,请参阅 排除摄取 故障。
有关如何以编程方式创建集合的更多信息,请参阅 API 参考文档。
光学字符识别
光学字符识别是您在创建收藏集时可以应用的可选功能之一。 光学字符识别(OCR)功能可从图像中提取文字。 这种功能对于保存图表或图形中描述的信息,或嵌入在扫描 PDF 等文件中的文本信息非常有用。 通过将视觉信息转换成文本,以后就可以对其进行搜索。
在云管理实例中引入了该技术的新版本。 OCR v2 由 IBM Research 开发,能更好地从扫描文件和其他图像中提取文本,但存在以下局限:
- 由于扫描仪设置不正确、分辨率不足、光线不好(如移动采集)、对焦不准、页面不对齐以及文档打印不佳而导致低质量图像
- 使用不规则字体或各种颜色、字体大小和背景的文档
启用 OCR 时需要注意的事项:
- 启用 OCR 后,录入包含图像的文档所需的时间会增加。
- OCR 目前不支持从文件和扫描图像中提取手写文本。
- OCR 既能读取清晰的图像,也能读取嘈杂的图像。 它可以将噪点图像转换为灰度图像,并对其进行平滑和去斜处理。 不过,图像质量必须达到 80 DPI (点/英寸)的最低要求。
- OCR 可以识别多种语言,但图像中文本的语言必须与添加文件的集合所指定的语言相同。
有关支持 OCR v1 和 OCR v2 的语言的更多信息,请参阅 语言支持。
有关可以应用 OCR 的文件类型列表,请参阅 支持的 文件类型表。
为未经整理的数据启用词干处理
在创建集合时,您可以配置 Discovery 使用词干化而非词法化进行规范化。 只有在数据集、查询或两者都包含大量拼写错误、重音符号缺失和语法错误的数据时,该配置才会偶尔派上用场。
Discovery 将单词规范化,以便更快地识别和匹配单词及其各种形式,如复数或替代动词变位。 默认情况下,Discovery 会使用词法化,根据词义对词语进行规范化处理。 词干分析法只使用词干对单词进行规范化处理。
Lemmatization 更为精确,但最适用于经过整理的数据。 如果您的数据没有得到很好的整理,那么词干化可能会更好。 无论单词拼写是否正确,通常都能检测到相同的词干。 不过,词法化可能无法识别拼写错误的单词,也可能误解其含义。 因此,词法生成器可能会在索引中添加错误的词根来表示拼写错误的单词。 对拼写错误的词进行词干化搜索可能比对词干化错误的词进行搜索得到更好的结果。
下表列出了一些词的词干化和词素化示例。
表面形式 (surface form) | 列表化形式 | 茎状 |
---|---|---|
运行 | 运行 | 运行 |
ran | 运行 | ran |
讲师 | 讲师 | 指导 |
指令 | 指令 | 指导 |
从示例中可以看出,词法识别器比词干识别器能更好地捕捉词义。 running 和 ran 被认为是同一词根动词 run 的不同形式。 而且,“教员”和 “指导” 这两个名词在含义上的区别也被保留了下来。 不过,如果数据中包含 instructer 和 instructoin 等拼写错误的词,那么通过词干处理生成的规范化形式 (inst )将返回更好的匹配结果。
Discovery 在索引中摄取和存储数据时,以及在运行时分析用户提交的查询时,都会对单词进行规范化处理。 尽管一个操作发生在集合级,另一个发生在项目级,但两个操作都使用相同的归一化方法。 提交查询后,查询会联合到项目中的每个集合,然后根据该集合的配置对查询进行规范化处理。 配置为使用词干处理程序的集合会使用词干处理程序对查询进行规范化处理。 对于不符合要求的集合,则通过词法化对查询进行规范化处理。
要在创建集合时启用词干提取器而不是词形还原器,请展开更多处理选项,然后将索引切换器时使用词干提取而不是词形还原设置为开。
如果您将 Discovery 配置为使用词干搜索器,请同时考虑设计从数据集中提取信息的查询,以便在匹配过程中考虑字符差异。 更多信息,请参阅 字符串变化运算符。
有关干系人支持的语言的更多信息,请参阅 语言支持。
收集限制
每个项目可创建的集合数量因项目类型而异。
项目类型 | 每个项目的收藏量 |
---|---|
智能文件处理 | 5 |
文档检索 | 5 |
合同文件检索 | 5 |
会话式搜索 | 5 |
内容挖掘 | 1 |
定制 | 5 |
每个服务实例可创建的集合数量取决于 Discovery 计划类型。
计划 | 每个服务实例的收藏量 |
---|---|
Cloud Pak for Data | 300 |
Premium | 300 |
企业 | 300 |
附加(包括试用版) | 400 |
IBM Cloud Pak for DataIBM Software Hub Discovery 每个实例和安装最多支持 300 个集合,但这一数字取决于许多因素,包括内存。
支持的文件类型
Discovery 可以摄取特定的文件类型。 对于所有其他类型的文件,系统会显示一条警告信息,并且不会摄取文件。
下表列出了支持的文件类型以及不同文件类型的功能支持信息。
文件类型 | 文本提取支持 | 支持智能文档理解 (SDU) | 支持光学字符识别 (OCR) |
---|---|---|---|
CSV | |||
DOC, DOCX | |||
GIF | |||
HTML | |||
JPG | |||
JSON | |||
PNG | |||
PPT, PPTX | |||
TIFF | |||
TXT | |||
XLS、XLSX | |||
- 您可以使用 PDF 生成工具生成 PDF 文件,如 Adobe Acrobat、Microsoft Office、Apple 的 Preview 等。
在处理 PDF 时,矢量对象、矢量化文本和 SVG 图像会被忽略。 此外,Discovery 目前不支持从 PDF 中带有透明层或透明组的图像中提取文本。
- 只渲染 PDF 中出现的支持图像文件类型的图像。
- 对于扫描的图像,请使用 300 dpi 或更高的分辨率,以获得最佳 OCR 效果。 根据 光学字符识别 的指导原则,最小 dpi 必须为 80
- 仅支持单页图像文件。
- Discovery 可提取压缩归档文件(ZIP、GZIP、TAR)中的文件。可在归档文件中提取支持的文件类型。 它会忽略所有其他文件类型。 文件名必须以 UTF-8 编码。 例如,名称中包含日文字符的文件在添加到 ZIP 文件之前必须重新命名。
- Discovery 仅支持使用类似下面的命令生成的 MacOS zip 文件:
zip -r my-folder.zip my-folder -x "*.DS_Store"
。 不支持通过右键单击文件夹并单击“压缩”创建的 ZIP 文件。 - 对于从 “改进和自定义”页面打开的查询结果,作为存档文件一部分上传的 PDF 文件不会显示在高级视图中。 如果想从高级视图中查看文件,请将 PDF 文件与存档文件分开重新导入。
将文件添加到“合同文档检索”项目类型时,任何支持 SDU 和 OCR 的文件类型都会自动使用预训练的智能文档理解模型和光学字符识别功能进行处理。
文件限制
每个服务实例允许的文件数量取决于 Discovery 计划类型。
文件限制适用于索引中的文件数量。 如果您计划申请的充实内容可能会增加文件数量,那么开始时上传的文件数量要少一些。 例如,以下配置会生成更多文件:
- 分割文档时,文档会被分割成多个文档
- 上传的 CSV 文件每行生成一个文件
- 您抓取的数据库数据源可为每条数据库行生成一份文档
- 在 JSON 文件的数组中定义的每个对象都会产生一个单独的文件
计划 | 每个服务实例的文件 |
---|---|
Cloud Pak for Data | 无限制 |
Premium | 无限制 |
企业 | 无限制 |
附加(包括试用版) | 500,000 起 |
对于企业计划,您每月需支付 100,000 份文件的费用。 有关定价的更多信息,请参阅 Discovery 定价计划。
允许的最大数量会因文件大小而略有不同。 将这些值作为一般指南。
文件大小限制
抓取的文件
使用连接器抓取的每个文件的最大大小因部署类型而异。
IBM Cloud 在 IBM Cloud
-
仅限高级计划:
- 盒子50 MB
- IBM Cloud 对象存储:50 MB
- Salesforce Files 对象50 MB
- 所有其他数据源:10 MB
-
所有其他计划:10 MB
IBM Cloud Pak for DataIBM Software Hub 安装部署在 IBM Cloud Pak for Data
- 所有数据源:32 MB
上传的文件
您可以上传的每个文件的大小取决于您的 Discovery 计划类型。 有关详细信息,请参阅以下最大文档尺寸表。
计划 | 每份文档的文件大小 |
---|---|
Cloud Pak for Data | 50 MB |
Premium | 50 MB |
企业 | 10 MB |
附加(包括试用版) | 10 MB |
实地限制
将文档添加到集合时,会对文档内容进行评估,并将其添加到内部索引的相应字段中。
对于结构化数据,如上传的 CSV 或 JSON 文件,或来自抓取数据库的数据,每一列或对象都存储为根级字段。 例如,如果将 CSV 文件添加到集合中,CSV 文件中的每一列都会作为单独字段存储在索引中。
索引中最多可添加 1,000 个字段。
不能指定字段的数据类型(如日期或字符串)。 数据类型会自动检测出来,并在文档录入时分配给字段。 分配的依据是从索引的第一份文档中检测到的数据类型。 如果在同一字段中检测到不同数据类型的值,后续文档中可能会出现输入错误。 因此,如果您的文档在单个字段中混合使用了多种数据类型,则首先录入字段中具有最灵活数据类型(如字符串)值的文档。
当您抓取网站或上传 HTML 文件时,HTML 内容会被添加到集合中,并在 html
字段中编入索引。
下表列出了每个文档字段的最大大小限制。
字段类型 | 每份文档允许的最大尺寸 |
---|---|
html 字段 |
5 MB |
所有其他字段的总和 | 1 MB |
如果文档中字段的最大尺寸超过允许的限制,则会按以下方式处理:
-
对于具有超大
html
字段的文档,除html
字段外,文档中的所有字段都会被编入索引。对于 IBM Cloud Pak for Data 4.0 及更早版本,整个文件都没有索引。
-
对于非 HTML 字段过大的文档,该文档不会被索引。
如果上传的是 Microsoft Excel 文件,而显示的信息表明已超出非 HTML 字段大小限制,请考虑将 XLS 文件转换为 CSV 文件。 上传逗号分隔值 (CSV) 文件时,每一行都会作为单独的文件编入索引。 因此,不会超出字段大小限制。
有关如何处理上传文件中字段的更多信息,请参阅 如何处理字段。
支持的数据源
下表显示了每种部署类型的受支持数据源。
数据源 | IBM Cloud | IBM Cloud Pak for Data |
---|---|---|
Box | ||
数据库 (IBM Data Virtualization,IBM Db2,Microsoft SQL,Oracle,Postgres) | ||
FileNet P8 | ||
HCL Notes | ||
IBM Cloud Object Storage | ||
本地文件系统 | ||
Salesforce | ||
Microsoft SharePoint Online | ||
本地 Microsoft SharePoint | ||
Web 站点 | ||
Microsoft Windows 文件系统 |
搜寻安排选项
创建集合后,初始搜寻将立即启动。 为抓取计划选择的频率决定了下一次抓取的开始时间。
要创建爬行计划,请完成以下步骤:
-
在抓取计划部分,选择一个频率。
您可以安排爬虫在特定日期和时间运行。 如果你想避免目标系统在工作时间内负载过重,该选项会很有帮助。 如果指定的小时范围在 1 - 9 之间,请在小时数字前添加一个零。 例如,您可以将爬行安排在周六的
01:00 AM
。IBM Cloud 当您安排爬行按月运行时,日数选项仅限于 1 到 28,因为您必须指定每个月都有的一天,包括有 28 天的二月。
IBM Cloud Pak for Data 已安装的部署有更多日程表选项:
- 如果想每 12 小时或每 10 天抓取一次,请选择自定义时间间隔。 您可以安排爬虫在自定义的天数或小时数内运行。
- 默认情况下,爬行安排在非高峰时段开始。
- 不要将间隔时间设置为短于爬行结束所需的时间。
- 不要将多个爬虫配置为短间隔运行。
- 如果在创建集合所在时区以外的时区打开集合,则会显示协调世界时 (UTC) 偏移信息。
-
IBM Cloud Pak for DataIBM Software Hub 已安装的部署有一个“更多日程安排设置”部分,您可以在此选择用于抓取数据源的日程安排类型。
所有连接器( 网络抓取连接器除外)的选择如下:
- 完全抓取:重新抓取外部数据源,更新数据集中的文档。
- 抓取更新(查找新增、修改和删除的内容):只有当外部数据源中的数据在上次抓取后被添加、修改或删除时,才会更新集合。
- 抓取新增和修改的内容:只有在上次抓取后添加或修改了外部数据源中的数据时,才会更新集合。
仅限网络爬行连接器:网络抓取连接器安排抓取的方式与其他连接器类型不同。 仅对于网络抓取连接器,请选择以下选项:
-
要自己控制爬行频率,请选择此选项:
完全搜寻
选择完全抓取计划类型时,抓取将按照您在页面的抓取计划部分指定的频率进行。
-
要让系统为您管理抓取频率,请选择以下选项之一:
抓取更新(查找新增、修改和删除的内容) 或抓取新增和修改的内容
选择抓取更新或新增和修改内容的计划类型时,会忽略为抓取计划指定的频率。 每个文档被抓取的频率是可变的,完全由服务管理。 而频率的变化取决于文件中出现变化的频率。 例如,如果某个文档集中的 10 个文档中有 5 个在第一个抓取间隔结束时发生了变化,那么这 5 个文档的频率就会自动提高。 目前,自我管理刷新的最高频率是每天一次。
在配置这些类型的计划抓取时,您不能中断频率的自动管理,也不能触发一次性抓取。
如果以后想更改灵活抓取计划设置,可以进入处理设置页面,编辑设置,然后单击“应用更改并重新处理”。
IBM Cloud 下一次计划抓取会显示在活动页面上。
如果更改计划频率,下一次计划的爬行时间可能与您预期的不同。 默认情况下,抓取会按特定时间或日期定期进行。 例如,如果在 8 月 11 日将抓取计划从每周一次改为每月一次,下一次抓取可能会安排在 8 月 31 日,而不是 9 月 11 日。 它并不是从您进行更改之日起一个月后才开始计时。 而不是安排在指定为所选抓取频率默认运行日的那一天运行。
停止爬行
您可以在不更改抓取计划频率的情况下停止抓取。 如果要执行一项耗时的任务,但又不想在任务间隙启动或运行抓取程序,则此操作非常有用。
IBM Cloud 要停止爬行,请完成以下步骤:
-
从导航面板打开“管理收藏”页面。
-
选择要停止抓取的数据集。
-
在 “活动”页面,如果抓取正在进行,请单击“停止”。
-
进入处理设置页面。
-
将“应用时间表”设置为“否”,然后单击“应用更改并重新处理”。
爬行停止,除非您重新启动,否则爬行不会再次开始。
IBM Cloud 要重新启动爬行器,请完成以下步骤:
-
从导航面板打开“管理收藏”页面。
-
选择要重新开始抓取的数据集。
-
进入处理设置页面。
-
将“应用时间表”设为 “是”,然后单击“应用更改并重新处理”。
爬行马上开始。
下一次抓取将根据抓取计划选项中选择的频率开始。 如果想在预定频率之前的任何时间开始抓取,请单击活动页面上的重新抓取。
IBM Cloud Pak for Data IBM Software Hub
您可以暂时停止正在进行的爬行。
要暂时停止爬行,请完成以下步骤:
-
从导航面板打开“管理收藏”页面。
-
选择要暂时停止抓取的数据集。
-
在“活动”页面,单击“停止”。
抓取会根据抓取计划中指定的频率重新开始。