数据源概述

在 Discovery for Cloud Pak for Data中，可以从上载的本地源或连接到的远程数据源搜寻文档。了解有关受支持的数据源以及如何配置这些数据源的更多信息。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。有关 IBM Cloud 数据源的更多信息，请参阅 IBM Cloud 数据源概述。

所有 Discovery 数据源连接器都是只读的。无论向搜寻帐户授予何种许可权，Discovery 从不写入，更新或删除原始数据源中的任何内容。

使用 Discovery for Cloud Pak for Data，可以从以下数据源中进行搜寻：

您的数据源未列出? 您可以与开发者一起创建定制连接器。有关更多信息，请参阅构建 Cloud Pak for Data 定制连接器。

如果在添加源文档时有特殊需求 (例如，需要排除某些文件)，那么可以与开发者一起创建定制搜寻器插件。搜寻器插件可以将更细微的规则应用于要添加的文档以及文档中的哪些字段。有关更多信息，请参阅构建 Cloud Pak for Data 定制搜寻器插件。

在空气间隙环境中设置 HTTP 代理配置 IBM Cloud Pak for DataIBM Software Hub

当 Discovery 在空隙环境中运行时，必须设置 HTTP 代理才能连接到外部服务器。

您可以在隔离的网络环境中使用 HTTP 代理服务器从以下数据源抓取数据：

您可以将特定代理设置用于每种数据源类型，也可以使用 CPD 5.0.0中的资源规范注入 (RSI) 提供的系统范围代理设置。

运行以下命令安装RSI网络挂钩。
```
$ cpd-cli manage install-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
```
有关更多信息，请参阅安装 RSI。
运行以下命令启用RSI网络挂钩。
```
$ cpd-cli manage enable-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
```
有关更多信息，请参阅启用 RSI。

运行以下命令以设置代理配置。

$ cpd-cli manage create-proxy-config \
    --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS} \
    --proxy_host=$PROXY_HOST \
    --proxy_port=$PROXY_PORT \
    --proxy_user=$PROXY_USER \
    --proxy_password=$PROXY_PASSWORD

有关更多信息，请参阅管理代理配置。

运行以下命令启用代理配置。
```
$ cpd-cli manage enable-proxy --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
```
有关更多信息，请参阅启用代理配置。

有关将代理设置应用于空隙群集的更多信息，请参阅将群集 HTTP 代理设置应用于 IBM Cloud Pak for Data。

以下是与 HTTP 代理服务器相关的特定要求和限制：

HTTP 不支持需要TLS通信的代理服务器。
HTTP 需要身份验证的代理服务器用于：
- SharePoint 本地
- 具有用户主体的 SharePoint Online
HTTP 当目标网站和 On Prem服务器需要NTLM认证时，代理服务器必须支持NTLM。SharePoint
HTTP 代理服务器必须支持LDAP协议，以实现 On Prem文档级安全。SharePoint

数据源需求

以下需求和限制特定于 IBM Watson® Discovery：

单个文件大小限制为每个文件 32 MB，包括压缩归档文件（ZIP、CZIP 和 TAR）。解压后，压缩文件中的单个文件不能超过32MB。对于您在其中上传自己的数据的集合，也适用此限制。
根据安装类型（启动或生产模式），可同时采集的集合数量有所不同。入门级安装包括一个 crawler 小工具，可同时处理三个收藏。生产安装包含两个 crawler pod，可同时处理六个集合。

如果您正在运行启动器安装，并且想要同时处理三个以上的集合，则必须通过运行以下命令来增加 crawler Pod的数量：
```
oc patch wd wd --type=merge --patch='{"spec": {"ingestion": {"crawler": {"replicas": <number-of-replicas> } } } }'
```
在入门模板安装中，可搜寻外部数据源的最大同时集合数为 3。如果您启动第四次抓取，则该集合在前三次抓取完成之前不会开始处理。

number-of-replicas 等于 1 可允许同时执行 3 个搜寻，因此 number-of-replicas=2 会将搜寻数增加到 6 个，而 number-of -replicas=3 会将搜寻数增加到 9 个。

搜寻器插件设置

部署一个或多个搜寻器插件时，可以将集合配置为使用其中一个插件。

仅当部署了搜寻器插件时，这些设置才可用。

有关构建插件的更多信息，请参阅构建 Cloud Pak for Data 搜寻器插件。
有关部署搜寻器插件的更多信息，请参阅用于管理搜寻器插件的命令和选项。

当您准备好将集合配置为使用使用 scripts/manage_crawler_plugin.sh 脚本创建的搜寻器插件时，可以看到包含以下选项的 插件设置 部分:

启用插件: 交换机设置为关闭。如果要使用搜寻器插件来处理文档，请启用此选项。
插件: 列出可用搜寻器插件的名称。请选择要使用的插件。

支持文档级安全性

如果激活了文档级安全性，那么可以使用源文档中的安全性设置来控制返回给不同用户的搜索结果。

Discovery 仅支持预过滤。要进行预过滤，Discovery 会在搜寻时将文档的源访问控制表 (ACL) 复制到索引中。搜索引擎必须将用户凭证与复制的文档 ACL 进行比较。Discovery 在预先过滤文档以及控制向索引添加哪些文档时更快。然而，很难在索引中为各种数据源的所有安全策略建模，并统一实施比较逻辑。此外，预过滤对最近一次抓取后源ACL中发生的变化响应较慢。

以下数据源类型支持文档级别安全性:

Box
FileNet P8
HCL Notes
Microsoft SharePoint Online
Microsoft SharePoint 本地
Microsoft Windows 文件系统

当您查询启用了文档级安全性的集合时，如果与您的 Discovery 实例关联的用户不在源系统中，则不会返回任何结果。有关查询这些集合的更多信息，请参阅在启用文档级安全性的情况下进行查询。

要启用文档级安全，您必须完成以下步骤：

创建与源系统上可用用户匹配的 Discovery 用户。
将用户与 Discovery 实例相关联。有关更多信息，请参阅授予用户对 Watson Discovery 实例的访问权。
在连接到数据源时对其启用文档级安全性。

为文档级安全性创建用户

您必须创建与 Discovery 所连接源系统中的用户匹配的用户，以便他们能够启用文档级安全权限进行查询。

以管理员身份登录到 Discovery。
创建与您的源系统中可用用户匹配的用户，或与您的源系统使用的身份提供商连接的用户。如果您出于文档级安全考虑而创建用户，请谨记以下几点：
- 可选：对于每个想要访问查询结果的用户，您必须添加用户。用户名必须与源使用的用户名相匹配。此选项仅用于开发和测试目的。要单独创建用户，请参阅管理用户。
- 要连接到源正在使用的身份提供者，请参阅连接到身份提供者。

Discovery 不会将对身份提供者中用户所作的更改与服务的用户列表同步。Discovery 管理员必须确保用户列表是最新的，并除去任何非当前用户。