数据源概述
在 Discovery for Cloud Pak for Data中,可以从上载的本地源或连接到的远程数据源搜寻文档。 了解有关受支持的数据源以及如何配置这些数据源的更多信息。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。 有关 IBM Cloud 数据源的更多信息,请参阅 IBM Cloud 数据源概述。
所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
使用 Discovery for Cloud Pak for Data,可以从以下数据源中进行搜寻:
您的数据源未列出? 您可以与开发者一起创建定制连接器。 有关更多信息,请参阅 构建 Cloud Pak for Data 定制连接器。
如果在添加源文档时有特殊需求 (例如,需要排除某些文件),那么可以与开发者一起创建定制搜寻器插件。 搜寻器插件可以将更细微的规则应用于要添加的文档以及文档中的哪些字段。 有关更多信息,请参阅 构建 Cloud Pak for Data 定制搜寻器插件。
在空气间隙环境中设置 HTTP 代理配置 IBM Cloud Pak for DataIBM Software Hub
当 Discovery 在空隙环境中运行时,必须设置 HTTP 代理才能连接到外部服务器。
您可以在隔离的网络环境中使用 HTTP 代理服务器从以下数据源抓取数据:
您可以将特定代理设置用于每种数据源类型,也可以使用 CPD 5.0.0中的资源规范注入 (RSI) 提供的系统范围代理设置。
- 运行以下命令安装RSI网络挂钩。
有关更多信息,请参阅 安装 RSI。$ cpd-cli manage install-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
- 运行以下命令启用RSI网络挂钩。
有关更多信息,请参阅 启用 RSI。$ cpd-cli manage enable-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
- 运行以下命令以设置代理配置。
有关更多信息,请参阅 管理代理配置。$ cpd-cli manage create-proxy-config \ --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS} \ --proxy_host=$PROXY_HOST \ --proxy_port=$PROXY_PORT \ --proxy_user=$PROXY_USER \ --proxy_password=$PROXY_PASSWORD
- 运行以下命令启用代理配置。
有关更多信息,请参阅 启用代理配置。$ cpd-cli manage enable-proxy --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
有关将代理设置应用于空隙群集的更多信息,请参阅 将群集 HTTP 代理设置应用于 IBM Cloud Pak for Data。
以下是与 HTTP 代理服务器相关的特定要求和限制:
- HTTP 不支持需要TLS通信的代理服务器。
- HTTP 需要身份验证的代理服务器用于:
- SharePoint 本地
- 具有用户主体的 SharePoint Online
- HTTP 当目标网站和 On Prem服务器需要NTLM认证时,代理服务器必须支持NTLM。SharePoint
- HTTP 代理服务器必须支持LDAP协议,以实现 On Prem文档级安全。SharePoint
数据源需求
以下需求和限制特定于 IBM Watson® Discovery:
-
单个文件大小限制为每个文件 32 MB,包括压缩归档文件(ZIP、CZIP 和 TAR)。 解压后,压缩文件中的单个文件不能超过32MB。 对于您在其中上传自己的数据的集合,也适用此限制。
-
根据安装类型(启动或生产模式),可同时采集的集合数量有所不同。 入门级安装包括一个
crawler
小工具,可同时处理三个收藏。 生产安装包含两个crawler
pod,可同时处理六个集合。如果您正在运行启动器安装,并且想要同时处理三个以上的集合,则必须通过运行以下命令来增加
crawler
Pod的数量:oc patch wd wd --type=merge --patch='{"spec": {"ingestion": {"crawler": {"replicas": <number-of-replicas> } } } }'
在入门模板安装中,可搜寻外部数据源的最大同时集合数为 3。 如果您启动第四次抓取,则该集合在前三次抓取完成之前不会开始处理。
number-of-replicas
等于 1 可允许同时执行 3 个搜寻,因此number-of-replicas=2
会将搜寻数增加到 6 个,而number-of -replicas=3
会将搜寻数增加到 9 个。
搜寻器插件设置
部署一个或多个搜寻器插件时,可以将集合配置为使用其中一个插件。
仅当部署了搜寻器插件时,这些设置才可用。
- 有关构建插件的更多信息,请参阅 构建 Cloud Pak for Data 搜寻器插件。
- 有关部署搜寻器插件的更多信息,请参阅 用于管理搜寻器插件的命令和选项。
当您准备好将集合配置为使用使用 scripts/manage_crawler_plugin.sh
脚本创建的搜寻器插件时,可以看到包含以下选项的 插件设置 部分:
- 启用插件: 交换机设置为 关闭。 如果要使用搜寻器插件来处理文档,请启用此选项。
- 插件: 列出可用搜寻器插件的名称。 请选择要使用的插件。
支持文档级安全性
如果激活了文档级安全性,那么可以使用源文档中的安全性设置来控制返回给不同用户的搜索结果。
Discovery 仅支持预过滤。 要进行预过滤,Discovery 会在搜寻时将文档的源访问控制表 (ACL) 复制到索引中。 搜索引擎必须将用户凭证与复制的文档 ACL 进行比较。Discovery 在预先过滤文档以及控制向索引添加哪些文档时更快。 然而,很难在索引中为各种数据源的所有安全策略建模,并统一实施比较逻辑。 此外,预过滤对最近一次抓取后源ACL中发生的变化响应较慢。
以下数据源类型支持文档级别安全性:
- Box
- FileNet P8
- HCL Notes
- Microsoft SharePoint Online
- Microsoft SharePoint 本地
- Microsoft Windows 文件系统
当您查询启用了文档级安全性的集合时,如果与您的 Discovery 实例关联的用户不在源系统中,则不会返回任何结果。 有关查询这些集合的更多信息,请参阅 在启用文档级安全性的情况下进行查询。
要启用文档级安全,您必须完成以下步骤:
- 创建与源系统上可用用户匹配的 Discovery 用户。
- 将用户与 Discovery 实例相关联。 有关更多信息,请参阅 授予用户对 Watson Discovery 实例的访问权。
- 在连接到数据源时对其启用文档级安全性。
为文档级安全性创建用户
您必须创建与 Discovery 所连接源系统中的用户匹配的用户,以便他们能够启用文档级安全权限进行查询。
-
以管理员身份登录到 Discovery。
-
创建与您的源系统中可用用户匹配的用户,或与您的源系统使用的身份提供商连接的用户。 如果您出于文档级安全考虑而创建用户,请谨记以下几点:
Discovery 不会将对身份提供者中用户所作的更改与服务的用户列表同步。Discovery 管理员必须确保用户列表是最新的,并除去任何非当前用户。