Microsoft SharePoint 预制版
抓取存储在内部 Microsoft SharePoint 数据源中的文档。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。 有关从托管部署连接到内部部署 SharePoint 网站的更多信息,请参阅 SharePoint On Prem。
抓取哪些文件
数据源需求
除了所有已安装部署的 数据源要求 之外,您的 SharePoint On Prem 数据源必须满足以下要求:
- 数据源连接支持 SharePoint 2013、2016 或 2019。
- 您必须获得要连接的数据源所需的服务许可证。 有关许可证的更多信息,请联系数据源的系统管理员。
有关 SharePoint On Prem 的更多信息,请参阅 Microsoft SharePoint 开发人员文档。
必备步骤
在创建 SharePoint On Prem 集合之前,您必须执行以下操作:
-
与 Sharepoint 管理员合作,协调设置网络应用程序的完全读取访问权限。
有关详细信息,请参阅 管理 Sharepoint Server 中 Web 应用程序的权限。
-
如果要启用文档级安全性,必须采取一些步骤进行设置。 有关详细信息,请参阅 支持文档级安全性。
您必须从 LDAP 管理员那里收集以下信息:
- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址,例如
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定目录服务的用户名。 在大多数情况下,此用户名是专有名称 (DN)。 登录名有时可能会使用 Active Directory。 但与一般的Windows登录不同,它区分大小写。 杰出名称总是有效的。
- LDAP 绑定用户密码
- 用于绑定目录服务的密码。
- LDAP 基本 DN
- 在LDAP中搜索用户条目的起点,例如
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在LDAP中搜索用户条目的用户过滤器。 如果未指定,缺省值为
(userPrincipalName={0})
。
如果使用的是2.2.1或更早的版本,那么在连接到数据源之前,必须完成一些额外的前提任务。 有关详细信息,请参阅 SharePoint 关于以前版本的前提条件步骤。
连接到 SharePoint On Prem 数据源
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 SharePoint On Prem,然后单击 Next。
-
为藏品命名。
-
如果 SharePoint 中文档的语言不是英语,请选择适当的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选:更改同步计划。
有关详细信息,请参阅 爬行计划选项。
-
在 Enter your credentials 部分,请填写以下字段:
- 用户名
- SharePoint 用户有权访问所有需要抓取和索引的网站和列表。
- 密码
- SharePoint 用户的密码。
此值不会返回,仅在创建或修改凭据时使用。
-
可选:如果要使用基于安全断言标记语言 (SAML) 声明的身份验证,请将 Enable SAML authentication 开关设置为
On
。 否则,将使用 Windows NT LAN 管理器 (NTLM) 身份验证。 为以下字段添加值:- 身份供应商端点
- 身份提供商终端的 URL,例如
https://adfs.server.example.com/adfs/services/trust/2005/UsernameMixed
。 - 依赖方端点
- 可选。 受信方信任端点的 URL。 如果未指定,则使用以下值:
https://<sharepoint_server>:<port>/_trust/
。 - 依赖方信任标识符
- 例如,依赖方信任标识符的 URL 为
urn:sharepoint:sample
。 如果未指定,则使用以下值:https://<sharepoint_server>:<port>/_trust/
。 此功能在 2013、2016 和 2019 版本中可用。
-
在 “指定要抓取的内容”部分,将 SharePoint 网络服务 URL 添加到 “Web应用程序网址”字段。 例如,
https://<host>:<port>
。 -
可选:如果使用代理服务器访问数据源服务器,则在代理设置部分,将启用代理设置开关设置为
On
。 为以下字段添加值:- 用户名
- 可选。 代理服务器用户名(如果代理服务器需要验证)。 如果您不知道用户名,可以从代理服务器的管理员处获取。
- 密码
- 可选。 代理服务器密码(如果代理服务器需要验证)。 如果您不知道密码,可以从代理服务器的管理员处获取。
- 代理服务器主机名或IP地址
- 代理服务器的主机名或IP地址。
- 代理服务器端口号
- 您要在代理服务器上连接的网络端口。
-
可选:如果要激活文档级安全性,请在安全性部分中,将启用文档级安全性开关设置为
On
。启用此选项后,用户可以抓取和查询与登录 SharePoint 时相同的内容。 完成 前提步骤 以添加支持。
启用该选项后,必须为以下字段提供值:
- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址,例如
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定目录服务的用户名。 在大多数情况下,此用户名是专有名称 (DN)。 登录名有时可能会使用 Active Directory。 但与一般的Windows登录不同,它区分大小写。 杰出名称总是有效的。
- LDAP 绑定用户密码
- 用于绑定目录服务的密码。
- LDAP 基本 DN
- 在LDAP中搜索用户条目的起点,例如
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在LDAP中搜索用户条目的用户过滤器。 如果未指定,缺省值为
(userPrincipalName={0})
。
-
如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别。
-
单击完成。
该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。
如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。
先前版本的前提步骤
如果使用的是 2.2.1 或更早版本,则必须完成这些额外步骤后才能连接到数据源:
- 从 Discovery 集群获取网络服务包。 此 Web Service 包是一个定制模块,供搜寻器用于获取必需的信息以实现成功搜寻。 有关详细信息,请参阅 获取网络服务软件包。
- 在 SharePoint 服务器上部署网络服务程序包。 有关详细信息,请参阅 在 SharePoint 服务器上部署网络服务。
获取网络服务包
要从 Discovery 群集获取网络服务程序包,请完成以下步骤:
-
登录到 Discovery 集群。
-
输入以下命令获取您的
crawler
播客名称:oc get pods | grep crawler
您可能会看到类似以下消息的输出:
wd-discovery-crawler-57985fc5cf-rxk89 1/1 Running 0 85m
-
输入以下命令获取
ESSPSolution.wsp
文件,将{crawler-pod-name}
替换为在上一步中获得的crawler
Pod名称:oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep ESSPSolution
您可能会看到类似以下消息的输出:
-rw-r--r--. 1 dadmin dadmin 8600 Feb 3 08:23 ESSPSolution-${build-version}.wsp
-
输入以下命令,将
ESSPSolution.wsp
文件复制到主机服务器,用上一步的构建版本号替换{build-version}
,用crawler
pod名称替换{crawler-pod-name}
:oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/ESSPSolution-${build-version}.wsp ESSPSolution.wsp
在 SharePoint 服务器上部署网络服务
您可以在 SharePoint 服务器上手动部署 Web Service,也可以运行脚本来自动进行部署。
运行自动部署网络服务的脚本:
-
通过输入以下 Windows PowerShell cmdlet,在 SharePoint 服务器上运行
ESSPSolution.wsp
脚本:Add-SPSolution -LiteralPath C:\files\ESSPSolution.wsp
-
在 SharePoint, 中打开 SharePoint 中央管理,然后打开系统设置。
-
使用农场解决方案部署软件包。
-
选择
esspsolution.wsp
解决方案,然后部署该解决方案。部署完成后,该场解决方案会在 SharePoint 管理控制台中列出。 管理员可以启用或禁用该解决方案,并可安排触发器。
-
可选:无论您使用哪种方法部署 Web 服务,在某些环境中完成部署时,您可能需要对承载 SharePoint 服务器和 Web 服务的 Internet 信息服务(IIS)服务器应用以下配置:
- 允许在 IIS 上使用 .NET 模拟
- 将 ASP.NET 信任级别更改为 WSS_Medium
您可以在Internet信息服务管理器中应用这些配置。