IBM Cloud Docs
Microsoft SharePoint 预制版

Microsoft SharePoint 预制版

抓取存储在内部 Microsoft SharePoint 数据源中的文档。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。 有关从托管部署连接到内部部署 SharePoint 网站的更多信息,请参阅 SharePoint On Prem

抓取哪些文件

  • 只有 Discovery 支持的文档才会被抓取,其他文档都会被忽略。 有关详细信息,请参阅 支持的文件类型
  • 支持文件级安全。 启用此选项后,用户可以抓取和查询与登录 SharePoint 时相同的内容。 有关详细信息,请参阅 支持文档级安全性
  • 当重新抓取一个资源时,会添加新的文档,将更新的文档修改为当前版本,并将已删除的文档从集合索引中删除。
  • 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。

数据源需求

除了所有已安装部署的 数据源要求 之外,您的 SharePoint On Prem 数据源必须满足以下要求:

  • 数据源连接支持 SharePoint 2013、2016 或 2019。
  • 您必须获得要连接的数据源所需的服务许可证。 有关许可证的更多信息,请联系数据源的系统管理员。

有关 SharePoint On Prem 的更多信息,请参阅 Microsoft SharePoint 开发人员文档

必备步骤

在创建 SharePoint On Prem 集合之前,您必须执行以下操作:

  1. 与 Sharepoint 管理员合作,协调设置网络应用程序的完全读取访问权限。

    有关详细信息,请参阅 管理 Sharepoint Server 中 Web 应用程序的权限

  2. 如果要启用文档级安全性,必须采取一些步骤进行设置。 有关详细信息,请参阅 支持文档级安全性

    您必须从 LDAP 管理员那里收集以下信息:

    LDAP 服务器 URL
    LDAP服务器 URL 的连接地址,例如 ldap://<ldap_server>:<port>
    LDAP 绑定用户名
    用于绑定目录服务的用户名。 在大多数情况下,此用户名是专有名称 (DN)。 登录名有时可能会使用 Active Directory。 但与一般的Windows登录不同,它区分大小写。 杰出名称总是有效的。
    LDAP 绑定用户密码
    用于绑定目录服务的密码。
    LDAP 基本 DN
    在LDAP中搜索用户条目的起点,例如 CN=Users,DC=example,DC=com
    LDAP 用户过滤器
    用于在LDAP中搜索用户条目的用户过滤器。 如果未指定,缺省值为 (userPrincipalName={0})

如果使用的是2.2.1或更早的版本,那么在连接到数据源之前,必须完成一些额外的前提任务。 有关详细信息,请参阅 SharePoint 关于以前版本的前提条件步骤

连接到 SharePoint On Prem 数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 单击 SharePoint On Prem,然后单击 Next

  4. 为藏品命名。

  5. 如果 SharePoint 中文档的语言不是英语,请选择适当的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选:更改同步计划。

    有关详细信息,请参阅 爬行计划选项

  7. Enter your credentials 部分,请填写以下字段:

    用户名
    SharePoint 用户有权访问所有需要抓取和索引的网站和列表。
    密码
    SharePoint 用户的密码。

    此值不会返回,仅在创建或修改凭据时使用。

  8. 可选:如果要使用基于安全断言标记语言 (SAML) 声明的身份验证,请将 Enable SAML authentication 开关设置为 On。 否则,将使用 Windows NT LAN 管理器 (NTLM) 身份验证。 为以下字段添加值:

    身份供应商端点
    身份提供商终端的 URL,例如 https://adfs.server.example.com/adfs/services/trust/2005/UsernameMixed
    依赖方端点
    可选。 受信方信任端点的 URL。 如果未指定,则使用以下值:https://<sharepoint_server>:<port>/_trust/
    依赖方信任标识符
    例如,依赖方信任标识符的 URL 为 urn:sharepoint:sample。 如果未指定,则使用以下值:https://<sharepoint_server>:<port>/_trust/。 此功能在 2013、2016 和 2019 版本中可用。
  9. “指定要抓取的内容”部分,将 SharePoint 网络服务 URL 添加到 “Web应用程序网址”字段。 例如,https://<host>:<port>

  10. 可选:如果使用代理服务器访问数据源服务器,则在代理设置部分,将启用代理设置开关设置为 On。 为以下字段添加值:

    用户名
    可选。 代理服务器用户名(如果代理服务器需要验证)。 如果您不知道用户名,可以从代理服务器的管理员处获取。
    密码
    可选。 代理服务器密码(如果代理服务器需要验证)。 如果您不知道密码,可以从代理服务器的管理员处获取。
    代理服务器主机名或IP地址
    代理服务器的主机名或IP地址。
    代理服务器端口号
    您要在代理服务器上连接的网络端口。
  11. 可选:如果要激活文档级安全性,请在安全性部分中,将启用文档级安全性开关设置为 On

    启用此选项后,用户可以抓取和查询与登录 SharePoint 时相同的内容。 完成 前提步骤 以添加支持。

    启用该选项后,必须为以下字段提供值:

    LDAP 服务器 URL
    LDAP服务器 URL 的连接地址,例如 ldap://<ldap_server>:<port>
    LDAP 绑定用户名
    用于绑定目录服务的用户名。 在大多数情况下,此用户名是专有名称 (DN)。 登录名有时可能会使用 Active Directory。 但与一般的Windows登录不同,它区分大小写。 杰出名称总是有效的。
    LDAP 绑定用户密码
    用于绑定目录服务的密码。
    LDAP 基本 DN
    在LDAP中搜索用户条目的起点,例如 CN=Users,DC=example,DC=com
    LDAP 用户过滤器
    用于在LDAP中搜索用户条目的用户过滤器。 如果未指定,缺省值为 (userPrincipalName={0})
  12. 如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别

  13. 单击完成

该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。

如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。

先前版本的前提步骤

如果使用的是 2.2.1 或更早版本,则必须完成这些额外步骤后才能连接到数据源:

获取网络服务包

要从 Discovery 群集获取网络服务程序包,请完成以下步骤:

  1. 登录到 Discovery 集群。

  2. 输入以下命令获取您的 crawler 播客名称:

    oc get pods | grep crawler
    

    您可能会看到类似以下消息的输出:

    wd-discovery-crawler-57985fc5cf-rxk89     1/1     Running     0          85m
    
  3. 输入以下命令获取 ESSPSolution.wsp 文件,将 {crawler-pod-name} 替换为在上一步中获得的 crawler Pod名称:

    oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep ESSPSolution
    

    您可能会看到类似以下消息的输出:

    -rw-r--r--. 1 dadmin dadmin  8600 Feb  3 08:23 ESSPSolution-${build-version}.wsp
    
  4. 输入以下命令,将 ESSPSolution.wsp 文件复制到主机服务器,用上一步的构建版本号替换 {build-version},用 crawler pod名称替换 {crawler-pod-name}

    oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/ESSPSolution-${build-version}.wsp ESSPSolution.wsp
    

在 SharePoint 服务器上部署网络服务

您可以在 SharePoint 服务器上手动部署 Web Service,也可以运行脚本来自动进行部署。

运行自动部署网络服务的脚本:

  1. 通过输入以下 Windows PowerShell cmdlet,在 SharePoint 服务器上运行 ESSPSolution.wsp 脚本:Add-SPSolution -LiteralPath C:\files\ESSPSolution.wsp

  2. 在 SharePoint, 中打开 SharePoint 中央管理,然后打开系统设置。

  3. 使用农场解决方案部署软件包。

  4. 选择 esspsolution.wsp 解决方案,然后部署该解决方案。

    部署完成后,该场解决方案会在 SharePoint 管理控制台中列出。 管理员可以启用或禁用该解决方案,并可安排触发器。

  5. 可选:无论您使用哪种方法部署 Web 服务,在某些环境中完成部署时,您可能需要对承载 SharePoint 服务器和 Web 服务的 Internet 信息服务(IIS)服务器应用以下配置:

    • 允许在 IIS 上使用 .NET 模拟
    • 将 ASP.NET 信任级别更改为 WSS_Medium

    您可以在Internet信息服务管理器中应用这些配置。