Microsoft SharePoint Online
搜寻存储在 Microsoft SharePoint Online 数据源中的文档。
IBM Cloud 仅IBM Cloud
此信息仅适用于受管部署。 有关从已安装的部署连接到 SharePoint Online 的更多信息,请参阅 SharePoint Online。
要搜寻的文档
在初始搜寻内容期间,将搜寻可从您指定的站点集合路径访问的所有对象中的文档并将其添加到集合中。 例如,不能将搜寻限制为站点集合中的一个库。 将搜寻指定站点集合路径中的所有对象。 还将搜寻与 SharePoint 内容关联的定制元数据。 您可以搜寻每个集合的一个站点集合路径。 无法搜寻 个人 SiteCollections。
在后续调度的重新搜寻期间,将仅搜寻新的和已修改的文档,并且会在集合中反映任何更改。 不会从集合中删除从外部数据源中删除的文档。
所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
Discovery 可以搜寻以下对象:
- SiteCollections
- 站点
- SubSites
- 列表
- 列出项
- 文档库
- 列出项目附件
数据源需求
除所有受管部署的 数据源需求 外,SharePoint Online 数据源必须满足以下需求:
- 您连接到的站点集合必须是使用企业套餐创建的站点集合。 它不能是使用一线工作程序计划创建的集合。
- 您必须具有有权读取要搜寻的所有对象的 Azure Active Directory 用户标识。 例如,
<admin_user>@.onmicrosoft.com
。 用户标识不需要SiteCollection Administrator
许可权。
您可以从以下选项中选择如何向外部 Microsoft SharePoint 帐户进行认证:
- 开放式认证 (OAuth v2)
-
使用令牌向外部数据源进行认证,以便无需共享用户凭证。 通过此认证方法,您可以直接登录到 Microsoft 帐户,以生成 Discovery 用于连接到数据的令牌。
使用 Open Authentication v2 向外部数据源认证的 Sign in with Microsoft 选项是 Beta 功能。
具有 全局管理员 角色的用户必须先完成一次性 先决条件步骤,才能为 Discovery 服务实例中的所有项目授权连接,然后才能创建使用此认证方法的连接器。
- 安全性断言标记语言 (Security Assertion Markup Language, SAML)
-
较旧的认证和授权机制,需要与 Discovery 服务共享用户凭证。
如果选择使用此认证方法,那么 Microsoft SharePoint 帐户必须满足以下需求:
-
除非您在2020年1月之前创建了您的 SharePoint 在线账户,否则账户默认启用双重身份验证。 必须禁用双因子认证。
-
搜寻用户帐户必须已启用旧认证和
Contribute
级别许可权。要启用旧认证,请转至 Azure 门户网站 或联系 SharePoint 管理员。
-
连接器支持仅用于启用混合身份的
Password hash synchronization (PHS)
方法。 请使用任何其他类型 (例如,传递认证或联合),这将有您自己的风险。 -
您必须了解以下信息:
- 用户名
-
用于连接到要搜寻的 SharePoint Online SiteCollection 的用户帐户的用户名。
例如,
<janedoe>@exampledomain.onmicrosoft.com
。 - 密码
-
连接到 SharePoint 的密码,在线 SiteCollection,您要抓取。
从不返回此值,仅当创建或修改凭证时才会使用此值。
-
开始之前需要的内容
您必须准备好以下信息。 如果您不知道,请要求 SharePoint 管理员提供信息或查阅 Microsoft SharePoint 开发者文档:
- 组织 URL
-
您要抓取的源文件的根 URL。 请指定 URL 的域名,例如
https://<company>.<domain>.com
。 - 站点集合路径
-
site_collection_path
到要在其中启动搜寻的站点部分。例如,如果您要抓取的内容可从
https://<company>.<domain>.com/sites/test
获取,则可将https://<company>.<domain>.com
指定为组织 URL,将/sites/test
指定为网站集合路径。- 不能将文件夹路径指定为输入。
- 不能指定活动服务器页面扩展 (ASPX) 文件的路径,例如指向文档库,列表和子站点的 URL。
- 如果未指定路径,那么将使用缺省值
/
,并且将搜寻根站点集合。
- 应用程序标识: 要搜寻的数据源的标识。 仅当您要存储与源文档关联的 ACL 信息时,才需要此信息。
OAuth 的一次性先决条件步骤
在任何人都可以配置连接器以使用 OAuth v2 认证方法之前,在数据源所在的 Microsoft Azure 目录中具有 全局管理员 角色的用户必须完成在 Microsoft Azure中注册 Discovery 企业应用程序的步骤。 对于每个 Discovery 服务实例,必须完成此步骤一次。
管理员不需要在 Azure中创建应用程序。 当他们选择 SharePoint Online 作为数据源时,Discovery 服务会自动生成应用程序。 如以下过程中所述,在设置连接器期间,管理员必须使用 Microsoft Azure Directory 中具有 全局管理员 角色的用户的凭证登录到 Microsoft,并允许注册企业应用程序。
全局管理员必须仅对每个服务实例完成一次以下步骤:
-
查看将应用于 Microsoft Azure中的企业应用程序的缺省用户访问权设置。
企业应用程序可以通过多种方式处理用户访问权。 通过完成以下步骤,检查缺省设置以确保它们适合于您的部署:
- 登录到 Microsoft Azure。
- 从 Azure Active Directory中的“企业应用程序”页面,单击 同意和许可权。
Microsoft Azure Enterprise application permissions user interface -
执行以下某个操作:
-
如果选择 允许用户同意应用程序,那么无需执行更多操作。
-
如果选择了 允许用户同意来自已验证发布者的应用程序,对于所选许可权,请完成以下步骤:
单击 许可权分类 链接,然后确保至少配置了以下许可权:
- Office 365 SharePoint Online: MyFiles。读取
- Office 365 SharePoint Online: AllSites。读取
- Microsoft 图形 :offline_access
- Microsoft 图形: 概要文件
不支持 不允许用户同意选项。
您指定的设置将应用于后续步骤中由 Discovery 创建的企业应用程序。
-
-
从 Discovery的导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 SharePoint Online,然后单击 下一步。
-
在组织 URL 字段中添加 URL。
-
点击使用微软登录。
必须在 Web 浏览器中为此站点启用弹出窗口。
使用“开放式认证”向外部数据源认证的 使用 Microsoft 登录 选项是 Beta 功能。
使用您的用户名和密码登录到 Microsoft SharePoint 帐户,然后根据需要完成双因子认证。
请记住,您使用的凭证必须在 Microsoft Azure 目录中具有 全局管理员 角色。 如果未提示您输入用户名和密码,请注意。 您可能已登录到 Microsoft Sharepoint 帐户。 如果您已登录到不想用于此连接器的帐户,请在此处停止。 (您登录的任何帐户都将自动使用。 并且以后无法更改帐户配置。) 以 incognito 方式打开 Web 浏览器,然后从步骤 1 开始此过程。
发现将生成将向您指定的 SharePoint 组织注册的企业应用程序。 企业应用程序名称的格式为 IBM App Connect_{unique name}。
-
查看与 Discovery 将注册的企业应用程序关联的许可权,然后选择 代表您的组织同意。
Discovery permission request dialog -
点击 “接受”。
-
如果要创建集合,可以对该集合进行命名,然后单击 完成。
否则,可以单击 上一步 以退出集合创建过程。
现在,组织中在同一 Discovery 服务实例托管的项目中工作的任何人都可以使用 SharePoint Online 连接器来创建集合。
OAuth 支持修订版
在 2022 年 2 月通过软件更新添加了对 OAuth 认证方法的支持。 如果要更新现有连接器以使用 OAuth 而不是 SAML,那么必须重新创建连接器。 无法更改现有连接器的认证机制。
OAuth 认证方法已于 2023 年 1 月更新。 现在,向 Microsoft Azure 注册的企业应用程序仅需要 读 访问权。 以前,企业应用程序需要 写 访问权。 如果要利用此更改,请删除当前企业应用程序并重新创建连接器。 有关如何删除企业应用程序的更多信息,请参阅 Microsoft 文档。
连接到数据源
要配置 Microsoft SharePoint Online 数据源,请在 Discovery中完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 需要连接到数据源旁边的链接? 字段,单击 SharePoint Online,然后单击 下一步。
-
在组织 URL 字段中添加 URL。
-
要启用对外部数据源的访问,请从以下选项中选择要用于向数据源进行认证的方法:
- 开放式认证 (OAuth v2)
-
点击使用微软登录。
必须在 Web 浏览器中为此站点启用弹出窗口。
使用“开放式认证”向外部数据源认证的 使用 Microsoft 登录 选项是 Beta 功能。
使用您的用户名和密码登录到 Microsoft SharePoint 帐户,然后根据需要完成双因子认证。
- 安全性断言标记语言 (Security Assertion Markup Language, SAML)
-
指定有权访问要搜寻的站点的用户的用户名和密码,然后单击 下一步。
-
在 站点集合路径 字段中指定要搜寻的路径。
-
命名集合。
-
如果站点上文档的语言不是英语,请选择相应的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选: 更改同步调度。
有关更多信息,请参阅 搜寻调度选项。
-
可选: 如果要存储您搜寻的 SharePoint 文档中存在的任何访问控制信息,请在 安全性 部分中,将 包含访问控制表 开关设置为
On
。启用此选项时,将保留存储在 SharePoint 源文档中的 SharePoint 访问规则的相关信息,并将其作为元数据存储在添加到集合的文档中。
此功能与对集合启用文档级别安全性不同。 Discovery 搜索不会使用文档元数据中的访问规则。 启用此功能仅存储信息,以便在构建定制搜索解决方案时可以利用访问规则。
使用此功能会增加集合中生成的文档的大小,并增加搜寻时间。 仅当用例要求您存储 SharePoint 文档 ACL 信息时,才会启用此功能。
如果启用此功能,那么在 Microsoft SharePoint 中具有管理员角色的人员必须执行额外步骤,以确保搜寻站点的用户具有访问 ACL 元数据的正确许可权。
管理员必须完成以下步骤:
-
登录到 Microsoft SharePoint。
-
打开 SharePoint 站点的页面。
-
从设置菜单中,选择 站点许可权。
-
点击高级权限设置。
-
确保要在搜寻期间收集访问控制信息的人员具有或是具有站点的 完全控制 许可权的组的成员。
Microsoft SharePoint permissions user interface 如果未抽取访问控制表信息,那么对于搜寻内容的所有用户,读 许可权已足够。
-
-
如果要限制要添加到集合的文件类型,那么可以列出要包含或排除的文件类型的文件扩展名。
选择列出要排除的文件类型的扩展名时,必须至少添加一个文件扩展名。 缺省情况下,扩展过滤器 仅适用于 SharePoint 文档库 和 List Item Attachments 对象。 要将过滤器应用于所有 SharePoint 对象类型,请在用户界面上将 将扩展过滤器应用于所有 SharePoint 对象类型 设置为 开启。
有关受支持文件类型的列表,请参阅 受支持的文件类型。
-
如果希望搜寻器从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别。
-
单击完成。
将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。
如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。
您当前无法在以后更改与 OAuth 设置相关联的用户帐户,也无法更改连接器配置为使用的现有用户帐户的任何详细信息。 例如,在 SharePoint中更改密码后,无法更新用于设置连接的密码。
样本访问控制表信息
以下截屏说明了包含访问控制表时存储在文档中的 ACL 信息的类型。
