Salesforce

抓取存储在 Salesforce 中的文档。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。有关从托管部署连接到 Salesforce 的更多信息，请参阅 Salesforce。

抓取哪些文件

知识文章只有在版本已发布且语言为英语（美国）时才会被抓取。
只有 Discovery 支持的文档才会被抓取，其他文档都会被忽略。有关详细信息，请参阅支持的文件类型。
当重新抓取资源时，新的文档会被添加，更新的文档会被修改为当前版本，而删除的文档会在刷新时从集合索引中删除。
所有 Discovery 数据源连接器都是只读的。无论向抓取账户授予何种权限，Discovery 都不会写入、更新或删除原始数据源中的任何内容。

Discovery 可以抓取以下对象：

您可以访问的任何默认对象和自定义对象
帐户
联系人
案例
合约
知识文章
附件

数据源需求

除了所有已安装部署的数据源要求之外，您的 Salesforce 数据源必须满足以下要求：

您计划连接的实例必须属于企业计划或更高版本。
您必须获得要连接的数据源所需的服务许可证。有关许可证的更多信息，请联系数据源的系统管理员。

有关 Salesforce 的更多信息，请参阅 Salesforce 开发人员文档。

前提步骤

要抓取 Salesforce 中的文档，Discovery 会使用 Web 服务描述语言 (WSDL) 文件。 WSDL 文件定义了一种网络服务，用于生成管理访问的 API。

如果计划从 Salesforce 的沙盒和生产实例中抓取文档，则必须分别与每个网络服务建立连接。您必须从每个网络服务下载 JAR 文件，并设置单独的集合。

有关下载WSDL JAR文件的信息，请查看以下链接：

下载以下 JAR 文件：
- force-partner.jar（来自合作伙伴 WSDL）
- force-metadata.jar（来自元数据 WSDL）
- force-wsc.jar（来自 Force.com Web Service Connector (WSC)）
- commons-beanutils.jar（来自 Apache Commons BeanUtils）
将JAR文件压缩为一个压缩文件。在下一个程序中，您将把压缩文件上传到 Discovery 中。

连接到 Salesforce 数据源

请从您的 Discovery 项目开始，完成以下步骤：

从导航窗格中，选择 管理集合。
点击 “新收藏”。
点击 Salesforce，然后点击 “下一步”。
为藏品命名。
如果 Salesforce 中的文档语言不是英语，请选择适当的语言。

有关受支持语言的列表，请参阅语言支持。
可选：更改同步计划。

有关详细信息，请参阅爬行计划选项。
在指定要抓取的内容部分，在以下字段中输入值：

用户名

调用 Salesforce API的用户名。

密码

这是指定用户的密码。

安全性令牌

用户调用 Salesforce API的安全令牌。

Jar 压缩档案文件

上传包含之前下载的 JAR 文件的压缩文件。或者选择之前上传的压缩文件，重新使用它。
可选：展开代理设置部分，添加使用代理服务器访问数据源服务器时所需的信息。
- 启用代理设置：将开关设置为打开，然后添加以下信息：
  
  用户名
  
  如果代理服务器要求身份验证，则使用代理服务器用户名进行身份验证。如果您不知道自己的用户名，可以向代理服务器的管理员询问。
  
  密码
  
  如果代理服务器要求进行身份验证，则使用代理服务器密码进行身份验证。如果您不知道自己的密码，可以向代理服务器的管理员索取。
  
  代理服务器主机名或IP地址
  
  代理服务器的主机名或IP地址。
  
  代理服务器端口号
  
  您要在代理服务器上连接的网络端口。
在 * 对象类型** 部分，指定要抓取的对象类型。

缺省行为是搜寻所有对象类型。
- 对于定制对象名称，附加 __c 以符合定制对象名称的 Salesforce API 约定。例如，要抓取 MyCustomObject, 请指定 MyCustomObject__c。
- 在指定注释对象（如 FeedComment、CaseComment、IdeaComment）时，请不要同时指定相应的根对象（如 FeedItem、Case 和 Idea）。
- 如果指定标记对象，那么还必须指定其父代。例如，如果不同时指定 Account 对象，请不要指定 AccountTag 对象。
如果您希望爬虫从网站图片中提取文本，请展开 更多处理设置，并将 应用光学字符识别 (OCR) 设置为 On。

启用 OCR 且文档包含图像时，处理时间会更长。有关详细信息，请参阅光学字符识别。
单击完成。

该系列创建迅速。当数据被添加到数据集中时，需要更多的时间来处理数据。

如果想查看进度，请进入活动页面。在导航窗格中，单击 管理收藏，然后单击打开收藏。