IBM Cloud Docs
Salesforce

Salesforce

抓取存储在 Salesforce 中的文档。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。 有关从托管部署连接到 Salesforce 的更多信息,请参阅 Salesforce

抓取哪些文件

  • 知识文章只有在版本已发布且语言为英语(美国)时才会被抓取。
  • 只有 Discovery 支持的文档才会被抓取,其他文档都会被忽略。 有关详细信息,请参阅 支持的文件类型
  • 当重新抓取资源时,新的文档会被添加,更新的文档会被修改为当前版本,而删除的文档会在刷新时从集合索引中删除。
  • 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。

Discovery 可以抓取以下对象:

  • 您可以访问的任何默认对象和自定义对象
  • 帐户
  • 联系人
  • 案例
  • 合约
  • 知识文章
  • 附件

数据源需求

除了所有已安装部署的 数据源要求 之外,您的 Salesforce 数据源必须满足以下要求:

  • 您计划连接的实例必须属于企业计划或更高版本。
  • 您必须获得要连接的数据源所需的服务许可证。 有关许可证的更多信息,请联系数据源的系统管理员。

有关 Salesforce 的更多信息,请参阅 Salesforce 开发人员文档

前提步骤

要抓取 Salesforce 中的文档,Discovery 会使用 Web 服务描述语言 (WSDL) 文件。 WSDL 文件定义了一种网络服务,用于生成管理访问的 API。

如果计划从 Salesforce 的沙盒和生产实例中抓取文档,则必须分别与每个网络服务建立连接。 您必须从每个网络服务下载 JAR 文件,并设置单独的集合。

有关下载WSDL JAR文件的信息,请查看以下链接:

  1. 下载以下 JAR 文件:

    • force-partner.jar(来自合作伙伴 WSDL)
    • force-metadata.jar(来自元数据 WSDL)
    • force-wsc.jar(来自 Force.com Web Service Connector (WSC))
    • commons-beanutils.jar(来自 Apache Commons BeanUtils)
  2. 将JAR文件压缩为一个压缩文件。 在下一个程序中,您将把压缩文件上传到 Discovery 中。

连接到 Salesforce 数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 点击 Salesforce,然后点击 “下一步”。

  4. 为藏品命名。

  5. 如果 Salesforce 中的文档语言不是英语,请选择适当的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选:更改同步计划。

    有关详细信息,请参阅 爬行计划选项

  7. 指定要抓取的内容部分,在以下字段中输入值:

    用户名
    调用 Salesforce API的用户名。
    密码
    这是指定用户的密码。
    安全性令牌
    用户调用 Salesforce API的安全令牌。
    Jar 压缩档案文件
    上传包含之前下载的 JAR 文件的压缩文件。 或者选择之前上传的压缩文件,重新使用它。
  8. 可选:展开代理设置部分,添加使用代理服务器访问数据源服务器时所需的信息。

    • 启用代理设置:将开关设置为 打开,然后添加以下信息:

      用户名
      如果代理服务器要求身份验证,则使用代理服务器用户名进行身份验证。 如果您不知道自己的用户名,可以向代理服务器的管理员询问。
      密码
      如果代理服务器要求进行身份验证,则使用代理服务器密码进行身份验证。 如果您不知道自己的密码,可以向代理服务器的管理员索取。
      代理服务器主机名或IP地址
      代理服务器的主机名或IP地址。
      代理服务器端口号
      您要在代理服务器上连接的网络端口。
  9. 在 * 对象类型** 部分,指定要抓取的对象类型。

    缺省行为是搜寻所有对象类型。

    • 对于定制对象名称,附加 __c 以符合定制对象名称的 Salesforce API 约定。 例如,要抓取 MyCustomObject, 请指定 MyCustomObject__c
    • 在指定注释对象(如 FeedCommentCaseCommentIdeaComment)时,请不要同时指定相应的根对象(如 FeedItemCaseIdea)。
    • 如果指定标记对象,那么还必须指定其父代。 例如,如果不同时指定 Account 对象,请不要指定 AccountTag 对象。
  10. 如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别

  11. 单击完成

该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。

如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。