Salesforce
抓取存储在 Salesforce 中的文档。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。 有关从托管部署连接到 Salesforce 的更多信息,请参阅 Salesforce。
抓取哪些文件
- 知识文章只有在版本已发布且语言为英语(美国)时才会被抓取。
- 只有 Discovery 支持的文档才会被抓取,其他文档都会被忽略。 有关详细信息,请参阅 支持的文件类型。
- 当重新抓取资源时,新的文档会被添加,更新的文档会被修改为当前版本,而删除的文档会在刷新时从集合索引中删除。
- 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。
Discovery 可以抓取以下对象:
- 您可以访问的任何默认对象和自定义对象
- 帐户
- 联系人
- 案例
- 合约
- 知识文章
- 附件
数据源需求
除了所有已安装部署的 数据源要求 之外,您的 Salesforce 数据源必须满足以下要求:
- 您计划连接的实例必须属于企业计划或更高版本。
- 您必须获得要连接的数据源所需的服务许可证。 有关许可证的更多信息,请联系数据源的系统管理员。
有关 Salesforce 的更多信息,请参阅 Salesforce 开发人员文档。
前提步骤
要抓取 Salesforce 中的文档,Discovery 会使用 Web 服务描述语言 (WSDL) 文件。 WSDL 文件定义了一种网络服务,用于生成管理访问的 API。
如果计划从 Salesforce 的沙盒和生产实例中抓取文档,则必须分别与每个网络服务建立连接。 您必须从每个网络服务下载 JAR 文件,并设置单独的集合。
有关下载WSDL JAR文件的信息,请查看以下链接:
-
下载以下 JAR 文件:
force-partner.jar
(来自合作伙伴 WSDL)force-metadata.jar
(来自元数据 WSDL)force-wsc.jar
(来自 Force.com Web Service Connector (WSC))commons-beanutils.jar
(来自 Apache Commons BeanUtils)
-
将JAR文件压缩为一个压缩文件。 在下一个程序中,您将把压缩文件上传到 Discovery 中。
连接到 Salesforce 数据源
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
点击 Salesforce,然后点击 “下一步”。
-
为藏品命名。
-
如果 Salesforce 中的文档语言不是英语,请选择适当的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选:更改同步计划。
有关详细信息,请参阅 爬行计划选项。
-
在指定要抓取的内容部分,在以下字段中输入值:
- 用户名
- 调用 Salesforce API的用户名。
- 密码
- 这是指定用户的密码。
- 安全性令牌
- 用户调用 Salesforce API的安全令牌。
- Jar 压缩档案文件
- 上传包含之前下载的 JAR 文件的压缩文件。 或者选择之前上传的压缩文件,重新使用它。
-
可选:展开代理设置部分,添加使用代理服务器访问数据源服务器时所需的信息。
-
启用代理设置:将开关设置为 打开,然后添加以下信息:
- 用户名
- 如果代理服务器要求身份验证,则使用代理服务器用户名进行身份验证。 如果您不知道自己的用户名,可以向代理服务器的管理员询问。
- 密码
- 如果代理服务器要求进行身份验证,则使用代理服务器密码进行身份验证。 如果您不知道自己的密码,可以向代理服务器的管理员索取。
- 代理服务器主机名或IP地址
- 代理服务器的主机名或IP地址。
- 代理服务器端口号
- 您要在代理服务器上连接的网络端口。
-
-
在 * 对象类型** 部分,指定要抓取的对象类型。
缺省行为是搜寻所有对象类型。
- 对于定制对象名称,附加
__c
以符合定制对象名称的 Salesforce API 约定。 例如,要抓取 MyCustomObject, 请指定MyCustomObject__c
。 - 在指定注释对象(如
FeedComment
、CaseComment
、IdeaComment
)时,请不要同时指定相应的根对象(如FeedItem
、Case
和Idea
)。 - 如果指定标记对象,那么还必须指定其父代。 例如,如果不同时指定
Account
对象,请不要指定AccountTag
对象。
- 对于定制对象名称,附加
-
如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别。
-
单击完成。
该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。
如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。