IBM Cloud Docs
Salesforce

Salesforce

抓取儲存在 Salesforce 中的文件。

IBM Cloud Pak for Data IBM Software Hub

此資訊僅適用於已安裝的部署。 For more information about connecting to Salesforce from a managed deployment, see Salesforce.

抓取哪些文件

  • 知識文章只有在其版本已發佈且其語言為 en-us 時才會被抓取。
  • 只有 Discovery 支援的文件才會被抓取,其他文件都會被忽略。 如需詳細資訊,請參閱 支援的檔案類型
  • 當重新抓取來源時,會新增文件,更新的文件會修改為目前的版本,而刪除的文件會在刷新過程中從集合的索引中刪除。
  • 所有 Discovery 資料來源連線器都是唯讀的。 不論允許爬取帳戶多少權限,Discovery 永遠不會寫入、更新或刪除原始資料來源中的任何內容。

Discovery 可以抓取下列物件:

  • 您可以存取的任何預設與自訂物件
  • 帳戶
  • 聯絡人
  • 案例
  • 合約
  • 知識文章
  • 附件

資料來源需求

In addition to the 資料來源需求 for all installed deployments, your Salesforce data source must meet the following requirements:

  • 您計劃連接的實例必須是企業計劃或更高版本的一部分。
  • 您必須取得要連線的資料來源所需的服務授權。 有關授權的詳細資訊,請聯絡資料來源的系統管理員。

For more information about Salesforce, see the Salesforce 開發人員文件.

先決條件步驟

To crawl documents in Salesforce, Discovery uses a Web Service Description Language (WSDL) file. WSDL 檔案定義 Web 服務,以產生管理存取的 API。

如果您打算從 Salesforce 的 Sandbox 和生產實例抓取文件,您必須分別與每個 Web 服務建立連線。 您必須從每個 Web 服務下載 JAR 檔案,並設定獨立的集合。

有關下載 WSDL JAR 檔案的資訊,請參閱下列連結:

  1. 下載下列 JAR 檔:

    • force-partner.jar(來自夥伴 WSDL)
    • force-metadata.jar(來自 meta 資料 WSDL)
    • force-wsc.jar(來自 Force.com Web Service Connector (WSC))
    • commons-beanutils.jar(來自 Apache Commons BeanUtils)
  2. 將 JAR 檔案壓縮成壓縮檔。 您會在下一個程序中將壓縮檔上傳至 Discovery。

連接至 Salesforce 資料來源

從您的 Discovery 專案,完成下列步驟:

  1. 從導覽窗格中,選擇 Manage collections

  2. 按一下新增收藏集

  3. 按一下 Salesforce,然後按一下下一步

  4. 為收藏命名。

  5. 如果 Salesforce 中的文件語言不是英文,請選擇適當的語言。

    如需受支援語言的清單,請參閱語言支援

  6. 選用:變更同步排程。

    如需詳細資訊,請參閱 爬行排程選項

  7. Specify what you want to crawl 區段中,在下列欄位中輸入數值:

    使用者名稱
    呼叫 Salesforce API 的使用者名稱。
    密碼
    所指定使用者的密碼。
    安全記號
    呼叫 Salesforce API 的使用者安全代碼。
    Jar zip 存檔檔案
    上傳包含之前下載的 JAR 檔案的壓縮檔。 或選擇之前上傳的壓縮檔案,以重新使用該檔案。
  8. 選購: Expand the 代理伺服器設定 section to add information that is required if you are using a proxy server to access the data source server.

    • 啟用代理設定: Set the switch to 關於, and then add the following information:

      使用者名稱
      如果代理伺服器需要驗證,則使用代理伺服器使用者名稱來驗證。 如果您不知道您的使用者名稱,可以向代理伺服器的管理員索取。
      密碼
      如果代理伺服器需要驗證,則使用代理伺服器密碼來驗證。 如果您不知道密碼,可以向代理伺服器的管理員索取。
      代理伺服器主機名稱或 IP 位址
      代理伺服器的主機名稱或 IP 位址。
      Proxy 伺服器埠號
      您要連接至代理伺服器的網路連接埠。
  9. Object Types* 區段中,指定要抓取的物件類型。

    預設行為是搜索所有物件類型。

    • 對於自訂物件名稱,附加 __c 以符合自訂物件名稱的 Salesforce API 慣例。 For example, to crawl MyCustomObject, specify MyCustomObject__c.
    • Do not specify a comment object, such as FeedComment, CaseComment, IdeaComment, without also specifying the corresponding root object, such as FeedItem, Case, and Idea.
    • 如果指定標籤物件,您也必須指定其母項。 例如,如果沒有同時指定 Account 物件,請勿指定 AccountTag 物件。
  10. If you want the crawler to extract text from images on the site, expand 更多處理設定, and set 應用光學字元識別 (OCR) to On.

    啟用 OCR 且您的文件包含影像時,處理時間會較長。 如需詳細資訊,請參閱 光學字元識別

  11. 按一下完成

集合快速建立。 當資料被加入集合時,需要更多時間來處理。

如果您要檢查進度,請前往 Activity 頁面。 從導覽窗格,按一下 管理收藏集,然後按一下開啟收藏集。