IBM Cloud Docs
運行 Spark 筆記本Watson Studio在Cloud Pak for Data

運行 Spark 筆記本Watson Studio在Cloud Pak for Data

本主題提供了使用以下命令運行範例 Spark 應用程式的過程:Watson Studio筆記本。 筆記型電腦駐留在 Watson Studio 專案中,該專案可使用 IBM Cloud Pak for Data (CPD) 集群。

您可以在以下位置下載並執行 Spark 用例範例:Watson Studio探索以下功能watsonx.data:

  • 訪問表
  • 載入資料
  • 修改架構
  • 執行表維護活動

Watson Studio提供範例筆記本,允許執行處理資料的小段程式碼,並立即查看計算結果。 該筆記本包含一個範例用例,使用者可以輕鬆下載並開始使用。

必要條件

  • 安裝Watson Studio在 CPD 集群上。

  • 取回watsonx.data證書

    從以下位置獲取信息watsonx.data:

    • <wxd_hms_endpoint>:Thrift 端點。 例如,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683。 要獲取詳細信息,請登入您的watsonx.data例如,按一下基礎架構管理員中的 Iceberg 資料目錄。 在「詳細資料」標籤中,複製 Metastore 主機,即您的 <wxd_hms_endpoint>。

    • <wxd_hms_username>:這是預設的 ibmlhapikey

    • <wxd_hms_密碼>:Hive元存儲(HMS)密碼。 從取得密碼watsonx.data行政人員。

  • 來源儲存桶詳細資訊:如果您自備 Jupiter 筆記本,則必須需要資料所在來源儲存桶的以下詳細資訊。

    • <source_bucket_endpoint>:來源儲存桶的端點。 例如,對於達拉斯區域的來源儲存桶,端點為s3.direct.us-south。cloud-object-storage.appdomain.cloud。 使用公共端點。

    • <source_bucket_access_key>:來源儲存桶的存取金鑰。

    • <source_bucket_secret_key>:來源儲存桶的金鑰。

  • 下載 樣本筆記本

程序

若要執行 Spark 範例筆記本,請執行下列步驟:

  1. 登入 IBM Cloud Pak for Data 集群中的 Watson Studio 帳戶。

  2. 建立專案。 有關更多信息,請參閱 創建專案

  3. 選擇項目並新增Jupyter Notebook。

  4. 點選新資產創建新資產Jupyter Notebook。 畫面上會出現 New Assets(新增資產 )頁面。 有關更多信息,請參閱 建立筆記本

  5. 點選程式碼編輯器

  6. 搜尋並選擇 Jupyter Notebook編輯。 畫面上會出現 New notebook(新增筆記本)頁面。

  7. 指定下列詳細資料:

    • 名稱:輸入筆記本的名稱。

    • 選擇 Spark 運行時間。 它必須是 Spark 3.4 與 Python 3.10 或 3.11。 如需其他支援的 Spark 版本,請參閱 支援的 Spark 版本

  8. 上傳並運行 IBM發佈 Spark 筆記本。 依照步驟:

    • 從左側視窗中,按一下本地文件

    • 在裡面筆記本文件字段,拖曳IBMSpark 筆記本文件(由IBM)從您的本機電腦。

    • 在筆記型電腦的 Configuring IBM Analytics Engine 區段中更新 watsonx.data 認證、source bucket 和 catalog bucket 詳細資訊。

  9. 按一下建立。 上傳的筆記本將會開啟。

  10. 您可以透過選擇逐個單元地逐步執行筆記本執行 Shift-Enter 或者您可以透過點擊運行整個筆記本運行全部從選單中。