運行 Spark 筆記本Watson Studio在Cloud Pak for Data
本主題提供了使用以下命令運行範例 Spark 應用程式的過程:Watson Studio筆記本。 筆記型電腦駐留在 Watson Studio 專案中,該專案可使用 IBM Cloud Pak for Data (CPD) 集群。
您可以在以下位置下載並執行 Spark 用例範例:Watson Studio探索以下功能watsonx.data:
- 訪問表
- 載入資料
- 修改架構
- 執行表維護活動
Watson Studio提供範例筆記本,允許執行處理資料的小段程式碼,並立即查看計算結果。 該筆記本包含一個範例用例,使用者可以輕鬆下載並開始使用。
必要條件
-
安裝Watson Studio在 CPD 集群上。
-
取回watsonx.data證書
從以下位置獲取信息watsonx.data:
-
<wxd_hms_endpoint>:Thrift 端點。 例如,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683。 要獲取詳細信息,請登入您的watsonx.data例如,按一下基礎架構管理員中的 Iceberg 資料目錄。 在「詳細資料」標籤中,複製 Metastore 主機,即您的 <wxd_hms_endpoint>。
-
<wxd_hms_username>:這是預設的
ibmlhapikey
。 -
<wxd_hms_密碼>:Hive元存儲(HMS)密碼。 從取得密碼watsonx.data行政人員。
-
-
來源儲存桶詳細資訊:如果您自備 Jupiter 筆記本,則必須需要資料所在來源儲存桶的以下詳細資訊。
-
<source_bucket_endpoint>:來源儲存桶的端點。 例如,對於達拉斯區域的來源儲存桶,端點為s3.direct.us-south。cloud-object-storage.appdomain.cloud。 使用公共端點。
-
<source_bucket_access_key>:來源儲存桶的存取金鑰。
-
<source_bucket_secret_key>:來源儲存桶的金鑰。
-
-
下載 樣本筆記本。
程序
若要執行 Spark 範例筆記本,請執行下列步驟:
-
登入 IBM Cloud Pak for Data 集群中的 Watson Studio 帳戶。
-
建立專案。 有關更多信息,請參閱 創建專案。
-
選擇項目並新增Jupyter Notebook。
-
點選新資產創建新資產Jupyter Notebook。 畫面上會出現 New Assets(新增資產 )頁面。 有關更多信息,請參閱 建立筆記本。
-
點選程式碼編輯器。
-
搜尋並選擇 Jupyter Notebook編輯。 畫面上會出現 New notebook(新增筆記本)頁面。
-
指定下列詳細資料:
-
名稱:輸入筆記本的名稱。
-
選擇 Spark 運行時間。 它必須是 Spark 3.4 與 Python 3.10 或 3.11。 如需其他支援的 Spark 版本,請參閱 支援的 Spark 版本。
-
-
上傳並運行 IBM發佈 Spark 筆記本。 依照步驟:
-
從左側視窗中,按一下本地文件。
-
在裡面筆記本文件字段,拖曳IBMSpark 筆記本文件(由IBM)從您的本機電腦。
-
在筆記型電腦的 Configuring IBM Analytics Engine 區段中更新 watsonx.data 認證、source bucket 和 catalog bucket 詳細資訊。
-
-
按一下建立。 上傳的筆記本將會開啟。
-
您可以透過選擇逐個單元地逐步執行筆記本執行 Shift-Enter 或者您可以透過點擊運行整個筆記本運行全部從選單中。