運行 Spark 筆記本Watson Studio在Cloud Pak for Data

本主題提供了使用以下命令運行範例 Spark 應用程式的過程：Watson Studio筆記本。筆記型電腦駐留在 Watson Studio 專案中，該專案可使用 IBM Cloud Pak for Data (CPD) 集群。

您可以在以下位置下載並執行 Spark 用例範例：Watson Studio探索以下功能watsonx.data:

Watson Studio提供範例筆記本，允許執行處理資料的小段程式碼，並立即查看計算結果。該筆記本包含一個範例用例，使用者可以輕鬆下載並開始使用。

必要條件

安裝Watson Studio在 CPD 集群上。
取回watsonx.data證書

從以下位置獲取信息watsonx.data:
- <wxd_hms_endpoint>：Thrift 端點。例如，thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683。要獲取詳細信息，請登入您的watsonx.data例如，按一下基礎架構管理員中的 Iceberg 資料目錄。在「詳細資料」標籤中，複製 Metastore 主機，即您的 <wxd_hms_endpoint>。
- <wxd_hms_username>：這是預設的 ibmlhapikey。
- <wxd_hms_密碼>：Hive元存儲（HMS）密碼。從取得密碼watsonx.data行政人員。
來源儲存桶詳細資訊：如果您自備 Jupiter 筆記本，則必須需要資料所在來源儲存桶的以下詳細資訊。
- <source_bucket_endpoint>：來源儲存桶的端點。例如，對於達拉斯區域的來源儲存桶，端點為s3.direct.us-south。cloud-object-storage.appdomain.cloud。使用公共端點。
- <source_bucket_access_key>：來源儲存桶的存取金鑰。
- <source_bucket_secret_key>：來源儲存桶的金鑰。
下載樣本筆記本。

若要執行 Spark 範例筆記本，請執行下列步驟：

登入 IBM Cloud Pak for Data 集群中的 Watson Studio 帳戶。
建立專案。有關更多信息，請參閱創建專案。
選擇項目並新增Jupyter Notebook。
點選新資產創建新資產Jupyter Notebook。畫面上會出現 New Assets（新增資產 ）頁面。有關更多信息，請參閱建立筆記本。
點選程式碼編輯器。
搜尋並選擇 Jupyter Notebook編輯。畫面上會出現 New notebook（新增筆記本）頁面。
指定下列詳細資料：
- 名稱：輸入筆記本的名稱。
- 選擇 Spark 運行時間。它必須是 Spark 3.4 與 Python 3.10 或 3.11。如需其他支援的 Spark 版本，請參閱支援的 Spark 版本。
上傳並運行 IBM發佈 Spark 筆記本。依照步驟：
- 從左側視窗中，按一下本地文件。
- 在裡面筆記本文件字段，拖曳IBMSpark 筆記本文件（由IBM）從您的本機電腦。
- 在筆記型電腦的 Configuring IBM Analytics Engine 區段中更新 watsonx.data 認證、source bucket 和 catalog bucket 詳細資訊。
按一下建立。上傳的筆記本將會開啟。
您可以透過選擇逐個單元地逐步執行筆記本執行 Shift-Enter 或者您可以透過點擊運行整個筆記本運行全部從選單中。