运行 Spark 笔记本Watson Studio在Cloud Pak for Data
本主题提供了使用以下方法运行示例 Spark 应用程序的过程Watson Studio笔记本。 笔记本位于一个 Watson Studio 项目中,可通过 IBM Cloud Pak for Data (CPD)集群访问。
您可以下载并运行 Spark 用例示例Watson Studio探索以下功能watsonx.data:
- 访问表
- 装入数据
- 修改架构
- 执行表维护活动
Watson Studio提供示例笔记本,允许运行处理数据的小片段代码,并立即查看计算结果。 笔记本中包含一个示例用例,用户可以轻松下载并开始使用。
先决条件
-
安装Watson Studio在 CPD 集群上。
-
取回watsonx.data证书
获取以下信息watsonx.data:
-
<wxd_hms_endpoint>:Thrift 端点。 例如,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683。 要获取详细信息,请登录您的watsonx.data例如,单击基础设施管理器中的 Iceberg 数据目录。 在“详细信息”选项卡中,复制 Metastore 主机,即您的 <wxd_hms_endpoint>。
-
<wxd_hms_username>:这是默认的
ibmlhapikey
。 -
<wxd_hms_密码>:HiveMetastore(HMS)密码。 获取密码watsonx.data行政人员。
-
-
源存储桶详细信息:如果您携带自己的 Jupiter 笔记本,则必须获取数据所在的源存储桶的以下详细信息。
-
<source_bucket_endpoint>:源存储桶的端点。 例如,对于达拉斯地区的源存储桶,端点是s3.direct.us-south。cloud-object-storage.appdomain.cloud。 使用公共端点。
-
<source_bucket_access_key>:源存储桶的访问密钥。
-
<source_bucket_secret_key>:源存储桶的密钥。
-
-
下载 示例笔记本。
过程
要运行 Spark 示例笔记本,请按照以下步骤操作:
-
登录您的 IBM Cloud Pak for Data 集群中的 Watson Studio 账户。
-
创建一个项目。 有关详细信息,请参阅For more information, see 创建项目。
-
选择项目并添加Jupyter Notebook。
-
点击新资产创造新的资产Jupyter Notebook。 新资产页面打开。 有关详细信息,请参阅For more information, see 创建笔记本。
-
点击代码编辑器。
-
搜索并选择 Jupyter Notebook编辑。 打开“新建笔记本”页面。
-
指定以下详细信息:
-
名称:输入笔记本的名称。
-
选择 Spark 运行时。 必须是Spark 3.4,并带有 Python 3.10 或 3.11。 有关其他受支持的Spark版本,请参阅 受支持的Spark版本。
-
-
上传并运行 IBM已发布 Spark 笔记本。 按照步骤:
-
在左侧窗口中,单击本地文件。
-
在里面笔记本文件字段,拖动IBM Spark 笔记本文件(由IBM ) 从您的本地计算机。
-
在笔记本的“配置 IBM Analytics Engine”部分更新 watsonx.data 凭证、源存储桶和目录存储桶的详细信息。
-
-
单击创建。 已上传的笔记本将打开。
-
您可以通过选择 Shift-Enter 或者,您可以通过单击运行整个笔记本全部运行从菜单中。