IBM Cloud Docs
运行 Spark 笔记本Watson Studio在Cloud Pak for Data

运行 Spark 笔记本Watson Studio在Cloud Pak for Data

本主题提供了使用以下方法运行示例 Spark 应用程序的过程Watson Studio笔记本。 笔记本位于一个 Watson Studio 项目中,可通过 IBM Cloud Pak for Data (CPD)集群访问。

您可以下载并运行 Spark 用例示例Watson Studio探索以下功能watsonx.data:

  • 访问表
  • 装入数据
  • 修改架构
  • 执行表维护活动

Watson Studio提供示例笔记本,允许运行处理数据的小片段代码,并立即查看计算结果。 笔记本中包含一个示例用例,用户可以轻松下载并开始使用。

先决条件

  • 安装Watson Studio在 CPD 集群上。

  • 取回watsonx.data证书

    获取以下信息watsonx.data:

    • <wxd_hms_endpoint>:Thrift 端点。 例如,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683。 要获取详细信息,请登录您的watsonx.data例如,单击基础设施管理器中的 Iceberg 数据目录。 在“详细信息”选项卡中,复制 Metastore 主机,即您的 <wxd_hms_endpoint>。

    • <wxd_hms_username>:这是默认的 ibmlhapikey

    • <wxd_hms_密码>:HiveMetastore(HMS)密码。 获取密码watsonx.data行政人员。

  • 源存储桶详细信息:如果您携带自己的 Jupiter 笔记本,则必须获取数据所在的源存储桶的以下详细信息。

    • <source_bucket_endpoint>:源存储桶的端点。 例如,对于达拉斯地区的源存储桶,端点是s3.direct.us-south。cloud-object-storage.appdomain.cloud。 使用公共端点。

    • <source_bucket_access_key>:源存储桶的访问密钥。

    • <source_bucket_secret_key>:源存储桶的密钥。

  • 下载 示例笔记本

过程

要运行 Spark 示例笔记本,请按照以下步骤操作:

  1. 登录您的 IBM Cloud Pak for Data 集群中的 Watson Studio 账户。

  2. 创建一个项目。 有关详细信息,请参阅For more information, see 创建项目

  3. 选择项目并添加Jupyter Notebook。

  4. 点击新资产创造新的资产Jupyter Notebook。 新资产页面打开。 有关详细信息,请参阅For more information, see 创建笔记本

  5. 点击代码编辑器

  6. 搜索并选择 Jupyter Notebook编辑。 打开“新建笔记本”页面。

  7. 指定以下详细信息:

    • 名称:输入笔记本的名称。

    • 选择 Spark 运行时。 必须是Spark 3.4,并带有 Python 3.10 或 3.11。 有关其他受支持的Spark版本,请参阅 受支持的Spark版本

  8. 上传并运行 IBM已发布 Spark 笔记本。 按照步骤:

    • 在左侧窗口中,单击本地文件

    • 在里面笔记本文件字段,拖动IBM Spark 笔记本文件(由IBM ) 从您的本地计算机。

    • 在笔记本的“配置 IBM Analytics Engine”部分更新 watsonx.data 凭证、源存储桶和目录存储桶的详细信息。

  9. 单击创建。 已上传的笔记本将打开。

  10. 您可以通过选择 Shift-Enter 或者,您可以通过单击运行整个笔记本全部运行从菜单中。