使用 VS Code 开发环境

适用于：火花机面筋加速火花机

VS Code 开发环境是一个基于 Spark 的开发环境，使您能够在运行于 Spark 引擎的 Spark 集群上交互式地编程、调试、提交和测试 Spark 应用程序。

它作为 Visual Studio Code 扩展提供，您可以将其安装在本地系统中，以使用 Visual Studio Code访问 Spark IDE。减少了开发时间，提高了易用性。

准备工作

订阅 watsonx.data on Cloud。确保创建的 Spark 引擎处于运行状态。
安装 Visual Studio Code的桌面版本。
从 VS Code Marketplace 安装 watsonx.data 扩展。
从 Visual Studio Code marketplace 安装 Visual Studio Code 扩展 Remote-SSH。

由于 Spark 实验室具有短暂性，因此必须定期备份存储的数据，以防止在升级或 Spark 主控崩溃时可能丢失数据。

过程

设置 Spark 实验室

安装 watsonx.data 扩展。

a. 打开 Visual Studio Code。单击扩展。

b. 从 VS Code Marketplace 中浏览以查找 watsonx.data 扩展，并安装该扩展。

c. 您还可以在左侧导航窗口中看到 watsonx.data 图标。单击该图标。 Welcome to IBM watsonx.data 扩展窗口将打开。
在 Welcome to IBM watsonx.data 扩展 窗口中，单击 Manage Connection。 Manage Connection watsonx.data 窗口将打开。
配置以下详细信息之一：
- JSON 输入
- 表格输入
要配置 JSON 输入，请单击 JSON 输入并指定以下详细信息：
- API 密钥：提供平台 API 密钥。要生成 API 密钥，请参阅生成 API 密钥。
- Connection JSON：从 watsonx.data 用户界面提供连接详细信息。要做到这一点：
  1. 登录watsonx.data页面。
  2. 从导航菜单中单击连接信息。
  3. 点击 VS 代码。复制 VS 代码连接配置字段中的配置，并将其用作连接 JSON 字段值。更多信息，请参阅获取连接信息。
要配置表单输入，请单击表单输入并指定以下详细信息：
- watsonx.data 控制台的主机地址：提供 watsonx.data 安装的主机 IP 地址。要检索主机 IP 地址，请参阅获取连接信息。
- 环境类型：选择 SaaS。
- CRN：watsonx.data实例的 实例 CRN。要检索 CRN，请参阅获取连接信息。
- 用户名：如果您使用的是 API 密钥，则您的电子邮件标识符应为 <Service-id>-<GUID> 格式。有关生成服务 ID 和 GUID 的更多信息，请参阅创建服务 ID。
- API 密钥：提供平台 API 密钥。要生成 API 密钥，请参阅生成 API 密钥。
单击“测试并保存”。显示 Retrieved Spark Clusters 消息。可用的 Spark 引擎显示在 WATSONX.DATA:ENGINES 部分。
创建 Spark 实验室。

a. 要创建新的 Spark 实验室，请从 WATSONX.DATA:ENGINES 部分，选择所需的 Spark 集群，然后单击 + 图标（添加集群）。 创建 Spark 实验室窗口打开。为 Spark 实验室指定一个唯一的名称，并选择 Spark 版本。默认的 Spark 版本是 3.5。如果需要，您可以修改其他可选字段。

创建 Spark 实验室时，"spark.hadoop.wxd.apikey 参数默认配置在 Spark 配置字段中。

b. 单击“刷新”，即可在左侧窗口中看到 Spark 实验室。这是用于应用程序开发的专用 Spark 集群。

c. 点击打开 Spark 实验室窗口，访问文件系统、终端并进行操作。

c. 在 “资源管理器”菜单中，可以查看文件系统、上传文件和查看日志。

要删除已运行的 Spark 实验室，请将鼠标悬停在watsonx.data左侧导航窗格中 Spark 实验室的名称上，然后单击“删除”图标。

开发 Spark 应用程序

在 Spark 实验室中开发 Spark 应用程序。您可以通过下列其中一种方法来使用 Spark 应用程序:

创建您自己的 Python 文件
创建 Jupyter Notebook

创建您自己的 Python 文件

从 Visual Studio Code，单击 Spark 实验室。这将打开一个新窗口。
在新的 Spark 实验室窗口中，单击“新建文件”。您会收到新建文件提示，文件类型如下：
- 文本文件：选择创建文本文件。
- Python 文件：选择创建应用程序。Python
- Jupyter Notebook 选择创建 Jupyter Notebook 文件。
选择 Python File。打开一个新的 .py 文件。您可以开始处理 Python 文件并稍后保存。

您也可以将 Python 应用程序文件拖到资源管理器页面。该文件将在 Visual Studio Code 应用程序的右窗格中打开。
在终端运行以下命令，执行 Python 应用程序。这样就启动了 Python 会话，你可以在终端上看到确认信息。
```
python <filename>
```

创建 Jupyter Notebook

从 Visual Studio Code，单击 Spark 实验室。这将打开一个新窗口。
在新的 Spark 实验室窗口中安装 Jupyter 扩展，以便使用 Jupyter Notebooks。在新 Spark 实验室窗口的扩展菜单中，浏览 Jupyter （也可以在 VS Code Marketplace 中找到）并安装扩展。

确保从新的 Spark 实验室窗口安装 Jupyter 扩展。
在资源管理器页面，单击新建文件。您会收到新建文件提示，文件类型如下：
- 文本文件：选择创建文本文件。
- Python 文件：选择创建应用程序。Python
- Jupyter Notebook 选择创建 Jupyter Notebook 文件。
您也可以输入扩展名为 .ipynb 的文件名，创建新的 Jupyter Notebook 文件，或将现有笔记本拖放到资源管理器页面。
选择 Jupyter Notebook. 打开一个新的 .ipynb 文件。您可以开始处理 Jupyter Notebook 文件并稍后保存。
在 Jupyter Notebook 文件中，单击“选择内核”链接。
您必须选择 Python 环境来运行文件。
选择包含 conda/envs/python/bin/python 的文件路径。
Jupyter Notebook 现在可以使用了。您可以编写代码并按单元执行该代码。

保存文件时，文件路径会自动显示在“另存为”提示符中。您可以修改路径或单击“确定”保存。