使用 VS Code 开发环境
VS Code 开发环境是一个基于 Spark 的开发环境,使您能够在运行于 Spark 引擎的 Spark 集群上交互式地编程、调试、提交和测试 Spark 应用程序。
它作为 Visual Studio Code 扩展提供,您可以将其安装在本地系统中,以使用 Visual Studio Code访问 Spark IDE。 减少了开发时间,提高了易用性。
准备工作
- 订阅 watsonx.data on Cloud。 确保创建的 Spark 引擎处于运行状态。
- 安装 Visual Studio Code的桌面版本。
- 从 VS Code Marketplace 安装 watsonx.data 扩展。
- 从 Visual Studio Code marketplace 安装 Visual Studio Code 扩展 Remote-SSH。
由于 Spark 实验室具有短暂性,因此必须定期备份存储的数据,以防止在升级或 Spark 主控崩溃时可能丢失数据。
过程
设置 Spark 实验室
-
安装 watsonx.data 扩展。
a. 打开 Visual Studio Code。 单击 扩展。
b. 从 VS Code Marketplace 中浏览以查找 watsonx.data 扩展,并安装该扩展。
c. 您还可以在左侧导航窗口中看到 watsonx.data 图标。 单击该图标。 Welcome to IBM watsonx.data 扩展窗口将打开。
-
在 Welcome to IBM watsonx.data 扩展 窗口中,单击 Manage Connection。 Manage Connection watsonx.data 窗口将打开。
-
配置以下详细信息之一:
-
JSON 输入
-
表格输入
-
-
要配置 JSON 输入,请单击 JSON 输入并指定以下详细信息:
-
要配置表单输入,请单击表单输入并指定以下详细信息:
-
单击“测试并保存”。显示
Retrieved Spark Clusters
消息。 可用的 Spark 引擎显示在 WATSONX.DATA:ENGINES 部分。 -
创建 Spark 实验室。
a. 要创建新的 Spark 实验室,请从 WATSONX.DATA:ENGINES 部分,选择所需的 Spark 集群,然后单击 + 图标(添加集群)。 创建 Spark 实验室窗口打开。 为 Spark 实验室指定一个唯一的名称,并选择 Spark 版本。 默认的 Spark 版本是 3.5。 如果需要,您可以修改其他可选字段。
创建 Spark 实验室时,"
spark.hadoop.wxd.apikey
参数默认配置在 Spark 配置字段中。b. 单击“刷新”,即可在左侧窗口中看到 Spark 实验室。 这是用于应用程序开发的专用 Spark 集群。
c. 点击打开 Spark 实验室窗口,访问文件系统、终端并进行操作。
c. 在 “资源管理器”菜单中,可以查看文件系统、上传文件和查看日志。
要删除已运行的 Spark 实验室,请将鼠标悬停在watsonx.data左侧导航窗格中 Spark 实验室的名称上,然后单击“删除”图标。
开发 Spark 应用程序
在 Spark 实验室中开发 Spark 应用程序。 您可以通过下列其中一种方法来使用 Spark 应用程序:
创建您自己的 Python 文件
-
从 Visual Studio Code,单击 Spark 实验室。 这将打开一个新窗口。
-
在新的 Spark 实验室窗口中,单击“新建文件”。 您会收到新建文件提示,文件类型如下:
- 文本文件:选择创建文本文件。
- Python 文件:选择创建 应用程序。Python
- Jupyter Notebook 选择创建 Jupyter Notebook 文件。
-
选择 Python File。 打开一个新的
.py
文件。 您可以开始处理 Python 文件并稍后保存。您也可以将 Python 应用程序文件拖到资源管理器页面。 该文件将在 Visual Studio Code 应用程序的右窗格中打开。
-
在终端运行以下命令,执行 Python 应用程序。 这样就启动了 Python 会话,你可以在终端上看到确认信息。
python <filename>
创建 Jupyter Notebook
-
从 Visual Studio Code,单击 Spark 实验室。 这将打开一个新窗口。
-
在新的 Spark 实验室窗口中安装
Jupyter
扩展,以便使用 Jupyter Notebooks。 在新 Spark 实验室窗口的扩展菜单中,浏览Jupyter
(也可以在 VS Code Marketplace 中找到)并安装扩展。确保从新的 Spark 实验室窗口安装
Jupyter
扩展。 -
在资源管理器页面,单击新建文件。 您会收到新建文件提示,文件类型如下:
- 文本文件:选择创建文本文件。
- Python 文件:选择创建 应用程序。Python
- Jupyter Notebook 选择创建 Jupyter Notebook 文件。
您也可以输入扩展名为
.ipynb
的文件名,创建新的 Jupyter Notebook 文件,或将现有笔记本拖放到资源管理器页面。 -
选择 Jupyter Notebook. 打开一个新的
.ipynb
文件。 您可以开始处理 Jupyter Notebook 文件并稍后保存。 -
在 Jupyter Notebook 文件中,单击“选择内核”链接。
-
您必须选择 Python 环境来运行文件。
-
选择包含
conda/envs/python/bin/python
的文件路径。 -
Jupyter Notebook 现在可以使用了。 您可以编写代码并按单元执行该代码。
保存文件时,文件路径会自动显示在“另存为”提示符中。 您可以修改路径或单击“确定”保存。