VS Code開発環境での作業
適用範囲 : スパークエンジン グルテン加速スパークエンジン
VS Code開発環境はSparkベースの開発環境で、Sparkエンジン上で動作するSparkクラスタ上でSparkアプリケーションをインタラクティブにプログラム、デバッグ、サブミット、テストすることができます。
これは Visual Studio Code 拡張機能として使用可能であり、ローカル・システムにインストールして、 Visual Studio Codeを使用して Spark IDE にアクセスすることができます。 これにより、開発にかかる時間が短縮され、使いやすさが向上します。
開始前に
- watsonx.data on Cloudのサブスクリプション。 Sparkエンジンを作成し、実行状態になっていることを確認してください。
- デスクトップ・バージョンの Visual Studio Codeをインストールします。
- VS Code Marketplace から watsonx.data 拡張機能をインストールします。
- Visual Studio Code 拡張機能 Remote-SSH を Visual Studio Code marketplace からインストールします。
Sparkラボは本質的にエフェメラルであるため、アップグレード時やSparkマスターのクラッシュ時にデータが失われる可能性を防ぐために、保存されているデータを定期的にバックアップする必要があります。
手順
スパークラボのセットアップ
-
watsonx.data 拡張機能をインストールします。
a. Visual Studio Code を開く。 「 拡張」をクリックします。
b. VS Code Marketplace から watsonx.data 拡張機能を参照し、その拡張機能をインストールします。
c. 左側のナビゲーション・ウィンドウに watsonx.data アイコンも表示されます。 アイコンをクリックします。 Welcome to IBM watsonx.data extension ウィンドウが開きます。
-
Welcome to IBM watsonx.data extension ウィンドウで、Manage Connection をクリックします。 Manage Connection watsonx.data ウィンドウが開きます。
-
以下のいずれかの詳細を設定する:
-
JSON入力
-
フォーム入力
-
-
JSON入力を設定するには、JSON入力をクリックし、以下の詳細を指定します:
-
フォーム入力を設定するには、フォーム入力をクリックし、以下の詳細を指定します:
- watsonx.data コンソールのホストアドレス: watsonx.data のホスト IP アドレスを入力します。 ホストIPアドレスを取得するには、 接続情報の取得を 参照してください。
- 環境タイプ:
SaaS
を選択します。 - CRN: watsonx.data インスタンスの Instance CRN です。 CRNを取得するには、接続情報の取得 を参照してください。
- ユーザー名: APIキーを使用している場合はEメールID、または
<Service-id>-<GUID>
の形式で指定します。 サービスIDとGUIDの生成に関する詳細は、サービスIDの作成 を参照してください。 - API Key: プラットフォームのAPIキーを指定します。 APIキーを生成するには、APIキーの生成 を参照してください。
-
Test & Save をクリックする。
Retrieved Spark Clusters
メッセージが表示される。 利用可能なスパーク・エンジンは WATSONX.DATA:ENGINES セクションに表示されます。 -
Spark ラボを作成します。
a. 新しいSparkラボを作成するには、セクションの WATSONX.DATA:ENGINES セクションから、必要なSparkクラスタを選択し、そのクラスタに対して + アイコン(クラスタの追加)をクリックします。 Create Spark Lab ウィンドウが開きます。 スパークラボの一意の名前を指定し、 スパークバージョンを選択します。 Spark のデフォルトバージョンは 3.5 です。 必要に応じて、他のオプションフィールドを変更することができます。
Sparkラボを作成する際、'
spark.hadoop.wxd.apikey
パラメータはデフォルトで'スパーク構成フィールドに設定されます。b. Refresh をクリックすると、左のウィンドウに Spark ラボが表示されます。 これは、アプリケーション開発用の専用 Spark クラスターです。
c. クリックするとSparkラボのウィンドウが開き、ファイルシステムやターミナルにアクセスして作業できる。
c. エクスプローラーメニューでは、ファイルをアップロードできるファイルシステムを表示したり、ログを表示したりできます。
実行中の Spark ラボを削除するには、watsonx.dataの左ナビゲーション ペインで Spark ラボ名の上にマウスを置き、Delete アイコンをクリックします。
Spark アプリケーションの開発
Spark ラボで Spark アプリケーションを開発します。 Spark アプリケーションは、以下のいずれかの方法で操作できます。
独自の Python ファイルを作成する
-
Visual Studio Code から、Spark ラボをクリックします。 新しいウィンドウが開きます。
-
新しいSpark labウィンドウで、 New Fileをクリックします。 以下のファイルタイプで新規ファイルのプロンプトが表示されます:
- テキストファイル :テキストファイルを作成する場合に選択します。
- Python File: アプリケーションを作成するために選択します。 Python
- Jupyter NotebookJupyter Notebook。
-
Python Fileを選択する。 新しい
.py
ファイルが開きます。 Python ファイルで作業を開始し、後で保存することができます。また、 Python アプリケーションファイルをエクスプローラーページにドラッグすることもできます。 Visual Studio Code アプリケーションの右ペインにファイルが開きます。
-
ターミナルで以下のコマンドを実行し、 Python アプリケーションを実行する。 これで Python セッションが開始され、ターミナルで確認メッセージを見ることができる。
python <filename>
Jupyter ノートブックの作成
-
Visual Studio Code から、Spark ラボをクリックします。 新しいウィンドウが開きます。
-
Jupyterノートブックで作業するために、新しいSparkラボウィンドウに
Jupyter
拡張機能をインストールします。 新しいSparkラボウィンドウの Extensions メニューから、Jupyter
( VS Code Marketplaceからも 見つけることができます)を参照し、拡張機能をインストールします。新しいSparkラボのウィンドウから、
Jupyter
拡張機能をインストールしていることを確認してください。 -
エクスプローラーページで、 新規ファイルをクリックする。 以下のファイルタイプで新規ファイルのプロンプトが表示されます:
- テキストファイル :テキストファイルを作成する場合に選択します。
- Python File: アプリケーションを作成するために選択します。 Python
- Jupyter NotebookJupyter Notebook。
拡張子
.ipynb
を付けてファイル名を入力するか、既存のノートブックをエクスプローラーページにドラッグ・アンド・ドロップして、新しい Jupyter Notebook ファイルを作成することもできます。 -
セレクト Jupyter Notebook. 新しい
.ipynb
ファイルが開きます。 Jupyter Notebook ファイルで作業を開始し、後で保存することができます。 -
Jupyter Notebook ファイルから、 Select Kernel リンクをクリックします。
-
ファイルを実行するには、 Python 環境を選択する必要があります。
-
conda/envs/python/bin/python
を含むファイルパスを選択する。 -
これで Jupyter Notebook。 コードを作成し、セルごとに実行することができます。
ファイルを保存すると、ファイルパスが自動的に名前を付けて保存プロンプトに表示されます。 パスを修正するか、 OKをクリックして保存します。