Exécution du notebook Spark à partir deWatson Studio surCloud Pak for Data

S'applique à: Moteur d'allumage Gluten accéléré Moteur d'allumage

La rubrique fournit la procédure pour exécuter un exemple d'application Spark à l'aide deWatson Studio des cahiers. Le carnet de notes fait partie d'un projet d' Watson Studio s disponible sur le cluster CPD ( IBM Cloud Pak for Data ).

Vous pouvez télécharger et exécuter l'exemple de cas d'utilisation Spark dansWatson Studio pour explorer les fonctions suivantes danswatsonx.data:

Accéder aux tableaux
Chargement des données
Modification du schéma
Effectuer les activités d'entretien des tables

Watson Studio fournit des exemples de carnets de notes qui permettent d'exécuter de petits morceaux de code qui traitent vos données et de visualiser immédiatement les résultats de votre calcul. Le bloc-notes comprend un exemple de cas d'utilisation que les utilisateurs peuvent facilement télécharger et commencer à travailler.

Prérequis

InstallerWatson Studio sur le cluster CPD.
Récupérerwatsonx.data informations d'identification

Obtenez les informations suivantes auprès dewatsonx.data:
- <wxd_hms_endpoint> : point de terminaison Thrift. Par exemple,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Pour obtenir les détails, connectez-vous à votrewatsonx.data Par exemple, cliquez sur le catalogue de données Iceberg depuis le gestionnaire d'infrastructure. Dans l'onglet Détails, copiez l'hôte Metastore, qui est votre <wxd_hms_endpoint>.
- <wxd_hms_username> : c'est par défaut ibmlhapikey.
- <wxd_hms_password> :Hive Mot de passe Metastore (HMS). Obtenez le mot de passe duwatsonx.data administrateur.
Détails du compartiment source : si vous apportez votre propre bloc-notes Jupiter, vous devez exiger les détails suivants de votre compartiment source où résident les données.
- <source_bucket_endpoint> : point de terminaison du bucket source. Par exemple, pour un compartiment source dans la région de Dallas, le point de terminaison ests3.direct.us-south.cloud-object-storage.appdomain.cloud. Utilisez un point de terminaison public.
- <source_bucket_access_key> : Clé d'accès du bucket source.
- <source_bucket_secret_key> : Clé secrète du bucket source.
Téléchargez le exemple de cahier.

Procédure

Pour exécuter l'exemple de notebook Spark, suivez les étapes :

Connectez-vous à votre compte Watson Studio dans le cluster IBM Cloud Pak for Data.
Permet de créer un projet. Pour plus d'informations, voir Créer un projet.
Sélectionnez le projet et ajoutez leJupyter Notebook.
Cliquez sur Nouveaux actifs pour créer un nouvel actif deJupyter Notebook. La page New Assets s'ouvre. Pour plus d'informations, voir Création de cahiers.
Cliquez surÉditeurs de code.
Rechercher et sélectionner Jupyter Notebook éditeur. La page Nouveau carnet s'ouvre.
Spécifiez les détails suivants :
- Nom : saisissez le nom du bloc-notes.
- Sélectionnez la durée d'exécution de Spark. Il doit s'agir de Spark 3.4 avec Python 3.10 ou 3.11. Pour les autres versions de Spark prises en charge, voir Version Spark prise en charge.
Téléchargez et exécutez IBM carnet Spark publié. Suivez ces étapes :
- Dans la fenêtre de gauche, cliquez sur Fichier local.
- Dans le Fichier de bloc-notes champ, faites glisser leIBM Fichier de bloc-notes Spark (fourni parIBM ) depuis votre ordinateur local.
- Mettez à jour les informations d'identification de l' watsonx.data, le compartiment source et les détails du compartiment catalogue dans la section Configuration de l' IBM Analytics Engine dans le notebook.
Cliquez sur Créer. Le bloc-notes téléchargé s'ouvre.
Vous pouvez parcourir l'exécution du notebook cellule par cellule, en sélectionnant Maj-Entrée ou vous pouvez exécuter l'intégralité du bloc-notes en cliquant sur Exécuter tout du menu.