Ausführen eines Spark-Notebooks vonWatson Studio AnCloud Pak for Data

Das Thema beschreibt die Vorgehensweise zum Ausführen einer Spark-Beispielanwendung mithilfe vonWatson Studio Notizbücher. Das Notizbuch befindet sich in einem Watson Studio-Projekt, das im IBM Cloud Pak for Data (CPD)-Cluster verfügbar ist.

Sie können das Spark-Anwendungsfallbeispiel herunterladen und ausführen inWatson Studio um die folgenden Funktionen zu erkunden inwatsonx.data:

Auf Tabellen zugreifen
Daten laden
Schema ändern
Durchführen von Tabellenwartungsaktivitäten

Watson Studio Bietet Beispielnotizbücher, mit denen Sie kleine Codeteile ausführen können, die Ihre Daten verarbeiten und die Ergebnisse Ihrer Berechnung sofort anzeigen können. Das Notebook enthält einen Beispielanwendungsfall, den die Benutzer einfach herunterladen und mit der Arbeit beginnen können.

Voraussetzungen

InstallierenWatson Studio im CPD-Cluster.
Abrufenwatsonx.data Referenzen

Die folgenden Informationen erhalten Sie vonwatsonx.data:
- <wxd_hms_endpoint>: Thrift-Endpunkt. Zum Beispiel,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Um die Details zu erhalten, melden Sie sich bei Ihremwatsonx.data Klicken Sie beispielsweise im Infrastrukturmanager auf den Iceberg-Datenkatalog. Kopieren Sie auf der Registerkarte „Details“ den Metastore-Host, der Ihr <wxd_hms_endpoint> ist.
- <wxd_hms_username> : Dies ist standardmäßig ibmlhapikey.
- <wxd_hms_password> :Hive Metastore (HMS)-Passwort. Das Passwort erhalten Sie von derwatsonx.data Administrator.
Details zum Quell-Bucket: Wenn Sie Ihr eigenes Jupiter-Notebook mitbringen, müssen Sie die folgenden Details Ihres Quell-Buckets anfordern, in dem sich die Daten befinden.
- <source_bucket_endpoint>: Endpunkt des Quell-Buckets. Beispielsweise lautet der Endpunkt für einen Quell-Bucket in der Region Dallass3.direct.us-south.cloud-object-storage.appdomain.cloud. Öffentlichen Endpunkt verwenden.
- <source_bucket_access_key>: Zugriffsschlüssel des Quell-Buckets.
- <source_bucket_secret_key>: Geheimer Schlüssel des Quell-Buckets.
Laden Sie die Beispiel-Notizbuch.

Vorgehensweise

Führen Sie die folgenden Schritte aus, um das Spark-Beispiel-Notebook auszuführen:

Melden Sie sich bei Ihrem Watson Studio-Konto im IBM Cloud Pak for Data-Cluster an.
Erstellen Sie ein Projekt. Weitere Informationen finden Sie unter Erstellen eines Projekts.
Wählen Sie das Projekt aus und fügen Sie dasJupyter Notebook.
Klicken Neue Vermögenswerte zur Schaffung eines neuen Vermögenswerts vonJupyter Notebook. Die Seite Neue Assets wird geöffnet. Weitere Informationen finden Sie unter Erstellen von Notizbüchern.
Klicken Code-Editoren.
Suchen und auswählen Jupyter Notebook Editor. Die Seite Neues Notizbuch wird geöffnet.
Geben Sie folgende Details an:
- Name: Geben Sie den Namen des Notizbuchs ein.
- Wählen Sie die Spark-Laufzeit. Es muss Spark 3.4 mit Python 3.10 oder 3.11 sein. Weitere unterstützte Spark-Versionen finden Sie unter "Unterstützte Spark-Version ".
Hochladen und ausführen IBM veröffentlichtes Spark-Notebook. Führen Sie die folgenden Schritte aus:
- Klicken Sie im linken Fenster auf Lokale Datei.
- Im Notebook-Datei ziehen Sie dasIBM Spark-Notebook-Datei (bereitgestellt vonIBM ) von Ihrem lokalen Computer.
- Aktualisieren Sie die Anmeldedaten für watsonx.data, den Quell-Bucket und die Katalog-Bucket-Details im Abschnitt "IBM Analytics Engine konfigurieren " im Notizbuch.
Klicken Sie auf Erstellen. Das hochgeladene Notizbuch öffnet sich.
Sie können die Ausführung des Notebooks Zelle für Zelle durchgehen, indem Sie Umschalt-Eingabe oder Sie können das gesamte Notebook ausführen, indem Sie auf Alle ausführen aus dem Menü.