Esecuzione del notebook Spark daWatson Studio SUCloud Pak for Data

L'argomento fornisce la procedura per eseguire un'applicazione Spark di esempio utilizzandoWatson Studio i Quaderni. Il notebook fa parte di un progetto di sviluppo di prodotti ( Watson Studio ) disponibile nel cluster CPD ( IBM Cloud Pak for Data ).

È possibile scaricare ed eseguire l'esempio del caso d'uso Spark inWatson Studio per esplorare le seguenti funzioni inwatsonx.data:

Accesso alle tabelle
Caricamento dei dati
Modifica dello schema
Esecuzione di attività di manutenzione della tabella

Watson Studio fornisce quaderni di esempio che consentono di eseguire piccoli pezzi di codice che elaborano i tuoi dati e visualizzano immediatamente i risultati del tuo calcolo. Il notebook include un caso d'uso di esempio che gli utenti possono scaricare facilmente e su cui iniziare a lavorare.

Prerequisiti

InstallareWatson Studio sul cluster CPD.
Recuperarewatsonx.data credenziali

Ottieni le seguenti informazioni dawatsonx.data:
- <wxd_hms_endpoint>: punto finale del risparmio. Per esempio,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Per ottenere i dettagli, accedi al tuowatsonx.data Ad esempio, fare clic sul catalogo dati Iceberg da Gestione infrastruttura. Nella scheda Dettagli, copia l'host Metastore, che è il tuo <wxd_hms_endpoint>.
- <wxd_hms_username>: questo è per impostazione predefinita ibmlhapikey.
- <wxd_hms_password> :Hive Password del metastore (HMS). Ottieni la password dawatsonx.data amministratore.
Dettagli del bucket di origine: se porti con te il tuo notebook Jupiter, devi richiedere i seguenti dettagli del bucket di origine in cui risiedono i dati.
- <source_bucket_endpoint>: endpoint del bucket di origine. Ad esempio, per un bucket di origine nella regione di Dallas, l'endpoint ès3.direct.us-south.cloud-object-storage.appdomain.cloud. Utilizza endpoint pubblico.
- <source_bucket_access_key>: chiave di accesso del bucket di origine.
- <source_bucket_secret_key>: chiave segreta del bucket di origine.
Scarica il quaderno campione.

Procedura

Per eseguire il notebook di esempio Spark, attenersi alla procedura seguente:

Accedi al tuo account Watson Studio nel cluster IBM Cloud Pak for Data.
Crea un progetto. Per ulteriori informazioni, vedere Creazione di un progetto.
Seleziona il progetto e aggiungi ilJupyter Notebook.
Clic Nuove risorse per creare una nuova risorsa diJupyter Notebook. IL Nuove risorse si apre la pagina. Per ulteriori informazioni, vedere Creazione di quaderni.
Clic Editori di codice.
Cerca e seleziona Jupyter Notebook editore. Si apre la pagina Nuovo blocco appunti.
Specifica i seguenti dettagli:
- Nome: Digitare il nome del blocco note.
- Selezionate il runtime Spark. Deve essere Spark 3.4 con Python 3.10 o 3.11. Per altre versioni di Spark supportate, vedere Versione di Spark supportata.
Carica ed esegui IBM taccuino Spark pubblicato. Segui i passi:
- Dalla finestra di sinistra, fare clic su Archivio locale.
- Nel Archivio del taccuino campo, trascina il fileIBM File del notebook Spark (fornito daIBM ) dal computer locale.
- Aggiorna le credenziali dell' watsonx.data, il bucket di origine e i dettagli del bucket del catalogo nella sezione Configurazione dell' IBM Analytics Engine, nel notebook.
Fai clic su Crea. Si apre il taccuino caricato.
È possibile scorrere l'esecuzione del notebook cella per cella, selezionando Maiusc-Invio oppure puoi eseguire l'intero notebook facendo clic Esegui tutto dal menù.