Esecuzione del notebook Spark daWatson Studio SUCloud Pak for Data
L'argomento fornisce la procedura per eseguire un'applicazione Spark di esempio utilizzandoWatson Studio i Quaderni. Il notebook fa parte di un progetto di sviluppo di prodotti ( Watson Studio ) disponibile nel cluster CPD ( IBM Cloud Pak for Data ).
È possibile scaricare ed eseguire l'esempio del caso d'uso Spark inWatson Studio per esplorare le seguenti funzioni inwatsonx.data:
- Accesso alle tabelle
- Caricamento dei dati
- Modifica dello schema
- Esecuzione di attività di manutenzione della tabella
Watson Studio fornisce quaderni di esempio che consentono di eseguire piccoli pezzi di codice che elaborano i tuoi dati e visualizzano immediatamente i risultati del tuo calcolo. Il notebook include un caso d'uso di esempio che gli utenti possono scaricare facilmente e su cui iniziare a lavorare.
Prerequisiti
-
InstallareWatson Studio sul cluster CPD.
-
Recuperarewatsonx.data credenziali
Ottieni le seguenti informazioni dawatsonx.data:
-
<wxd_hms_endpoint>: punto finale del risparmio. Per esempio,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Per ottenere i dettagli, accedi al tuowatsonx.data Ad esempio, fare clic sul catalogo dati Iceberg da Gestione infrastruttura. Nella scheda Dettagli, copia l'host Metastore, che è il tuo <wxd_hms_endpoint>.
-
<wxd_hms_username>: questo è per impostazione predefinita
ibmlhapikey
. -
<wxd_hms_password> :Hive Password del metastore (HMS). Ottieni la password dawatsonx.data amministratore.
-
-
Dettagli del bucket di origine: se porti con te il tuo notebook Jupiter, devi richiedere i seguenti dettagli del bucket di origine in cui risiedono i dati.
-
<source_bucket_endpoint>: endpoint del bucket di origine. Ad esempio, per un bucket di origine nella regione di Dallas, l'endpoint ès3.direct.us-south.cloud-object-storage.appdomain.cloud. Utilizza endpoint pubblico.
-
<source_bucket_access_key>: chiave di accesso del bucket di origine.
-
<source_bucket_secret_key>: chiave segreta del bucket di origine.
-
-
Scarica il quaderno campione.
Procedura
Per eseguire il notebook di esempio Spark, attenersi alla procedura seguente:
-
Accedi al tuo account Watson Studio nel cluster IBM Cloud Pak for Data.
-
Crea un progetto. Per ulteriori informazioni, vedere Creazione di un progetto.
-
Seleziona il progetto e aggiungi ilJupyter Notebook.
-
Clic Nuove risorse per creare una nuova risorsa diJupyter Notebook. IL Nuove risorse si apre la pagina. Per ulteriori informazioni, vedere Creazione di quaderni.
-
Clic Editori di codice.
-
Cerca e seleziona Jupyter Notebook editore. Si apre la pagina Nuovo blocco appunti.
-
Specifica i seguenti dettagli:
-
Nome: Digitare il nome del blocco note.
-
Selezionate il runtime Spark. Deve essere Spark 3.4 con Python 3.10 o 3.11. Per altre versioni di Spark supportate, vedere Versione di Spark supportata.
-
-
Carica ed esegui IBM taccuino Spark pubblicato. Segui i passi:
-
Dalla finestra di sinistra, fare clic su Archivio locale.
-
Nel Archivio del taccuino campo, trascina il fileIBM File del notebook Spark (fornito daIBM ) dal computer locale.
-
Aggiorna le credenziali dell' watsonx.data, il bucket di origine e i dettagli del bucket del catalogo nella sezione Configurazione dell' IBM Analytics Engine, nel notebook.
-
-
Fai clic su Crea. Si apre il taccuino caricato.
-
È possibile scorrere l'esecuzione del notebook cella per cella, selezionando Maiusc-Invio oppure puoi eseguire l'intero notebook facendo clic Esegui tutto dal menù.