Ejecutando el cuaderno Spark desdeWatson Studio enCloud Pak for Data

El tema proporciona el procedimiento para ejecutar una aplicación Spark de ejemplo mediante el usoWatson Studio cuadernos. El portátil se encuentra en un proyecto de " Watson Studio " que está disponible en un clúster de " IBM Cloud Pak for Data " (CPD).

Puede descargar y ejecutar el ejemplo de caso de uso de Spark enWatson Studio para explorar las siguientes funciones enwatsonx.data:

Accediendo a tablas
Carga de datos
Modificando esquema
Realizar actividades de mantenimiento de mesa.

Watson Studio proporciona cuadernos de notas de muestra que permiten ejecutar pequeños fragmentos de código que procesan sus datos y ver inmediatamente los resultados de su cálculo. El cuaderno incluye un caso de uso de muestra que los usuarios pueden descargar fácilmente y comenzar a trabajar.

Requisitos previos

InstalarWatson Studio en el grupo CPD.
Recuperarwatsonx.data cartas credenciales

Obtenga la siguiente información dewatsonx.data:
- <wxd_hms_endpoint>: punto final de ahorro. Por ejemplo,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Para obtener los detalles, inicie sesión en suwatsonx.data Por ejemplo, haga clic en el catálogo de datos de Iceberg desde el administrador de infraestructura. En la pestaña Detalles, copie el host de Metastore, que es su <wxd_hms_endpoint>.
- <wxd_hms_username>: Esto es por defecto ibmlhapikey.
- <wxd_hms_contraseña> :Hive Contraseña de Metastore (HMS). Obtenga la contraseña delwatsonx.data administrador.
Detalles del depósito de origen: si trae su propia computadora portátil Jupiter, debe solicitar los siguientes detalles del depósito de origen donde residen los datos.
- <source_bucket_endpoint>: punto final del depósito de origen. Por ejemplo, para un depósito de origen en la región de Dallas, el punto final ess3.direct.us-south.cloud-object-storage.appdomain.cloud. Utilice un punto final público.
- <source_bucket_access_key>: clave de acceso del depósito de origen.
- <source_bucket_secret_key>: clave secreta del depósito de origen.
Descargar el cuaderno de muestra.

Procedimiento

Para ejecutar el cuaderno de muestra de Spark, siga los pasos:

Inicie sesión en su cuenta de Watson Studio en el clúster IBM Cloud Pak for Data.
Cree un proyecto. Para más información, ver Creando un proyecto.
Seleccione el proyecto y agregue elJupyter Notebook.
Hacer clic Nuevos activos para crear un nuevo activo deJupyter Notebook. Se abre la página Nuevos activos. Para más información, ver Creando cuadernos.
Hacer clic editores de código.
Busca y selecciona Jupyter Notebook editor. Se abre la página Nueva libreta.
Especifique los detalles siguientes:
- Nombre: escriba el nombre del cuaderno.
- Seleccione el tiempo de ejecución de Spark. Debe ser Spark 3.4 con Python 3.10 o 3.11. Para otras versiones compatibles de Spark, consulte Versión compatible de Spark.
Subir y ejecutar IBM cuaderno Spark publicado. Siga estos pasos:
- Desde la ventana de la izquierda, haga clic en Archivo local.
- En el Archivo de cuaderno campo, arrastre elIBM Archivo de cuaderno Spark (proporcionado porIBM ) desde su computadora local.
- Actualice las credenciales de watsonx.data, el origen del bucket y los detalles del bucket del catálogo en la sección Configuración de IBM Analytics Engine en el cuaderno.
Pulse Crear. Se abre el cuaderno cargado.
Puede recorrer la ejecución del cuaderno celda por celda, seleccionando Mayús-Entrar o puede ejecutar todo el cuaderno haciendo clic Ejecutar todo desde el menú.