Ingesta de datos mediante Spark a través de la consola web
Puede ingestar datos en IBM® watsonx.data a través de la consola web. La ingestión a través de la consola web sólo es posible utilizando el motor Spark.
Antes de empezar
- Añadir y registrar Spark. Consulte Aprovisionamiento de un motor Spark.
- Para la tabla de destino, se requiere un catálogo Iceberg activo conectado a un motor Presto en ejecución. Véase Añadir un par almacenamiento-catálogo.
Writer
El almacén debe tener acceso a Internet como mínimo. - Para ingerir datos, debe tener como mínimo un acceso de administrador (
User
) al motor de Presto y al motor de Spark. - Para obtener datos, debe tener como mínimo un acceso de administrador (
User
) con una política de datos para catálogos. Consulte Gestión de las normas de la política de datos. - Añade almacenamiento remoto para los archivos de datos de origen. Véase Añadir un par almacenamiento-catálogo.
- Añadir fuentes de datos para archivos de datos de origen. Véase Añadir un par fuente de datos-catálogo.
- Opcionalmente, puede crear un esquema en el catálogo para la tabla de destino. Consulte Creación de esquemas.
- Opcionalmente, también puede crear una tabla de destino en el esquema. Consulte Creación de tablas.
- Para que tu aplicación Spark y la ingesta funcionen con el catálogo y el almacenamiento watsonx.data, debes tener los roles '
MetastoreAdmin
, y 'DataAccess
en el acceso al servicio y el rol 'Administrator
' en el acceso a la plataforma, consulta Asignación de acceso a los servicios de gestión de cuentas y Gestión de roles y privilegios.
Ingesta de datos del sistema local
-
Inicie una sesión en la consola de IBM® watsonx.data.
-
En el menú de navegación, seleccione Administrador de datos y haga clic en Ingestar datos.
-
Seleccione una de las siguientes opciones de almacenamiento para pasar a la página siguiente:
a. Sistema local: Para seleccionar archivos de su sistema local.
b. Almacenamientos: Para seleccionar archivos remotos de su almacenamiento compatible S3 conectado.
c. Fuentes de datos: Para seleccionar archivos de sus fuentes de datos conectadas.
-
Si seleccionó Sistema local, complete los siguientes pasos:
i. Arrastre un archivo a la casilla o haga clic para cargarlo. Los archivos seleccionados se enumeran en la sección Archivo(s) seleccionado(s).
Puede añadir varios archivos del mismo tipo. Las opciones de tipo de archivo disponibles son CSV, Parquet, JSON, ORC y AVRO. El tamaño máximo acumulado del archivo no debe superar los 2 GB.
ii. Seleccione un cubo de almacenamiento transitorio del menú desplegable para almacenar temporalmente los archivos cargados.
Los archivos se eliminan automáticamente de este almacenamiento una vez que se completa o falla la ingesta. Esto solo está disponible cuando se ingieren datos de un sistema local.
iii. Haga clic en Siguiente.
iv. En la página Ingest data: Local, puede ver los detalles de los archivos de origen y cargar más archivos si es necesario.
Puede eliminar archivos individuales y también puede eliminar todos los archivos utilizando la opción Deseleccionar todo.
v. Haga clic en el icono de vista previa del archivo específico que desee previsualizar. Esta acción abre una nueva ventana de previsualización del fichero que muestra las tablas del fichero seleccionado.
vi. Haga clic en el botón Editar para editar los encabezados de columna.
vii. Modifique las cabeceras de las columnas y los tipos de datos de las columnas según sea necesario para realizar cualquier transformación. Una selección incorrecta del tipo de datos puede dar lugar a un error de ingestión.
viii. Para los archivos CSV, puede seleccionar los atributos Avanzados para personalizar la interpretación del archivo para lo siguiente:
Cabecera en la primera fila: Seleccione esta opción si el archivo CSV tiene una fila de cabecera que contiene nombres de columnas.
Delimitador de columna: Especifique el carácter que se utiliza para separar columnas en el archivo CSV.
Codificación del archivo: Elija la codificación de caracteres utilizada en el archivo CSV.
Delimitador de filas: Especifique el carácter que se utiliza para separar filas en el archivo CSV.
Carácter de escape: Defina el carácter utilizado para escapar caracteres especiales dentro del archivo CSV.
ix. Puede utilizar Cancelar edición o Restablecer para revertir los encabezados de columna a su estado original, si necesita deshacer sus cambios.
x. Haga clic en Guardar para guardar los cambios.
xi. En la sección Tabla de destino, seleccione el catálogo de destino en la lista Seleccionar catálogo. El catálogo seleccionado debe estar activo para realizar un trabajo de ingestión.
xii. Elija una de las opciones de esquema:
-
Esquema existente: Para ingestar datos de origen en un esquema existente. Busque o seleccione un esquema de destino que aparezca en el menú desplegable Seleccionar esquema.
-
Nuevo esquema: Introduzca un nuevo nombre de esquema en el campo Crear un nuevo esquema haciendo clic explícitamente en la opción Crear para crear un nuevo esquema a partir de los datos de origen.
xiii. Seleccione las opciones de tabla de destino correspondientes en función de la selección anterior.
-
Tabla existente: Para ingestar datos de origen en una tabla existente. Busque o seleccione una tabla de destino que aparezca en el menú desplegable Seleccionar tabla.
-
Nueva tabla: Introduzca un nuevo nombre de tabla de destino en el campo Crear una nueva tabla haciendo clic explícitamente en la opción Crear para crear una nueva tabla a partir de los datos de origen.
xiv. Si es necesario, modifique el ID de trabajo de ingestión generado automáticamente en los detalles del trabajo.
xv. Seleccione el motor Spark en la lista Seleccionar motor. Aquí se enumeran los motores Spark registrados.
Todos los archivos de tamaño inferior a 2 MB seleccionarán automáticamente la ingestión Lite y todos los archivos de tamaño superior a 2 MB seleccionarán automáticamente uno de los motores Spark de la lista desplegable Seleccionar motor para ejecutar el trabajo de ingestión.
La ingestión Lite sólo está disponible cuando se ingieren datos de un sistema Local.
xvi. Seleccione un tamaño de Trabajo predefinido entre las opciones de la lista si el motor seleccionado es un motor Spark. El tamaño del trabajo se ajusta automáticamente a la opción preferida en función del tamaño del archivo. El usuario también puede seleccionar una de las siguientes opciones.
Local:
Configuración local. Configuración Valor Número de ejecutores 1 Núcleos de ejecutor 2 de vCPU Memoria de ejecutor 4 GB Pequeño:
Configuración pequeña. Configuración Valor Memoria del controlador 2 GB Núcleos de controlador 1 de vCPU Número de ejecutores 1 Núcleos de ejecutor 1 de vCPU Memoria de ejecutor 2 GB Medio:
Configuración media. Configuración Valor Memoria del controlador 4 GB Núcleos de controlador 2 de vCPU Número de ejecutores 2 Núcleos de ejecutor 2 de vCPU Memoria de ejecutor 4 GB Grande:
Configuración grande. Configuración Valor Memoria del controlador 8 GB Núcleos de controlador 4 de vCPU Número de ejecutores 4 Núcleos de ejecutor 4 de vCPU Memoria de ejecutor 8 GB xvii. Haga clic en Vista previa para ver la tabla de salida final que se mostrará en el Gestor de datos.
Si la tabla de destino seleccionada es una tabla existente, los datos se añaden o sobrescriben con los nuevos datos ingestados. La acción por defecto es añadir
xviii. Haga clic en Editar para modificar los encabezados de columna y los tipos de datos de columna según sea necesario para realizar cualquier transformación para la tabla de destino. También puede revertir los cambios si no es necesario.
xix. Pulse Ingerir. El trabajo de ingestión enviado se puede encontrar en la pestaña Historial de ingestión de la página Administrador de datos.
Se activa un mensaje de notificación Abrir detalles del trabajo para navegar a los detalles del trabajo de ingestión.
Puede cancelar un trabajo de ingestión haciendo clic en el icono de cancelación situado junto al trabajo de ingestión en la pestaña Historial de ingestión o haciendo clic en Cancelar trabajo en la página de detalles del trabajo de ingestión.
xx. Haga clic en el ID de registro de trabajo requerido de un trabajo de ingesta en la pestaña Historial de ingesta para obtener los detalles y registros.
xxi. Haga clic en el enlace Destino de un trabajo de ingesta en la pestaña Historial de ingesta para navegar a la tabla de ingesta en la página Administrador de datos.
-
Ingesta de datos desde almacenamiento remoto
-
Si ha seleccionado Almacenes, complete los siguientes pasos desde la página Ingest data: Almacenes:
i. Seleccione un cubo de almacenamiento en el desplegable Seleccionar almacenamiento.
También puedes añadir un nuevo cubo de almacenamiento haciendo clic en el icono Añadir +. Para obtener más información, consulte Añadir almacenamiento. Puede crear una conexión de almacenamiento permanente accesible a todos los usuarios en función de los permisos. En la página del administrador de infraestructuras seleccionando Crear conexión permanente. También puede crear una conexión de almacenamiento temporal accesible durante el periodo de tiempo que dure la ingesta seleccionando Crear conexión temporal. Este almacenamiento temporal no estará disponible en la página del administrador de infraestructuras ni podrán acceder a él otros usuarios.
ii. Seleccione el tipo de archivo necesario en función de los datos de origen. Las opciones disponibles son CSV, Parquet, JSON, ORC y AVRO.
iii. Seleccione los archivos a ingestar en la pestaña Todos los archivos. Los archivos seleccionados aparecen en la pestaña Archivos seleccionados. Puede ver los detalles de los archivos seleccionados en la sección Detalles del archivo.
Puede añadir varios archivos del mismo tipo. El tamaño máximo del archivo debe ser de 500 MB.
Puede eliminar archivos individuales y también eliminar todos los archivos mediante la opción Deseleccionar todo.
iv. Haga clic en el icono de vista previa del archivo específico que desee previsualizar. Esta acción abre una nueva ventana de previsualización del fichero que muestra las tablas del fichero seleccionado.
v. Haga clic en el botón Editar para editar los encabezados de columna.
vi. Modifique las cabeceras de las columnas y los tipos de datos según sea necesario para realizar cualquier transformación.
vii. Puede utilizar Cancelar edición o Restablecer para revertir los encabezados de columna a su estado original, si necesita deshacer sus cambios.
viii En el caso de los archivos CSV, puede seleccionar los atributos Avanzados para personalizar la interpretación del archivo para lo siguiente:
Cabecera en la primera fila: Seleccione esta opción si el archivo CSV tiene una fila de cabecera que contiene nombres de columnas.
Delimitador de columna: Especifique el carácter que se utiliza para separar columnas en el archivo CSV.
Codificación del archivo: Elija la codificación de caracteres utilizada en el archivo CSV.
Delimitador de filas: Especifique el carácter que se utiliza para separar filas en el archivo CSV.
Carácter de escape: Defina el carácter utilizado para escapar caracteres especiales dentro del archivo CSV.
ix. Haga clic en Guardar para guardar los cambios.
x. En la ventana Tabla de destino, seleccione el catálogo de destino en la lista Seleccionar catálogo. El catálogo seleccionado debe estar activo para realizar un trabajo de ingestión.
xi. Elija una de las opciones de esquema:
-
Esquema existente: Para ingestar datos de origen en un esquema existente. Busque o seleccione un esquema de destino que aparezca en el menú desplegable Seleccionar esquema.
-
Nuevo esquema: Introduzca un nuevo nombre de esquema en el campo Crear un nuevo esquema haciendo clic explícitamente en la opción Crear para crear un nuevo esquema a partir de los datos de origen.
xii. Seleccione las opciones de tabla de destino correspondientes en función del esquema seleccionado.
-
Tabla existente: Para ingestar datos de origen en una tabla existente. Busque o seleccione una tabla de destino que aparezca en el menú desplegable Seleccionar tabla.
-
Nueva tabla: Introduzca un nuevo nombre de tabla de destino en el campo Crear una nueva tabla haciendo clic explícitamente en la opción Crear para crear una nueva tabla a partir de los datos de origen.
xiii. Si es necesario, modifique el ID de trabajo de ingestión generado automáticamente en Detalles del trabajo.
xiv. Seleccione el motor Spark en la lista Seleccionar motor. Aquí se enumeran los motores Spark registrados.
xv. Seleccione un tamaño de Trabajo predefinido entre las opciones de la lista. El tamaño del trabajo se ajusta automáticamente a la opción preferida en función del tamaño del archivo. El usuario también puede seleccionar una de las siguientes opciones.
Pequeño:
Configuración pequeña. Configuración Valor Memoria del controlador 2 GB Núcleos de controlador 1 de vCPU Número de ejecutores 1 Núcleos de ejecutor 1 de vCPU Memoria de ejecutor 2 GB Medio:
Configuración media. Configuración Valor Memoria del controlador 4 GB Núcleos de controlador 2 de vCPU Número de ejecutores 2 Núcleos de ejecutor 2 de vCPU Memoria de ejecutor 4 GB Grande:
Configuración grande. Configuración Valor Memoria del controlador 8 GB Núcleos de controlador 4 de vCPU Número de ejecutores 4 Núcleos de ejecutor 4 de vCPU Memoria de ejecutor 8 GB xvi.Click Vista previa para ver la tabla de salida final que se mostrará en el Gestor de datos.
Si la tabla de destino seleccionada es una tabla existente, los datos se añaden o sobrescriben con los nuevos datos ingestados. La acción por defecto es añadir
xvii. Haga clic en Editar para modificar los encabezados de columna y los tipos de datos de columna según sea necesario para realizar cualquier transformación para la tabla de destino. También puede revertir los cambios si no es necesario.
xviii. Haga clic en Ingerir. El trabajo de ingestión enviado se puede encontrar en la pestaña Historial de ingestión de la página Administrador de datos.
Se activa un mensaje de notificación Abrir detalles del trabajo para navegar a los detalles del trabajo de ingestión.
Puede cancelar un trabajo de ingestión haciendo clic en el icono de cancelación situado junto al trabajo de ingestión en la pestaña Historial de ingestión o haciendo clic en Cancelar trabajo en la página de detalles del trabajo de ingestión.
xix. Haga clic en el ID de registro de trabajo requerido de un trabajo de ingesta en la pestaña Historial de ingesta para obtener los detalles y registros.
xx. Haga clic en el enlace Destino de un trabajo de ingestión en la pestaña Historial de ingestión para navegar a la tabla de ingestión en la página Administrador de datos.
-
Ingesta de datos de bases de datos
-
Si ha seleccionado Bases de datos, complete los siguientes pasos desde la página Ingest data: Bases de datos:
i. Seleccione una base de datos en el desplegable Seleccionar base de datos.
También puede añadir una nueva base de datos haciendo clic en el icono Añadir +. Para obtener más información, consulte Añadir base de datos. Puede crear una conexión permanente a la base de datos accesible a todos los usuarios en función de los permisos en la página del gestor de infraestructuras seleccionando Crear conexión permanente. También puede crear una conexión temporal a la base de datos a la que pueda acceder durante el tiempo que dure la ingesta seleccionando Crear conexión temporal. Esta base de datos temporal no estará disponible en la página del administrador de infraestructuras ni podrán acceder a ella otros usuarios.
ii. Seleccione un esquema en la ventana Esquemas.
iii. Seleccione una tabla que desee ingestar en la sección Examinar tabla.
iv. En la ventana Tabla de destino, seleccione el catálogo de destino en la lista Seleccionar catálogo. El catálogo seleccionado debe estar activo para realizar un trabajo de ingestión.
v. Elija una de las opciones de esquema:
-
Esquema existente: Para ingestar datos de origen en un esquema existente. Busque o seleccione un esquema de destino que aparezca en el menú desplegable Seleccionar esquema.
-
Nuevo esquema: Introduzca un nuevo nombre de esquema en el campo Crear un nuevo esquema haciendo clic explícitamente en la opción Crear para crear un nuevo esquema a partir de los datos de origen.
vi. Seleccione las opciones correspondientes de la tabla Destino en función de la selección (mencionada anteriormente).
-
Tabla existente: Para ingestar datos de origen en una tabla existente. Busque o seleccione una tabla de destino que aparezca en el menú desplegable Seleccionar tabla.
-
Nueva tabla: Introduzca un nuevo nombre de tabla de destino en el campo Crear una nueva tabla haciendo clic explícitamente en la opción Crear para crear una nueva tabla a partir de los datos de origen.
vii. Si es necesario, modifique el ID de trabajo de ingestión generado automáticamente en los detalles del trabajo.
viii. Seleccione el motor Spark en la lista Seleccionar motor. Aquí se enumeran los motores Spark registrados.
ix. Seleccione un tamaño de Trabajo predefinido entre las opciones de la lista. El tamaño del trabajo se ajusta automáticamente a la opción preferida en función del tamaño del archivo. El usuario también puede seleccionar una de las siguientes opciones.
Pequeño:
Configuración pequeña. Configuración Valor Memoria del controlador 2 GB Núcleos de controlador 1 de vCPU Número de ejecutores 1 Núcleos de ejecutor 1 de vCPU Memoria de ejecutor 2 GB Medio:
Configuración media. Configuración Valor Memoria del controlador 4 GB Núcleos de controlador 2 de vCPU Número de ejecutores 2 Núcleos de ejecutor 2 de vCPU Memoria de ejecutor 4 GB Grande:
Configuración grande. Configuración Valor Memoria del controlador 8 GB Núcleos de controlador 4 de vCPU Número de ejecutores 4 Núcleos de ejecutor 4 de vCPU Memoria de ejecutor 8 GB x.Click Vista previa para ver la tabla de salida final que se mostrará en el Gestor de datos.
Si la tabla de destino seleccionada es una tabla existente, los datos se añaden o sobrescriben con los nuevos datos ingestados. La acción por defecto es añadir
xi. Haga clic en Editar para modificar las cabeceras de columna y los tipos de datos de columna según sea necesario para realizar cualquier transformación para la tabla de destino. También puede revertir los cambios si no es necesario.
xii. Haga clic en Ingerir. El trabajo de ingestión enviado se puede encontrar en la pestaña Historial de ingestión de la página Administrador de datos.
Se activa un mensaje de notificación Abrir detalles del trabajo para navegar a los detalles del trabajo de ingestión.
Puede cancelar un trabajo de ingestión haciendo clic en el icono de cancelación situado junto al trabajo de ingestión en la pestaña Historial de ingestión o haciendo clic en Cancelar trabajo en la página de detalles del trabajo de ingestión.
xiii. Haga clic en el ID de registro de trabajo requerido de un trabajo de ingesta en la pestaña Historial de ingesta para obtener los detalles y registros.
xiv. Haga clic en el enlace Destino de un trabajo de ingesta en la pestaña Historial de ingesta para navegar a la tabla de ingesta en la página Administrador de datos.
-
API relacionada
Para obtener información sobre las API relacionadas, consulte