Base de datos

Rastrear documentos almacenados en una base de datos que da soporte a Java Database Connectivity (JDBC) API.

IBM Cloud Pak for Data IBM Software Hub

Esta información sólo se aplica a los despliegues instalados.

IBM Watson® Discovery no admite la autenticación Kerberos en Cloud Pak for Data.

Qué documentos se rastrean

Cada fila de la base de datos se rastrea y se añade a la colección como un documento. Las columnas se indexan como metadatos.
El rastreador intenta rastrear e indexar contenido, como BLOB/BINARY, que se almacena en la base de datos. Los tipos de archivo soportados por Discovery se indexan. Para obtener más información, consulte Tipos de archivo soportados.
Cuando se vuelve a rastrear una fuente, se añaden nuevos documentos, los documentos actualizados se modifican a la versión actual y los documentos eliminados se borran del índice de la colección.
Todos los conectores de origen de datos Discovery son de sólo lectura. Independientemente de los permisos otorgados a la cuenta de rastreo, Discovery nunca graba, actualiza o suprime ningún contenido del origen de datos original.

Requisitos de orígenes de datos

Además de los requisitos de origen de datos para todos los despliegues instalados, el origen de datos de base de datos debe cumplir los requisitos siguientes:

Discovery da soporte a las siguientes versiones de orígenes de datos:
- Data Virtualization en IBM Cloud Pak for Data 1.8.0, 1.8.3 que utilizan Db2 11.5
- IBM Db2: 10.5, 11.1, 11.5
- Microsoft SQL Server: 2012, 2014, 2016, 2017
- Oracle Database: 12c, 18c, 19c
- PostgreSQL: 9.6, 10, 11
Se ha añadido soporte para Data Virtualization con IBM Cloud Pak for Data 4.5.x releases
Debe obtener las licencias de servicio necesarias para el origen de datos al que desea conectarse. Para obtener más información sobre las licencias, póngase en contacto con el administrador del sistema del origen de datos.

Paso previo

Decida qué tablas de base de datos desea rastrear. Puede rastrear varias tablas en una colección y especificar tablas con esquemas o conjuntos de columnas diferentes. Debe conocer la siguiente información:
- Nombres de esquema
- Nombres de tabla
Para Data Virtualization en IBM Cloud Pak for Data, puede obtener estos detalles en el cliente web de IBM Cloud Pak for Data. Pulse el icono del menú principal, expanda Datos y, a continuación, seleccione Data virtualization. Al principio de la página, elija mostrar Datos virtualizados.

Vista de datos virtualizados en Cloud Pak for Data
Tenga cuidado si tiene previsto rastrear varias tablas que tienen columnas con el mismo nombre pero distintos tipos de datos. En los proyectos de Content Mining, las columnas con el mismo nombre pero distintos tipos de datos se asignan a campos que tienen un sufijo de tipo de datos en el nombre, como por ejemplo DATA_string. En todos los demás tipos de proyecto, los datos de una de las tablas se excluyen del índice. Por ejemplo, si tiene dos tablas que tienen columnas que se llaman DATA y la columna DATA de una tabla está poblada con fechas y la columna de la otra tabla está poblada con cadenas, los datos de una de las tablas se excluyen del índice.
Obtenga las credenciales de usuario para un usuario que tiene permiso para acceder a las tablas que desea rastrear.
Para poder conectarse a una base de datos, debe obtener la biblioteca del controlador JDBC para la base de datos. Cuando configure el origen de datos de base de datos, se le solicitará que especifique la vía de acceso de clases del controlador JDBC.
Para poder conectarse al servicio Data Virtualization utilizando JDBC, debe instalar los paquetes de IBM Data Server Driver. Para obtener más información, consulte Conexión de aplicaciones al servicio Data Virtualization.
Si desea conectarse a una instancia de Data Virtualization alojada en un clúster diferente del servicio Discovery, debe reenviar el tráfico que se direcciona para Data Virtualization desde un nodo de infraestructura externo a los nodos maestros del clúster. Para obtener más información, consulte Actualización del archivo de configuración HAProxy.

Descargue los archivos JAR para la biblioteca del controlador JDBC desde el servidor de bases de datos o el sitio web del proveedor.

Los archivos siguientes están asociados con cada base de datos:
- Db2 y Data Virtualization: db2jcc4.jar
- Oracle: ojdbc8.jar
- SQL Server: mssql-jdbc-7.2.2.jre8.jar
- PostgreSQL: postgresql-42.2.6.jar
Comprima los archivos JAR en un único archivo comprimido.

Si tiene un controlador JDBC que sólo tiene un archivo JAR, omita este paso.
Tome nota de dónde está almacenado el controlador. Debe especificar el directorio donde almacena este archivo JAR o comprimido en el siguiente procedimiento para que Discovery pueda cargarlo.

Conexión a un origen de datos de base de datos

Antes de empezar, si tiene previsto aplicar enriquecimientos a los datos, cree la recopilación en un tipo de proyecto de Content Mining. Si está utilizando un tipo de proyecto diferente y tiene previsto aplicar enriquecimientos, deténgase aquí. Para obtener más información, consulte Aplicación de enriquecimientos a contenido desde una base de datos.

En el proyecto Discovery, realice los pasos siguientes:

En el panel de navegación, elija Gestionar colecciones.
Haga clic en Nueva colección.
Haga clic en Base de datos y, a continuación, en Siguiente.
Asigne un nombre a la colección.
Si el idioma de los documentos de la base de datos no es el inglés, seleccione el idioma adecuado.

Para ver una lista de los idiomas admitidos, consulte Soporte de idiomas.
Opcional: cambie la planificación de sincronización.

Para obtener más información, consulte Opciones de planificación de rastreo.

Rellene los siguientes campos en la sección Introduzca sus credenciales:

URL de base de datos

La dirección URL del servidor de base de datos.

La tabla siguiente muestra los URL de base de datos de ejemplo:

URL de base de datos de ejemplo
Base de datos	Sintaxis	Ejemplo
Data virtualization (mismo clúster)	`jdbc:db2://{fully-qualified-hostname-of-dv-service}:{jdbc-nonssl-internal-port}/bigsql`	`jdbc:db2://c-db2u-dv-db2u-engn-svc.myproject.svc.cluster.local:50000/bigsql`
Data virtualization (clúster independiente)	jdbc:db2://{cluster-address }: {jdbc-nonssl-external-port} /bigsql	jdbc:db2://api.conn.cp.example.com:30269/bigsql
Db2	`jdbc:db2://{server}:{port}/{database_name}`	`jdbc:db2://localhost:50000/sample:sslConnection=true;`
Oracle	`jdbc:oracle:thin:@//{host}:{TCPport}/{service_name}`	`jdbc:oracle:thin:@localhost:1521/sample`
SQL Server	`jdbc:sqlserver://{serverName}[{instanceName}]:{port}[;property=value]`	`jdbc:sqlserver://localhost:1433;DatabaseName=sample`
Postgresql	`jdbc:postgresql://{host}:{port}/{database}`	`jdbc:postgresql://localhost/sample`

Usuario

El nombre de usuario que se obtiene de la base de datos seleccionada. Este nombre de usuario se utiliza para rastrear el origen. El nombre de usuario varía de base de datos a base de datos.

Contraseña

La contraseña asociada a su nombre de usuario. La contraseña varía de base de datos a base de datos.

Rellene los siguientes campos en la sección Configuración de la conexión:

Tipo de controlador JDBC

Elija la base de datos.

Db2 está seleccionada por defecto. Si desea rastrear desde un tipo de base de datos que no aparece en la lista, seleccione OTRO. Para rastrear datos gestionados por Data Virtualization en IBM Cloud Pak for Data, mantenga Db2 seleccionado.

JDBC nombre de clase de controlador

El nombre de clase del controlador JDBC que está asociado con la base de datos que ha seleccionado. Este campo se rellena automáticamente, a menos que seleccione OTHER.

Vía de acceso de clases del controlador JDBC

Cargue un archivo de controlador JDBC, que puede tener extensión.jar o.zip. De forma alternativa, puede reutilizar un archivo .jar o .zip que haya cargado anteriormente.
Complete los campos siguientes en la sección Especificar lo que desea rastrear y, a continuación, pulse Añadir:

Nombre de esquema

El esquema que desea rastrear.

Nombre de tabla

La tabla dentro de un esquema que desea rastrear.

Pulse el icono de edición para especificar más valores de rastreo de tabla, incluyendo:

Clave primaria

La clave primaria de la tabla de la base de datos de destino. Si la clave primaria no está configurada en la tabla de la base de datos de destino, deberá especificar la clave en este campo. El rastreador de base de datos JDBC añade este valor de clave primaria al URL de cada fila rastreada para mantener su exclusividad. Cuando la clave primaria es una clave compuesta, concatene los nombres de clave utilizando una coma, por ejemplo key1,key2. Si no se especifica, el proyecto toma como valor predeterminado los campos de clave primaria de la tabla. Si la clave primaria está configurada en la tabla de base de datos de destino, esta clave se detecta automáticamente.

Filtro de filas

Opcional. Especifique la cláusula SQL WHERE para designar las filas de la tabla que deben rastrearse. Debe especificar una expresión booleana que puede ser la condición de una cláusula WHERE en la sentencia SELECT. Si hay un error en los nombres de sintaxis o columna, la tabla se excluye del rastreo y no se indexan documentos.

Columna con datos a extraer

Nombre de la columna con datos que desea rastrear. Si no especifica la columna, se elige rastrear una columna con texto o con un único objeto grande.

Tipo MIME de datos

Opcional. El tipo MIME se detecta si no se especifica.

Los valores que especifique en el diálogo de valores de rastreo de tabla no se visualizan con los nombres de esquema y tablas, pero los valores se aplican a la conexión de base de datos.

Los campos Columna con datos para extraer y tipo MIME de datos se han añadido con el release 4.6.5.
Si desea que el rastreador extraiga texto de imágenes en documentos, expanda Más valores de procesoy establezca Aplicar reconocimiento óptico de caracteres (OCR) en On.

Cuando OCR está habilitado y los documentos contienen imágenes, el proceso tarda más tiempo. Para obtener más información, consulte Reconocimiento de caracteres ópticos.
Pulse Finalizar.

La colección se crea rápidamente. Los datos tardan más tiempo en procesarse a medida que se añaden a la colección.

Si desea comprobar el progreso, vaya a la página Actividad. En el panel de navegación, pulse Gestionar colecciones y, a continuación, pulse para abrir la colección.

Utilización de la autenticación de Windows en Linux

El controlador JDBC de Microsoft no da soporte a la autenticación de Windows en Linux. Si desea utilizar la autenticación de Microsoft Windows para acceder a SQL Server en Linux, puede utilizar un controlador JDBC de terceros denominado jTDS desde Sourceforge. Especifique los valores siguientes durante la configuración:

URL o de la base de datos: jdbc:jtds:sqlserver://<host>:<port>;databaseName=<database>;domain=<domain>;useNTLMv2=true;
JDBC tipo de conductor: OTHER
JDBC nombre de la clase de conductor: net.sourceforge.jtds.jdbc.Driver

Aplicación de enriquecimientos al contenido desde una base de datos

Si utiliza una base de datos como origen de datos y desea aplicar enriquecimientos a los campos anidados indexados desde la base de datos, debe utilizar un tipo de proyecto de Content Mining.

Si su objetivo es crear una aplicación de búsqueda utilizando un tipo de proyecto Recuperación de documentos, cree primero un tipo de proyecto de Content Mining. Desde el proyecto de Content Mining, puede conectarse a la base de datos y enriquecer los datos. A continuación, puede reutilizar la colección enriquecida de un proyecto de recuperación de documentos.

Para enriquecer el contenido de la base de datos para su uso en un proyecto de recuperación de documentos, realice los pasos siguientes:

Cree un proyecto de minería de contenidos.

Para obtener más información, consulte Creación de un proyecto.
Conectarse a una fuente de datos de base de datos.

Para obtener más información, consulte Configuración de un origen de datos: Base de datos.
Aplicar enriquecimientos.

Para más información, consulte los temas siguientes:
- Adición de recursos específicos de dominio
- Aplicación de enriquecimientos precompilados.
Cree un proyecto de recuperación de documentos.

Para obtener más información, consulte Creación de un proyecto.

Cuando se le solicite que elija una colección, elija Reutilizar datos de una colección existente. Si es necesario, desplácese para ver esta opción.
Seleccione la colección que ha creado y enriquecido utilizando el proyecto de Content Mining y, a continuación, pulse Finalizar.