IBM Cloud Docs
Definir un modelo de SDU entrenado por el usuario

Definir un modelo de SDU entrenado por el usuario

Cree un modelo de comprensión inteligente de documentos (SDU) que aprenda sobre el contenido de un documento basándose en la estructura del documento.

Utilice la herramienta Smart Document Understanding para añadir campos personalizados a una colección de forma que pueda hacer lo siguiente:

  • Establecer como objetivo enriquecimientos precompilados o personalizados en secciones específicas de un documento.
  • Divida los documentos grandes en documentos más pequeños.

Para obtener ayuda para decidir si SDU puede ayudar en su caso de uso, consulte Cuándo utilizar Smart Document Understanding.

Si la captura de información de tablas es fundamental para su caso de uso, considere la posibilidad de utilizar un modelo entrenado previamente. Para obtener más información sobre cómo crear un modelo de SDU preentrenado, consulte Aplicar un modelo de SDU preentrenado.

Cuándo utilizar Smart Document Understanding

La herramienta Smart Document Understanding (SDU) funciona mejor con algunos tipos de proyecto.

  • La herramienta es más beneficiosa cuando se utiliza con proyectos Recuperación de documentos. Utilice la herramienta para dividir los documentos en fragmentos de información más pequeños y consumibles. Cuando ayuda a Discovery a indexar el conjunto correcto de información en los documentos, mejora las respuestas que la aplicación puede encontrar y devolver.

    Por ejemplo, los documentos pueden contener sugerencias que se muestran en secciones con una cabecera H4. Si desea extraer la información de estas sugerencias por separado, puede añadir un campo denominado tips y enseñar al modelo a reconocerlo. Después de aplicar el modelo a la colección, sólo puede aplicar un enriquecimiento al campo tips. Más adelante, puede limitar la búsqueda para que solo devuelva contenido del campo tips.

    O tal vez tenga documentos extra grandes que contengan subsecciones. Puede enseñar al modelo SDU a reconocer estas subsecciones y, a continuación, dividir el documento grande en varios documentos, más pequeños y más fáciles de gestionar que empiezan con una de estas subsecciones.

  • La mejor forma de preparar una colección para utilizarla en proyectos de Búsqueda conversacional es identificar pares discretos de preguntas y respuestas. Puede utilizar la herramienta SDU para buscarlos y anotarlos. Si configura el proyecto para que contenga respuestas en un campo de respuesta, debe actualizar la configuración de búsqueda en watsonx Assistant para obtener el cuerpo de la respuesta del campo de respuesta personalizado.

  • Se aplica automáticamente un modelo de SDU entrenado previamente a los proyectos Recuperación de documentos para contratos. El modelo de SDU preentrenado sabe reconocer términos y conceptos que son significativos para los contratos. Como resultado, no puede aplicar un modelo SDU entrenado por el usuario a este tipo de proyecto, pero tampoco es necesario.

  • La herramienta SDU rara vez se utiliza con proyectos de Content Mining.

Puede utilizar la herramienta SDU para anotar sólo los siguientes tipos de archivo:

  • Archivos de imagen (PNG, TIFF, JPG)
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Para obtener una lista completa de los tipos de archivo a los que Discovery da soporte, consulte Tipos de archivo soportados.

La herramienta Smart Document Understanding utiliza el reconocimiento óptico de caracteres (OCR) para extraer texto de imágenes en los archivos que analiza. Las imágenes deben cumplir los requisitos mínimos de calidad soportados por OCR. Para obtener más información, consulte Reconocimiento de caracteres ópticos.

La herramienta no puede leer documentos con las características siguientes; elimínelos de la colección antes de empezar:

  • Los documentos que parecen tener texto superpuesto a otro texto se consideran doblemente superpuestos y no pueden anotarse.
  • Los documentos que contienen varias columnas de texto en una sola página no se pueden anotar.

Cuando se crea un modelo personalizado de comprensión inteligente de documentos, el tiempo de conversión de la colección puede aumentar debido a los recursos necesarios para aplicar el modelo de IA a los documentos.

Empezar con documentos representativos

Los documentos vienen en todas las formas y tamaños. La colección puede tener una mezcla de estructuras de documentos diferentes. La comprensión inteligente de documentos funciona mejor cuando los documentos de una sola colección tienen características de estilo similares. Por ejemplo, los documentos utilizan tamaños y colores de font coherentes para títulos y cabeceras, y las tablas del documento tienen diseños similares. Para crear el mejor modelo para la colección, realice este paso de requisito previo:

  1. Revise los documentos para buscar patrones de estilo y diseño y, a continuación, separe los documentos en grupos en función de su estilo.

    Por ejemplo, si los datos contienen documentos que siguen cuatro estilos de formato diferentes, divida los documentos en cuatro colecciones separadas, una para cada estilo. Añada documentos con un diseño y estilo uniformes a cada colección. Un buen tamaño objetivo por colección es de 40 documentos.

  2. Utilice la herramienta SDU para anotar este conjunto representativo de documentos y entrenar a Watson para reconocer contenido personalizado en los datos.

  3. Aplique el modelo de SDU personalizado a la colección completa. Para obtener más información, consulte Reutilización de modelos SDU.

Creación del modelo

Para aplicar un modelo de Smart Document Understanding entrenado por el usuario a la colección, realice los pasos siguientes:

  1. Abra la página Gestionar colecciones desde el panel de navegación.

  2. Si el proyecto tiene más de una colección, seleccione la colección con los documentos que desea anotar.

  3. Abra la página Identificar campos.

  4. Elija Modelos entrenados por el usuario.

    La opción Sólo extracción de texto se utiliza de forma predeterminada. Con este modelo, cualquier texto que se reconozca en los documentos de origen se indexa en el campo text.

  5. Pulse Enviar y, a continuación, pulse Aplicar cambios y volver a procesar.

Hay disponible un subconjunto de documentos para anotar. Se muestra un conjunto de 20-50 documentos en una lista. El número de documentos disponibles difiere en función de varios factores, incluido el número global de documentos de la colección y cuántos de ellos son tipos de archivo soportados.

Si alguno de los documentos de formación, que se utilizan para entrenar un modelo SDU, sufre cambios de diseño o estructura en Discovery, las anotaciones anteriores dejan de ser válidas. Para actualizar el modelo SDU, debe volver a anotar los documentos actualizados después de ingestarlos. De lo contrario, las anotaciones anteriores se asignan incorrectamente con el contenido del texto, y las páginas de anotación correspondientes en la interfaz de usuario se vuelven confusas.

Etiquetado de vídeo

El siguiente vídeo muestra cómo seleccionar una etiqueta y, a continuación, aplicarla a una representación del texto en el documento.

En el vídeo, el usuario pulsa la etiqueta de campo title y, a continuación, pulsa el bloque de texto que representa el título de la página Tabla de contenido para etiquetar el texto como un título. A continuación, el usuario pulsa la etiqueta de campo table_of_contents y selecciona el bloque de texto de tabla de contenido para etiquetarlo. A continuación, el usuario pulsa la etiqueta de campo footer y pulsa el bloque de texto que representa el pie de página. Después de etiquetar el texto, el usuario pulsa el botón Enviar página.

Etiquetado de los documentos

Antes de empezar, obtenga una idea de la estructura del documento que tiene previsto anotar. ¿Hay secciones con subtítulos que desea que Discovery devuelva por respuesta? Si es así, identifique todos los subtítulos. Más adelante, puede dividir el documento en subdocumentos discretos, empezando cada uno por un subtítulo. Para obtener más información, consulte Cuándo utilizar Smart Document Understanding.

Para etiquetar documentos, realice los pasos siguientes:

  1. Revise la vista previa del documento.

    Se visualiza una vista del documento original junto con una representación del documento, donde el texto se sustituye por bloques.

    Los bloques son todos del color de la etiqueta de campo text porque todo el texto actual se considera texto estándar y se indexará en el campo text.

    Bloques de etiquetas que representan tipos específicos de información, como títulos o pies de página, con otras etiquetas de campo. Por ejemplo, cuando aplica la etiqueta de campo de título a un título de documento que de otro modo se indexaría como texto, está definiendo una representación más precisa del contenido del documento.

    El proceso de utilizar etiquetas para identificar distintas partes de la estructura del documento se denomina anotación del documento.

  2. Revise las etiquetas de campo que puede utilizar para anotar el documento. Se visualizan en el panel Etiquetas de campo.

    Consulte la tabla Etiquetas de campo predeterminadas para ver una lista de los campos y sus descripciones.

  3. Para crear una etiqueta de campo personalizada, pulse Crear nueva.

    • Especifique una etiqueta de campo sin espacios. Por ejemplo, complex_task es una etiqueta de campo válida.

      Evite utilizar un nombre de etiqueta de campo o incluir caracteres, como un signo de almohadilla (#) o un punto (.), en el nombre que tengan un significado especial para Discovery. Para obtener más información, consulte Cómo se manejan los campos.

    • Si desea cambiar el color que se utiliza para representar el campo, pulse repetidamente el bloque de color Bloque cuadrado de color con dos flechas que apuntan a un círculo hasta que se muestre en el color que desea utilizar.

      No puede cambiar el color de etiqueta de campo más tarde.

    • Pulse Crear.

  4. En primer lugar, haga clic en una etiqueta de campo para activarla.

  5. A continuación, pulse el bloque que representa el contenido que desea etiquetar como tipo de campo.

    El bloque cambia al color de la etiqueta de campo. Ha etiquetado correctamente el campo.

  6. Repita este proceso para anotar más campos en el documento.

    No se preocupe. No es necesario etiquetar cada página. A medida que aplica etiquetas y envía páginas, Watson aprende de lo que anota y empieza a predecir anotaciones.

    Siga estas directrices:

    • Si no hay nada especial en una sección, déjelo etiquetado como text, que se aplica de forma predeterminada.
    • Una etiqueta no puede abarcar varias páginas.
    • No trate el texto en negrita, *cursiva *o subrayado de forma distinta. Etiquete en función del contexto, no del estilo.
    • Utilice un etiquetado coherente en todos los documentos.
    • Trabajar desde la primera página de un documento de varias páginas hasta la última.
    • Para eliminar una sola anotación, elija otra etiqueta (como text) y aplíquela al elemento para sobrescribir la anotación anterior.
    • Para eliminar las anotaciones que ha añadido a una página entera, pulse el icono Borrar cambios en la barra de herramientas.
    • Para anotar una tabla, pulse el texto al principio de la tabla y, a continuación, arrastre para seleccionar el texto en toda la tabla.
    • Cuando etiquete una o más tablas, el enriquecimiento Comprensión de tablas se habilita automáticamente para toda la colección. Para obtener más información, consulte Descripción de tablas.
    • Las imágenes de los documentos de origen no se representan en la vista previa. Si el reconocimiento óptico de caracteres (OCR) está habilitado, cualquier texto de la imagen o diagrama se extrae y se representa en la vista previa.
    • No etiquete el espacio en blanco.
  7. Cuando todo lo que desea etiquetar esté etiquetado, envíe la página. Pulse Enviar página.

    Continúe anotando documentos hasta que Watson pueda correlacionar de forma correcta y coherente distintos tipos de contenido con los campos adecuados.

  8. Después de enseñar a Watson a identificar campos, pulse Aplicar cambios y volver a procesar.

Los campos personalizados que defina utilizando la herramienta SDU se indexan como campos de nivel raíz.

Qué hacer a continuación

Cuando crea un modelo entrenado por el usuario, cambia el lugar donde se almacena la información en los documentos. A continuación, cambie cómo se configuran los resultados de la búsqueda. De forma predeterminada, los resultados de la búsqueda se recuperan de los pasajes o del campo de texto. Es posible que tenga un campo mejor que utilizar como origen del cuerpo del resultado. Para obtener más información, consulte Cambio del contenido del resultado.

Si el proyecto está siendo utilizado por un asistente virtual, actualice la configuración del conocimiento de búsqueda para extraer el cuerpo de respuesta de un campo diferente. Para obtener más información, consulte Configurar la búsqueda.

Puede aplicar enriquecimientos, ya sean personalizados o precompilados, a los nuevos campos raíz generados por el modelo SDU.

Si desea devolver un fragmento de texto más corto con un resultado de búsqueda, puede dividir los documentos basándose en uno de los nuevos campos que ha definido, como por ejemplo capítulo o sección.

Campos disponibles

Los campos siguientes están disponibles para que se apliquen a los documentos utilizando la herramienta Smart Document Understanding.

Los campos son arbitrarios. Puede aplicar el campo image a cada título del documento si lo desea. Aunque, puede ser difícil saber qué campo buscar más adelante para obtener la información que necesita si los nombres de campo no coinciden con el contenido. El conjunto predeterminado son tipos de campo representativos que están pensados para ayudarle a empezar. Sólo los campos text y table tienen una significación especial. No los utilice para identificar nada que no sea texto y tablas.

Etiquetas de campo predeterminadas
Campo Definición
answer En un par de preguntas y respuestas (a menudo en un FAQ), la respuesta a la pregunta.
author Nombre del autor o autores.
footer Utilice esta etiqueta para indicar metainformación sobre el documento (como el número de página o las referencias), que aparecen al final de la página.
header Utilice esta etiqueta para indicar la metainformación sobre el documento que aparece al principio de la página.
question En un par de preguntas y respuestas (a menudo en un FAQ), la pregunta.
subtitle Título secundario del documento.
table_of_contents Utilice esta etiqueta en las listas del índice del documento.
text De forma predeterminada, cada bloque de texto del documento se etiqueta como texto. Aplique etiquetas diferentes sólo a los bloques de texto con un significado especial.
title El título principal del documento.
table Utilice esta etiqueta para anotar tablas en el documento.
image Las imágenes no se muestran en la vista previa del documento. Si habilita OCR, el texto de una imagen o diagrama se muestra en la vista previa. Si desea evitar que el texto de algunas imágenes se incluya en los resultados de la búsqueda, etiquete el texto de la imagen como una imagen. Puede excluir el campo de imagen del índice más adelante.

Reutilización de modelos SDU

Después de definir un modelo con la herramienta SDU, puede guardarlo y reutilizarlo en otras colecciones exportándolo de una colección e importándolo a otra.

La importación de un nuevo modelo sobrescribe el modelo existente en una colección. Si el modelo existente ya está entrenado, como por ejemplo a través de etiquetas de campo personalizadas y anotaciones, la importación de un nuevo modelo afecta a la colección y puede provocar la pérdida de datos.

Para reutilizar un modelo, siga estos pasos:

  1. Exporte el modelo que desea reutilizar. En el menú de la barra de herramientas de SDU, seleccione Exportar modelo.

    Menú de importación y exportación*Menú " caption-side="bottom"}{: caption="y exportación*

  2. Cree la colección donde desea reutilizar el modelo. Añada sólo un documento a la colección en primer lugar.

  3. Importe el modelo desde la barra de herramientas de SDU. El modelo exportado tiene una extensión de archivo de .sdumodel.

  4. Añada el resto de los documentos a la colección. Abra la pestaña Actividad de la página Gestionar colecciones y, a continuación, pulse Cargar datos para añadir más archivos a la colección.

Utilice el modelo importado tal cual. No realice más anotaciones. Si realiza anotaciones después de importar el archivo .sdumodel, el modelo importado se sobrescribirá.

Límites de Smart Document Understanding

El número de campos personalizados que puede crear por modelo de Smart Document Understanding depende del tipo de plan Discovery.

Límites de campos personalizados
Planifique Campos personalizados por modelo de SDU
Cloud Pak for Data Ilimitado
Premium 100
Empresa 100
Plus (incluye prueba) 40

El número máximo de documentos que puede anotar para entrenar un modelo SDU por colección depende del tipo de plan Discovery.

Límites de conjunto de entrenamiento
Planifique Documentos por colección
Cloud Pak for Data 40
Premium 40
Empresa 40
Plus (incluye prueba) 40

Gestión de campos

El separador Gestionar campos contiene varias opciones:

Identificar campos para indexar
Para obtener más información, consulte Exclusión de contenido de los resultados de la consulta.
Mejorar los resultados de las consultas dividiendo los documentos
Para obtener más información, consulte Dividir documentos para que los resultados de la consulta sean más sucintos.
Valores de formato de fecha
Para obtener más información, consulte Valores de formato de fecha.

Para acceder a la página Gestionar campos, haga clic en el icono Gestionar colecciones del panel de navegación y abra una colección. Pulse el separador Gestionar campos. Para obtener más información sobre las colecciones, consulte Creación de colecciones.