IBM Cloud Docs
Utilizar Smart Document Understanding (SDU) para mejorar los resultados de la búsqueda

Utilizar Smart Document Understanding (SDU) para mejorar los resultados de la búsqueda

En esta guía de aprendizaje, utiliza la característica Smart Document Understanding del servicio Discovery para crear un modelo de Smart Document Understanding (SDU) entrenado por el usuario. A continuación, divida un único documento en muchos documentos más pequeños para que algunos tipos de respuestas sean más fáciles de encontrar.

Esta guía de aprendizaje funciona con despliegues gestionados e instalados.

Objetivos de aprendizaje

Cuando termine la guía de aprendizaje, habrá aprendido a:

  • Cree un proyecto de recuperación de documentos en Discovery.
  • Cargue un documento PDF en el proyecto Discovery.
  • Utilice la herramienta Smart Document Understanding (SDU) para crear un modelo de SDU entrenado por el usuario.
  • Divida un documento en fragmentos más pequeños y más consumibles.

Duración

Este tutorial tarda aproximadamente 3 horas en completarse.

Requisito previo

  1. Antes de empezar, debe configurar una cuenta de pago con IBM Cloud.

    Puede completar esta guía de aprendizaje sin coste alguno utilizando un plan Plus, que ofrece una prueba de 30 días sin coste alguno. Sin embargo, para crear una instancia del servicio de plan Plus, debe tener una cuenta de pago (en la que se proporciona la información de la tarjeta de crédito). Para obtener más información sobre la creación de una cuenta de pago, consulte Actualización de la cuenta.

  2. Cree una instancia del servicio Discovery de plan Plus.

    Vaya a la página RecursoDiscovery en el catálogo IBM Cloud y cree una instancia de servicio del plan Plus.

Si decide dejar de utilizar el plan Plus y no quiere pagarlo, elimine la instancia de servicio del plan Plus antes de que finalice el periodo de prueba de 30 días.

Crear el proyecto de recuperación de documentos

Cree un proyecto. Elija crear un tipo de proyecto de recuperación de documentos. Este tipo está optimizado para buscar respuestas que se devuelven como pasajes de documentos grandes.

Para obtener más información sobre los tipos de proyecto, consulte Creación de proyectos.

  1. En la página de servicio del plan Discovery Plus en IBM Cloud, pulse Iniciar Discovery.
  2. En la página Mis proyectos, haga clic en Nuevo proyecto.
  3. Asigne el nombre Finance tutorial project al proyecto y, a continuación, seleccione el tipo de proyecto Recuperación de documentos.
  4. Pulse Siguiente.

Configurará el origen de datos para el proyecto en el paso siguiente.

Cargar un archivo PDF

Queremos que la aplicación de búsqueda sea capaz de responder a las preguntas sobre el comercio algorítmico. Por lo tanto, estamos agregando el PDF "Staff Report on Algorithmic Trading in US Capital Markets" que fue creado el 5 de agosto de 2020 como fuente de datos para el proyecto.

  1. Obtenga una copia del PDF para que pueda cargarlo en el proyecto. Puede descargar el archivo desde el sitio web de US Securities and Exchange Commission.

  2. Cargar datos en la colección.

  3. Pulse Finalizar.

    Sólo añade un archivo. En un escenario real, puede cargar varios archivos con información sobre el mismo tema. Al añadir más archivos, puede ampliar la amplitud de la información que la aplicación de búsqueda puede aprovechar.

El servicio carga el documento. A medida que carga el documento, Discovery rastrea los datos e indexa la información clave. Puesto que ha creado un tipo de proyecto de recuperación de documentos, Discovery toma nota de la información de Entidades que encuentra y reconoce a medida que rastrea el documento.

Revisar el documento

El análisis e indexación del documento puede tardar unos minutos. Mientras el proceso está en curso, revise el documento de origen para obtener una opinión sobre su contenido. Es una buena idea comprender la estructura de sus propios documentos antes de utilizar la herramienta Smart Document Understanding para anotarlos.

Smart Document Understanding (SDU) utiliza tecnologías de imagen visual para comprender la estructura de un documento analizando el formato y el posicionamiento del texto. Puede etiquetar secciones del documento, como subtítulos o tablas, para enseñar a Discovery a reconocer las secciones. También puede etiquetar las secciones que desea que la función de búsqueda ignore. Por ejemplo, es posible que no desee buscar en los pies de página o en la información de tabla de contenido. Después de enseñar a la herramienta SDU a reconocer los pies de página, por ejemplo, puede excluir el campo de pie de página del índice.

  1. Supervise el progreso del proceso de recopilación abriendo la pestaña Actividad.

    Pulse Gestionar colecciones en el panel de navegación.

    Muestra la opción de menú Gestionar colecciones desde el panel de navegación.
    Manage collections menu option from the navigation panel

    Pulse el mosaico de la colección Algorithmic Trading PDF. La colección se abre en la pestaña Actividad.

  2. Mientras espera a que la colección esté lista, abra el archivo Algo_Trading_Report_2020.pdf que ha descargado anteriormente.

  3. Revise la estructura del documento.

    Tenga en cuenta que el documento consta principalmente de las siguientes estructuras:

    • Título
    • Tabla de contenido
    • Subtítulos
    • Texto
    • Notas al pie
    • Bibliografía
  4. La herramienta SDU tiene etiquetas predefinidas para todos excepto footnotes y bibliography. Creará nuevas etiquetas de campo para estas dos estructuras de documento en un procedimiento posterior.

El proceso finaliza cuando la página muestra que hay un documento disponible.

Muestra la página Actividad cuando está preparada.
Activity page that shows the data upload is finished

Probar el proyecto

  1. Una vez completado el rastreo, vaya a la página Mejorar y personalizar. En el panel de navegación, pulse Mejorar y personalizar.

  2. En el campo Buscar, especifique When did the Flash Crash occur and why?

    Se devuelve el siguiente pasaje como respuesta:

    These could in turn generate systemic destabilizing market events, such as the May 2010 “Flash Crash.” The “Flash Crash” occurred on May 6, 2010, when an algorithm rapidly sold 75,000 S&P500 e-mini futures contracts.

    El pasaje devuelto contiene una respuesta precisa a la pregunta.

    Muestra los pasajes devueltos por la búsqueda.
    Resultados de la búsqueda

  3. Haga otra pregunta, What is the purpose of Rule 15c3-5?

    Se devuelve el siguiente pasaje como respuesta:

    mechanism.306 b. 15c3-5 In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers

    Una vez más, la respuesta es exacta (a pesar de que hay algún texto extraño al principio del pasaje).

    En ambos ejemplos, se hace una pregunta algo compleja y el pasaje que se devuelve proporciona una respuesta válida.

    Sin embargo, no todas las preguntas devuelven una respuesta tan clara. A continuación, intentamos algunas consultas que generan respuestas que podríamos querer mejorar.

  4. Especifique Where do muni bond trades get reported to?

    En este caso, la respuesta no responde completamente a la pregunta.

    Post-trade transparency, in the form of transaction reports, generally is available for corporate and municipal bonds. 1. Transaction Reports in Corporate Bonds: TRACE Transactions in corporate bonds must be reported to the Trade Reporting

  5. De forma similar, la consulta de búsqueda, What are PTFs?, no devuelve una respuesta directa.

    Despite the surge in trading volume during the event window, there was no noticeable change in net positions of PTFs or bank-dealers. However, the report also finds evidence that some PTFs and bank-dealers may have contributed to the volatility

Su proyecto está respondiendo a algunas de las preguntas con éxito. Sólo se devuelve un pasaje para cada consulta. Vamos a ver si podemos mejorar las respuestas que se dan a estas consultas de búsqueda más sencillas.

Crear un modelo de Smart Document Understanding (SDU) entrenado por el usuario

Para mejorar la calidad de los resultados de la búsqueda, cree un modelo de Smart Document Understanding para este documento. El modelo ayuda a Discovery a comprender la estructura del documento. A continuación, puede indicar a Discovery qué secciones del documento se deben buscar y qué secciones se deben ignorar.

  1. En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Definir estructuray, a continuación, pulse Nuevos campos.

    Muestra la herramienta Nuevos campos en el panel Herramientas de mejora.
    New fields tool in the Improvement tools panel

  2. Se visualiza la pestaña Identificar campos, donde puede elegir el tipo de modelo de Smart Document Understanding que desea utilizar.

    Muestra la pestaña Identificar campos.
    Identify fields tab

    • El modelo entrenado previamente aplica un modelo no personalizable que extrae texto e identifica tablas, listas y secciones. El modelo preentrenado es una gran opción para ahorrar tiempo.
    • Para los fines de esta guía de aprendizaje, donde queremos explorar cómo funciona la herramienta Smart Document Understanding, elegiremos utilizar el modelo entrenado por el usuario.

    Si no elige un modelo, el modelo de extracción de texto se aplica automáticamente. Con el modelo de extracción de texto, la mayor parte del contenido del documento se trata como texto estándar y se indexa en el campo text.

  3. Pulse Modelos entrenados por el usuario y, a continuación, pulse Enviar.

    Muestra el diálogo de confirmación después de elegir la opción Modelos entrenados por el usuario.
    Confirmation dialog for user-trained model

  4. Pulse Aplicar cambios y volver a procesar.

    Muestra que el botón Aplicar cambios y reprocesar está activo.
    Apply changes and reprocess button

    Una vez completado el proceso de evaluación, se muestra una representación del documento en la herramienta Smart Document Understanding.

    Muestra el PDF tal como aparece en la herramienta SDU.
    PDF is displayed in the SDU tool

    La herramienta le muestra una vista del documento original junto con una representación del documento, donde el texto se sustituye por bloques. Los bloques representan tipos de campo.

    Inicialmente, los bloques son todos del color de la etiqueta de campo text porque todo el contenido del documento se considera texto estándar y se indexará en el campo text.

    Una lista Etiquetas de campo muestra las etiquetas de campo predefinidas que están disponibles.

    Vamos a etiquetar los bloques que representan tipos específicos de información, como títulos y subtítulos, con las etiquetas de campo correspondientes. (El proceso de utilizar etiquetas para identificar distintas partes de la estructura del documento se denomina anotación del documento.)

  5. Para anotar el documento, haga clic en la etiqueta primero. A continuación, pulse el bloque de texto que desea etiquetar.

    Pulse title en la lista Etiquetas de campo y, a continuación, en la representación del documento, pulse el bloque amarillo situado en la ubicación del título del documento.

    Muestra el título que se está etiquetando en la herramienta SDU.
    A title is being labeled in the Smart Document Understanding tool

    Ha etiquetado el título del documento correctamente.

  6. El resto del texto de la página se puede indexar como parte del campo text. Por lo tanto, haga clic en Enviar página.

  7. La página siguiente es la Tabla de contenido del documento. Pulse la etiqueta table_of_contents y, a continuación, seleccione todo el texto de la página para etiquetarlo. (Puede pulsar y arrastrar el ratón para seleccionar todo.) Pulse Enviar página para pasar a la página siguiente.

    Muestra la tabla de contenido que se etiqueta en la herramienta SDU.
    A table of contents is being labeled in the Smart Document Understanding tool

  8. Las dos cabeceras de la página son subtítulos. Pulse la etiqueta subtitle y, a continuación, seleccione las cabeceras.

    Esta página tiene una nota a pie de página. Como hemos señalado anteriormente, el documento contiene muchas notas a pie de página en las que se proporciona información importante. Etiquetemos las notas al pie para que podamos incluir o excluir este tipo de información más adelante. No hay etiqueta de nota a pie de página, por lo que debemos añadir una.

  9. En la lista Etiquetas de campo, pulse Crear nuevo. Añada el nombre footnote como nombre de etiqueta. Pulse el bloque de colores repetidamente hasta que encuentre un color exclusivo para utilizar para la etiqueta y, a continuación, pulse Crear.

    Muestra el diálogo de etiqueta nueva.
    New label dialog

  10. Pulse la nueva etiqueta de nota a pie de página que ha añadido y, a continuación, etiquete la nota a pie de página en la página con la etiqueta. Pulse Enviar página para pasar a la página siguiente.

    Muestra la nota a pie de página que se está etiquetando en la herramienta SDU.
    A footnote is being labeled in the Smart Document Understanding tool

  11. Repita este proceso para etiquetar y enviar varias páginas.

    Para la mayoría de las páginas, el contenido incluye un subtitle, un footnote y la mayor parte del contenido de la página permanece etiquetado como text.

    Muestra las etiquetas de subtítulo, nota a pie de página y texto que se están aplicando a una página en la herramienta SDU.
    Subtitle, footnote, and text labels are being applied

    A medida que etiqueta y envía páginas, el modelo aprende de las anotaciones que realiza. Poco a poco, las etiquetas que se aplican automáticamente se vuelven precisas y no requieren ningún ajuste.

    Si la herramienta se vuelve demasiado celosa en la aplicación de etiquetas, aplique la etiqueta text a las secciones de texto estándar para corregirla.

  12. Para las tablas, seleccione el título de la tabla y toda la tabla y etiquete las tablas con la etiqueta table.

    Muestra cómo etiquetar una tabla en la herramienta SDU.
    A table is being labeled

  13. Cuando una página contiene una imagen, la imagen no se visualiza en la representación de la página.

    Las imágenes nunca se replican. Sin embargo, puede capturar el texto de una imagen para que se pueda buscar en el texto de la imagen. Para ello, habilite la característica Reconocimiento óptico de caracteres (OCR) cuando cree una colección. OCR es útil en los casos en los que desea extraer texto de imágenes, como por ejemplo de un PDF escaneado, donde el texto está incorporado en una imagen. Para obtener más información, consulte Reconocimiento de caracteres ópticos.

    Después de habilitar OCR, si desea eliminar el texto de imagen anotado del índice de colección, puede etiquetar la imagen para que pueda excluir el texto asociado. Aprenderá a configurar el índice en el siguiente procedimiento.

    Muestra una imagen en la página.
    Shows an image in the page

  14. Cuando llegue a la Bibliografía, cree una nueva etiqueta denominada bibliography.

    Muestra cómo crear la etiqueta de bibliografía.
    Creating a bibliography label

    Aplique la nueva etiqueta a cada página.

    Muestra la etiqueta de bibliografía que se está aplicando a una página entera.
    A bibliography label is being applied

  15. Después de anotar y enviar todas las páginas, pulse Aplicar cambios y volver a procesar.

    Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página de la herramienta SDU, pero el botón Aplicar cambios y reprocesar está inhabilitado.

Se genera un modelo SDU basado en las estructuras que ha etiquetado en este documento.

Para obtener más información sobre la característica Smart Document Understanding, consulte Utilización de Smart Document Understanding.

Agilice los datos que se pueden buscar

Ahora que tiene un modelo SDU que puede reconocer los diferentes tipos de secciones en el documento, puede indicarle que incluya algunas secciones en las búsquedas y que excluya otras. Para controlar qué datos se buscan, incluya o excluya campos del índice de búsqueda.

  1. Pulse Gestionar campos.

    Muestra la pestaña Gestionar campos para pulsar después del proceso de SDU.
    The Manage fields tab

  2. En la lista de campos a indexar, establezca el conmutador en No para todos los campos excepto estos:

    • footnote
    • html
    • subtitle
    • table
    • text

    Muestra los campos de la lista de
    de la
    de índices*

  3. Pulse Aplicar cambios y volver a procesar.

    Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página Gestionar campos, pero el botón Aplicar cambios y reprocesar está inhabilitado.

Ha configurado correctamente el índice para controlar el contenido que está disponible para las búsquedas. Ha excluido campos que pueden contener términos de búsqueda populares, pero no incluyen también contenido significativo.

Para obtener más información sobre la gestión de campos, consulte Exclusión de contenido de los resultados de la consulta.

Dividir el documento

Ahora que Discovery sabe más sobre la estructura del documento, podemos dividir el único documento de 99 páginas en más documentos. Recuerde que solo se ha devuelto un pasaje para cada consulta que ha enviado antes. Si dividimos el documento en varios segmentos, Discovery puede devolver los mejores pasajes de todos los segmentos del documento.

Cuando divide un documento, convierte un documento en muchos documentos. Tenga en cuenta los límites de documento para el tipo de plan. Cada segmento de documento que se genera dividiendo un documento cuenta para el límite de documentos del plan.

Cuando ha anotado el documento, ha identificado el campo subtitle. Estos subtítulos son un buen marcador a partir del cual puede comenzar cada nuevo segmento de documento.

  1. En la sección Mejorar los resultados de la consulta dividiendo los documentos de la página Gestionar campos, pulse Dividir documento.

  2. Seleccione subtitle en el campo Dividir documento en cada aparición de.

    Muestra el campo de subtítulos que se está seleccionando en el campo de documentos
    la división de documentos en el
    de subtítulos*

  3. Pulse Aplicar cambios y volver a procesar.

    Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página Gestionar campos, pero el botón Aplicar cambios y reprocesar está inhabilitado.

  4. Pulse Actividad en la cabecera de página para volver a la página Actividad donde puede supervisar el progreso del cambio que ha realizado.

Cuando no se está procesando ningún documento, la división de documentos ha finalizado.

Para obtener más información sobre la división de documentos, consulte Dividir documentos para que los resultados de la consulta sean más sucintos.

Volver a probar el proyecto

Vamos a averiguar si hemos mejorado la función de búsqueda añadiendo un modelo SDU entrenado por el usuario para el documento. Para hacerlo, volvamos a probar el proyecto.

  1. En el panel de navegación, pulse Mejorar y personalizar para abrir la página Mejorar y personalizar.

  2. En primer lugar, para asegurarnos de que no degradamos la calidad de la búsqueda, hagamos una de las preguntas que devolvieron una buena respuesta cuando probamos antes.

    En el campo Buscar, especifique What is the purpose of Rule 15c3-5?

    Muestra una consulta que se está entrando en la página Mejorar y personalizar.
    Query added to the Improve and customize page

    Esta vez se devuelven varias respuestas. La respuesta siguiente contiene la respuesta exacta a la pregunta sin ningún texto extraño:

    In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers.

    Muestra que se devuelven varias respuestas para la consulta.
    Multiple responses are returned for the query

    Nuestras actualizaciones solo mejoraron la calidad de las respuestas precisas que se devolvieron antes.

  3. Ahora, hagamos una pregunta que devolvió malos resultados previamente. Especifique What are PTFs? como consulta de búsqueda.

    Se devuelve de nuevo la misma respuesta que la única respuesta de la última vez. Sin embargo, esta vez obtenemos más de una respuesta. Y podemos ver que la segunda respuesta que se devuelve define el acrónimo para nosotros.

    (“principal trading firms” or “PTFs”)

    Muestra las respuestas que se devuelven para responder a la pregunta sobre los PTF.
    Responses that answer the question about PTFs

  4. Vamos a probar la otra consulta de búsqueda problemática. Especifique Where do muni bond trades get reported to? como consulta de búsqueda.

    Esta vez es la tercera respuesta que proporciona una respuesta a la pregunta. Debe ver el pasaje completo para ver la definición completa.

    Muestra las respuestas que se devuelven para responder a la pregunta sobre los muni bonds.
    Responses that answer the question about muni bonds

    Pulse el enlace Ver pasaje en documento para ver la definición completa resaltada en el documento.

    Transactions in municipal bonds must be reported to the Municipal Securities Rulemaking Board’s (MSRB) Real-time Transaction Reporting System (RTRS).

Enhorabuena. Ha añadido correctamente un modelo de Smart Document Understanding (SDU) entrenado por el usuario que mejora la calidad del proyecto de búsqueda.

Filtrar resultados con una faceta basada en diccionario

Ahora que estamos obteniendo más pasajes devueltos por consulta, puede ser útil filtrar los resultados. Para filtrar los resultados en función de los tipos de instrumentos financieros que se mencionan, podemos añadir una faceta de búsqueda. Un origen disponible para una faceta es un diccionario.

  1. Para crear un diccionario, en el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominioy, a continuación, pulse Diccionarios.

  2. Pulse Nuevo.

    Muestra el botón Nuevo en la página del diccionario.
    New button in the dictionary page

  3. Especifique Financial instruments como nombre de diccionario, añada el término municipal bond y, a continuación, pulse el botón Añadir término.

    Muestra el diccionario de instrumentos financieros con un término.
    Financial instruments dictionary with one term

  4. Añada sinónimos para el término pulsando el icono de edición para el término.

    Municipal Bonds, muni, munis, muni bonds
    

    Añada sinónimos en una lista separada por comas y, a continuación, pulse Guardar término.

  5. Pulse Guardar diccionario.

    Puede elegir un campo en el documento donde desea que se aplique el enriquecimiento. Vamos a elegir el campo subtitle que se ha generado al crear el modelo de SDU entrenado por el usuario. En el campo Campos para enriquecer, seleccione subtitle. Pulse Aplicar.

    Se crea el diccionario y se analiza cada subtítulo del documento en busca de menciones de términos o sinónimos definidos en el diccionario. Las menciones que se encuentren se anotarán en el índice.

  6. Pulse Mejorar y personalizar en el panel de navegación.

  7. En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Personalizar visualizacióny, a continuación, pulse Facetas.

  8. Haga clic en Nueva faceta y, a continuación, seleccione De campos existentes en una colección.

  9. Elija el campo de índice que está asociado con el enriquecimiento de diccionario que ha aplicado al campo subtitle. En el campo Campo, seleccione enriched_subsection.entities.mentions.text

    Muestra las opciones del campo de faceta.
    Fields from which you can create a facet

    Es posible que tenga que pasar el cursor por encima de las entradas para ver los nombres de campo completos.

  10. Añada una etiqueta como, por ejemplo, Dictionary terms al campo Etiqueta y, a continuación, pulse Aplicar.

    Muestra el panel de creación de facetas completado.
    Facet was created

  11. Especifique Where do muni bond trades get reported to? como consulta de búsqueda.

    La faceta Términos del diccionario que ha creado se muestra junto con los resultados de la búsqueda. Se muestra un recuadro de selección Municipal Bonds, que indica que al menos uno de los pasajes devueltos se extrae de un segmento de documento con el término Municipal Bonds en su campo subtitle.

    Muestra la faceta Términos del diccionario con una opción Bonos municipales.
    Dictionary term facet with a Municipal Bonds option

  12. Para filtrar los resultados para mostrar sólo pasajes de secciones con Municipal Bonds en el subtítulo, seleccione el recuadro de selección Municipal Bonds.

    La mejor respuesta se lista ahora como la segunda respuesta en lugar de la tercera.

    La mejor respuesta aparece ahora como segundo resultado de la lista*La
    respuesta es el segundo

Resumen

En esta guía de aprendizaje, ha creado un proyecto de recuperación de documentos, un modelo de Smart Document Understanding (SDU), un enriquecimiento de diccionario y una faceta de búsqueda. Ha aplicado la faceta que se basa en el diccionario al campo personalizado generado por el modelo SDU para filtrar los resultados de la consulta para obtener mejores respuestas.