Utilizar Smart Document Understanding (SDU) para mejorar los resultados de la búsqueda
En esta guía de aprendizaje, utiliza la característica Smart Document Understanding del servicio Discovery para crear un modelo de Smart Document Understanding (SDU) entrenado por el usuario. A continuación, divida un único documento en muchos documentos más pequeños para que algunos tipos de respuestas sean más fáciles de encontrar.
Esta guía de aprendizaje funciona con despliegues gestionados e instalados.
Objetivos de aprendizaje
Cuando termine la guía de aprendizaje, habrá aprendido a:
- Cree un proyecto de recuperación de documentos en Discovery.
- Cargue un documento PDF en el proyecto Discovery.
- Utilice la herramienta Smart Document Understanding (SDU) para crear un modelo de SDU entrenado por el usuario.
- Divida un documento en fragmentos más pequeños y más consumibles.
Duración
Este tutorial tarda aproximadamente 3 horas en completarse.
Requisito previo
-
Antes de empezar, debe configurar una cuenta de pago con IBM Cloud.
Puede completar esta guía de aprendizaje sin coste alguno utilizando un plan Plus, que ofrece una prueba de 30 días sin coste alguno. Sin embargo, para crear una instancia del servicio de plan Plus, debe tener una cuenta de pago (en la que se proporciona la información de la tarjeta de crédito). Para obtener más información sobre la creación de una cuenta de pago, consulte Actualización de la cuenta.
-
Cree una instancia del servicio Discovery de plan Plus.
Vaya a la página RecursoDiscovery en el catálogo IBM Cloud y cree una instancia de servicio del plan Plus.
Si decide dejar de utilizar el plan Plus y no quiere pagarlo, elimine la instancia de servicio del plan Plus antes de que finalice el periodo de prueba de 30 días.
Crear el proyecto de recuperación de documentos
Cree un proyecto. Elija crear un tipo de proyecto de recuperación de documentos. Este tipo está optimizado para buscar respuestas que se devuelven como pasajes de documentos grandes.
Para obtener más información sobre los tipos de proyecto, consulte Creación de proyectos.
- En la página de servicio del plan Discovery Plus en IBM Cloud, pulse Iniciar Discovery.
- En la página Mis proyectos, haga clic en Nuevo proyecto.
- Asigne el nombre
Finance tutorial project
al proyecto y, a continuación, seleccione el tipo de proyecto Recuperación de documentos. - Pulse Siguiente.
Configurará el origen de datos para el proyecto en el paso siguiente.
Cargar un archivo PDF
Queremos que la aplicación de búsqueda sea capaz de responder a las preguntas sobre el comercio algorítmico. Por lo tanto, estamos agregando el PDF "Staff Report on Algorithmic Trading in US Capital Markets" que fue creado el 5 de agosto de 2020 como fuente de datos para el proyecto.
-
Obtenga una copia del PDF para que pueda cargarlo en el proyecto. Puede descargar el archivo desde el sitio web de US Securities and Exchange Commission.
-
Cargar datos en la colección.
-
Pulse Finalizar.
Sólo añade un archivo. En un escenario real, puede cargar varios archivos con información sobre el mismo tema. Al añadir más archivos, puede ampliar la amplitud de la información que la aplicación de búsqueda puede aprovechar.
El servicio carga el documento. A medida que carga el documento, Discovery rastrea los datos e indexa la información clave. Puesto que ha creado un tipo de proyecto de recuperación de documentos, Discovery toma nota de la información de Entidades que encuentra y reconoce a medida que rastrea el documento.
Revisar el documento
El análisis e indexación del documento puede tardar unos minutos. Mientras el proceso está en curso, revise el documento de origen para obtener una opinión sobre su contenido. Es una buena idea comprender la estructura de sus propios documentos antes de utilizar la herramienta Smart Document Understanding para anotarlos.
Smart Document Understanding (SDU) utiliza tecnologías de imagen visual para comprender la estructura de un documento analizando el formato y el posicionamiento del texto. Puede etiquetar secciones del documento, como subtítulos o tablas, para enseñar a Discovery a reconocer las secciones. También puede etiquetar las secciones que desea que la función de búsqueda ignore. Por ejemplo, es posible que no desee buscar en los pies de página o en la información de tabla de contenido. Después de enseñar a la herramienta SDU a reconocer los pies de página, por ejemplo, puede excluir el campo de pie de página del índice.
-
Supervise el progreso del proceso de recopilación abriendo la pestaña Actividad.
Pulse Gestionar colecciones en el panel de navegación.
Manage collections menu option from the navigation panel Pulse el mosaico de la colección Algorithmic Trading PDF. La colección se abre en la pestaña Actividad.
-
Mientras espera a que la colección esté lista, abra el archivo
Algo_Trading_Report_2020.pdf
que ha descargado anteriormente. -
Revise la estructura del documento.
Tenga en cuenta que el documento consta principalmente de las siguientes estructuras:
- Título
- Tabla de contenido
- Subtítulos
- Texto
- Notas al pie
- Bibliografía
-
La herramienta SDU tiene etiquetas predefinidas para todos excepto
footnotes
ybibliography
. Creará nuevas etiquetas de campo para estas dos estructuras de documento en un procedimiento posterior.
El proceso finaliza cuando la página muestra que hay un documento disponible.

Probar el proyecto
-
Una vez completado el rastreo, vaya a la página Mejorar y personalizar. En el panel de navegación, pulse Mejorar y personalizar.
-
En el campo Buscar, especifique
When did the Flash Crash occur and why?
Se devuelve el siguiente pasaje como respuesta:
These could in turn generate systemic destabilizing market events, such as the May 2010 “Flash Crash.” The “Flash Crash” occurred on May 6, 2010, when an algorithm rapidly sold 75,000 S&P500 e-mini futures contracts.
El pasaje devuelto contiene una respuesta precisa a la pregunta.
Resultados de la búsqueda -
Haga otra pregunta,
What is the purpose of Rule 15c3-5?
Se devuelve el siguiente pasaje como respuesta:
mechanism.306 b. 15c3-5 In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers
Una vez más, la respuesta es exacta (a pesar de que hay algún texto extraño al principio del pasaje).
En ambos ejemplos, se hace una pregunta algo compleja y el pasaje que se devuelve proporciona una respuesta válida.
Sin embargo, no todas las preguntas devuelven una respuesta tan clara. A continuación, intentamos algunas consultas que generan respuestas que podríamos querer mejorar.
-
Especifique
Where do muni bond trades get reported to?
En este caso, la respuesta no responde completamente a la pregunta.
Post-trade transparency, in the form of transaction reports, generally is available for corporate and municipal bonds. 1. Transaction Reports in Corporate Bonds: TRACE Transactions in corporate bonds must be reported to the Trade Reporting
-
De forma similar, la consulta de búsqueda,
What are PTFs?
, no devuelve una respuesta directa.Despite the surge in trading volume during the event window, there was no noticeable change in net positions of PTFs or bank-dealers. However, the report also finds evidence that some PTFs and bank-dealers may have contributed to the volatility
Su proyecto está respondiendo a algunas de las preguntas con éxito. Sólo se devuelve un pasaje para cada consulta. Vamos a ver si podemos mejorar las respuestas que se dan a estas consultas de búsqueda más sencillas.
Crear un modelo de Smart Document Understanding (SDU) entrenado por el usuario
Para mejorar la calidad de los resultados de la búsqueda, cree un modelo de Smart Document Understanding para este documento. El modelo ayuda a Discovery a comprender la estructura del documento. A continuación, puede indicar a Discovery qué secciones del documento se deben buscar y qué secciones se deben ignorar.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Definir estructuray, a continuación, pulse Nuevos campos.
New fields tool in the Improvement tools panel -
Se visualiza la pestaña Identificar campos, donde puede elegir el tipo de modelo de Smart Document Understanding que desea utilizar.
Identify fields tab - El modelo entrenado previamente aplica un modelo no personalizable que extrae texto e identifica tablas, listas y secciones. El modelo preentrenado es una gran opción para ahorrar tiempo.
- Para los fines de esta guía de aprendizaje, donde queremos explorar cómo funciona la herramienta Smart Document Understanding, elegiremos utilizar el modelo entrenado por el usuario.
Si no elige un modelo, el modelo de extracción de texto se aplica automáticamente. Con el modelo de extracción de texto, la mayor parte del contenido del documento se trata como texto estándar y se indexa en el campo
text
. -
Pulse Modelos entrenados por el usuario y, a continuación, pulse Enviar.
Confirmation dialog for user-trained model -
Pulse Aplicar cambios y volver a procesar.
Apply changes and reprocess button Una vez completado el proceso de evaluación, se muestra una representación del documento en la herramienta Smart Document Understanding.
PDF is displayed in the SDU tool La herramienta le muestra una vista del documento original junto con una representación del documento, donde el texto se sustituye por bloques. Los bloques representan tipos de campo.
Inicialmente, los bloques son todos del color de la etiqueta de campo
text
porque todo el contenido del documento se considera texto estándar y se indexará en el campotext
.Una lista Etiquetas de campo muestra las etiquetas de campo predefinidas que están disponibles.
Vamos a etiquetar los bloques que representan tipos específicos de información, como títulos y subtítulos, con las etiquetas de campo correspondientes. (El proceso de utilizar etiquetas para identificar distintas partes de la estructura del documento se denomina anotación del documento.)
-
Para anotar el documento, haga clic en la etiqueta primero. A continuación, pulse el bloque de texto que desea etiquetar.
Pulse
title
en la lista Etiquetas de campo y, a continuación, en la representación del documento, pulse el bloque amarillo situado en la ubicación del título del documento.A title is being labeled in the Smart Document Understanding tool Ha etiquetado el título del documento correctamente.
-
El resto del texto de la página se puede indexar como parte del campo
text
. Por lo tanto, haga clic en Enviar página. -
La página siguiente es la Tabla de contenido del documento. Pulse la etiqueta
table_of_contents
y, a continuación, seleccione todo el texto de la página para etiquetarlo. (Puede pulsar y arrastrar el ratón para seleccionar todo.) Pulse Enviar página para pasar a la página siguiente.A table of contents is being labeled in the Smart Document Understanding tool -
Las dos cabeceras de la página son subtítulos. Pulse la etiqueta
subtitle
y, a continuación, seleccione las cabeceras.Esta página tiene una nota a pie de página. Como hemos señalado anteriormente, el documento contiene muchas notas a pie de página en las que se proporciona información importante. Etiquetemos las notas al pie para que podamos incluir o excluir este tipo de información más adelante. No hay etiqueta de nota a pie de página, por lo que debemos añadir una.
-
En la lista Etiquetas de campo, pulse Crear nuevo. Añada el nombre
footnote
como nombre de etiqueta. Pulse el bloque de colores repetidamente hasta que encuentre un color exclusivo para utilizar para la etiqueta y, a continuación, pulse Crear.New label dialog -
Pulse la nueva etiqueta de nota a pie de página que ha añadido y, a continuación, etiquete la nota a pie de página en la página con la etiqueta. Pulse Enviar página para pasar a la página siguiente.
A footnote is being labeled in the Smart Document Understanding tool -
Repita este proceso para etiquetar y enviar varias páginas.
Para la mayoría de las páginas, el contenido incluye un
subtitle
, unfootnote
y la mayor parte del contenido de la página permanece etiquetado comotext
.Subtitle, footnote, and text labels are being applied A medida que etiqueta y envía páginas, el modelo aprende de las anotaciones que realiza. Poco a poco, las etiquetas que se aplican automáticamente se vuelven precisas y no requieren ningún ajuste.
Si la herramienta se vuelve demasiado celosa en la aplicación de etiquetas, aplique la etiqueta
text
a las secciones de texto estándar para corregirla. -
Para las tablas, seleccione el título de la tabla y toda la tabla y etiquete las tablas con la etiqueta
table
.A table is being labeled -
Cuando una página contiene una imagen, la imagen no se visualiza en la representación de la página.
Las imágenes nunca se replican. Sin embargo, puede capturar el texto de una imagen para que se pueda buscar en el texto de la imagen. Para ello, habilite la característica Reconocimiento óptico de caracteres (OCR) cuando cree una colección. OCR es útil en los casos en los que desea extraer texto de imágenes, como por ejemplo de un PDF escaneado, donde el texto está incorporado en una imagen. Para obtener más información, consulte Reconocimiento de caracteres ópticos.
Después de habilitar OCR, si desea eliminar el texto de imagen anotado del índice de colección, puede etiquetar la imagen para que pueda excluir el texto asociado. Aprenderá a configurar el índice en el siguiente procedimiento.
Shows an image in the page -
Cuando llegue a la Bibliografía, cree una nueva etiqueta denominada
bibliography
.Creating a bibliography label Aplique la nueva etiqueta a cada página.
A bibliography label is being applied -
Después de anotar y enviar todas las páginas, pulse Aplicar cambios y volver a procesar.
Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página de la herramienta SDU, pero el botón Aplicar cambios y reprocesar está inhabilitado.
Se genera un modelo SDU basado en las estructuras que ha etiquetado en este documento.
Para obtener más información sobre la característica Smart Document Understanding, consulte Utilización de Smart Document Understanding.
Agilice los datos que se pueden buscar
Ahora que tiene un modelo SDU que puede reconocer los diferentes tipos de secciones en el documento, puede indicarle que incluya algunas secciones en las búsquedas y que excluya otras. Para controlar qué datos se buscan, incluya o excluya campos del índice de búsqueda.
-
Pulse Gestionar campos.
The Manage fields tab -
En la lista de campos a indexar, establezca el conmutador en No para todos los campos excepto estos:
footnote
html
subtitle
table
text
de la -
Pulse Aplicar cambios y volver a procesar.
Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página Gestionar campos, pero el botón Aplicar cambios y reprocesar está inhabilitado.
Ha configurado correctamente el índice para controlar el contenido que está disponible para las búsquedas. Ha excluido campos que pueden contener términos de búsqueda populares, pero no incluyen también contenido significativo.
Para obtener más información sobre la gestión de campos, consulte Exclusión de contenido de los resultados de la consulta.
Dividir el documento
Ahora que Discovery sabe más sobre la estructura del documento, podemos dividir el único documento de 99 páginas en más documentos. Recuerde que solo se ha devuelto un pasaje para cada consulta que ha enviado antes. Si dividimos el documento en varios segmentos, Discovery puede devolver los mejores pasajes de todos los segmentos del documento.
Cuando divide un documento, convierte un documento en muchos documentos. Tenga en cuenta los límites de documento para el tipo de plan. Cada segmento de documento que se genera dividiendo un documento cuenta para el límite de documentos del plan.
Cuando ha anotado el documento, ha identificado el campo subtitle
. Estos subtítulos son un buen marcador a partir del cual puede comenzar cada nuevo segmento de documento.
-
En la sección Mejorar los resultados de la consulta dividiendo los documentos de la página Gestionar campos, pulse Dividir documento.
-
Seleccione
subtitle
en el campo Dividir documento en cada aparición de.la división de documentos en el -
Pulse Aplicar cambios y volver a procesar.
Se muestra una notificación para indicar que la colección se ha actualizado. Permanece en la página Gestionar campos, pero el botón Aplicar cambios y reprocesar está inhabilitado.
-
Pulse Actividad en la cabecera de página para volver a la página Actividad donde puede supervisar el progreso del cambio que ha realizado.
Cuando no se está procesando ningún documento, la división de documentos ha finalizado.
Para obtener más información sobre la división de documentos, consulte Dividir documentos para que los resultados de la consulta sean más sucintos.
Volver a probar el proyecto
Vamos a averiguar si hemos mejorado la función de búsqueda añadiendo un modelo SDU entrenado por el usuario para el documento. Para hacerlo, volvamos a probar el proyecto.
-
En el panel de navegación, pulse Mejorar y personalizar para abrir la página Mejorar y personalizar.
-
En primer lugar, para asegurarnos de que no degradamos la calidad de la búsqueda, hagamos una de las preguntas que devolvieron una buena respuesta cuando probamos antes.
En el campo Buscar, especifique
What is the purpose of Rule 15c3-5?
Query added to the Improve and customize page Esta vez se devuelven varias respuestas. La respuesta siguiente contiene la respuesta exacta a la pregunta sin ningún texto extraño:
In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers.
Multiple responses are returned for the query Nuestras actualizaciones solo mejoraron la calidad de las respuestas precisas que se devolvieron antes.
-
Ahora, hagamos una pregunta que devolvió malos resultados previamente. Especifique
What are PTFs?
como consulta de búsqueda.Se devuelve de nuevo la misma respuesta que la única respuesta de la última vez. Sin embargo, esta vez obtenemos más de una respuesta. Y podemos ver que la segunda respuesta que se devuelve define el acrónimo para nosotros.
(“principal trading firms” or “PTFs”)
Responses that answer the question about PTFs -
Vamos a probar la otra consulta de búsqueda problemática. Especifique
Where do muni bond trades get reported to?
como consulta de búsqueda.Esta vez es la tercera respuesta que proporciona una respuesta a la pregunta. Debe ver el pasaje completo para ver la definición completa.
Responses that answer the question about muni bonds Pulse el enlace Ver pasaje en documento para ver la definición completa resaltada en el documento.
Transactions in municipal bonds must be reported to the Municipal Securities Rulemaking Board’s (MSRB) Real-time Transaction Reporting System (RTRS).
Enhorabuena. Ha añadido correctamente un modelo de Smart Document Understanding (SDU) entrenado por el usuario que mejora la calidad del proyecto de búsqueda.
Filtrar resultados con una faceta basada en diccionario
Ahora que estamos obteniendo más pasajes devueltos por consulta, puede ser útil filtrar los resultados. Para filtrar los resultados en función de los tipos de instrumentos financieros que se mencionan, podemos añadir una faceta de búsqueda. Un origen disponible para una faceta es un diccionario.
-
Para crear un diccionario, en el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominioy, a continuación, pulse Diccionarios.
-
Pulse Nuevo.
New button in the dictionary page -
Especifique
Financial instruments
como nombre de diccionario, añada el términomunicipal bond
y, a continuación, pulse el botón Añadir término.Financial instruments dictionary with one term -
Añada sinónimos para el término pulsando el icono de edición para el término.
Municipal Bonds, muni, munis, muni bonds
Añada sinónimos en una lista separada por comas y, a continuación, pulse Guardar término.
-
Pulse Guardar diccionario.
Puede elegir un campo en el documento donde desea que se aplique el enriquecimiento. Vamos a elegir el campo
subtitle
que se ha generado al crear el modelo de SDU entrenado por el usuario. En el campo Campos para enriquecer, seleccionesubtitle
. Pulse Aplicar.Se crea el diccionario y se analiza cada subtítulo del documento en busca de menciones de términos o sinónimos definidos en el diccionario. Las menciones que se encuentren se anotarán en el índice.
-
Pulse Mejorar y personalizar en el panel de navegación.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Personalizar visualizacióny, a continuación, pulse Facetas.
-
Haga clic en Nueva faceta y, a continuación, seleccione De campos existentes en una colección.
-
Elija el campo de índice que está asociado con el enriquecimiento de diccionario que ha aplicado al campo
subtitle
. En el campo Campo, seleccioneenriched_subsection.entities.mentions.text
Fields from which you can create a facet Es posible que tenga que pasar el cursor por encima de las entradas para ver los nombres de campo completos.
-
Añada una etiqueta como, por ejemplo,
Dictionary terms
al campo Etiqueta y, a continuación, pulse Aplicar.Facet was created -
Especifique
Where do muni bond trades get reported to?
como consulta de búsqueda.La faceta Términos del diccionario que ha creado se muestra junto con los resultados de la búsqueda. Se muestra un recuadro de selección
Municipal Bonds
, que indica que al menos uno de los pasajes devueltos se extrae de un segmento de documento con el términoMunicipal Bonds
en su camposubtitle
.Dictionary term facet with a Municipal Bonds option -
Para filtrar los resultados para mostrar sólo pasajes de secciones con
Municipal Bonds
en el subtítulo, seleccione el recuadro de selecciónMunicipal Bonds
.La mejor respuesta se lista ahora como la segunda respuesta en lugar de la tercera.
respuesta es el segundo
Resumen
En esta guía de aprendizaje, ha creado un proyecto de recuperación de documentos, un modelo de Smart Document Understanding (SDU), un enriquecimiento de diccionario y una faceta de búsqueda. Ha aplicado la faceta que se basa en el diccionario al campo personalizado generado por el modelo SDU para filtrar los resultados de la consulta para obtener mejores respuestas.