IBM Cloud Docs
Dividir documentos para que los resultados de la consulta sean más sucintos

Dividir documentos para que los resultados de la consulta sean más sucintos

Divida los documentos para que la función de búsqueda pueda encontrar información más concisa para devolverla en los resultados de la consulta.

Para obtener más información sobre las ventajas de dividir documentos, consulte la publicación del blog Utilización de la nueva característica de segmentación de documentos de IBM Watson Discovery en Medium.com.

Sólo puede dividir los documentos a los que se aplica un modelo de Smart Document Understanding entrenado por el usuario.

Cuando divide un documento, el documento original se divide en segmentos. Cada segmento contiene un conjunto de información más uniforme. Al dividir el contenido de los documentos en grupos segmentados, puede enriquecer e indexar los datos a un nivel más granular.

Para controlar cómo se dividen los documentos, especifique un campo, como subtitle o question, que se utilizará como marcador de salto de página. Las opciones de salto de página se rellenan con campos que se crean al aplicar un modelo de Smart Document Understanding (SDU) entrenado por el usuario a los documentos. Para obtener más información, consulte Utilización de Smart Document Understanding. No puede dividir documentos con campos generados por un modelo de Smart Document Understanding preentrenado.

A medida que se vuelve a procesar un documento, se evalúa de principio a fin. Siempre que se produce el campo de marcador de salto de página, el documento original se divide y se crea un nuevo segmento. La división continúa en cada campo de marcador hasta que el documento original se divide en varios segmentos.

Antes de empezar, decida qué campo utilizar como marcador de salto de página.

  • Puede utilizar cualquiera de los campos indexados de forma predeterminada. Para ver las opciones, compruebe la lista Campos a indexar. Los campos que tienen un valor de Tipo se almacenan en el índice.
  • El número de segmentos por documento está limitado a 1,000. Después de crear el número de segmento 999, el contenido del documento restante se almacena en el segmento 1,000.
  • Los metadatos de documentos PDF y Microsoft Word y los metadatos personalizados se extraen e incluyen en el índice con cada segmento.

Tenga cuidado con los documentos que contienen secciones repetitivas, como un catálogo que tiene una sección de descripción y especificaciones para cada entrada de producto. Si divide el documento en un nivel demasiado granular, las subsecciones, como una sección con detalles de especificación, se pueden desasociar del producto al que pertenece.

Para dividir los documentos en una colección, realice los pasos siguientes:

  1. Pulse Gestionar colecciones en el panel de navegación y, a continuación, pulse para abrir una colección.

  2. Abra la página Gestionar campos.

    Se muestra una lista de los campos identificados.

  3. En la sección Mejorar los resultados de la búsqueda dividiendo los documentos, haga clic en Dividir documento.

  4. Elija el campo que desea utilizar como marcador de salto de página en el desplegable Seleccionar campo.

    La lista entre la que puede elegir incluye un subconjunto de todos los campos identificados.

  5. Pulse Aplicar cambios y volver a procesar.

Puede comprobar el estado del proceso de división desde la página Actividad.

El campo de metadatos incluye el ID de documento padre. Cada segmento resultante del documento original puede contener información diferente. Por ejemplo, si divide el documento basándose en el campo de subtítulo, el primer segmento puede contener sólo un campo de título. El siguiente segmento puede contener un subtítulo y un campo de texto. El tercero puede contener un campo de subtítulo, un campo de texto y un campo de pie de página.

Actualización de documentos que se han dividido

Si un documento que se ha dividido cambia y desea volver a cargar el documento, trabaje con un desarrollador para sustituir el documento utilizando la API. Un desarrollador puede utilizar el método Actualizar un documento para sustituir el documento padre original. Para más información, consulte la referencia de la API. Para proporcionar la variable de vía de acceso {document_id} que debe enviarse con la solicitud, copie el contenido del campo parent_document_id de uno de los segmentos del documento.

Cuando sustituye el documento original, se sobrescriben todos los segmentos, a menos que la versión actualizada del documento tenga menos segmentos totales que el original. Los segmentos más antiguos permanecen en el índice.

Supresión de segmentos de documento del índice

Puede suprimir documentos de una colección desde la página Gestionar datos. Para buscar todos los segmentos de documento que se han generado a partir de un único documento, compruebe si hay documentos con el mismo valor de campo metadata.parent_document_id. Para obtener más información, consulte Exclusión de contenido de los resultados de la consulta.

IBM Cloud Pak for Data IBM Cloud Pak for Data antes de la versión 4.6.5

La página Gestionar datos está disponible en los despliegues instalados a partir del release 4.6.5. En releases anteriores, un desarrollador puede suprimir segmentos de documento utilizando la API. Para obtener más información, consulte la API Suprimir documento.