IBM Cloud Docs
Elegir enriquecimientos

Elegir enriquecimientos

Añada recursos que puedan enseñar a Discovery sobre términos o patrones que tengan un significado especial para la aplicación.

En la tabla siguiente se describen los mejores recursos que se deben añadir para satisfacer diferentes necesidades.

Visión general de herramientas de dominio
Objetivo Recurso Notas
Defina las categorías por las que se puede clasificar el texto de los documentos. Clasificador N/D
Reconozca términos y sinónimos para los términos que son significativos para usted, como los nombres de los productos que vende. Diccionario N/D
Defina expresiones regulares que capturen patrones de significación como, por ejemplo, AB10045 es la sintaxis que se utiliza para los números de pedido. Expresiones regulares N/D
Reconocer y etiquetar entidades y relaciones definidas en un modelo de aprendizaje automático personalizado. Modelos de aprendizaje de máquina Requiere un modelo que se crea y exporta desde otra herramienta de IBM.
Aplique reglas a los campos que se basan en reglas que ha definido creando un modelo de reglas avanzado en IBM Watson® Knowledge Studio. Modelos de reglas avanzadas Requiere un modelo de reglas avanzadas que se crea y exporta desde IBM Watson® Knowledge Studio o que utiliza un recurso Patrones exportado.
IBM Cloud Reconocer términos que se mencionan en frases que coinciden con un patrón sintáctico que enseña a Discovery a reconocer. Patrones(beta) Disponible como característica beta para colecciones en inglés sólo en despliegues gestionados. El enriquecimiento que se deriva de la definición de patrones no se puede aplicar a proyectos de Content Mining. Puede exportar el recurso y utilizarlo como un modelo de reglas avanzadas.
Reconoce entidades que se identifican como significativas mediante el entrenamiento de un modelo de aprendizaje automático de extractor de entidades. Extractor de entidad Da soporte a partir de un corpus Knowledge Studio importado.
Clasifique las frases de los documentos en clases de frase definidas por el usuario. Clasificador de frase Soporta el etiquetado inteligente para acelerar el proceso de etiquetado.

De forma alternativa, puede aplicar enriquecimientos de NLP de Watson incorporados que encuentren la siguiente información en la colección:

Puede extraer el significado de los documentos basándose en la estructura del documento definiendo un modelo de Smart Document Understanding (SDU). Utilice la herramienta Smart Document Understanding para identificar nuevos campos por los que dirigir los enriquecimientos o para dividir documentos grandes en fragmentos más manejables. Para obtener más información, consulte Significado estructural con SDU.

Los diccionarios y clasificadores que añada a un proyecto pueden ser utilizados por otros proyectos.

Para obtener más información sobre cómo obtener el máximo provecho de los enriquecimientos, lea la publicación del blog Enriqueciendo sus documentos puede hacer que la búsqueda sea más efectiva.

Elección del tipo de enriquecimiento correcto

El diagrama siguiente le ayuda a elegir el enriquecimiento adecuado para su caso de uso.

Si desea etiquetar información significativa en los datos, busque el enriquecimiento adecuado para utilizar respondiendo a estas preguntas: ¿Desea etiquetar términos, pasajes o documentos? Si hay pasajes o documentos, cree un enriquecimiento de clasificador. Si términos, ¿los términos se expresan en una lista finita? En caso afirmativo, cree un enriquecimiento de diccionario. Si no es así, ¿la sintaxis del término sigue un patrón? Si es así, ¿todas las variaciones del término se ajustan a un único patrón? Si es así, cree una mejora de expresión regular. Si no es así, cree un enriquecimiento de patrones que utilice ejemplos de términos que proporcione para buscar patrones en variaciones de términos. Si ningún conjunto de patrones puede capturar los términos, cree un extractor de entidad para identificar los términos basándose en el contexto en el que se utilizan.
Flow diagram for choosing the right enrichment

Utilización conjunta de enriquecimientos

Puede utilizar muchos enriquecimientos juntos para abordar varios retos que puede encontrar a medida que desarrolla una aplicación de búsqueda.

Muchos equipos empiezan creando un enriquecimiento de diccionario. Los diccionarios son una gran herramienta para identificar términos importantes y etiquetarlos para que se puedan recuperar más adelante. Supongamos que está creando una aplicación de búsqueda que necesita extraer ingredientes de las recetas. Un enriquecimiento de diccionario puede reconocer menciones de la mayoría de los ingredientes. Sin embargo, el enriquecimiento del diccionario puede coincidir parcialmente con los términos de dos palabras. Para términos como olive oil o mustard greens, es posible que reconozca incorrectamente sólo olive y mustard. Para mejorar la precisión de la búsqueda, puede aumentar el enriquecimiento de diccionario con un enriquecimiento de patrón que puede reconocer menciones de ingredientes de dos palabras. Tal vez algunas recetas mencionan los códigos de coloración de los alimentos en formato europeo (E104). Puede añadir un enriquecimiento de expresión regular para reconocer apariciones de códigos con la sintaxis E1nn. Por último, para capturar términos que ningún otro enriquecimiento puede reconocer, puede utilizar un enriquecimiento de aprendizaje automático. El enriquecimiento puede ser uno que cree en una herramienta externa e importe en Discovery o uno que cree en Discovery creando un enriquecimiento extractor de entidad.

El enriquecimiento de extractor de entidad es más sofisticado que los otros enriquecimientos. Por ejemplo, un enriquecimiento de diccionario sólo reconoce coincidencias exactas de términos de diccionario y sinónimos que se producen en los documentos. Un enriquecimiento de expresión regular sólo reconoce patrones específicos. Por el contrario, las apariciones de una entidad se reconocen basándose en el contexto en el que se menciona un ejemplo de entidad en una frase.

Por ejemplo, tal vez desee reconocer ubicaciones y el documento que desea procesar contiene los siguientes tipos de frases:

  • Vivo en Massachusetts.
  • Viajaremos de New York City a Paris la próxima semana.

Para utilizar un enriquecimiento de diccionario para reconocer nombres de ubicación correctamente, el diccionario debe listar todas las ubicaciones posibles. Sin embargo, si utiliza un enriquecimiento de extractor de entidad, puede identificar cuándo se menciona una ubicación basándose en cómo se hace referencia a la ubicación en una frase. Con frases como, por ejemplo, "Vivo en x" o "Soy de x" o "Estoy viajando a x" en sus datos de entrenamiento, el extractor de entidad puede aprender que x es una referencia a una ubicación.

Cuando necesite elegir entre utilizar un diccionario o un enriquecimiento de extractor de entidad, siga estas directrices:

  • Si la lista de ejemplos posibles es corta, utilice un diccionario.

    Es más eficiente definir un término de diccionario planet con sinónimos como Earth y Saturn que crear una entidad planet porque solo existen 8 planetas en nuestro sistema solar. Sin embargo, definir una lista de cada posible ubicación en la Tierra no es factible. Un extractor de entidad puede reconocer más menciones de ubicación.

  • Si la lista de ejemplos posibles es estática, utilice un diccionario.

    Controversia sobre Plutón aparte, la categoría planet es un buen ejemplo aquí también porque la lista de planetas en nuestro sistema solar es estática. O tal vez desee supervisar la opinión general de los clientes sobre sus productos. Es necesario que pueda reconocer las menciones de nombre de producto, pero es posible que no necesite detalles específicos. Si tiene una gran variedad de nombres de producto, puede crear una entidad product name. A medida que se añaden nuevos productos a su portfolio, o que los nombres de productos cambian con el tiempo, no es necesario mantener una lista de productos global. El extractor de entidad puede seguir reconociendo comentarios generales sobre sus productos basándose en el contexto de las frases en las que se mencionan los productos.

Añadir un recurso

Cuando añade un enriquecimiento personalizado a un proyecto, está disponible para cualquier colección del proyecto.

Para añadir un recurso, siga estos pasos:

  1. Abra el proyecto y vaya a la página Mejorar y personalizar.

  2. En el panel Herramientas de mejora, expanda Enseñar conceptos de dominio y, a continuación, elija el recurso que desea añadir.

    Después de crear el recurso, se convierte en un nuevo tipo de enriquecimiento que puede aplicar a los datos.

  3. Especifique la colección y el campo en los que se aplicará el enriquecimiento.

    Puede aplicar enriquecimientos a los campos text y html, y a los campos personalizados que se han añadido desde archivos JSON o CSV cargados o desde la herramienta Smart Document Understanding (SDU). Solo se enriquecen los primeros 50.000 caracteres de un campo personalizado de un archivo JSON.

    Por ejemplo, si añade un diccionario y elige aplicarlo al campo text de una colección, los documentos de la colección se vuelven a procesar. Si el término vehicle se especifica como sinónimo de la entrada del diccionario car y aparece en el texto del documento, vehicle se etiqueta como una mención del tipo de entrada del diccionario car. Si un cliente busca posteriormente car, el pasaje que contiene la mención vehicle se incluye en los resultados de la búsqueda.

    Si el campo que elige procede de un archivo JSON, después de aplicar el enriquecimiento, el tipo de datos de campo se convierte en una matriz. El campo se convierte en una matriz incluso si contiene un único valor. Por ejemplo, "field1": "Discovery" pasa a ser "field1": ["Discovery"].

Puede optar por aplicar enriquecimientos derivados de recursos a los datos más adelante. Los enriquecimientos que añada a un proyecto están disponibles para su uso desde cualquier colección del proyecto. Vaya a la página Gestionar colecciones, elija la colección donde desea aplicar el enriquecimiento y, a continuación, abra el separador Enriquecimientos. Asegúrese de que el estado del enriquecimiento muestra que es Preparadoy, a continuación, aplique el enriquecimiento a un campo de la colección. Los enriquecimientos que habilite se aplicarán a los documentos en orden aleatorio. Para obtener más información, consulte Gestión de enriquecimientos.

Desde la aplicación Content Mining desplegada, puede crear un clasificador o un anotador personalizado a partir de un diccionario, expresión regular, aprendizaje automático o archivo PEAR y utilizarlo como enriquecimiento en colecciones almacenadas en otros tipos de proyecto. Para obtener más información, consulte Adición de facetas.