Elegir enriquecimientos
Añada recursos que puedan enseñar a Discovery sobre términos o patrones que tengan un significado especial para la aplicación.
En la tabla siguiente se describen los mejores recursos que se deben añadir para satisfacer diferentes necesidades.
Objetivo | Recurso | Notas |
---|---|---|
Defina las categorías por las que se puede clasificar el texto de los documentos. | Clasificador | N/D |
Reconozca términos y sinónimos para los términos que son significativos para usted, como los nombres de los productos que vende. | Diccionario | N/D |
Defina expresiones regulares que capturen patrones de significación como, por ejemplo, AB10045 es la sintaxis que se utiliza para los números de pedido. |
Expresiones regulares | N/D |
Reconocer y etiquetar entidades y relaciones definidas en un modelo de aprendizaje automático personalizado. | Modelos de aprendizaje de máquina | Requiere un modelo que se crea y exporta desde otra herramienta de IBM. |
Aplique reglas a los campos que se basan en reglas que ha definido creando un modelo de reglas avanzado en IBM Watson® Knowledge Studio. | Modelos de reglas avanzadas | Requiere un modelo de reglas avanzadas que se crea y exporta desde IBM Watson® Knowledge Studio o que utiliza un recurso Patrones exportado. |
IBM Cloud Reconocer términos que se mencionan en frases que coinciden con un patrón sintáctico que enseña a Discovery a reconocer. | Patrones(beta) | Disponible como característica beta para colecciones en inglés sólo en despliegues gestionados. El enriquecimiento que se deriva de la definición de patrones no se puede aplicar a proyectos de Content Mining. Puede exportar el recurso y utilizarlo como un modelo de reglas avanzadas. |
Reconoce entidades que se identifican como significativas mediante el entrenamiento de un modelo de aprendizaje automático de extractor de entidades. | Extractor de entidad | Da soporte a partir de un corpus Knowledge Studio importado. |
Clasifique las frases de los documentos en clases de frase definidas por el usuario. | Clasificador de frase | Soporta el etiquetado inteligente para acelerar el proceso de etiquetado. |
De forma alternativa, puede aplicar enriquecimientos de NLP de Watson incorporados que encuentren la siguiente información en la colección:
Puede extraer el significado de los documentos basándose en la estructura del documento definiendo un modelo de Smart Document Understanding (SDU). Utilice la herramienta Smart Document Understanding para identificar nuevos campos por los que dirigir los enriquecimientos o para dividir documentos grandes en fragmentos más manejables. Para obtener más información, consulte Significado estructural con SDU.
Los diccionarios y clasificadores que añada a un proyecto pueden ser utilizados por otros proyectos.
Para obtener más información sobre cómo obtener el máximo provecho de los enriquecimientos, lea la publicación del blog Enriqueciendo sus documentos puede hacer que la búsqueda sea más efectiva.
Elección del tipo de enriquecimiento correcto
El diagrama siguiente le ayuda a elegir el enriquecimiento adecuado para su caso de uso.

Utilización conjunta de enriquecimientos
Puede utilizar muchos enriquecimientos juntos para abordar varios retos que puede encontrar a medida que desarrolla una aplicación de búsqueda.
Muchos equipos empiezan creando un enriquecimiento de diccionario. Los diccionarios son una gran herramienta para identificar términos importantes y etiquetarlos para que se puedan recuperar más adelante. Supongamos que está
creando una aplicación de búsqueda que necesita extraer ingredientes de las recetas. Un enriquecimiento de diccionario puede reconocer menciones de la mayoría de los ingredientes. Sin embargo, el enriquecimiento del diccionario puede coincidir
parcialmente con los términos de dos palabras. Para términos como olive oil
o mustard greens
, es posible que reconozca incorrectamente sólo olive
y mustard
. Para mejorar la precisión de la
búsqueda, puede aumentar el enriquecimiento de diccionario con un enriquecimiento de patrón que puede reconocer menciones de ingredientes de dos palabras. Tal vez algunas recetas mencionan los códigos de coloración de los
alimentos en formato europeo (E104
). Puede añadir un enriquecimiento de expresión regular para reconocer apariciones de códigos con la sintaxis E1nn
. Por último, para capturar términos que ningún
otro enriquecimiento puede reconocer, puede utilizar un enriquecimiento de aprendizaje automático. El enriquecimiento puede ser uno que cree en una herramienta externa e importe en Discovery o uno que cree en Discovery creando
un enriquecimiento extractor de entidad.
El enriquecimiento de extractor de entidad es más sofisticado que los otros enriquecimientos. Por ejemplo, un enriquecimiento de diccionario sólo reconoce coincidencias exactas de términos de diccionario y sinónimos que se producen en los documentos. Un enriquecimiento de expresión regular sólo reconoce patrones específicos. Por el contrario, las apariciones de una entidad se reconocen basándose en el contexto en el que se menciona un ejemplo de entidad en una frase.
Por ejemplo, tal vez desee reconocer ubicaciones y el documento que desea procesar contiene los siguientes tipos de frases:
- Vivo en
Massachusetts
. - Viajaremos de
New York City
aParis
la próxima semana.
Para utilizar un enriquecimiento de diccionario para reconocer nombres de ubicación correctamente, el diccionario debe listar todas las ubicaciones posibles. Sin embargo, si utiliza un enriquecimiento de extractor de entidad, puede identificar
cuándo se menciona una ubicación basándose en cómo se hace referencia a la ubicación en una frase. Con frases como, por ejemplo, "Vivo en x
" o "Soy de x
" o "Estoy viajando a x
"
en sus datos de entrenamiento, el extractor de entidad puede aprender que x
es una referencia a una ubicación.
Cuando necesite elegir entre utilizar un diccionario o un enriquecimiento de extractor de entidad, siga estas directrices:
-
Si la lista de ejemplos posibles es corta, utilice un diccionario.
Es más eficiente definir un término de diccionario
planet
con sinónimos comoEarth
ySaturn
que crear una entidadplanet
porque solo existen 8 planetas en nuestro sistema solar. Sin embargo, definir una lista de cada posible ubicación en la Tierra no es factible. Un extractor de entidad puede reconocer más menciones de ubicación. -
Si la lista de ejemplos posibles es estática, utilice un diccionario.
Controversia sobre Plutón aparte, la categoría
planet
es un buen ejemplo aquí también porque la lista de planetas en nuestro sistema solar es estática. O tal vez desee supervisar la opinión general de los clientes sobre sus productos. Es necesario que pueda reconocer las menciones de nombre de producto, pero es posible que no necesite detalles específicos. Si tiene una gran variedad de nombres de producto, puede crear una entidadproduct name
. A medida que se añaden nuevos productos a su portfolio, o que los nombres de productos cambian con el tiempo, no es necesario mantener una lista de productos global. El extractor de entidad puede seguir reconociendo comentarios generales sobre sus productos basándose en el contexto de las frases en las que se mencionan los productos.
Añadir un recurso
Cuando añade un enriquecimiento personalizado a un proyecto, está disponible para cualquier colección del proyecto.
Para añadir un recurso, siga estos pasos:
-
Abra el proyecto y vaya a la página Mejorar y personalizar.
-
En el panel Herramientas de mejora, expanda Enseñar conceptos de dominio y, a continuación, elija el recurso que desea añadir.
Después de crear el recurso, se convierte en un nuevo tipo de enriquecimiento que puede aplicar a los datos.
-
Especifique la colección y el campo en los que se aplicará el enriquecimiento.
Puede aplicar enriquecimientos a los campos
text
yhtml
, y a los campos personalizados que se han añadido desde archivos JSON o CSV cargados o desde la herramienta Smart Document Understanding (SDU). Solo se enriquecen los primeros 50.000 caracteres de un campo personalizado de un archivo JSON.Por ejemplo, si añade un diccionario y elige aplicarlo al campo
text
de una colección, los documentos de la colección se vuelven a procesar. Si el términovehicle
se especifica como sinónimo de la entrada del diccionariocar
y aparece en el texto del documento,vehicle
se etiqueta como una mención del tipo de entrada del diccionariocar
. Si un cliente busca posteriormentecar
, el pasaje que contiene la menciónvehicle
se incluye en los resultados de la búsqueda.Si el campo que elige procede de un archivo JSON, después de aplicar el enriquecimiento, el tipo de datos de campo se convierte en una matriz. El campo se convierte en una matriz incluso si contiene un único valor. Por ejemplo,
"field1": "Discovery"
pasa a ser"field1": ["Discovery"]
.
Puede optar por aplicar enriquecimientos derivados de recursos a los datos más adelante. Los enriquecimientos que añada a un proyecto están disponibles para su uso desde cualquier colección del proyecto. Vaya a la página Gestionar colecciones, elija la colección donde desea aplicar el enriquecimiento y, a continuación, abra el separador Enriquecimientos. Asegúrese de que el estado del enriquecimiento muestra que es Preparadoy, a continuación, aplique el enriquecimiento a un campo de la colección. Los enriquecimientos que habilite se aplicarán a los documentos en orden aleatorio. Para obtener más información, consulte Gestión de enriquecimientos.
Desde la aplicación Content Mining desplegada, puede crear un clasificador o un anotador personalizado a partir de un diccionario, expresión regular, aprendizaje automático o archivo PEAR y utilizarlo como enriquecimiento en colecciones almacenadas en otros tipos de proyecto. Para obtener más información, consulte Adición de facetas.