Definir entidades personalizadas
Enseñe a Discovery sobre los términos que son significativos para su empresa mediante la creación de un extractor de entidad.
Un extractor de entidad es un modelo de aprendizaje automático que reconoce y etiqueta los términos que indica que son significativos para su caso de uso o necesidad empresarial. Al crear un extractor de entidad, puede decidir el contenido y el ámbito de la información que desea buscar y extraer. El extractor puede extraer cualquiera de las siguientes cosas:
- Términos que representan objetos, como los nombres de vegetales de las recetas de cocina o la marca y el modelo de los coches de los informes de accidentes
- Atributos de objetos, como color y cantidad
- Frases cortas, como
107 deaths in France
,revenue of $343M
Un tipo de entidad es un tipo de cosa. Para crear un extractor de entidad, defina un conjunto de tipos de entidad que le interesen. A continuación, puede anotar una colección de sus propios documentos buscando términos o frases que representen el tipo de información que desea extraer y etiquetándolos como ejemplos de entidad.
Después de definir tipos de entidad y ejemplos de entidad de etiqueta, puede generar un modelo de aprendizaje automático. El modelo se entera de la información que le interesa en función de cómo se hace referencia en las oraciones a los términos o frases que etiquete como ejemplos. El modelo aprende del contexto y el idioma con los que se hace referencia a los ejemplos de entidad en los datos de entrenamiento.
Después de que el modelo de aprendizaje automático se haya entrenado lo suficientemente bien como para reconocer los tipos de entidad, puede publicar el modelo como un enriquecimiento y aplicar el enriquecimiento a nuevos documentos. El enriquecimiento de extractor de entidad personalizado reconoce y etiqueta nuevas menciones de los mismos términos y términos similares como apariciones de los tipos de entidad que le interesan.
Para obtener más información sobre cómo utilizar el extractor de entidad para añadir personalización de dominio a las aplicaciones de IA, consulte la publicación de blog Entity Extractor Feature en Watson Discovery v2.
Discovery también tiene un enriquecimiento Entidades incorporado que se puede aplicar directamente a la colección. No requiere ningún entrenamiento para reconocer los sustantivos apropiados comúnmente conocidos. Para obtener más información sobre el enriquecimiento de entidades NLP de Watson, consulte Entidades.
¿Ya ha creado un sistema de tipos de entidad en Knowledge Studio? Puede utilizar el corpus que está asociado con el modelo de aprendizaje automático como punto de partida para los datos de entrenamiento del extractor de entidad. Para obtener más información, consulte Importación de un corpus.
Para obtener información sobre los idiomas con los que se puede utilizar el extractor de entidad, consulte Soporte de idiomas.
Vídeo de visión general del extractor de entidad
Este vídeo proporciona una visión general de cómo definir tipos de entidad personalizados y, a continuación, utilizarlos para extraer términos de interés de los datos.
Para leer una transcripción del vídeo, abra el vídeo en YouTube.com, pulse el icono Más acciones y, a continuación, seleccione Abrir transcripción.
Ejemplo
Si está familiarizado con el enriquecimiento Entidades incorporadas, sabe que el enriquecimiento puede reconocer términos que coincidan con categorías generalizadas, como Person
y Location
. Con el extractor de entidad,
puede controlar lo que constituye términos o frases que son significativos.
La imagen siguiente muestra los términos que una mejora que reconoce las menciones de tipo de entidad family members
puede extraer del texto. El ejemplo ilustra cómo se pueden predecir las menciones de miembros de la familia y otras
menciones de entidades (que son reconocidas por el enriquecimiento Entidades incorporado).

Este extracto procede del capítulo 3 de Orgullo y prejuicio de Jane Austen.
Antes de empezar
Busque o cree una colección con documentos que tengan varios ejemplos de los tipos de entidad sobre los que desea obtener información de Discovery. Para enseñar al extractor, debe etiquetar ejemplos de tipos de entidad. Sólo puede etiquetar ejemplos si la colección contiene ejemplos válidos. Intente encontrar documentos que tengan muchos y diversos términos que funcionen como ejemplos de cada tipo de entidad que desee definir.
Adición de un extractor de entidad
Para añadir un extractor de entidades, siga estos pasos:
-
Abra el proyecto en el que desea crear el extractor de entidades.
El proyecto debe tener al menos una colección con documentos que sean representativos de los datos de dominio.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominio y, a continuación, pulse Extraer entidades.
-
Pulse Nuevo.
Si desea crear un extractor de entidad basado en el sistema de tipos de entidad desde un corpus IBM Watson® Knowledge Studio, pulse la flecha y seleccione Importar un corpus Knowledge Studio. Para ver los pasos siguientes, consulte Importación de un corpus de Knowledge Studio.
-
Añada un nombre de extractor y, opcionalmente, una descripción.
Este nombre se utiliza como nombre de modelo y como nombre del enriquecimiento que se crea al publicar el modelo. El nombre se muestra como el nombre de enriquecimiento en la página Enriquecimientos, donde usted y otros usuarios pueden aplicarlo a las colecciones. También se muestra como el nombre del modelo en la representación JSON de los documentos donde se encuentran las entidades personalizadas. El nombre se almacena con las mayúsculas y minúsculas y el espaciado que especifique.
-
Elija una colección con documentos que sean representativos de los datos de dominio.
-
Elija los campos del documento que desea mostrar en la vista de documentos donde etiquetará los documentos de la colección.
- Título del documento se muestra en la cabecera de página como el nombre del documento. Elija un campo que tenga un valor exclusivo por documento, como por ejemplo el nombre de archivo, que se almacena en el campo
extracted_metadata.filename
. - Cuerpo de documento es donde se etiquetan los ejemplos de entidad. Elija un campo que contenga la mayor parte del contenido del documento, como por ejemplo el campo
text
.
Label documents page - Título del documento se muestra en la cabecera de página como el nombre del documento. Elija un campo que tenga un valor exclusivo por documento, como por ejemplo el nombre de archivo, que se almacena en el campo
-
Pulse Crear.
Un documento de la colección que ha seleccionado se muestra en la vista Etiquetar documentos. Etiquetará las apariciones de los tipos de entidad que desea que Discovery reconozca de este y otros documentos de la colección.
Si no se visualiza ningún texto en el cuerpo de la página, empiece de nuevo creando un nuevo extractor de entidad. Esta vez, cuando seleccione un valor para el campo Cuerpo de documento, asegúrese de elegir un campo de los documentos procesados que contiene texto.
Definición de tipos de entidad
Defina los tipos de entidad completando los pasos siguientes:
-
Pulse Añadir un tipo de entidad.
-
Añada el nombre de tipo de entidad y una descripción opcional.
Utilice un convenio de denominación que funcione para los datos. El enriquecimiento Entidades incorporado utiliza mayúsculas iniciales y no espacios, por ejemplo,
EmailAddress
. Para distinguir las entidades de las entidades extraídas por otros enriquecimientos, es posible que desee utilizar un convenio diferente. -
Opcional: Elija el color que desea utilizar para resaltar el texto en el documento que desea etiquetar como ejemplo de este tipo de entidad.
Puede pulsar un color en la paleta Color de etiqueta, pulse el icono Renovar color para tabular de un color al siguiente. Para utilizar un color personalizado, especifique su código de color hexadecimal (#fff0f7).
-
Pulse Crear.
-
Repita este proceso para añadir todos los tipos de entidad que desea que reconozca el extractor.
Si no está seguro de qué añadir para los tipos de entidad, puede ayudarle revisar primero los documentos de la colección. Al revisar el contenido, puede conocer qué términos tienen un significado significativo y buscar formas lógicas de agrupar dichos términos.
Etiquetar términos significativos
En la vista Etiquetar documentos, busque términos de significación en los documentos de la colección y colóquelos para indicar sus tipos de entidad.
Antes de empezar a etiquetar documentos, decida si desea mantener habilitado el etiquetado masivo. La característica de etiqueta masiva es una gran manera de acelerar el proceso de etiquetado de los documentos. Cuando está habilitado, cada término que etiquete se etiqueta automáticamente en cualquier lugar del documento. De lo contrario, debe etiquetar cada aparición del término de uno en uno.
Si decide que no desea etiquetar de forma masiva los ejemplos, establezca el conmutador Ejemplos de entidad de etiqueta masiva en Desactivado. Para obtener más información, consulte Etiquetado masivo de ejemplos.
Sugerencias de etiquetado
Revise estas sugerencias antes de empezar:
- La colección de documentos que etiquete debe contener un conjunto representativo de documentos. Los documentos deben tener muchos y variados ejemplos de los tipos de entidad que desea que reconozca el extractor de entidad. Si la colección que ha seleccionado al empezar a crear el extractor de entidad no cumple el requisito, deténgase ahora y vuelva a empezar con una colección de documentos diferente.
- Defina tipos de entidad que sean claramente distintos entre sí.
- Tenga como objetivo etiquetar al menos 40 ejemplos de cada tipo de entidad.
- Etiquete cada ejemplo válido de un tipo de entidad. No omita ninguna aparición. Para acelerar el proceso, utilice la característica de etiqueta masiva.
Ejemplos de entidad de etiquetado
Etiquete los términos en el documento que representan ejemplos de los tipos de entidad que ha definido. Cuando haya terminado con un documento, cambie el estado del documento de En curso a Completadoy, a continuación, pase al siguiente documento.
Para etiquetar ejemplos de entidad, realice los pasos siguientes:
-
Revise el texto del documento. Busque ejemplos de entidad para etiquetar.
La siguiente tabla muestra algunos ejemplos.
Tipos de entidad y ejemplos Tipo de entidad Ejemplos para etiquetar en el documento color blanco, verde, morado car convertible, SUV, sedán AUTO_MODEL Explorador, Cívico, Sorrento fabricante automático Ford, Honda, Kia clothing camisa, blusa, skort Instrumentos bonos, acciones, ETF, munis Si todavía no se ha creado un tipo de entidad que desea identificar, añada el tipo de entidad. En el panel Tipos de entidad, pulse Crear nuevo. Para obtener más información sobre cómo añadir tipos de entidad, consulte Definición de tipos de entidad.
-
En primer lugar, pulse el tipo de entidad en el panel Tipos de entidad.
-
En el cuerpo del documento, seleccione la palabra o frase que representa el ejemplo de entidad.
El término se selecciona y se aplica una etiqueta de color al término. Los dos primeros caracteres del nombre de tipo de entidad se muestran en superíndice en mayúsculas dentro del límite de la etiqueta. Tanto el ID de 2 caracteres como el color de etiqueta le ayudan a asociar el ejemplo con el tipo de entidad que representa.
A label is applied to an entity example El texto de ejemplo también se añade al panel Tipos de entidad. Si pulsa la comilla angular para ver los detalles, puede ver que el ejemplo aparece en la lista. El texto de ejemplo se guarda en minúsculas, independientemente de las mayúsculas que se utilicen en el texto original.
-
Si el etiquetado masivo está habilitado, se visualiza una notificación para mostrar el número de apariciones del término que se han encontrado y etiquetado en el documento actual.
-
Si desea etiquetar las apariciones del término en todos los documentos de la colección, pulse Aplicar a todos los documentos.
Cuando habilita esta opción, las apariciones del término se etiquetan en todos los documentos de la colección, incluidos los documentos que ya ha revisado y marcado como completados.
Se le solicita que confirme la acción porque no se puede deshacer. Si no desea tener que confirmar la acción cada vez que elija aplicar el etiquetado masivo a todos los documentos, seleccione No volver a solicitar confirmación. Pulse Ejecutar.
Bulk labeling configuration confirmation Para obtener más información, consulte Etiquetado masivo de ejemplos.
-
Desplácese por el documento para etiquetar cada ejemplo válido de cada tipo de entidad que desee que reconozca el extractor.
Puede buscar términos que desee etiquetar como ejemplos de entidad. Para obtener más información, consulte Búsqueda de ejemplos utilizando palabras clave.
El modelo de aprendizaje automático aprende tanto de los términos que no etiqueta como los términos que utiliza.
Si se pierde el etiquetado de un ejemplo válido, el modelo aprende que cuando se utiliza el término en ese contexto, no es una mención válida del tipo de entidad. En algunos casos, una omisión es apropiada. Por ejemplo, algunos términos tienen significados diferentes en contextos diferentes. No desea etiquetar el término cuando se utiliza en el contexto incorrecto. Sin embargo, si el término se utiliza en el contexto correcto y no lo etiqueta, está enseñando al modelo a ignorarlo. Disminuye la eficacia del modelo cuando los datos de entrenamiento son incoherentes.
Después de etiquetar muchos ejemplos, se muestran sugerencias de ejemplo de entidad. Puede aceptar o rechazar sugerencias de ejemplo de entidad.
Decide whether to accept a suggestion Aceptar sugerencias de ejemplo es otra forma de acelerar el proceso de etiquetado. Para obtener más información, consulte Sugerencias de ejemplo de entidad. Después de aceptar una sugerencia, puede etiquetar de forma masiva el término.
-
Si comete un error y etiqueta la palabra incorrecta o una palabra ha sido etiquetada incorrectamente por el proceso de etiquetado masivo, puede suprimir la etiqueta.
Pase el cursor por encima de la palabra etiquetada hasta que se visualice la opción Suprimir este ejemplo y, a continuación, pulse en ella. Puede elegir suprimir sólo esta mención o todas las menciones del documento. Elija una opción y, a continuación, pulse Suprimir.
-
Después de etiquetar todos los ejemplos de entidad en el documento actual, cambie el estado del documento de En curso a Completado.
Se visualiza otro documento de la colección.
-
Etiquete ejemplos de los tipos de entidad en cada documento de la colección.
En cualquier momento durante el proceso de etiquetado, puede pulsar Guardar extractor de entidad para guardar el trabajo.
-
Si no tiene suficientes ejemplos en el conjunto actual de documentos, puede añadir más documentos.
En el panel Lista de documentos, pulse Añadir documentos. La opción sólo está disponible cuando hay más documentos disponibles en la colección. Puede añadir hasta 20 documentos. Si el etiquetado masivo para todos los documentos está habilitado, las etiquetas se aplican automáticamente a los documentos recién añadidos.
-
Después de etiquetar los ejemplos en tantos documentos de la colección como desee, pulse Guardar extractor de entidad y, a continuación, abra la página Entrenar extractor.
Búsqueda de ejemplos utilizando palabras clave
Utilizando la característica de búsqueda, puede encontrar ejemplos de entidad en un documento y etiquetarlos fácilmente. También puede utilizar la búsqueda para encontrar ejemplos etiquetados y ejemplos no etiquetados y corregir las incoherencias de etiquetado.
Para buscar utilizando palabras clave, realice los pasos siguientes:
-
En la vista Etiquetar documentos, pulse el icono Buscar.
-
En el campo Buscar, especifique una palabra clave para buscar en el documento.
Los resultados de búsqueda del documento se muestran cuando se especifica la palabra clave.
Para examinar los resultados de la búsqueda, puede pulsar los iconos Siguiente resultado y Resultado anterior. Para elegir una etiqueta para un ejemplo no etiquetado en el resultado, pulse el icono Editar etiqueta y seleccione una etiqueta. También puede eliminar una etiqueta de un ejemplo ya etiquetado en el resultado pulsando el icono Editar etiqueta.
-
Para filtrar los resultados de la búsqueda, pulse el icono Mostrar opciones de filtro.
La siguiente tabla describe las opciones de filtro.
Opciones de filtro en la búsqueda Opción Descripción ALL Para buscar todos los ejemplos en un documento que coincidan con la palabra clave. Texto etiquetado Para buscar ejemplos etiquetados existentes en un documento que coincidan con la palabra clave. Texto sin etiquetar Para buscar ejemplos no etiquetados en un documento que coincidan con la palabra clave. Coincidir mayúsculas y minúsculas Para encontrar ejemplos que coincidan con la palabra clave y sus mayúsculas y minúsculas. Palabras completas Para encontrar ejemplos que coincidan con los límites de palabra de la palabra clave. Por ejemplo, si especifica york como palabra clave, yorktown no coincide cuando se selecciona esta opción.
Para los ejemplos no etiquetados en los resultados, puede aceptar o rechazar una sugerencia de etiqueta.

Para resolver cualquier solapamiento de ejemplos, pulse Revisar sugerencias y elija una sugerencia de ejemplo de entidad en el recuadro de diálogo Solapamiento de sugerencias de ejemplo de entidad.

Etiquetado de ejemplos de forma masiva
Para la mayoría de los ejemplos de entidad, es útil habilitar la característica de etiqueta masiva. Es posible que desee omitirlo si un término tiene más de un significado en contextos diferentes. En ese caso, evalúe cada aparición individualmente. Recuerde que, si habilita la característica de etiqueta masiva, puede comprobar la precisión de las etiquetas que se han añadido automáticamente y realizar correcciones cuando sea necesario al revisar el documento.
Después de habilitar la característica de etiqueta masiva, se visualiza una notificación que indica cuántas apariciones de un ejemplo de entidad se han encontrado en el documento actual. Desde la página actual, la herramienta de etiquetado no puede acceder a otros documentos para informar de cuántas apariciones existen en otros documentos de la colección. Sin embargo, el recuento de menciones se muestra en el panel Tipos de entidad. Cuando abra por primera vez otros documentos, puede comprobar los recuentos de menciones para ver cuántas menciones se han etiquetado automáticamente.
¿Se ha perdido una aparición en la característica de etiqueta masiva?
Las apariciones del término no se etiquetan si aparecen en la misma frase en la que el término ya está etiquetado. Por ejemplo, la primera aparición del término husband
no se etiqueta cuando se activa la característica de etiqueta
masiva para la segunda aparición del término en la frase siguiente.

Sugerencias de ejemplo de entidad
Después de etiquetar suficientes ejemplos, se visualizan los ejemplos de tipo de entidad sugeridos. El sistema aprende de los tipos de ejemplos que etiqueta y aplica lo que aprende para identificar posibles nuevos ejemplos. Por ejemplo, después
de etiquetar red
, orange
, yellow
, green
y blue
como ejemplos del tipo de entidad color
, el panel Sugerencias de ejemplo puede mostrar indigo
y violet
como ejemplos sugeridos para que los etiquete. Las sugerencias no se visualizan hasta después de etiquetar muchos ejemplos de un tipo de entidad.
El ejemplo siguiente muestra sugerencias que se realizan para menciones de miembros de la familia.

Es posible que observe que un término que ha elegido para etiquetar de forma masiva no está etiquetado, sino que se visualiza como sugerencia en su lugar. Un término se omite en las situaciones siguientes:
- El término puede aparecer en diferentes frases de nombre en diferentes secciones del documento. Por ejemplo, el término
father
puede aparecer en las frases de nombrethe kindest *father*
yto her *father*
. Cuando una palabra se incluye en una frase de nombre con adjetivos, el significado puede cambiar. Por lo tanto, estos términos a veces se sugieren en lugar de etiquetarse automáticamente. - Una palabra puede ser un ejemplo válido por sí sola y como parte de una mención de varias palabras. Por ejemplo, una mención a
IBM
podría referirse a la empresa International Business Machines, Corp. o podría utilizarse como parte del nombre de un producto, como IBM Cloud Pak for Data. Sin embargo, una palabra o frase puede formar parte de un solo ejemplo. Las etiquetas de ejemplo no se pueden solapar entre sí. Por lo tanto, debe elegir qué sugerencia de ejemplo es la más precisa. En este ejemplo, donde el término IBM se utiliza como parte del nombre de un producto, es más preciso etiquetar la frase completa como un ejemplo del tipo de entidadProduct
. - El servicio puede reconocer que un término es un posible ejemplo de más de un tipo de entidad. Por ejemplo, la palabra
top
podría significar el mejor o podría significar shirt.
Para investigar más una sugerencia, haga clic en ella para ver la palabra en contexto dentro del documento. Ver el término en contexto le ayuda a decidir si la aparición es un ejemplo de entidad válido para que la etiquete.
Exportación de datos etiquetados para un extractor de entidad
Puede exportar los datos etiquetados para un extractor de entidad desde Discovery. Puede utilizar los datos etiquetados exportados para entrenar o crear modelos de lenguaje grandes (LLM) en un servicio como Watson Studio y Natural Language Processing (NLP).
Para exportar los datos etiquetados, siga estos pasos:
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominioy, a continuación, pulse Extraer entidades.
-
Para el extractor de entidad desde el que desea exportar datos etiquetados, pulse el icono Acciones y, a continuación, seleccione Descargar datos etiquetados.
Un archivo comprimido se descarga con datos etiquetados. El archivo comprimido contiene los siguientes archivos JSON.
labeled_data.json
: Incluye el texto y las etiquetas. El formato de datos se basa en el formato de datos de entrada para la extracción de entidades en Watson Natural Language Processing. Para obtener más información, consulte Formato de datos de entrada.metadata.json
: incluye metadatos para el espacio de trabajo y datos etiquetados.
Importación de un corpus Knowledge Studio
Para los despliegues instalados, la prestación de importación se ha añadido con el release 4.6.2.
Puede importar un corpus de documentos anotados en IBM Watson® Knowledge Studio para utilizarlos como datos de entrenamiento para un extractor de entidad en Discovery.
Los tipos de entidad que se han definido en Knowledge Studio se muestran como nuevos tipos de entidad en Discovery. Puede continuar anotando los documentos importados cuando personalice el modelo de extractor de entidad.
Los subtipos de entidad y las relaciones del modelo de aprendizaje automático Knowledge Studio no están representados, ni tampoco los diccionarios personalizados que están asociados con el modelo.
Para poder importar un corpus, debe exportar el conjunto de documentos de Knowledge Studio como un archivo .zip. Siga los pasos adecuados para exportar en función del tipo de despliegue Knowledge Studio:
Aunque debe descargar tanto el conjunto de documentos como el sistema de tipos para incluir anotaciones en los documentos que cargue en otro espacio de trabajo Knowledge Studio, lo mismo no es cierto en este caso de uso. Sólo importa el conjunto de documentos en Discovery. Las anotaciones de los documentos se vuelven a crear en Discovery. El sistema de tipos Knowledge Studio no es necesario.
Para importar un corpus de Knowledge Studio, realice los pasos siguientes:
-
Abra el proyecto en el que desea importar el corpus.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominio y, a continuación, pulse Extraer entidades.
-
Pulse la flecha asociada con el botón Nuevo. y, a continuación, pulse Importar un corpus de Knowledge Studio.
-
Añada un nombre de extractor y, opcionalmente, una descripción.
Este nombre se utiliza como nombre de modelo y como nombre del enriquecimiento que se crea al publicar el modelo. El nombre se muestra como el nombre de enriquecimiento en la página Enriquecimientos, donde usted y otros usuarios pueden aplicarlo a las colecciones. También se muestra como el nombre del modelo en la representación JSON de los documentos donde se encuentran las entidades personalizadas. El nombre se almacena con las mayúsculas y minúsculas y el espaciado que especifique.
-
Pulse Cargar y, a continuación, examine para buscar y seleccionar el archivo .zip que ha exportado de Knowledge Studio. Pulse Crear.
Los documentos anotados que cargue se almacenan con el espacio de trabajo del extractor de entidad, no como una colección nueva en el proyecto. Puede continuar anotando los documentos.
Dele tiempo a Discovery para importar y procesar el corpus del modelo de aprendizaje automático. Después de crear el extractor de entidad, el extractor se abre en la página Etiquetar documentos.
Entrenamiento del extractor
Después de etiquetar los documentos, revise los datos de entrenamiento que se utilizarán para entrenar el modelo de extractor de entidad.
Para formar al extractor, complete el siguiente paso:
-
Decida si desea aplicar una opción avanzada. La mayoría de los modelos no requieren cambios en estas opciones.
Las personalizaciones siguientes están disponibles en la página Revisar y finalizar:
-
Incluir documentos que no han sido revisados por una persona en el conjunto de entrenamiento.
Normalmente, sólo los documentos que una persona ha etiquetado, revisado y marcado explícitamente como completos pueden ser candidatos para su inclusión en el conjunto de entrenamiento. Sin embargo, si desea permitir que los documentos que no estaban marcados como completos se incluyan en el conjunto de entrenamiento, puede hacerlo.
-
Cambie la proporción de documentos incluidos en los conjuntos de documentos que componen los datos de entrenamiento.
Los documentos de la colección se dividen de forma aleatoria en los conjuntos siguientes:
- Conjunto de entrenamiento: los documentos que etiqueta y que se utilizan para entrenar el modelo de aprendizaje automático de extractor de entidad. El objetivo del conjunto de entrenamiento es enseñar al modelo de aprendizaje automático las etiquetas correctas.
- Conjunto de pruebas: los documentos que se utilizan para probar el modelo entrenado. Después de ejecutar una prueba, puede revisar los resultados, analizar detenidamente las áreas en las que el modelo se ha equivocado y encontrar formas de mejorar el rendimiento del modelo.
- Conjunto ciego: documentos que se apartan y se utilizan para probar el modelo periódicamente después de que se completen varias iteraciones de prueba y mejora. Los documentos en el conjunto ciego se cierran intencionadamente. A medida que prueba el modelo con documentos del conjunto de pruebas y analiza los resultados, se familiarizará con los documentos de prueba subyacentes. Dado que los documentos de prueba se utilizan de forma iterativa para mejorar el modelo, pueden empezar a influir indirectamente en el entrenamiento del modelo. Por eso es tan importante el conjunto de documentos ciegos. El conjunto ciego le da una manera de generar una evaluación imparcial del modelo periódicamente.
La división predeterminada aplica una proporción (70 %-23 %-7%) que se utiliza habitualmente para el entrenamiento de aprendizaje automático.
-
-
Pulse Entrenar extractor.
Cuando entrena el extractor, Discovery utiliza documentos del conjunto de entrenamiento para crear un modelo de aprendizaje automático. Después de generar el modelo, ejecuta una prueba contra los documentos del conjunto de pruebas automáticamente. Los resultados de la prueba se muestran para que los revise.
Resolución de problemas de formación
Conozca los posibles mensajes de error y cómo abordarlos.
- Los datos de entrenamiento son demasiado grandes
-
Los datos de entrenamiento contienen un documento de texto grande o muchos tipos de entidad y recursos necesarios para procesar los datos son mayores que los recursos disponibles para la instancia de servicio. Este error se puede producir incluso cuando el espacio de trabajo no supera los límites de extractor de entidad documentados. Para resolver el problema, puede probar uno de los siguientes métodos:
- Elimine uno o más tipos de entidad para reducir el tamaño de los datos de entrenamiento.
- Elimine documentos extra grandes de los datos de entrenamiento. Por ejemplo, si uno de los documentos etiquetados es muy grande, cambie su estado de Completado a En curso para omitirlo de los datos de entrenamiento.
- Reduzca el número de documentos que se incluyen en el conjunto de entrenamiento. La proporción de división predeterminada (70 %-23 %-7%) para los datos de entrenamiento utiliza el 70% de los documentos del conjunto de entrenamiento. Puede cambiar el porcentaje de documentos que se utilizan en el conjunto de entrenamiento a un número menor. Por ejemplo, puede cambiar la proporción de división a 60 %-33 %-7%.
- IBM Cloud Pak for Data aumente la capacidad de su instancia de servicio implementada ampliando los pods de servicio IBM Software Hub Aumente la capacidad de su instancia de servicio implementada ampliando los pods de servicio.
Evaluación del extractor
Para revisar las métricas de la ejecución de prueba del modelo de extractor de entidad que ha creado, pulse la pestaña Evaluar extractor.
La siguiente tabla describe las métricas de evaluación disponibles.
Métrica | Descripción |
---|---|
Matriz de confusión | Una tabla que proporciona un desglose numérico detallado de conjuntos de documentos anotados. Utilícelo para comparar las menciones de tipo de entidad etiquetadas por el modelo de aprendizaje automático con las menciones de tipo de entidad etiquetadas en los datos de entrenamiento. |
Puntuación F1 | Mide si se alcanza el equilibrio óptimo entre precisión y exhaustividad. La puntuación de F1 se puede interpretar como un promedio ponderado de los valores de precisión y de exhaustividad. Una puntuación de F1 llega a su mejor valor en 1 y a su peor valor en 0. Las puntuaciones generales son menores si el modelo no tiene suficientes datos de entrenamiento de los que aprender. |
Precisión | Mide cuántas de las menciones extraídas globalmente se clasifican como el tipo de entidad correcto. Un falso positivo es cuando no se debe extraer una entidad, sino que se ha extraído (Predicho = positivo, Real = negativo). Los falsos positivos suelen significar una precisión baja. |
Exhaustividad | Mide la frecuencia con la que se extraen las menciones de tipo de entidad que se deben extraer. Un falso negativo es cuando se debe extraer un tipo de entidad, pero no se ha extraído (Predicho = Negativo, Real = Positivo). Los falsos negativos normalmente significan una baja exhaustividad. |
-
Revise las métricas que se proporcionan sobre la ejecución de prueba del modelo de extractor para determinar si se necesita más entrenamiento.
-
Explore los resultados de la prueba más detalladamente pulsando Revisar los resultados de entrenamiento en el conjunto de pruebas.
Los documentos del conjunto de pruebas se muestran con las etiquetas pronosticadas mostradas en un panel y los datos de campo mostrados en el otro.
- Las etiquetas pronosticadas son los ejemplos que el extractor de entidad ha identificado y etiquetado como tipos de entidad.
- Los datos de campo tienen ejemplos de que una persona etiquetó o que fueron etiquetados y revisados de forma masiva por una persona. Las etiquetas en los datos de campo se consideran las etiquetas correctas.
El rendimiento del modelo se valora en función de la coincidencia de las etiquetas pronosticadas con los datos de campo.
Mejora del extractor
La tabla siguiente muestra los arreglos sugeridos para problemas comunes.
Problema | Medidas para solucionar el problema |
---|---|
Puntuaciones generales bajas | Es posible que no tenga suficientes documentos con ejemplos etiquetados en el conjunto de entrenamiento. Etiquete más ejemplos en más de sus documentos. |
Exhaustividad baja | Etiquete más documentos con nuevos ejemplos de los tipos de entidad que el extractor ha perdido. |
Precisión baja | Busque los tipos de entidad que normalmente se confunden. Busque y etiquete más ejemplos de cada tipo de entidad para ayudar al extractor de entidad a distinguir entre los tipos de entidad. |
Adición de documentos a los datos de entrenamiento
Para añadir más documentos, siga estos pasos:
-
Abra la pestaña Etiquetar documentos.
-
En el panel Lista de documentos, elija Añadir documentos.
Este botón está inhabilitado si no hay otros documentos disponibles para añadir al extractor de entidad de la colección actual. Para añadir más documentos a la colección, vaya a la página Actividad de la colección y, a continuación, pulse el mosaico Cargar datos para buscar y añadir más archivos.
No puede elegir los documentos de la colección para mostrarlos en la Lista de documentos con fines de etiquetado. Si hay tipos específicos de documentos que desea etiquetar, considere la posibilidad de añadir documentos representativos a una colección que puede utilizar para crear el extractor de entidad.
Hay límites en el número de documentos que se pueden incluir en los datos de entrenamiento. Si los datos de entrenamiento incluyen documentos con una combinación de secciones que están etiquetadas y otras que no lo están, el sistema puede muestrear algunos ejemplos de frases no etiquetadas. El submuestreo ayuda a equilibrar el número de ejemplos positivos y negativos que se utilizan para el entrenamiento. El equilibrio de los ejemplos en el conjunto de entrenamiento mejora el rendimiento del entrenamiento.
Publicación del extractor de entidad como enriquecimiento
Cuando crea que el extractor de entidad está listo, publique el extractor de entidad. ¿Cómo sabes cuándo está listo? Si la puntuación no cambia después de varias ejecuciones de prueba en las que realiza mejoras, el modelo está listo. Puede volver a actualizar y volver a entrenar el modelo después de publicarlo.
- En la página Evaluar extractor, pulse Publicar extractor.
- Haga clic en Aplicar a los datos.
- Elija una colección y, a continuación, seleccione el campo de documento donde desea que se aplique el enriquecimiento de extractor de entidad.
- Haga clic en Aplicar.
Exportación del extractor de entidad
Para los despliegues instalados, se ha añadido la prestación de exportación con el release 4.6.2.
Un modelo de extractor de entidad que crea y despliega en un proyecto está disponible como un enriquecimiento que se puede aplicar a una colección desde cualquier proyecto de la misma instancia de servicio.
Si desea utilizar el modelo de extractor de entidad en un proyecto desde otra instancia de servicio, puede exportar el extractor de entidad. Para utilizarlo en otro lugar, siga los pasos para crear un modelo de aprendizaje automático desde Utilizar modelos ML importados para buscar términos personalizados. No puede continuar editando un extractor de entidad que importe en otro proyecto.
El extractor de entidad que desea exportar debe estar totalmente entrenado.
Para exportar un extractor de entidades, siga estos pasos:
-
Abra el proyecto con el extractor de entidad que desea exportar.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominioy, a continuación, pulse Extraer entidades.
-
En la lista Extractores de entidad, busque el extractor de entidad que desea exportar.
-
Pulse el icono Acciones para el extractor y, a continuación, seleccione Descargar modelo para guardar el modelo en el sistema.
La opción Descargar modelo no está disponible a menos que el modelo esté entrenado.
El modelo de extractor de entidad se guarda como un archivo .ent. Puede importarlo en un proyecto en otra instancia de servicio como un modelo de aprendizaje automático y, a continuación, aplicarlo a las colecciones. Para obtener más información sobre cómo importar el modelo, consulte Utilizar modelos ML importados para buscar términos personalizados.
Aplicación de un enriquecimiento de extractor de entidad
Cuando publique el extractor, especifique el campo donde desea que se aplique el extractor. Si decide aplicar el enriquecimiento a campos diferentes o más adelante, puede seguir estos pasos para hacerlo.
- En el panel de navegación, pulse Gestionar colecciones.
- Pulse para abrir la colección donde desea aplicar el enriquecimiento.
- Pulse Enriquecimientos.
- Busque el nombre del extractor de entidad en la lista y, a continuación, elija un campo al que aplicar el enriquecimiento.
- Pulse Aplicar cambios y volver a procesar.
Para obtener más información sobre cómo eliminar un enriquecimiento de extractor de entidad de una colección, consulte Gestión de enriquecimientos.
Salida del extractor de entidad
Cuando el enriquecimiento reconoce una de las entidades personalizadas en un documento, se añade una entrada a la sección enriched_text.entities
de la representación JSON del documento. La sección contiene apariciones de entidades
reconocidas por el modelo personalizado junto con entidades reconocidas por el enriquecimiento Entidades incorporado. El enriquecimiento incorporado utiliza el servicio NLP de Watson para identificar entidades que forman parte de lo que
denomina el sistema de tipos Natural Language Understanding. Para obtener más información sobre el enriquecimiento Entidades incorporado, consulte Entidades.
La salida JSON siguiente la genera un modelo personalizado denominado literatura que reconoce las menciones de miembros de la familia.

Supervisión del rendimiento a lo largo del tiempo
Puede volver a entrenar el modelo de extractor de entidad en cualquier momento. Cada vez que entrene el modelo, revise las puntuaciones de métricas de rendimiento para determinar si los cambios más recientes aumentan o disminuyen las puntuaciones del modelo.
-
Para comparar una ejecución de prueba con otra, pulse Ver historial de puntuación.
La vista de historial muestra las últimas 5 ejecuciones de entrenamiento.
Para conservar la información de puntuación para más de las 5 ejecuciones de entrenamiento más recientes, puede exportar las métricas en formato de valor separado por comas y realizar un seguimiento de las puntuaciones en una aplicación separada. Pulse el icono de representación tabular
y, a continuación, pulse Descargar como CSV.
Si una ejecución de entrenamiento posterior da como resultado puntuaciones más bajas, no publique esa versión del modelo.
Supresión de un extractor de entidad
Puede suprimir un extractor de entidad si no está en uso, lo que significa que el enriquecimiento que se publica desde el extractor de entidad no se aplica a una colección.
Es posible que desee suprimir un extractor de entidad si alcanza el límite del número máximo de extractores permitidos para su plan, por ejemplo.
Recuerde que los límites se definen por instancia de servicio, no por proyecto. Si no puede crear extractores de entidad nuevos, pero no tiene el número máximo de extractores en el proyecto actual, compruebe otros proyectos en la misma instancia de servicio. Es posible que haya extractores de entidad que no se estén utilizando en otros proyectos que se puedan suprimir.
-
Elimine el enriquecimiento de extractor de entidad que se ha publicado del extractor de entidad que desea suprimir de las colecciones en las que se está utilizando.
Para obtener más información, consulte Supresión de enriquecimientos.
-
En el panel Herramientas de mejora de la página Mejorar y personalizar, expanda Enseñar conceptos de dominio y, a continuación, pulse Extraer entidades.
-
Busque el extractor de entidad que desea suprimir, pulse el icono Acciones y, a continuación, seleccione Suprimir.
Límites de extractor de entidad
El número de extractores de entidad que puede crear por instancia de servicio depende del tipo de plan Discovery.
Planifique | Extractores de entidad por instancia de servicio[1] | Número máximo de tipos de entidad por extractor | Máximo de documentos en datos de entrenamiento |
---|---|---|---|
Cloud Pak for Data | Ilimitado | 18 | 1.000 |
Premium | 10 | 18 | 1.000 |
Empresa | 10 | 18 | 1.000 |
Más (incluida la versión de prueba) | 3 | 6 | 200 |
-
Este número refleja el número de enriquecimientos de extractores de entidad publicados para la instancia de servicio (incluidos los modelos de extractores de entidad importados) tanto si se aplican a una colección como si no. ↩︎