Esta documentación es para IBM Watson® Knowledge Studio en IBM Cloud®. Para ver la documentación de la versión anterior de Knowledge Studio en IBM Marketplace, pulse este enlace.
Glosario
Este glosario incluye términos y definiciones para Knowledge Studio.
En este glosario se utilizan las siguientes referencias cruzadas:
- Véase remite al lector de un término a su sinónimo preferido, o de un acrónimo o abreviatura a la definición completa.
- Véase también le remite a un término relacionado u opuesto.
A B C D E F G H I K L M N O P R S T
A
-
exactitud
Una medida de la corrección de anotaciones producidas por un modelo de aprendizaje automático. Consulte también precisión y exhaustividad.
-
análisis de la exactitud
Analizar las puntuaciones del modelo de aprendizaje automático para determinar si se requieren cambios para mejorar la exactitud.
-
adjudicación
Un proceso iterativo para resolver los conflictos de anotaciones comparando las anotaciones añadidas a un mismo documento por distintos anotadores humanos.
-
motor de análisis
Un programa que analiza los artefactos, como los documentos, e infiere información sobre ellos, y que implementa la especificación de interfaz del motor de análisis de UIMA. Los motores de análisis se crean desde bloques de construcción llamados anotadores. Un motor de análisis puede contener un único anotador, que se conoce como motor de análisis primitivo, o varios anotadores, que se conocen como un motor de análisis agregado.
-
anotación
Información sobre un fragmento de texto. Por ejemplo, una anotación podría indicar que un fragmento de texto representa un nombre de empresa.
-
conjunto de anotaciones
En la anotación humana, una recopilación de documentos extraídos desde el corpus que permiten que varios anotadores humanos compartan la carga de trabajo. En la anotación basada en máquina, una recopilación de documentos que se pueden utilizar como datos ciegos, datos de entrenamiento, o datos de prueba.
-
gestor del proceso de anotación
Un rol que es responsable de gestionar todas las actividades del ciclo de vida del proceso de anotación dentro de un espacio de trabajo. Generalmente, el gestor de proyectos que se añade a un espacio de trabajo es quien lleva a cabo las actividades de gestor de procesos de anotación.
-
anotador
Consulte anotador humano y anotador de aprendizaje automático.
-
atributo
Una característica o rasgo de una entidad que describe la entidad; por ejemplo, el número de teléfono de un empleado es uno de los atributos del empleado.
B
-
datos ciegos
Un conjunto de documentos anotados con la verdad terreno, como pares de preguntas y respuestas, anotación semántica y decisiones provisionales. Los datos ciegos nunca los lanzan ni los ven los desarrolladores y se utilizan para probar el sistema periódicamente para evaluar el rendimiento en datos no mostrados. La prueba en datos ciegos impide que se corrompa la exactitud al sobreajustar a conjuntos o anotaciones de preguntas conocidas. Los resultados notificados solo deberían provenir de las pruebas que se ejecutan en los datos ciegos. Véase también datos de prueba y datos de entrenamiento.
C
-
concordancia
Proporciona una forma de asegurar que la misma mención se anote con el mismo tipo de entidad en un documento y en conjuntos de anotaciones. La concordancia ayuda a garantizar la coherencia entre varias apariciones de una mención sin necesitar que el anotador humano etiquete manualmente cada aparición.
-
matriz de confusión
Una tabla que proporciona un desglose numérico detallado de conjuntos de documentos anotados. La tabla se utiliza para comparar las anotaciones añadidas por un modelo de aprendizaje automático con las anotaciones en la verdad terreno. La tabla informa del número de falsos positivos, falsos negativos, verdaderos positivos y verdaderos negativos.
-
correferencia
Una relación entre dos palabras o frases en la que ambas hacen referencia a la misma persona o cosa y una se erige como un antecedente lingüístico de la otra. Por ejemplo, hay una correferencia entre los dos pronombres en la frase "She taught herself" ("Se enseñó a sí misma") pero no en la frase "She taught her" ("Le enseñó a ella"). Una correferencia enlaza dos entidades equivalentes en el mismo texto.
-
cadena de correferencia
Una lista de entidades que se han anotado como correferencias. Al anotar menciones como correferencias, el sistema creará una cadena de correferencia. La cadena proporciona una forma de ver todas las menciones en contexto y de verificar que todas las ocurrencias pertenezcan al mismo tipo de entidad.
-
corpus
Una recopilación de documentos de origen que se han añadido a un espacio de trabajo y que se han utilizado para entrenar un modelo de aprendizaje automático.
-
conservar
Seleccionar, recopilar, conservar y mantener contenido relevante para un tema específico. La conservación establece, mantiene y añade valor a los datos; transforma datos en información y conocimiento de confianza.
D
-
diccionario
Una recopilación de palabras que pueden utilizarse para preanotar documentos. Se creará una anotación nueva para cada palabra en el texto del documento que coincida con un término del diccionario. Un modelo de aprendizaje automático se puede configurar con uno o varios diccionarios independientes, que son normalmente específicos del dominio, como un diccionario para productos farmacéuticos y un diccionario para la gestión de la riqueza. Véase también lema y forma superficial.
-
preanotador de diccionarios
Un componente que identifica menciones en el texto que coinciden con un conjunto específico de palabras. Al utilizar terminología específica del dominio para preanotar texto, los preanotadores de diccionarios pueden acelerar la capacidad de un anotador humano para preparar un conjunto de documentos de verdad terreno.
-
conjunto de documentos
Una recopilación de documentos. Los documentos importados juntos se convierten en un conjunto de documentos. Los documentos anotados que se agrupan juntos para fines de entrenamiento (Prueba, entrenamiento, ciegos) se generan como conjuntos de documentos.
E
-
entidad
- Mención anotada por un tipo de entidad.
- Persona, objeto o concepto sobre el que se almacena información.
- Conjunto de detalles que se mantienen sobre un objeto del mundo real como una persona, una ubicación o una cuenta bancaria. Una entidad es un tipo de elemento.
-
tipo de entidad
El tipo de entidad que representa una mención sin tener en cuenta el contexto. Por ejemplo, la mención IBM podría estar anotada por el tipo de entidad ORGANIZATION.
En un modelo de relación basada en entidades, un tipo de entidad es lo que se modela o a lo que hace referencia una mención, como por ejemplo el nombre de una persona o de un lugar. Distintos tipos de entidades tienen distintos conjuntos de atributos como "surname" ("apellido") o "home town" ("ciudad de procedencia"), y están conectados mediante relaciones como "lives in" ("vive en"). Un tipo de entidad existe independientemente y puede identificarse de forma exclusiva.
F
-
Puntuación de F1
Una medida de la exactitud de una prueba que considera tanto la precisión como la exhaustividad para calcular la puntuación. La puntuación de F1 se puede interpretar como un promedio ponderado de los valores de precisión y de exhaustividad. Una puntuación de F1 llega a su mejor valor en 1 y a su peor valor en 0.
-
falso negativo
Una respuesta o una anotación que es correcta, pero que se ha predicho que es incorrecta.
-
falso positivo
Una respuesta o anotación que es incorrecta, pero que se ha predicho que es correcta.
-
función
Un miembro de datos o un atributo de un tipo.
-
puntuación de Fleiss Kappa
Una medida que muestra con cuánta coherencia han aplicado la misma anotación varios anotadores humanos en documentos que se solapan. En la puntuación de Fleiss Kappa el mejor valor es 1 y el peor valor es 0.
G
-
verdad terreno
Conjunto de datos evaluados, que constan de anotaciones añadidas por anotadores humanos, que se utilizan para adaptar un modelo de aprendizaje automático a un dominio particular. La verdad terreno se utiliza para entrenar los modelos de aprendizaje automático, para medir el rendimiento de modelo (precisión y exhaustividad), y para calcular el margen dinámico para decidir dónde centrar los esfuerzos de desarrollo para mejorar el rendimiento. La exactitud de la verdad terreno es esencial, ya que las inexactitudes en la verdad terreno se correlacionarán con las inexactitudes en los componentes que los utilizan.
H
-
análisis de margen de mejora
Proceso para determinar cuánta mejora en la exactitud, la precisión o la exhaustividad puede esperarse abordando algunas clases de problemas identificados al realizar un análisis de exactitud.
-
anotador humano
Un experto en la materia que revisa, modifica y aumenta los resultados de la preanotación identificando menciones, relaciones de tipos de entidades, y correferencias de menciones. Al examinar texto en contexto, un anotador humano ayuda a determinar la verdad terreno y a mejorar la exactitud del modelo de aprendizaje automático.
I
-
acuerdo entre anotadores
Una medida del grado de similitud con que está anotado un documento en dos o más conjuntos de documentos.
K
-
gráfico de conocimiento
Un modelo que consolida las entidades con tipos, sus relaciones, sus propiedades y las taxonomías jerárquicas para representar una organización de conceptos para un dominio determinado. Una vez que el almacén de gráficos de conocimiento se cargue con entradas desde orígenes de datos estructurados y no estructurados, los usuarios y las aplicaciones podrán acceder al gráfico de conocimiento para explorar elementos clave de conocimiento para un dominio específico, para explorar interacciones y para descubrir relaciones adicionales.
L
-
lema
La forma normalizada o canónica de una palabra. Normalmente, el lema es la forma no derivada y no declinada de un nombre o de un verbo. Por ejemplo, el lema de los términos 'organizing' ('organización') y 'organized' ('organizado') es 'organize' ('organizar'). Consulte también diccionario y forma superficial.
M
-
aprendizaje de máquina
Un método de análisis de datos que aprende de forma iterativa a partir de los datos que se le pasan y que se adapta de forma independiente cuando se expone a datos nuevos. El modelo matemático en el centro de aprendizaje automático se basa en entradas de verdad terreno. Mediante el entrenamiento y el refinamiento de los datos de entrada de ejemplo, el modelo puede ofrecer datos precisos y repetibles cuando analiza datos nuevos.
-
anotador de aprendizaje automático
-
modelo de aprendizaje automático
Componente que identifica entidades y relaciones entre entidades de acuerdo con un modelo estadístico basado en la verdad terreno. El modelo aplica experiencias pasadas, como datos de entrenamiento, para determinar o predecir el resultado correcto de experiencias futuras en función de las características de los datos. Estas experiencias pasadas se capturan en forma de modelo mediante el cálculo de puntuaciones para cada respuesta o evidencia candidata y la combinación de esta puntuación con resultados conocidos. A veces conocidas como anotador de aprendizaje automático.
-
mención
Una parte de texto que considere relevante en los datos de dominio. Por ejemplo, en un sistema de tipos sobre vehículos automotores, las apariciones de términos como "airbag", "Ford Explorer" y "sistema de retención infantil" podrían ser menciones relevantes.
N
-
entidad con nombre
Un concepto de un dominio que entra en una categoría bien definida, como los nombres de organizaciones, las ubicaciones, los autores o las enfermedades.
-
proceso de lenguaje natural
Un campo de la inteligencia artificial y la lingüística que estudia los problemas inherentes en el proceso y en la manipulación del lenguaje natural, con el fin de aumentar la capacidad de los ordenadores de comprender los idiomas humanos.
O
-
ontología
Especificación formal explícita de la representación de los objetos, conceptos y otras entidades que pueden existir en un área de interés y las relaciones entre ellos.
P
-
categoría léxica (POS)
En un diccionario, se asigna a elementos léxicos individuales etiquetas de categoría léxica (POS). Por ejemplo, la palabra 'fly' se puede identificar como un verbo o un nombre.
-
rendimiento
Medida de un sistema de Watson en términos de exactitud, precisión y exhaustividad, por ejemplo, al responder preguntas, descubrir relaciones o anotar texto.
-
preanotación
Proceso de anotación de un conjunto de documentos antes de la anotación humana. Los documentos se pueden preanotar utilizando un modelo basado en reglas, un modelo de aprendizaje automático, IBM Watson® Natural Language Understanding, o un diccionario. La preanotación puede ayudar a los anotadores humanos a preparar más rápidamente un conjunto de documentos de verdad terreno.
-
precisión
Una medida que especifica la proporción de resultados que son relevantes. La precisión, que es un valor predictivo positivo, se determina mediante el número de resultados positivos correctos dividido por el número de todos los resultados positivos. La exactitud se mide mejor mediante la precisión y la exhaustividad. Véase también exactitud y exhaustividad.
-
archivo de motor de proceso (PEAR)
Un archivo de archivado
.pear
que incluye un motor de análisis de UIMA (Unstructured Information Management Architecture) y todos los recursos necesarios para utilizarlo para el análisis personalizado.
R
-
exhaustividad
Una medida que especifica el porcentaje de resultados relevantes devueltos, de todos los resultados relevantes disponibles. La exhaustividad, que es una medida de sensibilidad, está determinada por el número de resultados positivos correctos dividido por el número de resultados positivos que deberían haberse devuelto. La exactitud se mide mejor mediante la precisión y la exhaustividad. Véase también exactitud y precisión.
-
relación
Normalmente un verbo que refleja cómo se relacionan las entidades entre sí. Por ejemplo, "lives in" ("vive en") es una relación entre una persona y una ciudad. Una relación enlaza dos entidades distintas en la misma frase.
-
tipo de relación
Una relación binaria y unidireccional entre dos entidades. Por ejemplo,
Mary
employedBy
IBM es una relación válida; IBMemployedBy
Mary
, no. -
rol
Un atributo que proporciona un significado según el contexto de una mención. Por ejemplo, en la frase "I went to IBM today", IBM es la mención, Organization es el tipo de entidad, y Facility es el rol del tipo de entidad.
-
conjunto de reglas
Un conjunto de reglas que definen patrones para anotar texto. Si se aplica un patrón, las acciones de la regla se realizarán en las anotaciones coincidentes. Una regla normalmente especifica la condición que debe coincidir, un cuantificador opcional, una lista de restricciones adicionales que el texto coincidente debe cumplir, y las acciones que se realizarán cuando se produzca una coincidencia, como crear una nueva anotación o modificar una anotación existente.
S
-
subtipo
Tipo que amplía o implementa otro tipo; el supertipo.
-
forma superficial
La forma de una palabra o de un compuesto tal como se encuentra en el corpus. Por ejemplo, algunas formas superficiales del lema 'organize' ('organizar') son los términos 'organizing' ('organizando') y 'organized' ('organizado'). Véase también diccionario y lema.
T
-
datos de prueba
Un conjunto de documentos anotados que pueden utilizarse para evaluar las métricas de sistema después de la ingesta y del entrenamiento. Véase también datos ciegos y datos de entrenamiento.
-
entrenar
Proceso de configurar una instancia de Watson con componentes que permiten que el sistema funcione en un dominio determinado (por ejemplo: contenido del corpus, datos de entrenamiento que generan modelos de aprendizaje automático, algoritmos mediante programación u otros componentes de datos de campo) y luego de realizar mejoras y actualizaciones en estos componentes basándose en el análisis de exactitud.
-
datos de entrenamiento
Un conjunto de documentos anotados que pueden utilizarse para entrenar modelos de aprendizaje automático. Véase también datos ciegos y datos de prueba.
-
verdadero negativo
Una respuesta o anotación que en realidad es incorrecta y se prevé que sea incorrecta.
-
verdadero positivo
Una respuesta o anotación que en realidad es correcta y que se prevé que sea correcta.
-
sistema de tipos
El sistema de tipos define los tipos de objetos que se pueden descubrir en un documento. El sistema de tipos define todos los tipos de entidades y relaciones posibles entre tipos de entidades. Puede definir cualquier número de tipos distintos en un sistema de tipos. Los sistemas de tipos son generalmente específicos del dominio y de la aplicación.