IBM Cloud Docs
Gestión de proyectos y extractores de reglas avanzadas

Gestión de proyectos y extractores de reglas avanzadas

En el editor de reglas avanzadas, utilice los proyectos para organizar los extractores y los documentos de ejemplo.

Antes de empezar

Los espacios de trabajo de reglas avanzadas solo están disponibles en instancias de Knowledge Studio alojadas en las ubicaciones de Dallas o Frankfurt.

  1. Cree una instancia de Knowledge Studio en la ubicación Dallas o de Frankfurt.
  2. En la página Gestionar de su instancia de servicio de Knowledge Studio, pulse Iniciar herramienta.
  3. Cree un espacio de trabajo de reglas avanzadas.
    • Si ya tiene otros espacios de trabajo, pulse Crear espacio de trabajo.
    • Pulse Crear espacio de trabajo de reglas avanzadas. Especifique un nombre para su espacio de trabajo y, a continuación, pulse Crear. El espacio de trabajo de reglas avanzadas se cargará transcurridos unos segundos.

Diseño del espacio de trabajo

El espacio de trabajo consta de las áreas siguientes:

  • El panel Proyectos y extractores incluye dos separadores. Utilice el separador Proyectos para crear, suprimir y cambiar el nombre de proyectos. El separador Extractores muestra los extractores proporcionados y los extractores personalizados que cree.
  • Utilice el Lienzo para diseñar y personalizar los extractores.
  • Utilice los paneles Propiedades del extractor y Resultados para definir propiedades del extractor y para ver los resultados de ejecutar un extractor sobre texto de ejemplo
  • Utilice el panel Documentos para gestionar los documentos de ejemplo que puede utilizar para probar los extractores.

Espacio de trabajo del editor de reglas avanzadas

Gestión de proyectos

Utilice proyectos para desarrollar y probar extractores que den soporte a una solución o categoría específica de documentos. Los proyectos se guardan automáticamente, a intervalos de cinco minutos, a medida que se trabaja en ellos. Puede guardar un proyecto manualmente pulsando Guardar Icono Guardar.

  • Para crear un proyecto, pulse Nuevo Icono Nuevo proyecto en la pestaña Proyectos.
  • Para suprimir un proyecto, seleccione el proyecto y pulse Suprimir Icono Suprimir en la pestaña Proyectos.
  • Para cambiar el nombre de un proyecto, efectúe una doble pulsación y edite el nombre de proyecto.

Botón Nuevo proyecto

Gestión de extractores

Un extractor es un componente de software que realiza tareas de análisis específicas y proporciona lógica de análisis. Se proporcionan extractores de ejemplo que puede utilizar tal cual o que puede copiar y editar. También puede definir extractores para que comparen términos específicos, patrones de caracteres y secuencias y los guarden en la biblioteca de extractores. Utilice el espacio de trabajo para añadir, modificar, combinar, compartir y suprimir extractores.

Adición de un extractor al lienzo

  1. Pulse el separador Extractores en el panel Proyectos y extractores.
    • Expanda la carpeta adecuada y seleccione el nombre del extractor deseado. Si desea ver más información sobre un extractor, selecciónelo y, a continuación, consulte la información de descripción en Propiedades del extractor. También puede pasar el cursor por encima del enlace Ejemplos en el panel Propiedades del extractor para ver ejemplos de los resultados que devuelve el extractor.
    • Como alternativa, puede buscar el extractor por nombre.
  2. Arrastre y suelte el extractor seleccionado en el lienzo. Cuando se añade un extractor varias veces, todas las instancias se tratan como una. Por ejemplo, una propiedad modificada en una instancia se refleja en todas las instancias. Para evitar que se modifiquen todas las instancias, cambie el nombre de cada una de las instancias cuando la arrastre al lienzo. Si ha cambiado el nombre de dos o más instancias, puede pulsar el botón derecho del ratón y seleccionar Desenlazar para crear una copia.

Puede perfeccionar el extractor modificando los Valores y la Salida en el panel Propiedades del extractor según sea necesario. Consulte Creación de un diccionario y Ejecución de un extractor para obtener más información acerca de cómo configurar estas propiedades. Cuando se modifica una propiedad del extractor, se crea automáticamente una copia que se utilizará en su proyecto.

Ejecución de una categoría de extractores

También puede añadir una categoría de extractores desde la biblioteca de extractores en un momento determinado. Los extractores de la categoría o de la carpeta con coincidencias en los documentos de entrada se añaden automáticamente al lienzo.

  1. Pulse el separador Extractores en el panel Proyectos y extractores.
  2. Pulse el botón derecho en la carpeta correspondiente a la categoría.
  3. Pulse Ejecutar categoría.

Cómo guardar extractores en la biblioteca de extractores

Hasta que un extractor se guarda en la biblioteca de extractores, solo puede acceder al extractor en el proyecto en el que se ha definido.

Para que un extractor esté disponible para todos los proyectos, pulse Guardar extractor en la barra de herramientas del lienzo. Los extractores personalizados se guardan en el separador Extractores de la carpeta tauser de forma predeterminada. Como práctica recomendada, guarde las versiones modificadas de un extractor proporcionado en la misma carpeta que el extractor proporcionado.

Creación de un extractor

Puede crear un extractor combinando uno o varios de los elementos siguientes.

  • Literal: compara un término único, como por ejemplo white-tailed deer o Congress
  • Diccionario: compara un grupo de términos pertenecientes a la misma categoría
  • Secuencia: una combinación de extractores que compara un patrón secuencial de términos
  • Unión: una agrupación de extractores que representan un único concepto
  • Expresiones regulares: comparación de patrones basada en la sintaxis

Creación de extractores con patrones lingüísticos

Para definir un extractor nuevo utilizando conceptos de procesamiento del lenguaje natural (PNL), como la señalización y la categoría léxica, es necesario desarrollar un extractor utilizando Annotation Query Language (AQL).

Para obtener más información sobre cómo escribir AQL y sobre las funciones disponibles, consulte la Referencia de Annotation Query Language

Creación de un diccionario

Un diccionario es una lista de términos relacionados con un concepto. Utilice un diccionario como un sustituto práctico de literales individuales cuando analice texto en busca de varios términos que se ajusten a la misma categoría.

Puede definir un diccionario como una lista simple de términos o como una tabla de correlación que correlacione un valor o término con un término preferido. Las tablas de correlación se suelen utilizar para resolver sinónimos, abreviaturas y valores codificados.

El uso de un diccionario a veces puede provocar el solapamiento de coincidencias. Por ejemplo, un diccionario que se utilice para extraer información sobre personas con rango militar, como Officer, Warrant Officer o Chief Warrant Officer, puede dar lugar a tres coincidencias solapadas para cada aparición de Chief Warrant Officer. Consulte Eliminación de los resultados duplicados y solapados para obtener la información necesaria para solucionar este problema.

Definición de una lista

Cuando se utilizan términos estandarizados, como nombres de departamento de una organización, prioridades de ventas, comités electorales o rangos militares, para extraer valores, se pueden identificar los términos necesarios en una lista.

  1. Pulse Nuevo diccionario en la barra de herramientas del lienzo.
  2. Especifique un nombre para el diccionario. Puede ampliar el nombre con una descripción. Es posible que los textos largos se trunquen en la pantalla, pero puede pasar el puntero del ratón por encima del diccionario para leer la descripción completa.
  3. En el separador Valores bajo Propiedades del extractor, escriba cada uno de los términos manualmente o cargue una lista desde un archivo. La longitud máxima de cada entrada es de 1024 caracteres.
  • Para especificar los términos manualmente, pulse Añadir término, especifique el término y pulse Intro. Escriba un término por fila.
  • Para cargar términos de un archivo de texto de UTF-8 con cada término en una línea distinta, Importar términos. Si se visualiza un error durante la importación, asegúrese de que el archivo no contiene caracteres que no se pueden imprimir, como un salto de línea o un retroceso.

Definición de una tabla de correlación

Cuando se analiza un texto que contiene sinónimos, ortografías alternativas para un término o valores codificados, se puede definir una tabla de correlación para correlacionar términos del texto con un término deseado.

Una tabla de correlación es análoga a una tabla de búsqueda o a una tabla de pares de clave-valor. Algunos ejemplos de instancias en las que puede definir una tabla de correlación incluyen la correlación de:

  • Apodos como Maggy y Peggy con Margaret
  • Abreviaturas y formas alternativas de un nombre de organización como, por ejemplo, I.B.M. IBM Deutschland e International Business Machines para el nombre comúnmente utilizado IBM
  • 404 con Archivo no encontrado cuando se convierten códigos de error de HTML en un archivo de registro
  • El código de área 408 con California

Para obtener un mejor rendimiento, utilice tablas de correlación largas o complejas en un segundo paso, después del paso de extracción de texto.

  1. Pulse Nuevo diccionario en la barra de herramientas del lienzo.
  2. Especifique un nombre para el diccionario. Puede ampliar el nombre con una descripción. El texto largo se trunca, pero se visualiza cuando pasa el cursor por encima del diccionario.
  3. En el separador Valores bajo Propiedades del extractor, pulse Correlacionar términos.
  4. Cumplimente la tabla de dos columnas manualmente o cargándola desde un archivo. La primera columna contiene los términos que se van a buscar en el texto y la segunda columna muestra los valores que se van a generar en los resultados. La longitud máxima de una entrada es de 1024 caracteres. Si un término se repite en la primera columna, solo se utiliza el primer valor correlacionado.
  • Para especificar los términos manualmente, pulse Icono ñadir término, especifique el término y su valor correlacionado y pulse Intro.
  • Para cargar términos de un archivo de texto ASCII o UTF-8 con cada término y su valor correlacionado, separados por una sola coma, en una línea distinta, pulse Importar términos. Si se visualiza un error durante la importación, asegúrese de que el archivo no contiene caracteres que no se pueden imprimir, como un salto de línea o un retroceso.

Creación de un literal

En el caso de coincidencias exactas con un solo término o frase, como por ejemplo white-tailed deer o Congress, utilice un literal.

  1. Pulse el icono Nuevo literal Nuevo literal en la barra de herramientas del lienzo. Esto añade un nuevo literal al lienzo.
  2. En el nuevo literal del lienzo, escriba la serie de texto que desea comparar. Por ejemplo, white-tailed deer.

Creación de una expresión regular

Para extraer información en función del formato de texto, debe utilizar una expresión regular. La sintaxis de una expresión regular es la misma que la utilizada para definir expresiones regulares en Java.

Para crear un extractor que utiliza una expresión regular:

  1. En la barra de herramientas del lienzo, pulse Nueva expresión regular.
  2. Escriba un nombre para la expresión regular. También puede añadir información descriptiva. Tenga en cuenta que la información que escribe en el indicador es el nombre de la expresión, no la propia expresión.
  3. Seleccione la expresión regular en el lienzo para las Propiedades de extractor en el separador Valores. Especifique una expresión regular. Para obtener más información sobre la sintaxis, consulte Patrón de clase Javadocc.
  4. Especifique opciones para la distinción entre mayúsculas y minúsculas, el rango de señales y el manejo de caracteres especiales. Si, al diseñar una expresión regular, ve falsos positivos, proporcione más contexto ampliando el patrón en la expresión regular o añadiendo contexto mediante un patrón de secuencias. Por ejemplo, si la expresión de código postal coincide con otros términos, incorpore reglas según las que se permiten letras en determinadas posiciones.

Ejemplos de expresiones regulares

A continuación se muestran ejemplos de expresiones regulares de Java que se pueden utilizar en instancias específicas. En las descripciones de patrones, A representa un carácter y 9 un dígito. Para obtener más información sobre la sintaxis de Java, consulte el Javadoc sobre Patrones de clase.

  • Para seleccionar texto que incluya cualquier número ordinal de uno o más dígitos seguidos de th, st, nd o rd (21st, 2nd, 3rd, etc.), especifique:

    \d+(st|nd|rd|th)
    
  • Para seleccionar texto que incluya números de la seguridad social de EE. UU. formateados como 999-99-9999, especifique:

    \d{3}\-\d{2}\-\d{4}
    
  • Para seleccionar todo el texto que incluya un código postal canadiense formateado como A9A-9A9, A9A 9A9 o A9A9A9 (por ejemplo, K1G 3K9, V5g-4X3 y x2H3m5), especifique:

    [a-zA-Z][0-9][a-zA-Z](-|)[0-9][a-zA-Z][0-9]
    
  • Para seleccionar todo el texto que incluya un código postal del Reino Unido formateado como A9 9AA, A99 9AA, AA99 9AA, A9A 9AA o a9d AA9A 9AA (por ejemplo, M1 1AE, B33 8TH, DN55 1PT, W1A 0AX, CR2 6XH y SW1A 2AA), especifique:

    [A-Z]{1,2}[1-9][0-9]?[A-Z]?\s[0-9][A-Z]{2,}|GIR 0AA
    
  • Para seleccionar todo el texto que incluya números de matrículas de vehículos privados y comerciales de India formateados como AA-99-AA-9999, AA-99-AAA-9999 y para estados donde el 0 es opcional, AA-9-AA-9999 con separadores que pueden ser guiones o espacios, o sin separadores (por ejemplo TN-86-AF-1199, WB 06 F 5971 y DL4CAF4943), especifique:

    [A-Z]{2}(-| |)\d{1,2}(-| |)[A-Z]{1,3}(-| |)\d{4} (M1 1AE, B33 8TH, DN55 1PT, W1A 0AX, CR2 6XH, SW1A 2AA)
    

Creación de un patrón de secuencia

Generalmente debe evaluar el texto correspondiente a los patrones que proporcionan contexto para los términos de interés. Por ejemplo, supongamos que desea distinguir las referencias al personal militar o de las fuerzas del orden de las referencias a civiles. Al diseñar un extractor, hay varios métodos disponibles para identificar y extraer información sobre la base de patrones del texto. Estos métodos se pueden utilizar en un solo extractor o se pueden combinar extractores.

Antes de definir su propio patrón para satisfacer sus necesidades, compruebe si un extractor proporcionado le puede dar los resultados deseados.

Para crear un patrón de secuencia:

  1. Cree extractores individuales para todos los términos necesarios ampliando los extractores proporcionados o creando diccionarios, expresiones regulares y literales.
  2. Arrastre y suelte un extractor en otro extractor en el lienzo y alinee el cursor para reflejar el orden en el que aparece el término en el patrón de texto. Una línea azul oscuro en negrita a la izquierda o a la derecha del extractor en el que va a soltar el nuevo extractor indica las posiciones relativas de los extractores. Después de soltar el nuevo extractor, los dos extractores aparecen dentro de un recuadro para indicar la secuencia. El recuadro tiene un título temporal, Sequence n.
  3. Opcional: seleccione la secuencia en el lienzo y cámbiele el nombre en Propiedades del extractor en General.
  4. Opcional: si es necesario, repita los pasos 1 y 2 para añadir más elementos al patrón.

Ejemplo de patrón de secuencia

Para seleccionar referencias al personal militar:

  1. Cree un diccionario llamado Military Ranks que incluya términos como Warrant Officer, Sergeant y Lieutenant.
  2. Arrastre el extractor Person en el lienzo después del diccionario Military Ranks para indicar que la nueva secuencia encuentra rangos y luego nombres. La línea azul oscuro que hay después del extractor Military Ranks indica la colocación del extractor Person en el patrón de texto.

Cuando suelte el botón del ratón, aparecerá un objeto de secuencia en el lienzo.

  1. Pulse el objeto de secuencia en el lienzo, bajo Propiedades del extractor, y abra el separador General. Cambie el nombre del objeto de secuencia por Military Personnel.
  2. La regla de extractor final se muestra en el lienzo.

Adición de reglas de proximidad

Las reglas de proximidad sirven para especificar el número máximo de señales que puede haber entre los términos deseados. En el texto, se suele hacer referencia a cada palabra o carácter como una señal. La secuencia "The CEO announced the earnings last week, missing analyst estimates by 5%." contiene 15 señales: 11 palabras separadas por espacios, 3 caracteres especiales y 1 número.

Supongamos que desea localizar referencias a casas de ladrillo rojo (red brick houses), sabiendo que en el texto que va a analizar pueden aparecer frases como house made of red brick, red house of brick y the brick on the house reflected red. Las reglas de proximidad garantizan que estas frases se extraen y que se excluyen frases que incluyen por casualidad los términos especificados, como por ejemplo "The red car passed a house near the brick yard".

  1. Pulse con el botón derecho del ratón sobre el extractor en el lienzo y, bajo uno de los submenús Añadir, pulse Regla de proximidad.
  2. En el formato minimum-maximum, especifique el número mínimo y máximo de palabras, caracteres especiales o valores que se permiten entre términos. De forma predeterminada, el patrón de proximidad se establece de modo que coincida con el número de señales entre los dos números que especifique en el rango. Si la proximidad deseada no varía, puede cambiar el valor. Por ejemplo, especifique 0-2.
  3. Seleccione la nueva regla de proximidad. Se abren las Propiedades del extractor en el separador Valores, donde puede cambiar el rango de números o convertirlo en un número exacto de señales.

Ejemplo 1:

  1. Cree un diccionario llamado Clerical title que incluya términos como Rabbi, Father y Archbishop.
  2. Arrastre el extractor Person a la derecha del diccionario Clerical title de modo que la nueva secuencia encuentre jerarquías clericales seguidas de nombres. Cuando suelte el botón del ratón, aparecerá un objeto de secuencia en el lienzo.
  3. Pulse con el botón derecho del ratón en Clerical title y pulse Añadir después > Regla de proximidad. Para captar términos, como por ejemplo Archbishop of Canterbury, Robert Runcie, especifique el número mínimo y máximo de señales entre palabras, en este caso 0-5.
  4. Pulse la secuencia en el lienzo y, a continuación, bajo Propiedades del extractor, abra el separador General si no se abre automáticamente. Cambie el nombre de la secuencia por Clerics.

Ejemplo 2:

Como segundo ejemplo, seleccione tuits que hagan referencia a nombres en Twitter de analistas de la industria con un término big data. Para lograrlo, cree dos diccionarios, uno de nombres de los usuarios de Twitter de los analistas y un segundo de términos de big data y combínelos en el lienzo del espacio de trabajo con una proximidad de entre una y 25 señales.

Creación de una unión

Para combinar extractores en una unión:

  1. Defina dos o más extractores en el lienzo.
  2. Pulse Salida en el panel Propiedades del extractor para asegurarse de que el número y los nombres de las columnas de salida para cada secuencia o extractor son los mismos. Además de tener el mismo número de columnas y nombres de columna idénticos, las columnas de salida de cada secuencia o extractor deben tener el mismo tipo de datos. En este contexto, el tipo de datos es span, number, string, character, date o time. Tenga en cuenta que no puede editar estas propiedades para un extractor o secuencia mientras está en una unión.
  3. En el lienzo, sin tener en cuenta el orden, pulse y arrastre un extractor o secuencia por encima o por debajo de otro hasta que el indicador de zona donde soltar de color azul oscuro indique que puede soltar el extractor.

  1. Suelte el botón del ratón para soltar el extractor.
  2. Arrastre y suelte otros extractores o secuencias en la unión.

Ejemplo de unión

El término Parties en contratos puede hacer referencia a dos particulares, a dos organizaciones o a un particular y una organización. Para extraer información sobre las partes, debe definir dos extractores, Party1 y Party2, para seleccionar un particular o una organización.

  1. Arrastre los extractores Person y Organization desde el panel Extractor al lienzo.
  2. En el lienzo, seleccione cada extractor individualmente y, en el separador Salida de las Propiedades del extractor, cambie el nombre de las columnas de salida para que las definiciones de columna sean las mismas para ambos.

  1. Arrastre el extractor de Organization a la zona donde soltar que hay bajo el extractor Person.

  1. Seleccione Union 1 en el lienzo y llámela Party 1 en el separador General de las Propiedades del extractor.
  2. Copie Union 1 para crear una segunda unión y llámela Party 2.
  3. Para buscar las partes en los contratos, combine las dos uniones en una secuencia, tal como se muestra aquí. Entre las dos uniones de la secuencia está el literal and.

  1. Llame a la nueva secuencia Legal Parties.

Ejecución de un extractor

Para probar el extractor, puede ejecutarlo desde el espacio de trabajo y revisar los resultados para asegurarse de que el diseño se ajusta a sus necesidades. Cuando crea que el diseño del extractor resulta satisfactorio, puede guardarlo en la biblioteca de extractores para usarlo en otros proyectos.

Para ejecutar un extractor desde el espacio de trabajo, pulse con el botón derecho del ratón en el extractor en el lienzo y pulse Ejecutar seleccionados en el menú. Como alternativa, seleccione el extractor y pulse Ejecutar seleccionados en la barra de herramientas del lienzo. Para ejecutar varios extractores, selecciónelas y pulse Ejecutar seleccionados. Cuando el extractor haya terminado de ejecutarse, pulse el panel Resultados para ver la salida. Los resultados también se resaltan en el panel Documentos.

El resultado de cada una de las columnas se enlaza al documento del panel Documentos. Para ver los resultados correspondientes a una columna, seleccione la columna para ajustar la vista del documento para que muestre el resultado correspondiente resaltado en azul, tal como se muestra más abajo.

Refinamiento de los resultados del extractor

Para ayudar o para simplificar el análisis, puede refinar la información en el panel Resultados manipulando las columnas del separador Salida de las Propiedades del extractor. También puede cambiar el nombre de las columnas y eliminar o consolidar texto duplicado o solapado para facilitar el análisis.

Cambio de nombre de una columna en la visualización de resultados

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida.
  2. En el menú de la columna, seleccione Cambiar nombre o simplemente efectúe una doble pulsación en la columna.
  3. Escriba el nuevo nombre de columna que se va a visualizará en los resultados.

Adición de una columna de serie

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida.
  2. Pulse el menú Gestionar columnas en la columna de la izquierda de la tabla.
  3. Pulse Nueva columna.

Adición de una columna de salida transformada

Puede transformar la salida del extractor, convirtiéndolo, por ejemplo, a minúsculas. Realice estas transformaciones en el separador Salida del panel Propiedades del extractor.

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida.
  2. Pulse el menú desplegable en la cabecera de la columna que desea transformar y seleccione el tipo de transformación que desea realizar.
Opción Descripción
Recortar Crea una columna y recorta el valor devuelto por la columna seleccionada.
Convertir en serie Crea una columna y convierte el valor devuelto por la columna seleccionada en un valor de serie.
Convertir en serie en minúsculas Crea una columna y convierte el valor devuelto por la columna seleccionada en un valor de serie en minúsculas.
Nueva columna a partir de una sola columna Crea una columna que incluye el número de caracteres o palabras especificado a la izquierda o derecha del valor de la columna seleccionada.
Nueva columna a partir de dos columnas Crea una columna a partir de tramos que están entre las dos columnas de entrada o que se solapan en las mismas, o bien fusiona la totalidad de las dos columnas. El contenido del intervalo puede ser una o más señales.

Requisito: La segunda columna para la función Columna nueva de dos columnas debe ser del extractor seleccionado en el lienzo.

Si aplica Recortar, Nueva columna a partir de una sola columna o Nueva columna a partir de dos columnas a una columna seleccionada y luego selecciona Convertir en serie o Convertir en serie en minúsculas, no obtendrá ninguna otra columna nueva. Las transformaciones de serie se aplicarán en su lugar a la nueva columna generada por las opciones Recortar o Nueva columna anteriores.

Cómo ocultar una columna de la visualización de resultados

Puede ocultar columnas de salida en el separador Salida del panel Propiedades del extractor.

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida.
  2. Pulse el menú Gestionar columnas en la columna de la izquierda de la tabla.
  3. Desmarque los recuadros de selección de las columnas que desea eliminar de la visualización de resultados. Estas columnas se ocultarán de los resultados, aunque el contenido se extrae.

Supresión de una columna de la visualización de resultados

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida.
  2. Pulse el menú Gestionar columnas en la columna de la izquierda de la tabla.
  3. Pulse Suprimir columna y seleccione los recuadros de selección correspondientes a las columnas que desea eliminar de la visualización de resultados.

Eliminación de resultados duplicados y solapados

A veces un extractor genera varias filas para el mismo texto porque el texto coincide con más de una entrada de diccionario. Para eliminar o consolidar las entradas duplicadas, debe proporcionar reglas de consolidación.

  1. En el lienzo, pulse con el botón derecho en el extractor que genera los resultados.
  2. En el panel Propiedades del extractor, pulse Salida.
  3. Seleccione Gestionar coincidencias solapadas.
  4. En la lista Columna de salida, seleccione la columna que está provocando que el extractor genere la salida duplicada.
  5. En la lista Método, seleccione uno de los siguientes valores:
    • Contenido en para conservar el resultado más largo.
    • No contenido en para conservar el resultado más corto.
    • Contiene pero no igual para conservar los resultados exclusivos de la misma longitud.
    • Coincidencia exacta para conservar una instancia de cada resultado.
    • De izquierda a derecha para conservar el resultado más largo, con el mayor número de términos de izquierda a derecha.

Como ejemplo, supongamos que está diseñando un extractor para documentos que incluyen referencias a personal militar. Después de crear y de ejecutar un diccionario que contiene una lista de rangos militares, como por ejemplo Chief Warrant Officer, Warrant Officer y Officer, ve los siguientes resultados para Chief Warrant Officer John Doe:

  • Chief Warrant Officer John Doe
  • Warrant Officer John Doe
  • Officer John Doe

Los términos Warrant Officer y Officer se encuentran en el término más largo Chief Warrant Officer, lo que hace que Chief Warrant Officer John Doe satisfaga las tres entradas de diccionario y genere tres filas de resultados. Para conservar el término más largo, que representa el rango más significativo, debe especificar los siguientes valores de consolidación:

  1. En Columna de salida seleccione Military Rank
  2. En Método seleccione Contenido en

Ahora los resultados solo incluirán la fila Chief Warrant Officer John Doe.

Filtrado de resultados extraños

A veces un extractor genera resultados no deseados aunque el patrón sea una coincidencia. Estos resultados no deseados a menudo pueden ser reconocidos por otro texto cercano a la coincidencia en el documento.

Para restringir aún más las coincidencias, cree un filtro.

  1. En el lienzo, pulse el botón derecho en el extractor que ha generado los resultados y pulse Editar salida. Se abre el separador Salida en Propiedades del extractor.
  2. Elija si desea Incluir o Excluir resultados. Incluir es el valor predeterminado.
  • Un filtro Incluir es una condición que debe cumplirse para que se incluya un resultado.
  • Un filtro Excluir es una condición que no debe cumplirse para que se incluya un resultado.
  1. En la lista desplegable del primer filtro, seleccione la columna a la que desea aplicar el filtro.
  2. En la siguiente lista desplegable, seleccione el tipo de filtro. Dependiendo del filtro, la siguiente lista desplegable refleja las opciones adecuadas.
Opción Descripción
longitud Filtrar según si el contenido de columna es más corto, más largo o igual al número especificado de caracteres o de señales.
texto Filtrar según si el texto coincide o contiene una expresión regular o un diccionario del lienzo, o puede especificar una nueva expresión regular. También puede establecer la distinción entre mayúsculas y minúsculas.
rango Filtrar sobre la base de criterios específicos dentro de un rango de columna especificado. Por ejemplo, puede utilizar empieza por para reducir los resultados de las coincidencias de modo que solo obtenga coincidencias de rango militar que empiecen por Chief.
  1. Cuando haya completado las opciones de filtro, ejecute el extractor de nuevo para ver cómo han cambiado los resultados.

El extractor Military Ranks puede generar una coincidencia para el texto Chief Warrant Officer John Doe, pero no desea incluir resultados que tengan la palabra except antes de la coincidencia.

  1. Cree un diccionario con el término except y cualquier otro término que desee utilizar para excluir resultados.
  2. Seleccione Military Ranks en el lienzo y abra el separador Salida bajo Propiedades del extractor.
  3. Pulse Nuevo filtro.
  4. Seleccione Excluir y elija una columna.
  5. Seleccione rango y se encuentra después.
  6. Seleccione el diccionario que incluye except.
  7. Seleccione la columna y entre 0 y 2 señales.

El filtro excluye cualquier coincidencia que tenga la palabra except en un tramo de entre 0 y 2 señales antes de una coincidencia.

Extracción en idiomas que no sean el inglés

Para extraer texto de documentos que no estén en inglés, a veces puede utilizar o modificar los extractores proporcionados o definir nuevos extractores basados en patrones lingüísticos. Además, si los términos de destino se basan en un patrón, también puede diseñar un patrón de secuencia.

Puede utilizar el espacio de trabajo para crear extractores que se utilizarán con cualquier idioma, como el español y el francés, que se base en señales definidas por el espacio en blanco y la puntuación. Por ejemplo, los resultados de utilizar el extractor Person con texto en español pueden extraer los nombres que se muestran aquí.

Ampliación de los extractores proporcionados para utilizarlos en otro idioma

Si el idioma de destino se basa en señales definidas por el carácter de espacio en blanco y la puntuación, puede ampliar un extractor proporcionado que tenga puntos de personalización o diccionarios añadiendo términos a los diccionarios adecuados en el idioma de destino.

Extractor proporcionado Incluido en la carpeta: Cómo ampliarlo
Todos los extractores genéricos Extractores genéricos Defina una expresión regular para el patrón de texto de destino. Si el extractor proporcionado genera resultados, cree una unión con el extractor proporcionado y la expresión regular.
Email address, Phone number, Zip code Named Entity Recognition Defina una expresión regular para el patrón de texto de destino. Si el extractor proporcionado genera resultados, cree una unión con el extractor proporcionado y la expresión regular.
Moneda Named Entity Recognition Combine un extractor de números decimales con un literal para representar el símbolo de moneda local en una secuencia o defina una expresión regular. Si se necesita más de un símbolo de moneda, utilice un diccionario en lugar de un literal.
Date and time Named Entity Recognition

Para los formatos numéricos, defina una expresión regular para el patrón de texto de destino.

Para formatos alfabéticos, defina una secuencia utilizando enteros para los días y años y una tabla de correlación para representar los meses. Utilice los nombres completos y las abreviaturas de cada mes de la tabla de correlación. Por ejemplo, correlacione los meses en francés juillet y juil con juillet o July, si traduce al inglés.

City, County, Country, Person, Location, Organization, State or province, Town Named Entity Recognition

Idiomas europeos y similares

Añada entradas correspondientes al idioma al diccionario adecuado.

Árabe, japonés e idiomas similares

Continent Named Entity Recognition Defina un diccionario y especifique entradas que van a contener los nombres de los continentes en el idioma de destino. Si también se van a incluir resultados en inglés, forme una unión entre el extractor del continente proporcionado con el suyo personalizado.
Dirección Named Entity Recognition Defina una secuencia compuesta de las partes de la dirección, como calle, ciudad, país y código postal.
Todos los extractores financieros Acciones financieras Estos extractores no se pueden ampliar.
Todos los extractores de análisis de datos de máquina Machine Data Analytics Cuando sea posible, defina una expresión regular o secuencia. El resto de extractores no se puede ampliar.
Todos los extractores de análisis de sentimiento Análisis de sentimiento - GeneralAnálisis de sentimiento - Encuestas Añada entradas en el idioma de destino al separador Personalizar términos en el panel de Propiedades del extractor.

Despliegue del modelo de reglas avanzadas en Natural Language Understanding

El despliegue de un modelo de reglas avanzado en Natural Language Understanding está en desuso. A partir del 10 de junio de 2021, no podrá desplegar modelos de reglas avanzadas en Natural Language Understanding.

Exportación del proyecto de reglas avanzadas

En estas instrucciones se detalla cómo exportar un modelo de reglas avanzadas desde IBM Watson® Knowledge Studio para IBM Cloud Pak for Data Advanced Rules Editor, pero son instrucciones comunes para la nube pública.

  1. Abra el espacio de trabajo Reglas avanzadas
  2. Confirme que todos los modelos que desea exportar están en el lienzo, y que no se guardan en el panel "Extractores", excepto para los extractores proporcionados
  3. Pulse el botón derecho del ratón sobre el proyecto que desea exportar en el panel "Proyectos"
  4. Pulse Export Projectexportar
  5. Marque "Incluir documentos" si lo necesita, especifique un nombre de archivo y pulse el botón OK
  6. Elija Save as File en el diálogo emergente de su navegador y, a continuación, se guardará un archivo ZIP en el equipo (normalmente en una carpeta de descarga)

Cuando se exporta un proyecto del Editor de reglas avanzadas, solo se incluyen los conceptos que existen en el lienzo en el archivo ZIP exportado. Si desea incluir conceptos que se han guardado en Categorías, asegúrese de añadir también los que se han guardado en el lienzo, antes de exportar.

Importación del proyecto de reglas avanzadas

En estas instrucciones se detalla cómo importar un modelo de reglas avanzadas a IBM Watson® Knowledge Studio en la nube pública.

  1. Cree un espacio de trabajo de Reglas avanzadas
  2. Pulse el botón derecho del ratón en el separador "Proyectos" y pulse Import Project
  3. Indique un nombre de proyecto, marque "Incluir documentos", si lo necesita, y seleccione un archivo ZIP exportado en Exportar proyecto de reglas avanzadas

Exportación de un archivo de modelo del proyecto

  1. Lleve a cabo el paso 6 de Creación de un modelo de reglas avanzadas

Despliegue e invocación del archivo de modelo en Natural Language Understanding

  1. Consulte Análisis de texto con reglas avanzadas (Beta) en la documentación de Natural Language Understanding