IBM Cloud Docs
Definir un conjunto finito de términos con un diccionario

Definir un conjunto finito de términos con un diccionario

Reconozca términos y sinónimos para los términos que son significativos para usted, como los nombres de los productos que vende.

Ayude a Discovery a encontrar términos que tengan significado para su caso de uso añadiendo un diccionario. Puede definir varios sinónimos para un término o un conjunto de palabras en la misma categoría.

Puede crear un diccionario añadiendo los términos uno por uno o cargando un archivo CSV que lista los términos.

Para añadir términos de diccionario uno a uno, realice los pasos siguientes:

  1. En la sección Enseñar conceptos de dominio del panel Herramientas de mejora, elija Diccionarios.

  2. Pulse Nuevo.

  3. Asigne un nombre al diccionario.

    Por ejemplo, Transportation.

  4. Elija el idioma. Un diccionario puede contener términos en un solo idioma.

  5. Opcional: Expanda Opciones avanzadasy edite el nombre de faceta para el diccionario.

    Las facetas se utilizan para categorizar documentos. Un usuario puede elegir un tipo de faceta para limitar sus resultados de búsqueda. El nombre de diccionario en minúsculas se utiliza como nombre de faceta de forma predeterminada. Es posible que desee cambiar la faceta para que esté en mayúsculas.

  6. Especifique un término y, a continuación, seleccione el botón + para añadirlo.

    Por ejemplo, vehicle y engine.

    En diccionarios en inglés, especifique los términos del diccionario en minúsculas. Utilice sólo mayúsculas si desea que Discovery ignore las menciones en minúsculas del término cuando aparecen en el texto. Cuando se analizan los términos para determinar si son apariciones del enriquecimiento de diccionario, se utiliza la forma superficial del término con coincidencia en mayúsculas. Por ejemplo, una entrada vehicle en el diccionario da como resultado anotaciones para menciones vehicle, Vehicle o VEHICLE cuando aparecen en texto. Para una entrada Sat en el diccionario, se añaden anotaciones para Sat o SAT, pero no para sat.

    La coincidencia de diccionario distingue entre mayúsculas y minúsculas para árabe, chino, coreano, japonés y hebreo.

  7. Para añadir sinónimos para el término, pulse el icono Editar y, a continuación, especifique sinónimos en el campo Otros términos. Separe los sinónimos múltiples con una coma. Pulse Guardar término.

    El diccionario puede contener términos y sus sinónimos o una categoría y términos que pertenecen a la categoría.

    Para el término vehicle, puede especificar sinónimos como car, automobile, sedan, convertible, station wagon, etc. Para engine, puede especificar gasket, carburetor, piston y valves.

    Tenga cuidado de no añadir demasiados sinónimos. Pruebe el impacto de los sinónimos que añada. Cuando realice la prueba, utilice datos que sean diferentes de los datos que utilice para derivar los sinónimos.

  8. Continúe añadiendo términos.

    Términos similares de todas las colecciones del proyecto actual se sugieren como nuevas entradas.

    Los términos sugeridos se toman de un campo denominado text. Si falta el campo de texto, se elige un campo con el valor de serie más largo y el número más alto de valores distintos. Las sugerencias no se visualizan si no hay documentos o la colección no tiene campos con datos de texto.

  9. Pulse Guardar diccionario.

  10. Elija las colecciones y los campos donde desea aplicar el diccionario y, a continuación, pulse Aplicar.

Ejemplo

Se añade un diccionario de transporte a un proyecto.

Diccionario de transporte en la{: caption="del productoDiccionario " caption-side="bottom"} transporte

La faceta resultante que se crea para el diccionario se visualiza en la página de búsqueda.

Página de búsqueda con la faceta de Transporte*Faceta " caption-side="bottom"}{: caption="

El documento en el que se aplica el enriquecimiento contiene la frase siguiente:

Some car fluids can be acidic, such as battery fluid.

El siguiente fragmento de código JSON ilustra cómo se almacena una mención de enriquecimiento de diccionario de transporte cuando el término car, que es sinónimo de la entrada de diccionario vehicle, se encuentra en el documento. En esta colección, el enriquecimiento de diccionario se aplica al campo text, por lo que la mención se lista en la matriz entities que está en la matriz enriched_text.

{
  "enriched_text": [
    {
      "entities": [
        {
          "model_name": "Dictionary:.Transportation",
          "mentions": [
            {
              "confidence": 1,
              "location": {
                "end": 91122,
                "begin": 91119
              },
              "text": "car"
            }
          ],
          "text": "vehicle",
          "type": "Transportation"
        }
      ]
    }
  ]
}

Carga de términos de diccionario

Para añadir un diccionario desde un archivo CSV, siga estos pasos:

  1. Cree un archivo CSV que contenga los términos del diccionario que desea añadir.

    Utilice la codificación UTF-8. Especifique una entrada por línea.

    • Para definir un conjunto de términos sinónimos, utilice la sintaxis siguiente:

      <term>,<synonym>,<synonym>,<synonym>,...
      

      Por ejemplo:

      vehicle,car,automobile,sedan,convertible,station wagon
      

      La entrada de este ejemplo crea una entrada de diccionario vehicle. Cuando se aplica el enriquecimiento de diccionario a un documento, las menciones de vehicle, car, automobile, sedan, convertible o station wagon se etiquetan como instancias de la entrada de diccionario vehicle.

    • Para definir un conjunto de términos en la misma categoría, utilice la sintaxis siguiente:

      <category>,<related-term>,<related-term>,...
      

      Por ejemplo:

      engine,gasket,carburetor,piston,valves
      

      La entrada de este ejemplo crea una entrada de diccionario engine. Cuando se aplica el enriquecimiento de diccionario a un documento, las menciones de engine,gasket,carburetor,piston o valves se etiquetan como instancias de la entrada de diccionario engine.

  2. En la sección Enseñar conceptos de dominio del panel Herramientas de mejora, elija Diccionarios.

  3. Pulse Cargar.

  4. Asigne un nombre al diccionario y elija el idioma que se ha utilizado en el archivo CSV.

  5. Opcional: expanda Opciones avanzadasy especifique editar el nombre de faceta para el diccionario. Las facetas se utilizan para categorizar documentos. Un usuario puede elegir un tipo de faceta para limitar su búsqueda. El nombre de diccionario en minúsculas se utiliza como nombre de faceta de forma predeterminada. Es posible que desee cambiar la faceta para que esté en mayúsculas.

  6. Pulse Cargar para buscar el archivo CSV que ha creado anteriormente.

  7. Pulse Crear.

  8. Elija las colecciones y los campos donde desea aplicar el diccionario y, a continuación, pulse Aplicar.

Si añade un diccionario utilizando la API de enriquecimiento, después de aplicar el enriquecimiento de diccionario generado por la API a un campo, el diccionario se visualiza en la página Diccionarios. Sin embargo, no puede editar el diccionario generado por la API desde la herramienta de diccionario en la interfaz de usuario del producto.

Para suprimir un diccionario, debe utilizar el método Suprimir un enriquecimiento de la API v2 de Discovery.

Los enriquecimientos de diccionario que añada a un proyecto se pueden aplicar a colecciones de otros proyectos en la misma instancia de servicio. De hecho, puede aplicarlos a colecciones de un proyecto de Content Mining desde la aplicación Content Mining desplegada.

Límites de diccionario

El número de diccionarios y entradas de término que puede crear por instancia de servicio depende del tipo de plan Discovery.

Límites de plan de diccionario
Planifique Número de diccionarios por instancia de servicio Número de entradas de término por diccionario Número de términos para los que se pueden generar sugerencias
Cloud Pak for Data Ilimitado Ilimitado 1.000
Premium 200 10.000 1.000
Empresa 200 10.000 1.000
Plus (incluye prueba) 20 1.000 50