Clasificación de documentos
Un modelo de aprendizaje automático de clasificador de documentos analiza los documentos y los etiqueta con la etiqueta adecuada de un conjunto de etiquetas que defina.
La clasificación de documentos es útil cuando desea clasificar muchos documentos en grupos mediante programación. Por ejemplo, puede tener una colección que contenga comentarios de los clientes sobre los productos que vende. Si puede ordenar automáticamente los comentarios en clases, puede aislar los problemas urgentes que los clientes mencionan y abordarlos primero. En función de los comentarios anteriores, puede definir clases como las etiquetas siguientes:
- No funciona correctamente
- Características no anunciadas
- Difícil de utilizar
- Partes que faltan
- Las piezas enviadas no coinciden con la lista de piezas en las instrucciones de ensamblaje
Para crear un clasificador de documentos, cree un modelo de aprendizaje automático que pueda reconocer qué clase captura mejor el punto de comentarios del cliente que se especifica en lenguaje natural. Los empareja con etiquetas de clase que representan escenarios reales que tienen sentido para su negocio.
- ¿Cuál es la diferencia entre un clasificador de documentos y un clasificador de texto?
- Un clasificador de documentos puede clasificar documentos basándose en palabras y frases extraídas de los campos de texto del cuerpo con información de su categoría léxica y los otros enriquecimientos que se aplican al texto del cuerpo que se tiene en cuenta. También se utiliza la información de los otros campos que no son del cuerpo. Un clasificador de texto puede clasificar documentos basados en palabras y frases extraídas del texto del cuerpo con su información de categoría léxica tomada en cuenta. Para obtener más información sobre cómo crear un clasificador de texto, consulte Clasificador.
Antes de empezar
Para entrenar el modelo de clasificador de documentos, debe proporcionar documentos de ejemplo etiquetados correctamente. Prepare los archivos siguientes:
- Datos de entrenamiento
-
Obligatorio. Archivo CSV que se utiliza para entrenar el modelo de aprendizaje automático del clasificador de documentos. El archivo puede contener puntos de datos clave por columna. Los puntos de datos pueden variar, pero el archivo debe incluir las columnas siguientes:
- Texto en lenguaje natural que desea clasificar o etiquetar.
- Etiqueta o nombre de clase que categoriza la idea que se expresa en el texto del documento. Puede aplicar más de una etiqueta a un ejemplo de texto. Separe varios valores de etiqueta con un punto y coma.
- Datos de prueba
-
Opcional. Archivo CSV que se utiliza para probar el modelo de aprendizaje automático del clasificador de documentos después de entrenarlo. Si no especifica un archivo separado para la prueba, se utiliza un subconjunto del contenido de los datos de entrenamiento para fines de prueba.
- Datos de destino
-
Obligatorio. Archivo CSV con los datos que desea clasificar.
Todos los archivos CSV (entrenamiento, prueba y destino) deben tener los mismos nombres de columna. Los datos de las columnas deben tener los mismos tipos de datos, como serie, número, etc.
Puede utilizar un archivo CSV que ha cargado en el momento en que ha creado el proyecto de Content Mining o puede crear una nueva colección.
Para más información, consulte los temas siguientes:
Ejemplo de datos de entrenamiento de clasificador de documentos
La tabla siguiente muestra un ejemplo del tipo de contenido que se puede almacenar en archivos CSV que se utilizan para entrenar un clasificador de documentos.
Id_reclamación | Fecha | Línea_producto | Producto | Segmentos de clientes | Ubicación_cliente | Edad del cliente | Comentarios | Etiqueta |
---|---|---|---|---|---|---|---|---|
0 | 2016/1/1 |
té | té de limón | No miembro | Manhattan | 20 | La paja se desprendió del paquete de jugos. | contenedor_paquete |
1 | 2016/1/2 |
helado | helado de vainilla | Miembro plata | Queens | 20 | Conseguí un poco de helado para mis hijos, pero había algo así como un pedazo de hilo dentro de la taza. | contamination_tampering |
Tenga en cuenta que los dos campos necesarios están presentes en el ejemplo. Los campos necesarios tienen los nombres siguientes:
Feedback
: texto de lenguaje natural a etiquetar.Label
: Etiqueta para aplicar a los comentarios.
Apertura de la aplicación de minería de contenidos
Si no lo ha hecho, cree el proyecto y añádale una colección. Si ya ha creado el proyecto y la colección, puede omitir este procedimiento y crear el clasificador de documentos.
-
En Discovery, cree un proyecto de Content Mining.
-
Elija cargar datos para crear la colección. Asigne un nombre a la colección y pulse Siguiente.
-
Cargue el archivo CSV que contiene sus datos de entrenamiento.
El archivo de datos de entrenamiento debe contener como mínimo la siguiente información:
- Una columna que contiene texto de ejemplo que desea clasificar. Por ejemplo, el texto de ejemplo puede ser una revisión de producto.
- Columna que contiene una etiqueta de clase o categoría asignada al texto de ejemplo.
-
Una vez completado el procesamiento de la recopilación, haga clic en Iniciar aplicación para abrir la aplicación Content Mining.
Los detalles de faceta se muestran para la colección.
Creación de un clasificador de documentos
Para crear un clasificador de documentos, siga estos pasos:
-
En la aplicación Content Mining, pulse el enlace Colecciones en el rastro de navegación para abrir la página Crear una colección.
Se visualiza el estado de creación de índice. Espere a que la colección se indexe completamente antes de continuar con este procedimiento.
-
Para crear un clasificador, pulse colección y, a continuación, elija clasificador en la lista.
{: caption="
-
Pulse Crear clasificador.
-
Asigne un nombre a su clasificador.
Cuando despliegue el modelo como enriquecimiento más adelante, se le asignará un nombre con el formato
{classifier name} - {model name}
. Por ejemplo, si el clasificador se denominaProduct reviews
y el modelo se denominav0.1
, el nombre de enriquecimiento seráProduct reviews - v0.1
.Opcionalmente, añada una descripción e identifique el idioma de los datos de entrenamiento seleccionándolos en el campo Idioma.
-
Pulse Siguiente
-
En la página Datos de entrenamiento, seleccione el archivo que ha cargado anteriormente en la lista y, a continuación, pulse Siguiente.
De forma alternativa, puede cargar un archivo CSV que contenga los datos de entrenamiento.
Aparecerá la página Campos. Muestra detalles sobre los campos que se generan a partir del archivo que ha añadido. Normalmente, cada columna de un archivo CSV se convierte en un campo y se le asigna un nombre que se copia de la cabecera de columna.
-
Deseleccione los campos de metadatos que desee excluir del conjunto de datos del clasificador de documentos y, a continuación, pulse Siguiente.
Los campos que incluya se utilizan como características adicionales en la clasificación. Todos los campos están seleccionados de forma predeterminada. Es posible que tenga que desplazarse horizontalmente para revisar todos los campos.
-
En la página Clasificador, especifique los campos a utilizar para el entrenamiento y la predicción de aprendizaje automático.
- Campo de respuesta
- Seleccione el campo en el archivo de datos de entrenamiento con la etiqueta de clasificación. En el ejemplo anterior, el campo
Label
es la mejor opción. - Campo predicho
- El nombre de la faceta que se genera para los valores de clase pronosticados. De forma predeterminada, el nombre de faceta tiene la sintaxis
<Answer field value>
_predicted
. Por ejemplo,Label_predicted
. - Conjunto de datos de prueba
- Especifica el conjunto de datos que se utilizará para probar el modelo de clasificador. De forma predeterminada, el archivo CSV de datos de entrenamiento que ha cargado y configurado se divide en tres conjuntos de datos que se utilizan para el entrenamiento, la validación y la prueba respectivamente. Sin embargo, opcionalmente puede especificar un conjunto de datos independiente para utilizarlo para probar el modelo.
- Entrenar modelo federado
- Crea más de un modelo, basándose en valores de un campo específico del conjunto de datos. Por ejemplo, si el documento tiene un campo
Product
, puede configurar el clasificador para crear un modelo de clasificador independiente para cada valor de nombre de producto especificado en el campo. De forma predeterminada, el clasificador crea un modelo de clasificador de aprendizaje automático.
No es necesario que especifique el campo que contiene el texto que se va a clasificar. El sistema detecta este campo automáticamente. Puede comprobar de qué campo se extrae el texto analizable y cambiarlo o aumentarlo cambiando el tipo de índice de otro campo. Para obtener más información, consulte Identificación del campo de texto.
Pulse Siguiente.
-
Si desea aplicar un enriquecimiento al texto de los datos de entrenamiento, seleccione al menos un campo en la lista Campos de destino donde desea aplicar los enriquecimientos.
Normalmente, desea elegir el campo que contiene el cuerpo del texto que desea clasificar. En el ejemplo anterior, el campo
Feedback
es la mejor opción.A continuación, seleccione los anotadores que desee aplicar para enriquecer el texto en el campo o campos de destino y, a continuación, pulse Siguiente.
El anotador de partes del discurso está seleccionado por defecto.
-
En la página Confirmar, revise los valores de configuración del clasificador. Para realizar cambios, utilice el botón Atrás. De lo contrario, pulse Guardar.
Se muestra una página de información general.
-
Pulse Nuevo modelo para crear y entrenar el modelo de aprendizaje automático.
-
Opcionalmente, puede cambiar el nombre del modelo y añadir una descripción.
Puede cambiar los valores de proporción predeterminados que se especifican para los conjuntos de datos siguientes:
- Conjunto de datos de entrenamiento: actualiza las ponderaciones del modelo de entrenamiento.
- Conjunto de validación: supervisa la precisión del modelo de entrenamiento durante el entrenamiento. El resultado de precisión se utiliza para dibujar un gráfico de pérdida de entrenamiento.
- Conjunto de datos de prueba: calcula la puntuación del modelo entrenado.
-
Pulse Crear.
El entrenamiento del modelo puede tardar varios minutos.
Despliegue del modelo de clasificador de documentos
Una vez entrenado el modelo, despliéguelo como un enriquecimiento.
-
Pulse el icono de menú de desbordamiento en la columna Acciones y, a continuación, pulse Desplegar modelo. Especifique el nombre y otros detalles y, a continuación, pulse Desplegar.
-
Realice una de las acciones siguientes:
-
Para aplicar el clasificador de documentos a una colección en el proyecto de Content Mining, consulte Enriquecimiento de la colección.
-
Para aplicar el clasificador de documentos a una colección en un proyecto diferente, realice los pasos siguientes:
-
En Discovery, cree o abra la colección que tiene los documentos que desea clasificar.
Los datos de la colección donde aplica el enriquecimiento deben tener los mismos campos que la colección que ha utilizado para entrenar el modelo.
-
En la pestaña Enriquecimientos, localice el clasificador en la columna Nombre. En el campo Campos para enriquecer, elija el mismo campo de texto que se ha utilizado para entrenar el modelo. (Este campo lo determina el sistema y se indexa como el campo Contenido de texto analizable. Para obtener más información, consulte Identificación del campo de texto.)
-
Pulse Aplicar cambios y volver a procesar.
-
-
Resultados de la clasificación
Después de aplicar el enriquecimiento a una colección, se genera una faceta que puede utilizar para buscar las clases pronosticadas. En este ejemplo, el campo predicho se denomina label_answer_predicted
.

Utilice la faceta generada para filtrar documentos por clasificación y analizar subconjuntos de documentos. Hacerlo le ayuda a encontrar patrones y a descubrir otros conocimientos. Puede exportar estos documentos de destino para compartirlos con los miembros del equipo o para seguir analizando. Para obtener más información, consulte Exportación de datos.
Cuando el clasificador de documentos clasifica un documento, almacena la clasificación en el campo document_level_enrichment.classes.class_name
.
Por ejemplo, el siguiente fragmento JSON muestra un documento que se ha clasificado con la clase package_container
.

Límites de clasificador de documentos
El número de clasificadores de documentos y etiquetas que puede crear por instancia de servicio depende del tipo de plan Discovery.
Limitar | Empresa | Premium | Cloud Pak for Data |
---|---|---|---|
Número de clasificadores de documentos por instancia de servicio | 20 | 20 | Ilimitado |
Número de filas de datos etiquetadas | 20.000 | 20.000 | 20.000 |
Tamaño máximo en MB de datos de entrenamiento después del enriquecimiento | 1.024 | 1.024 | 1.024 |
Número de etiquetas | 1.000 | 1.000 | 1.000 |
Número de campos objetivo | 50 | 50 | 50 |