Classificando documentos

Um modelo de aprendizado de máquina do classificador de documento analisa documentos e os identifica com o rótulo apropriado de um conjunto de rótulos que você define.

Classificar documentos é útil quando você deseja classificar muitos documentos em grupos programaticamente. Por exemplo, você pode ter uma coleção que contenha comentários do cliente sobre produtos que você vende. Se você pode classificar automaticamente o feedback em aulas, você pode isolar questões urgentes que os clientes mencionam e enfrentá-las primeiro. Com base no feedback anterior, é possível definir classes como os rótulos a seguir:

Não funcionando corretamente
Recursos não anunciados
Difícil de usar
Peças ausentes
As peças enviadas não correspondem à lista de peças nas instruções de montagem

Para criar um classificador de documento, você constrói um modelo de aprendizado de máquina que pode reconhecer qual classe melhor captura o ponto de feedback do cliente especificado em linguagem natural. Você os emparelha com rótulos de classe que representam cenários reais que fazem sentido para o seu negócio

Qual a diferença entre um classificador de documento e um classificador de texto?: Um classificador de documento pode classificar documentos com base em palavras e frases extraídas dos campos de texto do corpo com informações de sua parte do discurso e os outros enriquecimentos que são aplicados ao texto do corpo considerado. As informações dos outros campos sem corpo também são usadas. Um classificador de texto pode classificar documentos com base em palavras e frases extraídas do texto do corpo com suas informações de parte do discurso consideradas. Para obter mais informações sobre como criar um classificador de texto, consulte Classificador.

Antes de Iniciar

Para treinar o modelo do classificador de documento, você deve fornecer documentos de amostra que são rotulados apropriadamente. Prepare os seguintes arquivos:

Dados de treinamento

Obrigatório. Arquivo CSV que é usado para treinar o modelo de aprendizado de máquina do classificador de documento. O arquivo pode conter pontos de dados de chave por coluna Os pontos de dados podem variar, mas o arquivo deve incluir as seguintes colunas:

Texto de língua natural que você deseja classificar ou rotular.
Rótulo ou nome de classe que categoriza a ideia expressa no texto do documento. É possível aplicar mais de um rótulo a uma amostra de texto Separe diversos valores de rótulo com um ponto e vírgula.

Dados de teste

Opcional. Arquivo CSV que é usado para testar o modelo de aprendizado de máquina do classificador de documento após ele ser treinado. Se você não especificar um arquivo separado para teste, um subconjunto do conteúdo de dados de treinamento será usado para propósitos de teste

Dados de destino

Obrigatório. Arquivo CSV com os dados que você deseja classificar.

Todos os arquivos CSV (treinamento, teste e destino) devem ter os mesmos nomes de colunas.. Os dados nas colunas devem ter os mesmos tipos de dados, como sequência, número, etc.

É possível usar um arquivo CSV transferido por upload no momento em que você criou o projeto de Mineração de Conteúdo ou é possível criar uma nova coleta.

Para obter mais informações, consulte os tópicos a seguir:

Amostra de dados de treinamento do classificador de documento

A tabela a seguir mostra um exemplo do tipo de conteúdo que pode ser armazenado nos arquivos CSV usados para treinar um classificador de documento.

Dados de amostra para arquivos CSV
Claim_id	Data	Product_line	Produto	Client_segmentos	Client_localização	Idade do cliente	Feedback	Rótulo
0	`2016/1/1`	chá	chá de limão	Não Membro	Manhattan	20	A palha foi descascada do pacote de suco.	package_container
1	`2016/1/2`	sorvete	sorvete de baunilha	Membro Prata	Queens	20	Eu tenho um sorvete para meus filhos, mas havia algo como um pedaço de linha dentro do copo.	contamination_tampering

Observe que os dois campos obrigatórios estão presentes na amostra.. Os campos obrigatórios têm os seguintes nomes:

Feedback: Texto de linguagem natural para rotular.
Label: Rótulo a ser aplicado ao feedback

Abrir o aplicativo Content Mining

Se você não fez isso, crie o projeto e inclua uma coleção nele. Se você já criou o projeto e a coleta, poderá ignorar este procedimento e criar o classificador de documento.

No Discovery, crie um projeto de Mineração de Conteúdo.
Escolha fazer upload de dados para criar a coleção. Nomeie sua coleção e clique em Avançar.
Carregue o arquivo CSV que contém seus dados de treinamento.

O arquivo de dados de treinamento deve conter as seguintes informações no mínimo:
- Uma coluna que contém o texto de amostra que você deseja classificar. Por exemplo, o texto de amostra pode ser uma revisão do produto
- Uma coluna que contém um rótulo de classe ou de categoria designado ao texto de amostra.
Após a conclusão do processamento da coleta, clique em Launch application (Iniciar aplicativo) para abrir o aplicativo Content Mining.

Os detalhes da máscara são exibidos para a coleção

Criando um classificador de documento

Para criar um classificador de documentos, conclua as etapas a seguir:

No aplicativo Content Mining, clique no link Coleções na trilha de navegação para abrir a página Criar uma coleção.

O status da criação de índice é exibido Aguarde a coleção ser totalmente indexada antes de continuar com este procedimento.
Para criar um classificador, clique em Coleção e, em seguida, escolha classificador na lista.

de
Clique em Criar classificador.
Nomeie seu classificador.

Ao implementar o modelo como um enriquecimento posteriormente, o enriquecimento recebe um nome com o formato {classifier name} - {model name}. Por exemplo, se seu classificador for denominado Product reviews e o modelo for denominado v0.1, o nome do enriquecimento será Product reviews - v0.1.

Opcionalmente, inclua uma descrição e identifique o idioma dos dados de treinamento selecionando-os no campo Idioma.
Clique em Avançar
Na página Dados de treinamento, selecione o arquivo transferido por upload anteriormente na lista e, em seguida, clique em Avançar.

Como alternativa, é possível fazer upload de um arquivo CSV que contém seus dados de treinamento..

A página Fields (Campos ) é exibida. Ele mostra detalhes sobre os campos que são gerados a partir do arquivo incluído. Geralmente, cada coluna em um arquivo CSV é convertida em um campo e recebe um nome que é copiado do cabeçalho da coluna.
Cancele a seleção de quaisquer campos de metadados que você deseja excluir do conjunto de dados do qual seu classificador de documento aprender e, em seguida, clique em Avançar.

Quaisquer campos incluídos são usados como recursos adicionais na classificação. Todos os campos são selecionados por padrão. Pode ser necessário rolar horizontalmente para revisar todos os campos.
Na página Classificador, especifique os campos a serem usados para treinamento e predição de aprendizado de máquina.

campo de resposta

Selecione o campo do arquivo de dados de treinamento com o rótulo de classificação. No exemplo anterior, o campo Label é a melhor opção.

Campo previsto

O nome do aspecto gerado para os valores de classe preditos. Por padrão, o nome do aspecto tem a sintaxe <Answer field value>_predicted.. Por exemplo, Label_predicted.

Conjunto de dados de teste:

Especifica o conjunto de dados a ser usado para testar o modelo classificador. Por padrão, o arquivo CSV de dados de treinamento que você transferiu por upload e configurou é dividido em três conjuntos de dados usados para treinamento, validação e teste, respectivamente. No entanto, opcionalmente, é possível especificar um conjunto de dados separado para usar para testar o modelo.

Treinar modelo federado

Cria mais do que um modelo, com base em valores de um campo específico no conjunto de dados Por exemplo, se o documento tiver um campo Product, será possível configurar o classificador para criar um modelo de classificador separado para cada valor de nome do produto especificado no campo. Por padrão, o classificador cria um modelo de classificador de aprendizado de máquina.

Não é necessário especificar o campo que contém o texto a ser classificado O sistema detecta esse campo automaticamente.. É possível verificar de qual campo o texto analisável é extraído e alterá-lo ou aumentá-lo alterando o tipo de índice de outro campo Para obter mais informações, consulte Identificando o campo de texto

Clique em Próximo.
Se você desejar aplicar um enriquecimento ao texto em seus dados de treinamento, selecione pelo menos um campo na lista Campos de destino na qual você deseja aplicar enriquecimentos

Geralmente, você deseja escolher o campo que contém o corpo de texto que você deseja classificar. No exemplo anterior, o campo Feedback é a melhor opção.

Em seguida, selecione quaisquer anotadores que deseja aplicar para enriquecer o texto no campo ou campos de destino e, em seguida, clique em Avançar.

O anotador de parte do discurso é selecionado por padrão.
Na página Confirmar, revise as definições de configuração do classificador. Para fazer mudanças, utilize o botão Voltar.. Caso contrário, clique em Salvar.

A página Visão geral é exibida.
Clique em Novo modelo, para criar e treinar seu modelo de aprendizado de máquina.
É possível alterar opcionalmente o nome do modelo e incluir uma descrição.

É possível alterar os valores de razão padrão especificados para os seguintes conjuntos de dados:
- Conjunto de dados de treinamento: Atualiza os pesos do modelo de treinamento.
- Conjunto de validação: Monitora a precisão do modelo de treinamento durante o treinamento. O resultado da precisão é usado para desenhar um gráfico de perda de treinamento.
- Conjunto de dados de teste: Calcula a pontuação do modelo treinado
Clique em Criar.

Pode levar algum tempo para que o treinamento de modelo seja concluído.

Implementando o modelo do classificador de documento

Depois que o modelo for treinado, implemente o modelo como um enriquecimento

Clique no ícone do menu overflow na coluna Ações e, em seguida, clique em Implementar modelo.. Especifique o nome e outros detalhes e, em seguida, clique em Implementar..
Execute um dos procedimentos a seguir:
- Para aplicar o classificador de documento a uma coleção em seu projeto de Mineração de Conteúdo, consulte Enriquecendo sua coleção.
- Para aplicar o classificador de documento em uma coleta em um projeto diferente, conclua as seguintes etapas:
  1. No Discovery, crie ou abra a coleta que tem os documentos que você deseja classificar
    
    Os dados na coleção em que você aplica o enriquecimento devem ter os mesmo campos que a coleção usada para treinar o modelo.
  2. Na guia Enriquecimento, localize seu classificador na coluna Nome. No campo Campos para enriquecer, escolha o mesmo campo de texto que foi usado para treinar o modelo. (Esse campo é determinado pelo sistema e indexado como o campo Conteúdo de texto analisável. Para obter mais informações, consulte Identificando o campo de texto.
  3. Clique em Aplicar mudanças e processar novamente.

Resultados da classificação

Após o enriquecimento ser aplicado a uma coleção, uma máscara é gerada que pode ser usada para localizar as classes preditas. Neste exemplo, o campo predito é denominado label_answer_predicted

Mostra a faceta que é gerada depois que o enriquecimento do classificador de documentos é aplicado a uma — faceta Label_answer_predicted é

Use o aspecto gerado para filtrar documentos por classificação e analisar subconjuntos de documentos.. Fazer isso ajuda você a encontrar padrões e descobrir outros insights. É possível exportar esses documentos de destino para compartilhar com os membros da equipe ou analisar mais. Para obter mais informações, consulte Exportando dados

Quando o classificador de documento classifica um documento, ele armazena a classificação no campo document_level_enrichment.classes.class_name.

Por exemplo, o extrato JSON a seguir mostra um documento que foi classificado com a classe package_container..

Mostra a origem JSON para um documento que foi classificado com a classe package_container.. — Document classifier enrichment syntax

Limites do classificador de documento

O número de classificadores e rótulos de documentos que podem ser criados por instância de serviço depende do tipo de plano do Discovery.

Limites do plano do classificador de documento
Limite	Enterprise	Premium	Cloud Pak for Data
Número de classificadores de documentos por instância de serviço	20	20	Ilimitada
Número de linhas de dados rotuladas	20.000	20.000	20.000
Tamanho máximo em MB de dados de treinamento após o enriquecimento	1.024	1.024	1.024
Número de rótulos	1.000	1.000	1.000
Número de campos de destino	50	50	50