IBM Cloud Docs
Classificar texto

Classificar texto

Definir categorias por qual texto em seus documentos pode ser classificado.

Este tópico descreve como classificar o texto. Se desejar classificar documentos, use o aplicativo Content Mining. Para obter mais informações, consulte Tipos de classificadores.

Inclua um classificador de texto para designar texto de documentos em sua coleta em categorias. Discovery usa os rótulos e exemplos de texto que você fornece para prever as categorias de texto em sua coleta.

Para criar um classificador de texto, conclua as etapas a seguir:

  1. Crie um arquivo CSV que contenha texto de exemplo seguido por seu rótulo de categoria por linha.

    O arquivo CSV deve estar em formato de codificação UTF-8 e deve atender aos seguintes requisitos:

    • O formato deve ser text,label. O text é o texto de exemplo e o label é o nome da categoria.

      Adicionar sentenças completas como entradas de texto. Não inclua nenhuma linha em branco no arquivo CSV.

      Você pode adicionar mais colunas label se precisar aplicar mais de um rótulo à frase na coluna text. Por exemplo, text,label,label.

    • O arquivo deve ter pelo menos duas colunas, sem cabeçalhos.

    • Adicio 10 ou mais entradas para cada categoria que você deseja definir. O número mínimo de entradas que são necessários por categoria é de 3. Quanto mais exemplos você fornecer para cada categoria, melhor o classificador pode prever as categorias de outros conteúdos em sua coleção.

    O exemplo a seguir é um arquivo CSV que define duas categorias, denominadas facility_temperature e catering. O texto de exemplo consiste em feedback dos participantes da conferência.

    The rooms were too cold.,facility_temperature
    Breakfast did not include gluten-free options.,catering
    The rooms were too warm.,facility_temperature
    I was very comfortable in the session rooms.,facility_temperature
    The awards dinner was delicious.,catering
    Coffee ran out during one of the breaks.,catering
    The temperature was not comfortable.,facility_temperature
    I was very happy with the selection at lunch.,catering
    It was nice that you provided tea and coffee. Tea drinkers are often ignored.,catering
    Can you turn up the air conditioning? I was very warm.,facility_temperature
    My teeth were chattering because I was so cold.,facility_temperature
    The speaker left the room to find someone to adjust the temperature.,facility_temperature
    Would you consider an all-vegan menu next year?,catering
    I would like lemonade and iced tea to be served during the breaks.,catering
    The lunch staff was excellent.,catering
    Appreciated the fresh blueberry muffins at breakfast.,catering
    The hotel staff adjusted the temperature in my session room as soon as I asked. Excellent service!,facility_temperature
    Every meal was delicious and there was something for everyone.,catering
    The seats under the skylights were not comfortable. Too hot.,facility_temperature
    I was comfortable everywhere in the conference center. I never needed my emergency sweater.,facility_temperature
    
  2. Na seção Ensinar Conceitos de Domínio do painel Ferramentas de Melhoria e, em seguida, clique em Classificadores de Texto.

  3. Clique em ** Upload **.

  4. Especifique um nome para o classificador e, em seguida, escolha o idioma que foi usado no arquivo CSV.

  5. Clique Em Upload para navegar pelo arquivo CSV que você criou anteriormente.

  6. Clique em Criar.

    Um enriquecimento classificador é criado com base nos dados de treinamento que você forneceu.

  7. Escolha a coleção e o campo em que deseja aplicar o enriquecimento do classificador de texto e, em seguida, clique em Aplicar.

O exemplo a seguir mostra como um enriquecimento que é criado com o arquivo CSV de amostra como seus dados de treinamento pode classificar o texto em um documento. Na saída, o enriquecimento do classificador aplica o rótulo facility_temperature ao texto do documento. O label é armazenado na matriz enriched_{field_name}, dentro da matriz classes.

{
  "enriched_text": [
    {
      "classes": [
        {
          "confidence": 0.999692440032959,
          "label": "facility_temperature"
        }
      ]
    }
  ],
  "text": [
    "I think more attendees would stay awake in the sessions if the rooms were colder."
  ]
}

Tipos de classificador

O classificador que você inclui da interface com o usuário do Discovery é um classificador de texto. Um classificador de texto pode classificar documentos com base em palavras e frases que são extraídas do texto do corpo com suas informações de parte do discurso consideradas.

É possível criar outro tipo de classificador, um classificador de documento, somente a partir do aplicativo Content Mining implementado. Um classificador de documento pode classificar documentos com base em palavras e frases que são extraídas dos campos de texto do corpo com informações de sua parte do discurso e os outros enriquecimentos que são aplicados ao texto do corpo considerado. As informações dos outros campos sem corpo também são usadas.

Você pode aplicar um classificador de documentos em uma coleção em um tipo de projeto diferente de um projeto de Mineração de Conteúdo. Para isso, você deve criar o classificador no aplicativo de Mineração de Conteúdo implementado e exportá-lo. Em seguida, você pode importar o classificador e aplicá-lo em sua coleção como um enriquecimento. Para obter mais informações, consulte Criando e aplicando um classificador de documento.

O classificador de texto utiliza a Parte de informações de Discurso independentemente de a Parte do enriquecimento Discurso ser aplicada ao projeto.

Os classificadores de texto que você incluir em um projeto podem ser usados por outros projetos, incluindo projetos de Mineração de Conteúdo.

Um classificador de texto não classifica o campo de texto de destino com pontuações de confiança que são inferiores a 0.5. Não é possível alterar o limite de confiança que é usado pelo classificador de texto. Se você esperava que certos tipos de passagens fossem classificadas que não fossem, você pode adicionar passagens com características semelhantes aos seus dados de treinamento e treinar outro classificador.

Limites do classificador de texto

O número de classificadores de textos e etiquetas que você pode criar por instância de serviço depende do seu tipo de plano Discovery.

Limites do plano classificador de texto
Limite Mais Enterprise Premium Cloud Pak for Data
Número de classificadores de texto por instância de serviço 5 20 20 Ilimitada
Número de linhas de dados rotuladas 2.000 20.000 20.000 20.000
Tamanho máximo em MB de dados de treinamento após enriquecimento 16 1.024 1.024 1.024
Número de rótulos 100 1.000 1.000 1.000