IBM Cloud Docs
Use modelos ML importados para localizar termos customizados

Use modelos ML importados para localizar termos customizados

Use os modelos customizados do Machine Learning que usam regras ou contexto para reconhecer e identificar entidades

Inclua os modelos Machine Learning que você criou com as ferramentas da IBM que você pode usar para definir o seu próprio sistema de tipos.

O tipo de modelos que você pode adicionar depende da sua implantação:

  • IBM Cloud Pak for DataIBM Software Hub Você pode adicionar modelos que foram criados com Watson Explorer Content Analytics Studio models ou com uma instância de IBM Watson® Knowledge Studio que esteja hospedada em IBM Cloud Pak® for Data ou IBM Cloud. A partir da versão 4.6.2, você também pode adicionar modelos personalizados de extratores de entidades que foram criados e exportados de outra instância do Discovery.

  • IBM Cloud Você pode adicionar modelos que foram criados com uma instância IBM Watson® Knowledge Studio que está hospedada em IBM Cloud apenas.

    Para usar um modelo do Knowledge Studio que foi construído com o Knowledge Studio no IBM Cloud Pak for Data, migre a verdade absoluta para uma instância do IBM Cloud do Knowledge Studio. e, em seguida, retreine o modelo.

Os seguintes tipos de modelos são suportados:

  • Modelos baseados em regra criados no Knowledge Studio que localizam entidades em documentos com base em regras definidas por você. (Formato de arquivo: .pear)
  • Modelos de aprendizado de máquina criados em Knowledge Studio que entendem as nuances linguísticas, o significado e as relações específicas do seu setor (formato de arquivo: .zip)
  • Extratores de entidade customizados que são criados e exportados do Discovery. (Formato de arquivo: .ent)
  • Classificadores de sentença que são criados e exportados do Discovery. (Formato do arquivo: .sc)
  • IBM Cloud Pak for DataIBM Software Hub Modelos personalizados de análise de texto UIMA criados no Watson Explorer Content Analytics Studio. (Formato de arquivo: .pear)

A partir de implementações instaladas, o suporte para importar modelos de extrator de entidade foi incluído com a liberação do 4.6.2

A descoberta não pode identificar subtipos de entidade que são definidos por um modelo Knowledge Studio.

Para adicionar um modelo Machine Learning, conclua as etapas a seguir:

  1. Crie o modelo e exporte-o a partir da ferramenta que você usa para criá-lo.

    Para obter mais informações, veja a documentação a seguir:

  2. Na seção Conceitos de domínio de ensino do painel Ferramentas de melhoria e, em seguida, clique em Importar modelos de aprendizado de máquina.

  3. Especifique um nome para o modelo e, em seguida, escolha o idioma que foi usado para definir o modelo.

  4. Clique Em Upload para navegar pelo arquivo que você exportou anteriormente.

  5. Clique em Criar.

  6. Escolha a coleção e o campo onde deseja aplicar os enriquecimentos a partir do modelo e, em seguida, clique em Aplicar.

Se o modelo for muito grande para fazer upload da interface com o usuário do produto, será possível usar o método Criar um enriquecimento da API para importar o arquivo.

Exemplo de modelo baseado em regra

Por exemplo, quando um modelo de aprendizado de máquina é aplicado como um enriquecimento a um campo, ele extrai todos os tipos de entidades nesse campo que foram especificados em um modelo baseado em regras do Knowledge Studio. Se o modelo reconhecer tipos de entidade como person, surname e job title eles são reconhecidos em seus documentos e tagged.

Na saída, as informações que são extraídas pelo Machine Learning de enriquecimento na matriz enriched_{field_name}, dentro da matriz entities. Neste exemplo, o campo que é selecionado para enriquecimento é text.

{
  "enriched_text": [
    {
      "entities": [
        {
          "path": ".wksrule.entities.PERSON",
          "text": "George Washington",
          "type": "PERSON"
        },
        {
          "path": ".wksrule.entities.GIVENNAME",
          "text": "George",
          "type": "GIVENNAME"
        },
        {
          "path": ".wksrule.entities.SURNAME",
          "text": "Washington",
          "type": "SURNAME"
        },
        {
          "path": ".wksrule.entities.POSITION",
          "text": "politician",
          "type": "POSITION"
        },
        {
          "path": ".wksrule.entities.POSITION",
          "text": "soldier",
          "type": "POSITION"
        },
        {
          "path": ".wksrule.entities.JOBTITLE",
          "text": "President of the United States",
          "type": "JOBTITLE"
        }
      ],
      "text": [
        "George Washington (February 22, 1732‚ December 14, 1799) was an American politician and soldier who served as the first President of the United States from 1789 to 1797 and was one of the Founding Fathers of the United States."
      ]
    }
  ]
}

Como resultado, se alguém usa a API para enviar uma consulta Discovery Consulta Idioma para procurar ocorrências do enriquecimento enriched_{field_name}.entities.type:jobtitle, quaisquer passagens que discutam o cargo de uma pessoa são retornadas.

Exemplo de modelo de aprendizado

Neste exemplo, um modelo de aprendizado de Máquina extrai tipos de entidade como person, oranization e date, além de informações sobre relacionamentos entre as entidades. Quando esse modelo de ML é aplicado como um enriquecimento a um campo, ele usa o aprendizado de máquina para entender as nuances linguísticas, o significado e as relações mencionadas no documento.

Na saída, as informações que são extraídas pelo Machine Learning de enriquecimento na matriz enriched_{field_name}, dentro do entities e das matrizes relations. Neste exemplo, o campo que é selecionado para enriquecimento é text.

{
  "enriched_text": [
    {
      "entities": [
        {
          "count": 1,
          "text": "Democratic Party",
          "type": "ORGANIZATION"
        },
        {
          "count": 1,
          "text": "March 15, 1767",
          "type": "DATE"
        },
        {
          "count": 1,
          "text": "President",
          "type": "POSITION"
        },
        {
          "count": 1,
          "text": "Andrew Jackson",
          "type": "PERSON"
        }
      ],
      "relations": [
        {
          "sentence": "Andrew Jackson (March 15, 1767‚ June 8, 1845) was an American soldier and statesman who served as the seventh President of the United States from 1829 to 1837 and was the founder of the Democratic Party."
        }
      ]
    }
  ]
}

Limites do modelo de aprendizado

O número de modelos de Machine Learning (ML) que você pode criar por instância de serviço depende do seu tipo de plano Discovery.

Limites de plano do modelo ML
Plano Modelos de ML por instância de serviço
Cloud Pak for Data Ilimitada
Premium 22
Enterprise 22
Mais (inclui Trial) 3

Para cada modelo de aprendizado de máquina Knowledge Studio, o número máximo de entidades que podem ser detectadas é de 50.

Modelos de regras avançadas

Inclua um modelo de regras avançadas para aplicar um modelo de extração de texto que foi criado e exportada do editor de Regras Avançadas do IBM Watson® Knowledge Studio para a sua coleta.

Seu modelo deve ser criado com a implementação apropriada do Knowledge Studio:

  • IBM Cloud Pak for DataIBM Software Hub Você pode adicionar modelos que foram criados e exportados dos seguintes locais:

    • IBM Watson® Knowledge Studio que foi construído com uma implementação IBM Cloud Pak® for Data anterior à liberação 4.5.
    • IBM Watson® Knowledge Studio que está hospedado em IBM Cloud
    • Editor NLP que é construído por contribuidores para o Center for Open-source Data & AI Technologies
  • IBM Cloud É possível incluir modelos que foram criados com uma instância do IBM Watson® Knowledge Studio que está hospedada no IBM Cloud apenas.

Remoção de Knowledge Studio

O suporte para construir modelos com o Editor de Regras Avançadas beta no Knowledge Studio terminou. Quaisquer modelos de regras que foram exportados de Knowledge Studio antes do término da data de suporte podem continuar a ser usados em Discovery.

As datas de término do suporte diferem com base no tipo de implementação:

  • IBM Cloud 30 de junho de 2022
  • IBM Cloud Pak for Data IBM Cloud Pak for Data lançou 4.5.1 em 3 de agosto de 2022.

IBM Cloud Como uma alternativa para usar um modelo que é gerado pelo Knowledge Studio Editor de Regras Avançadas, é possível definir uma regraincluindo um enriquecimento de Padrões.

Incluindo um modelo existente

Para incluir um modelo de regra avançado, conclua as seguintes etapas:

  1. Crie o modelo e exporte o arquivo ZIP que contém os recursos do modelo

    Para obter mais informações sobre como exportar o modelo, consulte as instruções para sua origem do modelo:

  2. Na seção Ensinar Conceitos de Domínio do painel Ferramentas de Melhoria, escolha Modelo de Regras Avançadas.

  3. Clique em ** Upload **.

  4. Especifique um nome para o modelo e, em seguida, escolha o idioma que foi usado para definir o modelo.

  5. Especifique um nome para o campo de resultado, que é o campo no índice no qual a saída desse enriquecimento será armazenada

  6. Clique em Fazer upload para procurar o arquivo ZIP exportado anteriormente.

  7. Clique em Criar.

  8. Escolha a coleção e o campo onde deseja aplicar os enriquecimentos a partir do modelo e, em seguida, clique em Aplicar.

Formato de saída para regras avançadas

Knowledge Studio usa a Annotation Query Language (AQL) para definir as regras em um modelo de regras avançadas. Cada modelo é definido por uma ou mais visualizações. Cada visualização é uma estrutura de dados relacionais que contém vários registros de dados Cada registro é composto por valores em colunas que são definidos pelo esquema da visualização Para facilitar a representação desses modelos, que são customizados e, portanto, têm vários esquemas, um esquema de saída JSON uniforme é usado

  • Cada objeto JSON representa uma visualização Annotation Query Language (AQL).
  • Os pares de nome e valor nos objetos JSON representam os nomes e valores dos atributos na visualização.
  • As tuplas em uma visualização AQL são representadas como uma matriz de objetos JSON, com um objeto para cada tupla na visualização.

A tabela a seguir descreve como os tipos de dados AQL são representados na sintaxe JSON.

Esquema de saída JSON do modelo de regras avançadas
Tipo de dados AQL Sintaxe JSON Exemplo de JSON
Integer número 5
Valor flutuante número 4.13
Booleano booleano true
Texto sequência "some string"
Amplitude objeto com o formulário {"text": String, "location": {"begin": Integer, "end": Integer}} { "text": "Jane", location": {"begin": 5, "end": 9} }
Caso especial: valor nulo nulo null
Lista de números inteiros matriz de valores numéricos [ 1, 2, 3, 4, 5]
Lista de Flutuação matriz de valores numéricos [ 4.13, 4.5 ]
Lista de Booleanos matriz de valores booleanos [ true, true, false]
Lista de Texto matriz de valores de sequência [ "some string", "another string" ]
Lista de Span matriz de objetos com o formulário {"text":String, "location": {"begin": Integer, "end": Integer}} [{ "text":"Jane", "location": {"begin": 5, "end": 9} }, { "text":"...", "location": {"begin": 15, "end": 40} }]
Caso especial: Lista vazia matriz com 0 elementos [ ]

Limites do modelo de regras avançadas

O número de modelos de regras avançadas que podem ser definidos por instância de serviço depende do tipo de plano Discovery.

Limites do plano de modelo de regras avançadas
Plano Modelos de regras avançadas por instância de serviço
Cloud Pak for Data Ilimitada
Premium 3
Enterprise 3
Mais (inclui Trial) 1