Essa documentação destina-se ao IBM Watson® Knowledge Studio no IBM Cloud®. Para ver a documentação para a versão anterior do Knowledge Studio no IBM Marketplace, clique neste link.

Criando uma área de trabalho

A primeira etapa da criação de um modelo customizado é criar uma área de trabalho.

Sobre esta tarefa

Para cada modelo que deseja construir e usar, você cria uma única área de trabalho que contém os artefatos e recursos necessários para construir o modelo. Em seguida, você treina o modelo para produzir um modelo customizado que pode ser implementado em um serviço externo para uso.

Antes de criar uma área de trabalho, responda a estas perguntas:

Que tipo de modelo você deseja criar?
- Modelo de aprendizado de máquina: usa a abordagem estatística para localizar entidades e relacionamentos em documentos. Esse tipo de modelo pode se adaptar conforme a quantia de dados cresce.
- Modelo baseado em regra: usa uma abordagem declarativa para localizar entidades em documentos. Esse tipo de modelo é mais previsível e é mais fácil de entender e manter. No entanto, ele não aprende em dados novos. Só é possível localizar padrões que ele foi ensinado a procurar.
- Modelo de Regras avançadas: oferece customização mais profunda para análise de texto do que os modelos baseados em regras. Veja Criando um modelo de regras avançadas para instruções.
Também é possível criar uma área de trabalho que contenha ambos, um modelo baseado em regra e um modelo de aprendizado de máquina.
Quais serviços usarão o modelo?

Consulte Integração de serviços do Watson para obter informações sobre os outros serviços do Watson com os quais os modelos customizados podem ser usados.

Procedimento

Para criar uma área de trabalho, conclua as etapas a seguir:

Efetue login como um administrador do Knowledge Studio e clique em Criar área de trabalho.

As pessoas com a função de gerente de projeto podem executar quase todas as tarefas, exceto criar uma área de trabalho. Um administrador deve criar a área de trabalho inicialmente e designar gerentes de projeto a ela.
Dê a área de trabalho um nome. Escolha um nome abreviado que reflita seu conteúdo de domínio ou o propósito do modelo. Se você precisar, será possível mudar o nome da área de trabalho mais tarde.
Identifique a linguagem dos documentos em sua área de trabalho. Os documentos que você inclui na área de trabalho e os dicionários que cria ou faz upload devem estar na linguagem especificada.
Opcional: se você deseja mudar o tokenizer que é usado pelo aplicativo do tokenizer baseado em aprendizado de máquina padrão, é possível expandir a seção Opções avançadas e escolher Tokenizer baseado em dicionário.

O tokenizer padrão é mais avançado do que o tokenizer baseado em dicionário; ele usa aprendizado de máquina para identificar os tokens nos documentos de origem com base no aprendizado estatístico que foi feito na linguagem dos documentos de origem. Ele identifica tokens com mais precisão, pois entende os padrões mais naturais e sutis de linguagem. O tokenizer baseado em dicionário identifica tokens com base nas regras de linguagem. Veja Tokenizers para obter mais detalhes.
Opcional: se você deseja incluir gerenciadores de projeto na área de trabalho, expanda a seção Opções avançadas e selecione na lista os nomes das pessoas que você deseja incluir como gerentes de projeto. O administrador pode incluir ou remover gerentes de projeto posteriormente, editando a área de trabalho.

Somente os nomes de pessoas que você designou à função de gerente de projeto na página Gerenciamento de conta do usuário para a instância são exibidos. Veja Montando uma equipe para obter mais informações sobre como incluir usuários.

Se você tiver uma assinatura de plano Lite, ignore esta etapa. Não é possível incluir outros usuários, então não é possível designar ninguém à função de gerente de projeto. Você não precisa de um gerente de projeto separado. Como um administrador, é possível executar todas as tarefas que um gerente de projeto normalmente executaria.
Clique em Criar.

O quê fazer em seguida

Após a área de trabalho ser criada, é possível começar a configurar os recursos da área de trabalho.

Para mudar a descrição da área de trabalho ou o nome da área de trabalho ou para incluir ou remover gerentes de projeto mais tarde, um administrador pode editar a área de trabalho. Na página inicial do Knowledge Studio, clique no ícone Mostrar menu no tile da área de trabalho e escolha a opção de menu Editar.

Conceitos relacionados:

Fazendo upload de recursos de outra área de trabalho

Referência relacionada:

Suporte ao idioma

Tokenizers

Um tokenizer agrupa caracteres em tokens e tokens em sentenças. Um token é fracamente equivalente a uma palavra.

As ações que um tokenizer deve tomar para identificar os tokens de um documento diferem dependendo da linguagem do documento. Em inglês, os tokens são frequentemente comparados a palavras como delimitados por espaços em branco em uma sentença. No entanto, eles nem sempre correspondem um a um com palavras; outros elementos textuais são considerados tokens em algumas situações. Por exemplo, a pontuação no término de uma sentença é considerada um token e as contrações são frequentemente expandidas em dois tokens. Em linguagens que não usam espaços em branco, como chinês, algoritmos estatísticos mais complicados são usados para identificar os tokens.

O processo de tokenização é importante porque ele determina os grupos de caracteres que os usuários podem destacar para anotação no editor de verdade absoluta. As anotações de entidade e menções de relação geralmente são alinhadas com limites de token e devem ser rotuladas dentro de uma sentença; elas não podem abranger limites de sentença.

Tipos suportados

O Knowledge Studio suporta os tokenizers a seguir:

Tokenizer baseado em aprendizado de máquina (padrão)

Este é um tokenizer mais avançado que identifica os tokens nos documentos de origem com base no aprendizado estatístico que ele fez na linguagem dos documentos de origem. Esse tokenizer localiza tokens que capturam os padrões mais naturais e sutis de linguagem. Não é possível customizar esse tokenizer.
Tokenizer baseado em dicionário

Este tokenizer é baseado em dicionários linguísticos. Ele localiza tokens que seguem as regras da linguagem de documento de origem. Somente usuários avançados podem customizar este tokenizer.

Deve-se escolher o tokenizer que você deseja usar ao criar a área de trabalho. Não é possível alternar para um tokenizer diferente mais tarde. Para obter resultados melhores, use o tokenizer padrão. Somente usuários avançados que desejam modificar o comportamento de tokenizer por meio de um mecanismo de dicionário determinístico podem escolher o tokenizer baseado em dicionário. Eles podem então customizá-lo incluindo novas entradas no dicionário. Entretanto, a customização deve ser feita com cuidado porque quando você inclui novas palavras no dicionário, as mudanças podem afetar o modelo de aprendizado de máquina de maneiras indesejadas.

Resumo de entradas, saídas e limitações

Os diferentes estágios de desenvolvimento de modelo requerem entradas diferentes e produzem saídas diferentes.

Para cada etapa do processo de desenvolvimento de modelo, esta tabela resume as atividades típicas que você executa, os formatos de arquivo de entrada suportados, as saídas que podem ser produzidas e quaisquer limites de dimensionamento ou outros requisitos.

Todos os tipos de modelo

Tabela 1: todos os tipos de modelo| Tarefa | Uso típico | Formatos de entrada suportados | Formatos de saída suportados | Limites e requisitos | | --- | --- | --- | --- | --- | | Tipo de gerenciamento do sistema | Crie um sistema de tipos ou carregue e modifique um sistema de tipos existente. Defina tipos de entidade e tipos de relação para seu domínio. Não é possível ver uma visualização do sistema do tipo. |

Arquivo JSON que você baixou a partir de um espaço de trabalho Knowledge Studio.
Arquivo ZIP que você transferiu por download do Human Annotation Tool (HAT)

| JSON | Para evitar sobrecarga visual para anotação humana, defina não mais que 50 tipos de entidade e 50 tipos de relação. Limitação de tamanho de arquivo para upload de um sistema de tipos: 20 MB | | Gerenciamento de dicionários | Carregar um arquivo de dicionário CSV no modo somente leitura ou um ZIP de dicionários que você baixou de outro espaço de trabalho. Crie um novo dicionário e, em seguida, carregue um arquivo CSV de entradas de termos ou adicione entradas de termos a ele. | Arquivo de dicionário:

Arquivo CSV em formato UTF-8
ZIP de dicionários transferidos por download de outra área de trabalho

Arquivo de entradas de termos:

Arquivo CSV em formato UTF-8

Arquivo CSV em formato UTF-8
ZIP de dicionários para uso em outra área de trabalho

| Limitações de tamanho do arquivo:

1 MB por arquivo CSV de entradas de termos
16 MB por arquivo CSV de dicionário somente leitura
15.000 entradas por dicionário, exceto um dicionário somente leitura
64 dicionários por área de trabalho

Modelo de aprendizado de máquina

Tabela 2: modelo de aprendizado de máquina| Tarefa | Uso típico | Formatos de entrada suportados | Formatos de saída suportados | Limites e requisitos | | --- | --- | --- | --- | --- | | Gerenciamento de documentos | Faça upload de um subconjunto pequeno e representativo de documentos Faça upload de documentos que contenham anotações adicionadas anteriormente por um anotador humano, um modelo de aprendizado de máquina ou um mecanismo de análise UIMA Não é possível ingerir o corpus inteiro do IBM Watson Explorer para cálculo de documentos de alto valor para anotação. |

Arquivo CSV em formato UTF-8
Texto no formato UTF-8
HTML
Arquivos PDF (arquivos varridos e protegidos por senha não são suportados)
Arquivos DOC ou DOCX Microsoft Word (arquivos protegidos por senha não são suportados)
Arquivo ZIP que contém documentos transferidos por download de outra área de trabalho
Arquivo ZIP que contém documentos em formato XMI do UIMA CAS

| Arquivo de arquivamento ZIP de documentos |

40.000 caracteres por documento
10.000 documentos por área de trabalho
1.000 conjuntos de documentos (incluindo conjuntos de anotações) por área de trabalho
5 MB por arquivo e 200 MB por upload (arquivos TXT, PDF, DOC, DOCX e HTML)

| | Pre-annotation | Use um dicionário ou IBM Watson® Natural Language Understanding pre-annotator para fornecer um ponto de partida para a anotação humana.

Você não pode re-anotar um corpus do IBM Watson Explorer. | Documentos brutos.

Nota: Não pré-anotar documentos que um anotador humano já tenha anotado, ou você perderá o trabalho feito pelo anotador humano. | Partilmente-documentos anotados | Nenhum | | Anotação de documentos | Gerenciar anotação humana. Anotar entidades, relações e cadeias de coreferência para criar a verdade terrestre | Tarefa Annotation | Ground truth |

256 tarefas de anotação ativas por espaço de trabalho

| | Treinamento e refinamento | Train um modelo de aprendizado de máquina supervisionado para extrair informações específicas de domínio de texto não estruturado. Avalie e melhore um modelo de aprendizado de máquina supervisionado. Não é possível criar um modelo de aprendizado de máquina semisupervisionado ou não supervisionado. Não é possível fazer extensa engenharia de recurso. | Não aplicável | Modelo de aprendizagem de máquina |

1 modelo de aprendizado de máquina por área de trabalho
10 versões de modelo por área de trabalho
O número máximo de espaços de trabalho é determinado pela sua implementação.
O número máximo de ações de treinamento que você pode realizar por mês é determinado pela sua implementação.

| | Publicação | Exportar um modelo de aprendizado de máquina para utilizar para a realização de extração de texto em outros aplicativos Watson . | Não aplicável |

Arquivo ZIP

| Nenhum |

Modelo baseado em regra

Tabela 3: modelo baseado em regras| Tarefa | Uso típico | Formatos de entrada suportados | Formatos de saída suportados | Limites e requisitos | | --- | --- | --- | --- | --- | | Editor de regras | Crie ou carregue documentos para o editor de regras a partir do qual definir classes, expressões regulares e regras. |

Texto simples (incluído no editor)
Arquivo CSV em formato UTF-8
Copiado do conjunto de documentos Todos

| Nenhum |

1 modelo baseado em regra por área de trabalho
5.000 caracteres por documento
100 documentos por área de trabalho
O tamanho máximo de título do documento é 256 caracteres
200 regras por área de trabalho
400 classes por área de trabalho
Grupo de 100 expressões regulares por área de trabalho
100 entradas de expressão regular por grupo de expressões regulares
1.000 caracteres por entrada de expressão regular
5 versões de modelo baseado em regra por área de trabalho

| | Publicação | Publicar um modelo baseado em regras para usar para realizar o reconhecimento de padrões em outros aplicativos Watson . | Não aplicável |

Arquivo PEAR

| Os modelos baseados em regras podem ser exportados atualmente para somente o IBM Watson Discovery |