IBM Cloud Docs
Identificando palavras para ignorar

Identificando palavras para ignorar

Para ignorar termos sem sentido durante as pesquisas, inclua uma lista de palavras de parada personalizadas. Palavras de parada são palavras que não são úteis para distinguir o significado semântico do conteúdo.

Em inglês, the, is e and são exemplos de palavras de parada.

As palavras de parada que você define são filtradas de consultas e melhoram a relevância dos resultados de consulta de linguagem natural.

Por exemplo, uma empresa tem três camadas de serviço. Os documentos em uma das coleções pertencem a apenas uma camada, a camada de Prata. Você pode querer incluir "silver" na lista de palavras de parada porque o termo não ajuda a distinguir o significado de um documento sobre outro, dado que todos os documentos se relacionam com a camada de serviço de Prata. Quando um cliente menciona a camada de Prata em uma string de consulta, ele é ignorado. Outros termos na consulta que são mais significativos são usados para pesquisar os dados em vez disso. Ou talvez a coleção de documentos consiste apenas em relatórios de acidentes de carro. Você pode querer incluir "car" na lista de palavras de parada para evitar menções de car em consultas a partir de inclusão de ruído na pesquisa.

Discovery aplica uma lista de palavras de parada padrão para muitas das línguas suportadas automaticamente. Essas palavras de parada são aplicadas tanto no tempo de indexação como no tempo de consulta. As palavras de parada predefinidas são ignoradas quando o conteúdo é indexado e eles são filtrados de consultas. No entanto, palavras de parada que você define são usadas no tempo de consulta apenas. Sua lista não substitui a lista padrão; ela aumenta a lista padrão. Você pode adicionar palavras de parada, mas não é possível remover palavras de parada.

Exemplo de lista de palavras de parada customizada:

{
  "stopwords": [
    "a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
  ]
}

Listas de palavras de parada padrão

É possível acessar a lista de palavras comuns padrão para inglês a partir do repositório do Watson Developer Cloud GitHub.

Para os idiomas a seguir, Discovery usa a lista de palavras comuns padrão que é definida pelo Apache Lucene. Para obter mais informações sobre quais palavras estão incluídas na lista, consulte a documentação de referência do Lucene:

Essas palavras de parada padrão são documentadas no formato TXT, mas se você quiser aumentar a lista e submetê-la para uso por Discovery, você deve enviar um arquivo JSON. Para ver um exemplo da sintaxe de stop words list file, veja o arquivo de lista de palavras de parada em inglês personalizado.

Para os idiomas suportados restantes, não são utilizadas palavras de parada padrão. Você pode especificar uma lista de palavras de parada para usar no tempo de consulta para esses idiomas. A lista que você enviar não é usada quando dados são ingeridos.

Exemplos de listas de palavras de parada que você pode desejar aplicar no momento da consulta incluem:

Veja idiomas suportados para a lista dos idiomas que são suportados por Discovery.

Definindo palavras de parada de tempo de consulta

Para definir palavras de parada, conclua as etapas a seguir:

  1. Crie um arquivo de palavras de parada. O arquivo deve ser um arquivo JSON com a extensão de arquivo json.

    Siga estas instruções:

    • Especificar palavras de parada em minúsmina.
    • Em geral, mantenha a sua lista de palavras de parada sob 200 palavras totais. O limite de tamanho é de um milhão de caracteres. No entanto, se você especificar termos demais, você pode afetar negativamente a precisão de busca.

    Você pode usar o arquivo de lista de palavras de parada inglesa padrão, custom_stopwords_en.json, como um ponto de partida quando se constrói uma lista de palavras de parada personalizada em inglês.

  2. A partir da pane de navegação, abra a página Melhorar e customizar.

  3. Expanda Improvar relevância a partir da pane de ferramentas de Melhoramento.

  4. Clique em Stopwords e, em seguida, clique em Upload de stopwords para a coleta.

    Apenas uma lista de palavras de parada pode ser carregada por coleção. A lista de palavras de parada lista que você faz upload aumenta a lista de palavras de parada padrão para sua coleção; ela não substitui a lista padrão.

  5. Clique em Pronto.

Para desabilitar um arquivo de palavras de parada personalizadas e reverter para usar as palavras de parada padrão, exclua o arquivo de palavras de parada personalizada.