IBM Cloud Docs
Identification des mots à ignorer

Identification des mots à ignorer

Pour ignorer les termes inutiles lors des recherches, ajoutez une liste de mots vides personnalisés. Les mots vides sont des mots qui ne sont pas utiles pour distinguer la signification sémantique du contenu.

En anglais, the, is et and sont des exemples de mots vides.

Les mots vides que vous définissez sont exclus des requêtes et améliorent la pertinence des résultats de requête en langage naturel.

Par exemple, une société possède trois niveaux de service. Les documents de l'une des collections appartiennent à un seul niveau, le niveau Silver. Vous pouvez ajouter "silver" à la liste des mots vides car le terme ne permet pas de distinguer la signification d'un document par rapport à un autre, étant donné que tous les documents sont liés au niveau de service Silver. Lorsqu'un client mentionne le niveau Silver dans une chaîne de requête, il est ignoré. D'autres termes de la requête qui sont plus importants sont utilisés pour rechercher les données à la place. Ou peut-être que la collection de documents se compose uniquement de rapports d'accidents de la route. Vous pouvez ajouter "car" à la liste des mots vides pour empêcher les mentions de car dans les requêtes d'ajouter du bruit à la recherche.

Discovery applique automatiquement une liste de mots vides par défaut pour de nombreuses langues prises en charge. Ces mots vides sont appliqués à la fois au moment de l'indexation et au moment de la requête. Les mots vides prédéfinis sont ignorés lorsque le contenu est indexé et ils sont exclus des requêtes. Toutefois, les mots vides que vous définissez ne sont utilisés qu'au moment de la requête. Votre liste ne remplace pas la liste par défaut ; elle augmente la liste par défaut. Vous pouvez ajouter des mots vides, mais vous ne pouvez pas supprimer des mots vides.

Exemple de liste de mots de fin personnalisée:

{
  "stopwords": [
    "a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
  ]
}

Listes de mots à ne pas afficher par défaut

Vous pouvez accéder à la liste des mots vides par défaut pour l'anglais à partir du référentiel GitHub d'Watson Developer Cloud.

Pour les langues suivantes, Discovery utilise la liste de mots vides par défaut définie par Apache Lucene. Pour plus d'informations sur les mots inclus dans la liste, voir la documentation de référence Lucene:

Ces mots vides par défaut sont documentés au format TXT, mais si vous souhaitez augmenter la liste et la soumettre pour une utilisation par Discovery, vous devez soumettre un fichier JSON. Pour voir un exemple de la syntaxe du fichier de liste de mots vides, consultez le fichier de liste de mots vides en anglais personnalisé.

Pour les autres langues prises en charge, aucun mot d'arrêt par défaut n'est utilisé. Vous pouvez spécifier une liste de mots vides à utiliser lors de la requête pour ces langues. La liste que vous soumettez n'est pas utilisée lorsque des données sont ingérées.

Voici des exemples de listes de mots que vous pouvez appliquer au moment de la requête:

Voir Langues prises en charge pour la liste des langues prises en charge par Discovery.

Définition des mots vides de temps de requête

Pour définir les mots vides, suivez les étapes suivantes :

  1. Créez un fichier de mots vides. Le fichier doit être un fichier JSON avec l'extension de fichier json.

    Suivez les directives ci-après :

    • Spécifiez les mots vides en minuscules.
    • En général, conservez votre liste de mots vides sous le nombre total de mots 200. La limite de taille est d'un million de caractères. Toutefois, si vous spécifiez trop de termes, vous risquez d'affecter négativement la précision de la recherche.

    Vous pouvez utiliser le fichier de liste de mots vides anglais par défaut, custom_stopwords_en.json, comme point de départ lorsque vous générez une liste de mots vides personnalisée en anglais.

  2. Dans le panneau de navigation, ouvrez la page Improve and customize.

  3. Développez Améliorer la pertinence dans le panneau des outils d'amélioration.

  4. Cliquez sur Stopwords, puis sur Upload stopwords pour la collection.

    Une seule liste de mots vides peut être téléchargée par collection. La liste de mots vides que vous téléchargez augmente la liste de mots vides par défaut de votre collection ; elle ne remplace pas la liste par défaut.

  5. Cliquez sur Terminé.

Pour désactiver un fichier de mots vides personnalisé et revenir à l'utilisation des mots vides par défaut, supprimez le fichier de mots vides personnalisé.