Identification des mots à ignorer
Pour ignorer les termes inutiles lors des recherches, ajoutez une liste de mots vides personnalisés. Les mots vides sont des mots qui ne sont pas utiles pour distinguer la signification sémantique du contenu.
En anglais, the
, is
et and
sont des exemples de mots vides.
Les mots vides que vous définissez sont exclus des requêtes et améliorent la pertinence des résultats de requête en langage naturel.
Par exemple, une société possède trois niveaux de service. Les documents de l'une des collections appartiennent à un seul niveau, le niveau Silver. Vous pouvez ajouter "silver"
à la liste des mots vides car le terme ne permet
pas de distinguer la signification d'un document par rapport à un autre, étant donné que tous les documents sont liés au niveau de service Silver. Lorsqu'un client mentionne le niveau Silver dans une chaîne de requête, il est ignoré. D'autres
termes de la requête qui sont plus importants sont utilisés pour rechercher les données à la place. Ou peut-être que la collection de documents se compose uniquement de rapports d'accidents de la route. Vous pouvez ajouter "car"
à la liste des mots vides pour empêcher les mentions de car
dans les requêtes d'ajouter du bruit à la recherche.
Discovery applique automatiquement une liste de mots vides par défaut pour de nombreuses langues prises en charge. Ces mots vides sont appliqués à la fois au moment de l'indexation et au moment de la requête. Les mots vides prédéfinis sont ignorés lorsque le contenu est indexé et ils sont exclus des requêtes. Toutefois, les mots vides que vous définissez ne sont utilisés qu'au moment de la requête. Votre liste ne remplace pas la liste par défaut ; elle augmente la liste par défaut. Vous pouvez ajouter des mots vides, mais vous ne pouvez pas supprimer des mots vides.
Exemple de liste de mots de fin personnalisée:
{
"stopwords": [
"a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
]
}
Listes de mots à ne pas afficher par défaut
Vous pouvez accéder à la liste des mots vides par défaut pour l'anglais à partir du référentiel GitHub d'Watson Developer Cloud.
Pour les langues suivantes, Discovery utilise la liste de mots vides par défaut définie par Apache Lucene. Pour plus d'informations sur les mots inclus dans la liste, voir la documentation de référence Lucene:
- Arabe: stopwords_ar.txt
- Tchèque: stopwords_cs.txt
- Danois: stopwords_da.txt
- Néerlandais: stopwords_nl.txt
- Finnois: stopwords_fi.txt
- Français: stopwords_fr.txt
- Allemand: stopwords_de.txt
- Hindi: stopwords_hi.txt
- Italien: stopwords_it.txt
- Norvégien (les deux dialectes pris en charge): stopwords_no.txt
- Portugais: stopwords_pt.txt
- Roumain: stopwords_ro.txt
- Russe: stopwords_ru.txt
- Espagnol: stopwords_es.txt
- Suédois: stopwords_sv.txt
- Turc: stopwords_tr.txt
Ces mots vides par défaut sont documentés au format TXT, mais si vous souhaitez augmenter la liste et la soumettre pour une utilisation par Discovery, vous devez soumettre un fichier JSON. Pour voir un exemple de la syntaxe du fichier de liste de mots vides, consultez le fichier de liste de mots vides en anglais personnalisé.
Pour les autres langues prises en charge, aucun mot d'arrêt par défaut n'est utilisé. Vous pouvez spécifier une liste de mots vides à utiliser lors de la requête pour ces langues. La liste que vous soumettez n'est pas utilisée lorsque des données sont ingérées.
Voici des exemples de listes de mots que vous pouvez appliquer au moment de la requête:
- Japonais: custom_stopwords_ja.json
- Polonais: custom_stopwords_pl.json
Voir Langues prises en charge pour la liste des langues prises en charge par Discovery.
Définition des mots vides de temps de requête
Pour définir les mots vides, suivez les étapes suivantes :
-
Créez un fichier de mots vides. Le fichier doit être un fichier JSON avec l'extension de fichier
json
.Suivez les directives ci-après :
- Spécifiez les mots vides en minuscules.
- En général, conservez votre liste de mots vides sous le nombre total de mots
200
. La limite de taille est d'un million de caractères. Toutefois, si vous spécifiez trop de termes, vous risquez d'affecter négativement la précision de la recherche.
Vous pouvez utiliser le fichier de liste de mots vides anglais par défaut, custom_stopwords_en.json, comme point de départ lorsque vous générez une liste de mots vides personnalisée en anglais.
-
Dans le panneau de navigation, ouvrez la page Improve and customize.
-
Développez Améliorer la pertinence dans le panneau des outils d'amélioration.
-
Cliquez sur Stopwords, puis sur Upload stopwords pour la collection.
Une seule liste de mots vides peut être téléchargée par collection. La liste de mots vides que vous téléchargez augmente la liste de mots vides par défaut de votre collection ; elle ne remplace pas la liste par défaut.
-
Cliquez sur Terminé.
Pour désactiver un fichier de mots vides personnalisé et revenir à l'utilisation des mots vides par défaut, supprimez le fichier de mots vides personnalisé.