Zu ignorierende Wörter angeben
Um bedeutungslose Begriffe bei Suchen zu ignorieren, fügen Sie eine Liste mit angepassten Stoppwörtern hinzu. Stoppwörter sind Wörter, die nicht zur Unterscheidung der semantischen Bedeutung des Inhalts nützlich sind.
In Englisch sind the
, is
und and
Beispiele für Stoppwörter.
Die von Ihnen definierten Stoppwörter werden aus Abfragen herausgefiltert und verbessern die Relevanz von Abfrageergebnissen in natürlicher Sprache.
Beispiel: Ein Unternehmen verfügt über drei Servicestufen. Die Dokumente in einer der Sammlungen beziehen sich nur auf eine Ebene, die Silberebene. Möglicherweise möchten Sie "silver"
zur Stoppwortliste hinzufügen, da der
Begriff nicht hilft, die Signifikanz eines Dokuments gegenüber einem anderen zu unterscheiden, da alle Dokumente sich auf die Silver-Serviceebene beziehen. Wenn ein Kunde die Silberschicht in einer Abfragezeichenfolge erwähnt, wird sie ignoriert.
Andere Begriffe in der Abfrage, die wichtiger sind, werden stattdessen zum Durchsuchen der Daten verwendet. Oder vielleicht besteht die Dokumentensammlung nur aus Berichten über Autounfälle. Sie können "car"
zur Liste
der Stoppwörter hinzufügen, um zu vermeiden, dass Erwähnungen von car
in Abfragen zur Suche hinzugefügt werden.
Discovery wendet automatisch eine Liste mit Standardstoppwörtern für viele der unterstützten Sprachen an. Diese Stoppwörter werden zur Indexierungszeit und zur Abfragezeit angewendet. Die vordefinierten Stoppwörter werden ignoriert, wenn Inhalt indexiert wird, und aus Abfragen herausgefiltert. Stoppwörter, die Sie definieren, werden jedoch nur zur Abfragezeit verwendet. Ihre Liste ersetzt nicht die Standardliste; sie erweitert die Standardliste. Sie können Stoppwörter hinzufügen, aber keine Stoppwörter entfernen.
Beispiel für eine benutzerdefinierte Stoppwortliste:
{
"stopwords": [
"a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
]
}
Standardstoppwortlisten
Sie können über das Watson Developer Cloud GitHub-Repositoryauf die Standardstoppwortliste für Englisch zugreifen.
Für die folgenden Sprachen verwendet Discovery die Standardstoppwortliste, die von Apache Lucene definiert wird. Weitere Informationen zu den Wörtern in der Liste finden Sie in der Lucene-Referenzdokumentation:
- Arabisch: stopwords_ar.txt
- Tschechisch: stopwords_cs.txt
- Dänisch: stopwords_da.txt
- Niederländisch: stopwords_nl.txt
- Finnisch: stopwords_fi.txt
- Französisch: stopwords_fr.txt
- Deutsch: stopwords_de.txt
- Hindi: stopwords_hi.txt
- Italienisch: stopwords_it.txt
- Norwegisch (beide unterstützten Dialekte): stopwords_no.txt
- Portugiesisch: stopwords_pt.txt
- Rumänisch: stopwords_ro.txt
- Russisch: stopwords_ru.txt
- Spanisch: stopwords_es.txt
- Schwedisch: stopwords_sv.txt
- Türkisch: stopwords_tr.txt
Diese Standardstoppwörter sind im TXT-Format dokumentiert, aber wenn Sie die Liste erweitern und sie zur Verwendung durch Discoveryübergeben wollen, dann müssen Sie eine JSON-Datei übergeben. Ein Beispiel für die Syntax der Listendatei mit Stoppwörtern finden Sie in der angepassten Listendatei mit Stoppwörtern in Englisch.
Für die übrigen unterstützten Sprachen werden keine Standardstoppwörter verwendet. Sie können eine Stoppwortliste angeben, die zur Abfragezeit für diese Sprachen verwendet wird. Die von Ihnen übergebene Liste wird nicht verwendet, wenn Daten aufgenommen werden.
Beispiele für Stoppwortlisten, die Sie zur Abfragezeit anwenden können, sind:
- Japanisch: custom_stopwords_ja.json
- Polnisch: custom_stopwords_pl.json
Unter Unterstützte Sprachen finden Sie eine Liste der von Discoveryunterstützten Sprachen.
Stoppwörter für Abfragezeit definieren
Um Stoppwörter zu definieren, führen Sie die folgenden Schritte aus:
-
Erstellen Sie eine Stoppwortdatei. Die Datei muss eine JSON-Datei mit der Dateierweiterung
json
sein.Beachten Sie folgende Richtlinien:
- Geben Sie Stoppwörter in Kleinbuchstaben an.
- Im Allgemeinen behalten Sie Ihre Liste der Stoppwörter unter
200
Gesamte Wörter. Die Größenbegrenzung beträgt eine Million Zeichen. Wenn Sie jedoch zu viele Begriffe angeben, kann sich dies negativ auf die Suchgenauigkeit auswirken.
Sie können die standardmäßige englische Stoppwortlistendatei custom_stopwords_en.jsonals Ausgangspunkt verwenden, wenn Sie eine angepasste Stoppwortliste in Englisch erstellen.
-
Öffnen Sie im Navigationsfenster die Seite Verbessern und anpassen.
-
Erweitern Sie Relevanz verbessern im Teilfenster "Verbesserungstools".
-
Klicken Sie auf Stoppwörter und anschließend für die Objektgruppe auf Stoppwörter hochladen.
Pro Sammlung kann nur eine Stoppwortliste hochgeladen werden. Die Stoppwortliste, die Sie hochladen, erweitert die Standardstoppwortliste für Ihre Objektgruppe. Sie ersetzt nicht die Standardliste.
-
Klicken Sie auf Fertig.
Um eine angepasste Stoppwortdatei zu inaktivieren und zur Verwendung der Standardstoppwörter zurückzukehren, löschen Sie die angepasste Stoppwortdatei.