無視する単語の識別
検索中に意味のない用語を無視するには、カスタム・ストップワードのリストを追加します。 ストップワードは、コンテンツのセマンティック上の意味を区別するのに役立たないワードです。
英語では、ストップワードの例として the
、 is
、および and
があります。
定義するストップワードは、照会から除外され、自然言語照会結果の関連性が向上します。
例えば、会社に 3 つのサービス層があるとします。 コレクションの 1 つに含まれる文書は、1 つの層 (シルバー層) にのみ関係します。 "silver"
をストップワード・リストに追加することもできます。これは、すべての文書が Silver サービス層に関連していることから、この用語は、ある文書の重要度を別の文書と区別するのに役立ちません。 顧客が照会ストリングでシルバー・ティアに言及すると、それは無視されます。 照会内のより重要なその他の用語は、代わりにデータの検索に使用されます。
あるいは、文書コレクションが自動車事故報告書のみで構成されている可能性もあります。 "car"
をストップワード・リストに追加して、照会内の car
についての言及によって検索にノイズが追加されないようにすることができます。
Discovery は、サポートされる言語の多くに対してデフォルトのストップワードのリストを自動的に適用します。 これらのストップワードは、索引付け時と照会時の両方に適用されます。 定義済みのストップワードは、コンテンツがインデックス付けされている場合は無視され、照会から除外されます。 ただし、定義したストップワードは、照会時にのみ使用されます。 リストはデフォルト・リストを置き換えません。デフォルト・リストを拡張します。 ストップワードを追加することはできますが、ストップワードを削除することはできません。
カスタム・ストップワード・リストの例:
{
"stopwords": [
"a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
]
}
デフォルトのストップワード・リスト
英語のデフォルトのストップワード・リストには、 Watson Developer Cloud GitHub リポジトリーからアクセスできます。
以下の言語の場合、 Discovery は、 Apache Lucene によって定義されているデフォルトのストップワード・リストを使用します。 リストに含まれる単語について詳しくは、Lucene 参照資料を参照してください。
- アラビア語: stopwords_ar.txt
- チェコ語: stopwords_cs.txt
- デンマーク語: stopwords_da.txt
- オランダ語: stopwords_nl.txt
- フィンランド語: stopwords_fi.txt
- フランス語: stopwords_fr.txt
- ドイツ語: stopwords_de.txt
- ヒンディ語: stopwords_hi.txt
- イタリア語: stopwords_it.txt
- ノルウェー語 (両方ともサポートされる方言): stopwords_no.txt
- ポルトガル語: stopwords_pt.txt
- ルーマニア語: stopwords_ro.txt
- ロシア語: stopwords_ru.txt
- スペイン語: stopwords_es.txt
- スウェーデン語: stopwords_sv.txt
- トルコ語: stopwords_tr.txt
これらのデフォルトのストップワードは TXT 形式で文書化されていますが、リストを拡張して Discoveryで使用するためにサブミットする場合は、JSON ファイルをサブミットする必要があります。 ストップワード・リスト・ファイルの構文の例については、カスタム英語ストップワード・リスト・ファイルを参照してください。
サポートされている残りの言語では、デフォルトのストップワードは使用されません。 これらの言語の照会時に使用するストップワード・リストを指定できます。 送信したリストは、データの取り込み時には使用されません。
照会時に適用できるストップワード・リストの例には、以下のものがあります。
- 日本語: custom_stopwords_ja.json
- ポーランド語: custom_stopwords_pl.json
Discoveryでサポートされる言語のリストについては、 サポートされる言語 を参照してください。
照会時ストップワードの定義
ストップワードを定義するには、以下の手順に従ってください
-
ストップワード・ファイルを作成します。 このファイルは、
json
ファイル拡張子を持つ JSON ファイルでなければなりません。以下のガイドラインに従ってください。
- ストップワードは小文字で指定します。
- 一般に、ストップワードのリストは合計
200
ワードの下に保持してください。 サイズ制限は 100 万文字です。 ただし、指定する用語が多すぎると、検索精度に悪影響を及ぼす可能性があります。
英語のカスタム・ストップワード・リストを作成する際の開始点として、デフォルトの英語のストップワード・リスト・ファイル custom_stopwords_en.jsonを使用できます。
-
ナビゲーション・ペインから、 「改善とカスタマイズ (Improve and customize)」 ページを開きます。
-
「改善ツール」ペインから 「関連性の改善」 を展開します。
-
「ストップワード」 をクリックしてから、コレクションの 「ストップワードのアップロード」 をクリックします。
コレクションごとにアップロードできるストップワード・リストは 1 つのみです。 アップロードするストップワード・リストは、コレクションのデフォルト・ストップワード・リストを拡張します。デフォルト・リストを置き換えるものではありません。
-
「完了 (Done)」 をクリックします。
カスタム・ストップワード・ファイルを無効にして、デフォルトのストップワードの使用に戻すには、カスタム・ストップワード・ファイルを削除します。