クエリー結果の改善
クエリ結果の品質を向上させるためにできることについては、こちらをご覧ください。
Discoveryに組み込まれているツールを使って、改善を行うことができます。
完全一致以外の結果も含む
他のいくつかの検索アプリケーションとは異なり、送信するフレーズに引用符を追加しても、完全一致のみを返すわけではありません。 製品のユーザーインターフェースから送信されるクエリは、自然言語クエリです。 自然言語クエリで引用テキストが送信されると、そのフレーズは結果のスコアを高めるために使用されます。 しかし、結果はフレーズ全体を含む文書に限定されない。
クエリーの処理方法をもっとコントロールしたい場合は、クエリーAPIを使う必要がある。 クエリーAPIの phrase
演算子についての詳細は、クエリー演算子 を参照してください。
短いクエリは無関係な結果を返す
クエリにストップワードが多すぎ、意味のある検索を行うための明確な用語が不足している可能性があります。 クエリーを送信すると、クエリーテキストはプロジェクトに送信される前に分析され、最適化されます。 その変化のひとつは、テキストからストップワードが取り除かれることである。 ストップワードとは、コンテンツの意味的な意味を区別するのに役立たないと考えられる単語のことである。 ストップワードの例としては、and
、the
、about
などがあります。Discoveryは、データがインデックスされるときと検索されるときの両方で自動的に無視するストップワードのリストを定義します。 About us
のように、ほとんど、あるいはストップワードだけを含むクエリを送信すると、空のクエリを送信したのと同じことになります。
usはストップワードリストに含まれていないが、weにレマタイズされ、ストップワードとしてリストされる。
コレクションで使用されるストップワードを編集できます。 ただし、できるのはストップワードリストを増やすことだけで、ストップワードを削除することはできません。 そして、あなたが定義したストップワードは、クエリー時にのみ使用される。 これらは、Discoveryによって、データがコレクションに追加され、インデックスが作成されるときに使用されるストップワードリストには影響しません。
詳しくは、無視する単語の特定 を参照してください。
テキストが多すぎる
ソース文書が大きい場合は、文書を小さな塊に分割することを検討する。
そのためには、Smart Document Understandingのユーザー学習済みモデルを作成します。 文書を一貫してサブセクションに分割するために使用できる文書内のコンテンツを見つける。 例えば、文書に章や字幕があるとします。 chapter
というカスタムラベルで章にラベルを付けることができます。 chapter
コンテンツタイプを認識するようにモデルを教えた後、コレクション全体にモデルを適用します。 詳細については、
スマートドキュメント理解の使用 を参照してください。
そして、chapter
フィールドでドキュメントを分割して、章ごとに分割された多くのサブドキュメントを作成することができます。 詳しくは、クエリー結果をより簡潔にするために文書を分割する を参照してください。
テーブルの情報が見つからない
テーブルからの情報を検索可能にするためには、テーブル理解エンリッチメントをコレクションに適用する必要がある。 テーブル・エンリッチメントは、状況によっては自動的にコレクションに適用される。 そうでなく、コレクションがインデックスにHTMLフィールドを持っている場合、テーブル理解エンリッチメントを自分で適用することができます。
詳しくは テーブルについて を参照してください。
ダイアグラムの情報が表現されていない
コレクションの光学式文字認識(OCR)設定を有効にしない限り、図やその他の画像のテキストはキャプチャされません。 設定は、最初の作成後にコレクションに適用できます。 詳細については、データコレクションの管理 を参照してください。
検索が重要な用語を認識しない
その結果、クエリ内のキーワード、一般名詞、またはドメイン固有の用語が重要なものとして認識されていないことが示唆された場合は、コレクションを充実させる。
Watson Natural Language Understanding を使用して、場所や会社名など、一般的に特別な意味を持つと理解されている用語を検索し、タグ付けします。 詳細については、プリビルド・エンリッチメントの適用 を参照してください。
Discoveryに、あなたのユースケースにとって特別な意味を持つ用語やパターンについて教えてください。 詳細は、ドメイン固有リソースの追加 を参照してください。
デフォルトのファセットは役に立たない
コレクションに適用したエンリッチメントのデータに基づいてドキュメントを分類するファセットを追加できます。 例えば、キーワードや辞書のカテゴリーに基づいたファセットを表示したい場合がある。 詳しくは、ファセットを参照してください。
その他の検索機能
Discoveryユーザー・インターフェースからプロジェクトをテストする場合、自然言語クエリを送信します。 検索機能は、自然言語クエリの検索方法に影響を与えるために有効にすることができます。 また、Discovery Query Language検索も、APIを利用することで活用できる検索の一種である。 最初の検索結果がニーズに合わない場合は、別の検索方法を試してみてください。
-
Discovery Query Language (DQL)検索:より複雑なクエリを受け付ける検索メカニズム。 DQLクエリを送信するには、クエリAPIを使用する必要があります。
たとえば、コレクションに適用されたエンリッチメントによって生成されたフィールドの特定の値を検索できます。
-
自然言語クエリは、改善とカスタマイズページからトリガーされるタイプの検索です。
Query APIの詳細については、クエリAPIの概要 を参照してください。