ファセットの追加
言語処理およびテキスト分析の結果を分析するのに役立つように、Discovery は、類似したパターンやコンテンツを共有する文書を編成および分類します。
ファセットは、ドキュメントをフィルタリングするのに役立ち、深い分析をより速く行うことができる。 干し草の山から針を見つけようとする場合でも、予期せぬトレンドを発見しようとする場合でも、ファセットから始めると調査プロセスがスピードアップする。
-
Content Mining プロジェクトの場合、ファセットは品詞情報 (デフォルトでこのタイプのプロジェクトに適用される Part of Speech エンリッチメントによってキャプチャされる) に基づいてコレクションから抽出されます。 また、ドキュメント内のメタデータから派生したファセットを表示することもできる。
れたファ -
Document Retrieval プロジェクトの場合、ファセットは認識されたエンティティ (デフォルトでこのタイプのプロジェクトに適用される Entities エンリッチメントによってキャプチャされる) に基づいてコレクションから抽出されます。
Top Entities facet
エンティティと品詞エンリッチメントの詳細については、組み込み済みエンリッチメントの適用 を参照してください。 デフォルトでプロジェクトに適用されるエンリッチメントの詳細については、デフォルトのプロジェクト設定 を参照してください。
ファセットの作成
Content Miningプロジェクトにファセットを追加する方法の詳細については、ファセットを追加する を参照してください。
その他のプロジェクト・タイプでは、以下の方法でファセットを作成できる:
- コレクションの既存のフィールドから作成する (From existing fields in a collection)
- 辞書項目を追加することによって
- IBM Cloudパターンを特定することによって
コレクションの既存のフィールドからのファセットの作成
コレクションにエンリッチメントを適用すると、新しいフィールドがインデックスに追加されます。 エンリッチメントによって認識された情報は、これらの新しいフィールドに保存される。 ファセットのソースとしてエンリッチフィールドを使用することができます。
例えば、Keywordsの事前組み込みエンリッチメントを適用すると、コレクションで見つかったキーワードに基づいてファセットを作成できます。 ドキュメントを処理するとき、キーワードエンリッチメントは、キーワードの言及を認識し、接頭辞 enriched_{field_name}.keywords
で始まる一連のフィールドにそれらに関する情報を格納します。 キーワード・ファセットを作成するには、キーワードの言及が格納されるフィールド、enriched_{field_name}.keywords.mentions.text
フィールドからカテゴリを取得するファセットを追加します。 キーワード・エンリッチメントの詳細については、組み込み済みエンリッチメントの適用 を参照してください。
同様に、ドメイン固有のエンリッチメントによって生成されるフィールドをファセットのソースとして使用することができます。 実際、正規表現エンリッチメントを作成すると、認識された表現メンションを分類するファセットを定義できます。 詳細は、ドメイン固有リソースの追加 を参照してください。
既存のフィールドからファセットを追加するには、以下の手順を実行します:
-
「改善とカスタマイズ」ページで 、「表示のカスタマイズ」 をクリックし 、「ファセット」 をクリックします。
-
「新規ファセット」 > **「コレクションの既存のフィールドから作成する (From existing fields in a collection)」**をクリックします。
-
enriched_text.entities.type
のように、ファセットに使用するフィールドを選択します。 ファセット・ラベルを追加し、フィルター・コントロール・オプションを選択する。 -
オプション: 表示されるファセット値の最大数を調整できます。
最大数は、ファセット・タイプごとに表示されるファセット値の数の合計である。 デフォルトでは、合計10個のファセット値が表示される。
-
ファセットをテストする際、オプションを調整できます。
辞書の作成によるファセットの作成
辞書を作成して、ユースケースにとって特別な意味を持つ用語のセットをグループ化するファセットを追加します。
例えば、衣料品小売店のオーナーは、顧客レビューを収集し、繰り返し寄せられる苦情を見つけ、販売中止すべき小売商品を特定できるようにしたいと考えている。 オーナーは、レビュー文中の特定の衣料品に関する言及を認識し、タグ付けするのに役立つ辞書を作成することができる。 衣料品のタイプによって顧客のフィードバックをフィルタリングするという目標をサポートするために、オーナーは以下の表にリストされたエントリーに類似したエントリーを追加するかもしれない。
辞書の項目 | 同義語 | 辞書名 |
---|---|---|
シャツ | トップス,ボタンダウン,チュニック,ブラウス,Tシャツ,長袖,半袖,タンクトップ | clothing |
pants | スラックス、ジーンズ、レギンス、スウェット、カプリ、キュロット、パンツ、チノパン | clothing |
clothing
ファセットで文書をフィルタリングすると、This long-sleeve is so badly proportioned. Who has arms that long!
というレビューが返されます。
ディクショナリを作成してファセットを作成するには、以下の手順を実行します:
-
「改善とカスタマイズ」ページで 、「表示のカスタマイズ」 をクリックし 、「ファセット」 をクリックします。
-
「新規ファセット」>**「辞書を作成することによって作成する (By creating a dictionary)」**をクリックします。
-
ファセットの名前を入力し、分類したい用語の辞書を作成する。
辞書を保存すると、ファセット・ラベルに使用した名前がファセットのリストに表示されます。
-
ファセットをテストするときに、「ドメイン概念を学習させる (Teach domain concepts)」>**「辞書」**を選択して、作成した辞書に用語を追加できます。
作成した辞書は、 辞書ページのリストに表示されます。 詳しくは 辞書 をご覧ください。
パターンを特定してファセットを作成する
パターンはベータ機能であり、英語の文書にのみ対応しています。
IBM Cloud IBM Cloud ただただ
このファセットは、Document Retrieval および Conversational Search プロジェクトで、管理されたデプロイメントでのみ使用できます。
パターン機能で、パターン帰納により、Discovery にデータ内のパターンの認識方法を学習させることができます。 パターン帰納法は、提供された例から抽出パターンを生成する。 いくつかの例を指定した後、Discoveryは、パターンを完成させるために検証しなければならないルールをさらに提案します。
パターン認識は、大/小文字、長さ、テキスト、または数値について一貫した構造を持つテキストで最適に機能します。 文書中で識別するよう Discovery に学習させることができるパターンの例を以下に示します。
- すべての
ISO
規格番号 (ISO 45001
、ISO 22000
など) - すべての通貨の金額、例えば
$50.5 million
、29 dollars
、$29.00
- すべての日付、例えば
8 September 2019
、June 12, 2020
特定の用語やテキストを識別する必要がある場合は、代わりに辞書エントリの一部としてファセットを作成する。 たとえば、以下のタイプの情報をグループ化するために辞書ファセットを使用する:
- 同系列の全製品、
Cloud Pak for Data
,Cloud Pak for Automation
,Cloud Pak for Security
- 同じカテゴリーのすべての用語、
carburetor
,piston
,valves
詳細は、辞書を作成してファセットを作成する を参照してください。
パターンを特定してファセットを追加するには、以下の手順を実行する:
-
「改善とカスタマイズ」ページで 、「表示のカスタマイズ」 をクリックし 、「ファセット」 をクリックします。
-
「新規ファセット」 > **「パターンを識別することによって作成する (By identifying a pattern)」**をクリックします。
-
新しいパターンページの「作成」ファセットで、ドキュメントの選択方法を選択します。 Discoveryにランダムな文書を10個選ばせることも、自分で20個まで選ぶこともできます。
自分で書類を選ぶ場合は、以下のガイドラインに従ってください:
-
後でモデルが認識できるようにしたい、あらゆる異なるフォーマットでパターンの言及を含む文書を選択する。
-
パターンに当てはまらない用語の使われ方をモデルに理解させたい場合は、意図的にその用語の選択を省略できるように、間違った使われ方をする文書を含める。
例えば、あなたが追加したいパターンは、衣服に関する言及を捕らえるかもしれない。 シャツを指す
top
に言及している文書では、衣服の言及としてtop
を選択することになります。 しかし、the top 3 fashion trends
に言及した文書を含み、この文脈でこの用語が使われるときにはtop
を意図的に選択しないようにすることもできます。 この省略は、トップが最高という意味で使われる場合、そのパターンに当てはまらないことをモデルに教えている。 -
最大5,000文字の文書を含む。 制限を超える文書は、5,000文字に切り捨てられます。
-
-
次へ をクリックします。
-
定義したいパターンに当てはまる単語やフレーズの例を選ぶ。
例えば、日付のパターンを定義したい場合、各文書で日付に言及している箇所をハイライトし始める。 間違えた場合は、選択した部分の上にカーソルを移動し、
x
をクリックして削除します。必ずすべてのパターンを選択すること。 モデルは、あなたが選択したものと同じくらい、あなたが省略したものからも学ぶ。
-
サンプルの選択を続行します。 十分な例を見つけたら、Discoveryは、あなたが検証するために提案された例のリストを表示します。 それぞれはいかいいえを選んでください。
文脈の中でサンプルを確認する必要がある場合は、** 「文書のプレビュー (Preview document)」**アイコンをクリックします。
-
十分な例が提供されたことを示すメッセージが表示されるまで、例の強調表示と提案の検証を続けます。
-
Review examples タブをクリックして、例のリストを確認してください。
-
サンプルが正しければ、**「パターンの保存 (Save pattern)」**をクリックします。
システムが有効なパターンを決定できない場合 、「パターンを保存」ボタンは有効になりません。 パターンを説明するために矛盾する例を選ぶと、システムは有効なパターンを決定できません。 作業を保存できない場合は、リセットボタンをクリックしてやり直してください。 ドキュメントは元の状態に戻され、以前に特定された例はもはや選択されない。
パターンを保存すると、ファセット・ラベルに指定した名前がファセットのリストに表示されます。
正規表現フィールドの代わりにパターン・ファセットを使う場合
パターン・ベースのファセットを作成することは、正規表現エンリッチメントをコレクションに適用して得られるフィールドからパターンを作成することと似ています。
- 取り込みたい情報が厳密な書式規則に従っている場合は、正規表現エンリッチメントを使って見つけることができます。 エンリッチメントを適用すると、結果のフィールドをファセットのソースとして使用できる。
- 取り込みたい情報が異なる書式スタイルで発生する可能性がある場合は、パターンファセットがより良い選択となる。 たとえば、日付や通貨はさまざまな方法でフォーマットできる。 単一の正規表現ルールですべてのバリエーションを捉えることはできない。 パターンファセットを使えば、情報を指定するさまざまな方法を示す複数の実例を提供できる。