IBM Cloud Docs
データ分析方法

データ分析方法

コンテンツ・マイニング・アプリケーションのツールを使用して、データを分析します。

データを以下の方法で分析することができます

分析の結果を確認する際に、後でさらに調査する文書にフラグを立てることができます。 詳しくは、 文書のフラグ付け を参照してください。

重要な洞察を見つけたら、ビューのスナップショットを取り、それをレポートに追加して他のユーザーと共有することができます。 詳しくは、 レポートの作成 を参照してください。

分析の開始

コンテンツ・マイニング・アプリケーションを使用して、文書テキスト、および文書に保管されているアノテーションまたはエンリッチメントに基づいて、コレクション内の文書を分析します。

分析を開始するには、以下の手順に従ってください

  1. 検索語を入力するか、文書をフィルターに掛けるために使用するファセットをクリックするか、検索フィールドをブランクのままにしてすべての文書を返します。
  2. 検索をクリックします。

結果のガイド付きモード・ビューには、データをさらに分析するために実行できる推奨される次のステップが表示されます。 提案を表示しない場合は、 エキスパート・モードに切り替えることができます。 エキスパート・モードでは、検索結果をリストする 「文書」 ビューは、検索を送信するたびに返されます。

このトピックのタスクでは、ガイド付きモードでアプリケーションを使用する方法について説明します。

関連キーワードの検索

キーワードの関連性を分析するには、以下のステップを実行します。

  1. 最初の検索ページから、文書をフィルターに掛けるためのキーワード検索を実行依頼します。

  2. ガイド付きモードの検索結果ページで、 「原因または特性の分析」 をクリックします。

    特性ワード・ペインの後に、各ファセット・タイプの関連性情報を示すペインが表示されます。

    caption-side=bottom"
    ファセット関連度グラフ*ファ
    度グラフ*ファセット関連度グラフ

    各関連性ペインには、ファセット・タイプに一致する文書内に出現するキーワードのリストが表示されます。

カウント 」列には、キーワードを含む現行結果セット内の文書の数が表示されます。 「関連性」 列には、照会に一致する他の文書と比較した頻度カウントの固有性のレベルが表示されます。 関連性の高い値は、色の色調で表示され、輝度が高くなります。 色は黄色から始まり、次にオレンジに進み、次に赤になります。

循環パターンの異常を識別する

「トピック」 分析を使用して、データに存在する季節性パターン、月次パターン、または日次パターンの異常を検出します。

トピック情報を使用可能にするには、文書に少なくとも 1 つの日付または時刻フィールドが含まれている必要があります。

トピック分析では、キーワードの頻度が特定の期間の予想平均頻度からどの程度逸脱しているかに焦点を当てています。 予期される平均は、同じ期間内の他のキーワードの頻度カウントのすべての平均を使用します。 この分析方法は、循環的に発生するパターンを識別し、これらの循環パターンで発生する可能性のある予期しない変更を強調表示するのに役立ちます。

異常値を見つけるには、以下の手順に従ってください

  1. 最初の検索ページから、キーワードを入力するか、文書をフィルターに掛けるための数値を含むファセットを選択します。

  2. ガイド付きモードの検索結果ページで、 「原因または特性の分析」 をクリックします。

  3. 「ファセット分析」 ペインから、 「トピック」 を選択します。

  4. 分析に合わせて以下の値を調整します。

    • 結果の数
    • 日付ファセット
    • 時間目盛り
    • 日付範囲
  5. ターゲット・ファセットまたはサブファセットを選択し、 「分析」 をクリックします。

    結果の時系列グラフには、時間の経過に伴うキーワード言及の頻度の変化が示されます。

    トピック分析グラフを見ると、「イクイップメント」は夏場にオレンジ色の棒がいくつか出ている*
    分析時系列
    *

    色分けは、メンションの数が予期される頻度から逸脱している場合に強調表示するために使用されます。 偏差が大きいほど、黄色からオレンジ、赤への色の強度が高くなります。 平均は、同じ期間内の他のキーワードの出現頻度に基づいて計算されます。

循環データは、コレクションの現在のタイムゾーン設定から計算されます。 グラフで使用されるタイム・ゾーンを変更する場合は、 タイム・ゾーンの変更 を参照してください。

重要な用語の検索

データ・セットから特性ワードを検出します。 特性ワード・ビューは、分析対象の文書で頻繁に言及されている用語を示すワード・クラウドです。

ワード・クラウドのワードをクリックして既存の照会に追加し、現行の文書セットをフィルターに掛けて、指定したワードに言及している文書のみを含めることができます。

重要な用語を見つけるには、以下の手順に従ってください

  1. ガイド付きモードの検索結果ページで、 「原因または特性の分析」 をクリックします。

    特性ワード・ビューが表示されます。

    ファセット語クラウド*
    ウド

    フォントの色が異なると、単語同士を区別するのに役立ちます。統計的な意味はありません。

  2. クラウド内の単語をクリックして、その単語に言及する文書のみが含まれるように文書セットを制限します。

2 つのファセット間の関係の分析

「ペア」 分析を使用して、2 つのファセットが互いにどのように関連しているかを確認します。

2つの側面を比較するには、以下の手順に従ってください

  1. 「ファセット分析」 ペインで、 「ペア」 を選択します。

  2. リスト内で比較する最初のファセットを見つけます。 ファセットに関連付けられている X 軸または Y 軸のアイコンをクリックして、ファセット値を 2 次元グラフで表示する場所を指定します。

  3. 2 番目のファセットを見つけて、残りの軸アイコンをクリックします。 例えば、以前に X 軸アイコンを選択した場合は、2 番目のファセットの Y 軸アイコンを選択します。

    2 つのファセットのデータがグラフに表示されます。

    ファセットペア比較グラフ*ファ
    比較

グラフには 2 つの数値が表示されます。 最初の数値は頻度カウントで、2 番目の数値は関連性の値です。 頻度カウントは、文書内で 2 つのデータ・ポイントが一緒に検出された回数を測定します。 関連性は、照会に一致する他の文書と比較した頻度カウントの固有性のレベルを測定します。 関連性が 2.0を示している場合は、2 つのデータ・ポイントが交差する回数が予想の 2 倍であることを意味します。 詳細な分析を必要とする可能性がある異常を特定するのに役立つように、関連性の高い値は、黄色からオレンジ、赤に色分けされた色調で表示されます。

多数のファセット間の関係の分析

「接続」 分析を使用して、複数のファセットが相互にどのように関連しているかを確認します。

複数のファセットを比較するには、以下のステップを実行します。

  1. 「ファセット分析」 ペインから、 「接続」 を選択します。

  2. 最初に、他のファセットと比較するルート・ファセットを選択します。

  3. リストからさらに最大 4 つのファセットを選択し、 「分析」 をクリックします。

    ペア分析は、最初のファセットと各ファセットの間で順番に行われます。

    ファセット・グループ比較グラフ*ファ
    ・ネットワーク・

    結果のネットワーク・グラフには、関連性の高い高頻度のペアのみが表示されます。 各ノードはファセット値を表します。 ノードの色はファセット・タイプを反映します。 ノード間の実線接続は、関連性の高いペアを識別します。 点線の接続は、高頻度のペアを識別します。

数値範囲の変更

グラフのスケールがデータに対して最適化されていない場合は、変更できます。 例えば、車両の速度をプロットするには、1000 単位ではなく、数十または 20 単位で増加する範囲が必要になる場合があります。

ファセットのグラフのスケールを変更するには、以下のステップを実行します。

  1. ページ・ヘッダーの 「コレクション」 リンクをクリックします。

  2. コレクションのタイルで、 「オプションのリストを開く/閉じる (Open and close list of options)」 アイコンをクリックして、 「コレクションの編集 (Edit collection)」 を選択します。

  3. 「ファセット」 タブで、数値範囲を変更する対象のファセットを見つけます。

  4. 「範囲」フィールドで、 「編集」 をクリックします。

  5. JSON オブジェクトとして使用する各範囲を定義します。 オブジェクトを追加または削除して、範囲内のデータ・ポイントの数を変更できます。

    例えば、車両速度の範囲を識別する JSON オブジェクトは、以下のようになります。

    [
      {
        "query": "[1, 20)",
        "label": "1 - 19"
      },
      {
        "query": "[20, 40)",
        "label": "20 - 39"
      },
      {
        "query": "[40, 60)",
        "label": "40 - 59"
      },
      {
        "query": "[60, 80)",
        "label": "60 - 79"
      },
      {
        "query": "[80, 100000)",
        "label": "80+"
      }
    ]
    
  6. **「適用」**をクリックします。

  7. **「保存」をクリックしてから、「閉じる」**をクリックします。

  8. コレクション・タイルをクリックしてコレクションに戻り、分析を続行します。

車両速度の数値範囲の変更により、データ内の関係または異常が強調表示される機会が増えます。

ペア比較グラフを示します。各行に状態がリストされ、各列に車両速度が表示されます。 ここで、TN と 80 + MPH のミーティングはオレンジで強調表示され、異常を示します。
Results after changed number range

マップ視覚化での結果の表示

地理的位置を表すファセットは、マップの視覚化に表示できます。 例えば、米国の州ファセットを持つコレクションがある場合、視覚化から州ごとにデータを表示して、ユーザーがマップから各州を選択できるようにすることができます。

選択された州に関連するデータが表示された米国のマップを示します。
Results shown in a map visualization

デフォルトでは US マップが使用可能です。 GeoJSON 形式で作成されたカスタム・マップを追加できます。 詳しくは、 RFC7946を参照してください。

定義したマップを使用するには、以下のステップを実行してマップ定義をインポートします。

  1. コンテンツ・マイニング・アプリケーションのホーム・ページで、ページ・ヘッダーのパンくずリストから 「コレクション」 をクリックします。
  2. ページの先頭にある設定アイコンをクリックします。
  3. カスタマイズリソースの管理をクリックします。
  4. **「リソースの追加 (Add resource)」**をクリックします。
  5. リソースに名前を付け、 [次へ] をクリックします。
  6. マップ・ファイルを追加し、 「保存」 をクリックします。

追加したマップをファセットの視覚化オプションとして使用可能にするには、ファセットを編集する必要があります。

  1. ページ・ヘッダーのパンくずリストから 「ホーム」 をクリックします。
  2. コレクションのオーバーフロー・メニューを右クリックし、 「コレクションの編集」 を選択します。
  3. 「ファセット」 タブを開き、マップ視覚化を関連付けるファセットを検索します。
  4. 「視覚化タイプ」 の値を 「マップ」 に変更し、 「リソース」 フィールドのリストから追加したマップを選択します。
  5. **「保存」をクリックしてから、「閉じる」**をクリックします。

関心のある文書にフラグを立てる

ドキュメントフラグを使用して、分類、エクスポート、またはさらなる分析のために、ドキュメントまたはドキュメントグループにカスタムフラグを割り当てます。

文書にフラグを立てることは、後でさらに調べる必要がある文書を強調表示するための便利な方法です。

文書にフラグを立てる前に、コレクションのフラグを作成する必要があります。 詳しくは、 文書フラグの追加 を参照してください。

フラグを適用するには、以下の手順に従ってください

  1. コレクションの分析ビューから、特定の特性を持つ文書のセットを返す照会を作成します。

  2. 文書ビューから、 「文書フラグ」 アイコンをクリックします。

  3. フラグを選択します。

  4. フラグをすべての照会結果に適用するか、選択した文書に適用するかを選択して、 「適用」 をクリックできます。

    コレクションごとに 50 回を超える文書フラグを設定することはできません。 個別に選択する 1 つの文書にフラグを立てる場合も、多数の文書を返す可能性がある照会にフラグを立てる場合も、各アクションは 1 回フラグを設定するものとしてカウントされます。

フラグが立てられた文書セットは、コレクションが更新されると動的に変更されます。 フラグが設定された文書セットは、索引内に照会として格納されます。 各フラグに対して、それが関連付けられている文書セットを表わす照会が 1 つ存在します。 例えば、文書フラグを作成して ice cream という用語を検索し、この用語が含まれるすべての文書に赤色のフラグを適用すると、ice cream が、このフラグを表す照会として格納されます。 次に、 coffee という語を検索し、その語を含むすべての文書に赤いフラグを適用すると、内部フラグクエリが (ice cream) OR coffee に変更されます。 したがって、 coffee という語を含む新規文書が取り込まれると、それらの文書には自動的に赤色のフラグが適用されます。

フラグが立てられた文書の表示

フラグが適用されている文書を表示するには、以下の手順を実行します。

  1. 「ファセット分析」 パネルで、 「文書フラグ」 ファセットまでスクロールダウンします。
  2. ファセットを選択し、 「分析」 をクリックして 「文書フラグ」 ダッシュボードを開きます。
  3. いずれかのフラグをクリックし、 「さらに分析」 をクリックして、 「文書の表示」 をクリックします。

文書フラグ照会からの文書フラグの削除

ドキュメントフラグを削除するには、以下の手順に従います

  1. 「分析対象 (What do you want to analyze?)」 ページで、 「検索」 をクリックして空の照会を送信します。

    空の照会は、コレクション内のすべての文書を返します。

  2. 「文書の表示」 をクリックします。

  3. ツールバーのドキュメントフラグアイコンをクリックし、ドキュメントフラグのチェックボックスをクリアし、 [適用] をクリックします。

    文書から文書フラグが削除されます。