コンテンツ・マイニング・アプリケーションを使用したデータの分析
Discovery コンテンツ・マイニング・アプリケーションを使用して、データを分析します。 このアプリケーションは、パターン、傾向、および異常を検出するのに役立つ情報のサブセットを視覚化して表示します。
コンテンツ・マイニング・アプリケーションを使用できるのは、インストール済みデプロイメント (IBM Cloud Pak for Data) またはエンタープライズ・プランとプレミアム・プランの管理対象デプロイメントのユーザーのみです。
概要動画
動画のトランスクリプト
Watson Discovery Stuart Strolin によって提示されるコンテンツ・マイニング・プロジェクト。 (音楽入門) このビデオの目的は、 Watson Discoveryのコンテンツ・マイニング・プロジェクトについて理解することです。
コンテンツ・マイニングは、 Watson Discovery の主要なユース・ケースの 1 つであり、構造化データと非構造化データの両方を分析して検討し、洞察を見つけて隠れた意味を抽出するために使用されます。 これは、市民アナリストとデータ・サイエンティストの両方が使用します。
コンテンツ・マイニング・プロジェクトは、ユーザー・インターフェースが特定の業界やデータ・セットに固有ではないため、あらゆるタイプの分析に使用できます。
このシナリオでは、架空の自動車会社の分析者になります。 運用報告書では、車の 1 台について異常な事故率が発生していることを会社に警告しています。 あなたの仕事は理由を見つけることです。
コンテンツ・マイニング・プロジェクトを使用して、各国の自動車インシデント・レポートの非構造化データを調べることにより、分析を開始します。 車のモデルを選択し、(「コレクション」ページで) 分析を開始するためのインターフェースが表示されます。 この場合、あなたはヒル・ウォーカーに関心があります。 その情報を、ページの先頭にある検索セクションに入力できます。 ただし、項目をクリックする方が簡単です。 検索語および条件は、必要な数だけ追加できます。 しかし、実際には、アプリケーションが分析をガイドするようにする必要があります。
表示されるのは、ナビゲーション・ビュー (ガイド付きモード) です。 分析を追跡し、次のステップのオプションを提供します。 また、分析の現在の状態に一致する文書の数のカウントも提供します。 この小さなコレクションでは、ヒル・ウォーカーに関する文書の数は 51 に過ぎない。 実動データ・セットでは、通常、この数ははるかに多くなります。 トレンドと異常を分析することは、通常とは異なるように見えるものがあるかどうかを確認することができるため、多くの場合、開始するのに適した方法です。
すぐに、12 月と 1 月にヒル・ウォーカーに問題があることに気付きます この最初の調査を 12 月のみに絞り込んで、さらに調査することにします。
上部のナビゲーション・ビューでは、分析のどこにいるかが常に通知されることに注意してください。 次に、 「原因と特性の分析 (Analyze cause and characteristics)」 を選択します。これは、物事が発生している理由に関心があるためです。
「snow」や「brake」などの単語が (「品詞」セクションで) 一緒に強調表示されていることに気付きます。これらの単語を分析に追加します。
Content Miner プロジェクトは、簡単に読める少数の苦情に調査を絞り込みました。 (「文書の表示」をクリック)
ここでよくあるテーマは、スノーウィー・コンディションにおけるブレーキの働き方に予期しない問題があるということです。 これで、ブレーキ・システムの詳細な検査を行うようにエンジニアリング部門に依頼するために必要な情報を入手し、スノーウィーク状態でそのシステムが期待どおりに機能しない理由を判別しました。
このデモンストレーションでは、 Watson Discovery とコンテンツ・マイニングを使用する市民アナリストが、非構造化テキスト内の隠れた意味を簡単に発見する方法について説明しました。 (フィーチャー、機能、およびユース・ケースのリスト)
Watson Discoveryでは何を行いますか? (音楽の概要)
処理の流れ
データを分析するには、 ファセットを使用します。 ファセットを使用すると、データをスライスし、情報のサブセットを視覚化して理解しやすくすることができます。
コレクションの「データ分析」ページから、以下のいずれかのビューに表示するデータを選択できます。
- ファセット
- 文書に適用されたエンリッチメントによって文書に追加されたアノテーションから派生したファセットを表示します。 エンリッチメントには、 品詞 や エンティティーなどの組み込みの自然言語処理エンリッチメントを含めることができます。 また、辞書、正規表現パターン、機械学習モデルなど、追加するカスタム・エンリッチメントを含めることもできます。
- メタデータ・ファセット
- データから派生したファセットを表示します。 コレクションにファイルを追加すると、 Discovery がデータを分析して索引付けします。 アノテーションは、コンテンツ・タイプを識別するために追加され、メタデータ・ファセットとして表示されます。 CSV ファイルからレコードなどの構造化データを取り込むと、最適なメタデータ・ファセットが得られます。 メタデータ・ファセットの最大長は 256 文字です。
- カスタム
- ビューに追加するために選択したファセットのみを表示します。 カスタム・ビューには、エンリッチ派生ファセットとコンテンツ派生ファセットを組み合わせて追加できます。
「コンテンツ・マイニング」 プロジェクト・タイプを作成すると、 「品詞」 ファセットがデータに自動的に適用されます。 このファセットは、サブジェクトに関係なくすべてのデータに有効であるため、開始するのに適しています。 この出力では、データ内で最も一般的な用語を簡単に確認できます。
この開始点から、役立つ可能性があるデータをフィルタリングする他の方法を決定できます。
データがトラフィック・レポートで構成されている場合、例えば 「品詞 (Part of Speech)」 ファセットには、高頻度キーワードに engine、 brake、 fire、 スモーク、 sparkなどの用語が含まれていることが示されている場合があります。 この共通の用語を使用すると、データのカテゴリー化とフィルタリングに役立つ辞書を作成できます。 この例のキーワードを使用すると、以下の辞書を作成できます。
- エンジンやブレーキなどの用語の
component
辞書 phenomenon
用語 (火災、煙、火花など) の辞書
ディクショナリー・エンリッチをデータに適用すると、 アノテーションが生成されます。 アノテーションは、単語または句に追加するタグと見なすことができます。ここで、タグは単語または句の意味を分類または識別します。 結果のアノテーションは新しいファセットとして機能します。これを使用して、データをさらにフィルターに掛けたり、分解したりすることができます。
例えば、新しい component
ファセットと phenomenon
ファセットを使用して、トラフィック・インシデントに関連するコンポーネントと現象の間の相関を探すことができます。
掘り下げ
データをさらに深く掘り下げるには、文書内のさまざまなタイプの情報を検出できる AI モデルを適用または作成します。 「エンティティー」 エンリッチメントなどの組み込みの自然言語処理モデルを適用することができます。このエンリッチメントは、ビジネス名やロケーション名などの一般的に知られているものについての言及や、その他のタイプの固有名詞を認識できます。 また、データに固有の用語とカテゴリーを認識するカスタム・モデルを適用することもできます。
始めに
アプリケーションを使用する前に、 Discovery コンテンツ・マイニング・プロジェクトを作成する必要があります。 プロジェクトが作成され、データがアップロードされたら、コンテンツ・マイニング・アプリケーションを開くことができます。
詳しくは、プロジェクトの作成を参照してください。
もちろん、適切なタイプの情報を入力しないと、有用な洞察を得ることができません。 一貫性のあるデータを含めるようにしてください。 時間の経過に伴う傾向を検出するには、日付を指定するデータ・ポイントがデータに含まれている必要があります。
CSV ファイル形式で送信されるデータは最適です。 興味深い分析機能を提供する CSV ファイルのサンプルについては、「 CSV ファイルの分析」を参照してください。