CSVファイルの分析
分析したいデータをカンマ区切り値(CSV)形式のファイルとして追加することができます。
コンテンツ・マイニング・プロジェクトは、CSVファイルでうまく機能する。 CSVファイルが取り込まれると、スプレッドシートの各行は、コレクションインデックスに個別のドキュメントとして保存されます。 各カラムはドキュメントのルートレベルのフィールドになる。
プロジェクトで使用するCSVファイルを作成する際は、以下のガイドラインに従ってください:
-
分析したい各レコードをスプレッドシートの行として追加する。
-
各有意なデータポイントの列を含める。
-
カラムヘッダを指定する。
ドキュメントに追加されるルートレベルのフィールドには、カラムヘッダー名が与えられます。 ヘッダーが存在しない場合、column_0やcolumn_1のようなハードコードされた名前がカラムに適用される。 結果のドキュメント・フィールドが意味のある名前になるように、カラム名を指定する。
-
経時的な傾向を調べたい場合は、各記録に時系列に情報をプロットできるような日付情報があることを確認してください。
Discoveryは以下の日付書式を自動的に認識します:
yyyy-MM-dd'T'HH:mm:ssZ yyyy-MM-dd'T'HH:mm:ssXXX yyyy-MM-dd'T'HH:mm:ss.SSSZ yyyy-MM-dd'T'HH:mm:ss.SSSX yyyy-MM-dd M/d/yy yyyyMMdd yyyy/MM/dd
他の形式で日付を保存する場合は、サポートされている形式のリストにその形式を追加できます。
Discoveryユーザーインターフェイスから、コレクションの管理ページを開きます。 コレクションタイルをクリックします。 コレクションのフィールドの管理ページから、日付フォーマットフィールドにフォーマットを追加します。 Java SimpleDateFormat クラスでサポートされている日付フォーマットを指定します。
たとえば、レコードが日付の年値だけを保存する場合は、サポートされる日付書式リストに
yyyy
を追加します。 そして、年値を含むフィールドのデータ型を日付に設定し、コレクションを再処理することができます。 その結果、日付フィールドに2019
が出現すると、インデックスには2019-01-01T05:00:00Z
として格納される。
サンプル CSV ファイル
次の画像は、コンテンツマイニングアプリケーションでの分析に適したデータを含むCSVファイルからの抜粋です。 このデータは、米国運輸省道路交通安全局(NHTSA)が公表している2010年の交通記録によるものである。 各記録には、車のメーカー、モデル、年式、交通事故の日付、運転手の供述調書のテキスト、その他の有用なデータが含まれている。
{: caption="サンプルCSV" caption-side="bottom"}
サンプルデータの詳細については、https://www.nhtsa.gov/data/traffic-records を参照。