データをアップロードする
ローカル・ファイル・システムから一回限りの文書アップロードをいつでも実行して、データをプロジェクトに追加することができます。
一度に最大 200 個のファイルをアップロードできます。
200 ファイルより大きい文書セットを処理するには、それらを外部データ・ソースに追加し、データ・ソース・クローラーを使用してアップロードします。 IBM Cloud Pak for Data デプロイメントの場合、この目的のために ローカル・ファイル・システム ・データ・ソースを使用できます。
各ファイルに許可される最大サイズについて詳しくは、 文書の制限 を参照してください。
CSV ファイルをコンテンツ・マイニング・プロジェクトにアップロードする前に、ソース・ファイルにヘッダーを追加して、ファイルから生成されるすべてのフィールドが意味のある名前を持つようにすることを検討してください。 ヘッダーがない場合、フィールドには column_0
や column_1
などの総称名が付けられます。
データをアップロードするには、以下の手順に従ってください
-
プロジェクトを開き、 「コレクションの管理」 ページに移動して、 「新規コレクション」 をクリックします。
-
デプロイメント・タイプに基づいて以下を実行します。
IBM Cloud Pak for Data IBM Software Hub
-
データ・ソースとして「データのアップロード」を選択し、「次へ」をクリックします。
また、コレクションからのデータの再利用や外部データ・ソースのクロールなどのデータをアップロードする代わりに、別のデータ・ソースに接続することもできます。 詳しくは、 コレクションからのデータの再利用 および Cloud Pak for Data データ・ソースの概要 を参照してください。
-
コレクションに名前を付けます。 ストレージ内の文書の言語が英語でない場合は、適切な言語を選択します。 サポートされる言語のリストについては、言語サポートを参照してください。
-
オプションで、 「その他の処理設定」 をクリックしてメニューを展開します。 以下の設定を選択できます
-
「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 スイッチャーを 「オン」 に設定して、OCR を有効にします。
OCR が有効になっていて、文書にイメージが含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「索引付け時に見出し語化の代わりにステミングを使用する」 スイッチャーを 「オン」 に設定して、見出し語化の代わりにステミングを使用して、索引および照会内の単語を正規化します。 詳しくは、 キュレーションされていないデータに対するステミングの有効化 を参照してください。
-
-
次へ をクリックします。
-
クロールするファイルを参照してデータをアップロードします。
コレクションに追加する文書をドラッグすることができます。
サポートされるファイル・タイプについて詳しくは、 サポートされるファイル・タイプ を参照してください。
-
「完了 (Finish)」 をクリックします。
IBM Cloud
-
コレクションに名前を付けます。 ストレージ内の文書の言語が英語でない場合は、適切な言語を選択します。 サポートされる言語のリストについては、言語サポートを参照してください。
-
追加するファイルを参照してデータをアップロードします。
コレクションに追加する文書をドラッグすることができます。
サポートされるファイル・タイプについて詳しくは、 サポートされるファイル・タイプ を参照してください。
また、コレクションからのデータの再利用や外部データ・ソースのクロールなどのデータをアップロードする代わりに、別のデータ・ソースに接続することもできます。 別のデータ・ソースに接続するには、 「データ・ソースに接続する必要があります」 の横にあるリンクをクリックします。 フィールド。 詳しくは、 コレクションからのデータの再利用 および クラウド・データ・ソースの概要 を参照してください。
-
オプションで、 「その他の処理設定」 をクリックしてメニューを展開します。 以下の選択が可能です
-
「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 スイッチャーを 「オン」 に設定して、OCR を有効にします。
OCR が有効になっていて、文書にイメージが含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「索引付け時に見出し語化の代わりにステミングを使用する」 スイッチャーを 「オン」 に設定して、見出し語化の代わりにステミングを使用して、索引および照会内の単語を正規化します。 詳しくは、 キュレーションされていないデータに対するステミングの有効化 を参照してください。
-
-
「完了 (Finish)」 をクリックします。
-
ファイルのアップロードがすぐに完了します。 データがコレクションに追加されるため、データの処理にかかる時間が長くなります。 ファイルがアップロードされて処理されると、 「アクティビティー」 ページにアップロード結果が表示されます。
クロールされたデータ・ソースとは異なり、アップロードされたファイルの定期的な更新をスケジュールすることはできません。 新しいバージョンのファイルを追加する場合は、前のバージョンのファイルを削除してから、最新バージョンをアップロードしてください。
コレクションへの文書の追加時に発生する可能性がある問題をトラブルシューティングする方法については、 取り込みのトラブルシューティング を参照してください。
次の処理について詳しくは、 データ・ソースの処理方法 を参照してください。