コレクションの作成
コレクションとは、プロジェクトに追加して、そこから有用な情報を分析し、充実させ、抽出できるようにする文書の集合である。
以下の方法でプロジェクトにデータを追加できます:
-
製品のユーザーインターフェイスを使用して、ローカルにアクセス可能なファイルをアップロードします。 この方法は、ユースケースを開始し、テストするための最良の方法である。
-
外部データソースに保存されているドキュメントのクロールをスケジュール設定します。
製品のユーザー・インターフェースには、いくつかの組み込みデータ・ソース・コネクタが用意されており、その中から選択することができます。 オプションは配備タイプによって異なります。 詳しくは、サポートされるデータを参照してください。
-
組み込みサポートが利用できない外部データソースに接続する:
- IBM Cloud
- IBM App Connect を使って、他の外部データソースに保存されているドキュメントのクロールをスケジュール設定する。
- IBM Cloud Pak for Data IBM Software Hub
- 他の外部データソースに保存されているドキュメントをクロールするコネクタを構築する。
-
プロジェクトにデータを追加するプロセスを自動化するには、 Discovery APIを使用してコレクションを作成し、そこにドキュメントをアップロードします。
Discovery にドキュメントを追加すると、元のドキュメントがクロールされ、ドキュメントの情報がインデックスに保存される。 オリジナル文書のリッチコンテンツがすべて保持されるわけではありません。 例えば、.pptや.docファイルの画像は保存されません。 詳細については、 データ・ソースの処理方法を 参照してください。
IBM Cloud コレクションを作成した後、 Preview data をクリックして、高度なドキュメントビューで データをプレビューできます。
コレクションに加えるものを選ぶ
ソース・コンテンツをコレクションに分割する方法を決定する際に考慮すべき点がいくつかあります。
-
異なるデータソースからコンテンツを取得する
同じようなコンテンツを複数のタイプのデータソースに保存する場合(たとえば、Webサイトと Salesforce )、2つの別々のコレクションを持つ1つのプロジェクトを作成できます。 各コレクションは、1つのデータソースから文書を追加する。 これらを1つのプロジェクトに組み込めば、ユーザーは両方のソースを同時に検索することができる。
-
エンリッチメントの適用
コレクションを作成することは、同じような方法で充実させたい文書をグループ化する良い方法です。 たとえば、文書のサブセットに業界の専門用語が含まれていて、その用語を認識する辞書を追加したいとします。 別のコレクションを作成し、用語サジェスト機能を使用することで、辞書の作成プロセスをスピードアップできます。
-
個別のスマート文書理解(SDU)モデルの作成
スマート文書理解ツールを使用すると、文書の構造に基づいてコンテンツを識別できます。 営業部門が作成し、1つのテンプレートを使用したPDFファイルが20個あり、研究部門が作成し、別のテンプレートを使用したPDFファイルが20個ある場合、それぞれのセットを独自のコレクションにグループ化します。 その後、SDUツールを使用して、各構造のモデルを個別に構築し、固有の構造を理解するモデルを構築することができます。 また、このツールを使って、ソース・ドキュメントに固有のカスタム・フィールドを定義することもできます。
コレクションの作成
コレクションを作成する前に、プロジェクトを作成する必要があります。 詳しくは、プロジェクトの作成を参照してください。
留意すべきこと
- コレクションがサポートできる外部データソースは1つだけです。
- コレクション内のドキュメントは、コレクションに指定した1つの言語のみでなければなりません。
コレクションを作成するには、以下のステップを実行します。
-
プロジェクトを開いて、 Manage collections ページに行き、 New collection をクリックします。
- Intelligent Document Processing、Conversational Search、Document Retrieval、Customの各プロジェクトタイプには、最大5つのコレクションを含めることができます。
- コンテンツマイニングプロジェクトには、1つのコレクションしか含めることができ ません。
-
コレクションに データをアップロードする。
IBM Cloud データをアップロードする代わりに別のデータソースに接続するには、「 データソースへの接続が必要ですか」フィールドの横にあるリンクをクリックします。
データをアップロードする代わりにデータ・ソースに接続するには、以下の方法を選択できます。
-
外部データソースをクロールする。
サポートされているデータ ソースについては、ご使用の配置タイプに該当するトピッ クを参照してください:
- IBM Cloud Pak for DataIBM Software HubIBM Cloud Pak for Data データソース
- IBM CloudIBM Cloud データソース
これらのトピックでは、配置タイプごとにデフォルトでサポートされていないデー タ ソースへの接続方法についても説明します。
ドキュメントをコレクションに追加する際に発生する可能性のある問題のトラブルシューティング方法については、 取り込みのトラブルシューティングを 参照してください。
プログラムでコレクションを作成する方法の詳細については、 APIリファレンス・ドキュメントを参照してください。
光学式文字認識
コレクションを作成するときに適用できるオプション機能の1つは、光学式文字認識です。 光学式文字認識(OCR)機能は、画像からテキストを抽出する。 この機能は、図やグラフに描かれた情報や、スキャンしたPDFなどのファイルに埋め込まれたテキストを保存するのに便利です。 視覚情報をテキスト化することで、後で検索することができる。
この技術の新バージョンは、クラウド管理されたインスタンスに導入された。 OCR v2 は IBM Research によって開発され、以下のような制限のあるスキャン文書やその他の画像からテキストを抽出するのに優れています:
- 不適切なスキャナ設定、解像度不足、照明不良(モバイルキャプチャなど)、ピントずれ、ページ位置ずれ、印刷不良などによる低画質画像
- 不規則なフォントやさまざまな色、フォントサイズ、背景を持つ文書
OCRを有効にする際の注意点:
- OCRを有効にすると、画像を含む文書の取り込みにかかる時間が長くなる。
- OCRは現在、文書やスキャン画像からの手書きテキスト抽出をサポートしていません。
- OCRは、鮮明な画像もノイズの多い画像も読み取ることができる。 ノイズの多い画像をグレースケールに変換し、平滑化と傾き補正を行うことができる。 ただし、画質は最低要件の 80DPI (ドット/インチ)を満たさなければならない。
- OCRは多くの言語を認識できますが、画像内のテキストの言語は、ファイルが追加されたコレクションに指定されている言語と同じでなければなりません。
OCR v1 および OCR v2 がサポートされている言語の詳細については、 言語サポートを 参照してください。
OCRを適用できるファイルタイプのリストについては、 サポートされているファイルタイプの 表を参照してください。
未修正データのステミングを可能にする
コレクションを作成するときに、正規化にレム化の代わりにステミングを使用するように、 Discovery を設定できます。 この設定は、コレクション、クエリ、またはその両方に、スペルミス、アクセント記号の欠落、文法エラーが多いデータが含まれている場合にのみ有効です。
Discovery 単語を正規化することで、複数形や動詞の活用形など、単語とそのさまざまな形をすばやく認識し、マッチングできるようにします。 デフォルトでは、 Discovery、意味に基づいて単語を正規化するレマタイゼーションが使用される。 ステミングは、単語のステムのみを使用して単語を正規化します。
レンマタイゼーションはより正確だが、キュレーションされたデータに対して最も効果的である。 データが十分にキュレーションされていない場合は、ステミングの方がうまくいくかもしれない。 通常、単語のスペルが正しいかどうかにかかわらず、同じ語幹が検出される。 しかし、lemmatizationはスペルミスの単語を認識しないかもしれないし、意味を誤って解釈するかもしれない。 その結果、レムマタイザは、スペルミスの単語を表すために間違った語根をインデックスに追加してしまう可能性がある。 スペルミスのある単語のステム化されたバージョンに対する検索は、正しくレム マッチされていない単語に対する検索よりも良い結果を返す可能性があります。
次の表に、いくつかの単語のステム処理とレム処理の例を示します。
サーフェス・フォーム (surface form) | レマット化されたフォーム | 有茎フォーム |
---|---|---|
実行中 | 稼働 | 稼働 |
ran | 稼働 | ran |
インストラクター | インストラクター | 教える |
命令 | 命令 | 教える |
例からわかるように、レム matizer はステム機能よりも単語の意味をよくとらえます。 runningも ranも、同じ語根の動詞 runの異なる形として認識されている。 そして、 instructorと instructionという 2つの名詞の意味の違いはそのままである。 ただし、データに instructer や instructoin などのスペルミスが含まれる場合は、ステミングによって生成される正規形 (instruct) の方がより一致度が高くなります。
Discovery インデックスにデータを取り込んで保存するときと、ユーザーから送信されたクエリを分析する実行時に、単語を正規化する。 1つの操作はコレクションレベルで発生し、もう1つはプロジェクトレベルで発生するが、同じ正規化方法が両方の操作に使用される。 クエリが送信されると、プロジェクト内の各コレクションにフェデレートされ、そのコレクションの構成に基づいてクエリが正規化されます。 ステム機能を使用するように構成されているコレクションは、ステミングを使用してクエリを正規化します。 そうでないコレクションは、lemmatizationを使ってクエリを正規化する。
コレクションの作成時に、レムatizer ではなくステム機能を有効にするには、 More processing options を展開し、 Use stemming instead of lemmatization when indexing switcher をオンに設定します。
ステム機能を使用するように Discovery を構成する場合は、コレクションから情報を抽出するクエリを設計して、マッ チングの際に文字の違いを許容することも検討してください。 詳細については、 文字列変化演算 子を参照のこと。
ステム機能でサポートされる言語の詳細については、「 言語のサポート 」を参照してください。
徴収限度額
プロジェクトごとに作成できるコレクションの数は、プロジェクトの種類によって異なります。
プロジェクト・タイプ | プロジェクトごとのコレクション |
---|---|
インテリジェント・ドキュメント・プロセッシング | 5 |
文書の取得 (Document Retrieval) | 5 |
契約書類の検索 | 5 |
会話型検索 (Conversational Search) | 5 |
コンテンツ・マイニング | 1 |
カスタム | 5 |
サービスインスタンスごとに作成できるコレクションの数は、 Discovery プランタイプによって異なります。
プラン | サービスインスタンスごとのコレクション |
---|---|
Cloud Pak for Data | 300 |
プレミアム | 300 |
Enterprise | 300 |
プラス(トライアルを含む) | 40 |
IBM Cloud Pak for DataIBM Software Hub 作成できるコレクションの数は、ハードウェア構成に依存します。、インスタンスおよびインストールごとに最大300コレクションをサポートしますが、この数はメモリを含む多くの要因に依存します。 Discovery
サポートされるファイル・タイプ
Discovery は特定のファイルタイプをインジェストできる。 その他のタイプのファイルについては、警告メッセージが表示され、ファイルは取り込まれない。
次の表は、サポートされているファイルタイプと、ファイルタイプによって異なる機能サポートに関する情報を示しています。
ファイル・タイプ | テキスト抽出のサポート | スマート文書理解(SDU)のサポート | 光学式文字認識(OCR)のサポート |
---|---|---|---|
CSV | |||
DOC、DOCX | |||
GIF | |||
HTML | |||
JPG | |||
JSON | |||
PNG | |||
PPT、PPTX | |||
TIFF | |||
TXT | |||
XLS、XLSX | |||
- Adobe Acrobat、Microsoft Office、AppleのPreviewなどのPDF生成ツールを使ってPDFファイルを生成することができます。
ベクターオブジェクト、ベクター化されたテキスト、SVG画像は、PDFを処理している間は無視されます。 ま た、 Discovery は現在、 PDF 内の透過レ イ ヤーや透過グ ループを持つ画像か らのテ キ ス ト 抽出には対応 し てい ません。
- PDF 内で出現す る 対応画像フ ァ イ ル種別の画像だけがレ ン ダ リ さ れます。
- スキャンした画像は、最適なOCRのために300dpi以上を使用してください。 光学式文字 認識のガイドラインに従って、最小dpiは80でなければなりません
- 単一ページの画像ファイルのみサポートされています。
- 圧縮アーカイブファイル(ZIP、GZIP、TAR)内のファイルが抽出されます。 Discovery は、アーカイブ内のサポートされているファイルタイプを取り込みます。 それ以外のファイルタイプは無視される。 ファイル名は UTF-8 でエンコードする必要があります。 例えば、日本語を含む名前のファイルは、ZIPファイルに追加する前に名前を変更する必要があります。
- Discovery が MacOS の zip ファイルをサポートするのは、
zip -r my-folder.zip my-folder -x "*.DS_Store"
のように、コマンドを使用して生成された場合のみです。 フォルダを右クリックし、[ 圧縮] をクリックして作成されたZIPファイルはサポートされていません。 - アーカイブファイルの一部としてアップロードした PDF ファイルは、 [改善とカスタマイズ] ページから開いたクエリ結果の詳細ビューには表示されません。 詳細表示からファイルを表示したい場合は、アーカイブファイルとは別にPDFファイルを再インポートしてください。
ContractプロジェクトタイプのDocument Retrievalにファイルを追加すると、SDUとOCRをサポートするファイルタイプはすべて、事前に学習されたSmart Document UnderstandingモデルとOptical Character Recognitionで自動的に処理されます。
ドキュメントの制限
サービスインスタンスごとに許可されるドキュメントの数は、 Discovery プランタイプによって異なります。
文書数制限は、インデックス内の文書数に適用される。 適用を予定しているエンリッチメントにより、後で書類の数が増える可能性がある場合は、最初にアップロードする書類は少なめにしましょう。 例えば、次のような設定にすると、より多くの文書が生成される:
- ドキュメントを分割すると、ドキュメントが複数のドキュメントに分割されます
- アップロードしたCSVファイルは、1行に1ドキュメントを生成します
- データベース・データ・ソースをクロールすると、データベースの行ごとに1つのドキュメントが作成されます
- JSONファイルの配列で定義された各オブジェクトは、別々のドキュメントになる
プラン | サービス・インスタンスごとのドキュメント |
---|---|
Cloud Pak for Data | Unlimited |
プレミアム | Unlimited |
Enterprise | Unlimited |
プラス(トライアルを含む) | 500,000 |
エンタープライズ・プランの場合、月10万文書から課金される。 料金の詳細については、 ディスカバリーの料金プランを ご覧ください。
最大許容数は、書類のサイズによって若干異なる場合があります。 これらの値は一般的なガイドラインとして使用する。
ファイルサイズの制限
クローリングされた文書
コネクタを使用してクロールできる各ファイルの最大サイズは、配置タイプ によって異なります。
IBM Cloud 管理されたデプロイメント IBM Cloud
-
プレミアムプランのみ:
- ボックス50 MB
- IBM Cloud オブジェクトストア50 MB
- Salesforce Files オブジェクト50 MB
- その他のデータソース10 MB
-
その他のプラン10 MB
IBM Cloud Pak for DataIBM Software Hub インストールされた IBM Cloud Pak for Data
- すべてのデータソース32 MB
アップロードされたドキュメント
アップロードできる各ファイルのサイズは、 Discovery プランタイプによって異なります。 詳細については、以下の最大原稿サイズ表を参照してください。
プラン | 1文書あたりのファイルサイズ |
---|---|
Cloud Pak for Data | 50 MB |
プレミアム | 50 MB |
Enterprise | 10 MB |
プラス(トライアルを含む) | 10 MB |
フィールドの制限
ドキュメントがコレクションに追加されると、ドキュメントのコンテンツが評価され、内部インデックスの適切なフィールドに追加されます。
アップロードされたCSVやJSONファイル、クロールされたデータベースからのデータなどの構造化されたデータの場合、各カラムやオブジェクトはルートレベルのフィールドとして格納されます。 たとえば、CSV ファイルをコレクションに追加すると、CSV ファイルの各カラムは、インデッ クス内の別のフィールドとして格納されます。
最大1,000フィールドをインデックスに追加できる。
フィールドのデータ型(日付や文字列など)を割り当てることはできません。 データ型は文書の取り込み時に自動的に検出され、フィールドに割り当てられる。 割り当ては、インデックスが付けられた最初の文書から検出されたデータ型に基づいて行われる。 同じフィールドの値に異なるデータ型が検出された場合、後続の文書で取り込みエラーが発生する可能性がある。 したがって、1つのフィールドにさまざまなデータ型が混在しているドキュメントでは、まず、Stringのような最も柔軟なデータ型を持つ値をフィールドに持つドキュメントをインジェストします。
ウェブサイトをクロールしたり、HTMLファイルをアップロードすると、HTMLコンテンツはコレクションに追加され、 html
フィールドにインデックスされます。
次の表は、ドキュメントごとのフィールドの最大サイズ制限を示しています。
フィールド・タイプ | 1文書あたりの最大許容サイズ |
---|---|
html フィールド |
5 MB |
その他のフィールドの合計 | 1MB |
文書内のフィールドの最大サイズが許容限度を超えた場合、それらは以下のように扱われる:
-
特大の
html
フィールドを持つ文書では、html
フィールドを除く文書内のすべてのフィールドがインデックス化される。IBM Cloud Pak for Data バージョン 4.0 以前の場合、文書全体はインデックスされません。
-
サイズの大きい非HTMLフィールドを持つ文書では、その文書はインデックスされません。
Microsoft Excelファイルをアップロードしているときに、HTML以外のフィールドサイズの制限を超えていることを示すメッセージが表示された場合は、XLSファイルをCSVファイルに変換することを検討してください。 カンマ区切り値(CSV)ファイルをアップロードすると、各行が別々の文書としてインデックス化されます。 その結果、フィールドサイズの制限を超えることはない。
アップロードされたファイルのフィールドがどのように処理されるかについては、 フィールドの処理方法を 参照してください。
サポートされるデータ・ソース
以下の表に、各デプロイメント・タイプでサポートされるデータ・ソースを示します。
データ・ソース | IBM Cloud | IBM Cloud Pak for Data |
---|---|---|
Box | ||
データベース (IBM Data Virtualization、 IBM Db2、Microsoft SQL、 Oracle、 Postgres) | ||
FileNet P8 | ||
HCL Notes | ||
IBM Cloud Object Storage | ||
ローカル・ファイル・システム | ||
Salesforce | ||
Microsoft SharePoint Online | ||
Microsoft SharePoint オンプレミス (Microsoft SharePoint On Premises) | ||
Web サイト | ||
Microsoft Windows ファイルシステム |
クロール・スケジュールのオプション
コレクションを作成すると、最初のクロールが即時に開始します。 クロールスケジュールに選択した頻度によって、次のクロールがいつ開始されるかが決まる。
クロールスケジュールを作成するには、以下の手順を実行する:
-
クロール・スケジュール・ セクションで、頻度を選択する。
特定の曜日と時間にクローラーを実行するようにスケジュールすることができます。 このオプションは、営業時間中のターゲットシステムへの高負荷を避けたい場合に役立つ。 1~9の範囲で時間を指定する場合は、時間の桁の前に0を付ける。 例えば、土曜日の
01:00 AM
、クロールのスケジュールを組むことができる。IBM Cloud クロールを毎月実行するようにスケジュールする場合、28日ある2月を含め、毎月発生する日を指定する必要があるため、日数のオプションは1~28に制限されます。
IBM Cloud Pak for Data インストールされたデプロイメントには、より多くのスケジュールオプションがあります:
- 12時間ごと、または10日ごとにクロールしたい場合は、「 カスタム間隔 」を選択してください。 日数や時間を指定してクローラーをスケジュールすることができる。
- デフォルトでは、クロールはオフピークの時間帯に開始されるようにスケジュールされている。
- クロールが終了するまでの時間よりも短いインターバルを設定しないでください。
- 複数のクローラーが短い間隔で実行されるように設定しないでください。
- コレクションが作成されたタイムゾーン以外のタイムゾーンでコレクションを開くと、協定世界時(UTC)オフセット情報が表示されます。
-
IBM Cloud Pak for DataIBM Software Hub インストールされたデプロイメントには、データソースをクロールするために使用するスケジュールの種類を選択できる More scheduling settings セクションがあります。
すべてのコネクタ( ウェブ・クロール・コネクタを除く)の選択肢は以下の通り:
- 完全なクロール :外部データソースを再クロールして、コレクション内のドキュメントを更新する。
- クロール更新(新規、変更、および削除されたコンテンツを探す) :最後のクロール以降に外部データソースのデータが追加、変更、または削除された場合にのみ、コレクションを更新します。
- 新規および変更されたコンテンツをクロールします:最後のクロール以降に追加または変更された外部データソースのデータがある場合のみ、コレクションを更新します。
Web クロール・コネクタのみ : Web クロールコネクタは、他のコネクタ タイプとは異なる方法でクロールをスケジュールします。 Web クロール・コネクタのみ、以下のオプションから選択します:
-
クロールの頻度を自分でコントロールするには、このオプションを選択する:
フルクロール (Full crawling)
フルクロールスケジュールタイプを選択すると、ページのクロールスケジュールセクションで指定した頻度でクロールが行われます。
-
クロールの頻度をシステムに管理させるには、以下のオプションのいずれかを選択します:
クロール更新(新規、変更、削除されたコンテンツを探す) またはクロール新規および変更されたコンテンツ
更新または新規および変更されたコンテンツをクロールするスケジュールタイプを選択した場合、クロールスケジュールに指定した頻度は無視されます。 各文書がクロールされる頻度は可変で、すべてサービスによって管理される。 そしてその頻度は、文書に変更が見つかる頻度によって変化する。 たとえば、コレクション内の10個のドキュメントのうち、5個が最初のクロール間隔の終わりまでに変更された場合、それらの5個のドキュメントの頻度は自動的に増加する。 現在、これらの自己管理リフレッシュが実行できる最高頻度は毎日である。
このようなスケジュールクロールが設定されている場合、頻度の自動管理を中断したり、単発のクロールをトリガーしたりすることはできない。
フレキシブル・クロール・スケジュールの設定を後で変更したい場合は、 処理設定ページに移動して設定を編集し、[ 変更を適用して再処理 ]をクリックします。
IBM Cloud 次に予定されているクロールがアクティビティページに表示されます。
スケジュールの頻度を変更した場合、次のクロール予定時刻が期待したものにならない可能性があります。 クロールは、デフォルトでは、特定の時間または日に定期的に行われるように設定されている。 たとえば、8月11日にクロールのスケジュールを週次から月次に変更した場合、次のクロールは9月11日ではなく8月31日にスケジュールされるかもしれない。 変更した日からちょうど1ヶ月間は予定されていません。 代わりに、選択されたクロール頻度のデフォルト実行日として指定された日に実行されるようスケジュールされる。
クロールを止める
クロールスケジュールの頻度を変更することなく、クロールを停止することができます。 このアクションは、時間のかかるタスクを実行し、そのタスクの間にクロールを開始または実行させたくない場合に役立つ。
IBM Cloud クロールを止めるには、以下のステップを踏む:
-
ナビゲーションパネルからコレクションの管理ページを開きます。
-
クロールを停止したいコレクションを選択します。
-
アクティビティ」 ページで、クロールが進行中の場合は、「 停止 」をクリックします。
-
処理の設定ページに移動する。
-
Apply Schedule]を [ No]に設定し、[ Apply changes and reprocess ]をクリックする。
クロールは停止し、再起動するまで再開しない。
IBM Cloud クロールを再開するには、以下の手順を実行する:
-
ナビゲーションパネルからコレクションの管理ページを開きます。
-
クロールを再開するコレクションを選択します。
-
処理の設定ページに移動する。
-
Apply Schedule]を [ Yes]に設定し、[ Apply changes and reprocess ]をクリックする。
すぐにクロールが始まる。
次のクロールは、クロールスケジュールオプションで選択された頻度に基づいて開始される。 スケジュールされた頻度より前にいつでもクロールを開始したい場合は、 アクティビティページで 再クロールをクリックします。
IBM Cloud Pak for Data IBM Software Hub
進行中のクロールを一時的に停止することができます。
クロールを一時的に停止するには、以下の手順を実行する:
-
ナビゲーションパネルからコレクションの管理ページを開きます。
-
クロールを一時的に停止するコレクションを選択します。
-
アクティビティ」 ページで「 停止 」をクリックします。
クロールは、クロールスケジュールで指定された頻度に基づいて再び開始される。