ユーザーがトレーニングした SDU モデルの定義

文書の構造に基づいて文書の内容について学習する Smart Document Understanding (SDU) モデルを作成します。

Smart Document Understanding ツールを使用してカスタム・フィールドをコレクションに追加すると、以下を実行できます。

文書の特定のセクションで事前作成されたエンリッチメントまたはカスタム・エンリッチメントをターゲットにします。
大きな文書を小さな文書に分割します。

SDU がユース・ケースに役立つかどうかを判断する際の支援については、 Smart Document Understanding を使用する状況を参照してください。

表から情報を取り込むことがユース・ケースにとって重要な場合は、事前にトレーニングされたモデルを使用することを検討してください。事前トレーニングされた SDU モデルの作成について詳しくは、事前トレーニングされた SDU モデルの適用を参照してください。

Smart Document Understanding を使用する場合

Smart Document Understanding (SDU) ツールは、一部のプロジェクト・タイプではより効果的に機能します。

このツールは、 「文書の取得」 プロジェクトで使用する場合に最も役立ちます。このツールを使用して、文書をより小さく、より消費しやすい情報のチャンクに分割します。 Discovery が文書内の正しい情報セットに索引を付けるのを支援すると、アプリケーションが検出して返すことができる回答が改善されます。

例えば、 H4 見出しが付いたセクションに表示されるヒントが文書に含まれている場合があります。これらのヒントから個別に情報を抽出する場合は、 tips という名前のフィールドを追加し、そのフィールドを認識するようにモデルに学習させることができます。モデルをコレクションに適用した後、エンリッチメントは tips フィールドにのみ適用できます。後で、 tips フィールドからのみコンテンツを返すように検索を制限できます。

あるいは、サブセクションを含む、非常に大きな文書がある場合もあります。これらのサブセクションを認識するように SDU モデルに学習させ、これらのサブセクションのいずれかで始まる複数の、より小さく、管理しやすい文書に、大きな文書を分割することができます。
「会話型検索」 プロジェクトで使用するコレクションを準備する最良の方法は、個別の質問と回答のペアを識別することです。 SDU ツールを使用して、それらを検索し、アノテーションを付けることができます。回答フィールドに回答を含めるようにプロジェクトを構成する場合は、 watsonx Assistant で検索構成を更新して、カスタム回答フィールドから回答の本文を取得する必要があります。
事前にトレーニングされた SDU モデルは、 「契約の文書の取得 (Document Retrieval for Contracts)」 プロジェクトに自動的に適用されます。事前にトレーニングされた SDU モデルは、契約にとって重要な用語および概念を認識する方法を認識しています。そのため、ユーザーがトレーニングした SDU モデルをこのプロジェクト・タイプに適用することはできませんが、適用する必要はありません。
SDU ツールは、 コンテンツ・マイニング ・プロジェクトではほとんど使用されません。

SDU ツールを使用してアノテーションを付けることができるのは、以下のファイル・タイプのみです。

イメージ・ファイル (PNG、TIFF、JPG)
Microsoft PowerPoint
Microsoft Word
PDF

Discovery がサポートするファイル・タイプの完全なリストについては、サポートされるファイル・タイプを参照してください。

Smart Document Understanding ツールは、光学式文字認識 (OCR) を使用して、分析対象のファイル内のイメージからテキストを抽出します。イメージは、OCR でサポートされる最小品質要件を満たしている必要があります。詳しくは、光学式文字認識を参照してください。

ツールは、以下の特性を持つ文書を読み取ることができません。開始する前に、コレクションからそれらを削除してください。

他のテキストに重なっているように見えるテキストを含む文書は、 二重に重なっていると見なされ、注釈を付けることはできません。
単一ページに複数列のテキストを含んでいる文書に注釈を付けることはできない。

カスタムのスマートドキュメント理解モデルを構築すると、AIモデルをドキュメントに適用するために必要なリソースにより、コレクションの変換時間が長くなる可能性があります。

代表的な文書から始める

文書はあらゆる形とサイズで提供されます。コレクションには、異なる文書構造が混在している可能性があります。 Smart Document Understanding は、単一コレクション内の文書のスタイル特性が類似している場合に最も効果的に機能します。例えば、文書のタイトルとヘッダーには一貫性のあるフォント・サイズと色が使用され、文書内の表のレイアウトは類似しています。コレクションに最適なモデルを作成するには、以下の前提条件ステップを実行します。

文書を確認してスタイルとレイアウト・パターンを探し、スタイルに基づいて文書をグループに分離します。

例えば、4 つの異なるフォーマット・スタイルに従う文書がデータに含まれている場合、文書を 4 つの別個のコレクション (スタイルごとに 1 つ) に分割します。レイアウトとスタイルが統一された文書を各コレクションに追加します。コレクション当たりの適切なターゲット・サイズは 40 文書です。
SDU ツールを使用して、この代表的な文書セットにアノテーションを付け、データ内のカスタム・コンテンツを認識するように Watson をトレーニングします。
カスタム SDU モデルをコレクション全体に適用します。詳しくは、 SDU モデルの再利用を参照してください。

モデルの作成

ユーザーがトレーニングした Smart Document Understanding モデルをコレクションに適用するには、以下の手順を実行します。

ナビゲーション・パネルから 「コレクションの管理」 ページを開きます。
プロジェクトに複数のコレクションがある場合は、アノテーションを付ける文書を含むコレクションを選択します。
識別フィールドページを開きます。
「ユーザーがトレーニングしたモデル」 を選択します。

デフォルトでは、 「テキスト抽出のみ」 オプションが使用されます。このモデルでは、ソース文書で認識されるテキストはすべて、 text フィールドで索引付けされます。
「実行依頼」 をクリックし、 「変更を適用して再処理」 をクリックします。

文書のサブセットにアノテーションを付けることができます。 20 から 50 個の文書のセットがリストに表示されます。使用可能な文書の数は、コレクション内の文書の総数や、サポートされるファイル・タイプの数など、いくつかの要因によって異なります。

SDUモデルのトレーニングに使用されるトレーニング文書が Discovery でレイアウトや構造の変更を受けると、それ以前の注釈は無効になります。 SDUモデルを更新するには、取り込んだ後に更新されたドキュメントに再度注釈を付ける必要があります。そうでない場合、前の注釈がテキストコンテンツに誤ってマッピングされ、UIの対応する注釈ページが混乱を招くことになります。

ビデオのラベル付け

以下のビデオは、ラベルを選択し、それを文書内のテキストの表現に適用する方法を示しています。

ビデオで、ユーザーが title フィールド・ラベルをクリックし、 「目次」 ページ・タイトルを表すテキスト・ブロックをクリックして、テキストにタイトルとしてラベルを付けます。次に、ユーザーが table_of_contents フィールド・ラベルをクリックし、目次テキスト・ブロックを選択してラベルを付けます。次に、ユーザーが footer フィールド・ラベルをクリックし、ページ・フッターを表すテキスト・ブロックをクリックします。テキストにラベルが付けられた後、ユーザーは 「ページの送信」 ボタンをクリックします。

文書のラベル付け

始める前に、アノテーションを付ける予定の文書の構造について理解します。回答ごとに Discovery に返させるサブタイトル付きセクションがありますか? その場合は、すべてのサブタイトルを識別します。後で、文書を個別のサブドキュメントに分割し、各サブドキュメントの先頭にサブタイトルを付けることができます。詳しくは、 Smart Document Understanding を使用する場合を参照してください。

文書にラベルを付けるには、以下の手順を実行します。

文書のプレビューを確認します。

元の文書のビューが、文書の表現とともに表示されます。ここで、テキストはブロックに置き換えられます。

現行テキストはすべて標準テキストと見なされ、 text フィールドで索引付けされるため、ブロックはすべて text フィールド・ラベルの色になります。

特定のタイプの情報 (タイトルやページ・フッターなど) を表すブロックに、他のフィールド・ラベルを付けてラベルを付けます。例えば、テキストとして索引付けされる文書タイトルにタイトル・フィールド・ラベルを適用すると、文書コンテンツのより正確な表現を定義することになります。

ラベルを使用して文書の構造のさまざまな部分を識別するプロセスは、文書の アノテーション付け と呼ばれます。
文書に注釈を付けるために使用できるフィールド・ラベルを確認します。これらは*「フィールド・ラベル」*パネルに表示されます。

フィールドとその説明のリストについては、「デフォルトのフィールド・ラベル」の表を参照してください。
カスタム・フィールド・ラベルを作成するには、**「新規作成」**をクリックします。
- スペースを含まないフィールド・ラベルを指定してください。例えば、complex_task は有効なフィールド・ラベルです。
  
  Discoveryで特殊な意味を持つフィールド・ラベル名を使用したり、名前に番号記号 (#) やピリオド (.) などの文字を含めたりしないでください。詳しくは、フィールドの処理方法を参照してください。
- フィールドを表すために使用する色を変更する場合は、使用する色で表示されるまで、繰り返し色ブロックをクリックします。
  
  後でフィールド・ラベルの色を変更することはできません。
- 「作成」 をクリックします。
まず、フィールド・ラベルをクリックしてアクティブにします。
次に、フィールド・タイプとしてラベル付けするコンテンツを表すブロックをクリックします。

ブロックがフィールド・ラベルの色に変わります。フィールドに正常にラベルが付けられました。
文書内のさらに多くのフィールドにアノテーションを付けるには、このプロセスを繰り返します。

ご安心ください。すべてのページにラベルを付ける必要はありません。ラベルを適用してページを送信すると、 Watson はアノテーションの対象から学習し、アノテーションの予測を開始します。

以下のガイドラインに従ってください。
- セクションに特別なものがない場合は、 text というラベルのままにします。これはデフォルトで適用されます。
- 1 つのラベルが複数ページにまたがることはできません。
- 太字、イタリック、または下線付きのテキストを別の方法で処理しないでください。テキストのスタイルではなくコンテキストに基づいてラベルを付けてください。
- すべての文書で一貫性のあるラベル付けを使用します。
- 複数ページの文書の最初のページから最後のページまで作業します。
- 単一の注釈を削除するには、別のラベル ( text など) を選択し、それを項目に適用して前の注釈を上書きします。
- ページ全体に追加したアノテーションを削除するには、ツールバーの 「変更のクリア」 アイコンをクリックします。
- 表に注釈を付けるには、表の先頭にあるテキストをクリックし、表全体のテキストをドラッグして選択します。
- 1 つ以上の表にラベルを付けると、コレクション全体に対して 「表の理解 (Table Understanding)」 エンリッチメントが自動的に有効になります。詳しくは、表についてを参照してください。
- ソース文書からのイメージはプレビューにレンダリングされません。光学式文字認識 (OCR) が有効になっている場合、イメージまたはダイアグラムからテキストが抽出され、プレビューにレンダリングされます。
- 空白にラベルを付けません。
ラベル付けしたいものがすべてラベル付けされたら、ページを送信します。 **「ページの送信 (Submit page)」**をクリックします。

Watson がさまざまなタイプのコンテンツを適切なフィールドに正しく一貫してマップできるようになるまで、文書のアノテーション付けを続行します。
Watson にフィールドの識別を指示した後、 「変更を適用して再処理 (Apply changes and reprocess)」 をクリックします。

SDU ツールを使用して定義したカスタム・フィールドは、ルート・レベル・フィールドとして索引付けされます。

次の作業

ユーザーがトレーニングしたモデルを作成するときに、文書内の情報の保管場所を変更します。次に、検索結果の構成方法を変更します。デフォルトでは、検索結果はパッセージまたはテキスト・フィールドから取得されます。結果の本文のソースとして使用するフィールドの方が適している場合があります。詳しくは、結果の内容の変更を参照してください。

プロジェクトが仮想アシスタントによって使用されている場合は、別のフィールドから回答本文をプルするように検索スキル構成を更新します。詳しくは、検索の構成を参照してください。

カスタム・エンリッチメントまたは事前作成エンリッチメントのいずれかを、SDU モデルによって生成される新しいルート・フィールドに適用できます。

検索結果とともに短いテキスト・スニペットを返す場合は、定義した新規フィールド (章やセクションなど) のいずれかに基づいて文書を分割できます。

利用可能なフィールド

Smart Document Understanding ツールを使用して、以下のフィールドを文書に適用できます。

フィールドは任意です。必要に応じて、文書内のすべてのタイトルに image フィールドを適用できます。ただし、フィールド名が内容と一致しない場合に必要な情報を後で検索するフィールドを認識することは困難な場合があります。デフォルト・セットは、使用を開始する際に役立つ代表的なフィールド・タイプです。特別な意味を持つのは、 text フィールドと table フィールドだけです。テキストおよび表以外のものを識別するために使用しないでください。

デフォルトのフィールド・ラベル
フィールド	定義
`answer`	質問と回答のペア（よくある質問でよくある）では、質問に対する回答。
`author`	著者の氏名。
`footer`	ページの最後に表示されるドキュメントのメタ情報（ページ番号や参照情報など）を示すために、このタグを使用します。
`header`	ページの先頭に表示されるドキュメントのメタ情報を示すために、このタグを使用します。
`question`	質問と回答のペア（FAQに多い）では、質問。
`subtitle`	文書の副題。
`table_of_contents`	文書内の「目次」のリストにこのタグを使用します。
`text`	デフォルトでは、文書内のすべてのテキスト・ブロックがテキストとしてラベル付けされます。特殊な意味を持つテキスト・ブロックにのみ異なるラベルを適用してください。
`title`	文書の主題。
`table`	このタグを使用して、文書内の表に注釈を付けます。
`image`	イメージは文書プレビューに表示されません。 OCR を有効にすると、代わりにイメージまたはダイアグラムからのテキストがプレビューに表示されます。一部のイメージのテキストが検索結果に含まれないようにするには、イメージ・テキストをイメージとしてタグ付けします。後で索引からイメージ・フィールドを除外できます。

SDU モデルの再利用

SDU ツールを使用してモデルを定義した後、そのモデルを保存し、あるコレクションからエクスポートして別のコレクションにインポートすることにより、他のコレクションで再使用することができます。

新規モデルをインポートすると、コレクション内の既存のモデルが上書きされます。カスタム・フィールド・ラベルやアノテーションなどを使用して既存のモデルが既にトレーニングされている場合、新しいモデルをインポートするとコレクションに影響があり、データ損失が発生する可能性があります。

モデルを再利用するには、以下の手順に従ってください

再利用したいモデルをエクスポートします。 SDU ツールバー・メニューから、 「モデルのエクスポート」 を選択します。

および

*
モデルを再使用するコレクションを作成します。最初は 1 つの文書のみをコレクションに追加します。
SDU ツールバーからモデルをインポートします。エクスポートされたモデルのファイル拡張子は .sdumodel です。
残りの文書をコレクションに追加します。 「コレクションの管理」 ページの 「アクティビティー」 タブを開き、 「データのアップロード」 をクリックして、さらにファイルをコレクションに追加します。

インポートされたモデルをそのまま使用します。これ以上注釈を付けないでください。 .sdumodel ファイルのインポート後にアノテーションを作成すると、インポートされたモデルは上書きされます。

Smart Document Understanding の制限

Smart Document Understanding モデルごとに作成できるカスタム・フィールドの数は、 Discovery プラン・タイプによって異なります。

カスタム・フィールドの制限
プラン	SDU モデルごとのカスタム・フィールド
Cloud Pak for Data	Unlimited
プレミアム	100
エンタープライズ	100
プラス (試用版を含む)	40

コレクションごとに SDU モデルをトレーニングするためにアノテーションを付けることができる文書の最大数は、 Discovery プラン・タイプによって異なります。

トレーニング・セットの制限
プラン	コレクションごとの文書数
Cloud Pak for Data	40
プレミアム	40
エンタープライズ	40
プラス (試用版を含む)	40

フィールドの管理

**「フィールドの管理 (Manage fields)」**タブには、いくつかのオプションがあります。

索引付けするフィールドの識別: 詳しくは、照会結果からのコンテンツの除外を参照してください。
ドキュメントを分割することで、検索結果を改善する: 詳しくは、文書を分割して照会結果を簡潔にするを参照してください。
日付形式の設定: 詳しくは、日付形式の設定を参照してください。

フィールドの管理ページにアクセスするには、ナビゲーションパネルのコレクションの管理アイコンをクリックし、コレクションを開きます。 **「フィールドの管理 (Manage fields)」**タブをクリックします。コレクションについて詳しくは、コレクションの作成を参照してください。