この文書は、IBM Watson® Knowledge Studio 上の IBM Cloud® に関するものです。 以前のバージョンの Knowledge Studio on IBM Marketplace 向けの資料を参照するには、このリンクをクリックしてください。
アノテーション用の文書の追加
機械学習モデルをトレーニングするために、対象分野の知識が含まれている文書 (学術論文や、その他の業界特有のテキストなど) をワークスペースに追加する必要があります。
このタスクについて
このセクションでは、アノテーション付けのための文書の追加方法のみを説明します。 ルール・ベース・モデル用のルールを定義するため、ルールとして定義するためのパターンを引き出す元となる文書を追加またはアップロードします。 詳しくは、『ルールを定義するための文書の追加』を参照してください。
文書
機械学習モデルをトレーニングするためには、対象分野のコンテンツを代表するような文書、およびお客様のアプリケーションにとって価値の高い文書を収集する必要があります。
対象分野にとって関心のあるコンテンツを本当に代表している、つまり、アノテーション付けが可能な関連するメンションが多く含まれているトレーニング文書であることを確実にするよう努めてください。 最適な文書を選択するため、以下の指針に従ってください。
- 合計で約 300,000 語が含まれている文書セットを提供するように努力してください。 タイプ・システムが複雑な場合は提供する単語数を増やし、単純な場合は減らしてください。
- 各文書を 1 ページまたは 2 ページの内容に制限してください (文書当たり 2,000 語未満。1,000 語前後が最適です)。 モデル開発の初期段階では、各文書を数段落にとどめておくのも良い方法です。 ヒューマン・アノテーターは、長い文書中のメンションおよび関係にマークを付けることができますが、複数ページにまたがる照応にマークを付けようとすると扱いにくいと感じる可能性があります。
- 文書内のデータ全般に、可能なすべてのエンティティー・タイプ、サブタイプ、および役割と、それらの間の関係がすべて含まれていることを確認してください。 目指すゴールは、文書集合において、最終的にエンティティー・タイプごとに 50 以上のアノテーションと、関係タイプごとに 50 以上のアノテーションができることです。
- 繰り返しになりますが、当アプリケーションの処理範囲にする分野全体を表すような文書集合にする必要があります。ただし、エンティティー・タイプおよび関係タイプの出現頻度が偏っているケースでは各タイプごとに少なくとも 50 個、メンションが句である傾向のあるエンティティー・タイプ用にはもっと多くの文書を集めるように努力してください。
- トレーニング用に作成するセットは、アノテーションが付けられた文書を 10 個以上含んでいる必要があります。
モデルを作成およびトレーニングする準備ができたら、ワークスペースに追加する文書を、トレーニング・データ、テスト・データ、およびブラインド・データとして使用されるセットに分割できます。 分離されたこれらのデータ・セットは、モデルのパフォーマンスを査定するために重要です。
以下の方法で文書を追加できます。 サポートされる文書タイプ、サイズ制限、およびその他の情報について詳しくは、『ワークスペースの作成 > 入力、出力、および制限の要約』を参照してください。
- UTF-8 形式の 2 列の CSV ファイル
- UTF-8 形式のテキスト・ファイル
- HTMLファイル
- PDF ファイル (スキャンされたファイルおよびパスワード保護されたファイルはサポートされていません)
- Microsoft Word DOC ファイルまたは DOCX ファイル (パスワード保護されたファイルはサポートされていません)
- Knowledge Studio ワークスペースからダウンロードされた文書を含む .zip ファイル
- UIMA CAS XMI 形式のファイルを含む .zip ファイル
CSVファイル
サンプル・テキストが含まれている 2 列の CSV ファイルをローカル・マシンからアップロードできます。 CSV ファイルは一度に 1 つずつアップロードしてください。 CSV ファイルの第 1 列は、文書のファイル名を指定します。 ファイルの第 2 列は、文書テキストを含みます。 必要なフォーマットの例については、以下を参照してください: documents-new.csv
チュートリアル・サンプル・ファイル内のファイル。
PDF ファイル
PDF が作成された方法によっては、PDF からテキストを抽出できない場合があります。 通常、Unicode 文字にマップされない埋め込みフォントからテキストを抽出することはできません。 PDF のテキストを抽出できるかどうかが不明な場合は、PDF からテキストをコピーして、テキスト・エディターに貼り付けてみてください。 PDF 自体に表示されるものと同じ文字が表示されない場合は、テキスト抽出が失敗する可能性が高くなります。
フォーマット設定された文書
フォーマット設定された文書がプレーン・テキストに変換されるとき、フォーマット設定が失われて単語のトークン化がうまくいかない可能性があります。 例えば、DOCX ファイル内の表の 1 つの行にピリオドで終了しない複数のセル値が含まれている場合、それらの値は 1 つのセンテンスとして変換されることがあります。 別の例として、行末ハイフン付けされた非常に長い単語が PDF 文書に含まれている場合、その単語は 2 つの単語として変換されることがあります。 このような場合、ファイルを前処理してフォーマットの制限を修正しない限り、文書は機械学習に適していない可能性があります。
別の Watson Knowledge Studio ワークスペースからの文書
前に Knowledge Studio ワークスペースから文書をダウンロードした場合、ダウンロードした .zip ファイルをアップロードできます。 インポートされるファイルにグランド・トゥルース・アノテーションを含めるかどうかを指定するオプションがあります。
文書にアノテーションが付けられた後、アノテーションが付けられた文書は JSON
形式で保管されます。 これらのファイルでのマークアップ言語は、元の文書テキストがどのように解析およびトークン化されたのかを示すものであり、ヒューマン・アノテーターが追加したすべてのアノテーションのエレメントを含みます。 時間が経過するにつれてモデルの正確さが改善されていくようにするため、これらのファイルを別のワークスペースにアップロードし、結果として既存のアノテーションをすべて保存することができます。
ヒューマン・アノテーターは、これらの文書のアノテーションを修正、削除、および追加することができます。あるいは、ヒューマン・アノテーションをバイパスし、これらのファイルを使用して、モデルのパフォーマンスを評価および改善するための、トレーニング文書セット、テスト文書セット、およびブラインド文書セットを作成することができます。
UIMA CAS XMI ファイル
モデルのトレーニングに役立つように、UIMA 分析エンジンによって事前アノテーション付けが行われた文書をアップロードできます。 事前アノテーション付けが行われたファイルは、UIMA Common Analysis Structure の XMI シリアライゼーション (UIMA CAS XMI) 形式でなければならず、結合して 1 つの .zip ファイルにする必要があります。 例えば、ある IBM Watson Explorer コレクション内のアノテーションが付けられた文書をアップロードできます。
ヒューマン・アノテーターは、これらの文書のアノテーションを修正、削除、および追加することができます。あるいは、ヒューマン・アノテーションをバイパスし、これらのファイルを使用して、モデルのパフォーマンスを評価および改善するための、トレーニング文書セット、テスト文書セット、およびブラインド文書セットを作成することができます。 これらのファイルの作成方法およびアップロードの要件について詳しくは、『事前アノテーション付けが行われた文書のアップロード』を参照してください。
データの匿名化
扱っているデータ向けに最適化されたモデルを構築したいが、プライバシー上の理由からデータをそのまま Knowledge Studio にアップロードしたくない場合は、個人を特定できる情報 (Personally Identifiable Information (PII)) を文書から取り除いた後で、それらの匿名化された文書をモデルのトレーニングに使用することができます。 情報を編集したり、情報を大量に変数で置き換えたりはしないでください。 最良の結果を得るには、実際の情報を同じタイプの偽の情報で置き換えてください。
例えば、保護したい PII が顧客名である場合、個々の名前を編集したり、USER_NAME などの変数で置き換えたりするのではなく、Jane Doe、Mr. Smith、Dietrich、Dr. Jones, PhD など、さまざまな標準的な名前構文スタイルを使用する偽の名前で置き換えます。 実際のユーザー名のインスタンスを置き換えるために文書に挿入できる偽の名前を、さまざまな名と姓、および役職と姓を連結したり、姓のみを追加したりして生成するスクリプトを作成することを検討してください。 目標は、ソース文書内の実際の値にできる限り近いシミュレーションを行うことです。 文書内で同じテキスト (USER_NAME) が使われたり、テキストが編集されたりした場合は、基本的に、すべての名前が同じ値になっていたり、編集されていたりすることを予期するようにモデルをトレーニングすることになります。 モデルが実行時に新規文書に対して使用され、前に見たことのない多様な名前を検出した場合、それらを名前として認識できるモデルであるようにしてください。
ワークスペースへの文書の追加
モデルをトレーニングするには、対象分野の内容を代表するような文書をワークスペースに追加する必要があります。
このタスクについて
ベスト・プラクティスとして、比較的小さな文書集合から始めてください。 これらの文書を使用して、ヒューマン・アノテーターの訓練 (ワークスペースがヒューマン・アノテーションを含む場合) およびアノテーション・ガイドラインの改良を行います。 文書が小さいと、ヒューマン・アノテーターが文書全体で照応チェーンを識別しやすくなります。 アノテーションの正確度が向上するにつれ、もっと深くトレーニングが行われるように、さらに多くの文書をコーパスに追加できます。
手順
ワークスペースに文書を追加するには、次のようにします。
-
Knowledge Studio 管理者またはプロジェクト管理者としてログインし、ワークスペースを選択します。
-
「アセット (Assets)」 > 「文書 (Documents)」 > **「文書セット (Documentation sets)」**タブを選択します。
-
文書をコーパスに追加するため、**「文書セットのアップロード (Upload Document Sets)」**をクリックします。
-
サポートされているいずれかのフォーマットの文書をアップロードします。 サポートされる文書タイプ、サイズ制限、およびその他の情報について詳しくは、『ワークスペースの作成 > 入力、出力、および制限の要約』を参照してください。
別のワークスペースからダウンロードした文書の .zip ファイルに関する注記
アノテーションが付けられた文書がインポートされるとき、それらの文書は再トークン化されます。 このプロセスによって、Knowledge Studio が何をセンテンス境界と見なすのかが変わる可能性があります。 アノテーションはセンテンスごとに定義されるため、アノテーションによってはこのプロセス中に無効化される可能性があります。 別のワークスペースから文書をアップロードした後、アノテーションを素早くレビューして、矛盾があれば対処してください。
- 前に Knowledge Studio ワークスペースから文書をダウンロードした場合、ダウンロードされた文書を含んでいる .zip ファイルをドラッグするか、ファイルを見つけてクリックして選択します。 文書がダウンロードされる前にその文書に追加されたアノテーションを含めたい場合は、グランド・トゥルースを含めるオプションが選択されていることを確認してから、**「アップロード (Upload)」**をクリックします。 文書がダウンロードされる前にグランド・トゥルースにプロモートされたアノテーションのみがインポートされます。
- グランド・トゥルース・アノテーションをアップロードする前に、元のワークスペースから現行のワークスペースにタイプ・システムをアップロードする必要があります。 詳しくは、『別のワークスペースからのリソースのアップロード』を参照してください。
UIMA CAS XMI 形式の文書の .zip ファイルに関する注記
- アノテーションが付けられた、UIMA CAS XMI 形式の文書を以前にダウンロードした場合、分析されたコンテンツを含む .zip ファイルをアップロードできます。 これがアップロードしたいコンテンツのタイプであることを指定してから、**「アップロード (Upload)」**をクリックしてください。 これらのファイルの作成方法およびアップロードの要件について詳しくは、『事前アノテーション付けが行われた文書のアップロード』を参照してください。
-
文書が追加された後、文書名をクリックして文書をプレビューし、内容に問題がなさそうなことを確認します。 例えば、テキスト・ファイルが UTF-8 形式であること、発音区別符号または文字の正規化についての問題が文書中にないことを確認し、センテンスの切れ目がおかしくないかをチェックします。 問題が存在する場合は、コーパスに追加する前にファイルの前処理が必要になる可能性があります。 辞書アノテーションまたはヒューマン・アノテーションが始まる前に、文書をできるだけクリーンかつ適切にフォーマットされた状態にしてください。
次の作業
ヒューマン・アノテーション・タスクを開始する前に、コーパスを複数の文書セットに分割し、それらの文書セットをヒューマン・アノテーターに割り当てます。
Admin およびプロジェクト管理者は、アノテーション・タスクを作成せずに文書セットに直接アノテーションを付けることができます。
文書の削除
モデルにとって有益な標準的な業界テキストを表していないと判断した文書を削除できます。
文書を削除するには、お客様の状況に適合するオプションを以下から選択します。
- アノテーション・タスクに関連付けられていない文書を削除する
- アノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始していない文書を削除する
- アノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始している文書を削除する
アノテーション・タスクに関連付けられていない文書を削除する
削除する文書がアノテーション・タスクに関連付けられていない場合は、以下の手順を実行して文書を削除してください。
手順
Knowledge Studio 管理者としてログインし、ワークスペースを選択します。
- 「アセット (Assets)」 > 「文書 (Documents)」 > **「文書セット (Document sets)」**タブを選択します。
- 削除する文書が属する文書セットを選択します。 文書セットが開きます。
- 削除する文書を見つけて、**「削除 (Delete)」**をクリックします。
アノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始していない文書を削除する
削除する文書がアノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始していない場合は、以下の手順を実行して文書を削除してください。
手順
-
Knowledge Studio 管理者としてログインし、ワークスペースを選択します。
-
アノテーション・タスクを削除します。
- 「機械学習モデル (Machine Learning Model)」 > **「アノテーション (Annotations)」**ページを開きます。 **「アノテーション・タスク (Annotation Tasks)」**タブをクリックします。
- 文書が関連付けられているアノテーション・タスクを見つけ、そのタスクの**「メニューの表示 (Show menu)」アイコンをクリックしてから、「削除 (Delete)」**をクリックします。
-
アノテーション・タスクに関連付けられていない文書を削除するの説明に従って、文書を削除します。
-
文書を削除した後、アノテーション・タスクを再作成し、文書が 1 つ少なくなっている、同じアノテーション・セットを関連付けます。
アノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始している文書を削除する
削除する文書がアノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始している場合は、以下の手順を実行して文書を削除してください。
ヒューマン・アノテーションが進行中の場合は、タスクを削除しないでください。削除すると、進行中の作業が失われます。
手順
- セット内の不要な文書を無視するようにヒューマン・アノテーターに指示します。
- 他の文書ですべてのアノテーション作業が完了し、ヒューマン・アノテーターがそのセットをグランド・トゥルースに追加するためにすべての文書をサブミットした後に、サブミットした文書を確認して承認します。
- アノテーションの競合があれば解決します。
- すべての文書がグランド・トゥルースの一部であり、タスクが完了している場合は、アノテーション・タスクに関連付けられていてヒューマン・アノテーションが開始していない文書を削除するの説明に従って、タスクを削除します。
- アノテーション・タスクに関連付けられていない文書を削除するの説明に従って、文書を削除します。
文書セットをダウンロードして gt
フォルダー内の文書を検討することにより、残りの文書のアノテーションが失われていないことを確認できます。
データ・モデル
このトピックにある図は、Knowledge Studio システムにおける文書の流れの概略を示し、コーパス内の文書、アノテーション・タスク、およびグランド・トゥルースの違いを示します。
コーパスには文書が含まれていて、それらは複数の文書セットに分割されます。
- 文書は、一連のテキスト・ストリングにすぎません。
- 文書セットは、文書のグループを指すポインターです。 文書セットは文書自体のコピーを含みません。
- いくつかの文書セットが単一の文書をポイントできます。これは、アノテーション・セットを作成するときに指定する重複パラメーターを通して制御できるセットアップです。
図1. この図は、3つの文書を指す2つの文書セットを示しています。 文書はセットに分配されています。
グランド・トゥルースは、文書に追加されたアノテーション (メンション、関係、および、照応するメンション) からなります。 グランド・トゥルースは、文書ごとに特異です。
図-2 この図は、グランド・トゥルースが、文書 1、文書 2、文書 3 などに追加されたアノテーションで構成されていることを示しています。
アノテーション・タスクを作成すると、そのタスクに追加するアノテーション・セット内で、文書ごとにアノテーションのコピーが作成されます。 ヒューマン・アノテーターは、文書にアノテーションを付けます。 アノテーションは互いに分離されていて、グランド・トゥルースからも分離されています。 アノテーション・タスクは、ヒューマン・アノテーターたちが別々の場所でテキストにアノテーションを付けるのを許可するために存在する、一時的な概念です。 対照的に、グランド・トゥルースは、永続的であり、特異です。
図-2 この図は、プロジェクト管理者がアノテーション・セットを作成し、それらをアノテーション・タスクに割り当てることを示しています。 ヒューマン・アノテーターである Dave と Phil は、自分に割り当てられたセット内の文書にアノテーションを付けます。
プロジェクト管理者がアノテーション・タスク内のアノテーション・セットを承認すると、他のアノテーション・セットと重複していない文書内のアノテーションはグランド・トゥルースになります。 複数のアノテーション・セットで重複している文書 (この例では文書 2) については、プロジェクト管理者が裁定し、競合を解決する必要があります。 重複文書内のアノテーションは、裁定を通して承認されるまではグランド・トゥルースになりません。
その後、グランド・トゥルースは、機械学習モデルのトレーニングおよびテストに使用されます。あるいは、次のモデル開発を反復するための基礎として使用することもできます。 グランド・トゥルースを次の反復で使用するには、新しいアノテーション・タスクを作成する必要があります。
図 3. この図は、2人のヒューマン・アノテーターによって追加されたアノテーションがどのようにしてグランド・トゥルースになるかを示しています。 文書 2 というラベルの 1 つの文書には、両方のヒューマン・アノテーターによってアノテーションが付けられています。 この重複文書内のアノテーションは、グランド・トゥルースになる前に裁定される必要があります。