IBM Cloud Docs
文書のアノテーション付け

この文書は、IBM Watson® Knowledge Studio 上の IBM Cloud® に関するものです。 以前のバージョンの Knowledge Studio on IBM Marketplace 向けの資料を参照するには、このリンクをクリックしてください。

文書のアノテーション付け

このセクションの情報は、業界の文書にアノテーションを付けるように依頼された対象分野の専門家が、グランドトゥルース・エディターを使用してタスクを実行するのに役立ちます。

ワークスペース・アクセス

他のユーザーがワークスペースを作成し、そのユーザーからワークスペースへのアクセス権限を与えられるまで、ワークスペースは表示されません。

管理者によって Knowledge Studio のインスタンスに追加されたユーザーは、ヒューマン・アノテーター役割で追加されます。 この役割を持っていても、ワークスペースを作成することはできません。 ワークスペースにアクセスするには、管理者がワークスペースを作成する必要があります。 その後、管理者または管理者によってワークスペースへ関連付けられたプロジェクト管理者は、以下のステップを実行する必要があります。

  1. アノテーション・セットを作成して、それにユーザーを関連付けます。
  2. セット内の文書へのアノテーション付け作業をユーザーに割り振るタスクを作成します。

アノテーション・タスクが割り当てられるまでは、ワークスペースを表示できません。

Knowledge Studio ワークスペースに参加するよう招待されていても、「ワークスペース」ページからワークスペースを表示できない場合は、招待したユーザーに連絡して、必要なステップを実行するように依頼してください。

アノテーションのベスト・プラクティス

以下のアノテーションのベスト・プラクティスでは、文書へのアノテーション付けを開始するときに、いくつかのガイダンスと例を提供します。

  • すべての文書に完全にアノテーションを付けます。

    機械学習では、アノテーションが付けられているものだけでなく、アノテーションが付けられていないものなど、否定の例からも学習が行われます。 したがって、アノテーションを付けるものを賢明に判断してください。ただし、完全なジョブを実行してください。 セットに含まれる 10 個の文書のうち、最初の 5 つだけに慎重にアノテーションを付けた場合、最後の 5 つの文書でキャプチャーされなかったアノテーションは、モデルに、それらの文書内で見過ごされたエンティティー・メンションや関係メンションをすべて無視するように教えます。 最初の 5 つの文書で徹底的なジョブを行って得たものが、結局は無になる可能性があります。

  • 整合性のあるアノテーションは、少なくとも正しいアノテーションと同じくらい重要です。

    アノテーションのガイドラインに関する決定の中には、恣意的なものもあります。例えば、自動車のトリムラインをモデル名 (「Camry」や「Camry LX」など) の一部と見なすべきかどうかなどです。 どちらのポリシーを選択するかよりもずっと重要なことは、プロジェクト・チームがどちらに同意しており、そのポリシーに従って整合性のあるアノテーションを付けているかどうかです。

  • エンティティー・メンションには、単語トークンの境界でのみ、ラベルを付けてください。メンション検出の検索は、単語トークン・レベルの細分度で行われるからです。

  • 可能な場合は常に、1 つまたは 2 つの隣接する単語に限られたエンティティー・メンションにラベルを付けます。

    そうすることは、必ずしも常に可能ではなく、容易でもありません。 以下の例について考えて見ましょう:

    • ソース文書に含まれている英語の文章から、タイプ・システムを使用するアプリケーションのために、問題とその原因にアノテーションを付けるとします。

      The electronic module was burnt because the wrong voltage was applied.
      

      問題と原因に次のようなアノテーションを付けることが考えられます。

                  [PROBLEM]                           [CAUSE]
      
      [The electronic module was burnt] [because the wrong voltage was applied].
      

      しかし、このような長い句にエンティティー・タイプとしてアノテーションを付けるのは、推奨されません。 代わりに、重要なエンティティーを見つけて関係メンションを定義することにより、それらのエンティティーが互いにどのように関連付けられているかを指定してください。

             [LOCATION]          [SYMPTOM]                [CAUSE]
      
      The [electronic module] was [burnt] because the [wrong voltage] was applied.
      
                    ^---isStatusOf--| |------causedBy-------^
      
    • ソース文書には、アノテーションを付けたい分割された動詞が含まれています。 連続していないテキストに単一のエンティティー・タイプとしてアノテーションを付けるには、どうすればいいでしょうか。 各エンティティー・メンションにアノテーションを付け、関係メンションを使用して、それらが互いに関連していることを指定できます。

                [EVENT_ANSWER]      [EVENT_ANSWER]
      
      All of the phones were ringing, but he knew he should [pick] the red phone [up] first.
      
                          ^----splitType-----^
      
  • メンションの重複、つまり、文書内の単一の句に 2 つの異なるエンティティー・タイプ・ラベルを適用することは避けてください。 例えば、「She donated her father's journals to the JFK Library. (彼女は父親の日誌を JFK 図書館に寄贈した。)」という英文があるとして、単一の句である「JFKJFK LibraryPERSON」に JFK Library=LOCATION= のアノテーションを付けると、メンションを重複させることになります。 この文章では、この用語の用途が個人に関してというよりも図書館に関してであるので、後者のアノテーションだけを適用すべきです。

    このような構造体をデコードするには、機械学習モデルの複数の並列呼び出しが必要になります。メンション検出では、単語トークンごとに単一のラベルが検索されるか、ラベルがまったく検索されないためです。

  • 実行中のテキスト内のリストと複数形を、チームがどのように処理するかを決定します。 例えば、KLUE タイプ・システムには、単数形を複数形と区別する PERSONPEOPLE のエンティティー・タイプがあります。 「Barack, Michelle, Malia, and Sasha Obama」というリストにアノテーションを付けるためには、以下のいずれかの方法を選択できます。

    • リスト内の各項目に、単一のエンティティー・メンションとしてアノテーションを付ける (BarackMichelleMalia、および Sasha Obama のそれぞれが、1 つの PERSON メンションである)
    • 句全体に、1 つの複数エンティティー・メンションとしてアノテーションを付ける (Barack, Michelle, Malia, and Sasha Obama が単一の PEOPLE メンションである)。

    どちらの方法がよいかは一概に言えません。 ただし、チームは必ずどちらか一方を選択し、文書内に出現するどのリストにも一貫してそれを適用するようにしてください。

  • 同一指示は、メンションが同じ実世界エンティティーを参照する場合に使用されます。 関係は、異なるエンティティー間で使用されます。 したがって、2 つのメンションを同一指示と関係の両方によって接続してはなりません。

グランドトゥルース・エディターを使用したアノテーション

ヒューマン・アノテーターが文書にアノテーションを付ける場合、その文書はグランドトゥルース・エディター で開かれます。 グランドトゥルース・エディターは、ヒューマン・アノテーターがテキストにラベルを適用するために使用するビジュアル・ツールです。

ヒューマン・アノテーションの最終目標は、メンション、関係、および同一指示のメンションにラベルを付けて、機械学習モデルがそれらのパターンを見えないテキスト内で検出できるようにトレーニングすることです。 少なくとも、このツールを使用してエンティティー・メンションにアノテーションを付けてください。 結果のモデルを使用するアプリケーションが、同一指示や関係メンションを検出および抽出する必要がない場合は、同一指示や関係メンションにアノテーションを付ける必要はありません。

コンコーダンスは、ヒューマン・アノテーターが使用するオプションのツールであり、繰り返されるメンションへのアノテーション付けを迅速に処理できます。

文書へのアノテーション付けを手動で行う場合は、使用するモードを選択します。

  • メンション・モード

    このモードでは、ヒューマン・アノテーターはエンティティー・タイプを、タイプ・システムで定義されているとおりに、テキスト内の意味のある単語や句に関連付けます。 例えば、個人名のすべてのメンションを、PERSON という名前のエンティティー・タイプに関連付けることができます。 メンションのアノテーションは必須であり、関係タイプおよびメンションに同一指示としてアノテーションを付ける前に行う必要があります。

    ヒューマン・アノテーターはオプションでコンコーダンス・ツールを使用して、ある文書全体およびアノテーション・セット間で必ず、同じテキストに同じエンティティー・タイプのアノテーションが付くようにすることができます。

  • 関係モード

    このモードでは、ヒューマン・アノテーターは、タイプ・システムで定義されているとおりに関係タイプを関連付けることにより、各メンションを接続します。 例えば、メンション「John Smith」を、関係タイプ IBM (~の被雇用者である) によってメンション「employedBy」に接続できます。 関係タイプのアノテーションはオプションであり、メンションに同一指示としてアノテーションを付ける前でも後でも行うことができます。

  • 同一指示モード

    このモードでは、ヒューマン・アノテーターは同じものを意味する複数のメンションを識別し、それによって、単語が同一でない場合でもアノテーションの整合性を確保します。 例えば、最初の文章での「IBM」のメンションと、後続の文章での「International Business Machines」のメンションおよび「IBM」のメンションは同じものを参照しており、すべて同じエンティティー・タイプ (ORGANIZATION など) によってラベル付けされます。 メンションに同一指示としてアノテーションを付けることはオプションであり、関係タイプにアノテーションを付ける前でも後でも行うことができます。

エディターの使用に関するヒント

  • 作業を進めながら、作業内容を随時に保存してください。
  • 間違えた場合は、Ctrl+Z を押して、前のアクションを元に戻すことができます。 アクションを元に戻した後に再実行するには、Ctrl+Y を押します。 現在の文書の編集中に実行した、前の 10 回のアクションを元に戻すことができます。 文書を閉じると即時にアクションが失われます。 逆の順序でアクションを元に戻す必要があり、実行したアクションを元に戻すには、そのアクションを実行したときのモードに切り替える必要があります。 コンコーダンス・ツールのアクションは、元に戻したり、再実行したりすることができません。

エンティティー・メンションのアノテーション付け

エンティティー・メンションにアノテーションを付ける場合、ヒューマン・アノテーターは文書内のテキスト・ストリングを選択してから、そのテキスト・ストリングが表しているものを最も適切に記述しているラベルを適用します。 適用できるラベルは、ワークスペースのタイプ・システムで定義されているエンティティー・タイプです。

このタスクについて

文書内のエンティティー・メンションに対するアノテーション付けを開始する前に、文書全体を読むことをお勧めします。 そうすることで、アノテーション付けの作業中、コンテキスト全体を覚えておくことができ、エンティティー・メンションが互いにどのように関連している可能性があるか、および今後の文書の処理でどのメンションを同一指示とする必要がありそうかを洞察できます。

文書を開いてアノテーションを付ける場合、最初にコンコーダンス・ツールを使用して、繰り返されるエンティティー・メンションにアノテーションを付けてから、個々のエンティティー・メンションにアノテーションを付けることができます。 その後、関係メンションと同一指示に任意の順序でアノテーションを付けることができ、まったく付けなくてもかまいません。 エンティティー・メンションのアノテーションは、必須です。 関係メンションと同一指示にもアノテーションを付けるかどうかは、モデルの目的とドメインのニーズによって異なります。 ただし、同一指示を指定するまでの間、および指定しなかった場合、それぞれのエンティティー・メンションは異なるエンティティーを表すものと見なされます。

ヒント

  • エンティティー・メンションは、短ければ短いほどトレーニングに適していることを忘れないでください。機械学習モデルにとっては、短いパターンほど認識しやすく、正しいアノテーション・トークンを追加するのが容易だからです。

  • ワークスペースで辞書ベースのトークナイザーを使用することを選択し、トレーニング・データ内の複合語と句読点を処理する場合は、辞書に用語を追加し、辞書アノテーターを作成して、出現箇所に事前にアノテーションを付けることができます。 例えば、句読点を含んでいる用語に対する文章境界の中断を回避するためには、辞書に「Yahoo!」や「Dr.」のような用語を追加します。 同様に、トレーニング・データにハイフン付きの語や英数字の頭字語 (「Hi-C」や「MS-60-70」など) が含まれている場合は、それらの用語を辞書に追加します。 大/小文字に関係なく出現個所にアノテーションを付ける場合は、用語を小文字 (「hi-c」など) で追加します。 バリエーションにアノテーションを付けるには、バリエーションを表層形 (「MS-60-70」と「MS 60 70」) として追加します。

    重要: デフォルトのトークナイザーを使用している場合は、この方法を使用しないでください。

手順

文書内のエンティティー・メンションにアノテーションを付けるには、以下のようにします。

  1. ヒューマン・アノテーターとして (またはアノテーションを付ける文書に割り当てられた管理者として) ログインします。 自分に割り当てられているタスクを含んでいるワークスペースが表示されます。

  2. ワークスペースを開き、「機械学習モデル (Machine Learning Model)」 > **「アノテーション (Annotations)」とクリックし、「アノテーション・タスク (Annotation Tasks)」**タブをクリックします。 自分に割り当てられているアノテーション・タスクが表示されます。

  3. 作業するアノテーション・タスクを開きます。 自分に割り当てられているアノテーション・セットが表示されます。

  4. **「アノテーションを付ける (Annotate)」**をクリックして、作業するアノテーション・セットを開きます。 アノテーション・セット内の文書が表示されます。

  5. アノテーションを付ける文書を開きます。 デフォルトでは、文書は**「メンション (Mention)」**モードで開かれます。これは、エンティティー・メンションにアノテーションを付けるために使用するモードです。

  6. エンティティー・メンションへのアノテーション付けを開始します。

    1. タイプ・システムからの特定のエンティティー・タイプのメンションとして認識する、テキスト内の単語をクリックします。 複数の単語から構成されるエンティティー・メンションの場合は、もう 1 つの単語をクリックするか、選択ボックスの端をドラッグして、複数の単語または複合語を選択します。

    2. 適用するエンティティー・タイプを右側のペインから選択するか、そのエンティティー・タイプのキーボード・ショートカットを入力します。

      前にアノテーションのガイドラインがワークスペースに接続されている場合、適用する正しいアノテーションを選択する際にヘルプが必要であれば、**「ガイドラインの表示」**をクリックします。 ガイドラインがホストされているサイトでセットアップされたアクセス権によっては、ガイドラインを開いた後、説明や例を追加するといった更新を行うことができる場合があります。

    3. 重複するメンションを作成することは避けてください。 ただし、重複する有効なメンションが必要な場合は、**「置換」**をクリックすれば、そのようなメンションをもっと簡単に追加できます。 重複は、1 つのエンティティー・メンションに複数のラベルを適用したときに発生します。 以下の提案を検討してください。

      • Sub-Saharan (サハラ以南)」には単一のメンションとしてアノテーションを付け、単に「Saharan」だけ、または「Sub」だけにアノテーションを付けないでください。
      • PERSONJFK International Airport (JFK 国際空港)*」内の「JFK」という参照に、重複する * (個人) アノテーションを作成しないでください。 「JFK International Airport」というメンション全体に、FACILITY (施設) としてのラベルだけを付けてください。
      • CEOs」というテキストの場合、「PERSONCEO*」に * アノテーションを作成して、「PEOPLECEOs*」に * (人々) アノテーションを作成することはしないでください。 「CEOs」に、PEOPLE エンティティー・タイプとしてのアノテーションだけを付けてください。

      一般に、重複するメンションが多すぎることは、アノテーションのガイドラインがあいまいであり、ソース・データ内の複合語の処理方法を示すもっとよい例を提供するために、改善する必要があることを意味します。

    4. 追加したばかりのアノテーションを削除するには、Ctrl+Z を押してアクションを元に戻します。 後でエンティティー・メンションを削除するには、メンションを左クリックして Delete キーを押すか、**「詳細の表示」**をクリックしてから、メンションに割り当てられているエンティティー・タイプの横にある 「X」 をクリックします。

  7. タイプ・システムによっては、エンティティー・メンションの属性を構成できる場合があります。例えば、エンティティー役割またはエンティティー・サブタイプ、メンション・クラスまたはメンション・タイプを割り当てるなどです。 その場合は、メンションを選択して、**「属性ビュー」**をクリックします。

  8. 任意のタイミングで**「保存」**をクリックして、作業内容を保存してください。

次の作業

文書内のすべてのエンティティー・メンション、関係メンション、および同一指示に適切なアノテーションを付け終わったら、文書の状況を**「進行中」から「完了」に変更し、「保存」**をクリックして文書を閉じます。

すべての文書にアノテーションを付け終わり、それらに**「完了」のマークを付けると、アノテーション・セットの状況が「送信済み」**に変わります。 これにより、プロジェクト管理者は、アノテーター間の合意に向けて文書の評価を開始し、文書を拒否するか受け入れて、グランドトゥルースにレベル上げすることができるようになったことが分かります。

繰り返されるメンションのアノテーション付け

オプションとして、コンコーダンス・ツールを使用して、メンションの複数の出現個所に一度にラベルを付けることができます。 このツールを使用すると、ある文書全体およびアノテーション・セット間で、同じエンティティー・タイプの同じテキストにアノテーションを付けることができます。 このツールを使用すると、複数の文書にわたってアノテーションの整合性を確保できます。 例えば、メンション・モードで「暗号化」というメンションの各出現個所にラベルを付けることも、コンコーダンス・ツールを使用して、「暗号化」のメンションのすべての出現個所にラベルを付けることもできます。 どちらの方法でも、モデルは、メンションに適用されているエンティティー・タイプから学習します。

このタスクについて

コンコーダンス・ツールはオプションですが、個々の文書に対するメンションのアノテーション付けを開始する前に、コンコーダンス・ツールを使用して 1 つの文書内または全文書にメンションのアノテーションを付けることをお勧めします。 コンコーダンス・ツールを使用してメンションにエンティティー・タイプを適用すると、システムは、そのエンティティー・タイプを一致するすべてのメンションに適用し、一致するメンションに割り当てられている既存のエンティティー・タイプをオーバーライドします。 競合を避けるために、コンコーダンス・ツールによって新しいエンティティー・タイプが適用されると、既存のエンティティー・タイプから属性 (役割やサブタイプなど) が削除されます。

手順

繰り返されるメンションにアノテーションを付けるには、以下のようにします。

  1. ヒューマン・アノテーターとして (またはアノテーションを付ける文書に割り当てられた管理者あるいはプロジェクト管理者として) ログインします。 自分に割り当てられているタスクを含んでいるワークスペースが表示されます。
  2. ワークスペースを開き、「機械学習モデル (Machine Learning Model)」 > **「アノテーション (Annotations)」**とクリックします。 **「アノテーション・タスク (Annotation Tasks)」**タブをクリックします。 自分に割り当てられているアノテーション・タスクが表示されます。
  3. 作業するアノテーション・タスクを開きます。 自分に割り当てられているアノテーション・セットが表示されます。
  4. **「アノテーションを付ける (Annotate)」**をクリックして、作業するアノテーション・セットを開きます。 アノテーション・セット内の文書が表示されます。
  5. アノテーションを付ける文書を開きます。 デフォルトでは、文書は**「メンション (Mention)」**モードで開かれます。これは、エンティティー・メンションにアノテーションを付けるために使用するモードです。
  6. まだアノテーションを追加していない場合は、少なくとも 1 つのアノテーションを追加してください。 ご使用のタイプ・システム内にあるエンティティー・タイプのメンションを表している単語または句を選択して、該当するタイプを割り当てます。 **「保存」**をクリックして、アノテーションを保存します。
  7. アノテーションを付ける繰り返しテキストの単一の出現個所を選択してから、**「コンコーダンス (Concordance)」**をクリックします。
  8. 選択したエンティティー・タイプを適用する文書を選択します。 アノテーションを付けるように割り当てられたすべての文書、アノテーション付けを開始したすべての文書、またはアノテーション付けをまだ開始していないすべての文書にアノテーションを作成できます。
  9. **「プレビュー」**をクリックして、追加されるアノテーションを表示します。

より大きなコンテキストでアノテーションを表示したい場合は、アイコンをクリックして、文書のコンテンツをプレビューするか、文書を新しいウィンドウで開きます。

  1. 選択したエンティティ・タイプを、選択した文書内のメンションに適用するには、「Apply & Review」 をクリックします。 この時点では、まだ、追加されるアノテーションを検討する機会があります。 特定のコンテキスト内でアノテーションが正確でない場合は、編集アイコンをクリックしてから、そのメンションのエンティティー・タイプ割り当てを削除します。
  2. アノテーションのリストに問題がなければ、**「グランドトゥルース・エディターに戻る」**をクリックします。

結果

文書内のメンションにアノテーションが付けられます。 コンコーダンスを介して追加したメンション・セットを一度に削除する方法はありません。 各メンションを一度に 1 つずつ削除する必要があります。

メンションに対する同一指示としてのアノテーション付け

複数のメンションに同じエンティティーへの同一指示としてアノテーションを付ける場合、ヒューマン・アノテーターは、同じものを参照するメンションのすべての出現個所を選択します。 同一指示は、異なる方法で参照されているエンティティー (例えば、アメリカの州名とその略語、会社名とその頭字語、あるいは、個人名とその人物を指す代名詞など) を同じエンティティーに関連付ける必要があることをモデルに認識させるのに役立ちます。

開始前に

同一指示を指定するには、前もって文書内のメンションにアノテーションを付けておく必要があります。

このタスクについて

メンションに照応としてアノテーションを付けると、システムによって照応チェーンが作成される。 このチェーンにより、コンテキスト内のすべてのメンションを表示して、そのすべての出現箇所が同じエンティティーの下に一緒に属していることを確認できます。 例えば、英語の「Barack」、「Michelle」、「he」、および「she」は、すべて同じエンティティー・タイプ PERSON (個人) ですが、「Barack」と「he」は 1 つのエンティティーであり、「Michelle」と「she」は別のエンティティーです。 この例では、2 つの共同参照チェーンを作成することになります。

共同参照チェーンを作成する場合、同じエンティティー・タイプによってマーク付けされているメンションを選択する必要があります。 ただし、場合によっては、異なるタイプのメンションを同じ共同参照チェーンに含めることができます。 これを行うには、複数のチェーンを作成してから、それらをマージする必要があります。 例えば、テキスト内での繰り返しを避けるために、人々が徐々に省略表現を使用するようになることを考えてみてください。 交通問題の記事で、最初の車両への参照が「2004 Honda Accord Sedan」だったとします。 その後、記者はその車両を「Accord」として参照し、さらに後になると、その車両を単に「vehicle (車両)」として参照します。 タイプ・システムに車両の製造メーカー、モデル、およびタイプの項目が含まれている場合は、エンティティー・タイプごとに複数の共同参照チェーンを作成でき、その後、それらをマージして、統合されたチェーンを作成できます。 マージされたチェーンは、機械学習モデルをトレーニングして、これらすべてのメンションが同じものを参照していることを認識させるのに役立ちます。

エンティティー・タイプが異なる複数のメンションを結合する別の方法は、1 つのエンティティー・タイプからなる複数のメンションで 1 つのチェーンを作成することです。 次に、別のエンティティー・タイプのメンションをクリックし、作成したチェーンをクリックして、そのチェーンにメンションを追加できます。

アノテーションのガイドラインによっては、名詞だけでなく、動詞の共同参照チェーンを作成することもできます。ただし、それらの動詞は、同じアクション・インスタンスにメンションしている必要があります。 例えば、動詞「encrypts (暗号化する)」の 2 つのメンションが暗号化の同じ出現個所を参照している場合は、それらのメンションを同一指示とすることができます。 しかし、「encrypts」の 1 つの参照が一般参照である場合、または 2 つの出現個所が 2 つの異なる暗号化動作を参照している場合、それらを同一指示とすることはできません。 2 つの異なる動詞が、あるアクションの同じ出現個所を参照している場合は、それらのメンションを同一指示とすることができます。 例えば、「He encrypted the document, and after that processing he sent the file ... (彼は文書を暗号化し、その処理の後、彼はファイルを送信した...)」という英文のステートメントでは、「encrypted (暗号化した)」と「processing (処理)」は同じアクション・インスタンスを参照しているので、それらのメンションを同一指示とすることができます。

最も重要なことは、整合性です。 同一指示 (照応) にどのようにアノテーションを付けるかを決定し、アノテーションのガイドラインの中で、例を挙げてルールを明確に指定してください。

手順

メンションに同一指示としてアノテーションを付けるには、以下のようにします。

  1. ヒューマン・アノテーターとして (またはアノテーションを付ける文書に割り当てられた管理者あるいはプロジェクト管理者として) ログインします。 自分に割り当てられているタスクを含んでいるワークスペースが表示されます。

  2. ワークスペースを開き、「機械学習モデル (Machine Learning Model)」 > **「アノテーション (Annotations)」**とクリックします。 **「アノテーション・タスク (Annotation Tasks)」**タブをクリックします。 自分に割り当てられているアノテーション・タスクが表示されます。

  3. 作業するアノテーション・タスクを開きます。 自分に割り当てられているアノテーション・セットが表示されます。

  4. **「アノテーションを付ける (Annotate)」**をクリックして、作業するアノテーション・セットを開きます。 アノテーション・セット内の文書が表示されます。

  5. アノテーションを付ける文書を開きます。 デフォルトでは、文書は**「メンション (Mention)」**モードで開かれます。これは、エンティティー・メンションにアノテーションを付けるために使用するモードです。

  6. **「照応 (Coreferences)」**をクリックします。

  7. 照応チェーンを作成するには、以下のようにします。

    1. 文書を読み進め、同じものを意味し、同じエンティティー・タイプとしてラベル付けされている各メンションをクリックします。 例えば、「IBM」、「International Business Machines」、「IBM Corp.」の各メンションのエンティティー・タイプがどれも ORGANIZATION である場合、それらの各出現個所をクリックします。
    2. チェーンに追加する最後のメンションをダブルクリックします。 サイド・パネルに共同参照チェーンが作成されます。 チェーンの名前は、選択した最初のメンションに一致します。
    3. チェーン内のすべてのメンションを強調表示してコンテキスト内で検討するには、サイド・ペイン内でそのチェーンの名前の上にカーソルを移動します。
  8. **「単一メンション・リスト」**には、既にアノテーションが付けられていて、まだチェーンに追加されていない、文書内の用語が表示されます。 このリスト内のメンションがチェーンに属していることが分かった場合は、ここからチェーンに追加できます。

    1. サイド・パネル内の**「単一メンション・リスト」**から、メンションをクリックします。
    2. メンションの記述の下のドロップダウン・リストから、メンションの追加先にするチェーンを表す番号を選択します。
    3. **「マージ」をクリックしてメンションをチェーンに追加し、「OK」**をクリックします。

    メンションが**「単一メンション・リスト」**から削除され、文書内のそのメンションの下に、現在所属しているチェーンの番号が表示されます。

  9. 以下の方式を使用して、作業を元に戻すことができます。

    • 追加したばかりの共同参照チェーンを削除するには、Ctrl+Z を押して、アクションを元に戻します。
    • 後で共同参照チェーンを削除する場合は、**「共同参照チェーン」サイド・パネルから、削除するチェーンの横にある「X」**をクリックします。
    • チェーンからメンションを 1 つだけ削除するには、同一指示 ID をクリックして、チェーン内のメンションのリストを表示するウィンドウを開き、削除するメンションの横にある**「X」**をクリックします。
  10. 任意のタイミングで**「保存」**をクリックして、作業内容を保存してください。

次の作業

文書内のすべてのエンティティー・メンション、関係メンション、および同一指示に適切なアノテーションを付け終わったら、文書の状況を**「進行中」から「完了」に変更し、「保存」**をクリックして文書を閉じます。

すべての文書にアノテーションを付け終わり、それらに**「完了」のマークを付けると、アノテーション・セットの状況が「送信済み」**に変わります。 この状況により、プロジェクト管理者は、アノテーター間の合意に向けて文書の評価を開始し、それらを拒否するか受け入れて、グランドトゥルースにレベル上げすることができるようになったことが分かります。

関係のアノテーション付け

関係メンションにアノテーションを付ける場合、ヒューマン・アノテーターは文章内から 2 つのエンティティー・メンション間の関係を示す証明テキストを見つけて、その関係タイプを最も適切に記述しているラベルを適用します。 適用できるラベルは、そのワークスペースのタイプ・システムで定義されている関係タイプです。

開始前に

エンティティー・メンション間の関係タイプを定義するには、前もって文書内のエンティティー・メンションにアノテーションを付けておく必要があります。

このタスクについて

関係メンションを定義できるのは、テキストが 2 つのエンティティー・メンション間の関係を明示的に記述している場合だけです。 明示的な証明テキストは、所有格、主語-動詞-目的語の構造、または同格語を含んでいる可能性があります。 例えば、次の英文では、ownedBy 関係メンションを dogowner の間に追加するのは妥当ではありません。

妥当でない: The dog got a treat from its owner. (犬は飼い主からごちそうをもらった。)

正しい関係の言及は、itsownerの間にあります。これは、テキストが犬とその飼い主の間の関係を明示的に定義する文のこの部分であるためです。Ownerは、その犬の飼い主の場合もあれば、他の犬の飼い主の場合もありますが、このテキストにより、文の先頭に記載されている同じ犬がこの人に飼われていることが明確になります。

妥当: The dog got a treat from its owner.
                                |ownedBy^

両方のエンティティー・メンションとそれらの間の関係タイプを定義しているテキストが、単一の文章内に存在しなければならないという要件は、絶対的なように思えるかもしれません。 しかし、忘れてならないことは、上記の例のように、文書内で同一指示も識別できる限り、もっと日常的なエンティティー・メンション (代名詞など) として機能する単語を含んだ文章内でも関係メンションを識別できることです。 例えば、「Mary is a scientist. She works for IBM.」の 2 番目の文章は、Mary と IBM との間の employedBy 関係を示す有効な証明テキストを含んでいます。 同一指示「She」は、PERSON エンティティー・タイプ「Mary」への参照であると理解されます。 これは、MaryShe の間の同一指示の識別に、SheIBM の間の関係メンションの識別が一緒に加わることによって、この関係が完全にキャプチャーされます。 この関係メンションにアノテーションを付ける正しい方法は、次のとおりです。

Mary [#1]は科学者です。 彼女[#1]はIBMで働いています。
                         |----employedBy----^

ここで、添え字[#1]は、MarySheの両方が文書内の最初の同一指示チェーンのメンバーであることを示します。

手順

文書内のエンティティー・メンション間に関係メンションのアノテーションを付けるには、以下のようにします。

  1. ヒューマン・アノテーターとして (またはアノテーションを付ける文書に割り当てられた管理者あるいはプロジェクト管理者として) ログインします。 自分に割り当てられているタスクを含んでいるワークスペースが表示されます。

  2. ワークスペースを開き、「機械学習モデル (Machine Learning Model)」 > **「アノテーション (Annotations)」**とクリックします。 **「アノテーション・タスク (Annotation Tasks)」**タブをクリックします。 自分に割り当てられているアノテーション・タスクが表示されます。

  3. 作業するアノテーション・タスクを開きます。 自分に割り当てられているアノテーション・セットが表示されます。

  4. **「アノテーションを付ける (Annotate)」**をクリックして、作業するアノテーション・セットを開きます。 アノテーション・セット内の文書が表示されます。

  5. アノテーションを付ける文書を開きます。 デフォルトでは、文書は**「メンション (Mention)」**モードで開かれます。これは、エンティティー・メンションにアノテーションを付けるために使用するモードです。

  6. **「関係 (Relations)」**をクリックします。

  7. 関係にアノテーションを付けるには、以下のようにします。

    1. テキストのエンティティー・メンションをクリックしてから、2 番目のエンティティー・メンションをクリックします。

    2. 右側のペインから適用する関係タイプを選択するか、その関係タイプのキーボード・ショートカットを入力します。 使用可能な関係タイプのリストは、選択した最初のエンティティー・メンションによって制約され、2 番目のエンティティー・メンションによってさらに制約されます。 場合によっては、1 つの関係タイプだけが残ります。その場合でも、適用する関係タイプを明示的に選択する必要があります。

      前にアノテーションのガイドラインがワークスペースに接続されている場合、適用する正しいアノテーションを選択する際にヘルプが必要であれば、**「ガイドラインの表示」**をクリックします。 ガイドラインがホストされているサイトでセットアップされたアクセス権によっては、ガイドラインを開いた後、説明や例を追加するといった更新を行うことができる場合があります。

  8. 追加したばかりの関係メンションを削除するには、Ctrl+Z を押して、アクションを元に戻します。 後で関係メンションを削除するには、関係タイプを左クリックしてから Delete キーを押すか、関係タイプの横にある**「X」**をクリックします。

  9. 任意のタイミングで**「保存」**をクリックして、作業内容を保存してください。

次の作業

文書内のすべてのエンティティー・メンション、関係メンション、および同一指示に適切なアノテーションを付け終わったら、文書の状況を**「進行中」から「完了」に変更し、「保存」**をクリックして文書を閉じます。

すべての文書にアノテーションを付け終わり、それらに**「完了」のマークを付けると、アノテーション・セットの状況が「送信済み」**に変わります。 これにより、プロジェクト管理者には、アノテーター間の合意に向けて文書の評価を開始し、文書を拒否するか、受け入れてグランドトゥルースにレベル上げできることが分かります。

関連情報