IBM Cloud Docs
カスタム・アノテーターの作成

カスタム・アノテーターの作成

辞書、正規表現、または機械学習アノテーターを作成して、データの分析に役立つ新しいファセットを生成できます。

始める前に、以下のデータを準備しておいてください。

カスタム・アノテーター前提条件データ
アノテーター・タイプ 説明 データ
辞書 定義またはアップロードする辞書項目に一致する用語にファセットを割り当てます。 オプションで、辞書用語のファイルをアップロードできます。
機械学習 アップロードする機械学習モデルによって認識されるメンションにファセットを割り当てます。 機械学習モデルの圧縮ファイルが必要になります。
正規表現 定義またはアップロードする Java 正規表現パターンに一致するテキストにファセットを割り当てます。 オプションで、正規表現パターンを含む JSON ファイルをアップロードできます。

カスタム注釈ツールを作成するには、以下の手順に従います

  1. コレクションの分析ビューから、パンくずリストの 「コレクション」 リンクをクリックして、コンテンツ・マイニング・アプリケーションの 「分析ソリューションのコレクションの作成」 ページを開きます。

  2. アノテーターを作成するには、 「コレクション」 をクリックし、リストから 「カスタム・アノテーター」 を選択します。

    Shows the collection menu
    Collection menu

  3. カスタムアノテーターを作成をクリックします。

  4. 注釈者の名前を入力し、必要に応じて説明を追加します。

  5. アノテーター・タイプを選択し、 「次へ」 をクリックします。

  6. 画面上の指示に従います。

    各アノテーター・タイプの構成方法について詳しくは、以下のいずれかのセクションを参照してください。

辞書の構成

既存の辞書をアップロードしてインポートすることも、用語を一度に 1 つずつ追加して辞書を作成することもできます。

辞書をインポートする予定の場合は、辞書の用語を CSV ファイルで定義する必要があります。 各用語とその同義語を別々の行に指定します。 各用語を指定するには、以下の構文を使用します。

{term},{synonym},{synonym},...

辞書を追加するには、以下の手順に従ってください

  1. 以下のいずれかを実行します。

    • 辞書用語をインポートするには、以下のようにします

      1. 「インポート」 をクリックし、辞書用語を含むファイルを参照します。
      2. インポート をクリックします。
    • 辞書用語を定義するには、以下のようにします

      1. 追加 をクリックします。
      2. 「単語リスト」 をクリックして、辞書用語を追加します。
      3. 「追加」 をクリックし、 「基本単語」 フィールドに用語を追加し、 「その他の単語」 フィールドにその用語に対して定義する同義語を追加します。 複数の同義語をカンマで区切ります。 **「OK」**をクリックします。
      4. 辞書語を追加するには、前の手順を繰り返します。
      5. 辞書用語の追加が完了したら、 *「基本設定」*をクリックします。
  2. 辞書に名前を付けます。

  3. 名詞以外の品詞を使用して用語を定義する予定の場合は、品詞を指定します。

    選択した言語が中国語、日本語、韓国語、ヘブライ語の場合、品詞には名詞しか指定できません。

  4. ケースの処理方法を決定します。

    大/小文字を無視すると、 SatSAT、および sat という用語はすべて、 Sat 辞書用語の出現箇所としてラベル付けされます。

    大/小文字を区別する辞書を作成するために 「大/小文字を区別しない」 チェック・ボックスを選択解除すると、大文字の一致がある用語の表層形が使用されます。 注釈は、記述されたとおりの用語に対して、および文字が大文字である用語のバリエーションに対して追加されます。

    例えば、辞書内の sat エントリーは、 satSat、または SAT メンションがテキスト内に出現すると、それらのアノテーションになります。 辞書内の Sat エントリーの場合、 Sat および SAT のオカレンスにはアノテーションが追加されますが、 sat には追加されません。

  5. この辞書に使用するファセット名を識別します。

    アノテーターに対して指定するファセット名は、コレクション検索ビューに表示されるファセット名です。

    ファセット名にピリオド (.) を含めることにより、階層ファセットを作成できます。 例えば、ファセット・パス Food.Vegetables を使用して 1 つの辞書を作成し、ファセット・パス Food.Fruits および Food.Proteins を使用して他の辞書を作成することができます。 より多くの期間を持つファセット・グループを追加します。 例えば、 Food.Proteins.NutsFood.Proteins.Meats を追加して、タンパク質をさらにカテゴリー化することができます。

    Shows how to add a dictionary
    Adding a dictionary

  6. ユーザーがルート・ファセットでフィルターに掛けるときに、サブファセットに対して返される文書を含める場合は、 「単語のリフト・アップ」 を選択します。

    例えば、 Food.Fruits および Food.Proteins に対して 「単語のリフト・アップ (Lift up words)」 を有効にするが、 Food.Vegetables に対しては有効にしない場合があります。 結果として、ユーザーが「Food」ファセットをクリックすると、返される文書には、 applesmeanなどの、「果物」辞書や「Meats」辞書に含まれる用語に言及する文書が含まれます。

    Food ファセットが選択されている場合に、野菜辞書にある用語を除くすべての用語を含む文書が返されることを示します。
    Dictionary enrichment application

    ただし、ユーザーは 「食品」>「野菜」 ファセットを明示的にクリックして、 lettuceなどの野菜辞書内の用語に言及する文書を取得して戻す必要があります。

    野菜ファセットが選択されている場合に、野菜に言及している文書のみが返されることを示します。
    Subfacets

  7. 辞書をさらに追加するには、前のステップを繰り返します。

  8. 保存 をクリックします。

「カスタム・アノテーター」ページから、他のプロジェクト (非コンテンツ・マイニング・プロジェクトなど) で作成された辞書を表示できます。 他のプロジェクト・タイプの辞書では、エンリッチメント名がアノテーター名として表示されます。 「大/小文字を区別しない」 設定と 「単語のリフト」 設定は無効になり、辞書の名前は custom dict になります。

ディクショナリーの制限

ディクショナリー・プランの制限
プラン サービス・インスタンスごとの辞書の数 辞書ごとの基本ワードの数 提案が生成される用語の数
Cloud Pak for Data Unlimited Unlimited 1.000
プレミアム 200 10,000 1.000
エンタープライズ 200 10,000 1.000

合計には、このコンテンツ・マイニング・プロジェクトおよび同じサービス・インスタンス内の他のプロジェクトで作成したエンリッチメントが含まれます。

機械学習の構成

既存の機械学習モデルをインポートできます。

Discovery を使用してモデルを作成するには、 エンティティー抽出 を参照してください。

モデルをインポートするには、以下の手順に従ってください

  1. 「ファイルの選択」 をクリックし、機械学習モデル・ファイルを参照します。

  2. ファセット・パス 」フィールドで、モデルに使用するルート・ファセット名を指定します。

    アノテーターに対して指定するファセット名は、コレクション検索ビューに表示されるファセット名です。

  3. 保存 をクリックします。

機械学習モデルの制限

ML モデル・プランの制限
プラン サービス・インスタンスごとの ML モデル
Cloud Pak for Data Unlimited
プレミアム 10
エンタープライズ 10

合計には、このコンテンツ・マイニング・プロジェクトおよび同じサービス・インスタンス内の他のプロジェクトで作成したエンリッチメントが含まれます。

正規表現の構成

既存のパターンを JSON ファイルにアップロードしてインポートすることも、パターンを追加することもできます。

パターンを追加するには、以下の手順に従ってください

  1. 正規表現パターンを 「新規パターン」 フィールドに追加し、 「追加」 をクリックします。

  2. パターンの名前を指定してから、このパターンに使用するファセット名を識別します。

    アノテーターに対して指定するファセット名は、コレクション検索ビューに表示されるファセット名です。

  3. オプション: ファセット値を指定します。 表に記載されているオプションから値を指定できます。

    正規表現ファセット値のオプション
    ファセット値 説明
    $0 一致したテキストをそのまま表示します。
    $n 正規表現パターンにグループが含まれている場合は、グループ番号を指定して、パターン・グループからのみ一致したテキストを返すことができます。 例えば、正規表現が米国の電話番号パターン ( (\d{3})-(\d{3})-(\d{4}) など) を定義する 3 つのグループで構成されており、電話番号の市外局番部分のみを返す場合は、 $1 と指定できます。 一致したテキストが 212-555-1234 の場合、ファセット値は 212 として表示されます。 一致を返すことが分かっているパターンのファセット値として、グループのみを指定します。
    {prefix-text}:$0 ファセット名の前にハードコーディングされたテキストを追加します。 この正規表現によって生成されるファセットを、類似しているが他の何らかの方法で生成されるファセットと区別する場合に、このオプションを使用することができます。 例えば、 MyRegex:$0 と指定すると、 MyRegex:212-555-1234 という名前のファセットになります。
  4. 保存 をクリックします。

パターンをインポートするには、以下の手順に従います

  1. JSON ファイルに追加したいパターンを定義します。

    パターン定義では、以下の構文を使用する必要があります。

    [
      {
        "name": "US Phone number",
        "description": "US mobile phone number",
        "pattern": "(\\d{3})-(\\d{3})-(\\d{4})",
        "facetPath": ".regex.usphonenumber",
        "facetValue": "$0"
      }
    ]
    

    以下の注意事項を念頭に置いてください

    • パターンを 1 つだけ定義する予定の場合でも、パターンを配列に定義する必要があります。
    • 円記号 (\) 文字は、円記号 (¥) でエスケープします。
    • ファセット値オプションについて詳しくは、 正規表現のファセット値オプション の表を参照してください。
  2. 「インポート」 をクリックし、パターンが定義されている JSON ファイルを選択します。

  3. 保存 をクリックします。

正規表現の制限

正規表現プランの制限
プラン サービス・インスタンスごとの正規表現エンリッチメント サービス・インスタンスごとの正規表現パターン
Cloud Pak for Data Unlimited Unlimited
プレミアム 100 50
エンタープライズ 100 50

合計には、このコンテンツ・マイニング・プロジェクトおよび同じサービス・インスタンス内の他のプロジェクトで作成したエンリッチメントが含まれます。

アノテーターの適用

アノテーターが作成されたら、それをコレクションに適用する必要があります。

  1. コンテンツ・マイニング・アプリケーションの 「分析ソリューション用のカスタム・アノテーターの作成」 ページで、 「カスタム・アノテーター」 をクリックし、リストから 「コレクション」 を選択します。

  2. コレクションのタイルで、 「オプション」 アイコンをクリックし、 「コレクションの編集」 を選択します。

  3. 「Enrichment」タブをクリックし、作成した注釈者を選択します。

    見つけるには、スクロールする必要があるかもしれません。

  4. 「保存」 をクリックし、その操作を確認します。

索引を再作成する時間を与えます。

ファセットを使用した文書のフィルタリング

  1. コレクション・タイルをクリックして、データ分析ページでコレクションを開きます。

  2. 以下のいずれかを実行します。

    • カスタム・ファセットが 「ファセット」 ビューにリストされます。 ファセットが表示されるまでスクロールして 「さらにロード」 を繰り返しクリックします。

    • 空の検索を実行すると、すべての文書が返されます。 「ファセット分析」 ペインで、作成したファセットを選択します。

    • カスタム・ファセットにより迅速にアクセスするには、カスタム・ファセットをカスタム・ビューに追加します。 ビューとして 「カスタム」 を選択し、 「編集」 をクリックします。 ビューに追加する 1 つ以上のファセットを選択し、 「保存」 をクリックします。

      *コレクション