IBM Cloud Docs
辞書を使用して有限の用語セットを定義する

辞書を使用して有限の用語セットを定義する

自分にとって重要な用語 (販売する製品の名前など) の用語と同義語を認識します。

ヘルプ Discovery は、辞書を追加することで、ユース・ケースに対して意味を持つ用語を検索します。 1 つの用語に対して複数の同義語を定義することも、同じカテゴリー内の一連の語に対して複数の同義語を定義することもできます。

辞書を作成するには、用語を 1 つずつ追加するか、用語をリストした CSV ファイルをアップロードします。

辞書用語を 1 つずつ追加するには、以下のステップを実行します。

  1. 「改善ツール」 パネルの 「Teach domain concepts」 セクションから、 「DicDictionary」 を選択します。

  2. **「新規」**をクリックします。

  3. 辞書に名前を付けます。

    例えば、Transportation です。

  4. 言語を選択します。 1 つの辞書には、1 つの言語の用語のみを含めることができます。

  5. オプション: *「拡張オプション」*を展開し、辞書のファセット名を編集します。

    ファセットは、文書を分類するために使用されます。 ユーザーはファセット・タイプを選択して、検索結果を絞り込むことができます。 デフォルトでは、小文字の辞書名がファセット名として使用されます。 ファセットを大文字に変更することもできます。

  6. 用語を入力し、 「+」 ボタンを選択して追加します。

    例えば、 vehicleengine などです。

    英語の辞書では、辞書の用語を小文字で指定します。 Discovery でテキスト内に出現する用語の小文字の言及を無視する場合は、大文字のみを使用してください。 用語が辞書エンリッチメントの出現箇所であるかどうかを判別するために用語を分析する際には、大文字一致の用語の表層形が使用されます。 例えば、辞書内の vehicle エントリーは、 vehicleVehicle、または VEHICLE メンションがテキスト内に出現すると、それらのアノテーションになります。 辞書内の Sat エントリーの場合、 Sat または SAT にはアノテーションが追加されますが、 sat には追加されません。

    アラビア語、中国語、韓国語、日本語、およびヘブライ語では、辞書の突き合わせで大/小文字が区別されます。

  7. 用語の同義語を追加するには、 「編集」 アイコンをクリックし、 「その他の用語」 フィールドに同義語を入力します。 複数の同義語をカンマで区切ります。 「用語の保存」 をクリックします。

    辞書には、用語とその同義語、またはカテゴリーとそのカテゴリーに属する用語を含めることができます。

    vehicle という用語には、 carautomobilesedanconvertiblestation wagon などのシノニムを指定できます。 engine には、 gasketcarburetorpiston、および valves を指定できます。

    追加する同義語の数が多くなりすぎないように注意してください。 追加するシノニムの影響をテストします。 テスト時には、同義語を派生させるために使用するデータとは異なるデータを使用します。

  8. 用語の追加を続けます。

    現在のプロジェクト内のすべてのコレクションからの類似した用語が、新規エントリーとして提案されます。

    推奨される用語は、 textという名前のフィールドから取得されます。 テキスト・フィールドが欠落している場合は、ストリング値が最も長く、特殊値の数が最も多いフィールドが選択されます。 文書がない場合、またはコレクションにテキスト・データを含むフィールドがない場合、提案は表示されません。

  9. **「辞書の保存 (Save dictionary)」**をクリックします。

  10. 辞書を適用するコレクションとフィールドを選択し、 「適用」 をクリックします。

輸送辞書がプロジェクトに追加されます。

商品
の輸送辞書*輸送
*について

辞書用に作成された結果のファセットが検索ページに表示されます。

交通機関
交通機関
を含む検索ページ

エンリッチが適用される文書には、以下の文が含まれます。

Some car fluids can be acidic, such as battery fluid.

以下の JSON スニペットは、 vehicle 辞書エントリーの同義語である用語 car が文書内に見つかった場合に、輸送辞書エンリッチメントのメンションがどのように保管されるかを示しています。 このコレクションでは、辞書エンリッチは text フィールドに適用されるため、メンションは enriched_text 配列内の entities 配列にリストされます。

{
  "enriched_text": [
    {
      "entities": [
        {
          "model_name": "Dictionary:.Transportation",
          "mentions": [
            {
              "confidence": 1,
              "location": {
                "end": 91122,
                "begin": 91119
              },
              "text": "car"
            }
          ],
          "text": "vehicle",
          "type": "Transportation"
        }
      ]
    }
  ]
}

辞書用語のアップロード

CSVファイルから辞書を追加するには、以下の手順に従います

  1. 追加する辞書の用語を含む CSV ファイルを作成します。

    UTF-8 エンコードを使用します。 1 行につき 1 つの項目を指定してください。

    • 同義語のセットを定義するには、以下の構文を使用します。

      <term>,<synonym>,<synonym>,<synonym>,...
      

      例:

      vehicle,car,automobile,sedan,convertible,station wagon
      

      この例の項目は、 vehicle 辞書項目を作成します。 辞書エンリッチメントが文書に適用されると、 vehiclecarautomobilesedanconvertible、または station wagon のメンションはすべて、 vehicle 辞書項目のインスタンスとしてタグ付けされます。

    • 同じカテゴリーに用語のセットを定義するには、以下の構文を使用します。

      <category>,<related-term>,<related-term>,...
      

      例:

      engine,gasket,carburetor,piston,valves
      

      この例の項目は、 engine 辞書項目を作成します。 辞書エンリッチメントが文書に適用されると、 enginegasketcarburetorpiston、または valves のメンションはすべて、 engine 辞書項目のインスタンスとしてタグ付けされます。

  2. 「改善ツール」 パネルの 「Teach domain concepts」 セクションから、 「DicDictionary」 を選択します。

  3. 「アップロード」 をクリックします。

  4. 辞書に名前を付け、CSV ファイルで使用された言語を選択します。

  5. オプション: *「拡張オプション」*を展開し、辞書のファセット名を編集します。 ファセットは、文書を分類するために使用されます。 ユーザーはファセット・タイプを選択して、検索を絞り込むことができます。 デフォルトでは、小文字の辞書名がファセット名として使用されます。 ファセットを大文字に変更することもできます。

  6. 「アップロード」 をクリックして、前に作成した CSV ファイルを参照します。

  7. 「作成」 をクリックします。

  8. 辞書を適用するコレクションとフィールドを選択し、 「適用」 をクリックします。

エンリッチ API を使用して辞書を追加する場合、API 生成の辞書エンリッチメントをフィールドに適用すると、その辞書が「辞書」ページに表示されます。 ただし、製品のユーザー・インターフェースで辞書ツールから API 生成の辞書を編集することはできません。

辞書を削除するには、 Discovery v2 API の エンリッチの削除 メソッドを使用する必要があります。

1 つのプロジェクトに追加する辞書エンリッチメントは、同じサービス・インスタンス内の他のプロジェクトのコレクションに適用できます。 実際には、デプロイされたコンテンツ・マイニング・アプリケーションから、コンテンツ・マイニング・プロジェクト内のコレクションにそれらを適用することができます。

ディクショナリーの制限

サービスインスタンスごとに作成できる辞書と用語エントリーの数は、 Discovery のプランの種類によって異なります。

ディクショナリー・プランの制限
プラン サービス・インスタンスごとの辞書の数 辞書ごとの用語エントリーの数 提案が生成される用語の数
Cloud Pak for Data Unlimited Unlimited 1.000
プレミアム 200 10,000 1.000
エンタープライズ 200 10,000 1.000
プラス (試用版を含む) 20 1.000 50