テキストの分類
文書内のテキストを分類できるカテゴリーを定義します。
このトピックでは、テキストの分類方法について説明します。 文書を分類する場合は、コンテンツ・マイニング・アプリケーションを使用します。 詳細は 「分類器の種類」 を参照してください。
テキスト分類器を追加して、コレクション内の文書からテキストをカテゴリーに割り当てます。 Discovery は、指定されたラベルとテキスト例を使用して、コレクション内のテキストのカテゴリーを予測します。
テキスト分類器を作成するには、以下のステップを実行します。
-
サンプル・テキストとそれに続く行ごとのカテゴリー・ラベルを含む CSV ファイルを作成します。
CSV ファイルは UTF-8 エンコード形式でなければならず、以下の要件を満たしている必要があります。
-
フォーマットは
text,label
でなければなりません。text
はサンプルテキスト、label
はカテゴリー名です。完全な文をテキスト項目として追加します。 CSV ファイルにブランク行を含めないでください。
text
列の文章に複数のラベルを適用する必要がある場合は、label
列を追加することができます。 例えば、text,label,label
などです。 -
ファイルには、ヘッダーのない列が少なくとも2つ含まれている必要があります。
-
定義するカテゴリーごとに 10 個以上のエントリーを追加します。 カテゴリーごとに必要なエントリーの最小数は 3 です。 カテゴリーごとに指定する例が多いほど、分類器はコレクション内の他のコンテンツのカテゴリーをより正確に予測できます。
以下の例は、
facility_temperature
およびcatering
という名前の 2 つのカテゴリーを定義する CSV ファイルです。 このテキスト例は、会議出席者からのフィードバックで構成されています。The rooms were too cold.,facility_temperature Breakfast did not include gluten-free options.,catering The rooms were too warm.,facility_temperature I was very comfortable in the session rooms.,facility_temperature The awards dinner was delicious.,catering Coffee ran out during one of the breaks.,catering The temperature was not comfortable.,facility_temperature I was very happy with the selection at lunch.,catering It was nice that you provided tea and coffee. Tea drinkers are often ignored.,catering Can you turn up the air conditioning? I was very warm.,facility_temperature My teeth were chattering because I was so cold.,facility_temperature The speaker left the room to find someone to adjust the temperature.,facility_temperature Would you consider an all-vegan menu next year?,catering I would like lemonade and iced tea to be served during the breaks.,catering The lunch staff was excellent.,catering Appreciated the fresh blueberry muffins at breakfast.,catering The hotel staff adjusted the temperature in my session room as soon as I asked. Excellent service!,facility_temperature Every meal was delicious and there was something for everyone.,catering The seats under the skylights were not comfortable. Too hot.,facility_temperature I was comfortable everywhere in the conference center. I never needed my emergency sweater.,facility_temperature
-
-
「改善ツール (Improvement tools)」 パネルの 「Teach domain concepts」 セクションで、 「テキスト分類器 (Text classifiers)」 をクリックします。
-
「アップロード」 をクリックします。
-
分類器の名前を指定し、CSV ファイルで使用された言語を選択します。
-
「アップロード」 をクリックして、前に作成した CSV ファイルを参照します。
-
「作成」 をクリックします。
指定したトレーニング・データに基づいて分類器エンリッチメントが作成されます。
-
テキスト分類器エンリッチメントを適用するコレクションとフィールドを選択し、 「適用」 をクリックします。
以下の例は、サンプル CSV ファイルをトレーニング・データとして使用して作成されたエンリッチメントが、文書内のテキストを分類する方法を示しています。 出力では、分類機能エンリッチメントによって facility_temperature
ラベルが文書テキストに適用されます。 label
は、 classes
配列内の enriched_{field_name}
配列に保管されます。
{
"enriched_text": [
{
"classes": [
{
"confidence": 0.999692440032959,
"label": "facility_temperature"
}
]
}
],
"text": [
"I think more attendees would stay awake in the sessions if the rooms were colder."
]
}
分類タイプ
Discovery ユーザー・インターフェースから追加する分類器は、 テキスト分類器です。 テキスト分類器は、本文テキストから抽出された語句と、考慮された品詞情報に基づいて文書を分類できます。
デプロイされたコンテンツ・マイニング・アプリケーションからのみ、別の分類器タイプ ( 文書分類器) を作成できます。 文書分類器は、本文テキスト・フィールドから抽出された語句に基づいて文書を分類できます。これには、その品詞からの情報と、考慮された本文テキストに適用されるその他のエンリッチメントが含まれます。 その他の非本文フィールドからの情報も使用されます。
文書分類器は、コンテンツ・マイニング・プロジェクト以外のプロジェクト・タイプのコレクションに適用できます。 これを行うには、デプロイ済みのコンテンツ・マイニング・アプリケーションで分類器を作成し、エクスポートする必要があります。 その後、分類器をインポートし、それをエンリッチとしてコレクションに適用できます。 詳しくは、 ドキュメント分類器の作成と適用 を参照してください。
テキスト分類器は、「品詞 (Part of Speech)」エンリッチメントがプロジェクトに適用されているかどうかに関係なく、「品詞 (Part of Speech)」情報を使用します。
1 つのプロジェクトに追加したテキスト分類器は、コンテンツ・マイニング・プロジェクトを含む他のプロジェクトで使用できます。
テキスト分類器は、0.5 未満の信頼性スコアを持つターゲット・テキスト・フィールドを分類しません。 テキスト分類器によって使用される信頼性しきい値を変更することはできません。 分類されなかった特定のタイプのパッセージを予期していた場合は、類似した特性を持つパッセージをトレーニング・データに追加し、別の分類器をトレーニングすることができます。
テキスト分類器の制限
サービス・インスタンスごとに作成できるテキスト分類器とラベルの数は、 Discovery プラン・タイプによって異なります。
上限 | プラス | エンタープライズ | プレミアム | Cloud Pak for Data |
---|---|---|---|---|
サービス・インスタンスごとのテキスト分類器の数 | 5 | 20 | 20 | Unlimited |
ラベル付きデータ行の数 | 2,000 | 20,000超 | 20,000超 | 20,000超 |
エンリッチ後のトレーニング・データの最大サイズ (MB) | 16 | 1,024 | 1,024 | 1,024 |
ラベルの数 | 100 | 1.000 | 1.000 | 1.000 |