文の分類
IBM Cloud
センテンス分類は、管理対象デプロイメントでのみ使用可能なベータ機能です。 また、この機能は英語の文書でのみ使用できます。
センテンス分類を使用して、重要なビジネス上の関心を持つ文書内のセンテンスを分類します。
センテンス分類では、ユーザー定義のセンテンス・クラスに基づいてセンテンスを分類する機械学習モデルを使用します。 文書内の例文にラベルを付けて、文クラスを定義することができます。 ラベル付けプロセスを高速化するために、システムはバックグラウンドで候補モデルを自動的に準備し、より多くのセンテンス・ラベル付け候補を提供します。
開始前に
Discovery で学習させたいさまざまな文の例を含む文書を含むコレクションを検索または作成します。 センテンス分類子に学習させるには、センテンス・クラスの例にラベルを付ける必要があります。 コレクションに有効な例が含まれている場合にのみ、例にラベルを付けることができます。 定義するすべてのセンテンス・クラスの例として機能する、多数の異なるセンテンスを持つ文書を検索してください。
センテンス分類器の追加
文分類子を追加するには、以下の手順に従います
-
文分類器を作成したいプロジェクトを開きます。
プロジェクトには、分類するデータを代表する文書を含むコレクションが少なくとも 1 つ必要です。
-
「改善とカスタマイズ (Improve and customize)」 ページの 「改善ツール (Improvement tools)」 パネルで、 「Teach domain concepts」 を展開し、 「Sentence classifiers」 をクリックします。
-
**「新規」**をクリックします。
-
文の分類子名を追加し、オプションで説明を追加します。
この名前は、モデル名、およびモデルの公開時に作成されるエンリッチメントの名前として使用されます。 この名前は、自分と他のユーザーがコレクションに適用できる 「エンリッチメント (Enrichments)」 ページにエンリッチメント名として表示されます。 また、センテンス・クラスが検出された文書の JSON 表現でモデル名としても表示されます。 名前は、指定した大文字とスペースで保管されます。
-
分類するデータを代表する文書を含むコレクションを選択します。
-
コレクションから文書にラベルを付ける文書ビューに表示するフィールドを文書から選択します。
- 「文書タイトル」 は、文書名としてページ・ヘッダーに表示されます。
extracted_metadata.filename
フィールドに格納されているファイル名など、文書ごとに固有の値を持つフィールドを選択します。 - 「Document body」 は、コンテンツ内の文の例にラベルを付ける場所です。 文書コンテンツの大部分を含むフィールド (
text
フィールドなど) を選択します。
- 「文書タイトル」 は、文書名としてページ・ヘッダーに表示されます。
-
「作成」 をクリックします。
選択したコレクションの文書が 「Label documents」 ビューに表示されます。 Discovery がこの文書やコレクション内の他の文書から認識する文クラスの出現箇所にラベルを付けます。
ページの本文にテキストが表示されない場合は、新しいセンテンス分類子を作成して最初からやり直してください。 今回は、 「文書本文」 フィールドの値を選択するときに、処理された文書の中からテキストを含むフィールドを必ず選択してください。
センテンス・クラスの定義
以下のステップを実行して、センテンス・クラスを定義します。
-
「文クラスの追加」 をクリックします。
-
センテンス・クラス名とオプションの説明を追加します。
-
オプション: 文書内のセンテンス・クラスに使用する色を選択します。
「ラベルの色」 パレットから色をクリックし、 「色の更新」 アイコンをクリックして、ある色から次の色にタブで移動できます。 カスタム・カラーを使用するには、その 16 進数のカラー・コード (#fff0f7) を指定します。
-
「作成」 をクリックします。
-
このプロセスを繰り返して、分類器で分類するすべてのセンテンス・クラスを追加します。
センテンス・クラスに何を追加すればよいか分からない場合は、最初にコレクション内の文書を確認するのに役立つ可能性があります。 内容を確認することにより、重要な意味を持つセンテンスを感じ取ることができ、そのようなセンテンスを分類するための論理的な方法を探すことができます。
文のラベル付け
「文書のラベル付け」 ビューで、コレクションから文書内の文を検索し、それらの文クラスを示すラベルを付けます。 ラベル付け中に、センテンス分類器は、ラベル付けの提案を示すためにバックグラウンドでモデルを自動的にトレーニングします。
ラベル付けの提案により、文書のラベル付けのプロセスが高速化されます。 文書を調べ、テキストの読み取りに時間を費やすのではなく、ラベル付けの提案により、関連する例を簡単に見つけてコンテキスト内で調べることができます。
文章にラベルを付けるには、以下の方法があります
- 手動ラベル付け。 詳しくは、 手動ラベル付け を参照してください。
- 文書内検索のラベル付け。 詳しくは、 文書内検索のラベル付け を参照してください。
- スマート・ラベル付け。 詳しくは、 スマート・ラベル付け を参照してください。
エンティティー抽出とは異なり、文分類子には、 「開始されていません」、 「進行中」、 「完了」 などの文書状況の概念はありません。 エンティティー抽出プログラムの場合、文書がトレーニングに使用されることを示すために、文書に 「完了」 のマークを付けます。 センテンス分類器の場合、トレーニングにはラベル付きセンテンスのみが使用され、各文書内のラベルなしデータは無視されます。
機能 | トレーニングに使用されるもの |
---|---|
Entity 抽出プログラム | 「完了」としてマークされているすべての文書 |
センテンス分類器 | すべてのラベル付きセンテンス (ラベルなしセンテンスは使用されません) |
手動ラベリング
手動でラベル付けするには、以下の手順に従います
-
「文書のラベル付け (Label documents)」 ページに表示されている文書を読んで、ラベル付けする適切な文の例を見つけます。
-
センテンスの例を選択し、 「ラベルの編集」 アイコンをクリックします。
-
リストからセンテンス・クラスを選択して、センテンス例を正のラベルとしてラベル付けします。
例文に負のラベルとしてラベルを付けるには、リストで文クラスを選択するときに Shift を押します。
適切な文の例が見つからない場合は、 *「文書リスト」*から別の文書を選択します。
Labeled sentence examples -
上記のステップを繰り返して、コレクションの他の文書で例文に正または負のラベルを付けます。
ラベル付け中に、 「文の分類器を保存」 をクリックして作業内容を保存します。 「文書のラベル付け」 ページから別のページに移動すると、システムによって自動的に作業内容が保存されます。
クイック・ラベル付け操作にはショートカット・キーを使用します。 リストに示されているセンテンス・クラスに対応するキー 1 から 5 を押して、サンプル・センテンスに正のラベルとしてラベルを付けます。 同様に、負のラベルを追加するには、キー 6 から 0 を押します。 選択したセンテンスからラベルを削除するには、Delete キーまたは Backspace キーを押します。
文書内検索のラベル付け
検索機能を使用すると、文書内で文の例を見つけ、それらに簡単にラベルを付けることができます。 また、検索を使用して、ラベル付きの例とラベルなしの例を見つけ、ラベルの不整合を修正することもできます。
サンプルを見つけて文書内でラベルを付けるには、以下の手順を実行します。
-
「文書のラベル付け」 ビューで、 「検索」 アイコンをクリックします。
-
「検索」 フィールドに、文書内で検索するテキストを指定します。
テキストを入力すると、文書からの検索結果が表示されます。
検索結果を参照するには、 「次の結果」 アイコンと 「前の結果」 アイコンをクリックします。 結果内のラベルのない例のラベルを選択するには、 「ラベルの編集」 アイコンをクリックし、リストからセンテンス・クラスを選択します。 また、 「ラベルの編集」 アイコンをクリックして 「ラベルの削除」 を選択することにより、結果内の既にラベル付けされている例からラベルを削除することもできます。
検索結果 -
検索結果をフィルタリングするには、 「フィルター・オプションの表示」 アイコンをクリックします。
以下の表は、フィルターオプションについて説明しています。
検索でのフィルター・オプション オプション 説明 すべて テキストに一致する文書内のすべての例を検索します。 ラベル付きテキスト テキストに一致する既存のラベル付きの例を文書内で検索します。 ラベルなしテキスト テキストに一致するラベルのない例を文書内で検索します。 大文字と小文字を区別 テキストとその大/小文字の両方に一致する例を検索します。 完全一致 テキストのワード境界に一致する例を検索します。 例えば、テキストで installing を指定した場合、このオプションを選択すると、 アンインストール は一致しません。 - 上記のステップを繰り返して、コレクションの他の文書内の例文にラベルを付けます。
スマート・ラベル付け
スマート・ラベル付け機能は、アクティブな学習手法を使用して、ラベルを付けることができる文章の例を提案します。 スマート・ラベル付けにより、ラベル付けプロセスが高速化されますが、システムが提案モデルを作成できるように、まず各センテンス・クラスごとに少なくとも 20 個の例にラベルを付ける必要があります。
スマートラベルを使用するには、以下の手順に従ってください
-
少なくとも 1 つのセンテンス・クラスに対して、少なくとも 20 個の正の例にラベルを付けます。
システムは、バックグラウンドで候補モデルの準備を自動的に開始します。
提案モデルのバージョンの準備ができたら、システムは、次にどのセンテンスにラベルを付けるかについての提案を提供します。 提案にラベルを付けると、文の分類器モデルを最も向上させることができます。
-
「スマート・ラベル付けの使用」 をクリックします。
caption-side=bottom" スマート・ラベル付けペインが表示されます。 このペインで、特定のセンテンス・クラスのセンテンスにラベルを付けることができます。
-
提案された *「例」*から例を選択し、 「はい」 をクリックして、例文に正のラベルとしてラベルを付けます。 「いいえ」 をクリックすると、例文に負のラベルとしてラベルを付けることができます。
Smart labeling pane -
他の推奨例にラベルを付けるには、前のステップを繰り返します。
リスト内の提案された例を最新表示するには、 「提案の最新表示」 をクリックします。 リストは新しい提案で最新表示され、既存のラベル付きの例はリストに表示されません。
-
文にラベルを付けた後、 「完了」 をクリックします。
現在の文書セットに十分なセンテンスの例がない場合は、さらに文書を追加できます。 このオプションは、コレクション内にさらに文書がある場合にのみ使用可能です。 詳しくは、 トレーニング・データへの文書の追加 を参照してください。
-
コレクション内の必要な数の文書にサンプルにラベルを付けた後、 「文の分類子を保存」 をクリックし、分類子をトレーニングします。 詳しくは、 分類器のトレーニング を参照してください。
スマート・ラベル付けのヒント
スマート・ラベル付けに関する以下のヒントに留意してください。
-
クイック・ラベル付け操作にはショートカット・キーを使用します。 左矢印キーを押して「はい」を選択するか、右矢印キーを押して「いいえ」を選択することができます。 「はい」または「いいえ」を選択することは、センテンス・クラスに正または負のラベルを指定することと同じです。
-
例文に正のラベルとしてラベルを付けるには、リストに示されている文クラスに対応するキー 1 から 5 を押します。 同様に、負のラベルを追加するには、キー 6 から 0 を押します。 選択したセンテンスからラベルを削除するには、Delete キーまたは Backspace キーを押します。
-
例が現在のセンテンス・クラスと無関係である場合は、例をラベルなしのままにするのではなく、負の値としてラベル付けします。 ラベルなしデータは無視され、学習には使用されません。したがって、負のラベルを指定することは、分類モデルを改善するために重要です。
-
最後の提案モデルのトレーニング後に 20 個以上の例 (正または負のラベル) にラベルを付けた場合、システムはバックグラウンドで新しい提案モデルの作成を自動的に開始します。 新しい提案にラベルを付ける準備ができると、通知されます。
トレーニング・データへの文書の追加
さらに書類を追加するには、以下の手順に従ってください
- 「文書のラベル付け」 ビューにナビゲートします。
- 「文書リスト」 パネルで、 「文書の追加」 をクリックします。
このオプションは、文の分類子ワークスペースに追加する他の文書がコレクションにない場合には使用できません。 コレクションにさらに文書を追加するには、コレクションの 「アクティビティー」 ページにナビゲートし、 「データのアップロード」 タイルをクリックして、さらに文書を参照して追加します。
コレクションからさらに文書を追加した場合でも、すべての文書がモデルのトレーニングに使用されることもあれば、使用されないこともあります。 完成したすべての文書がトレーニングに使用されるエンティティー抽出プログラムとは異なり、センテンス分類子はトレーニングにラベル付きセンテンスのみを使用し、ラベルなしデータは無視されます。
ラベル付けのために 「文書リスト」 パネルに表示する文書をコレクションから選択することはできません。 特定のタイプの文書にラベルを付ける必要がある場合は、それらの文書のみを含む新しいコレクションを作成することを検討してください。
分類子のトレーニング
文書にラベルを付けた後、 「トレーニング分類器」 ビューでトレーニング・データを確認できます。 トレーニング・データは、センテンス分類器モデルをトレーニングするために使用されます。
分類器をトレーニングするには、以下の手順に従います
-
「トレーニング分類器」 ビューにナビゲートします。
-
ラベル付けの要約を確認して、分類子をトレーニングするために十分なラベルが付けられているかどうかを確認します。
分類子をトレーニングするには、各センテンス・クラスに少なくとも 20 の正のラベルと 2 つの負のラベルが必要です。 そうしないと、 「分類器のトレーニング」 ボタンが無効になり、トレーニングを開始できません。 正のラベルまたは負のラベルを持たないセンテンス・クラスは無視されます。
-
トレーニングに拡張オプションを適用するかどうかを確認します。 ほとんどのモデルでは、拡張オプションを変更する必要はありません。
文はランダムにセットに分割されます。 トレーニング・セットは、分類子のトレーニングに使用されます。 テストセットは、学習後のモデルをテストするために使用されます。 ブラインド・セットには、トレーニング中には表示されない予約済みの文があります。 これらは、モデルの不偏評価を定期的に生成するために使用されます。 デフォルトの分割では、トレーニングに標準比率が使用されます。 詳しくは、 トレーニング用の文書セット を参照してください。
-
「分類器のトレーニング」 をクリックします。
分類器のトレーニング時に、 Discovery は、トレーニング・セットの文を使用して機械学習モデルを作成します。 テストの結果が表示され、 「分類器の評価」 ビューで確認できます。
トレーニング用の文書セット
トレーニング・データを構成する文書セットに含まれるセンテンスの比率を変更できます。
ラベル付けしたセンテンスは、ランダムに以下のセットに分割されます。
-
トレーニング・セット: ラベルを付け、センテンス分類器の機械学習モデルをトレーニングするために使用されるセンテンス。 学習セットの目的は、正しいラベルについてモデルに学習させることです。
-
テスト・セット: トレーニングされたモデルをテストするために使用されるセンテンス。 モデルが生成されると、テスト・セットの文書に対してテストが自動的に実行されます。 結果を分析して、モデルで問題が発生した領域を判別し、モデルのパフォーマンスを向上させる方法を見つけることができます。
-
ブラインド・セット: テストと改善の数回の反復が完了した後、モデルを定期的にテストするために確保され、使用されるセンテンス。 ブラインド・セット内の文は意図的にロープオフされます。 テスト・セットのセンテンスを使用してモデルをテストし、結果を分析することで、基礎となるテスト・センテンスに精通します。 テスト文はモデルの改善のために反復的に使用されるため、間接的にモデルのトレーニングに影響を与えるようになります。 そのため、ブラインド・セットの文が必要になる場合があります。 ブラインド・セットを使用すると、モデルの不偏評価を定期的に生成することができます。
デフォルトの分割率は、トレーニング・セットの場合は 70%、テスト・セットの場合は 30%、ブラインド・セットの場合は 0% です。 ブラインド・セットの比率を増やすことにより、文のブラインド・セットを持つことができます。 この場合、 「分類器の評価」 ビューの分類器スコア・テーブル内の数値 ( 「誤検出」、 「誤検出」 など) は、 「トレーニング結果の確認」 ビューに表示されるセンテンスの数と一致しません。 これは、ブラインド・セット内のセンテンスは評価対象として考慮されますが、 「トレーニング結果のレビュー」 ビューには表示されないためです。
分類器の評価
作成したセンテンス分類器モデルのテスト実行からのメトリックを確認するには、 「分類器の評価」 タブをクリックします。
以下の表では、利用可能な評価指標について説明します。
メトリック | 説明 |
---|---|
混同行列 | ラベル付けされた文章の詳細な数値内訳を提供する表。 これを使用して、機械学習モデルによってラベル付けされたものと、トレーニング・データ内でラベル付けされたものを比較します。 |
F1 スコア | 適合率と再現率の間の最適なバランスに達したかどうかを測定します。 F1 スコアは、適合率値とリコール値の加重平均であると解釈できる。 F1 スコアの最高の値は 1、最悪の値は 0 である。 学習するための十分なトレーニング・データがモデルにない場合、全体のスコアは低くなります。 |
精度 | 全体のセンテンスのうち、正しいセンテンス・クラスに分類されているものの数を測定します。 誤検出とは、文を分類すべきではないが、分類された (Predicted = Positive、Actual = Negative) 場合です。 誤検出は通常、低い精度を意味します。 |
再現率 | 分類する必要があるセンテンスが分類される頻度を測定します。 誤検出とは、文を分類する必要があるが、分類されなかった場合のことです (予測 = 負、実際 = 正)。 通常、False Negative は低いリコールを意味します。 |
-
分類モデルのテスト実行に関して提供されるメトリックを確認して、さらにトレーニングが必要かどうかを判別します。
-
「テスト・セット内のトレーニング結果の確認 (Review training results in test set)」 をクリックして、テスト結果をさらに詳細に探索します。
で確認する テスト・セットのセンテンスが表示され、左側のリストに実際のラベルと予測されたラベルが表示されます。 リスト内の文をクリックすると、その文が右ペインの文書ビューに表示されます。
- 実際のラベルは、担当者が手動でラベルを付けた例です。 これらは正しいラベルと見なされます。
- 予測ラベルは、センテンス分類器がセンテンス・クラスとして識別およびラベル付けした例です。
モデルのパフォーマンスは、予測されたラベルが実際のラベルとどの程度一致しているかに基づいて評価されます。
-
リストをフィルタリングするには、 「フィルター」 アイコンをクリックし、 「センテンス・クラス」 と 「予測」 を選択してから、 「適用」 をクリックします。
パフォーマンスの内訳からのトレーニング結果の確認
パフォーマンスの内訳からトレーニング結果を確認するには、以下のステップを実行します。
-
「センテンス・クラス別のパフォーマンス明細 (Performance breakdown by sentence class)」 テーブル内の数値をクリックします。
「トレーニング結果の確認」 ダイアログ・ボックスが表示されます。
-
クリックした数に基づいて、関連する文を確認します。
分類子の改善
以下の表に、一般的な問題に対して推奨される修正を示します。
問題点 | 問題を解決するためのアクション |
---|---|
全体スコアが低い | トレーニング・セットに十分なラベル付けされた文がない可能性があります。 より多くの文書に、より多くの文にラベルを付けます。 |
低いリコール | 分類器が分類しなかったセンテンス・クラスの新しい例を使用して、より多くの文書にラベルを付けます。 フォールス・ネガティブの文を検討して、それらの間に固有の用語があるかどうかを確認します。 そのような固有の用語が表示されている場合は、そのような用語を含む文を検索し、それらに正のラベルを追加します。 |
低い精度 | フォールス・ポジティブの文は慎重に検討してください。 いくつかの文のラベル付けを見逃した可能性があります。 特に、ラベルが負の文をチェックします。 あるセンテンスが特定のセンテンス・クラス (例えば、クラス A) に対して負のラベルを持っている場合、別のセンテンス・クラス (例えば、クラス B) に対して正のラベルが必要かどうかを確認します。 文が実際にはクラス B に属しているが、それに対して正のクラス B ラベルを指定しなかった場合、精度スコアが低下する可能性があります。 また、フォールス・ポジティブのセンテンスに一般的に出現する用語が見つかった場合は、そのような用語を持つセンテンスに対して負のラベルを指定します。 |
エンリッチメントとしてのセンテンス分類器の公開
センテンス分類器の準備ができたら、センテンス分類器モデルを公開します。 改善を行う複数のテスト実行後にスコアが変わらない場合は、モデルの準備ができていると考えることができます。 モデルを公開した後に、更新およびリトレーニングに戻ることができます。
文分類器を公開するには、以下の手順に従います
- 「分類器の評価」 ビューにナビゲートし、 「分類器の公開」 をクリックします。
- 「公開」 をクリックします。
- データを適用するをクリックします。
- コレクションを選択し、センテンス分類器エンリッチメントを適用するテキスト・フィールドを選択します。
- **「適用」**をクリックします。
センテンス分類器モデルのダウンロード
1 つのプロジェクトで作成してデプロイするセンテンス分類子モデルは、同じサービス・インスタンス内の任意のプロジェクトからコレクションに適用できるエンリッチメントとして使用できます。
別のサービス・インスタンスからのプロジェクトでセンテンス分類器モデルを使用する場合は、センテンス分類器モデルをエクスポートまたはダウンロードできます。 他の場所で使用するには、 インポートされた ML モデルを使用したカスタム項目の検索 の機械学習モデルを作成する手順に従います。 別のプロジェクトにインポートしたセンテンス分類器の編集を続行することはできません。
エクスポートする文の分類子は、完全にトレーニングされている必要があります。
文分類器をエクスポートするには、以下の手順に従います
-
エクスポートするセンテンス分類子を持つプロジェクトを開きます。
-
「改善とカスタマイズ (Improve and customize)」 ページの 「改善ツール (Improvement tools)」 パネルで、 *「Teach domain concepts」*を展開し、 「Sentence classifiers」 をクリックします。
-
「センテンス分類器」 リストから、エクスポートするセンテンス分類器を見つけます。
-
分類器の 「アクション」 アイコンをクリックし、 「モデルのダウンロード」 を選択してモデルをシステムに保存します。
「モデルのダウンロード」 オプションは、モデルがトレーニングされていない限り使用できません。
センテンス分類器モデルは .sc ファイルとして保存されます。 これを別のサービス・インスタンス内のプロジェクトに機械学習モデルとしてインポートし、コレクションに適用することができます。
センテンス分類子のラベル付きデータのダウンロード
センテンス分類器のラベル付きデータは、 Discoveryからダウンロードまたはエクスポートできます。 エクスポートされたラベル付きデータを使用して、 Watson Studio や Natural Language Processing (NLP) などのサービスで大規模な言語モデル (LLM) をトレーニングまたは作成できます。
ラベル付けされたデータをエクスポートするには、以下の手順に従います
-
「改善とカスタマイズ (Improve and customize)」 ページの 「改善ツール (Improvement tools)」 パネルで、 *「Teach domain concepts」*を展開し、 「Sentence classifiers」 をクリックします。
-
ラベル付きデータのエクスポート元のセンテンス分類器で、 「アクション」 アイコンをクリックし、 「ラベル付きデータのダウンロード」 を選択します。
ラベル付きデータを含む圧縮ファイルがダウンロードされます。 圧縮ファイルには、以下のJSONファイルが含まれています。
labeled_data.json
: テキストとラベルが含まれます。 データ・フォーマットは、 Watson Natural Language Processing でのテキスト分類のための入力データ・フォーマットに基づいています。 詳しくは、 入力データ・フォーマットを参照してください。metadata.json
: ワークスペースおよびラベル付きデータのメタデータが含まれます。
labeled_data.json
から CSV への変換
以下のコマンドを入力して、 labeled_data.json
を CSV に変換します。
$ cat labeled_data.json | jq -r '.[] | [.text, .labels[]] | @csv'
ラベル付きデータは、以下の形式に変換されます。
"sentence1", class-label1, class-label2
"sentence2", class-label3
"sentence3", ...
...
センテンス分類器エンリッチメントの適用
センテンス分類子を公開するときに、センテンス分類子を適用するフィールドを指定します。
エンリッチメントを後で別のフィールドまたは複数のフィールドに適用するには、以下の手順を実行する:
-
ナビゲーション・パネルで、 「コレクションの管理」 をクリックします。
-
クリックして、エンリッチメントを適用するコレクションを開きます。
-
「エンリッチメント」 をクリックします。
-
リストでセンテンス分類子名を見つけて、エンリッチメントを適用するフィールドを選択します。
テキストまたは HTML のいずれかを含むフィールドを選択できます。
-
**「変更を適用して再処理 (Apply changes and reprocess)」**をクリックします。
センテンス分類器エンリッチメントをコレクションに適用する方法について詳しくは、 エンリッチメントの管理 を参照してください。
センテンス分類器の出力
エンリッチメントが文書内のいずれかのセンテンスを分類すると、文書の JSON 表現の enriched_text.element_classes
セクションに項目が追加されます。 このセクションには、分類器モデルによって分類されたセンテンスと、それらのセンテンス・クラスが含まれています。
センテンス分類器では、信頼度スコアが 0.5より低いセンテンスは分類されません。
以下の JSON 出力は、センテンス分類の結果の例です。

経時的なパフォーマンスのモニター
センテンス分類器モデルはいつでもリトレーニングできます。 モデルをトレーニングするたびに、パフォーマンス・メトリック・スコアを確認して、最新の変更がモデルのスコアを増減するかどうかを判別します。
あるテスト実行を別のテスト実行と比較するには、 「分類器の評価」 ビューで 「スコア履歴の表示」 をクリックします。 履歴ビューには、過去 5 回のトレーニング実行が表示されます。
To retain the score information for more than the most recent 5 training runs, you can export the metrics in comma-separated value format, and track the scores in a separate application. Click the tabular representation icon , and then click **Download as CSV**.
{: tip}
後続のトレーニング実行の結果が低いスコアになった場合は、そのバージョンのモデルを公開しないでください。
センテンス分類器の削除
センテンス分類子からパブリッシュされたエンリッチメントがコレクションに適用されていない場合など、使用されていないセンテンス分類子を削除できます。
例えば、プランで許可されているセンテンス分類子の最大数の制限に達した場合に、センテンス分類子を削除することができます。
センテンス分類子ワークスペースの最大数とセンテンス分類子エンリッチメントの最大数の 2 つの異なる制限があります。 「改善ツール」 パネルにナビゲートし、 *「Teach domain concepts」*を展開し、 「センテンス分類器」 をクリックしてから、 「新規」 ボタンをクリックして、センテンス分類器ワークスペースを作成します。 トレーニングされたセンテンス分類器を公開するか、センテンス分類器モデルをアップロードするときに、センテンス分類器エンリッチメントを作成します。 制限について詳しくは、 センテンス分類器の制限 を参照してください。
制限は、プロジェクトごとではなく、サービス・インスタンスごとに定義されることに注意してください。 現行プロジェクト内に最大数のセンテンス分類子がないが、新しいセンテンス分類子ワークスペースを作成したり、トレーニング済みのセンテンス分類子を公開したりできない場合は、同じサービス・インスタンス内の他のプロジェクトを確認してください。 削除可能な他のプロジェクトで使用されていないセンテンス分類ワークスペースまたはエンリッチメントがある可能性があります。
センテンス分類器エンリッチメントの削除
削除するセンテンス分類子からパブリッシュされたセンテンス分類子エンリッチメントを、それが使用されているすべてのコレクションから削除します。 詳しくは、 エンリッチメントの削除 を参照してください。
センテンス分類器エンリッチメントを削除しても、そのワークスペースは削除されません。
センテンス分類子ワークスペースの削除
文分類器のワークスペースを削除するには、以下の手順を実行します:
-
「改善とカスタマイズ (Improve and customize)」 ページの 「改善ツール (Improvement tools)」 パネルで、 *「Teach domain concepts」*を展開し、 「Sentence classifiers」 をクリックします。
-
削除する文の分類ワークスペースを見つけ、 「アクション」 アイコンをクリックしてから、 「削除」 を選択します。
センテンス分類子ワークスペースを削除しても、ワークスペースから公開されたエンリッチメントは削除されません。
センテンス分類子のための API の使用
センテンス分類子 API はベータ機能です。
文書にセンテンス分類器エンリッチメントを適用するための API を使用できます。 API を使用して、センテンス分類器エンリッチメントを作成したり、エンリッチメントの更新や削除などのエンリッチメントを管理したりすることができます。
文型分類器のAPIを使うには、次のようにします:
-
API の
create an enrichment
メソッドを使用して、センテンス分類器エンリッチメントを作成します。エンリッチメントの作成について詳しくは、API リファレンスの エンリッチメントの作成 を参照してください。
センテンス分類器エンリッチメントの作成時に、センテンス分類器モデルをトレーニングするためのラベル付きデータを指定する必要があります。 ラベル付きデータは、以下の CSV 形式でなければなりません。
"sentence1", class-label1, class-label2 "sentence2", class-label3 "sentence3", ... ...
各行は、センテンスの後に、そのセンテンスに関連付けられているゼロ個以上のセンテンス・クラス・ラベルのコンマ区切りリストが続くセンテンスです。
ベスト・プラクティスとして、CSV ファイル内の各センテンス・クラス・ラベルは、適切な品質のセンテンス分類を実現するために、少なくとも 100 センテンスで表す必要があります。 センテンス・クラス・ラベルに関連付けられたセンテンスは、そのセンテンス・クラスの正の例と見なされます。 センテンス・クラス・ラベルに関連付けられていないセンテンスは、そのセンテンス・クラスの負の例と見なされます。
センテンス分類器エンリッチメントが正常に作成されたら、 「コレクションの管理 (Manage collections)」 ページにナビゲートし、コレクションを選択してから、 「エンリッチメント (Enrichments)」 タブを開きます。 センテンス分類器エンリッチメントは、使用可能なエンリッチメントのリストにあります。
センテンス分類器エンリッチメントの 「状況」 の準備ができたら、センテンス分類器エンリッチメントをコレクション内の文書に適用できます。
-
作成したセンテンス分類器エンリッチメントを文書内のフィールド (テキストまたは HTML) に適用して、センテンスを分類します。 API を使用したエンリッチメントの適用と管理について詳しくは、 API を使用したエンリッチメントの管理 を参照してください。
センテンス分類器の制限
サービスインスタンスごとに作成できる文分類子の数は、 Discovery のプランタイプによって異なります。
プラン | サービス・インスタンスごとのセンテンス分類ワークスペース | サービス・インスタンスごとのセンテンス分類器エンリッチメント | 分類子ごとのセンテンス・クラスの最大数 | トレーニング・データ内の最大文書数 |
---|---|---|---|---|
プレミアム | 10 | 20 | 5 | 1.000 |
エンタープライズ | 10 | 20 | 5 | 1.000 |
プラス (トライアルを含む) | 3 | 5 | 3 | 200 |