前世代の言語とモデル
2023 年 8 月 1 日以降、すべての前世代モデルがサービスから 廃止 されました。 新しいお客様は、次世代モデルのみを使用する必要があります。 既存のすべてのお客様は、同等の次世代モデルに移行する必要があります。 詳しくは、次世代モデルへのマイグレーションを参照してください。
IBM Watson® Speech to Text サービスは、多くの言語で前世代モデルを使用した音声認識をサポートします。 モデルは音声が発話されている言語とそのサンプリング・レートを示します。
このページで説明するモデルは、前世代モデルと呼ばれます。 また、このサービスは、音声認識を改善するために品質が向上した次世代モデルも提供します。 詳しくは、次世代の言語とモデルを参照してください。
前世代モデル・タイプ
ほとんどの言語では、このサービスにより、以下の 2 つのタイプの前世代モデルが使用可能になります。
- 狭帯域モデルは、最小サンプリング・レートが 8 kHz の音声を対象としています。 狭帯域モデルは、通常、このサンプリング・レートを使用する電話音声のオフラインのデコードに使用します。
- 広帯域モデルは、最小サンプリング・レートが 16 kHz の音声を対象としています。 広帯域モデルは、ライブ音声アプリケーションなど、応答性が高いリアルタイム・アプリケーションに使用します。
アプリケーションに正しいモデルを選択することが重要です。 音声のサンプリング・レート (および言語) に一致するモデルを使用します。 このサービスは、指定したモデルに合うように音声のサンプリング・レートを自動的に調整します。 最大限の認識の正確度を実現するには、音声の周波数成分も考慮する必要があります。 詳しくは、サンプリング・レートおよび 可聴周波数を参照してください。
サポートされる前世代言語モデル
以下のセクションでは、各言語で使用可能な各タイプの前世代モデルをリストします。 各セクションの表には、以下の情報が記載されています。
-
*「モデル名」*列は、モデルの名前を示します。
-
*「状況」*列は、モデルが一般出荷可能 (*GA *) であるか、ベータ版であるかを示します。
-
推奨される次世代モデルは、非推奨モデルの代わりに使用できる次世代モデルを識別します。
現在、すべての広帯域モデルに同等のマルチメディア・モデルがあるわけではありません。 このような場合は、その言語のテレフォニー・モデルを使用することを検討してください。 サービスは、使用するモデルのレートに音声をダウンサンプリングします。 したがって、現在使用可能な同等のマルチメディア・モデルがない場合は、テレフォニー・モデルに広帯域音声を送信することで十分な代替手段が得られる可能性があります。
すべてのモデルは、IBM Cloud および IBM Cloud Pak for Data の両方の製品バージョンで使用可能です。
狭帯域モデル
表 1 に、使用可能な前世代の狭帯域モデルをリストします。
言語 | モデル名 | ステータス | 推奨される次世代モデル |
---|---|---|---|
中国語 (北京語) | zh-CN_NarrowbandModel |
GA 廃止 |
zh-CN_Telephony |
オランダ語 (オランダ) | nl-NL_NarrowbandModel |
GA 廃止 |
nl-NL_Telephony |
英語 (オーストラリア) | en-AU_NarrowbandModel |
GA 廃止 |
en-AU_Telephony |
英語 (英国) | en-GB_NarrowbandModel |
GA 廃止 |
en-GB_Telephony |
英語 (米国) | en-US_NarrowbandModel |
GA 廃止 |
en-US_Telephony |
en-US_ShortForm_NarrowbandModel |
GA 廃止 |
en-US_Telephony |
|
フランス語 (カナダ) | fr-CA_NarrowbandModel |
GA 廃止 |
fr-CA_Telephony |
フランス語 (フランス) | fr-FR_NarrowbandModel |
GA 廃止 |
fr-FR_Telephony |
ドイツ語 | de-DE_NarrowbandModel |
GA 廃止 |
de-DE_Telephony |
イタリア語 | it-IT_NarrowbandModel |
GA 廃止 |
it-IT_Telephony |
日本語 | ja-JP_NarrowbandModel |
GA 廃止 |
ja-JP_Telephony IBM Cloud |
韓国語 | ko-KR_NarrowbandModel |
GA 廃止 |
ko-KR_Telephony |
ポルトガル語 (ブラジル) | pt-BR_NarrowbandModel |
GA 廃止 |
pt-BR_Telephony |
スペイン語 (アルゼンチン、ベータ版) | es-AR_NarrowbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (カスティリャ) | es-ES_NarrowbandModel |
GA 廃止 |
es-ES_Telephony |
スペイン語 (チリ、ベータ版) | es-CL_NarrowbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (コロンビア、ベータ版) | es-CO_NarrowbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (メキシコ、ベータ版) | es-MX_NarrowbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (ペルー、ベータ版) | es-PE_NarrowbandModel |
ベータ版 廃止 |
es-LA_Telephony |
広帯域モデル
表 2 に、使用可能な前世代の広帯域モデルをリストします。
言語 | モデル名 | ステータス | 推奨される次世代モデル |
---|---|---|---|
アラビア語 (現代標準) | ar-MS_BroadbandModel |
GA 廃止 |
ar-MS_Telephony |
中国語 (北京語) | zh-CN_BroadbandModel |
GA 廃止 |
zh-CN_Telephony |
オランダ語 (オランダ) | nl-NL_BroadbandModel |
GA 廃止 |
nl-NL_Multimedia |
英語 (オーストラリア) | en-AU_BroadbandModel |
GA 廃止 |
en-AU_Multimedia |
英語 (英国) | en-GB_BroadbandModel |
GA 廃止 |
en-GB_Multimedia |
英語 (米国) | en-US_BroadbandModel |
GA 廃止 |
en-US_Multimedia |
フランス語 (カナダ) | fr-CA_BroadbandModel |
GA 廃止 |
fr-CA_Multimedia |
フランス語 (フランス) | fr-FR_BroadbandModel |
GA 廃止 |
fr-FR_Multimedia |
ドイツ語 | de-DE_BroadbandModel |
GA 廃止 |
de-DE_Multimedia |
イタリア語 | it-IT_BroadbandModel |
GA 廃止 |
it-IT_Multimedia |
日本語 | ja-JP_BroadbandModel |
GA 廃止 |
ja-JP_Multimedia |
韓国語 | ko-KR_BroadbandModel |
GA 廃止 |
ko-KR_Multimedia |
ポルトガル語 (ブラジル) | pt-BR_BroadbandModel |
GA 廃止 |
pt-BR_Multimedia |
スペイン語 (アルゼンチン、ベータ版) | es-AR_BroadbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (カスティリャ) | es-ES_BroadbandModel |
GA 廃止 |
es-ES_Multimedia |
スペイン語 (チリ、ベータ版) | es-CL_BroadbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (コロンビア、ベータ版) | es-CO_BroadbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (メキシコ、ベータ版) | es-MX_BroadbandModel |
ベータ版 廃止 |
es-LA_Telephony |
スペイン語 (ペルー、ベータ版) | es-PE_BroadbandModel |
ベータ版 廃止 |
es-LA_Telephony |
米国英語の短形式モデル (非推奨)
米国英語の短文式モデル en-US_ShortForm_NarrowbandModel
は、Interactive Voice Response (IVR) ソリューションおよび Automated Customer Support ソリューションの音声認識を改善できます。 短文式モデルは、自動コール・センターなど、顧客サポートの設定で頻繁に表現される短い発話を認識するようにトレーニングされます。 このモデルは、一般的には短い発話に合わせて調整されますが、数字、1
文字の単語や名前のつづり、はい/いいえの回答など、正確な発話に合わせて調整することもできます。
en-US_ShortForm_NarrowbandModel
は、IBM® Voice Agent with Watson のユース・ケースなど、人間と機械の間の対話で一般的に見られる種類の応答に最適です。 en-US_NarrowbandModel
は、一般に人間どうしの会話に最適です。 ただし、ユース・ケースとやり取りの性質によっては、短文式モデルが人間と人間の会話に適していると感じるユーザーもいます。 こうした柔軟性と共通部分があるので、両方のモデルで試して、どちらが自分のアプリケーションに合うかを判断することができます。
どちらの場合も、文法を含むカスタム言語モデルを短文式モデルに適用することで、認識結果をかなり改善できます。
すべてのモデルと同様に、ノイズの多い環境は結果に悪影響を与えます。 例えば、空港、移動中の車両、会議室、複数の話者による背景音響ノイズによって、書き起こしの正確度が低下する場合があります。 スピーカーフォンからの音声も、このようなデバイスによくある残響によって正確度が低下する場合があります。 発話区間検出のために用意されたパラメーターを使用することで、このような影響を打ち消し、音声書き起こしの正確度を改善できます。 カスタム音響モデルを適用して音声認識のために音響特性をさらに細かく調整することもできますが、これは最後の手段です。
- 言語モデル・カスタマイズおよび音響モデル・カスタマイズについて詳しくは、カスタマイズについてを参照してください。
- 文法について詳しくは、カスタム言語モデルでの文法の使用を参照してください。
- 発話区間検出のパラメーターについて詳しくは、発話区間検出を参照してください。
前世代モデルでサポートされる機能
前世代モデルは、サービスのほとんどすべての機能での使用がサポートされています。 ほとんどの機能およびモデルは、実動使用のために一般出荷可能です。 示されているように、一部の機能およびモデルはベータ機能です。 一部の機能には制限が適用されます。以下に例を示します。
- 話者ラベル、数値編集、禁止用語フィルターなどの機能は、特定の言語およびモデルに限定されています。 このような制限については、個々の機能の説明に記載されています。 使用可能なすべての音声認識パラメーターについて詳しくは、パラメーターの要約を参照してください。
low_latency
パラメーターは、次世代モデルでのみサポートされます。 詳しくは、低遅延を参照してください。- 前世代モデルのカスタマイズのサポートについて詳しくは、 前世代モデルのカスタマイズ・サポート を参照してください。
それ以外の場合、ある機能が一般的に使用可能であると記述されている場合、または特定の言語で使用可能であると記述されている場合、その機能は前世代モデルをサポートします。