IBM Cloud Docs
前世代の言語とモデル

前世代の言語とモデル

2023 年 8 月 1 日以降、すべての前世代モデルがサービスから 廃止 されました。 新しいお客様は、次世代モデルのみを使用する必要があります。 既存のすべてのお客様は、同等の次世代モデルに移行する必要があります。 詳しくは、次世代モデルへのマイグレーションを参照してください。

IBM Watson® Speech to Text サービスは、多くの言語で前世代モデルを使用した音声認識をサポートします。 モデルは音声が発話されている言語とそのサンプリング・レートを示します。

このページで説明するモデルは、前世代モデルと呼ばれます。 また、このサービスは、音声認識を改善するために品質が向上した次世代モデルも提供します。 詳しくは、次世代の言語とモデルを参照してください。

前世代モデル・タイプ

ほとんどの言語では、このサービスにより、以下の 2 つのタイプの前世代モデルが使用可能になります。

  • 狭帯域モデルは、最小サンプリング・レートが 8 kHz の音声を対象としています。 狭帯域モデルは、通常、このサンプリング・レートを使用する電話音声のオフラインのデコードに使用します。
  • 広帯域モデルは、最小サンプリング・レートが 16 kHz の音声を対象としています。 広帯域モデルは、ライブ音声アプリケーションなど、応答性が高いリアルタイム・アプリケーションに使用します。

アプリケーションに正しいモデルを選択することが重要です。 音声のサンプリング・レート (および言語) に一致するモデルを使用します。 このサービスは、指定したモデルに合うように音声のサンプリング・レートを自動的に調整します。 最大限の認識の正確度を実現するには、音声の周波数成分も考慮する必要があります。 詳しくは、サンプリング・レートおよび 可聴周波数を参照してください。

サポートされる前世代言語モデル

以下のセクションでは、各言語で使用可能な各タイプの前世代モデルをリストします。 各セクションの表には、以下の情報が記載されています。

  • *「モデル名」*列は、モデルの名前を示します。

  • *「状況」*列は、モデルが一般出荷可能 (*GA *) であるか、ベータ版であるかを示します。

  • 推奨される次世代モデルは、非推奨モデルの代わりに使用できる次世代モデルを識別します。

    現在、すべての広帯域モデルに同等のマルチメディア・モデルがあるわけではありません。 このような場合は、その言語のテレフォニー・モデルを使用することを検討してください。 サービスは、使用するモデルのレートに音声をダウンサンプリングします。 したがって、現在使用可能な同等のマルチメディア・モデルがない場合は、テレフォニー・モデルに広帯域音声を送信することで十分な代替手段が得られる可能性があります。

すべてのモデルは、IBM Cloud および IBM Cloud Pak for Data の両方の製品バージョンで使用可能です。

狭帯域モデル

表 1 に、使用可能な前世代の狭帯域モデルをリストします。

表 1. サポートされる前世代の狭帯域モデル
言語 モデル名 ステータス 推奨される次世代モデル
中国語 (北京語) zh-CN_NarrowbandModel GA
廃止
zh-CN_Telephony
オランダ語 (オランダ) nl-NL_NarrowbandModel GA
廃止
nl-NL_Telephony
英語 (オーストラリア) en-AU_NarrowbandModel GA
廃止
en-AU_Telephony
英語 (英国) en-GB_NarrowbandModel GA
廃止
en-GB_Telephony
英語 (米国) en-US_NarrowbandModel GA
廃止
en-US_Telephony
en-US_ShortForm_NarrowbandModel GA
廃止
en-US_Telephony
フランス語 (カナダ) fr-CA_NarrowbandModel GA
廃止
fr-CA_Telephony
フランス語 (フランス) fr-FR_NarrowbandModel GA
廃止
fr-FR_Telephony
ドイツ語 de-DE_NarrowbandModel GA
廃止
de-DE_Telephony
イタリア語 it-IT_NarrowbandModel GA
廃止
it-IT_Telephony
日本語 ja-JP_NarrowbandModel GA
廃止
ja-JP_Telephony
IBM Cloud
韓国語 ko-KR_NarrowbandModel GA
廃止
ko-KR_Telephony
ポルトガル語 (ブラジル) pt-BR_NarrowbandModel GA
廃止
pt-BR_Telephony
スペイン語 (アルゼンチン、ベータ版) es-AR_NarrowbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (カスティリャ) es-ES_NarrowbandModel GA
廃止
es-ES_Telephony
スペイン語 (チリ、ベータ版) es-CL_NarrowbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (コロンビア、ベータ版) es-CO_NarrowbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (メキシコ、ベータ版) es-MX_NarrowbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (ペルー、ベータ版) es-PE_NarrowbandModel ベータ版
廃止
es-LA_Telephony

広帯域モデル

表 2 に、使用可能な前世代の広帯域モデルをリストします。

表 2. サポートされる前世代のブロードバンド・モデル
言語 モデル名 ステータス 推奨される次世代モデル
アラビア語 (現代標準) ar-MS_BroadbandModel GA
廃止
ar-MS_Telephony
中国語 (北京語) zh-CN_BroadbandModel GA
廃止
zh-CN_Telephony
オランダ語 (オランダ) nl-NL_BroadbandModel GA
廃止
nl-NL_Multimedia
英語 (オーストラリア) en-AU_BroadbandModel GA
廃止
en-AU_Multimedia
英語 (英国) en-GB_BroadbandModel GA
廃止
en-GB_Multimedia
英語 (米国) en-US_BroadbandModel GA
廃止
en-US_Multimedia
フランス語 (カナダ) fr-CA_BroadbandModel GA
廃止
fr-CA_Multimedia
フランス語 (フランス) fr-FR_BroadbandModel GA
廃止
fr-FR_Multimedia
ドイツ語 de-DE_BroadbandModel GA
廃止
de-DE_Multimedia
イタリア語 it-IT_BroadbandModel GA
廃止
it-IT_Multimedia
日本語 ja-JP_BroadbandModel GA
廃止
ja-JP_Multimedia
韓国語 ko-KR_BroadbandModel GA
廃止
ko-KR_Multimedia
ポルトガル語 (ブラジル) pt-BR_BroadbandModel GA
廃止
pt-BR_Multimedia
スペイン語 (アルゼンチン、ベータ版) es-AR_BroadbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (カスティリャ) es-ES_BroadbandModel GA
廃止
es-ES_Multimedia
スペイン語 (チリ、ベータ版) es-CL_BroadbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (コロンビア、ベータ版) es-CO_BroadbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (メキシコ、ベータ版) es-MX_BroadbandModel ベータ版
廃止
es-LA_Telephony
スペイン語 (ペルー、ベータ版) es-PE_BroadbandModel ベータ版
廃止
es-LA_Telephony

米国英語の短形式モデル (非推奨)

米国英語の短文式モデル en-US_ShortForm_NarrowbandModel は、Interactive Voice Response (IVR) ソリューションおよび Automated Customer Support ソリューションの音声認識を改善できます。 短文式モデルは、自動コール・センターなど、顧客サポートの設定で頻繁に表現される短い発話を認識するようにトレーニングされます。 このモデルは、一般的には短い発話に合わせて調整されますが、数字、1 文字の単語や名前のつづり、はい/いいえの回答など、正確な発話に合わせて調整することもできます。

en-US_ShortForm_NarrowbandModel は、IBM® Voice Agent with Watson のユース・ケースなど、人間と機械の間の対話で一般的に見られる種類の応答に最適です。 en-US_NarrowbandModel は、一般に人間どうしの会話に最適です。 ただし、ユース・ケースとやり取りの性質によっては、短文式モデルが人間と人間の会話に適していると感じるユーザーもいます。 こうした柔軟性と共通部分があるので、両方のモデルで試して、どちらが自分のアプリケーションに合うかを判断することができます。 どちらの場合も、文法を含むカスタム言語モデルを短文式モデルに適用することで、認識結果をかなり改善できます。

すべてのモデルと同様に、ノイズの多い環境は結果に悪影響を与えます。 例えば、空港、移動中の車両、会議室、複数の話者による背景音響ノイズによって、書き起こしの正確度が低下する場合があります。 スピーカーフォンからの音声も、このようなデバイスによくある残響によって正確度が低下する場合があります。 発話区間検出のために用意されたパラメーターを使用することで、このような影響を打ち消し、音声書き起こしの正確度を改善できます。 カスタム音響モデルを適用して音声認識のために音響特性をさらに細かく調整することもできますが、これは最後の手段です。

前世代モデルでサポートされる機能

前世代モデルは、サービスのほとんどすべての機能での使用がサポートされています。 ほとんどの機能およびモデルは、実動使用のために一般出荷可能です。 示されているように、一部の機能およびモデルはベータ機能です。 一部の機能には制限が適用されます。以下に例を示します。

  • 話者ラベル、数値編集、禁止用語フィルターなどの機能は、特定の言語およびモデルに限定されています。 このような制限については、個々の機能の説明に記載されています。 使用可能なすべての音声認識パラメーターについて詳しくは、パラメーターの要約を参照してください。
  • low_latency パラメーターは、次世代モデルでのみサポートされます。 詳しくは、低遅延を参照してください。
  • 前世代モデルのカスタマイズのサポートについて詳しくは、 前世代モデルのカスタマイズ・サポートを参照してください。

それ以外の場合、ある機能が一般的に使用可能であると記述されている場合、または特定の言語で使用可能であると記述されている場合、その機能は前世代モデルをサポートします。