大規模な言語とモデル
IBM Watson® Speech to Textサービスは、サービスの旧世代モデルの音声認識能力を向上させる大規模音声モデル(LSM)のコレクションをサポートしています。 モデル名はロケールであり、言語コードとダッシュで区切られた地域または国コードで構成される。 例えば、en-US
はアメリカ合衆国で話されている英語です。 LSMは大型モデルだ。 学習可能なパラメータの数が多く、大量の音声で学習される。 サイズが大きく、大量のトレーニング素材に基づいて構築され、構築するために使用される最先端のアーキテクチャとトレーニングレシピのため、これらのモデルは、利用可能な以前のモデルと比較して、より転写精度を提供します。
これらのモデルは、テレフォニーのユースケースとブロードバンドのユースケースの両方に使用できます。
サポートされる大規模音声モデル言語
次の表は、各言語で利用可能な大型スピーチモデルの一覧です。
言語 | モデル名 | ステータス |
---|---|---|
英語 (オーストラリア) | en-AU |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
英語(インド) | en-IN |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
英語 (英国) | en-GB |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
英語 (米国) | en-US |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
フランス語 (カナダ) | fr-CA |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
フランス語 (フランス) | fr-FR |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
日本語 | ja-JP |
IBM Cloud 2024年5月20日 IBM Cloud Pak for Data 2024年6月12日 |
ポルトガル語 (ブラジル) | pt-BR |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
ポルトガル語(ポルトガル) | pt-PT |
IBM Cloud 23 August 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (カスティリャ) | es-ES |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (アルゼンチン) | es-AR |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (チリ) | es-CL |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (コロンビア) | es-CO |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (メキシコ) | es-MX |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
スペイン語 (ペルー) | es-PE |
IBM Cloud 18 June 2024 IBM Cloud Pak for Data 23 August 2024 |
大規模な音声モデルでサポートされる機能
大規模な音声モデルは、サービスの音声認識機能の大規模なサブセットで使用するためにサポートされています。 対応機能が特定の言語に制限されている場合、通常、同じ言語制限が大型音声モデル、前世代モデル、次世代モデルに適用される。
- 大規模な音声モデルで使用できるパラメータの詳細(言語サポート、パラメータがGAかベータ版かなど)については、パラメータの概要 を参照してください。
- 大規模音声モデルのカスタマイズのサポートについて詳しくは、 大規模音声モデルのカスタマイズのサポート を参照してください。
大規模な音声モデルは、すべての音声認識パラメータとヘッダexceptをサポートしています:
acoustic_customization_id
(大規模音声モデルは音響モデルのカスタマイズをサポートしていません。)keywords
およびkeywords_threshold
word_alternatives_threshold
grammar_name
(大規模音声モデルでは、文法のカスタマイズはサポートされていません。)low_latency
(大規模音声モデルは、すぐに使用可能な低遅延をネイティブにサポートします。)character_insertion_bias
ラージスピーチモデルは、以下の追加機能に関しても、以前のモデルとは異なる:
- 大きな音声モデルは、ためらいマーカーを生成しない。 代わりに、実際の躊躇を書き起こし結果に含めます。 詳しくは、 発話の言い淀みと言い淀みマーカー を参照してください。