言語と音声
IBM Watson® Text to Speech サービスは、さまざまな言語、音声、方言をサポートしています。 異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。 音声ごとに、方言に応じた抑揚とイントネーションが使用されます。
サービスの音声はすべてニューラル音声テクノロジーを使用します。 ニューラル音声テクノロジーは、複数のディープ・ニューラル・ネットワーク (DNN) を使用して、発話の音響 (スペクトル) 特性を予測します。 DNN は、自然な人間の発話を使用したトレーニングを受けて、予測される音響特性から音声を生成します。 合成の際に、DNN はピッチと音素持続時間 (韻律)、スペクトル構造、および発話の波形を予測します。 ニューラル音声は、非常に自然に聞こえる、滑らかで一貫性のある音声品質を使用して、鮮明でクリアなスピーチを生成します。
サポートされる言語と音声
このサービスは、品質と機能が異なる 2 つのタイプの音声を提供します。
- Expressive neural voices は、非常に明確で明瞭な自然に聞こえる音声を提供します。 発音と屈折は自然で会話型であり、結果としての音声は単語間の極めてスムーズな遷移を提供します。 また、拡張ニューラル音声では使用できない追加機能の使用もサポートします。 すべての表現可能な音声のリストについては、 表現可能なニューラル音声 を参照してください。
- 拡張されたニューラル音声 は、高度な自然に聞こえる音声を実現し、ほとんどのサービス機能をサポートします。 拡張されたすべてのニューラル音声のリストについては、 拡張ニューラル音声 を参照してください。
以下のページには、音声とそのテクノロジーに関する詳細情報が記載されています。
- 表現的な音声を紹介するブログについては、 会話型 AI が適切なトーンを設定していますか?を参照してください。
- サービスのニューラル音声テクノロジーについて詳しくは、 サービスを支えるサイエンス を参照してください。
音声のタイプ別の言語サポート
表 1 は、サービスの言語サポートを音声のタイプ別に示しています。 以下のトピックでは、音声タイプごとに使用可能な言語と音声をリストします。
言語 | 表現力のあるニューラル音声 | 拡張されたニューラル音声 |
---|---|---|
オランダ語 (オランダ) |
✔ | |
英語 (英国) |
✔ | ✔ |
英語 (オーストラリア) |
✔ | |
英語 (米国) |
✔ | ✔ |
フランス語 (カナダ) |
✔ | |
フランス語 (フランス) |
✔ | |
ドイツ語 | ✔ | |
イタリア語 | ✔ | |
日本語 | ✔ | |
韓国語 | ✔ | |
ポルトガル語 (ブラジル) |
✔ | ✔ |
スペイン語 (カスティリャ) |
✔ | |
スペイン語 (ラテン・アメリカ) |
✔ | ✔ |
スペイン語 (南米) |
✔ |
表現力のあるニューラル音声
表 2 には、使用可能なすべての表現型ニューラル音声の音声サンプルがリストされています。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。 また、各音声が利用可能かどうかを示す列もあります。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub、またはその3つすべて(製品バージョンは記載なし)で利用可能であるかどうかが示されています。
- 表現型ニューラル音声は、他のタイプの音声では使用できない追加機能をサポートします。 これらの機能には、追加のスピーキング・スタイル、インタージェクションの自動強調、および指定された単語の強調が含まれます。 詳しくは、 感情表出ニューラル音声による音声合成の変更 を参照してください。
- SSML の
<prosody>
要素とともに使用する場合、式を表現する音声でサポートされるのは、rate
属性とpitch
属性のパーセンテージ値のみです。 詳しくは、<prosody>
エレメント を参照してください。
感情表現のニューラル音声は、コンテキストから感情を判別し、テキストに適合する適切なイントネーションを自動的に使用します。 最も自然な響きのある、表現に富んだニューラル・ボイスを作成するには、センテンスのすべての単語および句のコンテキストを考慮する必要があります。 そのため、表現能力の高い音声は、他のタイプの音声よりも計算主体であり、待ち時間が若干長くなります。 表現的な音声を使用する合成要求に対する最初の応答は、到着までに数秒かかる場合があります (例えば、数百ミリ秒)。 要求が完了するまでの合計応答時間も長くなります。
表現力のある音声の待ち時間と応答時間を最小化するには、可能な限り短い文を使用してください。
言語 | 可用性 | 音声/性別 | 音声サンプル |
---|---|---|---|
英語 (オーストラリア) |
GA | en-AU_HeidiExpressive 女性 |
|
GA | en-AU_JackExpressive 男性 |
||
英語 (米国) |
GA | en-US_AllisonExpressive 女性 |
|
GA | en-US_EmmaExpressive 女性 |
||
GA | en-US_LisaExpressive 女性 |
||
GA | en-US_MichaelExpressive 男性 |
||
英語 (英国) |
GA | en-GB_GeorgeExpressive 男性 |
|
ポルトガル語 (ブラジル) |
GA | pt-BR_LucasExpressive 男性 |
|
スペイン語 (ラテン・アメリカ) |
GA | es-LA_DanielaExpressive 女性 |
拡張されたニューラル音声
表 3 に、使用可能なすべての拡張ニューラル音声の音声サンプルをリストし、提供します。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。 また、各音声が利用可能かどうかを示す列もあります。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub またはその3つすべて(製品バージョンは記載なし)で利用可能であるかどうかが示されています。
言語 | 可用性 | 音声/性別 | 音声サンプル |
---|---|---|---|
オランダ語 (オランダ) |
ベータ | nl-NL_MerelV3Voice 女性 |
|
英語 (英国) |
GA | en-GB_CharlotteV3Voice 女性 |
|
GA | en-GB_JamesV3Voice 男性 |
||
GA | en-GB_KateV3Voice 女性 |
||
英語 (米国) |
GA | en-US_AllisonV3Voice 女性 |
|
GA | en-US_EmilyV3Voice 女性 |
||
GA | en-US_HenryV3Voice 男性 |
||
GA | en-US_KevinV3Voice 男性 |
||
GA | en-US_LisaV3Voice 女性 |
||
GA | en-US_MichaelV3Voice 男性 |
||
GA | en-US_OliviaV3Voice 女性 |
||
フランス語 (カナダ) |
GA | fr-CA_LouiseV3Voice 女性 |
|
フランス語 (フランス) |
GA | fr-FR_NicolasV3Voice 男性 |
|
GA | fr-FR_ReneeV3Voice 女性 |
||
ドイツ語 | GA | de-DE_BirgitV3Voice 女性 |
|
GA | de-DE_DieterV3Voice 男性 |
||
GA | de-DE_ErikaV3Voice 女性 |
||
イタリア語 | GA | it-IT_FrancescaV3Voice 女性 |
|
日本語 | GA | ja-JP_EmiV3Voice 女性 |
|
韓国語 | GA | ko-KR_JinV3Voice 女性 |
|
ポルトガル語 (ブラジル) |
GA | pt-BR_IsabelaV3Voice 女性 |
|
スペイン語 (カスティリャ) |
GA | es-ES_EnriqueV3Voice 男性 |
|
GA | es-ES_LauraV3Voice 女性 |
||
スペイン語 (ラテン・アメリカ) |
GA | es-LA_SofiaV3Voice 女性 |
|
スペイン語 (北米) |
GA | es-US_SofiaV3Voice 女性 |
スペイン語の中南米と北米の Sofia
の音声は、本質的に同じ音声です。 この 2 つの音声の最も大きな違いは、$ (ドル記号) の解釈方法です。 ラテン・アメリカ・バージョンではペソという用語が使用され、北アメリカ・バージョンではドレという用語が使用されます。 他にもこの 2 つの音声には小さな違いが存在します。
カスタム・モデルの作成
テキストから音声合成を行うときには、サービスは言語依存の発音ルールを適用して、各単語の通常のつづりを表音つづりに変換します。 サービスの発音ルールは一般的な単語には十分に機能しますが、外来語、人名、略語、頭文字などの一般的でない単語には十分に機能しないことがあります。 アプリケーションの語彙にそのような単語が含まれている場合は、カスタマイズ・インターフェースを使用して、サービスにどのように単語を発音させるかを指定できます。
カスタム・モデルは、単語とその翻訳の辞書です。 カスタム・モデルは、特定の音声用ではなく、特定の言語用に作成します。 そのため、カスタム・モデルは、指定された言語のすべての音声で使用できます。 例えば、en-US
言語用に作成するカスタム・モデルは、米国英語のすべての音声で使用できます。 ただし、en-GB
またはen-AU
音声で使用することはできません。
カスタマイズはすべての言語で使用できます。 すべての音声は、単語のカスタマイズのために標準の International Phonetic Alphabet (IPA) と IBM Symbolic Phonetic Representation (SPR) 表音記号の両方の使用をサポートしています。 詳しくは、カスタマイズの理解を参照してください。
カスタム音声の作成
IBM Cloud
プレミアムのお客様は、 IBM で作業して、特定のユース・ケースとターゲット・マーケット向けに新しいカスタム音声をトレーニングすることができます。 カスタム音声の作成は、サービスの既存の音声の 1 つをカスタマイズすることとは異なります。 カスタム音声は、お客様が提供する音声トレーニング・データに基づく固有の新しい音声です。 IBM は、わずか 1 時間のトレーニング・データでカスタム音声をトレーニングできます。
カスタム音声を要求するか、詳細情報を入手するには、この IBM 要求フォームに入力して送信します。