IBM Cloud Docs
言語と音声

言語と音声

IBM Watson® Text to Speech サービスは、さまざまな言語、音声、方言をサポートしています。 異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。 音声ごとに、方言に応じた抑揚とイントネーションが使用されます。

サービスの音声はすべてニューラル音声テクノロジーを使用します。 ニューラル音声テクノロジーは、複数のディープ・ニューラル・ネットワーク (DNN) を使用して、発話の音響 (スペクトル) 特性を予測します。 DNN は、自然な人間の発話を使用したトレーニングを受けて、予測される音響特性から音声を生成します。 合成の際に、DNN はピッチと音素持続時間 (韻律)、スペクトル構造、および発話の波形を予測します。 ニューラル音声は、非常に自然に聞こえる、滑らかで一貫性のある音声品質を使用して、鮮明でクリアなスピーチを生成します。

サポートされる言語と音声

このサービスでは、品質と能力の異なる3種類の音声を提供している:

  • ナチュラルボイスは、自然さと表現力の面で高度なパフォーマンスを提供する。 これらの声は、様々なテクニックを駆使してエクスプレッシブ・ヴォイスよりも優位に立つ。 すべてのナチュラル・ボイスのリストは、 ナチュラル・ボイスを 参照。
  • Expressive neural voices は、非常に明確で明瞭な自然に聞こえる音声を提供します。 発音と屈折は自然で会話型であり、結果としての音声は単語間の極めてスムーズな遷移を提供します。 また、拡張ニューラル音声では使用できない追加機能の使用もサポートします。 すべての表現可能な音声のリストについては、 表現可能なニューラル音声 を参照してください。
  • 拡張されたニューラル音声 は、高度な自然に聞こえる音声を実現し、ほとんどのサービス機能をサポートします。 拡張されたすべてのニューラル音声のリストについては、 拡張ニューラル音声 を参照してください。

以下のページには、音声とそのテクノロジーに関する詳細情報が記載されています。

音声のタイプ別の言語サポート

表 1 は、サービスの言語サポートを音声のタイプ別に示しています。 以下のトピックでは、音声タイプごとに使用可能な言語と音声をリストします。

音声タイプ別言語サポート
言語 自然の声 表現力のあるニューラル音声 拡張されたニューラル音声
オランダ語
(オランダ)
英語
(カナダ)
英語
(英国)
英語
(オーストラリア)
英語
(米国)
フランス語
(カナダ)
フランス語
(フランス)
ドイツ語
イタリア語
日本語
韓国語
ポルトガル語
(ブラジル)
スペイン語
(カスティリャ)
スペイン語
(ラテン・アメリカ)
スペイン語
(南米)

自然の声

表 2 に、利用可能なすべてのナチュラルボイスのリストと音声サンプルを示します。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。 また、各音声が利用可能かどうかを示す列もあります。 IBM CloudIBM Cloud Pak for DataIBM Software Hub、またはその3つすべて(製品バージョンは記載なし)で利用可能であるかどうかが示されています。

自然言語と音声
言語 可用性 音声/性別 音声サンプル
英語
(カナダ)
GA en-CA_HannahNatural
女性
英語
(英国)
GA en-GB_ChloeNatural
女性
英語
(英国)
GA en-GB_GeorgeNatural
男性
英語
(米国)
GA en-US_EllieNatural
女性
英語
(米国)
GA en-US_EmmaNatural
女性
英語
(米国)
GA en-US_EthanNatural
男性
英語
(米国)
GA en-US_JacksonNatural
男性
英語
(米国)
GA en-US_VictoriaNatural
女性
ポルトガル語
(ブラジル)
GA pt-BR_LucasNatural
男性
ポルトガル語
(ブラジル)
GA pt-BR_CamilaNatural
女性

表現力のあるニューラル音声

表3は、利用可能なすべての表現力豊かな神経音声のリストと音声サンプルである。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。 また、各音声が利用可能かどうかを示す列もあります。 IBM CloudIBM Cloud Pak for DataIBM Software Hub、またはその3つすべて(製品バージョンは記載なし)で利用可能であるかどうかが示されています。

  • 表現型ニューラル音声は、他のタイプの音声では使用できない追加機能をサポートします。 これらの機能には、追加のスピーキング・スタイル、インタージェクションの自動強調、および指定された単語の強調が含まれます。 詳しくは、 感情表出ニューラル音声による音声合成の変更 を参照してください。
  • SSML の <prosody> 要素とともに使用する場合、式を表現する音声でサポートされるのは、 rate 属性と pitch 属性のパーセンテージ値のみです。 詳しくは、 <prosody> エレメント を参照してください。

感情表現のニューラル音声は、コンテキストから感情を判別し、テキストに適合する適切なイントネーションを自動的に使用します。 最も自然な響きのある、表現に富んだニューラル・ボイスを作成するには、センテンスのすべての単語および句のコンテキストを考慮する必要があります。 そのため、表現能力の高い音声は、他のタイプの音声よりも計算主体であり、待ち時間が若干長くなります。 表現的な音声を使用する合成要求に対する最初の応答は、到着までに数秒かかる場合があります (例えば、数百ミリ秒)。 要求が完了するまでの合計応答時間も長くなります。

表現力のある音声の待ち時間と応答時間を最小化するには、可能な限り短い文を使用してください。

表現力豊かな神経言語と音声
言語 可用性 音声/性別 音声サンプル
英語
(オーストラリア)
GA en-AU_HeidiExpressive
女性
GA en-AU_JackExpressive
男性
英語
(米国)
GA en-US_AllisonExpressive
女性
GA en-US_EmmaExpressive
女性
GA en-US_LisaExpressive
女性
GA en-US_MichaelExpressive
男性
英語
(英国)
GA en-GB_GeorgeExpressive
男性
ポルトガル語
(ブラジル)
GA pt-BR_LucasExpressive
男性
スペイン語
(ラテン・アメリカ)
GA es-LA_DanielaExpressive
女性

拡張されたニューラル音声

表4は、利用可能なすべてのエンハンスド・ニューラル音声のリストと音声サンプルである。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。 また、各音声が利用可能かどうかを示す列もあります。 IBM CloudIBM Cloud Pak for DataIBM Software Hub またはその3つすべて(製品バージョンは記載なし)で利用可能であるかどうかが示されています。

強化された神経言語と音声
言語 可用性 音声/性別 音声サンプル
オランダ語
(オランダ)
ベータ nl-NL_MerelV3Voice
女性
英語
(英国)
GA en-GB_CharlotteV3Voice
女性
GA en-GB_KateV3Voice
女性
英語
(米国)
GA en-US_AllisonV3Voice
女性
GA en-US_EmilyV3Voice
女性
GA en-US_HenryV3Voice
男性
GA en-US_KevinV3Voice
男性
GA en-US_LisaV3Voice
女性
GA en-US_MichaelV3Voice
男性
GA en-US_OliviaV3Voice
女性
フランス語
(カナダ)
GA fr-CA_LouiseV3Voice
女性
フランス語
(フランス)
GA fr-FR_NicolasV3Voice
男性
GA fr-FR_ReneeV3Voice
女性
ドイツ語 GA de-DE_BirgitV3Voice
女性
GA de-DE_DieterV3Voice
男性
GA de-DE_ErikaV3Voice
女性
イタリア語 GA it-IT_FrancescaV3Voice
女性
日本語 GA ja-JP_EmiV3Voice
女性
韓国語 GA ko-KR_JinV3Voice
女性
ポルトガル語
(ブラジル)
GA pt-BR_IsabelaV3Voice
女性
スペイン語
(カスティリャ)
GA es-ES_EnriqueV3Voice
男性
GA es-ES_LauraV3Voice
女性
スペイン語
(ラテン・アメリカ)
GA es-LA_SofiaV3Voice
女性
スペイン語
(北米)
GA es-US_SofiaV3Voice
女性

スペイン語の中南米と北米の Sofia の音声は、本質的に同じ音声です。 この 2 つの音声の最も大きな違いは、$ (ドル記号) の解釈方法です。 ラテン・アメリカ・バージョンではペソという用語が使用され、北アメリカ・バージョンではドレという用語が使用されます。 他にもこの 2 つの音声には小さな違いが存在します。

カスタム・モデルの作成

テキストから音声合成を行うときには、サービスは言語依存の発音ルールを適用して、各単語の通常のつづりを表音つづりに変換します。 サービスの発音ルールは一般的な単語には十分に機能しますが、外来語、人名、略語、頭文字などの一般的でない単語には十分に機能しないことがあります。 アプリケーションの語彙にそのような単語が含まれている場合は、カスタマイズ・インターフェースを使用して、サービスにどのように単語を発音させるかを指定できます。

カスタム・モデルは、単語とその翻訳の辞書です。 カスタム・モデルは、特定の音声用ではなく、特定の言語用に作成します。 そのため、カスタム・モデルは、指定された言語のすべての音声で使用できます。 例えば、en-US 言語用に作成するカスタム・モデルは、米国英語のすべての音声で使用できます。 ただし、en-GBまたはen-AU音声で使用することはできません。

カスタマイズはすべての言語で使用できます。 すべての音声は、単語のカスタマイズのために標準の International Phonetic Alphabet (IPA) と IBM Symbolic Phonetic Representation (SPR) 表音記号の両方の使用をサポートしています。 詳しくは、カスタマイズの理解を参照してください。

カスタム音声の作成

IBM Cloud

プレミアムのお客様は、 IBM で作業して、特定のユース・ケースとターゲット・マーケット向けに新しいカスタム音声をトレーニングすることができます。 カスタム音声の作成は、サービスの既存の音声の 1 つをカスタマイズすることとは異なります。 カスタム音声は、お客様が提供する音声トレーニング・データに基づく固有の新しい音声です。 IBM は、わずか 1 時間のトレーニング・データでカスタム音声をトレーニングできます。

カスタム音声を要求するか、詳細情報を入手するには、この IBM 要求フォームに入力して送信します。