言語と音声

IBM Watson® Text to Speech サービスは、さまざまな言語、音声、方言をサポートしています。異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。音声ごとに、方言に応じた抑揚とイントネーションが使用されます。

サービスの音声はすべてニューラル音声テクノロジーを使用します。ニューラル音声テクノロジーは、複数のディープ・ニューラル・ネットワーク (DNN) を使用して、発話の音響 (スペクトル) 特性を予測します。 DNN は、自然な人間の発話を使用したトレーニングを受けて、予測される音響特性から音声を生成します。合成の際に、DNN はピッチと音素持続時間 (韻律)、スペクトル構造、および発話の波形を予測します。ニューラル音声は、非常に自然に聞こえる、滑らかで一貫性のある音声品質を使用して、鮮明でクリアなスピーチを生成します。

サポートされる言語と音声

このサービスでは、品質と能力の異なる3種類の音声を提供している：

ナチュラルボイスは、自然さと表現力の面で高度なパフォーマンスを提供する。これらの声は、様々なテクニックを駆使してエクスプレッシブ・ヴォイスよりも優位に立つ。すべてのナチュラル・ボイスのリストは、ナチュラル・ボイスを参照。
Expressive neural voices は、非常に明確で明瞭な自然に聞こえる音声を提供します。発音と屈折は自然で会話型であり、結果としての音声は単語間の極めてスムーズな遷移を提供します。また、拡張ニューラル音声では使用できない追加機能の使用もサポートします。すべての表現可能な音声のリストについては、表現可能なニューラル音声を参照してください。
拡張されたニューラル音声 は、高度な自然に聞こえる音声を実現し、ほとんどのサービス機能をサポートします。拡張されたすべてのニューラル音声のリストについては、拡張ニューラル音声を参照してください。

以下のページには、音声とそのテクノロジーに関する詳細情報が記載されています。

表現的な音声を紹介するブログについては、会話型 AI が適切なトーンを設定していますか?を参照してください。
サービスのニューラル音声テクノロジーについて詳しくは、サービスを支えるサイエンスを参照してください。

音声のタイプ別の言語サポート

表 1 は、サービスの言語サポートを音声のタイプ別に示しています。以下のトピックでは、音声タイプごとに使用可能な言語と音声をリストします。

音声タイプ別言語サポート
言語	自然の声	表現力のあるニューラル音声	拡張されたニューラル音声
オランダ語 (オランダ)			✔
英語 (カナダ)	✔
英語 (英国)	✔	✔	✔
英語 (オーストラリア)		✔
英語 (米国)	✔	✔	✔
フランス語 (カナダ)			✔
フランス語 (フランス)			✔
ドイツ語			✔
イタリア語			✔
日本語			✔
韓国語			✔
ポルトガル語 (ブラジル)	✔	✔	✔
スペイン語 (カスティリャ)			✔
スペイン語 (ラテン・アメリカ)		✔	✔
スペイン語 (南米)			✔

自然の声

表 2 に、利用可能なすべてのナチュラルボイスのリストと音声サンプルを示します。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。また、各音声が利用可能かどうかを示す列もあります。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub、またはその3つすべて（製品バージョンは記載なし）で利用可能であるかどうかが示されています。

自然言語と音声
言語	可用性	音声/性別
英語 (カナダ)	GA	`en-CA_HannahNatural` 女性
英語 (英国)	GA	`en-GB_ChloeNatural` 女性
英語 (英国)	GA	`en-GB_GeorgeNatural` 男性
英語 (米国)	GA	`en-US_EllieNatural` 女性
英語 (米国)	GA	`en-US_EmmaNatural` 女性
英語 (米国)	GA	`en-US_EthanNatural` 男性
英語 (米国)	GA	`en-US_JacksonNatural` 男性
英語 (米国)	GA	`en-US_VictoriaNatural` 女性
ポルトガル語 (ブラジル)	GA	`pt-BR_LucasNatural` 男性
ポルトガル語 (ブラジル)	GA	`pt-BR_CamilaNatural` 女性

表現力のあるニューラル音声

表3は、利用可能なすべての表現力豊かな神経音声のリストと音声サンプルである。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。また、各音声が利用可能かどうかを示す列もあります。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub、またはその3つすべて（製品バージョンは記載なし）で利用可能であるかどうかが示されています。

表現型ニューラル音声は、他のタイプの音声では使用できない追加機能をサポートします。これらの機能には、追加のスピーキング・スタイル、インタージェクションの自動強調、および指定された単語の強調が含まれます。詳しくは、感情表出ニューラル音声による音声合成の変更を参照してください。
SSML の <prosody> 要素とともに使用する場合、式を表現する音声でサポートされるのは、 rate 属性と pitch 属性のパーセンテージ値のみです。詳しくは、 <prosody> エレメントを参照してください。

感情表現のニューラル音声は、コンテキストから感情を判別し、テキストに適合する適切なイントネーションを自動的に使用します。最も自然な響きのある、表現に富んだニューラル・ボイスを作成するには、センテンスのすべての単語および句のコンテキストを考慮する必要があります。そのため、表現能力の高い音声は、他のタイプの音声よりも計算主体であり、待ち時間が若干長くなります。表現的な音声を使用する合成要求に対する最初の応答は、到着までに数秒かかる場合があります (例えば、数百ミリ秒)。要求が完了するまでの合計応答時間も長くなります。

表現力のある音声の待ち時間と応答時間を最小化するには、可能な限り短い文を使用してください。

表現力豊かな神経言語と音声
言語	可用性	音声/性別
英語 (オーストラリア)	GA	`en-AU_HeidiExpressive` 女性
	GA	`en-AU_JackExpressive` 男性
英語 (米国)	GA	`en-US_AllisonExpressive` 女性
	GA	`en-US_EmmaExpressive` 女性
	GA	`en-US_LisaExpressive` 女性
	GA	`en-US_MichaelExpressive` 男性
英語 (英国)	GA	`en-GB_GeorgeExpressive` 男性
ポルトガル語 (ブラジル)	GA	`pt-BR_LucasExpressive` 男性
スペイン語 (ラテン・アメリカ)	GA	`es-LA_DanielaExpressive` 女性

拡張されたニューラル音声

表4は、利用可能なすべてのエンハンスド・ニューラル音声のリストと音声サンプルである。 「可用性」 列には、各音声が実動用またはベータ用に一般出荷可能 (GA) であるかどうかが示されます。また、各音声が利用可能かどうかを示す列もあります。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub またはその3つすべて（製品バージョンは記載なし）で利用可能であるかどうかが示されています。

強化された神経言語と音声
言語	可用性	音声/性別
オランダ語 (オランダ)	ベータ	`nl-NL_MerelV3Voice` 女性
英語 (英国)	GA	`en-GB_CharlotteV3Voice` 女性
	GA	`en-GB_KateV3Voice` 女性
英語 (米国)	GA	`en-US_AllisonV3Voice` 女性
	GA	`en-US_EmilyV3Voice` 女性
	GA	`en-US_HenryV3Voice` 男性
	GA	`en-US_KevinV3Voice` 男性
	GA	`en-US_LisaV3Voice` 女性
	GA	`en-US_MichaelV3Voice` 男性
	GA	`en-US_OliviaV3Voice` 女性
フランス語 (カナダ)	GA	`fr-CA_LouiseV3Voice` 女性
フランス語 (フランス)	GA	`fr-FR_NicolasV3Voice` 男性
	GA	`fr-FR_ReneeV3Voice` 女性
ドイツ語	GA	`de-DE_BirgitV3Voice` 女性
	GA	`de-DE_DieterV3Voice` 男性
	GA	`de-DE_ErikaV3Voice` 女性
イタリア語	GA	`it-IT_FrancescaV3Voice` 女性
日本語	GA	`ja-JP_EmiV3Voice` 女性
韓国語	GA	`ko-KR_JinV3Voice` 女性
ポルトガル語 (ブラジル)	GA	`pt-BR_IsabelaV3Voice` 女性
スペイン語 (カスティリャ)	GA	`es-ES_EnriqueV3Voice` 男性
	GA	`es-ES_LauraV3Voice` 女性
スペイン語 (ラテン・アメリカ)	GA	`es-LA_SofiaV3Voice` 女性
スペイン語 (北米)	GA	`es-US_SofiaV3Voice` 女性

スペイン語の中南米と北米の Sofia の音声は、本質的に同じ音声です。この 2 つの音声の最も大きな違いは、$ (ドル記号) の解釈方法です。ラテン・アメリカ・バージョンではペソという用語が使用され、北アメリカ・バージョンではドレという用語が使用されます。他にもこの 2 つの音声には小さな違いが存在します。

カスタム・モデルの作成

テキストから音声合成を行うときには、サービスは言語依存の発音ルールを適用して、各単語の通常のつづりを表音つづりに変換します。サービスの発音ルールは一般的な単語には十分に機能しますが、外来語、人名、略語、頭文字などの一般的でない単語には十分に機能しないことがあります。アプリケーションの語彙にそのような単語が含まれている場合は、カスタマイズ・インターフェースを使用して、サービスにどのように単語を発音させるかを指定できます。

カスタム・モデルは、単語とその翻訳の辞書です。カスタム・モデルは、特定の音声用ではなく、特定の言語用に作成します。そのため、カスタム・モデルは、指定された言語のすべての音声で使用できます。例えば、en-US 言語用に作成するカスタム・モデルは、米国英語のすべての音声で使用できます。ただし、en-GBまたはen-AU音声で使用することはできません。

カスタマイズはすべての言語で使用できます。すべての音声は、単語のカスタマイズのために標準の International Phonetic Alphabet (IPA) と IBM Symbolic Phonetic Representation (SPR) 表音記号の両方の使用をサポートしています。詳しくは、カスタマイズの理解を参照してください。

カスタム音声の作成

IBM Cloud

プレミアムのお客様は、 IBM で作業して、特定のユース・ケースとターゲット・マーケット向けに新しいカスタム音声をトレーニングすることができます。カスタム音声の作成は、サービスの既存の音声の 1 つをカスタマイズすることとは異なります。カスタム音声は、お客様が提供する音声トレーニング・データに基づく固有の新しい音声です。 IBM は、わずか 1 時間のトレーニング・データでカスタム音声をトレーニングできます。

カスタム音声を要求するか、詳細情報を入手するには、この IBM 要求フォームに入力して送信します。