语言和声音

IBM Watson® Text to Speech 服务支持各种语言、声音和方言。对于不同的语言，该服务提供女性声音和/或男性声音。每种声音会针对其方言使用相应的节奏和语调。

所有服务的声音都使用神经语音技术。神经语音技术使用深层神经网络 (DNN) 来预测语音的声学（谱）特征。 DNN 通过自然的人声进行训练，并根据预测的声学特征生成相应的音频。在合成期间，DNN 会预测语音的音高和音位持续时间（韵律）、谱结构和波形。神经语音产生的语音清晰明了，音质自然、流畅、稳定。

支持的语言和声音

该服务提供三种不同质量和功能的语音：

自然嗓音在自然度和表现力方面具有先进的性能。与表现型语音相比，这些语音使用各种技术来提供优势。有关所有自然语音的列表，请参阅自然语音。
表达神经声音 提供了异常清晰且清晰的自然语音。它们的发音和拐点是自然的和对话的，由此产生的语音在单词之间提供了极平滑的过渡。它们还支持使用不可用于增强神经声音的其他功能。有关所有表达声音的列表，请参阅表达神经声音。
增强的神经声音 可实现高度自然发声的语音，并支持大多数服务功能。有关所有增强型神经声音的列表，请参阅增强型神经声音。

以下页面提供有关声音及其技术的更多信息:

有关介绍表达声音的博客，请参阅您的对话式 AI 是否设置了正确的语气?。
有关服务的神经语音技术的更多信息，请参阅服务背后的科学。

按语音类型划分的语言支持

表 1 按语音类型显示了服务对语言的支持。以下主题列出了每种语音类型的可用语言和声音。

按语音类型提供语言支持
语言	自然之声	表达神经声音	增强的神经声音
荷兰语 (荷兰)			✔
English （英国）		✔	✔
英语 (澳大利亚)		✔
英语（美国）	✔	✔	✔
法语 (加拿大)			✔
法语 (法国)			✔
德语			✔
意大利语			✔
日语			✔
韩语			✔
葡萄牙语 (巴西)		✔	✔
西班牙语 (Castilian)			✔
西班牙语 (拉丁美洲)		✔	✔
西班牙语 (南美)			✔

自然之声

表 2 列出并提供了所有可用自然语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。该列还显示每个声音是否可用于 IBM Cloud，IBM Cloud Pak for Data、、IBM Software Hub，还是全部三种（未提及产品版本）。

自然语言和语音
语言	可用性	声音/性别	音频样本
英语（美国）	GA	`en-US_EllieNatural` 女性

表达神经声音

表 3 列出并提供了所有可用的表情神经声音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。该列还显示每个声音是否可用于 IBM Cloud，IBM Cloud Pak for Data、、IBM Software Hub，还是全部三种（未提及产品版本）。

表现力神经声音支持其他类型的声音不可用的其他功能。这些功能包括附加的说话风格，自动强调的插词以及指定词的强调。有关更多信息，请参阅使用表现力神经声音修改语音合成。
与 SSML <prosody> 元素配合使用时，表达声音仅支持 rate 和 pitch 属性的百分比值。有关更多信息，请参阅 <prosody> 元素。

表现力神经声音从上下文中确定情绪，并自动使用适当的调音来适应文本。要产生最自然的韵律，表现力神经声音需要考虑一个句子的所有单词和短语的上下文。因此，表达声音的计算密集型，比其他类型的声音具有稍高的等待时间。使用表现力语音的合成请求的初始响应可能需要一小部分时间 (例如，几百毫秒) 才能到达。完成请求的总响应时间也更长。

要最大程度地缩短表达语音的等待时间和响应时间，请尽可能使用较短的句子。

富有表现力的神经语言和声音
语言	可用性	声音/性别
英语 (澳大利亚)	GA	`en-AU_HeidiExpressive` 女性
	GA	`en-AU_JackExpressive` 男
英语（美国）	GA	`en-US_AllisonExpressive` 女性
	GA	`en-US_EmmaExpressive` 女性
	GA	`en-US_LisaExpressive` 女性
	GA	`en-US_MichaelExpressive` 男
English （英国）	GA	`en-GB_GeorgeExpressive` 男
葡萄牙语 (巴西)	GA	`pt-BR_LucasExpressive` 男
西班牙语 (拉丁美洲)	GA	`es-LA_DanielaExpressive` 女性

增强的神经声音

表 4 列出并提供了所有可用的增强型神经语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。该列还显示每个声音是否可用于 IBM Cloud，IBM Cloud Pak for Data或全部三种（未引用产品版本）。 IBM Software Hub 还是全部三种（未提及产品版本）。

增强的神经语言和语音
语言	可用性	声音/性别
荷兰语 (荷兰)	Beta	`nl-NL_MerelV3Voice` 女性
English （英国）	GA	`en-GB_CharlotteV3Voice` 女性
	GA	`en-GB_JamesV3Voice` 男
	GA	`en-GB_KateV3Voice` 女性
英语（美国）	GA	`en-US_AllisonV3Voice` 女性
	GA	`en-US_EmilyV3Voice` 女性
	GA	`en-US_HenryV3Voice` 男
	GA	`en-US_KevinV3Voice` 男
	GA	`en-US_LisaV3Voice` 女性
	GA	`en-US_MichaelV3Voice` 男
	GA	`en-US_OliviaV3Voice` 女性
法语 (加拿大)	GA	`fr-CA_LouiseV3Voice` 女性
法语 (法国)	GA	`fr-FR_NicolasV3Voice` 男
	GA	`fr-FR_ReneeV3Voice` 女性
德语	GA	`de-DE_BirgitV3Voice` 女性
	GA	`de-DE_DieterV3Voice` 男
	GA	`de-DE_ErikaV3Voice` 女性
意大利语	GA	`it-IT_FrancescaV3Voice` 女性
日语	GA	`ja-JP_EmiV3Voice` 女性
韩语	GA	`ko-KR_JinV3Voice` 女性
葡萄牙语 (巴西)	GA	`pt-BR_IsabelaV3Voice` 女性
西班牙语 (Castilian)	GA	`es-ES_EnriqueV3Voice` 男
	GA	`es-ES_LauraV3Voice` 女性
西班牙语 (拉丁美洲)	GA	`es-LA_SofiaV3Voice` 女性
西班牙语 (北美)	GA	`es-US_SofiaV3Voice` 女性

拉丁美洲和北美西班牙语的 Sofia 声音是基本相同的声音。这两种声音最重要的差异是如何解释 $（美元符号）。拉丁美洲版本使用比索，北美版本使用多拉。除此之外，这两个声音之间还可能存在其他较小的差异。

创建定制模型

合成文本时，服务会应用与语言相关的发音规则，将每个词的普通拼读转换为音标拼读。服务的发音规则对于普通词非常适用，但是对于异常词（例如，外来词、人名、缩写或首字母缩略词），这些规则生成的结果可能并不理想。如果您的应用的词汇中包含此类词，那么可以使用定制接口来指定服务如何对此类词发音。

定制模型是词及其翻译的字典。 You create a custom model for a specific language, not for a specific voice. 因此，定制模型可与其指定语言中的任何声音一起使用。例如，为 en-US 语言创建的定制模型可以用于任何美国英语声音。但是，它不能与 en-GB 或 en-AU 语音一起使用。

定制可用于所有语言。所有声音都支持使用标准国际音标 (IPA) 和 IBM 符号音标 (SPR) 音标符号进行词定制。有关更多信息，请参阅了解定制。

创建定制语音

IBM Cloud

高级客户可与 IBM 合作，为其特定使用案例和目标市场培训新的定制语音。创建定制声音与定制服务的某个现有声音不同。定制语音是基于客户提供的音频训练数据的唯一新语音。IBM 可以使用仅 1 小时的训练数据来训练定制语音。

要请求定制声音或获取更多信息，请填写并提交此 IBM 请求表单。