IBM Cloud Docs
语言和声音

语言和声音

IBM Watson® Text to Speech 服务支持各种语言、声音和方言。 对于不同的语言,该服务提供女性声音和/或男性声音。 每种声音会针对其方言使用相应的节奏和语调。

所有服务的声音都使用神经语音技术。 神经语音技术使用深层神经网络 (DNN) 来预测语音的声学(谱)特征。 DNN 通过自然的人声进行训练,并根据预测的声学特征生成相应的音频。 在合成期间,DNN 会预测语音的音高和音位持续时间(韵律)、谱结构和波形。 神经语音产生的语音清晰明了,音质自然、流畅、稳定。

支持的语言和声音

该服务提供三种不同质量和功能的语音:

  • 自然嗓音在自然度和表现力方面具有先进的性能。 与表现型语音相比,这些语音使用各种技术来提供优势。 有关所有自然语音的列表,请参阅 自然语音
  • 表达神经声音 提供了异常清晰且清晰的自然语音。 它们的发音和拐点是自然的和对话的,由此产生的语音在单词之间提供了极平滑的过渡。 它们还支持使用不可用于增强神经声音的其他功能。 有关所有表达声音的列表,请参阅 表达神经声音
  • 增强的神经声音 可实现高度自然发声的语音,并支持大多数服务功能。 有关所有增强型神经声音的列表,请参阅 增强型神经声音

以下页面提供有关声音及其技术的更多信息:

按语音类型划分的语言支持

表 1 按语音类型显示了服务对语言的支持。 以下主题列出了每种语音类型的可用语言和声音。

按语音类型提供语言支持
语言 自然之声 表达神经声音 增强的神经声音
荷兰语
(荷兰)
English
(英国)
英语
(澳大利亚)
英语
(美国)
法语
(加拿大)
法语
(法国)
德语
意大利语
日语
韩语
葡萄牙语
(巴西)
西班牙语
(Castilian)
西班牙语
(拉丁美洲)
西班牙语
(南美)

自然之声

表 2 列出并提供了所有可用自然语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM CloudIBM Cloud Pak for Data、、IBM Software Hub,还是全部三种(未提及产品版本)。

自然语言和语音
语言 可用性 声音/性别 音频样本
英语
(美国)
GA en-US_EllieNatural
女性

表达神经声音

表 3 列出并提供了所有可用的表情神经声音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM CloudIBM Cloud Pak for Data、、IBM Software Hub,还是全部三种(未提及产品版本)。

  • 表现力神经声音支持其他类型的声音不可用的其他功能。 这些功能包括附加的说话风格,自动强调的插词以及指定词的强调。 有关更多信息,请参阅 使用表现力神经声音修改语音合成
  • 与 SSML <prosody> 元素配合使用时,表达声音仅支持 ratepitch 属性的百分比值。 有关更多信息,请参阅 <prosody> 元素

表现力神经声音从上下文中确定情绪,并自动使用适当的调音来适应文本。 要产生最自然的韵律,表现力神经声音需要考虑一个句子的所有单词和短语的上下文。 因此,表达声音的计算密集型,比其他类型的声音具有稍高的等待时间。 使用表现力语音的合成请求的初始响应可能需要一小部分时间 (例如,几百毫秒) 才能到达。 完成请求的总响应时间也更长。

要最大程度地缩短表达语音的等待时间和响应时间,请尽可能使用较短的句子。

富有表现力的神经语言和声音
语言 可用性 声音/性别 音频样本
英语
(澳大利亚)
GA en-AU_HeidiExpressive
女性
GA en-AU_JackExpressive
英语
(美国)
GA en-US_AllisonExpressive
女性
GA en-US_EmmaExpressive
女性
GA en-US_LisaExpressive
女性
GA en-US_MichaelExpressive
English
(英国)
GA en-GB_GeorgeExpressive
葡萄牙语
(巴西)
GA pt-BR_LucasExpressive
西班牙语
(拉丁美洲)
GA es-LA_DanielaExpressive
女性

增强的神经声音

表 4 列出并提供了所有可用的增强型神经语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM CloudIBM Cloud Pak for Data或全部三种(未引用产品版本)。 IBM Software Hub 还是全部三种(未提及产品版本)。

增强的神经语言和语音
语言 可用性 声音/性别 音频样本
荷兰语
(荷兰)
Beta nl-NL_MerelV3Voice
女性
English
(英国)
GA en-GB_CharlotteV3Voice
女性
GA en-GB_JamesV3Voice
GA en-GB_KateV3Voice
女性
英语
(美国)
GA en-US_AllisonV3Voice
女性
GA en-US_EmilyV3Voice
女性
GA en-US_HenryV3Voice
GA en-US_KevinV3Voice
GA en-US_LisaV3Voice
女性
GA en-US_MichaelV3Voice
GA en-US_OliviaV3Voice
女性
法语
(加拿大)
GA fr-CA_LouiseV3Voice
女性
法语
(法国)
GA fr-FR_NicolasV3Voice
GA fr-FR_ReneeV3Voice
女性
德语 GA de-DE_BirgitV3Voice
女性
GA de-DE_DieterV3Voice
GA de-DE_ErikaV3Voice
女性
意大利语 GA it-IT_FrancescaV3Voice
女性
日语 GA ja-JP_EmiV3Voice
女性
韩语 GA ko-KR_JinV3Voice
女性
葡萄牙语
(巴西)
GA pt-BR_IsabelaV3Voice
女性
西班牙语
(Castilian)
GA es-ES_EnriqueV3Voice
GA es-ES_LauraV3Voice
女性
西班牙语
(拉丁美洲)
GA es-LA_SofiaV3Voice
女性
西班牙语
(北美)
GA es-US_SofiaV3Voice
女性

拉丁美洲和北美西班牙语的 Sofia 声音是基本相同的声音。 这两种声音最重要的差异是如何解释 $(美元符号)。 拉丁美洲版本使用比索,北美版本使用多拉。 除此之外,这两个声音之间还可能存在其他较小的差异。

创建定制模型

合成文本时,服务会应用与语言相关的发音规则,将每个词的普通拼读转换为音标拼读。 服务的发音规则对于普通词非常适用,但是对于异常词(例如,外来词、人名、缩写或首字母缩略词),这些规则生成的结果可能并不理想。 如果您的应用的词汇中包含此类词,那么可以使用定制接口来指定服务如何对此类词发音。

定制模型是词及其翻译的字典。 You create a custom model for a specific language, not for a specific voice. 因此,定制模型可与其指定语言中的任何声音一起使用。 例如,为 en-US 语言创建的定制模型可以用于任何美国英语声音。 但是,它不能与 en-GBen-AU 语音一起使用。

定制可用于所有语言。 所有声音都支持使用标准国际音标 (IPA) 和 IBM 符号音标 (SPR) 音标符号进行词定制。 有关更多信息,请参阅了解定制

创建定制语音

IBM Cloud

高级客户可与 IBM 合作,为其特定使用案例和目标市场培训新的定制语音。 创建定制声音与定制服务的某个现有声音不同。 定制语音是基于客户提供的音频训练数据的唯一新语音。IBM 可以使用仅 1 小时的训练数据来训练定制语音。

要请求定制声音或获取更多信息,请填写并提交此 IBM 请求表单