语言和声音
IBM Watson® Text to Speech 服务支持各种语言、声音和方言。 对于不同的语言,该服务提供女性声音和/或男性声音。 每种声音会针对其方言使用相应的节奏和语调。
所有服务的声音都使用神经语音技术。 神经语音技术使用深层神经网络 (DNN) 来预测语音的声学(谱)特征。 DNN 通过自然的人声进行训练,并根据预测的声学特征生成相应的音频。 在合成期间,DNN 会预测语音的音高和音位持续时间(韵律)、谱结构和波形。 神经语音产生的语音清晰明了,音质自然、流畅、稳定。
支持的语言和声音
该服务提供三种不同质量和功能的语音:
- 自然嗓音在自然度和表现力方面具有先进的性能。 与表现型语音相比,这些语音使用各种技术来提供优势。 有关所有自然语音的列表,请参阅 自然语音。
- 表达神经声音 提供了异常清晰且清晰的自然语音。 它们的发音和拐点是自然的和对话的,由此产生的语音在单词之间提供了极平滑的过渡。 它们还支持使用不可用于增强神经声音的其他功能。 有关所有表达声音的列表,请参阅 表达神经声音。
- 增强的神经声音 可实现高度自然发声的语音,并支持大多数服务功能。 有关所有增强型神经声音的列表,请参阅 增强型神经声音。
以下页面提供有关声音及其技术的更多信息:
- 有关介绍表达声音的博客,请参阅 您的对话式 AI 是否设置了正确的语气?。
- 有关服务的神经语音技术的更多信息,请参阅 服务背后的科学。
按语音类型划分的语言支持
表 1 按语音类型显示了服务对语言的支持。 以下主题列出了每种语音类型的可用语言和声音。
语言 | 自然之声 | 表达神经声音 | 增强的神经声音 |
---|---|---|---|
荷兰语 (荷兰) |
✔ | ||
English (英国) |
✔ | ✔ | |
英语 (澳大利亚) |
✔ | ||
英语 (美国) |
✔ | ✔ | ✔ |
法语 (加拿大) |
✔ | ||
法语 (法国) |
✔ | ||
德语 | ✔ | ||
意大利语 | ✔ | ||
日语 | ✔ | ||
韩语 | ✔ | ||
葡萄牙语 (巴西) |
✔ | ✔ | |
西班牙语 (Castilian) |
✔ | ||
西班牙语 (拉丁美洲) |
✔ | ✔ | |
西班牙语 (南美) |
✔ |
自然之声
表 2 列出并提供了所有可用自然语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM Cloud,IBM Cloud Pak for Data、、IBM Software Hub,还是全部三种(未提及产品版本)。
语言 | 可用性 | 声音/性别 | 音频样本 |
---|---|---|---|
英语 (美国) |
GA | en-US_EllieNatural 女性 |
表达神经声音
表 3 列出并提供了所有可用的表情神经声音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM Cloud,IBM Cloud Pak for Data、、IBM Software Hub,还是全部三种(未提及产品版本)。
- 表现力神经声音支持其他类型的声音不可用的其他功能。 这些功能包括附加的说话风格,自动强调的插词以及指定词的强调。 有关更多信息,请参阅 使用表现力神经声音修改语音合成。
- 与 SSML
<prosody>
元素配合使用时,表达声音仅支持rate
和pitch
属性的百分比值。 有关更多信息,请参阅<prosody>
元素。
表现力神经声音从上下文中确定情绪,并自动使用适当的调音来适应文本。 要产生最自然的韵律,表现力神经声音需要考虑一个句子的所有单词和短语的上下文。 因此,表达声音的计算密集型,比其他类型的声音具有稍高的等待时间。 使用表现力语音的合成请求的初始响应可能需要一小部分时间 (例如,几百毫秒) 才能到达。 完成请求的总响应时间也更长。
要最大程度地缩短表达语音的等待时间和响应时间,请尽可能使用较短的句子。
语言 | 可用性 | 声音/性别 | 音频样本 |
---|---|---|---|
英语 (澳大利亚) |
GA | en-AU_HeidiExpressive 女性 |
|
GA | en-AU_JackExpressive 男 |
||
英语 (美国) |
GA | en-US_AllisonExpressive 女性 |
|
GA | en-US_EmmaExpressive 女性 |
||
GA | en-US_LisaExpressive 女性 |
||
GA | en-US_MichaelExpressive 男 |
||
English (英国) |
GA | en-GB_GeorgeExpressive 男 |
|
葡萄牙语 (巴西) |
GA | pt-BR_LucasExpressive 男 |
|
西班牙语 (拉丁美洲) |
GA | es-LA_DanielaExpressive 女性 |
增强的神经声音
表 4 列出并提供了所有可用的增强型神经语音的音频样本。 可用性 列指示每个声音是一般可用于生产用途 (GA) 还是用于 Beta。 该列还显示每个声音是否可用于 IBM Cloud,IBM Cloud Pak for Data或全部三种(未引用产品版本)。 IBM Software Hub 还是全部三种(未提及产品版本)。
语言 | 可用性 | 声音/性别 | 音频样本 |
---|---|---|---|
荷兰语 (荷兰) |
Beta | nl-NL_MerelV3Voice 女性 |
|
English (英国) |
GA | en-GB_CharlotteV3Voice 女性 |
|
GA | en-GB_JamesV3Voice 男 |
||
GA | en-GB_KateV3Voice 女性 |
||
英语 (美国) |
GA | en-US_AllisonV3Voice 女性 |
|
GA | en-US_EmilyV3Voice 女性 |
||
GA | en-US_HenryV3Voice 男 |
||
GA | en-US_KevinV3Voice 男 |
||
GA | en-US_LisaV3Voice 女性 |
||
GA | en-US_MichaelV3Voice 男 |
||
GA | en-US_OliviaV3Voice 女性 |
||
法语 (加拿大) |
GA | fr-CA_LouiseV3Voice 女性 |
|
法语 (法国) |
GA | fr-FR_NicolasV3Voice 男 |
|
GA | fr-FR_ReneeV3Voice 女性 |
||
德语 | GA | de-DE_BirgitV3Voice 女性 |
|
GA | de-DE_DieterV3Voice 男 |
||
GA | de-DE_ErikaV3Voice 女性 |
||
意大利语 | GA | it-IT_FrancescaV3Voice 女性 |
|
日语 | GA | ja-JP_EmiV3Voice 女性 |
|
韩语 | GA | ko-KR_JinV3Voice 女性 |
|
葡萄牙语 (巴西) |
GA | pt-BR_IsabelaV3Voice 女性 |
|
西班牙语 (Castilian) |
GA | es-ES_EnriqueV3Voice 男 |
|
GA | es-ES_LauraV3Voice 女性 |
||
西班牙语 (拉丁美洲) |
GA | es-LA_SofiaV3Voice 女性 |
|
西班牙语 (北美) |
GA | es-US_SofiaV3Voice 女性 |
拉丁美洲和北美西班牙语的 Sofia
声音是基本相同的声音。 这两种声音最重要的差异是如何解释 $(美元符号)。 拉丁美洲版本使用比索,北美版本使用多拉。 除此之外,这两个声音之间还可能存在其他较小的差异。
创建定制模型
合成文本时,服务会应用与语言相关的发音规则,将每个词的普通拼读转换为音标拼读。 服务的发音规则对于普通词非常适用,但是对于异常词(例如,外来词、人名、缩写或首字母缩略词),这些规则生成的结果可能并不理想。 如果您的应用的词汇中包含此类词,那么可以使用定制接口来指定服务如何对此类词发音。
定制模型是词及其翻译的字典。 You create a custom model for a specific language, not for a specific voice. 因此,定制模型可与其指定语言中的任何声音一起使用。 例如,为 en-US
语言创建的定制模型可以用于任何美国英语声音。 但是,它不能与 en-GB
或 en-AU
语音一起使用。
定制可用于所有语言。 所有声音都支持使用标准国际音标 (IPA) 和 IBM 符号音标 (SPR) 音标符号进行词定制。 有关更多信息,请参阅了解定制。
创建定制语音
IBM Cloud
高级客户可与 IBM 合作,为其特定使用案例和目标市场培训新的定制语音。 创建定制声音与定制服务的某个现有声音不同。 定制语音是基于客户提供的音频训练数据的唯一新语音。IBM 可以使用仅 1 小时的训练数据来训练定制语音。
要请求定制声音或获取更多信息,请填写并提交此 IBM 请求表单。