用法常见问题
IBM Watson® Text to Speech的常见问题包括有关语音合成、支持的语言、音频格式和其他主题的问题。 要查找 IBM Cloud®的所有常见问题及解答,请参阅 常见问题及解答库。
如何访问服务凭证?
访问服务凭证的方式取决于您是将 Text to Speech 与 IBM Cloud® 还是 IBM Cloud Pak® for Data配合使用。 有关获取这两个版本的凭证的更多信息,请参阅入门教程中的 开始之前。
具有服务凭证后,请参阅以下主题以获取有关向服务进行认证的信息:
服务支持哪些语言?
Text to Speech服务支持各种口语的男声和女声:
- 该服务针对英语 (澳大利亚和美国) 提供 表达神经声音。
- 这些服务为荷兰语,英语 (英国和美国),法语 (加拿大和法国),德语,意大利语,日语,韩语,葡萄牙语 (巴西) 和西班牙语 (Castilian,拉丁美洲和北美) 提供 增强型神经声音。
某些语言和声音仅适用于 IBM Cloud®,而不适用于 IBM Cloud Pak® for Data。 有关所有语言的可用声音的更多信息,请参阅语言和声音。
服务如何合成音频?
Text to Speech 服务提供依赖神经技术将文本合成为语音的声音。 将文本合成为语音的主题本质上十分复杂。 有关更多信息,请参阅
输出音频格式有哪些?
缺省情况下,Text to Speech 服务使用 Opus 编码解码器 (audio/ogg;codecs=opus
) 返回 Ogg 格式的音频。该服务支持许多其他音频格式,以满足您的应用程序需求。 有关更多信息,请参阅 支持的音频格式。
如何将文本转换为语音?
要向服务提交文本以获取合成音频输出,请发出 HTTP 或 WebSocket 请求。 您可以直接使用 API,也可以使用其中一个 Watson SDK。 入门提供了 HTTP POST /v1/synthesize
和 GET /v1/synthesize
方法的示例。 API 和 SDK 参考资料显示了所有接口和方法的示例。
没有用于提交文本的图形用户界面。 请参阅 "Text to Speech演示,试用该服务的运行示例。 该演示接受少量文本作为输入以生成不同声音的语音。
可以更改服务解释输入文本并生成合成音频的方式吗?
您可以使用语音合成标记语言 (SSML) 来控制合成过程的各个方面,例如发音、音量、音高、语速和其他属性。 您还可以使用 "Tune by Example" 功能来定制定制提示的韵律,音调和节奏,以更好地满足您的应用程序需求。
可以使用哪些编程语言?
服务支持许多常用编程语言的 SDK,并支持在许多常用平台中使用这些 SDK。
- 有关 SDK 以及 GitHub 上 SDK 的链接的更多信息,请参阅 WatsonSDK。
- 有关Text to Speech服务 SDK 所有方法的更多信息,请参阅 API 和 SDK 参考资料。
可以提交供合成的最大文本量是多少?
对于使用服务的每种方法发出的语音合成请求,可以提交的最大文本量如下:
- HTTP
GET /v1/synthesize
方法 - 总输入量的最大大小为 8 KB,其中包括输入文本、SSML、URL 和头。 - HTTP
POST /v1/synthesize
方法 - URL 和头的最大大小为 8 KB。 输入文本的最大大小为 5 KB,包括 SSML。 - WebSocket
/v1/synthesize
方法 - 输入文本的最大大小为 5 KB,包括 SSML。
输入的所有字符(包括空格和 SSML 元素中所含的字符)都将计入数据最大大小。 对于计费目的,空格字符不会计入。 有关更多信息,请参阅数据限制。
定制是如何运作的?
通过 Text to Speech 服务的定制接口,可为特定语言创建词及其转换项的字典。 此字典称为定制模型。 有关更多信息,请参阅了解定制。
如何创建定制模型?
在开始之前,请查看有关使用定制接口的准则。 然后,请参阅创建和管理定制模型中创建、查询、更新和删除定制模型的步骤及示例。 另请查看创建和管理定制条目,以获取有关添加相关训练数据的示例和指南。
我可以创建定制语音吗?
IBM Cloud
作为高级客户,您可以使用 IBM 为特定用例和目标市场训练新的定制语音。 创建定制声音与定制服务的某个现有声音不同。 定制语音是基于客户提供的音频训练数据的唯一新语音。IBM 可以使用仅 1 小时的训练数据来训练定制语音。
要请求定制声音或获取更多信息,请填写并提交此 IBM 请求表单。
如何使用 "Tune by Example" 功能?
“按示例调整”使您能够准确控制服务所讲的指定文本的方式。 提供文本和语音音频以向定制模型添加定制提示。 口语音频可以强调不同的音节或单词,介绍停顿,一般会使合成的音频声音更自然,适合其语境。 当您合成提示时,服务会将记录的语音的质量与其声音重复。
您可以通过创建包含演讲者声音样本的可选演讲者模型来进一步增强提示的质量。 该服务利用样本音频在语音上训练自己,这可以帮助它为该扬声器生成更高质量的提示。
有关更多信息,请参阅 通过示例了解 Tune。
定制模型存在哪些限制?
以下限制适用于所有自定义模型:
- 一个定制条目中的一个词最多可包含 49 个字符。
- 一个定制条目中的一个转换项最多可包含 499 个字符。
- 一个定制模型最多可包含 20,000 个定制条目。
- 自定义模型最多可包含 1000 个自定义提示。
有关更多信息,请参阅用于创建定制条目的规则。
在哪里可以找到计划和定价信息?
IBM Cloud
Text to Speech 服务提供多个定价套餐。 有关定价的更多信息,请参阅 IBM Cloud 目录 中的 Text to Speech 服务。