IBM Cloud Docs
关于 Text to Speech

关于 Text to Speech

IBM Watson® Text to Speech 服务提供的API利用 IBM 的语音合成功能将书面文字转换为听起来自然的语音。 服务会以最短的延迟将合成音频流式返回给客户机。 音频将相应的节奏和语调用于其语言和方言,形成流畅而自然的语音。

此服务可用于多种应用程序,例如,语音自动化聊天机器人以及各种语音驱动和无屏幕应用程序,例如,针对残疾人或视力障碍人士的工具、视频旁白和画外音,以及教育和住宅自动化解决方案。 它适用于以音频为首选输出方法的任何应用程序。

产品版本

Text to Speech 可以部署为受管云服务,也可以安装在本地。 本文档描述如何使用这两个版本的产品。 仅适用于一个版本的主题,段落和示例等信息明确表示:

语音合成

Text to Speech 服务支持使用 HTTP 和 WebSocket 接口来进行语音合成。 这两个接口都接受纯文本和使用基于 XML 的语音合成标记语言 (SSML) 标记的文本。 WebSocket 接口还可以生成有关音频文字的计时信息。 欲了解更多信息,请参阅以下服务功能:

定制

服务提供了一个定制接口,可用于指定服务如何念出输入文本中出现的异常词。 您可以定义定制模型以包含应用程序词汇中词的字典。 有关更多信息,请参阅服务功能中的定制服务

通过“按示例调整”功能,您还可以向定制模型添加定制提示。 定制提示可让您支配神韵,服务使用该神韵讲用户指定的提示。 有关更多信息,请参阅服务功能部件中的 使用 Tune by Example

语言支持

该服务提供神经声音,以多种语言和方言将文本合成为语音:

  • 荷兰语 (荷兰)
  • 英语(澳大利亚、英国和美国方言)
  • 法语 (加拿大和法国方言)
  • 德语
  • 意大利语
  • 日语
  • 韩语
  • 葡萄牙语(巴西)
  • 西班牙语(卡斯蒂利亚、拉丁美洲和北美方言)

对于不同的语言,该服务提供女性声音和/或男性声音。 有关受支持的语言和声音,服务为每种语言提供的声音类型及其两个服务版本的状态的更多信息,请参阅 语言和声音

音频支持

该服务可生成多种流行格式的音频:

  • A-law
  • 基本音频
  • 自由无损音频编码解码器 (FLAC)
  • 线性 16 位脉冲编码调制 (PCM)
  • MP3(或 MPEG)
  • mu-law(或 u-law)
  • 使用 Opus 或 Vorbis 编码解码器的 Ogg 或 Web 媒体 (WebM) 音频
  • 波形音频文件格式 (WAV)

不同格式支持不同的采样率和其他特征。 有关更多信息,请参阅 使用音频格式

Beta 功能

IBM 偶尔会发布分类为 Beta 的功能和语言支持。 提供了此类功能部件,以便您可以评估其功能。 它们可能不稳定,可随时更改或在短时间内移除。 它们并非旨在用于生产环境中。

测试版功能部件可能无法提供与一般可用功能部件相同的性能或兼容性级别。 一般可用的功能部件可供在生产环境中使用。

定价

IBM Cloud

该服务提供多种定价套餐,以满足您的使用和应用需求。 有关定价套餐或购买套餐的更多信息,请参阅 IBM Cloud® 目录中的 Text to Speech 服务。