IBM Cloud Docs
Text to Speech for IBM Cloud 的发行说明

Text to Speech for IBM Cloud 的发行说明

IBM Cloud

托管在IBM Cloud上的IBM Watson® Text to Speech受管实例或托管在 IBM Cloud Pak for Data as a Service 上的实例的每个版本和更新都包含以下功能和更改。 除非另有说明,否则所有更改都与较早的发行版兼容,并且会自动、透明地可供所有新应用程序和现有应用程序使用。

有关服务的已知限制的信息,请参阅 已知限制

有关 IBM Cloud Pak for Data的服务发行版和更新的信息,请参阅 IBM Cloud Pak for Data 的 Text to Speech 发行说明

2025年2月17日

巴西葡萄牙语男性表达性神经声音

该服务现在支持巴西葡萄牙语中新的男性表达性神经语音:

  • pt-BR_LucasExpressive

表现力神经声音提供清晰,清脆,流畅的自然发声语音。 新语音一般可供生产使用 (GA)。 它支持使用标准的国际音标(IPA)和 "IBM符号音标(SPR)。 有关更多信息,请参阅

2024 年 12 月 09 日

新的英国英语男性表情神经语音

该服务现在支持一种新的英国英语男性表达神经语音:

  • en-GB_GeorgeExpressive

表现力神经声音提供清晰,清脆,流畅的自然发声语音。 新语音一般可供生产使用 (GA)。 它支持使用标准的国际音标(IPA)和 "IBM符号音标(SPR)。 有关更多信息,请参阅

2024 年 5 月 15 日

新的拉丁美洲西班牙语女性表现神经语音

该服务现在支持拉丁美洲西班牙语的新女性表现力神经语音

  • es-LA_DanielaExpressive

表现力神经声音提供清晰,清脆,流畅的自然发声语音。 新语音一般可供生产使用 (GA)。 它支持使用标准的国际音标(IPA)和 "IBM符号音标(SPR)。 有关更多信息,请参阅

2024 年 1 月 16 日

针对美国英语表达声音的 Text to Speech 改进
当您使用美国英语表达声音时,合成速度更快,延迟更低。
缺陷修复:在短语中使用问号 (?) 时的语气问题
缺陷修订: 当某些简短话语以问号 (?) 结束时,将忽略拐点。 这个问题现已解决。

2023 年 11 月 30 日

针对 V 3 声音改进了 Text to Speech 合成引擎
改进了 Text to Speech 引擎,以提供更快的合成,降低版本 3 声音的等待时间。
改进Text to Speech en-AU_HeidiExpressive
改进了Text to Speech en-AU_HeidiExpressive,可以调整音调和合成。

9 2023 年 6 月

缺陷修复:TTS 不再因错误信息 "[Errno 2]No such file or directory "而失败
缺陷修复: 在使用带有 websockets 的 TTS 时,不再会因错误信息 "[Errno 2]No such file or directory "而失败

2023 年 5 月 18 日

缺陷修订: 添加了对荷兰语语音上缺少 SSML 功能的支持
缺陷修订: 使用荷兰语语音时,所有受支持的 SSML 功能现在都按设计工作。 以前,使用荷兰语语音时,某些 SSML 功能不起作用。
缺陷修订: 使用音素标记时,现在遵循逗号
缺陷修订: 在 SSML 中使用音素标记时,逗号 (暂停) 现在按预期工作。 以前,当逗号在带有音素标记的文本之前或之后时,将忽略暂停。

6 2023 年 4 月

更新 Beta 荷兰语增强神经语音
缺陷修订: Beta 荷兰语 nl-NL_MerelV3Voice 已针对内部修订和改进进行了更新。 2023 年 3 月 31 日服务更新 中描述的语音首次发布的限制仍然适用。

2023 年 3 月 31 日

重要信息: 所有神经声音的服务结束

重要信息: 所有神经声音都已到达其服务结束日期,并且已从服务和文档中除去。 增强神经或表达神经的声音不会受到影响。 有关所有过时神经语音的完整列表,请参阅 2023 年 3 月 1 日的服务更新。 尝试使用过时的语音会返回HTTP响应代码 404 和信息 "Model '{voice}' not found

新的增强神经和表达神经声音可用于澳大利亚英语,韩语和荷兰语荷兰语。 您必须迁移到澳大利亚英语、韩语或荷兰语的新语音之一,才能继续使用过时的语言。

有关更多信息,请参阅

2023 年 3 月 22 日

新测试版荷兰语增强神经语音

该服务现在支持荷兰语的新增强型神经女性语音: nl-NL_MerelV3Voice。 它支持使用标准的国际音标(IPA)和 "IBM符号音标(SPR)。

在完成对 SSML 的支持之前,新语音是测试版功能。 在最初发布时,语音不支持使用以下与 SSML 相关的功能:

  • 具有任何语音合成请求的 <prosody> 元素
  • 带有任何语音合成请求的 rate_percentagepitch_percentage 参数
  • 具有 WebSocket 语音合成请求的 <mark> 元素
  • 具有 WebSocket 语音合成请求的 JSON 文本消息的 timings 参数

有关新语音,其对 IPA 和 SPR 符号的支持以及从不推荐的荷兰语神经语音迁移到新语音的更多信息,请参阅

缺陷修订: 更新文档中的韩国语音标符号

缺陷修复: 在韩语 SPR 符号的文档中,辅音的双字符符号现在用单引号括起来,使其成为一个符号。 以前,它们显示为两个独立的符号,不带引号。 有关更多信息,请参阅 Consonants(韩国语)

IBM SPR 符号的文档更新

IBM SPR 符号的概述文档已更新,以阐明多字符符号的使用。 有关更多信息,请参阅 语音符号

1 2023 年 3 月

重要信息: 所有神经声音的暂挂服务结束

要点:2023 年 3 月 31 日起,所有神经声音都将到达其服务结束日期,并且将从服务和文档中除去。 自 2022 年 3 月 31 日以来,已不推荐使用神经声音。 不会影响增强的神经或表现力神经声音。

删除以下神经声音

  • 阿拉伯语: ar-MS_OmarVoice
  • 中文(普通话):zh-CN_LiNaVoicezh-CN_WangWeiVoice,以及 zh-CN_ZhangJingVoice
  • 捷克语: cs-CZ_AlenaVoice
  • 荷兰语 (比利时语): nl-BE_AdeleVoicenl-BE_BramVoice
  • 荷兰语(荷兰):nl-NL_EmmaVoice,以及 nl-NL_LiamVoice
  • 英语 (澳大利亚语): en-AU_CraigVoiceen-AU_MadisonVoiceen-AU_SteveVoice
  • 韩国语: ko-KR_HyunjunVoiceko-KR_SiWooVoiceko-KR_YoungmiVoiceko-KR_YunaVoice
  • 瑞典语: sv-SE_IngridVoice

澳大利亚英语和韩语已经有了新的增强神经和表达神经声音。 在未来几周内,荷兰语将推出新的增强型神经语音。 您必须在 2023 年 3 月 31 日之前迁移到澳大利亚英语,韩语或荷兰语的其中一个新声音。

有关更多信息,请参阅

2023 年 2 月 27 日

全新澳大利亚英语表现力神经语音

该服务现在为澳大利亚英语支持两种新的表达神经声音 (男性和女性):

  • en-AU_HeidiExpressive
  • en-AU_JackExpressive

有表现力的神经声音提供了异常清晰,清脆和流畅的自然发声的语音。 新声音(GA)通常可用于生产。 They support the use of both the standard International Phonetic Alphabet (IPA) and IBM Symbolic Phonetic Representation (SPR) phonetic symbols. 有关更多信息,请参阅

您可以从不推荐使用的澳大利亚英语神经声音迁移到新的表达神经声音。 有关更多信息,请参阅

新的韩国语增强神经语音

该服务现在支持针对韩国语的新的增强型神经女性语音: ko-KR_JinV3Voice。 新语音一般可供生产使用 (GA)。 它支持使用标准的国际音标(IPA)和 "IBM符号音标(SPR)。 有关更多信息,请参阅

您可以从不推荐使用的韩国语神经语音迁移到新的增强型神经语音。 有关更多信息,请参阅

缺陷修订: 加拿大法语语音现在正确处理数字时间

缺陷修复: 法语和加拿大语音现在能正确发音 19:41 这样的时间。 以前,声音在合成音频中省略了当时的元素。

缺陷修订: 日语语音不再插入意外音频

缺陷修订: 日语语音不再在语音合成结果中插入意外的音频。 以前,在某些情况下会插入其他音频。

2023 年 1 月 20 日

Cloud Foundry 弃用并迁移到资源组

IBM宣布于 2022 年 5 月 31 日淘汰IBM Cloud Foundry。 自 2022 年 11 月 30 日起,新的IBM无法创建Cloud Foundry应用程序,只有现有用户才能部署应用程序。IBM Cloud Foundry将于 2023 年 6 月 1 日结束支持。 然后,任何IBM运行IBM的Cloud Foundry应用程序运行时实例。Cloud Foundry应用程序将被永久禁用、解除配置并删除。

要在 2023 年 6 月 1 日之后继续使用IBM Cloud应用程序,必须在该日期之前迁移到资源组。 资源组在概念上类似于Cloud Foundry空间。 它们还提供一些额外的好处,例如通过 IBM Cloud Identity and Access Management (IAM)进行更精细的访问控制,能够将服务实例连接到不同区域的应用和服务,以及查看每个组使用情况的简便方法。

缺陷修订: 使用 <say-as> 元素指定大基数不再导致英语声音发生错误

缺陷修订: 现在可以使用 <say-as> 元素将大数发音为基数。 以前,在 <say-as> 元素中用属性 interpret-as="cardinal" 括住一个大数字可能会导致英语语音合成失败。 例如,<say-as interpret-as="cardinal">3,200</say-as> 可能会导致服务生成错误。 有关更多信息,请参阅主题 SSML 元素中的 cardinal

缺陷修复: 谐音和其他单词现在被英语声音正确发音

缺陷修订: 现在,服务会根据要合成的英语文本中的上下文来正确发音谐音和其他词。 以前,advocatewifi 等单词可能会被英语语音读错。

2022 年 11 月 30 日

缺陷修订: 添加定制模型命名文档的规则
缺陷修订: 该文档现在提供了用于命名定制模型的详细规则。 有关更多信息,请参阅

7 2022 年 10 月

该服务现在实施更严格的 SSML 验证
该服务现在对包含语音合成标记语言 (SSML) 元素的输入文本实施更严格的验证。 必须使用有效值指定必需的属性元素。 否则,请求将失败并返回 400 错误代码。 有关 SSML 验证以及市场营销文本必须满足的需求的更多信息,请参阅 SSML 验证
缺陷修复:en-US_MichaelExpressive 语音的性别现在正确了
缺陷修订: 当您列出有关可用声音的信息时,en-US_MichaelExpressive 声音的 gender 现在为 male。 以前,声音的性别被错误地描述为 female。 有关更多信息,请参阅 列出有关声音的信息

2022 年 9 月 23 日

新美式英语表现力神经语音

该服务为美式英语提供四种新的表达神经声音:

  • en-US_AllisonExpressive
  • en-US_EmmaExpressive
  • en-US_LisaExpressive
  • en-US_MichaelExpressive

有表现力的神经声音提供了异常清晰,清脆和流畅的自然发声的语音。 新声音(GA)通常可用于生产。 They support the use of both the standard International Phonetic Alphabet (IPA) and IBM Symbolic Phonetic Representation (SPR) phonetic symbols. 有关更多信息,请参阅

用于表达神经声音的新说话风格

表现力神经声音从其单词和短语的上下文中决定文本的情绪。 他们的发言除了具有对话风格外,还反映了文章的情绪。 但你可以通过表示全部或部分文本来修饰声音的自然倾向,来强调下列其中一种说话风格:

  • 欢乐-表示幸福和好消息。
  • 同情-表示同情或同情。
  • 中性-表示客观性和均衡性。
  • 不确定-表示混淆或不确定。

有关更多信息,请参阅 使用讲话样式

使用表现性神经声音的新注入强调

借助表现力神经声音,服务会根据上下文自动检测一组常见的猜想。 当它合成这些猜想时,它给它们带来了人类在正常对话中所使用的自然强调。 对于某些推测,可以使用 SSML 来启用或禁用其强调。 有关更多信息,请参阅 强调拒绝

用富有表现力的神经声音强调新词

表现力声音使用对话式风格,从上下文中自然地应用正确的调音。 但你可以表明,一个或多个词要或多或少地强调。 应力的变化可以通过音高,定时,音量或其他声学属性的增加或减少来指示。 有关更多信息,请参阅 强调单词

2022 年 9 月 21 日

用于删除用户信息的 GDPR 的新 Activity Tracker 事件
现在,当您使用 DELETE /v1/user_data 方法来删除有关用户的所有信息时,该服务将返回 Activity Tracker 事件。 事件名为 text-to-speech.gdpr-user-data.delete。 有关更多信息,请参阅 Activity Tracker 事件
缺陷修订: 定制词翻译现在在所有情况下都接受逗号
缺陷修订: 添加到定制模型的 Word 翻译现在在所有情况下都接受逗号。 以前,翻译中的逗号偶尔会导致翻译在用于语音合成时无法生成有效音频。 此问题已在美国英语定制模型中识别。
缺陷修订: 现在,日期的法语合成是一致的
缺陷修订: 法语合成不再包含格式为“monthordinal”的日期之前的文章 "le"。 此前,该文章仅被收录在当月第一天的法语 (例如,"9 月第一","le first septembre")。
在 Safari 浏览器上使用 Ogg 音频格式的已知限制
默认情况下,该服务以 Ogg 音频格式和 Opus 编解码器 audio/ogg;codecs=opus) 返回音频。但是,Safari 浏览器不支持 Ogg 音频格式。 如果您在 Safari 浏览器上使用Text to Speech服务,则必须指定不同的格式,以便服务返回音频。

2022 年 8 月 31 日

用于控制全局话语率的新 Beta rate_percentage 查询参数
该服务提供了新的 rate_percentage 查询参数,用于修改语音合成请求的发言速率。 说话速率是服务将其合成为语音的文本说话的速度。 更高的速率会使文本被讲得更快; 更低的速率会使文本被讲得更慢。 此参数将更改整个请求的按语音缺省速率。 有关更多信息,请参阅 修改发言速率
用于控制全局演讲间距的新 Beta pitch_percentage 查询参数
该服务提供了新的 pitch_percentage 查询参数,用于修改合成请求的演讲间距。 说话间距表示服务合成的语音的语气。 它代表了听者感知到的声音的音色有多高或有多低。 更高的音高会导致以更高的语气说话,被认为是更高的声音; 更低的音高会导致以更低的语气说话,被认为是更低的声音。 该参数将更改整个请求的按语音缺省间距。 有关更多信息,请参阅 修改演讲稿
缺陷修订: 改进了日语合成以处理输入文本的长字符串
缺陷修订: 服务现在正确合成包含长字符串字符的日语请求。 此前,该服务无法正确合成长串日文文本。
SSML <prosody> 元素的文档更新
已改进并澄清 SSML <prosody> 元素及其 pitchrate 参数的文档。 它现在还包含服务与最新版本的 SSML 规范之间差异的描述。 有关更多信息,请参阅 <prosody> 元素

2022 年 8 月 3 日

该服务不支持多语言语音合成
该服务目前不支持多语言语音合成。 但是,您可以使用定制来近似其他语言的单词发音。 有关更多信息,请参阅 多语言语音合成

2022 年 7 月 27 日

德语声音的新 Beta spell_out_mode 参数
要指示如何拼写字符串的各个字符,现在可以将 Beta spell_out_mode 查询参数与德语语音的合成请求一起包含。 缺省情况下,服务会以它为语言合成文本的相同速率来拼写各个字符。 您可以使用此参数来指示服务更慢速地将各个字符拼成一组,分为一个,两个或三个字符。 将该参数与 SSML <say-as> 元素配合使用,以控制如何合成字符串的字符。 有关更多信息,请参阅 指定如何拼写字符串

2022 年 5 月 25 日

audio/alaw 音频格式的新支持
支持的音频格式列表现在包括 audio/alaw;rate={rate}。 与 audio/basicaudio/mulaw 一样,这种格式提供单声道音频,使用8位u-law(或mu-law)数据编码,采样率为8 kHz。 有关更多信息,请参阅 使用音频格式

2022 年 5 月 19 日

缺陷修订: 现在已正确解析多个连续 SSML <phoneme> 标记
缺陷修订: 服务现在正确合成包含连续 <phoneme> 标记的文本。 先前,如果文本包含两个或多个连续的 <phoneme> 标记,那么服务仅合成第一个标记,而忽略其他标记。

2022 年 3 月 31 日

重要信息: 废弃所有神经声音

重要信息:2022 年 3 月 31 日开始,不推荐使用所有神经声音。 在 2023 年 3 月 31 日之前,不推荐的声音仍可供现有用户使用,此时将从服务和文档中除去这些声音。 不推荐使用增强的神经声音或表达声音。

现在不推荐使用以下神经声音:

  • 阿拉伯语: ar-MS_OmarVoice
  • 中文(普通话):zh-CN_LiNaVoicezh-CN_WangWeiVoice,以及 zh-CN_ZhangJingVoice
  • 捷克语: cs-CZ_AlenaVoice
  • 荷兰语 (比利时语): nl-BE_AdeleVoicenl-BE_BramVoice
  • 荷兰语(荷兰):nl-NL_EmmaVoice,以及 nl-NL_LiamVoice
  • 英语 (澳大利亚语): en-AU_CraigVoiceen-AU_MadisonVoiceen-AU_SteveVoice
  • 韩国语: ko-KR_HyunjunVoiceko-KR_SiWooVoiceko-KR_YoungmiVoiceko-KR_YunaVoice
  • 瑞典语: sv-SE_IngridVoice

不推荐使用的神经声音仍可供现有用户使用,但不再可供新用户使用:

  • 现有用户:2022 年 3 月 31 日 之前创建的服务实例可以继续使用不推荐的声音进行语音合成。 这些实例还可用于创建和处理基于已废弃语音的自定义模型。 他们可以继续使用 GET /v1/voicesGET /v1/voices/{voice} 方法列出和查询声音。
  • 新用户: 2022 年 3 月 31 日或之后创建的服务实例不能使用已废弃的语音合成。 这些实例也不能用于创建基于已废弃语音的自定义模型。 它们无法使用 GET /v1/voicesGET /v1/voices/{voice} 方法列出或查询声音。 任何包含已废弃语音的 API 调用都会返回HTTP错误代码 400 或 404,具体取决于调用的内容。

澳大利亚英语,荷兰语和韩语的新声音将于 2023 年 2 月 15 日发布。 如果您使用的是澳大利亚英语,荷兰语或韩语声音,那么 API 调用将自动重定向到该语言的新声音。 阿拉伯语,汉语,捷克语,瑞典语和佛兰芒语的声音将被取消服务。

如需了解所有可用语言和语音的更多信息,请参阅 语言和语音

已从文档中除去不推荐使用的标准声音

标准连接语音已于 2020 年 12 月 2 日 废弃。 这些标准声音现在已从 API 引用中除去。 还从页面 语言和声音 中除去了主题 从标准声音迁移到神经声音

同样,同时不推荐使用阿拉伯语语音 ar-AR_OmarVoice 的先前名称。 它也已从文档中除去。 请改为使用语音 ar-MS_OmarVoice

2022 年 2 月 28 日

更改 WebSocket 接口的字计时响应

当您使用WebSocket接口请求单词定时时,服务发送的响应对象发生了变化。 现在,服务会在包含后跟两个浮点数的字符串的单个数组中发送字计时结果:

{
  "words": [
    ["Hello", 0.0, 0.259],
    ["world", 0.259, 0.532]
  ]
}

服务先前将计时结果作为数组发送,该数组包含由两个浮点数组成的数组后面的字符串:

{
  "words": [
    ["Hello", [0.0629826778195474, 0.2590192737303819]],
    ["world", [0.2598829173456253, 0.5322130804452672]]
  ]
}

另外,单词计时和标记的精度级别现在降低到小数点后三位。 有关新响应的更多信息,请参阅 生成词计时

注: 增强神经和神经声音的结果先前有所不同。 这些不一致可能会导致Watson出错。SDK 的错误。 现在,所有声音的结果都是一致的。

2022 年 1 月 26 日

缺陷修订: 改进 SSML 文档
缺陷修订: 更新了 SSML 文档以更正以下错误:
  • <break> 元素的示例现在正确。 此元素是一元元素,如示例中所示。 先前的示例包括具有嵌入式文本的打开和关闭标记。 服务未讲嵌入式文本。 有关更多信息,请参阅 <break> 元素
  • 该服务支持 SSML V 1.1。 所有引用和示例现在都使用正确的版本。 先前引用了 V 1.0的文档。

3 2021 年 12 月

新的捷克语神经语音: cs-CZ_AlenaVoice

现在有一种新的语言,捷克语,新的女声 cs-CZ_AlenaVoice。 语音是神经语音。

全新比利时荷兰语神经语音: nl-BE_BramVoice

比利时荷兰语 (Flemish) 的新男性声音 nl-BE_BramVoice 现已发布。 语音是神经语音。

缺陷修订: 改进 SSML 和语音合成

缺陷修订: 使用此发行版修订了语音合成标记语言 (SSML) 和语音合成的以下缺陷:

  • 现在,<prosody> 元素的 pitch 属性将应用于所有指定的文本。 以前,音高变化并不总是应用于受影响文本的第一个词。 此外,文档中现在包含了更多关于指定 pitch 值的指导。 有关更多信息,请参阅 pitch 属性
  • 日语文本的语音合成现在讲音频的速度比较慢。 此前,合成的演讲讲得太快了。 如果您发现日语文本的合成对于应用程序来说仍然太快,请使用 SSML <prosody> 元素的 rate 属性来控制语音速率。 有关更多信息,请参阅 rate 属性
  • 现在,神经声音正确解析转义撇号字符 (&apos;)。 此前,一些神经声音并没有正确解读这个角色。

2021 年 10 月 22 日

多重神经语音改进
针对中文,荷兰语 (比利时和荷兰),澳大利亚英语和韩语的现有神经声音进行了更新,以改进语音合成和增强音频结果。 有关所有可用声音的更多信息,请参阅语言和声音
新澳式英语神经语音: en-AU_SteveVoice
现在有一个新的澳大利亚男性英语语音 en-AU_SteveVoice。 语音是神经语音。
新的瑞典语神经语音: sv-SE_IngridVoice
现在有一种新的语言,瑞典语,新的女声 sv-SE_IngridVoice。 语音是神经语音。

6 2021 年 10 月

针对达拉斯位置的 Premium 套餐提供新的美国 HIPAA 支持
现在,美国医疗保险可移植性和责任法案 (HIPAA) 支持可用于在达拉斯 (us-south) 位置托管的高级套餐。 更多信息,请参阅 《健康保险携带和责任法案》(HIPAA )。
缺陷修复: 改善拉美西班牙语增强神经语音
缺陷修订: 对于拉丁美洲西班牙语语音 (es-LA_SofiaV3Voice),所有类型的问题现在都使用正确的调音。

2021 年 9 月 16 日

缺陷修复: 改善卡斯蒂利亚西班牙语和北美西班牙语增强神经声音
缺陷修订: 对于卡斯蒂利亚西班牙语 (es-ES_EnriqueV3Voicees-ES_LauraV3Voice) 和北美西班牙语 (es-US_SofiaV3Voice) 声音,所有类型的问题现在都使用正确的调音。 对于拉丁美洲西班牙语语音 (es-LA_SofiaV3Voice),某些问题不使用正确的音调和声音,而是像语句一样。 拉丁美洲西班牙语语音即将修复。

2021 年 7 月 16 日

全新比利时荷兰语神经语音: nl-BE_AdeleVoice
该服务现在支持使用神经语音 nl-BE_AdeleVoice 的比利时荷兰语 (Flemish)。 比利时荷兰语语音支持定制,一般可供生产使用 (GA)。

2021 年 4 月 12 日

新增加拿大法语增强神经语音: fr-CA_LouiseV3Voice

该服务现在支持使用增强型神经语音 fr-CA_LouiseV3Voice 的加拿大法语。 加拿大法语语音支持定制,一般可供生产使用 (GA)。

新建“按示例调整”功能部件

新的“按示例调整”功能使您能够控制服务如何使用指定的文本。 该功能是测试版功能,仅支持美式英语自定义模型和语音。 它有两个组件:

  • 定制提示 包括要使用的书面文本和录制的音频,这些音频在您想要听到文本时使用该文本。 音频指定合成文本的音调,节奏和压力。 提示可以强调不同的音节或单词,引入暂停,一般会使合成的音频声音更自然,更适合它的上下文。
  • 说话者模型 为讲一个或多个提示的用户提供注册音频。 扬声器模型提供用户声音的音频样本。 该服务在语音上训练自己,这可以帮助它为该扬声器生成更高质量的提示。

使用语音合成请求指定定制提示,以指示服务的语音如何发音文本。 要指定提示,请使用 SSML 扩展 <ibm:prompt id="{prompt_id}"/>。 合成的音频重复了提示的韵律。

有关使用 "Tune by Example" 功能的更多信息,请参阅以下主题:

新建“调整为示例”方法

该服务包含八个用于使用 Tune by Example 功能部件的新方法。 下文对新方法的描述提供了这些方法在 API 和 SDK 参考资料中的链接。 您可能需要选择引用的 Curl 选项卡以查看新方法。

Activity Tracker 操作可用于所有新的 Tune by Example 事件。 有关更多信息,请参阅 按示例事件调整

更新 Activity Tracker 操作以进行定制

定制方法的 Activity Tracker 事件的操作名称已更改。 这些操作现在包含字符串 custom-model 而不是 custom-voice。 不推荐使用操作的旧名称。 旧名称仍可供使用,但将在将来移除。 尽早迁移到 定制事件 中列出的新名称。

创建事件 不推荐使用的操作名称-> 新建操作名称

  • text-to-speech.custom-voice.create -> text-to-speech.custom-model.create
  • text-to-speech.custom-voice-word-list.create -> text-to-speech.custom-model-word-list.create
  • text-to-speech.custom-voice-word.create -> text-to-speech.custom-model-word.create

读取事件 不推荐使用的操作名称-> 新建操作名称

  • text-to-speech.custom-voice-list.read -> text-to-speech.custom-model-list.read
  • text-to-speech.custom-voice.read -> text-to-speech.custom-model.read
  • text-to-speech.custom-voice-word-list.read -> text-to-speech.custom-model-word-list.read
  • text-to-speech.custom-voice-word.read -> text-to-speech.custom-model-word.read

更新事件 不推荐的操作名称-> 新建操作名称

  • text-to-speech.custom-voice.update -> text-to-speech.custom-model.update

删除事件 不推荐的操作名称-> 新建操作名称

  • text-to-speech.custom-voice.delete -> text-to-speech.custom-model.delete
  • text-to-speech.custom-voice-word.delete -> text-to-speech.custom-model-word.delete

2020 年 12 月 2 日

多重语音改进

服务所提供的声音发生了重大变化。 该服务支持新的语言和声音,提高了许多声音的质量,并且不推荐许多旧声音。 此外,所有语音服务现在都可以定制,并可在生产中普遍使用(GA)。

新的神经和增强的神经声音

为了优化语音合成的整体质量,现在所有可用的语音都基于神经技术。 该服务提供了两种基于神经技术的声音类型:

  • 神经声音( 在其名称中包含字符串 V3 ) 现在可用于阿拉伯语,澳大利亚英语,中文,荷兰语和韩国语。 神经声音支持将国际音标 (IPA) 与语音合成标记语言 (SSML) <phoneme> 元素配合使用。
  • 增强型神经声音(在其名称中包含字符串 V3 ) 现在可用于巴西葡萄牙语,英国和美国英语,法语,德语,意大利语,日语和西班牙语 (所有方言)。 增强的神经声音支持将 IPA 和 IBM 符号音标表示法 (SPR) 与 SSML <phoneme> 元素配合使用。 增强的神经声音也实现了稍高的自然发声程度。 在未来几个月内,还将推出进一步的定制功能,以增强神经语音功能。

服务不再提供任何语言的标准声音。 标准语音使用串联合成技术将录音片段组合在一起,生成所需的音频。

有关更多信息,请参阅语言和声音

新的澳大利亚英语和韩语神经声音

以下是澳大利亚英语和韩语的新声音:

  • 该服务现在支持具有以下两种神经声音的澳大利亚英语: en-AU_CraigVoiceen-AU_MadisonVoice
  • 该服务现在支持两种新的韩语神经声音: ko-KR_HyunjunVoiceko-KR_SiWooVoice
改进的神经声音

现有的阿拉伯语、汉语、荷兰语和韩语的语音都是串联的,现在都变成了神经语音:

  • ar-MS_OmarVoice
  • ko-KR_YoungmiVoice
  • ko-KR_YunaVoice
  • nl-NL_EmmaVoice
  • nl-NL_LiamVoice
  • zh-CN_LiNaVoice
  • zh-CN_WangWeiVoice
  • zh-CN_ZhangJingVoice

还做出了以下其他更改:

  • 阿拉伯语语音现在命名为 ar-MS_OmarVoice。 不推荐使用先前的名称 ar-AR_OmarVoice。 它将继续运行至少一年,但可能在将来某个日期被移除。 鼓励您尽早迁移到新名称。
  • 阿拉伯语现在支持将 IPA 符号和 Unicode 值与 SSML <phoneme> 元素配合使用。 要为阿拉伯语创建定制模型,必须使用语言标识 ar-MS。 定制不支持标识 ar-AR
  • 阿拉伯语的 IPA 符号是新的。 之前记录的符号已被替换。
  • 荷兰语的 IPA 符号已更改如下:
    • 荷兰语不再支持以下 IPA 符号: (0074+02B2),ɲ (0272),ʦ (02A6) 和 ʔ (0294)。
    • 荷兰语现在支持以下 IPA 符号: ɣ (0263)。
不推荐使用的标准声音

以下标准连接语音现已废弃:

  • de-DE_BirgitVoice
  • de-DE_DieterVoice
  • en-GB_KateVoice
  • en-US_AllisonVoice
  • en-US_LisaVoice
  • en-US_MichaelVoice
  • es-ES_EnriqueVoice
  • es-ES_LauraVoice
  • es-LA_SofiaVoice
  • es-US_SofiaVoice
  • fr-FR_ReneeVoice
  • it-IT_FrancescaVoice
  • ja-JP_EmiVoice
  • pt-BR_IsabelaVoice

所有已弃用的标准声音都具有等效的神经对应项,因此不会带走任何声音。 相反,您可以更改为语音的等效神经版本 (例如,从 de-DE_BirgitVoicede-DE_BirgitV3Voice),以获得更好的语音合成结果。

这些不推荐使用的声音将从已发布的文档中除去。 它们将继续运行至少一年,但可能会在将来某个日期被移除。 建议您尽早迁移到等效的神经声音。

如果您在语音合成请求中省略了可选的 voice 参数,则服务默认使用 en-US_MichaelV3Voice。 此神经语音将替换先前缺省值的现在不推荐使用的 en-US_MichaelVoice 标准语音。

不推荐的功能

以下功能仅适用于标准连接音。 它们已不推荐使用,并且已从已发布的文档中除去。 它们将继续运行至少一年,但可能会在将来某个日期被移除。 建议您从应用程序中移除这些功能,并尽早迁移到神经声音。

  • 富有表现力的SSML。 这是对 SSML 的 IBM 扩展,仅支持 en-US_AllisonVoice 语音。
  • 语音转换SSML。 这是仅 en-US_AllisonVoiceen-US_LisaVoiceen-US_MichaelVoice 声音支持的 SSML 的 IBM 扩展。
    • <prosody> 元素的 volume 属性。* 此属性可用于所有标准声音。

如果在神经语音合成请求中包含这些 SSML 元素,就会产生HTTP400 响应代码,因为请求无法通过 SSML 验证。 有关 SSML 验证的更多信息,请参阅 SSML 验证

对跨源资源共享的新支持

现在,跨源资源共享 (CORS) 支持可用于来自 Google Chrome™ 和 Apple ® Safari 浏览器的所有声音。 不可 从 Mozilla Firefox™ 浏览器获取以下语言的声音: 阿拉伯语,澳大利亚英语,中文,荷兰语和韩国语。 更多信息,请参阅 使用 CORS 支持

2020 年 9 月 10 日

缺陷修订: 改善日语语音

**缺陷修订:**对于 ja-JP_EmiV3Voice 声音,该服务目前正确解析了包含韵律速率规范的 SSML 输入文本。 此前,<prosody> 元素的使用情况如下:

<speak>成功する/繁栄する</speak>

但是,在 <prosody> 元素中使用 rate 属性会导致服务读取并说出嵌入的SSML符号:

<speak>
  <prosody rate="fast">成功する/繁栄する</prosody>
</speak>

现在,该服务可以正确解析并应用 <prosody> 元素的 rate 属性,用于日语输入。

2020 年 9 月 4 日

定制界面现已全面启用
定制界面现已全面上线(GA)。 定制不再是测试功能。 通过创建特定于语言的定制字典,您可以使用定制接口来指定服务如何对输入文本中出现的异常词发音。 它可与所有普遍可用的声音和 Beta 声音一起使用。 有关更多信息,请参阅了解定制

2020 年 6 月 24 日

新英国英语和法语神经声音

现在,服务提供了三个新的神经语音:

  • 英国英语:en-GB_CharlotteV3Voiceen-GB_JamesV3Voice
  • 法语: fr-FR_NicolasV3Voice

它还提供了现有英国神经语音 en-GB_KateV3Voice 的改进版本。 有关所有可用声音的更多信息,请参阅语言和声音

支持日语的 <say-as> 元素的 SSML digits 属性

该服务现在支持SSML <say-as> 元素的 digits 属性,并配有日语语音。 有关更多信息,请参阅 say-as 元素

2020 年 4 月 1 日

新的韩国语标准声音: ko-KR_YoungmiVoiceko-KR_YunaVoice

现在,服务支持两个标准韩语女声:ko-KR_YoungmiVoiceko-KR_YunaVoice。 以下信息适用于这两个韩语声音:

  • 声音是测试函数。 这些声音可能尚未准备好供生产使用,并且可能会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。
  • 这些声音支持定制和 /v1/pronunciation 方法。
  • 这些声音支持 <mark> 元素和 timings 参数,它们在 WebSocket 界面中可用。
  • 这两个声音支持除表现力 SSML 和声音变换 SSML 以外的其他所有语音合成标记语言 (SSML) 元素。
  • IBM 这些语音仅支持国际音标(IPA),不支持带有 <phoneme> 元素的符号音标(SPR)。
针对阿拉伯语,汉语和荷兰语声音的新功能支持

阿拉伯语、中文和荷兰语的测试版语音现在支持以下功能:

  • 定制和 /v1/pronunciation 方法。
  • <mark> 元素和 timings 参数可用于 WebSocket 界面。

请参阅以下各部分以获取其他信息:

  • 有关所有可用声音的更多信息,请参阅语言和声音
  • 有关使用 WebSocket 接口获取词计时的更多信息,请参阅 生成词计时
  • 有关定制的更多信息,请参阅了解定制
  • 有关IPA和SPR在定制中的使用的更多信息,请参阅 《 了解语音符号 》。 (阿拉伯语、中文、荷兰语和韩语的国际音标尚未记录在案。 该文件即将发布。)

2020 年 2 月 24 日

新美式英语和德语神经声音

现在,服务支持五个新的神经语音:

  • 美国英语:en-US_EmilyV3Voiceen-US_HenryV3Voiceen-US_KevinV3Voiceen-US_OliviaV3Voice
  • 德语: de-DE_ErikaV3Voice

新声音不支持以下 SSML 元素:

  • 带有 <express-as> 元素的SSML表达式
  • <voice-transformation> 元素的声音转换
  • <prosody> 元素的 volume 属性

有关这些声音和所有可用声音的更多信息,请参阅语言和声音

Activity Tracker 的新支持

现在,该服务支持将 Activity Tracker 事件用于所有定制操作。IBM Cloud Activity Tracker 记录用户启动的活动,这些活动用于更改 IBM Cloud中服务的状态。 您可以使用此服务来调查异常活动和关键操作,并满足监管审计需求。 此外,还可以在发生操作时收到相关警报。 有关更多信息,请参阅 Activity Tracker 事件

2019 年 12 月 18 日

新标准阿拉伯语,汉语和荷兰语荷兰语声音

现在,服务支持三种新语言的六个新的标准声音:

  • 阿拉伯语: ar-AR_OmarVoice
  • 中文(普通话)zh-CN_LiNaVoicezh-CN_WangWeiVoicezh-CN_ZhangJingVoice
  • 荷兰语nl-NL_EmmaVoice,以及 nl-NL_LiamVoice

以下信息适用于这些新的标准声音:

  • 新声音是测试版功能。 这些声音可能尚未准备好供生产使用,并且可能会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。
  • 这些声音不支持 WebSocket 界面中的 <mark> 元素和 timings 参数。
  • 这些声音不支持自定义或 /v1/pronunciation 方法。
  • 这些声音不支持表现力 SSML 或声音变换 SSML。
  • 这些声音支持其他所有 SSML 元素。 然而,它们仅支持国际音标(IPA),不支持带有 <phoneme> 元素的 IBM 符号音标(SPR)。

有关这些声音和所有可用声音的更多信息,请参阅语言和声音

2019 年 12 月 12 日

对 IBM Cloud IAM 的完全支持

现在,Text to Speech 服务支持完整实现 IBM Cloud Identity and Access Management (IAM)。 Watson 服务的API密钥不再局限于单个服务实例。 您可以创建应用于多个服务的访问策略和 API 密钥,并且可以授予服务之间的访问权。 有关 IAM 的更多信息,请参阅 认证到 Watson 服务

为支持此更改,API 服务端点会使用不同的域并包含服务实例标识。 模式为 api.{location}.text-to-speech.watson.cloud.ibm.com/instances/{instance_id}

  • 在达拉斯位置托管的实例的示例 HTTP URL:

    https://api.us-south.text-to-speech.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

  • 在达拉斯位置托管的实例的示例 WebSocket URL:

    wss://api.us-south.text-to-speech.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

有关 URL 的更多信息,请参阅 API 和 SDK 参考资料

这些 URL 不属于重大更改。 新的 URL 适用于现有服务实例和新实例。 原始 URL 在现有服务实例上将至少继续使用一年,直到 2020 年 12 月结束。

新的网络和数据安全功能

现在提供了对以下新的网络和数据安全功能的支持:

  • 支持专用网络端点

    高级计划的用户可以创建专用网络终端,通过专用网络连接到 Text to Speech 服务。 与专用网络端点的连接不需要公用因特网访问权。 有关更多信息,请参阅公共和专用网络端点

2019 年 11 月 12 日

现在提供新的首尔位置
IBM Cloud 首尔 (kr-seo )现已提供 Text to Speech 服务。 与其他位置一样,此 IBM Cloud 位置也使用的是基于令牌的 IAM 认证。 您在此位置创建的所有新服务实例均使用 IAM 身份验证。

2019 年 10 月 1 日

新的美国 HIPAA 支持华盛顿特区的高级套餐,位置
美国HIPAA支持适用于2019年4月1日或之后创建的、托管在华盛顿特区的Premium计划。 有关更多信息,请参阅美国健康保险可移植性和责任法案 (HIPAA)

2019 年 8 月 22 日

缺陷修订: 多项小型改进
缺陷修复:服务已更新,可修复小缺陷并改进性能。

2019 年 7 月 30 日

新建日语神经语音: ja-JP_EmiV3Voice
该服务现在提供日语的神经语音:ja-JP_EmiV3Voice。 现在所有受支持语言中均同时提供所有可用声音的标准和神经版本。 有关更多信息,请参阅语言和声音

2019 年 6 月 24 日

针对标准和神经声音的新支持

该服务现在为其大部分可用的声音提供两个版本:

  • 标准语音使用串联合成技术将录音片段组合在一起生成音频。 标准声音的名称(例如,en-US_AllisonVoice)中不包含版本字符串。
  • 神经语音,使用深度神经网络(DNN)来预测语音的声学(频谱)特征。 神经语音的名称(例如,V3)中包含版本字符串 (en-US_AllisonV3Voice)。

除了 ja-JP_EmiVoice 语音外,其他所有标准语音都有神经网络版本,语音正在开发中,即将推出。 您不能将SSML <express-as><voice-transformation> 元素与神经语音一起使用,也不能将 volume 属性的 <prosody> 元素与神经语音一起使用。 有关所有可用声音的更多信息,请参阅 语言和声音

从服务中撤销的 V2 神经声音

服务不再包含先前可用的 V2 DNN 声音。 如果您的应用程序中使用的是 V2 声音,那么服务会自动改为使用等效的 V3 声音。

2019 年 3 月 24 日

新的 V2 神经德语声音

现在,服务可提供其德语声音的 V2 深度神经网络 (DNN) 版本:

  • de-DE_BirgitV2Voice
  • de-DE_DieterV2Voice

有关基于 DNN 的声音的更多信息,请参阅语言和声音

对 SSML <prosody> 元素的 pitchrate 属性的新支持

该服务基于DNN的所有语音现在都支持SSML <prosody> 元素的 pitchrate 属性。 基于DNN的语音不支持 <prosody> 元素的 volume 属性。 有关更多信息,请参阅 prosody 元素

2019 年 3 月 21 日

现在,服务凭证的可视性受角色限制

现在,用户只能查看与分配给其 IBM Cloud 帐户的角色相关联的服务凭证信息。 例如,如果为您分配了 reader 角色,那么无法查看任何 writer 或更高级别的服务凭证。

此更改不会影响具有现有服务凭证的用户或应用程序的 API 访问权。 此更改仅影响在 IBM Cloud 中查看凭证。

2019 年 3 月 4 日

新的 V2 神经英语和意大利语声音

现在,服务提供了四个新的 V2 声音,这些声音使用深度学习合成来生成音频:

  • en-US_AllisonV2Voice
  • en-US_LisaV2Voice
  • en-US_MichaelV2Voice
  • it-IT_FrancescaV2Voice

这些新声音使用机器学习和 DNN 将文本合成为语音。 基于深度学习(或深度神经网络 (DNN))的合成所生成的音频在韵律方面更自然,总体质量更一致。

但是,新的声音还会生成信号质量不同于现有声音的音频,因此可能并不适合所有应用。 此外,新语音不支持SSML元素 <prosody><express-as><voice-transformation>

有关这些基于 DNN 的声音及其与现有声音的差异的更多信息,请参阅语言和声音

2019 年 1 月 28 日

WebSocket 接口对 IBM Cloud IAM 的新支持

现在,WebSocket 接口支持通过基于浏览器的 JavaScript 代码进行基于令牌的 Identity and Access Management (IAM) 认证。 与此相反的限制已除去。 要使用 WebSocket /v1/synthesize 方法建立已认证的连接,请执行以下操作:

  • 如果使用的是 IAM 认证,请包含 access_token 查询参数。
  • 如果使用的是 Cloud Foundry 服务凭证,请包含 watson-token 查询参数。

有关更多信息,请参阅打开连接

2018 年 12 月 13 日

新的伦敦位置现在可用
现在,Text to Speech 服务在 IBM Cloud® 伦敦位置 (eu-gb) 可用。 与所有位置一样,伦敦也使用的是基于令牌的 Identity and Access Management (IAM) 认证。 您在此位置创建的所有新服务实例均使用 IAM 身份验证。

2018 年 11 月 7 日

新的东京位置现在可用
现在,Text to Speech 服务在 IBM Cloud® 东京位置 (jp-tok) 可用。 与所有位置一样,东京也使用的是基于令牌的 Identity and Access Management (IAM) 认证。 您在此位置创建的所有新服务实例均使用 IAM 身份验证。

2018 年 10 月 30 日

对基于令牌的 IBM Cloud IAM 的新支持

所有位置的 Text to Speech 服务都已迁移到基于令牌的 Identity and Access Management (IAM) 认证。 现在,所有 IBM Cloud 服务都使用 IAM 认证。 每个位置的 Text to Speech 服务已于以下日期迁移:

  • 达拉斯 (us-south):2018 年 10 月 30 日
  • 法兰克福 (eu-de):2018 年 10 月 30 日
  • 华盛顿 (us-east):2018 年 6 月 12 日
  • 悉尼 (au-syd):2018 年 5 月 15 日

迁移到 IAM 认证对新的和现有服务实例的影响有所不同:

  • 在任何位置创建的所有新服务实例现在都使用 IAM 认证来访问服务。 可以传递不记名令牌或 API 密钥:令牌支持已认证的请求,而无需在每个调用中嵌入服务凭证;API 密钥使用 HTTP 基本认证。 使用任何 Watson SDK 时,都可以传递 API 密钥,并让 SDK 来管理令牌的生命周期。
  • 在指示的迁移日期之前在某个位置中创建的现有服务实例将继续使用其先前 Cloud Foundry 服务凭证中的 {username}{password} 进行认证,直到将其迁移为使用 IAM 认证为止。

有关更多信息,请参阅以下文档:

2018 年 6 月 12 日

在华盛顿特区位置托管的应用程序的新功能

针对在华盛顿 (us-east) 托管的应用程序启用了以下功能:

  • 现在,服务支持新的 API 认证过程。 有关更多信息,请参阅 2018 年 10 月 30 日服务更新
  • 现在,服务支持 X-Watson-Metadata 头和 DELETE /v1/user_data 方法。 有关更多信息,请参阅信息安全

2018 年 5 月 15 日

在悉尼位置托管的应用程序的新功能

针对在悉尼 (au-syd) 托管的应用程序启用了以下功能:

  • 现在,服务支持新的 API 认证过程。 有关更多信息,请参阅 2018 年 10 月 30 日服务更新
  • 现在,服务支持 X-Watson-Metadata 头和 DELETE /v1/user_data 方法。 有关更多信息,请参阅信息安全

2017 年 10 月 2 日

audio/l16 音频格式的更改
对于 audio/l16 格式,现在可以选择指定返回的音频的字节序。 (您必须已指定采样率。) 例如:audio/l16;rate=22050;endianness=big-endianaudio/l16;rate=22050;endianness=little-endian;默认值为显著端序。 有关更多信息,请参阅 使用音频格式

2017 年 7 月 14 日

新增对 MP3 (MPEG) 音频格式的支持
现在,服务支持 MP3 或运动图像专家组 (MPEG) 音频格式。 如需了解支持的音频格式,请参阅 使用音频格式

2017 年 4 月 10 日

对 Web 媒体 (WebM) 音频格式的新支持
现在,服务支持使用 Opus 或 Vorbis 编码解码器的 Web 媒体 (WebM) 音频格式。 除了使用 Opus 编码解码器的 Ogg 音频格式外,服务现在还支持使用 Vorbis 编码解码器的 Ogg 音频格式。 如需了解支持的音频格式,请参阅 使用音频格式
对跨源资源共享的新支持
现在,服务支持跨源资源共享 (CORS),以允许基于浏览器的客户机直接调用服务。 更多信息,请参阅 使用 CORS 支持
更改成功的HTTP响应代码
更改了表示定制接口的某些方法成功完成的 HTTP 响应代码:
  • 现在,POST /v1/customizations 方法会返回 201(而不是 200)。
  • 现在,POST /v1/customizations/{customization_id} 方法会返回 200(而不是 201)。
  • 现在,POST /v1/customizations/{customization_id}/words 方法会返回 200(而不是 201)。
  • 现在,PUT /v1/customizations/{customization_id}/words/{word} 方法会返回 200(而不是 201)。
误用日语 part_of_speech 参数的新错误
现在,如果尝试对非日语语言指定 POST /v1/customizations/{custom_id}/wordsPUT /v1/customizations/{customization_id}/words/{word}Part of speech is supported for ja-JP language only 方法会返回 HTTP 响应代码 400,错误消息为:part_of_speech
对用于添加字方法的响应主体的更改
现在,POST /v1/customizations/{custom_id}/words 方法会返回空的响应主体 ({})。

2016 年 12 月 1 日

新拉美西班牙语语音: es-LA_SofiaVoice

服务包含一个新的声音 es-LA_SofiaVoice,这是 es-US_SofiaVoice 声音的拉丁美洲等效版本。 两种版本之间最大的不同在于对 $ (美元符号)的解读:拉丁美洲版本使用比索(peso)一词,而北美版本使用美元(dolares) 一词。 除此之外,这两个声音之间还可能存在其他较小的差异。

新的美国英语声音: en-US_LisaVoiceen-US_MichaelVoice

除了 en-US_AllisonVoice 外,现在还有另外两个声音可使用 SSML 声音变换来进行变换:en-US_LisaVoiceen-US_MichaelVoice

对日语定制的更改

当您使用日语自定义界面时,该服务现在会匹配自定义车型定义的单词/翻译对中最长的单词。 例如,请考虑以下两个定制车型:

{
  "words": [
    {"word":"NY", "translation":"ニューヨーク", "part_of_speech":"Mesi"},
    {"word":"NYC", "translation":"ニューヨークシティ", "part_of_speech":"Mesi"}
  ]
}

如果服务在输入文本中找到字符串 NYC ,则匹配该单词,因为它的匹配长度比 NY 长。 之前,该服务匹配的字符串是 NY。 如需了解有关使用日语条目定制车型的更多信息,请参阅使用日语条目

2016 年 9 月 22 日

现在,所有语言版本均支持自定义
现在,定制接口(包括定制和 GET /v1/pronunciation 方法)可用于服务支持的所有语言。 该接口仍是 Beta 版。 有关更多信息,请参阅了解定制
新增对 SSML 的日语支持
现在,服务支持 SSML 用于日语。 有关 SSML 支持的常规信息,请参阅 了解 SSML。 有关日语 SPR 和 IPA 音标符号的信息,请参阅日语音标符号。 在日语自定义模型中创建词条时,需要额外考虑并填写 part_of_speech 字段。 有关更多信息,请参阅使用日语条目
新增语音转换 SSML 功能
该服务现在通过新的 <voice-transformation> 元素提供SSML语音转换。 您可以通过创建自定义转换来扩展可能的声音范围,这些转换可以修改声音的音高、音高范围、声门张力、呼吸、速度和音色。 服务还提供了两个内置的虚拟声音:YoungSoft。 目前,服务仅支持对美国英语 Allison 声音使用声音变换。
现在随 WebSocket 接口提供的字计时
现在,服务可以返回传递到 WebSocket 接口的输入文本中所有字符串的词计时信息。 要接收输入中每个字符串的开始时间和结束时间,请指定一个数组,其中包含用于传递到服务的 JSON 对象的可选 words 参数的字符串 timings。 此功能目前不可用于日语输入文本。 有关更多信息,请参阅 生成词计时
对 SSML 验证的新支持
现在,服务会验证在任何上下文中提交的所有 SSML 元素。 如果服务找到无效的标记,那么会报告 HTTP 400 响应代码以及描述性消息,并且该方法会失败。 在之前的版本中,该服务处理错误的方式不一致;例如,指定一个无效的单词发音可能会导致不可预测或不一致的行为。 有关更多信息,请参阅 SSML 验证
现在使用 ibm 而不是 spr 指定 IBM SPR 格式
不建议将 spr 用作 format 方法的 GET /v1/pronunciation 选项的参数,也不建议将其与SSML <phoneme> 元素的 alphabet 属性一起使用。 要使用 IBM SPR 表示法,请在所有情况下都使用 ibm 自变量,而不要使用 spr
audio/mulaw 音频格式的新支持
支持的音频格式列表现在包括 audio/mulaw;rate={rate}。 与 audio/basic 一样,此格式提供的是单声道音频,使用 8 位 u-law(或 mu-law)数据进行编码,采样率为 8 千赫兹。 有关更多信息,请参阅 使用音频格式
列出声音时识别的新增受支持功能
现在,GET /v1/voicesGET /v1/voices/{voice} 方法在其每个声音的输出中,都会返回 supported_features 对象。 对象描述了语音是否支持自定义和SSML <voice_transformation> 元素。 有关更多信息,请参阅语言和声音

2016 年 6 月 23 日

用于语音合成的新 WebSocket 接口

现在,服务提供了 WebSocket 接口,用于将文本合成为语音。 此接口提供的功能与 HTTP 接口的 /v1/synthesize 方法相同。 此接口接受纯文本或使用 SSML 标记的文本。 此外,它还支持使用SSML <mark> 元素来识别音频中完成标记前所有文本合成的时间。 有关更多信息,请参阅 WebSocket 接口

扩展了对 SSML 的语言支持

现在,服务支持卡斯蒂利亚西班牙语、北美西班牙语、意大利语和巴西葡萄牙语的通过 SSML 进行注释的文本。 服务已经支持 SSML 用于美国英国、英国英语、法语和德语。 自此更新后,服务将支持 SSML 用于除日语以外的其他所有语言。 此外,您可以使用 IBM SPR和IPA符号来定义带有SSML <phoneme> 元素的单词发音。 有关更多信息,请参阅 了解 SSML了解音标符号

对于美式英语,您还可以使用SSML <phoneme> 元素在自定义模型中创建单词条目;自定义功能仅支持美式英语。 有关更多信息,请参阅了解定制

更新声音以改进语音合成

服务改进了最常用的声音的表现力和自然性。 这些改进立足于根据输入文本进行的基于递归神经网络 (RNN) 的韵律预测。 这些改进可用作以下语言的新服务引擎和声音模型更新:

  • en-US_AllisonVoice
  • en-US_LisaVoice
  • en-US_MichaelVoice
  • es-ES_EnriqueVoice
  • fr-FR_ReneeVoice
新的字发音定制标识参数

现在,GET /v1/pronunciation 方法接受可选的 customization_id 查询参数。 该参数从指定的自定义模型中获取单词翻译。 如果自定义模型中不包含该单词,则该方法将返回该单词的默认发音。 更多信息,请参阅 API 和 SDK 参考资料

使用不带定制标识的 GET /v1/pronunciation 方法以及用于除美国英语以外的语言时,只能请求以 IBM SPR 表示法表示的词发音。 对于除美国英语之外的其他语言,必须使用此方法的 spr 选项指定 format

audio/basic 音频格式的新支持

现在,支持的音频格式列表包含 audio/basic,此格式提供的是单声道音频,使用 8 位 u-law(或 mu-law)数据进行编码,采样率为 8 千赫兹。 有关更多信息,请参阅 使用音频格式

HTTP和WebSocket接口现在可以返回警告

HTTP 和 WebSocket /v1/synthesize 方法可以返回 warnings 响应,其中包含有关请求中所含的无效查询参数或 JSON 字段的消息。 警告的格式已更改。 以下示例显示的是先前的格式:

"warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']."

现在,同一警告的格式如下:

"warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}."

2016 年 3 月 10 日

现在,合成方法可以返回警告
现在,GETPOST /v1/synthesize 方法可以返回 Warnings 响应头,其中包含有关请求中所含的无效查询参数或 JSON 字段的警告消息列表。 列表的每个元素都包含一个字符串,用于描述警告的性质,后跟无效参数字符串的数组; 例如,Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']. 有关更多信息,请参阅API 和 SDK 参考
不推荐使用 Beta Apple iOS SDK
苹果® iOS 操作系统的测试版 Watson 语音软件开发工具包(SDK) 已弃用,由 Watson Swift SDK 取代。 新的软件开发工具包可从 GitHub 上 watson-developer-cloud 命名空间 中的swift-sdk存储库中获取。

2016 年 2 月 22 日

新的表现力 SSML 功能
服务已更新,新增了表现力 SSML 功能。 该服务扩展了SSML,添加了 <express-as> 元素,可用于在三种语音风格中表达:GoodNewsApologyUncertainty。 可以将此元素应用于整个文本、一个句子、一个短语或一个词。 目前,服务仅支持对美国英语 Allison 声音 (en-US_AllisonVoice) 使用表现力。

2015 年 12 月 17 日

新建 Beta 定制接口

服务提供了一个新的定制接口,可用于指定如何对输入中出现的异常词发音。 该界面包含一些新方法,可用于创建和管理自定义模型以及它们包含的单词/翻译对。 然后,可以在将文本合成为音频时使用定制模型。

服务支持近似读音转换项和音标转换项。 音标转换项可以使用标准国际音标 (IPA) 表示法或专有 IBM 符号音标表示法 (SPR)。 您可使用 SSML 来指定音标转换项。

定制界面包含新 HTTP 方法的集合,这些方法的名称为 POST /v1/customizationsPOST /v1/customizations/{customization_id}POST /v1/customizations/{customization_id}/wordsPUT /v1/customizations/{customization_id}/words/{word}。 服务还提供了新的 GET /v1/pronunciation 方法和新的 GET /v1/voices/{voice} 方法,前者用于返回任何词的发音,后者用于返回有关特定声音的详细信息。 此外,现有服务界面的方法现在可以根据需要接受自定义模型参数。

有关自定义及其界面的更多信息,请参阅 了解自定义 以及 API 和 SDK 参考

定制接口是 Beta 版,目前仅支持美国英语。 目前,所有自定义方法和 GET /v1/pronunciation 方法仅可用于创建和操作自定义模型以及美国英语的单词翻译。

新的巴西葡萄牙语语音: pt-BR_IsabelaVoice

服务支持新的声音 pt-BR_IsabelaVoice,用于合成巴西葡萄牙语女声音频。 有关更多信息,请参阅语言和声音

2015 年 9 月 21 日

新的移动 SDK 可用

有两个新的 Beta 移动软件开发包 (SDK) 可用于语音服务。 这两个 SDK 支持移动应用程序与 Text to Speech 和 Speech to Text 服务进行交互。 您可以使用这两个 SDK 将文本发送到 Text to Speech 服务并接收音频响应。

这两个 SDK 都支持使用 IBM Cloud 服务凭证或认证令牌向语音服务进行认证。 由于SDK是测试版功能,因此未来可能会发生变化。

新日语语音: ja-JP_EmiVoice

服务支持新的语言 - 日语。 声音 ja-JP_EmiVoice 是日语女声。

2015 年 7 月 1 日

Text to Speech 服务现在已普遍可用

该服务于2015年7月1日从测试版转为正式版本(GA)。 Text to Speech API的测试版和正式版之间存在以下差异。 GA 发行版需要用户升级到服务的新版本。

新建基于令牌的编程模型

新的编程模型支持客户机与服务之间进行直接交互。 通过使用此模型,客户机可以获取用于直接与服务进行通信的认证令牌。 通过使用令牌,客户机无需 IBM Cloud 中的服务器端代理应用程序,就可代表它来调用服务。 令牌是客户机与服务进行交互的首选方法。

该服务会继续支持依赖于服务器端代理在客户机与服务之间中继通信和数据的旧编程模型。 但是,新模型的效率更高,吞吐量更大。

对语音合成标记语言的新支持

现在,可以将语音合成标记语言 (SSML) 传递到 GET 方法的 HTTP POST/v1/synthesize 版本。 SSML 是一种基于 XML 的标记语言,旨在为语音合成应用程序(例如,Text to Speech 服务)提供文本注释。 有关将 SSML 输入传递到服务的更多信息,请参阅指定输入文本

服务初始仅支持 SSML 用于英国英语、美国英语、法语和德语。 服务不支持 SSML 用于意大利语和西班牙语。 使用 SSML 时,请确保不要为音频选择其中一种不支持的语言的声音。 否则,会获得没有意义的结果。

对可用声音的更改

支持合成语音的变音和扩展。 现在,该服务还支持其他几种语音、语言和方言,使用 /v1/synthesize 方法。 有关受支持声音的更多信息,请参阅语言和声音

Beta 中可用的三个声音在 GA 中已重命名:

  • VoiceEnUsMichael 现在 en-US_MichaelVoice
  • VoiceEnUsLisa 现在 en-US_LisaVoice
  • VoiceEsEsEnrique 现在 es-ES_EnriqueVoice

在服务的 Beta 版本保持可用期间,这些声音先前的名称在 Beta 版本中将继续有效(通过 -beta API 端点使用)。 但是,对于服务的 GA 版本,必须使用新名称。

免费无损音频编码解码器 (FLAC) 音频格式的新支持

现在,可以请求服务返回自由无损音频编码解码器 (FLAC) 格式的音频。 服务仍可以返回使用 Opus 编码解码器的 Ogg 格式(缺省值)和波形音频文件格式 (WAV) 的音频。 有关使用 /v1/synthesize 方法的音频格式的更多信息,请参阅 使用音频格式

对合成文本的最大数量的新限制

现在,发送到 HTTP /v1/synthesize 请求 URL 中的 GET 方法的文本,或 HTTP POST 请求主体中的文本限制为最大 5 KB。 对于 Beta 版本,文本的最大大小为 4 MB。

要选择退出对服务改进的贡献的新头

现在,/v1/synthesize 方法包含 X-WDC-PL-OPT-OUT 头,用于控制服务是否使用操作生成的文本和音频结果来改进未来的结果。 为此头指定值 1 将阻止服务使用文本和音频结果。 该参数仅应用于当前请求。 此新头将替换 Beta 方法中的 X-logging 头。 有关更多信息,请参阅控制 Watson 服务的请求日志记录

语音合成HTTP错误代码变更

对于 /v1/synthesize 方法,更改了以下错误代码:

  • 除去了错误代码 406(“不可接受。 MIME 类型不受支持。") 已除去。
  • 添加了错误代码 415(“不支持的媒体类型”)。
  • 添加了错误代码 503(“服务不可用”)。
更改列表声音的HTTP错误代码

对于 GET /v1/voices 方法,更改了以下错误代码:

  • 除去了错误代码 406(“不可接受。 MIME 类型不受支持。") 已除去。
  • 添加了错误代码 415(“不支持的媒体类型”)。