IBM Cloud Docs
Speech to Text for IBM Cloud 的发行说明

Speech to Text for IBM Cloud 的发行说明

IBM Cloud

对于 IBM Cloud 上托管的 IBM Watson® Speech to Text 受管实例的每个发行版和更新,或者对于 IBM Cloud Pak for Data as a Service上托管的实例,都包含了以下功能和更改。 除非另有说明,否则所有更改都与较早的发行版兼容,并且会自动、透明地可供所有新应用程序和现有应用程序使用。

有关服务的已知限制的信息,请参阅 已知限制

有关 IBM Cloud Pak for Data的服务发行版和更新的信息,请参阅 IBM Cloud Pak for Data 的 Speech to Text 发行说明

2024 年 11 月 19 日

新的德语大型语音模型现已全面推出

德语大型语音模型现已全面推出。

2024 年 8 月 23 日

所有大型语音机型现已全面上市

所有语言的大型语音模型现已普遍可用 (GA)。 支持在生产环境和应用程序中使用它们。

2024 年 6 月 18 日

巴西葡萄牙语和西班牙语的新大型语音模型现在处于开放测试版

巴西葡萄牙语和西班牙语的大型语音模型现在处于开放 Beta 版。 西班牙语包括卡斯蒂利亚方言、阿根廷方言、智利方言、哥伦比亚方言、墨西哥方言和秘鲁方言。

2024 年 5 月 15 日

针对英语的大型语音模型现在已普遍可用

英语的大型语音模型,包括美国,澳大利亚,印度和英国的方言,现在普遍可用 (GA)。 支持在生产环境和应用程序中使用。

2024 年 3 月 7 日

Open Beta 中美国英语的大型语音模型
新的美国英语大型语音模型已进入开放测试阶段。 请参阅 大型语音语言和模型,以获取有关受支持功能部件 (Beta) 的更多详细信息。

2023 年 11 月 30 日

Speech to Text 参数 :speech_begin_event

通过该参数,客户端应用程序可以知道已检测到某些单词或语音,并且 Speech to Text 正在进行解码。 有关更多详细信息,请参阅 使用语音识别参数

定制词的参数 "mapping_only"

通过使用 "mapping_only "参数,可以直接使用自定义词将 "sounds_like"(或词)映射到 "display_as "值,作为后处理而不是训练。 有关更多信息,请参阅 词资源

请参阅 非日语日语 指南。

支持巴西-葡萄牙语和法语-加拿大人进行新的改进的下一代语言模型定制

最近添加了针对巴西-葡萄牙语和法语-加拿大下一代模型的语言模型定制。 此服务更新包括进一步的内部改进。

新建智能格式化功能

美国英语,巴西葡萄牙语,法语和德语支持下一代模型的新智能格式化功能。 请参阅 智能格式化版本 以获取详细信息。

支持 Castilian 西班牙语和 LATAM 西班牙语进行新的改进的下一代语言模型定制

添加了 Castilian 西班牙语和 LATAM 西班牙语下一代模型的语言模型定制。 此服务更新包括进一步的内部改进。

英语、日语和法语的大型语音模型 - 用于早期访问

对于早期访问功能,IBM Watson Speech-to-Text 和 IBM watsonx Assistant中提供了适用于英语,日语和法语语言的大型语音模型。 这些大型语音模型的功能集是有限的,但比 Next-Generation 模型更准确,并且由于更小的大小和更好的流式模式功能,运行速度更快且更便宜。

如果您有兴趣测试这些基本模型,并共享结果和反馈,请通过填写此 表单 来联系我们的产品管理团队。

2023 年 7 月 28 日

重要信息: 从 2023 年 8 月开始,所有上一代车型都已停产 1
重要信息: 现在已从服务中停用所有先前生成的模型。 现在,新客户只能使用下一代模型。 所有现有客户现在都必须迁移到等效的下一代模型。 有关所有下一代模型的更多信息,请参阅 下一代语言和模型。 有关如何迁移到下一代模型的更多信息,请参阅 迁移到下一代模型

9 2023 年 6 月

缺陷修订: 现在,创建和训练定制语言模型对于标准模型和低延迟 Next-Generation 模型都是最佳选择
缺陷修订: 使用语料库文本文件和/或使用 Next-Generation 低延迟模型的定制词创建和训练定制语言模型时,它现在的执行方式与标准模型相同。 以前,仅当使用 Next-Generation 低延迟模型时,它才是最佳的。
缺陷修订: 由于张量错误消息,STT Websockets 会话不再失败
缺陷修订: 使用 STT Web 套接字时,由于错误消息“STT 返回错误: 除维 0 外,张量的大小必须匹配”,因此会话不再失败。

2023 年 5 月 18 日

英语下一代医疗电话模型的更新

更新了英语下一代医疗电话模型,以改进语音识别:

  • en-WW_Medical_Telephony
新增了对法语和德语的支持,用于新的改进的下一代语言模型定制

最近添加了针对法语和德语下一代模型的语言模型定制。 此服务更新包括进一步的内部改进。

有关改进的下一代定制的更多信息,请参阅

缺陷修订: 包含半宽片假名字符的定制词现在使用日语电话模型返回明确的错误消息

缺陷修订: 根据 文档,定制词中仅接受全宽片假名字符,下一代模型现在显示一条错误消息来说明它不受支持。 先前,创建包含半宽片假名字符的定制词时,未提供任何错误消息。

缺陷修订: 由于训练时间过长,日语电话语言模型不再失败

缺陷修订: 使用日语电话训练定制语言模型时,服务现在可有效处理大量定制词而不会发生故障。

2 2023 年 5 月

用于升级基于改进的下一代模型的定制模型的新过程

现在有两种方法可用于将定制语言模型升级为改进的下一代基本模型。 您仍可以修改并重新训练定制模型,如已记录的那样。 但现在,您还可以通过将查询参数 force=true 包含在 POST /v1/customizations/{customization_id}/train 请求中来升级定制模型。 force 参数用于升级定制模型,而不考虑它是否包含更改 (处于 readyavailable 状态)。

有关更多信息,请参阅 基于改进的下一代模型升级定制语言模型

向基于改进后的下一代模型的定制模型添加词的指南

该文档现在提供了有关将词添加到基于改进的下一代模型的定制模型的更多指导。 出于培训期间的表现原因,指南鼓励使用语料库,而不是尽可能直接添加定制词。

有关更多信息,请参阅 基于改进的下一代模型向定制模型添加词的准则

以不同方式处理基于改进的下一代模型的定制模型的日语定制词

对于基于下一代模型的日语定制模型,定制词的处理方式与其他语言不同。 对于日语,您可以添加长度不超过 25 个字符的定制词或类似声音。 如果定制词或类似词超出该限制,那么服务会将该词添加到定制模型中,就像由语料库添加一样。 该词不会显示为模型的定制词。

有关更多信息,请参阅 基于改进的下一代模型向日语模型添加词的准则

2023 年 4 月 12 日

缺陷修订: 使用下一代模型时,WebSocket 接口现在按预期超时
缺陷修订: 当用于下一代模型的语音识别时,WebSocket 接口现在会在长时间静默后按预期超时。 以前,当用于短音频文件的语音识别时,WebSocket 会话可能无法超时。 当会话未能超时时,服务未向正在等待的客户机应用程序返回最终假设,而客户机在等待结果时改为计时。

6 2023 年 4 月

缺陷修订: 允许完成下一代日语定制模型的训练的限制
缺陷修订: 成功训练下一代日语定制语言模型要求添加到模型中的定制词和声音赞数各包含不超过 25 个字符。 对于最有效的训练,建议定制词和声音-赞包含不超过 20 个字符。 使用较长的定制词和声音-喜欢的日语定制模型的训练在经过多个小时的训练后无法完成。

如果需要向下一代日语定制模型添加等效的长词或声音,请执行以下步骤:

  1. 向定制模型添加一个较短的词或类似声音,用于捕获较长的词或类似声音的本质。
  2. 将一个或多个使用较长单词或声音的句子添加到语料库。
  3. 请考虑将句子添加到语料库中,以便为词或类似词提供更多上下文。 更大的上下文为服务提供了更多信息,用于识别词并应用正确的声音。
  4. 将语料库添加到自定义模型中。
  5. 根据较短的词或类似音的词以及包含较长字符串的语料库的组合来重新训练定制模型。

刚刚描述的限制和步骤允许下一代日语定制模型完成训练。 请记住,将大量新定制词添加到定制语言模型会增加模型的训练时间。 但是,仅当定制模型最初对新词进行训练时,才会发生增加的训练时间。 一旦在新词上训练了定制模型,训练时间就会恢复正常。

For more information, see
-   [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
-   [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
-   [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
-   [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)
对更新后的下一代语言模型定制的进一步改进
最近改进了英语和日语下一代模型的语言模型定制。 此服务更新包括进一步的内部改进。 有关改进的下一代定制的更多信息,请参阅

2023 年 3 月 13 日

缺陷修订: 美国英语日期的智能格式现在正确
缺陷修订: 现在,智能格式化可正确包含一周中的几天以及口语音频中都存在的日期,例如 Tuesday February 28。 以前,在某些情况下,省略了星期几,但未正确显示日期。 请注意,智能格式化是 Beta 功能。
缺陷修订: 更新针对下一代模型的语音犹豫词的文档
缺陷修订: 更新了有关下一代模型的语音犹豫词的文档。 提供了更多关于美式英语和日语犹豫词的详细信息。 下一代模型在转录结果中包含实际的犹豫词,与前代模型不同,前代模型仅包含犹豫标记。 有关更多信息,请参阅 语音迟疑和迟疑标记

2023 年 2 月 27 日

新型日本下一代电话模式

该服务现在提供面向日语的下一代电话模型: ja-JP_Telephony。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅

改进了下一代英语和日语模型的语言模型定制

该服务现在为下一代英语和日语模型提供改进的语言模型定制:

  • en-AU_Multimedia
  • en-AU_Telephony
  • en-IN_Telephony
  • en-GB_Multimedia
  • en-GB_Telephony
  • en-US_Multimedia
  • en-US_Telephony
  • ja-JP_Multimedia
  • ja-JP_Telephony

对模型的可视改进: 新技术改进了新的英语和日语模型的缺省行为。 在其他更改中,新技术优化了以下参数的缺省行为:

  • 基于这些模型的新版本的定制模型的缺省 customization_weight0.2 更改为 0.1
  • 基于这些模型的新版本的定制模型的缺省 character_insertion_bias 仍为 0.0,但这些模型的更改方式使语音识别的参数变得不那么必要。

升级到新模型: 要利用改进后的技术,必须升级基于新模型的任何定制语言模型。 要升级到其中一个基本型号的新版本,请执行以下操作:

  1. 通过添加或修改模型包含的定制词,语料库或语法来更改定制模型。 您进行的任何更改都会将模型移至 ready 状态。

  2. 使用 POST /v1/customizations/{customization_id}/train 方法来重新训练模型。 重新训练会将定制模型升级到新技术,并将模型移至 available 状态。

    已知问题: 此时,无法使用 POST /v1/customizations/{customization_id}/upgrade_model 方法将定制模型升级到其中一个新的基本模型。 这个问题将在未来的版本中解决。

使用新模型: 在升级到新基本模型之后,建议您通过特别注意用于语音识别的 customization_weightcharacter_insertion_bias 参数来评估已升级的定制模型的性能。 重新训练定制模型时:

  • 定制模型将 0.1 的新缺省 customization_weight 用于定制模型。 将除去与定制模型关联的非缺省 customization_weight
  • 定制模型可能不再需要使用 character_insertion_bias 参数来实现最佳语音识别。

对语言模型定制的改进使这些参数对于高质量语音识别不那么重要:

  • 如果对这些参数使用缺省值,请在升级后继续执行此操作。 缺省值可能会继续为语音识别提供最佳结果。
  • 如果为这些参数指定非缺省值,请在升级后使用缺省值进行试验。 您的定制模型可能适用于具有缺省值的语音识别。

如果您觉得对这些参数使用不同的值可能会改进定制模型的语音识别,请尝试增量更改以确定是否需要这些参数来改进语音识别。

注: 此时,语言模型定制的改进仅适用于基于先前列示的下一代英语或日语基本语言模型的定制模型。 随着时间的推移,这些改进将可用于其他下一代语言模型。

更多信息: 有关升级以及使用这些参数进行语音识别的更多信息,请参阅

缺陷修订: 语法文件现在正确处理数字字符串

缺陷修订: 使用语法时,服务现在正确处理较长的数字字符串。 先前,它未能完成识别或返回不正确的结果。

2023 年 2 月 15 日

重要信息: 不推荐使用所有先前生成的模型,这些模型将于 2023 年 7 月 31 日结束服务

重要信息: 不推荐使用所有先前生成的模型,这些模型将于 2023 年 7 月 31 日结束服务。 在该日期,将从服务和文档中除去所有先前生成的模型。 上次废弃日期为 3 2023 年 3 月。 新日期允许用户有更多时间迁移到相应的下一代模型。 但用户必须在 2023 年 7 月 31 日前迁移到等效的下一代模型。

大多数先前生成的模型在 2022 年 3 月 15 日已不推荐使用。 以前,不推荐使用阿拉伯语和日语模型。 现在,弃用适用于 所有 先前生成的模型。

注: 从服务中除去先前生成 en-US_BroadbandModel 时,下一代 en-US_Multimedia 模型将成为语音识别请求的缺省模型。

缺陷修订: 改进了下一代定制语言模型的训练时间

缺陷修订: 现在显着改善了下一代定制语言模型的训练时间。 以前,训练时间比需要的时间长得多,据报道,训练日语定制语言模型的时间长得多。 内部修订已更正该问题。

缺陷修订: 动态生成的语法文件现在正常工作

缺陷修订: 动态生成的语法文件现在正常工作。 先前,动态语法文件可能会导致内部故障,如针对 Speech to Text 与 IBM® watsonx™ Assistant的集成所报告。 内部修订已更正该问题。

2023 年 1 月 20 日

不推荐使用的阿拉伯语和英国模型名称不再可用

服务不再接受以下阿拉伯语和英国模型名称:

  • ar-AR_BroadbandModel-改为使用 ar-MS_BroadbandModel
  • en-UK_NarrowbandModel-改为使用 en-GB_NarrowbandModel
  • en-UK_BroadbandModel-改为使用 en-GB_BroadbandModel

在 2 2020 年 12 月不推荐使用阿拉伯语模型名称。 2017 年 7 月 14 日,不推荐使用英国英语模型名称。

Cloud Foundry 弃用并迁移到资源组

IBM宣布于 2022 年 5 月 31 日淘汰IBM Cloud Foundry。 自 2022 年 11 月 30 日起,新的IBM无法创建Cloud Foundry应用程序,只有现有用户才能部署应用程序。IBM Cloud Foundry将于 2023 年 6 月 1 日结束支持。 届时,运行 "IBM"Cloud Foundry应用程序的任何 "IBM"Cloud Foundry运行时实例都将被永久禁用、解除配置并删除。

要在 2023 年 6 月 1 日之后继续使用IBM Cloud应用程序,必须在该日期之前迁移到资源组。 资源组在概念上类似于Cloud Foundry空间。 它们还具有一些额外的优势,例如通过使用 IBM Cloud Identity and Access Management (IAM)进行更精细的访问控制、将服务实例连接到不同地区的应用程序和服务的能力,以及查看每个组使用情况的简便方法。

max_alternatives 参数现在可用于下一代模型

max_alternatives 参数现在可用于所有下一代模型。 该参数通常可用于所有下一代模型。 有关更多信息,请参阅最大替代项数

缺陷修订: 允许将 max_alternativesend_of_phrase_silence_time 参数与下一代模型配合使用

缺陷修订: 当您将同一请求中的 max_alternativesend_of_phrase_silence_time 参数与下一代模型配合使用时,该服务现在会返回多个备用脚本,同时遵守指示的暂停时间间隔。 先前,在单个请求中使用这两个参数会导致失败。 (将 max_alternatives 参数与下一代模型配合使用之前已作为实验性功能提供给有限数量的客户。)

缺陷修订: 更新法国加拿大下一代电话模型 (需要升级)

缺陷修订: 已更新法国加拿大下一代电话模型 fr-CA_Telephony,以解决可能在语音识别期间导致错误的内部不一致问题。 您需要升级任何基于 fr-CA_Telephony 模型的定制模型。 有关升级自定义模型的更多信息,请参阅

缺陷修订: 添加基于下一代模型创建日语声音点赞的文档准则

缺陷修订: 对于基于下一代模型的日语定制语言模型,在一些左上下文中,字符序列 ウー 不明确。 请勿使用以音素 /o/ 结尾的字符 (音节),例如 。 在此类情况下,请使用 ウウ 或仅 代替 ウー。 例如,使用 ロウウマンロウマン 代替 ロウーマン。 有关更多信息,请参阅 日语准则

将词直接添加到基于下一代模型的定制模型会增加训练时间

将定制词直接添加到基于下一代模型的定制模型会导致对模型的训练花费比其他模型长几分钟的时间。 如果要使用您使用 POST /v1/customizations/{customization_id}/wordsPUT /v1/customizations/{customization_id}/words/{word_name} 方法添加的定制词来训练模型,请为该模型留出一些分钟的额外训练时间。 有关更多信息,请参阅

东京位置定制声学模型的最大音频资源小时数已增加

您可以添加到东京位置的定制声学模型的音频资源的最大小时数再次为 200 小时。 此前,东京地区的最长时间减少到 50 个小时。 这一削减已被撤销,并推迟到明年。 有关更多信息,请参阅 最长音频小时数

5 2022 年 12 月

全新荷兰语下一代多媒体模型
该服务现在为荷兰荷兰语提供下一代多媒体模型: nl-NL_Multimedia。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅
缺陷修订: 下一代模型的转录结果中的正确定制字识别
缺陷修订: 对于具有下一代模型的语言模型定制,现在可识别定制词并在所有文字记录中使用。 以前,定制词有时无法识别并在转录结果中使用。
缺陷修订: 在下一代模型的转录结果中正确使用 display_as 字段
缺陷修订: 对于具有下一代模型的语言模型定制,定制词的 display_as 字段的值现在显示在所有文字记录中。 先前,word 字段的值有时出现在转录结果中。
缺陷修订: 更新定制模型命名文档
缺陷修订: 该文档现在提供了用于命名定制语言模型和定制声学模型的详细规则。 有关更多信息,请参阅

2022 年 10 月 20 日

英语下一代电话模型的更新

英语下一代电话型号已经更新,语音识别功能得到改进:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

所有这些模型都继续支持低延迟。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

缺陷修订: 更新日语下一代多媒体模型 (需要升级)

缺陷修订: 已更新日语下一代多媒体模型 ja-JP_Multimedia,以解决在低延迟的语音识别期间可能导致错误的内部不一致问题。 您需要升级任何基于 ja-JP_Multimedia 模型的定制模型。 有关升级自定义模型的更多信息,请参阅

7 2022 年 10 月

新的瑞典下一代电话模式

该服务现在提供瑞典语的下一代电话模型: sv-SE_Telephony。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅

英语下一代电话模型的更新

英语下一代电话型号已经更新,语音识别功能得到改进:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

所有这些模型都继续支持低延迟。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

2022 年 9 月 21 日

用于删除用户信息的 GDPR 的新 Activity Tracker 事件

现在,当您使用 DELETE /v1/user_data 方法来删除有关用户的所有信息时,该服务将返回 Activity Tracker 事件。 事件名为 speech-to-text.gdpr-user-data.delete。 有关更多信息,请参阅 Activity Tracker 事件

缺陷修订: 更新一些下一代模型以缩短低延迟响应时间

缺陷修订: 已更新以下下一代模型,以在使用 low_latency 参数时缩短其响应时间:

  • en-IN_Telephony
  • hi-IN_Telephony
  • it-IT_Multimedia
  • nl-NL_Telephony

先前,使用 low_latency 参数时,这些模型未按预期快速返回识别结果。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

2022 年 8 月 19 日

重要信息: 大多数上一代模型的废弃日期现在为 3 2023 年 3 月

已取代: 此废弃通知已被 2023 年 2 月 15 日服务更新 取代。 所有 上一代模型的服务结束日期现在为 2023 年 7 月 31 日

在 2022 年 3 月 15 日,不推荐使用除阿拉伯语和日语以外的所有语言的前代模型。 当时,不推荐的模型将一直保持可用状态,直到 2022 年 9 月 15 日。 为了让用户有更多时间迁移到相应的下一代模型,不推荐的模型现在将保持可用状态,直到 3 2023 年 3 月。 与初始废弃通知一样, 不推荐使用阿拉伯语和日语前代模型。 有关所有不推荐的模型的完整列表,请参阅 2022 年 3 月 15 日服务更新

在 3 2023 年 3 月,将从服务和文档中除去不推荐的模型。 如果使用任何不推荐的模型,那么必须在 3 2023 年 3 月之前迁移到等效的下一代模型。

注: 从服务中除去先前生成 en-US_BroadbandModel 时,下一代 en-US_Multimedia 模型将成为语音识别请求的缺省模型。

2022 年 8 月 15 日

全新法国加拿大下一代多媒体模型

该服务现在为法语加拿大人提供下一代多媒体模型: fr-CA_Multimedia。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅

英语下一代电话模型的更新

英语下一代电话型号已经更新,语音识别功能得到改进:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

所有这些模型都继续支持低延迟。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

意大利下一代多媒体模型现在支持低延迟

意大利下一代多媒体模型 it-IT_Multimedia 现在支持低延迟。 有关下一代模型和低延迟的更多信息,请参阅

重要信息: 定制声学模型正在减少的最大音频数据小时数

要点: 可以添加到定制声学模型的最大音频数据量将从 200 小时减少到 50 小时。 这一变化正在从 8 月到 2022 年 9 月分阶段进入不同的地点。 有关限制缩减的调度以及对于包含超过 50 小时音频的现有定制声学模型意味着什么的信息,请参阅 最大音频小时数

2022 年 8 月 3 日

缺陷修订: 更新语音犹豫和犹豫标记文档

缺陷修订: 已更新语音迟疑和迟疑标记的文档。 上一代模型包括在大多数语言的转录结果中使用犹豫标记代替语音犹豫标记; 智能格式化从美国英语最终记录中移除犹豫标记。 下一代模型包含转录结果中的实际语音犹豫; 智能格式化对其包含在最终转录结果中没有影响。

要获取更多信息,请参阅:

1 2022 年 6 月

对多个下一代电话模型的更新

以下新一代电话型号已更新,语音识别功能得到改进:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony
  • ko-KR_Telephony

您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

2022 年 5 月 25 日

新一代模型的新 Beta character_insertion_bias 参数

现在,所有下一代模型都支持新的 Beta 参数 character_insertion_bias,该参数可用于所有语音识别接口。 缺省情况下,将针对每个单独的模型对服务进行优化,以平衡其对不同长度的候选字符串的识别。 特定于模型的偏差等同于 0.0。 每个模型的缺省偏差足以满足大多数语音识别请求。

但是,某些用例可能会因偏向具有较短或较长字符串的假设而受益。 该参数接受介于 -1.0 和 1.0 之间的值,这些值表示模型缺省值的更改。 负值指示服务青睐较短的字符字符串。 正值指示服务青睐较长的字符串。 有关更多信息,请参阅 字符插入偏差

2022 年 5 月 19 日

新的意大利语 it-IT_Multimedia 下一代模型

该服务现在为意大利语提供下一代多媒体模型: it-IT_Multimedia。 新模式普遍可用。 它不支持低延迟,但支持语言模型定制和语法。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

更新的韩国电话和多媒体下一代模型

现有韩国下一代机型已更新:

  • 已更新 ko-KR_Telephony 模型,以改进对语音识别的低延迟支持。
  • ko-KR_Multimedia 型号已更新,语音识别功能得到改进。 该模型现在还支持低延迟。

这两种模型都普遍可用,并且都支持语言模型定制和语法。 您不需要升级基于这些模型的定制语言模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

缺陷修订: 现在报告所有转录结果的置信度分数

缺陷修订: 现在将针对所有转录结果报告置信度分数。 先前,当服务针对单个语音识别请求返回多个文字记录时,可能不会针对所有文字记录返回置信度分数。

2022 年 4 月 11 日

新的巴西葡萄牙语 pt-BR_Multimedia 下一代模型

该服务现在为巴西葡萄牙语提供下一代多媒体模型: pt-BR_Multimedia。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅

更新为德国 de-DE_Multimedia 下一代模型以支持低延迟

下一代德国型号 de-DE_Multimedia 现在支持低延迟。 您无需升级基于更新后的德国基本模型的定制模型。 有关下一代模型和低延迟的更多信息,请参阅

现在,针对基于下一代模型的定制模型记录了对类似声音的支持

对于基于下一代模型的定制语言模型,现在记录了对定制词的类似声音的规范的支持。 自 2021 年末以来,支持声音-点赞。

对基于下一代和上一代模型的定制模型使用 sounds_like 字段之间存在差异。 有关将 sounds_like 字段与基于下一代模型的定制模型配合使用的更多信息,请参阅 使用下一代模型的定制词

要点: 已从文档中除去不推荐使用的 customization_id 参数

重要信息:9 2018 年 10 月,不推荐使用所有语音识别请求的 customization_id 参数,并将其替换为 language_customization_id 参数。 现在已从语音识别方法的文档中除去 customization_id 参数:

  • 用于 WebSocket 请求的 /v1/recognize
  • 用于同步 HTTP 请求(多括多部分请求)的 POST /v1/recognize
  • 用于异步 HTTP 请求的 POST /v1/recognitions

注: 如果使用 Watson SDK,请确保已更新任何应用程序代码以使用 language_customization_id 参数而不是 customization_id 参数。 从 SDK 的下一个主要发行版开始,customization_id 参数将不再可用于这些 SDK 的等效方法。 有关语音识别方法的更多信息,请参阅 API 和 SDK 参考

2022 年 3 月 17 日

面向下一代模型的语法支持现已普遍可用

现在,对于满足以下条件的下一个常规模型,语法支持已普遍可用 (GA):

  • 这些模型通常可用。
  • 模型支持语言模型定制。

有关更多信息,请参阅以下主题:

全新德国下一代多媒体模型

该服务现在提供面向德语的下一代多媒体模型: de-DE_Multimedia。 新模式普遍可用。 它不支持低延迟。 它支持语言模型定制 (一般可用) 和语法 (Beta)。

有关所有可用的下一代模型及其定制支持的更多信息,请参阅

现在,Beta 下一代 en-WW_Medical_Telephony 模型支持低延迟

现在,Beta 下一代 en-WW_Medical_Telephony 模型支持低延迟。 有关所有下一代模型和低延迟的更多信息,请参阅

2022 年 3 月 15 日

重要信息: 废弃大多数前代模型

已取代: 此废弃通知已被 2023 年 2 月 15 日服务更新 取代。 所有 上一代模型的服务结束日期现在为 2023 年 7 月 31 日

自 2022 年 3 月 15 日起,不推荐使用除阿拉伯语和日语以外的所有语言的前代模型。 不推荐的模型在 2022 年 9 月 15 日之前一直可用,届时将从服务和文档中除去这些模型。 不推荐使用阿拉伯语和日语的前代模型。

现在不推荐使用以下上一代模型:

  • 中文 (普通话): zh-CN_NarrowbandModelzh-CN_BroadbandModel
  • 荷兰语 (荷兰语): nl-NL_NarrowbandModelnl-NL_BroadbandModel
  • 英语 (澳大利亚): en-AU_NarrowbandModelen-AU_BroadbandModel
  • 英语 (英国): en-GB_NarrowbandModelen-GB_BroadbandModel
  • 英语 (美国): en-US_NarrowbandModelen-US_BroadbandModelen-US_ShortForm_NarrowbandModel
  • 法语 (加拿大): fr-CA_NarrowbandModelfr-CA_BroadbandModel
  • 法语 (法国): fr-FR_NarrowbandModelfr-FR_BroadbandModel
  • 德语: de-DE_NarrowbandModelde-DE_BroadbandModel
  • 意大利语: it-IT_NarrowbandModelit_IT_BroadbandModel
  • 韩国语: ko-KR_NarrowbandModelko-KR_BroadbandModel
  • 葡萄牙语 (巴西): pt-BR_NarrowbandModelpt-BR_BroadbandModel
  • 西班牙语 (阿根廷语): es-AR_NarrowbandModeles-AR_BroadbandModel
  • 西班牙语 (Castilian): es-ES_NarrowbandModeles-ES_BroadbandModel
  • 西班牙语 (智利): es-CL_NarrowbandModeles-CL_BroadbandModel
  • 西班牙语 (哥伦比亚): es-CO_NarrowbandModeles-CO_BroadbandModel
  • 西班牙语 (墨西哥语): es-MX_NarrowbandModeles-MX_BroadbandModel
  • 西班牙语 (秘鲁): es-PE_NarrowbandModeles-PE_BroadbandModel

如果使用任何这些不推荐的模型,那么必须在服务结束日期之前迁移到等效的下一代模型。

注: 在 9 月 15 日从服务中除去前代 en-US_BroadbandModel 时,下一代 en-US_Multimedia 模型将成为语音识别请求的缺省模型。

下一代模型现在支持音频解析参数

现在,所有下一代模型都支持以下音频解析参数作为一般可用功能:

  • end_of_phrase_silence_time 指定暂停间隔的持续时间,服务会在暂停间隔内将副本分割成多个最终结果。 有关更多信息,请参阅短语结束静默时间
  • split_transcript_at_phrase_end 指示服务根据输入内容的语义特征将转录内容拆分成多个最终结果。 有关更多信息,请参阅在短语结束位置拆分文字记录
缺陷修订: 正确的演讲者标签文档

缺陷修订: 说话者标签的文档在多个位置包含以下错误语句: 对于下一代模型,不支持将说话者标签用于临时结果或低等待时间。 支持将说话者标签用于下一代模型的临时结果和低延迟。 有关更多信息,请参阅说话者标签

2022 年 2 月 28 日

更新英语和法语下一代多媒体模型,支持低延迟

已更新以下多媒体模型以支持低延迟:

  • 澳大利亚英语: en-AU_Multimedia
  • 英国英语: en-GB_Multimedia
  • 美国英语: en-US_Multimedia
  • 法语: fr-FR_Multimedia

您不需要升级基于这些基本模型构建的定制语言模型。 有关下一代模型和低延迟的更多信息,请参阅

全新 Castilian 西班牙下一代多媒体模型

该服务现在为 Castilian 西班牙语提供下一代多媒体模型: es-ES_Multimedia。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制 (一般可用) 和语法 (Beta)。

有关所有可用的下一代模型及其定制支持的更多信息,请参阅

2022 年 2 月 11 日

缺陷修订: 正确的定制模型升级和基本模型版本文档

缺陷修订: 描述定制模型升级的文档以及用于不同版本的基本模型的版本字符串已更新。 该文档现在指出,针对语言模型定制的升级也适用于下一代模型。 此外,还更新了表示不同版本的基本模型的版本字符串。 并且 base_model_version 参数还可以与升级后的下一代模型配合使用。

有关定制模型升级,需要升级时以及如何使用较低版本的定制模型的更多信息,请参阅

缺陷修订: 更新资本化文档

缺陷修订: 描述服务的文字记录自动大写的文档已更新。 该服务仅将相应的名词用于以下语言和模型:

  • 所有上一代美式英语模型
  • 下一代德国模式

有关更多信息,请参阅 资本化

2022 年 2 月 2 日

现在提供了新的 Beta en-WW_Medical_Telephony 模型

现在提供了新的 Beta 下一代 en-WW_Medical_Telephony。 新模型从医学和药理领域理解术语。 在需要转录常用医疗术语 (例如,医药名称,产品品牌,医疗过程,疾病,医生类型或与 COVID-19-related 术语) 的情况下使用该模型。 常见用例包括患者与医疗提供者 (例如,医生,护士或药剂师) 之间的对话。

新模型可用于所有支持的英语方言: 澳大利亚,印度,英国和美国。 新模型支持语言模型定制和语法作为 Beta 功能。 它支持与 en-US_Telephony 模型相同的大部分参数,包括用于美国英语音频的 smart_formatting。 它不支持以下参数: low_latencyprofanity_filterredactionspeaker_labels

有关更多信息,请参阅 The English medical Telephony model

更新为中文 zh-CN_Telephony 模型

下一代中国模式 zh-CN_Telephony 已更新,以改进语音识别。 该模型继续支持低延迟。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

如果您有基于更新模型的自定义语言模型,则必须使用 POST /v1/customizations/{customization_id}/upgrade_model 方法升级现有的自定义模型,以利用更新的优势。 有关更多信息,请参阅升级定制模型

更新到日语 ja-JP_Multimedia 下一代模型以支持低延迟

下一代日语模型 ja-JP_Multimedia 现在支持低延迟。 您可以将 low_latency 参数与使用模型的语音识别请求配合使用。 您不需要升级基于更新后的日语基本模型的定制模型。 有关下一代模型和低延迟的更多信息,请参阅

3 2021 年 12 月

新型拉美西班牙语下一代电话模式

该服务现在为拉丁美洲西班牙语提供下一代电话模型: es-LA_Telephony。 新模型支持低延迟,并且通常可用。

es-LA_Telephony 模型适用于所有拉丁美洲方言。 它相当于可用于阿根廷,智利,哥伦比亚,墨西哥和秘鲁方言的前代模型。 如果对其中任何特定方言使用了前代模型,请使用 es-LA_Telephony 模型来迁移到等效的下一代模型。

有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

重要事项: 必须重新创建基于某些下一代模型的定制语言模型

重要信息: 如果创建了基于特定下一代模型的定制语言模型,那么必须重新创建定制模型。 在您重新创建自定义语言模型之前,尝试使用自定义模型的语音识别请求将失败,并显示 HTTP 错误代码400。

您需要重新创建根据以下下一代模型版本创建的定制语言模型:

  • 对于 en-AU_Telephony 模型,这是您从 en-AU_Telephony.v2021-03-03en-AU_Telephony.v2021-10-04 创建的定制模型。
  • 对于 en-GB_Telephony 模型,这是您从 en-GB_Telephony.v2021-03-03en-GB_Telephony.v2021-10-04 创建的定制模型。
  • 对于 en-US_Telephony 模型,这是您从 en-US_Telephony.v2021-06-17en-US_Telephony.v2021-10-04 创建的定制模型。
  • 对于 en-US_Multimedia 模型,这是您从 en-US_Multimedia.v2021-03-03en-US_Multimedia.v2021-10-04 创建的定制模型。

要标识定制语言模型所基于的模型版本, 请使用 GET /v1/customizations 方法列出所有定制语言模型,或使用 GET /v1/customizations/{customization_id} 方法列出特定定制语言模型。 输出的 versions 字段显示定制语言模型的基本模型。 有关更多信息,请参阅列出定制语言模型

要重新创建定制语言模型, 首先创建新的定制模型。 然后,将先前定制模型的所有语料库和定制词添加到新模型。 然后,可以删除先前的定制模型。 更多信息,请参阅 创建自定义语言模型

2021 年 10 月 28 日

新型中国下一代电话模式

该服务现在为国语中文提供下一代电话模型: zh-CN_Telephony。 新模型支持低延迟,并且通常可用。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

全新澳大利亚英语和英国英语下一代多媒体模型

该服务现在提供以下下一代多媒体模型。 新模型通常可用,而这两个模型都不支持低延迟。

  • 澳大利亚英语: en-AU_Multimedia
  • 英国英语: en-GB_Multimedia

有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

更新多个下一代模型,以改善语音识别

以下新一代机型的语音识别功能已得到改进:

  • 澳大利亚英语电话模型 (en-AU_Telephony)
  • 英国英语电话模型 (en-GB_Telephony)
  • 美国英语多媒体模型 (en-US_Multimedia)
  • 美国英语电话模型 (en-US_Telephony)
  • Castilian 西班牙语电话模型 (es-ES_Telephony)

有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型

现在已普遍提供对先前生成模型的语法支持

现在,对于满足以下条件的先前通用模型,语法支持已普遍可用 (GA):

  • 这些模型通常可用。
  • 模型支持语言模型定制。

有关更多信息,请参阅以下主题:

面向下一代模型的新 Beta 语法支持

语法支持现在可用作所有下一代模型的 Beta 功能。 所有下一代模型都普遍可用 (GA),并支持语言模型定制。 有关更多信息,请参阅以下主题:

注: 仅适用于 IBM Cloud 上的 Speech to Text 服务的下一代模型对语法的 Beta 支持。 IBM Cloud Pak for Data上的下一代模型尚不支持语法。

受支持功能部件的新 custom_acoustic_model 字段

GET /v1/modelsGET /v1/models/{model_id} 方法现在报告模型是否支持声学模型定制。 SupportedFeatures 对象现在包含另一个字段 custom_acoustic_model,这是一个布尔值,对于支持声学模型定制的模型,该布尔值为 true,否则为 false。 目前,对于所有先前生成的模型,此字段为 true,对于所有下一代模型,此字段为 false

2021 年 10 月 22 日

缺陷修复:解决异步 HTTP 故障
缺陷修复:异步 HTTP 界面无法转录某些音频。 此外,请求的回调返回了状态 recognitions.completed_with_results 而不是 recognitions.failed。 此错误已解决。

6 2021 年 10 月

捷克语和荷兰语下一代模型的更新

以下下一代语言模型已按指示进行了更改:

  • 捷克电话模型 cs-CZ_Telephony 现在已普遍可用 (GA)。 该模型继续支持低延迟。
  • 比利时荷兰语电话模型 nl-BE_Telephony 已更新,以改进语音识别。 该模型继续支持低延迟。
  • 荷兰电话模型 nl-NL_Telephony 现在是 GA。 此外,该模型现在支持低延迟。

有关所有可用的下一代语言模型的更多信息,请参阅 下一代语言和模型

针对达拉斯位置的 Premium 套餐提供新的美国 HIPAA 支持

现在,美国医疗保险可移植性和责任法案 (HIPAA) 支持可用于在达拉斯 (us-south) 位置托管的高级套餐。 如需了解更多信息,请参阅 《健康保险可携性与责任法案》(HIPAA)

2021 年 9 月 16 日

全新测试版捷克和荷兰荷兰下一代车型

该服务现在支持以下新的下一代语言模型。 这两种新模型都是 Beta 功能。

  • 捷克语: cs-CZ_Telephony。 新模型支持低延迟。
  • 荷兰语: nl-NL_Telephony。 新模型不支持低延迟。

有关所有可用的下一代语言模型的更多信息,请参阅 下一代语言和模型

更新韩国和巴西葡萄牙语下一代车型

以下下一代模型已更新:

  • 韩国语模型 ko-KR_Telephony 现在支持低延迟。
  • 巴西葡萄牙语模型 pt-BR_Telephony 已更新,语音识别能力有所提高。
缺陷修订: 正确的临时结果和低延迟文档

缺陷修订: 已重写用于描述临时结果和具有下一代模型的低延迟功能的文档,以确保清晰度和正确性。 有关更多信息,请参阅以下主题:

缺陷修订: 改进演讲者标签结果

缺陷修订: 当您将演讲者标签与下一代模型配合使用时,服务现在会识别输入音频的所有词的演讲者,包括具有相同开始和结束时间戳记的非常短的词。

2021 年 8 月 31 日

现在,所有下一代模型都已普遍可用

所有现有的下一代语言模型现在都已普遍可用 (GA)。 支持在生产环境和应用程序中使用它们。

面向下一代模型的语言模型定制现已普遍可用

现在,对于所有可用的下一代语言和模型,语言模型定制已普遍可用 (GA)。 支持在生产环境和应用程序中使用下一代模型的语言模型定制。

您可以使用相同的命令来创建,管理和使用下一代模型的定制语言模型,语料库和定制词,就像您对上一代模型执行的操作一样。 但是,下一代模型的定制工作方式与上一代模型的定制工作方式不同。 对于基于下一代模型的定制模型:

  • 定制模型没有词汇表外 (OOV) 词的概念。
  • 来自语料库的词不会添加到词资源中。
  • 当前不能将类似声音的功能用于定制词。
  • 更新基本语言模型时,不需要升级定制模型。
  • 当前不支持语法。

有关将语言模型定制用于下一代模型的更多信息,请参阅

其他主题描述如何管理定制语言模型,语料库和定制词。 对于基于前代和下一代模型的定制模型,这些操作相同。

2021 年 8 月 16 日

新测试版印度英语,印度印地语,日语和韩语下一代模型

该服务现在支持以下新的下一代语言模型。 所有新模型都是 Beta 功能。

  • 印度英语: en-IN_Telephony。 该模型支持低延迟。
  • 印度印地语: hi-IN_Telephony。 该模型支持低延迟。
  • 日语: ja-JP_Multimedia。 该模型不支持低延迟。
  • 韩国语: ko-KR_Multimediako-KR_Telephony。 这些模型不支持低延迟。

有关下一代模型和低延迟的更多信息,请参阅 下一代语言和模型低延迟

2021 年 7 月 16 日

新测试版法国下一代模型
现在提供了法语下一代语言模型 fr-FR_Multimedia。 新模型不支持低延迟。 该模型是 Beta 功能。
更新测试版美国英语下一代模型,以改进语音识别
已更新下一代美国英语 en-US_Telephony 模型,以改进语音识别。 更新后的模型仍然是 Beta 功能。
缺陷修订: 更新文档以获取犹豫标记
缺陷修订: 文档未能说明下一代模型不会生成犹豫标记。 文档已更新,以注意到只有上一代模型才会生成犹豫标记。 下一代模型包含转录结果中的实际迟疑。 有关更多信息,请参阅 语音迟疑和迟疑标记

2021 年 6 月 15 日

全新 Beta 比利时荷兰下一代模型

比利时荷兰语 (Flemish) 下一代语言模型 nl-BE_Telephony 现在可用。 新模型支持低延迟。 该模型是 Beta 功能。 有关下一代模型和低等待时间的更多信息,请参阅 下一代语言和模型低等待时间

针对阿拉伯语,加拿大法语和意大利语下一代模型的新 Beta 低延迟支持

以下现有 Beta 下一代语言模型现在支持低延迟:

  • 阿拉伯语 ar-MS_Telephony 模型
  • 加拿大法语 fr-CA_Telephony 模型
  • 意大利语 it-IT_Telephony 模型

有关下一代模型和低等待时间的更多信息,请参阅 下一代语言和模型低等待时间

更新 Beta 阿拉伯语和巴西葡萄牙语下一代模型,以改进语音识别

更新了以下现有的新一代测试版语言模型,以提高语音识别能力:

  • 阿拉伯语 ar-MS_Telephony 模型
  • 巴西葡萄牙语 pt-BR_Telephony 模型

有关下一代模型和低等待时间的更多信息,请参阅 下一代语言和模型低等待时间

2021 年 5 月 26 日

针对下一代模型的 audio_metrics 参数的新 Beta 支持
现在支持 audio_metrics 参数作为 Beta 功能,用于所有下一代语言和模型。 有关更多信息,请参阅音频度量值
针对下一代模型的 word_confidence 参数的新 Beta 支持
现在支持 word_confidence 参数作为 Beta 功能,用于所有下一代语言和模型。 有关更多信息,请参阅词置信度
缺陷修订: 更新下一代模型的文档
缺陷修订: 文档已更新以更正以下信息:
  • 使用下一代模型进行语音识别时,最终转录结果现在包含 confidence 字段。 使用前代模型时,该字段始终包含在最终转录结果中。 此修订解决了针对下一代模型的 2021 年 4 月 12 日发行版报告的限制。
  • 文档错误地指出,使用 smart_formatting 参数会导致服务从日语的最终转录结果中除去犹豫标记。 对于日语,智能格式化不会从最终结果中除去犹豫标记,仅针对美国英语。 有关更多信息,请参阅 智能格式化会影响哪些结果?

2021 年 4 月 27 日

新的 Beta 阿拉伯语和巴西葡萄牙语下一代模型

该服务支持两种新的 Beta 下一代模型:

  • 巴西葡萄牙语 pt-BR_Telephony 模型,支持低延迟。
  • 阿拉伯语 (现代标准) ar-MS_Telephony 模型,不支持低延迟。

有关更多信息,请参阅 下一代语言和模型

更新 Beta Castilian 西班牙下一代模型,以改进语音识别

现在,Beta 下一代 Castilian 西班牙语 es-ES_Telephony 模型支持 low_latency 参数。 有关更多信息,请参阅 低等待时间

针对具有下一代模型的扬声器标签的新 Beta 支持

现在,支持将 speaker_labels 参数作为 Beta 功能用于以下下一代模型:

  • 澳大利亚英语 en-AU_Telephony 模型
  • 英国英语 en-GB_Telephony 模型
  • 美国英语 en-US_Multimediaen-US_Telephony 模型
  • 德语 de-DE_Telephony 模型
  • Castilian 西班牙语 es-ES_Telephony 模型

对于下一代模型,此时不支持将 speaker_labels 参数与 interim_resultslow_latency 参数配合使用。 有关更多信息,请参阅说话者标签

新一代车型使用 word_confidence 时出现新的 HTTP 错误代码

不支持将 word_confidence 参数用于下一代模型。 如果将 word_confidence 参数与下一代模型配合使用以进行语音识别,那么该服务现在将返回以下 400 错误代码:

{
  "error": "word_confidence is not a supported feature for model {model}",
  "code": 400,
  "code_description": "Bad Request"
}

2021 年 4 月 12 日

新的 Beta 下一代语言模型和 low_latency 参数

该服务现在支持越来越多的下一代语言模型。 下一代 多媒体电话 模型改进了服务的上一代宽带和窄带模型的语音识别功能。 新模型利用深度神经网络和双向分析来实现更高的吞吐量和更高的转录准确性。 此时,下一代模型仅支持有限数量的语言和语音识别功能。 受支持的语言,模型和功能将随着未来发行版而增加。 下一代模型是 Beta 功能。

许多下一代模型还支持新的 low_latency 参数,这使您能够以降低转录质量为代价请求更快的结果。 启用低延迟时,服务会限制其对音频的分析,这会降低转录的准确性。 如果您的应用程序需要的响应时间比它具有尽可能高的 accuracy.The low_latency 参数是 Beta 功能。

low_latency 参数会影响您将 interim_results 参数与 WebSocket 接口配合使用。 临时结果仅适用于支持低等待时间的下一代模型,并且仅当 interim_resultslow_latency 参数都设置为 true 时才可用。

2021 年 3 月 17 日

缺陷修复:修复异步 HTTP 接口的限制
缺陷修复:2020年12月16日,达拉斯( us-south )的异步 HTTP 接口出现限制,现已解决。 先前,一小部分作业进入了阻止其执行的无限循环。 达拉斯数据中心中的异步 HTTP 请求不再受此限制。

2020 年 12 月 2 日

阿拉伯语模型已重命名为 ar-MS_BroadbandModel
阿拉伯语宽带模型现在命名为 ar-MS_BroadbandModel。 不推荐使用先前的名称 ar-AR_BroadbandModel。 它将继续运行至少一年,但可能在将来某个日期被移除。 鼓励您尽早迁移到新名称。

2 2020 年 11 月

加拿大法语模型现已普遍可用

加拿大法语型号 fr-CA_BroadbandModelfr-CA_NarrowbandModel 现在已普遍可用 (GA)。 它们以前是 Beta 版。 他们现在还支持语言模型和声学模型定制。

2020 年 10 月 22 日

澳大利亚英语模型现在普遍可用

澳大利亚英语模型 en-AU_BroadbandModelen-AU_NarrowbandModel 现在已普遍可用 (GA)。 它们以前是 Beta 版。 他们现在还支持语言模型和声学模型定制。

更新巴西葡萄牙语模型以改进语音识别

已更新巴西葡萄牙语模型 pt-BR_BroadbandModelpt-BR_NarrowbandModel,以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

split_transcript_at_phrase_end 参数现在通常可用于所有语言

语音识别参数 split_transcript_at_phrase_end 现已可用于所有语言。 先前,它只对美国英语和英国英语一般可用。 有关更多信息,请参阅在短语结束位置拆分文字记录

7 2020 年 10 月

更新日本宽带模型,以改进语音识别

ja-JP_BroadbandModel 型号已更新,语音识别功能得到改进。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于此模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

2020 年 9 月 30 日

服务定价套餐的更新

服务的定价计划已更改:

  • 该服务继续提供轻量套餐,每月提供对有限分钟语音识别的基本免费访问。
  • 该服务提供新的 Plus 套餐,提供简单的分层定价模型和对服务定制功能的访问权。
  • 该服务提供新的 Premium 套餐,可提供显着更大的容量和增强的功能。

Plus 套餐将替换标准套餐。 Standard 套餐将在短时间内继续可供购买。 它还将无限期地提供给该套餐的现有用户,而不改变其定价。 现有用户可以随时升级到 Plus 套餐。

有关可用定价计划的更多信息,请参阅以下资源:

  • 有关定价套餐和常见问题解答的常规信息,请参阅 定价常见问题解答
  • 有关定价套餐或要购买套餐的更多信息,请参阅 IBM Cloud® 目录中的 Speech to Text 服务。

2020 年 8 月 20 日

新的加拿大法语模型

现在,服务为加拿大法语提供了 Beta 宽带和窄带模型:

  • fr-CA_BroadbandModel
  • fr-CA_NarrowbandModel

新模型不支持语言模型或声学模型定制、说话者标签或智能格式设置。 有关这些模型和所有支持模型的更多信息,请参阅 支持的上一代语言模型

2020 年 8 月 5 日

新的澳大利亚英语模型

现在,服务为澳大利亚英语提供了 Beta 宽带和窄带模型:

  • en-AU_BroadbandModel
  • en-AU_NarrowbandModel

新模型不支持语言模型或声学模型定制,也不支持智能格式设置。 新模型支持说话者标签。 有关更多信息,请参阅

更新多个模型以改进语音识别

更新了以下模型,以改进语音识别:

  • 法国宽带模型 (fr-FR_BroadbandModel)
  • 德国宽带 (de-DE_BroadbandModel) 和窄带 (de-DE_NarrowbandModel) 模型
  • 英国英语宽带 (en-GB_BroadbandModel) 和窄带 (en-GB_NarrowbandModel) 模型
  • 美国英语短格式窄带 (en-US_ShortForm_NarrowbandModel) 模型

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型,才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

德语的犹豫标记已更改

用于更新德国宽带和窄带型号的犹豫标记从 [hesitation] 变为 %HESITATION。 有关更多信息,请参阅 语音迟疑和迟疑标记

2020 年 6 月 4 日

缺陷修订: 通过许多语法改善定制语言模型的等待时间
缺陷修订: 已解决包含大量语法的定制语言模型的等待时间问题。 此类定制模型最初用于语音识别时,可能需要几秒种才能装入。 现在,这些定制模型的装入速度要快得多,大大缩短了模型用于识别时的等待时间。

2020 年 4 月 28 日

更新意大利语模型以改进语音识别

更新了意大利语宽带 (it-IT_BroadbandModel) 和窄带 (it-IT_NarrowbandModel) 模型,以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型,才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

荷兰语和意大利语模型现已普遍可用

荷兰语和意大利语语言模型现已普遍可用 (GA),可用于语音识别以及语言模型和声学模型定制:

  • 荷兰语宽带模型 (nl-NL_BroadbandModel)
  • 荷兰语窄带模型 (nl-NL_NarrowbandModel)
  • 意大利语宽带模型 (it-IT_BroadbandModel)
  • 意大利语窄带模型 (it-IT_NarrowbandModel)

有关所有可用语言模型的更多信息,请参阅:

2020 年 4 月 1 日

声学模型定制现已普遍可用

对于所有支持的语言,声学模型定制现已普遍可用 (GA)。 与定制语言模型一样,IBM 也不会对创建或托管定制声学模型进行收费。 仅当您将定制模型用于语音识别请求时,会向您收费。

使用定制语言模型和/或定制声学模型进行转录时,每分钟会产生 0.03 美元 (USD) 的附加费用。 此费用是在每分钟 0.02 美元 (USD) 的标准使用量费用之上额外收取的,适用于定制接口支持的所有语言。 因此,使用一个或多个定制模型进行语音识别的总费用为每分钟 0.05 美元 (USD)。

2020 年 3 月 16 日

德语和韩语现在支持说话者标签
现在,服务支持说话者标签(speaker_labels 参数)用于德语和韩语语言模型。 说话者标签用于标识哪些人在多参与者交流中说了哪些词。 有关更多信息,请参阅说话者标签
Activity Tracker 现在支持异步 接口 HTTP
该服务现在支持使用 Activity Tracker 事件进行异步 HTTP 接口的所有操作。IBM Cloud Activity Tracker 记录用户发起的活动,这些活动改变了 IBM Cloud® 中的服务状态。 有关更多信息,请参阅 Activity Tracker 事件

2020 年 2 月 24 日

更新多个模型以改进语音识别

更新了以下模型,以改进语音识别:

  • 荷兰语宽带模型 (nl-NL_BroadbandModel)
  • 荷兰语窄带模型 (nl-NL_NarrowbandModel)
  • 意大利语宽带模型 (it-IT_BroadbandModel)
  • 意大利语窄带模型 (it-IT_NarrowbandModel)
  • 日语窄带模型 (ja-JP_NarrowbandModel)
  • 美国英语宽带模型 (en-US_BroadbandModel)

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

现在,语言模型定制可用于荷兰语和意大利语

新版本的下列模型现在支持荷兰语和意大利语的语言模型定制:

  • 荷兰语宽带模型 (nl-NL_BroadbandModel)
  • 荷兰语窄带模型 (nl-NL_NarrowbandModel)
  • 意大利语宽带模型 (it-IT_BroadbandModel)
  • 意大利语窄带模型 (it-IT_NarrowbandModel)

有关更多信息,请参阅

因为荷兰语和意大利语模型处于 Beta 阶段,所以它们对语言模型定制的支持也处于 Beta 阶段。

日语窄带模型现在包含一些多克字单元

现在,日语窄带模型 (ja-JP_NarrowbandModel) 包含一些多重语法词单元来表示数字和十进制小数。 不管是否启用智能格式设置,服务都会返回这些多重语法单元。 智能格式设置功能可理解并返回模型生成的多重语法单元。 如果是将您自己的后处理应用于转录结果,那么需要相应地处理这些单元。 有关更多信息,请参阅智能格式设置文档中的日语

用于语音识别的新语音活动检测和背景音频抑制参数

现在,服务提供了两个新的可选参数,用于控制语音活动检测的级别。 这两个参数可帮助确保只处理用于语音识别的相关音频。

  • speech_detector_sensitivity 参数可调整语音活动检测的敏感度。 可以使用此参数来抑制因音乐、咳嗽和其他非语音事件而产生的词插入。
  • background_audio_suppression 参数可基于音量来抑制背景音频,以防止它被转录或以其他方式干扰语音识别。 可以使用此参数来抑制私下会话或背景噪声。

这两个参数可以单独使用,也可以一起使用。 它们可用于所有接口和大多数语言模型。 有关这两个参数、其允许值及其对语音识别的质量和等待时间的影响的更多信息,请参阅语音活动检测

现在,定制接口支持 Activity Tracker

现在,该服务支持将 Activity Tracker 事件用于所有定制操作。IBM Cloud Activity Tracker 记录用户启动的活动,这些活动用于更改 IBM Cloud中服务的状态。 您可以使用此服务来调查异常活动和关键操作,并满足监管审计需求。 此外,还可以在发生操作时收到相关警报。 有关更多信息,请参阅 Activity Tracker 事件

缺陷修订: 使用 WebSocket 接口正确生成处理度量

缺陷修复: WebSocket 界面现在可在生成处理指标时无缝运行。 先前,处理度量值可能会在客户机向服务发送 stop 消息后继续传递。

2019 年 12 月 18 日

可用的新 Beta 意大利语模型

现在,服务为意大利语语言提供了 Beta 宽带和窄带模型:

  • it-IT_BroadbandModel
  • it-IT_NarrowbandModel

这些语言模型支持声学模型定制, 但不支持语言模型定制。 由于这些语言模型处于 Beta 阶段,因此它们可能未准备好用于生产,并且会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。

有关更多信息,请参阅以下各部分:

用于语音识别的新 end_of_phrase_silence_time 参数

对于语音识别,该服务现在支持 end_of_phrase_silence_time 参数。 此参数指定服务用于将文字记录拆分为多个最终结果的停顿时间间隔的持续时间。 每个最终结果都指示超过停顿时间间隔的停顿或长时间静默。 对于大多数语言,缺省停顿时间间隔为 0.8 秒;对于中文,缺省时间间隔为 0.6 秒。

可以使用此参数在生成最终结果的频率与转录准确性之间进行权衡。 准确性的重要性高于等待时间时,请增大时间间隔。 预期说话者会说较短的短语或单个词时,请减小时间间隔。

有关更多信息,请参阅短语结束静默时间

用于语音识别的新 split_transcript_at_phrase_end 参数

对于语音识别,该服务现在支持 split_transcript_at_phrase_end 参数。 此参数指示服务基于输入的语义特征(例如,在句子结束处),将文字记录拆分为多个最终结果。 服务对语义特征的理解基于您用于请求的基本语言模型。 定制语言模型和语法还可能会影响服务拆分文字记录的方式和位置。

此参数会使服务将 end_of_utterance 字段添加到每个最终结果,以指示拆分的动机:full_stopsilenceend_of_datareset

有关更多信息,请参阅在短语结束位置拆分文字记录

2019 年 12 月 12 日

完全支持 IBM Cloud IAM

现在,Speech to Text 服务支持完整实现 IBM Cloud Identity and Access Management (IAM)。 IBM Watson® 服务的 API 密钥不再局限于单个服务实例。 您可以创建应用于多个服务的访问策略和 API 密钥,并且可以授予服务之间的访问权。 有关 IAM 的更多信息,请参阅 认证到 Watson 服务

为支持此更改,API 服务端点会使用不同的域并包含服务实例标识。 模式为 api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id}

  • 在达拉斯位置托管的实例的示例 HTTP URL:

    https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

  • 在达拉斯位置托管的实例的示例 WebSocket URL:

    wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

有关 URL 的更多信息,请参阅 API & SDK 参考资料

这些 URL 不属于重大更改。 新的 URL 适用于现有服务实例和新实例。 原始 URL 在现有服务实例上将至少继续使用一年,直到 2020 年 12 月结束。

提供新的网络和数据安全功能

现在支持以下新的网络和数据安全功能:

  • 支持专用网络端点

    高级计划的用户可以创建专用网络端点,通过专用网络连接到 Speech to Text 服务。 与专用网络端点的连接不需要公用因特网访问权。 有关更多信息,请参阅公共和专用网络端点

2019 年 12 月 10 日

新的 Beta 荷兰语模型可用

该服务目前提供荷兰语的宽带和窄带测试版:

  • nl-NL_BroadbandModel
  • nl-NL_NarrowbandModel

这些语言模型支持声学模型定制, 但不支持语言模型定制。 由于这些语言模型处于 Beta 阶段,因此它们可能未准备好用于生产,并且会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。

有关更多信息,请参阅以下各部分:

2019 年 11 月 25 日

更新演讲者标签,以改进个人演讲者的识别
更新了说话者标签,以改进对单个说话者的标识,从而进一步分析音频样本。 有关说话者标签功能的更多信息,请参阅说话者标签。 有关功能改进的更多信息,请参阅 IBM Research AI Advances Speaker Diarization in Real Use Cases

2019 年 11 月 12 日

现在提供新的首尔位置
Speech to Text 服务现已在 IBM Cloud Seoul location (kr-seo ) 上提供。 与其他位置一样,此 IBM Cloud 位置也使用的是基于令牌的 IAM 认证。 在此位置中创建的所有新服务实例都会使用 IAM 认证。

2019 年 11 月 1 日

对最大定制模型数的新限制
对于每个拥有凭证,可以创建的定制语言模型数和定制声学模型数均不能超过 1024 个。 有关更多信息,请参阅最大定制模型数

2019 年 10 月 1 日

新的美国 HIPAA 支持华盛顿特区的高级套餐,位置
美国 HIPAA 支持适用于托管在华盛顿特区 (美国东部 )且在 2019 年 4 月 1 日或之后创建的高级计划。 有关更多信息,请参阅美国健康保险可移植性和责任法案 (HIPAA)

2019 年 8 月 22 日

缺陷修订: 多项小型改进
更新了服务,以进行小的缺陷修订和改进。

2019 年 7 月 30 日

现在提供西班牙语方言的新模型

该服务现在提供六种西班牙语方言的宽带和窄带语言模型:

  • 阿根廷西班牙语(es-AR_BroadbandModeles-AR_NarrowbandModel
  • 卡斯蒂利亚西班牙语(es-ES_BroadbandModeles-ES_NarrowbandModel
  • 智利西班牙语(es-CL_BroadbandModeles-CL_NarrowbandModel
  • 哥伦比亚西班牙语(es-CO_BroadbandModeles-CO_NarrowbandModel
  • 墨西哥西班牙语(es-MX_BroadbandModeles-MX_NarrowbandModel
  • 秘鲁西班牙语(es-PE_BroadbandModeles-PE_NarrowbandModel

卡斯蒂利亚西班牙语模型并不是新模型。 它们在语音识别和语言模型定制方面具有普遍可用性(GA),在声学模型定制方面具有测试版。

其他五种方言是新增的,针对所有用途都是 Beta 功能。 由于这些其他方言是 Beta 功能,因此它们可能未准备好用于生产,并且会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。

有关更多信息,请参阅以下各部分:

2019 年 6 月 24 日

更新巴西葡萄牙语和美国英语模型,以改进语音识别

更新了以下窄带模型,以改进语音识别:

  • 巴西葡萄牙语窄带模型 (pt-BR_NarrowbandModel)
  • 美国英语窄带模型 (en-US_NarrowbandModel)

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

对用于更新不同定制声学模型的并发请求的新支持

现在,服务允许同时提交多个请求,以将不同的音频资源添加到定制声学模型。 先前,服务仅允许一次提交一个请求来向定制声学模型添加音频。

用于列出定制模型的方法的新 updated 字段

现在,用于列出有关定制语言模型和定制声学模型的信息的 HTTP GET 方法的输出包含 updated 字段。 该字段指示上次修改定制模型的日期和时间,采用协调世界时 (UTC)。

更改与定制模型训练关联的警告的模式

strict 参数设置为 false 时,对于定制模型训练请求生成的警告,模式已更改。 字段的名称 warning_iddescription 分别更改为 codemessage。 有关更多信息,请参阅 API 和 SDK 参考

2019 年 6 月 10 日

处理指标不适用于同步 HTTP 界面
处理指标仅适用于 WebSocket 和异步 HTTP 接口。 不支持处理度量值用于同步 HTTP 接口。 有关更多信息,请参阅处理度量值

2019 年 5 月 17 日

语音识别的新处理度量值和音频度量值功能

现在,服务对于语音识别请求,提供了两种类型的可选度量值:

  • 处理度量值,用于提供有关服务的输入音频分析的详细计时信息。 服务以指定的时间间隔返回度量值以及转录事件,例如中间结果和最终结果。 使用这些度量值可测量服务转录音频的进度。
  • 音频度量值,用于提供有关输入音频信号特征的详细信息。 在语音处理结束时,结果中提供整个输入音频的聚集度量值。 使用这些度量值可确定音频的特征和质量。

您可以使用任何语音识别请求来请求这两种类型的度量值。 缺省情况下,服务不会为请求返回度量值。

更新日本宽带模型,以改进语音识别

更新了日语宽带模型 (ja-JP_BroadbandModel),以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于该模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用这些更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

2019 年 5 月 10 日

更新西班牙语模型以改进语音识别

更新了西班牙语语言模型,以改进语音识别:

  • es-ES_BroadbandModel
  • es-ES_NarrowbandModel

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

2019 年 4 月 19 日

现在提供了用于定制模型训练的新 strict 参数
现在,定制接口的训练方法包含 strict 查询参数,用于指示在定制模型包含有效和无效资源的组合时,训练是否继续进行。 缺省情况下,如果定制模型包含一个或多个无效资源,训练会失败。 将此参数设置为 false,以允许只要模型包含至少一个有效资源,就继续进行训练。 服务会从训练中排除无效的资源。
对定制语言模型的最大词汇表外词数的新限制
现在,最多可以向定制语言模型的词资源添加 9 万个未登录词 (OOV)。 先前最多可以添加 3 万个 OOV 词。 此数字包括来自所有源(语料库、语法和直接添加的单个定制词)的 OOV 词。 最多可以从所有源向定制模型添加共 1000 万个词。 有关更多信息,请参阅我需要多少数据?

2019 年 4 月 3 日

对定制声学模型的最大音频量的新限制
现在,定制声学模型最多可接受 200 小时的音频。 先前的最大限制为 100 小时音频。

2019 年 3 月 21 日

现在,服务凭证的可视性受角色限制

现在,用户只能查看与分配给其 IBM Cloud 帐户的角色相关联的服务凭证信息。 例如,如果为您分配了 reader 角色,那么无法查看任何 writer 或更高级别的服务凭证。

此更改不会影响具有现有服务凭证的用户或应用程序的 API 访问权。 此更改仅影响在 IBM Cloud 中查看凭证。

2019 年 3 月 15 日

A-law 音频格式的新支持
现在,服务支持 A-law (audio/alaw) 格式的音频。 有关更多信息,请参阅 audio/alaw 格式

2019 年 3 月 11 日

更改为 max_alternatives 参数的 0 的传递值
对于 max_alternatives 参数,服务再次接受 0 的值。 如果指定 0,那么服务将自动使用缺省值 1。 3 月 4 日服务更新所做的更改导致值 0 返回错误。 (如果指定负值,服务会返回错误。)
更改为 word_alternatives_threshold 参数的 0 的传递值
对于 word_alternatives_threshold 参数,服务再次接受值 0。 3 月 4 日服务更新所做的更改导致值 0 返回错误。 (如果指定负值,服务会返回错误。)
置信度分数的最大精度的新限制
现在,服务会返回所有置信度分数,并且最多精确到两位小数。 此更改包括文字记录、词置信度、词替代项、关键字结果和说话者标签的置信度分数。

2019 年 3 月 4 日

更新巴西葡萄牙语,法语和西班牙语窄带模型,以改进语音识别

更新了以下窄带语言模型,以改进语音识别:

  • 巴西葡萄牙语窄带模型 (pt-BR_NarrowbandModel)
  • 法语模型 (fr-FR_NarrowbandModel)
  • 西班牙语窄带模型 (es-ES_NarrowbandModel)

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

2019 年 1 月 28 日

WebSocket 接口对 IBM Cloud IAM 的新支持

现在,WebSocket 接口支持通过基于浏览器的 JavaScript 代码进行基于令牌的 Identity and Access Management (IAM) 认证。 与此相反的限制已除去。 要使用 WebSocket /v1/recognize 方法建立已认证的连接,请执行以下操作:

  • 如果使用的是 IAM 认证,请包含 access_token 查询参数。
  • 如果使用的是 Cloud Foundry 服务凭证,请包含 watson-token 查询参数。

有关更多信息,请参阅打开连接

2018 年 12 月 20 日

现在提供了用于定制语言模型的新 Beta 语法功能

现在,服务支持语法用于语音识别。 语法可作为 Beta 功能用于支持语言模型定制的所有语言。 可以向定制语言模型添加语法,并使用这些语法来限制服务可以从音频中识别的短语集。 可以定义扩充巴科斯范式 (ABNF) 或 XML 格式的语法。

以下四种方法可用于使用语法:

  • POST /v1/customizations/{customization_id}/grammars/{grammar_name} 用于将语法文件添加到定制语言模型。
  • GET /v1/customizations/{customization_id}/grammars 用于列出有关定制模型的所有语法的信息。
  • GET /v1/customizations/{customization_id}/grammars/{grammar_name} 用于返回有关定制模型的指定语法的信息。
  • DELETE /v1/customizations/{customization_id}/grammars/{grammar_name} 用于从定制模型中除去现有语法。

可以将语法用于通过 WebSocket 和 HTTP 接口执行的语音识别。 使用 language_customization_idgrammar_name 参数来标识要使用的定制模型和语法。 目前,对于一个语音识别请求,只能使用单个语法。

有关语法的更多信息,请参阅以下文档:

有关接口所有方法的信息,请参阅 API & SDK 参考资料

现在提供了美国英语,日语和韩国语的新数字编辑功能

现在,新的数字编辑功能可用于掩蔽具有三位或更多连续位数的数字。 编辑功能旨在从文字记录中除去敏感个人信息,例如信用卡号。 通过在识别请求中将 redaction 参数设置为 true 可启用此功能。 这是 Beta 功能,仅可用于美国英语、日语和韩语。 有关更多信息,请参阅数字编辑

现在提供新的法语和德语窄带模型

现在,以下新的德语和法语语言模型可用于服务:

  • 法语窄带模型 (fr-FR_NarrowbandModel)
  • 德国窄带模型 (de-DE_NarrowbandModel)

这两种新模型都支持语言模型定制 (GA) 和声学模型定制 (Beta)。 有关更多信息,请参阅定制的语言支持

现在提供新的美国英语 en-US_ShortForm_NarrowbandModel

现在,提供了新的美国英语语言模型 en-US_ShortForm_NarrowbandModel。 此新模型旨在用于交互式声音响应和自动客户支持解决方案。 此模型支持语言模型定制 (GA) 和声学模型定制 (Beta)。 有关更多信息,请参阅美国英语短格式模型

更新英国英语和西班牙语窄带模型,以改进语音识别

更新了以下语言模型,以改进语音识别:

  • 英国英语窄带模型 (en-GB_NarrowbandModel)
  • 西班牙语窄带模型 (es-ES_NarrowbandModel)

缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

新增对 G.279 音频格式的支持

现在,服务支持 G.729 (audio/g729) 格式的音频。 服务仅支持 G.729 附录 D 用于窄带音频。 有关更多信息,请参阅 audio/g729 格式

演讲者标签功能现在可用于英国英语窄带模型

演讲者标签功能现在可用于英国英语的窄带模型 (en-GB_NarrowbandModel)。该功能是所有受支持语言的 Beta 功能。 有关更多信息,请参阅说话者标签

对定制声学模型的最大音频量的新限制

可以添加到定制声学模型的最大音频量从 50 小时增加到 100 小时。

2018 年 12 月 13 日

新的伦敦位置现在可用
现在,Speech to Text 服务在 IBM Cloud 伦敦位置 (eu-gb) 可用。 与所有位置一样,伦敦也使用基于令牌的 IAM 认证。 在此位置中创建的所有新服务实例都会使用 IAM 认证。

2018 年 11 月 12 日

针对日语语音识别的智能格式化的新支持
现在,服务支持智能格式设置用于日语语音识别。 先前,服务仅支持智能格式设置用于美国英语和西班牙语。 这是用于所有受支持语言的 Beta 功能。 有关更多信息,请参阅智能格式设置

2018 年 11 月 7 日

新的东京位置现在可用
现在,Speech to Text 服务在 IBM Cloud 东京位置 (jp-tok) 可用。 与所有位置一样,东京也使用基于令牌的 IAM 认证。 在此位置中创建的所有新服务实例都会使用 IAM 认证。

2018 年 10 月 30 日

对基于令牌的 IBM Cloud IAM 的新支持

对于所有位置,Speech to Text 服务已迁移至基于令牌的 IAM 认证。 现在,所有 IBM Cloud 服务都使用 IAM 认证。 在各个位置,Speech to Text 服务的迁移日期如下:

  • 达拉斯 (us-south):2018 年 10 月 30 日
  • 法兰克福 (eu-de):2018 年 10 月 30 日
  • 华盛顿 (us-east):2018 年 6 月 12 日
  • 悉尼 (au-syd):2018 年 5 月 15 日

迁移到 IAM 认证对新的和现有服务实例的影响有所不同:

  • 在任何位置创建的所有新服务实例现在都使用 IAM 认证来访问服务。 可以传递不记名令牌或 API 密钥:令牌支持已认证的请求,而无需在每个调用中嵌入服务凭证;API 密钥使用 HTTP 基本认证。 使用任何 Watson SDK 时,都可以传递 API 密钥,并让 SDK 来管理令牌的生命周期。
  • 在指示的迁移日期之前在某个位置中创建的现有服务实例将继续使用其先前 Cloud Foundry 服务凭证中的 {username}{password} 进行认证,直到将其迁移为使用 IAM 认证为止。

有关更多信息,请参阅以下文档:

2018 年 10 月 9 日

语音识别请求的定价费用的重要更新

自 2018 年 10 月 1 日起,您现在需要为您传递给语音识别服务的所有音频付费。 每月发送的前 1000 分钟的音频不再免费。 有关服务定价计划的更多信息,请参阅 IBM Cloud 目录中的 Speech to Text 服务。

Content-Type 标头现在对大多数语音识别请求都是可选的

Content-Type 标头现在对大多数语音识别请求来说都是可选的。 服务现在会自动检测大多数音频的音频格式(MIME 类型)。 但对于以下格式,仍然必须指定内容类型:

  • audio/basic
  • audio/l16
  • audio/mulaw

如文中所述,为这些格式指定的内容类型必须包含采样率,并且可以选择包含音频的声道数和字节序。 对于其他所有音频格式,都可以省略内容类型或指定内容类型 application/octet-stream 以让服务自动检测格式。

使用 curl 命令通过 HTTP 接口发出语音识别请求时,必须使用 Content-Type 头指定音频格式,指定 "Content-Type: application/octet-stream" 或指定 "Content-Type:"。 如果完全省略该头,curl 将使用缺省值 application/x-www-form-urlencoded。 此文档中的大部分示例会继续指定语音识别请求的格式,而不管是否必需。

此更改适用于以下方法:

  • 用于 WebSocket 请求的 /v1/recognize。 现在,为通过已打开 WebSocket 连接发起请求而发送的文本消息的 content-type 字段是可选的。
  • 用于同步 HTTP 请求的 POST /v1/recognize。 现在,Content-Type 头是可选的。 (对于多部分请求,JSON 元数据的 part_content_type 字段现在也是可选的。)
  • 用于异步 HTTP 请求的 POST /v1/recognitions。 现在,Content-Type 头是可选的。

有关更多信息,请参阅音频格式

更新巴西葡萄牙语宽带模型,以改进语音识别

更新了巴西葡萄牙语宽带模型 pt-BR_BroadbandModel,以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于此模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

customization_id 参数已重命名为 language_customization_id

不推荐使用语音识别方法的 customization_id 参数,在未来发行版中会除去此参数。 要为语音识别请求指定定制语言模型,请改为使用 language_customization_id 参数。 此更改适用于以下方法:

  • 用于 WebSocket 请求的 /v1/recognize
  • 用于同步 HTTP 请求(多括多部分请求)的 POST /v1/recognize
  • 用于异步 HTTP 请求的 POST /v1/recognitions

2018 年 9 月 10 日

新的德国宽带模式

现在,服务支持德语宽带模型 de-DE_BroadbandModel。 新的德语模型支持语言模型定制(普遍可用)和声学模型定制 (Beta)。

现在可用于巴西葡萄牙语的语言模型定制

现在,现有巴西葡萄牙语模型 pt-BR_BroadbandModelpt-BR_NarrowbandModel 支持语言模型定制(普遍可用)。 这两个模型未更新为启用此支持,因此无需升级现有定制声学模型。

更新美国英语和日语模型,以改进语音识别

提供了美国英语和日语宽带和窄带模型的新版本:

  • 美国英语宽带模型 (en-US_BroadbandModel)
  • 美国英语窄带模型 (en-US_NarrowbandModel)
  • 日语宽带模型 (ja-JP_BroadbandModel)
  • 日语窄带模型 (ja-JP_NarrowbandModel)

新模型提供了改进的语音识别功能。 缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型,才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

关键字识别和词替代功能现在已普遍可用

对于所有语言,关键字识别和词替代项功能现已普遍可用 (GA),而不再是 Beta 功能。 有关更多信息,请参阅

缺陷修订: 改进定制接口的文档

缺陷修订: 已解决与定制接口关联的下列已知问题,并且已在生产中解决这些问题。 以下信息是为过去可能遇到过这些问题的用户保留的。

  • 如果向定制语言模型或定制声学模型添加了数据,那么必须重新训练模型后,才能将其用于语音识别。 此问题会出现在以下场景中:

    1. 用户创建了新的定制模型(语言或声学)并训练了该模型。

    2. 用户向定制模型添加了其他资源(词、语料库或音频),但未重新训练该模型。

    3. 用户无法将定制模型用于语音识别。 将定制模型用于语音识别请求时,服务会返回以下格式的错误:

      {
        "code_description": "Bad Request",
        "code": 400,
        "error": "Requested custom language model is not available.
                  Please make sure the custom model is trained."
      }
      

    要解决此问题,用户必须基于定制模型的最新数据重新训练该模型。 然后,用户可以将定制模型用于语音识别。

  • 在训练现有定制语言模型或定制声学模型之前,必须先将其升级到其基本模型的最新版本。 此问题会出现在以下场景中:

    1. 用户具有基于已更新模型的现有定制模型(语言或声学)。
    2. 用户未先升级到基本模型的最新版本,就基于基本模型的旧版本来训练现有定制模型。
    3. 用户无法将定制模型用于语音识别。

    要解决此问题,用户必须使用 POST /v1/customizations/{customization_id}/upgrade_modelPOST /v1/acoustic_customizations/{customization_id}/upgrade_model 方法将定制模型升级到其基本模型的最新版本。 然后,用户可以将定制模型用于语音识别。

2018 年 9 月 7 日

基于会话的接口不再可用

不再支持基于会话的 HTTP REST 接口。 文档中除去了与会话相关的所有信息。 以下方法不再可用:

  • POST /v1/sessions
  • POST /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/observe_result
  • DELETE /v1/sessions/{session_id}

如果应用程序使用的是会话接口,那么必须迁移到其余的某个 HTTP REST 接口或迁移到 WebSocket 接口。 有关更多信息,请参阅 2018 年 8 月 8 日的服务更新。

2018 年 8 月 8 日

基于会话的语音识别接口的弃用通知

2018 年 8 月 8 日开始,将废弃基于会话的 HTTP REST 接口。 从 2018 年 9 月 7 日开始,将从服务中除去会话 API 的所有方法,在此之后,您将无法再使用基于会话的接口。 此直接废弃通知和 30 天除去通知适用于以下方法:

  • POST /v1/sessions
  • POST /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/observe_result
  • DELETE /v1/sessions/{session_id}

如果应用程序使用的是会话接口,那么必须在 9 月 7 日之前迁移到下列其中一个接口:

  • 对于基于流的语音识别(包括实时用例),请使用 WebSocket 接口,此接口提供了对中间结果的访问和最短延迟。
  • 对于基于文件的语音识别,请使用下列其中一个接口:
    • 对于包含最长几分钟的音频的较短文件,请使用同步 HTTP 接口 (POST /v1/recognize) 或异步 HTTP 接口 (POST /v1/recognitions)。
    • 对于包含超过几分钟的音频的更长文件,请使用异步 HTTP 接口。 异步 HTTP 接口接受单个请求中最多 1 GB 音频数据。

WebSocket 和 HTTP 接口提供的结果与会话接口的相同(唯一的区别是 WebSocket 接口会提供中间结果)。 您还可以使用 Watson SDK,它可以简化使用任何接口的应用程序开发。 有关更多信息,请参阅 API 和 SDK 参考

2018 年 7 月 13 日

更新西班牙语窄带模型以改进语音识别

更新了西班牙语窄带模型 es-ES_NarrowbandModel,以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于此模型的定制语言模型或定制声学模型,那么必须使用以下方法升级定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

从此更新开始,以下两个版本的西班牙语窄带模型可用:

  • es_ES.8kHz.general.lm20180522235959.am20180522235959 (当前)
  • es_ES.8kHz.general.lm20180308235959.am20180308235959 (上一个)

模型的以下版本不再可用:

  • es_ES.8kHz.general.lm20171031235959.am20171031235959

如果识别请求尝试使用基于现在不可用的基本模型的定制模型,该请求将使用未进行任何定制的最新基本模型。 该服务返回以下警告消息: Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported. 要使用基于不可用模型的定制模型进行恢复,必须首先使用先前描述的相应 upgrade_model 方法来升级模型。

2018 年 6 月 12 日

在华盛顿特区位置托管的应用程序的新功能

针对在华盛顿 (us-east) 托管的应用程序启用了以下功能:

  • 现在,服务支持新的 API 认证过程。 有关更多信息,请参阅 2018 年 10 月 30 日服务更新
  • 现在,服务支持 X-Watson-Metadata 头和 DELETE /v1/user_data 方法。 有关更多信息,请参阅信息安全

2018 年 5 月 15 日

在悉尼位置托管的应用程序的新功能

针对在悉尼 (au-syd) 托管的应用程序启用了以下功能:

  • 现在,服务支持新的 API 认证过程。 有关更多信息,请参阅 2018 年 10 月 30 日服务更新
  • 现在,服务支持 X-Watson-Metadata 头和 DELETE /v1/user_data 方法。 有关更多信息,请参阅信息安全

2018 年 3 月 26 日

语言模型定制现在可用于法语宽带模型

该服务现在支持针对法语宽带语言模型的语言模型定制,fr-FR_BroadbandModel。 法语模型一般可用于生产(GA),并可定制语言模型。

更新法语,韩语和西班牙语模型以改进语音识别

更新了以下型号,提高了语音识别能力:

  • 韩国语窄带模型 (ko-KR_NarrowbandModel)
  • 西班牙语窄带模型 (es-ES_NarrowbandModel)
  • 法国宽带模型 (fr-FR_BroadbandModel)

缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于其中任一模型的定制语言模型或定制声学模型,那么必须使用以下方法升级定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型

version 参数已重命名为 base_model_version

以下方法的 version 参数现在命名为 base_model_version

  • 用于 WebSocket 请求的 /v1/recognize
  • 用于无会话 HTTP 请求的 POST /v1/recognize
  • 用于基于会话的 HTTP 请求的 POST /v1/sessions
  • 用于异步 HTTP 请求的 POST /v1/recognitions

base_model_version 参数指定要用于语音识别的基本模型的版本。 有关更多信息,请参阅 使用已升级的定制模型进行语音识别使用已升级的定制模型发出语音识别请求

针对西班牙语语音识别的智能格式化的新支持

现在,西班牙语和美国英语都支持智能格式设置。 对于美国英语,现在该功能还可将关键字字符串转换为句点、逗号、问号和惊叹号等标点符号。 有关更多信息,请参阅智能格式设置

2018 年 3 月 1 日

更新法语和西班牙语宽带模型,以改进语音识别

法文和西班牙文宽带型号 fr-FR_BroadbandModeles-ES_BroadbandModel 已经更新,语音识别功能得到改进。 缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于其中任一模型的定制语言模型或定制声学模型,那么必须使用以下方法升级定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关更多信息,请参阅升级定制模型。 该部分提供了有关升级定制模型的规则、升级效果和使用已升级模型的方法。

2018 年 2 月 1 日

新的韩国语模型

该服务现在提供韩语语言模型:ko-KR_BroadbandModel (音频采样率至少为 16 kHz, )和 ko-KR_NarrowbandModel (音频采样率至少为 8 kHz )。 有关更多信息,请参阅 上一代语言和模型

在语言模型定制方面,韩语模型一般可用于生产;在声学模型定制方面,它们是测试版功能。 有关更多信息,请参阅定制的语言支持

  • 有关服务如何解析韩语语料库的更多信息,请参阅解析韩语
  • 有关创建韩语定制词的发音相似的读法的更多信息,请参阅针对韩语的准则

2017 年 12 月 14 日

语言模型定制现已普遍可用

对于所有支持的语言,语言模型定制和所有关联的参数现已普遍可用 (GA):日语、西班牙语、英国英语和美国英语。

现在,Beta 声学模型定制可用于所有语言

现在,服务支持将声学模型定制作为所有可用语言的 Beta 功能。 可以创建定制声学模型,以用于所有语言的宽带或窄带模型。 有关定制(包括声学模型定制)的介绍,请参阅 了解定制

用于语音识别的新 version 参数

提出识别请求的各种方法现在都包含一个新的 version 参数,您可以用它来启动使用旧版本或升级版本的基本模型和自定义模型的请求。 虽然它主要用于已升级的定制模型,但 version 参数也可以在没有定制模型的情况下使用。 有关更多信息,请参阅 使用升级后的定制模型发出语音识别请求

更新美国英语模型以改进语音识别

更新了美国英语模型 en-US_BroadbandModelen-US_NarrowbandModel,以改进语音识别。 缺省情况下,服务会自动将更新的模型用于所有识别请求。 如果您具有基于美国英语模型的定制语言模型或定制声学模型,那么必须使用以下方法升级定制模型才能利用更新:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

有关该过程的更多信息,请参阅升级定制模型。 该部分提供了有关升级定制模型的规则、升级效果和使用已升级模型的方法。 目前,这些方法仅适用于新的美国英语基本模型。 但在其他基本模型的升级可用时,这些信息也适用于这些模型的升级。

现在可用于英国英语的语言模型定制

现在,服务支持语言模型定制用于英国英语模型 en-GB_BroadbandModelen-GB_NarrowbandModel。 虽然服务以大致类似的方式来处理英国英语和美国英语语料库及定制词,但仍存在一些重要的差异:

2017 年 10 月 2 日

针对美国英语,日语和西班牙语的新 Beta 声学模型定制接口

现在,定制接口提供了声学模型定制。 您可以创建定制声学模型,用于调整服务的基本模型,以适应您的环境和说话者。 您可以基于与要转录的音频的声学特征匹配度更高的音频来填充和训练定制声学模型。 然后,可将定制声学模型用于识别请求,以提高语音识别的准确性。

定制声学模型用于对定制语言模型进行补充。 可以使用定制语言模型来训练定制声学模型,并且可以在语音识别期间使用这两种类型的模型。 声学模型定制是一个测试版界面,仅适用于美国英语、日语和西班牙语。

定制语言模型的新 Beta customization_weight 参数

对于语言模型定制,服务现在包含一个 Beta 功能,用于为定制语言模型设置可选的定制权重。 定制权重指定要提供给定制语言模型中的词的相对权重,该权重是相对于服务的基本词汇表中的词。 可以在训练和语音识别期间设置定制权重。 有关更多信息,请参阅使用定制权重

更新日本宽带模型,以改进语音识别

升级了 ja-JP_BroadbandModel 语言模型,以捕获基本模型中的改进。 升级不会影响基于此模型的现有定制模型。

audio/l16 音频格式的新 endianness 参数

现在,服务包含一个参数,用于指定以 audio/l16(线性 16 位脉冲编码调制 (PCM))格式提交的音频的字节序。 除了在格式中指定 ratechannels 参数外,现在还可以使用 big-endian 参数指定 little-endianendianness。 有关更多信息,请参阅 audio/l16 格式

2017 年 7 月 14 日

新增对 MP3 (MPEG) 音频格式的支持

现在,服务支持转录 MP3 或运动图像专家组 (MPEG) 格式的音频。 有关更多信息,请参阅 audio/mp3 和 audio/mpeg 格式

现在,Beta 语言模型定制可用于西班牙语

现在,语言模型定制接口将西班牙语作为 Beta 功能支持。 可以基于以下任一基本西班牙语语言模型来创建定制模型:es-ES_BroadbandModeles-ES_NarrowbandModel;有关更多信息,请参阅创建定制语言模型。 使用西班牙语定制语言模型的识别请求的定价与使用美国英语和日语模型的请求相同。

用于创建定制语言模型的方法的新 dialect 字段

现在,传递到 CreateLanguageModel 方法以创建新定制语言模型的 JSON POST /v1/customizations 对象包含 dialect 字段。 此字段指定该语言中要用于定制模型的方言。 缺省情况下,方言与基本模型的语言相匹配。 此参数仅对西班牙语模型有意义,服务可以为其创建适合下列其中一种方言的语音的定制模型:

  • es-ES,用于卡斯蒂利亚西班牙语(缺省)
  • es-LA,用于拉丁美洲西班牙语
  • es-US,用于北美(墨西哥)西班牙语

定制接口的 GET /v1/customizationsGET /v1/customizations/{customization_id} 方法会在其输出中包含定制模型的方言。 有关更多信息,请参阅创建定制语言模型列出定制语言模型

英国英语模型的新名称

已不推荐使用语言模型 en-UK_BroadbandModelen-UK_NarrowbandModel 的名称。 现在,为模型提供的名称为 en-GB_BroadbandModelen-GB_NarrowbandModel

不推荐使用的 en-UK_{model} 名称会继续有效,但 GET /v1/models 方法在可用模型列表中不再返回这些名称。 您仍可以直接使用 GET /v1/models/{model_id} 方法来查询这些名称。

2017 年 7 月 1 日

现在普遍适用于美国英语和日语的语言模型定制

现在,该服务的语言模型定制接口对其支持的两种语言 (美国英语和日语) 都可用 (GA)。IBM 不负责创建,托管或管理定制语言模型。 如下一个项目符号中所述,IBM 现在针对使用定制模型的识别请求,每分钟音频额外收费 0.03 美元 (USD)。

服务定价套餐的更新

IBM 更新了服务的定价,具体表现在:

  • 取消了使用窄带模型的附加价格
  • 为高用量客户提供累进分层定价
  • 对于使用美国英语或日语定制语言模型的识别请求,每分钟音频额外收费 0.03 美元 (USD)

有关定价更新的更多信息,请参阅:

HTTP POST请求不再需要空主体

无需再将空数据对象作为以下 POST 请求的主体传递:

  • POST /v1/sessions
  • POST /v1/register_callback
  • POST /v1/customizations/{customization_id}/train
  • POST /v1/customizations/{customization_id}/reset
  • POST /v1/customizations/{customization_id}/upgrade_model

例如,现在使用 POST /v1/sessions 调用 curl 方法,如下所示:

curl -X POST -u "{username}:{password}" \
--cookie-jar cookies.txt \
"{url}/v1/sessions"

无需再将以下 curl 选项随请求一起传递:--data "{}"。 如果使用其中一个 POST 请求时遇到任何问题,请尝试在请求主体中传递空数据对象。 传递空对象不会以任何方式更改请求的性质或含义。

2017 年 5 月 22 日

已从所有方法中除去 continuous 参数

从所有发起识别请求的方法中除去了 continuous 参数。 现在,服务会对整个音频流进行转录,直至音频流结束或超时,两者以最先发生的时间为准。 此行为等效于将原先的 continuous 参数设置为 true。 先前,缺省情况下,如果省略了此参数或将其设置为 false,服务会在非语音(通常为静默)的第一个半秒处停止转录。

将此参数设置为 true 的现有应用程序不会看到行为有变化。 将此参数设置为 false 或依赖于缺省行为的应用程序很可能会看到变化。 如果请求指定了此参数,现在服务会通过返回针对未知参数的警告消息进行响应:

"warnings": [
  "Unknown arguments: continuous."
]

尽管发出此警告,请求仍会成功,并且现有会话或 WebSocket 连接不受影响。

IBM 根据开发者社区的大量反馈决定除去了此参数,这些反馈指出 continuous=false 几乎没有什么用,而且可能会降低总体转录准确性。

发送避免会话超时所需的音频

在不发送音频时,无法再避免会话超时:

  • 使用 WebSocket 接口时,客户机无法再通过发送将 action 参数设置为 no-op 的 JSON 文本消息来使连接保持活动。 发送 no-op 消息不会生成错误,但也没有任何效果。
  • 通过 HTTP 接口使用会话时,客户机无法再通过发送 GET /v1/sessions/{session_id}/recognize 请求来延长会话。 此方法仍会返回活动会话的状态,但不会使会话保持活动状态。

现在,可以执行以下操作来使会话保持活动:

  • inactivity_timeout 参数设置为 -1 以避免 30 秒不活动超时。
  • 向服务发送任何音频数据(包括只含静默的音频),以避免 30 秒会话超时。 但会根据发送到服务的任何数据的持续时间向您收费,包括发送用于延长会话的静默。

有关更多信息,请参阅超时。 理想情况下,您会在刚好获取音频进行转录之前建立会话,并通过以接近实时的速率发送音频来保持该会话。 此外,确保应用程序从关闭的会话或连接正常恢复。

IBM 除去了此功能,以确保能继续为所有用户提供一流的低延迟语音识别服务。

2017 年 4 月 10 日

现在支持美国英语,西班牙语和日语的说话者标签

现在,服务支持说话者标签功能用于以下宽带模型:

  • 美国英语宽带模型 (en-US-BroadbandModel)
  • 西班牙语宽带模型 (es-ES-BroadbandModel)
  • 日语宽带模型 (ja-JP_BroadbandModel)

有关更多信息,请参阅说话者标签

对 Web 媒体 (WebM) 音频格式的新支持

现在,服务支持使用 Opus 或 Vorbis 编码解码器的 Web 媒体 (WebM) 音频格式。 除了使用 Opus 编码解码器的 Ogg 音频格式外,服务现在还支持使用 Vorbis 编码解码器的 Ogg 音频格式。 有关受支持的音频格式的更多信息,请参阅 audio/webm format

对跨源资源共享的新支持

现在,服务支持跨源资源共享 (CORS),以允许基于浏览器的客户机直接调用服务。 有关更多信息,请参阅 CORS 支持

使用异步 HTTP 接口取消注册回调 URL 的新方法

现在,异步 HTTP 接口提供了 POST /v1/unregister_callback 方法,用于注销列入允许名单的回调 URL。 有关更多信息,请参阅注销回调 URL

缺陷修订: 消除使用 WebSocket 接口的长音频的超时

缺陷修复: WebSocket 界面不再出现识别特别长音频文件请求超时的情况。 您无需再使用 JSON start 消息来请求中间结果以避免超时。 (此问题在 2016 年 3 月 10 日更新 中进行了描述。)

新的 HTTP 错误代码

以下语言模型自定义方法现在可能会返回以下 HTTP 错误代码:

  • 现在,如果尝试使用 DELETE /v1/customizations/{customization_id} 方法来删除不存在的定制模型,会返回 HTTP 响应代码 401。
  • 现在,如果尝试使用 DELETE /v1/customizations/{customization_id}/corpora/{corpus_name} 方法来删除不存在的语料库,会返回 HTTP 响应代码 400。

2017 年 3 月 8 日

异步 HTTP 接口现已普遍可用
异步 HTTP 接口现已普遍可用 (GA)。 在此日期之前,此接口是 Beta 功能。

2016 年 12 月 1 日

新的 Beta 扬声器标签功能

现在,服务为美国英语、西班牙语或日语的窄带音频提供了 Beta 说话者标签功能。 此功能用于在多人交流中标识哪些词是哪些说话者说的。 无会话、基于会话、异步和 WebSocket 识别方法均各自包含 speaker_labels 参数,此参数接受布尔值,以指示是否要在响应中包含说话者标签。 有关此功能的更多信息,请参阅说话者标签

现在可用于日语的 Beta 语言模型定制

现在,除了美国英语外,日语也支持 Beta 语言模型定制接口。 此接口的所有方法都支持日语。 有关更多信息,请参阅以下各部分:

用于列出有关语料库的信息的新方法

现在,语言模型定制接口包含 GET /v1/customizations/{customization_id}/corpora/{corpus_name} 方法,用于列出有关指定语料库的信息。 此方法可用于监视向定制模型添加语料库的请求的状态。 有关更多信息,请参阅列出定制语言模型的语料库

用于列出定制语言模型的词的方法的新 count 字段

GET /v1/customizations/{customization_id}/wordsGET /v1/customizations/{customization_id}/words/{word_name} 方法返回的 JSON 响应现在包括每个单词的 count 字段。 此字段指示在所有语料库中找到该词的次数。 如果在任何语料库添加定制词之前将其添加到模型,那么计数从 1 开始。 如果先从语料库添加该词,然后再进行修改,那么计数仅反映在语料库中找到该词的次数。 更多信息,请参阅 从自定义语言模型中列出自定义词

对于在 count 字段存在之前创建的定制模型,该字段始终保留在 0。 要更新此类模型的字段,请再次添加模型的语料库,并将 allow_overwrite 参数与 POST /v1/customizations/{customization_id}/corpora/{corpus_name} 方法一起包含。

用于列出定制语言模型的词的方法的新 sort 参数

现在,GET /v1/customizations/{customization_id}/words 方法包含 sort 查询参数,用于控制列出词的顺序。 此参数接受两个自变量 alphabeticalcount,用于指示如何对词进行排序。 可以将可选的 +- 附加到自变量前面,以指示结果是按升序还是降序排序。 缺省情况下,此方法会按字母顺序升序显示词。 更多信息,请参阅 从自定义语言模型中列出自定义词

对于在引入 count 字段之前创建的定制模型,将 count 自变量与 sort 参数一起使用没有任何意义。 请将缺省 alphabetical 自变量用于此类模型。

用于列出定制语言模型的词的方法的新 error 字段格式

现在,可以作为 errorGET /v1/customizations/{customization_id}/words 方法的 JSON 响应一部分返回的 GET /v1/customizations/{customization_id}/words/{word_name} 字段是数组。 如果服务发现定制词定义中有一个或多个问题,那么此字段会列出定义中每个有问题的元素,并提供描述问题的消息。 更多信息,请参阅 从自定义语言模型中列出自定义词

keywords_thresholdword_alternatives_threshold 参数不再接受空值

识别方法的 keywords_thresholdword_alternatives_threshold 参数不再接受空值。 要在响应中省略关键字和词替代项,请省略这两个参数。 指定的值必须为浮点数。

2016 年 9 月 22 日

新的 Beta 语言模型定制接口
现在,服务为美国英语提供了新的 Beta 语言模型定制接口。 可以使用此接口通过创建包含特定于领域的术语的定制语言模型,对服务的基本词汇表和语言模型进行定制。 可以单独添加定制词,也可以让服务从语料库中抽取定制词。 要将定制模型用于任何服务接口提供的语音识别方法,请传递 customization_id 查询参数。 有关更多信息,请参阅
audio/mulaw 音频格式的新支持
现在,受支持音频格式的列表包含 audio/mulaw,用于提供使用 u-law(或 mu-law)数据算法进行编码的单声道音频。 使用此格式时,还必须指定捕获音频的采样率。 有关更多信息,请参阅 audio/mulaw format
列示模型时标识的新 supported_features
现在,GET /v1/modelsGET /v1/models/{model_id} 方法会在针对每个语言模型的输出中返回 supported_features 字段。 这一额外信息描述了模型是否支持定制。 有关更多信息,请参阅 API 和 SDK 参考

2016 年 6 月 30 日

Beta异步 HTTP 接口现已支持所有可用语言
现在,Beta 异步 HTTP 接口支持服务所支持的所有语言。 此接口先前仅可用于美国英语。 更多信息,请参阅 异步 HTTP 接口API及SDK参考

2016 年 6 月 23 日

新的测试版异步 HTTP 界面现已推出
现在,Beta 异步 HTTP 接口已可用。 此接口通过非阻塞 HTTP 调用为美国英语转录提供了完整的识别功能。 您可以注册回调 URL,并提供用户指定的私钥字符串,以通过数字签名实现认证和数据完整性。 更多信息,请参阅 异步 HTTP 接口API及SDK参考
用于语音识别的新 Beta smart_formatting 参数
提供了 Beta 智能格式设置功能,用于在最终文字记录中将日期、时间、数字串和号码、电话号码、货币值以及因特网地址转换为更传统的表示法。 通过在识别请求中将 smart_formatting 参数设置为 true 可启用此功能。 这是 Beta 功能,仅可用于美国英语。 有关更多信息,请参阅智能格式设置
新的法国宽带模式
现在,用于语音识别的受支持模型的列表包含 fr-FR_BroadbandModel,用于采样率最低为 16 千赫兹的法语音频。 有关更多信息,请参阅 上一代语言和模型
audio/basic 音频格式的新支持
现在,受支持音频格式的列表包含 audio/basic。 此格式提供了使用采样率为 8 千赫兹的 8 位 u-law(或 mu-law)数据进行编码的单声道音频。 有关更多信息,请参阅 音频/基本格式
语音识别方法现在返回无效参数的警告
各种识别方法都可以返回 warnings 响应,此响应包含有关请求中含有的无效查询参数或 JSON 字段的消息。 警告的格式已更改。 例如,"warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." 现在为 "warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}."
HTTP POST 方法需要空主体,不传递任何数据
对于不将数据传递到服务的 HTTP POST 请求,必须包含 {} 格式的空请求主体。 使用 curl 命令时,可通过 --data 选项来传递空数据。

2016 年 3 月 10 日

针对语音识别传输的音频的新最大限制
现在,两种形式的数据传输(一次性传递和流式传输)都将音频数据的大小限制为 100 MB,这与 WebSocket 接口的做法一样。 以前,一次性方法的最大数据限制为 4 MB。 有关更多信息,请参阅音频传输(对于所有接口)和发送音频和接收识别结果(对于 WebSocket 接口)。 WebSocket 部分还讨论了 WebSocket 接口强制实施的最大帧或消息大小为 4 MB。
HTTP 和 界面现在可以返回警告 WebSocket
现在,识别请求的 JSON 响应可以包含有关请求中含有的无效查询参数或 JSON 字段的警告消息数组。 数组的每个元素都是一个字符串,用于描述警告的性质,后跟无效自变量字符串数组。 例如,"warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ]。 有关更多信息,请参阅 API 和 SDK 参考
不推荐使用 Beta Apple iOS SDK
适用于 Apple® iOS 操作系统的测试版 Watson 语音软件开发工具包 (SDK) 已弃用。 请改用适用于 Apple® iOS 操作系统的 Watson SDK。 新的 SDK 可从 GitHub 上 watson-developer-cloud 命名空间中的 ios-sdk 仓库获取。
WebSocket 接口可生成延迟结果
WebSocket 界面可能需要数分钟才能为一个特别长的音频文件生成最终识别结果。 对于 WebSocket 接口,在服务准备响应期间,底层 TCP 连接会保持空闲。 因此,该连接可能会由于超时而关闭。 要避免使用 WebSocket 接口时发生此超时,请在 \"interim_results\": \"true\" 消息的 JSON 中请求中间结果 (start) 以发起请求。 如果不需要中间结果,可以将其废弃。 此问题将在未来更新中解决。

2016 年 1 月 19 日

新的脏话过滤功能
2016 年 1 月 19 日,服务更新为包含新的不雅言辞过滤功能。 缺省情况下,对于美国英语音频,服务会检剔其转录结果中的不雅言辞。 有关更多信息,请参阅不雅言辞过滤

2015 年 12 月 17 日

新建关键字识别功能
现在,服务提供关键字识别功能。 您可以指定要在输入音频中匹配的关键字字符串数组。 此外,还必须指定用户定义的置信度级别,词必须达到此置信度级别才会被视为关键字的匹配项。 有关更多信息,请参阅关键字识别。 关键字识别是 Beta 功能。
新词替代功能
现在,服务提供词替代项功能。 此功能会针对输入音频中满足用户定义的置信度级别的词,返回替代假设。 有关更多信息,请参阅词替代项。 词替代项是 Beta 功能。
新的英国英语和阿拉伯语模型
服务支持更多语言及其转录模型:对于英国英语,支持 en-UK_BroadbandModelen-UK_NarrowbandModel,对于现代标准阿拉伯语,支持 ar-AR_BroadbandModel。 有关更多信息,请参阅 上一代语言和模型
基于会话的方法的新 session_closed 字段
在服务针对基于会话的方法的错误返回的 JSON 响应中,现在服务还会包含新的 session_closed 字段。 如果会话由于错误而关闭,那么此字段会设置为 true。 有关任何方法的可能返回代码的更多信息,请参阅 API 和 SDK 参考资料
HTTP 平台超时不再适用
HTTP 识别请求不再受 10 分钟平台超时的限制。 现在,该服务会在识别过程中每隔 20 秒在响应 JSON 对象中发送一个空格字符,以保持连接状态。 有关更多信息,请参阅超时
不再需要使用 curl 命令限制速率
使用 curl 命令通过服务转录音频时,无需再使用 --limit-rate 选项将数据传输速率限制为不超过 40,000 字节/秒。
HTTP 错误代码变更
对于基于会话的 HTTP 方法 GET /v1/sessions/{session_id}/observe_resultPOST /v1/sessions/{session_id}/recognize,服务不再返回 HTTP 状态码 490。 现在,服务将改为使用 HTTP 状态码 400 进行响应。

2015 年 9 月 21 日

新的移动 SDK 可用

有两个新的 Beta 移动 SDK 可用于语音服务。 这两个 SDK 支持移动应用程序与 Speech to Text 和 Text to Speech 服务进行交互。

  • Watson Speech SDK 用于 Google Android™ 平台,支持将音频流实时传输到 Speech to Text 服务,并在您说话时接收音频转录。 该项目包含一个示例应用程序,用于显示与这两种语音服务的交互。 SDK 可从 GitHub 上 watson-developer-cloud 命名空间中的 speech-android-sdk 软件源获取。
  • 用于 Apple® iOS 操作系统的 Watson Speech SDK 支持将音频流传输到 Speech to Text 服务,并接收响应的音频转录。 SDK 可从 GitHub 上 watson-developer-cloud 命名空间中的 speech-ios-sdk 资源库获取。

这两个 SDK 都支持使用 IBM Cloud 服务凭证或认证令牌向语音服务进行认证。 由于 SDK 是 Beta,因此未来会随时更改。

全新巴西葡萄牙语和国语中国模式

该服务支持两种新语言,巴西葡萄牙语和普通话,具有以下模型:

  • 巴西葡萄牙语宽带模型 (pt-BR_BroadbandModel)
  • 巴西葡萄牙语窄带模型 (pt-BR_NarrowbandModel)
  • 中文普通话宽带模型 (zh-CN_BroadbandModel)
  • 普通话窄带模式 (zh-CN_NarrowbandModel)

有关更多信息,请参阅 上一代语言和模型

audio/ogg;codecs=opus 音频格式的新支持

对于使用 Opus 编码解码器的 Ogg 格式文件,HTTP POST 请求 /v1/sessions/{session_id}/recognize/v1/recognize 以及 WebSocket /v1/recognize 请求都支持转录新的媒体类型:audio/ogg;codecs=opus。 此外,这些方法的 audio/wav 格式现在支持任何编码。 除去了有关使用线性 PCM 编码的限制。 有关更多信息,请参阅 audio/ogg format

用于长时间轮询会话的新 sequence_id 参数

现在,使用 HTTP 接口转录长音频文件时,服务支持克服超时。 使用会话时,可以使用 GET /v1/sessions/{session_id}/observe_resultPOST /v1/sessions/{session_id}/recognize 方法为长时间运行的识别任务指定序列标识,从而利用长时间轮询模式。 通过使用这些方法的新 sequence_id 参数,可以在提交识别请求之前、期间或之后请求结果。

美国英语转录的新大写功能

对于美国英语语言模型 en_US_BroadbandModelen_US_NarrowbandModel,现在服务可正确对许多专有名词设置首字母大写。 例如,该服务将返回“巴拉克-奥巴马毕业于哥伦比亚大学”的新文本,而不是“巴拉克-奥巴马毕业于哥伦比亚大学”。 如果应用程序对专用名词的大小写有任何敏感性,您可能会对此更改感兴趣。

新的 HTTP 错误代码

HTTP DELETE /v1/sessions/{session_id} 请求不会返回状态代码 415“不支持的媒体类型”。 此返回码已从该方法的文档中除去。

2015 年 7 月 1 日

Speech to Text 服务现在已普遍可用

服务于 2015 年 7 月 1 日从 Beta 转为普遍可用 (GA)。 Speech to Text API 的 Beta 和 GA 版本之间存在以下差异。 GA 发行版需要用户升级到服务的新版本。

HTTP API 的 GA 版本与 Beta 版本兼容。 仅当显式指定模型名称时,才需要更改现有应用程序代码。 例如,GitHub 中服务可用的样本代码包含 demo.js 文件中的以下代码行:

model: 'WatsonModel'

这一行为测试版服务指定了默认模型 WatsonModel。 如果应用程序也指定了此模型,那么需要将其更改为使用 GA 版本支持的其中一个新模型。 有关更多信息,请参阅下一个项目符号。

新建基于令牌的编程模型

现在,服务支持新的编程模型,用于通过 WebSocket 连接在客户机和服务之间进行直接交互。 通过使用此模型,客户机可以获取用于直接与服务进行通信的认证令牌。 通过令牌,无需 IBM Cloud 中的服务器端代理应用程序代表客户机来调用服务。 令牌是客户机与服务进行交互的首选方法。

服务会继续支持依赖于服务器端代理在客户机与服务之间中继音频和消息的旧编程模型。 但是,新模型的效率更高,吞吐量更大。

用于语音识别的新 model 参数

现在,POST /v1/sessionsPOST /v1/recognize 方法以及 WebSocket /v1/recognize 方法支持 model 查询参数。 使用此参数可指定有关音频的信息:

  • 语言:英语日语西班牙语
  • 最小采样率:宽带(16 千赫兹)或窄带(8 千赫兹)

有关更多信息,请参阅 上一代语言和模型

用于语音识别的新 inactivity_timeout 参数

inactivity_timeout 参数用于设置超时值(以秒为单位),如果服务在流式方式下检测到静默(无语音),那么静默时间超过此时间后,服务会关闭连接。 缺省情况下,服务在 30 秒静默后会终止会话。 POST /v1/recognize 和 WebSocket /v1/recognize 方法支持该参数。 有关更多信息,请参阅超时

用于语音识别的新 max_alternatives 参数

max_alternatives 参数用于指示服务返回音频转录的 n 个最佳替代假设。 POST /v1/recognize 和 WebSocket /v1/recognize 方法支持该参数。 有关更多信息,请参阅最大替代项数

用于语音识别的新 word_confidence 参数

word_confidence 参数用于指示服务返回转录中每个词的置信度分数。 POST /v1/recognize 和 WebSocket /v1/recognize 方法支持该参数。 有关更多信息,请参阅词置信度

用于语音识别的新 timestamps 参数

timestamps 参数用于指示服务返回相对于转录中每个词的音频开始时间的开始时间和结束时间。 POST /v1/recognize 和 WebSocket /v1/recognize 方法支持该参数。 有关更多信息,请参阅词时间戳记

用于观察结果的重命名会话方法

现在,GET /v1/sessions/{session_id}/observeResult 方法更名为 GET /v1/sessions/{session_id}/observe_result。 为了实现向后兼容性,仍支持名称 observeResult

对波形音频文件 (WAV) 音频格式的新支持

除了 audio/flacaudio/l16 之外,recognize 方法的 Content-Type 标头现在还支持用于波形音频文件 (WAV) 文件的 audio/wav。 有关更多信息,请参阅 audio/wav format

对语音识别的最大音频量的限制

现在,服务在流式方式下有每个会话 100 MB 数据的限制。 您可以通过指定 chunked 的值和标题 Transfer-Encoding 来指定流媒体模式。 一次性传递音频文件仍将发送的数据大小限制为 4 MB。 有关更多信息,请参阅音频传输

要选择退出对服务改进的贡献的新头

现在,GET /v1/sessions/{session_id}/observe_resultPOST /v1/sessions/{session_id}/recognizePOST /v1/recognize 方法包含头参数 X-WDC-PL-OPT-OUT,用于控制服务是否使用来自请求的音频和转录数据来改进未来的结果。 WebSocket 接口包含等效的查询参数。 指定值 1 可阻止服务使用音频和转录结果。 该参数仅应用于当前请求。 此新头将替换 Beta API 中的 X-logging 头。 请参阅控制 Watson 服务的请求日志记录

HTTP 错误代码变更

该服务现在可以响应以下 HTTP 错误代码:

  • 对于 /v1/models/v1/models/{model_id}/v1/sessions/v1/sessions/{session_id}/v1/sessions/{session_id}/observe_result/v1/sessions/{session_id}/recognize/v1/recognize 方法,添加了错误代码 415(“不支持的媒体类型”)。
  • 对于 POSTGET/v1/sessions/{session_id}/recognize 方法的请求,以下错误代码会被修改:
    • 错误代码 404(“找不到 Session_id”)包含描述性更强的消息(POSTGET)。
    • 错误代码 503(“会话已在处理请求。 在同一会话中不允许并行请求。 在发生此错误后,会话保持活动状态。") 具有更多描述性消息 (仅限 POST )。
    • 对于 POST/v1/sessions 方法的 HTTP /v1/recognize 请求,可能会返回错误代码 503(“服务不可用”)。 使用 /v1/recognize 方法创建 WebSocket 连接时,也会返回错误代码。