Speech to Text for IBM Cloud Pak for Data 的发行说明
IBM Cloud Pak for Data
对于 IBM Cloud Pak for Data的 IBM Watson® Speech to Text 的每个发行版和内部部署实例,都包含了以下功能和更改。 除非另有说明,否则所有更改都与较早的发行版兼容,并且会自动、透明地可供所有新应用程序和现有应用程序使用。
有关服务的已知限制的信息,请参阅 已知限制。
有关 IBM Cloud的服务发行版和更新的信息,请参阅 IBM Cloud 的 Speech to Text 发行说明。
2024年10月30日(版本 4.8.7 )
- 4.8.7 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.7 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年9月25日 5.0.3 )
- 5.0.3 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。5.0.3 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年8月28日(版本 4.8.6 )
- 4.8.6 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.6 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年8月28日 5.0.2 )
- 5.0.2 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。5.0.2 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年7月31日 5.0.1 )
- 5.0.1 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。5.0.1 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年6月19日 5.0.0 )
- 5.0.0 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。5.0.0 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年4月24日 4.8.5 )
- 4.8.5 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.5 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年3月27日(版本 4.8.4 )
- 4.8.4 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.4 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年2月28日(版本 4.8.3 )
- 4.8.3 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.3 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2024年1月31日(版本 4.8.2 )
- 4.8.2 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.2 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2023年11月30日 4.8.0 )
- 4.8.0 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.8.0 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2023年9月27日 4.7.3 )
- 4.7.3 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.7.3 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2023年7月28日 4.7.1 )
- 4.7.1 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.7.1 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2023年6月9日 4.7.0 )
- 4.7.0 版本现已推出
- Speech to Text IBM Cloud Pak for Data 的 版本现已推出。4.7.0 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
2 2023 年 5 月 (V 4.6.5)
- 4.6.5 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.6.5 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.10 和 4.12。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 新型日本下一代电话模式
-
该服务现在提供面向日语的下一代电话模型:
ja-JP_Telephony
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 如需了解下一代车型和低延迟的更多信息,请参阅: - 改进了下一代英语和日语模型的语言模型定制
-
该服务现在为下一代英语和日语模型提供改进的语言模型定制:
en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony
对模型的可视改进: 新技术改进了新的英语和日语模型的缺省行为。 在其他更改中,新技术优化了以下参数的缺省行为:
- 基于这些模型的新版本的定制模型的缺省
customization_weight
从0.2
更改为0.1
。 - 基于这些车型新版本的定制车型的默认
character_insertion_bias
仍为0.0
,但车型已发生变化,语音识别参数不再那么必要。
升级到新模型: 要利用改进后的技术,必须升级基于新模型的任何定制语言模型。 升级到这些基本车型的新版本:
-
通过添加或修改模型包含的定制词,语料库或语法来更改定制模型。 您进行的任何更改都会将模型移至
ready
状态。 -
使用
POST /v1/customizations/{customization_id}/train
方法来重新训练模型。 重新训练会将定制模型升级到新技术,并将模型移至available
状态。已知问题:目前,您无法使用
POST /v1/customizations/{customization_id}/upgrade_model
方法将自定义模型升级到新的基础模型之一。 这个问题将在未来的版本中解决。
使用新模型: 在升级到新基本模型之后,建议您通过特别注意用于语音识别的
customization_weight
和character_insertion_bias
参数来评估已升级的定制模型的性能。 重新训练定制模型时:- 定制模型将
0.1
的新缺省customization_weight
用于定制模型。 与您的定制车型关联的非默认customization_weight
已被删除。 - 定制车型可能不再需要使用
character_insertion_bias
参数来优化语音识别。
对语言模型定制的改进使这些参数对于高质量语音识别不那么重要:
- 如果对这些参数使用缺省值,请在升级后继续执行此操作。 默认值将继续为语音识别提供最佳结果。
- 如果您为这些参数指定了非默认值,请在升级后使用默认值进行实验。 您的定制模型可能适用于具有缺省值的语音识别。
如果您觉得对这些参数使用不同的值可能会改进定制模型的语音识别,请尝试增量更改以确定是否需要这些参数来改进语音识别。
注意: 目前,语言模型定制的改进仅适用于基于前面列出的下一代英语或日语基础语言模型的定制模型。 随着时间的推移,这些改进将可用于其他下一代语言模型。
更多信息:如需了解升级和语音识别参数的更多信息,请参阅:
- 用于 Speech 服务定制资源的新环境变量
-
该文档现在包含有关创建名为
${CUSTOM_RESOURCE_SPEECH}
的环境变量的指示信息。 将新变量附加到cpd_vars.sh
脚本,并将该脚本作为源以在环境中使用该变量。 有关更多信息,请参阅 安装 Watson Speech 服务中的 完成此任务所需的信息,或者参阅 Speech 服务的任何升级主题。 - 缺陷修复: 瑞典电话和意大利语多媒体模型现已可用
-
缺陷修订: 瑞典电话 (
sv-SE_Telephony
) 和意大利语多媒体 (it-IT_Multimedia
) 型号现在可用于安装。 以前,它们不可用。 - 缺陷修订: 改进了下一代定制语言模型的训练时间
-
缺陷修订: 现在显着改善了下一代定制语言模型的训练时间。 以前,训练时间比需要的时间长得多,据报道,训练日语定制语言模型的时间长得多。 内部修订已更正该问题。
- 缺陷修订: 语法文件现在正确处理数字字符串
-
缺陷修订: 使用语法时,服务现在正确处理较长的数字字符串。 先前,它未能完成识别或返回不正确的结果。
- 缺陷修订: 动态生成的语法文件现在正常工作
-
缺陷修订: 动态生成的语法文件现在正常工作。 先前,动态语法文件可能会导致内部故障,如针对 Speech to Text 与 IBM® watsonx™ Assistant的集成所报告。 内部修订已更正该问题。
- 缺陷修订: 美国英语日期的智能格式现在正确
-
缺陷修订: 现在,智能格式化可正确包含一周中的几天以及口语音频中都存在的日期,例如
Tuesday February 28
。 以前,在某些情况下,省略了星期几,但未正确显示日期。 智能格式设置是 Beta 功能。 - 缺陷修订: 更新针对下一代模型的语音犹豫词的文档
-
缺陷修复:更新了下一代车型的语音犹豫单词文档。 提供了更多关于美式英语和日语犹豫词的详细信息。 下一代模型在转录结果中包含实际的犹豫词,与前代模型不同,前代模型仅包含犹豫标记。 有关更多信息,请参阅 语音迟疑和迟疑标记。
- 已解决安全漏洞
-
以下安全漏洞已修复:
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2020-10735)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2021-28861)中的网络钓鱼攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Pypa Setuptools 中的拒绝服务攻击(CVE-2022-40897)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受系统中敏感信息公开的攻击(CVE-2022-4415)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2022-45061)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Libksba 中任意代码执行的攻击(CVE-2022-47629)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU Tar(CVE-2022-48303)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 FasterXML jackson-databind(CVE-2022-42003)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2020-10878)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Apache Tomcat(CVE-2022-45143)中的安全限制旁路的攻击
- CVE-2020-10543: 安全公告的发布处于暂挂状态。
2023 年 3 月 29 日 (V 4.6.4)
- 4.6.4 版本现已推出
- Speech to Text for IBM Cloud Pak for Data V 4.6.4 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.10 和 4.12。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 重要提示:升级到 4.6.3 或 4.6.4 版本前,请备份您的数据
- 重要提示: 在升级到 Watson 服务 4.6.3 或 4.6.4 版本之前,您必须备份数据。 将备份保留在安全的位置。 有关备份 Watson 服务数据的更多信息,请参阅 管理 Watson中的 备份和恢复 Watson数据。 该主题还包含有关在必要时复原数据的信息。
- 已知问题: 瑞典电话和意大利语多媒体模型尚不可用
- 已知问题:瑞典语电话(
sv-SE_Telephony
)和意大利语多媒体(it-IT_Multimedia
)模型尚未推出。 它们4.6.5中可用。 - 缺陷修订: 您现在可以使用高级安装选项来更改已安装的模型和声音
- 缺陷修订: 在安装期间,现在可以使用命令行界面的高级安装选项来指定不同的模型或声音。 以前,服务始终安装缺省模型和声音。 此限制继续适用于 Watson Speech 服务版本 4.6.0,4.6.2和 4.6.3。 有关安装模型和声音的信息,请参阅 安装 Watson Speech 服务中的 指定其他安装选项。
- 设置负载均衡器超时
- Watson Speech 服务要求您将服务器和客户机的负载均衡器超时设置更改为 300 秒。 这些设置可确保长时间运行的语音识别请求 (具有长音频或难音频的请求) 有足够的时间来完成。 有关更多信息,请参阅 安装 Watson Speech 服务中的 完成此任务所需的信息。
- 已解决安全漏洞
- 已修复以下安全漏洞:
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNOME libxml2(CVE-2016-3709)中跨站点脚本编制的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 SQlite 中的拒绝服务攻击(CVE-2020-35525)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Amazon AWS S3 Crypto SDK for GoLang(CVE-2020-8912)中的安全限制旁路的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenJDK(CVE-2021-20264)的 Red Hat 构建中提升的系统特权的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 e2fsprogs(CVE-2022-1304)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 TrustCor(CVE-2022-23491)中错误的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GnuTLS(CVE-2022-2509)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受系统中任意代码执行的攻击(CVE-2022-2526)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 AWS SDK for Go(CVE-2022-2582)中敏感信息暴露的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-32206)中的拒绝服务攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-32208)中的中间人攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GnuPG(CVE-2022-34903)中的电子欺骗攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 SQLite(CVE-2022-35737)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 zlib 中基于堆的缓冲区溢出的攻击(CVE-2022-37434)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受系统中的拒绝服务攻击(CVE-2022-3821)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Gnome libxml2(CVE-2022-40303)中任意代码执行的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Gnome libxml2(CVE-2022-40304)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python Charmers Future(CVE-2022-40899)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go(CVE-2022-41716)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-41717)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Freedesktop D-Bus 中的拒绝服务攻击(CVE-2022-42010)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Freedesktop D-Bus 中的拒绝服务攻击(CVE-2022-42011)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Freedesktop D-Bus 中的拒绝服务攻击(CVE-2022-42012)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 MIT krb5(CVE-2022-42898)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 libexpat 中的拒绝服务攻击(CVE-2022-43680)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2015-20107)中任意命令执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 SQlite(CVE-2020-35527)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU Libtasn1(CVE-2021-46848)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Git(CVE-2022-23521)中任意代码执行的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GnuPG Libksba(CVE-2022-3515)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 libexpat(CVE-2022-40674)中任意代码执行的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Git(CVE-2022-41903)中任意代码执行的攻击
2023 年 2 月 23 日 (V 4.6.3)
- 4.6.3 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.6.3 现已可用。 此版本支持 IBM Cloud Pak for Data 版本 4.6.x 和 Red Hat OpenShift 版本 4.10。 不再支持 Red Hat OpenShift V 4.8。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 重要信息: 不推荐使用所有先前生成的模型,这些模型将于 2023 年 7 月 31 日结束服务
-
重要信息: 不推荐使用所有先前生成的模型,这些模型将于 2023 年 7 月 31 日结束服务。 在该日期,将从服务和文档中除去所有先前生成的模型。 上次废弃日期为 3 2023 年 3 月。 新日期允许用户有更多时间迁移到相应的下一代模型。 但用户必须在 2023 年 7 月 31 日前迁移到等效的下一代模型。
大多数先前生成的模型在 2022 年 3 月 15 日已不推荐使用。 以前,不推荐使用阿拉伯语和日语模型。 现在,弃用适用于 所有 先前生成的模型。
- 有关可以从每个不推荐的模型迁移到的下一代模型的更多信息,请参阅 上一代语言和模型
- 有关从上一代模型迁移到下一代模型的更多信息,请参阅 迁移到下一代模型。
- 有关所有下一代模型的更多信息,请参阅 下一代语言和模型
注: 从服务中除去先前生成
en-US_BroadbandModel
时,下一代en-US_Multimedia
模型将成为语音识别请求的缺省模型。 - 已知问题: 无法使用高级安装选项更改已安装的模型和声音
-
已知问题: 您当前无法使用高级安装选项指定不同的模型或声音。 服务始终安装缺省模型和声音。 有关在安装后更改模型的信息,请参阅 Watson Speech services on IBM Cloud Pak for Data的 管理 主题中的 更新 Watson Speech 服务的模型和声音。
- 已知问题: 升级到 4.6.3 可能无法完成
-
已知问题: 升级到版本 4.6.3时,MinIO 备份作业可能无法在完成时删除。 如果发生这种情况,那么解决方案是删除作业,然后正常进行升级。 执行以下步骤解决问题。
-
要确定 MinIO 备份作业是否保持未删除状态,请发出以下命令:
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
未删除的 MinIO 作业由以下格式的条目标识:
speech-cr-ibm-minio-backup 1/1 3m25s 1d
-
要删除 MinIO 备份作业,请发出以下命令:
oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}
删除备份作业后,升级将继续并完成。
-
- 缺陷修订: 更新法国加拿大下一代电话模型 (需要升级)
-
缺陷修订: 已更新法国加拿大下一代电话模型
fr-CA_Telephony
,以解决可能在语音识别期间导致错误的内部不一致问题。 您需要升级任何基于fr-CA_Telephony
模型的定制模型。 有关升级自定义模型的更多信息,请参阅 - 缺陷修复: 下一代巴西葡萄牙语多媒体模型现已可用
-
缺陷修订: 下一代巴西葡萄牙语多媒体模型现在可用于 Speech to Text for IBM Cloud Pak for Data。 先前,模型不可用。
- 将词直接添加到基于下一代模型的定制模型会增加训练时间
-
将定制词直接添加到基于下一代模型的定制模型会导致对模型的训练花费比其他模型长几分钟的时间。 如果要使用您使用
POST /v1/customizations/{customization_id}/words
或PUT /v1/customizations/{customization_id}/words/{word_name}
方法添加的定制词来训练模型,请为该模型留出一些分钟的额外训练时间。 有关更多信息,请参阅 - 有关使用服务实例的其他信息
-
该文档现在包含有关使用命令行界面 (
cpl-cli
) 创建服务实例以及管理服务实例的信息。 有关更多信息,请参阅 Watson Speech 服务 on IBM Cloud Pak for Data的以下主题:- 安装后设置 下的 创建 Watson 语音服务实例
- 管理 下的 管理 Watson Speech 服务实例
- 已解决安全漏洞
-
已修复以下安全漏洞:
2023 年 1 月 30 日 (V 4.6.2)
- 4.6.2 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.6.2 现在可用。 此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.8 以及 4.10。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 定制资源现在包含新的
fileStorageClass
属性 -
现在,Watson Speech 服务的定制资源除了包含现有
blockStorageClass
属性外,还包含fileStorageClass
属性。 在安装或升级服务时,可以同时指定块存储类和文件存储类。 在从先前版本升级期间,新属性将通过cli manage apply-cr
命令上的--file_storage_class
选项自动添加到定制资源。有关用于每个受支持存储解决方案的可用块和文件存储类的更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务中“安装 Watson 语音服务”页面上的 存储需求 完成此任务所需的信息 下的表。
- 有关供应服务实例的其他信息
-
该文档现在包含有关以编程方式创建服务实例的信息。 它还包括列出服务实例和删除服务实例的示例。 有关更多信息,请参阅 Watson IBM Cloud Pak for Data中的 安装后设置 文档中的 创建 Watson Speech 服务实例。
- 为 MinIO 数据存储器启用了服务器端加密
-
现在,Speech 服务已针对 MinIO 数据存储器中的对象存储器启用服务器端加密。 您无需执行任何操作。
- 更改为审计 Webhook
-
现在,Speech 服务已除去审计 Webhook 依赖关系。 现在,服务会将审计事件直接写入服务器。 升级到 V 4.6.2后,某些 Webhook 资源可能会保留,直到所有服务都可以除去依赖关系为止。 将在将来的发行版中除去其余资源。 您无需执行任何操作。
- 全新荷兰语下一代多媒体模型
-
该服务现在为荷兰荷兰语提供下一代多媒体模型:
nl-NL_Multimedia
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅 - 新的瑞典下一代电话模式
-
该服务现在提供瑞典语的下一代电话模型:
sv-SE_Telephony
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅 - 英语下一代电话模型的更新
-
英语下一代电话型号已经更新,语音识别功能得到改进:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
所有这些模型都继续支持低延迟。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
max_alternatives
参数现在可用于下一代模型-
max_alternatives
参数现在可用于所有下一代模型。 该参数通常可用于所有下一代模型。 有关更多信息,请参阅最大替代项数。 - 缺陷修订: 允许将
max_alternatives
和end_of_phrase_silence_time
参数与下一代模型配合使用 -
缺陷修订: 当您将同一请求中的
max_alternatives
和end_of_phrase_silence_time
参数与下一代模型配合使用时,该服务现在会返回多个备用脚本,同时遵守指示的暂停时间间隔。 先前,在单个请求中使用这两个参数会导致失败。 (将max_alternatives
参数与下一代模型配合使用之前已作为实验性功能提供给有限数量的客户。) - 缺陷修订: 更新为日语下一代多媒体模型 (需要升级)
-
缺陷修订: 已更新日语下一代多媒体模型
ja-JP_Multimedia
,以解决在低延迟的语音识别期间可能导致错误的内部不一致问题。 您需要升级任何基于ja-JP_Multimedia
模型的定制模型。 有关升级自定义模型的更多信息,请参阅 - 缺陷修订: 添加基于下一代模型创建日语声音点赞的文档准则
-
缺陷修订: 对于基于下一代模型的日语定制语言模型,在一些左上下文中,字符序列
ウー
不明确。 请勿使用以音素/o/
结尾的字符 (音节),例如ロ
和ト
。 在此类情况下,请使用ウウ
或仅ウ
代替ウー
。 例如,使用ロウウマン
或ロウマン
代替ロウーマン
。 有关更多信息,请参阅 日语准则。 - 缺陷修订: 在转录结果中正确使用
display_as
字段 -
缺陷修订: 对于具有下一代模型的语言模型定制,定制词的
display_as
字段的值现在显示在所有文字记录中。 先前,word
字段的值有时出现在转录结果中。 - 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2022-1434,CVE-2022-1343,CVE-2022-1292,CVE-2022-1473)中问题的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2022-2068)中任意命令执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 protobuf 中的拒绝服务攻击(CVE-2022-1941)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU glibc(CVE-2021-3999)中缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU gzip(CVE-2022-1271)中的安全旁路攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-27664)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-2879)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go(CVE-2022-2880)中的查询参数走私攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-32189)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-41715)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2022-2097)中的信息公开攻击
2022 年 11 月 30 日 (V 4.6.0)
- 4.6.0 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.6.0 现在可用。 此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.8 以及 4.10。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 现在支持 Amazon Web Services (AWS)
-
Watson IBM Cloud Pak for Data 的语音服务现在在 Amazon Web Services™ (AWS™) 上受支持。这些服务支持 Amazon Elastic Block Store,您可以通过将 Speech 服务定制资源的
blockStorageClass
属性设置为gp2-csi
或gp3-csi
来指定该服务。 - 现在支持新的存储类
-
Watson IBM Cloud Pak for Data 的语音服务现在支持两个额外的存储类:
- IBM Cloud Block Storage (
ibmc-block-gold
) - NetApp Trident (
ontap-nas
)
使用 Speech 服务定制资源的
blockStorageClass
属性指定存储类。 有关所有受支持存储类的更多信息,请参阅 Watson Speech services on IBM Cloud Pak for Data中的以下主题:- 安装 Watson Speech 服务 中的 开始之前
- 使用 Watson Speech 服务定制资源 中的 指定存储类
- IBM Cloud Block Storage (
- 已知问题: 某些 Watson 语音服务 pod 没有用于调度的注释
-
已知问题: 某些 Watson 语音服务 pod 缺少
cloudpakInstanceId
注释。 如果使用 IBM Cloud Pak for Data 调度服务,那么没有cloudpakInstanceId
注释的任何 Watson Speech 服务 pod 都会- 由缺省 Kubernetes 调度程序而不是调度服务调度
- 未包含在配额实施中
- 现在可以监视 PostgreSQL 数据存储器
-
现在,您可以启用对 PostgreSQL 数据存储器的监视,以通过 Watson Speech 服务接收有关其使用情况和状态的更新。 这些事件可由 Prometheus 监视软件或您用于监视的任何应用程序使用。 通过对除缺省平台监视之外的用户定义项目启用监视,您可以使用 Red Hat® OpenShift® Container Platform 监视堆栈来监视自己的项目。 此功能在 Speech 服务定制资源中包含额外的属性
spec.global.datastores.postgressql.enablePodMonitor
。有关更多信息,请参阅 Watson Speech services on IBM Cloud Pak for Data的 管理 部分中的主题 Monitoring the PostgreSQL datastore for Watson Speech services。
- 缺陷修订: 如果仅启用了运行时微服务,那么将不再安装 PostgreSQL 数据存储器
-
缺陷修订: 如果仅启用了运行时微服务,那么不再安装 PostgreSQL 数据存储器。 现在,仅当安装了至少一个
sttAsync
,sttCustomization
或ttsCustomization
微服务时,才会安装数据存储器。 如果稍后禁用了这些微服务,那么不会卸载 PostgreSQL。在 4.6.0之前,PostgreSQL 始终随 Speech 服务一起安装。 如果您是仅使用 Speech 服务的运行时微服务 (低于 4.6.0) 的现有客户,那么 PostgreSQL 将保持已安装状态,但不会使用。 在这种情况下,PostgreSQL 的安装会在升级期间持久存在。
将始终安装 MinIO 数据存储器,因为运行时微服务依赖于该数据存储器。 仅当安装了
sttAsync
微服务时,才会安装 RabbitMQ 数据存储器。有关更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务中的 使用 Watson Speech 服务定制资源 中的 数据存储器属性。
- 缺陷修订: PostgreSQL 操作程序不再需要创建网络策略来监视其操作数
-
缺陷修订: 对于 V 4.6.0,无需创建网络策略以允许 PostgreSQL 操作程序监视其操作数,如 2022 年 11 月 10 日(版本 4.0.x 和 4.5.x) 服务更新中所述。 从版本 4.6.0开始,服务会自动处理此情况。
- 缺陷修订: 更新了一些下一代模型,以缩短低延迟响应时间
-
缺陷修订: 已更新以下下一代模型,以在使用
low_latency
参数时缩短其响应时间:en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony
先前,使用
low_latency
参数时,这些模型未按预期快速返回识别结果。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。 - 缺陷修订: 改进定制模型命名文档
-
缺陷修订: 该文档现在提供了用于命名定制语言模型和定制声学模型的详细规则。 有关更多信息,请参阅
- 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受针对 OpenPGP(CVE-2021-40528)的跨配置攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 PCRE2(CVE-2022-1586)中任意代码执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Vim 中基于堆的缓冲区溢出攻击(CVE-2022-1621)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Vim 中的缓冲区溢出攻击(CVE-2022-1629)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Vim 中任意代码执行的攻击(CVE-2022-1785,CVE-2022-1897,CVE-2022-1927)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-22576)中的安全限制旁路的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-27774)中凭证公开的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-27776)中数据信息公开的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 cURL libcurl(CVE-2022-27782)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNOME libxml2(CVE-2022-29824)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 PostgreSQL(CVE-2022-31197)中的 SQL 注入攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 libexpat 中的拒绝服务攻击(CVE-2022-25313)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 libexpat(CVE-2022-25314)中任意代码执行的攻击
2022 年 11 月 10 日 (V 4.0.x 和 4.5.x)
- 已知问题: PostgreSQL 操作程序需要更新网络策略
-
已知问题: 对于 Speech 服务 V 4.0.x (不包括 V 4.0.0) 和 4.5.x,如果 PostgreSQL 操作程序和 Speech 服务安装在不同的名称空间中,那么 PostgreSQL 操作程序无法监视 Speech 服务的 PostgreSQL 操作数。 操作员无法通过针对语音服务的网络策略来监视操作数。
此问题不会阻止 PostgreSQL 集群正常运行。 集群保持活动状态并完全正常运行。 但是,当您升级到新版本的 Speech 服务时,操作程序无法更新操作数。
问题的解决方案是为 PostgreSQL 操作程序创建额外的网络策略,如以下步骤中所示。 无论 PostgreSQL 操作程序是安装在与 Speech 服务相同的名称空间中,还是安装在不同的名称空间中,都可以执行这些步骤。
-
以安装了 Speech 服务的 Red Hat® OpenShift® 项目的管理员身份登录。
-
输入以下命令以更新 Speech 服务的网络策略:
cat << EOF | oc apply -f - apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: labels: app.kubernetes.io/component: stt app.kubernetes.io/instance: {{ <custom-resource-name> }} app.kubernetes.io/name: speech-to-text release: {{ <custom-resource-name> }} name: <custom-resource-name>-postgres-network-policy namespace: {{ <cpd-instance-namespace> }} spec: ingress: - from: - namespaceSelector: {} podSelector: matchLabels: app.kubernetes.io/name: cloud-native-postgresql EOF
其中:
<custom-resource-name>
是 Speech 服务定制资源的名称。 版本 4.0.x 的建议名称为speech-prod-cr
; 版本 4.5.x 的建议名称为speech-cr
。<cpd-instance-name>
是安装了 Speech 服务的项目 (名称空间) 的名称。 该文档使用环境变量${PROJECT_CPD_INSTANCE}
来标识名称空间。
-
要验证更新后的网络策略是否允许操作程序监视操作数以及 PostgreSQL 集群是否处于正常状态,请输入以下命令,其中
<custom-resource-name>
和<cpd-instance-name>
是您在上一步中使用的值:oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
如果 PostgreSQL 集群正常运行,那么该命令将生成类似于以下内容的输出:
NAME AGE INSTANCES READY STATUS PRIMARY speech-cr-postgres 14d 3 3 Cluster in healthy state speech-cr-postgres-1
这些步骤不会导致操作程序将操作数更新为最新版本。 但是,当您下次升级 Speech 服务软件时,操作数将按预期进行升级。
-
2022 年 10 月 13 日 (V 4.5.3)
- 4.5.3 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.5.3 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6,4.8和 4.10。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 审计事件可用于语音服务
-
IBM Cloud Pak for Data 审计日志记录服务针对 Speech to Text 和 Text to Speech 服务生成并转发审计事件。 审计事件与公共服务可用于 Activity Tracker 的审计事件相匹配。 有关更多信息,请参阅 审计事件。
- 无法卸载单个 Speech 服务组件
-
该文档现在指出,一旦安装了个别服务组件 (微服务),就无法将其卸载。 要删除以下任何组件,必须完全卸载 Watson,然后仅重新安装所需的组件:Speech to Text 运行时、Speech to Text 异步 HTTP Speech to Text 自定义、Text to Speech 运行时和 Text to Speech 自定义。 如需了解语音服务的安装详情,请参阅 Watson 语音服务,网址IBM Cloud Pak for Data。
- 全新法国加拿大下一代多媒体模型
-
该服务现在为法语加拿大人提供下一代多媒体模型:
fr-CA_Multimedia
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅 - 英语下一代电话模型的更新
-
英语下一代电话型号已经更新,语音识别功能得到改进:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
所有这些模型都继续支持低延迟。 您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
- 意大利下一代多媒体模型现在支持低延迟
-
意大利下一代多媒体模型
it-IT_Multimedia
现在支持低延迟。 有关下一代模型和低延迟的更多信息,请参阅 - 对从 V 4.0.x 到 V 4.5.x 的升级进行故障诊断
-
将 Speech 服务从 V 4.0.x 升级到 V 4.5.x时,可能会迂到 PostgreSQL pod 陷入
Terminating
状态的问题。 如果在升级期间发生此问题,请执行以下步骤以解决问题。 在 Watson Speech services on IBM Cloud Pak for Data的 升级 主题中的 将 Watson Speech 服务从 V 4.0 升级到 V 4.5 中也记录了这些信息和步骤。- 使用以下命令来识别仍处于
Terminating
状态的 pod:
oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}
- 使用以下命令来设置环境变量
pods
以包含仍处于Terminating
状态的 pod 的列表:
pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'})
- 使用以下命令来删除卡住的 pod,以便升级过程可以继续:
pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})
- 使用以下命令来识别仍处于
- 缺陷修订: 修订定制资源条目文档
-
缺陷修订: Speech 服务定制资源的文档现在在模型
koKrTelephony
和nlNlTelephony
的名称后包含冒号。 先前,这两个条目的文档省略了冒号。 - 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 在 Linux 内核(CVE-2020-28915)中易受缓冲区过读缺陷的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU Gzip 中的安全旁路攻击(CVE-2022-1271)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Apple macOS Monterey 和 macOS Big Sur(CVE-2022-26691)中提升的特权的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Linux 内核(CVE-2022-27666)中提升的特权的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Apache Tomcat(CVE-2022-34305)中跨站点脚本编制的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU C Library(CVE-2019-19126)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU C Library(CVE-2020-10029)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU glibc 中的拒绝服务攻击(CVE-2020-1751)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU glibc 中的拒绝服务攻击(CVE-2020-1752)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU glibc(CVE-2021-35942)中的信息披露或拒绝服务攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2021-3711)中的缓冲区溢出攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2021-3712)中的信息披露或拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2021-4160)中安全性降低的影响
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 OpenSSL(CVE-2022-0778)中的拒绝服务攻击
2022 年 8 月 19 日 (V 4.5.1)
- 重要信息: 大多数上一代模型的废弃日期现在为 3 2023 年 3 月
-
已被取代: 此废弃通知已被 2023 年 2 月 23 日服务更新 取代。 所有 上一代模型的服务结束日期现在为 2023 年 7 月 31 日。
在 2022 年 3 月 15 日,不推荐使用除阿拉伯语和日语以外的所有语言的前代模型。 当时,不推荐的模型将一直保持可用状态,直到 2022 年 9 月 15 日。 为了让用户有更多时间迁移到相应的下一代模型,不推荐的模型现在将保持可用状态,直到 3 2023 年 3 月。 与初始废弃通知一样,不 不推荐使用阿拉伯语和日语前代模型。 有关所有不推荐的模型的完整列表,请参阅 2022 年 3 月 15 日(V 4.0.6)服务更新。
在 3 2023 年 3 月,将从服务和文档中除去不推荐的模型。 如果使用任何不推荐的模型,那么必须在 3 2023 年 3 月之前迁移到等效的下一代模型。
- 有关可以从每个不推荐的模型迁移到的下一代模型的更多信息,请参阅 上一代语言和模型
- 有关下一代模型的更多信息,请参阅 下一代语言和模型
- 有关从上一代模型迁移到下一代模型的更多信息,请参阅 迁移到下一代模型。
注: 从服务中除去先前生成
en-US_BroadbandModel
时,下一代en-US_Multimedia
模型将成为语音识别请求的缺省模型。
3 2022 年 8 月 (V 4.5.1)
- 4.5.1 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.5.1 现在可用。 此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6,4.8和 4.10。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- 支持支持 FIPS 的集群
-
Speech to Text for IBM Cloud Pak for Data 和 Text to Speech for IBM Cloud Pak for Data 现在支持在支持联邦信息处理标准 (FIPS) 的集群上运行。 有关更多信息,请参阅 支持 FIPS 的服务。
- 缺陷修订: 修订临时存储器计算以防止偶尔发生 pod 逐出
-
缺陷修订: 针对 IBM Cloud Pak for Data 和 Text to Speech (针对 IBM Cloud Pak for Data 运行时) 的 Speech to Text,已修正缺陷并计算临时存储器限制。 这些更改可防止在服务的运行时负载过重时偶尔发生 pod 逐出。
- 缺陷修订: 更新语音犹豫和犹豫标记文档
-
缺陷修复: 更新了语音犹豫和犹豫标记的文档。 上一代模型包括在大多数语言的转录结果中使用犹豫标记代替语音犹豫标记; 智能格式化从美国英语最终记录中移除犹豫标记。 下一代模型包含转录结果中的实际语音犹豫; 智能格式化对其包含在最终转录结果中没有影响。
要获取更多信息,请参阅:
- 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 rsyslog(CVE-2022-24903)中基于堆的缓冲区溢出的攻击
- 安全公告:适用于 IBM Cloud Pak for Data 的 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 容易受到 Twisted 中的 HTTP 请求走私问题的影响(CVE-2022-24801)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受拒绝服务攻击,原因是 Twist 中的缓冲区溢出(CVE-2022-21716)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受拒绝服务攻击,原因是 NumPy(CVE-2021-34141)中的字符串比较不完整。
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受拒绝服务攻击,这是由 NumPy(CVE-2021-41496)中的缓冲区溢出导致的。
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Twist(CVE-2022-21712)中的 cookie 和授权头公开攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2018-18311)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl 中基于堆的缓冲区溢出的攻击(CVE-2018-18312)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2018-18313)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2018-18314)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2018-6913)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2019-11236)中的 CRLF 注入攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU Tar 中的拒绝服务攻击(CVE-2019-9923)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2020-10543)中基于堆的缓冲区溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2020-10878)中整数溢出的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Perl(CVE-2020-12723)中的缓冲区溢出攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 urllib3 中的拒绝服务攻击(CVE-2021-33503)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Ansible(CVE-2021-3583)中的注入攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-23772)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go(CVE-2022-23773)中错误访问控制的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-23806)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-24675)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-24921)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Golang Go 中的拒绝服务攻击(CVE-2022-28327)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 libssh 中基于堆的缓冲区溢出的攻击,原因是边界检查不正确(CVE-2021-3634)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2021-3737)中的拒绝服务攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Python(CVE-2021-4189)中可能的敏感信息泄露的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Lxml(CVE-2021-43818)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 MS Visual Studio 中任意代码执行的攻击(CVE-2021-21300)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Git(CVE-2021-40330)中的安全限制旁路的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 MS Visual Studio 中任意代码执行的攻击(CVE-2022-24765)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Git(CVE-2018-1000021)中任意命令执行的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 jQuery(CVE-2015-9251)中的跨站点脚本编制的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 在 jQuery(CVE-2019-11358)中易受跨站点脚本编制攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 在 jQuery(CVE-2020-11022)中易受跨站点脚本编制的攻击
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 jQuery(CVE-2020-11023)中跨站点脚本编制的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Spring Framework(CVE-2022-22968)中的数据绑定规则安全性缺陷的攻击
2022 年 6 月 29 日 (V 4.5.0)
- 4.5.0 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.5.0 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6,4.8和 4.10。 更多信息,请参阅 Watson IBM Cloud Pak for Data 上的语音服务。
- IBM Cloud Pak for Data 文档的统一语音服务
-
Speech to Text 和 Text to Speech 的安装和管理文档现在组合在 IBM Cloud Pak for Data 文档中。 有关安装和管理 Speech 服务的更多信息,请参阅 Watson Speech 服务 on IBM Cloud Pak for Data。
- 对语音服务定制资源的更改
-
现在,将在最初安装 Speech 服务时创建定制资源。 此过程在 IBM Cloud Pak for Data 安装文档中进行了描述。 定制资源的内容已更改:
- 定制资源的建议名称已从
speech-prod-cr
更改为speech-cr
。 - 对存储类的所有引用都已从
storageClass
的变体更改为blockStorageClass
。 - Portworx 块存储类的名称已从
portworx-shared-gp3
更改为portworx-db-gp3-sc
。 - 已除去 MinIO 和 PostgreSQl 数据存储器的
createSecret
属性。 此属性仅在内部使用。 如果创建一个私钥对象,那么 Speech 服务始终使用该对象,如果未提供任何私钥对象,那么它们始终自动创建该对象。
- 定制资源的建议名称已从
- RabbitMQ 数据存储器现在支持用户提供的密钥对象
-
现在,您可以为 RabbitMQ 数据存储器提供安全凭证,就像为 MinIO 和 PostgreSQL 数据存储器提供安全凭证一样。 记录的过程对于所有三个数据存储器都是相似的。
- 新的意大利语
it-IT_Multimedia
下一代模型 -
该服务现在为意大利语提供下一代多媒体模型:
it-IT_Multimedia
。 新模式普遍可用。 它不支持低延迟,但支持语言模型定制和语法。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。 - 更新的韩国电话和多媒体下一代模型
-
现有韩国下一代机型已更新:
- 已更新
ko-KR_Telephony
模型,以改进对语音识别的低延迟支持。 ko-KR_Multimedia
型号已更新,语音识别功能得到改进。 该模型现在还支持低延迟。
这两种模型都普遍可用,并且都支持语言模型定制和语法。 您不需要升级基于这些模型的定制语言模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
- 已更新
- 对多个下一代电话模型的更新
-
以下新一代英语电话型号已更新,语音识别功能得到了改进:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
您不需要升级基于这些模型的定制模型。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
- 缺陷修订: 现在报告所有转录结果的置信度分数
-
缺陷修订: 现在将针对所有转录结果报告置信度分数。 先前,当服务针对单个语音识别请求返回多个文字记录时,可能不会针对所有文字记录返回置信度分数。
- 已解决安全漏洞
-
未修复 V 4.5.0的安全漏洞。
2022 年 5 月 25 日 (V 4.0.9)
- 4.0.9 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.9 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 新的巴西葡萄牙语
pt-BR_Multimedia
下一代模型 -
该服务现在为巴西葡萄牙语提供下一代多媒体模型:
pt-BR_Multimedia
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。 有关下一代模型和低延迟的更多信息,请参阅 - 更新为德国
de-DE_Multimedia
下一代模型以支持低延迟 -
下一代德国型号
de-DE_Multimedia
现在支持低延迟。 您无需升级基于更新后的德国基本模型的定制模型。 有关下一代模型和低延迟的更多信息,请参阅 - 新一代模型的新 Beta
character_insertion_bias
参数 -
现在,所有下一代模型都支持新的 Beta 参数
character_insertion_bias
,该参数可用于所有语音识别接口。 缺省情况下,将针对每个单独的模型对服务进行优化,以平衡其对不同长度的候选字符串的识别。 特定于模型的偏差等同于 0.0。 每个模型的缺省偏差足以满足大多数语音识别请求。但是,某些用例可能会因偏向具有较短或较长字符串的假设而受益。 该参数接受介于 -1.0 和 1.0 之间的值,这些值表示模型缺省值的更改。 负值指示服务青睐较短的字符字符串。 正值指示服务青睐较长的字符串。 有关更多信息,请参阅 字符插入偏差。
- Speech 服务不支持 OADP 备份和复原实用程序
-
Watson Speech 服务不支持 IBM Cloud Pak for Data OpenShift API for Data Protection (OADP) 备份和复原实用程序。 如果 Speech 服务安装在集群上,那么您可能无法使用 IBM Cloud Pak for Data OADP 备份和复原实用程序来备份该集群上安装的其他服务。 此限制适用于语音服务的 V 4.0.0 和更高版本。
- 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 容易受到拒绝服务攻击,这是由带有 Twist(CVE-2022-21716)的缓冲区溢出导致的。
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 NumPy中的拒绝服务攻击。 (CVE-2021-33430)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受拒绝服务攻击,这是由 Spring Framework(CVE-2022-22950)的输入验证不正确导致的。
1 2022 年 5 月 (V 1.2.x)
- 要点: IBM Cloud Pak for Data V 3.5 上 Speech to Text V 1.2.x 的服务结束
- 重要信息: Speech to Text V 1.2.x on IBM Cloud Pak for Data V 3.5 从 1 2022 年 5 月起无法使用。Speech to Text 版本 1.2.x 不再受支持,可用或已记录。 有关作为 Watson API 工具包一部分的 Speech to Text 服务终止的详细信息,请参阅 软件支持终止:IBM Watson API 工具包的 IBM Cloud Pak for Data 1.2.x.
2022 年 4 月 27 日 (V 4.0.8)
- 4.0.8 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.8 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- IBM Cloud Pak for Data 文档中使用的新环境变量
-
Speech to Text for IBM Cloud Pak for Data 文档中的大多数命令已更新为使用一组公共环境变量。 本文档提供了一个脚本,用于在运行安装,升级和管理命令之前自动导出环境变量。 在确定脚本的来源之后,您可以复制文档中的大多数命令并运行这些命令,而无需进行任何更改。
脚本定义的环境变量包括以下内容:
${PROJECT_CPD_INSTANCE}
标识计划在其中安装 IBM Cloud Pak for Data 和 Speech 服务的项目。${PROJECT_CPD_OPS}
标识 IBM Cloud Pak for Data 平台操作程序的项目。${PROJECT_CPFS_OPS}
标识 IBM Cloud Pak for Data 基础服务的项目。
有关使用环境变量的更多信息,请参阅 最佳实践: 设置安装变量。
- 不再记录
ttsVoiceMarginalCPU
属性 -
已从 Speech 服务定制资源的文档中除去
ttsVoiceMarginalCPU
属性。 该属性管理并行和语音合成速度之间的权衡。400
的缺省值可确保大多数客户的合理平衡,并保持实时合成。 - 全新德国下一代多媒体模型
-
该服务现在提供面向德语的下一代多媒体模型:
de-DE_Multimedia
。 新模式普遍可用。 它不支持低延迟。 它确实支持语言模型定制和语法作为一般可用的功能。有关所有可用的下一代模型及其定制支持的更多信息,请参阅
- 现在,Beta 下一代
en-WW_Medical_Telephony
模型支持低延迟 -
现在,Beta 下一代
en-WW_Medical_Telephony
模型支持低延迟。 有关所有下一代模型和低延迟的更多信息,请参阅 - 已解决安全漏洞
-
已修复以下安全漏洞:
- 安全公告 :Guava 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-8908)
- 安全公告: Google Guava 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-10237)
- 安全公告: Apache Tomcat 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-23181)
- 安全公告 :Cyrus SASL 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-24407)
- 安全公告 :GNU wget 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2016-4971)
- 安全公告 :GNU Wget 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-0494)
- 安全公告: "GNU Wget" 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-20483)
- 安全公告 :ISC BIND 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-5741)
- 安全公告: Python 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2019-20916)
- 安全公告 :ISC BIND 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25214)
- 安全公告 :ISC BIND 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25215)
- 安全公告 :ISC BIND 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25216)
- 安全公告 :ISC BIND 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25219)
- 安全公告: PostgreSQL JDBC 驱动程序(PgJDBC)中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-21724)
- 安全公告 :GNU Tar 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2019-9923)
- 安全公告 :logback-classic 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-42550)
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU C Library(CVE-2022-23218)中基于堆栈的缓冲区溢出的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU C Library(CVE-2022-23219)中基于堆栈的缓冲区溢出的攻击
- 安全性公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 GNU C 库(CVE-2021-3999)中的缓冲区溢出和下流的攻击
8 2022 年 4 月 (V 4.0.7)
- 现在,针对基于下一代模型的定制模型记录了对类似声音的支持
-
对于基于下一代模型的定制语言模型,现在记录了对定制词的类似声音的规范的支持。 自 2021 年末以来,支持声音-点赞。
对基于下一代和上一代模型的定制模型使用
sounds_like
字段之间存在差异。 有关将sounds_like
字段与基于下一代模型的定制模型配合使用的更多信息,请参阅 使用下一代模型的定制词。 - 要点: 已从文档中除去不推荐使用的
customization_id
参数 -
重要信息: 在 9 2018 年 10 月,不推荐使用所有语音识别请求的
customization_id
参数,并将其替换为language_customization_id
参数。 现在已从语音识别方法的文档中除去customization_id
参数:- 用于 WebSocket 请求的
/v1/recognize
- 用于同步 HTTP 请求(多括多部分请求)的
POST /v1/recognize
- 用于异步 HTTP 请求的
POST /v1/recognitions
注: 如果使用 Watson SDK,请确保已更新任何应用程序代码以使用
language_customization_id
参数而不是customization_id
参数。 从 SDK 的下一个主要发行版开始,customization_id
参数将不再可用于这些 SDK 的等效方法。 有关语音识别方法的更多信息,请参阅 API 和 SDK 参考。 - 用于 WebSocket 请求的
2022 年 3 月 30 日 (V 4.0.7)
- 4.0.7 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.7 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 用于指定缺省模型的定制资源属性
-
语音识别请求的缺省语音为
en-US_BroadbandModel
。 如果未安装en-US_BroadbandModel
,那么必须- 使用
model
参数传递要用于每个请求的语音。 - 通过在 Speech 服务定制资源中使用
defaultSTTModel
属性,为 IBM Cloud Pak for Data 的 Speech to Text 的安装指定新的缺省模型。 有关更多信息,请参阅 安装 Watson Speech to Text 和 使用缺省模型。
- 使用
- 更新英语和法语下一代多媒体模型,支持低延迟
-
已更新以下多媒体模型以支持低延迟:
- 澳大利亚英语:
en-AU_Multimedia
- 英国英语:
en-GB_Multimedia
- 美国英语:
en-US_Multimedia
- 法语:
fr-FR_Multimedia
您不需要升级基于这些基本模型构建的定制语言模型。 有关下一代模型和低延迟的更多信息,请参阅
- 澳大利亚英语:
- 全新 Castilian 西班牙下一代多媒体模型
-
该服务现在为 Castilian 西班牙语提供下一代多媒体模型:
es-ES_Multimedia
。 新模型支持低延迟,并且通常可用。 它还支持语言模型定制和语法。有关所有可用的下一代模型及其定制支持的更多信息,请参阅
- Beta 下一代
en-WW_Medical_Telephony
模型现在支持智能格式化 -
现在,Beta 下一代
en-WW_Medical_Telephony
模型支持美国英语音频的smart_formatting
参数。 有关所有下一代模型的更多信息,请参阅 下一代语言和模型 - 已解决安全漏洞
-
已修复以下安全漏洞:
- Red Hat CVE-2022-24407: 在 Cyrus SASL 随附的 SQL 插件中发现缺陷。 该漏洞由于未能正确转义 SQL 输入而发生,并导致输入验证漏洞不正确。 此缺陷允许攻击者执行任意 SQL 命令,并允许攻击者更改允许特权升级的其他帐户的密码。
- 安全公告 :jwt-go 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
- 安全公告 :Golang Go 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 受 Spring Framework(CVE-2022-22965)中的远程代码执行影响,但未被归类为易受攻击。
- 安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 IBM WebSphere Application Server(CVE-2021-23450)的任意代码执行的攻击
2022 年 3 月 17 日 (V 4.0.6)
- 面向下一代模型的语法支持现已普遍可用
-
现在,对于满足以下条件的下一个常规模型,语法支持已普遍可用 (GA):
- 这些模型通常可用。
- 模型支持语言模型定制。
有关更多信息,请参阅以下主题:
- 有关下一代模型的语法支持状态的更多信息,请参阅 下一代模型的定制支持。
- 有关语法的更多信息,请参阅 语法。
2022 年 3 月 15 日 (V 4.0.6)
- 重要信息: 废弃大多数前代模型
-
已被取代: 此废弃通知已被 2023 年 2 月 23 日服务更新 取代。 所有 上一代模型的服务结束日期现在为 2023 年 7 月 31 日。
自 2022 年 3 月 15 日起,不推荐使用除阿拉伯语和日语以外的所有语言的前代模型。 不推荐的模型在 2022 年 9 月 15 日之前一直可用,届时将从服务和文档中除去这些模型。 不 不推荐使用阿拉伯语和日语的前代模型。
现在不推荐使用以下上一代模型:
- 中文 (普通话):
zh-CN_NarrowbandModel
和zh-CN_BroadbandModel
- 荷兰语 (荷兰语):
nl-NL_NarrowbandModel
和nl-NL_BroadbandModel
- 英语 (澳大利亚):
en-AU_NarrowbandModel
和en-AU_BroadbandModel
- 英语 (英国):
en-UK_NarrowbandModel
和en-UK_BroadbandModel
- 英语 (美国):
en-US_NarrowbandModel
,en-US_BroadbandModel
和en-US_ShortForm_NarrowbandModel
- 法语 (加拿大):
fr-CA_NarrowbandModel
和fr-CA_BroadbandModel
- 法语 (法国):
fr-FR_NarrowbandModel
和fr-FR_BroadbandModel
- 德语:
de-DE_NarrowbandModel
和de-DE_BroadbandModel
- 意大利语:
it-IT_NarrowbandModel
和it_IT_BroadbandModel
- 韩国语:
ko-KR_NarrowbandModel
和ko-KR_BroadbandModel
- 葡萄牙语 (巴西):
pt-BR_NarrowbandModel
和pt-BR_BroadbandModel
- 西班牙语 (阿根廷语):
es-AR_NarrowbandModel
和es-AR_BroadbandModel
- 西班牙语 (Castilian):
es-ES_NarrowbandModel
和es-ES_BroadbandModel
- 西班牙语 (智利):
es-CL_NarrowbandModel
和es-CL_BroadbandModel
- 西班牙语 (哥伦比亚):
es-CO_NarrowbandModel
和es-CO_BroadbandModel
- 西班牙语 (墨西哥语):
es-MX_NarrowbandModel
和es-MX_BroadbandModel
- 西班牙语 (秘鲁):
es-PE_NarrowbandModel
和es-PE_BroadbandModel
如果使用任何这些不推荐的模型,那么必须在服务结束日期之前迁移到等效的下一代模型。
- 有关可以从每个不推荐的模型迁移到的下一代模型的更多信息,请参阅 上一代语言和模型
- 有关下一代模型的更多信息,请参阅 下一代语言和模型
- 有关从上一代模型迁移到下一代模型的更多信息,请参阅 迁移到下一代模型。
注: 在 9 月 15 日从服务中除去前代
en-US_BroadbandModel
时,下一代en-US_Multimedia
模型将成为语音识别请求的缺省模型。 - 中文 (普通话):
- 下一代模型现在支持音频解析参数
-
现在,所有下一代模型都支持以下音频解析参数作为一般可用功能:
end_of_phrase_silence_time
指定暂停间隔的持续时间,服务会在暂停间隔内将副本分割成多个最终结果。 有关更多信息,请参阅短语结束静默时间。split_transcript_at_phrase_end
指示服务根据输入内容的语义特征将转录内容拆分成多个最终结果。 有关更多信息,请参阅在短语结束位置拆分文字记录。
- 缺陷修订: 正确的演讲者标签文档
-
缺陷修复: 发言者标签文件在多处包含以下错误声明:对于下一代型号,扬声器标签不支持用于临时结果或低延迟。 支持将说话者标签用于下一代模型的临时结果和低延迟。 有关更多信息,请参阅说话者标签。
2022 年 2 月 23 日 (V 4.0.6)
- 4.0.6 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.6 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 导入/导出脚本的更新
-
import_export.sh
和transfer_ownership.sh
脚本已更新。 这些脚本用于在集群之间导入和导出数据,备份和复原数据,以及将数据从 V 3.5 迁移到 V 4.0.x。 这些脚本已修改并改进,如下所示:transfer_ownership.sh
脚本现在需要在命令行上的<custom_resource_name>
参数之前包含-c
选项。transfer_ownership.sh
脚本现在需要-v <version>
选项和参数,以指示要将资源所有权转移到的版本。 对于 V 3.5,请指定35
,对于 V 4.0.x,请指定40
。transfer_ownership.sh
脚本现在需要在命令行上的<postgres_auth_secret_name>
参数之前包含-p
选项。<postgres_auth_secret_name>
参数提供用于向要将所有权转移到的 PostgreSQL 数据存储器进行认证的 Kubernetes 私钥。 如果与缺省值 (<custom-resource-name>-postgres-auth-secret
对于 V 4.0.x,user-provided-postgressql
对于 V 3.5) 相同,那么可以省略认证私钥。 如果私钥与缺省值不同,那么必须提供该私钥。- 这两个脚本现在都包含一个
-h
(--help
) 选项,用于显示有关脚本及其使用情况的信息。
有关更多信息,请参阅
- 管理 Watson Speech to Text,特别是 导入和导出数据 以及 备份和复原数据。
- 升级 Watson Speech to Text,特别是 从 IBM Cloud Pak for Data V 3.5迁移数据。
- 更新了 OpenShift Container Storage 的建议
-
从 Speech 服务 V 4.0.6开始,OpenShift Container Storage 的建议存储类为
ocs-storagecluster-ceph-rbd
。- 如果您要安装 Speech 服务 4.0.6 或从 IBM Cloud Pak for Data 版本 3.5 升级到 Speech 服务 4.0.6,请在安装或升级过程中指定
ocs-storagecluster-ceph-rbd
存储类别。 - 如果要从先前刷新的 Cloud Pak for Data V 4.0升级到 Speech 服务 4.0.6,请继续使用
ocs-storagecluster-cephfs
。 无法更改在现有部署中使用的存储器。
此值与 Speech 服务定制资源中的
storageClass
属性一起指定:################ # Storage class ################ storageClass: "ocs-storagecluster-ceph-rbd"
Speech 服务适用于任一版本的 OpenShift Container Storage。 新建议的版本具有更严格的访问许可权。 有关更多信息,请参阅
- 如果您要安装 Speech 服务 4.0.6 或从 IBM Cloud Pak for Data 版本 3.5 升级到 Speech 服务 4.0.6,请在安装或升级过程中指定
- 现在提供了新的 Beta
en-WW_Medical_Telephony
模型 -
现在提供了新的 Beta 下一代
en-WW_Medical_Telephony
。 新模型从医学和药理领域理解术语。 在需要转录常用医疗术语 (例如,医药名称,产品品牌,医疗过程,疾病,医生类型或与 COVID-19-related 术语) 的情况下使用该模型。 常见用例包括患者与医疗提供者 (例如,医生,护士或药剂师) 之间的对话。新模型是通过将
enWwMedicalTelephony
设置为enabled: true
从 Speech 服务定制资源安装的。 该模型可用于所有受支持的英语方言: 澳大利亚,印度,英国和美国。- 该模型支持语言模型定制和语法作为 Beta 功能。
- 它支持与
en-US_Telephony
模型相同的大部分参数。 - 它 不 支持以下参数:
low_latency
,profanity_filter
,redaction
和speaker_labels
。 - 此时,它 不 支持
smart_formatting
IBM Cloud Pak for Data。
有关更多信息,请参阅 The English medical Telephony model。
- 更新为中文
zh-CN_Telephony
模型 -
下一代中国模式
zh-CN_Telephony
已更新,以改进语音识别。 该模型继续支持低延迟。 缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。如果您有基于更新模型的自定义语言模型,则必须使用
POST /v1/customizations/{customization_id}/upgrade_model
方法升级现有的自定义模型,以利用更新的优势。 有关更多信息,请参阅升级定制模型。 - 更新为日语
ja-JP_Multimedia
模型以支持低延迟 -
下一代日语模型
ja-JP_Multimedia
现在支持低延迟。 您可以将low_latency
参数与使用模型的语音识别请求配合使用。 您不需要升级基于更新后的日语基本模型的定制模型。 有关下一代模型和低延迟的更多信息,请参阅 下一代语言和模型 和 低延迟。
2022 年 2 月 11 日 (V 4.0.5)
- 缺陷修订: 改进定制模型升级和基本模型版本文档
-
缺陷修订: 描述定制模型升级的文档以及用于不同版本的基本模型的版本字符串已更新。 该文档现在指出,针对语言模型定制的升级也适用于下一代模型。 此外,还更新了表示不同版本的基本模型的版本字符串。 并且
base_model_version
参数还可以与升级后的下一代模型配合使用。有关定制模型升级,需要升级时以及如何使用较低版本的定制模型的更多信息,请参阅
- 缺陷修订: 更新资本化文档
-
缺陷修订: 描述服务的文字记录自动大写的文档已更新。 该服务仅将相应的名词用于以下语言和模型:
- 所有上一代美式英语模型
- 下一代德国模式
有关更多信息,请参阅 资本化。
2022 年 1 月 31 日 (V 4.0.5)
- 已更新版本 4.0.5
-
Speech to Text for IBM Cloud Pak for Data V 4.0.5 已更新以解决安装问题。 案例包版本现在为 4.0.6。 请使用此软件包而不是 V 4.0.5 软件包。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 要点: 不再需要额外的镜像安装步骤
-
重要信息: 2022 年 1 月 26 日发行说明 包含以下步骤的重要说明:
- 执行 Minio 数据存储器镜像安装的其他步骤
- 执行新下一代模型的镜像安装的其他步骤
不再需要这些附加步骤。 已更新案例包以更正安装问题。
2022 年 1 月 26 日 (V 4.0.5)
- 4.0.5 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.5 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 要点: 执行 Minio 数据存储器镜像安装的其他步骤
-
重要信息: 如果安装案例软件包 4.0.6,那么不再需要这些步骤。 有关详细信息,请参见 2022 年 1 月 31 日(版本 4.0.5)。
如果要执行镜像安装 (例如,在气郄环境中),那么需要 在 完成以下任一步骤之前执行额外的步骤:
- 步骤 7 将映像镜像到专用注册表 的 具有防御模型的镜像映像
- 步骤 8 将映像镜像到中间容器注册表,即 使用中间容器注册表的镜像映像
必须执行此步骤才能复制 Minio 数据存储器的必需映像:
echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
未能执行此步骤将导致 Speech to Text 和 Text to Speech的安装错误。
- 重要信息: 执行新下一代模型的镜像安装的其他步骤
-
重要信息: 如果安装案例软件包 4.0.6,那么不再需要这些步骤。 有关详细信息,请参见 2022 年 1 月 31 日(版本 4.0.5)。
如果您正在执行镜像安装 (例如,对于气郄环境) 并计划为 Speech to Text 安装任何新的下一代模型 (有关更多信息,请参阅后续发行说明),那么必须在完成以下任一步骤 之前 执行额外的步骤:
- 具有防御模型的镜像映像 的步骤 7 将映像镜像到专用容器注册表
- 步骤 8 将映像镜像到中间容器注册表,即 使用中间容器注册表的镜像映像
每个附加步骤对于要安装的模型都是唯一的。 如果安装多个新模型,请针对要安装的每个模型发出指示的命令。
-
对于中国电话模型 (
zh-CN_Telephony
):echo 'cp.icr.io,cp/watson-speech/zh-cn-telephony,2022-01-05-405models,sha256:52af6dfccd64ccd81b409936442a51a71f4ee96d980e1fc6a343a05bd4ed7fbc,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
对于拉丁美洲西班牙语电话模型 (
es-LA_Telephony
):echo 'cp.icr.io,cp/watson-speech/es-la-telephony,2022-01-05-405models,sha256:58e8c04abe9659472e89bf0778b7dc66e0ddceb4ea18d9d3e048a08c72125ea2,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
关于澳大利亚英语多媒体模型 (
en-AU_Multimedia
):echo 'cp.icr.io,cp/watson-speech/en-au-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
对于英国英语多媒体模型 (
en-GB_Multimedia
):echo 'cp.icr.io,cp/watson-speech/en-gb-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
- 许可证服务器现在已自动安装
-
现在,Speech 服务操作员在安装 Speech 服务时自动安装所需的 License Server。 您不再需要从 IBM Cloud Pak for Data 基础服务安装 License Server,并且不再需要使用其他 YAML 内容来创建具有必需绑定的 OperandRequest。
- 除去特定于 PostgreSQL EnterpriseDB 服务器的步骤
-
先前版本的文档包含特定于 Speech 服务的 PostgreSQL EnterpriseDB 服务器的步骤。 这些步骤记录在主题 升级 Watson Speech to Text (V 4.0) 和 卸载 Watson Speech to Text中。 不再需要这些附加步骤,这些步骤已从文档中除去。
- RabbitMQ 数据存储器现在仅由
sttAsync
组件使用 -
RabbitMQ 数据存储器先前由语音服务 Speech to Text 和 Text to Speech的组件使用。 现在,它仅处理Speech to Text异步 HTTP 组件(
sttAsync
)的非持久性消息队列。 仅当安装并启用了sttAsync
组件时,才会使用此参数。 - 新的下一代模型
-
该服务现在支持以下具有 Speech to Text for IBM Cloud Pak for Data的下一代模型:
- 中文 (普通话) 电话模型 (
zh-CN_Telephony
)。新模型支持低延迟。 - 英语 (澳大利亚) 多媒体模型 (
en-AU_Multimedia
)。新模型不支持低延迟。 - 英语 (英国) 多媒体模型 (
en-GB_Multimedia
)。新模型不支持低延迟。 - 西班牙语 (拉丁美洲) 电话模型 (
es-LA_Telephony
)。新模型支持低延迟。
注: 拉丁美洲西班牙语模型
es-LA_Telephony
适用于所有拉丁美洲方言。 它相当于可用于阿根廷,智利,哥伦比亚,墨西哥和秘鲁方言的前代模型。 如果对其中任何特定方言使用了前代模型,请使用es-LA_Telephony
模型来迁移到等效的下一代模型。新模型通常可用于语音识别。 它们通常可用于语言模型定制和语法测试。 不支持对它们进行声学模型定制。
- 重要信息: 如果要执行镜像安装 (例如,在气郄环境中),并计划为 Speech to Text安装任何新的下一代模型,那么必须在 ** 镜像映像之前执行其他步骤。 更多信息,请参阅之前的发布说明。
- 有关使用定制资源来安装模型的更多信息,请参阅 安装 Watson Speech to Text。
- 有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
- 有关下一代模型的定制支持的更多信息,请参阅 下一代模型的定制支持。
- 中文 (普通话) 电话模型 (
- 缺省情况下,现在已安装下一代美国英语模型
-
缺省情况下,下一代美国英语模型
en-US_Multimedia
和en-US_Telephony
现在随 Speech to Text for IBM Cloud Pak for Data一起安装。 这些模型将en-US_BroadbandModel
,en-US_NarrowbandModel
和en-US_ShortForm_NarrowbandModel
连接为缺省情况下安装的模型。 现在,模型在 Speech 服务定制资源中具有以下条目:######################################## # Speech to Text next-generation models ######################################## enUsMultimedia: # US English (en-US) Multimedia model enabled: true enUsTelephony: # US English (en-US) Telephony model enabled: true
For more information about using the custom resource to install models, see Installing Watson Speech to Text.
- 已解决安全漏洞
-
已修复与 Apache Log4j 关联的以下安全漏洞:
2021 年 12 月 20 日 (V 4.0.4)
- 4.0.4 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.4 现在可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- 要点: 对用于禁用用户数据存储和日志记录的属性的更改
-
要点: 用于指定是否存储和记录用户数据的 Speech 服务定制资源的属性的名称已更改。 定制资源先前包含以下属性:
################# # Anonymize logs ################# sttRuntime: anonymizeLogs: "false" # If true, disables storage and logging of user data sttAMPatcher: anonymizeLogs: "false" # If true, disables storage and logging of user data ttsRuntime: anonymizeLogs: "false" # If true, disables storage and logging of user data
这些属性现在按如下所示进行命名:
################################### # Storage and logging of user data ################################### sttRuntime: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data sttAMPatcher: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data ttsRuntime: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data
如果已在定制资源中设置这些属性以将
false
的缺省值更改为true
,那么需要编辑定制资源。 必须手动将属性名称更改为新值,并保存更新后的定制资源。 有关更多信息,请参阅 安装 Watson Speech to Text。 - 重要信息: 对 PostgreSQL 私钥对象的属性进行的更改
-
重要信息: 安装 Speech 服务时,缺省情况下会创建一个对象,该对象包含为 PostgreSQL 数据存储器随机生成的密码。 您可以选择改为手动指定密码。 如果执行此操作,那么密钥对象的 YAML 文件的属性已更改。 有关更多信息,请参阅 管理 Watson Speech to Text中有关管理数据存储器的主题。
- 重要信息: PostgreSQL pod 未以 EnterpriseDB V 1.10 操作程序开头
-
要点: 对于 Speech to Text for IBM Cloud Pak for Data V 4.0.3,基于 EnterpriseDB V 1.10 操作程序的 PostgreSQL pod 可能无法启动。 这将阻止 Speech 服务启动。 此问题存在变通方法。 如果 Speech 服务无法启动,请参阅 PostgreSQL pod 不使用 EnterpriseDB V 1.10 操作程序 启动,以获取有关诊断和解决问题的信息。
在 Speech to Text 中,针对 IBM Cloud Pak for Data V 4.0.4解决了此问题。
- 对 IBM Spectrum Scale 容器本机存储类的新支持
-
从 V 4.0.3开始,Speech 服务支持 IBM Spectrum® Scale Container Native 存储类。 要使用 IBM Spectrum Scale,请为 Speech 服务定制资源的
storageClass
属性指定"ibm-spectrum-scale-sc"
。 有关更多信息,请参阅 安装 Watson Speech to Text。 - 在安装期间语音服务与 MinIO 数据存储器的交互
-
在将服务的模型和声音完全上载到 MinIO 数据存储器之前,Speech 服务运行时组件
sttRuntime
和ttsRuntime
无法启动。 在安装期间,这些服务可能会失败,并自动重新启动自己一次或多次,直到上载模型和声音完成为止。 然后正常启动。 无需用户操作。 - 缺陷修订: 正确的升级文档
-
缺陷修复: 将 Speech 服务升级到 IBM Cloud Pak for Data 版本 4.0.x 的新版本的文档包括某些命令中的错误引用。 这些引用现在是正确的:
- 在这两种情况下,字符串
watsonSpeechToTextStatus
和watsonTextToSpeechStatus
都已更改为speechStatus
。 - 在这两种情况下,字符串
status.watsonSpeechToTextVersion
和status.watsonTextToSpeechVersion
都已更改为.spec.version
。
有关更多信息,请参阅 升级 Watson Speech to Text。
- 在这两种情况下,字符串
- 重要事项: 必须重新创建基于某些下一代模型的定制语言模型
-
重要信息: 如果创建了基于特定下一代模型的定制语言模型,那么必须重新创建定制模型。 在您重新创建自定义语言模型之前,尝试使用自定义模型的语音识别请求将失败,并返回 HTTP 错误代码400。
您需要重新创建根据以下下一代模型版本创建的定制语言模型:
- 对于
en-AU_Telephony
模型,这是您从en-AU_Telephony.v2021-03-03
到en-AU_Telephony.v2021-10-04
创建的定制模型。 - 对于
en-GB_Telephony
模型,这是您从en-GB_Telephony.v2021-03-03
到en-GB_Telephony.v2021-10-04
创建的定制模型。 - 对于
en-US_Telephony
模型,这是您从en-US_Telephony.v2021-06-17
到en-US_Telephony.v2021-10-04
创建的定制模型。 - 对于
en-US_Multimedia
模型,这是您从en-US_Multimedia.v2021-03-03
到en-US_Multimedia.v2021-10-04
创建的定制模型。
要标识定制语言模型所基于的模型版本, 请使用
GET /v1/customizations
方法列出所有定制语言模型,或使用GET /v1/customizations/{customization_id}
方法列出特定定制语言模型。 输出的versions
字段显示定制语言模型的基本模型。 有关更多信息,请参阅列出定制语言模型。要重新创建定制语言模型, 首先创建新的定制模型。 然后,将先前定制模型的所有语料库和定制词添加到新模型。 然后,可以删除先前的定制模型。 更多信息,请参阅 创建自定义语言模型。
- 对于
- 更新多个下一代模型,以改善语音识别
-
以下新一代机型的语音识别功能已得到改进:
- 澳大利亚英语电话模型 (
en-AU_Telephony
) - 英国英语电话模型 (
en-GB_Telephony
) - 美国英语多媒体模型 (
en-US_Multimedia
) - 美国英语电话模型 (
en-US_Telephony
) - Castilian 西班牙语电话模型 (
es-ES_Telephony
)
有关所有可用的下一代模型的更多信息,请参阅 下一代语言和模型。
- 澳大利亚英语电话模型 (
- 面向下一代模型的新 Beta 语法支持
-
语法支持现已作为 Beta 功能提供,适用于所有可用的下一代模型。 所有下一代模型都普遍可用 (GA),并支持语言模型定制。 有关更多信息,请参阅以下主题:
- 有关下一代模型的语法支持状态的更多信息,请参阅 下一代模型的定制支持。
- 有关语法的更多信息,请参阅 语法。
- 受支持功能部件的新
custom_acoustic_model
字段 -
GET /v1/models
和GET /v1/models/{model_id}
方法现在报告模型是否支持声学模型定制。SupportedFeatures
对象现在包含另一个字段custom_acoustic_model
,这是一个布尔值,对于支持声学模型定制的模型,该布尔值为true
,否则为false
。 目前,对于所有先前生成的模型,此字段为true
,对于所有下一代模型,此字段为false
。 - 已解决安全漏洞
-
已修复与 Apache Log4j 关联的以下安全漏洞:
2021 年 12 月 20 日 (V 1.2.x)
- 要点: 无法再在 IBM Cloud Pak for Data V 3.5 上安装 Speech to Text V 1.2.x
-
重要信息: 不能再在 IBM Cloud Pak for Data V 3.5上执行 Speech to Text V 1.2.x 的新安装。 只能在 IBM Cloud Pak for Data V 4.x上安装 Speech to Text V 4.0.x。 有关更多信息,请参阅 安装 Watson Speech to Text。
IBM Cloud Pak for Data V 3.5 的语音服务将于 2022 年 4 月 30 日结束支持。 建议您尽早升级到服务的最新版本 4.0.x 发行版。 有关更多信息,请参阅 升级 Watson Speech to Text。
2021 年 11 月 30 日 (V 4.0.3)
- 4.0.3 版本现已推出
-
Speech to Text for IBM Cloud Pak for Data V 4.0.3 现已可用。 此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。 有关安装和管理服务的更多信息,请参阅 安装 Watson Speech to Text。
- License Server 现在是必需的先决条件
-
现在必须从 IBM Cloud Pak for Data 基础服务安装 License Server。 必须使用提供的 YAML 内容来安装 License Server,以创建具有必需绑定的 OperandRequest。 您还必须在与服务 (操作数) 相同的名称空间中安装 License Service,这也是安装 IBM Cloud Pak for Data 的位置。 有关更多信息,请参阅 安装 Watson Speech to Text。
- 新支持就地升级
-
该服务现在支持从 V 4.0.0 到 V 4.0.3的基于操作程序的就地升级。 从 IBM Cloud Pak for Data V 3.5 到 V 4.0.3 继续需要使用迁移实用程序。 有关更多信息,请参阅 升级 Watson Speech to Text。
- EDB PostgreSQL 操作程序和许可证安装更改
-
Enterprise DB PostgreSQL 操作程序和许可证的安装,升级和卸载已更改:
- 现在,IBM Cloud Pak for Data 基础服务随附了有关安装 EDB PostgreSQL 操作程序和许可证的指示信息。 相应更新了有关安装 Speech 服务的指示信息。 有关更多信息,请参阅 安装 Watson Speech to Text。
- 有关从 Speech to Text V 4.0.0 升级到 4.0.3 的指示信息包括有关卸载先前的 EDB PostgreSQL 操作程序和许可证的指示信息,以及使用 IBM Cloud Pak for Data 基础服务重新安装这些操作程序和许可证的指示信息。 有关更多信息,请参阅 升级 Watson Speech to Text。
- 卸载 Speech 服务的指示信息现在包括用于除去先前随 Speech to Text一起安装的 EDB PostgreSQL 操作程序和许可证的步骤。 有关更多信息,请参阅 卸载 Watson Speech to Text。
- 有关扩展安装的新指南
-
该服务现在提供有关扩展安装的更新指南。 此信息包括指定 pod 数,每个 pod 分配的 CPU 数以及与上一代和下一代模型的最大并发会话数。 有关更多信息,请参阅 管理 Watson Speech to Text。
- 用于导入和导出实用程序的命令行更新
-
用于 Speech 服务的 IMPORT 实用程序和 IMPORT 实用程序的命令包含新的选项和参数。 导入和导出实用程序也是备份和复原服务以及从 IBM Cloud Pak for Data V 3.5 迁移到 V 4.0.3的基础。 有关使用实用程序的更多信息,请参阅
- 用于指定用于声学模型训练的 CPU 的新属性
-
sttAMPatcher
微服务管理服务的声学模型定制。 AM Patcher 使用专用数量的 CPU 来处理请求。 您可以使用新的sttAMPatcher.resources.requestsCPU
属性来增加专用于处理 AM Patcher 的声学模型训练请求的 CPU 数。 如果在声学模型训练期间迂到训练失败,那么可能需要执行此操作。 有关更多信息,请参阅 安装 Watson Speech to Text。 - 新的下一代模型
-
该服务现在支持以下新的下一代语言模型。 所有新机型一般都有。
- 捷克语:
cs-CZ_Telephony
。 该模型支持低延迟。 - 比利时荷兰语 (佛兰芒语):
nl-BE_Telephony
。 该模型支持低延迟。 - 法语:
fr-FR_Multimedia
。 新模型不支持低延迟。 - 印度英语:
en-IN_Telephony
。 该模型支持低延迟。 - 印度印地语:
hi-IN_Telephony
。 该模型支持低延迟。 - 日语:
ja-JP_Multimedia
。 该模型不支持低延迟。 - 韩国语:
ko-KR_Multimedia
。 该模型不支持低延迟。 - 韩国语:
ko-KR_Telephony
。 该模型支持低延迟。 - 荷兰语:
nl-NL_Telephony
。 该模型支持低延迟。
- 捷克语:
- 对下一代模型的更新
-
以下新一代机型的语音识别功能已得到改进。 所有型号都普遍可用。
- 阿拉伯语:
ar-MS_Telephony
。 该模型现在支持低延迟。 - 巴西葡萄牙语:
pt-BR_Telephony
。 该模型继续支持低延迟。 - 美国英语:
en-US_Telephony
。 该模型继续支持低延迟。 - 加拿大法语:
fr-CA_Telephony
。 该模型现在支持低延迟。 - 意大利语:
it-IT_Telephony
。 该模型现在支持低延迟。
- 阿拉伯语:
- 缺陷修复:解决异步 HTTP 故障
-
缺陷修复:异步 HTTP无法转录某些音频。 此外,请求的回调返回了状态
recognitions.completed_with_results
而不是recognitions.failed
。 此错误已解决。 - 缺陷修订: 改进演讲者标签结果
-
缺陷修订: 当您将演讲者标签与下一代模型配合使用时,服务现在会识别输入音频的所有词的演讲者,包括具有相同开始和结束时间戳记的非常短的词。
- 缺陷修订: 更新临时结果和低延迟文档
-
缺陷修复: 描述下一代模型的临时结果和低延迟功能的文档已重写,以提高清晰度和正确性。 有关更多信息,请参阅以下主题:
- 缺陷修订: 正确的多租户文档
-
缺陷修订: IBM Cloud Pak for Data 主题 多租户支持 错误地声明语音服务不支持多租户。 该主题已更新为声明 Speech 服务支持以下操作:
- 在单独的项目中安装服务
- 在同一项目中多次安装服务
- 安装服务一次,并在同一项目中部署多个实例
特定于 Speech 服务的文档正确声明了多租户支持。
1 2021 年 10 月 (V 1.1.x)
- 版本 1.1.x 已失服务
- Speech to Text 和 Text to Speech for IBM Cloud Pak for Data V 1.1.x 已于 2021 年 9 月 30 日退出服务。 从 1 2021 年 10 月起,版本 1.1.x 的文档不再可用。 有关更多信息,请参阅 软件撤销和支持终止。
2021 年 8 月 31 日 (V 4.0.0)
- 现在,所有下一代模型都已普遍可用
-
现在,所有下一代语言模型都已普遍可用 (GA)。 支持在生产环境和应用程序中使用它们。
- 有关所有下一代语言模型以及当前可用于 IBM Cloud Pak for Data的模型的更多信息,请参阅 下一代语言和模型。
- 有关每个下一代模型支持的功能的更多信息,请参阅 下一代模型支持的功能。
- 面向下一代模型的语言模型定制现已普遍可用
-
现在,对于所有可用的下一代语言和模型,语言模型定制已普遍可用 (GA)。 支持在生产环境和应用程序中使用下一代模型的语言模型定制。
您可以使用相同的命令来创建,管理和使用下一代模型的定制语言模型,语料库和定制词,就像您对上一代模型执行的操作一样。 但是,下一代模型的定制工作方式与上一代模型的定制工作方式不同。 对于基于下一代模型的定制模型:
- 定制模型没有词汇表外 (OOV) 词的概念。
- 来自语料库的词不会添加到词资源中。
- 当前不能将类似声音的功能用于定制词。
- 更新基本语言模型时,不需要升级定制模型。
- 当前不支持语法。
有关将语言模型定制用于下一代模型的更多信息,请参阅
其他主题描述如何管理定制语言模型,语料库和定制词。
2021 年 7 月 29 日 (V 4.0.0)
- 版本 4.0.0 可供使用
-
IBM Watson® Speech to Text for IBM Cloud Pak® for Data V 4.0.0 现在可用。 服务的安装和管理包含许多更改。 此版本支持 IBM Cloud Pak for Data 版本 4.x 和 Red Hat OpenShift 版本 4.6。 有关安装和管理服务的更多信息,请参阅 安装 IBM Watson Speech to Text for IBM Cloud Pak for Data。
- 新的下一代语言模型
-
该服务现在支持越来越多的下一代语言模型。 下一代 多媒体 和 电话 模型改进了服务的上一代宽带和窄带模型的语音识别功能。 新模型利用深度神经网络和双向分析来实现更高的吞吐量和更高的转录准确性。
此时,下一代语言模型和
low_latency
参数是 Beta 功能。 下一代模型支持有限数量的语言和语音识别功能。 受支持的语言,模型和功能将随着未来发行版而增加。许多下一代模型还支持新的
low_latency
参数,这使您能够以降低转录质量为代价请求更快的结果。 启用低延迟时,服务会限制其对音频的分析,这会降低转录的准确性。 如果应用程序需要的响应时间超过其尽可能高的准确性,那么此权衡可能是可以接受的。low_latency
参数会影响您将interim_results
参数与 WebSocket 接口配合使用。 临时结果仅适用于支持低等待时间的下一代模型,并且仅当interim_results
和low_latency
参数都设置为true
时才可用。- 有关下一代模型及其功能的更多信息,请参阅 下一代语言和模型。
- 有关下一代模型的语言支持以及哪些下一代模型支持低延迟的更多信息,请参阅 支持的下一代语言模型。
- 有关下一代机型功能支持的更多信息,请参阅 下一代机型支持的功能。
- 有关
low_latency
参数的更多信息,请参阅 低等待时间。 - 有关下一代模型的
low_latency
和interim_results
参数之间的交互的更多信息,请参阅 请求临时结果和低延迟。
- 阿拉伯语宽带模型已重命名
-
阿拉伯语宽带模型现在命名为
ar-MS_BroadbandModel
。 不推荐使用先前的名称ar-AR_BroadbandModel
。 它将继续运行至少一年,但可能在将来某个日期被移除。 鼓励您尽早迁移到新名称。 - 统一 Speech to Text 文档
-
IBM Watson Speech to Text for IBM Cloud Pak for Data 的文档现在与 IBM Cloud上托管的 Speech to Text 服务的受管实例的文档结合使用。 两种服务形式的指南和参考文档都是如此。 指向先前单独版本的 IBM Cloud Pak for Data 文档的链接,用于将服务重定向到统一文档。
有关标识仅与产品的一个版本相关的信息的更多信息,请参阅 关于 Speech to Text。
- 缺陷修订: 改进文档
-
缺陷修订: 文档已更新以更正以下信息:
- 文档未能说明下一代模型 不会 生成犹豫标记。 文档已更新,以注意到只有上一代模型才会生成犹豫标记。 下一代模型包含转录结果中的实际迟疑。 有关更多信息,请参阅 语音迟疑和迟疑标记。
- 文档错误地指出,使用
smart_formatting
参数会导致服务从日语的最终转录结果中除去犹豫标记。 对于日语,智能格式化不会从最终结果中除去犹豫标记,仅针对美国英语。 有关更多信息,请参阅 智能格式化会影响哪些结果?
- 版本 1.1.x 正在退出服务
-
Speech to Text 和 Text to Speech for IBM Cloud Pak for Data V 1.1.x 将于 2021 年 9 月 30 日退出服务。 必须在该日期之前升级到 IBM Cloud Pak for Data 上的更高版本的服务。 从 1 2021 年 10 月起,版本 1.1.4 的文档将不再可用。
2021 年 4 月 12 日 (V 1.2.1)
- 添加到
speech-override.yaml
文件 -
最小
speech-override.yaml
文件包含额外的定义dockerRegistryPrefix
:global: dockerRegistryPrefix: "{Registry}" image: pullSecret: "{Registry_pull_secret}"
{Registry}
是 内部注册表的路径。Docker 它必须是image-registry.openshift-image-registry.svc:5000/{namespace}
,其中{namespace}
是安装了 IBM Cloud Pak® for Data 的名称空间,通常为zen
。
9 2021 年 4 月 (V 1.2.1)
- 支持修改已安装的模型和声音
- 通过 Speech 服务,您可以添加或除去 1.2 或 1.2.1 版本的服务的已安装模型和声音。
版本 1.2.1 (2021 年 3 月 26 日)
- 版本 1.2.1 可供使用
-
Speech to Text for IBM Cloud Pak for Data V 1.2.1 现已可用。 1.2 和 1.2.1 使用相同的 1.2 文档和安装指示信息。 除了 V 4.5 和 3.11之外,V 1.2.1 还支持在 Red Hat OpenShift V 4.6 上进行安装。
- 新的安装指示信息
-
对于连接到因特网和气郄式集群的两个集群,安装指示信息包括以下步骤:
- 使用
oc label
命令为安装了 IBM Cloud Pak for Data 的名称空间设置必需标签。 - 使用
oc project
命令可确保您指向正确的 OpenShift 项目。 - 使用
cpd-cli install
命令来安装由 Speech 服务使用的 Enterprise DB PostgreSQL 服务器。
在安装 Speech 服务之前,请执行以下步骤。
- 使用
- 新的卸载指示信息
-
在卸载 Speech 服务以从安装中清除所有资源的过程中添加了一个步骤。
- PostgreSQL 数据存储器的授权注册表
-
服务从中提取 PostgreSQL 数据存储器映像的授权注册表路径已更改。 注册表位置已从
cp.icr.io/cp/watson-speech
更改为cp.icr.io/cp/cpd
。 此更改对用户是透明的。 - Minio 和 PostgreSQL 数据存储器的私钥
-
Minio 和 PostgreSQL 数据存储器的私钥需要以下硬编码值:
- 对于 Minio,请使用
minio
。 - 对于 PostgreSQL,请使用
user-provided-postgressql
。
不能将您自己的值用于这些私钥。 必须先创建私钥,然后才能安装 Speech 服务。
- 对于 Minio,请使用
- 从
speech-override.yaml
文件中删除 -
已从
speech-override.yaml
文件中除去以下条目。 添加这些问题是为了解决现在已解决的问题。sttRuntime: images: miniomc: tag: 1.0.5 sttAMPatcher: images: miniomc: tag: 1.0.5 ttsRuntime: images: miniomc: tag: 1.0.5
通常,通过将其内容微调到基本元素来进一步减少了缩写的
speech-override.yaml
文件。
V1.2(2020 年 12 月 9 日)
- 版本 1.2 可供使用
-
Speech to Text for IBM Cloud Pak for Data V1.2 现已可用。 服务的安装和管理包含许多更改。 此版本支持 IBM Cloud Pak for Data V3.5 和 V3.0.1 以及 Red Hat OpenShift V4.5 和 V3.11。
- 新的澳大利亚和法国加拿大模式
-
该服务现在提供澳大利亚英语和加拿大法语的宽带和窄带模型:
- 澳大利亚英语:
en-AU_BroadbandModel
和en-AU_NarrowbandModel
- 加拿大法语:
fr-CA_BroadbandModel
和fr-CA_NarrowbandModel
新模型已正式发布,支持语言模型和声学模型定制。
- 澳大利亚英语:
- 用于改进语音识别的更新模型
-
更新了以下语言模型,以改进语音识别:
- 巴西葡萄牙语:
pt-BR_BroadbandModel
和pt-BR_NarrowbandModel
- 法语:
fr-FR_BroadbandModel
- 德语:
de-DE_BroadbandModel
和de-DE_NarrowbandModel
- 日语:
ja-JP_BroadbandModel
- 英国英语:
en-GB_BroadbandModel
和en-GB_NarrowbandModel
- 美国英语:
en-US_ShortForm_NarrowbandModel
缺省情况下,服务会自动将更新的模型用于所有语音识别请求。 如果您具有基于这些模型的定制语言模型或定制声学模型,那么必须使用以下方法升级现有定制模型,才能利用更新:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
有关更多信息,请参阅升级定制模型。
- 巴西葡萄牙语:
split_transcript_at_phrase_end
参数现已普遍适用于所有语言-
语音识别参数
split_transcript_at_phrase_end
现在对于所有语言一般可用。 先前,它只对美国英语和英国英语一般可用。 有关更多信息,请参阅在短语结束位置拆分文字记录。 - 德语的犹豫标记已更改
-
用于更新德国宽带和窄带型号的犹豫标记从
[hesitation]
变为%HESITATION
。 有关迟疑标记的更多信息,请参阅 语音迟疑和迟疑标记。 - 缺陷修订: 具有大量语法的模型的地址等待时间问题
-
**缺陷修订:**对于包含大量语法的定制语言模型,服务不再有延迟问题。 此类定制模型最初用于语音识别时,可能需要几秒种才能装入。 现在,这些定制模型的装入速度要快得多,大大缩短了模型用于识别时的等待时间。
2020 年 7 月 15 日 (V 1.1.4)
- Red Hat OpenShift V 4.3 正在退出服务
- 从 2020 年 9 月 1 日开始,IBM Cloud Pak for Data 3.0.1 将废弃对 Red Hat OpenShift 4.3 的支持。 Red Hat OpenShift 4.3 将于 2020 年 10 月 22 日退出服务。IBM Cloud Pak for Data 正在引入对 Red Hat OpenShift 4.5的支持。IBM Cloud Pak for Data 建议客户机在 2020 年 10 月 22 日前升级到 Red Hat OpenShift 4.5。 IBM 支持人员将与已在 Red Hat OpenShift 4.3 上安装 IBM Cloud Pak for Data 3.0.1 的任何客户合作。 对于要在 Red Hat OpenShift 4.x 上进行安装的新客户,将收到指示,要求安装 Red Hat OpenShift 4.5。
2020 年 6 月 19 日 (V 1.1.4)
- 版本 1.1.4 可供使用
-
Speech to Text for IBM Cloud Pak for Data V1.1.4 现在可用。 服务的安装和管理包含许多更改。 此版本支持 IBM Cloud Pak for Data V2.5 和 V3.0.1,以及 Red Hat OpenShift V3.11 和 V4.3。 有关安装和管理服务的更多信息,请参阅 "Installing and managing Speech to Text for IBM Cloud Pak for Data。
- 用于控制语音活动检测级别的新参数
-
现在,服务提供了两个新的可选参数,用于控制语音活动检测的级别。 这两个参数可帮助确保只处理用于语音识别的相关音频。
speech_detector_sensitivity
参数可调整语音活动检测的敏感度。 可以使用此参数来抑制因音乐、咳嗽和其他非语音事件而产生的词插入。background_audio_suppression
参数可基于音量来抑制背景音频,以防止它被转录或以其他方式干扰语音识别。 可以使用此参数来抑制私下会话或背景噪声。
这两个参数可以单独使用,也可以一起使用。 它们可用于所有接口和大多数语言模型。 有关这两个参数、其允许值及其对语音识别的质量和等待时间的影响的更多信息,请参阅语音活动检测。
- 荷兰语和意大利语的新宽带和窄带模型
-
现在,服务支持荷兰语和意大利语语言的宽带和窄带模型:
- 荷兰语宽带模型 (
nl-NL_BroadbandModel
) - 荷兰语窄带模型 (
nl-NL_NarrowbandModel
) - 意大利语宽带模型 (
it-IT_BroadbandModel
) - 意大利语窄带模型 (
it-IT_NarrowbandModel
)
荷兰语和意大利语语言模型已普遍可用 (GA),可用于语音识别以及语言模型和声学模型定制。 有关所有可用语言模型的更多信息,请参阅:
- 荷兰语宽带模型 (
- 针对德语和韩语的
speaker_labels
参数支持 -
现在,服务支持说话者标签(
speaker_labels
参数)用于德语和韩语语言模型。 说话者标签用于标识哪些人在多参与者交流中说了哪些词。 有关更多信息,请参阅说话者标签。 - 改进了日语窄带模型的语音识别
-
现在,日语窄带模型 (
ja-JP_NarrowbandModel
) 包含一些多重语法词单元来表示数字和十进制小数。 不管是否启用智能格式设置,服务都会返回这些多重语法单元。 智能格式设置功能可理解并返回模型生成的多重语法单元。 如果是将您自己的后处理应用于转录结果,那么需要相应地处理这些单元。 有关更多信息,请参阅智能格式设置文档中的日语。 - 简化备份和复原
-
现在,服务大大改进了备份和复原过程。 实用程序现在可用于备份数据存储器中的数据,因此在发生灾难时,不再需要重新创建所有数据。 有关详细信息,请参阅 备份和恢复Watson语音服务数据。
1 2020 年 4 月 (V 1.1.3)
- 声学模型定制现已普遍可用
- 对于所有支持的语言,声学模型定制现已普遍可用 (GA)。 有关对各个语言模型的支持的更多信息,请参阅定制的语言支持。
2020 年 2 月 28 日 (V 1.1.3)
- 版本 1.1.3 可供使用
-
Speech to Text for IBM Cloud Pak for Data V1.1.3 现在可用。
- 新建
end_of_phrase_silence_time
参数 -
对于语音识别,该服务现在支持
end_of_phrase_silence_time
参数。 此参数指定服务用于将文字记录拆分为多个最终结果的停顿时间间隔的持续时间。 每个最终结果都指示超过停顿时间间隔的停顿或长时间静默。 对于大多数语言,缺省停顿时间间隔为 0.8 秒;对于中文,缺省时间间隔为 0.6 秒。可以使用此参数在生成最终结果的频率与转录准确性之间进行权衡。 准确性的重要性高于等待时间时,请增大时间间隔。 预期说话者会说较短的短语或单个词时,请减小时间间隔。
有关更多信息,请参阅短语结束静默时间。
- 新建
split_transcript_at_phrase_end
参数 -
对于语音识别,该服务现在支持
split_transcript_at_phrase_end
参数。 此参数指示服务基于输入的语义特征(例如,在句子结束处),将文字记录拆分为多个最终结果。 服务对语义特征的理解基于您用于请求的基本语言模型。 定制语言模型和语法还可能会影响服务拆分文字记录的方式和位置。此参数会使服务将
end_of_utterance
字段添加到每个最终结果,以指示拆分的动机:full_stop
、silence
、end_of_data
或reset
。有关更多信息,请参阅在短语结束位置拆分文字记录。
- 改进了
speaker_labels
参数 -
对于语音识别,已更新
speaker_labels
参数以改进单个扬声器的标识,从而进一步分析音频样本。 有关说话者标签功能的更多信息,请参阅说话者标签。 有关功能改进的更多信息,请参阅 IBM Research AI Advances Speaker Diarization in Real Use Cases。
2019 年 11 月 27 日 (V 1.1.2)
- 版本 1.1.2 可供使用
- Speech to Text for IBM Cloud Pak for Data V1.1.2 现在可用。
- 最大定制模型数
- 对于每个拥有凭证,可以创建的定制语言模型数和定制声学模型数均不能超过 1024 个。 有关更多信息,请参阅最大定制模型数。
2019 年 8 月 30 日 (V 1.0.1)
- 版本 1.0.1 可供使用
-
Speech to Text for IBM Cloud Pak for Data V1.0.1 现在可用。 该服务现在与 IBM Cloud Pak for Data 2.1.0.1 搭配使用。 该服务现在支持在 Red Hat OpenShift 中安装 IBM Cloud Pak for Data。
- 西班牙语方言的新宽带和窄带模型
-
该服务现在提供六种西班牙语方言的宽带和窄带语言模型:
- 阿根廷西班牙语(
es-AR_BroadbandModel
和es-AR_NarrowbandModel
) - 卡斯蒂利亚西班牙语(
es-ES_BroadbandModel
和es-ES_NarrowbandModel
) - 智利西班牙语(
es-CL_BroadbandModel
和es-CL_NarrowbandModel
) - 哥伦比亚西班牙语(
es-CO_BroadbandModel
和es-CO_NarrowbandModel
) - 墨西哥西班牙语(
es-MX_BroadbandModel
和es-MX_NarrowbandModel
) - 秘鲁西班牙语(
es-PE_BroadbandModel
和es-PE_NarrowbandModel
)
卡斯蒂利亚西班牙语模型并不是新模型。 这些模型已普遍可用于语音识别和语言模型定制,但对于声学模型定制是 Beta 功能。
其他五种方言的模型是新增的,针对所有用途都是 Beta 功能。 由于这些其他方言是 Beta 功能,因此它们可能未准备好用于生产,并且会随时更改。 这些方言是初始产品,预计质量会随着时间和使用量而提高。
有关更多信息,请参阅以下各部分:
- 阿根廷西班牙语(
- FISMA 支持
-
美国联邦信息安全管理法案 (FISMA) 支持现在可用于 Speech to Text for IBM Cloud Pak for Data。 该服务为 FISMA High Ready。
2019 年 6 月 28 日 (V 1.0.0)
- 版本 1.0.0 可供使用
-
服务的初始发行版 V 1.0.0现在可用。Speech to Text for IBM Cloud Pak for Data 基于公共 IBM Cloud上的 IBM Watson® Speech to Text 服务。Speech to Text for IBM Cloud Pak for Data 在以下方面与公共 Speech to Text 服务不同。 如果您已经熟悉公共 Speech to Text 上的 IBM Cloud 服务,那么这些信息可能对您非常有用。
- Speech to Text for IBM Cloud Pak for Data 使用访问令牌进行认证。 有关更多信息,请参阅 API 和 SDK 参考。
- Speech to Text for IBM Cloud Pak for Data 的端点特定于 IBM Cloud Pak for Data 集群。 有关更多信息,请参阅 API 和 SDK 参考。
- Speech to Text for IBM Cloud Pak for Data 不执行任何请求日志记录。 您无需使用
X-Watson-Learning-Opt-Out
请求头。 - Speech to Text for IBM Cloud Pak for Data 不支持 Watson 令牌。 不能使用
X-Watson-Authorization-Token
请求头来向服务进行认证。