Text to Speech for IBM Cloud Pak for Data 的发行说明

IBM Cloud Pak for Data

针对 IBM Cloud Pak for Data的 IBM Watson® Text to Speech 的每个发行版和本地实例的更新都包含以下功能和更改。除非另有说明，否则所有更改都与较早的发行版兼容，并且会自动、透明地可供所有新应用程序和现有应用程序使用。

有关服务的已知限制的信息，请参阅已知限制。

有关 IBM Cloud的服务发行版和更新的信息，请参阅 IBM Cloud 的 Text to Speech 发行说明。

2024年10月30日（版本 4.8.7 ）

4.8.7 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.7 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年9月25日 5.0.3 ）

5.0.3 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。5.0.3 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年8月28日（版本 4.8.6 ）

4.8.6 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.6 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年8月28日 5.0.2 ）

5.0.2 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。5.0.2 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年7月31日 5.0.1 ）

5.0.1 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。5.0.1 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年6月19日 5.0.0 ）

5.0.0 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。5.0.0 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年4月24日 4.8.5 ）

4.8.5 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.5 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年3月27日（版本 4.8.4 ）

4.8.4 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.4 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年2月28日（版本 4.8.3 ）

4.8.3 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.3 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2024年1月31日（版本 4.8.2 ）

4.8.2 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.2 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2023年11月30日 4.8.0 ）

4.8.0 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.8.0 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2023年9月27日 4.7.3 ）

4.7.3 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.7.3 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2023年7月28日 4.7.1 ）

4.7.1 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.7.1 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2023年6月9日 4.7.0 ）

4.7.0 版本现已推出: Speech to Text IBM Cloud Pak for Data 的版本现已推出。4.7.0 更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

2 2023 年 5 月 (V 4.6.5)

4.6.5 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.6.5 现已可用。此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.10 和 4.12。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

全新澳大利亚英语表现力神经语音

该服务现在支持澳大利亚英语的两种新的表达神经声音:

en-AU_HeidiExpressive
en-AU_JackExpressive

有表现力的神经声音提供了异常清晰，清脆和流畅的自然发声的语音。新的语音可用于生产。它们支持使用标准国际音标 (IPA) 和 IBM 符号音标表示法 (SPR) 音标符号。有关更多信息，请参阅

新的韩国语增强神经语音

该服务现在支持新的增强的韩国语神经语音: ko-KR_JinV3Voice。新语音一般可供生产使用 (GA)。它支持使用标准国际音标 (IPA) 和 IBM 符号音标表示法 (SPR) 音标符号。有关更多信息，请参阅

新测试版荷兰语增强神经语音

该服务现在支持荷兰语的新增强型神经女性语音: nl-NL_MerelV3Voice。它支持使用标准国际音标 (IPA) 和 IBM 符号音标表示法 (SPR) 音标符号。

新的语音是 Beta 功能，等待 SSML 支持完成。在初始发行版中，语音不支持使用以下与 SSML 相关的功能:

具有任何语音合成请求的 <prosody> 元素
带有任何语音合成请求的 rate_percentage 和 pitch_percentage 参数
具有 WebSocket 语音合成请求的 <mark> 元素
具有 WebSocket 语音合成请求的 JSON 文本消息的 timings 参数

有关新语音，其对 IPA 和 SPR 符号的支持以及从不推荐的荷兰语神经语音迁移到新语音的更多信息，请参阅

用于 Speech 服务定制资源的新环境变量

该文档现在包含有关创建名为 ${CUSTOM_RESOURCE_SPEECH} 的环境变量的指示信息。将新变量附加到 cpd_vars.sh 脚本，并将该脚本作为源以在环境中使用该变量。有关更多信息，请参阅安装 Watson Speech 服务中的 完成此任务所需的信息，或者参阅 Speech 服务的任何升级主题。

缺陷修订: 加拿大法语语音现在正确处理数字时间

缺陷修订: 现在，加拿大法语声音的发音时间类似于 19:41。以前，声音在合成音频中省略了当时的元素。

缺陷修订: 日语语音不再插入意外音频

缺陷修订: 日语语音不再在语音合成结果中插入意外的音频。以前，在某些情况下会插入其他音频。

缺陷修订: 更新文档中的韩国语音标符号

缺陷修订: 在韩国语 SPR 符号的文档中，辅音的双字符符号现在用单引号括起，使它们成为单个符号。以前，它们显示为两个单独的符号，没有括起引号。有关更多信息，请参阅 Consonants(韩国语)。

IBMSPR 符号的文档更新

IBM SPR 符号的概述文档已更新，以阐明多字符符号的使用。有关更多信息，请参阅语音符号。

已解决安全漏洞

已修复以下安全漏洞:

2023 年 3 月 29 日 (V 4.6.4)

4.6.4 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.6.4 现已可用。此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.10 和 4.12。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

重要信息: 在升级到 V 4.6.3 或 4.6.4 之前备份数据

重要信息: 在升级到 Watson Speech 服务 V 4.6.3 或 4.6.4之前，必须备份数据。将备份保留在安全的位置。有关备份 Watson 语音服务数据的更多信息，请参阅管理 Watson 语音服务中的 备份和复原 Watson 语音服务数据。该主题还包含有关在必要时复原数据的信息。

缺陷修订: 您现在可以使用高级安装选项来更改已安装的模型和声音

缺陷修订: 在安装期间，现在可以使用命令行界面的高级安装选项来指定不同的模型或声音。以前，服务始终安装缺省模型和声音。此限制继续适用于 Watson Speech 服务版本 4.6.0，4.6.2和 4.6.3。有关安装模型和声音的信息，请参阅安装 Watson Speech 服务中的 指定其他安装选项。

设置负载均衡器超时

Watson Speech 服务要求您将服务器和客户机的负载均衡器超时设置更改为 300 秒。这些设置可确保长时间运行的语音识别请求 (具有长音频或难音频的请求) 有足够的时间来完成。有关更多信息，请参阅安装 Watson Speech 服务中的 完成此任务所需的信息。

IBMSPR 符号的文档更新

IBM SPR 符号的概述文档已更新，以阐明多字符符号的使用。有关更多信息，请参阅语音符号。

已解决安全漏洞

已修复以下安全漏洞:

2023 年 2 月 23 日 (V 4.6.3)

4.6.3 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.6.3 现已可用。此版本支持 IBM Cloud Pak for Data 版本 4.6.x 和 Red Hat OpenShift 版本 4.10。不再支持 Red Hat OpenShift V 4.8。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

已知问题: 无法使用高级安装选项更改已安装的模型和声音

已知问题: 您当前无法使用高级安装选项指定不同的模型或声音。服务始终安装缺省模型和声音。有关在安装后更改模型的信息，请参阅 Watson Speech services on IBM Cloud Pak for Data的管理主题中的 更新 Watson Speech 服务的模型和声音。

已知问题: 升级到 4.6.3 可能无法完成

已知问题: 升级到版本 4.6.3时，MinIO 备份作业可能无法在完成时删除。如果发生这种情况，那么解决方案是删除作业，然后正常进行升级。执行以下步骤解决问题。

要确定 MinIO 备份作业是否保持未删除状态，请发出以下命令:
```
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
```
未删除的 MinIO 作业由以下格式的条目标识:
```
speech-cr-ibm-minio-backup   1/1   3m25s   1d
```

要删除 MinIO 备份作业，请发出以下命令:

oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}

删除备份作业后，升级将继续并完成。

有关使用服务实例的其他信息

该文档现在包含有关使用命令行界面 (cpl-cli) 创建服务实例以及管理服务实例的信息。有关更多信息，请参阅 Watson Speech 服务 on IBM Cloud Pak for Data的以下主题:

安装后设置 下的 创建 Watson 语音服务实例
管理下的 管理 Watson Speech 服务实例

缺陷修订: 现在提供了 Beta Tune by Example

缺陷修订: 现在，Beta Tune by example 功能可用于 Text to Speech for IBM Cloud Pak for Data。以前，无法创建演讲者模型。有关可用于 U.S的功能部件的更多信息。仅英语声音，请参阅通过示例了解 Tune。

缺陷修订: 使用 <say-as> 元素指定大基数不再导致英语声音发生错误

缺陷修订: 现在可以使用 <say-as> 元素将大数发音为基数。先前，使用属性 interpret-as="cardinal" 在 <say-as> 元素中包含大量数字可能会导致英语声音的语音合成失败。例如，<say-as interpret-as="cardinal">3,200</say-as> 可能导致服务生成错误。有关更多信息，请参阅主题 SSML 元素中的 cardinal。

缺陷修复: 谐音和其他单词现在被英语声音正确发音

缺陷修订: 现在，服务会根据要合成的英语文本中的上下文来正确发音谐音和其他词。以前，advocate 和 wifi 之类的单词可能被英语声音错误地发音。

已解决安全漏洞

已修复以下安全漏洞:

安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 Pypa Setuptools 中的拒绝服务攻击(CVE-2022-40897)

2023 年 1 月 30 日 (V 4.6.2)

4.6.2 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.6.2 现已可用。此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.8 以及 4.10。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

定制资源现在包含新的 fileStorageClass 属性

现在，Watson Speech 服务的定制资源除了包含现有 blockStorageClass 属性外，还包含 fileStorageClass 属性。在安装或升级服务时，可以同时指定块存储类和文件存储类。在从先前版本升级期间，新属性将通过 cli manage apply-cr 命令上的 --file_storage_class 选项自动添加到定制资源。

有关用于每个受支持存储解决方案的可用块和文件存储类的更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务中“安装 Watson 语音服务”页面上的 存储需求 完成此任务所需的信息 下的表。

有关供应服务实例的其他信息

该文档现在包含有关以编程方式创建服务实例的信息。它还包括列出服务实例和删除服务实例的示例。有关更多信息，请参阅 Watson IBM Cloud Pak for Data中的 安装后设置 文档中的 创建 Watson Speech 服务实例。

为 MinIO 数据存储器启用了服务器端加密

现在，Speech 服务已针对 MinIO 数据存储器中的对象存储器启用服务器端加密。您无需执行任何操作。

更改为审计 Webhook

现在，Speech 服务已除去审计 Webhook 依赖关系。现在，服务会将审计事件直接写入服务器。升级到 V 4.6.2后，某些 Webhook 资源可能会保留，直到所有服务都可以除去依赖关系为止。将在将来的发行版中除去其余资源。您无需执行任何操作。

新美式英语表现力神经语音

该服务为美式英语提供四种新的表达神经声音:

en-US_AllisonExpressive
en-US_EmmaExpressive
en-US_LisaExpressive
en-US_MichaelExpressive

具有表现力的神经声音的新说话风格

表现力神经声音从其单词和短语的上下文中决定文本的情绪。他们所产生的讲话，除了具有非常对话式的风格外，还反映了文本的意境。但你可以通过表示全部或部分文本来修饰声音的自然倾向，来强调下列其中一种说话风格:

欢乐-表示幸福和好消息。
同情-表示同情或同情。
中性-表示客观性和均衡性。
不确定-表示混淆或不确定。

有关更多信息，请参阅使用讲话样式。

使用表现性神经声音的新注入强调

借助表现力神经声音，服务会根据上下文自动检测一组常见的猜想。当它合成这些猜想时，它给它们带来了人类在正常对话中所使用的自然强调。对于某些推测，可以使用 SSML 来启用或禁用其强调。有关更多信息，请参阅强调拒绝。

新词强调具有表现力的神经声音

表现力声音使用对话式风格，从上下文中自然地应用正确的调音。但你可以表明，一个或多个词要或多或少地强调。应力的变化可以通过音高，定时，音量或其他声学属性的增加或减少来指示。有关更多信息，请参阅强调单词。

该服务现在实施更严格的 SSML 验证

该服务现在对包含语音合成标记语言 (SSML) 元素的输入文本实施更严格的验证。必须使用有效值指定必需的属性元素。否则，请求将失败并返回 400 错误代码。有关 SSML 验证以及市场营销文本必须满足的需求的更多信息，请参阅 SSML 验证。

缺陷修订: 针对 en-US_MichaelExpressive 语音列出的性别现在正确

缺陷修订: 当您列出有关可用声音的信息时，en-US_MichaelExpressive 声音的 gender 现在为 male。以前，声音的性别被错误地描述为 female。有关更多信息，请参阅列出有关声音的信息。

已解决安全漏洞

已修复以下安全漏洞:

2022 年 11 月 30 日 (V 4.6.0)

4.6.0 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.6.0 现已可用。此版本支持 IBM Cloud Pak for Data V 4.6.x 和 Red Hat OpenShift V 4.8 以及 4.10。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

现在支持 Amazon Web Services (AWS)

Watson IBM Cloud Pak for Data 的语音服务现在在 Amazon Web Services™ (AWS™) 上受支持。这些服务支持 Amazon Elastic Block Store，您可以通过将 Speech 服务定制资源的 blockStorageClass 属性设置为 gp2-csi 或 gp3-csi 来指定该服务。

现在支持新的存储类

Watson IBM Cloud Pak for Data 的语音服务现在支持两个额外的存储类:

IBM Cloud Block Storage (ibmc-block-gold)
NetApp Trident (ontap-nas)

使用 Speech 服务定制资源的 blockStorageClass 属性指定存储类。有关所有受支持存储类的更多信息，请参阅 Watson Speech services on IBM Cloud Pak for Data中的以下主题:

安装 Watson Speech 服务 中的 开始之前
使用 Watson Speech 服务定制资源 中的 指定存储类

已知问题: 某些 Watson 语音服务 pod 没有用于调度的注释

已知问题: 某些 Watson 语音服务 pod 缺少 cloudpakInstanceId 注释。如果使用 IBM Cloud Pak for Data 调度服务，那么没有 cloudpakInstanceId 注释的任何 Watson Speech 服务 pod 都会

由缺省 Kubernetes 调度程序而不是调度服务调度
未包含在配额实施中

现在可以监视 PostgreSQL 数据存储器

现在，您可以启用对 PostgreSQL 数据存储器的监视，以通过 Watson Speech 服务接收有关其使用情况和状态的更新。这些事件可由 Prometheus 监视软件或您用于监视的任何应用程序使用。通过对除缺省平台监视之外的用户定义项目启用监视，您可以使用 Red Hat® OpenShift® Container Platform 监视堆栈来监视自己的项目。此功能在 Speech 服务定制资源中包含额外的属性 spec.global.datastores.postgressql.enablePodMonitor。

有关更多信息，请参阅 Watson Speech services on IBM Cloud Pak for Data的管理部分中的主题 Monitoring the PostgreSQL datastore for Watson Speech services。

缺陷修订: 如果仅启用了运行时微服务，那么将不再安装 PostgreSQL 数据存储器

缺陷修订: 如果仅启用了运行时微服务，那么不再安装 PostgreSQL 数据存储器。现在，仅当安装了至少一个 sttAsync，sttCustomization 或 ttsCustomization 微服务时，才会安装数据存储器。如果稍后禁用了这些微服务，那么不会卸载 PostgreSQL。

在 4.6.0之前，PostgreSQL 始终随 Speech 服务一起安装。如果您是仅使用 Speech 服务的运行时微服务 (低于 4.6.0) 的现有客户，那么 PostgreSQL 将保持已安装状态，但不会使用。在这种情况下，PostgreSQL 的安装会在升级期间持久存在。

将始终安装 MinIO 数据存储器，因为运行时微服务依赖于该数据存储器。仅当安装了 sttAsync 微服务时，才会安装 RabbitMQ 数据存储器。

有关更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务中的 使用 Watson Speech 服务定制资源 中的 数据存储器属性。

缺陷修订: PostgreSQL 操作程序不再需要创建网络策略来监视其操作数

缺陷修订: 对于 V 4.6.0，无需创建网络策略以允许 PostgreSQL 操作程序监视其操作数，如 2022 年 11 月 10 日(版本 4.0.x 和 4.5.x) 服务更新中所述。从版本 4.6.0开始，服务会自动处理此情况。

用于控制全局话语率的新 Beta rate_percentage 查询参数

该服务提供了新的 rate_percentage 查询参数，用于修改语音合成请求的发言速率。说话速率是服务将其合成为语音的文本说话的速度。更高的速率会使文本被讲得更快; 更低的速率会使文本被讲得更慢。此参数将更改整个请求的按语音缺省速率。有关更多信息，请参阅修改发言速率。

用于控制全局演讲间距的新 Beta pitch_percentage 查询参数

该服务提供了新的 pitch_percentage 查询参数，用于修改合成请求的演讲间距。说话间距表示服务合成的语音的语气。它代表了听者感知到的声音的音色有多高或有多低。更高的音高会导致以更高的语气说话，被认为是更高的声音; 更低的音高会导致以更低的语气说话，被认为是更低的声音。该参数将更改整个请求的按语音缺省间距。有关更多信息，请参阅修改演讲稿。

缺陷修订: 定制词翻译现在在所有情况下都接受逗号

缺陷修订: 添加到定制模型的 Word 翻译现在在所有情况下都接受逗号。以前，翻译中的逗号有时会导致翻译在用于语音合成时无法生成有效音频。此问题已在美国英语定制模型中识别。

缺陷修订: 现在，日期的法语合成是一致的

缺陷修订: 法语合成不再包含格式为“month的 ordinal”的日期之前的文章 "le"。此前，该文章仅被收录在当月第一天的法语 (例如，"9 月第一"，"le first septembre")。

缺陷修订: 改进了日语合成以处理输入文本的长字符串

缺陷修订: 服务现在正确合成包含长字符串字符的日语请求。先前，服务未能正确合成非常长的日语文本字符串。

缺陷修订: 添加定制模型命名文档的规则

缺陷修订: 该文档现在提供了用于命名定制模型的详细规则。有关更多信息，请参阅

已解决安全漏洞

已修复以下安全漏洞:

2022 年 11 月 10 日 (V 4.0.x 和 4.5.x)

已知问题: PostgreSQL 操作程序需要更新网络策略

已知问题: 对于 Speech 服务 V 4.0.x (不包括 V 4.0.0) 和 4.5.x，如果 PostgreSQL 操作程序和 Speech 服务安装在不同的名称空间中，那么 PostgreSQL 操作程序无法监视 Speech 服务的 PostgreSQL 操作数。操作员无法通过针对语音服务的网络策略来监视操作数。

此问题不会阻止 PostgreSQL 集群正常运行。集群保持活动状态并完全正常运行。但是，当您升级到新版本的 Speech 服务时，操作程序无法更新操作数。

问题的解决方案是为 PostgreSQL 操作程序创建额外的网络策略，如以下步骤中所示。无论 PostgreSQL 操作程序是安装在与 Speech 服务相同的名称空间中，还是安装在不同的名称空间中，都可以执行这些步骤。

以安装了 Speech 服务的 Red Hat® OpenShift® 项目的管理员身份登录。

输入以下命令以更新 Speech 服务的网络策略:

cat << EOF | oc apply -f -
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  labels:
    app.kubernetes.io/component: stt
    app.kubernetes.io/instance: {{ <custom-resource-name> }}
    app.kubernetes.io/name: speech-to-text
    release: {{ <custom-resource-name> }}
  name: <custom-resource-name>-postgres-network-policy
  namespace: {{ <cpd-instance-namespace> }}
spec:
  ingress:
  - from:
    - namespaceSelector: {}
      podSelector:
        matchLabels:
          app.kubernetes.io/name: cloud-native-postgresql
EOF

其中：

<custom-resource-name> 是 Speech 服务定制资源的名称。版本 4.0.x 的建议名称为 speech-prod-cr; 版本 4.5.x 的建议名称为 speech-cr。
<cpd-instance-name> 是安装了 Speech 服务的项目 (名称空间) 的名称。该文档使用环境变量 ${PROJECT_CPD_INSTANCE} 来标识名称空间。

要验证更新后的网络策略是否允许操作程序监视操作数以及 PostgreSQL 集群是否处于正常状态，请输入以下命令，其中 <custom-resource-name> 和 <cpd-instance-name> 是您在上一步中使用的值:
```
oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
```
如果 PostgreSQL 集群正常运行，那么该命令将生成类似于以下内容的输出:
```
NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
```

这些步骤不会导致操作程序将操作数更新为最新版本。但是，当您下次升级 Speech 服务软件时，操作数将按预期进行升级。

2022 年 10 月 13 日 (V 4.5.3)

4.5.3 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.5.3 现已可用。此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6，4.8和 4.10。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

审计事件可用于语音服务

IBM Cloud Pak for Data 审计日志记录服务针对 Speech to Text 和 Text to Speech 服务生成并转发审计事件。审计事件与公共服务可用于 Activity Tracker 的审计事件相匹配。有关更多信息，请参阅审计事件。

无法卸载单个 Speech 服务组件

该文档现在指出，一旦安装了个别服务组件 (微服务)，就无法将其卸载。要删除以下任何组件，必须完全卸载 Watson，然后仅重新安装所需的组件：Speech to Text 运行时、Speech to Text 异步 HTTP Speech to Text 自定义、Text to Speech 运行时和 Text to Speech 自定义。如需了解语音服务的安装详情，请参阅 Watson 语音服务，网址IBM Cloud Pak for Data。

德语声音的新 Beta spell_out_mode 参数

要指示如何拼写字符串的各个字符，现在可以将 Beta spell_out_mode 查询参数与德语语音的合成请求一起包含。缺省情况下，服务会以它为语言合成文本的相同速率来拼写各个字符。您可以使用此参数来指示服务更慢速地将各个字符拼成一组，分为一个，两个或三个字符。将该参数与 SSML <say-as> 元素配合使用，以控制如何合成字符串的字符。有关更多信息，请参阅指定如何拼写字符串。

将 Ogg 音频格式与 Safari 浏览器配合使用时的已知限制

缺省情况下，服务使用 Opus 编码解码器 (audio/ogg;codecs=opus) 返回 Ogg 音频格式的音频。但是，Safari 浏览器不支持 Ogg 音频格式。如果要将 Text to Speech 服务与 Safari 浏览器配合使用，那么必须指定希望服务返回音频的其他格式。

有关可用格式的更多信息，请参阅支持的音频格式。
有关指定格式的更多信息，请参阅指定音频格式。

对从 V 4.0.x 到 V 4.5.x 的升级进行故障诊断

将 Speech 服务从 V 4.0.x 升级到 V 4.5.x时，可能会迂到 PostgreSQL pod 陷入 Terminating 状态的问题。如果在升级期间发生此问题，请执行以下步骤以解决问题。在 Watson Speech services on IBM Cloud Pak for Data的升级主题中的 将 Watson Speech 服务从 V 4.0 升级到 V 4.5 中也记录了这些信息和步骤。

使用以下命令来识别仍处于 Terminating 状态的 pod:

oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}

使用以下命令来设置环境变量 pods 以包含仍处于 Terminating 状态的 pod 的列表:

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})

使用以下命令来删除卡住的 pod，以便升级过程可以继续:

oc delete pod $pods -n ${PROJECT_CPD_INSTANCE} --force=true --grace-period=0

更新 SSML <prosody> 元素的文档

已改进并澄清 SSML <prosody> 元素及其 pitch 和 rate 参数的文档。它现在还包含服务与最新版本的 SSML 规范之间差异的描述。有关更多信息，请参阅 <prosody> 元素。

已解决安全漏洞

已修复以下安全漏洞:

3 2022 年 8 月 (V 4.5.1)

4.5.1 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.5.1 现已可用。此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6，4.8和 4.10。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

支持支持 FIPS 的集群

Text to Speech for IBM Cloud Pak for Data 和 Speech to Text for IBM Cloud Pak for Data 现在支持在支持 FIPS 的联邦信息处理标准 (FIPS) 的集群上运行。有关更多信息，请参阅支持 FIPS 的服务。

缺陷修订: 用于防止偶尔发生 pod 逐出的固定临时存储器计算

缺陷修订: 针对 IBM Cloud Pak for Data 和 Speech to Text (针对 IBM Cloud Pak for Data runtimes) 的 Text to Speech，已修正缺陷并计算临时存储限制。这些更改可防止在服务的运行时负载过重时偶尔发生 pod 逐出。

该服务不支持多语言语音合成

该服务目前不支持多语种语音合成。但是，您可以使用定制来近似其他语言的单词发音。有关更多信息，请参阅多语言语音合成。

已解决安全漏洞

已修复以下安全漏洞:

2022 年 6 月 29 日 (V 4.5.0)

4.5.0 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.5.0 现已可用。此版本支持 IBM Cloud Pak for Data V 4.5.x 和 Red Hat OpenShift V 4.6，4.8和 4.10。更多信息，请参阅 Watson IBM Cloud Pak for Data 上的语音服务。

IBM Cloud Pak for Data 文档的统一语音服务

Speech to Text 和 Text to Speech 的安装和管理文档现在组合在 IBM Cloud Pak for Data 文档中。有关安装和管理 Speech 服务的更多信息，请参阅 Watson Speech 服务 on IBM Cloud Pak for Data。

对语音服务定制资源的更改

现在，将在最初安装 Speech 服务时创建定制资源。此过程在 IBM Cloud Pak for Data 安装文档中进行了描述。定制资源的内容已更改:

定制资源的建议名称已从 speech-prod-cr 更改为 speech-cr。
对存储类的所有引用都已从 storageClass 的变体更改为 blockStorageClass。
Portworx 块存储类的名称已从 portworx-shared-gp3 更改为 portworx-db-gp3-sc。
已除去 MinIO 和 PostgreSQl 数据存储器的 createSecret 属性。此属性仅在内部使用。如果创建一个私钥对象，那么 Speech 服务始终使用该对象，如果未提供任何私钥对象，那么它们始终自动创建该对象。

RabbitMQ 数据存储器现在支持用户提供的密钥对象

现在，您可以为 RabbitMQ 数据存储器提供安全凭证，就像为 MinIO 和 PostgreSQL 数据存储器提供安全凭证一样。记录的过程对于所有三个数据存储器都是相似的。

缺陷修订: 现在已正确解析多个连续 SSML <phoneme> 标记

缺陷修订: 服务现在正确合成包含连续 <phoneme> 标记的文本。先前，如果文本包含两个或多个连续的 <phoneme> 标记，那么服务仅合成第一个标记，而忽略其他标记。

已解决安全漏洞

未修复 V 4.5.0的安全漏洞。

2022 年 5 月 25 日 (V 4.0.9)

4.0.9 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.9 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

audio/alaw 音频格式的新支持

支持的音频格式列表现在包括 audio/alaw;rate={rate}。与 audio/basic 和 audio/mulaw 一样，这种格式提供单声道音频，使用 8 位 u-law（或 mu-law）数据编码，采样率为 8 kHz。有关更多信息，请参阅使用音频格式。

Speech 服务不支持 OADP 备份和复原实用程序

Watson Speech 服务不支持 IBM Cloud Pak for Data OpenShift API for Data Protection (OADP) 备份和复原实用程序。如果 Speech 服务安装在集群上，那么您可能无法使用 IBM Cloud Pak for Data OADP 备份和复原实用程序来备份该集群上安装的其他服务。此限制适用于语音服务的 V 4.0.0 和更高版本。

已解决安全漏洞

已修复以下安全漏洞:

1 2022 年 5 月 (V 1.2.x)

要点: IBM Cloud Pak for Data V 3.5 上 Text to Speech V 1.2.x 的服务结束: 重要信息: 截至 1 2022 年 5 月，IBM Cloud Pak for Data V 3.5 上的 Text to Speech V 1.2.x 已不服务。Text to Speech 版本 1.2.x 不再受支持，可用或已记录。有关Text to Speech 服务终止的更多信息，它是WatsonAPI 工具包的一部分。API 工具包的一部分，请参见软件支持终止：IBM WatsonAPI KitIBM Cloud Pak for Data 1.2.x。

2022 年 4 月 27 日 (V 4.0.8)

4.0.8 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.8 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

IBM Cloud Pak for Data 文档中使用的新环境变量

Text to Speech for IBM Cloud Pak for Data 文档中的大多数命令已更新为使用一组公共环境变量。本文档提供了一个脚本，用于在运行安装，升级和管理命令之前自动导出环境变量。在确定脚本的来源之后，您可以复制文档中的大多数命令并运行这些命令，而无需进行任何更改。

脚本定义的环境变量包括以下内容:

${PROJECT_CPD_INSTANCE} 标识计划在其中安装 IBM Cloud Pak for Data 和 Speech 服务的项目。
${PROJECT_CPD_OPS} 标识 IBM Cloud Pak for Data 平台操作程序的项目。
${PROJECT_CPFS_OPS} 标识 IBM Cloud Pak for Data 基础服务的项目。

有关使用环境变量的更多信息，请参阅最佳实践: 设置安装变量。

不再记录 ttsVoiceMarginalCPU 属性

已从 Speech 服务定制资源的文档中除去 ttsVoiceMarginalCPU 属性。该属性管理并行和语音合成速度之间的权衡。 400 的缺省值可确保大多数客户的合理平衡，并保持实时合成。

已解决安全漏洞

已修复以下安全漏洞:

2022 年 3 月 30 日 (V 4.0.7)

4.0.7 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.7 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

用于指定缺省语音的定制资源属性

语音合成和发音请求的缺省语音为 en-US_MichaelV3Voice。如果未安装 en-US_MichaelV3Voice，那么必须

使用 voice 参数传递要用于每个请求的语音。
使用 Speech 服务定制资源中的 defaultTTSVoice 属性为 IBM Cloud Pak for Data 的 Text to Speech 安装指定新的缺省语音。有关更多信息，请参阅安装 Watson Text to Speech 和使用缺省语音。

更改 WebSocket 接口的字计时响应

当您使用 WebSocket 接口请求词计时时，服务发送的响应对象已更改。现在，服务会在包含后跟两个浮点数的字符串的单个数组中发送字计时结果:

{
  "words": [
    ["Hello", 0.0, 0.259],
    ["world", 0.259, 0.532]
  ]
}

服务先前将计时结果作为数组发送，该数组包含由两个浮点数组成的数组后面的字符串:

{
  "words": [
    ["Hello", [0.0629826778195474, 0.2590192737303819]],
    ["world", [0.2598829173456253, 0.5322130804452672]]
  ]
}

另外，单词计时和标记的精度级别现在降低到小数点后三位。有关新响应的更多信息，请参阅生成词计时。

已解决安全漏洞

已修复以下安全漏洞:

Red Hat CVE-2022-24407: 在 Cyrus SASL 随附的 SQL 插件中发现缺陷。该漏洞由于未能正确转义 SQL 输入而发生，并导致输入验证漏洞不正确。此缺陷允许攻击者执行任意 SQL 命令，并允许攻击者更改允许特权升级的其他帐户的密码。
安全公告 :jwt-go 漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
安全公告 :Golang Go 中的漏洞影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 受 Spring Framework(CVE-2022-22965)中的远程代码执行影响，但未被归类为易受攻击。
安全公告: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data 易受 IBM WebSphere Application Server(CVE-2021-23450)的任意代码执行的攻击

2022 年 2 月 23 日 (V 4.0.6)

4.0.6 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.6 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

现在不推荐对 IBM Cloud Pak for Data 使用所有神经声音

现在不推荐使用 Text to Speech for IBM Cloud Pak for Data 提供的神经声音。神经声音继续可供 Text to Speech for IBM Cloud的用户使用。对于 IBM Cloud Pak for Data，只有增强的神经声音仍可供 Text to Speech 的用户使用。

现在不推荐对 IBM Cloud Pak for Data使用以下语言的所有声音:

阿拉伯语
中文（普通话）
捷克语
荷兰语 (比利时)
荷兰语 (荷兰)
英语（澳大利亚）
韩语
瑞典语

这些声音的现有用户现在可以继续使用这些声音，但这些声音将在将来的发行版中完全移除。这些声音无法再由新用户安装，并且已从 IBM Cloud Pak for Data的安装文档中除去。已从 Speech 服务定制资源中除去 voiceType 属性。

有关更多信息，请参阅

导入/导出脚本的更新

import_export.sh 和 transfer_ownership.sh 脚本已更新。这些脚本用于在集群之间导入和导出数据，备份和复原数据，以及将数据从 V 3.5 迁移到 V 4.0.x。这些脚本已修改并改进，如下所示:

transfer_ownership.sh 脚本现在需要在命令行上的 <custom_resource_name> 参数之前包含 -c 选项。
transfer_ownership.sh 脚本现在需要 -v <version> 选项和参数，以指示要将资源所有权转移到的版本。对于 V 3.5，请指定 35，对于 V 4.0.x，请指定 40。
transfer_ownership.sh 脚本现在需要在命令行上的 <postgres_auth_secret_name> 参数之前包含 -p 选项。
<postgres_auth_secret_name> 参数提供用于向要将所有权转移到的 PostgreSQL 数据存储器进行认证的 Kubernetes 私钥。如果与缺省值 (<custom-resource-name>-postgres-auth-secret 对于 V 4.0.x，user-provided-postgressql 对于 V 3.5) 相同，那么可以省略认证私钥。如果私钥与缺省值不同，那么必须提供该私钥。
这两个脚本现在都包含一个 -h (--help) 选项，用于显示有关脚本及其使用情况的信息。

有关更多信息，请参阅

管理 Watson Text to Speech，特别是 导入和导出数据 以及 备份和复原数据。
升级 Watson Text to Speech，特别是 从 IBM Cloud Pak for Data V 3.5迁移数据。

更新了 OpenShift Container Storage 的建议

从 Speech 服务 V 4.0.6开始，OpenShift Container Storage 的建议存储类为 ocs-storagecluster-ceph-rbd。

如果要安装 Speech services4.0.6或从IBM Cloud Pak for Data 3.5 版升级到 Speech services4.0.6，请在安装或升级时指定 ocs-storagecluster-ceph-rbd 存储类别。
如果要从先前刷新的 Cloud Pak for Data V 4.0升级到 Speech 服务 4.0.6，请继续使用 ocs-storagecluster-cephfs。无法更改在现有部署中使用的存储器。

此值与 Speech 服务定制资源中的 storageClass 属性一起指定:

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Speech 服务适用于任一版本的 OpenShift Container Storage。新建议的版本具有更严格的访问许可权。有关更多信息，请参阅

2022 年 1 月 31 日 (V 4.0.5)

已更新版本 4.0.5

Text to Speech for IBM Cloud Pak for Data V 4.0.5 已更新以解决安装问题。案例包版本现在为 4.0.6。请使用此软件包而不是 V 4.0.5 软件包。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

要点: 不再需要额外的镜像安装步骤

重要信息: 2022 年 1 月 26 日发行说明包含以下步骤的重要说明:

执行 Minio 数据存储器镜像安装的其他步骤
执行新下一代模型的镜像安装的其他步骤

不再需要这些附加步骤。已更新案例包以更正安装问题。

2022 年 1 月 26 日 (V 4.0.5)

4.0.5 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.5 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

要点: 执行 Minio 数据存储器镜像安装的其他步骤

重要信息: 如果安装案例软件包 4.0.6，那么不再需要这些步骤。更多信息，请参见 2022 年 1 月 31 日（4.0.5 版）。

如果要执行镜像安装 (例如，在气郄环境中)，那么需要在完成以下任一步骤之前执行额外的步骤:

具有防御模型的镜像映像 的步骤 7 将映像镜像到专用容器注册表
步骤 8 将映像镜像到中间容器注册表，即 使用中间容器注册表的镜像映像

必须执行此步骤才能复制 Minio 数据存储器的必需映像:

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

未能执行此步骤将导致 Text to Speech 和 Speech to Text的安装错误。

许可证服务器现在已自动安装

现在，Speech 服务操作员在安装 Speech 服务时自动安装所需的 License Server。您不再需要从 IBM Cloud Pak for Data 基础服务安装 License Server，并且不再需要使用其他 YAML 内容来创建具有必需绑定的 OperandRequest。

除去特定于 PostgreSQL EnterpriseDB 服务器的步骤

先前版本的文档包含特定于 Speech 服务的 PostgreSQL EnterpriseDB 服务器的步骤。这些步骤记录在主题 升级 Watson Text to Speech (V 4.0) 和 卸载 Watson Text to Speech中。不再需要这些附加步骤，这些步骤已从文档中除去。

RabbitMQ 数据存储器现在仅由 sttAysnc 组件使用

RabbitMQ 数据存储器先前由语音服务 Speech to Text 和 Text to Speech的组件使用。现在，它仅处理Speech to Text异步 HTTP 组件（ sttAsync ）的非持久性消息队列。仅当安装并启用了 sttAsync 组件时，才会使用此参数。

新的比利时荷兰语和捷克语神经声音

现在有两种新的神经声音可用:

比利时荷兰语: 新的比利时男性荷兰语 (Flemish) 语音 nl-BE_BramVoice。
捷克语: 一种新语言，捷克语，新女声，cs-CZ_AlenaVoice。

您可以通过将定制资源的 voiceType 属性设置为 neuralVoices 来安装新声音以及所有神经声音。

有关使用定制资源来安装声音的更多信息，请参阅安装 Watson Text to Speech。
有关所有可用语言和语音的更多信息，请参阅语言和语音。

缺陷修订: 更新 SSML 文档

缺陷修订: 更新了 SSML 文档以更正以下错误:

<break> 元素的示例现在正确。此元素是一元元素，如示例中所示。先前的示例包括具有嵌入式文本的打开和关闭标记。服务未讲嵌入式文本。有关更多信息，请参阅 <break> 元素。
该服务支持语音合成标记语言 (SSML) V 1.1。所有引用和示例现在都使用正确的版本。先前引用了 V 1.0的文档。

已解决安全漏洞

已修复与 Apache Log4j 关联的以下安全漏洞:

2021 年 12 月 20 日 (V 4.0.4)

4.0.4 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.4 现在可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

要点: 对用于禁用用户数据存储和日志记录的属性的更改

要点: 用于指定是否存储和记录用户数据的 Speech 服务定制资源的属性的名称已更改。定制资源先前包含以下属性:

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

这些属性现在按如下所示进行命名:

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

如果已在定制资源中设置这些属性以将 false 的缺省值更改为 true，那么需要编辑定制资源。必须手动将属性名称更改为新值，并保存更新后的定制资源。有关更多信息，请参阅安装 Watson Text to Speech。

重要信息: 对 PostgreSQL 私钥对象的属性进行的更改

重要信息: 安装 Speech 服务时，缺省情况下会创建一个对象，该对象包含为 PostgreSQL 数据存储器随机生成的密码。您可以选择改为手动指定密码。如果执行此操作，那么密钥对象的 YAML 文件的属性已更改。有关更多信息，请参阅管理 Watson Text to Speech中有关管理数据存储器的主题。

重要信息: PostgreSQL pod 未以 EnterpriseDB V 1.10 操作程序开头

要点: 对于 Text to Speech for IBM Cloud Pak for Data V 4.0.3，基于 EnterpriseDB V 1.10 操作程序的 PostgreSQL pod 可能无法启动。这将阻止 Speech 服务启动。此问题存在变通方法。如果 Speech 服务无法启动，请参阅 PostgreSQL pod 不使用 EnterpriseDB V 1.10 操作程序启动，以获取有关诊断和解决问题的信息。

在 Text to Speech 中，针对 IBM Cloud Pak for Data V 4.0.4解决了此问题。

对 IBM Spectrum Scale 容器本机存储类的新支持

从 V 4.0.3开始，Speech 服务支持 IBM Spectrum® Scale Container Native 存储类。要使用 IBM Spectrum Scale，请为 Speech 服务定制资源的 storageClass 属性指定 "ibm-spectrum-scale-sc"。有关更多信息，请参阅安装 Watson Text to Speech。

在安装期间语音服务与 MinIO 数据存储器的交互

在将服务的模型和声音完全上载到 MinIO 数据存储器之前，Speech 服务运行时组件 sttRuntime 和 ttsRuntime 无法启动。在安装期间，这些服务可能会失败，并自动重新启动自己一次或多次，直到上载模型和声音完成为止。然后正常启动。无需用户操作。

缺陷修订: 改进升级文档

缺陷修复： 将 Speech 服务升级到IBM Cloud Pak for Data 4.0.x版新版本的文档在某些命令中包含不正确的引用。这些引用现在是正确的:

在这两种情况下，字符串 watsonSpeechToTextStatus 和 watsonTextToSpeechStatus 都已更改为 speechStatus。
在这两种情况下，字符串 status.watsonSpeechToTextVersion 和 status.watsonTextToSpeechVersion 都已更改为 .spec.version。

有关更多信息，请参阅升级 Watson Text to Speech。

缺陷修订: 改进 SSML 和语音合成

缺陷修订: 使用此发行版修订了语音合成标记语言 (SSML) 和语音合成的以下缺陷:

现在，<prosody> 元素的 pitch 属性将应用于所有指定的文本。以前，音高变化并不总是应用于受影响文本的第一个词。此外，该文档现在还包含有关指定 pitch 值的其他指导信息。有关更多信息，请参阅 pitch 属性。
日语文本的语音合成现在讲音频的速度比较慢。此前，合成的演讲讲得太快了。如果您发现日语文本的合成对于应用程序来说仍然太快，请使用 SSML <prosody> 元素的 rate 属性来控制语音速率。有关更多信息，请参阅 rate 属性。
现在，神经声音正确解析转义撇号字符 (')。此前，一些神经声音并没有正确解读这个角色。

已解决安全漏洞

已修复与 Apache Log4j 关联的以下安全漏洞:

安全公告: Apache Log4j 中的漏洞可能会影响 IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-4428)

2021 年 12 月 20 日 (V 1.2.x)

要点: 无法再在 IBM Cloud Pak for Data V 3.5 上安装 Text to Speech V 1.2.x

重要信息: 在 IBM Cloud Pak for Data V 3.5上，无法再执行 Text to Speech V 1.2.x 的新安装。只能在 IBM Cloud Pak for Data V 4.x上安装 Text to Speech V 4.0.x。有关更多信息，请参阅安装 Watson Text to Speech。

IBM Cloud Pak for Data V 3.5 的语音服务将于 2022 年 4 月 30 日结束支持。建议您尽早升级到服务的最新版本 4.0.x 发行版。有关更多信息，请参阅升级 Watson Text to Speech。

2021 年 11 月 30 日 (V 4.0.3)

4.0.3 版本现已推出

Text to Speech for IBM Cloud Pak for Data V 4.0.3 现已可用。此版本支持 IBM Cloud Pak for Data V 4.x 和 Red Hat OpenShift V 4.6 以及 4.8。有关安装和管理服务的更多信息，请参阅安装 Watson Text to Speech。

License Server 现在是必需的先决条件

现在必须从 IBM Cloud Pak for Data 基础服务安装 License Server。必须使用提供的 YAML 内容来安装 License Server，以创建具有必需绑定的 OperandRequest。您还必须在与服务 (操作数) 相同的名称空间中安装 License Service，这也是安装 IBM Cloud Pak for Data 的位置。有关更多信息，请参阅安装 Watson Text to Speech。

新支持就地升级

该服务现在支持从 V 4.0.0 到 V 4.0.3的基于操作程序的就地升级。从 IBM Cloud Pak for Data V 3.5 到 V 4.0.3 继续需要使用迁移实用程序。有关更多信息，请参阅升级 Watson Text to Speech。

EDB PostgreSQL 操作程序和许可证安装更改

Enterprise DB PostgreSQL 操作程序和许可证的安装，升级和卸载已更改:

现在，IBM Cloud Pak for Data 基础服务随附了有关安装 EDB PostgreSQL 操作程序和许可证的指示信息。相应更新了有关安装 Speech 服务的指示信息。有关更多信息，请参阅安装 Watson Text to Speech。
有关从 Text to Speech V 4.0.0 升级到 4.0.3 的指示信息包括有关卸载先前的 EDB PostgreSQL 操作程序和许可证的指示信息，以及使用 IBM Cloud Pak for Data 基础服务重新安装这些操作程序和许可证的指示信息。有关更多信息，请参阅升级 Watson Text to Speech。
卸载 Speech 服务的指示信息现在包括用于除去先前随 Text to Speech一起安装的 EDB PostgreSQL 操作程序和许可证的步骤。有关更多信息，请参阅卸载 Watson Text to Speech。

有关扩展安装的新指南

该服务现在提供有关扩展安装的更新指南。该信息包括指定增强神经或神经声音的 pod 数和最大并发会话数。有关更多信息，请参阅管理 Watson Text to Speech。

用于导入和导出实用程序的命令行更新

用于 Speech 服务的 IMPORT 实用程序和 IMPORT 实用程序的命令包含新的选项和参数。导入和导出实用程序也是备份和复原服务以及从 IBM Cloud Pak for Data V 3.5 迁移到 V 4.0.3的基础。有关使用实用程序的更多信息，请参阅

用于管理并行和语音合成的新属性

新的 global.ttsVoiceMarginalCPU 属性管理并行和语音合成速度之间的权衡。默认值 400 为大多数客户提供合理的平衡，并保持实时合成。有关修改此值以满足您的需要的信息，请联系 IBM 支持人员。

对神经声音的新支持

当前可用于 Text to Speech for IBM Cloud 的所有神经声音现在也可用于在 Text to Speech 上安装 IBM Cloud Pak for Data。现在提供了以下语言和声音:

阿拉伯语: ar-MS_OmarVoice
中文（普通话）：zh-CN_LiNaVoice、zh-CN_WangWeiVoice 和 zh-CN_ZhangJingVoice
荷兰语 (比利时语): nl-BE_AdeleVoice
荷兰语（荷兰）： nl-NL_EmmaVoice 和 nl-NL_LiamVoice
英语 (澳大利亚语): en-AU_CraigVoice，en-AU_MadisonVoice 和 en-AU_SteveVoice
韩国语: ko-KR_HyunjunVoice，ko-KR_SiWooVoice，ko-KR_YoungmiVoice 和 ko-KR_YunaVoice
瑞典语: sv-SE_IngridVoice

有关所有可用语言和语音的更多信息，请参阅语言和语音。

安装声音

您可以安装增强型神经声音或神经声音。只能安装两种类型的声音中的一种。安装服务时，使用定制资源的 voiceType 属性来指示要安装的声音:

指定 enhancedNeuralVoices 以安装增强型神经声音。然后，必须指定要安装的各个增强型神经声音。缺省情况下，仅安装 en-US_AllisonV3Voice，en-US_LisaV3Voice 和 en-US_MichaelV3Voice。您可以选择安装这些缺省声音，这些声音和其他声音，或者仅安装其他声音。只有您安装的声音可用。
指定 neuralVoices 以安装神经声音。所有神经声音都已安装并可用。无法优化已安装声音的列表。

有关使用定制资源来安装声音的更多信息，请参阅安装 Watson Text to Speech。

指定语音合成的语音

HTTPPOST 和 GET /v1/synthesize 方法，以及 WebSocket/v1/synthesize 方法，接受可选 voice 用于指定用于语音合成的语音的查询参数。如果省略 voice 参数，那么服务将使用缺省语音。缺省声音取决于您安装的声音:

如果安装了增强型神经声音， 缺省情况下，服务会使用美式英语 en-US_MichaelV3Voice。如果未安装该语音，那么必须指定语音。
如果安装了神经声音， 缺省情况下，服务始终使用澳大利亚英语 en-AU_MadisonVoice。

有关更多信息，请参阅使用语音合成。

指定定制模型的语言

您可以使用 POST /v1/customizations 方法创建自定义模型。此方法包含用于标识新定制模型的语言的 language 参数。

如果安装了增强型神经声音， 那么 language 参数是可选的。缺省情况下，服务使用语言的 en-US 标识。
如果安装了神经声音，那么 language 参数是必需的。必须以指示的格式指定定制模型的语言 (例如，en-AU 表示澳大利亚英语)。

有关在创建定制模型时指定语言的更多信息，请参阅创建定制模型。

缺陷修订: 西班牙语增强神经声音的正确调音

缺陷修订: 对于 Castilian 西班牙语 (es-ES_EnriqueV3Voice 和 es-ES_LauraV3Voice)，拉丁美洲西班牙语 (es-LA_SofiaV3Voice) 和北美西班牙语 (es-US_SofiaV3Voice) 声音，所有类型的问题现在都使用正确的调音。以前的声音没有对一些问题使用正确的调音，而是像语句一样发音。

缺陷修订: 正确的多租户文档

缺陷修订: IBM Cloud Pak for Data 主题多租户支持错误地声明语音服务不支持多租户。该主题已更新为声明 Speech 服务支持以下操作:

在单独的项目中安装服务
在同一项目中多次安装服务
安装服务一次，并在同一项目中部署多个实例

特定于 Speech 服务的文档正确声明了多租户支持。

1 2021 年 10 月 (V 1.1.x)

版本 1.1.x 已失服务: Text to Speech 和 Speech to Text for IBM Cloud Pak for Data V 1.1.x 已于 2021 年 9 月 30 日退出服务。从 1 2021 年 10 月起，版本 1.1.x 的文档不再可用。有关更多信息，请参阅软件撤销和支持终止。

2021 年 7 月 29 日 (V 4.0.0)

版本 4.0.0 可供使用

IBM Watson® Text to Speech for IBM Cloud Pak® for Data V 4.0.0 现已可用。服务的安装和管理包含许多更改。此版本支持 IBM Cloud Pak for Data 版本 4.x 和 Red Hat OpenShift 版本 4.6。有关安装和管理服务的更多信息，请参阅安装 IBM Watson Text to Speech for IBM Cloud Pak for Data。

增强的神经声音

为了优化语音合成的整体质量，所有可用的声音现在都是 增强的神经声音。增强的神经声音 (包括名称中的字符串 V3 ) 现在可用于巴西葡萄牙语，英国和美国英语，法语，德语，意大利语，日语和西班牙语 (所有方言)。

增强的神经声音支持将 IPA 和 IBM 符号音标表示法 (SPR) 与 SSML <phoneme> 元素配合使用。增强的神经声音也实现了稍高的自然发声程度。有关更多信息，请参阅语言和声音。

新加拿大法语声音

该服务现在支持使用增强型神经语音 fr-CA_LouiseV3Voice 的加拿大法语。加拿大法语语音支持定制，一般可供生产使用 (GA)。

要听到新声音的样本，请参阅支持的语言和声音。
有关可用于加拿大法语的音标符号和 Unicode 值的更多信息，请参阅法语(加拿大)符号。

新建“按示例调整”功能部件

新的“按示例调整”功能使您能够控制服务如何使用指定的文本。该功能是仅支持美国英语定制模型和声音的 Beta 功能。该功能部件具有两个组件:

定制提示 包括要使用的书面文本和录制的音频，这些音频在您想要听到文本时使用该文本。音频指定合成文本的音调，节奏和压力。提示可以强调不同的音节或单词，引入暂停，一般会使合成的音频声音更自然，更适合它的上下文。
说话者模型 为讲一个或多个提示的用户提供注册音频。扬声器模型提供用户声音的音频样本。该服务在语音上训练自己，这可以帮助它为该扬声器生成更高质量的提示。

使用语音合成请求指定定制提示，以指示服务的语音如何发音文本。要指定提示，请使用 SSML 扩展 <ibm:prompt id="{prompt_id}"/>。合成的音频重复了提示的韵律。

有关使用 "Tune by Example" 功能的更多信息，请参阅以下主题:

该服务包含八个用于使用 Tune by Example 功能部件的新方法。以下新方法的描述提供了指向其在 API 和 SDK 参考中的条目的链接。

该服务包含四种用于处理定制提示的方法:
- 添加定制提示: POST /v1/customizations/{customization_id}/prompts/{prompt_id}
- 列出定制提示: GET /v1/customizations/{customization_id}/prompts
- 获取定制提示: GET /v1/customizations/{customization_id}/prompts/{prompt_id}
- 删除定制提示: DELETE /v1/customizations/{customization_id}/prompts/{prompt_id}
该服务包含四种使用说话者模型的方法:
- 创建演讲者模型: POST /v1/speakers
- 列出演讲者模型: GET /v1/speakers
- 获取演讲者模型: GET /v1/speakers/{speaker_id}
- 删除演讲者模型: DELETE /v1/speakers/{speaker_id}

统一 Text to Speech 文档

IBM Watson Text to Speech for IBM Cloud Pak for Data 的文档现在与托管在 IBM Cloud上的 Text to Speech 服务的受管实例的文档相结合。两种服务形式的指南和参考文档都是如此。指向先前单独版本的 IBM Cloud Pak for Data 文档的链接，用于将服务重定向到统一文档。

有关标识仅与产品的一个版本相关的信息的更多信息，请参阅关于 Text to Speech。

版本 1.1.x 正在退出服务

Speech to Text 和 Text to Speech for IBM Cloud Pak for Data V 1.1.x 将于 2021 年 9 月 30 日退出服务。必须在该日期之前升级到 IBM Cloud Pak for Data 上的更高版本的服务。从 1 2021 年 10 月起，版本 1.1.4 的文档将不再可用。

2021 年 4 月 12 日 (V 1.2.1)

添加到 speech-override.yaml 文件

最小 speech-override.yaml 文件包含额外的定义 dockerRegistryPrefix:

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry} 是内部注册表的路径。Docker 它必须是 image-registry.openshift-image-registry.svc:5000/{namespace}，其中 {namespace} 是安装了 IBM Cloud Pak® for Data 的名称空间，通常为 zen。

9 2021 年 4 月 (V 1.2.1)

支持修改已安装的模型和声音: 通过 Speech 服务，您可以添加或除去 1.2 或 1.2.1 版本的服务的已安装模型和声音。

2021 年 3 月 26 日 (V 1.2.1)

版本 1.2.1 可供使用

Text to Speech for IBM Cloud Pak for Data V 1.2.1 现已可用。 1.2 和 1.2.1 使用相同的 1.2 文档和安装指示信息。除了 V 4.5 和 3.11之外，V 1.2.1 还支持在 Red Hat OpenShift V 4.6 上进行安装。

新的安装指示信息

对于连接到因特网和气郄式集群的两个集群，安装指示信息包括以下步骤:

使用 oc label 命令为安装了 IBM Cloud Pak for Data 的名称空间设置必需标签。
使用 oc project 命令可确保您指向正确的 OpenShift 项目。
使用 cpd-cli install 命令来安装由 Speech 服务使用的 Enterprise DB PostgreSQL 服务器。

在安装 Speech 服务之前，请执行以下步骤。

新的卸载指示信息

在卸载 Speech 服务以从安装中清除所有资源的过程中添加了一个步骤。

PostgreSQL 数据存储器的授权注册表

服务从中提取 PostgreSQL 数据存储器映像的授权注册表路径已更改。注册表位置已从 cp.icr.io/cp/watson-speech 更改为 cp.icr.io/cp/cpd。此更改对用户是透明的。

Minio 和 PostgreSQL 数据存储器的私钥

Minio 和 PostgreSQL 数据存储器的私钥需要以下硬编码值:

对于 Minio，请使用 minio。
对于PostgreSQL，使用 user-provided-postgressql。

不能将您自己的值用于这些私钥。必须先创建私钥，然后才能安装 Speech 服务。

从 speech-override.yaml 文件中删除

已从 speech-override.yaml 文件中除去以下条目。添加这些问题是为了解决现在已解决的问题。

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

通常，通过将其内容微调到基本元素来进一步减少了缩写的 speech-override.yaml 文件。

9 2020 年 12 月 (V 1.2)

版本 1.2 可供使用

Text to Speech for IBM Cloud Pak for Data V1.2 现已可用。服务的安装和管理包含许多更改。此版本支持 IBM Cloud Pak for Data V3.5 和 V3.0.1 以及 Red Hat OpenShift V4.5 和 V3.11。

新声音

该服务现在提供两种新的声音：

英国英语：en-GB_CharlotteV3Voice
法语： fr-FR_NicolasV3Voice

该服务还提供了现有英国声音 en-KateV3Voice的改进版本。有关所有受支持语言和声音的更多信息，请参阅语言和声音。

缺陷修订: 针对日语的修订 <prosody> 元素

**缺陷修订：**对于 ja-JP_EmiV3Voice 声音，该服务目前正确解析了包含韵律速率规范的 SSML 输入文本。在此之前，以下使用 <prosody> 元素的方法可以正常工作：

<speak>成功する/繁栄する</speak>

但在 <prosody> 元素中使用速率属性后，服务就会读取并说出嵌入的 SSML 符号：

<speak>
  <prosody rate="fast">成功する/繁栄する</prosody>
</speak>

该服务现在能正确解析日文输入，并应用 <prosody> 元素的 rate 属性。

4 2020 年 9 月 (V 1.1.4)

定制接口一般可用: 定制接口现已普遍可用。定制不再是 Beta 功能。通过创建特定于语言的定制字典，您可以使用定制接口来指定服务如何对输入文本中出现的异常词发音。有关更多信息，请参阅了解定制。

2020 年 7 月 15 日 (V 1.1.4)

Red Hat OpenShift V 4.3 正在退出服务: 从 2020 年 9 月 1 日开始，IBM Cloud Pak for Data 3.0.1 将废弃对 Red Hat OpenShift 4.3 的支持。 Red Hat OpenShift 4.3 将于 2020 年 10 月 22 日退出服务。IBM Cloud Pak for Data 正在引入对 Red Hat OpenShift 4.5的支持。IBM Cloud Pak for Data 建议客户机在 2020 年 10 月 22 日前升级到 Red Hat OpenShift 4.5。 IBM 支持人员将与已在 Red Hat OpenShift 4.3 上安装 IBM Cloud Pak for Data 3.0.1 的任何客户合作。对于要在 Red Hat OpenShift 4.x 上进行安装的新客户，将收到指示，要求安装 Red Hat OpenShift 4.5。

2020 年 6 月 19 日 (V 1.1.4)

版本 1.1.4 可供使用

Text to Speech for IBM Cloud Pak for Data V1.1.4 现已可用。服务的安装和管理包含许多更改。此版本支持 IBM Cloud Pak for Data V2.5 和 V3.0.1，以及 Red Hat OpenShift V3.11 和 V4.3。有关安装和管理服务的更多信息，请参阅 "Installing and managing Text to Speech for IBM Cloud Pak for Data。

新建神经声音

现在，服务支持五个新的神经语音：

美国英语：en-US_EmilyV3Voice、en-US_HenryV3Voice、en-US_KevinV3Voice 和 en-US_OliviaV3Voice
德语： de-DE_ErikaV3Voice

这些新声音具有与所有现有声音相同的定制和 SSML 功能。有关更多信息，请参阅支持的语言和声音。

支持日语的 <say-as> 元素的 SSML digits 属性

该服务现在支持带有日语语音的 SSML <say-as> 元素的 digits 属性。有关更多信息，请参阅 <say-as> 元素。

简化备份和复原过程

备份和复原过程得到大大简化。备份和复原过程现在可备份数据存储器中的数据，因此不再需要重新创建已运行的操作。有关更多信息，请参阅备份和恢复Watson语音服务数据。

2020 年 2 月 28 日 (V 1.1.3)

版本 1.1.3 可供使用: Text to Speech for IBM Cloud Pak for Data V1.1.3 现已可用。

2019 年 11 月 27 日 (V 1.1.2)

版本 1.1.2 可供使用: Text to Speech for IBM Cloud Pak for Data V1.1.2 现已可用。

2019 年 8 月 30 日 (V 1.0.1)

版本 1.0.1 可供使用: Text to Speech for IBM Cloud Pak for Data V1.0.1 现已可用。该服务现在与 IBM Cloud Pak for Data 2.1.0.1 搭配使用。该服务现在支持在 Red Hat OpenShift 中安装 IBM Cloud Pak for Data。
新型日语神经语音: 该服务现在提供神经日语声音 ja-JP_EmiV3Voice。有关更多信息，请参阅支持的语言和声音。
FISMA 支持: 联邦信息安全管理法案 (FISMA) 支持现在可用于 Text to Speech for IBM Cloud Pak for Data。该服务为 FISMA High Ready。

2019 年 6 月 28 日 (V 1.0.0)

版本 1.0.0 可供使用

服务的初始发行版 V 1.0.0现在可用。Text to Speech for IBM Cloud Pak for Data 基于公共 IBM Cloud上的 IBM Watson® Text to Speech 服务。Text to Speech for IBM Cloud Pak for Data 在以下方面与公共 Text to Speech 服务不同。如果您已熟悉公共 Text to Speech 上的 IBM Cloud 服务，您可能会发现此信息很有用。

Text to Speech for IBM Cloud Pak for Data 使用访问令牌进行认证。有关更多信息，请参阅 API 和 SDK 参考。
Text to Speech for IBM Cloud Pak for Data 的端点是特定于 IBM Cloud Pak for Data 集群的。有关更多信息，请参阅 API 和 SDK 参考。
Text to Speech for IBM Cloud Pak for Data 仅支持神经语音。不支持标准（合成）声音。神经语音不支持 SSML <express-as> 和 <voice-transformation> 元素。
Text to Speech for IBM Cloud Pak for Data 不执行任何请求日志记录。您无需使用 X-Watson-Learning-Opt-Out 请求头。
Text to Speech for IBM Cloud Pak for Data 不支持 Watson 令牌。不能使用 X-Watson-Authorization-Token 请求头来向服务进行认证。