IBM Cloud Docs
服务背后的科学

服务背后的科学

IBM Watson® Text to Speech 服务提供 自然语音表情语音增强型神经语音。 以下是对这些声音的简要概述。

自然之声

组合中的自然语音采用编码器-解码器架构,将音色和前奏特征分离开来,从而更好地指导合成。 这种特性能够在自然性和表现力方面提供最先进的性能。 这些新颖的自然语音采用了各种技术,与现有的表达语音相比更具优势,其中包括

  • 利用扩散去噪模型更好地预测风格和音色特征 [1].
  • 通过使用大量数据对模型进行预训练,然后使用较小的、具有专门表现力的语料库对模型进行完善。
  • 最大限度地减少模块化方法,并将编码器和解码器完全集成到联合训练的端到端管道中。

编码器方面的结构包括

  • 语音编码器处理语言输入,语言输入包括由负责文本规范化和语音化的基于规则的前端从原始文本生成的音素序列(用正字法标点符号增强)。
  • 一个扩散模型,负责预测音色和前奏的潜在表征,该模型由全局扬声器嵌入和可选的参考提示嵌入组合引导。
  • 一种前奏预测模型,可生成明确的持续时间和标准化(与说话者无关)的音高和音量目标。
  • 基于音色潜表征修正归一化音高和音量目标的拟声去规范化模型

解码器吸收编码器模块产生的信息来生成波形,波形由感知对抗损失(涉及麦尔频谱和 WavLM-based 损失)引导,采用先进的声码器和新颖的流媒体支持来改善延迟。

富有表现力的声音

这些富有表现力的声音采用对风格敏感、可控制前奏的架构,该架构基于非注意 Tacotron2 声学模型,并辅以一套分层前奏控制(HPC) [2][,3]。 在高层次上,它包含以下组成部分:

  • 编码器模块,该模块包含对模型的全部输入,其中包括音素序列(由自然之声架构中部署的相同模块生成)、短语级语言特征和风格向量。
  • 一个前音模块,使用编码器的输出来预测 HPC:一个与说话者无关的前音描述符嵌套序列,其中包含与音高、能量和持续时间有关的各种统计数据。 这些 HPC 提供细粒度调节(例如,在电话、单词和语篇层面),以帮助实现与不同风格相关的独特前音模式。
  • 一个非自动回归解码器,它利用编码器和 HPC 模块的输出,加上扬声器嵌入,生成一系列频谱和周期特征,最后输入一个单独训练的神经声码器(LPC 网络),生成高质量的音频。

增强的神经声音

增强型神经语音是该目录中历史最悠久的技术,它采用模块化、级联、完全基于深度神经网络(DNN)的方法,为语音合成提供后端 [4]. 就像自然和富有表现力的声音一样,一个单独的模块负责处理文本,将语音序列规范化并提取出来,然后输入到文本中:

  • 根据文本特征预测音调和音素持续时间的音调预测 DNN
  • 声学特征 DNN,利用这些预测的拟声目标和语音信息,生成频谱和周期特征
  • 神经声码器利用这些频谱特征生成输出波形。

这种模块化方法的优势在于可以实现快速、简单的培训,以及对每个组件的独立控制和快速运行性能。

参考

[1] : Yinghao Aaron Li, Cong Han, Vinay Raghavan, Gavin Mischler, Nima Mesgarani -- StyleTTS 2: 通过大型语音语言模型的风格扩散和对抗训练实现人类水平的文本到语音。 Proc. NeurIPS 2023.

[2] : Slava Shechtman、Raul Fernandez、Alexander Sorin 和 David Haws -- 在一个多扬声器、前奏可控的序列到序列架构中,利用有限的训练数据合成富有表现力的说话风格。 Proc. Interspeech 2021,第 4693-4697 页。

[3] : Raul Fernandez、David Haws、Guy Lorberbom、Slava Shechtman 和 Alexander Sorin -- 序列到序列语音合成中带有插话的会话风格移植。 Proc. Interspeech 2022,第 5488-5492 页。

[4] : Zvi Kons、Slava Shechtman、Alex Sorin、Carmel Rabinovitz 和 Ron Hoory -- 利用 LPCNet 实现高质量、轻量级和适应性强的 TTS。 Proc. Interspeech 2019,第 176-180 页。