IBM Cloud Docs
服务背后的科学

服务背后的科学

IBM® 自 早期以来一直处于语音识别研究的前沿,并通过 服务延续了这一丰富的研发传统。1960s IBM Watson® Speech to Text

IBM 在公共基准数据集上,在会话电话语音(CTS)和广播新闻(BN)转录方面,展示了行业领先的语音识别准确率。除了展示声学建模的有效性外,还利用神经网络进行语言建模。IBM

以下公告概述了 IBM 近期在语音识别方面取得的成就:

这些成就有助于进一步推动 IBM 的语音服务进步。 最适合基于云的 Speech to Text 服务的近期构想包括:

  • 在语言建模方面,IBM 利用基于神经网络的语言模型生成训练文本。
  • *对于声学建模,*IBM 使用相当精简的模型来适应云的资源限制。 为了训练这种精简模型,IBM 使用了“教师-学生训练/知识蒸馏法”。 首先,对长短期记忆 (LSTM)、VGG 和残差网络 (ResNet) 等强大的大型神经网络进行训练。 这些网络的输出结果随后被用作教师信号,用于训练一个紧凑模型,以供实际部署。

为了进一步推进包络发展,IBM 还专注于端到端建模。 例如,它已经为直接声学到文字模型建立了一个强大的建模流程,目前正在进一步完善。 它还努力创建紧凑型端到端模型,以便将来部署在云上。