IBM Cloud Docs
下一代语言和模型

下一代语言和模型

IBM Watson® Speech to Text 服务支持不断增长的下一代模型集合,这些模型可提高服务的前代模型的语音识别功能。 模型指示音频中所讲的语言以及音频采样率。 下一代模型的吞吐量高于上一代模型,因此该服务可以更快地返回转录。 下一代模型还提供明显更好的转录准确性。

使用下一代模型时,服务会双向分析音频。 通过使用深度神经网络,该模型可分析并从音频中抽取信息。 然后模型对信息进行前后评估以预测转录,有效“监听”音频两次。

借助双向分析提供的其他信息和上下文,该服务可以对音频中讲的单词进行更智能的假设。 尽管添加了分析,但与上一代模型相比,使用下一代模型进行识别的效率更高,因此该服务可更快,更准确地交付结果。 大多数下一代模型还提供了低延迟选项,以便更快地接收结果,尽管低延迟可能会影响转录准确性。

除了提供更大的转录准确度外,模型还具有假设词不在基础语言模型中且在训练中没有迂到的能力。 此功能可减少定制特定于域的术语的需求。 模型不需要包含特定词汇表术语来预测该词。

下一代模型类型

该服务提供两种类型的下一代模型:

  • 电话模型 专门用于通过电话通信的音频。 与先前生成的 窄带 模型一样,电话模型适用于采样率最低为 8 kHz的音频。
  • 多媒体模型 适用于从采样率较高的源 (例如,视频) 中抽取的音频。 将多媒体模型用于除电话音频以外的任何音频。 与先前生成的 宽带 模型一样,多媒体模型适用于最小采样率为 16 kHz的音频。

选择与音频的源和采样率最匹配的模型类型。 服务会自动调整音频的采样率,以匹配指定的模型。 为了获得最佳的识别精度,请同时考虑音频的频率成分。 有关更多信息,请参阅 采样率音频频率

受支持的下一代语言模型

以下部分列出了每种语言可用的每种类型的下一代模型。 这些部分中的表提供了以下信息:

  • 模型名称 列指示模型的名称。 (与前代模型不同,下一代模型的名称中不包含单词 Model。)
  • 低延迟支持 列指示模型是否支持用于语音识别的 low_latency 参数。 有关更多信息,请参阅 低等待时间
  • 状态 列指示模型是一般可用 (GA) 还是 Beta。

模型名称低延迟支持 列指示支持模型和低延迟的产品版本。 除非另有说明 IBM Cloud,否则 IBM Cloud Pak for DataIBM Software Hub,所有版本的服务均支持模型和低延迟

电话模型

表 1 列出了可用的下一代电话模型。

下一代电话模式
语言 模型名称 低延迟支持 状态
阿拉伯语
(现代标准)
ar-MS_Telephony GA
中文
(普通话)
zh-CN_Telephony GA
捷克语 cs-CZ_Telephony GA
荷兰语
(比利时)
nl-BE_Telephony GA
荷兰语
(荷兰)
nl-NL_Telephony GA
英语
(澳大利亚)
en-AU_Telephony GA
英语
(印度语)
en-IN_Telephony GA
英语
(英国)
en-GB_Telephony GA
英语
(美国)
en-US_Telephony GA
英语
(所有受支持的方言)
en-WW_Medical_Telephony Beta
法语
(加拿大)
fr-CA_Telephony GA
法语
(法国)
fr-FR_Telephony GA
德语 de-DE_Telephony GA
印地语
(印度语)
hi-IN_Telephony GA
意大利语 it-IT_Telephony GA
日语 ja-JP_Telephony GA
韩语 ko-KR_Telephony GA
葡萄牙语
(巴西)
pt-BR_Telephony GA
西班牙语
(Castilian)
es-ES_Telephony GA
西班牙语
(阿根廷,智利,
哥伦比亚,墨西哥,
和秘鲁)
es-LA_Telephony GA
瑞典语 sv-SE_Telephony GA

拉丁美洲西班牙语模型 es-LA_Telephony 适用于所有拉丁美洲方言。 它相当于可用于阿根廷,智利,哥伦比亚,墨西哥和秘鲁方言的前代模型。 如果对任何这些拉丁美洲方言使用了前代模型,请使用 es-LA_Telephony 模型来迁移到等效的下一代模型。

多媒体模型

表 2 列出了可用的下一代多媒体模型。

新一代多媒体模式
语言 模型名称 低延迟支持 状态
荷兰语
(荷兰)
nl-NL_Multimedia GA
英语
(澳大利亚)
en-AU_Multimedia GA
英语
(英国)
en-GB_Multimedia GA
英语
(美国)
en-US_Multimedia GA
法语
(加拿大)
fr-CA_Multimedia GA
法语
(法国)
fr-FR_Multimedia GA
德语 de-DE_Multimedia GA
意大利语 it-IT_Multimedia GA
日语 ja-JP_Multimedia GA
韩语 ko-KR_Multimedia GA
葡萄牙语
(巴西)
pt-BR_Multimedia GA
西班牙语
(Castilian)
es-ES_Multimedia GA

英国医疗电话模式

测试版下一代 en-WW_Medical_Telephony 了解来自医学和药理领域的术语。 在需要转录常用医疗术语 (例如,医药名称,产品品牌,医疗过程,疾病,医生类型或与 COVID-19-related 术语) 的情况下使用该模型。

常见用例包括患者与医疗提供者 (例如,医生,护士或药剂师) 之间的对话:

  • " 我的头疼。 我需要一个布洛芬
  • “你能建议一位擅长骨关节炎的骨科医生吗?”
  • “能不能帮我在芝加哥找个内科医生?”

新模型可用于所有支持的英语方言: 澳大利亚,印度,英国和美国。 新模型支持语言模型定制和语法作为 Beta 功能。 它支持与 en-US_Telephony 模型相同的大部分参数,包括用于美国英语音频的 smart_formatting。 除了 支持的下一代模型功能部件 中列出的那些功能部件外,该模型 支持以下参数: profanity_filterredactionspeaker_labels

下一代模型支持的功能

支持下一代模型用于服务的语音识别功能的大部分子集。 在受支持的功能仅限于某些语言的情况下,相同的语言限制通常适用于前代和下一代模型。

  • 有关可用于下一代模型的参数 (包括其语言支持以及参数是 GA 还是 Beta) 的更多信息,请参阅 参数摘要
  • 有关下一代模型对定制的支持的更多信息,请参阅 下一代模型的定制支持

下一代模型支持 以外的所有语音识别参数和头:

  • acoustic_customization_id (下一代模型不支持声学模型定制。)
  • keywordskeywords_threshold
  • processing_metricsprocessing_metrics_interval
  • word_alternatives_threshold

下一代模型还支持以下参数,这些参数不可用于上一代模型:

  • character_insertion_bias,受所有下一代模型支持。 有关更多信息,请参阅 字符插入偏差
  • low_latency,受大多数下一代模型支持。 有关更多信息,请参阅 低等待时间

下一代模型与上一代模型在以下附加功能方面也有所不同:

  • 下一代模型不会产生犹豫标记。 而是在转录结果中包含实际的犹豫。 有关更多信息,请参阅 语音迟疑和迟疑标记
  • 下一代模型仅支持德国模型的自动资本化。 上一代模型仅支持美国英语模型的自动定制。 有关更多信息,请参阅 资本化