下一代语言和模型

IBM Watson® Speech to Text 服务支持不断增长的下一代模型集合，这些模型可提高服务的前代模型的语音识别功能。模型指示音频中所讲的语言以及音频采样率。下一代模型的吞吐量高于上一代模型，因此该服务可以更快地返回转录。下一代模型还提供明显更好的转录准确性。

使用下一代模型时，服务会双向分析音频。通过使用深度神经网络，该模型可分析并从音频中抽取信息。然后模型对信息进行前后评估以预测转录，有效“监听”音频两次。

借助双向分析提供的其他信息和上下文，该服务可以对音频中讲的单词进行更智能的假设。尽管添加了分析，但与上一代模型相比，使用下一代模型进行识别的效率更高，因此该服务可更快，更准确地交付结果。大多数下一代模型还提供了低延迟选项，以便更快地接收结果，尽管低延迟可能会影响转录准确性。

除了提供更大的转录准确度外，模型还具有假设词不在基础语言模型中且在训练中没有迂到的能力。此功能可减少定制特定于域的术语的需求。模型不需要包含特定词汇表术语来预测该词。

有关下一代模型及其技术的概述，请参阅 Next-Generation Watson Speech to Text。
有关下一代模型背后的技术的更多信息，请参阅推进 RNN 换能器技术 for Speech Recognition。
有关从上一代模型迁移到下一代模型的信息，请参阅迁移到下一代模型。

下一代模型类型

该服务提供两种类型的下一代模型:

电话模型专门用于通过电话通信的音频。与先前生成的窄带模型一样，电话模型适用于采样率最低为 8 kHz的音频。
多媒体模型适用于从采样率较高的源 (例如，视频) 中抽取的音频。将多媒体模型用于除电话音频以外的任何音频。与先前生成的宽带模型一样，多媒体模型适用于最小采样率为 16 kHz的音频。

选择与音频的源和采样率最匹配的模型类型。服务会自动调整音频的采样率，以匹配指定的模型。为了获得最佳的识别精度，请同时考虑音频的频率成分。有关更多信息，请参阅采样率和音频频率。

受支持的下一代语言模型

以下部分列出了每种语言可用的每种类型的下一代模型。这些部分中的表提供了以下信息:

模型名称 列指示模型的名称。 (与前代模型不同，下一代模型的名称中不包含单词 Model。)
低延迟支持 列指示模型是否支持用于语音识别的 low_latency 参数。有关更多信息，请参阅低等待时间。
状态列指示模型是一般可用 (GA) 还是 Beta。

模型名称 和 低延迟支持 列指示支持模型和低延迟的产品版本。除非另有说明 IBM Cloud，否则 IBM Cloud Pak for Data 或 IBM Software Hub，所有版本的服务均支持模型和低延迟

电话模型

表 1 列出了可用的下一代电话模型。

下一代电话模式
语言	模型名称	低延迟支持	状态
阿拉伯语（现代标准）	`ar-MS_Telephony`	是	GA
中文 (普通话)	`zh-CN_Telephony`	是	GA
捷克语	`cs-CZ_Telephony`	是	GA
荷兰语 (比利时)	`nl-BE_Telephony`	是	GA
荷兰语 (荷兰)	`nl-NL_Telephony`	是	GA
英语 (澳大利亚)	`en-AU_Telephony`	是	GA
英语 (印度语)	`en-IN_Telephony`	是	GA
英语（英国）	`en-GB_Telephony`	是	GA
英语（美国）	`en-US_Telephony`	是	GA
英语 (所有受支持的方言)	`en-WW_Medical_Telephony`	是	Beta
法语 (加拿大)	`fr-CA_Telephony`	是	GA
法语 (法国)	`fr-FR_Telephony`	是	GA
德语	`de-DE_Telephony`	是	GA
印地语 (印度语)	`hi-IN_Telephony`	是	GA
意大利语	`it-IT_Telephony`	是	GA
日语	`ja-JP_Telephony`	是	GA
韩语	`ko-KR_Telephony`	是	GA
葡萄牙语 (巴西)	`pt-BR_Telephony`	是	GA
西班牙语 (Castilian)	`es-ES_Telephony`	是	GA
西班牙语 (阿根廷，智利，哥伦比亚，墨西哥，和秘鲁)	`es-LA_Telephony`	是	GA
瑞典语	`sv-SE_Telephony`	是	GA

拉丁美洲西班牙语模型 es-LA_Telephony 适用于所有拉丁美洲方言。它相当于可用于阿根廷，智利，哥伦比亚，墨西哥和秘鲁方言的前代模型。如果对任何这些拉丁美洲方言使用了前代模型，请使用 es-LA_Telephony 模型来迁移到等效的下一代模型。

多媒体模型

表 2 列出了可用的下一代多媒体模型。

新一代多媒体模式
语言	模型名称	低延迟支持	状态
荷兰语 (荷兰)	`nl-NL_Multimedia`	是	GA
英语 (澳大利亚)	`en-AU_Multimedia`	是	GA
英语（英国）	`en-GB_Multimedia`	是	GA
英语（美国）	`en-US_Multimedia`	是	GA
法语 (加拿大)	`fr-CA_Multimedia`	是	GA
法语 (法国)	`fr-FR_Multimedia`	是	GA
德语	`de-DE_Multimedia`	是	GA
意大利语	`it-IT_Multimedia`	是	GA
日语	`ja-JP_Multimedia`	是	GA
韩语	`ko-KR_Multimedia`	是	GA
葡萄牙语 (巴西)	`pt-BR_Multimedia`	是	GA
西班牙语 (Castilian)	`es-ES_Multimedia`	是	GA

英国医疗电话模式

测试版下一代 en-WW_Medical_Telephony 了解来自医学和药理领域的术语。在需要转录常用医疗术语 (例如，医药名称，产品品牌，医疗过程，疾病，医生类型或与 COVID-19-related 术语) 的情况下使用该模型。

常见用例包括患者与医疗提供者 (例如，医生，护士或药剂师) 之间的对话:

" 我的头疼。我需要一个布洛芬
“你能建议一位擅长骨关节炎的骨科医生吗?”
“能不能帮我在芝加哥找个内科医生?”

新模型可用于所有支持的英语方言: 澳大利亚，印度，英国和美国。新模型支持语言模型定制和语法作为 Beta 功能。它支持与 en-US_Telephony 模型相同的大部分参数，包括用于美国英语音频的 smart_formatting。除了支持的下一代模型功能部件中列出的那些功能部件外，该模型不支持以下参数: profanity_filter，redaction 和 speaker_labels。

下一代模型支持的功能

支持下一代模型用于服务的语音识别功能的大部分子集。在受支持的功能仅限于某些语言的情况下，相同的语言限制通常适用于前代和下一代模型。

有关可用于下一代模型的参数 (包括其语言支持以及参数是 GA 还是 Beta) 的更多信息，请参阅参数摘要。
有关下一代模型对定制的支持的更多信息，请参阅下一代模型的定制支持。

下一代模型支持除以外的所有语音识别参数和头:

acoustic_customization_id (下一代模型不支持声学模型定制。)
keywords 和 keywords_threshold
processing_metrics 和 processing_metrics_interval
word_alternatives_threshold

下一代模型还支持以下参数，这些参数不可用于上一代模型:

character_insertion_bias，受所有下一代模型支持。有关更多信息，请参阅字符插入偏差。
low_latency，受大多数下一代模型支持。有关更多信息，请参阅低等待时间。

下一代模型与上一代模型在以下附加功能方面也有所不同:

下一代模型不会产生犹豫标记。而是在转录结果中包含实际的犹豫。有关更多信息，请参阅语音迟疑和迟疑标记。
下一代模型仅支持德国模型的自动资本化。上一代模型仅支持美国英语模型的自动定制。有关更多信息，请参阅资本化。