下一代语言和模型
IBM Watson® Speech to Text 服务支持不断增长的下一代模型集合,这些模型可提高服务的前代模型的语音识别功能。 模型指示音频中所讲的语言以及音频采样率。 下一代模型的吞吐量高于上一代模型,因此该服务可以更快地返回转录。 下一代模型还提供明显更好的转录准确性。
使用下一代模型时,服务会双向分析音频。 通过使用深度神经网络,该模型可分析并从音频中抽取信息。 然后模型对信息进行前后评估以预测转录,有效“监听”音频两次。
借助双向分析提供的其他信息和上下文,该服务可以对音频中讲的单词进行更智能的假设。 尽管添加了分析,但与上一代模型相比,使用下一代模型进行识别的效率更高,因此该服务可更快,更准确地交付结果。 大多数下一代模型还提供了低延迟选项,以便更快地接收结果,尽管低延迟可能会影响转录准确性。
除了提供更大的转录准确度外,模型还具有假设词不在基础语言模型中且在训练中没有迂到的能力。 此功能可减少定制特定于域的术语的需求。 模型不需要包含特定词汇表术语来预测该词。
- 有关下一代模型及其技术的概述,请参阅 Next-Generation Watson Speech to Text。
- 有关下一代模型背后的技术的更多信息,请参阅 推进 RNN 换能器技术 for Speech Recognition。
- 有关从上一代模型迁移到下一代模型的信息,请参阅 迁移到下一代模型。
下一代模型类型
该服务提供两种类型的下一代模型:
- 电话模型 专门用于通过电话通信的音频。 与先前生成的 窄带 模型一样,电话模型适用于采样率最低为 8 kHz的音频。
- 多媒体模型 适用于从采样率较高的源 (例如,视频) 中抽取的音频。 将多媒体模型用于除电话音频以外的任何音频。 与先前生成的 宽带 模型一样,多媒体模型适用于最小采样率为 16 kHz的音频。
选择与音频的源和采样率最匹配的模型类型。 服务会自动调整音频的采样率,以匹配指定的模型。 为了获得最佳的识别精度,请同时考虑音频的频率成分。 有关更多信息,请参阅 采样率 和 音频频率。
受支持的下一代语言模型
以下部分列出了每种语言可用的每种类型的下一代模型。 这些部分中的表提供了以下信息:
- 模型名称 列指示模型的名称。 (与前代模型不同,下一代模型的名称中不包含单词
Model
。) - 低延迟支持 列指示模型是否支持用于语音识别的
low_latency
参数。 有关更多信息,请参阅 低等待时间。 - 状态 列指示模型是一般可用 (GA) 还是 Beta。
模型名称 和 低延迟支持 列指示支持模型和低延迟的产品版本。 除非另有说明 IBM Cloud,否则 IBM Cloud Pak for Data 或 IBM Software Hub,所有版本的服务均支持模型和低延迟
电话模型
表 1 列出了可用的下一代电话模型。
语言 | 模型名称 | 低延迟支持 | 状态 |
---|---|---|---|
阿拉伯语 (现代标准) |
ar-MS_Telephony |
是 | GA |
中文 (普通话) |
zh-CN_Telephony |
是 | GA |
捷克语 | cs-CZ_Telephony |
是 | GA |
荷兰语 (比利时) |
nl-BE_Telephony |
是 | GA |
荷兰语 (荷兰) |
nl-NL_Telephony |
是 | GA |
英语 (澳大利亚) |
en-AU_Telephony |
是 | GA |
英语 (印度语) |
en-IN_Telephony |
是 | GA |
英语 (英国) |
en-GB_Telephony |
是 | GA |
英语 (美国) |
en-US_Telephony |
是 | GA |
英语 (所有受支持的方言) |
en-WW_Medical_Telephony |
是 | Beta |
法语 (加拿大) |
fr-CA_Telephony |
是 | GA |
法语 (法国) |
fr-FR_Telephony |
是 | GA |
德语 | de-DE_Telephony |
是 | GA |
印地语 (印度语) |
hi-IN_Telephony |
是 | GA |
意大利语 | it-IT_Telephony |
是 | GA |
日语 | ja-JP_Telephony |
是 | GA |
韩语 | ko-KR_Telephony |
是 | GA |
葡萄牙语 (巴西) |
pt-BR_Telephony |
是 | GA |
西班牙语 (Castilian) |
es-ES_Telephony |
是 | GA |
西班牙语 (阿根廷,智利, 哥伦比亚,墨西哥, 和秘鲁) |
es-LA_Telephony |
是 | GA |
瑞典语 | sv-SE_Telephony |
是 | GA |
拉丁美洲西班牙语模型 es-LA_Telephony
适用于所有拉丁美洲方言。 它相当于可用于阿根廷,智利,哥伦比亚,墨西哥和秘鲁方言的前代模型。 如果对任何这些拉丁美洲方言使用了前代模型,请使用 es-LA_Telephony
模型来迁移到等效的下一代模型。
多媒体模型
表 2 列出了可用的下一代多媒体模型。
语言 | 模型名称 | 低延迟支持 | 状态 |
---|---|---|---|
荷兰语 (荷兰) |
nl-NL_Multimedia |
是 | GA |
英语 (澳大利亚) |
en-AU_Multimedia |
是 | GA |
英语 (英国) |
en-GB_Multimedia |
是 | GA |
英语 (美国) |
en-US_Multimedia |
是 | GA |
法语 (加拿大) |
fr-CA_Multimedia |
是 | GA |
法语 (法国) |
fr-FR_Multimedia |
是 | GA |
德语 | de-DE_Multimedia |
是 | GA |
意大利语 | it-IT_Multimedia |
是 | GA |
日语 | ja-JP_Multimedia |
是 | GA |
韩语 | ko-KR_Multimedia |
是 | GA |
葡萄牙语 (巴西) |
pt-BR_Multimedia |
是 | GA |
西班牙语 (Castilian) |
es-ES_Multimedia |
是 | GA |
英国医疗电话模式
测试版下一代 en-WW_Medical_Telephony
了解来自医学和药理领域的术语。 在需要转录常用医疗术语 (例如,医药名称,产品品牌,医疗过程,疾病,医生类型或与 COVID-19-related 术语) 的情况下使用该模型。
常见用例包括患者与医疗提供者 (例如,医生,护士或药剂师) 之间的对话:
- " 我的头疼。 我需要一个布洛芬
- “你能建议一位擅长骨关节炎的骨科医生吗?”
- “能不能帮我在芝加哥找个内科医生?”
新模型可用于所有支持的英语方言: 澳大利亚,印度,英国和美国。 新模型支持语言模型定制和语法作为 Beta 功能。 它支持与 en-US_Telephony
模型相同的大部分参数,包括用于美国英语音频的 smart_formatting
。 除了 支持的下一代模型功能部件 中列出的那些功能部件外,该模型 不 支持以下参数: profanity_filter
,redaction
和 speaker_labels
。
下一代模型支持的功能
支持下一代模型用于服务的语音识别功能的大部分子集。 在受支持的功能仅限于某些语言的情况下,相同的语言限制通常适用于前代和下一代模型。
- 有关可用于下一代模型的参数 (包括其语言支持以及参数是 GA 还是 Beta) 的更多信息,请参阅 参数摘要。
- 有关下一代模型对定制的支持的更多信息,请参阅 下一代模型的定制支持。
下一代模型支持 除 以外的所有语音识别参数和头:
acoustic_customization_id
(下一代模型不支持声学模型定制。)keywords
和keywords_threshold
processing_metrics
和processing_metrics_interval
word_alternatives_threshold
下一代模型还支持以下参数,这些参数不可用于上一代模型:
下一代模型与上一代模型在以下附加功能方面也有所不同: