IBM Cloud Docs
上一代语言和模型

上一代语言和模型

2023 年 8 月 1 开始,所有先前生成的模型现在都 已停用 该服务。 现在,新客户只能使用下一代模型。 所有现有客户现在都必须迁移到等效的下一代模型。 有关更多信息,请参阅 迁移到下一代模型

IBM Watson® Speech to Text 服务支持使用多种语言的前代模型进行语音识别。 模型指示音频中所讲的语言以及音频采样率。

此页面上描述的模型称为 前代模型。 此服务还提供 下一代模型,这些模型具有增强的质量,用于改进语音识别。 有关更多信息,请参阅 下一代语言和模型

上一代模型类型

对于大多数语言,该服务提供两种类型的上一代模型:

  • 窄带模型 适用于最小采样率为 8 kHz的音频。 请将窄带模型用于电话语音的脱机解码,这是此采样率的典型用途。
  • 宽带模型 适用于期望的音频,其最小采样率为 16 kHz。 请将宽带模型用于响应式实时应用,例如用于实时语音应用。

针对您的应用选择正确的模型很重要。 请使用与音频采样率(和语言)相匹配的模型。 服务会自动调整音频的采样率,以匹配指定的模型。 为了实现最佳识别准确性,还需要考虑音频的频率内容。 有关更多信息,请参阅 采样率音频频率

受支持的上一代语言模型

以下部分列出了可用于每种语言的每种类型的前代模型。 这些部分中的表提供了以下信息:

  • 模型名称 列指示模型的名称。

  • 状态 列指示模型是一般可用 (GA) 还是 Beta

  • 建议的下一代模型 标识可以使用的下一代模型,而不是不推荐使用的模型。

    目前,并不是所有的宽带模型都有等效的多媒体模型。 在这种情况下,请考虑将电话模型用于该语言。 服务会将音频下采样到您使用的模型的速率。 因此,在当前没有等效多媒体模型的情况下,将宽带音频发送到电话模型可能证明是足够的替代方法。

所有模型都可用于两个产品版本 IBM Cloud 和 IBM Cloud Pak for Data。

窄带模型

表 1 列出了可用的上一代窄带模型。

支持的上一代窄带型号
语言 模型名称 状态 建议的下一代模型
中文(普通话) zh-CN_NarrowbandModel GA
已停用
zh-CN_Telephony
荷兰语 (荷兰) nl-NL_NarrowbandModel GA
已停用
nl-NL_Telephony
英语(澳大利亚) en-AU_NarrowbandModel GA
已停用
en-AU_Telephony
英语(英国) en-GB_NarrowbandModel GA
已停用
en-GB_Telephony
英语(美国) en-US_NarrowbandModel GA
已停用
en-US_Telephony
en-US_ShortForm_NarrowbandModel GA
已停用
en-US_Telephony
法语(加拿大) fr-CA_NarrowbandModel GA
已停用
fr-CA_Telephony
法语(法国) fr-FR_NarrowbandModel GA
已停用
fr-FR_Telephony
德语 de-DE_NarrowbandModel GA
已停用
de-DE_Telephony
意大利语 it-IT_NarrowbandModel GA
已停用
it-IT_Telephony
日语 ja-JP_NarrowbandModel GA
已停用
ja-JP_Telephony
IBM Cloud
韩语 ko-KR_NarrowbandModel GA
已停用
ko-KR_Telephony
葡萄牙语(巴西) pt-BR_NarrowbandModel GA
已停用
pt-BR_Telephony
西班牙语(阿根廷,Beta) es-AR_NarrowbandModel Beta
已停用
es-LA_Telephony
西班牙语(卡斯蒂利亚) es-ES_NarrowbandModel GA
已停用
es-ES_Telephony
西班牙语(智利,Beta) es-CL_NarrowbandModel Beta
已停用
es-LA_Telephony
西班牙语(哥伦比亚,Beta) es-CO_NarrowbandModel Beta
已停用
es-LA_Telephony
西班牙语(墨西哥,Beta) es-MX_NarrowbandModel Beta
已停用
es-LA_Telephony
西班牙语(秘鲁,Beta) es-PE_NarrowbandModel Beta
已停用
es-LA_Telephony

宽带模型

表 2 列出了可用的上一代宽带模型。

支持的上一代宽带型号
语言 模型名称 状态 建议的下一代模型
阿拉伯语(现代标准) ar-MS_BroadbandModel GA
已停用
ar-MS_Telephony
中文(普通话) zh-CN_BroadbandModel GA
已停用
zh-CN_Telephony
荷兰语 (荷兰) nl-NL_BroadbandModel GA
已停用
nl-NL_Multimedia
英语(澳大利亚) en-AU_BroadbandModel GA
已停用
en-AU_Multimedia
英语(英国) en-GB_BroadbandModel GA
已停用
en-GB_Multimedia
英语(美国) en-US_BroadbandModel GA
已停用
en-US_Multimedia
法语(加拿大) fr-CA_BroadbandModel GA
已停用
fr-CA_Multimedia
法语(法国) fr-FR_BroadbandModel GA
已停用
fr-FR_Multimedia
德语 de-DE_BroadbandModel GA
已停用
de-DE_Multimedia
意大利语 it-IT_BroadbandModel GA
已停用
it-IT_Multimedia
日语 ja-JP_BroadbandModel GA
已停用
ja-JP_Multimedia
韩语 ko-KR_BroadbandModel GA
已停用
ko-KR_Multimedia
葡萄牙语(巴西) pt-BR_BroadbandModel GA
已停用
pt-BR_Multimedia
西班牙语(阿根廷,Beta) es-AR_BroadbandModel Beta
已停用
es-LA_Telephony
西班牙语(卡斯蒂利亚) es-ES_BroadbandModel GA
已停用
es-ES_Multimedia
西班牙语(智利,Beta) es-CL_BroadbandModel Beta
已停用
es-LA_Telephony
西班牙语(哥伦比亚,Beta) es-CO_BroadbandModel Beta
已停用
es-LA_Telephony
西班牙语(墨西哥,Beta) es-MX_BroadbandModel Beta
已停用
es-LA_Telephony
西班牙语(秘鲁,Beta) es-PE_BroadbandModel Beta
已停用
es-LA_Telephony

美国英语简写模式(已废弃)

美国英语短格式模型 en-US_ShortForm_NarrowbandModel 可以改进用于交互式声音响应 (IVR) 和自动客户支持解决方案的语音识别。 短格式模型经过训练,可识别客户支持设置(如自动化支持呼叫中心)中经常表达的简短话语。 模型经过调整后,除了识别常规简短话语外,还可获得精确的话语,如数字、单字符词和姓名拼写以及“是/否”响应。

对于人机交流的常见响应类型(例如,IBM® Voice Agent with Watson 的用例),en-US_ShortForm_NarrowbandModel 的效果最佳。 对于人与人之间的会话,en-US_NarrowbandModel 通常效果最佳。 但是,根据用例和交流的性质,一些用户可能会发现短格式模型也适合人与人之间的会话。 鉴于这两种模型具有这样的灵活性并且功能有部分重叠,您可以对模型进行试验,以确定哪种模型最适合您的应用。 在任一情况下,将含有语法的定制语言模型应用于短格式模型,都可以进一步改进识别结果。

与所有模型一样,噪声环境可能会对结果产生负面影响。 例如,来自机场、行驶车辆、会议室和多个说话者的背景声学噪声可能会降低转录准确性。 说话者的电话有回音很常见,因此来自此类设备的音频也可能会降低准确性。 使用可用于语音活动检测的参数可以抵消此类影响,并有助于提高语音转录准确性。 应用定制声学模型可以进一步微调音质以进行语音识别,但这仅作为最终措施。

先前生成模型的受支持功能

支持将上一代模型与几乎所有服务功能部件配合使用。 大多数功能部件和型号通常可供生产使用。 在指示的位置,某些功能部件和模型是 Beta 功能。 限制适用于某些功能,例如:

  • 诸如说话者标签,数字编辑和脏话过滤之类的功能仅限于某些语言和模型。 这些限制随各个功能部件的描述一起说明。 有关所有可用语音识别参数的更多信息,请参阅 参数摘要
  • 仅下一代模型支持 low_latency 参数。 有关更多信息,请参阅 低等待时间
  • 有关先前生成模型对定制的支持的更多信息,请参阅 对先前生成模型的定制支持

否则,当功能部件描述为一般可用或可用于特定语言时,它支持先前生成的模型。