IBM Cloud Docs
迁移到大型语音模型

迁移到大型语音模型

2023 年 8 月 1 开始,所有先前生成的模型现在都 已停用 该服务。 现在,新客户只能使用大型语音模型或下一代模型。 所有现有客户现在都必须迁移到等效的大型语音模型或下一代模型。 有关更多信息,请参阅 迁移到大型语音模型

您必须在 2023 年 7 月 31 日前将任何不推荐使用的先前生成模型迁移到等效的大型语音模型或下一代模型。 下一代模型提供了明显更好的转录准确性和吞吐量。 但它们当前提供的功能比前代模型略少。

本主题概述了从上一代模型迁移到下一代模型所需的步骤。 有关迁移的更多信息,您还可以参阅 Watson Speech to Text: How to Plan Your Migration to The Next-Generation Models

步骤 1: 识别要迁移到的大型语音模型或下一代模型

以下主题描述了所有大型语音模型,上一代和下一代模型:

支持的前代语言模型 中的表列出了要从前代模型迁移到的建议大型语音模型或下一代模型。 在语音识别请求中使用指示的大型语音模型或下一代模型。

该服务继续使新的大型语音模型可用。 所有新模型都在发行说明和描述可用模型的表中标识。

最理想的情况是,您从窄带模型/电话模型迁移到大型语音模型,并从宽带模型/多媒体模型迁移到大型语音模型。 但是,并非所有宽带模型和多媒体模型都具有等效的大型语音模型。 在这种情况下,您可以从窄带模型迁移到电话模型,或者从宽带模型迁移到多媒体模型。 该服务会将您发送的音频采样到您使用的模型的速率。 因此,在当前没有等效多媒体模型的情况下,将宽带音频发送到电话模型可能证明是足够的替代方法。

例如,以下语音识别请求使用先前生成的 en-US_NarrowbandModel:

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_NarrowbandModel"

要使用等效的大型语音模型 en-US,只需更改通过 model 查询参数传递的值:

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US"

步骤 2: 识别大型语音模型可用的功能

大型语音模型支持的功能和参数略少于前代和下一代模型。 但是,尽管它们缺乏完全平价,但大多数功能都可用于这两种类型的模型。 如果功能部件仅限于语言子集,那么这些限制同样适用于所有类型的模型。

有关不同模型类型支持的功能的信息,请参阅

该服务继续为下一代模型提供新功能。 对功能部件支持的所有更新都记录在发行说明和模型类型的文档中。

要迁移到下一代模型,必须从语音识别请求中移除下一代模型不支持的功能。 您还可以考虑使用诸如字符插入偏差之类的功能,这些功能仅适用于大型语音模型和下一代模型。

例如,以下语音识别请求将 profanity_filterredactionword_alternatives_threshold 参数与 previous-generation en-US_NarrowbandModel 配合使用:

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path_to_file}audio-file.flac \
"{url}/v1/recognize?model=en-US_NarrowbandModel&profanity_filter=true&redaction=true&word_alternatives_threshold=0.50"

大型语音模型仅支持 word_alternatives_threshold 参数。 要使用等效的大型语音模型 en-US_Telephony 模型,只需更改通过 model 查询参数传递的值并消除 word_alternatives_threshold 参数:

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path_to_file}audio-file.flac \
"{url}/v1/recognize?model=en-US&profanity_filter=true&redaction=true"

步骤 3: 重新创建您使用的任何定制语言模型

您必须通过基于等效的大型语音模型来重新创建基于上一代或下一代模型的任何定制语言模型。 这要求您创建新的定制语言模型,并将语料库和定制词从旧模型添加到新模型。

通常,大型语音模型不会严重依赖定制语言模型。 他们使用不同的方法进行转录,从而最大程度地减少了对语言模型定制的需求。

大型语音模型不支持定制声学模型。 由于模型如何转录音频,因此不需要声学模型定制。

例如,以下语音识别请求使用基于 en-US_NarrowbandModel 的定制语言模型。 在此示例中,定制模型具有标识 8acf31fa-0aa2-4ecc-a805-1f527f342dba

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @audio-file.flac \
"{url}/v1/recognize?model=en-US_NarrowbandModel&language_customization_id=8acf31fa-0aa2-4ecc-a805-1f527f342dba"

使用等效的 en-US 模型重新创建定制语言模型后,只需将模型名称更新为 en-US,并将 language_customization_ID 参数更新为使用新定制模型 636d8494-7e53-436a-8557-30d6b2a63cd7 的标识:

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @audio-file.flac \
"{url}/v1/recognize?model=en-US&language_customization_id=636d8494-7e53-436a-8557-30d6b2a63cd7"

步骤 4: 评估大型语音模型的结果

一旦更新了语音识别请求以使用大型语音模型,消除了不受支持的参数,并重新创建了任何定制语言模型,您就可以根据先前和下一代模型来试验语音识别。 比较生成的文字记录以确定大型语音模型是生成等效结果还是生成更好的结果。 还要考虑使用大型语音模型来确定接收结果的速度的请求的性能。

您还可以比较大型语音模型的单词错误率,上一代和下一代结果。 Python中提供的开放式源代码 Word 错误率(WER)实用程序可帮助您度量和比较结果的准确性。