IBM Cloud Docs
了解定制

了解定制

IBM Watson® Speech to Text 服务提供了定制接口,可用于扩充其语音识别功能。 通过对您的域和音频的基本模型进行定制,可以使用定制来提高语音识别请求的准确性。

定制接口支持定制语言模型和定制声学模型。 这两种类型的定制模型的接口比较类似,并且易于使用。 将任一类型的定制模型用于识别请求也很简单:在请求中指定模型的定制标识即可。

无论是否使用定制模型,语音识别的工作方式都一样。 当您使用自定义模型进行语音识别时,可以使用识别请求中通常可用的所有参数。 有关所有可用参数的更多信息,请参阅参数摘要

IBM Cloud 您必须具有 Plus,Standard 或 Premium 定价套餐才能使用语言模型或声学模型定制。 轻量套餐的用户无法使用定制接口,但他们可以升级到 Plus 套餐以获取对定制的访问权。 有关更多信息,请参阅 定价常见问题解答

语言模型定制

有关支持语言模型定制的语言和模型及其支持级别 (一般可用或 Beta) 的更多信息,请参阅 定制的语言支持

服务是面向广泛的一般受众而开发的。 服务的基本词汇表包含日常会话中使用的许多词。 服务的模型为许多应用提供了足够准确的识别。 但是,模型可能缺少与特定领域关联的特定词汇的知识。

语言模型定制接口可以提高医学、法律、信息技术等领域的语音识别准确性。 通过使用语言模型定制,可以扩展和定制基本模型的词汇表以包含特定于领域的术语。

您可创建定制语言模型并添加特定于您的领域的语料库和词。 基于增强的词汇表来训练定制语言模型后,可以将该模型用于定制语音识别。 服务通常可在几分钟内训练好任何定制模型。 创建定制模型所需的时间和精力取决于可用于该模型的数据。

语言模型定制可用于大型语音模型,上一代和下一代模型,但对于大型语音模型,上一代和下一代模型,定制的工作方式有所不同。 文档描述了这些差异。 有关语言模型定制入门的更多信息,请参阅

改进了下一代模型的语言模型定制

正在增强下一代模型的语言模型定制。 对语言模型定制的改进正在以递增方式应用于下一代模型,从几种语言的模型开始。 随着时间的推移,其他下一代语言模型将迁移到改进后的技术中。

  • 要识别使用改进技术的模型, 请在 下一代模型的定制支持 中的表 2 的 语言模型定制 (改进) 列中查找日期。 查看您所使用的服务版本的更新日期,IBM CloudIBM Software HubIBM Cloud Pak for Data。 该日期指示将下一代模型迁移到改进后的技术的时间。
  • 要利用改进的技术, 必须升级基于改进的下一代模型的任何定制语言模型。 一旦定制模型基于改进的下一代模型,该服务将在重新训练定制模型时继续执行任何必需的升级。 有关更多信息,请参阅 基于改进的下一代模型升级定制语言模型

对于基于新技术的语言模型,已优化以下参数以改进语音识别:

  • 缺省 customization_weight 已从 0.2 更改为 0.1。 将除去先前与定制模型关联的非缺省 customization_weight。 有关更多信息,请参阅使用定制权重
  • 缺省值 character_insertion_bias 保留 0.0,但模型已更改为使用参数进行语音识别的方式,因此不需要使用此参数。 有关更多信息,请参阅 字符插入偏差

使用这些参数时,请遵循以下准则:

  • 如果对这些参数使用缺省值,请继续执行此操作。 缺省值可能会继续为语音识别提供最佳结果。
  • 如果为这些参数指定非缺省值,请使用缺省值进行试验。 您的定制模型可能适用于具有缺省值的语音识别。
  • 如果您觉得对这些参数使用不同的值可能会改进定制模型的语音识别,请尝试增量更改以确定是否需要这些参数来改进语音识别。

支持的下一代语言模型:

  • RNNT_CUSTOMIZATION_SUPPORTED_LANGS =
    • en-US_Multimedia
    • en-GB_Multimedia
    • en-AU_Multimedia
    • en-IN_Multimedia
    • en-US_Telephony
    • en-GB_Telephony
    • en-AU_Telephony
    • en-IN_Telephony
    • ja-JP_Multimedia
    • ja-JP_Telephony
    • fr-FR_Multimedia
    • fr-FR_Telephony
    • de-DE_Multimedia
    • 取消 DE_Telephony
    • fr-CA_Multimedia
    • pt-BR_Multimedia
    • pt-BR_Telephony

声学模型定制

声学模型定制仅可用于先前生成的模型。 它不可用于大型语音模型和下一代模型。

该服务基于各种音频特性都能良好运行的基本声学模型开发而成。 但在类似下面的情况下,通过调整基本模型来适应音频,可以改进语音识别:

  • 您的声道环境是独一无二的。 例如,环境嘈杂,麦克风质量或定位不够理想,或者音频受到远场效应的影响。
  • 说话者的语音模式非典型。 例如,说话者语速异常快,或者音频包含随意会话。
  • 说话者的口音很重。 例如,音频包含以非母语或第二语言讲话的说话者。

声学模型定制接口可以调整基本模型,以适应您的环境和说话者。 您可以创建定制声学模型,然后添加与要转录的音频的声学特征匹配度很高的音频数据(音频资源)。 使用这些音频资源训练定制声学模型后,可以将该模型用于定制语音识别。

服务训练定制模型所需的时间长度取决于模型包含的音频数据量。 通常,训练需要的时间是累计音频长度的两倍。 定制车型所需的时间和精力取决于您为车型提供的音频数据。 他们也会考虑您是否使用音频转录。

有关声学模型定制入门的更多信息,请参阅

语法

有关支持语法的语言和模型及其支持级别 (一般可用或 Beta) 的更多信息,请参阅 用于定制的语言支持

定制语言模型允许您扩展服务的基本词汇表。 通过语法,可以限制服务可以在该词汇表中识别到的词。 将语法与定制语言模型一起用于语音识别时,服务可以仅识别语法识别到的词、短语和字符串。 由于语法为有效匹配项定义了有限搜索空间,因此服务可以更快、更准确地交付结果。

您可将语法添加到定制语言模型,然后训练模型,就像对语料库所执行的操作一样。 但是,与语料库不同的是,必须显式指定在语音识别期间语法要用于定制模型。

Grammars 仅可用于前代和下一代模型。 它不可用于大型语音模型。

有关语法入门的更多信息,请参阅

将声学和语言定制一起使用

将声学和语言定制一起使用仅适用于先前生成的模型。 此外,部分上一代车型不支持语言和声音自定义。

仅使用定制声学模型就可提高服务的识别能力。 但是,如果转录或相关语料库可用于示例音频,那么可以使用这些数据来进一步提高基于定制声学模型的语音识别质量。

通过创建用于对定制声学模型进行补充的定制语言模型,可以将这两种模型一起使用以增强语音识别功能。 在训练定制声学模型时,可以指定定制语言模型,其中包括音频资源的转录或资源中特定于领域的词的词汇表。 与此类似,转录音频时,服务可接受定制语言模型和/或定制声学模型。 如果定制语言模型包含语法,那么可以将该模型和语法用于定制声学模型以进行语音识别。

更多信息,请参阅“同时使用自定义声学模型和自定义语言模型

升级定制模型

为了提高语音识别的质量,该服务偶尔会更新基础大型语音模型,前代和下一代模型。 对基本模型的更新仅影响该模型。 更新不会影响相同或不同语言的任何其他模型。

对基本模型的更新可能要求您升级基于该基本模型构建的任何定制模型以利用这些改进。 对需要升级的基本模型的更新会生成基本模型的新版本。 不需要升级的更新不会生成新版本。

  • 对于先前生成的模型, 对基本模型的所有更新都会生成新版本的模型。 当基础车型发布新版本时,您必须升级基于更新后的基础车型构建的任何自定义语言和自定义声学模型,以利用这些改进。
  • 对于大型语音模型和下一代模型, 大多数更新不会生成新版本的模型。 这些更新不要求您升级定制模型。 但是,某些更新会生成基本模型的新版本。 您必须升级基于已更新的基本模型构建的任何定制语言模型,以利用这些改进。

在发行说明中公布了基本模型的所有更新以及它们是否需要升级:

升级定制模型后,缺省情况下,当您通过语音识别请求指定该模型时,该服务将使用该定制模型的最新版本。 但是,您仍可以指示服务使用旧版本的模型。 有关升级定制模型和使用较低版本的模型的更多信息,请参阅