IBM Cloud Docs
使用音频资源

使用音频资源

声学模型定制仅可用于先前生成的模型。 它不可用于下一代和大型语音模型。

您可以将单个音频文件或包含多个音频文件的归档文件添加到定制声学模型。 建议通过添加归档文件来添加音频资源。 创建和添加单个归档文件要比逐个添加多个音频文件高效得多。 您还可以提交请求以同时添加多个不同的音频资源。

添加音频资源

使用 POST /v1/acoustic_customizations/{customization_id}/audio/{audio_name} 方法来向定制声学模型添加任一类型的音频资源。 可将音频资源作为请求主体传递,并包含以下参数:

  • customization_id 路径参数,用于指定模型的定制标识。
  • audio_name 路径参数,用于指定音频资源的名称。
    • 使用与定制模型的语言相匹配并反映资源内容的本地化名称。
    • 名称中最多可包含 128 个字符。
    • 不要使用需要进行 URL 编码的字符。 例如,不要在名称中使用空格、斜杠、反斜杠、冒号、& 符号、双引号、加号、等号和问号等。 (服务不会阻止使用这些字符。 但是,由于这些字符在使用的任何位置都必须进行 URL 编码,因此强烈建议不要使用。)
    • 不要使用已添加到定制模型的音频资源的名称。

更新模型的音频资源时,必须训练模型以使更改在转录期间生效。 有关更多信息,请参阅训练定制声学模型

添加音频文件

要将单个音频文件添加到定制声学模型,请使用 Content-Type 头指定音频的格式(MIME 类型)。 可以添加支持用于识别请求的任何格式的音频。 根据需要,在格式规范中包含 ratechannelsendianness 参数。 有关更多信息,请参阅 支持的音频格式

音频资源不支持音频格式的 application/octet-stream 规范。

向定制声学模型添加音频中的以下示例添加了 audio/wav 文件:

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @audio1.wav \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio1"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @audio1.wav \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio1"

添加归档文件

向定制声学模型添加音频的首选方法是添加包含多个音频文件的归档文件。 可以使用 Content-Type 请求头来指定归档类型,从而添加以下类型的归档文件:

  • .zip 通过指定 application/zip
  • .tar.gz 通过指定 application/gzip

根据要添加的文件的格式,可能还需要指定 Contained-Content-Type 头:

  • 对于类型为 audio/alawaudio/basicaudio/l16audio/mulaw 的音频文件,必须使用 Contained-Content-Type 头来指定音频文件的格式。 如果需要,请包含 ratechannelsendianness 参数。 在这种情况下,归档文件中包含的所有音频文件都必须具有相同的音频格式。
  • 对于所有类型的音频文件,都可以省略 Contained-Content-Type 头。 在这种情况下,归档文件中包含的音频文件可以具有先前项目符号中未列出的任何格式。 这些文件不必具有相同的格式。

添加音频类型资源时,不要使用 Contained-Content-Type 头。

包含在归档类型资源中的音频文件的名称最多可以包含 128 个字符。 这包括文件扩展名和名称的所有元素(例如,斜杠)。

向定制声学模型添加音频中的以下示例添加了 application/zip 文件,其中包含采样率为 16 千赫兹的 audio/l16 格式的音频文件:

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: application/zip" \
--header "Contained-Content-Type: audio/l16;rate=16000" \
--data-binary @audio2.zip \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/zip" \
--header "Contained-Content-Type: audio/l16;rate=16000" \
--data-binary @audio2.zip \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio2"

添加音频的准则

使用定制声学模型时识别准确性的预期改进程度取决于多个因素。 这些因素包括定制声学模型包含的音频数据量以及这些数据与所转录音频的类似程度。 此改进还取决于定制声学模型是否使用相应的定制语言模型进行了训练。

将音频资源添加到定制声学模型时,请遵循以下准则:

  • 添加至少 10 分钟的音频,包括语音,而不是静默。

    确定要添加的音频量时,音频的质量有着重要影响。 模型的音频越能反映出要识别的音频的特征,用于语音识别的定制模型的质量越高。 如果音频质量良好,那么添加更多的音频可提高转录准确性。 但是,添加 5 到 10 小时的优质音频就可以产生积极的影响。

  • 添加不超过 100 MB 的音频资源。 所有音频类型和归档类型资源的最大大小限制均为 100 MB。

    要最大限度提高可通过单个资源添加的音频量,请考虑使用提供压缩的音频格式。 有关更多信息,请参阅数据限制和压缩

  • 将大型音频文件拆分为多个较小的文件。 确保在词之间的静默位置拆分音频。

    由于可以同时提交多个请求来添加不同的音频资源,因此可以并行添加更小的文件。 这种并行添加音频资源的方法可以加快服务的音频分析速度。

  • 添加可反映出计划转录的音频的声道状况的音频内容。 例如,如果应用程序处理的音频有来自行驶车辆的背景噪声,请使用相同类型的数据来构建定制模型。

  • 确保音频文件的采样率与定制声学模型的基本模型的采样率相匹配:

    • 对于宽带模型,采样率必须至少为 16 千赫兹(每秒 16,000 个样本)。
    • 对于窄带模型,采样率必须至少为 8 千赫兹(每秒 8000 个样本)。

    如果音频采样率高于必需的最低采样率,服务会将音频的采样率降低到适当的速率。 如果音频采样率低于必需的最低采样率,服务会将音频文件标注为 invalid。 如果归档文件中包含的任何音频文件无效,服务会将整个归档视为无效。

  • 在以下情况下,请创建定制语言模型以用于定制声学模型:

    • 如果音频长度不到一小时,请根据音频的转录来创建定制语言模型,以获得最佳结果。
    • 如果音频是特定于域的,并且包含在服务基本词汇表中找不到的特殊词,请使用语言模型定制来扩展服务的基本词汇表。 在转录期间,仅执行声学模型定制不会生成这些词。

    有关更多信息,请参阅将定制声学模型和定制语言模型一起使用

最大音频小时数

可以添加到定制声学模型的最大音频小时取决于您正在使用的服务版本:

  • IBM Cloud Pak for Data 最多可添加200小时的音频数据。IBM Software Hub 最多可添加200小时的音频数据。

  • IBM Cloud 添加最多约 50 小时的音频数据。 您可能可以为每个模型添加 10 或 20 小时的额外音频数据。 但是,假设每个定制声学模型最多有 50 个小时的音频数据,并相应地进行规划是比较安全的。

    每个定制声学模型的最大音频量先前为 200 小时。 正在根据表 1 中的调度按位置减少限制。

    每个地点的 50 小时限制时间表
    地区 计划的新限制日期 新限制的实际日期
    eu-gb (伦敦) 2022 年 8 月 11 日 2022 年 8 月 11 日
    au-syd (悉尼) 2022 年 10 月 19 日 2022 年 10 月 19 日
    us-east (华盛顿特区) 2023 年第一季度 待定
    us-south (达拉斯) 2023 年第一季度 待定
    eu-de (法兰克福) 2023 年第一季度 待定
    jp-tok (东京) 2023 年第一季度 待定

    如果您当前具有具有超过 50 小时音频数据的定制声学模型,那么可以执行下列其中一项操作:

    • 让模型保持独立。 该模型将继续处理语音识别请求。 但是,您无法向模型添加更多音频或重新训练模型。
    • 减少模型包含的音频量。 维护最有差别的音频,这意味着最能代表您希望使用模型处理的特征的音频。 除去您计划识别的音频的较少特征的音频。 通过仅使用质量更好的音频,可以减少模型所需的音频量。
    • 如果可能,请将音频分隔成多个模型。 创建新的较小模型,以解决原始模型所处理的特定特征。 例如,您可能正在使用同一模型来表示多个音频特征。 而不是依靠单个大型模型,创建多个表示更优化特征的较小模型。 这可能无法用于所有模型。 但是,由于您只能使用语音识别请求指定单个定制声学模型,因此如果您的数据适合此类优化,那么可以提供帮助。