IBM Cloud Docs
用法常见问题

用法常见问题

IBM Watson® Speech to Text 的常见问题包括有关语音识别,音频传输,定制和其他主题的问题。 要查找 IBM Cloud®的所有常见问题及解答,请参阅 常见问题及解答库

如何访问服务凭证?

如何访问服务凭证取决于您是将 Speech to Text 与 IBM Cloud® 还是 IBM Cloud Pak® for Data配合使用。 有关获取这两个版本的凭证的更多信息,请参阅入门教程中的 开始之前

具有服务凭证后,请参阅以下主题以获取有关向服务进行认证的信息:

服务支持哪些语言?

Speech to Text 服务支持大型语音模型,前代和下一代语言和模型。 大多数语言都支持宽带/多媒体和窄带/电话模型,它们的最小采样率分别为 16 kHz 和 8 kHz。 有关可用模型及其支持的所有语言的功能的更多信息,请参阅以下主题:

输入音频格式是什么?

该服务支持多种音频格式 (MIME 类型)。 不同格式支持不同的采样率和其他特征。 通过使用支持压缩的格式,可以最大限度提高可在一个请求中发送的音频数据量。 有关受支持的音频格式的更多信息,请参阅以下主题:

可以向服务提交多少音频数据?

可通过单个语音识别请求提交的音频量取决于使用的接口:

  • WebSocket 和同步 HTTP 接口可接受最多 100 MB 音频数据。
  • 异步 HTTP 接口接受最多 1 GB 音频数据。

有关更多信息,请参阅使用服务识别语音

我能否转录视频文件中的语音?

您无法转录同时包含音频和视频的多媒体文件中的语音。 要从视频文件转录语音,必须将音频数据与视频数据分开。 有关更多信息,请参阅 从视频文件转录语音

如何提高转录准确性?

Speech to Text 服务提供的定制接口有许多功能和选项,可改进受支持基本语言模型的语音识别功能:

  • 如果要转录特定领域的音频,那么可以创建定制语言模型来扩展和定制基本模型的词汇表,以包含特定于领域的术语。 使用定制语言模型时,还可以创建和合并定制语法,以限制服务可以从模型的词汇表中识别的词。 大型语音模型,前代和下一代模型都支持语言模型定制。 有关更多信息,请参阅创建定制语言模型向定制语言模型添加语法
  • 如果要转录具有独特特征(例如,说话者口音、电话会话或背景噪声)的音频,那么可以创建定制声学模型来调整基本模型以适应环境和说话者。 仅支持对先前生成的模型进行声学模型定制。 有关更多信息,请参阅创建定制声学模型
  • 还可以将定制声学模型和定制语言模型一起使用。 如果转录或相关语料库可用于音频,那么可以使用这些数据来创建补充定制语言模型,以进一步提高基于定制声学模型的语音识别质量。 仅支持先前生成的模型使用语法。 有关更多信息,请参阅将定制声学模型和定制语言模型一起使用

可以向定制语言模型添加多少词?

最多可以从所有源向定制语言模型添加 9 万个未登录 (OOV) 词。 最多可以从所有源向定制语言模型添加共 1000 万个词。 但是,许多因素会影响有效定制语言模型所需的数据量。 虽然无法提供需要为任何定制模型或应用添加的确切词数,但即使向定制模型添加几个词,也可能会改进语音识别。 有关可以添加的词数限制以及影响所需数据量的其他因素的更多信息,请参阅我需要多少数据?

定制模型升级是如何运作的?

发布上一代基本模型的新版本以提高语音识别的质量时,必须升级基于该模型的任何定制语言和定制声学模型以利用更新。 升级定制模型时,不需要单独升级其资源。 服务会自动升级资源。 定制模型升级仅适用于先前生成的模型。

Speech to Text 服务可以将数字转录为数字而不是字符串吗?

对于美国英语,巴西葡萄牙语,法语,德语和美国英语医疗模型,您可以使用可用的新版智能格式化功能。 有关更多信息,请参阅 新建智能格式

对于日语和西班牙语音频,您可以使用智能格式化将某些字符串 (例如数字和数字) 转换为更常规的表示。 智能格式设置是 Beta 功能。 有关更多信息,请参阅智能格式设置