音频术语和特征
以下术语用于描述音频数据的特征及其处理。 此信息有助于将音频与 IBM Watson® Speech to Text 服务配合使用。
- 如果您不熟悉音频及其描述和指定方式,请从本主题开始学习,以帮助您入门。
- 如果您已了解如何使用音频数据,请从 支持的音频格式 开始。
采样率
采样率(或采样频率)是指每秒获取的音频样本数。 采样率的度量单位为赫兹 (Hz) 或千赫兹 (kHz)。 例如,每秒 16,000 个样本的采样率等于 16,000 赫兹(或 16 千赫兹)。 通过 Speech to Text 服务,可指定用于指示音频采样率的模型:
- 宽带和多媒体模型用于采样频率不低于 16kHz,音频,IBM®建议将其用于反应灵敏的实时应用(例如,实时语音应用)。
- 窄带和电话型号用于采样频率不低于 8kHz,音频,这是电话音频通常使用的速率。
该服务支持大多数语言和格式的采样率。 服务在识别语音之前,会自动调整音频的采样率,以便与指定的模型相匹配。
- 对于宽带和多媒体型号,该服务可将以较高采样率录制的音频转换为 16kHz。
- 对于窄带和电话模型,它将以更高采样率记录的音频转换为 8 kHz。
例如,您可以使用任何模型发送 44 个 kHz 音频,但这会不必要地增加音频的大小。 要最大限度提高可以发送的音频量,请使音频采样率与使用的模型相匹配。
该服务不接受采样率低于模型采样率的音频。 例如,不能使用宽带或多媒体模型来识别以 8 kHz速率采样的音频。
有关音频格式的说明
- 对于
audio/alaw
、audio/l16
和audio/mulaw
格式,必须指定音频的采样率。 - 对于
audio/basic
和audio/g729
格式,服务仅支持窄带音频。
更多信息
比特率
比特率是指每秒发送的数据比特数。 音频流比特率的度量单位为千位/秒 (kbps)。 比特率是根据采样率和每个样本存储的比特数计算的。 对于语音识别,IBM® 建议为音频录制 16 比特/样本。
例如,对于使用宽带采样率 16 千赫兹和 16 比特/样本的音频,其比特率为 256 千位/秒:(16,000 * 16) / 1000
。
更多信息
压缩
许多音频格式都会使用压缩,以减小音频数据的大小。 压缩可减小每个样本存储的比特数,从而降低比特率。 某些格式不使用压缩,但大多数提供以下两种基本类型之一:
- 无损压缩可减小音频的大小,而不会损失质量,但压缩率通常较小。
- 有损压缩可使音频大小最高减小 10 倍,但在压缩中会不可挽回地损失一些数据和一定程度的质量。
您可以使用压缩来容纳语音识别请求中的更多音频数据。 但是,您使用的压缩类型会影响转录质量。
有关音频格式的说明
audio/ogg
和audio/webm
格式是其压缩依赖于对数据进行编码的编码解码器的容器:Opus 或 Vorbis。audio/wav
格式是可以包含未压缩、无损或有损数据的容器。
更多信息
通道
声道指示所录制音频的流数:
- 单声道音频只有一个声道。
- 立体声音频通常有两个声道。
Speech to Text 服务接受最多有 16 个声道的音频。 由于服务仅将单声道用于语音识别,因此在代码转换期间会将多声道音频缩混成单声道音频。
有关音频格式的说明
- 对于
audio/l16
格式,如果音频有多个声道,那么必须指定声道数。 - 对于
audio/wav
格式,服务接受最多有 9 个声道的音频。
字节序
字节序指示底层计算机体系结构如何组织数据的字节:
- 大尾数法按最高有效位对数据排序。
- 小尾数法按最低有效位对数据排序。
Speech to Text 服务会自动检测传入音频的字节序。
有关音频格式的说明
- 对于
audio/l16
格式,可以根据需要指定字节序以禁用自动检测。
音频频率
音频频率是指音频中人耳可以听到的频率的范围。 人耳可听到的标准频率公认为是 20 到 20,000 赫兹。 可以使用声谱分析来生成显示音频频率内容的声谱图。
应用于音频的采样率通常是音频最大频率的两倍。 例如,采样率为 16 千赫兹,表示被采样音频信号的最大频率为 8 千赫兹。 创建服务的模型时,请记住这一点。
- 窄带模型是使用采样率为 8 千赫兹的音频构建的。 窄带模型应该查找范围小于或等于 4 千赫兹的信息。
- 宽带模型是使用采样率为 16 千赫兹的音频构建的。 宽带模型应该查找 4-8 千赫兹范围内的信息。
模型的训练数据源自不同通道(电话用于窄带模型)。 模型可反映出对其进行训练的通道的特征。
升采样
升采样用于增大音频的采样率,而不会在音频中引入新的信息。 升采样生成的是本该以更高采样率对音频采样来获得的音频信号的近似值。 升采样会增大音频数据的大小。
以窄带频率原始采样的音频中的信息限制在 0 到 4 千赫兹范围内。 通过对窄带音频执行升采样来提高其采样率,不太可能提高语音识别准确性。 如果对窄带音频执行升采样,那么该音频会缺少宽带模型预期的范围内的信息。 此外,在窄带样本的预期范围内找到的信息与在宽带样本中同一范围内找到的信息有质的不同。 因此,升采样实际上会导致识别准确性下降。
对于 16 千赫兹的宽带采样率,被采样音频信号中的最大频率应该为 8 千赫兹。 因此,在以 16 千赫兹的采样率对原始信号采样之前,必须按 8 千赫兹对该信号进行过滤。 否则,由于称为重叠的现象,会发生质量下降。
打个比方来说,假设在大型平板屏幕 HDTV 上查看 VHS 磁带。 您会看到图像模糊不清,这是因为在高清设备上播放磁带无法将新信息真正添加到流中。 它只是为了使格式能与更好的设备兼容。 对音频执行升采样也是同样的道理。
降采样
降采样用于降低音频的采样率。 降采样生成的是本该以更低采样率对音频采样来获得的音频信号的近似值。 降采样不会从音频信号中除去任何信息,而确实可减小音频数据的大小。
在某些情况下,对音频执行降采样可能非常有效。 例如,如果音频的采样率大于 8 千赫兹,并且声谱检查显示没有超过 4 千赫兹的频率内容,请考虑对音频执行降采样,使采样率降至 8 千赫兹。