IBM Cloud Docs
音訊術語和特性

音訊術語和特性

以下術語用於描述音訊資料的特徵及其處理。 此資訊有助於搭配使用音訊與 IBM Watson® Speech to Text 服務。

  • 如果您不熟悉音訊及其描述和指定方式,請從本主題開始以協助您入門。
  • 如果您已瞭解如何使用音訊資料,請從 支援的音訊格式 開始。

取樣率

取樣率(或取樣頻率)是指每秒取得的音訊樣本數目。 取樣率的測量單位是赫茲 (Hz) 或千赫 ( kHz)。 例如,每秒 16,000 個樣本的速率等於 16,000 赫玆(或 16 kHz)。 使用 Speech to Text 服務,您可以指定模型來指出音訊的取樣率:

  • 寬頻多媒體模型用於取樣頻率不低於 16 kHz, IBM®建議將其用於響應式即時應用程式(例如,即時語音應用程式)。
  • 窄帶電話模型用於以不低於 8 kHz,這是電話音頻通常使用的速率。

服務同時支援大部分語言及格式的取樣率。 它在辨識語音之前會先自動調整您音訊的取樣率,以符合您指定的模型。

  • 對於寬頻和多媒體型號,該服務將以更高取樣率錄製的音訊轉換為 16 kHz。
  • 對於窄頻和電話系統模型,它會將以較高取樣率錄製的音訊轉換為 8 kHz。

例如,您可以使用任何模型傳送 44 kHz 音訊,但這會不必要地增加音訊的大小。 若要讓您可以傳送的音訊量達到最大,請讓音訊的取樣率與您使用的模型相符。

此服務不接受取樣率低於模型取樣率的音訊。 例如,您無法使用寬頻或多媒體模型來辨識取樣率為 8 kHz的音訊。

音訊格式的注意事項

  • 對於 audio/alawaudio/l16audio/mulaw 格式,您必須指定音訊的速率。
  • 對於 audio/basicaudio/g729 格式,此服務只支援窄頻音訊。

其他資訊

位元速率

位元速率 是指每秒傳送的資料位元數。 音訊串流的位元速率是以每秒千位元 (kbps) 為單位測量。 以取樣率和每個樣本儲存的位元數來計算位元速率。 若為語音辨識,IBM® 建議您為音訊錄製每個樣本 16 位元。

例如,若音訊使用寬頻取樣率 16 kHz 和每個樣本 16 位元,則其位元速率為 256 kbps:(16,000 * 16) / 1000

其他資訊

壓縮

許多音訊格式都使用壓縮 來減少音訊資料的大小。 壓縮可減少每個樣本儲存的位元數,進而降低位元速率。 部分格式不使用壓縮,但大部分提供下列兩種基本類型之一:

  • 無失真 壓縮可減少音訊大小而不失去品質,但壓縮比例通常很小。
  • 失真 壓縮可將音訊大小縮小到 10 倍之多,但在壓縮時會失去部分資料和某些品質而無法恢復。

您可以使用壓縮,在語音辨識要求中容納更多音訊資料。 但您使用的壓縮類型會影響轉錄品質。

音訊格式的注意事項

  • audio/oggaudio/webm 格式是容器,其壓縮根據您用來編碼資料的轉碼器:Opus 或 Vorbis。
  • audio/wav 格式是容器,可包含未經壓縮的資料、無失真資料或失真資料。

其他資訊

  • 如需服務支援的音訊格式所提供之壓縮的相關資訊,請參閱 音訊格式
  • 如需使用資料壓縮來增加您可以透過要求傳送之音訊量的相關資訊,請參閱資料限制和壓縮

頻道

頻道 指出所錄製音訊的串流數:

  • 單聲道(或 mono)音訊僅有單一頻道。
  • 立體聲(或 stereo)音訊一般有兩個頻道。

Speech to Text 服務接受最多 16 個頻道的音訊。 因為它只使用單一頻道進行語音辨識,因此在轉碼期間,此服務會將具有多個頻道的音訊降混成一個頻道 mono。

音訊格式的注意事項

  • 對於 audio/l16 格式,如果您的音訊具有多個頻道,則必須指定頻道數。
  • 對於 audio/wav 格式,此服務接受最多有九個頻道的音訊。

排列法

排列法 指出基礎電腦架構組織資料位元組的方式:

  • 大序排列法 依最高有效位元來排序資料。
  • 小序排列法 依最低有效位元來排序資料。

Speech to Text 服務會自動偵測送入音訊的排列法。

音訊格式的注意事項

  • 對於 audio/l16 格式,您可以指定排列法來停用自動偵測(必要的話)。

音訊頻率

音訊頻率 是指音訊中的有聲頻率範圍。 通常可以接受的人類標準有聲頻率為 20 到 20,000 赫玆。 您可以使用頻譜分析來產生頻譜,以顯示您音訊的頻率內容。

套用至音訊的取樣率通常是音訊的頻率上限的兩倍。 例如,取樣率 16 kHz 表示取樣音訊信號的頻率上限是 8 kHz。 此服務的模型是在此考量之下建立。

  • 窄頻模型是以 8 kHz 取樣率的音訊來建置的。 窄頻模型預期在小於或等於 4 kHz 範圍內找到資訊。
  • 寬頻模型是以 16 kHz 取樣率的音訊來建置的。 寬頻模型預期在 4 到 8 kHz 範圍內找到資訊。

模型的訓練資料衍生自不同的頻道(適用於窄頻模型的電話系統)。 這些模型反映其受訓練之頻道的特徵。

升頻取樣

升頻取樣 會增加音訊的取樣率,但不會在音訊中引進新資訊。 它會產生近似以較高比率取樣音訊所獲得的音訊信號。 它會增加音訊資料的大小。

原本以窄頻頻率取樣的音訊資訊受限在 0-4 kHz 範圍內。 以升頻取樣將將窄頻音訊升至更高的取樣率不太可能改善語音辨識正確性。 如果您對窄頻音訊進行升頻取樣,它將缺少在寬頻模型預期範圍內的資訊。 此外,在窄頻樣本的預期範圍內找到的資訊,與在寬頻樣本的相同範圍內找到的資訊,有本質上的不同。 因此,升頻取樣實際上會導致辨識正確性欠佳。

對於寬頻取樣率 16 kHz,在取樣的音訊信號中出現的頻率上限預期為 8 kHz。 因此,您必須在以 16 kHz 的比率取樣之前,先過濾 8 kHz 的原始信號。 否則,會因為所謂的別名化 現象而發生退化。

也許想像在大型平面電視 HDTV 上觀看 VHS 錄影帶會是比較有用的比較。 影像會模糊,這是因為在高清裝置上播放錄影帶無法實際將新資訊新增至串流。 它只是讓格式與更好的裝置相容。 升頻取樣音訊也是如此。

降頻取樣

降頻取樣 會降低音訊的取樣率。 它會產生近似以較低比率取樣音訊所獲得的音訊信號。 降頻取樣不會從音訊信號移除任何資訊,但會減少音訊資料的大小。

在某些情況下,對音訊進行降頻取樣可能比較實際。 例如,如果音訊的取樣率大於 8 kHz, 頻譜檢查顯示並沒有頻率內容大於 4 kHz,請考慮將音訊降頻取樣至 8 kHz。