音声の用語と特性
以下の用語は、音声データとその処理の特性を説明するために使用されます。 この情報は、IBM Watson® Speech to Text サービスで音声を使用する場合に役立ちます。
- 音声に精通していない場合、および音声の説明と指定方法に精通していない場合は、このトピックから始めて、入門するのに役立ちます。
- 音声データの処理方法を既に理解している場合は、サポートされる音声フォーマットから開始します。
サンプリング・レート
サンプリング・レート (サンプリング頻度) は、1 秒あたりの取得音声サンプル数です。 サンプリング・レートはヘルツ (Hz) またはキロヘルツ (kHz) で測定されます。 例えば 1 秒あたり 16,000 サンプルのレートは 16,000 Hz (または 16 kHz) に相当します。 Speech to Text サービスでは、モデルを指定して音声のサンプリング・レートを示します。
- 広帯域モデルおよびマルチメディア・モデルは、16 kHz 以上でサンプリングされる音声に使用されます。IBM® では、応答性の高いリアルタイム・アプリケーション (例えば、ライブ音声アプリケーション) に使用することを推奨しています。
- 狭帯域モデルおよびテレフォニー・モデルは、8 kHz 以上でサンプリングされる音声に使用されます。これは、通常テレフォニック音声に使用されるレートです。
このサービスは、ほとんどの言語とフォーマットの両方のサンプリング・レートをサポートします。 サービスで発話が認識される前に、音声のサンプリング・レートが、指定のモデルと一致するように自動的に調整されます。
- 広帯域モデルおよびマルチメディア・モデルの場合、このサービスは、より高いサンプリング・レートで録音された音声を 16 kHz に変換します。
- 狭帯域モデルおよびテレフォニー・モデルの場合、より高いサンプリング・レートで録音された音声を 8 kHz に変換します。
例えば、任意のモデルで 44 kHz の音声を送信できますが、これにより音声のサイズが不必要に増大します。 送信できる音声の量を最大化させるためには、音声のサンプリング・レートを使用するモデルに一致させます。
このサービスは、モデルのサンプリング・レートよりも低いレートでサンプリングされた音声を受け入れません。 例えば、広帯域モデルまたはマルチメディア・モデルを使用して、8 kHz のレートでサンプリングされた音声を認識することはできません。
音声フォーマットについての注記
audio/alaw
、audio/l16
、およびaudio/mulaw
フォーマットの場合、音声のレートを指定する必要があります。audio/basic
およびaudio/g729
フォーマットの場合、サービスでは狭帯域音声のみがサポートされています。
詳細情報
- サポートされる言語ごとにサービスで提供されるモデルについて詳しくは、 Large speech languages and models、 Previous-generation languages and models 、および 次世代の言語とモデル を参照してください。
ビット・レート
ビット・レートとは、1 秒あたりに送信されるデータのビット数です。 音声ストリームのビット・レートは K ビット/秒 (Kbps) で測定されます。 ビット・レートはサンプリング・レートと 1 サンプル当たりの格納ビット数から算出されます。 IBM® では、音声認識の場合は音声を 1 サンプル当たり 16 ビットで録音することを推奨します。
例えば、広帯域サンプリング・レート 16 kHz と 1 サンプル当たり 16 ビットを使用する音声のビット・レートは 256 kbps になります ((16,000 * 16) / 1000
)。
詳細情報
- サンプリングレートとビットレートについての一般的な議論は、「ビットレートとは何か」と「ポッドキャスト用のビットレートの選択」をご覧ください。
圧縮
圧縮は、音声データのサイズを縮小する目的で多くの音声フォーマットで使用されています。 圧縮により、サンプル当たりの格納ビット数 が縮小され、その結果ビット・レートも縮小されます。 一部のフォーマットは圧縮を使用しませんが、ほとんどのフォーマットは以下の 2 つの基本タイプのいずれかを提供します。
- ロスレス圧縮では、品質を損なうことなく音声のサイズを縮小しますが、通常、圧縮率は小さくなります。
- 非可逆圧縮では、音声のサイズを最大 1/10 まで圧縮しますが、圧縮時に一部のデータと品質が損なわれ、それは修復できません。
圧縮を使用すると、音声認識要求でより多くの音声データに対応できます。 ただし、使用する圧縮のタイプは、書き起こしの品質に影響します。
音声フォーマットについての注記
audio/ogg
およびaudio/webm
フォーマットは、データのエンコードに使用するコーデック (Opus または Vorbis) に圧縮が依存するコンテナーです。audio/wav
フォーマットは、非圧縮、ロスレス、または非可逆のデータを格納できるコンテナーです。
詳細情報
- サービスがサポートする音声フォーマットで使用可能な圧縮について詳しくは、音声フォーマットを参照してください。
- データ圧縮を使用して要求で送信できる音声の量を増やす方法について詳しくは、データ制限および圧縮を参照してください。
チャネル
チャネル は、録音音声のストリームの数を示します。
- モノラル (モノ) 音声は 1 つのチャネルで構成されています。
- ステレオ音響 (ステレオ) 音声は通常 2 つのチャネルで構成されています。
Speech to Text サービスは最大 16 チャネルの音声を受け入れます。 音声認識には 1 つのチャネルのみが使用されるため、複数チャネルの音声はトランスコーディング時に 1 チャネルのモノラル音声にダウンミックスされます。
音声フォーマットについての注記
audio/l16
フォーマットの場合、音声が複数チャネルで構成されている場合にはチャネルの数を指定する必要があります。audio/wav
フォーマットの場合、サービスは最大 9 チャネルの音声を受け入れます。
エンディアンネス
エンディアンネス は、基盤となるコンピューター・アーキテクチャーによるデータ・バイトの並びを示します。
- ビッグ・エンディアンでは、データの並びが最上位ビットから始まります。
- リトル・エンディアンでは、データの並びが最下位ビットから始まります。
入力音声のエンディアンは、Speech to Text サービスで自動的に検出されます。
音声フォーマットについての注記
audio/l16
フォーマットの場合、必要に応じてエンディアンネスを指定して自動検出を無効にできます。
可聴周波数
可聴周波数 は、音声の可聴周波数の範囲を指します。 人間の標準的な可聴周波数は一般に 20 から 20,000 Hz と考えられています。 ステレオ分析を使用して、音声の周波数を示すスペクトルグラムを生成できます。
音声に適用されるサンプリング・レートは通常、音声の最大周波数の 2 倍です。 例えば、サンプリング・レート 16 kHz は、サンプリング対象の音声信号の最大周波数が 8 kHz であることを意味します。 サービスのモデルはこの点を反映して作成されています。
- 狭帯域モデルは、サンプリング・レートが 8 kHz の音声を使用して作成されています。 狭帯域モデルでは、4 kHz 以下の範囲の情報が検出されると期待されます。
- 広帯域モデルは、サンプリング・レートが 16 kHz の音声を使用して作成されています。 広帯域モデルでは、4 から 8 kHz の範囲内の情報が検出されると期待されます。
モデルのトレーニング・データはさまざまなチャネル (狭帯域モデルの場合は電話) から取得されます。 モデルは、トレーニング対象のチャネルの特性を反映しています。
アップサンプリング
アップサンプリングでは、音声のサンプリング・レートが増加しますが、音声に新しい情報は取り込まれません。 音声を高いレートでサンプリングした場合に取得される音声信号の近似が得られます。 音声データのサイズが増加します。
元々狭帯域周波数でサンプリングされた音声の情報は、0 から 4 kHz の範囲に限定されます。 狭帯域音声を高いサンプリング・レートにアップサンプリングしても、音声認識の正確度は改善しません。 狭帯域音声をアップサンプリングしても、広帯域モデルで予期される範囲の情報は欠落します。 さらに、狭帯域サンプルの予期される範囲で検出される情報は、広帯域サンプルの同じ範囲で検出される情報とは質的に異なります。 したがって、アップサンプリングを行うと、実質的に認識の正確度が低下します。
広帯域サンプリング・レート 16 kHz の場合、サンプリングされる音声信号の最大周波数は 8 kHz であると予期されます。 したがって、16 kHz でサンプリングする前に、元の信号を 8 kHz でフィルタリングする必要があります。 このようにしないと、エイリアシングと呼ばれる現象が原因で品質が低下します。
わかりやすい例えとして、大型のフラット画面 HDTV で VHS テープを再生することがあります。 高解像度デバイスでテープを再生しても、ストリームに新しい情報は追加されないため、画像がぼやけます。 これは、フォーマットを高機能のデバイスと互換性のあるものにするだけです。 これは、音声のアップサンプリングにも該当します。
ダウンサンプリング
ダウンサンプリング では、音声のサンプリング・レートが低下します。 音声を低いレートでサンプリングした場合に取得される音声信号の近似が得られます。 ダウンサンプリングでは、音声信号から情報は削除されませんが、音声データのサイズが縮小されます。
音声のダウンサンプリングは、場合によっては有効です。 例えば、音声のサンプリング・レートが 8 kHz よりも高く、かつスペクトルグラフ検査によって 4 kHz よりも高い周波数がないことが判明した場合は、音声を 8 kHz にダウンサンプリングすることを検討してください。