音声リソースの処理

音響モデル・カスタマイズは、前世代モデルでのみ使用可能です。次世代および大規模な音声モデルでは使用できません。

カスタム音響モデルには、個々の音声ファイル、または複数の音声ファイルを含むアーカイブ・ファイルを追加できます。推奨される音声リソースの追加方法は、アーカイブ・ファイルを追加する方法です。 1 つのアーカイブ・ファイルを作成して追加する操作は、複数の音声ファイルを個別に追加するよりも大幅に効率的です。また、複数の要求を送信することによって、複数の異なる音声リソースを同時に追加することができます。

音声リソースの追加

カスタム音響モデルにどちらのタイプの音声リソースを追加する場合でも、POST /v1/acoustic_customizations/{customization_id}/audio/{audio_name} メソッドを使用します。音声リソースを要求の本体として渡し、次のパラメーターを含めます。

customization_id パス・パラメーター。モデルのカスタマイズ ID を指定します。
audio_name パス・パラメーター。音声リソースの名前を指定します。
- カスタム・モデルの言語に一致し、リソースの内容を反映したローカライズ名を使用します。
- 名前の最大文字数は 128 文字です。
- URL エンコードする必要のある文字は使用しないでください。例えば、スペース、スラッシュ、円記号、コロン、アンパーサンド、二重引用符、正符号、等号、疑問符などは、名前に使用しないでください。 (これらの文字の使用がサービスによって禁止されているわけではありません。ただし、これらの文字を使用するときには常に URL エンコードする必要があるため、使用は推奨されません。)
- カスタム・モデルに既に追加されている音声リソースの名前は使用しないでください。

モデルの音声リソースを更新したら、書き起こしでその変更内容が反映されるようにするために、モデルをトレーニングする必要があります。詳しくは、カスタム音響モデルのトレーニングを参照してください。

音声ファイルの追加

個々の音声ファイルをカスタム音響モデルに追加するには、Content-Type ヘッダーに音声のフォーマット (MIME タイプ) を指定します。認識要求で使用できるフォーマットの音声を追加できます。 rate、channels、および endianness パラメーターを必要とするフォーマットを指定するときには、これらのパラメーターを指定します。詳しくは、サポートされる音声フォーマットを参照してください。

音声リソースでは、音声フォーマットの application/octet-stream の指定はサポートされていません。

カスタム音響モデルへの音声の追加にある以下の例では、audio/wav ファイルが追加されます。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @audio1.wav \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio1"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @audio1.wav \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio1"

アーカイブ・ファイルの追加

音声をカスタム音響モデルに追加する場合は、複数の音声ファイルを含むアーカイブ・ファイルを追加する方法が推奨されます。以下のタイプのアーカイブ・ファイルを追加するには、Content-Type 要求ヘッダーにアーカイブのタイプを指定します。

.zip ファイルを指定して application/zip
.tar.gz ファイルを指定して application/gzip

また、追加するファイルのフォーマットによっては、Contained-Content-Type ヘッダーを指定する必要もあります。

audio/alaw、audio/basic、audio/l16、または audio/mulaw タイプの音声ファイルの場合、Contained-Content-Type ヘッダーを使用して音声ファイルのフォーマットを指定する必要があります。必要に応じて、rate、channels、および endianness パラメーターを指定します。この場合、アーカイブ・ファイルに含まれているすべての音声ファイルの音声フォーマットが同一である必要があります。
その他のすべてのタイプの音声ファイルの場合、Contained-Content-Type ヘッダーは省略できます。この場合、アーカイブ・ファイルに含まれている音声ファイルに、上記にないフォーマットが含まれていることがあります。同一のフォーマットである必要はありません。

音声タイプのリソースを追加するときには Contained-Content-Type ヘッダーを使用しないでください。

アーカイブ・タイプのリソースに含まれる音声ファイルの名前には、最大 128 文字を使用できます。これには、ファイル拡張子と、名前のすべての要素 (例えば、スラッシュ) が含まれます。

カスタム音響モデルへの音声の追加にある以下の例では、サンプリング・レートが 16 kHz でフォーマットが application/zip の音声ファイルを含む audio/l16 ファイルが追加されます。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: application/zip" \
--header "Contained-Content-Type: audio/l16;rate=16000" \
--data-binary @audio2.zip \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/zip" \
--header "Contained-Content-Type: audio/l16;rate=16000" \
--data-binary @audio2.zip \
"{url}/v1/acoustic_customizations/{customization_id}/audio/audio2"

音声を追加するためのガイドライン

カスタム音響モデルを使用した結果として期待される認識正確度の改善の度合いは、さまざまな要因に応じて異なります。これらの要因には、カスタム音響モデルに含まれる音声データの量や、書き起こしの対象の音声とそのデータがどの程度類似しているかなどがあります。改善の度合いには、カスタム音響モデルのトレーニングで対応するカスタム言語モデルが使用されているかどうかも影響します。

音声リソースをカスタム音響モデルに追加する際には、以下のガイドラインに従ってください。

無音ではなく、発話を含む音声を少なくとも 10 分追加します。

追加する音声の量を決定する際には、音声の品質によって違いが出ます。モデルの音声が、認識対象の音声の特性をよく反映したものであるほど、音声認識のカスタム・モデルの品質は向上します。音声の品質が良好な場合、音声を追加すると書き起こしの正確度が改善される可能性があります。ただし、5 時間から 10 時間分の高品質音声を追加すると、正確度に大きな違いが出る可能性があります。
追加する音声リソースは 100 MB 以下にしてください。音声タイプのリソースとアーカイブ・タイプのリソースの最大サイズは 100 MB に制限されています。

1 つのリソースで追加できる音声の量を最大化するために、圧縮可能な音声フォーマットの利用を検討してください。詳しくは、データ制限および圧縮を参照してください。
大きい音声ファイルは複数の小さいファイルに分割してください。単語と単語の間の無音のポイントで音声を分割するようにしてください。

複数の同時要求を送信することによってそれぞれ異なる音声リソースを追加できるので、小さいファイルを同時に追加できます。音声リソースを追加するためのこの並列アプローチで、サービスによる音声分析を加速できます。
書き起こす予定の音声の音響チャネル状態を反映する音声コンテンツを追加します。例えば、走行中の自動車による背景雑音が入っている音声を処理するアプリケーションの場合は、同じタイプのデータを使用してカスタム・モデルを作成します。
音声ファイルのサンプリング・レートが、カスタム音響モデルの基本モデルのサンプリング・レートに一致することを確認してください。
- 広帯域モデルの場合、サンプリング・レートは 16 kHz (16,000 サンプル/秒) 以上でなければなりません。
- 狭帯域モデルの場合、サンプリング・レートは 8 kHz (8000 サンプル/秒) でなければなりません。
音声のサンプリング・レートが最小必須サンプリング・レートよりも高い場合、サービスは音声を適切なレートにダウンサンプリングします。音声のサンプリング・レートが最小必須サンプリング・レートよりも低い場合、サービスはその音声ファイルを invalid としてマークします。アーカイブ・ファイル内に無効な音声ファイルが含まれている場合、サービスはアーカイブ全体を無効とみなします。
以下の状況では、カスタム音響モデルと共に使用するカスタム言語モデルを作成します。
- 音声の長さが 1 時間未満の場合、最適な結果を得るため、音声の書き起こしをベースにカスタム言語モデルを作成します。
- 音声が分野固有であり、サービスの基本語彙にない分野固有の用語が含まれている場合、言語モデルをカスタマイズして、サービスの基本語彙を拡張します。音響モデルのカスタマイズだけでは、書き起こし中にこれらの単語は生成できません。
詳しくは、カスタム音響モデルとカスタム言語モデルの併用を参照してください。

音声の最大時間

カスタム音響モデルに追加できる音声の最大時間は、以下のように、使用しているサービスのバージョンによって異なります。

IBM Cloud Pak for DataIBM Software Hub 最大200時間のオーディオデータを追加できます。

IBM Cloud 最大で約 50 時間の音声データを追加します。モデルごとに 10 時間または 20 時間の音声データを追加できる場合があります。ただし、カスタム音響モデルごとに最大 50 時間の音声データを想定し、それに応じて計画する方が安全です。

カスタム音響モデルごとの音声の最大量は、以前は 200 時間でした。この制限は、表 1 のスケジュールに従ってロケーションごとに削減されています。

各拠点50時間制限のスケジュール
Location	新しい制限の予定日	新しい制限の実際の日付
`eu-gb`(ロンドン)	2022 年 8 月 11 日	2022 年 8 月 11 日
`au-syd`(シドニー)	2022 年 10 月 19 日	2022 年 10 月 19 日
`us-east` (ワシントンDC)	2023 年第 1 四半期	TBD
`us-south`(ダラス)	2023 年第 1 四半期	TBD
`eu-de` （フランクフルト）	2023 年第 1 四半期	TBD
`jp-tok`(東京)	2023 年第 1 四半期	TBD

現在、50 時間を超える音声データを持つカスタム音響モデルがある場合は、以下のいずれかを実行できます。

モデルはそのままにしておきます。モデルは引き続き音声認識要求を処理します。ただし、モデルにオーディオを追加したり、モデルをリトレーニングしたりすることはできません。
モデルに含まれる音声の量を減らします。最も違いをもたらす音声を維持します。つまり、モデルで対処する必要がある特性の中で最も代表的な音声を維持します。認識する予定の音声の特性が少ない音声を削除します。より高品質の音声のみを使用することで、モデルに必要な音声の量を減らすことができます。
可能であれば、音声を複数のモデルに分離します。元のモデルが対処した特定の特性に対応する、より小さな新しいモデルを作成します。例えば、複数の音声特性を表すために同じモデルを使用する場合があります。単一の大きなモデルに依存するのではなく、より洗練された特性を表す複数の小さなモデルを作成します。これは、すべてのモデルで可能なわけではありません。ただし、音声認識要求では単一のカスタム音響モデルのみを指定できるため、データがそのような改良に対応している場合に役立ちます。