Speech to Text について

IBM Watson® Speech to Text サービスは、さまざまな用途に使用できる音声書き起こし機能を提供します。このサービスは機械学習を活用して、文法、言語構造、および音声シグナルの構成に関する知識を組み合わせることで、人間の音声を正確に書き起こします。このサービスは繰り返し更新されて、受け取る音声データが増えるほど書き起こし機能が向上します。

このサービスは API を提供しているため、音声を入力して書き起こしテキストを出力するどのような用途にも対応できます。これは、音声自動チャットボット、顧客サービス・コール・センター用の分析ツール、マルチメディア書き起こしなどのアプリケーションに使用できます。組み込みデバイスの音声制御、会議や電話会議の書き起こし、およびメッセージとメモの口述筆記なども、考えられる多くのアプリケーションの一部です。

このサービスは、コールセンターの音声から高品質の音声書き起こしを抽出する必要があるお客様に理想的なサービスです。金融サービス、医療、保険、通信などの業界のお客様は、顧客ケア、顧客音声、エージェント支援などのソリューションとしてクラウド・ネイティブ・アプリケーションを開発できます。

製品のバージョン

Speech to Text は、マネージド・クラウド・サービスとしてデプロイすることも、オンプレミスでインストールすることもできます。この資料では、製品の両方のバージョンを使用する方法について説明します。 1 つのバージョンにのみ適用されるトピック、段落、および例などの情報は、明確に示されています。

IBM Cloud IBM Cloud でホストされているの管理対象インスタンス、または.でホストされているインスタンスの Speech to TextIBM Cloud Pak for Data as a Service。すべてのサービス更新の詳細については、 Speech to Text の IBM Cloud のリリースノートを参照してください。
IBM Cloud Pak for DataIBM Software Hub Watson 音声サービスのインストール済みまたはオンプレミスインスタンス用。 Watson 音声サービスのインストールおよび管理の詳細については、「インストール概要」を参照してください。すべてのサービス更新の詳細については、 Speech to Text for IBM Cloud Pak for Data のリリースノートおよび Speech to Text for IBM Software Hub のリリースノートを参照してください。

音声認識

Speech to Text サービスでは、音声認識用に、WebSocket インターフェース、同期 HTTP インターフェース、および非同期 HTTP インターフェースという 3 種類のインターフェースが提供されています。これらのインターフェースでは、音声の言語とフォーマット、およびサンプリング・レートを指定することができます。また、音声の要求方法やサービスが応答で送信する情報を調整するために使用できる多くのパラメーターも提供されています。さらに、サービスによる音声の分析に関するメトリックや、音声そのものに関するメトリックを要求することもできます。

音声認識インターフェースについて詳しくは、サービスの機能のサービスでの音声認識を参照してください。
音声認識パラメーターについて詳しくは、サービスの機能の音声認識パラメーターの使用を参照してください。

カスタマイズ

このサービスで提供されているカスタマイズ・インターフェースを使用して、対象の言語や音響上の要件に合わせて音声認識を調整できます。分野固有の用語を追加してモデルの語彙を拡張することも、モデルをカスタマイズして対象の音声の音響特性に適合させることもできます。文法を追加することで、サービスで認識できる句を制限することもできます。詳しくは、サービスの機能のサービスのカスタマイズを参照してください。

言語サポート

このサービスでは、以下のような多数の言語や方言がサポートされています。

アラビア語 (現代標準)
中国語 (北京語)
チェコ語
オランダ語 (ベルギーおよびオランダ)
英語 (オーストラリア、インド、英国、および米国)
フランス語 (カナダおよびフランス)
ドイツ語
ヒンディ語 (インド)
イタリア語
日本語
韓国語
ポルトガル語 (ブラジル)
スペイン語 (カスティーリャおよびラテンアメリカ)
スウェーデン語

サポートされている言語および大規模音声モデル、音声認識の旧世代および次世代モデルの詳細については、「言語とモデルの使用」を参照してください。

音声サポート

このサービスでは、多くの一般的なフォーマットで音声を書き起こすことができます。

Opus コーデックまたは Vorbis コーデックを使用した Ogg 音声または Web Media (WebM) 音声
MP3 (または MPEG)
Waveform Audio File Format (WAV)
Free Lossless Audio Codec (FLAC)
16 ビットのリニア PCM (Pulse-Code Modulation)
G.729
A-Law
Mu-law (または u-law)
基本的な音声

サポートされる音声フォーマットとその特性について詳しくは、音声フォーマットの使用を参照してください。

統合されたユース・ケース

Speech to Text サービスを他の Watson サービスと一緒に使用して、さらに大きな有効範囲と機能を持つアプリケーションを作成することができます。

電話での AI アシスタント - IBM® watsonx™ Assistant 電話統合により、保留時間をなくし、顧客満足度を向上させます。 watsonx Assistant、Speech to Text、および IBM Watson® Text to Speech の事前構築された統合により、顧客にライブ・サポートを提供します。
顧客コールの分析 - 顧客とコール・センター・エージェントの間の通話の書き起こしについて、パターンを明らかにし、根本原因分析を実施します。 Speech to Text を使用して音声を書き起こし、IBM Watson® Natural Language Understanding を使用して書き起こしを分析します。
サポート・エージェント - リアルタイム情報を提供して、エージェントの効率とフォーカスを向上させます。 Speech to Text を使用して通話をライブで書き起こし、IBM Watson® Discovery を使用して関連情報を自動的に表示することで、エージェントが検索ではなく顧客に集中できるようにします。

ベータ機能

IBM は、ベータ版として分類されるフィーチャーおよび言語サポートを時々リリースします。このような機能は、お客様がその機能を評価できるように提供されています。これらは不安定である可能性があり、予告なしに変更または削除される場合があります。これらは、実稼働環境で使用するためのものではありません。

ベータ・フィーチャーは、一般出荷可能なフィーチャーと同じレベルのパフォーマンスまたは互換性を提供しない場合があります。一般出荷可能な機能は、実稼働環境ですぐに使用できます。

価格設定

IBM Cloud

このサービスは、お客様の使用量やアプリケーションのニーズに合わせて、複数の料金プランを提供します。

料金プランの一般情報と一般質問への回答については、料金設定に関する FAQ を参照してください。
料金プランの詳細やプランの購入については、 IBM Cloud® カタログの Speech to Text サービスをご覧ください。