Text to Speech について
IBM Watson® Text to Speech サービスは、IBMの音声合成機能を使用して、テキストを自然に聞こえる音声に変換する API を提供します。 このサービスでは、遅延を最小限に抑えて、合成音声がストリーミングでクライアントに戻されます。 この音声では、その言語と方言で滑らかで自然な音声が提供されるように、適切な抑揚とイントネーションが使用されます。
このサービスは、音声自動化チャットボットなどのアプリケーションに加えて、身体や視覚に障害を持つユーザー向けのツール、ビデオ・ナレーションとボイス・オーバー、教育ソリューションやホーム・オートメーション・ソリューションなどの、音声駆動型の画面を使用しない各種アプリケーションで使用できます。 このサービスは、音声が好ましい出力方式であるアプリケーションに適しています。
製品のバージョン
Text to Speech は、マネージド・クラウド・サービスとしてデプロイすることも、オンプレミスでインストールすることもできます。 この資料では、製品の両方のバージョンを使用する方法について説明します。 1 つのバージョンにのみ適用されるトピック、段落、および例などの情報は、明確に示されています。
- IBM Cloud IBM Cloud でホストされている の管理対象インスタンス、または.でホストされているインスタンスの Text to SpeechIBM Cloud Pak for Data as a Service。 すべてのサービス更新の詳細については、 Text to Speech の IBM Cloud のリリース ノートを 参照してください。
- IBM Cloud Pak for DataIBM Software Hub インストール済みまたはオンプレミスインスタンスの場合、。 の場合。 Text to Speech IBM Cloud Pak for Data Watson 音声サービスのインストールおよび管理の詳細については 、「インストール概要」 を参照してください。 すべてのサービス更新の詳細については、 Text to Speech の IBM Cloud Pak for Data のリリース ノート および Text to Speech } Software Hub の IBM のリリース ノートを 参照してください。
音声合成
Text to Speech サービスでは、音声合成用の HTTP インターフェースと WebSocket インターフェースの両方をサポートします。 両方のインターフェースとも、プレーン・テキストや XML ベースの Speech Synthesis Markup Language (SSML) でマークアップしたテキストを受け付けます。 WebSocket インターフェースは、音声の単語に関するタイミング情報も作成します。 詳細については、以下のサービス機能をご覧ください
カスタマイズ
このサービスには、入力テキストに含まれている一般的でない単語をサービスで発音する方法を指定するために使用できるカスタマイズ・インターフェースが用意されています。 カスタム・モデルを定義して、アプリケーションの語彙に関する辞書を組み込むことができます。 詳しくは、サービスの機能のサービスのカスタマイズを参照してください。
「例によるチューニング」機能を使用して、カスタム・モデルにカスタム・プロンプトを追加することもできます。 カスタム・プロンプトを使用すると、サービスがユーザー指定のプロンプトを発話する際に使用する韻律を指示できます。 詳しくは、サービス機能の例によるチューニングの使用を参照してください。
言語サポート
このサービスは、多くの言語および方言でテキストから音声を合成するためのニューラル音声を提供します。
- オランダ語 (オランダ)
- 英語 (オーストラリア語、英国語、および米国方言)
- フランス語 (カナダ方言とフランス方言)
- ドイツ語
- イタリア語
- 日本語
- 韓国語
- ポルトガル語 (ブラジル)
- スペイン語 (カスティリャ語、中南米方言、および北米方言)
異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。 サポートされる言語と音声、各言語でサービスが提供する音声のタイプ、および両方のバージョンのサービスの状況について詳しくは、 言語と音声 を参照してください。
音声サポート
このサービスは、以下のような多くの一般的なフォーマットの音声を作成します。
- A-law
- 基本的な音声
- Free Lossless Audio Codec (FLAC)
- 16 ビットのリニア PCM (Pulse-Code Modulation)
- MP3 (または MPEG)
- Mu-law (または u-law)
- Opus コーデックまたは Vorbis コーデックを使用した Ogg 音声または Web Media (WebM) 音声
- Waveform Audio File Format (WAV)
フォーマットによって、サポートされているサンプリング・レートなどの特性が異なります。 詳しくは、音声フォーマットの使用を参照してください。
ベータ機能
IBM は、ベータ版として分類されるフィーチャーおよび言語サポートを時々リリースします。 このような機能は、お客様がその機能を評価できるように提供されています。 これらは不安定である可能性があり、予告なしに変更または削除される場合があります。 これらは、実稼働環境で使用するためのものではありません。
ベータ・フィーチャーは、一般出荷可能なフィーチャーと同じレベルのパフォーマンスまたは互換性を提供しない場合があります。 一般出荷可能な機能は、実稼働環境ですぐに使用できます。
価格設定
IBM Cloud
本サービスは、お客様の使用量やアプリケーションのニーズに合わせて、複数の料金プランを提供します。 料金プランの詳細やプランの購入については、 IBM Cloud® カタログの Text to Speech サービスをご覧ください。