Text to Speech について

IBM Watson® Text to Speech サービスは、IBMの音声合成機能を使用して、テキストを自然に聞こえる音声に変換する API を提供します。このサービスでは、遅延を最小限に抑えて、合成音声がストリーミングでクライアントに戻されます。この音声では、その言語と方言で滑らかで自然な音声が提供されるように、適切な抑揚とイントネーションが使用されます。

このサービスは、音声自動化チャットボットなどのアプリケーションに加えて、身体や視覚に障害を持つユーザー向けのツール、ビデオ・ナレーションとボイス・オーバー、教育ソリューションやホーム・オートメーション・ソリューションなどの、音声駆動型の画面を使用しない各種アプリケーションで使用できます。このサービスは、音声が好ましい出力方式であるアプリケーションに適しています。

製品のバージョン

Text to Speech は、マネージド・クラウド・サービスとしてデプロイすることも、オンプレミスでインストールすることもできます。この資料では、製品の両方のバージョンを使用する方法について説明します。 1 つのバージョンにのみ適用されるトピック、段落、および例などの情報は、明確に示されています。

IBM Cloud IBM Cloud でホストされているの管理対象インスタンス、または.でホストされているインスタンスの Text to SpeechIBM Cloud Pak for Data as a Service。すべてのサービス更新の詳細については、 Text to Speech の IBM Cloud のリリースノートを参照してください。
IBM Cloud Pak for DataIBM Software Hub インストール済みまたはオンプレミスインスタンスの場合、。の場合。 Text to Speech IBM Cloud Pak for Data Watson 音声サービスのインストールおよび管理の詳細については、「インストール概要」を参照してください。すべてのサービス更新の詳細については、 Text to Speech の IBM Cloud Pak for Data のリリースノートおよび Text to Speech } Software Hub の IBM のリリースノートを参照してください。

音声合成

Text to Speech サービスでは、音声合成用の HTTP インターフェースと WebSocket インターフェースの両方をサポートします。両方のインターフェースとも、プレーン・テキストや XML ベースの Speech Synthesis Markup Language (SSML) でマークアップしたテキストを受け付けます。 WebSocket インターフェースは、音声の単語に関するタイミング情報も作成します。詳細については、以下のサービス機能をご覧ください

カスタマイズ

このサービスには、入力テキストに含まれている一般的でない単語をサービスで発音する方法を指定するために使用できるカスタマイズ・インターフェースが用意されています。カスタム・モデルを定義して、アプリケーションの語彙に関する辞書を組み込むことができます。詳しくは、サービスの機能のサービスのカスタマイズを参照してください。

「例によるチューニング」機能を使用して、カスタム・モデルにカスタム・プロンプトを追加することもできます。カスタム・プロンプトを使用すると、サービスがユーザー指定のプロンプトを発話する際に使用する韻律を指示できます。詳しくは、サービス機能の例によるチューニングの使用を参照してください。

言語サポート

このサービスは、多くの言語および方言でテキストから音声を合成するためのニューラル音声を提供します。

オランダ語 (オランダ)
英語 (オーストラリア語、英国語、および米国方言)
フランス語 (カナダ方言とフランス方言)
ドイツ語
イタリア語
日本語
韓国語
ポルトガル語 (ブラジル)
スペイン語 (カスティリャ語、中南米方言、および北米方言)

異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。サポートされる言語と音声、各言語でサービスが提供する音声のタイプ、および両方のバージョンのサービスの状況について詳しくは、言語と音声を参照してください。

音声サポート

このサービスは、以下のような多くの一般的なフォーマットの音声を作成します。

A-law
基本的な音声
Free Lossless Audio Codec (FLAC)
16 ビットのリニア PCM (Pulse-Code Modulation)
MP3 (または MPEG)
Mu-law (または u-law)
Opus コーデックまたは Vorbis コーデックを使用した Ogg 音声または Web Media (WebM) 音声
Waveform Audio File Format (WAV)

フォーマットによって、サポートされているサンプリング・レートなどの特性が異なります。詳しくは、音声フォーマットの使用を参照してください。

ベータ機能

IBM は、ベータ版として分類されるフィーチャーおよび言語サポートを時々リリースします。このような機能は、お客様がその機能を評価できるように提供されています。これらは不安定である可能性があり、予告なしに変更または削除される場合があります。これらは、実稼働環境で使用するためのものではありません。

ベータ・フィーチャーは、一般出荷可能なフィーチャーと同じレベルのパフォーマンスまたは互換性を提供しない場合があります。一般出荷可能な機能は、実稼働環境ですぐに使用できます。

価格設定

IBM Cloud

本サービスは、お客様の使用量やアプリケーションのニーズに合わせて、複数の料金プランを提供します。料金プランの詳細やプランの購入については、 IBM Cloud® カタログの Text to Speech サービスをご覧ください。