IBM Cloud Docs
Text to Speech について

Text to Speech について

IBM Watson® Text to Speech サービスは、IBMの音声合成機能を使用して、テキストを自然に聞こえる音声に変換する API を提供します。 このサービスでは、遅延を最小限に抑えて、合成音声がストリーミングでクライアントに戻されます。 この音声では、その言語と方言で滑らかで自然な音声が提供されるように、適切な抑揚とイントネーションが使用されます。

このサービスは、音声自動化チャットボットなどのアプリケーションに加えて、身体や視覚に障害を持つユーザー向けのツール、ビデオ・ナレーションとボイス・オーバー、教育ソリューションやホーム・オートメーション・ソリューションなどの、音声駆動型の画面を使用しない各種アプリケーションで使用できます。 このサービスは、音声が好ましい出力方式であるアプリケーションに適しています。

製品のバージョン

Text to Speech は、マネージド・クラウド・サービスとしてデプロイすることも、オンプレミスでインストールすることもできます。 この資料では、製品の両方のバージョンを使用する方法について説明します。 1 つのバージョンにのみ適用されるトピック、段落、および例などの情報は、明確に示されています。

音声合成

Text to Speech サービスでは、音声合成用の HTTP インターフェースと WebSocket インターフェースの両方をサポートします。 両方のインターフェースとも、プレーン・テキストや XML ベースの Speech Synthesis Markup Language (SSML) でマークアップしたテキストを受け付けます。 WebSocket インターフェースは、音声の単語に関するタイミング情報も作成します。 詳細については、以下のサービス機能をご覧ください

カスタマイズ

このサービスには、入力テキストに含まれている一般的でない単語をサービスで発音する方法を指定するために使用できるカスタマイズ・インターフェースが用意されています。 カスタム・モデルを定義して、アプリケーションの語彙に関する辞書を組み込むことができます。 詳しくは、サービスの機能のサービスのカスタマイズを参照してください。

「例によるチューニング」機能を使用して、カスタム・モデルにカスタム・プロンプトを追加することもできます。 カスタム・プロンプトを使用すると、サービスがユーザー指定のプロンプトを発話する際に使用する韻律を指示できます。 詳しくは、サービス機能の例によるチューニングの使用を参照してください。

言語サポート

このサービスは、多くの言語および方言でテキストから音声を合成するためのニューラル音声を提供します。

  • オランダ語 (オランダ)
  • 英語 (オーストラリア語、英国語、および米国方言)
  • フランス語 (カナダ方言とフランス方言)
  • ドイツ語
  • イタリア語
  • 日本語
  • 韓国語
  • ポルトガル語 (ブラジル)
  • スペイン語 (カスティリャ語、中南米方言、および北米方言)

異なる言語の場合、サービスは女性の声、男性の声、またはその両方を提供します。 サポートされる言語と音声、各言語でサービスが提供する音声のタイプ、および両方のバージョンのサービスの状況について詳しくは、 言語と音声 を参照してください。

音声サポート

このサービスは、以下のような多くの一般的なフォーマットの音声を作成します。

  • A-law
  • 基本的な音声
  • Free Lossless Audio Codec (FLAC)
  • 16 ビットのリニア PCM (Pulse-Code Modulation)
  • MP3 (または MPEG)
  • Mu-law (または u-law)
  • Opus コーデックまたは Vorbis コーデックを使用した Ogg 音声または Web Media (WebM) 音声
  • Waveform Audio File Format (WAV)

フォーマットによって、サポートされているサンプリング・レートなどの特性が異なります。 詳しくは、音声フォーマットの使用を参照してください。

ベータ機能

IBM は、ベータ版として分類されるフィーチャーおよび言語サポートを時々リリースします。 このような機能は、お客様がその機能を評価できるように提供されています。 これらは不安定である可能性があり、予告なしに変更または削除される場合があります。 これらは、実稼働環境で使用するためのものではありません。

ベータ・フィーチャーは、一般出荷可能なフィーチャーと同じレベルのパフォーマンスまたは互換性を提供しない場合があります。 一般出荷可能な機能は、実稼働環境ですぐに使用できます。

価格設定

IBM Cloud

本サービスは、お客様の使用量やアプリケーションのニーズに合わせて、複数の料金プランを提供します。 料金プランの詳細やプランの購入については、 IBM Cloud® カタログの Text to Speech サービスをご覧ください。