表音記号について
IBM Watson® Text to Speech サービスのすべての言語および音声は、標準の International Phonetic Alphabet (IPA) と IBM Symbolic Phonetic Representation (SPR) 表記の両方をサポートします。 どちらの表記法も、単語の発音、単語を構成する音、音がどのように音節に分けられるか、どの音節が強調されるかを示す音声エンコーディングを提供します。 サポートされる言語の表音記号 には、各言語の表音記号を文書化したトピックへのリンクが用意されています。
単語の発音の定義
入力テキスト内またはカスタム・モデルのいずれかで単語の表音を定義するには、Speech Synthesis Markup Language (SSML) の<phoneme>
要素または同等のメソッド・パラメーターを使用します。 <phoneme>
エレメントには、以下の 2 つの属性があります。
alphabet
属性は、発音の表記を指定します。 SPR で発音を定義することを示すには、値ibm
を使用します。 IPA で発音を定義することを示すには、値ipa
を使用します。ph
属性は発音を定義します。 これは、所定の言語で許容される一連の記号で構成されます。 記号は、<phoneme>
エレメントで囲まれた単語の発音方法を定義します。
発音を定義する場合は、以下の規則に従います。
- 記載されている SPR 記号または IPA 記号のみを使用してください。 このサービスは、ある言語で許可されない表音記号が含まれている定義は無効と見なします。 必要な仕様に準拠していない SPR または IPA 項目は無効になります。
- 1 つの SPR 記号に対して複数の IPA 記号 (または記号の組み合わせ) が記述されている場合は、それらすべての IPA 記号が単一の SPR 記号と等価になります。 このサービスは、それらすべての IPA 記号を同じものとして処理し、IPA が意味する微妙な差異や地域差は反映されません。
詳しくは、以下を参照してください
IBM SPR の使用
IBM SPR は、標準 IPA の代替表記です。 以下の有効なSPR表記の例では、米国英語で through と shocking という単語を定義しています
<phoneme alphabet="ibm" ph=".1Tru">through</phoneme>
<phoneme alphabet="ibm" ph=".1Sa.0kIG">shocking</phoneme>
これらの定義では、文字は米国英語による発話の特定の音を表します。 .
は新しい音節の始まりを示し、 1
と 0
の数字は音節のアクセントを示します。 詳しくは、音節の指定を参照してください。
発音記号
各言語では、その言語の発音を表す独自の SPR 記号インベントリーを使用します。 SPR 記号の指定には、以下のルールが適用されます。
- 文字では大/小文字が区別されます。そのため、例えば、
e
とE
は 2 つの異なる音を表します。 - 2 文字および 3 文字のシンボルは、シンボル・テーブルに示されている場合は、単一引用符で囲む必要があります。 単一引用符は、複数の文字が実際には単一の記号であることを示します。 例えば、 ドイツ語のheimという単語に含まれる
'aj'
という記号は、"h'aj'm"
と指定されています。 - 一部の 3 文字の記号には、2 つの文字のみを囲む単一引用符が含まれています。 単一引用符は、2 つの文字が単一の記号であることを示します。 SPR は 2 つの記号で構成されます。 例えば、オランダ語の dependances というオランダ語の記号
'a:'n
には、'a:'
とn
の 2 つの記号が含まれており、d'e:'.pEn.1d'a:'n.s@s
として指定されています。
単語の発音を SPR フォーマットで定義する場合は、以下の点も考慮してください。
- 各言語の音は、その言語内で特定の分布パターンを持ちます。 例えば、英語のすべての方言では、
G
sing* (*) の".1sIG"
の音は、語頭に出現することがありません。 特に狭い分布の米国英語の他の音には、グロタル・ストップ (?
)、フラップ音 (F
)、および音節鼻音 (N
) があります。通常は発生しないコンテキストでサウンド・シンボルを入力すると、結果の音声が不自然に聞こえる可能性があります。 - サービスは、高度な言語学のルール・セットを入力に適用し、自然言語の特定のコンテキストで音が変化する際のプロセスを反映します。 例えば、米国英語では、書き込み (
".1r1Yt"
) という単語の音t
は、ライター (".1rY.0FR"
) ではフラップ (F
) として発音されます。SPR 入力は、通常の入力テキストと同様に、これらの変更を受けます。 この例では、".1rY.0tR"
と入力しても、".1rY.0FR"
と入力しても、生成される音声には影響しません。
IPA の使用法
IPA の発音は、表音記号または Unicode 値を使用して定義できます。 IPA は業界標準の表記です。 次に示す例は、表音記号と Unicode における単語 tomato の有効な IPA 表記です。
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
音節の指定
音節の境界と強勢は SPR と IPA の両方で指定できます。
音節境界
.
(ピリオド、IPA Unicode002E
) を使用して、SPR または IPA の各音節の先頭にマークを付けることができます。 ただし、言語の有効な表音を保持するために、場合によってはサービスでピリオドが尊重されないことがあります (例えば、音節境界が言語の正しくない位置または不自然な位置に置かれている場合)。 一般的に、音節の境界やその他の単語の発音の要素について、有効な好みを指定できる場合は、そのリクエストが優先されます。
音節の強勢
表 1 に、発音の音節強勢を示すために使用できる記号を示します。IBM では、SPR または IPA のいずれかで発音の主要なストレスを示すことをお勧めします。 ただし、どちらのフォーマットについても音節の強勢の指定はオプションです。ユーザーが指定しなければ、サービスが強勢を置く位置を決定します。
ストレス | SPR 記号 | IPA 記号 | IPA Unicode |
---|---|---|---|
第 1 強勢 | 1 |
ˈ |
02C8 |
第 2 強勢 | 2 |
ˌ |
02CC |
強勢なし | 0 |
記号なし | 値なし |
音節強勢マーカーは、音節境界の内側に指定します。必ず、その音節の母音の左に置く必要があります。 このマーカーは、強勢が置かれる母音の左側の任意の位置に配置できます。 例えば、以下の各SPRの例では、 単語の正しい母音に主たるストレス(1
)が置かれています
<phoneme alphabet="ibm" ph="kXn1strHkSXn">construction</phoneme>
<phoneme alphabet="ibm" ph="kXns1trHkSXn">construction</phoneme>
<phoneme alphabet="ibm" ph="kXnst1rHkSXn">construction</phoneme>
<phoneme alphabet="ibm" ph="kXnstr1HkSXn">construction</phoneme>
音節の強勢を使用するための言語固有のルール
表 2 に示すリストは、音節強勢の指定に適用される言語固有の考慮事項です。 表に記載されている内容が特定の言語のルールに該当する場合を除き、前のセクションで説明した音節の強勢記号を使用できます。
言語 | 表記 | 言語固有のルール |
---|---|---|
フランス語と カナダ・フランス語 |
SPR | 音節の強勢記号はすべて受け入れられます。 ただし、音節の強勢は |
その音節の母音の直前に置く必要があります。 フランス語の音節の
強勢は他の言語の場合より大幅に厳密になります。 無効な場所に
強勢記号を置くとエラーが発生します。 |
| フランス語と \nカナダ・フランス語 | IPA | 音節の強勢記号はすべて無視されます。 | | イタリア語 | SPR および IPA | 指定できるのは、1
(第 1 強勢) のみです。 第二強勢または強勢なしを指定すると、エラーが発生します。 | | 日本語 | SPR および IPA | 指定できるのは、1
(第 1 強勢) および 0
(強勢なし) のみです。 第二強勢を指定すると、エラーが発生します。
| | スペイン語 | SPR および IPA | 指定できるのは、1
(第 1 強勢) のみです。 第二強勢または強勢なしを指定すると、エラーが発生します。 |
サポートされる言語の表音記号
表 3 に、サービスがサポートする言語をリストし、SPR 記号、IPA 記号、および IPA Unicode 値を説明するトピックへのリンクを示します。 トピックでは、その言語の単語に含まれる各記号の例が示されています。 方言差のため、例が常にご使用の発音に一致するわけではありません。
「利用可能」の列は、各音声が利用可能かどうかを示しています。 IBM Cloud、 IBM Cloud Pak for Data、 IBM Software Hub またはすべて (全バージョン) です。 サポートされている音声についての詳細は 、「言語と音声」 を参照してください。
言語 | 可用性 |
---|---|
オランダ語 (オランダ) の記号 | すべてのバージョン |
英語 (オーストラリア) の記号 | すべてのバージョン |
英語 (英国) の記号 | すべてのバージョン |
英語 (米国) の記号 | すべてのバージョン |
フランス語 (カナダ) の記号 | すべてのバージョン |
フランス語 (フランス) の記号 | すべてのバージョン |
ドイツ語の記号 | すべてのバージョン |
イタリア語の記号 | すべてのバージョン |
日本語の記号 | すべてのバージョン |
韓国語の記号 | すべてのバージョン |
ポルトガル語 (ブラジル) の記号 | すべてのバージョン |
スペイン語の記号 | すべてのバージョン |