Eléments SSML
Avec le service IBM Watson® Text to Speech, vous pouvez utiliser la plupart des éléments et attributs SSML (Speech Synthesis Markup Language) pour contrôler la synthèse de votre texte.
Eléments et attributs pris en charge
Le tableau 1 récapitule le support du service pour les éléments et les attributs SSML :
- Complète signifie que le service prend entièrement en charge l'élément ou l'attribut avec ses interfaces HTTP et WebSocket.
- Partiel signifie que la prise en charge du service pour l'élément ou l'attribut est limitée de l'une des manières suivantes:
- Le service ne prend en charge que certains aspects de l'élément ou de l'attribut.
- Le service prend en charge l'élément ou l'attribut avec seulement certaines de ses voix.
- Le service prend en charge l'élément ou l'attribut avec une seule de ses interfaces, HTTP ou WebSocket.
- Aucune signifie que le service ne prend pas en charge l'élément ou l'attribut.
Les sections suivantes fournissent des descriptions de chaque élément ou attribut, y compris des exemples, des restrictions et indique si le support du service diffère de la norme SSML. Le support de certains attributs et valeurs diffère légèrement de la spécification SSML. Pour plus d'informations, voir W3C Speech Synthesis Markup Language(SSML)Version 1.1.
Élément ou attribut | Support | Élément ou attribut | Support |
---|---|---|---|
Élément <audio> |
Aucun | Élément <prosody> |
Partiel |
Élément <break> |
Complet |
|
Aucun |
Élément <desc> |
Aucun |
|
Aucun |
Élément <emphasis> |
Partiel | Complet | |
Élément <express-as> |
Partiel |
|
Aucun |
Élément <lexicon> |
Aucun | Complet | |
Élément <mark> |
Partiel |
|
Aucun |
Élément <meta> |
Aucun | Élément <say-as> |
Partiel |
Élément <metadata> |
Aucun | Partiel | |
Élément <paragraph> |
Complet | Élément <sentence> |
Complet |
Élément <phoneme> |
Complet | Élément <speak> |
Complet |
Élément <sub> |
Complet | ||
Élément <voice> |
Aucun |
L'élément <audio>
Cet élément <audio>
insère des éléments enregistrés dans l'audio généré par le service. Il n'est pas pris en charge.
L'élément <break>
L'élément <break>
insère une pause dans le texte énoncé. Il possède les attributs facultatifs suivants :
strength
spécifie la longueur de la pause en termes de valeurs de force variables :none
supprime une pause qui, sinon, pourrait se produire pendant le traitement.x-weak
,weak
,medium
,strong
oux-strong
insèrent des pauses de plus en plus marquées.
time
spécifie la durée de la pause en secondes ou en millisecondes. Les formats de valeur valides sont{integer}s
pour les secondes ou{integer}ms
pour les millisecondes.
Break size <break strength="none"/> no pause
Break size <break strength="x-weak"/> x-weak pause
Break size <break strength="weak"/> weak pause
Break size <break strength="medium"/> medium pause
Break size <break strength="strong"/> strong pause
Break size <break strength="x-strong"/> x-strong pause
Break size <break time="1s"/> one-second pause
Break size <break time="1500ms"/> 1500-millisecond pause
L'élément <break>
est une fonctionnalité bêta pour les voix naturelles.
L'élément <desc>
L'élément <desc>
ne peut se trouver que dans un élément <audio>
. Comme l'élément <audio>
n'est pas pris en charge, l'élément <desc>
ne l'est pas non plus.
L'élément <emphasis>
L'élément <emphasis>
est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.
Avec les voix neuronales expressives, vous pouvez utiliser l'élément <emphasis>
pour mettre en évidence ou rétrograder un ou plusieurs mots du texte d'entrée. L'élément prend en charge un attribut level
facultatif
qui accepte l'une des valeurs suivantes:
none
-Empêche le service de mettre en évidence du texte qui pourrait être mis en évidence autrement.moderate
-Fournit une mise en évidence notable du texte. Ce niveau est la valeur par défaut si vous omettez l'attributlevel
.strong
-Fournit une mise en évidence plus importante du texte que celle du niveau modéré.reduced
-Désouligne le texte en tendant à réduire sa signification dans l'audio. Ce niveau est le contraire de la mise en évidence du texte.
L'exemple suivant applique le niveau moderate
au mot give
:
I am going to <emphasis level="moderate">give</emphasis> her the book.
Pour plus d'informations, voir Insister sur les mots.
L'élément <express-as>
L'élément <express-as>
est une extension SSML spécifique au service Text to Speech. Il est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.
Avec les voix neuronales expressives, vous pouvez utiliser l'élément <express-as>
pour appliquer des styles de parole afin d'améliorer la mise en évidence par le service de certaines caractéristiques pour tout ou partie du
texte d'entrée. L'élément prend en charge un attribut style
obligatoire qui accepte l'un des styles de parole suivants:
cheerful
-Exprime le bonheur et les bonnes nouvelles.empathetic
-Exprime l'empathie et la compassion.neutral
-Exprime l'objectivité et la régularité.uncertain
-Exprime la confusion et l'incertitude.
L'exemple suivant applique le style cheerful
à l'ensemble du texte d'entrée:
<express-as style="cheerful">Oh, that's good news! I'm glad that we could help.</express-as>
Pour plus d'informations, voir Utilisation de styles de parole.
L'élément <lexicon>
Cet élément <lexicon>
introduit des dictionnaires de prononciation pour le document SSML donné. Il n'est pas pris en charge.
Vous pouvez utiliser l'interface de personnalisation du service pour définir un dictionnaire d'entrées personnalisées (paires de mots/traductions) à utiliser lors de la synthèse vocale. Pour plus d'informations, voir Compréhension de la personnalisation.
L'élément <mark>
L'élément <mark>
est pris en charge par l'interface WebSocket du service, mais pas par son interface HTTP, qui ignore l'élément. Pour plus d'informations, voir Spécification d'une marque SSML.
L'élément <mark>
n'est pas pris en charge pour les voix naturelles.
L'élément <mark>
est un élément vide qui place un marqueur dans le texte à synthétiser. Le client est averti lorsque tout le texte qui précède l'élément <mark>
a été synthétisé. L'élément accepte un attribut
name
unique qui spécifie une chaîne identifiant de manière unique la marque ; ce nom doit commencer par un caractère alphanumérique. Le nom est renvoyé avec l'heure à laquelle la marque apparaît dans l'audio synthétisé.
Hello <mark name="here"/> world.
Les éléments <meta>
et <metadata>
Les éléments <meta>
et <metadata>
sont des conteneurs dans lesquels vous pouvez placer des informations sur le document. Ils ne sont pas pris en charge.
Les éléments <paragraph>
et <sentence>
Les éléments <paragraph>
(ou <p>
) et <sentence>
(ou <s>
) sont des éléments facultatifs qui peuvent être utilisés pour donner des conseils sur la structure textuelle.
Si le texte qui est inclus dans un élément <paragraph>
ou <sentence>
ne se termine pas par un caractère de ponctuation de fin de phrase (comme une période), le service ajoute une pause plus longue que
la normale à l'audio synthétisé.
Le seul attribut valide pour l'un ou l'autre élément est xml:lang
, qui permet le changement de langue. L'attribut n'est pas pris en charge.
<paragraph>
<sentence>Text within a sentence element.</sentence>
<s>More text in another sentence.</s>
</paragraph>
L'élément <phoneme>
L'élément <phoneme>
fournit une prononciation phonétique pour le texte joint. L'orthographe phonétique représente les sons d'un mot, la façon dont les sons sont divisés en syllabes et quelles syllabes sont accentuées. L'élément
a deux attributs :
-
alphabet
est un attribut facultatif qui spécifie la phonologie à utiliser. Les alphabets supportés sont- International Phonetic Alphabet (IPA) standard :
alphabet="ipa"
. - IBM Symbolic Phonetic Representation (SPR) :
alphabet="ibm"
.
Si aucun alphabet n'est spécifié, le service utilise IBM SPR par défaut. Pour plus d'informations, voir Présentation des symboles phonétiques.
- International Phonetic Alphabet (IPA) standard :
-
ph
est un attribut requis qui fournit la prononciation dans l'alphabet indiqué. Les exemples suivants montrent la prononciation du mot tomato dans les deux formats :-
Format IPA :
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
-
Format IPA avec symboles Unicode :
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
-
Format IBM SPR :
<phoneme alphabet="ibm" ph=".0tx.1me.0Fo">tomato</phoneme>
-
Pour plus d'informations sur l'utilisation des notations SPR et IPA avec l'élément <phoneme>
, voir Comprendre les symboles phonétiques.
L'élément <prosody>
L'élément <prosody>
contrôle le pas et le débit de parole du texte. Tous les attributs sont facultatifs, mais une erreur se produit si vous ne spécifiez pas au moins un attribut avec l'élément.
Le service prend en charge les deux attributs suivants de la spécification SSML :
La spécification SSML offre également quatre attributs que le service ne prend pas en charge :
- L'attribut
contour
- L'attribut
range
- L'attribut
duration
- L'attribut
volume
Le service prend également en charge les paramètres de requête qui vous permettent d'ajuster le débit et la hauteur pour tout le texte d'une demande de synthèse vocale. Pour plus d'informations sur les paramètres et leur interaction avec les
attributs pitch
et rate
de l'élément <prosody>
, voir
L'élément <prosody>
n'est pas pris en charge pour les voix naturelles.
Différences par rapport à la spécification SSML version 1.1
Le service Text to Speech base sa prise en charge SSML sur W3C Speech Synthesis Markup Language(SSML)Version 1.1. Cependant, la spécification SSML a évolué
depuis la première sortie du service. Afin de maintenir la compatibilité avec les versions antérieures pour les utilisateurs, le service continue de prendre en charge certaines fonctions de l'élément <prosody>
qui sont
différentes de la dernière spécification SSML.
-
Pour l'attribut
pitch
, le service prend en charge les fonctions supplémentaires suivantes:- Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un
%
(signe de pourcentage). La hauteur par défaut d'une voix équivaut à la transmission d'une valeur de0%
. - Modification relative des demi-tons indiquée par un nombre signé ou non signé et suivie de la chaîne
st
.
- Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un
-
Pour l'attribut
rate
, le service prend en charge les fonctions supplémentaires suivantes:- Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un
%
(signe de pourcentage). Le débit de parole par défaut d'une voix équivaut à la transmission d'une valeur de0%
. - Un nombre sans désignation d'unité indique le nombre de mots par minute. Le nombre est absolu ; vous ne pouvez pas spécifier une augmentation ou une diminution relative des mots par minute.
- Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un
-
Pour les voix neuronales expressives, les attributs
pitch
etrate
prennent en charge uniquement les valeurs de pourcentage.- Pour l'attribut
pitch
, n'utilisez pas de Hertz, de semitones ou de mots clés. - Pour l'attribut
rate
, n'utilisez pas de mots par minute ou de mots clés.
- Pour l'attribut
Pour plus d'informations sur les fonctions prises en charge par SSML version 1.1, voir la section 3.2.4 prosody Element de la spécification SSML.
L'attribut pitch
L'attribut pitch
modifie la hauteur de la ligne de base, ou tonalité, du texte dans l'élément. Les valeurs acceptées sont
- Numéro suivi de la désignation
Hz
(Hertz): Le pas de référence est transposé (vers le haut ou vers le bas) à la valeur spécifiée. Par exemple,150Hz
. - Un changement relatif en pourcentage : Un nombre qui entraîne un changement relatif par rapport à la ligne de base par défaut. Le nombre est précédé de
+
(une augmentation) ou-
(une diminution) et suivi de%
(signe de pourcentage). Un nombre non signé suivi d'un%
est interprété comme une augmentation positive. Par exemple,+10%
ou10%
. La hauteur par défaut d'une voix équivaut à la transmission d'une valeur de0%
. - Un changement relatif en demi-tons : Un nombre qui entraîne un changement absolu par rapport à la ligne de base par défaut. Le nombre est précédé de
+
(augmentation) ou-
(diminution) et suivi dest
(demi-tons). Un nombre non signé suivi dest
est interprété comme une augmentation positive. Par exemple,+5st
ou5st
. - Un mot clé : un des six mots clés suivants, qui modifient le pas vers les valeurs prédéfinies correspondantes :
default
utilise la hauteur de base par défaut du service.x-low
réduit la base de la hauteur tonale de 12 demi-tons.low
réduit la base de la hauteur tonale de six demi-tons.medium
produit le même comportement quedefault
.high
élève la base de la hauteur tonale de six demi-tons.x-high
élève la base de la hauteur tonale de 12 demi-tons.
Les voix neuronales expressives prennent en charge uniquement les valeurs de pourcentage pour l'attribut pitch
. Ils ne prennent pas en charge l'utilisation de Hertz, de semitones ou de mots clés.
La meilleure façon de déterminer ce qui fonctionne pour votre application est d'effectuer des ajustements en fonction des pourcentages et d'expérimenter différentes valeurs. Essayez des modifications incrémentielles de cinq ou dix pour cent avant d'apporter des modifications plus importantes.
<prosody pitch="150Hz">Transpose pitch to 150 Hz</prosody>
<prosody pitch="-20Hz">Lower pitch by 20 Hz from baseline</prosody>
<prosody pitch="+20Hz">Increase pitch by 20 Hz from baseline</prosody>
<prosody pitch="-10%">Decrease pitch by 10 percent</prosody>
<prosody pitch="+10%">Increase pitch by 10 percent</prosody>
<prosody pitch="-12st">Lower pitch by 12 semitones from baseline</prosody>
<prosody pitch="+12st">Increase pitch by 12 semitones from baseline</prosody>
<prosody pitch="x-low">Lower pitch by 12 semitones from baseline</prosody>
L'attribut rate
L'attribut rate
indique une modification du débit de parole pour le texte contenu dans l'élément. Les valeurs acceptées sont
- Nombre sans désignation d'unité: Le taux est remplacé par le nombre de mots par minute spécifié. Par exemple, la valeur
50
indique un débit de parole de 50 mots par minute. Le nombre est absolu ; vous ne pouvez pas spécifier une augmentation ou une diminution relative des mots par minute. - Un changement relatif en pourcentage : Un nombre qui entraîne un changement relatif par rapport au taux de parole par défaut. Le nombre est précédé de
+
(une augmentation) ou-
(une diminution) et suivi de%
(signe de pourcentage). Un nombre non signé suivi d'un%
est interprété comme une augmentation positive. Par exemple,+10%
ou10%
. Le débit de parole par défaut d'une voix équivaut à la transmission d'une valeur de0%
. - Un mot-clé : L'un des six mots-clés suivants, qui modifient le débit de parole en fonction des valeurs prédéfinies correspondantes :
default
utilise le taux de parole par défaut du service.x-slow
diminue le débit de 50 %.slow
diminue le débit de 25 %.medium
produit le même comportement quedefault
.fast
augmente le débit de 25 %.x-fast
augmente le débit de 50 %.
Les voix neuronales expressives prennent en charge uniquement les valeurs de pourcentage pour l'attribut rate
. Ils ne prennent pas en charge les mots par minute ou les mots clés.
La meilleure façon de déterminer ce qui fonctionne pour votre application est d'effectuer des ajustements en fonction des pourcentages et d'expérimenter différentes valeurs. Essayez des modifications incrémentielles de cinq ou dix pour cent avant d'apporter des modifications plus importantes.
<prosody rate="50">Set speaking rate to 50 words per minute</prosody>
<prosody rate="-5%">Decrease speaking rate by 5 percent</prosody>
<prosody rate="+5%">Increase speaking rate by 5 percent</prosody>
<prosody rate="slow">Decrease speaking rate by 25%</prosody>
<prosody rate="fast">Increase speaking rate by 25%</prosody>
L'élément <say-as>
L'élément <say-as>
fournit des informations sur le type de texte contenu dans l'élément et indique le niveau de détail pour le rendu du texte.
- L'élément comporte un attribut obligatoire,
interpret-as
, qui indique comment le texte inclus doit être interprété. - L'élément possède deux attributs facultatifs,
format
etdetail
, qui sont utilisés uniquement avec des valeurs particulières de l'attributinterpret-as
, comme illustré dans les exemples suivants.
Le service prend en charge l'élément <say-as>
avec les langues suivantes :
- Le service prend entièrement en charge l'élément
<say-as>
pour l'anglais américain. - Pour la plupart des autres langues, le service ne prend en charge que les attributs
digits
etletters
de l'élément. - Pour le japonais, le service prend en charge uniquement l'attribut
digits
. Le service ignore les caractères non numériques qui sont inclus dans la chaîne de chiffres.
La prononciation par défaut du service des chaînes alphabétiques, numériques et alphanumériques varie en fonction de la langue, chaque langue ayant ses propres règles. Vous pouvez utiliser l'élément <say-as>
pour contrôler
la façon dont les chaînes sont prononcées, y compris si elles doivent être épelées en tant que caractères individuels avec les éléments letters
et digits
.
Pour l'allemand, vous pouvez également contrôler le rythme auquel le service prononce les caractères. Pour plus d'informations, voir Spécification de la manière dont les chaînes sont définies.
L'attribut interpret-as
Les valeurs acceptables pour l'attribut interpret-as
et des exemples de chaque valeur sont fournis ci-dessous. Le service prend en charge les valeurs suivantes en tant qu'arguments de l'attribut interpret-as
:
cardinal
date
digits
interjection
letters
number
ordinal
vxml:boolean
vxml:currency
vxml:date
vxml:time
vxml:digits
vxml:phone
cardinal
La valeur cardinal
prononce le nombre cardinal correspondant au numéral dans l'élément. Les exemples suivants prononcent Super Bowl quarante-neuf. Le premier est superflu, car il ne modifie pas le comportement par défaut
du service.
Super Bowl <say-as interpret-as="cardinal">49</say-as>
Super Bowl <say-as interpret-as="cardinal">XLIX</say-as>
date
La valeur date
prononce la date dans l'élément conformément au format indiqué dans l'attribut format
associé. L'attribut format
est requis pour la valeur date
. Si aucun format
n'est présent, le service tente tout de même de prononcer la date. Les exemples suivants prononcent les dates indiquées aux formats spécifiés, où d
, m
et y
représentent le jour, le mois et l'année.
<say-as interpret-as="date" format="mdy">12/17/2005</say-as>
<say-as interpret-as="date" format="ymd">2005/12/17</say-as>
<say-as interpret-as="date" format="dmy">17/12/2005</say-as>
<say-as interpret-as="date" format="ydm">2005/17/12</say-as>
<say-as interpret-as="date" format="my">12/2005</say-as>
<say-as interpret-as="date" format="md">12/17</say-as>
<say-as interpret-as="date" format="ym">2005/12</say-as>
digits
La valeur digits
prononce les chiffres du nombre au sein de l'élément. (La valeur prononce également individuellement tous les caractères alphabétiques inclus dans la chaîne incluse.) L'exemple suivant prononce chaque chiffre
123456.
<say-as interpret-as="digits">123456</say-as>
interjection
L'attribut interjection
est une extension SSML spécifique au service Text to Speech. Il est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.
Avec les voix neuronales expressives, le service met automatiquement en évidence les interjections suivantes: aha
, hmm
, huh
, oh
, uh
, uh-huh
et um
.
Vous pouvez utiliser la valeur interjection
pour activer ou désactiver la mise en évidence du service des interjections aha
et oh
. Incluez l'attribut enabled
supplémentaire avec la valeur
true
ou false
pour activer ou désactiver l'interjection.
L'exemple suivant désactive la mise en évidence des interjections aha
et oh
dans le texte:
<say-as interpret-as='interjection' enabled='false'>Oh</say-as>, in addition, the <say-as interpret-as='interjection' enabled='false'>aha</say-as> wasp is endemic to Australia.
Pour plus d'informations, voir Insister sur les interjections.
letters
La valeur letters
épelle les caractères du mot dans l'élément. (La valeur prononce également individuellement tous les caractères numériques inclus dans la chaîne incluse.) L'exemple suivant épelle les lettres du mot hello.
<say-as interpret-as="letters">Hello</say-as>
Vous pouvez également spécifier la valeur group
ou single
avec l'attribut facultatif format
. Ces attributs permettent d'améliorer la lisibilité des chaînes alphanumériques comme la confirmation des
numéros et des identifiants. Le format single
ajoute plus de silence en épelant les caractères un par un. Le format group
ajoute un silence plus long lorsque nous passons des chiffres aux lettres et vice-versa,
et après avoir lu tous les 3 ou 4 types de caractères.
<say-as interpret-as="letters" format=“single”>112A567B</say-as>
<say-as interpret-as="letters" format=“group”>3174A2W486</say-as>
number
La valeur number
offre une alternative aux valeurs cardinal
et ordinal
. Vous pouvez utiliser l'attribut facultatif format
pour indiquer comment une série de nombres doit être interprétée.
Le premier exemple omet l'attribut format
pour prononcer le nombre comme une valeur cardinale. Le deuxième exemple spécifie explicitement que le nombre doit être prononcé comme une valeur cardinal
. Le troisième
exemple spécifie que le nombre doit être prononcé comme une valeur ordinal
.
<say-as interpret-as="number">123456</say-as>
<say-as interpret-as="number" format="cardinal">123456</say-as>
<say-as interpret-as="number" format="ordinal">123456</say-as>
Vous pouvez également spécifier la valeur telephone
pour l'attribut format
. Les exemples montrent deux manières différentes de prononcer une série de nombres sous forme de numéro de téléphone. Pour prononcer les
nombres avec la ponctuation incluse, indiquez la valeur punctuation
pour l'attribut detail
facultatif.
<say-as interpret-as="number" format="telephone">555-555-5555</say-as>
<say-as interpret-as="number" format="telephone" detail="punctuation">555-555-5555</say-as>
ordinal
La valeur ordinal
prononce la valeur ordinale correspondant au chiffre dans l'élément. L'exemple suivant prononce deuxième en premier.
<say-as interpret-as="ordinal">2</say-as>
<say-as interpret-as="ordinal">1</say-as>
vxml:boolean
La valeur vxml:boolean
prononce yes ou no en fonction de la valeur true
ou false
dans l'élément.
<say-as interpret-as="vxml:boolean">true</say-as>
<say-as interpret-as="vxml:boolean">false</say-as>
vxml:currency
La valeur vxml:currency
permet de contrôler la synthèse des valeurs monétaires. La chaîne doit être écrite au format UUUmm.nn
, UUU
étant l'indicateur de devise à trois caractères spécifié par la norme
ISO 4217 et mm.nn
étant la quantité. L'exemple suivant prononce quarante-cinq dollars et trente cents.
<say-as interpret-as="vxml:currency">USD45.30</say-as>
Si le nombre spécifié comprend plus de deux décimales, le montant est synthétisé sous la forme d'un nombre décimal suivi de l'indicateur de devise. Si l'indicateur de devise à trois caractères est omis, le montant est synthétisé sous forme de nombre décimal uniquement et le type de devise n'est pas prononcé. L'exemple suivant prononce quarante-cinq point trois deux neuf dollars américains.
<say-as interpret-as="vxml:currency">USD45.329</say-as>
vxml:date
La valeur vxml:date
fonctionne comme la valeur date
, mais le format est prédéfini comme étant YYYYMMDD
. Si vous ne connaissez pas la valeur d'un jour, d'un mois ou d'une année ou si vous ne souhaitez
pas qu'elle soit prononcée, remplacez la valeur par un point d'interrogation (?
). Les deuxième et troisième exemples incluent des points d'interrogation.
<say-as interpret-as="vxml:date">20050720</say-as>
<say-as interpret-as="vxml:date">????0720</say-as>
<say-as interpret-as="vxml:date">200507??</say-as>
vxml:time
La valeur "vxml:time" indique l'heure dans l'élément selon le format indiqué dans l'attribut format associé. L'attribut format est nécessaire pour la valeur temporelle. Le format doit être de quatre chiffres sans suffixe, avec "a", "p" ou "h". Les exemples suivants expriment l'heure indiquée dans les formats spécifiés, où d, m et y représentent le jour, le mois et l'année.
<say-as interpret-as="vxml:time">1230</say-as>
<say-as interpret-as="vxml:time">1230a</say-as>
<say-as interpret-as="vxml:time">1230p</say-as>
<say-as interpret-as="vxml:time">0100h</say-as>
vxml:digits
La valeur vxml:digits
fournit les mêmes fonctions que la valeur digits
.
vxml:phone
La valeur vxml:phone
prononce un numéro de téléphone composé de chiffres et de signes de ponctuation. Cela revient à utiliser la valeur number
et à spécifier telephone
pour l'attribut format
et punctuation
pour l'attribut detail
.
<say-as interpret-as="vxml:phone">555-555-5555</say-as>
L'élément <speak>
Le service prend en charge les fragments SSML, qui sont des éléments SSML qui n'incluent pas l'en-tête XML complet. L'élément <speak>
est facultatif pour SSML que vous transmettez au service.
L'élément <speak>
est l'élément racine des documents SSML. Les attributs valides sont
version
est un attribut obligatoire qui indique la spécification SSML. La valeur acceptée est1.0
.xml:lang
n'est pas requis par le service. Omettez l'attribut lorsque vous utilisez cet élément. Notez que vous ne pouvez pas utiliser cet attribut pour modifier la langue d'une demande de synthèse vocale.xml:base
est sans effet.xmlns
n'est pas requis par le service. Omettez l'attribut lorsque vous utilisez cet élément.
<speak version="1.1">
The text to be spoken.
</speak>
L'élément <sub>
L'élément <sub>
indique que le texte spécifié par l'attribut alias
doit remplacer le texte qui est inclus dans l'élément lorsque la voix est synthétisée. L'attribut alias
est le seul attribut de l'élément
et est obligatoire.
<sub alias="International Business Machines">IBM</sub>
L'élément <voice>
Cet élément <voice>
demande un changement de la voix. Il n'est pas pris en charge.