IBM Cloud Docs
Eléments SSML

Eléments SSML

Avec le service IBM Watson® Text to Speech, vous pouvez utiliser la plupart des éléments et attributs SSML (Speech Synthesis Markup Language) pour contrôler la synthèse de votre texte.

Eléments et attributs pris en charge

Le tableau 1 récapitule le support du service pour les éléments et les attributs SSML :

  • Complète signifie que le service prend entièrement en charge l'élément ou l'attribut avec ses interfaces HTTP et WebSocket.
  • Partiel signifie que la prise en charge du service pour l'élément ou l'attribut est limitée de l'une des manières suivantes:
    • Le service ne prend en charge que certains aspects de l'élément ou de l'attribut.
    • Le service prend en charge l'élément ou l'attribut avec seulement certaines de ses voix.
    • Le service prend en charge l'élément ou l'attribut avec une seule de ses interfaces, HTTP ou WebSocket.
  • Aucune signifie que le service ne prend pas en charge l'élément ou l'attribut.

Les sections suivantes fournissent des descriptions de chaque élément ou attribut, y compris des exemples, des restrictions et indique si le support du service diffère de la norme SSML. Le support de certains attributs et valeurs diffère légèrement de la spécification SSML. Pour plus d'informations, voir W3C Speech Synthesis Markup Language(SSML)Version 1.1.

Éléments et attributs SSML
Élément ou attribut Support Élément ou attribut Support
Élément <audio> Aucun Élément <prosody> Partiel
Élément <break> Complet
  • attribut contour
Aucun
Élément <desc> Aucun
  • attribue duration
Aucun
Élément <emphasis> Partiel Complet
Élément <express-as> Partiel
  • attribut range
Aucun
Élément <lexicon> Aucun Complet
Élément <mark> Partiel
  • attribut volume
Aucun
Élément <meta> Aucun Élément <say-as> Partiel
Élément <metadata> Aucun Partiel
Élément <paragraph> Complet Élément <sentence> Complet
Élément <phoneme> Complet Élément <speak> Complet
Élément <sub> Complet
Élément <voice> Aucun

L'élément <audio>

Cet élément <audio> insère des éléments enregistrés dans l'audio généré par le service. Il n'est pas pris en charge.

L'élément <break>

L'élément <break> insère une pause dans le texte énoncé. Il possède les attributs facultatifs suivants :

  • strength spécifie la longueur de la pause en termes de valeurs de force variables :
    • none supprime une pause qui, sinon, pourrait se produire pendant le traitement.
    • x-weak, weak, medium, strong ou x-strong insèrent des pauses de plus en plus marquées.
  • time spécifie la durée de la pause en secondes ou en millisecondes. Les formats de valeur valides sont {integer}s pour les secondes ou {integer}ms pour les millisecondes.
Break size <break strength="none"/> no pause
Break size <break strength="x-weak"/> x-weak pause
Break size <break strength="weak"/> weak pause
Break size <break strength="medium"/> medium pause
Break size <break strength="strong"/> strong pause
Break size <break strength="x-strong"/> x-strong pause
Break size <break time="1s"/> one-second pause
Break size <break time="1500ms"/> 1500-millisecond pause

L'élément <break> est une fonctionnalité bêta pour les voix naturelles.

L'élément <desc>

L'élément <desc> ne peut se trouver que dans un élément <audio>. Comme l'élément <audio> n'est pas pris en charge, l'élément <desc> ne l'est pas non plus.

L'élément <emphasis>

L'élément <emphasis> est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.

Avec les voix neuronales expressives, vous pouvez utiliser l'élément <emphasis> pour mettre en évidence ou rétrograder un ou plusieurs mots du texte d'entrée. L'élément prend en charge un attribut level facultatif qui accepte l'une des valeurs suivantes:

  • none-Empêche le service de mettre en évidence du texte qui pourrait être mis en évidence autrement.
  • moderate-Fournit une mise en évidence notable du texte. Ce niveau est la valeur par défaut si vous omettez l'attribut level.
  • strong-Fournit une mise en évidence plus importante du texte que celle du niveau modéré.
  • reduced-Désouligne le texte en tendant à réduire sa signification dans l'audio. Ce niveau est le contraire de la mise en évidence du texte.

L'exemple suivant applique le niveau moderate au mot give:

I am going to <emphasis level="moderate">give</emphasis> her the book.

Pour plus d'informations, voir Insister sur les mots.

L'élément <express-as>

L'élément <express-as> est une extension SSML spécifique au service Text to Speech. Il est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.

Avec les voix neuronales expressives, vous pouvez utiliser l'élément <express-as> pour appliquer des styles de parole afin d'améliorer la mise en évidence par le service de certaines caractéristiques pour tout ou partie du texte d'entrée. L'élément prend en charge un attribut style obligatoire qui accepte l'un des styles de parole suivants:

  • cheerful-Exprime le bonheur et les bonnes nouvelles.
  • empathetic-Exprime l'empathie et la compassion.
  • neutral-Exprime l'objectivité et la régularité.
  • uncertain-Exprime la confusion et l'incertitude.

L'exemple suivant applique le style cheerful à l'ensemble du texte d'entrée:

<express-as style="cheerful">Oh, that's good news! I'm glad that we could help.</express-as>

Pour plus d'informations, voir Utilisation de styles de parole.

L'élément <lexicon>

Cet élément <lexicon> introduit des dictionnaires de prononciation pour le document SSML donné. Il n'est pas pris en charge.

Vous pouvez utiliser l'interface de personnalisation du service pour définir un dictionnaire d'entrées personnalisées (paires de mots/traductions) à utiliser lors de la synthèse vocale. Pour plus d'informations, voir Compréhension de la personnalisation.

L'élément <mark>

L'élément <mark> est pris en charge par l'interface WebSocket du service, mais pas par son interface HTTP, qui ignore l'élément. Pour plus d'informations, voir Spécification d'une marque SSML.

L'élément <mark> n'est pas pris en charge pour les voix naturelles.

L'élément <mark> est un élément vide qui place un marqueur dans le texte à synthétiser. Le client est averti lorsque tout le texte qui précède l'élément <mark> a été synthétisé. L'élément accepte un attribut name unique qui spécifie une chaîne identifiant de manière unique la marque ; ce nom doit commencer par un caractère alphanumérique. Le nom est renvoyé avec l'heure à laquelle la marque apparaît dans l'audio synthétisé.

Hello <mark name="here"/> world.

Les éléments <meta> et <metadata>

Les éléments <meta> et <metadata> sont des conteneurs dans lesquels vous pouvez placer des informations sur le document. Ils ne sont pas pris en charge.

Les éléments <paragraph> et <sentence>

Les éléments <paragraph> (ou <p>) et <sentence> (ou <s>) sont des éléments facultatifs qui peuvent être utilisés pour donner des conseils sur la structure textuelle. Si le texte qui est inclus dans un élément <paragraph> ou <sentence> ne se termine pas par un caractère de ponctuation de fin de phrase (comme une période), le service ajoute une pause plus longue que la normale à l'audio synthétisé.

Le seul attribut valide pour l'un ou l'autre élément est xml:lang, qui permet le changement de langue. L'attribut n'est pas pris en charge.

<paragraph>
  <sentence>Text within a sentence element.</sentence>
  <s>More text in another sentence.</s>
</paragraph>

L'élément <phoneme>

L'élément <phoneme> fournit une prononciation phonétique pour le texte joint. L'orthographe phonétique représente les sons d'un mot, la façon dont les sons sont divisés en syllabes et quelles syllabes sont accentuées. L'élément a deux attributs :

  • alphabet est un attribut facultatif qui spécifie la phonologie à utiliser. Les alphabets supportés sont

    • International Phonetic Alphabet (IPA) standard : alphabet="ipa".
    • IBM Symbolic Phonetic Representation (SPR) : alphabet="ibm".

    Si aucun alphabet n'est spécifié, le service utilise IBM SPR par défaut. Pour plus d'informations, voir Présentation des symboles phonétiques.

  • ph est un attribut requis qui fournit la prononciation dans l'alphabet indiqué. Les exemples suivants montrent la prononciation du mot tomato dans les deux formats :

    • Format IPA :

      <phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
      
    • Format IPA avec symboles Unicode :

      <phoneme alphabet="ipa" ph="t&#x0259;&#x02C8;me&#x026A;.&#x027E;o&#x028A;">tomato</phoneme>
      
    • Format IBM SPR :

      <phoneme alphabet="ibm" ph=".0tx.1me.0Fo">tomato</phoneme>
      

Pour plus d'informations sur l'utilisation des notations SPR et IPA avec l'élément <phoneme>, voir Comprendre les symboles phonétiques.

L'élément <prosody>

L'élément <prosody> contrôle le pas et le débit de parole du texte. Tous les attributs sont facultatifs, mais une erreur se produit si vous ne spécifiez pas au moins un attribut avec l'élément.

Le service prend en charge les deux attributs suivants de la spécification SSML :

La spécification SSML offre également quatre attributs que le service ne prend pas en charge :

  • L'attribut contour
  • L'attribut range
  • L'attribut duration
  • L'attribut volume

Le service prend également en charge les paramètres de requête qui vous permettent d'ajuster le débit et la hauteur pour tout le texte d'une demande de synthèse vocale. Pour plus d'informations sur les paramètres et leur interaction avec les attributs pitch et rate de l'élément <prosody>, voir

L'élément <prosody> n'est pas pris en charge pour les voix naturelles.

Différences par rapport à la spécification SSML version 1.1

Le service Text to Speech base sa prise en charge SSML sur W3C Speech Synthesis Markup Language(SSML)Version 1.1. Cependant, la spécification SSML a évolué depuis la première sortie du service. Afin de maintenir la compatibilité avec les versions antérieures pour les utilisateurs, le service continue de prendre en charge certaines fonctions de l'élément <prosody> qui sont différentes de la dernière spécification SSML.

  • Pour l'attribut pitch, le service prend en charge les fonctions supplémentaires suivantes:

    • Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un % (signe de pourcentage). La hauteur par défaut d'une voix équivaut à la transmission d'une valeur de 0%.
    • Modification relative des demi-tons indiquée par un nombre signé ou non signé et suivie de la chaîne st.
  • Pour l'attribut rate, le service prend en charge les fonctions supplémentaires suivantes:

    • Changement relatif en pourcentage indiqué par un nombre signé ou non signé et suivi d'un % (signe de pourcentage). Le débit de parole par défaut d'une voix équivaut à la transmission d'une valeur de 0%.
    • Un nombre sans désignation d'unité indique le nombre de mots par minute. Le nombre est absolu ; vous ne pouvez pas spécifier une augmentation ou une diminution relative des mots par minute.
  • Pour les voix neuronales expressives, les attributs pitch et rate prennent en charge uniquement les valeurs de pourcentage.

    • Pour l'attribut pitch, n'utilisez pas de Hertz, de semitones ou de mots clés.
    • Pour l'attribut rate, n'utilisez pas de mots par minute ou de mots clés.

Pour plus d'informations sur les fonctions prises en charge par SSML version 1.1, voir la section 3.2.4 prosody Element de la spécification SSML.

L'attribut pitch

L'attribut pitch modifie la hauteur de la ligne de base, ou tonalité, du texte dans l'élément. Les valeurs acceptées sont

  • Numéro suivi de la désignation Hz (Hertz): Le pas de référence est transposé (vers le haut ou vers le bas) à la valeur spécifiée. Par exemple, 150Hz.
  • Un changement relatif en pourcentage : Un nombre qui entraîne un changement relatif par rapport à la ligne de base par défaut. Le nombre est précédé de + (une augmentation) ou - (une diminution) et suivi de % (signe de pourcentage). Un nombre non signé suivi d'un % est interprété comme une augmentation positive. Par exemple, +10% ou 10%. La hauteur par défaut d'une voix équivaut à la transmission d'une valeur de 0%.
  • Un changement relatif en demi-tons : Un nombre qui entraîne un changement absolu par rapport à la ligne de base par défaut. Le nombre est précédé de + (augmentation) ou - (diminution) et suivi de st (demi-tons). Un nombre non signé suivi de st est interprété comme une augmentation positive. Par exemple, +5st ou 5st.
  • Un mot clé : un des six mots clés suivants, qui modifient le pas vers les valeurs prédéfinies correspondantes :
    • default utilise la hauteur de base par défaut du service.
    • x-low réduit la base de la hauteur tonale de 12 demi-tons.
    • low réduit la base de la hauteur tonale de six demi-tons.
    • medium produit le même comportement que default.
    • high élève la base de la hauteur tonale de six demi-tons.
    • x-high élève la base de la hauteur tonale de 12 demi-tons.

Les voix neuronales expressives prennent en charge uniquement les valeurs de pourcentage pour l'attribut pitch. Ils ne prennent pas en charge l'utilisation de Hertz, de semitones ou de mots clés.

La meilleure façon de déterminer ce qui fonctionne pour votre application est d'effectuer des ajustements en fonction des pourcentages et d'expérimenter différentes valeurs. Essayez des modifications incrémentielles de cinq ou dix pour cent avant d'apporter des modifications plus importantes.

<prosody pitch="150Hz">Transpose pitch to 150 Hz</prosody>
<prosody pitch="-20Hz">Lower pitch by 20 Hz from baseline</prosody>
<prosody pitch="+20Hz">Increase pitch by 20 Hz from baseline</prosody>
<prosody pitch="-10%">Decrease pitch by 10 percent</prosody>
<prosody pitch="+10%">Increase pitch by 10 percent</prosody>
<prosody pitch="-12st">Lower pitch by 12 semitones from baseline</prosody>
<prosody pitch="+12st">Increase pitch by 12 semitones from baseline</prosody>
<prosody pitch="x-low">Lower pitch by 12 semitones from baseline</prosody>

L'attribut rate

L'attribut rate indique une modification du débit de parole pour le texte contenu dans l'élément. Les valeurs acceptées sont

  • Nombre sans désignation d'unité: Le taux est remplacé par le nombre de mots par minute spécifié. Par exemple, la valeur 50 indique un débit de parole de 50 mots par minute. Le nombre est absolu ; vous ne pouvez pas spécifier une augmentation ou une diminution relative des mots par minute.
  • Un changement relatif en pourcentage : Un nombre qui entraîne un changement relatif par rapport au taux de parole par défaut. Le nombre est précédé de + (une augmentation) ou - (une diminution) et suivi de % (signe de pourcentage). Un nombre non signé suivi d'un % est interprété comme une augmentation positive. Par exemple, +10% ou 10%. Le débit de parole par défaut d'une voix équivaut à la transmission d'une valeur de 0%.
  • Un mot-clé : L'un des six mots-clés suivants, qui modifient le débit de parole en fonction des valeurs prédéfinies correspondantes :
    • default utilise le taux de parole par défaut du service.
    • x-slow diminue le débit de 50 %.
    • slow diminue le débit de 25 %.
    • medium produit le même comportement que default.
    • fast augmente le débit de 25 %.
    • x-fast augmente le débit de 50 %.

Les voix neuronales expressives prennent en charge uniquement les valeurs de pourcentage pour l'attribut rate. Ils ne prennent pas en charge les mots par minute ou les mots clés.

La meilleure façon de déterminer ce qui fonctionne pour votre application est d'effectuer des ajustements en fonction des pourcentages et d'expérimenter différentes valeurs. Essayez des modifications incrémentielles de cinq ou dix pour cent avant d'apporter des modifications plus importantes.

<prosody rate="50">Set speaking rate to 50 words per minute</prosody>
<prosody rate="-5%">Decrease speaking rate by 5 percent</prosody>
<prosody rate="+5%">Increase speaking rate by 5 percent</prosody>
<prosody rate="slow">Decrease speaking rate by 25%</prosody>
<prosody rate="fast">Increase speaking rate by 25%</prosody>

L'élément <say-as>

L'élément <say-as> fournit des informations sur le type de texte contenu dans l'élément et indique le niveau de détail pour le rendu du texte.

  • L'élément comporte un attribut obligatoire, interpret-as, qui indique comment le texte inclus doit être interprété.
  • L'élément possède deux attributs facultatifs, format et detail, qui sont utilisés uniquement avec des valeurs particulières de l'attribut interpret-as, comme illustré dans les exemples suivants.

Le service prend en charge l'élément <say-as> avec les langues suivantes :

  • Le service prend entièrement en charge l'élément <say-as> pour l'anglais américain.
  • Pour la plupart des autres langues, le service ne prend en charge que les attributs digits et letters de l'élément.
  • Pour le japonais, le service prend en charge uniquement l'attribut digits. Le service ignore les caractères non numériques qui sont inclus dans la chaîne de chiffres.

La prononciation par défaut du service des chaînes alphabétiques, numériques et alphanumériques varie en fonction de la langue, chaque langue ayant ses propres règles. Vous pouvez utiliser l'élément <say-as> pour contrôler la façon dont les chaînes sont prononcées, y compris si elles doivent être épelées en tant que caractères individuels avec les éléments letters et digits.

Pour l'allemand, vous pouvez également contrôler le rythme auquel le service prononce les caractères. Pour plus d'informations, voir Spécification de la manière dont les chaînes sont définies.

L'attribut interpret-as

Les valeurs acceptables pour l'attribut interpret-as et des exemples de chaque valeur sont fournis ci-dessous. Le service prend en charge les valeurs suivantes en tant qu'arguments de l'attribut interpret-as :

cardinal

La valeur cardinal prononce le nombre cardinal correspondant au numéral dans l'élément. Les exemples suivants prononcent Super Bowl quarante-neuf. Le premier est superflu, car il ne modifie pas le comportement par défaut du service.

Super Bowl <say-as interpret-as="cardinal">49</say-as>
Super Bowl <say-as interpret-as="cardinal">XLIX</say-as>

date

La valeur date prononce la date dans l'élément conformément au format indiqué dans l'attribut format associé. L'attribut format est requis pour la valeur date. Si aucun format n'est présent, le service tente tout de même de prononcer la date. Les exemples suivants prononcent les dates indiquées aux formats spécifiés, où d, m et y représentent le jour, le mois et l'année.

<say-as interpret-as="date" format="mdy">12/17/2005</say-as>
<say-as interpret-as="date" format="ymd">2005/12/17</say-as>
<say-as interpret-as="date" format="dmy">17/12/2005</say-as>
<say-as interpret-as="date" format="ydm">2005/17/12</say-as>
<say-as interpret-as="date" format="my">12/2005</say-as>
<say-as interpret-as="date" format="md">12/17</say-as>
<say-as interpret-as="date" format="ym">2005/12</say-as>

digits

La valeur digits prononce les chiffres du nombre au sein de l'élément. (La valeur prononce également individuellement tous les caractères alphabétiques inclus dans la chaîne incluse.) L'exemple suivant prononce chaque chiffre 123456.

<say-as interpret-as="digits">123456</say-as>

interjection

L'attribut interjection est une extension SSML spécifique au service Text to Speech. Il est pris en charge pour une utilisation uniquement avec les voix neuronales expressives.

Avec les voix neuronales expressives, le service met automatiquement en évidence les interjections suivantes: aha, hmm, huh, oh, uh, uh-huh et um. Vous pouvez utiliser la valeur interjection pour activer ou désactiver la mise en évidence du service des interjections aha et oh. Incluez l'attribut enabled supplémentaire avec la valeur true ou false pour activer ou désactiver l'interjection.

L'exemple suivant désactive la mise en évidence des interjections aha et oh dans le texte:

<say-as interpret-as='interjection' enabled='false'>Oh</say-as>, in addition, the <say-as interpret-as='interjection' enabled='false'>aha</say-as> wasp is endemic to Australia.

Pour plus d'informations, voir Insister sur les interjections.

letters

La valeur letters épelle les caractères du mot dans l'élément. (La valeur prononce également individuellement tous les caractères numériques inclus dans la chaîne incluse.) L'exemple suivant épelle les lettres du mot hello.

<say-as interpret-as="letters">Hello</say-as>

Vous pouvez également spécifier la valeur group ou single avec l'attribut facultatif format. Ces attributs permettent d'améliorer la lisibilité des chaînes alphanumériques comme la confirmation des numéros et des identifiants. Le format single ajoute plus de silence en épelant les caractères un par un. Le format group ajoute un silence plus long lorsque nous passons des chiffres aux lettres et vice-versa, et après avoir lu tous les 3 ou 4 types de caractères.

<say-as interpret-as="letters" format=“single”>112A567B</say-as>
<say-as interpret-as="letters" format=“group”>3174A2W486</say-as>

number

La valeur number offre une alternative aux valeurs cardinal et ordinal. Vous pouvez utiliser l'attribut facultatif format pour indiquer comment une série de nombres doit être interprétée. Le premier exemple omet l'attribut format pour prononcer le nombre comme une valeur cardinale. Le deuxième exemple spécifie explicitement que le nombre doit être prononcé comme une valeur cardinal. Le troisième exemple spécifie que le nombre doit être prononcé comme une valeur ordinal.

<say-as interpret-as="number">123456</say-as>
<say-as interpret-as="number" format="cardinal">123456</say-as>
<say-as interpret-as="number" format="ordinal">123456</say-as>

Vous pouvez également spécifier la valeur telephone pour l'attribut format. Les exemples montrent deux manières différentes de prononcer une série de nombres sous forme de numéro de téléphone. Pour prononcer les nombres avec la ponctuation incluse, indiquez la valeur punctuation pour l'attribut detail facultatif.

<say-as interpret-as="number" format="telephone">555-555-5555</say-as>
<say-as interpret-as="number" format="telephone" detail="punctuation">555-555-5555</say-as>

ordinal

La valeur ordinal prononce la valeur ordinale correspondant au chiffre dans l'élément. L'exemple suivant prononce deuxième en premier.

<say-as interpret-as="ordinal">2</say-as>
<say-as interpret-as="ordinal">1</say-as>

vxml:boolean

La valeur vxml:boolean prononce yes ou no en fonction de la valeur true ou false dans l'élément.

<say-as interpret-as="vxml:boolean">true</say-as>
<say-as interpret-as="vxml:boolean">false</say-as>

vxml:currency

La valeur vxml:currency permet de contrôler la synthèse des valeurs monétaires. La chaîne doit être écrite au format UUUmm.nn, UUU étant l'indicateur de devise à trois caractères spécifié par la norme ISO 4217 et mm.nn étant la quantité. L'exemple suivant prononce quarante-cinq dollars et trente cents.

<say-as interpret-as="vxml:currency">USD45.30</say-as>

Si le nombre spécifié comprend plus de deux décimales, le montant est synthétisé sous la forme d'un nombre décimal suivi de l'indicateur de devise. Si l'indicateur de devise à trois caractères est omis, le montant est synthétisé sous forme de nombre décimal uniquement et le type de devise n'est pas prononcé. L'exemple suivant prononce quarante-cinq point trois deux neuf dollars américains.

<say-as interpret-as="vxml:currency">USD45.329</say-as>

vxml:date

La valeur vxml:date fonctionne comme la valeur date, mais le format est prédéfini comme étant YYYYMMDD. Si vous ne connaissez pas la valeur d'un jour, d'un mois ou d'une année ou si vous ne souhaitez pas qu'elle soit prononcée, remplacez la valeur par un point d'interrogation (?). Les deuxième et troisième exemples incluent des points d'interrogation.

<say-as interpret-as="vxml:date">20050720</say-as>
<say-as interpret-as="vxml:date">????0720</say-as>
<say-as interpret-as="vxml:date">200507??</say-as>

vxml:time

La valeur "vxml:time" indique l'heure dans l'élément selon le format indiqué dans l'attribut format associé. L'attribut format est nécessaire pour la valeur temporelle. Le format doit être de quatre chiffres sans suffixe, avec "a", "p" ou "h". Les exemples suivants expriment l'heure indiquée dans les formats spécifiés, où d, m et y représentent le jour, le mois et l'année.

<say-as interpret-as="vxml:time">1230</say-as>
<say-as interpret-as="vxml:time">1230a</say-as>
<say-as interpret-as="vxml:time">1230p</say-as>
<say-as interpret-as="vxml:time">0100h</say-as>

vxml:digits

La valeur vxml:digits fournit les mêmes fonctions que la valeur digits.

vxml:phone

La valeur vxml:phone prononce un numéro de téléphone composé de chiffres et de signes de ponctuation. Cela revient à utiliser la valeur number et à spécifier telephone pour l'attribut format et punctuation pour l'attribut detail.

<say-as interpret-as="vxml:phone">555-555-5555</say-as>

L'élément <speak>

Le service prend en charge les fragments SSML, qui sont des éléments SSML qui n'incluent pas l'en-tête XML complet. L'élément <speak> est facultatif pour SSML que vous transmettez au service.

L'élément <speak> est l'élément racine des documents SSML. Les attributs valides sont

  • version est un attribut obligatoire qui indique la spécification SSML. La valeur acceptée est 1.0.
  • xml:lang n'est pas requis par le service. Omettez l'attribut lorsque vous utilisez cet élément. Notez que vous ne pouvez pas utiliser cet attribut pour modifier la langue d'une demande de synthèse vocale.
  • xml:base est sans effet.
  • xmlns n'est pas requis par le service. Omettez l'attribut lorsque vous utilisez cet élément.
<speak version="1.1">
  The text to be spoken.
</speak>

L'élément <sub>

L'élément <sub> indique que le texte spécifié par l'attribut alias doit remplacer le texte qui est inclus dans l'élément lorsque la voix est synthétisée. L'attribut alias est le seul attribut de l'élément et est obligatoire.

<sub alias="International Business Machines">IBM</sub>

L'élément <voice>

Cet élément <voice> demande un changement de la voix. Il n'est pas pris en charge.