IBM Cloud Docs
Elementi SSML

Elementi SSML

Con il servizio IBM Watson® Text to Speech, è possibile utilizzare la maggior parte degli elementi e degli attributi dello Speech Synthesis Markup Language (SSML) per controllare la sintesi del testo.

Elementi e attributi supportati

La Tabella 1 riassume il supporto del servizio per gli elementi e gli attributi SSML:

  • Completo indica che il servizio supporta completamente l'elemento o l'attributo con le sue interfacce HTTP e WebSocket.
  • Parziale significa che il supporto del servizio per l'elemento o l'attributo è limitato in uno dei modi seguenti:
    • Il servizio supporta solo alcuni aspetti dell'elemento o dell'attributo.
    • Il servizio supporta l'elemento o l'attributo solo con alcune delle sue voci.
    • Il servizio supporta l'elemento o l'attributo con una sola delle sue interfacce, HTTP o WebSocket.
  • Nessuno indica che il servizio non supporta l'elemento o l'attributo.

Le seguenti sezioni forniscono le descrizioni di ciascun elemento o attributo, inclusi esempi, limitazioni e se il supporto del servizio differisce da SSML standard. Il supporto per alcuni attributi e valori differisce leggermente dalle specifiche SSML. Per ulteriori informazioni, vedere W3C Speech Synthesis Markup Language(SSML)Versione 1.1.

Elementi e attributi SSML
Elemento o attributo Supporto Elemento o attributo Supporto
Elemento <audio> Nessuno Elemento <prosody> Parziale
Elemento <break> Completo
  • attributo contorno
Nessuno
Elemento <desc> Nessuno
  • attributo durata
Nessuno
Elemento <emphasis> Parziale Completo
Elemento <express-as> Parziale
  • attributo intervallo
Nessuno
Elemento <lexicon> Nessuno Completo
Elemento <mark> Parziale
  • attributo volume
Nessuno
Elemento <meta> Nessuno Elemento <say-as> Parziale
Elemento <metadata> Nessuno Parziale
Elemento <paragraph> Completo Elemento <sentence> Completo
Elemento <phoneme> Completo Elemento <speak> Completo
Elemento <sub> Completo
Elemento <voice> Nessuno

L'elemento <audio>

Questo elemento di <audio> inserisce elementi registrati nell'audio generato dal servizio. Non è supportato.

L'elemento <break>

L'elemento <break> inserisce una pausa nel testo parlato. Presenta i seguenti attributi facoltativi:

  • strength specifica la lunghezza della pausa in termini di variazione dei valori di intensità:
    • none elimina l'interruzione che potrebbe altrimenti essere eseguita durante l'elaborazione.
    • x-weak, weak, medium, strong o x-strong inseriscono interruzioni che diventano sempre più potenti.
  • time specifica la lunghezza della pausa in termini di secondi o millisecondi. I formati di valore validi sono {integer}s per i secondi o {integer}ms per i millisecondi.
Break size <break strength="none"/> no pause
Break size <break strength="x-weak"/> x-weak pause
Break size <break strength="weak"/> weak pause
Break size <break strength="medium"/> medium pause
Break size <break strength="strong"/> strong pause
Break size <break strength="x-strong"/> x-strong pause
Break size <break time="1s"/> one-second pause
Break size <break time="1500ms"/> 1500-millisecond pause

L'elemento <break> è una funzionalità beta per le voci naturali.

L'elemento <desc>

L'elemento <desc> può essere presente solo all'interno di un elemento <audio>. Poiché l'elemento <audio> non è supportato, non lo è nemmeno l'elemento <desc>.

L'elemento <emphasis>

L'elemento <emphasis> è supportato solo per l'utilizzo con le voci neurali espressive.

Con le voci neurali espressive, è possibile utilizzare l'elemento <emphasis> per enfatizzare o deenfatizzare una o più parole del testo di input. L'elemento supporta un attributo level facoltativo che accetta uno dei seguenti valori:

  • none- impedisce al servizio di enfatizzare il testo che potrebbe altrimenti essere enfatizzato.
  • moderate- Fornisce una notevole quantità di enfasi sul testo. Questo livello è quello predefinito se si omette l'attributo level.
  • strong- Fornisce una quantità più significativa di enfasi al testo rispetto al livello moderato fornito.
  • reduced- De - enfatizza il testo tendendo a ridurre il suo significato nell'audio. Questo livello è l'opposto di sottolineare il testo.

Il seguente esempio applica il livello moderate alla parola give:

I am going to <emphasis level="moderate">give</emphasis> her the book.

Per ulteriori informazioni, vedi Sottolineatura delle parole.

L'elemento <express-as>

L'elemento <express-as> è un'estensione SSML specifica del servizio Text to Speech. È supportato solo per l'uso con le voci neurali espressive.

Con le voci neurali espressive, puoi utilizzare l'elemento <express-as> per applicare gli stili di conversazione per migliorare l'enfasi del servizio di determinate caratteristiche per tutto o parte del testo di input. L'elemento supporta un attributo style obbligatorio che accetta uno dei seguenti stili di conversazione:

  • cheerful- Esprime felicità e buone notizie.
  • empathetic- Espone empatia e compassione.
  • neutral- Esprime obiettività e uniformità.
  • uncertain- Esprime confusione e incertezza.

Il seguente esempio applica lo stile cheerful all'intero testo di immissione:

<express-as style="cheerful">Oh, that's good news! I'm glad that we could help.</express-as>

Per ulteriori informazioni, consultare Utilizzo degli stili di conversazione.

L'elemento <lexicon>

Questo elemento di <lexicon> introduce i dizionari di pronuncia per il documento SSML dato. Non è supportato.

Puoi utilizzare l'interfaccia di personalizzazione del servizio per definire un dizionario di voci personalizzate (coppie di parole/traduzioni) da utilizzare durante la sintesi vocale. Per ulteriori informazioni, vedi Informazioni sulla personalizzazione.

L'elemento <mark>

L'elemento <mark> è supportato solo dall'interfaccia WebSocket del servizio, non dall'interfaccia HTTP, che ignora l'elemento. Per ulteriori informazioni, vedi Specifica di un contrassegno SSML.

L'elemento <mark> non è supportato per le voci naturali.

L'elemento <mark> è un elemento vuoto che inserisce un marcatore nel testo da sintetizzare. Il client viene avvisato quando tutto il testo che precede l'elemento <mark> è stato sintetizzato. L'elemento accetta un singolo attributo name che specifica una stringa che identifica in modo univoco il contrassegno; il nome deve iniziare con un carattere alfanumerico. Il nome viene restituito insieme al tempo in cui si presenta il contrassegno nell'audio sintetizzato.

Hello <mark name="here"/> world.

Gli elementi <meta> e <metadata>

Gli elementi <meta> e <metadata> sono contenitori in cui è possibile inserire informazioni sul documento. Non sono supportati.

Gli elementi <paragraph> e <sentence>

Gli elementi <paragraph> (o <p>) e <sentence> (o <s>) sono elementi opzionali che possono essere usati per dare suggerimenti sulla struttura testuale. Se il testo racchiuso in un elemento <paragraph> o <sentence> non termina con un carattere di punteggiatura di fine frase (come un punto), il servizio aggiunge una pausa più lunga del normale all'audio sintetizzato.

L'unico attributo valido per l'elemento è xml:lang, che consente di passare da una lingua all'altra. L'attributo non è supportato.

<paragraph>
  <sentence>Text within a sentence element.</sentence>
  <s>More text in another sentence.</s>
</paragraph>

L'elemento <phoneme>

L'elemento <phoneme> fornisce una pronuncia fonetica del testo allegato. L'ortografia fonetica rappresenta il suono di una parola, in che modo viene sillabato e su quali sillabe viene utilizzato l'accento (stress). L'elemento ha due attributi:

  • alphabet è un attributo facoltativo che specifica la fonologia da utilizzare. Gli alfabeti supportati sono:

    • L'alfabeto fonetico internazionale (IPA) standard: alphabet="ipa".
    • Il sito IBM Rappresentazione fonetica simbolica (SPR): alphabet="ibm".

    Se non viene specificato alcun alfabeto, il servizio utilizza IBM SPR per impostazione predefinita. Per ulteriori informazioni, vedi Descrizione dei simboli fonetici.

  • ph è un attributo obbligatorio che fornisce la pronuncia nell'alfabeto indicato. Gli esempi riportati di seguito mostrano la pronuncia della parola tomato in entrambi i formati:

    • Formato IPA:

      <phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
      
    • Formato IPA con simboli Unicode:

      <phoneme alphabet="ipa" ph="t&#x0259;&#x02C8;me&#x026A;.&#x027E;o&#x028A;">tomato</phoneme>
      
    • Formato IBM SPR:

      <phoneme alphabet="ibm" ph=".0tx.1me.0Fo">tomato</phoneme>
      

Per ulteriori informazioni sull'uso delle notazioni SPR e IPA con l'elemento <phoneme>, vedere Comprensione dei simboli fonetici.

L'elemento <prosody>

L'elemento <prosody> controlla l'intonazione e la velocità di riproduzione del testo. Tutti gli attributi sono facoltativi, ma si verifica un errore se non si specifica almeno un attributo con l'elemento.

Il servizio supporta i due seguenti attributi della specifica SSML:

La specifica SSML offre anche quattro attributi che il servizio non supporta:

  • L'attributo contour
  • L'attributo range
  • L'attributo duration
  • L'attributo volume

Il servizio supporta anche parametri di query che ti consentono di regolare la frequenza e il tono per tutto il testo di una richiesta di sintesi vocale. Per ulteriori informazioni sui parametri e la relativa interazione con gli attributi pitch e rate dell'elemento <prosody>, consultare

L'elemento <prosody> non è supportato per le voci naturali.

Differenze rispetto alla specifica SSML versione 1.1

Il servizio Text to Speech basa il suo supporto SSML su W3C Speech Synthesis Markup Language(SSML)Version 1.1. Tuttavia, la specifica SSML si è evoluta da quando il servizio è stato rilasciato per la prima volta. Per mantenere la compatibilità con le versioni precedenti per gli utenti, il servizio continua a supportare alcune funzioni dell'elemento <prosody> che sono differenti dalla specifica SSML più recente.

  • Per l'attributo pitch, il servizio supporta le seguenti funzioni aggiuntive:

    • Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un % (segno di percentuale). Il tono predefinito per una voce equivale a passare un valore di 0%.
    • Una modifica relativa nei semitoni indicata da un numero con segno o senza segno e seguita dalla stringa st.
  • Per l'attributo rate, il servizio supporta le seguenti funzioni aggiuntive:

    • Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un % (segno di percentuale). La velocità di conversazione predefinita per una voce equivale a passare un valore di 0%.
    • Un numero senza designazione unità specifica il numero di parola al minuto. Il numero è assoluto; non è possibile specificare un aumento o una diminuzione relativa delle parole al minuto.
  • Per le voci neurali espressive, gli attributi pitch e rate supportano solo valori percentuali.

    • Per l'attributo pitch, non utilizzare Hertz, semitoni o parole chiave.
    • Per l'attributo rate, non utilizzare parole al minuto o parole chiave.

Per ulteriori informazioni sulle funzioni supportate da SSML versione 1.1, fare riferimento alla sezione 3.2.4 prosody Element della specifica SSML.

L'attributo pitch

L'attributo pitch modifica l'altezza di base, o tono, del testo all'interno dell'elemento. I valori accettati sono:

  • Un numero seguito dalla designazione Hz (Hertz): L'intonazione di base viene trasposta (verso l'alto o verso il basso) al valore specificato. Ad esempio, 150Hz.
  • Una variazione relativa in percentuale: Un numero che causa uno spostamento relativo rispetto alla linea di base predefinita. Il numero è preceduto da + (un aumento) o - (una diminuzione) e seguito da % (segno di percentuale). Un numero senza segno seguito da un % viene interpretato come un aumento positivo. Ad esempio, +10% o 10%. Il tono predefinito per una voce equivale a passare un valore di 0%.
  • Una variazione relativa in semitoni: Un numero che causa uno spostamento assoluto dalla linea di base predefinita. Il numero è preceduto da + (un aumento) o - (una diminuzione) e seguito da st (semitoni). Un numero senza segno seguito da st viene interpretato come un aumento positivo. Ad esempio, +5st o 5st.
  • Una parola chiave: Una delle sei parole chiave seguenti, che modificano l'intonazione ai corrispondenti valori predefiniti:
    • default utilizza il tono di riferimento predefinito del servizio.
    • x-low abbassa il riferimento del tono di 12 semitoni.
    • low abbassa il riferimento del tono di sei semitoni.
    • medium produce lo stesso comportamento di default.
    • high alza il riferimento del tono di sei semitoni.
    • x-high alza il riferimento del tono di 12 semitoni.

Le voci neurali espressive supportano solo valori percentuali per l'attributo pitch. Non supportano l'uso di Hertz, semitoni o parole chiave.

Il modo migliore per determinare ciò che funziona per la tua applicazione è quello di apportare modifiche in base alle percentuali e sperimentare con valori diversi. Provare le modifiche incrementali del cinque o del dieci percento prima di apportare modifiche più significative.

<prosody pitch="150Hz">Transpose pitch to 150 Hz</prosody>
<prosody pitch="-20Hz">Lower pitch by 20 Hz from baseline</prosody>
<prosody pitch="+20Hz">Increase pitch by 20 Hz from baseline</prosody>
<prosody pitch="-10%">Decrease pitch by 10 percent</prosody>
<prosody pitch="+10%">Increase pitch by 10 percent</prosody>
<prosody pitch="-12st">Lower pitch by 12 semitones from baseline</prosody>
<prosody pitch="+12st">Increase pitch by 12 semitones from baseline</prosody>
<prosody pitch="x-low">Lower pitch by 12 semitones from baseline</prosody>

L'attributo rate

L'attributo rate indica un cambiamento nella velocità di pronuncia del testo all'interno dell'elemento. I valori accettati sono:

  • Un numero senza designazione unità: la velocità viene modificata nel numero specificato di parole al minuto. Ad esempio, il valore 50 indica una frequenza di conversazione di 50 parole al minuto. Il numero è assoluto; non è possibile specificare un aumento o una diminuzione relativa delle parole al minuto.
  • Una variazione relativa in percentuale: Un numero che determina uno spostamento relativo rispetto al tasso di conversazione predefinito. Il numero è preceduto da + (un aumento) o - (una diminuzione) e seguito da % (segno di percentuale). Un numero senza segno seguito da un % viene interpretato come un aumento positivo. Ad esempio, +10% o 10%. La velocità di conversazione predefinita per una voce equivale a passare un valore di 0%.
  • Una parola chiave: Una delle sei parole chiave seguenti, che modificano la velocità di parola ai corrispondenti valori predefiniti:
    • default utilizza la velocità di conversazione predefinita del servizio.
    • x-slow riduce la velocità del 50 percento.
    • slow riduce la velocità del 25 percento.
    • medium produce lo stesso comportamento di default.
    • fast aumenta la velocità del 25 percento.
    • x-fast aumenta la velocità del 50 percento.

Le voci neurali espressive supportano solo valori percentuali per l'attributo rate. Non supportano parole al minuto o parole chiave.

Il modo migliore per determinare ciò che funziona per la tua applicazione è quello di apportare modifiche in base alle percentuali e sperimentare con valori diversi. Provare le modifiche incrementali del cinque o del dieci percento prima di apportare modifiche più significative.

<prosody rate="50">Set speaking rate to 50 words per minute</prosody>
<prosody rate="-5%">Decrease speaking rate by 5 percent</prosody>
<prosody rate="+5%">Increase speaking rate by 5 percent</prosody>
<prosody rate="slow">Decrease speaking rate by 25%</prosody>
<prosody rate="fast">Increase speaking rate by 25%</prosody>

L'elemento <say-as>

L'elemento <say-as> fornisce informazioni sul tipo di testo contenuto nell'elemento e specifica il livello di dettaglio per la resa del testo.

  • L'elemento ha un attributo obbligatorio, interpret-as, che indica in che modo deve essere interpretato il testo racchiuso tra elementi di codice.
  • L'elemento ha due attributi opzionali, format e detail, che vengono utilizzati solo con particolari valori dell'attributo interpret-as, come mostrato negli esempi seguenti.

Il servizio supporta l'elemento <say-as> con le lingue seguenti:

  • Il servizio supporta completamente l'elemento <say-as> per l'inglese (Stati Uniti).
  • Per la maggior parte delle altre lingue, il servizio supporta solo gli attributi digits e letters dell'elemento.
  • Per il giapponese, il servizio supporta solo l'attributo digits. Il servizio ignora i caratteri non numerici inclusi nella stringa di cifre.

La pronuncia predefinita del servizio di stringhe alfabetiche, numeriche e alfanumeriche varia in base alla lingua, con ogni lingua che ha le proprie regole. È possibile utilizzare l'elemento <say-as> per controllare la modalità di pronuncia delle stringhe, incluso se devono essere scritte come singoli caratteri con gli elementi letters e digits.

Per il tedesco, è anche possibile controllare il ritmo con cui il servizio pronuncia i caratteri. Per ulteriori informazioni, consultare Specifica del modo in cui le stringhe vengono scritte.

L'attributo interpret-as

Seguono valori accettabili per l'attributo interpret-as ed esempi di ciascun valore. Il servizio supporta i seguenti valori come argomenti per l'attributo interpret-as :

cardinal

Il valore cardinal esprime il numero cardinale per il valore numerico all'interno dell'elemento. I seguenti esempi specificano Super Bowl forty-nine. Il primo è superfluo dal momento che non modifica il comportamento predefinito del servizio.

Super Bowl <say-as interpret-as="cardinal">49</say-as>
Super Bowl <say-as interpret-as="cardinal">XLIX</say-as>

date

Il valore date esprime la data all'interno dell'elemento in base al formato fornito nell'attributo format associato. L'attributo format è obbligatorio per il valore date. Se non è presente alcun format, il servizio tenterà ancora di pronunciare la data. I seguenti esempi esprimono le date indicate nei formati specificati, dove d, m e y rappresentano giorno, mese e anno.

<say-as interpret-as="date" format="mdy">12/17/2005</say-as>
<say-as interpret-as="date" format="ymd">2005/12/17</say-as>
<say-as interpret-as="date" format="dmy">17/12/2005</say-as>
<say-as interpret-as="date" format="ydm">2005/17/12</say-as>
<say-as interpret-as="date" format="my">12/2005</say-as>
<say-as interpret-as="date" format="md">12/17</say-as>
<say-as interpret-as="date" format="ym">2005/12</say-as>

digits

Il valore digits esprime le cifre nel numero all'interno dell'elemento. (Il valore pronuncia anche singolarmente tutti i caratteri alfabetici inclusi nella stringa racchiusa). Il seguente esempio esprime le singole cifre 123456.

<say-as interpret-as="digits">123456</say-as>

interjection

L'attributo interjection è un'estensione SSML specifica del servizio Text to Speech. È supportato solo per l'uso con le voci neurali espressive.

Con le voci neurali espressive, il servizio enfatizza automaticamente le seguenti interiezioni: aha, hmm, huh, oh, uh, uh-huh e um. Puoi utilizzare il valore interjection per abilitare o disabilitare l'enfasi del servizio delle interiezioni aha e oh. Includere l'attributo enabled aggiuntivo con un valore di true o false per abilitare o disabilitare l'inserimento.

Il seguente esempio disabilita l'enfasi delle interiezioni aha e oh nel testo:

<say-as interpret-as='interjection' enabled='false'>Oh</say-as>, in addition, the <say-as interpret-as='interjection' enabled='false'>aha</say-as> wasp is endemic to Australia.

Per ulteriori informazioni, vedi Enfatizzazione delle interiezioni.

letters

Il valore letters specifica i caratteri nella parola all'interno dell'elemento. (Il valore pronuncia anche singolarmente tutti i caratteri numerici inclusi nella stringa racchiusa.) Il seguente esempio specifica le lettere della parola hello.

<say-as interpret-as="letters">Hello</say-as>

È inoltre possibile specificare il valore group o single con l'attributo opzionale format. Questi attributi aiutano a migliorare la leggibilità delle stringhe alfanumeriche, come la conferma di numeri e ID. Il formato single aggiunge più silenzio, scandendo i caratteri uno per uno. Il formato group aggiunge un silenzio più lungo quando si passa dalle cifre alle lettere e viceversa, e dopo aver letto ogni 3 o 4 caratteri dello stesso tipo.

<say-as interpret-as="letters" format=“single”>112A567B</say-as>
<say-as interpret-as="letters" format=“group”>3174A2W486</say-as>

number

Il valore number offre un'alternativa ai valori cardinal e ordinal. Puoi utilizzare l'attributo format facoltativo per indicare come deve essere interpretata una serie di numeri. Il primo esempio omette l'attributo format per pronunciare il numero come un valore cardinale. Il secondo esempio specifica esplicitamente che il numero deve essere pronunciato come un valore cardinal. Il terzo esempio specifica che il numero deve essere pronunciato come un valore ordinal.

<say-as interpret-as="number">123456</say-as>
<say-as interpret-as="number" format="cardinal">123456</say-as>
<say-as interpret-as="number" format="ordinal">123456</say-as>

Puoi anche specificare il valore telephone per l'attributo format. Gli esempi mostrano due diversi modi di pronunciare una serie di numeri come un numero di telefono. Per pronunciare i numeri con la punteggiatura inclusa, specifica il valore punctuation per l'attributo detail facoltativo.

<say-as interpret-as="number" format="telephone">555-555-5555</say-as>
<say-as interpret-as="number" format="telephone" detail="punctuation">555-555-5555</say-as>

ordinal

Il valore ordinal esprime il valore ordinale per la cifra all'interno dell'elemento. I seguenti esempi specificano second first.

<say-as interpret-as="ordinal">2</say-as>
<say-as interpret-as="ordinal">1</say-as>

vxml:boolean

Il valore vxml:boolean esprime yes o no a seconda del valore true o false all'interno dell'elemento.

<say-as interpret-as="vxml:boolean">true</say-as>
<say-as interpret-as="vxml:boolean">false</say-as>

vxml:currency

Il valore vxml:currency viene utilizzato per controllare la sintesi dei valori monetari. La stringa deve essere scritta nel formato UUUmm.nn, dove UUU è l'indicatore di valuta a tre caratteri specificato dallo standard ISO 4217 e mm.nn è la quantità. Il seguente esempio specifica forty-five dollars and thirty cents.

<say-as interpret-as="vxml:currency">USD45.30</say-as>

Se il numero specificato include più di due posizioni decimali, la quantità viene sintetizzata come un numero decimale seguito dall'indicatore della valuta. Se l'indicatore di valuta a tre cifre non è presente, la quantità viene sintetizzata solamente come un numero decimale e il tipo di valuta non viene pronunciato. Il seguente esempio specifica forty-five point three two nine US dollars.

<say-as interpret-as="vxml:currency">USD45.329</say-as>

vxml:date

Il valore vxml:date funziona come il valore date, ma il formato è predefinito come YYYYMMDD. Se un valore di giorno, mese o anno è sconosciuto oppure se non vuoi che venga pronunciato, sostituisci il valore con un ? (punto interrogativo). Il secondo e il terzo esempio includono punti interrogativi.

<say-as interpret-as="vxml:date">20050720</say-as>
<say-as interpret-as="vxml:date">????0720</say-as>
<say-as interpret-as="vxml:date">200507??</say-as>

vxml:time

Il valore 'vxml:time' indica l'ora all'interno dell'elemento secondo il formato indicato nell'attributo format associato. L'attributo format è necessario per il valore temporale. Il formato deve essere di quattro cifre senza suffisso, con "a", "p" o "h". Gli esempi seguenti parlano dell'ora indicata nei formati specificati, dove d, m e y rappresentano giorno, mese e anno.

<say-as interpret-as="vxml:time">1230</say-as>
<say-as interpret-as="vxml:time">1230a</say-as>
<say-as interpret-as="vxml:time">1230p</say-as>
<say-as interpret-as="vxml:time">0100h</say-as>

vxml:digits

Il valore vxml:digits offre le stesse funzionalità del valore digits.

vxml:phone

Il valore vxml:phone esprime un numero di telefono che contiene sia cifre che punteggiatura. Equivale a utilizzare il valore number e a specificare telephone per l'attributo format e punctuation per l'attributo detail.

<say-as interpret-as="vxml:phone">555-555-5555</say-as>

L'elemento <speak>

Il servizio supporta i frammenti SSML, che sono elementi SSML che non includono l'intestazione XML completa. L'elemento <speak> è facoltativo per SSML che passi al servizio.

L'elemento <speak> è l'elemento radice dei documenti SSML. Gli attributi validi sono:

  • version è un attributo obbligatorio che specifica la specifica SSML. Il valore accettato è 1.0.
  • xml:lang non è richiesto dal servizio. Ometti l'attributo quando utilizzi questo elemento. Nota che non puoi utilizzare questo attributo per cambiare la lingua per una richiesta di sintesi vocale.
  • xml:base non ha alcun effetto.
  • xmlns non è richiesto dal servizio. Ometti l'attributo quando utilizzi questo elemento.
<speak version="1.1">
  The text to be spoken.
</speak>

L'elemento <sub>

L'elemento <sub> indica che il testo specificato dall'attributo alias deve sostituire il testo racchiuso nell'elemento durante la sintesi vocale. L'attributo alias è l'unico attributo dell'elemento ed è obbligatorio.

<sub alias="International Business Machines">IBM</sub>

L'elemento <voice>

Questo elemento di <voice> richiede un cambio di voce. Non è supportato.