Elementi SSML
Con il servizio IBM Watson® Text to Speech, è possibile utilizzare la maggior parte degli elementi e degli attributi dello Speech Synthesis Markup Language (SSML) per controllare la sintesi del testo.
Elementi e attributi supportati
La Tabella 1 riassume il supporto del servizio per gli elementi e gli attributi SSML:
- Completo indica che il servizio supporta completamente l'elemento o l'attributo con le sue interfacce HTTP e WebSocket.
- Parziale significa che il supporto del servizio per l'elemento o l'attributo è limitato in uno dei modi seguenti:
- Il servizio supporta solo alcuni aspetti dell'elemento o dell'attributo.
- Il servizio supporta l'elemento o l'attributo solo con alcune delle sue voci.
- Il servizio supporta l'elemento o l'attributo con una sola delle sue interfacce, HTTP o WebSocket.
- Nessuno indica che il servizio non supporta l'elemento o l'attributo.
Le seguenti sezioni forniscono le descrizioni di ciascun elemento o attributo, inclusi esempi, limitazioni e se il supporto del servizio differisce da SSML standard. Il supporto per alcuni attributi e valori differisce leggermente dalle specifiche SSML. Per ulteriori informazioni, vedere W3C Speech Synthesis Markup Language(SSML)Versione 1.1.
Elemento o attributo | Supporto | Elemento o attributo | Supporto |
---|---|---|---|
Elemento <audio> |
Nessuno | Elemento <prosody> |
Parziale |
Elemento <break> |
Completo |
|
Nessuno |
Elemento <desc> |
Nessuno |
|
Nessuno |
Elemento <emphasis> |
Parziale | Completo | |
Elemento <express-as> |
Parziale |
|
Nessuno |
Elemento <lexicon> |
Nessuno | Completo | |
Elemento <mark> |
Parziale |
|
Nessuno |
Elemento <meta> |
Nessuno | Elemento <say-as> |
Parziale |
Elemento <metadata> |
Nessuno | Parziale | |
Elemento <paragraph> |
Completo | Elemento <sentence> |
Completo |
Elemento <phoneme> |
Completo | Elemento <speak> |
Completo |
Elemento <sub> |
Completo | ||
Elemento <voice> |
Nessuno |
L'elemento <audio>
Questo elemento di <audio>
inserisce elementi registrati nell'audio generato dal servizio. Non è supportato.
L'elemento <break>
L'elemento <break>
inserisce una pausa nel testo parlato. Presenta i seguenti attributi facoltativi:
strength
specifica la lunghezza della pausa in termini di variazione dei valori di intensità:none
elimina l'interruzione che potrebbe altrimenti essere eseguita durante l'elaborazione.x-weak
,weak
,medium
,strong
ox-strong
inseriscono interruzioni che diventano sempre più potenti.
time
specifica la lunghezza della pausa in termini di secondi o millisecondi. I formati di valore validi sono{integer}s
per i secondi o{integer}ms
per i millisecondi.
Break size <break strength="none"/> no pause
Break size <break strength="x-weak"/> x-weak pause
Break size <break strength="weak"/> weak pause
Break size <break strength="medium"/> medium pause
Break size <break strength="strong"/> strong pause
Break size <break strength="x-strong"/> x-strong pause
Break size <break time="1s"/> one-second pause
Break size <break time="1500ms"/> 1500-millisecond pause
L'elemento <break>
è una funzionalità beta per le voci naturali.
L'elemento <desc>
L'elemento <desc>
può essere presente solo all'interno di un elemento <audio>
. Poiché l'elemento <audio>
non è supportato, non lo è nemmeno l'elemento <desc>
.
L'elemento <emphasis>
L'elemento <emphasis>
è supportato solo per l'utilizzo con le voci neurali espressive.
Con le voci neurali espressive, è possibile utilizzare l'elemento <emphasis>
per enfatizzare o deenfatizzare una o più parole del testo di input. L'elemento supporta un attributo level
facoltativo che accetta
uno dei seguenti valori:
none
- impedisce al servizio di enfatizzare il testo che potrebbe altrimenti essere enfatizzato.moderate
- Fornisce una notevole quantità di enfasi sul testo. Questo livello è quello predefinito se si omette l'attributolevel
.strong
- Fornisce una quantità più significativa di enfasi al testo rispetto al livello moderato fornito.reduced
- De - enfatizza il testo tendendo a ridurre il suo significato nell'audio. Questo livello è l'opposto di sottolineare il testo.
Il seguente esempio applica il livello moderate
alla parola give
:
I am going to <emphasis level="moderate">give</emphasis> her the book.
Per ulteriori informazioni, vedi Sottolineatura delle parole.
L'elemento <express-as>
L'elemento <express-as>
è un'estensione SSML specifica del servizio Text to Speech. È supportato solo per l'uso con le voci neurali espressive.
Con le voci neurali espressive, puoi utilizzare l'elemento <express-as>
per applicare gli stili di conversazione per migliorare l'enfasi del servizio di determinate caratteristiche per tutto o parte del testo di input. L'elemento
supporta un attributo style
obbligatorio che accetta uno dei seguenti stili di conversazione:
cheerful
- Esprime felicità e buone notizie.empathetic
- Espone empatia e compassione.neutral
- Esprime obiettività e uniformità.uncertain
- Esprime confusione e incertezza.
Il seguente esempio applica lo stile cheerful
all'intero testo di immissione:
<express-as style="cheerful">Oh, that's good news! I'm glad that we could help.</express-as>
Per ulteriori informazioni, consultare Utilizzo degli stili di conversazione.
L'elemento <lexicon>
Questo elemento di <lexicon>
introduce i dizionari di pronuncia per il documento SSML dato. Non è supportato.
Puoi utilizzare l'interfaccia di personalizzazione del servizio per definire un dizionario di voci personalizzate (coppie di parole/traduzioni) da utilizzare durante la sintesi vocale. Per ulteriori informazioni, vedi Informazioni sulla personalizzazione.
L'elemento <mark>
L'elemento <mark>
è supportato solo dall'interfaccia WebSocket del servizio, non dall'interfaccia HTTP, che ignora l'elemento. Per ulteriori informazioni, vedi Specifica di un contrassegno SSML.
L'elemento <mark>
non è supportato per le voci naturali.
L'elemento <mark>
è un elemento vuoto che inserisce un marcatore nel testo da sintetizzare. Il client viene avvisato quando tutto il testo che precede l'elemento <mark>
è stato sintetizzato. L'elemento accetta
un singolo attributo name
che specifica una stringa che identifica in modo univoco il contrassegno; il nome deve iniziare con un carattere alfanumerico. Il nome viene restituito insieme al tempo in cui si presenta il contrassegno
nell'audio sintetizzato.
Hello <mark name="here"/> world.
Gli elementi <meta>
e <metadata>
Gli elementi <meta>
e <metadata>
sono contenitori in cui è possibile inserire informazioni sul documento. Non sono supportati.
Gli elementi <paragraph>
e <sentence>
Gli elementi <paragraph>
(o <p>
) e <sentence>
(o <s>
) sono elementi opzionali che possono essere usati per dare suggerimenti sulla struttura testuale. Se il testo racchiuso
in un elemento <paragraph>
o <sentence>
non termina con un carattere di punteggiatura di fine frase (come un punto), il servizio aggiunge una pausa più lunga del normale all'audio sintetizzato.
L'unico attributo valido per l'elemento è xml:lang
, che consente di passare da una lingua all'altra. L'attributo non è supportato.
<paragraph>
<sentence>Text within a sentence element.</sentence>
<s>More text in another sentence.</s>
</paragraph>
L'elemento <phoneme>
L'elemento <phoneme>
fornisce una pronuncia fonetica del testo allegato. L'ortografia fonetica rappresenta il suono di una parola, in che modo viene sillabato e su quali sillabe viene utilizzato l'accento (stress). L'elemento
ha due attributi:
-
alphabet
è un attributo facoltativo che specifica la fonologia da utilizzare. Gli alfabeti supportati sono:- L'alfabeto fonetico internazionale (IPA) standard:
alphabet="ipa"
. - Il sito IBM Rappresentazione fonetica simbolica (SPR):
alphabet="ibm"
.
Se non viene specificato alcun alfabeto, il servizio utilizza IBM SPR per impostazione predefinita. Per ulteriori informazioni, vedi Descrizione dei simboli fonetici.
- L'alfabeto fonetico internazionale (IPA) standard:
-
ph
è un attributo obbligatorio che fornisce la pronuncia nell'alfabeto indicato. Gli esempi riportati di seguito mostrano la pronuncia della parola tomato in entrambi i formati:-
Formato IPA:
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
-
Formato IPA con simboli Unicode:
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
-
Formato IBM SPR:
<phoneme alphabet="ibm" ph=".0tx.1me.0Fo">tomato</phoneme>
-
Per ulteriori informazioni sull'uso delle notazioni SPR e IPA con l'elemento <phoneme>
, vedere Comprensione dei simboli fonetici.
L'elemento <prosody>
L'elemento <prosody>
controlla l'intonazione e la velocità di riproduzione del testo. Tutti gli attributi sono facoltativi, ma si verifica un errore se non si specifica almeno un attributo con l'elemento.
Il servizio supporta i due seguenti attributi della specifica SSML:
La specifica SSML offre anche quattro attributi che il servizio non supporta:
- L'attributo
contour
- L'attributo
range
- L'attributo
duration
- L'attributo
volume
Il servizio supporta anche parametri di query che ti consentono di regolare la frequenza e il tono per tutto il testo di una richiesta di sintesi vocale. Per ulteriori informazioni sui parametri e la relativa interazione con gli attributi pitch
e rate
dell'elemento <prosody>
, consultare
L'elemento <prosody>
non è supportato per le voci naturali.
Differenze rispetto alla specifica SSML versione 1.1
Il servizio Text to Speech basa il suo supporto SSML su W3C Speech Synthesis Markup Language(SSML)Version 1.1. Tuttavia, la specifica SSML si è evoluta da
quando il servizio è stato rilasciato per la prima volta. Per mantenere la compatibilità con le versioni precedenti per gli utenti, il servizio continua a supportare alcune funzioni dell'elemento <prosody>
che sono differenti
dalla specifica SSML più recente.
-
Per l'attributo
pitch
, il servizio supporta le seguenti funzioni aggiuntive:- Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un
%
(segno di percentuale). Il tono predefinito per una voce equivale a passare un valore di0%
. - Una modifica relativa nei semitoni indicata da un numero con segno o senza segno e seguita dalla stringa
st
.
- Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un
-
Per l'attributo
rate
, il servizio supporta le seguenti funzioni aggiuntive:- Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un
%
(segno di percentuale). La velocità di conversazione predefinita per una voce equivale a passare un valore di0%
. - Un numero senza designazione unità specifica il numero di parola al minuto. Il numero è assoluto; non è possibile specificare un aumento o una diminuzione relativa delle parole al minuto.
- Una modifica relativa in percentuale indicata da un numero con segno o senza segno e seguita da un
-
Per le voci neurali espressive, gli attributi
pitch
erate
supportano solo valori percentuali.- Per l'attributo
pitch
, non utilizzare Hertz, semitoni o parole chiave. - Per l'attributo
rate
, non utilizzare parole al minuto o parole chiave.
- Per l'attributo
Per ulteriori informazioni sulle funzioni supportate da SSML versione 1.1, fare riferimento alla sezione 3.2.4 prosody Element della specifica SSML.
L'attributo pitch
L'attributo pitch
modifica l'altezza di base, o tono, del testo all'interno dell'elemento. I valori accettati sono:
- Un numero seguito dalla designazione
Hz
(Hertz): L'intonazione di base viene trasposta (verso l'alto o verso il basso) al valore specificato. Ad esempio,150Hz
. - Una variazione relativa in percentuale: Un numero che causa uno spostamento relativo rispetto alla linea di base predefinita. Il numero è preceduto da
+
(un aumento) o-
(una diminuzione) e seguito da%
(segno di percentuale). Un numero senza segno seguito da un%
viene interpretato come un aumento positivo. Ad esempio,+10%
o10%
. Il tono predefinito per una voce equivale a passare un valore di0%
. - Una variazione relativa in semitoni: Un numero che causa uno spostamento assoluto dalla linea di base predefinita. Il numero è preceduto da
+
(un aumento) o-
(una diminuzione) e seguito dast
(semitoni). Un numero senza segno seguito dast
viene interpretato come un aumento positivo. Ad esempio,+5st
o5st
. - Una parola chiave: Una delle sei parole chiave seguenti, che modificano l'intonazione ai corrispondenti valori predefiniti:
default
utilizza il tono di riferimento predefinito del servizio.x-low
abbassa il riferimento del tono di 12 semitoni.low
abbassa il riferimento del tono di sei semitoni.medium
produce lo stesso comportamento didefault
.high
alza il riferimento del tono di sei semitoni.x-high
alza il riferimento del tono di 12 semitoni.
Le voci neurali espressive supportano solo valori percentuali per l'attributo pitch
. Non supportano l'uso di Hertz, semitoni o parole chiave.
Il modo migliore per determinare ciò che funziona per la tua applicazione è quello di apportare modifiche in base alle percentuali e sperimentare con valori diversi. Provare le modifiche incrementali del cinque o del dieci percento prima di apportare modifiche più significative.
<prosody pitch="150Hz">Transpose pitch to 150 Hz</prosody>
<prosody pitch="-20Hz">Lower pitch by 20 Hz from baseline</prosody>
<prosody pitch="+20Hz">Increase pitch by 20 Hz from baseline</prosody>
<prosody pitch="-10%">Decrease pitch by 10 percent</prosody>
<prosody pitch="+10%">Increase pitch by 10 percent</prosody>
<prosody pitch="-12st">Lower pitch by 12 semitones from baseline</prosody>
<prosody pitch="+12st">Increase pitch by 12 semitones from baseline</prosody>
<prosody pitch="x-low">Lower pitch by 12 semitones from baseline</prosody>
L'attributo rate
L'attributo rate
indica un cambiamento nella velocità di pronuncia del testo all'interno dell'elemento. I valori accettati sono:
- Un numero senza designazione unità: la velocità viene modificata nel numero specificato di parole al minuto. Ad esempio, il valore
50
indica una frequenza di conversazione di 50 parole al minuto. Il numero è assoluto; non è possibile specificare un aumento o una diminuzione relativa delle parole al minuto. - Una variazione relativa in percentuale: Un numero che determina uno spostamento relativo rispetto al tasso di conversazione predefinito. Il numero è preceduto da
+
(un aumento) o-
(una diminuzione) e seguito da%
(segno di percentuale). Un numero senza segno seguito da un%
viene interpretato come un aumento positivo. Ad esempio,+10%
o10%
. La velocità di conversazione predefinita per una voce equivale a passare un valore di0%
. - Una parola chiave: Una delle sei parole chiave seguenti, che modificano la velocità di parola ai corrispondenti valori predefiniti:
default
utilizza la velocità di conversazione predefinita del servizio.x-slow
riduce la velocità del 50 percento.slow
riduce la velocità del 25 percento.medium
produce lo stesso comportamento didefault
.fast
aumenta la velocità del 25 percento.x-fast
aumenta la velocità del 50 percento.
Le voci neurali espressive supportano solo valori percentuali per l'attributo rate
. Non supportano parole al minuto o parole chiave.
Il modo migliore per determinare ciò che funziona per la tua applicazione è quello di apportare modifiche in base alle percentuali e sperimentare con valori diversi. Provare le modifiche incrementali del cinque o del dieci percento prima di apportare modifiche più significative.
<prosody rate="50">Set speaking rate to 50 words per minute</prosody>
<prosody rate="-5%">Decrease speaking rate by 5 percent</prosody>
<prosody rate="+5%">Increase speaking rate by 5 percent</prosody>
<prosody rate="slow">Decrease speaking rate by 25%</prosody>
<prosody rate="fast">Increase speaking rate by 25%</prosody>
L'elemento <say-as>
L'elemento <say-as>
fornisce informazioni sul tipo di testo contenuto nell'elemento e specifica il livello di dettaglio per la resa del testo.
- L'elemento ha un attributo obbligatorio,
interpret-as
, che indica in che modo deve essere interpretato il testo racchiuso tra elementi di codice. - L'elemento ha due attributi opzionali,
format
edetail
, che vengono utilizzati solo con particolari valori dell'attributointerpret-as
, come mostrato negli esempi seguenti.
Il servizio supporta l'elemento <say-as>
con le lingue seguenti:
- Il servizio supporta completamente l'elemento
<say-as>
per l'inglese (Stati Uniti). - Per la maggior parte delle altre lingue, il servizio supporta solo gli attributi
digits
eletters
dell'elemento. - Per il giapponese, il servizio supporta solo l'attributo
digits
. Il servizio ignora i caratteri non numerici inclusi nella stringa di cifre.
La pronuncia predefinita del servizio di stringhe alfabetiche, numeriche e alfanumeriche varia in base alla lingua, con ogni lingua che ha le proprie regole. È possibile utilizzare l'elemento <say-as>
per controllare la modalità
di pronuncia delle stringhe, incluso se devono essere scritte come singoli caratteri con gli elementi letters
e digits
.
Per il tedesco, è anche possibile controllare il ritmo con cui il servizio pronuncia i caratteri. Per ulteriori informazioni, consultare Specifica del modo in cui le stringhe vengono scritte.
L'attributo interpret-as
Seguono valori accettabili per l'attributo interpret-as
ed esempi di ciascun valore. Il servizio supporta i seguenti valori come argomenti per l'attributo interpret-as
:
cardinal
date
digits
interjection
letters
number
ordinal
vxml:boolean
vxml:currency
vxml:date
vxml:time
vxml:digits
vxml:phone
cardinal
Il valore cardinal
esprime il numero cardinale per il valore numerico all'interno dell'elemento. I seguenti esempi specificano Super Bowl forty-nine. Il primo è superfluo dal momento che non modifica il comportamento
predefinito del servizio.
Super Bowl <say-as interpret-as="cardinal">49</say-as>
Super Bowl <say-as interpret-as="cardinal">XLIX</say-as>
date
Il valore date
esprime la data all'interno dell'elemento in base al formato fornito nell'attributo format
associato. L'attributo format
è obbligatorio per il valore date
. Se non è presente
alcun format
, il servizio tenterà ancora di pronunciare la data. I seguenti esempi esprimono le date indicate nei formati specificati, dove d
, m
e y
rappresentano giorno, mese e anno.
<say-as interpret-as="date" format="mdy">12/17/2005</say-as>
<say-as interpret-as="date" format="ymd">2005/12/17</say-as>
<say-as interpret-as="date" format="dmy">17/12/2005</say-as>
<say-as interpret-as="date" format="ydm">2005/17/12</say-as>
<say-as interpret-as="date" format="my">12/2005</say-as>
<say-as interpret-as="date" format="md">12/17</say-as>
<say-as interpret-as="date" format="ym">2005/12</say-as>
digits
Il valore digits
esprime le cifre nel numero all'interno dell'elemento. (Il valore pronuncia anche singolarmente tutti i caratteri alfabetici inclusi nella stringa racchiusa). Il seguente esempio esprime le singole cifre 123456.
<say-as interpret-as="digits">123456</say-as>
interjection
L'attributo interjection
è un'estensione SSML specifica del servizio Text to Speech. È supportato solo per l'uso con le voci neurali espressive.
Con le voci neurali espressive, il servizio enfatizza automaticamente le seguenti interiezioni: aha
, hmm
, huh
, oh
, uh
, uh-huh
e um
. Puoi utilizzare
il valore interjection
per abilitare o disabilitare l'enfasi del servizio delle interiezioni aha
e oh
. Includere l'attributo enabled
aggiuntivo con un valore di true
o false
per abilitare o disabilitare l'inserimento.
Il seguente esempio disabilita l'enfasi delle interiezioni aha
e oh
nel testo:
<say-as interpret-as='interjection' enabled='false'>Oh</say-as>, in addition, the <say-as interpret-as='interjection' enabled='false'>aha</say-as> wasp is endemic to Australia.
Per ulteriori informazioni, vedi Enfatizzazione delle interiezioni.
letters
Il valore letters
specifica i caratteri nella parola all'interno dell'elemento. (Il valore pronuncia anche singolarmente tutti i caratteri numerici inclusi nella stringa racchiusa.) Il seguente esempio specifica le lettere della
parola hello.
<say-as interpret-as="letters">Hello</say-as>
È inoltre possibile specificare il valore group
o single
con l'attributo opzionale format
. Questi attributi aiutano a migliorare la leggibilità delle stringhe alfanumeriche, come la conferma di numeri
e ID. Il formato single
aggiunge più silenzio, scandendo i caratteri uno per uno. Il formato group
aggiunge un silenzio più lungo quando si passa dalle cifre alle lettere e viceversa, e dopo aver letto ogni 3
o 4 caratteri dello stesso tipo.
<say-as interpret-as="letters" format=“single”>112A567B</say-as>
<say-as interpret-as="letters" format=“group”>3174A2W486</say-as>
number
Il valore number
offre un'alternativa ai valori cardinal
e ordinal
. Puoi utilizzare l'attributo format
facoltativo per indicare come deve essere interpretata una serie di numeri. Il primo
esempio omette l'attributo format
per pronunciare il numero come un valore cardinale. Il secondo esempio specifica esplicitamente che il numero deve essere pronunciato come un valore cardinal
. Il terzo esempio
specifica che il numero deve essere pronunciato come un valore ordinal
.
<say-as interpret-as="number">123456</say-as>
<say-as interpret-as="number" format="cardinal">123456</say-as>
<say-as interpret-as="number" format="ordinal">123456</say-as>
Puoi anche specificare il valore telephone
per l'attributo format
. Gli esempi mostrano due diversi modi di pronunciare una serie di numeri come un numero di telefono. Per pronunciare i numeri con la punteggiatura
inclusa, specifica il valore punctuation
per l'attributo detail
facoltativo.
<say-as interpret-as="number" format="telephone">555-555-5555</say-as>
<say-as interpret-as="number" format="telephone" detail="punctuation">555-555-5555</say-as>
ordinal
Il valore ordinal
esprime il valore ordinale per la cifra all'interno dell'elemento. I seguenti esempi specificano second first.
<say-as interpret-as="ordinal">2</say-as>
<say-as interpret-as="ordinal">1</say-as>
vxml:boolean
Il valore vxml:boolean
esprime yes o no a seconda del valore true
o false
all'interno dell'elemento.
<say-as interpret-as="vxml:boolean">true</say-as>
<say-as interpret-as="vxml:boolean">false</say-as>
vxml:currency
Il valore vxml:currency
viene utilizzato per controllare la sintesi dei valori monetari. La stringa deve essere scritta nel formato UUUmm.nn
, dove UUU
è l'indicatore di valuta a tre caratteri specificato
dallo standard ISO 4217 e mm.nn
è la quantità. Il seguente esempio specifica forty-five dollars and thirty cents.
<say-as interpret-as="vxml:currency">USD45.30</say-as>
Se il numero specificato include più di due posizioni decimali, la quantità viene sintetizzata come un numero decimale seguito dall'indicatore della valuta. Se l'indicatore di valuta a tre cifre non è presente, la quantità viene sintetizzata solamente come un numero decimale e il tipo di valuta non viene pronunciato. Il seguente esempio specifica forty-five point three two nine US dollars.
<say-as interpret-as="vxml:currency">USD45.329</say-as>
vxml:date
Il valore vxml:date
funziona come il valore date
, ma il formato è predefinito come YYYYMMDD
. Se un valore di giorno, mese o anno è sconosciuto oppure se non vuoi che venga pronunciato, sostituisci il
valore con un ?
(punto interrogativo). Il secondo e il terzo esempio includono punti interrogativi.
<say-as interpret-as="vxml:date">20050720</say-as>
<say-as interpret-as="vxml:date">????0720</say-as>
<say-as interpret-as="vxml:date">200507??</say-as>
vxml:time
Il valore 'vxml:time' indica l'ora all'interno dell'elemento secondo il formato indicato nell'attributo format associato. L'attributo format è necessario per il valore temporale. Il formato deve essere di quattro cifre senza suffisso, con "a", "p" o "h". Gli esempi seguenti parlano dell'ora indicata nei formati specificati, dove d, m e y rappresentano giorno, mese e anno.
<say-as interpret-as="vxml:time">1230</say-as>
<say-as interpret-as="vxml:time">1230a</say-as>
<say-as interpret-as="vxml:time">1230p</say-as>
<say-as interpret-as="vxml:time">0100h</say-as>
vxml:digits
Il valore vxml:digits
offre le stesse funzionalità del valore digits
.
vxml:phone
Il valore vxml:phone
esprime un numero di telefono che contiene sia cifre che punteggiatura. Equivale a utilizzare il valore number
e a specificare telephone
per l'attributo format
e punctuation
per l'attributo detail
.
<say-as interpret-as="vxml:phone">555-555-5555</say-as>
L'elemento <speak>
Il servizio supporta i frammenti SSML, che sono elementi SSML che non includono l'intestazione XML completa. L'elemento <speak>
è facoltativo per SSML che passi al servizio.
L'elemento <speak>
è l'elemento radice dei documenti SSML. Gli attributi validi sono:
version
è un attributo obbligatorio che specifica la specifica SSML. Il valore accettato è1.0
.xml:lang
non è richiesto dal servizio. Ometti l'attributo quando utilizzi questo elemento. Nota che non puoi utilizzare questo attributo per cambiare la lingua per una richiesta di sintesi vocale.xml:base
non ha alcun effetto.xmlns
non è richiesto dal servizio. Ometti l'attributo quando utilizzi questo elemento.
<speak version="1.1">
The text to be spoken.
</speak>
L'elemento <sub>
L'elemento <sub>
indica che il testo specificato dall'attributo alias
deve sostituire il testo racchiuso nell'elemento durante la sintesi vocale. L'attributo alias
è l'unico attributo dell'elemento
ed è obbligatorio.
<sub alias="International Business Machines">IBM</sub>
L'elemento <voice>
Questo elemento di <voice>
richiede un cambio di voce. Non è supportato.