Lingue e voci
Il servizio IBM Watson® Text to Speech supporta varie lingue, voci e dialetti. Per lingue diverse, il servizio offre voci femminili, voci maschili o entrambe. Ogni voce usa cadenza e intonazione appropriate per il suo dialetto.
Tutte le voci del servizio utilizzano la tecnologia vocale neurale. La tecnologia vocale neurale utilizza più reti neurali profonde (DNN) per prevedere le caratteristiche acustiche (spettrali) del parlato. Le DNN sono addestrate sulla lingua naturale umana e generano l'audio risultante dalle caratteristiche acustiche previste. Durante la sintesi, le DNN prevedono la durata tonale e fonemica, la struttura spettrale e la forma d'onda del discorso. Le voci neurali producono un parlato nitido e chiaro, con una qualità audio molto naturale, fluida e coerente.
Lingue e voci supportate
Il servizio offre tre tipi di voci con qualità e capacità diverse:
- Le voci naturali offrono prestazioni avanzate in termini di naturalezza ed espressività. Queste voci utilizzano varie tecniche per ottenere un vantaggio rispetto alle voci espressive. Per un elenco di tutte le voci naturali, vedere Voci naturali.
- Le voci neurali espressive offrono un discorso dal suono naturale, eccezionalmente chiaro e nitido. La loro pronuncia e le loro inflessioni sono naturali e conversazionali, e il discorso risultante offre transizioni estremamente fluide tra le parole. Inoltre, supportano l'uso di funzioni aggiuntive che non sono disponibili con voci neurali avanzate. Per un elenco di tutte le voci espressive, vedi Voci neurali espressive.
- Le voci neurali migliorate raggiungono un alto grado di suono naturale e supportano la maggior parte delle funzionalità del servizio. Per un elenco di tutte le voci neurali avanzate, vedi Voci neurali avanzate.
Le seguenti pagine forniscono ulteriori informazioni sulle voci e la loro tecnologia:
- Per un blog che introduce le voci espressive, vedi Is your conversational AI setting the right tone?.
- Per ulteriori informazioni sulla tecnologia vocale neurale del servizio, vedi La scienza dietro il servizio.
Supporto linguistico per tipo di voce
La tabella 1 mostra il supporto del servizio per le lingue per tipo di voce. I seguenti argomenti elencano le lingue e le voci disponibili per ciascun tipo di voce.
Lingua | Voci naturali | Voci neurali espressive | Voci neurali migliorate |
---|---|---|---|
Olandese (Paesi Bassi) |
✔ | ||
Inglese (Regno Unito) |
✔ | ✔ | |
Inglese (australiano) |
✔ | ||
Inglese (Stati Uniti) |
✔ | ✔ | ✔ |
Francese (canadese) |
✔ | ||
Francese (Francia) |
✔ | ||
Tedesco | ✔ | ||
Italiano | ✔ | ||
Giapponese | ✔ | ||
Coreano | ✔ | ||
Portoghese (brasiliano) |
✔ | ✔ | |
Spagnolo (Castigliano) |
✔ | ||
Spagnolo (America Latina) |
✔ | ✔ | |
Spagnolo (Sudamericano) |
✔ |
Voci naturali
La Tabella 2 elenca e fornisce esempi audio per tutte le voci naturali disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).
Lingua | Disponibilità | Voce / Sesso | Esempio audio |
---|---|---|---|
Inglese (Stati Uniti) |
GA | en-US_EllieNatural Femmina |
Voci neurali espressive
La Tabella 3 elenca e fornisce esempi audio per tutte le voci neurali espressive disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).
- Le voci neurali espressive supportano ulteriori funzionalità che non sono disponibili con altri tipi di voci. Queste caratteristiche includono ulteriori stili di conversazione, l'enfasi automatica delle interiezioni e l'enfasi delle parole specificate. Per ulteriori informazioni, vedi Modifica della sintesi vocale con voci neurali espressive.
- Quando utilizzato con l'elemento
<prosody>
SSML, le voci espressive supportano solo valori percentuali per gli attributirate
epitch
. Per ulteriori informazioni, vedere Elemento<prosody>
.
Le voci neurali espressive determinano il sentimento dal contesto e utilizzano automaticamente l'intonazione appropriata per adattarsi al testo. Per produrre la prosodia più naturale, le voci neurali espressive devono considerare il contesto di tutte le parole e le frasi di una frase. Le voci espressive sono quindi più complesse e hanno una latenza leggermente superiore rispetto ad altri tipi di voci. La risposta iniziale per una richiesta di sintesi che utilizza una voce espressiva potrebbe richiedere una frazione di secondo in più (ad esempio, poche centinaia di millisecondi) per arrivare. Anche il tempo di risposta totale per il completamento della richiesta è più lungo.
Per ridurre al minimo la latenza e il tempo di risposta per una voce espressiva, utilizzare frasi più brevi laddove possibile.
Lingua | Disponibilità | Voce / Sesso | Esempio audio |
---|---|---|---|
Inglese (australiano) |
GA | en-AU_HeidiExpressive Femmina |
|
GA | en-AU_JackExpressive Maschio |
||
Inglese (Stati Uniti) |
GA | en-US_AllisonExpressive Femmina |
|
GA | en-US_EmmaExpressive Femmina |
||
GA | en-US_LisaExpressive Femmina |
||
GA | en-US_MichaelExpressive Maschio |
||
Inglese (Regno Unito) |
GA | en-GB_GeorgeExpressive Maschio |
|
Portoghese (brasiliano) |
GA | pt-BR_LucasExpressive Maschio |
|
Spagnolo (America Latina) |
GA | es-LA_DanielaExpressive Femmina |
Voci neurali migliorate
La Tabella 4 elenca e fornisce esempi audio per tutte le voci neurali potenziate disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub o tutte e tre (non viene citata alcuna versione del prodotto).
Lingua | Disponibilità | Voce / Sesso | Esempio audio |
---|---|---|---|
Olandese (Paesi Bassi) |
Beta | nl-NL_MerelV3Voice Femmina |
|
Inglese (Regno Unito) |
GA | en-GB_CharlotteV3Voice Femmina |
|
GA | en-GB_JamesV3Voice Maschio |
||
GA | en-GB_KateV3Voice Femmina |
||
Inglese (Stati Uniti) |
GA | en-US_AllisonV3Voice Femmina |
|
GA | en-US_EmilyV3Voice Femmina |
||
GA | en-US_HenryV3Voice Maschio |
||
GA | en-US_KevinV3Voice Maschio |
||
GA | en-US_LisaV3Voice Femmina |
||
GA | en-US_MichaelV3Voice Maschio |
||
GA | en-US_OliviaV3Voice Femmina |
||
Francese (canadese) |
GA | fr-CA_LouiseV3Voice Femmina |
|
Francese (Francia) |
GA | fr-FR_NicolasV3Voice Maschio |
|
GA | fr-FR_ReneeV3Voice Femmina |
||
Tedesco | GA | de-DE_BirgitV3Voice Femmina |
|
GA | de-DE_DieterV3Voice Maschio |
||
GA | de-DE_ErikaV3Voice Femmina |
||
Italiano | GA | it-IT_FrancescaV3Voice Femmina |
|
Giapponese | GA | ja-JP_EmiV3Voice Femmina |
|
Coreano | GA | ko-KR_JinV3Voice Femmina |
|
Portoghese (brasiliano) |
GA | pt-BR_IsabelaV3Voice Femmina |
|
Spagnolo (Castigliano) |
GA | es-ES_EnriqueV3Voice Maschio |
|
GA | es-ES_LauraV3Voice Femmina |
||
Spagnolo (America Latina) |
GA | es-LA_SofiaV3Voice Femmina |
|
Spagnolo (Nord America) |
GA | es-US_SofiaV3Voice Femmina |
Le voci Sofia
in spagnolo latino americano e nord americano sono essenzialmente la stessa voce. La differenza più significativa riguarda il modo in cui le due voci interpretano $ (segno del dollaro). La versione latinoamericana
utilizza il termine pesos, quella nordamericana il termine dólares. Tra le due voci potrebbero esistere anche altre piccole differenze.
Creazione di un modello personalizzato
Quando sintetizzi il testo, il servizio applica le regole di pronuncia specifiche della lingua per convertire l'ortografia ordinaria di ciascuna parola in un'ortografia fonetica. Le regole di pronuncia del servizio funzionano bene per le parole comuni, ma possono fornire risultati imperfetti per le parole inusuali, ad esempio i termini con origini straniere, i nomi personali e le abbreviazioni o gli acronimi. Se il dizionario della tua applicazione include parole di questo tipo, puoi utilizzare l'interfaccia personalizzata per specificare il modo in cui il servizio le pronuncia.
Un modello personalizzato è un dizionario di parole e le loro traduzioni. Si crea un modello personalizzato per una lingua specifica, non per una voce specifica. Quindi un modello personalizzato può essere utilizzato con qualsiasi voce per la
lingua specificata. Ad esempio, un modello personalizzato che crei per la lingua en-US
può essere utilizzato con qualsiasi voce in inglese (Stati Uniti). Tuttavia, non può essere utilizzato con una voce en-GB
o en-AU
.
La personalizzazione è disponibile per tutte le lingue. Tutte le voci supportano l'utilizzo di simboli fonetici IPA (International Phonetic Alphabet) standard e IBM per la personalizzazione delle parole. Per ulteriori informazioni, vedi Informazioni sulla personalizzazione.
Creazione di una voce personalizzata
IBM Cloud
I clienti Premium possono collaborare con IBM per formare una nuova voce personalizzata per il loro caso d'uso specifico e il loro mercato di riferimento. La creazione di una voce personalizzata è diversa dalla personalizzazione di una delle voci esistenti del servizio. Una voce personalizzata è una nuova voce unica che si basa sui dati di formazione audio forniti dal cliente. IBM può addestrare una voce personalizzata con almeno un'ora di dati di addestramento.
Per richiedere una voce personalizzata o per ulteriori informazioni, completa e inoltra questo IBM Modulo di richiesta.