Lingue e voci

Il servizio IBM Watson® Text to Speech supporta varie lingue, voci e dialetti. Per lingue diverse, il servizio offre voci femminili, voci maschili o entrambe. Ogni voce usa cadenza e intonazione appropriate per il suo dialetto.

Tutte le voci del servizio utilizzano la tecnologia vocale neurale. La tecnologia vocale neurale utilizza più reti neurali profonde (DNN) per prevedere le caratteristiche acustiche (spettrali) del parlato. Le DNN sono addestrate sulla lingua naturale umana e generano l'audio risultante dalle caratteristiche acustiche previste. Durante la sintesi, le DNN prevedono la durata tonale e fonemica, la struttura spettrale e la forma d'onda del discorso. Le voci neurali producono un parlato nitido e chiaro, con una qualità audio molto naturale, fluida e coerente.

Lingue e voci supportate

Il servizio offre tre tipi di voci con qualità e capacità diverse:

Le voci naturali offrono prestazioni avanzate in termini di naturalezza ed espressività. Queste voci utilizzano varie tecniche per ottenere un vantaggio rispetto alle voci espressive. Per un elenco di tutte le voci naturali, vedere Voci naturali.
Le voci neurali espressive offrono un discorso dal suono naturale, eccezionalmente chiaro e nitido. La loro pronuncia e le loro inflessioni sono naturali e conversazionali, e il discorso risultante offre transizioni estremamente fluide tra le parole. Inoltre, supportano l'uso di funzioni aggiuntive che non sono disponibili con voci neurali avanzate. Per un elenco di tutte le voci espressive, vedi Voci neurali espressive.
Le voci neurali migliorate raggiungono un alto grado di suono naturale e supportano la maggior parte delle funzionalità del servizio. Per un elenco di tutte le voci neurali avanzate, vedi Voci neurali avanzate.

Le seguenti pagine forniscono ulteriori informazioni sulle voci e la loro tecnologia:

Per un blog che introduce le voci espressive, vedi Is your conversational AI setting the right tone?.
Per ulteriori informazioni sulla tecnologia vocale neurale del servizio, vedi La scienza dietro il servizio.

Supporto linguistico per tipo di voce

La tabella 1 mostra il supporto del servizio per le lingue per tipo di voce. I seguenti argomenti elencano le lingue e le voci disponibili per ciascun tipo di voce.

Supporto linguistico per tipo di voce
Lingua	Voci naturali	Voci neurali espressive	Voci neurali migliorate
Olandese (Paesi Bassi)			✔
Inglese (Regno Unito)		✔	✔
Inglese (australiano)		✔
Inglese (Stati Uniti)	✔	✔	✔
Francese (canadese)			✔
Francese (Francia)			✔
Tedesco			✔
Italiano			✔
Giapponese			✔
Coreano			✔
Portoghese (brasiliano)		✔	✔
Spagnolo (Castigliano)			✔
Spagnolo (America Latina)		✔	✔
Spagnolo (Sudamericano)			✔

Voci naturali

La Tabella 2 elenca e fornisce esempi audio per tutte le voci naturali disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).

Lingue e voci naturali
Lingua	Disponibilità	Voce / Sesso	Esempio audio
Inglese (Stati Uniti)	GA	`en-US_EllieNatural` Femmina

Voci neurali espressive

La Tabella 3 elenca e fornisce esempi audio per tutte le voci neurali espressive disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).

Le voci neurali espressive supportano ulteriori funzionalità che non sono disponibili con altri tipi di voci. Queste caratteristiche includono ulteriori stili di conversazione, l'enfasi automatica delle interiezioni e l'enfasi delle parole specificate. Per ulteriori informazioni, vedi Modifica della sintesi vocale con voci neurali espressive.
Quando utilizzato con l'elemento <prosody> SSML, le voci espressive supportano solo valori percentuali per gli attributi rate e pitch. Per ulteriori informazioni, vedere Elemento <prosody>.

Le voci neurali espressive determinano il sentimento dal contesto e utilizzano automaticamente l'intonazione appropriata per adattarsi al testo. Per produrre la prosodia più naturale, le voci neurali espressive devono considerare il contesto di tutte le parole e le frasi di una frase. Le voci espressive sono quindi più complesse e hanno una latenza leggermente superiore rispetto ad altri tipi di voci. La risposta iniziale per una richiesta di sintesi che utilizza una voce espressiva potrebbe richiedere una frazione di secondo in più (ad esempio, poche centinaia di millisecondi) per arrivare. Anche il tempo di risposta totale per il completamento della richiesta è più lungo.

Per ridurre al minimo la latenza e il tempo di risposta per una voce espressiva, utilizzare frasi più brevi laddove possibile.

Linguaggi neurali espressivi e voci
Lingua	Disponibilità	Voce / Sesso
Inglese (australiano)	GA	`en-AU_HeidiExpressive` Femmina
	GA	`en-AU_JackExpressive` Maschio
Inglese (Stati Uniti)	GA	`en-US_AllisonExpressive` Femmina
	GA	`en-US_EmmaExpressive` Femmina
	GA	`en-US_LisaExpressive` Femmina
	GA	`en-US_MichaelExpressive` Maschio
Inglese (Regno Unito)	GA	`en-GB_GeorgeExpressive` Maschio
Portoghese (brasiliano)	GA	`pt-BR_LucasExpressive` Maschio
Spagnolo (America Latina)	GA	`es-LA_DanielaExpressive` Femmina

Voci neurali migliorate

La Tabella 4 elenca e fornisce esempi audio per tutte le voci neurali potenziate disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub o tutte e tre (non viene citata alcuna versione del prodotto).

Lingue e voci neurali migliorate
Lingua	Disponibilità	Voce / Sesso
Olandese (Paesi Bassi)	Beta	`nl-NL_MerelV3Voice` Femmina
Inglese (Regno Unito)	GA	`en-GB_CharlotteV3Voice` Femmina
	GA	`en-GB_JamesV3Voice` Maschio
	GA	`en-GB_KateV3Voice` Femmina
Inglese (Stati Uniti)	GA	`en-US_AllisonV3Voice` Femmina
	GA	`en-US_EmilyV3Voice` Femmina
	GA	`en-US_HenryV3Voice` Maschio
	GA	`en-US_KevinV3Voice` Maschio
	GA	`en-US_LisaV3Voice` Femmina
	GA	`en-US_MichaelV3Voice` Maschio
	GA	`en-US_OliviaV3Voice` Femmina
Francese (canadese)	GA	`fr-CA_LouiseV3Voice` Femmina
Francese (Francia)	GA	`fr-FR_NicolasV3Voice` Maschio
	GA	`fr-FR_ReneeV3Voice` Femmina
Tedesco	GA	`de-DE_BirgitV3Voice` Femmina
	GA	`de-DE_DieterV3Voice` Maschio
	GA	`de-DE_ErikaV3Voice` Femmina
Italiano	GA	`it-IT_FrancescaV3Voice` Femmina
Giapponese	GA	`ja-JP_EmiV3Voice` Femmina
Coreano	GA	`ko-KR_JinV3Voice` Femmina
Portoghese (brasiliano)	GA	`pt-BR_IsabelaV3Voice` Femmina
Spagnolo (Castigliano)	GA	`es-ES_EnriqueV3Voice` Maschio
	GA	`es-ES_LauraV3Voice` Femmina
Spagnolo (America Latina)	GA	`es-LA_SofiaV3Voice` Femmina
Spagnolo (Nord America)	GA	`es-US_SofiaV3Voice` Femmina

Le voci Sofia in spagnolo latino americano e nord americano sono essenzialmente la stessa voce. La differenza più significativa riguarda il modo in cui le due voci interpretano $ (segno del dollaro). La versione latinoamericana utilizza il termine pesos, quella nordamericana il termine dólares. Tra le due voci potrebbero esistere anche altre piccole differenze.

Creazione di un modello personalizzato

Quando sintetizzi il testo, il servizio applica le regole di pronuncia specifiche della lingua per convertire l'ortografia ordinaria di ciascuna parola in un'ortografia fonetica. Le regole di pronuncia del servizio funzionano bene per le parole comuni, ma possono fornire risultati imperfetti per le parole inusuali, ad esempio i termini con origini straniere, i nomi personali e le abbreviazioni o gli acronimi. Se il dizionario della tua applicazione include parole di questo tipo, puoi utilizzare l'interfaccia personalizzata per specificare il modo in cui il servizio le pronuncia.

Un modello personalizzato è un dizionario di parole e le loro traduzioni. Si crea un modello personalizzato per una lingua specifica, non per una voce specifica. Quindi un modello personalizzato può essere utilizzato con qualsiasi voce per la lingua specificata. Ad esempio, un modello personalizzato che crei per la lingua en-US può essere utilizzato con qualsiasi voce in inglese (Stati Uniti). Tuttavia, non può essere utilizzato con una voce en-GB o en-AU.

La personalizzazione è disponibile per tutte le lingue. Tutte le voci supportano l'utilizzo di simboli fonetici IPA (International Phonetic Alphabet) standard e IBM per la personalizzazione delle parole. Per ulteriori informazioni, vedi Informazioni sulla personalizzazione.

Creazione di una voce personalizzata

IBM Cloud

I clienti Premium possono collaborare con IBM per formare una nuova voce personalizzata per il loro caso d'uso specifico e il loro mercato di riferimento. La creazione di una voce personalizzata è diversa dalla personalizzazione di una delle voci esistenti del servizio. Una voce personalizzata è una nuova voce unica che si basa sui dati di formazione audio forniti dal cliente. IBM può addestrare una voce personalizzata con almeno un'ora di dati di addestramento.

Per richiedere una voce personalizzata o per ulteriori informazioni, completa e inoltra questo IBM Modulo di richiesta.