IBM Cloud Docs
Lingue e voci

Lingue e voci

Il servizio IBM Watson® Text to Speech supporta varie lingue, voci e dialetti. Per lingue diverse, il servizio offre voci femminili, voci maschili o entrambe. Ogni voce usa cadenza e intonazione appropriate per il suo dialetto.

Tutte le voci del servizio utilizzano la tecnologia vocale neurale. La tecnologia vocale neurale utilizza più reti neurali profonde (DNN) per prevedere le caratteristiche acustiche (spettrali) del parlato. Le DNN sono addestrate sulla lingua naturale umana e generano l'audio risultante dalle caratteristiche acustiche previste. Durante la sintesi, le DNN prevedono la durata tonale e fonemica, la struttura spettrale e la forma d'onda del discorso. Le voci neurali producono un parlato nitido e chiaro, con una qualità audio molto naturale, fluida e coerente.

Lingue e voci supportate

Il servizio offre tre tipi di voci con qualità e capacità diverse:

  • Le voci naturali offrono prestazioni avanzate in termini di naturalezza ed espressività. Queste voci utilizzano varie tecniche per ottenere un vantaggio rispetto alle voci espressive. Per un elenco di tutte le voci naturali, vedere Voci naturali.
  • Le voci neurali espressive offrono un discorso dal suono naturale, eccezionalmente chiaro e nitido. La loro pronuncia e le loro inflessioni sono naturali e conversazionali, e il discorso risultante offre transizioni estremamente fluide tra le parole. Inoltre, supportano l'uso di funzioni aggiuntive che non sono disponibili con voci neurali avanzate. Per un elenco di tutte le voci espressive, vedi Voci neurali espressive.
  • Le voci neurali migliorate raggiungono un alto grado di suono naturale e supportano la maggior parte delle funzionalità del servizio. Per un elenco di tutte le voci neurali avanzate, vedi Voci neurali avanzate.

Le seguenti pagine forniscono ulteriori informazioni sulle voci e la loro tecnologia:

Supporto linguistico per tipo di voce

La tabella 1 mostra il supporto del servizio per le lingue per tipo di voce. I seguenti argomenti elencano le lingue e le voci disponibili per ciascun tipo di voce.

Supporto linguistico per tipo di voce
Lingua Voci naturali Voci neurali espressive Voci neurali migliorate
Olandese
(Paesi Bassi)
Inglese
(Regno Unito)
Inglese
(australiano)
Inglese
(Stati Uniti)
Francese
(canadese)
Francese
(Francia)
Tedesco
Italiano
Giapponese
Coreano
Portoghese
(brasiliano)
Spagnolo
(Castigliano)
Spagnolo
(America Latina)
Spagnolo
(Sudamericano)

Voci naturali

La Tabella 2 elenca e fornisce esempi audio per tutte le voci naturali disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).

Lingue e voci naturali
Lingua Disponibilità Voce / Sesso Esempio audio
Inglese
(Stati Uniti)
GA en-US_EllieNatural
Femmina

Voci neurali espressive

La Tabella 3 elenca e fornisce esempi audio per tutte le voci neurali espressive disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub, o tutte e 3 (non viene citata alcuna versione del prodotto).

  • Le voci neurali espressive supportano ulteriori funzionalità che non sono disponibili con altri tipi di voci. Queste caratteristiche includono ulteriori stili di conversazione, l'enfasi automatica delle interiezioni e l'enfasi delle parole specificate. Per ulteriori informazioni, vedi Modifica della sintesi vocale con voci neurali espressive.
  • Quando utilizzato con l'elemento <prosody> SSML, le voci espressive supportano solo valori percentuali per gli attributi rate e pitch. Per ulteriori informazioni, vedere Elemento <prosody>.

Le voci neurali espressive determinano il sentimento dal contesto e utilizzano automaticamente l'intonazione appropriata per adattarsi al testo. Per produrre la prosodia più naturale, le voci neurali espressive devono considerare il contesto di tutte le parole e le frasi di una frase. Le voci espressive sono quindi più complesse e hanno una latenza leggermente superiore rispetto ad altri tipi di voci. La risposta iniziale per una richiesta di sintesi che utilizza una voce espressiva potrebbe richiedere una frazione di secondo in più (ad esempio, poche centinaia di millisecondi) per arrivare. Anche il tempo di risposta totale per il completamento della richiesta è più lungo.

Per ridurre al minimo la latenza e il tempo di risposta per una voce espressiva, utilizzare frasi più brevi laddove possibile.

Linguaggi neurali espressivi e voci
Lingua Disponibilità Voce / Sesso Esempio audio
Inglese
(australiano)
GA en-AU_HeidiExpressive
Femmina
GA en-AU_JackExpressive
Maschio
Inglese
(Stati Uniti)
GA en-US_AllisonExpressive
Femmina
GA en-US_EmmaExpressive
Femmina
GA en-US_LisaExpressive
Femmina
GA en-US_MichaelExpressive
Maschio
Inglese
(Regno Unito)
GA en-GB_GeorgeExpressive
Maschio
Portoghese
(brasiliano)
GA pt-BR_LucasExpressive
Maschio
Spagnolo
(America Latina)
GA es-LA_DanielaExpressive
Femmina

Voci neurali migliorate

La Tabella 4 elenca e fornisce esempi audio per tutte le voci neurali potenziate disponibili. La colonna Disponibilità indica se ogni voce è generalmente disponibile (GA) per l'utilizzo di produzione o beta. La colonna indica anche se ogni voce è disponibile per IBM Cloud, IBM Cloud Pak for Data, o tutte e 3 (non viene citata alcuna versione del prodotto) IBM Software Hub o tutte e tre (non viene citata alcuna versione del prodotto).

Lingue e voci neurali migliorate
Lingua Disponibilità Voce / Sesso Esempio audio
Olandese
(Paesi Bassi)
Beta nl-NL_MerelV3Voice
Femmina
Inglese
(Regno Unito)
GA en-GB_CharlotteV3Voice
Femmina
GA en-GB_JamesV3Voice
Maschio
GA en-GB_KateV3Voice
Femmina
Inglese
(Stati Uniti)
GA en-US_AllisonV3Voice
Femmina
GA en-US_EmilyV3Voice
Femmina
GA en-US_HenryV3Voice
Maschio
GA en-US_KevinV3Voice
Maschio
GA en-US_LisaV3Voice
Femmina
GA en-US_MichaelV3Voice
Maschio
GA en-US_OliviaV3Voice
Femmina
Francese
(canadese)
GA fr-CA_LouiseV3Voice
Femmina
Francese
(Francia)
GA fr-FR_NicolasV3Voice
Maschio
GA fr-FR_ReneeV3Voice
Femmina
Tedesco GA de-DE_BirgitV3Voice
Femmina
GA de-DE_DieterV3Voice
Maschio
GA de-DE_ErikaV3Voice
Femmina
Italiano GA it-IT_FrancescaV3Voice
Femmina
Giapponese GA ja-JP_EmiV3Voice
Femmina
Coreano GA ko-KR_JinV3Voice
Femmina
Portoghese
(brasiliano)
GA pt-BR_IsabelaV3Voice
Femmina
Spagnolo
(Castigliano)
GA es-ES_EnriqueV3Voice
Maschio
GA es-ES_LauraV3Voice
Femmina
Spagnolo
(America Latina)
GA es-LA_SofiaV3Voice
Femmina
Spagnolo
(Nord America)
GA es-US_SofiaV3Voice
Femmina

Le voci Sofia in spagnolo latino americano e nord americano sono essenzialmente la stessa voce. La differenza più significativa riguarda il modo in cui le due voci interpretano $ (segno del dollaro). La versione latinoamericana utilizza il termine pesos, quella nordamericana il termine dólares. Tra le due voci potrebbero esistere anche altre piccole differenze.

Creazione di un modello personalizzato

Quando sintetizzi il testo, il servizio applica le regole di pronuncia specifiche della lingua per convertire l'ortografia ordinaria di ciascuna parola in un'ortografia fonetica. Le regole di pronuncia del servizio funzionano bene per le parole comuni, ma possono fornire risultati imperfetti per le parole inusuali, ad esempio i termini con origini straniere, i nomi personali e le abbreviazioni o gli acronimi. Se il dizionario della tua applicazione include parole di questo tipo, puoi utilizzare l'interfaccia personalizzata per specificare il modo in cui il servizio le pronuncia.

Un modello personalizzato è un dizionario di parole e le loro traduzioni. Si crea un modello personalizzato per una lingua specifica, non per una voce specifica. Quindi un modello personalizzato può essere utilizzato con qualsiasi voce per la lingua specificata. Ad esempio, un modello personalizzato che crei per la lingua en-US può essere utilizzato con qualsiasi voce in inglese (Stati Uniti). Tuttavia, non può essere utilizzato con una voce en-GB o en-AU.

La personalizzazione è disponibile per tutte le lingue. Tutte le voci supportano l'utilizzo di simboli fonetici IPA (International Phonetic Alphabet) standard e IBM per la personalizzazione delle parole. Per ulteriori informazioni, vedi Informazioni sulla personalizzazione.

Creazione di una voce personalizzata

IBM Cloud

I clienti Premium possono collaborare con IBM per formare una nuova voce personalizzata per il loro caso d'uso specifico e il loro mercato di riferimento. La creazione di una voce personalizzata è diversa dalla personalizzazione di una delle voci esistenti del servizio. Una voce personalizzata è una nuova voce unica che si basa sui dati di formazione audio forniti dal cliente. IBM può addestrare una voce personalizzata con almeno un'ora di dati di addestramento.

Per richiedere una voce personalizzata o per ulteriori informazioni, completa e inoltra questo IBM Modulo di richiesta.