La scienza dietro il servizio
Il servizio IBM Watson® Text to Speech offre voci che si basano su voci naturali, voci espressive e voci neurali potenziate. Segue una breve panoramica di ciascuna di queste voci.
Voci naturali
Le voci naturali del portfolio utilizzano un'architettura encoder-decoder che distingue le caratteristiche timbriche e prosodiche per guidare meglio la sintesi. Tali caratteristiche sono in grado di fornire prestazioni all'avanguardia in termini di naturalezza ed espressività. Queste nuove voci naturali utilizzano varie tecniche per fornire un vantaggio rispetto alle voci espressive esistenti, tra cui:
- utilizzo di modelli di denoising a diffusione per una migliore previsione delle caratteristiche di stile e timbro [1].
- uso di un modello pre-addestrato utilizzando grandi quantità di dati, seguito da un affinamento del modello con corpora espressivi più piccoli e dedicati.
- ridurre al minimo gli approcci modulari e integrare completamente il codificatore e il decodificatore in una pipeline end-to-end addestrata congiuntamente.
Sul lato encoder, l'architettura comprende:
- codificatori fonetici per elaborare gli input linguistici, che consistono in una sequenza di fonemi (aumentati dalla punteggiatura ortografica) generati dal testo grezzo da un front-end basato su regole responsabile della normalizzazione e della fonetizzazione del testo.
- un modello di diffusione responsabile della previsione di rappresentazioni latenti per il timbro e la prosodia, guidato da una combinazione di un embedding globale del parlante e di un embedding opzionale del prompt di riferimento.
- un modello di previsione della prosodia che genera obiettivi espliciti di durata e di intonazione e volume normalizzati (indipendenti dal parlante).
- un modello di de-normalizzazione della prosodia che corregge gli obiettivi normalizzati di intonazione e volume sulla base di una rappresentazione latente del timbro
Il decodificatore assorbe le informazioni prodotte dai moduli dell'encoder per generare forme d'onda, guidate da perdite percettive avversarie (che coinvolgono mel-spettri e perdite WavLM-based ), impiegando un vocoder avanzato con un nuovo supporto allo streaming per migliorare la latenza.
Voci espressive
Le voci espressive lavorano con un'architettura sensibile allo stile e controllabile dalla prosodia, basata sul modello acustico non attentivo Tacotron2, aumentato da un insieme di controlli prosodici gerarchici (HPC) [2][,3]. Ad alto livello, contiene i seguenti componenti:
- un modulo di codifica, che incorpora tutti gli input del modello e che comprende la sequenza di fonemi (generata dagli stessi moduli utilizzati nell'architettura di Natural Voices), le caratteristiche linguistiche a livello di frase e un vettore di stile.
- un modulo prosodico che utilizza l'output dell'encoder per predire gli HPC: una sequenza annidata di descrittori prosodici speaker-agnostici che contengono varie statistiche relative a intonazione, energia e durata. Questi HPC forniscono il condizionamento a grana fine (per esempio, a livello di telefono, di parola e di enunciato) per aiutare a realizzare i distinti modelli prosodici associati ai diversi stili.
- un decodificatore non autoregressivo che prende l'uscita del codificatore e dei moduli HPC, più un embedding dell'altoparlante, per generare una sequenza di caratteristiche spettrali e di periodicità che vengono infine inserite in un vocoder neurale addestrato separatamente (una rete LPC) per generare audio di alta qualità.
Voci neurali potenziate
Le voci neurali avanzate rappresentano la tecnologia più vecchia del catalogo e utilizzano un approccio modulare, a cascata, completamente basato sulle reti neurali profonde (DNN) per fornire il back-end alla sintesi vocale [.] Come per le voci naturali ed espressive, un modulo separato è responsabile dell'elaborazione del testo per normalizzare ed estrarre le sequenze fonetiche che vengono poi inserite:
- un DNN di predizione della prosodia che predice l'intonazione e la durata dei fonemi a partire da caratteristiche testuali
- una DNN di caratteristiche acustiche che utilizza questi target di prosodia previsti, oltre alle informazioni fonetiche, per generare caratteristiche spettrali e di periodicità
- un vocoder neurale che utilizza queste caratteristiche spettrali e genera una forma d'onda in uscita.
Questo approccio modulare ha il vantaggio di consentire un addestramento rapido e semplice, nonché il controllo indipendente di ciascun componente e prestazioni rapide in fase di esecuzione.
Riferimenti
[1] : Yinghao Aaron Li, Cong Han, Vinay Raghavan, Gavin Mischler, Nima Mesgarani -- StyleTTS 2: Towards Human-Level Text-to-Speech through Style Diffusion and Adversarial Training with Large Speech Language Models. Proc. NeurIPS 2023.
[2] : Slava Shechtman, Raul Fernandez, Alexander Sorin e David Haws -- Sintesi di stili di parlato espressivi con dati di addestramento limitati in un'architettura sequenza-sequenza controllabile da più parlanti e prosodia. Proc. Interspeech 2021, pp. 4693-4697.
[3] : Raul Fernandez, David Haws, Guy Lorberbom, Slava Shechtman e Alexander Sorin -- Trapianto dello stile di conversazione con interiezioni nella sintesi vocale da sequenza a sequenza. Proc. Interspeech 2022, pp. 5488-5492.
[4] : Zvi Kons, Slava Shechtman, Alex Sorin, Carmel Rabinovitz e Ron Hoory -- TTS di alta qualità, leggero e adattabile con LPCNet. Proc. Interspeech 2019, pp. 176-180.