Utilizzo di grammatiche con i modelli di lingua personalizzati

Il servizio IBM Watson® Speech to Text supporta l'utilizzo di grammatiche con i modelli di lingua personalizzati. Puoi aggiungere le grammatiche a un modello di lingua personalizzato e utilizzarle per il riconoscimento vocale. Le grammatiche limitano l'insieme di frasi che il servizio può riconoscere dall'audio.

Le grammatiche utilizzano una specifica della lingua formale per definire un insieme di regole di produzione per la trascrizione delle stringhe. Le regole specificano come formare delle stringhe valide dall'alfabeto della lingua. Quando applichi una grammatica al riconoscimento vocale, il servizio può restituire solo una o più delle frasi generate dalla grammatica.

Ad esempio, quando hai bisogno di riconoscere parole o frasi specifiche, come sì o no, singole lettere o numeri o un elenco di nomi, l'utilizzo delle grammatiche può essere più efficace rispetto all'esame di parole e trascrizioni alternative. Inoltre, limitando lo spazio di ricerca per le stringhe valide, il servizio può fornire i risultati in modo più veloce e più accurato.

Quando utilizzi un modello di lingua personalizzato e una grammatica per il riconoscimento vocale, il servizio può restituire una frase valida dalla grammatica o un risultato vuoto. Se il risultato non è vuoto, il servizio include un punteggio di attendibilità con la trascrizione finale, così come per tutte le richieste di riconoscimento. Per le grammatiche, il punteggio indica la probabilità che la risposta corrisponda alla grammatica. I falsi positivi sono sempre possibili, in particolare per le grammatiche semplici, quindi devi considerare sempre l'attendibilità dei risultati del servizio quando valuti la sua risposta.

Per ulteriori informazioni sui linguaggi e sui modelli che supportano le grammatiche e sul loro livello di supporto (generalmente disponibile o beta), vedere Supporto dei linguaggi per la personalizzazione.

Formati di grammatica supportati

Il servizio Speech to Text supporta le grammatiche definite nei seguenti formati standard:

ABNF (Augmented Backus-Naur Form), che utilizza una rappresentazione in testo semplice simile alla grammatica BNF tradizionale. Il tipo di supporto per questo formato è application/srgs.
Formato XML, che utilizza elementi XML per rappresentare la grammatica. Il tipo di supporto per questo formato è application/srgs+xml.

Entrambi i formati di grammatica hanno la forza espressiva di una grammatica libera dal contesto (Context-Free Grammar o CFG). Tuttavia, il servizio può decodificare solo le grammatiche regolari di tipo 3 nella gerarchia di Chomsky. Tali grammatiche rappresentano automi a stati finiti.

Per informazioni generali sulle grammatiche, consulta le seguenti pagine di Wikipedia:

La specifica SRGS (Speech Recognition Grammar Specification)

Il servizio Speech to Text supporta le grammatiche definite dal W3C Specifiche grammaticali di riconoscimento vocale Versione 1.0. La specifica fornisce informazioni dettagliate sui formati supportati e sulla definizione di una grammatica. Per informazioni sui tipi di supporto supportati, vedere l'Appendice G. Tipi di supporto e suffisso di file della specifica.

Attualmente, il servizio non supporta tutte le funzioni della specifica SRGS (Speech Recognition Grammar Specification). In particolare, il servizio non supporta le funzioni descritte nelle seguenti sezioni della specifica:

Sezione 1.4 Interpretazione semantica. IBM sta lavorando per supportare questa funzione in una futura release del servizio.
Sezione 1.5 Grammatiche incorporate. IBM sta lavorando per supportare questa funzione in una futura release del servizio.
Sezione 2.2.2 Riferimento esterno tramite URI. Il servizio supporta solo i riferimenti locali, come descritto nella sezione 2.2.1 Riferimenti locali. In altre parole, una grammatica deve essere autonoma.
Sezione 2.2.3 Regole speciali.
Sezione 2.2.4 Riferimento ai documenti N-grammi(informativo).
Sezione 2.7 Lingua. Il servizio non supporta il passaggio da una lingua all'altra. Il servizio supporta solo una lingua globale per ogni grammatica.

Le parole nella grammatica devono essere in codifica UTF-8 (ASCII è un sottoinsieme di UTF-8). L'utilizzo di qualsiasi altra codifica può causare problemi durante la compilazione della grammatica o risultati imprevisti nella decodifica. Il servizio ignora una codifica specificata nell'intestazione della grammatica.