Funzioni di servizio

Il servizio IBM Watson® Speech to Text offre molte funzioni avanzate per aiutarti a ottenere il massimo dalla tua trascrizione audio. Il servizio offre più interfacce di riconoscimento vocale e queste interfacce supportano molte funzioni che puoi usare per gestire come passi il tuo audio al servizio e i risultati che il servizio restituisce. Puoi anche personalizzare il servizio per migliorarne il vocabolario e per adattarlo alle caratteristiche acustiche del tuo audio. E come con tutti i Watson servizi, gli SDK sono disponibili per semplificare lo sviluppo dell'applicazione in molti linguaggi di programmazione.

Utilizzo di lingue e modelli

Il servizio supporta il riconoscimento vocale per le molte lingue elencate in Supporto lingua. Il servizio fornisce diversi modelli per le lingue che supporta. La maggior parte dei modelli di lingua sono generalmente disponibili (GA) per l'uso in produzione; alcuni sono beta e soggetti a modifiche.

Per alcune lingue, il servizio offre grandi modelli vocali. Per ulteriori informazioni, vedi Supported large speech languages and models.
Il servizio offre anche modelli Multimedia e Telefonia di nuova generazione che migliorano le funzionalità di riconoscimento vocale dei modelli di generazione precedente. Tutti i modelli di nuova generazione sono GA. I modelli di nuova generazione restituiscono risultati con maggiore velocità di trasmissione e precisione rispetto ai modelli di generazione precedente. Per ulteriori informazioni, vedi Next-generation languages and models.

Per la maggior parte delle lingue, è possibile trascrivere l'audio a una delle due velocità di campionamento:

Utilizzare i modelli Broadband o Multimedia per l'audio campionato a una frequenza minima di 16 kHz.
Utilizzare i modelli Narrowband o Telephony per l'audio campionato a una frequenza di campionamento minima di 8 kHz.
I modelli vocali di grandi dimensioni supportano entrambi i campionati audio con frequenze di campionamento di 8 kHz o 16 kHz.

A partire dal 1 agosto 2023, tutti i modelli di generazione precedente sono ora fuori produzione dal servizio. I nuovi client devono ora utilizzare solo i modelli vocali di grandi dimensioni o i modelli di nuova generazione. Tutti i client esistenti devono ora migrare al modello vocale di grandi dimensioni equivalente o al modello di nuova generazione. Per ulteriori informazioni, vedi Migrazione a modelli vocali di grandi dimensioni.

Utilizzo di formati audio

Il servizio supporta il riconoscimento vocale per i molti formati audio elencati in Supporto audio. Formati diversi supportano diverse frequenze di campionamento e altre caratteristiche. Utilizzando un formato che supporta la compressione, puoi massimizzare la quantità di dati audio che puoi inviare con una richiesta.

Per ulteriori informazioni sulla comprensione dei concetti audio, vedi Terminologia e caratteristiche audio.
Per ulteriori informazioni sui formati audio che puoi utilizzare con il servizio, consulta Formati audio supportati.

Riconoscimento del discorso con il servizio

Il servizio Speech to Text offre un'interfaccia WebSocket e interfacce REST (Representational State Transfer) HTTP sincrone e asincrone.

L'interfaccia WebSocket offre un'efficiente implementazione a bassa latenza e velocità effettiva elevata su una connessione full duplex.
L'interfaccia HTTP sincrona fornisce un'interfaccia di base per trascrivere l'audio con richieste bloccanti.
L 'interfaccia HTTP asincrona fornisce un'interfaccia non bloccante che consente di registrare un URL di callback per ricevere notifiche o eseguire il polling del servizio per lo stato e i risultati del lavoro.

Tutte le interfacce forniscono le stesse funzionalità di base di riconoscimento vocale, ma lo stesso parametro può essere specificato come intestazione della richiesta, come parametro della query o come parametro di un oggetto JSON, a seconda dell'interfaccia utilizzata. Il servizio può anche restituire risultati diversi a seconda dell'interfaccia e dei parametri che utilizzi con una richiesta.

Per informazioni su come effettuare una richiesta di riconoscimento vocale con ciascuna delle interfacce del servizio, vedi Esecuzione di una richiesta di riconoscimento vocale.
Per informazioni sui risultati di una richiesta di riconoscimento vocale, vedi Descrizione dei risultati di riconoscimento vocale.

Limiti dei dati

Le interfacce accettano le seguenti quantità massime di dati audio con una singola richiesta:

L'interfaccia WebSocket accetta un massimo di 100 MB di audio.
L'interfaccia HTTP sincrona accetta un massimo di 100 MB di audio.
L'interfaccia HTTP asincrona accetta un massimo di 1 GB di audio.

Per ulteriori informazioni sull'utilizzo della compressione per massimizzare la quantità di dati che puoi inviare al servizio, vedi Limiti dei dati e compressione.

Vantaggi dell'interfaccia WebSocket

L'interfaccia WebSocket presenta una serie di vantaggi rispetto all'interfaccia HTTP. L'interfaccia WebSocket

Fornisce un canale di comunicazione full duplex a singolo socket. L'interfaccia consente al client di inviare più richieste al servizio e di ricevere i risultati su una singola connessione in modo asincrono.
Offre un'esperienza di programmazione molto più semplice e potente. Il servizio invia risposte basate su eventi ai messaggi del client, eliminando la necessità per il client di eseguire il polling del server.
Consente di stabilire e utilizzare una singola connessione autenticata a tempo indeterminato. Le interfacce HTTP richiedono di autenticare ogni chiamata al servizio.
Riduce la latenza. I risultati del riconoscimento arrivano più velocemente perché il servizio li invia direttamente al client. L'interfaccia HTTP richiede quattro richieste e connessioni distinte per ottenere gli stessi risultati.
Riduce l'utilizzo della rete. Il protocollo WebSocket è leggero. Richiede solo una singola connessione per eseguire il riconoscimento vocale dinamico.
Consente di trasmettere l'audio direttamente dai browser (clientHTML5 'WebSocket ) al servizio.
Restituisce i risultati non appena sono disponibili quando utilizzi un modello vocale di grandi dimensioni, un modello di nuova generazione o richiedi risultati provvisori.

Utilizzo dei parametri di riconoscimento vocale

Le interfacce di riconoscimento vocale del servizio condividono parametri ampiamente comuni per la trascrizione del discorso nel testo. I parametri ti consentono di personalizzare aspetti della tua richiesta, come ad esempio se i dati vengono trasmessi o inviati tutti in una sola volta e le informazioni che il servizio include nella sua risposta.

Le seguenti sezioni introducono i parametri di riconoscimento vocale e la relativa funzionalità. Alcuni parametri sono disponibili solo per alcune interfacce di riconoscimento vocale o per alcuni linguaggi e modelli. Per informazioni su tutti i parametri e la relativa interfaccia e supporto lingua, consultare Riepilogo dei parametri.

Rilevamento voce o parola

Utilizzare il nuovo parametro speech_begin_event per ricevere un evento di notifica nel momento in cui viene rilevato il discorso nel flusso audio. Questa funzione consente alle applicazioni in tempo reale di imparare quando si inizia a parlare. Un caso di uso comune per questa funzionalità è l'implementazione del barge - in nei sistemi di agent automatizzati. Barge - in consiste nell'interrompere la riproduzione audio quando il chiamante inizia a parlare. Imposta il valore su true per fare in modo che il servizio Speech to Text invii una risposta speech_begin_event, che contiene l'ora in cui l'attività vocale viene rilevata per la prima volta all'interno del flusso audio. È possibile utilizzare questo parametro in modalità standard e bassa latenza.

Nome parametro: speech_begin_event
Parametro richiesta: speech_begin_event = true / false (booleano)
Oggetto risposta: "speech_begin_event.begin", ad esempio: {"speech_begin_event": { "begin": }}

Trasmissione audio e timeout

La trasmissione audio descrive il modo in cui è possibile trasmettere l'audio come un flusso continuo di pezzi di dati o come una consegna unica che trasmette tutti i dati in una sola volta. Con l'interfaccia WebSocket, i dati audio vengono sempre trasmessi al servizio attraverso la connessione. Con le interfacce HTTP, puoi trasmettere in streaming l'audio o inviarlo tutto in una volta.
I timeout vengono utilizzati dal servizio per assicurare un flusso attivo di dati durante lo streaming audio. Quando avvii una sessione di streaming, il servizio impone i timeout di inattività e sessione da cui la tua applicazione deve eseguire il ripristino correttamente. Se un timeout scade durante una sessione di streaming, il servizio chiude la connessione.

Risultati provvisori e bassa latenza

I risultati provvisori sono ipotesi intermedie che il servizio restituisce man mano che la trascrizione procede. Sono disponibili solo con l'interfaccia WebSocket. Il servizio restituisce i risultati finali una volta completata la trascrizione. Con le interfacce HTTP, il servizio trascrive sempre l'intero flusso audio prima di inviare eventuali risultati.

I risultati provvisori non sono disponibili con modelli di discorso di grandi dimensioni.

La bassa latenza, se utilizzata con alcuni modelli di nuova generazione, indica al servizio di produrre risultati finali ancora più rapidamente di quanto non facciano i modelli. La bassa latenza è disponibile con le interfacce WebSocket e HTTP. Anche se la bassa latenza migliora ulteriormente i tempi di risposta già migliorati dei modelli, potrebbe ridurre l'accuratezza della trascrizione. Quando utilizzi i modelli di nuova generazione con l'interfaccia WebSocket, è richiesta una bassa latenza per ottenere risultati provvisori.

La bassa latenza non è disponibile con modelli vocali di grandi dimensioni.

Rilevamento dell'attività vocale

Sensibilità del rilevatore vocale regola la sensibilità del rilevamento del servizio dell'attività vocale. Utilizzare il parametro per eliminare gli inserimenti di parole da musica, tosse e altri eventi non vocali che possono influire negativamente sulla qualità del riconoscimento vocale.
Background audio suppression sopprime l'audio di sfondo basato sul suo volume per evitare che venga trascritto come discorso. Utilizzare il parametro per eliminare le conversazioni secondarie o i rumori di fondo dal riconoscimento vocale.

Analisi audio del discorso

periodo di silenzio al termine della frase specifica la durata dell'intervallo di pausa dopo di cui il servizio suddivide una trascrizione in più risultati finali in risposta al momento di silenzio. Se il servizio rileva delle pause o dei silenzi estesi prima di raggiungere la fine del flusso audio, la sua risposta può includere più risultati finali. È possibile aumentare o diminuire l'intervallo di pausa per influire sui risultati ricevuti.
suddividi la trascrizione al termine della frase indica al servizio di suddividere una trascrizione in più risultati finali per le funzioni semantiche come le frasi. Il servizio basa la sua comprensione delle funzioni semantiche sul modello di lingua di base che utilizzi con una richiesta. I modelli di lingua personalizzati e le grammatiche possono influenzare anche come e in quale punto il servizio suddivide una trascrizione.

La trascrizione suddivisa alla fine della frase non è disponibile con modelli vocali di grandi dimensioni.

La distorsione nell'inserimento dei caratteri specifica se un modello di discorso di grandi dimensioni o un modello di nuova generazione deve favorire stringhe più brevi o più lunghe in quanto sviluppa ipotesi durante il riconoscimento vocale. Mentre sviluppa le ipotesi di trascrizione, il servizio ottimizza il modo in cui analizza l'audio per bilanciare le stringhe concorrenti di diverse lunghezze. È possibile indicare che il servizio deve orientare la propria analisi verso stringhe più brevi o più lunghe.

La distorsione di inserimento dei caratteri non è disponibile con modelli vocali di grandi dimensioni.

Etichette del parlante

Etichette degli altoparlanti identifica diversi altoparlanti dall'audio di uno scambio multi - partecipante. La trascrizione etichetta le parole e i tempi dei contributi di ogni oratore a una conversazione multi - partecipante. Le etichette degli altoparlanti sono funzionalità beta.

Individuazione di parole chiave e alternative di parole

L'individuazione di parole chiave identifica le frasi pronunciate che corrispondono alle stringhe di parole chiave specificate con un livello di attendibilità definito dall'utente. L'individuazione di parole chiave è particolarmente utile quando le singole frasi dall'audio sono più importanti della trascrizione completa. Ad esempio, un sistema di supporto clienti potrebbe identificare le parole chiave per determinare come instradare le richieste degli utenti.
Le alternative alle parole richiedono parole alternative che siano acusticamente simili alle parole di una trascrizione. Le parole che identificano devono soddisfare una soglia di confidenza minima specificata dall'utente. Il servizio identifica parole dal suono simile e fornisce i loro orari di inizio e fine, nonché la sua fiducia nelle possibili alternative.

Queste funzioni sono supportate solo per i modelli di generazione precedente. Non sono supportati per i modelli vocali di grandi dimensioni e i modelli di nuova generazione.

Formattazione e filtro delle risposte

La formattazione intelligente versione 2 è la nuova funzionalità migliorata che converte date, ore, numeri, sequenze alfanumeriche, valori di valuta, misure, email, URL, indirizzi IP, numeri di carte di credito e punteggiature dettate in forme più leggibili e convenzionali nelle trascrizioni finali. Questo è supportato solo per modelli di grandi dimensioni e modelli di prossima generazione in inglese americano, portoghese brasiliano, francese, tedesco, spagnolo castigliano, spagnolo latino americano e francese canadese. È disponibile anche per il modello en-WW_Medical_Telephony quando viene riconosciuto l'audio in inglese americano.
La formattazione intelligente converte date, ore, numeri, valori di valuta, numeri di telefono e indirizzi Internet in formati convenzionali più leggibili nelle trascrizioni finali. Per l'inglese americano, puoi anche fornire frasi di parole chiave per includere determinati simboli di punteggiatura nelle trascrizioni finali. La formattazione intelligente è una funzionalità beta.
L'oscuramento numerico oscura, o maschera, i dati numerici da una trascrizione finale. La riduzione ha lo scopo di rimuovere le informazioni personali sensibili, come i numeri di carta di credito, dalle trascrizioni finali. La redazione numerica è una funzionalità beta.
Filtraggio della profanità censura la profanità dalle trascrizioni e i metadati.

Metadati risposta

Il numero massimo di alternative fornisce possibili trascrizioni alternative. Il servizio indica i risultati finali in cui ha la massima attendibilità.
L'attendibilità delle parole restituisce i livelli di attendibilità per ogni parola di una trascrizione.
Le date/ore delle parole restituiscono le date e ore per l'inizio e la fine di ogni parola di una trascrizione.

Queste funzioni sono supportate solo per i modelli precedenti e di nuova generazione. Non sono supportati per modelli vocali di grandi dimensioni.

Metriche audio e di elaborazione

Le metriche di elaborazione forniscono informazioni temporali dettagliate sull'analisi dell'audio di input da parte del servizio. Il servizio restituisce le metriche a intervalli specifici e con eventi di trascrizione, come i risultati provvisori e finali. Puoi utilizzare le metriche per valutare l'avanzamento del servizio nella trascrizione dell'audio. Puoi richiedere le metriche di elaborazione con le interfacce WebSocket e HTTP asincrona.
Le metriche audio forniscono informazioni dettagliate sulle caratteristiche di segnale dell'audio di input. I risultati forniscono metriche aggregate per l'intero audio di input al termine dell'elaborazione vocale. Puoi utilizzare le metriche per determinare le caratteristiche e la qualità dell'audio. Puoi richiedere le metriche audio con qualsiasi interfaccia del servizio.

Personalizzazione del servizio

L'interfaccia di personalizzazione consente di creare modelli personalizzati per migliorare le capacità di riconoscimento vocale del servizio:

I modelli di lingua personalizzati ti consentono di definire parole specifiche per il dominio per un modello di base. I modelli linguistici personalizzati possono ampliare il vocabolario di base del servizio con la terminologia specifica di domini quali la medicina e la legge. La personalizzazione del modello di lingua è disponibile per modelli vocali di grandi dimensioni, modelli precedenti e di nuova generazione, anche se funziona in modo diverso per i tre tipi di modelli.
I modelli acustici personalizzati ti consentono di adattare un modello di base per le caratteristiche acustiche del tuo ambiente e dei tuoi parlanti. I modelli acustici personalizzati migliorano la capacità del servizio di riconoscere il parlato con caratteristiche acustiche distintive. La personalizzazione del modello acustico è disponibile solo per i modelli di generazione precedente.
Le grammatiche consentono di limitare le frasi che il servizio può riconoscere a quelle definite nelle regole di una grammatica. Limitando lo spazio di ricerca per le stringhe valide, il servizio può fornire i risultati in modo più veloce e più accurato. Le grammatiche vengono create e utilizzate con modelli di lingua personalizzati. Il servizio supporta generalmente le grammatiche per le lingue e i modelli per i quali supporta la personalizzazione del modello linguistico. Grammars è disponibile solo per i modelli precedenti e di nuova generazione.

È possibile utilizzare un modello linguistico personalizzato (con o senza grammatica), un modello acustico personalizzato o entrambi per il riconoscimento vocale con qualsiasi interfaccia del servizio.

Per ulteriori informazioni sulla personalizzazione e una panoramica delle sue funzionalità, vedi Descrizione della personalizzazione.
Per ulteriori informazioni sulle lingue che supportano la personalizzazione, consultare Supporto lingua per la personalizzazione.

IBM Cloud Devi disporre del piano dei prezzi Plus, Standard o Premium per utilizzare il modello di lingua o la personalizzazione del modello acustico. Gli utenti del piano Lite non possono utilizzare la personalizzazione, ma possono eseguire l'aggiornamento al piano Plus per ottenere l'accesso alla personalizzazione. Per ulteriori informazioni, vedi le FAQ sui prezzi.

Utilizzo dei kit di sviluppo software

Gli SDK sono disponibili per il servizio Speech to Text per semplificare lo sviluppo di applicazioni di riconoscimento vocale. Gli SDK supportano molti linguaggi di programmazione e piattaforme popolari.

Per un elenco completo degli SDK e per i collegamenti agli SDK su GitHub, vedere Watson SDK.
Per ulteriori informazioni su tutti i metodi degli SDK per il servizio Speech to Text, consultare il riferimento API e SDK.

Ulteriori informazioni sullo sviluppo dell'applicazione

Per ulteriori informazioni sull'utilizzo dei servizi Watson e IBM Cloud:

Per un'introduzione, vedi Introduzione a Watson e IBM Cloud.
Per informazioni sull'utilizzo di IBM Cloud Identity and Access Management, vedi Autenticazione ai servizi Watson.

Passi successivi

Esplora le funzionalità introdotte in questo argomento per ottenere una comprensione più approfondita delle funzionalità del servizio. Ogni funzione include collegamenti ad argomenti che la descrivono in modo molto più dettagliato.

Utilizzo di lingue e modelli e Utilizzo dei formati audio descrivono le basi di base delle funzionalità del servizio. Devi scegliere una lingua e un modello adatti al tuo audio e devi comprendere le caratteristiche del tuo audio per fare questa scelta e passare il tuo audio al servizio.
Riconoscere il discorso con il servizio fornisce link a semplici esempi di richieste e risposte di riconoscimento vocale. Ci sono anche dei link a presentazioni dettagliate di ciascuna delle interfacce del servizio. Scopri di più e sperimenta le interfacce per determinare quale è più adatto alle tue esigenze dell'applicazione.
Utilizzo dei parametri di riconoscimento vocale introduce i numerosi parametri che puoi utilizzare per personalizzare le richieste di riconoscimento vocale e le risposte di trascrizione in base alle tue necessità. Le interfacce WebSocket e HTTP del servizio supportano una serie impressionante di capacità, la maggior parte delle quali sono comuni a tutte le interfacce supportate. Utilizzare i link per trovare i parametri appropriati.
Personalizzazione del servizio descrive gli argomenti più avanzati del modello di lingua e della personalizzazione del modello acustico, che possono aiutarti a ottenere il massimo dalle capacità del servizio. La sezione presenta anche le grammatiche, che puoi utilizzare con i modelli di lingua per limitare le possibili risposte a stringhe e frasi precise.
Utilizzando i kit di sviluppo software fornisci i collegamenti agli SDK disponibili per semplificare lo sviluppo dell'applicazione in molti linguaggi di programmazione.
Ulteriori informazioni sullo sviluppo dell'applicazione fornisce dei link per aiutarti a iniziare a utilizzare i servizi Watson e a comprendere l'autenticazione.