Rilevamento dell'attività vocale
Il servizio IBM Watson® Speech to Text offre due parametri di rilevamento dell'attività vocale per controllare quale audio viene utilizzato per il riconoscimento vocale. I parametri specificano la sensibilità del servizio agli eventi non vocali e al rumore di fondo. I parametri sono indipendenti: è possibile utilizzarli singolarmente o insieme.
Il rilevamento dell'attività vocale è supportato per la maggior parte dei modelli di lingua. Per ulteriori informazioni, vedi Supporto del modello di lingua.
Come funziona il rilevamento dell'attività vocale
Il rilevamento dell'attività vocale utilizza il flusso audio di input e determina quali parti del flusso passare per il riconoscimento vocale. Il riconoscimento vocale non viene influenzato negativamente dal rumore o dal parlato di sottofondo, provocando la trascrizione di parole non corrette, la produzione di parole che non sono presenti o l'omissione di parole che fanno parte dell'audio di input. La funzione di rilevamento dell'attività vocale può aiutarti a garantire che viene elaborato solo l'audio pertinente al riconoscimento vocale.
Puoi utilizzare la funzione per controllare i seguenti aspetti del riconoscimento vocale:
- Eliminazione del parlato di sottofondo. I dati dei call-center spesso contengono cross-talk ("cose sentite di sfuggita") da altri agenti. Puoi impostare una soglia di volume sotto la quale tale parlato di sottofondo viene ignorato.
- Eliminazione del rumore di sottofondo. Alcuni audio, ad esempio le registrazioni vocali in una fabbrica, possono contenere un elevato livello di rumore di sottofondo. Puoi impostare una soglia sotto la quale tale rumore di sottofondo viene ignorato.
- Eliminazione degli eventi audio non vocali. Gli eventi di toni e musica di sottofondo, ad esempio un file audio riprodotto a un cliente che è in attesa su una linea telefonica, possono causare un riconoscimento non accurato. Anche il silenzio può provocare un riconoscimento non necessario o degli errori di trascrizione. Puoi impostare una soglia sotto la quale tali eventi vengono ignorati.
Per impostazione predefinita, il rilevamento dell'attività vocale è configurato per fornire prestazioni ottimali per il caso generale di ciascun modello. Per casi specifici, le impostazioni predefinite potrebbero non essere ottimali e possono portare a una trascrizione lenta o a inserimenti ed eliminazioni di parole. Ti incoraggiamo a sperimentare diverse impostazioni per determinare quali valori sono i migliori per il tuo audio.
Sensibilità del rilevatore vocale
Utilizzare il parametro " speech_detector_sensitivity
" per regolare la sensibilità del rilevamento dell'attività vocale. Utilizza il parametro per eliminare gli inserimenti di parole da file audio musicali, colpi di tosse
e altri eventi non vocali. Il servizio distorce l'audio che passa per il riconoscimento vocale valutando porzioni dell'audio di input con precedenti modelli di attività vocale e non vocale.
Specifica un valore mobile compreso tra 0,0 e 1,0. Il valore predefinito è 0,5, che fornisce un compromesso ragionevole per il livello di sensibilità. Un valore di 0,0 elimina tutto l'audio (non viene trascritto alcun parlato). Un valore di
1,0 non elimina alcun audio (la sensibilità del rilevamento vocale viene disabilitata). I valori aumentano lungo una curva monotonica di sensibilità rispetto al parlato. Specificare una o due posizioni decimali di precisione (ad esempio, 0.55
)
è in genere più che sufficiente.
Questo parametro può influenzare sia la qualità che la latenza del riconoscimento vocale:
- Valori più bassi possono diminuire la latenza perché viene potenzialmente passato meno audio per il riconoscimento vocale. Tuttavia, un'impostazione bassa potrebbe scartare porzioni di audio che contengono del parlato reale, perdendo del contenuto molto importante per la trascrizione.
- Valori più alti possono aumentare la latenza perché viene potenzialmente passato più audio per il riconoscimento vocale. Tuttavia, un'impostazione alta potrebbe passare porzioni di audio che contengono eventi non vocali, aggiungendo del contenuto non corretto alla trascrizione.
Esempio di sensibilità del rilevatore vocale
La seguente richiesta di esempio specifica un valore di 0,6 per il parametro speech_detector_sensitivity
con l'interfaccia HTTP sincrona. Il servizio riconosce leggermente meglio gli eventi potenzialmente non vocali rispetto al
valore predefinito.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file1.flac \
"{url}/v1/recognize?speech_detector_sensitivity=0.6"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file1.flac \
"{url}/v1/recognize?speech_detector_sensitivity=0.6"
Soppressione audio in background
Utilizzare il parametro " background_audio_suppression
" per sopprimere l'audio di sottofondo in base al suo volume per evitare che venga trascritto come parlato. Utilizza il parametro per eliminare conversazioni marginali
o rumore di sottofondo. Ad esempio, utilizza questo parametro quando c'è un suono di sottofondo quieto e continuo (forza del segnale bassa). Poiché il rumore può interferire con la trascrizione, può produrre del contenuto in cui non si verifica
del parlato reale nell'audio.
Specifica un valore mobile compreso nell'intervallo 0,0 e 1,0. Il valore predefinito è 0,0, che non fornisce alcuna eliminazione (l'eliminazione dell'audio di sottofondo è disabilitata). Un valore di 0,5 fornisce un livello ragionevole di eliminazione
dell'audio per un utilizzo generale. Un valore di 1,0 elimina tutto l'audio (non viene trascritto alcun parlato). I valori aumentano lungo una curva monotonica. Specificare una o due posizioni decimali di precisione (ad esempio, 0.55
)
è in genere più che sufficiente.
Questo parametro può inoltre influenzare sia la qualità che la latenza del riconoscimento vocale. Tuttavia, poiché l'eliminazione del rumore di sottofondo è disabilitata per impostazione predefinita, impostare il parametro su un valore maggiore di zero non può che migliorare la latenza. Ma dei valori maggiori possono gradualmente ridurre l'audio passato per il riconoscimento vocale, la qual cosa può causare la perdita di contenuto valido dalla trascrizione.
Esempio di soppressione audio in background
La seguente richiesta di esempio specifica un valore di 0,5 per il parametro background_audio_suppression
con l'interfaccia HTTP sincrona. Il servizio elimina un livello ragionevole di audio di sottofondo.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file1.flac \
"{url}/v1/recognize?background_audio_suppression=0.5"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file1.flac \
"{url}/v1/recognize?background_audio_suppression=0.5"
Supporto del modello di lingua
I parametri speech_detector_sensitivity
e background_audio_suppression
sono supportati per l'utilizzo con i seguenti modelli di lingua:
- Per i modelli vocali di grandi dimensioni e i modelli di nuova creazione, i parametri sono supportati con tutti i modelli.
- Per i modelli di generazione precedente, i parametri sono supportati con la maggior parte dei modelli. I seguenti modelli non supportano il rilevamento dell'attività vocale al momento. I parametri vengono ignorati se utilizzati
con questi modelli.
- Modello a banda larga arabo (
ar-MS_BroadbandModel
) - Modello a banda larga per il portoghese brasiliano (
pt-BR_BroadbandModel
) - Modello a banda larga per il cinese (
zh-CN_BroadbandModel
) - Modello a banda stretta per il cinese (
zh-CN_NarrowbandModel
) - Modello a banda larga per il tedesco (
de-DE_BroadbandModel
)
- Modello a banda larga arabo (