Informazioni su Speech to Text

Il servizio IBM Watson® Speech to Text fornisce funzionalità di trascrizione vocale per le tue applicazioni. Il servizio sfrutta il machine learning per combinare la conoscenza della grammatica, la struttura della lingua e la composizione dei segnali audio e vocali per trascrivere accuratamente la voce umana. Aggiorna e perfeziona continuamente la sua trascrizione man mano che riceve più discorsi.

Il servizio fornisce API che lo rendono adatto a qualsiasi applicazione in cui il parlato è l'input e una trascrizione testuale è l'output. Può essere utilizzato per applicazioni come chatbot vocali automatizzati, strumenti analitici per call center di assistenza clienti e trascrizione multimediale. Tra le altre numerose possibili applicazioni, vi sono il controllo vocale dei dispositivi incorporati, la trascrizione di riunioni e conference call e la dettatura di messaggi e note.

Il servizio è ideale per i clienti che devono estrarre trascrizioni vocali di alta qualità dall'audio dei call center. I clienti in settori come servizi finanziari, assistenza sanitaria, assicurazioni e telecomunicazioni possono sviluppare applicazioni native del cloud per l'assistenza clienti, la voce dei clienti, l'assistenza degli agenti e altre soluzioni.

Versioni del prodotto

Speech to Text può essere distribuito come un servizio cloud gestito o può essere installato in loco. Questa documentazione descrive come utilizzare entrambe le versioni del prodotto. Le informazioni quali argomenti, paragrafi ed esempi che si applicano esclusivamente ad una versione sono chiaramente denotati:

IBM Cloud per le istanze gestite di Speech to Text ospitate su IBM Cloud o per le istanze ospitate suIBM Cloud Pak for Data as a Service. Per informazioni su tutti gli aggiornamenti del servizio, consultare le Note di rilascio per Speech to Text per IBM Cloud.
IBM Cloud Pak for Data Software Hub IBM per istanze installate o in locale dei servizi vocali Watson. Per ulteriori informazioni sull'installazione e la gestione dei servizi vocali di Watson, vedere Panoramica dell'installazione. Per informazioni su tutti gli aggiornamenti del servizio, vedere le Note di rilascio per Speech to Text per IBM Cloud Pak for Data e le Note di rilascio per Speech to Text per IBM Software Hub.

Riconoscimento vocale

Il servizio Speech to Text offre tre interfacce per il riconoscimento vocale: un'interfaccia " WebSocket ", un'interfaccia " HTTP " sincrona e un'interfaccia " HTTP " asincrona. Le interfacce ti consentono di specificare la lingua del tuo audio e il formato e la velocità di campionamento. Forniscono anche molti parametri che puoi utilizzare per personalizzare il modo in cui richiedi l'audio e le informazioni che il servizio invia in risposta. Puoi anche richiedere metriche sull'analisi del servizio del tuo audio e dell'audio stesso.

Per ulteriori informazioni sulle interfacce di riconoscimento vocale, vedi Riconoscimento vocale con il servizio nelle funzioni del servizio.
Per ulteriori informazioni sui parametri di riconoscimento vocale, vedi Utilizzo dei parametri di riconoscimento vocale nelle funzioni del servizio.

Personalizzazione

Il servizio fornisce un'interfaccia di personalizzazione che è possibile utilizzare per ottimizzare il riconoscimento vocale in base alla lingua e ai requisiti acustici. Puoi espandere il vocabolario di un modello con la terminologia specifica per il dominio o adattare un modello per le caratteristiche acustiche del tuo audio. È inoltre possibile aggiungere grammatiche per limitare le frasi che il servizio può riconoscere. Per ulteriori informazioni, vedi Personalizzazione del servizio nelle funzioni del servizio.

Supporto linguistico

Il servizio supporta molte lingue e dialetti:

Arabo (standard moderno)
Cinese (Mandarino)
Ceco
Olandese (Belgio e Paesi Bassi)
Inglese (australiano, indiano, britannico e statunitense)
Francese (canadese e francese)
Tedesco
Hindi (Indiano)
Italiano
Giapponese
Coreano
Portoghese (brasiliano)
Spagnolo (Castigliano e America Latina)
Svedese

Per ulteriori informazioni sulle lingue supportate e sull'utilizzo di modelli vocali di grandi dimensioni, modelli di precedente e di prossima generazione per il riconoscimento vocale, vedi Utilizzo di lingue e modelli.

Supporto audio

Il servizio accetta l'audio per la trascrizione in molti formati popolari:

Ogg o Web Media (WebM) audio con codec Opus o Vorbis
MP3 (o MPEG)
WAV (Waveform Audio File Format)
Free Lossless Audio Codec (FLAC)
PCM (Pulse - Code Modulation) lineare a 16 bit
G.729
A-Legge
Mu - law (o u - law)
Audio di base

Per ulteriori informazioni sui formati audio supportati e le relative caratteristiche, vedi Utilizzo dei formati audio.

Casi di utilizzo integrati

Puoi utilizzare il servizio Speech to Text con altri servizi Watson per creare applicazioni con un ambito e una funzionalità ancora maggiori:

AI assistant on the phone- Elimina i tempi di attesa e migliora la soddisfazione dei clienti con l'integrazione telefonica IBM® watsonx™ Assistant. Fornisci supporto live ai tuoi clienti con l'integrazione preintegrata di watsonx Assistant, Speech to Texte IBM Watson® Text to Speech.
Analizzare le chiamate dei clienti- Identificare i modelli e condurre l'analisi della causa principale delle trascrizioni delle telefonate tra i clienti e gli agenti dei call center. Trascrivi l'audio utilizzando Speech to Texte analizza quindi la trascrizione con IBM Watson® Natural Language Understanding.
Agent di supporto- Fornire informazioni in tempo reale per migliorare l'efficienza e la focalizzazione degli agent. Utilizza Speech to Text per trascrivere le chiamate in tempo reale e quindi utilizza IBM Watson® Discovery per presentare automaticamente le informazioni pertinenti in modo che il tuo agent possa concentrarsi sul cliente piuttosto che sulla ricerca.

Funzioni beta

IBM rilascia occasionalmente funzioni e supporto lingua classificati come beta. Tali funzioni vengono fornite in modo da poterne valutare la funzionalità. Potrebbero essere instabili e sono soggetti a modifiche o rimozioni con breve preavviso. Non sono destinati all'uso in un ambiente di produzione.

Le funzioni beta potrebbero non fornire lo stesso livello di prestazioni o compatibilità delle funzioni generalmente disponibili. Le funzioni generalmente disponibili sono pronte per l'uso in ambienti di produzione.

Prezzi

IBM Cloud

Il servizio offre più piani dei prezzi per soddisfare le tue necessità di utilizzo e applicazione:

Per informazioni generali sui piani dei prezzi e sulle risposte a domande comuni, vedi le FAQ sui prezzi.
Per ulteriori informazioni sui piani dei prezzi o per acquistare un piano, vedi il servizio Speech to Text in IBM Cloud® Catalogo.