IBM Cloud Docs
Terminologia e caratteristiche audio

Terminologia e caratteristiche audio

La seguente terminologia viene utilizzata per descrivere le caratteristiche dei dati audio e la loro elaborazione. Queste informazioni sono utili per utilizzare il tuo audio con il servizio IBM Watson® Speech to Text.

  • Se non si ha familiarità con l'audio e con la sua descrizione e specificazione, si può iniziare da questo argomento.
  • Se già comprendi come gestire i dati audio, inizia con Formati audio supportati.

Frequenza di campionamento

La frequenza di campionamento è il numero di campioni audio che vengono presi al secondo. La frequenza di campionamento è misurata in Hertz (Hz) o kilohertz (kHz). Ad esempio, una frequenza di 16.000 campioni al secondo equivale a 16.000 Hz (o 16 kHz). Con il servizio Speech to Text, specifichi un modello per indicare la frequenza di campionamento del tuo audio:

  • I modelli a banda larga e multimediali sono utilizzati per l'audio campionato a non meno di 16 kHz, che IBM® raccomanda per le applicazioni reattive e in tempo reale (ad esempio, per le applicazioni di live-speech).
  • I modelli a banda stretta e per telefonia sono utilizzati per l'audio campionato a non meno di 8 kHz, che è la frequenza tipicamente utilizzata per l'audio telefonico.

Il servizio supporta entrambe le frequenze di campionamento per la maggior parte delle lingue e dei formati. Regola automaticamente la frequenza di campionamento del tuo audio in modo che corrisponda al modello specificato prima che riconosca il discorso.

  • Per i modelli a banda larga e multimediali, il servizio converte l'audio registrato a frequenze di campionamento più elevate in 16 kHz.
  • Per i modelli a banda stretta e di telefonia, converte l'audio registrato con frequenze di campionamento più elevate a 8 kHz.

Puoi, ad esempio, inviare l'audio a 44 kHz con qualsiasi modello, ma questo aumenta inutilmente le dimensioni dell'audio. Per massimizzare la quantità di audio che puoi inviare, abbina la frequenza di campionamento dell'audio al modello che usi.

Il servizio non accetta l'audio campionato a una frequenza inferiore alla frequenza di campionamento del modello. Ad esempio, non puoi utilizzare un modello multimediale o a banda larga per riconoscere l'audio campionato ad una velocità di 8 kHz.

Note sui formati audio

  • Per i formati audio/alaw, audio/l16 e audio/mulaw, devi specificare la frequenza del tuo audio.
  • Per i formati audio/basic e audio/g729, il servizio supporta solo l'audio a banda stretta.

Ulteriori informazioni

Velocità di bit

La velocità di bit è il numero di bit di dati inviati al secondo. La velocità di bit per un flusso audio viene misurata in kilobit al secondo (kbps). La velocità di bit viene calcolata dalla frequenza di campionamento e dal numero di bit memorizzati per ogni campione. Per il riconoscimento vocale, IBM® consiglia di registrare 16 bit per campione per il tuo audio.

Ad esempio, l'audio che utilizza una frequenza di campionamento a banda larga di 16 kHz e 16 bit per campione ha una velocità di bit di 256 kbps: (16,000 * 16) / 1000.

Ulteriori informazioni

Compressione

La compressione viene utilizzata da molti formati audio per ridurre le dimensioni dei dati audio. La compressione riduce il numero di bit memorizzati per ogni campione e quindi la velocità di bit. Alcuni formati non utilizzano la compressione, ma la maggior parte offrono uno dei due tipi di base:

  • La compressione senza perdita riduce la dimensione dell'audio senza alcuna perdita di qualità, ma il rapporto di compressione è in genere ridotto.
  • La compressione con perdita riduce la dimensione dell'audio fino a 10 volte, ma comporta anche la perdita della qualità e di alcuni dati.

Puoi utilizzare la compressione per gestire più dati audio con la tua richiesta di riconoscimento vocale. Ma il tipo di compressione che si utilizza ha implicazioni per la qualità della trascrizione.

Note sui formati audio

  • I formati audio/ogg e audio/webm sono contenitori la cui compressione si basa sul codec che utilizzi per codificare i dati: Opus o Vorbis.
  • Il formato audio/wav è un contenitore che può includere dati non compressi, senza perdita o con perdita.

Ulteriori informazioni

  • Per ulteriori informazioni sulla compressione disponibile con i formati audio supportati dal servizio, vedi Formati audio.
  • Per ulteriori informazioni sull'utilizzo della compressione dei dati per aumentare la quantità di audio che puoi inviare con una richiesta, vedi Limiti e compressione dei dati.

Canali

I canali indicano il numero di flussi dell'audio registrato:

  • L'audio monofonico (o mono) ha solo un singolo canale.
  • L'audio stereofonico (o stereo) ha in genere due canali.

Il servizio Speech to Text accetta l'audio con un massimo di 16 canali. Poiché utilizza solo un singolo canale per il riconoscimento vocale, il servizio esegue il downmix dell'audio con più canali su mono a un canale durante la transcodifica.

Note sui formati audio

  • Per il formato audio/l16, devi specificare il numero di canali se il tuo audio ha più di un canale.
  • Per il formato audio/wav, il servizio accetta l'audio con un massimo di nove canali.

Proprietà endian

La proprietà endian indica come i byte di dati sono organizzati dall'architettura del computer sottostante:

  • Big-endian ordina i dati in base al bit più significativo.
  • Little-endian ordina i dati in base al bit meno significativo.

Il servizio Speech to Text rileva automaticamente la proprietà endian dell'audio in entrata.

Note sui formati audio

  • Per il formato audio/l16, puoi specificare la proprietà endian per disabilitare il rilevamento automatico, laddove necessario.

Frequenza audio

La frequenza audio si riferisce alla gamma di frequenze udibili nell'audio. La frequenza udibile standard per l'uomo è generalmente accettata da 20 a 20.000 Hz. Puoi utilizzare l'analisi spettrografica per produrre uno spettrogramma che rivela il contenuto di frequenza del tuo audio.

La frequenza di campionamento applicata all'audio è in genere il doppio della frequenza massima dell'audio. Ad esempio, una frequenza di campionamento di 16 kHz significa che la frequenza massima del segnale audio campionato è di 8 kHz. I modelli del servizio vengono creati tenendo conto di questi fattori.

  • I modelli a banda stretta vengono creati con audio campionato a 8 kHz. I modelli a banda stretta si aspettano di trovare informazioni in un intervallo inferiore o uguale a 4 kHz.
  • I modelli a banda larga vengono creati con audio campionato a 16 kHz. I modelli a banda larga si aspettano di trovare informazioni nell'intervallo da 4 a 8 kHz.

I dati di addestramento per i modelli vengono derivati da diversi canali (telefonia per i modelli a banda stretta). I modelli riflettono le caratteristiche dei canali su cui sono stati addestrati.

Sovracampionamento

Il sovracampionamento aumenta la frequenza di campionamento dell'audio ma non introduce nuove informazioni al suo interno. Produce un'approssimazione del segnale audio che sarebbe stato ottenuto campionando l'audio a una frequenza maggiore. Aumenta la dimensione dei dati audio.

Le informazioni nell'audio che sono state inizialmente campionate con una frequenza a banda stretta sono limitate all'intervallo da 0 a 4 kHz. È improbabile che il sovracampionamento dell'audio a banda stretta a una frequenza di campionamento superiore migliori l'accuratezza del riconoscimento vocale. Se sovracampioni l'audio a banda stretta, sarà privo delle informazioni nell'intervallo previsto dai modelli a banda larga. Inoltre, le informazioni che si trovano nell'intervallo previsto di un campione a banda stretta sono qualitativamente diverse dalle informazioni che si trovano nello stesso intervallo di un campione a banda larga. Quindi, il sovracampionamento riduce effettivamente l'accuratezza del riconoscimento.

Per una frequenza di campionamento a banda larga di 16 kHz, la frequenza massima presente nel segnale audio campionato dovrebbe essere di 8 kHz. Pertanto, devi filtrare il segnale originale a 8 kHz prima di campionarlo con una frequenza di 16 kHz. Altrimenti, si verifica una riduzione delle prestazioni a causa del fenomeno noto come aliasing.

Un confronto utile potrebbe essere quello di immaginare di guardare un nastro VHS su una grande TV HD a schermo piatto. L'immagine è sfocata perché la riproduzione del nastro su un dispositivo ad alta definizione non può effettivamente aggiungere nuove informazioni al flusso. Rende semplicemente il formato compatibile con il dispositivo migliore. Lo stesso vale per il sovracampionamento dell'audio.

Sottocampionamento

Il sottocampionamento diminuisce la frequenza di campionamento dell'audio. Produce un'approssimazione del segnale audio che sarebbe stato ottenuto campionando l'audio a una frequenza inferiore. Il sottocampionamento non rimuove le informazioni dal segnale audio, ma riduce la dimensione dei dati audio.

Il sottocampionamento del tuo audio può essere efficace in alcuni casi. Ad esempio, se la frequenza di campionamento dell'audio è maggiore di 8 kHz e un esame spettrografico non rivela alcun contenuto di frequenza superiore a 4 kHz, prendi in considerazione il sottocampionamento dell'audio a 8 kHz.