Terminologia de áudio e características

A terminologia a seguir é utilizada para descrever as características dos dados de áudio e seu processamento. Essas informações são úteis para o uso do seu áudio com o serviço IBM Watson® Speech to Text.

Se não estiver familiarizado com áudio e como ele é descrito e especificado, comece com este tópico para ajudá-lo.
Se você já entender como trabalhar com dados de áudio, comece com Formatos de áudio suportados.

Taxa de amostragem

Taxa de amostragem (ou frequência de amostragem) é o número de amostras de áudio que são obtidas por segundo. A taxa de amostragem é medida em Hertz (Hz) ou em kilohertz (kHz). Por exemplo, uma taxa de 16.000 amostras por segundo é igual a 16.000 Hz (ou 16 kHz). Com o serviço Speech to Text, você especifica um modelo para indicar a taxa de amostragem de seu áudio:

Os modelos banda larga e multimídia são usados para áudio que é amostrado em nada menos que 16 kHz, o que a IBM® recomenda para aplicativos responsivos em tempo real (por exemplo, para aplicativos de fala ao vivo).
Os modelos banda estreita e telefonia são usados para áudio que é amostrado em nada menos que 8 kHz, que é a taxa normalmente usada para áudio telefônico.

O serviço suporta as duas taxas de amostragem para a maioria dos idiomas e formatos. Ele ajustará automaticamente a taxa de amostragem de seu áudio para corresponder ao modelo que você especificar antes que ele reconheça a fala.

Para os modelos de banda larga e multimídia, o serviço converte áudio gravado em taxas de amostragem mais altas para 16 kHz.
Para os modelos de banda estreita e de telefonia, ele converte áudio gravado em taxas de amostragem mais altas para 8 kHz.

Você pode, por exemplo, enviar áudio de 44 kHz com qualquer modelo, mas isso aumenta o tamanho do áudio sem necessidade. Para maximizar a quantia de áudio que você pode enviar, corresponda a taxa de amostragem de seu áudio ao modelo que você usa.

O serviço não aceita áudio que é amostrado a uma taxa menor que a taxa de amostragem do modelo. Por exemplo, não é possível utilizar um modelo de banda larga ou multimídia para reconhecer áudio que é amostrado a uma taxa de 8 kHz.

Notas sobre formatos de áudio

Para os formatos audio/alaw, audio/l16 e audio/mulaw, deve-se especificar a taxa de seu áudio.
Para os formatos audio/basic e audio/g729, o serviço suporta apenas áudio de banda estreita.

Mais informações

Para obter mais informações sobre os modelos que o serviço oferece para cada idioma suportado, consulte Idiomas e modelos de fala grandes, Idiomas e modelos de geração anterior e Idiomas e modelos de próxima geração.

Taxa de bits

Taxa de bits é o número de bits de dados enviados por segundo. A taxa de bits para um fluxo de áudio é medida em kilobits por segundo (kbps). A taxa de bits é calculada por meio da taxa de amostragem e do número de bits armazenados por amostra. Para reconhecimento de voz, a IBM® recomenda que você registre 16 bits por amostra para seu áudio.

Por exemplo, o áudio que usa uma taxa de amostragem de banda larga de 16 kHz e 16 bits por amostra tem uma taxa de bits de 256 kbps: (16,000 * 16) / 1000.

Mais informações

Para uma discussão geral sobre taxas de amostragem e taxas de bits, consulte O que são taxas de bits? e Escolhendo taxas de bits para podcasts.

Compactação

Acompactação é usada por muitos formatos de áudio para reduzir o tamanho dos dados de áudio. A compactação reduz o número de bits armazenados por amostra e, portanto, a taxa de bits. Alguns formatos usam sem compactação, mas a maioria oferece um dos dois tipos básicos:

A compactaçãosem perdas reduz o tamanho do áudio sem perda de qualidade, mas a proporção de compactação é geralmente pequena.
A compactaçãocom perdas reduz o tamanho do áudio por até 10 vezes, mas alguns dados e alguma qualidade são irrecuperavelmente perdidos na compactação.

É possível usar compactação para acomodar mais dados de áudio com a solicitação de reconhecimento de voz. Mas o tipo de compactação usado tem implicações para a qualidade de transcrição.

Notas sobre formatos de áudio

Os formatos audio/ogg e audio/webm são contêineres cuja compactação depende do codec que você usa para codificar os dados: Opus ou Vorbis.
O formato audio/wav é um contêiner que pode incluir dados descompactados, sem perdas ou com perdas.

Mais informações

Para obter mais informações sobre a compactação que está disponível com os formatos de áudio que o serviço suporta, consulte Formatos de áudio.
Para obter mais informações sobre como usar a compactação de dados para aumentar a quantia de áudio que é possível enviar com uma solicitação, consulte Limites de dados e compactação.

Canais

Canais indicam o número de fluxos do áudio gravado:

O áudio Monaural (ou mono) tem somente um único canal.
O áudioestereofônico (ou estéreo) normalmente tem dois canais.

O serviço Speech to Text aceita áudio com um máximo de 16 canais. Como ele usa somente um único canal para reconhecimento de voz, o serviço faz efetua downmix do áudio com diversos canais para um canal mono durante a transcodificação.

Notas sobre formatos de áudio

Para o formato audio/l16, deve-se especificar o número de canais se seu áudio tiver mais de um canal.
Para o formato audio/wav, o serviço aceita áudio com um máximo de nove canais.

Ordenação

Ordenação indica como os bytes de dados são organizados pela arquitetura de computador subjacente:

Big endian ordena os dados pelo bit mais significativo.
Little endian ordena os dados pelo bit menos significativo.

O serviço Speech to Text detecta automaticamente a ordenação do áudio recebido.

Notas sobre formatos de áudio

Para o formato audio/l16, é possível especificar a ordenação para desativar a detecção automática, se necessário.

Frequência de áudio

Frequência de áudio refere-se ao intervalo de frequências audíveis no áudio. A frequência audível padrão para humanos é geralmente aceita como 20 a 20.000 Hz. É possível usar a análise espectrográfica para produzir um espectrograma que revela o conteúdo de frequência de seu áudio.

A taxa de amostragem que é aplicada ao áudio é tipicamente duas vezes a frequência máxima do áudio. Por exemplo, uma taxa de amostragem de 16 kHz significa que a frequência máxima do sinal de áudio amostrado é de 8 kHz. Os modelos do serviço são criados com isso em mente.

Os modelos de banda estreita são construídos com áudio que é amostrado em 8 kHz. Os modelos de banda estreita esperam localizar informações em um intervalo que seja menor que ou igual a 4 kHz.
Os modelos de banda larga são construídos com áudio que é amostrado a 16 kHz. Os modelos de banda larga esperam localizar informações no intervalo de 4 a 8 kHz.

Os dados de treinamento para os modelos são derivados de diferentes canais (telefonia para modelos de banda estreita). Os modelos refletem as características dos canais nos quais eles foram treinados.

Upsampling

Upsampling aumenta a taxa de amostragem do áudio, mas não apresenta novas informações para o áudio. Produz uma aproximação do sinal de áudio que teria sido obtida por meio da amostragem do áudio a uma taxa mais alta. Aumenta o tamanho dos dados de áudio.

As informações em áudio que são originalmente amostradas em uma frequência de banda estreita são limitadas ao intervalo de 0 a 4 kHz. Efetuar upsampling de áudio de banda estreita para uma taxa de amostragem mais alta provavelmente não melhorará a precisão do reconhecimento de voz. Se você efetuar upsampling do áudio de banda estreita, ele terá informações ausentes no intervalo que os modelos de banda larga esperam. Além disso, as informações que estão localizadas no intervalo esperado de uma amostra de banda estreita são qualitativamente diferentes das informações que são localizadas no mesmo intervalo de uma amostra de banda larga. Portanto, o upsampling resulta na degradação da precisão do reconhecimento.

Para uma taxa de amostragem de banda larga de 16 kHz, espera-se que a frequência máxima presente no sinal de áudio amostrado seja 8 kHz. Portanto, deve-se filtrar o sinal original em 8 kHz antes de amostrá-lo com uma taxa de 16 kHz. Caso contrário, a degradação ocorre devido ao fenômeno conhecido como aliasing.

Uma comparação útil pode ser imaginar a visualização de uma fita VHS em uma grande tela plana HDTV. A imagem é borrada porque a reprodução da fita em um dispositivo de alta definição não pode realmente incluir novas informações no fluxo. Isso simplesmente torna o formato compatível com o dispositivo melhor. O mesmo se aplica ao upsampling de áudio.

Downsampling

Downsampling diminui a taxa de amostragem do áudio. Produz uma aproximação do sinal de áudio que teria sido obtida por meio da amostragem do áudio a uma taxa mais baixa. O downsampling não remove nenhuma informação do sinal de áudio, mas reduz o tamanho dos dados de áudio.

Efetuar downsampling de seu áudio pode ser efetivo em alguns casos. Por exemplo, se a taxa de amostragem de seu áudio for maior que 8 kHz e um exame espectrográfico revelar nenhum conteúdo de frequência maior que 4 kHz, considere efetuar downsampling do áudio para 8 kHz.