Terminología y características de audio

La siguiente terminología se utiliza para describir las características de los datos de audio y su tratamiento. Esta información es útil para utilizar el audio con el servicio IBM Watson® Speech to Text.

Si no está familiarizado con el audio y cómo se describe y especifica, empiece con este tema para ayudarle a empezar.
Si ya sabe cómo trabajar con datos de audio, empiece con Formatos de audio soportados.

Frecuencia de muestreo

La frecuencia de muestreo es el número de muestras de audio que se toman por segundo. La frecuencia de muestreo se mide en hercios (Hz) o en kilohercios (kHz). Por ejemplo, una frecuencia de 16.000 muestras por segundo es igual a 16.000 Hz (o 16 kHz). Con el servicio Speech to Text, se especifica un modelo para indicar la frecuencia de muestreo del audio:

Los modelos de banda ancha y multimedia se utilizan para audio que se muestrea a no menos de 16 kHz, lo que IBM® recomienda para aplicaciones en tiempo real de respuesta (por ejemplo, para aplicaciones de voz en directo).
Los modelos de banda estrecha y telefonía se utilizan para audio que se muestrea a no menos de 8 kHz, que es la frecuencia que se utiliza normalmente para el audio telefónico.

El servicio da soporte a ambas frecuencias de muestreo para la mayoría de los idiomas y formatos. Ajusta automáticamente la frecuencia de muestreo de su audio para que se adapte al modelo que especifique antes de realizar el reconocimiento de voz.

Para los modelos de banda ancha y multimedia, el servicio convierte el audio grabado a mayores frecuencias de muestreo a 16 kHz.
Para los modelos de banda estrecha y de telefonía, convierte el audio grabado en frecuencias de muestreo más altas a 8 kHz.

Por ejemplo, puede enviar un audio de 44 kHz con cualquier modelo, pero eso aumenta innecesariamente el tamaño del audio. Para maximizar la cantidad de audio que puede enviar, haga coincidir la frecuencia de muestreo de su audio con el modelo que utiliza.

El servicio no acepta audio muestreado a una frecuencia menor que la frecuencia de muestreo del modelo. Por ejemplo, no puede utilizar un modelo de banda ancha o multimedia para reconocer audio que se muestra a una frecuencia de 8 kHz.

Notas sobre los formatos de audio

Para los formatos audio/alaw, audio/l16 y audio/mulaw, debe especificar la frecuencia del audio.
Para los formatos audio/basic y audio/g729, el servicio solo da soporte a audio de banda estrecha.

Más información

Para obtener más información sobre los modelos que ofrece el servicio para cada idioma soportado, consulte Idiomas y modelos de habla grande, Idiomas y modelos de generación anterior y Idiomas y modelos de próxima generación.

Velocidad en bits

La velocidad en bits es el número de bits de datos que se envían por segundo. La velocidad en bits de una secuencia de audio se mide en kilobits por segundo (kbps). La velocidad en bits se calcula a partir de la frecuencia de muestreo y del número de bits almacenados por muestra. Para el reconocimiento de voz, IBM® recomienda registrar 16 bits por muestra para el audio.

Por ejemplo, un audio que utilice una frecuencia de muestreo de banda ancha de 16 kHz y 16 bits por muestra tiene una velocidad en bits de 256 kbps: (16,000 * 16) / 1000.

Más información

Para un análisis general de las frecuencias de muestreo y de bits, consulte ¿Qué son las frecuencias de bits? y Elección de frecuencias de bits para podcasts.

Compresión

La compresión se utiliza en muchos formatos de audio para reducir el tamaño de los datos de audio. La compresión reduce el número de bits almacenados por muestra y, por lo tanto, la velocidad en bits. Algunos formatos no utilizan compresión, pero la mayoría ofrecen uno de los dos tipos básicos:

La compresión sin pérdida (lossless) reduce el tamaño del audio sin pérdida de calidad, pero la tasa de compresión suele ser baja.
La compresión con pérdida (lossy) reduce el tamaño del audio hasta 10 veces, pero algunos datos y cierta calidad se pierden de forma irrecuperable en la compresión.

Puede utilizar la compresión para acomodar más datos de audio con la solicitud de reconocimiento de voz. Pero el tipo de compresión que utiliza tiene implicaciones para la calidad de la transcripción.

Notas sobre los formatos de audio

Los formatos audio/ogg y audio/webm son contenedores cuya compresión se basa en el codec que se utiliza para codificar los datos: Opus o Vorbis.
El formato audio/wav es un contenedor que puede incluir datos descomprimidos, comprimidos sin pérdida o comprimidos con pérdida.

Más información

Para obtener más información sobre la compresión que está disponible con los formatos de audio que soporta el servicio, consulte Formatos de audio.
Para obtener más información sobre el uso de la compresión de datos para aumentar la cantidad de audio que puede enviar con una solicitud, consulte Límites de datos y compresión.

Canales

Los canales son el número de secuencias del audio grabado:

El audio monoaural (o mono) solo tiene un canal.
El audio estereofónico (o estéreo) suele tener dos canales.

El servicio Speech to Text acepta audio con un máximo de 16 canales. Puesto que solo utiliza un canal para el reconocimiento de voz, el servicio combina el audio con múltiples canales en uno mono de un solo canal durante la transcodificación.

Notas sobre los formatos de audio

Para el formato de audio/l16, debe especificar el número de canales si el audio tiene más de un canal.
Para el formato audio/wav, el servicio acepta audio con un máximo de nueve canales.

Endianness

Endianness indica cómo organiza la arquitectura subyacente del sistema los bytes de datos:

Big-endian ordena los datos comenzando por el bit más significativo.
Little-endian ordena los datos comenzando por el bit menos significativo.

El servicio Speech to Text detecta automáticamente la característica endianness del audio de entrada.

Notas sobre los formatos de audio

En el caso del formato audio/l16, puede especificar la característica endianness para inhabilitar la detección automática si es necesario.

Frecuencia de audio

La frecuencia de audio es el rango de frecuencias audibles del audio. La frecuencia audible estándar aceptada para los seres humanos está entre 20 y 20.000 Hz. Puede utilizar análisis espectrográficos para generar un espectrograma que muestre el contenido de la frecuencia del audio.

La frecuencia de muestreo que se aplica al audio suele ser el doble de la frecuencia máxima del audio. Por ejemplo, una frecuencia de muestreo de 16 kHz significa que la frecuencia máxima de la señal de audio muestreada es de 8 kHz. Los modelos del servicio se han creado teniendo esto en cuenta.

Los modelos de banda estrecha se crean con audio muestreado a 8 kHz. Los modelos de banda estrecha esperan encontrar información en un rango que sea inferior o igual a 4 kHz.
Los modelos de banda ancha se crean con audio muestreado a 16 kHz. Los modelos de banda ancha esperan encontrar información en el rango de 4-8 kHz.

Los datos de entrenamiento de los modelos proceden de diferentes canales (telefonía para los modelos de banda estrecha). Los modelos reflejan las características de los canales en los que se han entrenado.

Aumento de la frecuencia de muestreo (Upsampling)

El aumento de la frecuencia de muestreo o upsampling aumenta la frecuencia de muestreo del audio, pero no incorpora información nueva en el audio. Genera una aproximación de la señal de audio que se habría obtenido mediante el muestreo del audio a un ritmo más alto. Aumenta el tamaño de los datos de audio.

La información del audio muestreado originalmente a una frecuencia de banda estrecha está limitada a un rango de 0-4 kHz. Si se aumenta la frecuencia de muestreo del audio de banda estrecha por una frecuencia de muestreo superior, es improbable que se mejore la precisión del reconocimiento de voz. Si se aumenta la frecuencia de muestreo del audio de banda estrecha, en el rango falta información que esperan los modelos de banda ancha. Además, la información que se encuentra en el rango esperado de una muestra de banda estrecha es cualitativamente diferente de la información que se encuentra en el mismo rango de una muestra de banda ancha. Por lo tanto, el aumento de la frecuencia de muestreo en realidad da como resultado una degradación de la precisión del reconocimiento.

Para una frecuencia de muestreo de banda ancha de 16 kHz, se espera que la frecuencia máxima presente en la señal de audio muestreada sea de 8 kHz. Por lo tanto, debe filtrar la señal original a 8 kHz antes de muestrearla con una velocidad de 16 kHz. De lo contrario, se produce una degradación debido a un fenómeno denominado aliasing.

Una comparación útil sería imaginarse ver una cinta de VHS en una gran pantalla plana HDTV. La imagen se vería borrosa, porque reproducir una cinta en un dispositivo de alta definición no añade realmente nueva información a la secuencia. Simplemente hace que el formato sea compatible con el dispositivo mejor. Esto es lo que ocurre con el aumento de la frecuencia de muestreo.

Reducción de la frecuencia de muestreo (Downsampling)

La reducción de la frecuencia de muestreo o downsampling reduce la frecuencia de muestreo del audio. Genera una aproximación de la señal de audio que se habría obtenido mediante el muestreo del audio a un ritmo más bajo. La reducción de la frecuencia de muestreo no elimina información de la señal de audio, pero sí que reduce el tamaño de los datos de audio.

La reducción de la frecuencia de muestreo del puede resultar efectiva en algunos casos. Por ejemplo, si la frecuencia de muestreo de su audio es superior a 8 kHz y un examen espectrográfico revela que no hay contenido de frecuencia superior a 4 kHz, considere la posibilidad de reducir la frecuencia de muestreo del audio a 8 kHz.