IBM Cloud Docs
Terminologie et caractéristiques audio

Terminologie et caractéristiques audio

La terminologie suivante est utilisée pour décrire les caractéristiques des données audio et leur traitement. Ces informations sont utiles pour l'utilisation de votre audio avec le service IBM Watson® Speech to Text.

  • Si vous n'êtes pas familiarisé avec l'audio et comment il est décrit et spécifié, commencez par cette rubrique d'initiation.
  • Si vous comprenez déjà comment utiliser des données audio, commencez par Formats audio pris en charge.

Fréquence d'échantillonnage

La fréquence d'échantillonnage (ou taux d'échantillonnage) correspond au nombre d'échantillons audio pris par seconde. La fréquence d'échantillonnage est mesurée en Hertz (Hz) ou en kilohertz (kHz). Par exemple, une fréquence de 16 000 échantillons par seconde équivaut à 16 000 Hz (ou 16 kHz). Avec le service Speech to Text, vous spécifiez un modèle pour indiquer la fréquence d'échantillonnage de vos données audio.

  • Les modèles Haut débit et Multimédia sont utilisés pour l'audio qui est échantillonné à un taux minimal de 16 kHz, ce que IBM® recommande pour les applications réactives et en temps réel (par exemple, pour les applications de conversation de vive voix).
  • Les modèles Bande étroite et Téléphonie sont utilisés pour l'audio qui est échantillonné à un taux minimal de 8 kHz, c'est-à-dire le débit généralement utilisé pour les enregistrements audio par téléphone.

Le service prend en charge les deux taux d'échantillonnage pour la plupart des langues et formats. Il ajuste automatiquement la fréquence d'échantillonnage de vos données audio pour correspondre au modèle que vous spécifiez avant de procéder à la reconnaissance vocale.

  • Pour les modèles à large bande et multimédias, le service convertit les fichiers audio enregistrés à des taux d'échantillonnage plus élevés à 16 kHz.
  • Pour les modèles à bande étroite et de téléphonie, il convertit les fichiers audio enregistrés à des taux d'échantillonnage plus élevés à 8 kHz.

Vous pouvez, par exemple, envoyer un audio à 44 kHz avec n'importe quel modèle, mais cela augmente inutilement la taille de l'audio. Pour minimiser la quantité d'audio que vous envoyez, faites correspondre la fréquence d'échantillonnage des données audio au modèle que vous utilisez.

Le service n'accepte pas les fichiers audio échantillonnés à un taux inférieur au taux d'échantillonnage du modèle. Par exemple, vous ne pouvez pas utiliser un modèle à large bande ou multimédia pour reconnaître un fichier audio échantillonné à un débit de 8 kHz.

Remarques à propos des formats audio

  • Pour les formats audio/alaw, audio/l16 et audio/mulaw, vous devez spécifier votre fréquence audio.
  • Pour les formats audio/basic et audio/g729, seuls les modèles audio à bandes étroite sont pris en charge.

Informations complémentaires

Débit binaire

Le débit binaire correspond au nombre de bits de données envoyées par seconde. Le débit binaire d'un flux audio est mesuré en kilobits par seconde (kbit/s). Le débit binaire est calculé à partir de la fréquence d'échantillonnage et du nombre de bits stockés par échantillon. Pour la reconnaissance vocale, IBM® vous recommande d'enregistrer 16 bits par échantillon pour l'audio.

Par exemple, l'audio utilisant une fréquence d'échantillonnage large bande de 16 kHz et 16 bits par échantillon a un débit binaire de 256 kbit/s : (16,000 * 16) / 1000.

Informations complémentaires

Compression

La compression est utilisée par de nombreux formats audio pour réduire la taille des données audio. Elle réduit le nombre de bits stockés par échantillon et par la même occasion le débit binaire. Certains formats n'utilisent pas de compression, mais la plupart offrent l'un des deux types de base suivants :

  • La compression sans perte réduit la taille des données audio sans perte de qualité, mais le taux de compression est en principe faible.
  • La compression avec perte divise par 10 la taille des données audio, mais au prix d'une perte irrémédiable de données et au détriment de la qualité lors de la compression.

Vous pouvez utiliser la compression pour recevoir plus de données audio avec votre demande de reconnaissance vocale. Cependant, le type de compression que vous utilisez a des implications sur la qualité de la transcription.

Remarques à propos des formats audio

  • Les formats audio/ogg et audio/webm sont des conteneurs dont la compression s'appuie sur le codec que vous utilisez pour coder les données : Opus ou Vorbis.
  • Le format audio/wav est un conteneur qui comprend des données non compressées, avec perte ou sans perte.

Informations complémentaires

  • Pour plus d'informations sur la compression disponible avec les formats audio pris en charge par le service, voir Formats audio.
  • Pour plus d'informations sur l'utilisation de la compression de données pour augmenter la quantité de données audio que vous pouvez transmettre avec une demande, voir Limites et compression de données.

Canaux

Les canaux indiquent le nombre de flux dans l'enregistrement audio :

  • Le mode monaural (ou mono) ne comporte qu'un seul canal audio.
  • Le mode stéréophonique (ou stéréo) comporte en principe deux canaux audio.

Le service Speech to Text accepte 16 canaux audio maximum. Comme il utilise un seul canal pour la reconnaissance vocale, le service règle le mode de mixage à plusieurs canaux sur un canal mono lors du transcodage.

Remarques à propos des formats audio

  • Pour le format audio/l16, vous devez spécifier le nombre de canaux audio si vous avez plus d'un canal.
  • Pour le format audio/wav, le service accepte un maximum de neuf canaux audio.

Ordre d'octets

L'ordre d'octets (endianness) indique comment sont organisés les octets de données selon l'architecture d'ordinateur sous-jacente :

  • Big-endian organise les données par bit de poids fort.
  • Little-endian organise les données par bit de poids faible.

Le service Speech to Text détecte automatiquement l'ordre d'octets des données audio entrantes.

Remarques à propos des formats audio

  • Pour le format audio/l16, vous pouvez spécifier l'ordre d'octets pour désactiver la détection automatique si nécessaire.

Fréquence audio

La fréquence audio désigne la plage de fréquences audibles dans le domaine audio. La fréquence audible standard pour les humains est comprise en général entre 20 et 20 000 Hz. Vous pouvez recourir à une analyse spectrographique pour obtenir un spectrogramme révélant le contenu de vos données audio en termes de fréquence.

La fréquence d'échantillonnage qui est appliquée aux données audio est en principe deux fois supérieure à la fréquence audio maximale. Par exemple, une fréquence d'échantillonnage de 16 kHz signifie que la fréquence maximale du signal audio échantillonné est de 8 kHz. Les modèles du service sont créés dans cette optique.

  • Les modèles à bande étroite sont construits avec des données audio échantillonnées à 8 kHz. Les modèles à bande étroite s'attendent à trouver des informations dans une plage inférieure ou égale à 4 kHz.
  • Les modèles à large bande sont construits avec des données audio échantillonnées à 16 kHz. Les modèles à large bande s'attendent à trouver des informations dans une plage de 4 à 8 kHz.

Les données d'entraînement des modèles sont dérivées des différents canaux (téléphonie pour les modèles à bande étroite). Les modèles reflètent les caractéristiques des canaux sur lesquels ils ont été entraînés.

Sur-échantillonnage

Le sur-échantillonnage (upsampling) augmente la fréquence d'échantillonnage des données audio mais n'introduit pas de nouvelles informations dans le signal audio. Il produit un signal audio approximatif qui aurait été obtenu en échantillonnant les données audio à une fréquence plus élevée. Il augmente la taille des données audio.

Les informations audio échantillonnées à l'origine à une fréquence à bande étroite sont limitées à une plage de 0 à 4 kHz. Sur-échantillonner des données audio à bande étroite à une fréquence d'échantillonnage plus élevée offre peu de chance d'améliorer la précision de la reconnaissance vocale. Si vous sur-échantillonnez des données audio à bande étroite, il manquera des informations de plage escomptées par les modèles à large bande. De plus, les informations recueillies dans la plage prévue pour un échantillon à bande étroite sont qualitativement différentes de celles recueillies dans la même plage pour un échantillon à large bande. Par conséquent, le sur-échantillonnage nuit à l'exactitude de la reconnaissance.

Pour une fréquence d'échantillonnage à large bande de 16 kHz, la valeur prévue pour la fréquence maximale présente dans le signal audio échantillonné est de 8 kHz. Par conséquent, vous devez filtrer le signal d'origine à 8 kHz avant de l'échantillonner à une fréquence de 16 kHz. Autrement, la qualité est altérée en raison d'un phénomène connu sous le nom de aliasing (repliement de spectre).

Une comparaison utile serait d'imaginer visionner une cassette VHS sur un grand écran plat HDTV. L'image serait floue car regarder la cassette sur un lecteur en haute définition ne peut réellement rien ajouter au flux d'informations. Cela permet juste de rendre le format compatible avec le meilleur lecteur. Il en va de même pour le sur-échantillonnage audio.

Sous-échantillonnage

Le sous-échantillonnage (downsampling) diminue la fréquence d'échantillonnage audio. Il produit un signal audio approximatif qui aurait été obtenu en échantillonnant les données audio à une fréquence moins élevée. Le sous-échantillonnage ne supprime aucune information du signal audio, mais il réduit la taille des données audio.

Sous-échantillonner vos données audio peut s'avérer efficace dans certains cas. Par exemple, si la fréquence d'échantillonnage de vos données audio est supérieure à 8 kHz et qu'un examen spectrographique ne révèle aucun contenu de fréquence supérieure à 4 kHz, envisagez un sous-échantillonnage des données audio à 8 kHz.