Langues et modèles de nouvelle génération

Le service IBM Watson® Speech to Text prend en charge une collection croissante de modèles de nouvelle génération qui améliorent les capacités de reconnaissance vocale des modèles de génération précédente du service. Le modèle indique la langue correspondant aux données audio et la fréquence d'échantillonnage de ces données. Les modèles de nouvelle génération ont un débit plus élevé que les modèles de génération précédente, de sorte que le service peut renvoyer des transcriptions plus rapidement. Les modèles de nouvelle génération fournissent également une meilleure précision de transcription.

Lorsque vous utilisez des modèles de nouvelle génération, le service analyse l'audio de manière bidirectionnelle. Grâce aux réseaux neuronaux profonds, le modèle analyse et extrait des informations de l'audio. Le modèle évalue ensuite l'information en amont et en aval pour prédire la transcription, en « écoutant » efficacement l'audio à deux reprises.

Avec les informations supplémentaires et le contexte fournis par l'analyse bidirectionnelle, le service peut émettre des hypothèses plus intelligentes sur les mots prononcés dans l'audio. Malgré l'analyse supplémentaire, la reconnaissance avec les modèles de nouvelle génération est plus efficace qu'avec les modèles de génération précédente, de sorte que le service produit des résultats plus rapidement et avec plus de précision. La plupart des modèles nouvelle génération offrent également une option de faible temps d'attente pour recevoir des résultats encore plus rapidement, bien que le faible temps d'attente puisse avoir une incidence sur la précision de la transcription.

En plus de fournir une plus grande précision de transcription, les modèles ont la capacité de formuler des hypothèses qui ne sont pas dans le modèle de langue de base et qu'ils n'ont pas rencontré lors de la formation. Cette fonction peut réduire la nécessité de personnaliser les termes propres au domaine. Un modèle n'a pas besoin de contenir un terme de vocabulaire spécifique pour prédire ce mot.

Pour une présentation des modèles de nouvelle génération et de leur technologie, voir Next-Generation Watson Speech to Text.
Pour plus d'informations sur la technologie qui sous-tend les modèles de nouvelle génération, voir Advancing RNN Transducer Technology for Speech Recognition.
Pour plus d'informations sur la migration des modèles de génération précédente vers des modèles de nouvelle génération, voir Migration vers les modèles de nouvelle génération.

Types de modèle de nouvelle génération

Le service met à disposition deux types de modèles de nouvelle génération :

Les modèles de téléphonie sont destinés spécifiquement à l'audio qui est communiqué par téléphone. Tout comme les modèles Bande étroite de génération précédente, les modèles de téléphonie sont destinés aux audio dont le taux d'échantillonnage minimal est de 8 kHz.
Les modèles multimédias sont destiné aux audio extraits des sources avec un taux d'échantillonnage plus élevé, tel qu'une vidéo. Utilisez un modèle multimédia pour n'importe quel audio autre que l'audio au téléphone. Tout comme les modèles large bande de génération précédente, les modèles de téléphonie sont destinés aux audio dont le taux d'échantillonnage minimal est de 16 kHz.

Choisissez le type de modèle qui correspond le plus à la source et au taux d'échantillonnage de votre audio. Le service ajuste automatiquement la fréquence d'échantillonnage de vos données audio pour correspondre au modèle que vous spécifiez. Pour obtenir la meilleure précision de reconnaissance, tenez également compte du contenu en fréquence de votre audio. Pour plus d'informations, voir Taux d'échantillonnage et Audiofréquence.

Modèles de langue de nouvelle génération pris en charge

Les sections suivantes répertorient les modèles de nouvelle génération de chaque type disponibles pour chaque langue. Les tableaux des sections fournissent les renseignements suivants :

La colonne Nom du modèle indique le nom du modèle. (Contrairement aux modèles de génération précédente, les modèles de nouvelle génération n'incluent pas le mot Model dans leurs noms.)
La colonne Prise en charge du faible temps d'attente indique si le modèle prend en charge le paramètre low_latency pour la reconnaissance vocale. Pour plus d'informations, voir Faible temps d'attente.
La colonne Statut indique si le modèle est en disponibilité générale (GA) ou une version bêta.

Les colonnes Nom du modèle et Prise en charge du faible temps d'attente indiquent les versions de produit pour lesquelles le modèle et le faible temps d'attente sont pris en charge. Sauf indication contraire IBM Cloud, IBM Cloud Pak for Data ou, un modèle et une faible latence sont pris en charge pour toutes les versions du service IBM Software Hub, un modèle et une faible latence sont pris en charge pour toutes les versions du service

Modèles de téléphonie

Le tableau 1 répertorie les modèles de téléphonie de nouvelle génération disponibles.

Modèles de téléphonie de nouvelle génération
Langue	Nom du modèle	Prise en charge de faible temps d'attente	Statut
Arabe (moderne standard)	`ar-MS_Telephony`	Oui	disponibilité générale
Chinois (mandarin)	`zh-CN_Telephony`	Oui	disponibilité générale
Tchèque	`cs-CZ_Telephony`	Oui	disponibilité générale
Néerlandais (Belge)	`nl-BE_Telephony`	Oui	disponibilité générale
Néerlandais (Pays-Bas)	`nl-NL_Telephony`	Oui	disponibilité générale
Anglais (Australie)	`en-AU_Telephony`	Oui	disponibilité générale
Anglais (Inde)	`en-IN_Telephony`	Oui	disponibilité générale
Anglais (Royaume-Uni)	`en-GB_Telephony`	Oui	disponibilité générale
Anglais (États-Unis)	`en-US_Telephony`	Oui	disponibilité générale
Anglais (tous les dialectes pris en charge)	`en-WW_Medical_Telephony`	Oui	Bêta
Français (canadien)	`fr-CA_Telephony`	Oui	disponibilité générale
Français (France)	`fr-FR_Telephony`	Oui	disponibilité générale
Allemand	`de-DE_Telephony`	Oui	disponibilité générale
Hindi (inde)	`hi-IN_Telephony`	Oui	disponibilité générale
Italien	`it-IT_Telephony`	Oui	disponibilité générale
Japonais	`ja-JP_Telephony`	Oui	disponibilité générale
Coréen	`ko-KR_Telephony`	Oui	disponibilité générale
Portugais (Brésil)	`pt-BR_Telephony`	Oui	disponibilité générale
Espagnol (castillan)	`es-ES_Telephony`	Oui	disponibilité générale
Espagnol (Argentine, Chili, Colombie, Mexique, et Pérou)	`es-LA_Telephony`	Oui	disponibilité générale
Suédois	`sv-SE_Telephony`	Oui	disponibilité générale

Le modèle espagnol d'Amérique latine, es-LA_Telephony, s'applique à tous les dialectes d'Amérique latine. C'est l'équivalent des modèles de génération précédente disponibles pour les dialectes argentins, chiliens, colombiens, mexicains et péruviens. Si vous avez utilisé un modèle de génération précédente pour l'un de ces dialectes d'Amérique latine, utilisez le modèle es-LA_Telephony pour migrer vers le modèle de nouvelle génération équivalent.

Modèles multimédias

Le tableau 2 présente les modèles multimédias de nouvelle génération disponibles.

Modèles multimédia de nouvelle génération
Langue	Nom du modèle	Prise en charge de faible temps d'attente	Statut
Néerlandais (Pays-Bas)	`nl-NL_Multimedia`	Oui	disponibilité générale
Anglais (Australie)	`en-AU_Multimedia`	Oui	disponibilité générale
Anglais (Royaume-Uni)	`en-GB_Multimedia`	Oui	disponibilité générale
Anglais (États-Unis)	`en-US_Multimedia`	Oui	disponibilité générale
Français (canadien)	`fr-CA_Multimedia`	Oui	disponibilité générale
Français (France)	`fr-FR_Multimedia`	Oui	disponibilité générale
Allemand	`de-DE_Multimedia`	Oui	disponibilité générale
Italien	`it-IT_Multimedia`	Oui	disponibilité générale
Japonais	`ja-JP_Multimedia`	Oui	disponibilité générale
Coréen	`ko-KR_Multimedia`	Oui	disponibilité générale
Portugais (Brésil)	`pt-BR_Multimedia`	Oui	disponibilité générale
Espagnol (castillan)	`es-ES_Multimedia`	Oui	disponibilité générale

Le modèle de téléphonie d'anglais médical

La nouvelle génération bêta en-WW_Medical_Telephony comprend les termes des domaines médical et pharmacologique. Utilisez le modèle dans les situations où vous devez transcrire une terminologie médicale commune, comme les noms de médicaments, les marques de produits, les procédures médicales, les maladies, les types de médecin ou la terminologie liée à la COVID-19.

Les cas d'utilisation courants comprennent les conversations entre un patient et un médecin (par exemple, un médecin, une infirmière ou un pharmacien) :

« J'ai mal à la tête. J'ai besoin d'Ibuprofène, s'il vous plaît ».
« Pouvez-vous suggérer un orthopédiste spécialisé dans l'arthrose ? »
« Pouvez-vous m'aider à trouver un interniste à Chicago ? »

Le nouveau modèle est disponible pour tous les dialectes anglais pris en charge : australien, indien, britannique et américain. Le nouveau modèle prend en charge la personnalisation des modèles de langue et les grammaires en tant que fonctionnalité bêta. Il prend en charge la plupart des paramètres du modèle en-US_Telephony, y compris smart_formatting pour l'anglais américain. En plus de ces fonctionnalités répertoriées dans Fonctionnalités prises en charge pour les modèles de nouvelle génération, le modèle ne prend pas en charge les paramètres suivants : profanity_filter, redaction, et speaker_labels.

Fonctionnalités prises en charge pour les modèles de nouvelle génération

Les modèles de nouvelle génération sont pris en charge pour une utilisation avec un grand sous-ensemble des fonctions de reconnaissance vocale du service. Dans les cas où une fonction prise en charge est limitée à certaines langues, les mêmes restrictions de langue s'appliquent généralement aux modèles de génération précédente et de nouvelle génération.

Pour plus d'informations sur les paramètres que vous pouvez utiliser avec les modèles de nouvelle génération, y compris les langues prises en charge et si les paramètres sont GA ou bêta, consultez le Résumé des paramètres.
Pour plus d'informations sur la prise en charge de la personnalisation par les modèles de nouvelle génération, voir Prise en charge de la personnalisation par les modèles de nouvelle génération.

Les modèles nouvelle génération prennent en charge tous les paramètres et en-têtes de reconnaissance vocale, à l'exception des éléments suivants :

acoustic_customization_id (les modèles de nouvelle génération ne prennent pas en charge la personnalisation du modèle acoustique).
keywords et keywords_threshold
processing_metrics et processing_metrics_interval
word_alternatives_threshold

Les modèles nouvelle génération prennent également en charge les paramètres suivants, qui ne sont pas disponibles avec les modèles de génération précédente :

character_insertion_bias, qui est pris en charge par tous les modèles nouvelle génération. Pour plus d'informations, voir Pondération d'insertion de caractères.
low_latency, qui est pris en charge par la plupart des modèles nouvelle génération. Pour plus d'informations, voir Faible temps d'attente.

Les modèles de nouvelle génération diffèrent également des modèles de génération précédente par rapport aux fonctions supplémentaires suivantes :

Les modèles de la prochaine génération ne produisent pas de marqueurs d'hésitation. Ils incluent plutôt les hésitations réelles dans les résultats de la transcription. Pour plus d'informations, voir Speech hesitations and hésitation marqueurs.
Les modèles de nouvelle génération prennent en charge la capitalisation automatique uniquement pour les modèles allemands. Les modèles de génération précédente prennent en charge la personnalisation automatique uniquement pour les modèles en anglais américains. Pour plus d'informations, voir Capitalisation.