IBM Cloud Docs
Langues et modèles de nouvelle génération

Langues et modèles de nouvelle génération

Le service IBM Watson® Speech to Text prend en charge une collection croissante de modèles de nouvelle génération qui améliorent les capacités de reconnaissance vocale des modèles de génération précédente du service. Le modèle indique la langue correspondant aux données audio et la fréquence d'échantillonnage de ces données. Les modèles de nouvelle génération ont un débit plus élevé que les modèles de génération précédente, de sorte que le service peut renvoyer des transcriptions plus rapidement. Les modèles de nouvelle génération fournissent également une meilleure précision de transcription.

Lorsque vous utilisez des modèles de nouvelle génération, le service analyse l'audio de manière bidirectionnelle. Grâce aux réseaux neuronaux profonds, le modèle analyse et extrait des informations de l'audio. Le modèle évalue ensuite l'information en amont et en aval pour prédire la transcription, en « écoutant » efficacement l'audio à deux reprises.

Avec les informations supplémentaires et le contexte fournis par l'analyse bidirectionnelle, le service peut émettre des hypothèses plus intelligentes sur les mots prononcés dans l'audio. Malgré l'analyse supplémentaire, la reconnaissance avec les modèles de nouvelle génération est plus efficace qu'avec les modèles de génération précédente, de sorte que le service produit des résultats plus rapidement et avec plus de précision. La plupart des modèles nouvelle génération offrent également une option de faible temps d'attente pour recevoir des résultats encore plus rapidement, bien que le faible temps d'attente puisse avoir une incidence sur la précision de la transcription.

En plus de fournir une plus grande précision de transcription, les modèles ont la capacité de formuler des hypothèses qui ne sont pas dans le modèle de langue de base et qu'ils n'ont pas rencontré lors de la formation. Cette fonction peut réduire la nécessité de personnaliser les termes propres au domaine. Un modèle n'a pas besoin de contenir un terme de vocabulaire spécifique pour prédire ce mot.

Types de modèle de nouvelle génération

Le service met à disposition deux types de modèles de nouvelle génération :

  • Les modèles de téléphonie sont destinés spécifiquement à l'audio qui est communiqué par téléphone. Tout comme les modèles Bande étroite de génération précédente, les modèles de téléphonie sont destinés aux audio dont le taux d'échantillonnage minimal est de 8 kHz.
  • Les modèles multimédias sont destiné aux audio extraits des sources avec un taux d'échantillonnage plus élevé, tel qu'une vidéo. Utilisez un modèle multimédia pour n'importe quel audio autre que l'audio au téléphone. Tout comme les modèles large bande de génération précédente, les modèles de téléphonie sont destinés aux audio dont le taux d'échantillonnage minimal est de 16 kHz.

Choisissez le type de modèle qui correspond le plus à la source et au taux d'échantillonnage de votre audio. Le service ajuste automatiquement la fréquence d'échantillonnage de vos données audio pour correspondre au modèle que vous spécifiez. Pour obtenir la meilleure précision de reconnaissance, tenez également compte du contenu en fréquence de votre audio. Pour plus d'informations, voir Taux d'échantillonnage et Audiofréquence.

Modèles de langue de nouvelle génération pris en charge

Les sections suivantes répertorient les modèles de nouvelle génération de chaque type disponibles pour chaque langue. Les tableaux des sections fournissent les renseignements suivants :

  • La colonne Nom du modèle indique le nom du modèle. (Contrairement aux modèles de génération précédente, les modèles de nouvelle génération n'incluent pas le mot Model dans leurs noms.)
  • La colonne Prise en charge du faible temps d'attente indique si le modèle prend en charge le paramètre low_latency pour la reconnaissance vocale. Pour plus d'informations, voir Faible temps d'attente.
  • La colonne Statut indique si le modèle est en disponibilité générale (GA) ou une version bêta.

Les colonnes Nom du modèle et Prise en charge du faible temps d'attente indiquent les versions de produit pour lesquelles le modèle et le faible temps d'attente sont pris en charge. Sauf indication contraire IBM Cloud, IBM Cloud Pak for Data ou, un modèle et une faible latence sont pris en charge pour toutes les versions du service IBM Software Hub, un modèle et une faible latence sont pris en charge pour toutes les versions du service

Modèles de téléphonie

Le tableau 1 répertorie les modèles de téléphonie de nouvelle génération disponibles.

Modèles de téléphonie de nouvelle génération
Langue Nom du modèle Prise en charge de faible temps d'attente Statut
Arabe
(moderne standard)
ar-MS_Telephony Oui disponibilité générale
Chinois
(mandarin)
zh-CN_Telephony Oui disponibilité générale
Tchèque cs-CZ_Telephony Oui disponibilité générale
Néerlandais
(Belge)
nl-BE_Telephony Oui disponibilité générale
Néerlandais
(Pays-Bas)
nl-NL_Telephony Oui disponibilité générale
Anglais
(Australie)
en-AU_Telephony Oui disponibilité générale
Anglais
(Inde)
en-IN_Telephony Oui disponibilité générale
Anglais
(Royaume-Uni)
en-GB_Telephony Oui disponibilité générale
Anglais
(États-Unis)
en-US_Telephony Oui disponibilité générale
Anglais
(tous les dialectes pris en charge)
en-WW_Medical_Telephony Oui Bêta
Français
(canadien)
fr-CA_Telephony Oui disponibilité générale
Français
(France)
fr-FR_Telephony Oui disponibilité générale
Allemand de-DE_Telephony Oui disponibilité générale
Hindi
(inde)
hi-IN_Telephony Oui disponibilité générale
Italien it-IT_Telephony Oui disponibilité générale
Japonais ja-JP_Telephony Oui disponibilité générale
Coréen ko-KR_Telephony Oui disponibilité générale
Portugais
(Brésil)
pt-BR_Telephony Oui disponibilité générale
Espagnol
(castillan)
es-ES_Telephony Oui disponibilité générale
Espagnol
(Argentine, Chili,
Colombie, Mexique,
et Pérou)
es-LA_Telephony Oui disponibilité générale
Suédois sv-SE_Telephony Oui disponibilité générale

Le modèle espagnol d'Amérique latine, es-LA_Telephony, s'applique à tous les dialectes d'Amérique latine. C'est l'équivalent des modèles de génération précédente disponibles pour les dialectes argentins, chiliens, colombiens, mexicains et péruviens. Si vous avez utilisé un modèle de génération précédente pour l'un de ces dialectes d'Amérique latine, utilisez le modèle es-LA_Telephony pour migrer vers le modèle de nouvelle génération équivalent.

Modèles multimédias

Le tableau 2 présente les modèles multimédias de nouvelle génération disponibles.

Modèles multimédia de nouvelle génération
Langue Nom du modèle Prise en charge de faible temps d'attente Statut
Néerlandais
(Pays-Bas)
nl-NL_Multimedia Oui disponibilité générale
Anglais
(Australie)
en-AU_Multimedia Oui disponibilité générale
Anglais
(Royaume-Uni)
en-GB_Multimedia Oui disponibilité générale
Anglais
(États-Unis)
en-US_Multimedia Oui disponibilité générale
Français
(canadien)
fr-CA_Multimedia Oui disponibilité générale
Français
(France)
fr-FR_Multimedia Oui disponibilité générale
Allemand de-DE_Multimedia Oui disponibilité générale
Italien it-IT_Multimedia Oui disponibilité générale
Japonais ja-JP_Multimedia Oui disponibilité générale
Coréen ko-KR_Multimedia Oui disponibilité générale
Portugais
(Brésil)
pt-BR_Multimedia Oui disponibilité générale
Espagnol
(castillan)
es-ES_Multimedia Oui disponibilité générale

Le modèle de téléphonie d'anglais médical

La nouvelle génération bêta en-WW_Medical_Telephony comprend les termes des domaines médical et pharmacologique. Utilisez le modèle dans les situations où vous devez transcrire une terminologie médicale commune, comme les noms de médicaments, les marques de produits, les procédures médicales, les maladies, les types de médecin ou la terminologie liée à la COVID-19.

Les cas d'utilisation courants comprennent les conversations entre un patient et un médecin (par exemple, un médecin, une infirmière ou un pharmacien) :

  • « J'ai mal à la tête. J'ai besoin d'Ibuprofène, s'il vous plaît ».
  • « Pouvez-vous suggérer un orthopédiste spécialisé dans l'arthrose ? »
  • « Pouvez-vous m'aider à trouver un interniste à Chicago ? »

Le nouveau modèle est disponible pour tous les dialectes anglais pris en charge : australien, indien, britannique et américain. Le nouveau modèle prend en charge la personnalisation des modèles de langue et les grammaires en tant que fonctionnalité bêta. Il prend en charge la plupart des paramètres du modèle en-US_Telephony, y compris smart_formatting pour l'anglais américain. En plus de ces fonctionnalités répertoriées dans Fonctionnalités prises en charge pour les modèles de nouvelle génération, le modèle ne prend pas en charge les paramètres suivants : profanity_filter, redaction, et speaker_labels.

Fonctionnalités prises en charge pour les modèles de nouvelle génération

Les modèles de nouvelle génération sont pris en charge pour une utilisation avec un grand sous-ensemble des fonctions de reconnaissance vocale du service. Dans les cas où une fonction prise en charge est limitée à certaines langues, les mêmes restrictions de langue s'appliquent généralement aux modèles de génération précédente et de nouvelle génération.

Les modèles nouvelle génération prennent en charge tous les paramètres et en-têtes de reconnaissance vocale, à l'exception des éléments suivants :

  • acoustic_customization_id (les modèles de nouvelle génération ne prennent pas en charge la personnalisation du modèle acoustique).
  • keywords et keywords_threshold
  • processing_metrics et processing_metrics_interval
  • word_alternatives_threshold

Les modèles nouvelle génération prennent également en charge les paramètres suivants, qui ne sont pas disponibles avec les modèles de génération précédente :

  • character_insertion_bias, qui est pris en charge par tous les modèles nouvelle génération. Pour plus d'informations, voir Pondération d'insertion de caractères.
  • low_latency, qui est pris en charge par la plupart des modèles nouvelle génération. Pour plus d'informations, voir Faible temps d'attente.

Les modèles de nouvelle génération diffèrent également des modèles de génération précédente par rapport aux fonctions supplémentaires suivantes :

  • Les modèles de la prochaine génération ne produisent pas de marqueurs d'hésitation. Ils incluent plutôt les hésitations réelles dans les résultats de la transcription. Pour plus d'informations, voir Speech hesitations and hésitation marqueurs.
  • Les modèles de nouvelle génération prennent en charge la capitalisation automatique uniquement pour les modèles allemands. Les modèles de génération précédente prennent en charge la personnalisation automatique uniquement pour les modèles en anglais américains. Pour plus d'informations, voir Capitalisation.