A propos de Text to Speech

Le service IBM Watson® Text to Speech fournit des API qui utilisent les fonctions de synthèse vocale de IBMpour convertir le texte écrit dans un langage naturel. Le service retransmet au client l'audio synthétisé dans un délai minimal. L'audio utilise la cadence et l'intonation appropriées pour sa langue et son dialecte afin de fournir des voix qui sont douces et naturelles.

Ce service peut être utilisé dans des applications telles que les agents conversationnels vocaux automatisés, ainsi que dans diverses applications vocales sans écran, telles que des outils pour personnes handicapées ou présentant une déficience visuelle, la narration vidéo et les voix off, ou encore des solutions éducatives et domotiques. Il convient aux applications dans lesquelles l'audio est la méthode de sortie préférée.

Versions du produit

Text to Speech peut être déployé en tant que service de cloud géré ou peut être installé sur site. Cette documentation explique comment utiliser les deux versions du produit. Les informations telles que les rubriques, les paragraphes et les exemples qui s'appliquent exclusivement à une version sont clairement indiquées:

IBM Cloud pour les instances gérées d' Text to Speech, hébergées sur IBM Cloud, ou pour les instances hébergées surIBM Cloud Pak for Data as a Service. Pour obtenir des informations sur toutes les mises à jour de service, consultez les Notes de mise à jour d' Text to Speech ez IBM Cloud.
IBM Cloud Pak for Data pour les instances installées ou sur site d'xml-ph-0000@deepl.internal pour xml-ph-0001@deepl.internal IBM Software Hub pour les instances installées ou sur site d' Text to Speech pour IBM Cloud Pak for Data. Pour plus d'informations sur l'installation et la gestion des services vocaux d' Watson, consultez la section Présentation de l'installation. Pour obtenir des informations sur toutes les mises à jour de service, consultez les Notes de mise à jour d' Text to Speech, IBM Cloud Pak for Data et Notes de mise à jour d' Text to Speech, IBM Software Hub.

Synthèse vocale

Le service Text to Speech prend en charge à la fois les interfaces HTTP et WebSocket pour la synthèse vocale. Ces deux interfaces acceptent le texte brut et le texte comportant un marquage SSML (Speech Synthesis Markup Language) basé sur XML. L'interface WebSocket peut également générer des informations de minutage sur les mots de l'audio. Pour plus d'informations, consultez les caractéristiques de service suivantes :

Personnalisation

Le service fournit une interface de personnalisation que vous pouvez utiliser pour spécifier la façon dont il prononce les mots inhabituels qui apparaissent dans le texte d'entrée. Vous pouvez définir des modèles personnalisés pour inclure des dictionnaires de mots pour le lexique de votre application. Pour plus d'informations, voir Personnalisation du service dans les fonctionnalités du service.

Avec l'option Tune by Example, vous pouvez également ajouter des invites personnalisées à vos modèles personnalisés. Les invites personnalisées vous permettent de dicter la prosodie avec laquelle le service prononce les invites spécifiées par l'utilisateur. Pour plus d'informations, voir Utilisation de Tune by Example dans les fonctions de service.

Support linguistique

Le service offre des voix neuronales pour synthétiser du texte en parole dans de nombreuses langues et dialectes:

Néerlandais (Pays-Bas)
Anglais (dialectes australiens, britanniques et américains)
Français (dialectes canadiens et français)
Allemand
Italien
Japonais
Coréen
Portugais (Brésil)
Espagnol (dialectes castillan, latino-américain et nord-américain)

Pour différentes langues, le service offre des voix féminines, des voix masculines ou les deux. Pour plus d'informations sur les langues et les voix prises en charge, les types de voix fournis par le service pour chaque langue et leur statut pour les deux versions du service, voir Langues et voix.

Support audio

Le service produit l'audio dans de nombreux formats populaires :

A-law
Audio de base
Free Lossless Audio Codec (FLAC)
Pulse-Code Modulation (PCM) 16 bits linéaire
MP3 (ou MPEG)
Mu-law (ou u-law)
Ogg ou Web Media (WebM) avec le codec Opus ou Vorbis
Format de fichier audio Waveform (WAV)

Les formats prennent en charge différentes fréquences d'échantillonnage et autres caractéristiques. Pour plus d'informations, voir Utilisation des formats audio.

Fonctions bêta

IBM publie occasionnellement des fonctions et un support de langue qui sont classés en tant que bêta. Ces fonctions sont fournies pour que vous puissiez évaluer leur fonctionnalité. Elles peuvent être instables et modifiées ou retirées avec un court préavis. Elles ne sont pas destinées à être utilisés dans un environnement de production.

Les fonctions bêta peuvent ne pas fournir le même niveau de performance ou de compatibilité que les fonctions généralement disponibles. Les fonctions généralement disponibles sont prêtes à être utilisées dans un environnement de production.

Tarification

IBM Cloud

Le service propose plusieurs plans de tarification adaptés à vos besoins d'utilisation et d'application. Pour plus d'informations sur les plans tarifaires ou pour acheter un plan, consultez le service Text to Speech dans le catalogue IBM Cloud®.