A propos de Speech to Text

Le service IBM Watson® Speech to Text fournit des fonctions de transcription vocale pour vos applications. Le service tire parti de l'apprentissage automatique pour combiner les connaissances grammaticales et morphologiques du langage et la composition des signaux audio et vocaux afin d'obtenir une transcription précise de la voix humaine. Il met à jour et affine sa transcription en mode continu à mesure qu'il reçoit les paroles.

Le service comporte des API qui lui permettent de s'adapter à toute application qui utilise des paroles en entrée et une retranscription textuelle en sortie. Il peut être utilisé pour des applications telles que les chatbots vocaux automatisés, les outils d'analyse des centres d'appels de service clientèle et la transcription multimédia. Le contrôle vocal des appareils embarqués, la transcription de réunions et de conférences téléphoniques et la dictée de messages et de notes sont autant d'applications possibles, parmi d'autres.

Le service est idéal pour les clients qui doivent extraire des transcriptions vocales de haute qualité du support audio du centre d'appels. Les clients des secteurs tels que les services financiers, la santé, les assurances et les télécommunications peuvent développer des applications natives pour le cloud pour le service clients, la voix du client, l'assistance des agents et d'autres solutions.

Versions du produit

Speech to Text peut être déployé en tant que service infonuagique géré ou peut être installé sur site. Cette documentation explique comment utiliser les deux versions du produit. Les informations telles que les rubriques, les paragraphes et les exemples qui s'appliquent exclusivement à une version sont clairement indiquées:

IBM Cloud pour les instances gérées d' Speech to Text hébergées sur IBM Cloud ou pour les instances hébergées surIBM Cloud Pak for Data as a Service. Pour obtenir des informations sur toutes les mises à jour de service, consultez les notes de mise à jour d' Speech to Text ez IBM Cloud.
IBM Cloud Pak for Data Software Hub IBM pour les instances installées ou sur site des services Speech Watson. Pour plus d'informations sur l'installation et la gestion des services vocaux d' Watson, consultez la rubrique Présentation de l'installation. Pour obtenir des informations sur toutes les mises à jour de service, consultez les Notes de mise à jour d' Speech to Text, IBM Cloud Pak for Data et Notes de mise à jour d' Speech to Text, IBM Software Hub.

Reconnaissance vocale

Le service Speech to Text fournit trois interfaces pour la reconnaissance vocale : une interface WebSocket, une interface HTTP synchrone et une interface HTTP asynchrone. Ces interfaces permettent d'indiquer la langue de vos données audio, ainsi que leur format et leur fréquence d'échantillonnage. Elles fournissent également de nombreux paramètres que vous pouvez utiliser pour ajuster votre demande de données audio et les informations que le service renvoie dans la réponse. Vous pouvez également demander au service des métriques sur l'analyse des données audio et l'audio lui-même.

Pour plus d'informations sur les interfaces de reconnaissance vocale, voir Reconnaissance vocale par le biais du service dans les fonctionnalités du service.
Pour plus d'informations sur les paramètres de reconnaissance vocale, voir Utilisation des paramètres de reconnaissance vocale dans les fonctionnalités du service.

Personnalisation

Ce service fournit une interface de personnalisation que vous pouvez utiliser pour optimiser la reconnaissance vocale en fonction de votre langue et en tenant compte de vos exigences acoustiques. Vous pouvez enrichir le vocabulaire d'un modèle avec une terminologie spécifique à un domaine ou adapter un modèle aux caractéristiques acoustiques de vos données audio. Vous pouvez également ajouter des grammaires pour limiter les expressions reconnaissables par le service. Pour plus d'informations, voir Personnalisation du service dans les fonctionnalités du service.

Support linguistique

Le service prend en charge un grand nombre de langues et de dialectes :

Arabe (moderne standard)
Chinois (mandarin)
Tchèque
Néerlandais (Belgique et Pays-Bas)
Anglais (Australie, Inde, Royaume-Uni et États-Unis)
Français (Canada et France)
Allemand
Hindi (Inde)
Italien
Japonais
Coréen
Portugais (Brésil)
Espagnol (Castillan et Amérique latine)
Suédois

Pour plus d'informations sur les langues prises en charge et sur l'utilisation de grands modèles de parole, modèles de reconnaissance vocale de la génération précédente et de la génération suivante, voir Utilisation des langues et des modèles.

Support audio

Le service accepte les données audio à des fins de transcription dans de nombreux formats populaires :

Ogg ou Web Media (WebM) avec le codec Opus ou Vorbis
MP3 (ou MPEG)
Format de fichier audio Waveform (WAV)
Free Lossless Audio Codec (FLAC)
Pulse-Code Modulation (PCM) 16 bits linéaire
G.729
A-Law
Mu-law (ou u-law)
Audio de base

Pour plus d'informations sur les formats audio pris en charge et leurs caractéristiques, voir Utilisation de formats audio.

Cas d'utilisation intégrés

Vous pouvez utiliser le service Speech to Text avec d'autres services Watson pour créer des applications avec une portée et une fonctionnalité encore plus grandes :

Assistant IA au téléphone - Éliminer les temps de mise en attente et améliorer la satisfaction des clients à l'égard de l'intégration des téléphones IBM® watsonx™ Assistant. Apportez un support en direct à vos clients grâce à l'intégration préconstruite de watsonx Assistant, Speech to Text et IBM Watson® Text to Speech.
Analyser les appels client - Découvrir les tendances et effectuer des analyses de causes profondes sur des transcriptions d'appels téléphoniques entre vos clients et les agents de vos centre d'appels. Transcrire l'audio à l'aide de Speech to Text, puis analyser la transcription avec IBM Watson® Natural Language Understanding.
Agents de support -Fournir des informations en temps réel pour améliorer l'efficacité et la concentration des agents. Utilisez Speech to Text pour transcrire les appels en direct, puis utilisez IBM Watson® Discovery pour traiter automatiquement les informations pertinentes afin que votre agent puisse se concentrer sur le client plutôt que sur la recherche.

Fonctions bêta

IBM publie occasionnellement des fonctions et un support de langue qui sont classés en tant que bêta. Ces fonctions sont fournies pour que vous puissiez évaluer leur fonctionnalité. Elles peuvent être instables et modifiées ou retirées avec un court préavis. Elles ne sont pas destinées à être utilisés dans un environnement de production.

Les fonctions bêta peuvent ne pas fournir le même niveau de performance ou de compatibilité que les fonctions généralement disponibles. Les fonctions généralement disponibles sont prêtes à être utilisées dans un environnement de production.

Tarification

IBM Cloud

Le service propose plusieurs plans de tarification adaptés à vos besoins en termes d'utilisation et d'application :

Pour obtenir des informations générales sur les plans de tarification et les réponses aux questions courantes, consultez la rubrique Tarification de la FAQ.
Pour plus d'informations sur les plans tarifaires ou pour acheter un plan, consultez le service Speech to Text dans le catalogue IBM Cloud®.