Initiation à Speech to Text
Le service IBM Watson® Speech to Text transcrit les données audio sous forme de texte pour activer les fonctions de transcription vocale pour les applications. Ce tutoriel basé sur curl
peut vous aider à démarrer rapidement avec le
service. Les exemples vous montrent comment appeler la méthode POST /v1/recognize
du service pour demander une transcription.
Le tutoriel utilise l'utilitaire de ligne de commande curl
pour illustrer les appels d'API REST. Pour plus d'informations sur curl
, voir Utilisation de curl avec des exemples Watson.
IBM Cloud Regardez la vidéo suivante pour un résumé visuel de la prise en main du service Speech to Text.
Avant de commencer
IBM Cloud
IBM Cloud
-
Copiez les données d'identification pour vous authentifier auprès de votre instance de service :
-
Consultez la page Manage (Gérer) de l'instance de service :
- Si vous vous trouvez sur la page Mise en route de votre instance de service, cliquez sur l'entrée Gérer dans la liste des rubriques.
- Si vous vous trouvez sur la page Liste de ressources, développez le regroupement AI / Machine Learning dans la colonne Nom et cliquez sur le nom de votre instance de service.
-
Sur la page Gérer, cliquez sur Afficher les données d'identification dans la zone Données d'identification.
-
Copiez les valeurs
API Key
etURL
pour l'instance de service.
-
Ce tutoriel utilise une clé d'interface de programmation (API) pour l'authentification. En production, utilisez un jeton IAM. Pour plus d'informations, consultez Authentification sur IBM Cloud.
IBM Cloud Pak for Data
IBM Cloud Pak for Data
Le service Speech to Text doit être installé et configuré avant de commencer ce tutoriel. Pour plus d'informations, consultez Watson Services vocaux sur Cloud Pak for Data.
- Créez une instance du service à l'aide du client Web, de l'API ou de l'interface de ligne de commande. Pour plus d'informations sur la création d'une instance de service sur IBM Cloud Pak for Data, voir Création d'une instance de service pour les services vocaux d' Watson.
- Suivez les instructions de la rubrique Création d'une instance de services vocaux Watson pour obtenir un jeton Bearer pour l'instance. Ce tutoriel utilise un jeton Bearer pour s'authentifier auprès du service.
Transcription audio sans options
Appelez la méthode POST /v1/recognize
pour demander une transcription de base d'un fichier audio FLAC sans aucun paramètre de demande supplémentaire.
-
Téléchargez l'exemple de fichier audio audio-file.flac.
-
Exécutez la commande suivante pour appeler la méthode
/v1/recognize
du service pour effectuer une transcription de base sans paramètre. L'exemple utilise l'en-têteContent-Type
pour indiquer le type d'audio,audio/flac
. L'exemple utilise le modèle de langue par défaut,en-US_BroadbandModel
, pour la transcription.IBM Cloud
- Remplacez
{path_to_file}
en indiquant l'emplacement du fichieraudio-file.flac
.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
IBM Cloud Pak for Data IBM Software Hub
- Remplacez
{token}
et{url}
par l'identifiant d'accès et URL pour votre instance de service. - Remplacez
{path_to_file}
en indiquant l'emplacement du fichieraudio-file.flac
.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
- Remplacez
Le service renvoie les résultats de transcription suivants :
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
}
],
"final": true
}
]
}
Transcription d'un audio avec options
Appelez la méthode POST /v1/recognize
pour transcrire le même fichier audio FLAC, mais cette fois en spécifiant deux paramètres de transcription.
-
Si nécessaire, téléchargez l'extrait audio audio-file.flac.
-
Exécutez la commande suivante pour appeler la méthode
/v1/recognize
du service avec deux paramètres supplémentaires. Définissez le paramètretimestamps
avec la valeurtrue
pour indiquer le début et la fin de chaque mot dans le flux audio. Définissez le paramètremax_alternatives
avec la valeur3
pour recevoir les trois alternatives les plus plausibles pour la transcription. L'exemple utilise l'en-têteContent-Type
pour indiquer le type d'audio,audio/flac
et la demande utilise le modèle de langue par défaut,en-US_BroadbandModel
.IBM Cloud
- Remplacez
{path_to_file}
en indiquant l'emplacement du fichieraudio-file.flac
.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
IBM Cloud Pak for Data IBM Software Hub
- Remplacez
{token}
et{url}
par l'identifiant d'accès et URL pour votre instance de service. - Remplacez
{path_to_file}
en indiquant l'emplacement du fichieraudio-file.flac
.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
- Remplacez
Le service renvoie les résultats suivants, qui comprennent des horodatages (timestamps) et trois transcriptions alternatives :
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"timestamps": [
["several":, 1.0, 1.51],
["tornadoes":, 1.51, 2.15],
["touch":, 2.15, 2.5],
. . .
]
},
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touched down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado and Sunday "
}
],
"final": true
}
]
}
Etapes suivantes
- Pour essayer un exemple d'application qui transcrit du texte à partir d'une entrée audio en continu ou à partir d'un fichier que vous téléchargez, voir la démonstration Speech to Text.
- Pour plus d'informations sur les interfaces et les fonctionnalités du service, voir Fonctionnalités du service.
- Pour plus d'informations sur toutes les méthodes des interfaces du service, consultez la référence API & SDK.