IBM Cloud Docs
Initiation à Speech to Text

Initiation à Speech to Text

Le service IBM Watson® Speech to Text transcrit les données audio sous forme de texte pour activer les fonctions de transcription vocale pour les applications. Ce tutoriel basé sur curl peut vous aider à démarrer rapidement avec le service. Les exemples vous montrent comment appeler la méthode POST /v1/recognize du service pour demander une transcription.

Le tutoriel utilise l'utilitaire de ligne de commande curl pour illustrer les appels d'API REST. Pour plus d'informations sur curl, voir Utilisation de curl avec des exemples Watson.

IBM Cloud Regardez la vidéo suivante pour un résumé visuel de la prise en main du service Speech to Text.

Avant de commencer

IBM Cloud

IBM Cloud

  • Créez une instance du service :

    1. Accédez à la page Speech to Text dans le catalogue IBM Cloud.
    2. Inscrivez-vous pour un compte IBM Cloud gratuit ou connectez-vous.
    3. Lisez et acceptez les dispositions du contrat de licence.
    4. Cliquez sur Créer.
  • Copiez les données d'identification pour vous authentifier auprès de votre instance de service :

    1. Consultez la page Manage (Gérer) de l'instance de service :

      • Si vous vous trouvez sur la page Mise en route de votre instance de service, cliquez sur l'entrée Gérer dans la liste des rubriques.
      • Si vous vous trouvez sur la page Liste de ressources, développez le regroupement AI / Machine Learning dans la colonne Nom et cliquez sur le nom de votre instance de service.
    2. Sur la page Gérer, cliquez sur Afficher les données d'identification dans la zone Données d'identification.

    3. Copiez les valeurs API Key et URL pour l'instance de service.

Ce tutoriel utilise une clé d'interface de programmation (API) pour l'authentification. En production, utilisez un jeton IAM. Pour plus d'informations, consultez Authentification sur IBM Cloud.

IBM Cloud Pak for Data

IBM Cloud Pak for Data

Le service Speech to Text doit être installé et configuré avant de commencer ce tutoriel. Pour plus d'informations, consultez Watson Services vocaux sur Cloud Pak for Data.

  1. Créez une instance du service à l'aide du client Web, de l'API ou de l'interface de ligne de commande. Pour plus d'informations sur la création d'une instance de service sur IBM Cloud Pak for Data, voir Création d'une instance de service pour les services vocaux d' Watson.
  2. Suivez les instructions de la rubrique Création d'une instance de services vocaux Watson pour obtenir un jeton Bearer pour l'instance. Ce tutoriel utilise un jeton Bearer pour s'authentifier auprès du service.

Transcription audio sans options

Appelez la méthode POST /v1/recognize pour demander une transcription de base d'un fichier audio FLAC sans aucun paramètre de demande supplémentaire.

  1. Téléchargez l'exemple de fichier audio audio-file.flac.

  2. Exécutez la commande suivante pour appeler la méthode /v1/recognize du service pour effectuer une transcription de base sans paramètre. L'exemple utilise l'en-tête Content-Type pour indiquer le type d'audio, audio/flac. L'exemple utilise le modèle de langue par défaut, en-US_BroadbandModel, pour la transcription.

    IBM Cloud

    • Remplacez {apikey} et {url} par votre clé d'API et votre URL.
    • Remplacez {path_to_file} en indiquant l'emplacement du fichier audio-file.flac.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize"
    

    IBM Cloud Pak for Data IBM Software Hub

    • Remplacez {token} et {url} par l'identifiant d'accès et URL pour votre instance de service.
    • Remplacez {path_to_file} en indiquant l'emplacement du fichier audio-file.flac.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize"
    

Le service renvoie les résultats de transcription suivants :

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.96
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
        }
      ],
      "final": true
    }
  ]
}

Transcription d'un audio avec options

Appelez la méthode POST /v1/recognize pour transcrire le même fichier audio FLAC, mais cette fois en spécifiant deux paramètres de transcription.

  1. Si nécessaire, téléchargez l'extrait audio audio-file.flac.

  2. Exécutez la commande suivante pour appeler la méthode /v1/recognize du service avec deux paramètres supplémentaires. Définissez le paramètre timestamps avec la valeur true pour indiquer le début et la fin de chaque mot dans le flux audio. Définissez le paramètre max_alternatives avec la valeur 3 pour recevoir les trois alternatives les plus plausibles pour la transcription. L'exemple utilise l'en-tête Content-Type pour indiquer le type d'audio, audio/flac et la demande utilise le modèle de langue par défaut, en-US_BroadbandModel.

    IBM Cloud

    • Remplacez {apikey} et {url} par votre clé d'API et votre URL.
    • Remplacez {path_to_file} en indiquant l'emplacement du fichier audio-file.flac.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize?timestamps=true&max_alternatives=3"
    

    IBM Cloud Pak for Data IBM Software Hub

    • Remplacez {token} et {url} par l'identifiant d'accès et URL pour votre instance de service.
    • Remplacez {path_to_file} en indiquant l'emplacement du fichier audio-file.flac.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize?timestamps=true&max_alternatives=3"
    

Le service renvoie les résultats suivants, qui comprennent des horodatages (timestamps) et trois transcriptions alternatives :

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "timestamps": [
            ["several":, 1.0, 1.51],
            ["tornadoes":, 1.51, 2.15],
            ["touch":, 2.15, 2.5],
            . . .
          ]
        },
        {
          "confidence": 0.96
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touched down as a line of severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado and Sunday "
        }
      ],
      "final": true
    }
  ]
}

Etapes suivantes

  • Pour essayer un exemple d'application qui transcrit du texte à partir d'une entrée audio en continu ou à partir d'un fichier que vous téléchargez, voir la démonstration Speech to Text.
  • Pour plus d'informations sur les interfaces et les fonctionnalités du service, voir Fonctionnalités du service.
  • Pour plus d'informations sur toutes les méthodes des interfaces du service, consultez la référence API & SDK.