IBM Cloud Docs
Iniciación a Text to Speech

Iniciación a Text to Speech

El servicio IBM Watson® Text to Speech convierte el texto escrito en una voz que suena natural para proporcionar funciones de síntesis de voz para aplicaciones. Esta guía de aprendizaje basada en curl puede ayudarle a empezar con el servicio. Los ejemplos muestran cómo llamar a los métodos POST y GET /v1/synthesize del servicio para solicitar una secuencia de audio.

La guía de aprendizaje utiliza el programa de utilidad de línea de mandatos curl para mostrar las llamadas de API REST. Para obtener más información sobre curl, consulte Utilización de curl con ejemplos de Watson.

IBM Cloud Vea el siguiente vídeo para obtener un resumen visual de cómo empezar con el servicio Text to Speech .

Antes de empezar

IBM Cloud

IBM Cloud

  • Cree una instancia del servicio:

    1. Vaya a la página Text to Speech en el catálogo IBM Cloud .
    2. Regístrese para obtener una cuenta de IBM Cloud gratuita o inicie una sesión.
    3. Lea y acepte los términos del acuerdo de licencia.
    4. Pulse Crear.
  • Copie las credenciales para autenticarse en la instancia de servicio:

    1. Vea la página Gestionar para la instancia de servicio:

      • Si está en la página Cómo empezar para la instancia de servicio, pulse la entrada Gestionar en la lista de temas.
      • Si está en la página Lista de recursos , expanda la agrupación AI/ Machine Learning en la columna Nombre y pulse el nombre de la instancia de servicio.
    2. En la página Gestionar , pulse Mostrar credenciales en el recuadro Credenciales .

    3. Copie los valores API Key y URL para la instancia de servicio.

Esta guía de aprendizaje utiliza la clave de API para realizar la autenticación. En producción, utilice una señal IAM. Para obtener más información, consulte Autenticación en IBM Cloud.

IBM Cloud Pak for Data

IBM Cloud Pak for Data

Text to Speech para IBM Cloud Pak for Data debe estar instalado y configurado antes de empezar esta guía de aprendizaje. Para obtener más información, consulte Watson en Cloud Pak for Data.

  1. Cree una instancia del servicio utilizando el cliente web, la API o la interfaz de línea de mandatos. Para obtener más información sobre la creación de una instancia de servicio, consulte Creación de una instancia de servicios de voz de Watson.
  2. Siga las instrucciones de Creación de una instancia de servicios de voz de Watson para obtener una señal portadora para la instancia. Esta guía de aprendizaje utiliza una señal portadora para autenticarse en el servicio.

Sintetizar texto en inglés de Estados Unidos

El siguiente mandato utiliza el método POST /v1/synthesize para sintetizar una entrada en inglés de EE.UU. a audio. La solicitud utiliza la voz en-US_MichaelV3Voice. Genera audio en formato WAV.

Puede utilizar un navegador u otras herramientas para reproducir los archivos de audio que se generan con los ejemplos de esta guía de aprendizaje. Para obtener más información, consulte Reproducción de un archivo de audio.

  1. Emita el siguiente mandato para sintetizar la serie "hello world". La solicitud produce un archivo WAV denominado hello_world.wav.

    IBM Cloud

    • Sustituya {apikey} y {url} por su clave de API y su URL.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: application/json" \
    --header "Accept: audio/wav" \
    --data "{\"text\":\"hello world\"}" \
    --output hello_world.wav \
    "{url}/v1/synthesize?voice=en-US_MichaelV3Voice"
    

    IBM Cloud Pak for Data

    • Sustituya {token} y {url} por la señal de acceso y el URL de la instancia de servicio.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: application/json" \
    --header "Accept: audio/wav" \
    --data "{\"text\":\"hello world\"}" \
    --output hello_world.wav \
    "{url}/v1/synthesize?voice=en-US_MichaelV3Voice"
    

Utilice un formato de voz y de audio diferente

El siguiente mandato utiliza de nuevo el método POST /v1/synthesize para sintetizar la misma entrada en inglés de EE.UU. a audio. Pero esta solicitud utiliza la voz en-US_AllisonV3Voice y solicita explícitamente un audio en el formato predeterminado Ogg.

  1. Emita el siguiente mandato para sintetizar la cadena "hello world" pero con una voz distinta. La solicitud produce un archivo Ogg denominado hello_world.ogg.

    IBM Cloud

    • Sustituya {apikey} y {url} por su clave de API y su URL.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: application/json" \
    --data "{\"text\":\"hello world\"}" \
    --output hello_world.ogg \
    "{url}/v1/synthesize?voice=en-US_AllisonV3Voice"
    

    IBM Cloud Pak for Data

    • Sustituya {token} y {url} por la señal de acceso y el URL de la instancia de servicio.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: application/json" \
    --header "Accept: audio/wav" \
    --data "{\"text\":\"hello world\"}" \
    --output hello_world.wav \
    "{url}/v1/synthesize?voice=en-US_AllisonV3Voice"
    

Sintetizar texto en español

En el mandato siguiente se utiliza el método GET /v1/synthesize para sintetizar entrada en español a un archivo de audio. El método GET incluye tres parámetros de consulta: accept para especificar el formato de audio, text para especificar el texto de entrada para el audio y voice para especificar una voz española. Debido a que accept y text se pasan como parámetros de consulta, la solicitud se codifica como URL.

  1. Emita el mandato siguiente para sintetizar la serie de caracteres "hola mundo" y producir un archivo WAV denominado hola_mundo.wav.

    IBM Cloud

    • Sustituya {apikey} y {url} por su clave de API y su URL.
    curl -X GET -u "apikey:{apikey}" \
    --output hola_mundo.wav \
    "{url}/v1/synthesize?accept=audio%2Fwav&text=hola%20mundo&voice=es-ES_EnriqueV3Voice"
    

    IBM Cloud Pak for Data

    • Sustituya {token} y {url} por la señal de acceso y el URL de la instancia de servicio.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --output hola_mundo.wav \
    "{url}/v1/synthesize?accept=audio%2Fwav&text=hola%20mundo&voice=es-ES_EnriqueV3Voice"
    

Próximos pasos

  • Para probar una aplicación de ejemplo que acepta texto y genera voz con diferentes voces, consulte la demo deText to Speech.
  • Para obtener más información sobre las características y las interfaces de servicio, consulte Características del servicio.
  • Para obtener más información sobre todos los métodos de las interfaces del servicio, consulte la Referencia de API y SDK.