IBM Cloud Docs
Características del servicio

Características del servicio

Puede acceder a las funciones de síntesis de voz del servicio de IBM Watson® Text to Speech a través de una interfaz HTTP o WebSocket. Ambas interfaces proporcionan características que le permiten enviar y recibir información distinta del servicio. Y al igual que con todos los servicios de Watson, dispone de los SDK para simplificar el desarrollo de aplicaciones en muchos lenguajes de programación.

Utilización de idiomas y voces

El servicio da soporte a la síntesis de voz con voces para los idiomas listados en Soporte de idiomas. Para los distintos idiomas, el servicio ofrece voces femeninas, voces masculinas, o ambas. Es posible que algunos idiomas y voces sólo se admitan en IBM Cloud®.

Todas las voces del servicio utilizan la tecnología de voz neuronal, que produce un habla más natural. El servicio ofrece tres tipos de voces, natural, neural expresiva y neural mejorada, que tienen cualidades y características diferentes. Para obtener información sobre los tipos de voces y sobre los idiomas y voces admitidos para cada tipo, consulta Idiomas y voces.

Utilización de formatos de audio

El servicio puede devolver audio sintetizado en muchos formatos, que se listan en la sección Soporte de audio. Para obtener información sobre los formatos de audio admitidos, consulte Utilización de formatos de audio.

Sintetizar el habla con el servicio

El servicio Text to Speech ofrece una interfaz HTTP REST (Representational State Transfer) y una interfaz WebSocket:

  • La interfaz HTTP proporciona las versiones GET y POST del método /v1/synthesize del servicio. Las dos versiones del método ofrecen una funcionalidad generalmente equivalente. Pase el texto que se debe sintetizar como parámetro de consulta con el método GET y como cuerpo de la solicitud con el método POST.
  • La interfaz WebSocket proporciona un método /v1/synthesize. Pase el texto que se debe sintetizar a través de una conexión WebSocket establecida.

Con las interfaces HTTP y WebSocket, debe especificar el idioma y la voz que se van a utilizar y el formato de audio que se debe devolver.

Límites de datos

Las interfaces aceptan las siguientes cantidades máximas de texto con una sola solicitud:

  • El método HTTP GET /v1/synthesize acepta un máximo de 8 KB de entrada, incluyendo el texto de entrada y el URL y las cabeceras.
  • El método HTTP POST /v1/synthesize acepta un máximo de 8 KB para el URL y las cabeceras, y un máximo de 5 KB para el texto de entrada que se envía dentro del cuerpo de la solicitud.
  • El método WebSocket /v1/synthesize acepta un máximo de 5 KB de texto de entrada.

Estos límites incluyen todos los caracteres de la entrada, incluido el espacio en blanco.

IBM Cloud A efectos de facturación, los caracteres de espacio en blanco no se cuentan. Sin embargo, se cuentan todos los demás caracteres, incluidos aquellos que forman parte de elementos SSML.

Utilización de las características de síntesis de voz

El servicio admite características adicionales que puede utilizar para adaptar el texto que envía y el audio que recibe.

SSML

Puede pasar puede pasar al servicio texto sin formato o texto anotado con SSML (Speech Synthesis Markup Language). SSML es un lenguaje de códigos basado en XML que proporciona anotaciones de texto para aplicaciones de síntesis de voz, como por ejemplo el servicio Text to Speech.

Modificación de la frecuencia de uso de la palabra

Para modificar la tasa global de síntesis de voz para una solicitud, puede utilizar el parámetro de consulta rate_percentage. La tasa de habla es la velocidad a la que el servicio habla el texto que sintetiza en voz. Una tasa más alta hace que el texto se hable más rápidamente; una tasa más baja hace que el texto se hable más despacio. El parámetro cambia la velocidad predeterminada por voz para una solicitud completa. Para obtener más información, consulte Modificación de la velocidad de habla.

El parámetro rate_percentage es una funcionalidad beta.

Modificación del tono de voz

Para modificar el tono global de síntesis de voz para una solicitud, puede utilizar el parámetro de consulta pitch_percentage. El tono de voz representa el tono del discurso que el servicio sintetiza. Representa lo alto o bajo que el tono de la voz es percibido por el oyente. Un tono más alto resulta en el habla que se habla en un tono más alto y se percibe como una voz más alta; un tono más bajo resulta en el habla que se habla en un tono más bajo y se percibe como una voz más baja. El parámetro cambia el tono predeterminado por voz para una solicitud completa. Para obtener más información, consulte Modificación del tono de voz.

El parámetro pitch_percentage es una funcionalidad beta.

Cómo escribir series

Para indicar cómo deben escribirse los caracteres individuales de una serie (alfabéticos, numéricos o alfanuméricos), puede incluir el parámetro de consulta spell_out_mode con una solicitud. De forma predeterminada, el servicio especifica los caracteres individuales a la misma velocidad a la que sintetiza el texto para un idioma. Puede utilizar el parámetro para indicar al servicio que deletree los caracteres individuales más lentamente, en grupos de uno, dos o tres caracteres. Utilice el parámetro con el elemento SSML <say-as> para controlar cómo se sintetizan los caracteres de una serie. Para obtener más información, consulte Especificación de cómo se escriben las series.

El parámetro spell_out_mode es una funcionalidad beta que solo está soportada para voces en alemán.

Temporizaciones de palabras

Con la interfaz WebSocket, puede obtener información de temporización sobre la ubicación de las palabras en el audio que devuelve el servicio. La información de temporización es útil para sincronizar el texto de entrada y el audio.

Puede utilizar el elemento SSML <mark> para identificar ubicaciones específicas, como por ejemplo límites de palabras, en el audio. Para idiomas que no sean el japonés, también puede solicitar información de temporización de palabras para todas las palabras del texto de entrada. Para obtener más información, consulte Generación de temporizaciones de palabras.

Los tiempos de palabra no son compatibles con las voces naturales.

Utilización de características de síntesis de voz con voz neuronal expresiva

Con voces neuronales expresivas, el servicio admite características adicionales que modifican cómo se sintetiza el texto que pasa en audio.

Utilización de estilos de habla

Las voces neuronales expresivas determinan el sentimiento del texto a partir del contexto de sus palabras y frases. El discurso que producen, además de tener un estilo muy conversacional, refleja el estado de ánimo del texto. Usted puede embellecer las tendencias naturales de las voces al indicar que todo o parte del texto es para enfatizar un estilo específico: alegre, empático, neutral, o incierto. Utilice SSML para indicar el estilo y el texto al que se va a aplicar. Para obtener más información, consulte Utilización de estilos de habla.

Énfasis en interjecciones

Cuando se utilizan voces neuronales expresivas, el servicio detecta automáticamente una colección de interjecciones comunes basadas en el contexto. Cuando sintetiza estas interjecciones, les da el énfasis natural que un humano usaría en la conversación normal. Para algunas de las interjecciones, puede utilizar SSML para habilitar o inhabilitar su énfasis. Para obtener más información, consulte Énfasis en las interjecciones.

Enfatizar palabras

Las voces expresivas utilizan un estilo conversacional que aplica naturalmente la entonación correcta desde el contexto. Pero usted puede indicar que una o más palabras deben ser dadas más o menos énfasis. El cambio en la tensión puede ser indicado por un aumento o disminución en el paso, la temporización, el volumen, u otros atributos acústicos. Para obtener más información, consulte Cómo resaltar palabras.

Personalización del servicio

El servicio incluye una interfaz de personalización que se puede utilizar para crear modelos personalizados para su uso durante la síntesis de voz. Un modelo personalizado es un diccionario de palabras y sus conversiones para un idioma específico. Cada par de palabra/conversión de un modelo indica al servicio cómo pronunciar una palabra cuando aparece en el texto de entrada.

Puede utilizar modelos personalizados para crear conversiones específicas de la aplicación para las palabras inusuales para las que las reglas de pronunciación normal del servicio pueden producir pronunciaciones imperfectas. Por ejemplo, la aplicación puede encontrarse rutinariamente con términos específicos de dominio, términos especiales de origen extranjero, nombres de persona o geográficos, o abreviaturas y acrónimos. Utilizando la personalización, puede definir conversiones que indiquen al servicio cómo desea que se pronuncien dichos términos.

Puede definir la entrada personalizada para un par de palabra/conversión basado en otras palabras o puede crear pronunciaciones basadas en símbolos de fonemas en IPA (International Phonetic Alphabet) o en SPR (Symbolic Phonetic Representation), propiedad de IBM. La personalización está disponible para todos los idiomas.

IBM Cloud Debe tener el plan de precios Estándar o Premium para utilizar la personalización. Los usuarios del plan Lite no pueden utilizar la interfaz de personalización. Para obtener más información sobre los planes de precios, consulte el servicio Text to Speech en el catálogo IBM Cloud® Catálogo.

Creación de una voz personalizada

IBM Cloud

Los clientes premium pueden trabajar con IBM para entrenar una nueva voz personalizada para sus necesidades específicas de aplicación. Una voz personalizada es una voz única basada en datos de entrenamiento de audio que proporciona el cliente. IBM puede entrenar una voz personalizada con tan solo una hora de datos de entrenamiento.

Para solicitar una voz personalizada o para obtener más información, complete y envíe este Formulario de solicitud deIBM.

Cómo utilizar Tune by Example

La característica Ajustar por ejemplo le permite controlar la forma en que el servicio dice el texto especificado. La característica le permite dictar la entonación, la cadencia y la acentuación del texto sintetizado. Puede crear una solicitud personalizada proporcionando un registro de ejemplo que diga el texto tal como desee escucharlo. A continuación, el servicio duplica las calidades del discurso grabado con sus voces cuando sintetiza la solicitud.

La característica proporciona un mecanismo más simple que el SSML estándar para modificar cómo se sintetiza el habla. Ajustar por ejemplo elimina la necesidad de SSML complejo, dejándole grabar texto tal como desea que se diga en lugar de requerir que emule la prosodia deseada con SSML.

Puede aumentar la calidad de las solicitudes personalizadas asociando modelos de hablante con los usuarios que dicen las solicitudes. Puede crear un modelo de hablante proporcionando una muestra de audio de la voz de un usuario. El servicio se entrena en esa voz para ayudar a producir solicitudes de mayor calidad para ese hablante.

Para obtener más información sobre Ajustar por ejemplo, sobre solicitudes personalizadas y sobre modelos de hablante, consulte Información sobre Ajustar por ejemplo.

La característica Ajustar por ejemplo es la funcionalidad beta que sólo se admite para voces y modelos personalizados en inglés de EE.UU.

Utilización de kits de desarrollo de software

Hay SDK disponibles para el servicio Text to Speech para simplificar el desarrollo de las aplicaciones de voz. Los SDK dan soporte a muchas plataformas y muchos lenguajes de programación populares.

  • Para obtener una lista completa de los SDK y los enlaces a los SDK de GitHub, consulte SDK de Watson.
  • Para obtener más información sobre todos los métodos de los SDK para el servicio Text to Speech, consulte la referencia API & SDK.

Más información sobre el desarrollo de aplicaciones

Para obtener más información sobre cómo trabajar con los servicios de Watson y IBM Cloud:

Próximos pasos

Explore las características introducidas en este tema para obtener una comprensión más profunda de las capacidades del servicio. Cada característica incluye enlaces a temas que lo describen con mucho mayor detalle.