Características del servicio

Puede acceder a las funciones de síntesis de voz del servicio de IBM Watson® Text to Speech a través de una interfaz HTTP o WebSocket. Ambas interfaces proporcionan características que le permiten enviar y recibir información distinta del servicio. Y al igual que con todos los servicios de Watson, dispone de los SDK para simplificar el desarrollo de aplicaciones en muchos lenguajes de programación.

Utilización de idiomas y voces

El servicio da soporte a la síntesis de voz con voces para los idiomas listados en Soporte de idiomas. Para los distintos idiomas, el servicio ofrece voces femeninas, voces masculinas, o ambas. Es posible que algunos idiomas y voces sólo se admitan en IBM Cloud®.

Todas las voces del servicio utilizan la tecnología de voz neuronal, que produce un habla más natural. El servicio ofrece tres tipos de voces, natural, neural expresiva y neural mejorada, que tienen cualidades y características diferentes. Para obtener información sobre los tipos de voces y sobre los idiomas y voces admitidos para cada tipo, consulta Idiomas y voces.

Utilización de formatos de audio

El servicio puede devolver audio sintetizado en muchos formatos, que se listan en la sección Soporte de audio. Para obtener información sobre los formatos de audio admitidos, consulte Utilización de formatos de audio.

Sintetizar el habla con el servicio

El servicio Text to Speech ofrece una interfaz HTTP REST (Representational State Transfer) y una interfaz WebSocket:

La interfaz HTTP proporciona las versiones GET y POST del método /v1/synthesize del servicio. Las dos versiones del método ofrecen una funcionalidad generalmente equivalente. Pase el texto que se debe sintetizar como parámetro de consulta con el método GET y como cuerpo de la solicitud con el método POST.
La interfaz WebSocket proporciona un método /v1/synthesize. Pase el texto que se debe sintetizar a través de una conexión WebSocket establecida.

Con las interfaces HTTP y WebSocket, debe especificar el idioma y la voz que se van a utilizar y el formato de audio que se debe devolver.

Para obtener una visión general de las características disponibles para la síntesis del habla, consulte Utilización de las características de síntesis de voz.
Para obtener descripciones detalladas y ejemplos de los métodos de síntesis de voz, consulte la referencia API & SDK.

Límites de datos

Las interfaces aceptan las siguientes cantidades máximas de texto con una sola solicitud:

El método HTTP GET /v1/synthesize acepta un máximo de 8 KB de entrada, incluyendo el texto de entrada y el URL y las cabeceras.
El método HTTP POST /v1/synthesize acepta un máximo de 8 KB para el URL y las cabeceras, y un máximo de 5 KB para el texto de entrada que se envía dentro del cuerpo de la solicitud.
El método WebSocket /v1/synthesize acepta un máximo de 5 KB de texto de entrada.

Estos límites incluyen todos los caracteres de la entrada, incluido el espacio en blanco.

IBM Cloud A efectos de facturación, los caracteres de espacio en blanco no se cuentan. Sin embargo, se cuentan todos los demás caracteres, incluidos aquellos que forman parte de elementos SSML.

Utilización de las características de síntesis de voz

El servicio admite características adicionales que puede utilizar para adaptar el texto que envía y el audio que recibe.

SSML

Puede pasar puede pasar al servicio texto sin formato o texto anotado con SSML (Speech Synthesis Markup Language). SSML es un lenguaje de códigos basado en XML que proporciona anotaciones de texto para aplicaciones de síntesis de voz, como por ejemplo el servicio Text to Speech.

Para obtener más información sobre la especificación del texto de entrada, consulte Especificar texto de entrada.
Para obtener más información sobre cómo utilizar SSML, consulte Información sobre SSML.

Modificación de la frecuencia de uso de la palabra

Para modificar la tasa global de síntesis de voz para una solicitud, puede utilizar el parámetro de consulta rate_percentage. La tasa de habla es la velocidad a la que el servicio habla el texto que sintetiza en voz. Una tasa más alta hace que el texto se hable más rápidamente; una tasa más baja hace que el texto se hable más despacio. El parámetro cambia la velocidad predeterminada por voz para una solicitud completa. Para obtener más información, consulte Modificación de la velocidad de habla.

El parámetro rate_percentage es una funcionalidad beta.

Modificación del tono de voz

Para modificar el tono global de síntesis de voz para una solicitud, puede utilizar el parámetro de consulta pitch_percentage. El tono de voz representa el tono del discurso que el servicio sintetiza. Representa lo alto o bajo que el tono de la voz es percibido por el oyente. Un tono más alto resulta en el habla que se habla en un tono más alto y se percibe como una voz más alta; un tono más bajo resulta en el habla que se habla en un tono más bajo y se percibe como una voz más baja. El parámetro cambia el tono predeterminado por voz para una solicitud completa. Para obtener más información, consulte Modificación del tono de voz.

El parámetro pitch_percentage es una funcionalidad beta.

Cómo escribir series

Para indicar cómo deben escribirse los caracteres individuales de una serie (alfabéticos, numéricos o alfanuméricos), puede incluir el parámetro de consulta spell_out_mode con una solicitud. De forma predeterminada, el servicio especifica los caracteres individuales a la misma velocidad a la que sintetiza el texto para un idioma. Puede utilizar el parámetro para indicar al servicio que deletree los caracteres individuales más lentamente, en grupos de uno, dos o tres caracteres. Utilice el parámetro con el elemento SSML <say-as> para controlar cómo se sintetizan los caracteres de una serie. Para obtener más información, consulte Especificación de cómo se escriben las series.

El parámetro spell_out_mode es una funcionalidad beta que solo está soportada para voces en alemán.

Temporizaciones de palabras

Con la interfaz WebSocket, puede obtener información de temporización sobre la ubicación de las palabras en el audio que devuelve el servicio. La información de temporización es útil para sincronizar el texto de entrada y el audio.

Puede utilizar el elemento SSML <mark> para identificar ubicaciones específicas, como por ejemplo límites de palabras, en el audio. Para idiomas que no sean el japonés, también puede solicitar información de temporización de palabras para todas las palabras del texto de entrada. Para obtener más información, consulte Generación de temporizaciones de palabras.

Los tiempos de palabra no son compatibles con las voces naturales.

Utilización de características de síntesis de voz con voz neuronal expresiva

Con voces neuronales expresivas, el servicio admite características adicionales que modifican cómo se sintetiza el texto que pasa en audio.

Utilización de estilos de habla

Las voces neuronales expresivas determinan el sentimiento del texto a partir del contexto de sus palabras y frases. El discurso que producen, además de tener un estilo muy conversacional, refleja el estado de ánimo del texto. Usted puede embellecer las tendencias naturales de las voces al indicar que todo o parte del texto es para enfatizar un estilo específico: alegre, empático, neutral, o incierto. Utilice SSML para indicar el estilo y el texto al que se va a aplicar. Para obtener más información, consulte Utilización de estilos de habla.

Énfasis en interjecciones

Cuando se utilizan voces neuronales expresivas, el servicio detecta automáticamente una colección de interjecciones comunes basadas en el contexto. Cuando sintetiza estas interjecciones, les da el énfasis natural que un humano usaría en la conversación normal. Para algunas de las interjecciones, puede utilizar SSML para habilitar o inhabilitar su énfasis. Para obtener más información, consulte Énfasis en las interjecciones.

Enfatizar palabras

Las voces expresivas utilizan un estilo conversacional que aplica naturalmente la entonación correcta desde el contexto. Pero usted puede indicar que una o más palabras deben ser dadas más o menos énfasis. El cambio en la tensión puede ser indicado por un aumento o disminución en el paso, la temporización, el volumen, u otros atributos acústicos. Para obtener más información, consulte Cómo resaltar palabras.

Personalización del servicio

El servicio incluye una interfaz de personalización que se puede utilizar para crear modelos personalizados para su uso durante la síntesis de voz. Un modelo personalizado es un diccionario de palabras y sus conversiones para un idioma específico. Cada par de palabra/conversión de un modelo indica al servicio cómo pronunciar una palabra cuando aparece en el texto de entrada.

Puede utilizar modelos personalizados para crear conversiones específicas de la aplicación para las palabras inusuales para las que las reglas de pronunciación normal del servicio pueden producir pronunciaciones imperfectas. Por ejemplo, la aplicación puede encontrarse rutinariamente con términos específicos de dominio, términos especiales de origen extranjero, nombres de persona o geográficos, o abreviaturas y acrónimos. Utilizando la personalización, puede definir conversiones que indiquen al servicio cómo desea que se pronuncien dichos términos.

Puede definir la entrada personalizada para un par de palabra/conversión basado en otras palabras o puede crear pronunciaciones basadas en símbolos de fonemas en IPA (International Phonetic Alphabet) o en SPR (Symbolic Phonetic Representation), propiedad de IBM. La personalización está disponible para todos los idiomas.

Para obtener más información sobre la personalización, consulte Comprender la personalización.
Para obtener más información sobre el uso de símbolos fonéticos IPA y SPR, consulte Información sobre los símbolos fonéticos.

IBM Cloud Debe tener el plan de precios Estándar o Premium para utilizar la personalización. Los usuarios del plan Lite no pueden utilizar la interfaz de personalización. Para obtener más información sobre los planes de precios, consulte el servicio Text to Speech en el catálogo IBM Cloud® Catálogo.

Creación de una voz personalizada

IBM Cloud

Los clientes premium pueden trabajar con IBM para entrenar una nueva voz personalizada para sus necesidades específicas de aplicación. Una voz personalizada es una voz única basada en datos de entrenamiento de audio que proporciona el cliente. IBM puede entrenar una voz personalizada con tan solo una hora de datos de entrenamiento.

Para solicitar una voz personalizada o para obtener más información, complete y envíe este Formulario de solicitud deIBM.

Cómo utilizar Tune by Example

La característica Ajustar por ejemplo le permite controlar la forma en que el servicio dice el texto especificado. La característica le permite dictar la entonación, la cadencia y la acentuación del texto sintetizado. Puede crear una solicitud personalizada proporcionando un registro de ejemplo que diga el texto tal como desee escucharlo. A continuación, el servicio duplica las calidades del discurso grabado con sus voces cuando sintetiza la solicitud.

La característica proporciona un mecanismo más simple que el SSML estándar para modificar cómo se sintetiza el habla. Ajustar por ejemplo elimina la necesidad de SSML complejo, dejándole grabar texto tal como desea que se diga en lugar de requerir que emule la prosodia deseada con SSML.

Puede aumentar la calidad de las solicitudes personalizadas asociando modelos de hablante con los usuarios que dicen las solicitudes. Puede crear un modelo de hablante proporcionando una muestra de audio de la voz de un usuario. El servicio se entrena en esa voz para ayudar a producir solicitudes de mayor calidad para ese hablante.

Para obtener más información sobre Ajustar por ejemplo, sobre solicitudes personalizadas y sobre modelos de hablante, consulte Información sobre Ajustar por ejemplo.

La característica Ajustar por ejemplo es la funcionalidad beta que sólo se admite para voces y modelos personalizados en inglés de EE.UU.

Utilización de kits de desarrollo de software

Hay SDK disponibles para el servicio Text to Speech para simplificar el desarrollo de las aplicaciones de voz. Los SDK dan soporte a muchas plataformas y muchos lenguajes de programación populares.

Para obtener una lista completa de los SDK y los enlaces a los SDK de GitHub, consulte SDK de Watson.
Para obtener más información sobre todos los métodos de los SDK para el servicio Text to Speech, consulte la referencia API & SDK.

Más información sobre el desarrollo de aplicaciones

Para obtener más información sobre cómo trabajar con los servicios de Watson y IBM Cloud:

Para obtener una introducción, consulte Cómo empezar con Watson y IBM Cloud.
Para obtener información sobre el uso de IBM Cloud Identity and Access Management, consulte Autenticación en servicios de Watson.

Próximos pasos

Explore las características introducidas en este tema para obtener una comprensión más profunda de las capacidades del servicio. Cada característica incluye enlaces a temas que lo describen con mucho mayor detalle.

Utilización de idiomas y modelos y Utilización de formatos de audio describen los fundamentos básicos de las capacidades del servicio. Debe elegir un idioma y una voz adecuados para su texto y su aplicación, y debe comprender las características del audio que devuelve el servicio.
La sección Sintetizar el habla con el servicio ofrece enlaces a presentaciones detalladas de cada una de las interfaces del servicio. Experimente con las interfaces para determinar cuál es la más adecuada para las necesidades de su aplicación.
La sección Utilización de las características de síntesis describe brevemente las características que hay disponibles para la síntesis de voz y proporciona enlaces para obtener más información. Utilice las características para adaptar el texto que envía y el audio que recibe.
Utilización de características de síntesis de voz con voz neuronal expresiva presenta tres características adicionales que están disponibles para la síntesis de voz con voces neuronales expresivas.
La sección Personalización del servicio describe el tema más avanzado de personalización, que puede utilizar para crear modelos personalizados que contengan diccionarios de palabras y sus traducciones para idiomas específicos.
La sección Utilización de Ajustar por ejemplo presenta la característica Ajustar por ejemplo, que le permite crear solicitudes personalizadas. Puede controlar la entonación, la cadencia y la acentuación del texto sintetizado de sus solicitudes.
La sección Utilización de kits de desarrollo de software proporciona enlaces a los SDK que hay disponibles para simplificar el desarrollo de aplicaciones en muchos lenguajes de programación.
Aprender más sobre el desarrollo de aplicaciones proporciona enlaces que le ayudarán a empezar a utilizar los servicios de Watson y a comprender la autenticación.