IBM Cloud Docs
Idiomas y voces

Idiomas y voces

El servicio IBM Watson® Text to Speech da soporte a una variedad de idiomas, voces y dialectos. Para los distintos idiomas, el servicio ofrece voces femeninas, voces masculinas, o ambas. Cada voz utiliza la cadencia y la entonación adecuadas según su dialecto.

Todas las voces del servicio utilizan tecnología de voz neuronal. La tecnología de voz neuronal utiliza varias redes neuronales profundas (DNN - Deep Neural Networks) para predecir las características acústicas (espectrales) del habla. Las DNN se basan en el habla humana natural y generan el audio resultante a partir de las características acústicas pronosticadas. Durante la síntesis, las DNN predicen el tono y la duración del fonema (prosodia), la estructural espectral y la forma de onda del habla. Las voces neuronales producen un discurso que es nítido y claro, con una calidad de audio muy natural, suave y consistente.

Idiomas y voces soportados

El servicio ofrece tres tipos de voces con diferentes cualidades y capacidades:

  • Las voces naturales ofrecen un rendimiento avanzado en términos de naturalidad y expresividad. Estas voces utilizan diversas técnicas para proporcionar una ventaja sobre las voces expresivas. Para obtener una lista de todas las voces naturales, consulte Voces naturales.
  • Las voces neuronales expresivas ofrecen un discurso de sonido natural que es excepcionalmente claro y nítido. Su pronunciación e inflexiones son naturales y conversacionales, y el discurso resultante ofrece transiciones extremadamente suaves entre palabras. También dan soporte al uso de características adicionales que no están disponibles con voces neuronales mejoradas. Para obtener una lista de todas las voces expresivas, consulte Voces neuronales expresivas.
  • Las voces neuronales mejoradas consiguen un alto grado de voz natural y dan soporte a la mayoría de las características de servicio. Para obtener una lista de todas las voces neuronales mejoradas, consulte Voces neuronales mejoradas.

Las páginas siguientes proporcionan más información sobre las voces y su tecnología:

Soporte de idioma por tipo de voz

La Tabla 1 muestra el soporte del servicio para idiomas por tipo de voz. Los temas siguientes listan los idiomas y voces disponibles para cada tipo de voz.

Soporte lingüístico por tipo de voz
Idioma Voces naturales Voces neuronales expresivas Voces neuronales mejoradas
Holandés
(Países Bajos)
Inglés
(Reino Unido)
Inglés
(Australiano)
Inglés
(Estados Unidos)
Francés
(Canadiense)
Francés
(Francia)
Alemán
Italiano
Japonés
Coreano
Portugués
(Brasileño)
Español
(Castellano)
Español
(latinoamericano)
Español
(Sudamericano)

Voces naturales

La Tabla 2 enumera y ofrece muestras de audio de todas las voces naturales disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).

Lenguas y voces naturales
Idioma Disponibilidad Voz / Género Ejemplo de audio
Inglés
(Estados Unidos)
GA en-US_EllieNatural
Mujer

Voces neuronales expresivas

La Tabla 3 enumera y proporciona muestras de audio para todas las voces neurales expresivas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).

  • Las voces neuronales expresivas soportan características adicionales que no están disponibles con otros tipos de voces. Estas características incluyen estilos de habla adicionales, énfasis automático de interjecciones y énfasis de palabras especificadas. Para obtener más información, consulte Modificación de la síntesis de voz con voces neuronales expresivas.
  • Cuando se utiliza con el elemento SSML <prosody>, las voces expresivas sólo soportan valores de porcentaje para los atributos rate y pitch. Para obtener más información, consulte Elemento <prosody>.

Las voces neuronales expresivas determinan el sentimiento a partir del contexto y utilizan automáticamente la entonación adecuada para adaptarse al texto. Para producir la prosodia más natural, las voces neuronales expresivas necesitan considerar el contexto de todas las palabras y frases de una oración. Por lo tanto, las voces expresivas son más intensivas en cálculo y tienen una latencia ligeramente mayor que otros tipos de voces. La respuesta inicial para una solicitud de síntesis que utiliza una voz expresiva puede tardar una fracción de segundo más (por ejemplo, unos pocos cientos de milisegundos) en llegar. El tiempo de respuesta total para que se complete la solicitud también es más largo.

Para minimizar la latencia y el tiempo de respuesta para una voz expresiva, utilice frases más cortas siempre que sea posible.

Voces y lenguajes neuronales expresivos
Idioma Disponibilidad Voz / Género Ejemplo de audio
Inglés
(Australiano)
GA en-AU_HeidiExpressive
Mujer
GA en-AU_JackExpressive
Hombre
Inglés
(Estados Unidos)
GA en-US_AllisonExpressive
Mujer
GA en-US_EmmaExpressive
Mujer
GA en-US_LisaExpressive
Mujer
GA en-US_MichaelExpressive
Hombre
Inglés
(Reino Unido)
GA en-GB_GeorgeExpressive
Hombre
Portugués
(Brasileño)
GA pt-BR_LucasExpressive
Hombre
Español
(latinoamericano)
GA es-LA_DanielaExpressive
Mujer

Voces neuronales mejoradas

La Tabla 4 enumera y proporciona muestras de audio para todas las voces neuronales mejoradas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub o las tres (no se cita ninguna versión del producto).

Lenguajes y voces neuronales mejorados
Idioma Disponibilidad Voz / Género Ejemplo de audio
Holandés
(Países Bajos)
Beta nl-NL_MerelV3Voice
Mujer
Inglés
(Reino Unido)
GA en-GB_CharlotteV3Voice
Mujer
GA en-GB_JamesV3Voice
Hombre
GA en-GB_KateV3Voice
Mujer
Inglés
(Estados Unidos)
GA en-US_AllisonV3Voice
Mujer
GA en-US_EmilyV3Voice
Mujer
GA en-US_HenryV3Voice
Hombre
GA en-US_KevinV3Voice
Hombre
GA en-US_LisaV3Voice
Mujer
GA en-US_MichaelV3Voice
Hombre
GA en-US_OliviaV3Voice
Mujer
Francés
(Canadiense)
GA fr-CA_LouiseV3Voice
Mujer
Francés
(Francia)
GA fr-FR_NicolasV3Voice
Hombre
GA fr-FR_ReneeV3Voice
Mujer
Alemán GA de-DE_BirgitV3Voice
Mujer
GA de-DE_DieterV3Voice
Hombre
GA de-DE_ErikaV3Voice
Mujer
Italiano GA it-IT_FrancescaV3Voice
Mujer
Japonés GA ja-JP_EmiV3Voice
Mujer
Coreano GA ko-KR_JinV3Voice
Mujer
Portugués
(Brasileño)
GA pt-BR_IsabelaV3Voice
Mujer
Español
(Castellano)
GA es-ES_EnriqueV3Voice
Hombre
GA es-ES_LauraV3Voice
Mujer
Español
(latinoamericano)
GA es-LA_SofiaV3Voice
Mujer
Español
(norteamericano)
GA es-US_SofiaV3Voice
Mujer

Las voces en español latinoamericano y norteamericano de Sofia son esencialmente la misma voz. La diferencia más significativa se refiere a cómo las dos voces interpretan el signo de dólar ($). La versión latinoamericana utiliza el término pesos; la versión norteamericana utiliza el término dólares. También puede haber otras diferencias menores entre las dos voces.

Crear un modelo personalizado

Al sintetizar texto, el servicio aplica reglas de pronunciación dependientes del idioma para convertir la ortografía ordinaria de cada palabra en una ortografía fonética. Las reglas de pronunciación del servicio funcionan bien para las palabras comunes, pero pueden producir resultados imperfectos para palabras inusuales, tales como vocablos extranjeros, nombres personales y abreviaturas o acrónimos. Si el léxico de la aplicación incluye palabras de este tipo, puede utilizar la interfaz de personalización para especificar cómo los pronuncia el servicio.

Un modelo personalizado es un diccionario de palabras y sus traducciones. Se crea un modelo personalizado para un idioma específico, no para una voz específica. Por ello, se puede utilizar un modelo personalizado con cualquier voz para su idioma especificado. Por ejemplo, un modelo personalizado que se crea para el idioma en-US se puede utilizar con cualquier voz en inglés de EE. UU. Sin embargo, no puede utilizarse con una voz en-GB o en-AU.

La personalización está disponible para todos los idiomas. Todas las voces soportan el uso de los símbolos fonéticos estándar IPA (International Phonetic Alphabet) y IBM SPR (Symbolic Phonetic Representante) para la personalización de palabras. Para obtener más información, consulte Comprender la personalización.

Creación de una voz personalizada

IBM Cloud

Los clientes premium pueden trabajar con IBM para entrenar una nueva voz personalizada para su caso de uso específico y su mercado objetivo. Crear una voz personalizada es distinto de personalizar una de las voces existentes del servicio. Una voz personalizada es una nueva voz única basada en datos de entrenamiento de audio que proporciona el cliente. IBM puede entrenar una voz personalizada con tan solo una hora de datos de entrenamiento.

Para solicitar una voz personalizada o para obtener más información, complete y envíe este Formulario de solicitud deIBM.