Idiomas y voces

El servicio IBM Watson® Text to Speech da soporte a una variedad de idiomas, voces y dialectos. Para los distintos idiomas, el servicio ofrece voces femeninas, voces masculinas, o ambas. Cada voz utiliza la cadencia y la entonación adecuadas según su dialecto.

Todas las voces del servicio utilizan tecnología de voz neuronal. La tecnología de voz neuronal utiliza varias redes neuronales profundas (DNN - Deep Neural Networks) para predecir las características acústicas (espectrales) del habla. Las DNN se basan en el habla humana natural y generan el audio resultante a partir de las características acústicas pronosticadas. Durante la síntesis, las DNN predicen el tono y la duración del fonema (prosodia), la estructural espectral y la forma de onda del habla. Las voces neuronales producen un discurso que es nítido y claro, con una calidad de audio muy natural, suave y consistente.

Idiomas y voces soportados

El servicio ofrece tres tipos de voces con diferentes cualidades y capacidades:

Las voces naturales ofrecen un rendimiento avanzado en términos de naturalidad y expresividad. Estas voces utilizan diversas técnicas para proporcionar una ventaja sobre las voces expresivas. Para obtener una lista de todas las voces naturales, consulte Voces naturales.
Las voces neuronales expresivas ofrecen un discurso de sonido natural que es excepcionalmente claro y nítido. Su pronunciación e inflexiones son naturales y conversacionales, y el discurso resultante ofrece transiciones extremadamente suaves entre palabras. También dan soporte al uso de características adicionales que no están disponibles con voces neuronales mejoradas. Para obtener una lista de todas las voces expresivas, consulte Voces neuronales expresivas.
Las voces neuronales mejoradas consiguen un alto grado de voz natural y dan soporte a la mayoría de las características de servicio. Para obtener una lista de todas las voces neuronales mejoradas, consulte Voces neuronales mejoradas.

Las páginas siguientes proporcionan más información sobre las voces y su tecnología:

Para un blog que introduce las voces expresivas, consulte ¿Su IA conversacional está estableciendo el tono correcto?.
Para obtener más información sobre la tecnología de voz neuronal del servicio, consulte La ciencia detrás del servicio.

Soporte de idioma por tipo de voz

La Tabla 1 muestra el soporte del servicio para idiomas por tipo de voz. Los temas siguientes listan los idiomas y voces disponibles para cada tipo de voz.

Soporte lingüístico por tipo de voz
Idioma	Voces naturales	Voces neuronales expresivas	Voces neuronales mejoradas
Holandés (Países Bajos)			✔
Inglés (Reino Unido)		✔	✔
Inglés (Australiano)		✔
Inglés (Estados Unidos)	✔	✔	✔
Francés (Canadiense)			✔
Francés (Francia)			✔
Alemán			✔
Italiano			✔
Japonés			✔
Coreano			✔
Portugués (Brasileño)		✔	✔
Español (Castellano)			✔
Español (latinoamericano)		✔	✔
Español (Sudamericano)			✔

Voces naturales

La Tabla 2 enumera y ofrece muestras de audio de todas las voces naturales disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).

Lenguas y voces naturales
Idioma	Disponibilidad	Voz / Género	Ejemplo de audio
Inglés (Estados Unidos)	GA	`en-US_EllieNatural` Mujer

Voces neuronales expresivas

La Tabla 3 enumera y proporciona muestras de audio para todas las voces neurales expresivas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).

Las voces neuronales expresivas soportan características adicionales que no están disponibles con otros tipos de voces. Estas características incluyen estilos de habla adicionales, énfasis automático de interjecciones y énfasis de palabras especificadas. Para obtener más información, consulte Modificación de la síntesis de voz con voces neuronales expresivas.
Cuando se utiliza con el elemento SSML <prosody>, las voces expresivas sólo soportan valores de porcentaje para los atributos rate y pitch. Para obtener más información, consulte Elemento <prosody>.

Las voces neuronales expresivas determinan el sentimiento a partir del contexto y utilizan automáticamente la entonación adecuada para adaptarse al texto. Para producir la prosodia más natural, las voces neuronales expresivas necesitan considerar el contexto de todas las palabras y frases de una oración. Por lo tanto, las voces expresivas son más intensivas en cálculo y tienen una latencia ligeramente mayor que otros tipos de voces. La respuesta inicial para una solicitud de síntesis que utiliza una voz expresiva puede tardar una fracción de segundo más (por ejemplo, unos pocos cientos de milisegundos) en llegar. El tiempo de respuesta total para que se complete la solicitud también es más largo.

Para minimizar la latencia y el tiempo de respuesta para una voz expresiva, utilice frases más cortas siempre que sea posible.

Voces y lenguajes neuronales expresivos
Idioma	Disponibilidad	Voz / Género
Inglés (Australiano)	GA	`en-AU_HeidiExpressive` Mujer
	GA	`en-AU_JackExpressive` Hombre
Inglés (Estados Unidos)	GA	`en-US_AllisonExpressive` Mujer
	GA	`en-US_EmmaExpressive` Mujer
	GA	`en-US_LisaExpressive` Mujer
	GA	`en-US_MichaelExpressive` Hombre
Inglés (Reino Unido)	GA	`en-GB_GeorgeExpressive` Hombre
Portugués (Brasileño)	GA	`pt-BR_LucasExpressive` Hombre
Español (latinoamericano)	GA	`es-LA_DanielaExpressive` Mujer

Voces neuronales mejoradas

La Tabla 4 enumera y proporciona muestras de audio para todas las voces neuronales mejoradas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub o las tres (no se cita ninguna versión del producto).

Lenguajes y voces neuronales mejorados
Idioma	Disponibilidad	Voz / Género
Holandés (Países Bajos)	Beta	`nl-NL_MerelV3Voice` Mujer
Inglés (Reino Unido)	GA	`en-GB_CharlotteV3Voice` Mujer
	GA	`en-GB_JamesV3Voice` Hombre
	GA	`en-GB_KateV3Voice` Mujer
Inglés (Estados Unidos)	GA	`en-US_AllisonV3Voice` Mujer
	GA	`en-US_EmilyV3Voice` Mujer
	GA	`en-US_HenryV3Voice` Hombre
	GA	`en-US_KevinV3Voice` Hombre
	GA	`en-US_LisaV3Voice` Mujer
	GA	`en-US_MichaelV3Voice` Hombre
	GA	`en-US_OliviaV3Voice` Mujer
Francés (Canadiense)	GA	`fr-CA_LouiseV3Voice` Mujer
Francés (Francia)	GA	`fr-FR_NicolasV3Voice` Hombre
	GA	`fr-FR_ReneeV3Voice` Mujer
Alemán	GA	`de-DE_BirgitV3Voice` Mujer
	GA	`de-DE_DieterV3Voice` Hombre
	GA	`de-DE_ErikaV3Voice` Mujer
Italiano	GA	`it-IT_FrancescaV3Voice` Mujer
Japonés	GA	`ja-JP_EmiV3Voice` Mujer
Coreano	GA	`ko-KR_JinV3Voice` Mujer
Portugués (Brasileño)	GA	`pt-BR_IsabelaV3Voice` Mujer
Español (Castellano)	GA	`es-ES_EnriqueV3Voice` Hombre
	GA	`es-ES_LauraV3Voice` Mujer
Español (latinoamericano)	GA	`es-LA_SofiaV3Voice` Mujer
Español (norteamericano)	GA	`es-US_SofiaV3Voice` Mujer

Las voces en español latinoamericano y norteamericano de Sofia son esencialmente la misma voz. La diferencia más significativa se refiere a cómo las dos voces interpretan el signo de dólar ($). La versión latinoamericana utiliza el término pesos; la versión norteamericana utiliza el término dólares. También puede haber otras diferencias menores entre las dos voces.

Crear un modelo personalizado

Al sintetizar texto, el servicio aplica reglas de pronunciación dependientes del idioma para convertir la ortografía ordinaria de cada palabra en una ortografía fonética. Las reglas de pronunciación del servicio funcionan bien para las palabras comunes, pero pueden producir resultados imperfectos para palabras inusuales, tales como vocablos extranjeros, nombres personales y abreviaturas o acrónimos. Si el léxico de la aplicación incluye palabras de este tipo, puede utilizar la interfaz de personalización para especificar cómo los pronuncia el servicio.

Un modelo personalizado es un diccionario de palabras y sus traducciones. Se crea un modelo personalizado para un idioma específico, no para una voz específica. Por ello, se puede utilizar un modelo personalizado con cualquier voz para su idioma especificado. Por ejemplo, un modelo personalizado que se crea para el idioma en-US se puede utilizar con cualquier voz en inglés de EE. UU. Sin embargo, no puede utilizarse con una voz en-GB o en-AU.

La personalización está disponible para todos los idiomas. Todas las voces soportan el uso de los símbolos fonéticos estándar IPA (International Phonetic Alphabet) y IBM SPR (Symbolic Phonetic Representante) para la personalización de palabras. Para obtener más información, consulte Comprender la personalización.

Creación de una voz personalizada

IBM Cloud

Los clientes premium pueden trabajar con IBM para entrenar una nueva voz personalizada para su caso de uso específico y su mercado objetivo. Crear una voz personalizada es distinto de personalizar una de las voces existentes del servicio. Una voz personalizada es una nueva voz única basada en datos de entrenamiento de audio que proporciona el cliente. IBM puede entrenar una voz personalizada con tan solo una hora de datos de entrenamiento.

Para solicitar una voz personalizada o para obtener más información, complete y envíe este Formulario de solicitud deIBM.