Idiomas y voces
El servicio IBM Watson® Text to Speech da soporte a una variedad de idiomas, voces y dialectos. Para los distintos idiomas, el servicio ofrece voces femeninas, voces masculinas, o ambas. Cada voz utiliza la cadencia y la entonación adecuadas según su dialecto.
Todas las voces del servicio utilizan tecnología de voz neuronal. La tecnología de voz neuronal utiliza varias redes neuronales profundas (DNN - Deep Neural Networks) para predecir las características acústicas (espectrales) del habla. Las DNN se basan en el habla humana natural y generan el audio resultante a partir de las características acústicas pronosticadas. Durante la síntesis, las DNN predicen el tono y la duración del fonema (prosodia), la estructural espectral y la forma de onda del habla. Las voces neuronales producen un discurso que es nítido y claro, con una calidad de audio muy natural, suave y consistente.
Idiomas y voces soportados
El servicio ofrece tres tipos de voces con diferentes cualidades y capacidades:
- Las voces naturales ofrecen un rendimiento avanzado en términos de naturalidad y expresividad. Estas voces utilizan diversas técnicas para proporcionar una ventaja sobre las voces expresivas. Para obtener una lista de todas las voces naturales, consulte Voces naturales.
- Las voces neuronales expresivas ofrecen un discurso de sonido natural que es excepcionalmente claro y nítido. Su pronunciación e inflexiones son naturales y conversacionales, y el discurso resultante ofrece transiciones extremadamente suaves entre palabras. También dan soporte al uso de características adicionales que no están disponibles con voces neuronales mejoradas. Para obtener una lista de todas las voces expresivas, consulte Voces neuronales expresivas.
- Las voces neuronales mejoradas consiguen un alto grado de voz natural y dan soporte a la mayoría de las características de servicio. Para obtener una lista de todas las voces neuronales mejoradas, consulte Voces neuronales mejoradas.
Las páginas siguientes proporcionan más información sobre las voces y su tecnología:
- Para un blog que introduce las voces expresivas, consulte ¿Su IA conversacional está estableciendo el tono correcto?.
- Para obtener más información sobre la tecnología de voz neuronal del servicio, consulte La ciencia detrás del servicio.
Soporte de idioma por tipo de voz
La Tabla 1 muestra el soporte del servicio para idiomas por tipo de voz. Los temas siguientes listan los idiomas y voces disponibles para cada tipo de voz.
Idioma | Voces naturales | Voces neuronales expresivas | Voces neuronales mejoradas |
---|---|---|---|
Holandés (Países Bajos) |
✔ | ||
Inglés (Reino Unido) |
✔ | ✔ | |
Inglés (Australiano) |
✔ | ||
Inglés (Estados Unidos) |
✔ | ✔ | ✔ |
Francés (Canadiense) |
✔ | ||
Francés (Francia) |
✔ | ||
Alemán | ✔ | ||
Italiano | ✔ | ||
Japonés | ✔ | ||
Coreano | ✔ | ||
Portugués (Brasileño) |
✔ | ✔ | |
Español (Castellano) |
✔ | ||
Español (latinoamericano) |
✔ | ✔ | |
Español (Sudamericano) |
✔ |
Voces naturales
La Tabla 2 enumera y ofrece muestras de audio de todas las voces naturales disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).
Idioma | Disponibilidad | Voz / Género | Ejemplo de audio |
---|---|---|---|
Inglés (Estados Unidos) |
GA | en-US_EllieNatural Mujer |
Voces neuronales expresivas
La Tabla 3 enumera y proporciona muestras de audio para todas las voces neurales expresivas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub, o las tres (no se cita ninguna versión del producto).
- Las voces neuronales expresivas soportan características adicionales que no están disponibles con otros tipos de voces. Estas características incluyen estilos de habla adicionales, énfasis automático de interjecciones y énfasis de palabras especificadas. Para obtener más información, consulte Modificación de la síntesis de voz con voces neuronales expresivas.
- Cuando se utiliza con el elemento SSML
<prosody>
, las voces expresivas sólo soportan valores de porcentaje para los atributosrate
ypitch
. Para obtener más información, consulte Elemento<prosody>
.
Las voces neuronales expresivas determinan el sentimiento a partir del contexto y utilizan automáticamente la entonación adecuada para adaptarse al texto. Para producir la prosodia más natural, las voces neuronales expresivas necesitan considerar el contexto de todas las palabras y frases de una oración. Por lo tanto, las voces expresivas son más intensivas en cálculo y tienen una latencia ligeramente mayor que otros tipos de voces. La respuesta inicial para una solicitud de síntesis que utiliza una voz expresiva puede tardar una fracción de segundo más (por ejemplo, unos pocos cientos de milisegundos) en llegar. El tiempo de respuesta total para que se complete la solicitud también es más largo.
Para minimizar la latencia y el tiempo de respuesta para una voz expresiva, utilice frases más cortas siempre que sea posible.
Idioma | Disponibilidad | Voz / Género | Ejemplo de audio |
---|---|---|---|
Inglés (Australiano) |
GA | en-AU_HeidiExpressive Mujer |
|
GA | en-AU_JackExpressive Hombre |
||
Inglés (Estados Unidos) |
GA | en-US_AllisonExpressive Mujer |
|
GA | en-US_EmmaExpressive Mujer |
||
GA | en-US_LisaExpressive Mujer |
||
GA | en-US_MichaelExpressive Hombre |
||
Inglés (Reino Unido) |
GA | en-GB_GeorgeExpressive Hombre |
|
Portugués (Brasileño) |
GA | pt-BR_LucasExpressive Hombre |
|
Español (latinoamericano) |
GA | es-LA_DanielaExpressive Mujer |
Voces neuronales mejoradas
La Tabla 4 enumera y proporciona muestras de audio para todas las voces neuronales mejoradas disponibles. La columna Disponibilidad indica si cada voz está disponible de forma general (GA) para uso de producción o beta. La columna también indica si cada voz está disponible para IBM Cloud, IBM Cloud Pak for Data, o las tres (no se cita ninguna versión del producto) IBM Software Hub o las tres (no se cita ninguna versión del producto).
Idioma | Disponibilidad | Voz / Género | Ejemplo de audio |
---|---|---|---|
Holandés (Países Bajos) |
Beta | nl-NL_MerelV3Voice Mujer |
|
Inglés (Reino Unido) |
GA | en-GB_CharlotteV3Voice Mujer |
|
GA | en-GB_JamesV3Voice Hombre |
||
GA | en-GB_KateV3Voice Mujer |
||
Inglés (Estados Unidos) |
GA | en-US_AllisonV3Voice Mujer |
|
GA | en-US_EmilyV3Voice Mujer |
||
GA | en-US_HenryV3Voice Hombre |
||
GA | en-US_KevinV3Voice Hombre |
||
GA | en-US_LisaV3Voice Mujer |
||
GA | en-US_MichaelV3Voice Hombre |
||
GA | en-US_OliviaV3Voice Mujer |
||
Francés (Canadiense) |
GA | fr-CA_LouiseV3Voice Mujer |
|
Francés (Francia) |
GA | fr-FR_NicolasV3Voice Hombre |
|
GA | fr-FR_ReneeV3Voice Mujer |
||
Alemán | GA | de-DE_BirgitV3Voice Mujer |
|
GA | de-DE_DieterV3Voice Hombre |
||
GA | de-DE_ErikaV3Voice Mujer |
||
Italiano | GA | it-IT_FrancescaV3Voice Mujer |
|
Japonés | GA | ja-JP_EmiV3Voice Mujer |
|
Coreano | GA | ko-KR_JinV3Voice Mujer |
|
Portugués (Brasileño) |
GA | pt-BR_IsabelaV3Voice Mujer |
|
Español (Castellano) |
GA | es-ES_EnriqueV3Voice Hombre |
|
GA | es-ES_LauraV3Voice Mujer |
||
Español (latinoamericano) |
GA | es-LA_SofiaV3Voice Mujer |
|
Español (norteamericano) |
GA | es-US_SofiaV3Voice Mujer |
Las voces en español latinoamericano y norteamericano de Sofia
son esencialmente la misma voz. La diferencia más significativa se refiere a cómo las dos voces interpretan el signo de dólar ($). La versión latinoamericana utiliza
el término pesos; la versión norteamericana utiliza el término dólares. También puede haber otras diferencias menores entre las dos voces.
Crear un modelo personalizado
Al sintetizar texto, el servicio aplica reglas de pronunciación dependientes del idioma para convertir la ortografía ordinaria de cada palabra en una ortografía fonética. Las reglas de pronunciación del servicio funcionan bien para las palabras comunes, pero pueden producir resultados imperfectos para palabras inusuales, tales como vocablos extranjeros, nombres personales y abreviaturas o acrónimos. Si el léxico de la aplicación incluye palabras de este tipo, puede utilizar la interfaz de personalización para especificar cómo los pronuncia el servicio.
Un modelo personalizado es un diccionario de palabras y sus traducciones. Se crea un modelo personalizado para un idioma específico, no para una voz específica. Por ello, se puede utilizar un modelo personalizado con cualquier voz para su idioma
especificado. Por ejemplo, un modelo personalizado que se crea para el idioma en-US
se puede utilizar con cualquier voz en inglés de EE. UU. Sin embargo, no puede utilizarse con una voz en-GB
o en-AU
.
La personalización está disponible para todos los idiomas. Todas las voces soportan el uso de los símbolos fonéticos estándar IPA (International Phonetic Alphabet) y IBM SPR (Symbolic Phonetic Representante) para la personalización de palabras. Para obtener más información, consulte Comprender la personalización.
Creación de una voz personalizada
IBM Cloud
Los clientes premium pueden trabajar con IBM para entrenar una nueva voz personalizada para su caso de uso específico y su mercado objetivo. Crear una voz personalizada es distinto de personalizar una de las voces existentes del servicio. Una voz personalizada es una nueva voz única basada en datos de entrenamiento de audio que proporciona el cliente. IBM puede entrenar una voz personalizada con tan solo una hora de datos de entrenamiento.
Para solicitar una voz personalizada o para obtener más información, complete y envíe este Formulario de solicitud deIBM.