Idiomas y modelos de la generación anterior
A partir del 1 de agosto de 2023, todos los modelos de generación anterior se han dejado del servicio. Los nuevos clientes ahora sólo deben utilizar los modelos de próxima generación. Ahora todos los clientes existentes deben migrar al modelo de próxima generación equivalente. Para obtener más información, consulte Migración a modelos de próxima generación.
El servicio IBM Watson® Speech to Text da soporte al reconocimiento de voz con modelos de la generación anterior en muchos idiomas. El modelo indica el idioma en el que se habla el audio y la velocidad a la que se ha muestreado.
Los modelos descritos en esta página se denominan modelos de la generación anterior. El servicio también ofrece modelos de próxima generación con mejores cualidades para mejorar el reconocimiento de voz. Para obtener más información, consulte Idiomas y modelos de próxima generación.
Tipos de modelo de la generación anterior
Para la mayoría de los idiomas, el servicio pone a disposición dos tipos de modelos de la generación anterior:
- Los modelos de banda estrecha están pensados para audio que tiene una frecuencia mínima de muestreo de 8 kHz. Utilice modelos de banda estrecha para la decodificación fuera de línea de voz por teléfono, que es el uso típico de esta frecuencia de muestreo.
- Los modelos de banda ancha son para un audio previsto que tiene una frecuencia mínima de muestreo de 16 kHz. Utilice modelos de banda ancha para aplicaciones en tiempo real, como por ejemplo para aplicaciones de voz en directo.
La elección del modelo adecuado para su aplicación es importante. Utilice el modelo que se ajuste a la frecuencia de muestreo (y al idioma) de su audio. El servicio ajusta automáticamente la frecuencia de muestreo de su audio para que se adapte al modelo que especifique. Para conseguir la máxima precisión del reconocimiento, también debe tener en cuenta el contenido de la frecuencia del audio. Para obtener más información, consulte Tasa de muestreo y Frecuencia de audio.
Modelos de idioma de la generación anterior soportados
Las secciones siguientes listan los modelos de la generación anterior de cada tipo que están disponibles para cada idioma. Las tablas de las secciones proporcionan la siguiente información:
-
La columna Nombre del modelo indica el nombre del modelo.
-
La columna Estado indica si el modelo está disponible a nivel general (GA) o Beta.
-
El Modelo de próxima generación recomendado identifica el modelo de próxima generación que puede utilizar en lugar de un modelo en desuso.
Actualmente, no todos los modelos de banda ancha tienen modelos multimedia equivalentes. En estos casos, considere la posibilidad de utilizar el modelo de telefonía para dicho idioma. El servicio reduce la resolución del audio a la frecuencia del modelo que utiliza. Por lo tanto, el envío de audio de banda ancha a un modelo de telefonía podría resultar una alternativa suficiente en los casos en que no exista actualmente ningún modelo multimedia equivalente.
Todos los modelos están disponibles para las dos versiones del producto, IBM Cloud y IBM Cloud Pak for Data.
Modelos de banda estrecha
La Tabla 1 lista los modelos de banda estrecha de la generación anterior que están disponibles.
Idioma | Nombre de modelo | Estado | Modelo de próxima generación recomendado |
---|---|---|---|
Chino (Mandarín) | zh-CN_NarrowbandModel |
GA discontinuado |
zh-CN_Telephony |
Holandés (Países Bajos) | nl-NL_NarrowbandModel |
GA discontinuado |
nl-NL_Telephony |
Inglés (Australia) | en-AU_NarrowbandModel |
GA discontinuado |
en-AU_Telephony |
Inglés (Reino Unido) | en-GB_NarrowbandModel |
GA discontinuado |
en-GB_Telephony |
Inglés (Estados Unidos) | en-US_NarrowbandModel |
GA discontinuado |
en-US_Telephony |
en-US_ShortForm_NarrowbandModel |
GA discontinuado |
en-US_Telephony |
|
Francés (Canadiense) | fr-CA_NarrowbandModel |
GA discontinuado |
fr-CA_Telephony |
Francés (Francia) | fr-FR_NarrowbandModel |
GA discontinuado |
fr-FR_Telephony |
Alemán | de-DE_NarrowbandModel |
GA discontinuado |
de-DE_Telephony |
Italiano | it-IT_NarrowbandModel |
GA discontinuado |
it-IT_Telephony |
Japonés | ja-JP_NarrowbandModel |
GA discontinuado |
ja-JP_Telephony IBM Cloud |
Coreano | ko-KR_NarrowbandModel |
GA discontinuado |
ko-KR_Telephony |
Portugués (Brasileño) | pt-BR_NarrowbandModel |
GA discontinuado |
pt-BR_Telephony |
Español (Argentina, beta) | es-AR_NarrowbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Castellano) | es-ES_NarrowbandModel |
GA discontinuado |
es-ES_Telephony |
Español (Chile, beta) | es-CL_NarrowbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Colombia, beta) | es-CO_NarrowbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (México, beta) | es-MX_NarrowbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Perú, beta) | es-PE_NarrowbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Modelos de banda ancha
La Tabla 2 lista los modelos de banda ancha de generación anterior que están disponibles.
Idioma | Nombre de modelo | Estado | Modelo de próxima generación recomendado |
---|---|---|---|
Árabe (Estándar moderno) | ar-MS_BroadbandModel |
GA discontinuado |
ar-MS_Telephony |
Chino (Mandarín) | zh-CN_BroadbandModel |
GA discontinuado |
zh-CN_Telephony |
Holandés (Países Bajos) | nl-NL_BroadbandModel |
GA discontinuado |
nl-NL_Multimedia |
Inglés (Australia) | en-AU_BroadbandModel |
GA discontinuado |
en-AU_Multimedia |
Inglés (Reino Unido) | en-GB_BroadbandModel |
GA discontinuado |
en-GB_Multimedia |
Inglés (Estados Unidos) | en-US_BroadbandModel |
GA discontinuado |
en-US_Multimedia |
Francés (Canadiense) | fr-CA_BroadbandModel |
GA discontinuado |
fr-CA_Multimedia |
Francés (Francia) | fr-FR_BroadbandModel |
GA discontinuado |
fr-FR_Multimedia |
Alemán | de-DE_BroadbandModel |
GA discontinuado |
de-DE_Multimedia |
Italiano | it-IT_BroadbandModel |
GA discontinuado |
it-IT_Multimedia |
Japonés | ja-JP_BroadbandModel |
GA discontinuado |
ja-JP_Multimedia |
Coreano | ko-KR_BroadbandModel |
GA discontinuado |
ko-KR_Multimedia |
Portugués (Brasileño) | pt-BR_BroadbandModel |
GA discontinuado |
pt-BR_Multimedia |
Español (Argentina, beta) | es-AR_BroadbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Castellano) | es-ES_BroadbandModel |
GA discontinuado |
es-ES_Multimedia |
Español (Chile, beta) | es-CL_BroadbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Colombia, beta) | es-CO_BroadbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (México, beta) | es-MX_BroadbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
Español (Perú, beta) | es-PE_BroadbandModel |
Beta ya no se utiliza |
es-LA_Telephony |
El modelo de formato abreviado para inglés de EE.UU. (en desuso)
El modelo de formato abreviado en inglés de EE. UU., en-US_ShortForm_NarrowbandModel
, puede mejorar el reconocimiento de voz para soluciones de respuesta de voz interactiva (IVR) y de soporte automático al cliente. El modelo de
formato abreviado está entrenado para reconocer expresiones abreviadas que se utilizan con frecuencia en configuraciones de soporte al cliente, como los centros de atención al cliente automáticos. Además de estar diseñado para expresiones
cortas en general, el modelo también está adaptado para expresiones precisas, como dígitos, pronunciaciones de nombres y de palabras de un solo carácter y respuestas de tipo sí o no.
en-US_ShortForm_NarrowbandModel
resulta óptimo para los tipos de respuestas que son comunes en los intercambios entre humano y máquina, como el caso de uso de IBM® Voice Agent with Watson. en-US_NarrowbandModel
suele
resultar óptimo para las conversaciones entre humanos. Sin embargo, dependiendo del caso de uso y de la naturaleza del intercambio, es posible que algunos usuarios encuentren el modelo de formato corto adecuado para conversaciones entre humanos.
Dada esta flexibilidad y solapamiento, puede experimentar con ambos modelos para determinar cuál funciona mejor para la aplicación. En cualquiera de los casos, la aplicación de un modelo de lenguaje personalizado con una gramática al modelo
de formato abreviado puede mejorar aún más los resultados del reconocimiento.
Al igual que sucede con todos los modelos, los entornos ruidosos pueden afectar negativamente a los resultados. Por ejemplo, el ruido acústico de fondo de los aeropuertos, de los vehículos en movimiento, de las salas de conferencias y de múltiples oradores puede reducir la precisión de la transcripción. El audio procedente de los dispositivos manos libres también puede reducir la precisión debido al eco común de dichos dispositivos. El uso de los parámetros disponibles para la detección de actividad de voz puede contrarrestar dichos efectos y ayudar a mejorar la precisión de la transcripción de voz. La aplicación de un modelo acústico personalizado puede ajustar aún más la acústica para el reconocimiento de voz, pero solo como medida final.
- Para obtener más información sobre la personalización del modelo de idioma y del modelo acústico, consulte Descripción de la personalización.
- Para obtener más información acerca de las gramáticas, consulte Utilización de gramáticas con modelos de lenguaje personalizado.
- Para obtener más información sobre los parámetros de detección de actividad de voz, consulte Detección de actividad de voz.
Características soportadas para modelos de la generación anterior
Los modelos de generación anterior están soportados para su uso con casi todas las características del servicio. La mayoría de las características y modelos están disponibles a nivel general para un uso de producción. Cuando se indica, algunas características y modelos son de funcionalidad beta. Se aplican restricciones a algunas características, por ejemplo:
- Las características como etiquetas de orador, redacción numérica y filtrado de lenguaje obsceno se limitan a determinados idiomas y modelos. Tales restricciones se indican con las descripciones de las características individuales. Para obtener más información sobre todos los parámetros de reconocimiento de voz disponibles, consulte Resumen de parámetros.
- El parámetro
low_latency
sólo está soportado para los modelos de próxima generación. Para obtener más información, consulte Baja latencia. - Para obtener más información sobre el soporte de modelos de generación anterior para la personalización, consulte Soporte de personalización para modelos de generación anterior.
De lo contrario, cuando se describe una característica como disponible de forma general o disponible para un idioma o idiomas específicos, da soporte a los modelos de la generación anterior.