IBM Cloud Docs
Idiomas y modelos de la generación anterior

Idiomas y modelos de la generación anterior

A partir del 1 de agosto de 2023, todos los modelos de generación anterior se han dejado del servicio. Los nuevos clientes ahora sólo deben utilizar los modelos de próxima generación. Ahora todos los clientes existentes deben migrar al modelo de próxima generación equivalente. Para obtener más información, consulte Migración a modelos de próxima generación.

El servicio IBM Watson® Speech to Text da soporte al reconocimiento de voz con modelos de la generación anterior en muchos idiomas. El modelo indica el idioma en el que se habla el audio y la velocidad a la que se ha muestreado.

Los modelos descritos en esta página se denominan modelos de la generación anterior. El servicio también ofrece modelos de próxima generación con mejores cualidades para mejorar el reconocimiento de voz. Para obtener más información, consulte Idiomas y modelos de próxima generación.

Tipos de modelo de la generación anterior

Para la mayoría de los idiomas, el servicio pone a disposición dos tipos de modelos de la generación anterior:

  • Los modelos de banda estrecha están pensados para audio que tiene una frecuencia mínima de muestreo de 8 kHz. Utilice modelos de banda estrecha para la decodificación fuera de línea de voz por teléfono, que es el uso típico de esta frecuencia de muestreo.
  • Los modelos de banda ancha son para un audio previsto que tiene una frecuencia mínima de muestreo de 16 kHz. Utilice modelos de banda ancha para aplicaciones en tiempo real, como por ejemplo para aplicaciones de voz en directo.

La elección del modelo adecuado para su aplicación es importante. Utilice el modelo que se ajuste a la frecuencia de muestreo (y al idioma) de su audio. El servicio ajusta automáticamente la frecuencia de muestreo de su audio para que se adapte al modelo que especifique. Para conseguir la máxima precisión del reconocimiento, también debe tener en cuenta el contenido de la frecuencia del audio. Para obtener más información, consulte Tasa de muestreo y Frecuencia de audio.

Modelos de idioma de la generación anterior soportados

Las secciones siguientes listan los modelos de la generación anterior de cada tipo que están disponibles para cada idioma. Las tablas de las secciones proporcionan la siguiente información:

  • La columna Nombre del modelo indica el nombre del modelo.

  • La columna Estado indica si el modelo está disponible a nivel general (GA) o Beta.

  • El Modelo de próxima generación recomendado identifica el modelo de próxima generación que puede utilizar en lugar de un modelo en desuso.

    Actualmente, no todos los modelos de banda ancha tienen modelos multimedia equivalentes. En estos casos, considere la posibilidad de utilizar el modelo de telefonía para dicho idioma. El servicio reduce la resolución del audio a la frecuencia del modelo que utiliza. Por lo tanto, el envío de audio de banda ancha a un modelo de telefonía podría resultar una alternativa suficiente en los casos en que no exista actualmente ningún modelo multimedia equivalente.

Todos los modelos están disponibles para las dos versiones del producto, IBM Cloud y IBM Cloud Pak for Data.

Modelos de banda estrecha

La Tabla 1 lista los modelos de banda estrecha de la generación anterior que están disponibles.

Tabla 1. Modelos de banda estrecha de generación anterior soportados
Idioma Nombre de modelo Estado Modelo de próxima generación recomendado
Chino (Mandarín) zh-CN_NarrowbandModel GA
discontinuado
zh-CN_Telephony
Holandés (Países Bajos) nl-NL_NarrowbandModel GA
discontinuado
nl-NL_Telephony
Inglés (Australia) en-AU_NarrowbandModel GA
discontinuado
en-AU_Telephony
Inglés (Reino Unido) en-GB_NarrowbandModel GA
discontinuado
en-GB_Telephony
Inglés (Estados Unidos) en-US_NarrowbandModel GA
discontinuado
en-US_Telephony
en-US_ShortForm_NarrowbandModel GA
discontinuado
en-US_Telephony
Francés (Canadiense) fr-CA_NarrowbandModel GA
discontinuado
fr-CA_Telephony
Francés (Francia) fr-FR_NarrowbandModel GA
discontinuado
fr-FR_Telephony
Alemán de-DE_NarrowbandModel GA
discontinuado
de-DE_Telephony
Italiano it-IT_NarrowbandModel GA
discontinuado
it-IT_Telephony
Japonés ja-JP_NarrowbandModel GA
discontinuado
ja-JP_Telephony
IBM Cloud
Coreano ko-KR_NarrowbandModel GA
discontinuado
ko-KR_Telephony
Portugués (Brasileño) pt-BR_NarrowbandModel GA
discontinuado
pt-BR_Telephony
Español (Argentina, beta) es-AR_NarrowbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Castellano) es-ES_NarrowbandModel GA
discontinuado
es-ES_Telephony
Español (Chile, beta) es-CL_NarrowbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Colombia, beta) es-CO_NarrowbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (México, beta) es-MX_NarrowbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Perú, beta) es-PE_NarrowbandModel Beta
ya no se utiliza
es-LA_Telephony

Modelos de banda ancha

La Tabla 2 lista los modelos de banda ancha de generación anterior que están disponibles.

Tabla 2. Modelos de banda ancha de generación anterior soportados
Idioma Nombre de modelo Estado Modelo de próxima generación recomendado
Árabe (Estándar moderno) ar-MS_BroadbandModel GA
discontinuado
ar-MS_Telephony
Chino (Mandarín) zh-CN_BroadbandModel GA
discontinuado
zh-CN_Telephony
Holandés (Países Bajos) nl-NL_BroadbandModel GA
discontinuado
nl-NL_Multimedia
Inglés (Australia) en-AU_BroadbandModel GA
discontinuado
en-AU_Multimedia
Inglés (Reino Unido) en-GB_BroadbandModel GA
discontinuado
en-GB_Multimedia
Inglés (Estados Unidos) en-US_BroadbandModel GA
discontinuado
en-US_Multimedia
Francés (Canadiense) fr-CA_BroadbandModel GA
discontinuado
fr-CA_Multimedia
Francés (Francia) fr-FR_BroadbandModel GA
discontinuado
fr-FR_Multimedia
Alemán de-DE_BroadbandModel GA
discontinuado
de-DE_Multimedia
Italiano it-IT_BroadbandModel GA
discontinuado
it-IT_Multimedia
Japonés ja-JP_BroadbandModel GA
discontinuado
ja-JP_Multimedia
Coreano ko-KR_BroadbandModel GA
discontinuado
ko-KR_Multimedia
Portugués (Brasileño) pt-BR_BroadbandModel GA
discontinuado
pt-BR_Multimedia
Español (Argentina, beta) es-AR_BroadbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Castellano) es-ES_BroadbandModel GA
discontinuado
es-ES_Multimedia
Español (Chile, beta) es-CL_BroadbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Colombia, beta) es-CO_BroadbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (México, beta) es-MX_BroadbandModel Beta
ya no se utiliza
es-LA_Telephony
Español (Perú, beta) es-PE_BroadbandModel Beta
ya no se utiliza
es-LA_Telephony

El modelo de formato abreviado para inglés de EE.UU. (en desuso)

El modelo de formato abreviado en inglés de EE. UU., en-US_ShortForm_NarrowbandModel, puede mejorar el reconocimiento de voz para soluciones de respuesta de voz interactiva (IVR) y de soporte automático al cliente. El modelo de formato abreviado está entrenado para reconocer expresiones abreviadas que se utilizan con frecuencia en configuraciones de soporte al cliente, como los centros de atención al cliente automáticos. Además de estar diseñado para expresiones cortas en general, el modelo también está adaptado para expresiones precisas, como dígitos, pronunciaciones de nombres y de palabras de un solo carácter y respuestas de tipo sí o no.

en-US_ShortForm_NarrowbandModel resulta óptimo para los tipos de respuestas que son comunes en los intercambios entre humano y máquina, como el caso de uso de IBM® Voice Agent with Watson. en-US_NarrowbandModel suele resultar óptimo para las conversaciones entre humanos. Sin embargo, dependiendo del caso de uso y de la naturaleza del intercambio, es posible que algunos usuarios encuentren el modelo de formato corto adecuado para conversaciones entre humanos. Dada esta flexibilidad y solapamiento, puede experimentar con ambos modelos para determinar cuál funciona mejor para la aplicación. En cualquiera de los casos, la aplicación de un modelo de lenguaje personalizado con una gramática al modelo de formato abreviado puede mejorar aún más los resultados del reconocimiento.

Al igual que sucede con todos los modelos, los entornos ruidosos pueden afectar negativamente a los resultados. Por ejemplo, el ruido acústico de fondo de los aeropuertos, de los vehículos en movimiento, de las salas de conferencias y de múltiples oradores puede reducir la precisión de la transcripción. El audio procedente de los dispositivos manos libres también puede reducir la precisión debido al eco común de dichos dispositivos. El uso de los parámetros disponibles para la detección de actividad de voz puede contrarrestar dichos efectos y ayudar a mejorar la precisión de la transcripción de voz. La aplicación de un modelo acústico personalizado puede ajustar aún más la acústica para el reconocimiento de voz, pero solo como medida final.

Características soportadas para modelos de la generación anterior

Los modelos de generación anterior están soportados para su uso con casi todas las características del servicio. La mayoría de las características y modelos están disponibles a nivel general para un uso de producción. Cuando se indica, algunas características y modelos son de funcionalidad beta. Se aplican restricciones a algunas características, por ejemplo:

  • Las características como etiquetas de orador, redacción numérica y filtrado de lenguaje obsceno se limitan a determinados idiomas y modelos. Tales restricciones se indican con las descripciones de las características individuales. Para obtener más información sobre todos los parámetros de reconocimiento de voz disponibles, consulte Resumen de parámetros.
  • El parámetro low_latency sólo está soportado para los modelos de próxima generación. Para obtener más información, consulte Baja latencia.
  • Para obtener más información sobre el soporte de modelos de generación anterior para la personalización, consulte Soporte de personalización para modelos de generación anterior.

De lo contrario, cuando se describe una característica como disponible de forma general o disponible para un idioma o idiomas específicos, da soporte a los modelos de la generación anterior.