Características del servicio

El servicio IBM Watson® Speech to Text ofrece muchas funciones avanzadas para ayudarle a sacar el máximo partido de su transcripción de audio. El servicio ofrece varias interfaces de reconocimiento de voz, y estas interfaces dan soporte a muchas características que puede utilizar para gestionar cómo se pasa el audio al servicio y los resultados que devuelve el servicio. También puede personalizar el servicio para mejorar su vocabulario y para acomodar las características acústicas de su audio. Y al igual que con todos los servicios de Watson, dispone de los SDK para simplificar el desarrollo de aplicaciones en muchos lenguajes de programación.

Utilización de idiomas y modelos

El servicio da soporte al reconocimiento de voz para los muchos idiomas listados en Soporte lingüístico. El servicio proporciona diferentes modelos para los idiomas a los que da soporte. La mayoría de los modelos de lenguaje están generalmente disponibles (GA) para un uso de producción; algunos son beta y están sujetos a cambios.

Para algunos idiomas, el servicio ofrece modelos de voz de gran tamaño. Para obtener más información, consulte Idiomas y modelos de voz grandes soportados.
El servicio también ofrece modelos Multimedia y Telefonía de próxima generación que mejoran las prestaciones de reconocimiento de voz de los modelos de generación anterior. Todos los modelos de próxima generación son GA. Los modelos de próxima generación devuelven resultados con mayor rendimiento y mayor precisión que los modelos de la generación anterior. Para obtener más información, consulte Idiomas y modelos de próxima generación.

Para la mayoría de los idiomas, puede transcribir audio en una de las dos frecuencias de muestreo:

Utilice los modelos de banda ancha o multimedia para audio que se muestrea a una frecuencia mínima de muestreo de 16 kHz.
Utilice los modelos de banda estrecha o de telefonía para audio que se muestrea a una frecuencia mínima de muestreo de 8 kHz.
Los modelos de voz grandes dan soporte a ambos muestreos de audio a velocidades de muestreo de 8 kHz o 16 kHz.

A partir del 1 de agosto de 2023, todos los modelos de generación anterior se han dejado del servicio. Los nuevos clientes ahora solo deben utilizar los modelos de voz grandes o los modelos de próxima generación. Ahora todos los clientes existentes deben migrar al modelo de voz grande equivalente o al modelo de próxima generación. Para obtener más información, consulte Migración a modelos de voz grandes.

Utilización de formatos de audio

El servicio da soporte al reconocimiento de voz para los muchos formatos de audio listados en Soporte de audio. Los distintos formatos dan soporte a distintas frecuencias de muestreo y otras características. Si utiliza un formato que dé soporte a la compresión, puede maximizar la cantidad de datos de audio que puede enviar con una solicitud.

Para obtener más información sobre cómo comprender los conceptos de audio, consulte Terminología y características de audio.
Para obtener más información sobre los formatos de audio que puede utilizar con el servicio, consulte Formatos de audio soportados.

Reconocimiento de voz con el servicio

El servicio Speech to Text ofrece una interfaz WebSocket y las interfaces HTTP REST (Representational State Transfer) síncronas y asíncronas.

La interfaz WebSocket ofrece una implementación eficiente, de baja latencia y de alto rendimiento a través de una conexión dúplex completa.
La interfaz HTTP síncrona proporciona una interfaz básica para transcribir el audio con solicitudes de bloqueo.
La interfaz HTTP asíncrona proporciona una interfaz de no bloqueo que le permite registrar un URL de devolución de llamada para recibir notificaciones o para sondear el servicio para ver el estado y los resultados del trabajo.

Todas las interfaces ofrecen las mismas funciones básicas de reconocimiento de voz, pero puede especificar el mismo parámetro como una cabecera de solicitud, un parámetro de consulta o un parámetro de un objeto JSON, en función de la interfaz que utilice. El servicio también puede devolver resultados diferentes en función de la interfaz y los parámetros que utilice con una solicitud.

Para obtener información sobre cómo realizar solicitudes de reconocimiento de voz con cada una de las interfaces del servicio, consulte Cómo hacer una solicitud de reconocimiento de voz.
Para obtener información sobre los resultados de una solicitud de reconocimiento de voz, consulte Cómo comprender los resultados del reconocimiento.

Límites de datos

Las interfaces aceptan las siguientes cantidades máximas de datos de audio con una sola solicitud:

La interfaz WebSocket acepta un máximo de 100 MB de audio.
La interfaz HTTP síncrona acepta un máximo de 100 MB de audio.
La interfaz HTTP asíncrona acepta un máximo de 1 GB de audio.

Para obtener más información sobre cómo utilizar la compresión para maximizar la cantidad de datos que puede enviar al servicio, consulte Límites de datos y compresión.

Ventajas de la interfaz WebSocket

La interfaz WebSocket ofrece varias ventajas sobre la interfaz HTTP. La interfaz WebSocket

Proporciona un canal de comunicación de un solo socket y dúplex completo. La interfaz permite al cliente enviar varias solicitudes al servicio y recibir resultados a través de una única conexión de forma asíncrona.
Proporciona una experiencia de programación mucho más sencilla y potente. El servicio envía respuestas controladas por sucesos a los mensajes del cliente, eliminando la necesidad de que el cliente sondee el servidor.
Le permite establecer y utilizar una sola conexión autenticada de forma indefinida. Las interfaces HTTP requieren que autentique cada llamada al servicio.
Reduce la latencia. Los resultados de reconocimiento llegan más rápido porque el servicio los envía directamente al cliente. La interfaz HTTP requiere cuatro solicitudes y conexiones distintas para lograr los mismos resultados.
Reduce la utilización de la red. El protocolo WebSocket es ligero. Solo requiere una única conexión para realizar el reconocimiento de voz en directo.
Permite que el audio se transmita directamente desde navegadores (clientes de WebSocket HTML5) al servicio.
Devuelve los resultados tan pronto como están disponibles cuando se utiliza un modelo de voz de gran tamaño, un modelo de próxima generación o se solicitan resultados provisionales.

Uso de los parámetros de reconocimiento de voz

Las interfaces de reconocimiento de voz del servicio comparten parámetros en gran medida comunes para transcribir el habla a texto. Los parámetros le permiten adaptar aspectos de su solicitud, como si los datos se transmiten o se envían todos a la vez, y la información que el servicio incluye en su respuesta.

En las secciones siguientes se presentan los parámetros de reconocimiento de voz y su funcionalidad. Algunos parámetros están disponibles sólo para algunas interfaces de reconocimiento de voz o para algunos idiomas y modelos. Para obtener información sobre todos los parámetros y su interfaz y soporte de idiomas, consulte el Resumen de parámetros.

Detección de voz o palabras

Utilice el nuevo parámetro speech_begin_event para recibir un suceso de notificación en el momento en que se detecta la voz en la secuencia de audio. Esta característica permite que las aplicaciones en tiempo real aprendan cuando se empieza a hablar. Un caso de uso común para esta característica es implementar barge-in en sistemas de agente automatizados. Barge-in consiste en interrumpir la reproducción de audio cuando el interlocutor empieza a hablar. Establezca el valor en true para que el servicio Speech to Text devuelva una respuesta speech_begin_event, que contiene la hora en que se detecta por primera vez la actividad de voz en la secuencia de audio. Puede utilizar este parámetro en modalidad de latencia estándar y baja.

Nombre de parámetro: speech_begin_event
Parámetro de solicitud: speech_begin_event = true/false (booleano)
Objeto de respuesta: "speech_begin_event.begin", por ejemplo: {"speech_begin_event": { "begin": }}

Transmisión y tiempos de espera de audio

La transmisión de audio describe cómo puede pasar el audio como una secuencia continua de fragmentos de datos o como una entrega de un sola vez que pasa todos los datos a la vez. Con la interfaz WebSocket, los datos de audio siempre se envían en secuencia al servicio a través de la conexión. Con las interfaces HTTP, puede transmitir el audio o enviarlo todo a la vez.
El servicio utiliza los tiempos de espera para garantizar un flujo activo de datos durante la secuencia de audio. Cuando inicia una sesión en modalidad continua, el servicio aplica tiempos de inactividad y tiempos de espera de sesión a partir de los cuales la aplicación debe recuperarse fácilmente. Si se produce un tiempo de espera excedido durante una sesión de secuencia de audio, el servicio cierra la conexión.

Resultados provisionales y baja latencia

Los resultados provisionales son hipótesis intermedias que el servicio devuelve a medida que avanza la transcripción. Sólo están disponibles con la interfaz WebSocket. El servicio devuelve los resultados finales cuando se completa una transcripción. Con las interfaces HTTP, el servicio siempre transcribe toda la secuencia de audio antes de enviar resultados.

Los resultados provisionales no están disponibles con modelos de voz grandes.

La baja latencia, cuando se utiliza con ciertos modelos de próxima generación, indica al servicio que produzca resultados finales aún más rápidamente de lo que lo suelen hacer los modelos. La baja latencia está disponible con las interfaces WebSocket y HTTP. Aunque la baja latencia mejora aún más los tiempos de respuesta ya mejorados de los modelos, podría reducir la precisión de la transcripción. Cuando se utilizan los modelos de próxima generación con la interfaz WebSocket, se necesita una baja latencia para obtener resultados provisionales.

La latencia baja no está disponible con modelos de voz grandes.

Detección de actividad de voz

La sensibilidad del detector de voz ajusta la sensibilidad de la detección de la actividad del habla del servicio. Utilice el parámetro para suprimir las inserciones de palabras de la música, la tos y otros sucesos que no sean de habla que puedan afectar negativamente a la calidad del reconocimiento de voz.
La supresión de audio de fondo suprime el audio de fondo basándose en su volumen para evitar que se transcriba como discurso. Utilice el parámetro para suprimir las conversaciones laterales o el ruido de fondo del reconocimiento de voz.

Análisis de audio de voz

Tiempo de silencio de fin de frase especifica la duración del intervalo de pausa en el que el servicio divide una transcripción en varios resultados finales en respuesta al silencio. Si el servicio detecta pausas o un silencio largo antes de que llegue al final de la secuencia de audio, su respuesta puede incluir varios resultados finales. Puede aumentar o disminuir el intervalo de pausa para afectar a los resultados que recibe.
Dividir transcripción al final de frase indica a los servicios que dividan una transcripción en varios resultados finales para características semánticas, como por ejemplo frases. El servicio basa su comprensión de las características semánticas en el modelo de lenguaje base que utilice con una solicitud. Los modelos de lenguaje personalizado y las gramáticas también afectan a la forma en que el servicio divide una transcripción.

La transcripción dividida al final de la frase no está disponible con modelos de voz grandes.

El sesgo de inserción de caracteres especifica si un gran modelo del habla o un modelo de próxima generación debe favorecer las cadenas más cortas o más largas a medida que desarrolla hipótesis durante el reconocimiento del habla. A medida que desarrolla hipótesis de transcripción, el servicio optimiza la forma en que analiza el audio para ofrecer un equilibrio entre series que compiten de diferentes longitudes. Puede indicar que el servicio sesgue el análisis en favor de series más cortas o más largas.

El sesgo de inserción de caracteres no está disponible con modelos de voz grandes.

Etiquetas de orador

Las etiquetas de orador identifican diferentes oradores del audio de un intercambio de varios participantes. La transcripción etiqueta las palabras y los tiempos de las contribuciones de cada orador a una conversación de varios participantes. Las etiquetas de orador son una funcionalidad beta.

Detección de palabras clave y alternativas de palabras

La detección de palabras clave identifica frases habladas que coinciden con series de palabras clave especificadas con un nivel de confianza definido por el usuario. La detección de palabras clave resulta especialmente útil cuando las frases individuales del audio son más importantes que la transcripción completa. Por ejemplo, un sistema de soporte al cliente puede identificar palabras clave para determinar cómo direccionar las solicitudes de los usuarios.
Las alternativas a palabras solicitan palabras alternativas que suenan de forma parecida a las palabras de una transcripción. Las palabras que identifica deben cumplir un umbral de confianza mínimo especificado por el usuario. El servicio identifica palabras que suenan similares y proporciona sus tiempos de inicio y de finalización, así como su confianza en las posibles alternativas.

Estas características solo están soportadas para modelos de generación anterior. No están soportados para modelos de voz grandes y modelos de próxima generación.

Formato y filtrado de la respuesta

Formato inteligente versión 2 es la nueva característica mejorada que convierte fechas, horas, números, secuencias alfanuméricas, valores de moneda, medidas, correos electrónicos, URL, direcciones IP, números de tarjeta de crédito y puntuaciones dictadas en formatos más legibles y convencionales en las transcripciones finales. Esto solo está soportado para modelos de habla grande y modelos de próxima generación en inglés de EE.UU., portugués de Brasil, francés, alemán, español castellano, español latinoamericano y francés canadiense. También está disponible para el modelo en-WW_Medical_Telephony cuando se reconoce el audio en inglés estadounidense.
El formateo inteligente convierte fechas, horas, números, valores de moneda, números de teléfono y direcciones de internet en formatos más legibles y convencionales en las transcripciones finales. En el caso del inglés de EE.UU., también puede proporcionar frases de palabras clave para incluir determinados signos de puntuación en las transcripciones finales. El formateo inteligente es una funcionalidad beta.
La ocultación numérica oculta, o enmascara, datos numéricos de una transcripción final. La redacción está destinada a eliminar la información personal sensible, como los números de tarjetas de crédito, de las transcripciones finales. La redacción numérica es una funcionalidad beta.
El filtrado de lenguaje obsceno censura el lenguaje obsceno de las transcripciones y metadatos.

Metadatos de respuesta

El número máximo de alternativas proporcionan posibles transcripciones alternativas. El servicio indica los resultados finales en los que tiene la mayor confianza.
La confianza de palabras devuelve niveles de confianza para cada palabra de una transcripción.
Las indicaciones de fecha y hora de palabras devuelven indicaciones de fecha y hora correspondientes al principio y al final de cada palabra de una transcripción.

Estas características sólo están soportadas para modelos anteriores y de próxima generación. No están soportados para modelos de voz de gran tamaño.

Proceso y métricas de audio

Las métricas de proceso proporcionan información de temporización detallada sobre el análisis del servicio del audio de entrada. El servicio devuelve las métricas a intervalos específicos y con sucesos de transcripción como, por ejemplo, resultados provisionales y finales. Puede utilizar las métricas para medir el progreso de servicio transcribiendo el audio. Puede solicitar métricas de proceso con las interfaces WebSocket y HTTP asíncrona.
Las métricas de audio proporcionan información detallada sobre las características de señal del audio de entrada. Los resultados proporcionan métricas de agregación para todo el audio de entrada en la conclusión del proceso de habla. Puede utilizar las métricas para determinar las características y la calidad del audio. Puede solicitar métricas de audio con cualquiera de las interfaces del servicio.

Personalización del servicio

La interfaz de personalización le permite crear modelos personalizados para mejorar las funciones de reconocimiento de voz del servicio:

Los modelos de lenguaje personalizado le permite definir palabras específicas del dominio para un modelo base. Los modelos de lenguaje personalizado pueden ampliar el vocabulario base del servicio con terminología específica de dominios, como la medicina y el ámbito legal. La personalización del modelo lingüístico está disponible para los grandes modelos de habla, los modelos anteriores y los de nueva generación, aunque funciona de forma diferente para los tres tipos de modelos.
Los modelos acústicos personalizados le permiten adaptar un modelo base a las características acústicas de su entorno y de los oradores. Los modelos acústicos personalizados mejoran la capacidad del servicio de reconocer voz con distintas características acústicas. La personalización de modelos acústicos sólo está disponible para modelos de la generación anterior.
La Gramática le permite restringir las frases que el servicio puede reconocer a las definidas en las reglas de una gramática. Al limitar el espacio de búsqueda de series válidas, el servicio puede ofrecer resultados más rápido y con mayor precisión. Las gramáticas se crean para y se utilizan con modelos de lenguaje personalizados. El servicio generalmente da soporte a gramáticas para idiomas y modelos para los que da soporte a la personalización del modelo de idioma. Gramáticas sólo está disponible para modelos anteriores y de próxima generación.

Puede utilizar un modelo de idioma personalizado (con o sin gramática), un modelo acústico personalizado o ambos para el reconocimiento de voz con cualquiera de las interfaces del servicio.

Para obtener más información sobre la personalización y una visión general de sus posibilidades, consulte Descripción de la personalización.
Para obtener más información sobre qué idiomas soportan la personalización, consulte Soporte de idiomas para la personalización.

IBM Cloud ' Debe disponer del plan de precios Plus, Standard o Premium para utilizar la personalización del modelo de idioma o del modelo acústico. Los usuarios del plan Lite no pueden utilizar la interfaz de personalización, pero pueden actualizar al plan Plus para obtener acceso a la personalización. Para obtener más información, consulte el apartado Preguntas frecuentes de precios.

Utilización de kits de desarrollo de software

Dispone de SDK para el servicio Speech to Text, que simplifican el desarrollo de aplicaciones de voz. Los SDK dan soporte a muchas plataformas y muchos lenguajes de programación populares.

Para obtener una lista completa de los SDK y los enlaces a los SDK de GitHub, consulte SDK de Watson.
Para obtener más información sobre todos los métodos de los SDK para el servicio Speech to Text, consulte la referencia API & SDK.

Más información sobre el desarrollo de aplicaciones

Para obtener más información sobre cómo trabajar con los servicios de Watson y IBM Cloud:

Para obtener una introducción, consulte Cómo empezar con Watson y IBM Cloud.
Para obtener información sobre el uso de IBM Cloud Identity and Access Management, consulte Autenticación en servicios de Watson.

Próximos pasos

Explore las características introducidas en este tema para obtener una comprensión más profunda de las capacidades del servicio. Cada característica incluye enlaces a temas que lo describen con mucho mayor detalle.

Utilización de idiomas y modelos y Utilización de formatos de audio describen los fundamentos básicos de las capacidades del servicio. Debe elegir un idioma y un modelo que sean adecuados para su audio y debe entender las características delaudio para hacer esa elección y pasar el audio al servicio.
Reconocimiento del discurso con el servicio proporciona enlaces a ejemplos simples de solicitudes y respuestas de reconocimiento de voz. También hay enlaces a presentaciones detalladas de cada una de las interfaces del servicio. Obtenga más información y experimente con las interfaces para determinar cuál es la más adecuada para las necesidades de su aplicación.
Utilización de parámetros de reconocimiento de voz presenta los muchos parámetros que puede utilizar para adaptar las solicitudes de reconocimiento de voz y las respuestas de transcripción a sus necesidades. Las interfaces WebSocket y HTTP del servicio dan soporte a una impresionante gama de funciones, la mayoría de las cuales son comunes a todas las interfaces soportadas. Utilice los enlaces para encontrar los parámetros que son adecuados para usted.
Personalización del servicio describe los temas más avanzados de la personalización del modelo de idioma y del modelo acústico, que pueden ayudarle a obtener el máximo provecho de las prestaciones del servicio. La sección también presenta gramáticas, que puedes utilizar con modelos de idioma para limitar las posibles respuestas a series y frases precisas.
La sección Utilización de kits de desarrollo de software proporciona enlaces a los SDK que hay disponibles para simplificar el desarrollo de aplicaciones en muchos lenguajes de programación.
Aprender más sobre el desarrollo de aplicaciones proporciona enlaces para ayudarle a empezar con los servicios de Watson y entender la autenticación.