IBM Cloud Docs
Acerca de Speech to Text

Acerca de Speech to Text

El servicio IBM Watson® Speech to Text proporciona prestaciones de transcripción de voz para las aplicaciones. El servicio aprovecha el aprendizaje automático para combinar el conocimiento de gramática, estructura de lenguaje y composición de señales de audio y de voz para transcribir con precisión la voz humana. Se actualiza continuamente y se perfecciona su transcripción a medida que recibe más conversación.

El servicio proporciona API que permiten que se adapte a cualquier aplicación en la que la voz es la entrada y una transcripción textual es la salida. Se puede utilizar para aplicaciones como chatbots automatizados por voz, herramientas analíticas para centros de atención al cliente y la transcripción multimedia. El control de voz de dispositivos incorporados, la transcripción de reuniones y conferencias telefónicas y el dictado de notas y mensajes también son aplicaciones posibles, entre muchas otras.

El servicio resulta ideal para clientes que tienen que extraer transcripciones de voz de alta calidad del audio del centro de atención telefónica. Los clientes de sectores como los servicios financieros, la atención sanitaria, los seguros y las telecomunicaciones pueden desarrollar aplicaciones nativas de la nube para la asistencia al cliente, la voz del cliente, la asistencia del agente y otras soluciones.

Versiones de productos

Speech to Text se puede desplegar como un servicio de nube gestionado o puede instalarse de forma local. En esta documentación se describe cómo utilizar ambas versiones del producto. La información como temas, párrafos y ejemplos que se aplica exclusivamente a una versión se indica claramente:

Reconocimiento de voz

El servicio Speech to Text ofrece tres interfaces para el reconocimiento de voz: una interfaz WebSocket, una interfaz HTTP síncrona y una interfaz HTTP asíncrona. Las interfaces le permiten especificar el idioma del audio y su formato y frecuencia de muestreo. También proporcionan muchos parámetros que puede utilizar para personalizar la forma en que solicita el audio y la información que el servicio envía en respuesta. También puede solicitar métricas sobre el análisis del servicio de su audio y del propio audio.

Personalización

El servicio proporciona una interfaz de personalización que puede utilizar para ajustar el reconocimiento de voz para sus requisitos de idioma y acústica. Puede ampliar el vocabulario de un modelo con terminología específica del dominio o adaptar un modelo a las características acústicas de su audio. También puede añadir gramáticas para restringir las frases que el servicio puede reconocer. Para obtener más información, consulte Personalización del servicio en las características del servicio.

Soporte de idiomas

El servicio da soporte a muchos idiomas y dialectos:

  • Árabe (Estándar moderno)
  • Chino (Mandarín)
  • Checo
  • Holandés (Bélgica y Países Bajos)
  • Inglés (Australia, India, Reino Unido y Estados Unidos)
  • Francés (Canadiense y Francés)
  • Alemán
  • Hindi (Indio)
  • Italiano
  • japonés
  • Coreano
  • Portugués (Brasileño)
  • Español (castellano y latinoamericano)
  • Sueco

Para obtener más información sobre los idiomas soportados y sobre cómo utilizar modelos anteriores y de próxima generación para el reconocimiento de voz, consulte Utilización de idiomas y modelos.

Soporte de audio

El servicio acepta audio para la transcripción en muchos formatos populares:

  • Audio de Ogg o Web Media (WebM) con el códec Opus o Vorbis
  • MP3 (o MPEG)
  • Waveform Audio File Format (WAV)
  • Free Lossless Audio Codec (FLAC)
  • Pulse-Code Modulation (PCM) lineal de 16 bits
  • G.729
  • A-Law
  • Mu-law (o u-law)
  • Audio básico

Para obtener más información sobre los formatos de audio soportados y sus características, consulte Cómo utilizar formatos de audio.

Casos de uso integrados

Puede utilizar el servicio Speech to Text con otros servicios de Watson para crear aplicaciones con un ámbito y una funcionalidad aún mayores:

  • Asistente de IA en el teléfono: elimine los tiempos de retención y mejore la satisfacción del cliente con la integración telefónica de IBM® watsonx™ Assistant. Proporcione soporte en directo a sus clientes con la integración preconstruida de watsonx Assistant, Speech to Text y IBM Watson® Text to Speech.
  • Analizar llamadas del cliente: descubra patrones y realice análisis de la causa raíz en las transcripciones de llamadas telefónicas entre sus clientes y los agentes del centro de atención telefónica. Transcriba el audio utilizando Speech to Text y, a continuación, analice la transcripción con IBM Watson® Natural Language Understanding.
  • Agentes de soporte: proporcione información en tiempo real para mejorar la eficiencia y el enfoque del agente. Utilice Speech to Text para transcribir las llamadas en directo y, a continuación, utilice IBM Watson® Discovery para descubrir información relevante de forma automática para que el agente pueda centrarse en el cliente en lugar de en la búsqueda.

Características beta

IBM publica ocasionalmente características y soporte de idiomas que se clasifican como beta. Estas características se proporcionan para que pueda evaluar su funcionalidad. Pueden ser inestables y están sujetas a cambios o su eliminación con poca antelación. No están pensadas para su uso en un entorno de producción.

Es posible que las características beta no proporcionen el mismo nivel de rendimiento o compatibilidad que las características de disposición general. Las características de disposición general están listas para su uso en un entorno de producción.

Precios

IBM Cloud

El servicio ofrece varios planes de precios que se adaptan a sus necesidades de uso y aplicación:

  • Para obtener información general sobre los planes de precios y ver respuestas a preguntas comunes, consulte el apartado Preguntas frecuentes.
  • Para obtener más información sobre los planes de precios o para adquirir un plan, consulte el servicio Speech to Text en el Catálogo deIBM Cloud®.