Cerca de Speech to Text

O serviço IBM Watson® Speech to Text fornece recursos de transcrição de fala para seus aplicativos. O serviço aproveita o aprendizado de máquina para combinar o conhecimento da gramática, a estrutura do idioma e a composição de sinais de áudio e voz para transcrever com precisão a voz humana. Ele atualiza continuamente e refina sua transcrição à medida que recebe mais fala.

O serviço fornece APIs que o tornam adequado para qualquer aplicativo no qual o discurso seja a entrada e uma transcrição textual seja a saída. Ele pode ser usado para aplicativos como chatbots automatizados por voz, ferramentas analíticas para centrais de atendimento ao cliente e transcrição multimídia. Controle de voz de dispositivos integrados, transcrição de reuniões e chamadas de conferência e ditado de mensagens e notas também são possíveis aplicações, entre muitos outras.

O serviço é ideal para clientes que precisam extrair transcrições de fala de alta qualidade do áudio da central de atendimento. Clientes em segmentos de mercado como serviços financeiros, assistência médica, seguro e telecomunicações podem desenvolver aplicativos nativos em nuvem para atendimento ao cliente, voz do cliente, assistência do agente e outras soluções.

Versões dos produtos

Speech to Text pode ser implementado como um serviço de nuvem gerenciado ou instalado no local. Esta documentação descreve como utilizar ambas as versões do produto. Informações como tópicos, parágrafos e exemplos que se aplicam exclusivamente a uma versão são claramente denotadas:

IBM Cloud para instâncias gerenciadas de Speech to Text que estão hospedadas em IBM Cloud ou para instâncias que estão hospedadas emIBM Cloud Pak for Data as a Service. Para obter informações sobre todas as atualizações de serviço, consulte as notas de versão de Speech to Text para IBM Cloud.
IBM Cloud Pak for DataIBM Software Hub para instâncias instaladas ou locais dos serviços do Watson Speech. Para obter mais informações sobre a instalação e o gerenciamento dos serviços do Watson Speech, consulte Visão geral da instalação. Para obter informações sobre todas as atualizações de serviço, consulte as notas de versão de Speech to Text para IBM Cloud Pak for Data e as notas de versão de Speech to Text para IBM Software Hub.

Reconhecimento de voz

O serviço Speech to Text oferece três interfaces para reconhecimento de voz: uma interface WebSocket, uma interface HTTP síncrona e uma interface HTTP assíncrona. As interfaces permitem que você especifique o idioma de seu áudio, além do formato e da taxa de amostragem dele. Elas também fornecem muitos parâmetros que podem ser usados para customizar a forma de solicitação de áudio e as informações enviadas pelo serviço em resposta. Também é possível solicitar o próprio áudio e métricas sobre a análise que o serviço fez dele.

Para obter mais informações sobre as interfaces de reconhecimento de voz, consulte Reconhecendo a fala com o serviço nos recursos do serviço.
Para obter mais informações sobre os parâmetros de reconhecimento de voz, consulte Usando parâmetros de reconhecimento de voz nos recursos do serviço.

Customização

O serviço fornece uma interface de customização que pode ser usada para ajustar o reconhecimento de voz aos seus requisitos acústicos e de idioma. É possível expandir o vocabulário de um modelo com a terminologia específica do domínio ou adaptar um modelo para as características acústicas de seu áudio. Também é possível incluir gramáticas para restringir as frases que o serviço pode reconhecer. Para obter mais informações, consulte Customizando o serviço nos recursos do serviço.

Suporte ao idioma

O serviço suporta vários idiomas e dialetos:

Árabe (Padrão Moderno)
Chinês (mandarim)
Tcheco
Holandês (Belga e Holanda)
Inglês (Australiano, Indiano, Reino Unido e Estados Unidos)
Francês (Canadá e França)
Alemão
Hindi (Indiano)
Italiano
Japonês
Coreano
Português (Brasil)
Espanhol (Castelhano e Latino-Americano)
Sueco

Para obter mais informações sobre os idiomas suportados e sobre o uso de modelos de fala grandes, modelos anteriores e de próxima geração para reconhecimento de fala, consulte Uso de idiomas e modelos.

Suporte de áudio

O serviço aceita áudio para transcrição em muitos formatos populares:

Áudio Ogg ou Web Media (WebM) com o codec Opus ou Vorbis
MP3 (ou MPEG)
Waveform Audio File Format (WAV)
Free Lossless Audio Codec (FLAC)
Pulse-Code Modulation (PCM) linear de 16 bits
G.729
A-Law
Mu-law (ou u-law)
Áudio básico

Para obter mais informações sobre os formatos de áudio suportados e suas características, consulte Usando formatos de áudio.

Casos de uso integrado

É possível usar o serviço Speech to Text com outros serviços Watson para criar aplicativos com escopo e funcionalidade ainda maiores:

Assistente de IA no telefone - Elimine tempos de espera e melhore a satisfação do cliente com a integração telefônica IBM® watsonx™ Assistant. Forneça suporte em tempo real aos clientes com a integração pré-integrada do watsonx Assistant, Speech to Text e IBM Watson® Text to Speech.
Análise de chamadas do cliente - Descubra padrões e realize análises de causa raiz em transcrições de chamadas telefônicas entre os clientes e os agentes da central de atendimento. Transcreva áudio usando Speech to Text e, em seguida, analise a transcrição com IBM Watson® Natural Language Understanding.
Agentes de suporte - Forneça informações em tempo real para melhorar a eficiência e o foco do agente. Use Speech to Text para transcrever chamadas em tempo real e, em seguida, use IBM Watson® Discovery para apresentar informações relevantes automaticamente para que o agente possa se concentrar no cliente em vez de na busca.

Recursos beta

A IBM ocasionalmente libera recursos e suporte de idioma que são classificados como beta. Tais recursos são fornecidos para que você possa avaliar suas funcionalidades. Eles podem ser instáveis e estão sujeitos a alteração ou remoção com aviso com pouca antecedência. Eles não são destinados para uso em um ambiente de produção.

Os recursos beta podem não fornecer o mesmo nível de desempenho ou compatibilidade dos recursos geralmente disponíveis. Os recursos geralmente disponíveis estão prontos para uso em um ambiente de produção.

Precificação

IBM Cloud

O serviço oferece vários planos de precificação para se adequar às necessidades de uso e aplicação:

Para obter informações gerais sobre os planos de precificação e respostas a perguntas comuns, consulte FAQs de precificação.
Para obter mais informações sobre os planos de preços ou para adquirir um plano, consulte o serviço Speech to Text no Catálogo IBM Cloud®.