Idiomas e modelos de geração anterior
A partir de 1º de agosto de 2023, todos os modelos de gerações anteriores agora são descontinuados do serviço.. Novos clientes agora devem usar apenas os modelos da próxima geração. Agora, todos os clientes existentes devem migrar para o modelo equivalente da próxima geração. Para obter mais informações, consulte Migrando para modelos de última geração.
O serviço IBM Watson® Speech to Text suporta reconhecimento de voz com modelos de geração anterior em vários idiomas. O modelo indica o idioma no qual o áudio é falado e a taxa em que é amostrado.
Os modelos descritos nesta página são referidos como modelos de geração anterior. O serviço também oferece modelos de última geração com qualidades aprimoradas para reconhecimento de voz melhorado. Para obter mais informações, consulte Idiomas e modelos de última geração.
Tipos de modelo de geração anterior
Para a maioria dos idiomas, o serviço disponibiliza dois tipos de modelos de geração anterior:
- Modelos de banda estreita destinam-se a áudio com taxa de amostragem mínima de 8 kHz. Use modelos de banda estreita para decodificação off-line de fala telefônica, que é o uso típico para essa taxa de amostragem.
- Modelos de banda larga destinam-se a áudio com taxa de amostragem mínima de 16 kHz. Use modelos de banda larga para aplicativos responsivos, em tempo real. Por exemplo, para aplicativos de fala em tempo real.
Escolher o modelo correto para seu aplicativo é importante. Use o modelo que corresponde à taxa de amostragem (e idioma) de seu áudio. O serviço ajusta automaticamente a taxa de amostragem de seu áudio para corresponder ao modelo que você especifica. Para obter a melhor precisão de reconhecimento, você também precisa considerar o conteúdo de frequência de seu áudio. Para obter mais informações, consulte Taxa de amostragem e Frequência de áudio.
Modelos de idioma de geração anterior suportados
As seções a seguir listam os modelos de geração anterior de cada tipo que estão disponíveis para cada idioma. As tabelas nas seções fornecem as informações a seguir:
-
A coluna Nome do modelo indica o nome do modelo.
-
A coluna Status indica se o modelo está geralmente disponível (GA) ou Beta.
-
O Modelo de última geração recomendado identifica o modelo de última geração que pode ser usado no lugar de um modelo descontinuado.
Atualmente, nem todos os modelos de banda larga possuem modelos multimídia equivalentes. Nesses casos, considere utilizar o modelo de telefonia para esse idioma. O serviço diminui a amostragem do áudio para a taxa do modelo usado. Assim, o envio de um áudio em banda larga para um modelo de telefonia pode se mostrar uma alternativa suficiente nos casos em que não há nenhum modelo multimídia equivalente disponível no momento.
Todos os modelos estão disponíveis para ambas as versões do produto, IBM Cloud e IBM Cloud Pak for Data.
Modelos de banda estreita
A Tabela 1 lista os modelos de bandas estreita de geração anterior que estão disponíveis.
Idioma | Nome do modelo | Status | Modelo de última geração recomendado |
---|---|---|---|
Chinês (mandarim) | zh-CN_NarrowbandModel |
GA Descontinuado |
zh-CN_Telephony |
Holandês (Países Baixos) | nl-NL_NarrowbandModel |
GA Descontinuado |
nl-NL_Telephony |
Inglês (Austrália) | en-AU_NarrowbandModel |
GA Descontinuado |
en-AU_Telephony |
Inglês (Reino Unido) | en-GB_NarrowbandModel |
GA Descontinuado |
en-GB_Telephony |
Inglês (Estados Unidos) | en-US_NarrowbandModel |
GA Descontinuado |
en-US_Telephony |
en-US_ShortForm_NarrowbandModel |
GA Descontinuado |
en-US_Telephony |
|
Francês (canadense) | fr-CA_NarrowbandModel |
GA Descontinuado |
fr-CA_Telephony |
Francês (França) | fr-FR_NarrowbandModel |
GA Descontinuado |
fr-FR_Telephony |
Alemão | de-DE_NarrowbandModel |
GA Descontinuado |
de-DE_Telephony |
Italiano | it-IT_NarrowbandModel |
GA Descontinuado |
it-IT_Telephony |
Japonês | ja-JP_NarrowbandModel |
GA Descontinuado |
ja-JP_Telephony IBM Cloud |
Coreano | ko-KR_NarrowbandModel |
GA Descontinuado |
ko-KR_Telephony |
Português (Brasil) | pt-BR_NarrowbandModel |
GA Descontinuado |
pt-BR_Telephony |
Espanhol (Argentino, Beta) | es-AR_NarrowbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Castelhano) | es-ES_NarrowbandModel |
GA Descontinuado |
es-ES_Telephony |
Espanhol (Chileno, Beta) | es-CL_NarrowbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Colombiano, Beta) | es-CO_NarrowbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Mexicano, Beta) | es-MX_NarrowbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Peruano, Beta) | es-PE_NarrowbandModel |
Beta Descontinuado |
es-LA_Telephony |
Modelos de banda larga
A Tabela 2 lista os modelos de banda larga de geração anterior que estão disponíveis.
Idioma | Nome do modelo | Status | Modelo de última geração recomendado |
---|---|---|---|
Árabe (Padrão Moderno) | ar-MS_BroadbandModel |
GA Descontinuado |
ar-MS_Telephony |
Chinês (mandarim) | zh-CN_BroadbandModel |
GA Descontinuado |
zh-CN_Telephony |
Holandês (Países Baixos) | nl-NL_BroadbandModel |
GA Descontinuado |
nl-NL_Multimedia |
Inglês (Austrália) | en-AU_BroadbandModel |
GA Descontinuado |
en-AU_Multimedia |
Inglês (Reino Unido) | en-GB_BroadbandModel |
GA Descontinuado |
en-GB_Multimedia |
Inglês (Estados Unidos) | en-US_BroadbandModel |
GA Descontinuado |
en-US_Multimedia |
Francês (canadense) | fr-CA_BroadbandModel |
GA Descontinuado |
fr-CA_Multimedia |
Francês (França) | fr-FR_BroadbandModel |
GA Descontinuado |
fr-FR_Multimedia |
Alemão | de-DE_BroadbandModel |
GA Descontinuado |
de-DE_Multimedia |
Italiano | it-IT_BroadbandModel |
GA Descontinuado |
it-IT_Multimedia |
Japonês | ja-JP_BroadbandModel |
GA Descontinuado |
ja-JP_Multimedia |
Coreano | ko-KR_BroadbandModel |
GA Descontinuado |
ko-KR_Multimedia |
Português (Brasil) | pt-BR_BroadbandModel |
GA Descontinuado |
pt-BR_Multimedia |
Espanhol (Argentino, Beta) | es-AR_BroadbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Castelhano) | es-ES_BroadbandModel |
GA Descontinuado |
es-ES_Multimedia |
Espanhol (Chileno, Beta) | es-CL_BroadbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Colombiano, Beta) | es-CO_BroadbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Mexicano, Beta) | es-MX_BroadbandModel |
Beta Descontinuado |
es-LA_Telephony |
Espanhol (Peruano, Beta) | es-PE_BroadbandModel |
Beta Descontinuado |
es-LA_Telephony |
O modelo de forma abreviada em inglês dos EUA (Descontinuado)
O modelo de formato curto de inglês dos EUA, en-US_ShortForm_NarrowbandModel
, pode melhorar o reconhecimento de voz para a resposta de voz interativa (IVR) e as soluções de suporte ao cliente automatizadas. O modelo de formato curto
é treinado para reconhecer as elocuções curtas que são frequentemente expressas em configurações de suporte ao cliente, como as centrais de atendimento de suporte automatizadas. Além de ser ajustado para elocuções curtas em geral, o modelo
também é ajustado para elocuções precisas, como dígitos, palavra de caractere único, ortografias de nomes e respostas sim ou não.
O en-US_ShortForm_NarrowbandModel
é ideal para os tipos de respostas que são comuns às trocas humano com máquina, como o caso de uso do IBM® Voice Agent with Watson. O en-US_NarrowbandModel
geralmente é ideal para conversas
humano com humano. No entanto, dependendo do caso de uso e da natureza da troca, alguns usuários podem considerar o modelo de formato curto adequado para conversas humano com humano também. Dadas essa flexibilidade e a sobreposição, é possível
experimentar com ambos os modelos para determinar qual funciona melhor para a sua aplicação. Em qualquer caso, aplicar um modelo de idioma customizado com uma gramática ao modelo de formato curto pode melhorar ainda mais os resultados de reconhecimento.
Como acontece com todos os modelos, ambientes com ruído podem impactar negativamente os resultados. Por exemplo, o ruído acústico em segundo plano de aeroportos, veículos em movimento, salas de conferência e diversos falantes pode reduzir a precisão da transcrição. O áudio dos telefones do falante também pode reduzir a precisão devido ao eco comum desses dispositivos. O uso de parâmetros disponíveis para detecção de atividade de fala pode neutralizar tais efeitos e ajudar a melhorar a precisão da transcrição de fala. A aplicação de um modelo acústico customizado pode ajustar ainda mais a acústica para reconhecimento de voz, mas apenas como uma medida final.
- Para obter mais informações sobre customização de modelo de idioma e modelo acústico, consulte Entendendo a customização.
- Para obter mais informações sobre gramáticas, consulte Usando gramáticas com modelos de idioma customizados.
- Para obter mais informações sobre parâmetros de detecção de atividade de fala, consulte Detecção de atividade de fala.
Recursos suportados para modelos de geração anterior
Os modelos de geração anterior são suportados para uso com quase todos os recursos do serviço. A maioria dos recursos e modelos estão geralmente disponíveis para uso de produção. Onde indicado, alguns recursos e modelos são funcionalidade beta. Restrições se aplicam para alguns recursos, por exemplo:
- Recursos como rótulos de alto-falantes, edição de dados numéricos e filtragem de profanidade são limitados a determinados idiomas e modelos. Tais restrições são notadas com as descrições dos recursos individuais. Para obter mais informações sobre todos os parâmetros de reconhecimento de voz disponíveis, consulte Resumo do parâmetro.
- O parâmetro
low_latency
é suportado apenas para modelos de última geração. Para obter mais informações, consulte Baixa latência. - Para obter mais informações sobre o suporte de modelos de geração anterior para customização, consulte Suporte de customização para modelos de geração anterior.
Caso contrário, quando um recurso for descrito como estando disponível em geral ou disponível para um idioma ou idiomas específicos, ele suportará os modelos de geração anterior.