IBM Cloud Docs
Idiomas e modelos de geração anterior

Idiomas e modelos de geração anterior

A partir de 1º de agosto de 2023, todos os modelos de gerações anteriores agora são descontinuados do serviço.. Novos clientes agora devem usar apenas os modelos da próxima geração. Agora, todos os clientes existentes devem migrar para o modelo equivalente da próxima geração. Para obter mais informações, consulte Migrando para modelos de última geração.

O serviço IBM Watson® Speech to Text suporta reconhecimento de voz com modelos de geração anterior em vários idiomas. O modelo indica o idioma no qual o áudio é falado e a taxa em que é amostrado.

Os modelos descritos nesta página são referidos como modelos de geração anterior. O serviço também oferece modelos de última geração com qualidades aprimoradas para reconhecimento de voz melhorado. Para obter mais informações, consulte Idiomas e modelos de última geração.

Tipos de modelo de geração anterior

Para a maioria dos idiomas, o serviço disponibiliza dois tipos de modelos de geração anterior:

  • Modelos de banda estreita destinam-se a áudio com taxa de amostragem mínima de 8 kHz. Use modelos de banda estreita para decodificação off-line de fala telefônica, que é o uso típico para essa taxa de amostragem.
  • Modelos de banda larga destinam-se a áudio com taxa de amostragem mínima de 16 kHz. Use modelos de banda larga para aplicativos responsivos, em tempo real. Por exemplo, para aplicativos de fala em tempo real.

Escolher o modelo correto para seu aplicativo é importante. Use o modelo que corresponde à taxa de amostragem (e idioma) de seu áudio. O serviço ajusta automaticamente a taxa de amostragem de seu áudio para corresponder ao modelo que você especifica. Para obter a melhor precisão de reconhecimento, você também precisa considerar o conteúdo de frequência de seu áudio. Para obter mais informações, consulte Taxa de amostragem e Frequência de áudio.

Modelos de idioma de geração anterior suportados

As seções a seguir listam os modelos de geração anterior de cada tipo que estão disponíveis para cada idioma. As tabelas nas seções fornecem as informações a seguir:

  • A coluna Nome do modelo indica o nome do modelo.

  • A coluna Status indica se o modelo está geralmente disponível (GA) ou Beta.

  • O Modelo de última geração recomendado identifica o modelo de última geração que pode ser usado no lugar de um modelo descontinuado.

    Atualmente, nem todos os modelos de banda larga possuem modelos multimídia equivalentes. Nesses casos, considere utilizar o modelo de telefonia para esse idioma. O serviço diminui a amostragem do áudio para a taxa do modelo usado. Assim, o envio de um áudio em banda larga para um modelo de telefonia pode se mostrar uma alternativa suficiente nos casos em que não há nenhum modelo multimídia equivalente disponível no momento.

Todos os modelos estão disponíveis para ambas as versões do produto, IBM Cloud e IBM Cloud Pak for Data.

Modelos de banda estreita

A Tabela 1 lista os modelos de bandas estreita de geração anterior que estão disponíveis.

Modelos de banda estreita de geração anterior compatíveis
Idioma Nome do modelo Status Modelo de última geração recomendado
Chinês (mandarim) zh-CN_NarrowbandModel GA
Descontinuado
zh-CN_Telephony
Holandês (Países Baixos) nl-NL_NarrowbandModel GA
Descontinuado
nl-NL_Telephony
Inglês (Austrália) en-AU_NarrowbandModel GA
Descontinuado
en-AU_Telephony
Inglês (Reino Unido) en-GB_NarrowbandModel GA
Descontinuado
en-GB_Telephony
Inglês (Estados Unidos) en-US_NarrowbandModel GA
Descontinuado
en-US_Telephony
en-US_ShortForm_NarrowbandModel GA
Descontinuado
en-US_Telephony
Francês (canadense) fr-CA_NarrowbandModel GA
Descontinuado
fr-CA_Telephony
Francês (França) fr-FR_NarrowbandModel GA
Descontinuado
fr-FR_Telephony
Alemão de-DE_NarrowbandModel GA
Descontinuado
de-DE_Telephony
Italiano it-IT_NarrowbandModel GA
Descontinuado
it-IT_Telephony
Japonês ja-JP_NarrowbandModel GA
Descontinuado
ja-JP_Telephony
IBM Cloud
Coreano ko-KR_NarrowbandModel GA
Descontinuado
ko-KR_Telephony
Português (Brasil) pt-BR_NarrowbandModel GA
Descontinuado
pt-BR_Telephony
Espanhol (Argentino, Beta) es-AR_NarrowbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Castelhano) es-ES_NarrowbandModel GA
Descontinuado
es-ES_Telephony
Espanhol (Chileno, Beta) es-CL_NarrowbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Colombiano, Beta) es-CO_NarrowbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Mexicano, Beta) es-MX_NarrowbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Peruano, Beta) es-PE_NarrowbandModel Beta
Descontinuado
es-LA_Telephony

Modelos de banda larga

A Tabela 2 lista os modelos de banda larga de geração anterior que estão disponíveis.

Modelos de banda larga de geração anterior com suporte
Idioma Nome do modelo Status Modelo de última geração recomendado
Árabe (Padrão Moderno) ar-MS_BroadbandModel GA
Descontinuado
ar-MS_Telephony
Chinês (mandarim) zh-CN_BroadbandModel GA
Descontinuado
zh-CN_Telephony
Holandês (Países Baixos) nl-NL_BroadbandModel GA
Descontinuado
nl-NL_Multimedia
Inglês (Austrália) en-AU_BroadbandModel GA
Descontinuado
en-AU_Multimedia
Inglês (Reino Unido) en-GB_BroadbandModel GA
Descontinuado
en-GB_Multimedia
Inglês (Estados Unidos) en-US_BroadbandModel GA
Descontinuado
en-US_Multimedia
Francês (canadense) fr-CA_BroadbandModel GA
Descontinuado
fr-CA_Multimedia
Francês (França) fr-FR_BroadbandModel GA
Descontinuado
fr-FR_Multimedia
Alemão de-DE_BroadbandModel GA
Descontinuado
de-DE_Multimedia
Italiano it-IT_BroadbandModel GA
Descontinuado
it-IT_Multimedia
Japonês ja-JP_BroadbandModel GA
Descontinuado
ja-JP_Multimedia
Coreano ko-KR_BroadbandModel GA
Descontinuado
ko-KR_Multimedia
Português (Brasil) pt-BR_BroadbandModel GA
Descontinuado
pt-BR_Multimedia
Espanhol (Argentino, Beta) es-AR_BroadbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Castelhano) es-ES_BroadbandModel GA
Descontinuado
es-ES_Multimedia
Espanhol (Chileno, Beta) es-CL_BroadbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Colombiano, Beta) es-CO_BroadbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Mexicano, Beta) es-MX_BroadbandModel Beta
Descontinuado
es-LA_Telephony
Espanhol (Peruano, Beta) es-PE_BroadbandModel Beta
Descontinuado
es-LA_Telephony

O modelo de forma abreviada em inglês dos EUA (Descontinuado)

O modelo de formato curto de inglês dos EUA, en-US_ShortForm_NarrowbandModel, pode melhorar o reconhecimento de voz para a resposta de voz interativa (IVR) e as soluções de suporte ao cliente automatizadas. O modelo de formato curto é treinado para reconhecer as elocuções curtas que são frequentemente expressas em configurações de suporte ao cliente, como as centrais de atendimento de suporte automatizadas. Além de ser ajustado para elocuções curtas em geral, o modelo também é ajustado para elocuções precisas, como dígitos, palavra de caractere único, ortografias de nomes e respostas sim ou não.

O en-US_ShortForm_NarrowbandModel é ideal para os tipos de respostas que são comuns às trocas humano com máquina, como o caso de uso do IBM® Voice Agent with Watson. O en-US_NarrowbandModel geralmente é ideal para conversas humano com humano. No entanto, dependendo do caso de uso e da natureza da troca, alguns usuários podem considerar o modelo de formato curto adequado para conversas humano com humano também. Dadas essa flexibilidade e a sobreposição, é possível experimentar com ambos os modelos para determinar qual funciona melhor para a sua aplicação. Em qualquer caso, aplicar um modelo de idioma customizado com uma gramática ao modelo de formato curto pode melhorar ainda mais os resultados de reconhecimento.

Como acontece com todos os modelos, ambientes com ruído podem impactar negativamente os resultados. Por exemplo, o ruído acústico em segundo plano de aeroportos, veículos em movimento, salas de conferência e diversos falantes pode reduzir a precisão da transcrição. O áudio dos telefones do falante também pode reduzir a precisão devido ao eco comum desses dispositivos. O uso de parâmetros disponíveis para detecção de atividade de fala pode neutralizar tais efeitos e ajudar a melhorar a precisão da transcrição de fala. A aplicação de um modelo acústico customizado pode ajustar ainda mais a acústica para reconhecimento de voz, mas apenas como uma medida final.

Recursos suportados para modelos de geração anterior

Os modelos de geração anterior são suportados para uso com quase todos os recursos do serviço. A maioria dos recursos e modelos estão geralmente disponíveis para uso de produção. Onde indicado, alguns recursos e modelos são funcionalidade beta. Restrições se aplicam para alguns recursos, por exemplo:

  • Recursos como rótulos de alto-falantes, edição de dados numéricos e filtragem de profanidade são limitados a determinados idiomas e modelos. Tais restrições são notadas com as descrições dos recursos individuais. Para obter mais informações sobre todos os parâmetros de reconhecimento de voz disponíveis, consulte Resumo do parâmetro.
  • O parâmetro low_latency é suportado apenas para modelos de última geração. Para obter mais informações, consulte Baixa latência.
  • Para obter mais informações sobre o suporte de modelos de geração anterior para customização, consulte Suporte de customização para modelos de geração anterior.

Caso contrário, quando um recurso for descrito como estando disponível em geral ou disponível para um idioma ou idiomas específicos, ele suportará os modelos de geração anterior.