Notas sobre a liberação para Speech to Text para IBM Cloud

IBM Cloud

Os seguintes recursos e alterações foram incluídos em cada versão e atualização de instâncias gerenciadas do IBM Watson® Speech to Text hospedadas em IBM Cloud ou de instâncias hospedadas em IBM Cloud Pak for Data como um serviço. A menos que seja observado de outra forma, todas as alterações são compatíveis com liberações anteriores e são disponibilizadas de forma automática e transparente para todos os aplicativos novos e existentes.

Para obter informações sobre limitações conhecidas do serviço, consulte Limitações conhecidas.

Para obter informações sobre liberações e atualizações do serviço para o IBM Cloud Pak for Data, consulte as Notas sobre a liberação para Speech to Text para IBM Cloud Pak for Data.

19 de novembro de 2024

O novo modelo de fala grande para o alemão já está disponível para todos

O modelo de fala grande para o alemão já está disponível para todos.

Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.

23 de agosto de 2024

Todos os modelos de fala grande já estão disponíveis para todos

Os grandes modelos de fala para todos os idiomas estão agora disponíveis de forma geral (GA). Eles são suportados para uso em aplicativos e ambientes de produção.

Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.

18 de Junho de 2024

Novos grandes modelos de fala para o português do Brasil e o espanhol estão agora em beta aberto

Os grandes modelos de fala para o português brasileiro e espanhol estão agora em beta aberto. O espanhol inclui os dialetos castelhano, argentino, chileno, colombiano, mexicano e peruano.

Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.

15 de Maio de 2024

O Modelo de Fala Grande para Inglês agora está geralmente disponível

O grande modelo de fala para o inglês, que inclui os dialetos dos Estados Unidos, Austrália, Índia e Reino Unido, agora está geralmente disponível (GA). Ele é compatível com o uso em ambientes e aplicativos de produção.

Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.

07 de março de 2024

Grande Modelo de Fala para Inglês dos EUA em Open Beta: O novo modelo de fala Large para o inglês dos EUA está em beta aberto. Consulte Modelos e idiomas de fala grandes para obter mais detalhes com recursos suportados (beta).

30 de novembro de 2023

Parâmetro Speech to Text speech_begin_event: Esse parâmetro permitiria que o aplicativo cliente soubesse que algumas palavras ou fala foram detectadas e que Speech to Text está em processo de decodificação. Para obter mais detalhes, consulte Usando parâmetros de reconhecimento de voz.
Parâmetro 'mapping_only' para palavras customizadas: Ao usar o parâmetro "mapping_only", você pode usar palavras personalizadas diretamente para mapear "sounds_like" (ou palavra) para o valor "display_as" como pós-processamento em vez de treinamento. Para obter mais informações, consulte O recurso de palavras; Consulte as diretrizes para Não japoneses e Japoneses.
Suporte para português brasileiro e franco-canadense na nova customização aprimorada do modelo de idioma da próxima geração: A customização do modelo de idioma para os modelos de próxima geração do Brasil-Português e Francês-Canadense foi incluída recentemente. Esta atualização de serviço inclui melhorias internas.
Novo recurso de formatação inteligente: Um novo recurso de formatação inteligente para modelos de próxima geração é suportado nos idiomas inglês dos EUA, português do Brasil, francês e alemão Consulte Versão de formatação inteligente para obter detalhes.
Suporte para espanhol castelhano e espanhol LATAM na nova personalização aprimorada do modelo de idioma da próxima geração: A customização do modelo de idioma para os modelos castelhanos espanhol e LATAM espanhol da próxima geração é incluída. Esta atualização de serviço inclui melhorias internas.
Modelos de fala grandes para inglês, japonês e francês - para acesso antecipado: Para o recurso de acesso antecipado, os Modelos de Fala Grandes estão disponíveis para os idiomas inglês, japonês e francês no IBM Watson Speech-to-Text e no IBM watsonx Assistant. O conjunto de recursos para esses Modelos de Fala Grandes é limitado, mas mais preciso do que os modelos de Próxima Geração e é mais rápido e mais barato para executar devido ao tamanho menor e melhor capacidade de modo de fluxo..

Se você estiver interessado em testar esses modelos de base e compartilhar resultados e feedback, entre em contato com nossa equipe de Gerenciamento de Produto preenchendo este formulário

28 de julho de 2023.

Importante: Todos os modelos de geração anterior são descontinuados a partir de 1 de agosto de 2023: Importante: todos os modelos de geração anterior agora estão descontinuados do serviço... Novos clientes agora devem usar apenas os modelos da próxima geração. Agora, todos os clientes existentes devem migrar para o modelo equivalente da próxima geração. Para obter mais informações sobre todos os modelos da próxima geração, consulte Linguagens e modelos da próxima geração Para obter mais informações sobre como migrar para os modelos da próxima geração, consulte Migrando para os modelos da próxima geração

9 de junho de 2023.

Correção de defeito: A criação e o treinamento de um Modelo de idioma customizado agora são ideais para os modelos padrão e de baixa latência da próxima geração: Correção de defeito: ao criar e treinar um Modelo de Idioma customizado com arquivos de texto corpora e / ou palavras customizadas usando um modelo de baixa latência de próxima geração, ele agora está executando da mesma maneira que com um modelo padrão Anteriormente, ele não era ideal apenas ao usar um modelo de baixa latência de próxima geração.
Correção de defeito: as sessões do STT Websockets não falham mais devido à mensagem de erro do tensor: Correção de defeito: Ao usar soquetes da web STT, as sessões não falham mais devido a uma mensagem de erro "STT retorna o erro: Tamanhos de tensores devem corresponder, exceto na dimensão 0".

18 de maio de 2023

Atualizações para o modelo de telefonia médica de última geração em inglês

O modelo inglês de telefonia médica de última geração foi atualizado para melhorar o reconhecimento de fala:

en-WW_Medical_Telephony

Adicionado suporte para francês e alemão na nova customização aprimorada do modelo de idioma da próxima geração

A customização do modelo de idioma para os modelos de última geração em francês e alemão foi incluída recentemente Esta atualização de serviço inclui melhorias internas.

Para obter mais informações sobre a personalização aprimorada de última geração, consulte

Correção de defeito: As palavras customizadas que contêm caracteres Katakana de meia largura agora retornam uma mensagem de erro clara com o modelo japonês de Telefonia

Correção de defeito: De acordo com a documentação, apenas caracteres Katakana de largura total são aceitos em palavras customizadas e os modelos de próxima geração agora mostram uma mensagem de erro para explicar que não é suportada. Anteriormente, ao criar palavras customizadas contendo caracteres Katakana de meia largura, nenhuma mensagem de erro foi fornecida.

Correção de defeito: o modelo de idioma de telefonia japonesa não falha mais devido ao longo tempo de treinamento

Correção de defeito: ao treinar um modelo de idioma customizado com o Japanese Telephony, o serviço agora manipula efetivamente um grande número de palavras customizadas sem falhar.

2 de maio de 2023

Novo procedimento para fazer upgrade de um modelo customizado que é baseado em um modelo de próxima geração melhorado

Duas abordagens agora estão disponíveis para fazer upgrade de um modelo de idioma customizado para um modelo base de próxima geração aprimorado Ainda é possível modificar e, em seguida, retreinar o modelo customizado, conforme já documentado. Mas agora também é possível fazer upgrade do modelo customizado incluindo o parâmetro de consulta force=true com a solicitação POST /v1/customizations/{customization_id}/train. O parâmetro force atualiza o modelo customizado, independentemente de ele conter mudanças (está no estado ready ou available ).

Para obter mais informações, consulte Atualizando um modelo de idioma customizado com base em um modelo de próxima geração melhorado.

Orientação para incluir palavras em modelos customizados que são baseados em modelos aprimorados da próxima geração..

A documentação agora oferece mais orientação sobre a inclusão de palavras em modelos customizados que são baseados em modelos aprimorados da próxima geração Por motivos de desempenho durante o treinamento, a orientação incentiva o uso de corpora em vez da adição direta de palavras personalizadas, sempre que possível

Para obter mais informações, consulte Diretrizes para incluir palavras em modelos customizados com base em modelos aprimorados da próxima geração

Palavras customizadas em japonês para modelos customizados que são baseados em modelos aprimorados da próxima geração são manipulados de forma diferente

Para modelos customizados japoneses baseados em modelos da próxima geração, as palavras customizadas são manipuladas de forma diferente de outros idiomas. Para japonês, você pode adicionar uma palavra ou sons personalizados que não excedam 25 caracteres de comprimento. Se a sua palavra ou o som customizado exceder esse limite, o serviço incluirá a palavra no modelo customizado como se ele fosse incluído por um corpus. A palavra não aparece como uma palavra personalizada para o modelo.

Para obter mais informações, consulte Diretrizes para incluir palavras em modelos em japonês com base em modelos aprimorados da próxima geração

12 de abril de 2023

Correção de defeito: a interface WebSocket agora atinge o tempo limite conforme esperado ao usar modelos de próxima geração: Correção de defeito: quando usado para reconhecimento de voz com modelos de próxima geração, a interface WebSocket agora atinge o tempo limite conforme esperado após longos períodos de silêncio. Anteriormente, quando usado para reconhecimento de voz de arquivos de áudio curtos, a sessão WebSocket poderia falhar ao tempo limite. Quando a sessão falhou ao atingir o tempo limite, o serviço não retornou uma hipótese final para o aplicativo cliente em espera e, em vez disso, o cliente atingiu o tempo limite enquanto aguardava os resultados

6 de abril de 2023.

Correção de defeito: limites para permitir a conclusão de treinamento para modelos customizados japoneses de próxima geração: Correção de defeito: o treinamento bem-sucedido de um modelo de idioma customizado em japonês da próxima geração exige que palavras e sons customizados incluídos no modelo contenham no máximo 25 caracteres. Para o treinamento mais eficaz, recomenda-se que palavras e sons personalizados não contenham mais de 20 caracteres. O treinamento de modelos customizados japoneses com palavras e sons personalizados mais longos não é concluído após várias horas de treinamento.

Se você precisar incluir o equivalente de uma palavra longa ou sons em um modelo customizado japonês da próxima geração, execute estas etapas:

Adicione uma palavra ou sons mais curtos-como que capta a essência da palavra ou sons mais longos-como no modelo personalizado.
Inclua uma ou mais frases que usem a palavra ou sons mais longos em um corpus.
Considere adicionar sentenças ao corpus que fornecem mais contexto para a palavra ou sons. Um contexto maior dá ao serviço mais informações para reconhecer a palavra e aplicar o som correto.
Adicione o corpus ao modelo personalizado.
Reciclar o modelo customizado na combinação da palavra ou do som mais curto e o corpus que contém a sequência mais longa.

Os limites e as etapas recém-descritos permitem que os modelos customizados japoneses da próxima geração concluam o treinamento. Tenha em mente que incluir grandes números de novas palavras customizadas em um modelo de idioma customizado aumenta o tempo de treinamento do modelo. Mas o aumento do tempo de treinamento ocorre apenas quando o modelo customizado é inicialmente treinado nas novas palavras Quando o modelo customizado tiver sido treinado nas novas palavras, o tempo de treinamento retornará ao normal.

For more information, see
-   [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
-   [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
-   [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
-   [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)

Melhorias adicionais para a customização atualizada do modelo de idioma da próxima geração..

A customização do modelo de idioma para modelos de próxima geração em inglês e japonês foi aprimorada recentemente Esta atualização de serviço inclui melhorias internas. Para obter mais informações sobre a personalização aprimorada de última geração, consulte

13 de março de 2023

Correção de defeito: a formatação inteligente para datas em inglês dos EUA agora está correta: Correção de defeito: a formatação inteligente agora inclui corretamente dias da semana e datas quando ambos estão presentes no áudio falado, por exemplo, Tuesday February 28. Anteriormente, em alguns casos, o dia da semana era omitido e a data era apresentada incorretamente. Observe que a formatação inteligente é uma funcionalidade beta
Correção de defeito: atualizar a documentação para palavras de hesitação de fala para modelos de próxima geração: Correção de defeito: a documentação para palavras de hesitação de fala para modelos da próxima geração foi atualizada.. Mais detalhes são fornecidos sobre as palavras de hesitação em inglês dos EUA e japonês. Os modelos de próxima geração incluem as palavras de hesitação reais nos resultados de transcrição, ao contrário dos modelos de geração anterior, que incluem apenas marcadores de hesitação.. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.

27 de fevereiro de 2023.

Novo modelo japonês de telefonia de próxima geração

O serviço agora oferece um modelo de telefonia de última geração para os japoneses: ja-JP_Telephony. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Customização de modelo de idioma melhorada para modelos de inglês e japonês da próxima geração

O serviço agora fornece customização de modelo de idioma aprimorada para modelos de inglês e japonês da próxima geração:

en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony

Melhorias visíveis para os modelos: a nova tecnologia melhora o comportamento padrão dos novos modelos inglês e japonês. Entre outras mudanças, a nova tecnologia otimiza o comportamento padrão para os seguintes parâmetros:

O padrão customization_weight para modelos customizados baseados nas novas versões desses modelos muda de 0.2 para 0.1.
O padrão character_insertion_bias para modelos customizados que são baseados nas novas versões desses modelos permanece 0.0, mas os modelos mudaram de uma maneira que torna o uso do parâmetro para reconhecimento de voz menos necessário..

Fazendo upgrade para os novos modelos: para aproveitar a tecnologia melhorada, deve-se fazer upgrade de quaisquer modelos de idioma customizados que sejam baseados nos novos modelos. Para fazer upgrade para a nova versão de um desses modelos base, faça o seguinte:

Mude seu modelo customizado incluindo ou modificando uma palavra, corpus ou gramática customizada que o modelo contém. Qualquer mudança feita move o modelo para o estado ready.
Use o método POST /v1/customizations/{customization_id}/train para reciclar o modelo novamente. O novo treinamento atualiza o modelo customizado para a nova tecnologia e move o modelo para o estado available..

Problema conhecido: neste momento, não é possível usar o método POST /v1/customizations/{customization_id}/upgrade_model para fazer upgrade de um modelo customizado para um dos novos modelos base. Esse problema será resolvido em uma versão futura.

Usando os novos modelos: Após o upgrade para o novo modelo base, é aconselhável avaliar o desempenho do modelo customizado atualizado, prestando atenção especial aos parâmetros customization_weight e character_insertion_bias para reconhecimento de voz. Ao retreinar seu modelo customizado:

O modelo customizado usa o novo padrão customization_weight de 0.1 para seu modelo customizado.. Um customization_weight não padrão que você tinha associado ao seu modelo customizado é removido
O modelo customizado pode não requerer mais o uso do parâmetro character_insertion_bias para reconhecimento de voz ideal.

As melhorias na customização do modelo de linguagem tornam esses parâmetros menos importantes para reconhecimento de voz de alta qualidade:

Se você usar os valores padrão para esses parâmetros, continue a fazer isso após o upgrade Os valores padrão provavelmente continuarão oferecendo os melhores resultados para reconhecimento de voz.
Se você especificar valores não padrão para esses parâmetros, experimente os valores padrão após o upgrade. Seu modelo customizado pode funcionar bem para o reconhecimento de voz com os valores padrão

Se você achar que usar valores diferentes para esses parâmetros pode melhorar o reconhecimento de voz com seu modelo customizado, experimente as mudanças incrementais para determinar se os parâmetros são necessários para melhorar o reconhecimento de voz.

Nota: neste momento, as melhorias na customização do modelo de linguagem se aplicam apenas a modelos customizados que são baseados nos modelos de idioma base em inglês ou japonês da próxima geração listados anteriormente. Com o tempo, as melhorias serão disponibilizadas para outros modelos de linguagem da próxima geração.

Mais informações: Para obter mais informações sobre o upgrade e sobre o reconhecimento de voz com esses parâmetros, consulte

Correção de defeito: os arquivos de gramática agora manipulam sequências de dígitos corretamente

Correção de defeito: quando gramáticas são usadas, o serviço agora manipula sequências mais longas de dígitos corretamente. Anteriormente, estava falhando ao concluir o reconhecimento ou retornar resultados incorretos.

15 de fevereiro de 2023.

Importante: todos os modelos de geração anterior foram descontinuados e chegarão ao fim do serviço em 31 de julho de 2023

Importante: todos os modelos de geração anterior foram descontinuados e atingirão o término de serviço efetivo em 31 de julho de 2023 Nessa data, todos os modelos de geração anterior serão removidos do serviço e da documentação.. A data de reprovação anterior foi 3 de março de 2023 A nova data permite que os usuários tenham mais tempo para migrar para os modelos de próxima geração apropriados Mas os usuários devem migrar para o modelo de próxima geração equivalente até 31 de julho de 2023.

A maioria dos modelos de geração anterior foi descontinuada em 15 de março de 2022. Anteriormente, os modelos árabe e japonês não eram descontinuados.. A descontinuação agora se aplica a todos modelos de geração anterior.

Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.
Para obter mais informações sobre todos os modelos da próxima geração, consulte Linguagens e modelos da próxima geração.

Observação: quando o modelo en-US_BroadbandModel de geração anterior for retirado de serviço, o modelo en-US_Multimedia de próxima geração se tornará o modelo padrão para solicitações de reconhecimento de fala.

Correção de defeito: tempo de treinamento melhorado para modelos de idioma customizados da próxima geração

Correção de defeito: o tempo de treinamento para os modelos de idioma customizados da próxima geração agora foi significativamente melhorado Anteriormente, o tempo de treinamento demorava muito mais do que o necessário, conforme relatado para o treinamento de modelos de idioma customizados japoneses. O problema foi corrigido por uma correção interna..

Correção de defeito: arquivos de gramática gerados dinamicamente agora funcionam corretamente

Correção de defeito: arquivos de gramática gerados dinamicamente agora funcionam corretamente. Anteriormente, os arquivos de gramática dinâmica poderiam causar falhas internas, conforme relatado para integração do Speech to Text com IBM® watsonx™ Assistant. O problema foi corrigido por uma correção interna..

20 de janeiro de 2023

Nomes de modelos árabes e do Reino Unido reprovados não estão mais disponíveis

Os seguintes nomes do modelo árabe e do Reino Unido não são mais aceitos pelo serviço:

ar-AR_BroadbandModel-Use ar-MS_BroadbandModel em vez disso.
en-UK_NarrowbandModel-Use en-GB_NarrowbandModel em vez disso.
en-UK_BroadbandModel-Use en-GB_BroadbandModel em vez disso.

O nome do modelo árabe foi reprovado em 2 de dezembro de 2020. Os nomes do modelo inglês do Reino Unido foram reprovados em 14 de julho de 2017.

Cloud Foundry deprecação e migração para grupos de recursos

IBM anunciou a descontinuação do IBM Cloud Foundry em 31 de maio de 2022. A partir de 30 de novembro de 2022, novos IBM Aplicativos Cloud Foundry não poderão ser criados e somente os usuários existentes poderão implementar aplicativos. IBM Cloud Foundry chega ao fim do suporte em 1º de junho de 2023. Nesse momento, qualquer IBM Instâncias de tempo de execução de aplicativos do Cloud Foundry que estejam executando IBM Aplicativos Cloud Foundry serão permanentemente desativadas, desprovisionadas e excluídas.

Para continuar a usar seus aplicativos IBM Cloud após 1º de junho de 2023, você deve migrar para grupos de recursos antes dessa data. Os grupos de recursos são conceitualmente semelhantes aos espaços Cloud Foundry. Eles incluem vários benefícios adicionais, como o controle de acesso mais refinado usando IBM Cloud Identity and Access Management (IAM), a capacidade de conectar instâncias de serviço a aplicativos e serviços em diferentes regiões e uma maneira fácil de visualizar o uso por grupo.

O parâmetro max_alternatives agora está disponível para uso com modelos de próxima geração

O parâmetro max_alternatives agora está disponível para uso com todos os modelos de próxima geração. O parâmetro está geralmente disponível para todos os modelos de próxima geração. Para obter mais informações, consulte Alternativas máximas.

Correção de defeitos: Permitir uso de ambos os parâmetros max_alternatives e end_of_phrase_silence_time com modelos de próxima geração

Correção de defeito: ao usar os dois parâmetros max_alternatives e end_of_phrase_silence_time na mesma solicitação com modelos de próxima geração, o serviço agora retorna várias transcrições alternativas enquanto também respeita o intervalo de pausa indicado. Anteriormente, o uso dos dois parâmetros em uma única solicitação gerou uma falha. (O uso do parâmetro max_alternatives com modelos de última geração já estava disponível anteriormente como um recurso experimental para um número limitado de clientes.)

Correção de defeito: Atualizar modelo de telefonia canadense de última geração (upgrade necessário)

Defeito corrigido: O modelo de telefonia de última geração canadense, fr-CA_Telephony, foi atualizado para tratar de uma inconsistência interna que poderia causar um erro durante o reconhecimento de fala. É necessário fazer o upgrade de qualquer modelo personalizado que se baseie no modelo fr-CA_Telephony. Para obter mais informações sobre o upgrade de modelos personalizados, consulte

Correção de defeitos: Adicionar diretrizes de documentação para criação de sons japoneses-curtidas com base em modelos de próxima geração

Correção de defeitos: Em sons-curtidas para modelos de linguagem personalizada japonesa que são baseados em modelos de próxima geração, a sequência de caracteres ウー é ambígua em alguns contextos de esquerda. Não use caracteres (sílabas) que terminam com o fonema /o/, tais como ロ e ト. Em tais casos, use ウウ ou apenas ウ em vez de ウー. Por exemplo, use ロウウマン ou ロウマン em vez de ロウーマン. Para obter mais informações, consulte Diretrizes para o Japão.

Adicionar palavras diretamente aos modelos personalizados que são baseados em modelos de próxima geração aumenta o tempo de treinamento

Adicionar palavras customizadas diretamente a um modelo personalizado que é baseado em um modelo de próxima geração faz com que o treinamento de um modelo leve alguns minutos a mais do que ele de outra forma seria. Se você estiver treinando um modelo com palavras personalizadas que adicionou usando o método POST /v1/customizations/{customization_id}/words ou PUT /v1/customizations/{customization_id}/words/{word_name}, permita que alguns minutos de tempo extra de treinamento para o modelo. Para obter mais informações, consulte

O máximo de horas de recursos de áudio para modelos acústicos personalizados no local de Tóquio foi aumentado

O máximo de horas de recursos de áudio que você pode adicionar aos modelos acústicos personalizados no local de Tóquio é novamente 200 horas. Anteriormente, o máximo foi reduzido para 50 horas para a região de Tóquio. Essa redução foi rescindida e adiada para o próximo ano. Para obter mais informações, consulte Máximo de horas de áudio.

5 de dezembro de 2022

Novo modelo multimídia holandês de última geração holandesa

O serviço agora oferece um modelo multimídia de última geração para o holandês holandês: nl-NL_Multimedia. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Correção de defeitos: Correção de palavra customizada reconhecimento em resultados de transcrição para modelos de última geração

Correção de defeitos: Para personalização de modelo de linguagem com modelos de próxima geração, as palavras customizadas são agora reconhecidas e usadas em todas as transcrições. Anteriormente, palavras customizadas por vezes não conseguiram ser reconhecidas e usadas em resultados de transcrição.

Correção de defeito: Uso correto do campo display_as em resultados de transcrição para modelos de próxima geração

Correção de defeitos: Para personalização de modelo de linguagem com modelos de próxima geração, o valor do campo display_as para uma palavra personalizada agora aparece em todas as transcrições. Anteriormente, o valor do campo word às vezes aparecia em resultados de transcrição.

Correção de defeito: Atualizar documentação de nomenclatura do modelo personalizado

Defeito corrigido: A documentação agora fornece regras detalhadas para nomear modelos de linguagem personalizados e modelos acústicos personalizados. Para obter mais informações, consulte

20 de outubro de 2022

Atualizações dos modelos de telefonia de próxima geração em inglês

Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

Todos esses modelos continuam a apoiar a baixa latência. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

Correção de defeito: Atualizar modelo multimídia de última geração japonesa (upgrade necessário)

Defeito corrigido: O modelo multimídia de última geração japonesa, ja-JP_Multimedia, foi atualizado para tratar de uma inconsistência interna que poderia causar um erro durante o reconhecimento de fala com baixa latência. É necessário fazer o upgrade de qualquer modelo personalizado que se baseie no modelo ja-JP_Multimedia. Para obter mais informações sobre o upgrade de modelos personalizados, consulte

7 de outubro de 2022

Novo modelo sueco de telefonia de próxima geração

O serviço agora oferece um modelo de telefonia de última geração para os suecos: sv-SE_Telephony. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Atualizações dos modelos de telefonia de próxima geração em inglês

Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

21 de setembro de 2022

Novo evento Activity Tracker para exclusão GDPR de informações do usuário

O serviço agora retorna um evento Activity Tracker quando você usa o método DELETE /v1/user_data para excluir todas as informações sobre um usuário. O evento é denominado speech-to-text.gdpr-user-data.delete. Para obter mais informações, consulte Eventos do Activity Tracker.

Correção de defeitos: Atualize alguns modelos de última geração para melhorar o tempo de resposta de baixa latência

Defeito corrigido: Os modelos de próxima geração de próxima geração foram atualizados para melhorar seu tempo de resposta quando o parâmetro low_latency é usado:

en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony

Anteriormente, esses modelos não retornaram resultados de reconhecimento tão rapidamente quanto o esperado quando o parâmetro low_latency foi usado. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.

19 de agosto de 2022

Importante: Data de reprovação para a maioria dos modelos de geração anterior é agora 3 de março de 2023

Substituído: esse aviso de descontinuação foi substituído pelo 15 de fevereiro de 2023 service update. A data de término de serviço para todos os modelos de geração anterior agora é 31 de Julho de 2023

Em 15 de março de 2022, os modelos da geração anterior para todos os idiomas, exceto o árabe e o japonês, foram descontinuados. Nessa época, os modelos reprovados iam permanecer disponíveis até 15 de setembro de 2022. Para permitir que os usuários tenham mais tempo para migrar para os modelos de próxima geração apropriados, os modelos descontinuados agora permanecerão disponíveis até 3 de março de 2023 Assim como com o aviso de descontinuação inicial, os modelos de geração anterior em árabe e japonês não foram descontinuadas Para obter uma lista completa de todos os modelos descontinuados, consulte a Atualização de serviço de 15 de março de 2022

No dia 3 de março de 2023, os modelos reprovados serão retirados do serviço e da documentação. Se você usar qualquer um dos modelos obsoletos, deverá migrar para o modelo equivalente de próxima geração até 3 de março de 2023.

Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
Para obter mais informações sobre os modelos de última geração, consulte Idiomas e modelos de última geração
Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.

15 de agosto de 2022

Novo modelo multimídia de última geração canadense

O serviço agora oferece um modelo multimídia de última geração para o franco-canadense: fr-CA_Multimedia. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Atualizações dos modelos de telefonia de próxima geração em inglês

Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

O modelo multimídia italiano de última geração agora suporta baixa latência

O modelo de multimídia de última geração italiana, it-IT_Multimedia, agora suporta baixa latência. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Importante: Horas máximas de dados de áudio sendo reduzidos para modelos acústicos personalizados

Importante: A quantidade máxima de dados de áudio que você pode adicionar a um modelo acústico personalizado está sendo reduzida de 200 horas para 50 horas. Essa mudança está sendo faseada em locais diferentes de agosto a setembro de 2022. Para obter informações sobre o planejamento para a redução de limite e o que ele significa para os modelos acústicos customizados existentes que contenham mais de 50 horas de áudio, veja Máximo de horas de áudio.

3 de agosto de 2022

Correção de defeito: Atualização de hesitações de fala e documentação de marcadores de hesitação

Correção de defeito: a documentação para hesitações de fala e marcadores de hesitação foi atualizada.. Os modelos de geração anterior incluem marcadores de hesitação no lugar de hesitações de fala em resultados de transcrição para a maioria das línguas; formatação inteligente remove marcadores de hesitação das transcrições finais inglesas dos EUA. Os modelos de última geração incluem as hesitações da fala real em resultados de transcrição; a formatação inteligente não tem efeito sobre a sua inclusão em resultados finais de transcrição.

Para obter mais informações, consulte:

1º de junho de 2022

Atualizações para vários modelos de telefonia de última geração

Os modelos de telefonia de última geração a seguir foram atualizados para reconhecimento de voz melhorado:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
ko-KR_Telephony

Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

25 de maio de 2022

Novo parâmetro character_insertion_bias beta para modelos de última geração

Todos os modelos de última geração agora suportam um novo parâmetro beta, character_insertion_bias, que está disponível com todas as interfaces de reconhecimento de voz. Por padrão, o serviço é otimizado para cada modelo individual para equilibrar o reconhecimento de sequências de caracteres candidatas de comprimentos diferentes. O viés específico do modelo é equivalente a 0,0. O viés padrão de cada modelo é suficiente para a maioria das solicitações de reconhecimento de voz.

No entanto, determinados casos de uso podem se beneficiar do favorecimento de hipóteses com sequências de caracteres mais curtas ou mais longas. O parâmetro aceita valores entre -1,0 e 1,0 que representam uma mudança a partir do padrão de um modelo. Valores negativos instruem o serviço a favorecer sequências de caracteres mais curtas. Valores positivos instruem o serviço a favorecer sequências de caracteres mais longas. Para obter mais informações, consulte Viés de inserção de caracteres.

19 de maio de 2022

Novo modelo de última geração it-IT_Multimedia italiano

Agora o serviço oferece um modelo multimídia de última geração para o italiano: it-IT_Multimedia. O novo modelo está geralmente disponível. Ele não suporta baixa latência, mas suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.

Modelos de telefonia e multimídia de última geração atualizados para o coreano

Os modelos de última geração existentes para coreano foram atualizados:

O modelo ko-KR_Telephony foi atualizado para melhor suporte de baixa latência para reconhecimento de voz.
O modelo ko-KR_Multimedia foi atualizado para reconhecimento de voz melhorado. Agora o modelo suporta também baixa latência.

Ambos os modelos estão geralmente disponíveis e ambos suportam customização e gramáticas do modelo de idioma. Não é necessário fazer upgrade de modelos de idioma customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

Correção de defeito: as pontuações de confiança são agora relatadas para todos os resultados de transcrição

Correção de defeito: as pontuações de confiança são agora relatadas para todos os resultados de transcrição. Anteriormente, quando o serviço retornava várias transcrições para uma única solicitação de reconhecimento de voz, as pontuações de confiança poderiam não ser retornadas para todas as transcrições.

11 de abril de 2022

Novo modelo de última geração pt-BR_Multimedia para português brasileiro

O serviço agora oferece um modelo multimídia de última geração para português brasileiro: pt-BR_Multimedia. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte

Atualize para o modelo de última geração de-DE_Multimedia alemão para suportar baixa latência

O modelo alemão de última geração de-DE_Multimedia agora suporta baixa latência. Não é necessário fazer upgrade de modelos customizados que sejam baseados no modelo base alemão atualizado. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte

O suporte para pronúncias agora é documentado para modelos customizados com base em modelos de última geração

Para modelos de idioma customizados que são baseados em modelos de última geração, o suporte agora é documentado para especificações de pronúncias para palavras customizadas. O suporte para pronúncias já está disponível desde o final de 2021.

Diferenças existem entre o uso do campo sounds_like para modelos customizados que são baseados em modelos de última geração e de geração anterior. Para obter mais informações sobre o uso do campo sounds_like com modelos customizados que são baseados em modelos de última geração, consulte Trabalhando com palavras customizadas para modelos de última geração.

Importante: o parâmetro customization_id descontinuado foi removido da documentação

Importante: em 09 de outubro de 2018, o parâmetro customization_id de todas as solicitações de reconhecimento de voz foi descontinuado e substituído pelo parâmetro language_customization_id. O parâmetro customization_id agora foi removido da documentação para os métodos de reconhecimento de voz:

/v1/recognize para solicitações do WebSocket
POST /v1/recognize para solicitações de HTTP síncronas (incluindo solicitações com múltiplas partes)
POST /v1/recognitions para solicitações de HTTP assíncronas

Nota: se você usar os SDKs do Watson, assegure-se de ter atualizado qualquer código de aplicativo para usar o parâmetro language_customization_id em vez do parâmetro customization_id. O parâmetro customization_id não estará mais disponível a partir dos métodos equivalentes dos SDKs a partir da sua próxima liberação principal. Para obter mais informações sobre os métodos de reconhecimento de fala, consulte a referência API & SDK.

17 de março de 2022

Agora o suporte gramatical para modelos de última geração está geralmente disponível

O suporte gramatical agora está geralmente disponível (GA) para modelos de última geração que atendam às condições a seguir:

Os modelos estão geralmente disponíveis.
Os modelos suportam customização do modelo de idioma.

Para obter mais informações, veja os tópicos a seguir:

Para obter mais informações sobre o status de suporte de gramática para modelos de próxima geração, consulte Suporte de customização para modelos de próxima geração
Para obter mais informações sobre gramáticas, consulte Gramáticas.

Novo modelo multimídia alemão de última geração

Agora o serviço oferece um modelo multimídia de última geração para o alemão: de-DE_Multimedia. O novo modelo está geralmente disponível. Ele não suporta baixa latência. Ele suporta customização de modelo de idioma (geralmente disponível) e gramáticas (beta).

Para obter mais informações sobre todos os modelos de última geração disponíveis e seu suporte de customização, consulte

Agora o modelo beta de última geração en-WW_Medical_Telephony suporta baixa latência

Agora o modelo beta de última geração en-WW_Medical_Telephony suporta baixa latência. Para obter mais informações sobre todos os modelos de última geração e baixa latência, consulte

15 de março de 2022

Importante: descontinuação da maioria dos modelos de geração anterior

Em vigor desde 15 de março de 2022, os modelos de geração anterior para todos os idiomas além de árabe e o japonês estão descontinuados. Os modelos descontinuados permanecerão disponíveis até o dia 15 de setembro de 2022, quando serão retirados do serviço e da documentação. Os modelos árabe e japonês da geração anterior não estão obsoletos.

Agora os modelos de geração anterior a seguir estão descontinuados:

Chinês (Mandarim): zh-CN_NarrowbandModel e zh-CN_BroadbandModel
Holandês (Holanda): nl-NL_NarrowbandModel e nl-NL_BroadbandModel
Inglês (Australiano): en-AU_NarrowbandModel e en-AU_BroadbandModel
Inglês (Reino Unido): en-GB_NarrowbandModel e en-GB_BroadbandModel
Inglês (Estados Unidos): en-US_NarrowbandModel, en-US_BroadbandModel e en-US_ShortForm_NarrowbandModel
Francês (Canadense): fr-CA_NarrowbandModel e fr-CA_BroadbandModel
Francês (França): fr-FR_NarrowbandModel e fr-FR_BroadbandModel
Alemão: de-DE_NarrowbandModel e de-DE_BroadbandModel
Italiano: it-IT_NarrowbandModel e it_IT_BroadbandModel
Coreano: ko-KR_NarrowbandModel e ko-KR_BroadbandModel
Português (Brasileiro): pt-BR_NarrowbandModel e pt-BR_BroadbandModel
Espanhol (Argentino): es-AR_NarrowbandModel e es-AR_BroadbandModel
Espanhol (Castelhano): es-ES_NarrowbandModel e es-ES_BroadbandModel
Espanhol (Chileno): es-CL_NarrowbandModel e es-CL_BroadbandModel
Espanhol (Colombiano): es-CO_NarrowbandModel e es-CO_BroadbandModel
Espanhol (Mexicano): es-MX_NarrowbandModel e es-MX_BroadbandModel
Espanhol (Peruano): es-PE_NarrowbandModel e es-PE_BroadbandModel

Se utilizar qualquer um desses modelos descontinuados, você deverá migrar para o modelo de última geração equivalente até a data de término de serviço.

Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
Para obter mais informações sobre os modelos de última geração, consulte Idiomas e modelos de última geração
Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.

Nota: quando a geração anterior en-US_BroadbandModel for removida do serviço em 15 de setembro, o modelo de última geração en-US_Multimedia passará a ser o modelo padrão para solicitações de reconhecimento de voz.

Agora os modelos de última geração suportam parâmetros de análise de áudio

Agora todos os modelos de última geração suportam os parâmetros a seguir de análise de áudio como recursos geralmente disponíveis:

end_of_phrase_silence_time especifica a duração do intervalo de pausa em que o serviço divide uma transcrição em múltiplos resultados finais. Para obter mais informações, consulte Tempo de silêncio no término da frase.
split_transcript_at_phrase_end direciona o serviço para dividir a transcrição em múltiplos resultados finais com base em recursos semânticos da entrada. Para obter mais informações, consulte Transcrição dividida no término da frase.

Correção de defeito: Corrigir a documentação dos rótulos dos alto-falantes

Correção de defeito: a documentação de rótulos de alto-falante incluía a seguinte instrução errônea em vários lugares: Para os modelos de última geração, os rótulos de alto-falante não são suportados para uso com resultados provisórios ou baixa latência. Os rótulos de alto-falante são suportados para uso com resultados provisórios e baixa latência para modelos de última geração. Para obter mais informações, consulte Rótulos do falante.

28 de fevereiro de 2022

Atualizações para os modelos multimídia de última geração em inglês e francês para suportar baixa latência

Os modelos de multimídia a seguir foram atualizados para suportar baixa latência:

Inglês australiano: en-AU_Multimedia
Inglês do Reino Unido: en-GB_Multimedia
Inglês dos EUA: en-US_Multimedia
Francês: fr-FR_Multimedia

Não é preciso atualizar modelos de idioma customizados que são construídos sobre esses modelos de base. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte

Novo modelo multimídia de última geração em espanhol castelhano

Agora o serviço oferece um modelo multimídia de última geração para espanhol castelhano: es-ES_Multimedia. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização de modelo de idioma (geralmente disponível) e gramáticas (beta).

Para obter mais informações sobre todos os modelos de última geração disponíveis e seu suporte de customização, consulte

11 de fevereiro de 2022

Correção de defeito: Correção da documentação de upgrade do modelo personalizado e da versão do modelo básico

Correção de defeito: a documentação que descreve o upgrade de modelos customizados e as sequências de versão que são utilizadas para diferentes versões de modelos de base foi atualizada. Agora a documentação afirma que o upgrade para customização do modelo de idioma também se aplica aos modelos de última geração. Também foram atualizadas as sequências de versões que representam diferentes versões de modelos de base. E o parâmetro base_model_version também pode ser usado com modelos de última geração atualizados.

Para obter mais informações sobre o upgrade de modelo customizado, quando o upgrade é necessário e como usar versões mais antigas de modelos customizados, consulte

Correção de defeito: Atualização da documentação de capitalização

Correção de defeito: a documentação que descreve a capitalização automática do serviço de transcrições foi atualizada. O serviço capitaliza os substantivos apropriados apenas para os seguintes idiomas e modelos:

Todos os modelos de inglês dos EUA de geração anterior
O modelo alemão de última geração

Para obter mais informações, consulte Capitalização.

2 de fevereiro de 2022

Agora o novo modelo beta en-WW_Medical_Telephony está disponível

Agora um novo beta en-WW_Medical_Telephony de última geração está disponível. O novo modelo compreende termos dos domínios médico e farmacológico. Utilize o modelo em situações em que é necessário transcrever a terminologia médica comum, como nomes de medicamentos, marcas de produtos, procedimentos médicos, doenças, tipos de médico ou terminologia relacionada à COVID-19. Os casos de uso comuns incluem conversas entre um paciente e um provedor de serviços médicos (por exemplo, um médico, enfermeiro ou farmacêutico).

O novo modelo está disponível para todos os dialetos ingleses suportados: australiano, indiano, Reino Unido e EUA. O novo modelo suporta customização de modelo de idioma e gramáticas como funcionalidade beta. Ele suporta a maioria dos mesmos parâmetros que o modelo en-US_Telephony, incluindo smart_formatting para áudio em inglês dos EUA. Ele não suporta os parâmetros a seguir: low_latency, profanity_filter, redaction e speaker_labels.

Para obter mais informações, consulte O modelo de telefonia médica inglês.

Atualização para o modelo chinês zh-CN_Telephony

O modelo chinês de última geração zh-CN_Telephony foi atualizado para reconhecimento de voz melhorado. O modelo continua suportando baixa latência. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.

Se tiver modelos de idioma customizados baseados no modelo atualizado, você deverá fazer upgrade dos modelos customizados existentes aproveitar as atualizações usando o método POST /v1/customizations/{customization_id}/upgrade_model. Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Atualize para o modelo de última geração ja-JP_Multimedia japonês para suportar baixa latência

Agora o modelo japonês de última geração ja-JP_Multimedia suporta baixa latência. É possível usar o parâmetro low_latency com solicitações de reconhecimento de voz que utilizam o modelo. Não é preciso fazer upgrade de modelos customizados baseados no modelo de base japonês atualizado. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte

3 de dezembro de 2021

Novo modelo de telefonia de última geração em espanhol da América Latina

Agora o serviço oferece um modelo de telefonia de última geração para o espanhol latino-americano: es-LA_Telephony. O novo modelo suporta baixa latência e está geralmente disponível.

O modelo es-LA_Telephony se aplica a todos os dialetos latino-americanos. Ele é equivalente aos modelos de geração anterior que estão disponíveis para os dialetos argentinos, chilenos, colombianos, mexicanos e peruanos. Se você usou um modelo de geração anterior para qualquer um desses dialetos específicos, use o modelo es-LA_Telephony para migrar para o modelo de última geração equivalente.

Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

Importante: modelos de idioma customizados baseados em determinados modelos de última geração devem ser recriados

Importante: se tiver criado modelos de idioma customizados com base em determinados modelos de última geração, você deverá recriar os modelos customizados. Até a recriação dos modelos de idioma customizados, as solicitações de reconhecimento de voz que tentarem usar os modelos customizados falharão com o código de erro HTTP 400.

É preciso recriar os modelos de idioma customizados criados com base nas seguintes versões de modelos de última geração:

Para o modelo en-AU_Telephony, modelos customizados que você criou de en-AU_Telephony.v2021-03-03 para en-AU_Telephony.v2021-10-04.
Para o modelo en-GB_Telephony, modelos customizados que você criou de en-GB_Telephony.v2021-03-03 para en-GB_Telephony.v2021-10-04.
Para o modelo en-US_Telephony, modelos customizados que você criou de en-US_Telephony.v2021-06-17 para en-US_Telephony.v2021-10-04.
Para o modelo en-US_Multimedia, modelos customizados que você criou de en-US_Multimedia.v2021-03-03 para en-US_Multimedia.v2021-10-04.

Para identificar a versão de um modelo na qual um modelo de idioma customizado é baseado, use o método GET /v1/customizations para listar todos os modelos de idioma customizados ou o método GET /v1/customizations/{customization_id} para listar um modelo específico. O campo versions da saída mostra o modelo base para um modelo de idioma customizado. Para obter mais informações, consulte Listando modelos de idioma customizados.

Para recriar um modelo de idioma customizado, primeiro crie um novo modelo customizado. Em seguida, inclua no novo modelo todas as palavras customizadas e dos corpora do modelo customizado anterior. Em seguida, é possível excluir o modelo customizado anterior. Para obter mais informações, consulte Criando um modelo de idioma customizado.

28 de outubro de 2021

Novo modelo de telefonia chinês de última geração

Agora o serviço oferece um modelo de telefonia de última geração para o mandarim chinês: zh-CN_Telephony. O novo modelo suporta baixa latência e está geralmente disponível. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.

Novos modelos multimídia de última geração em inglês australiano e inglês do Reino Unido

Agora o serviço oferece os modelos multimídia a seguir de última geração. Os novos modelos estão geralmente disponíveis e nenhum suporta baixa latência.

Inglês australiano: en-AU_Multimedia
Inglês do Reino Unido: en-GB_Multimedia

Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

Atualizações para vários modelos de última geração para reconhecimento de voz melhorado

Os modelos de última geração a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de telefonia em inglês australiano (en-AU_Telephony)
Modelo de telefonia em inglês do Reino Unido (en-GB_Telephony)
Modelo multimídia em inglês dos EUA (en-US_Multimedia)
Modelo de telefonia em inglês dos EUA (en-US_Telephony)
Modelo de telefonia em espanhol castelhano (es-ES_Telephony)

Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.

Agora o suporte gramatical para modelos de geração anterior está geralmente disponível

Agora o suporte gramatical está geralmente disponível (GA) para modelos de geração anterior que atendem às condições a seguir:

Os modelos estão geralmente disponíveis.
Os modelos suportam customização do modelo de idioma.

Para obter mais informações, veja os tópicos a seguir:

Para obter mais informações sobre o status do suporte de gramática para modelos de geração anteriores, consulte Suporte de customização para modelos de geração anteriores
Para obter mais informações sobre gramáticas, consulte Gramáticas.

Novo suporte gramatical beta para modelos de última geração

Agora o suporte gramatical está disponível como funcionalidade beta para todos os modelos de última geração. Todos os modelos de última geração estão geralmente disponíveis (GA) e suportam customização de modelo de idioma. Para obter mais informações, veja os tópicos a seguir:

Para obter mais informações sobre o status de suporte de gramática para modelos de próxima geração, consulte Suporte de customização para modelos de próxima geração
Para obter mais informações sobre gramáticas, consulte Gramáticas.

Nota: o suporte beta para gramáticas fornecido por modelos de última geração está disponível para o serviço Speech to Text apenas na IBM Cloud. As gramáticas ainda não são suportadas para modelos de última geração no IBM Cloud Pak for Data.

Novo campo custom_acoustic_model para recursos suportados

Os métodos GET /v1/models e GET /v1/models/{model_id} agora informam se um modelo suporta customização de modelo acústico. Agora o objeto SupportedFeatures inclui um campo adicional, custom_acoustic_model, um booleano que é true para um modelo que suporta customização de modelo acústico e false, caso contrário. Atualmente, o campo é true para todos os modelos de geração anterior e false para todos os modelos de última geração.

Para obter mais informações sobre esses métodos, consulte Listando informações sobre modelos.
Para obter mais informações sobre o suporte para customização de modelo acústico, consulte Suporte ao idioma para customização.

22 de outubro de 2021

Correção de defeito: Resolver falhas assíncronas em HTTP: Correção de defeito: a interface HTTP assíncrona falhou ao transcrever algum áudio. Além disso, o retorno de chamada para a solicitação retornou o status recognitions.completed_with_results em vez de recognitions.failed. Esse erro foi resolvido.

6 de outubro de 2021

Atualizações para modelos de última geração em tcheco e holandês

Os modelos de idioma de última geração a seguir mudaram conforme indicado:

Agora o modelo de telefonia tcheco, cs-CZ_Telephony, está geralmente disponível (GA). O modelo continua suportando baixa latência.
O modelo de telefonia belga holandês, nl-BE_Telephony, foi atualizado para reconhecimento de voz melhorado. O modelo continua suportando baixa latência.
Agora o modelo de telefonia holandês da Holanda, nl-NL_Telephony, é GA. Além disso, agora o modelo suporta baixa latência.

Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.

Novo suporte de HIPAA aos planos Premium na localização de Dallas

O suporte à Lei de portabilidade e responsabilidade de seguros de saúde dos EUA (HIPAA) agora está disponível para planos Premium que estão hospedados na localização de Dallas (us-south). Para obter mais informações, consulte Lei de portabilidade e responsabilidade de seguros de saúde (HIPAA).

16 de setembro de 2021

Novos modelos beta de última geração em holandês tcheco e da Holanda

Agora o serviço suporta os seguintes novos modelos de idioma de última geração. Ambos os novos modelos são funcionalidade beta.

Tcheco: cs-CZ_Telephony. O novo modelo suporta baixa latência.
Holandês da Holanda: nl-NL_Telephony. O novo modelo não suporta baixa latência.

Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.

Atualizações para modelos de última geração em coreano e português do Brasil

Os modelos de última geração a seguir foram atualizados:

Agora o modelo coreano ko-KR_Telephony suporta baixa latência.
O modelo em português do Brasil pt-BR_Telephony foi atualizado para reconhecimento de voz aprimorado.

Correção de defeitos: Correção dos resultados provisórios e da documentação de baixa latência

Correção de defeito: a documentação que descreve os resultados provisórios e os recursos de baixa latência com modelos de última geração foi reescrita para maior clareza e correção. Para obter mais informações, veja os tópicos a seguir:

Correção de defeito: Melhorar os resultados das etiquetas de alto-

Correção de defeito: ao usar rótulos de alto-falante com modelos de última geração, agora o serviço identifica o alto-falante para todas as palavras do áudio de entrada, incluindo palavras muito curtas que têm os mesmos registros de data e hora iniciais e finais.

31 de agosto de 2021

Todos os modelos de última geração agora estão geralmente disponíveis

Agora todos os modelos de idioma de última geração existentes estão geralmente disponíveis (GA). Eles são suportados para uso em aplicativos e ambientes de produção.

Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.
Para obter mais informações sobre os recursos que são suportados para cada modelo de última geração, consulte Recursos suportados para modelos de última geração.

A customização do modelo de idioma para modelos de última geração agora está geralmente disponível

Agora a customização do modelo de idioma está geralmente disponível (GA) para todos os idiomas e modelos de última geração disponíveis. A customização do modelo de idioma para modelos de última geração é suportada para uso em aplicativos e ambientes de produção.

Para modelos de última geração, você usa os mesmos comandos para criar, gerenciar e usar modelos de idioma customizado, corpora e palavras customizadas assim como para modelos de geração anterior. Mas a customização para modelos de última geração funciona de forma diferente da customização para modelos de geração anterior.. Para modelos customizados baseados em modelos de última geração:

Os modelos customizados não têm conceito de palavras fora do vocabulário (OOV).
Palavras de corpora não são incluídas no recurso de palavras.
Atualmente não é possível utilizar o recurso parecido para palavras customizadas.
Não é preciso fazer upgrade de modelos customizados quando os modelos de idioma base são atualizados.
As gramáticas não são suportadas atualmente.

Para obter mais informações sobre o uso da customização de modelo de idioma para modelos de última geração, consulte

Tópicos adicionais descrevem o gerenciamento de modelos de idioma customizados, corpora e palavras customizadas. Essas operações são as mesmas para modelos customizados baseados em modelos anteriores e de última geração.

16 de agosto de 2021

Novos modelos beta em inglês indiano, hindi indiano, japonês e coreano de última geração

Agora o serviço suporta os seguintes novos modelos de idioma de última geração. Todos os novos modelos são funcionalidade beta.

Inglês indiano: en-IN_Telephony. O modelo suporta baixa latência.
Hindi indiano: hi-IN_Telephony. O modelo suporta baixa latência.
Japonês: ja-JP_Multimedia. O modelo não suporta baixa latência.
Coreano: ko-KR_Multimedia e ko-KR_Telephony. Os modelos não suportam baixa latência.

Para obter mais informações sobre os modelos de última geração e baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.

16 de julho de 2021

Novo modelo beta de última geração em francês: O modelo de idioma francês de última geração fr-FR_Multimedia já está disponível. O novo modelo não suporta baixa latência. O modelo é funcionalidade beta.
Atualizações para o modelo beta de última geração em inglês dos EUA para reconhecimento de voz melhorado: O modelo de última geração en-US_Telephony em inglês dos EUA foi atualizado para reconhecimento de voz melhorado. O modelo atualizado continua sendo funcionalidade beta.
Correção de defeito: Documentação de atualização para marcadores de hesitação: Correção de defeito: a documentação falhou ao afirmar que os modelos de última geração não produzem marcadores de hesitação. A documentação foi atualizada para mencionar que apenas modelos de geração anterior produzem marcadores de hesitação. Os modelos de última geração incluem as hesitações reais em resultados de transcrição. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.

15 de junho de 2021

Novo modelo beta de última geração em belga da Holanda

Agora o modelo de idioma de última geração nl-BE_Telephony em belga (flamengo) da Holanda já está disponível. O novo modelo suporta baixa latência. O modelo é funcionalidade beta. Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.

Novo suporte de baixa latência beta para modelos em árabe, francês canadense e italiano de última geração

Agora os modelos de idioma de última geração beta existentes a seguir suportam baixa latência:

Modelo em árabe ar-MS_Telephony
Modelo em francês canadense fr-CA_Telephony
Modelo em italiano it-IT_Telephony

Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.

Atualizações para modelos de última geração beta em árabe e português do Brasil para reconhecimento de voz melhorado

Os modelos de idioma beta de última geração a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo em árabe ar-MS_Telephony
Modelo em português do Brasil pt-BR_Telephony

Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.

26 de maio de 2021

Novo suporte beta para parâmetro audio_metrics para modelos de última geração

O parâmetro audio_metrics agora é suportado como funcionalidade beta para uso com todos os idiomas e modelos de última geração. Para obter mais informações, consulte Métricas de áudio.

Novo suporte beta para parâmetro word_confidence para modelos de última geração

O parâmetro word_confidence agora é suportado como funcionalidade beta para uso com todos os idiomas e modelos de última geração. Para obter mais informações, consulte Confiança de palavra.

Correção de defeito: documentação de atualização para modelos de última geração

Correção de defeito: A documentação foi atualizada para corrigir as seguintes informações:

Ao usar um modelo de última geração para reconhecimento de voz, agora os resultados finais de transcrição incluem o campo confidence. O campo é sempre incluído em resultados finais de transcrição quando se usa um modelo de geração anterior. Essa correção aborda uma limitação que foi relatada para a liberação de 12 de abril de 2021 dos modelos de última geração.
A documentação afirmou incorretamente que o uso do parâmetro smart_formatting faz com que o serviço remova marcadores de hesitação de resultados finais de transcrição para japonês. A formatação inteligente não remove marcadores de hesitação de resultados finais para o idioma japonês, mas apenas para inglês dos EUA. Para obter mais informações, consulte Quais resultados a formatação inteligente afeta?

27 de abril de 2021

Novos modelos de última geração beta em árabe e português do Brasil

O serviço suporta dois novos modelos beta de última geração:

O modelo em português do Brasil pt-BR_Telephony, que suporta baixa latência.
O modelo em árabe (Padrão Moderno) ar-MS_Telephony, que não suporta baixa latência.

Para obter mais informações, consulte Idiomas e modelos de última geração.

Atualizações para o modelo beta de última geração em espanhol castelhano para reconhecimento de voz melhorado

Agora o modelo beta de última geração es-ES_Telephony em espanhol castelhano suporta o parâmetro low_latency. Para obter mais informações, consulte Baixa latência.

Novo suporte beta para rótulos de alto-falante com modelos de última geração

Agora o parâmetro speaker_labels é suportado como funcionalidade beta para uso com os seguintes modelos de última geração:

Modelo em inglês australiano en-AU_Telephony
Modelo em inglês do Reino Unido en-GB_Telephony
Modelos em inglês dos EUA en-US_Multimedia e en-US_Telephony
Modelo em alemão de-DE_Telephony
Modelo em espanhol castelhano es-ES_Telephony

Com os modelos de última geração, o parâmetro speaker_labels não é suportado para uso com os parâmetros interim_results ou low_latency neste momento. Para obter mais informações, consulte Rótulos do falante.

Novo código de erro HTTP para uso de word_confidence com modelos de última geração

O parâmetro word_confidence não é suportado para uso com modelos de última geração. Agora o serviço retornará o código de erro 400 a seguir se você usar o parâmetro word_confidence com um modelo de última geração para reconhecimento de voz:

{
  "error": "word_confidence is not a supported feature for model {model}",
  "code": 400,
  "code_description": "Bad Request"
}

12 de abril de 2021

Novos modelos de idioma de última geração beta e parâmetro low_latency

Agora o serviço suporta um número crescente de modelos de idioma de última geração. Os modelos multimídia e de telefonia de última geração melhoram as capacidades de reconhecimento de voz da geração anterior do serviço de modelos de banda larga e banda estreita. Os novos modelos alavancam redes neurais e análise bidirecional para alcançar tanto um alto rendimento quanto uma maior precisão de transcrição. Neste momento, os modelos de última geração suportam apenas um número limitado de idiomas e recursos de reconhecimento de voz. Os idiomas suportados, os modelos e os recursos aumentarão com as liberações futuras. Os modelos de última geração são funcionalidade beta.

Muitos dos modelos de última geração também suportam um novo parâmetro low_latency que permite solicitar resultados mais rápidos à custa de uma redução na qualidade da transcrição. Quando a baixa latência é ativada, o serviço diminui sua análise do áudio, o que pode reduzir a precisão da transcrição. Essa troca poderá ser aceitável se o aplicativo preferir um tempo de resposta menor à maior precisão possível. O parâmetro low_latency é funcionalidade beta.

O parâmetro low_latency impacta seu uso do parâmetro interim_results com a interface do WebSocket. Os resultados provisórios estão disponíveis apenas para aqueles modelos de última geração que suportam baixa latência e somente se ambos os parâmetros interim_results e low_latency estiverem configurados para true.

Para obter mais informações sobre os modelos de última geração e suas capacidades, consulte Idiomas e modelos de última geração.
Para obter mais informações sobre o suporte ao idioma para modelos de última geração e sobre quais desses modelos suportam baixa latência, consulte Modelos de idioma de última geração suportados.
Para obter mais informações sobre o suporte a recursos para modelos de última geração, consulte Recursos suportados para modelos de última geração.
Para obter mais informações sobre o parâmetro low_latency, consulte Baixa latência.
Para obter mais informações sobre a interação entre os parâmetros low_latency e interim_results para modelos de última geração, consulte Solicitando resultados provisórios e baixa latência.

17 de março de 2021

Correção de defeito: Correção da limitação da interface assíncrona HTTP: Correção de defeito: a limitação que foi relatada com a interface HTTP assíncrona em Dallas (us-south) no dia 16 de dezembro de 2020 foi abordada. Anteriormente, uma pequena porcentagem de tarefas estava entrando em loops infinitos que impediram sua execução. Solicitações HTTP assíncronas no data center de Dallas não sofrem mais essa limitação.

2 de dezembro de 2020

Modelo em árabe renomeado para ar-MS_BroadbandModel: Agora o modelo de banda larga em árabe é chamado ar-MS_BroadbandModel. O antigo nome, ar-AR_BroadbandModel, foi descontinuado. Ele continuará funcionando por pelo menos um ano, mas poderá ser removido em uma data futura. Você é encorajado a migrar para o novo nome assim que puder.

2 de novembro de 2020

Agora os modelos em francês canadense estão geralmente disponíveis

Agora os modelos em francês canadense, fr-CA_BroadbandModel e fr-CA_NarrowbandModel, estão geralmente disponíveis (GA). Anteriormente eles eram beta. Agora eles também suportam customização de modelo de idioma e modelo acústico.

Para obter mais informações sobre idiomas e modelos suportados, consulte Idiomas e modelos de geração anterior.
Para obter mais informações sobre o suporte ao idioma para a customização, consulte Suporte ao idioma para a customização.

22 de outubro de 2020

Agora os modelos em inglês australiano estão geralmente disponíveis

Agora os modelos em inglês australiano, en-AU_BroadbandModel e en-AU_NarrowbandModel, estão geralmente disponíveis (GA). Anteriormente eles eram beta. Agora eles também suportam customização de modelo de idioma e modelo acústico.

Para obter mais informações sobre idiomas e modelos suportados, consulte Idiomas e modelos de geração anterior.
Para obter mais informações sobre o suporte ao idioma para a customização, consulte Suporte ao idioma para a customização.

Atualizações dos modelos em português do Brasil para reconhecimento de voz melhorado

Os modelos em português do Brasil, pt-BR_BroadbandModel e pt-BR_NarrowbandModel, foram atualizados para o reconhecimento de voz aprimorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Agora o parâmetro split_transcript_at_phrase_end está geralmente disponível para todos os idiomas

Agora o parâmetro de reconhecimento de voz split_transcript_at_phrase_end está geralmente disponível (GA) para todos os idiomas. Anteriormente, ele tinha disponibilidade geral apenas para inglês dos EUA e do Reino Unido. Para obter mais informações, consulte Transcrição dividida no término da frase.

7 de outubro de 2020

Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado

O modelo ja-JP_BroadbandModel foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

30 de setembro de 2020

Atualizações para planos de precificação para o serviço

Os planos de precificação para o serviço mudaram:

O serviço continua oferecendo um plano Lite que fornece acesso básico sem custo para minutos limitados de reconhecimento de voz por mês.
O serviço oferece um novo plano Plus que fornece um modelo de precificação em camadas simples e acesso às capacidades de customização do serviço.
O serviço oferece um novo plano Premium que proporciona uma capacidade significativamente maior e recursos aprimorados.

O plano Plus substitui o plano Standard. O plano Standard continuará disponível para compra por um curto período. Ele também continua disponível por tempo indeterminado para usuários existentes do plano sem mudança na precificação. Os usuários existentes podem fazer upgrade para o plano Plus a qualquer momento.

Para obter mais informações sobre os planos de precificação disponíveis, consulte os recursos a seguir:

Para obter informações gerais sobre os planos de precificação e respostas a perguntas comuns, consulte FAQs de precificação.
Para obter mais informações sobre os planos de preços ou para adquirir um plano, consulte o serviço Speech to Text no Catálogo IBM Cloud®.

20 de agosto de 2020

Novos modelos em francês canadense

O serviço agora oferece modelos de banda larga beta e de banda estreita para o francês canadense:

fr-CA_BroadbandModel
fr-CA_NarrowbandModel

Os novos modelos não suportam a customização do modelo de idioma ou do modelo acústico, rótulos de falantes ou formatação inteligente. Para obter mais informações sobre esses e todos os modelos suportados, consulte Modelos de idioma de geração anterior suportados.

5 de agosto de 2020

Novos modelos em inglês australiano

O serviço agora oferece modelos de banda larga beta e de banda estreita para o inglês australiano:

en-AU_BroadbandModel
en-AU_NarrowbandModel

Os novos modelos não suportam a customização do modelo de idioma ou do modelo acústico nem a formatação inteligente. Os novos modelos suportam rótulos de falantes. Para obter mais informações, consulte

Atualizações em vários modelos para reconhecimento de voz melhorado

Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de banda larga em francês (fr-FR_BroadbandModel)
Modelos de banda larga (de-DE_BroadbandModel) e banda estreita (de-DE_NarrowbandModel) em alemão
Modelos de banda larga (en-GB_BroadbandModel) e banda estreita (en-GB_NarrowbandModel) em inglês do Reino Unido
Modelo de banda estreita (en-US_ShortForm_NarrowbandModel) em inglês dos EUA

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Marcador de hesitação para alemão mudou

O marcador de hesitação que é usado para modelos atualizados de banda larga e banda estreita em alemão mudou de [hesitation] para %HESITATION. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.

4 de junho de 2020

Correção de defeito: Melhorar a latência para modelos de linguagem personalizados com muitas gramáticas: Correção de defeito: o problema de latência para modelos de idioma customizados que contêm um grande número de gramáticas foi resolvido. Quando inicialmente usados para o reconhecimento de voz, o carregamento desses modelos customizados poderia demorar vários segundos. Os modelos customizados agora são carregados muito mais rápido, reduzindo drasticamente a latência quando usados para o reconhecimento.

28 de abril de 2020

Atualizações em modelos em italiano para reconhecimento de voz melhorado

Os modelos de banda larga (it-IT_BroadbandModel) e banda estreita (it-IT_NarrowbandModel) italianos foram atualizados para melhor reconhecimento de voz. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Agora os modelos em holandês e italiano estão geralmente disponíveis

Os modelos de idioma holandês e italiano agora são geralmente disponíveis (GA) para reconhecimento de voz e para customização de modelo de idioma e de modelo acústico:

Modelo de banda larga holandês (nl-NL_BroadbandModel)
Modelo de banda estreita holandês (nl-NL_NarrowbandModel)
Modelo de banda larga italiano (it-IT_BroadbandModel)
Modelo de banda estreita italiano (it-IT_NarrowbandModel)

Para obter mais informações sobre todos os modelos de idioma disponíveis, consulte

1 de abril de 2020

Agora a customização de modelo acústico está geralmente disponível

A customização de modelo acústico agora é geralmente disponível (GA) para todos os idiomas suportados. Assim como com os modelos de idioma customizados, a IBM não cobra para criar nem hospedar um modelo acústico customizado. Você é cobrado somente por usar um modelo customizado com uma solicitação de reconhecimento de voz.

O uso de um modelo de idioma customizado, um modelo acústico customizado ou ambos os tipos de modelo para transcrição incorre em encargo complementar de US$ 0,03 (USD) por minuto. Esse é o encargo adicional aos encargos de uso padrão de US$ 0,02 (USD) por minuto e se aplica a todos os idiomas suportados pela interface de customização. Portanto, o total de encargos para o uso de um ou mais modelos customizados para reconhecimento de voz é US$ 0,05 (USD) por minuto.

Para obter mais informações sobre o suporte para modelos de idiomas individuais, consulte Suporte ao idioma para a customização.
Para obter mais informações sobre precificação, consulte a página de precificação para o serviço Speech to Text ou as FAQs de precificação.

16 de março de 2020

Agora rótulos de alto-falante são suportados para alemão e coreano: O serviço agora suporta rótulos de falante (o parâmetro speaker_labels) para modelos de idioma alemão e coreano. Os rótulos de falante identificam quais palavras cada indivíduo falou em uma interação com diversos participantes. Para obter mais informações, consulte Rótulos do falante.
Agora o Activity Tracker é suportado para interface HTTP assíncrona: Agora o serviço suporta o uso de eventos do Activity Tracker para todas as operações da interface HTTP assíncrona. O IBM Cloud Activity Tracker registra atividades iniciadas pelo usuário que mudam o estado de um serviço na IBM Cloud®. Para obter mais informações, consulte Eventos do Activity Tracker.

24 de fevereiro de 2020

Atualizações em vários modelos para reconhecimento de voz melhorado

Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de banda larga holandês (nl-NL_BroadbandModel)
Modelo de banda estreita holandês (nl-NL_NarrowbandModel)
Modelo de banda larga italiano (it-IT_BroadbandModel)
Modelo de banda estreita italiano (it-IT_NarrowbandModel)
Modelo de banda estreita japonês (ja-JP_NarrowbandModel)
Modelo de banda larga de inglês dos EUA (en-US_BroadbandModel)

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Customização de modelo de idioma agora disponível para holandês e italiano

Agora a customização do modelo de idioma é suportada para holandês e italiano com as novas versões dos modelos a seguir:

Modelo de banda larga holandês (nl-NL_BroadbandModel)
Modelo de banda estreita holandês (nl-NL_NarrowbandModel)
Modelo de banda larga italiano (it-IT_BroadbandModel)
Modelo de banda estreita italiano (it-IT_NarrowbandModel)

Para obter mais informações, consulte

Como os modelos holandês e italiano são beta, seu suporte para a customização de modelo de idioma também é beta.

Agora o modelo de banda estreita em japonês inclui algumas unidades de palavras multigramas

O modelo de banda estreita japonesa (ja-JP_NarrowbandModel) agora inclui algumas unidades de palavra de multigrama para dígitos e frações decimais. O serviço retorna essas unidades de multigrama independentemente de você ativar a formatação inteligente. O recurso de formatação inteligente entende e retorna as unidades de multigrama que o modelo gera. Se você aplicar o seu próprio pós-processamento a resultados de transação, será necessário manipular essas unidades adequadamente. Para obter mais informações, consulte Japonês na documentação de formatação inteligente.

Nova parâmetros de detecção de atividade de voz e de supressão de áudio de fundo para reconhecimento de voz

O serviço agora oferece dois novos parâmetros opcionais para controlar o nível de detecção de atividade de fala. Os parâmetros podem ajudar a assegurar que apenas o áudio relevante seja processado para reconhecimento de voz.

O parâmetro speech_detector_sensitivity ajusta a sensibilidade da detecção da atividade de fala. É possível usar o parâmetro para suprimir inserções de palavras de música, tosse e outros eventos sem fala.
O parâmetro background_audio_suppression suprime o áudio de plano de fundo com base em seu volume para evitar que ele seja transcrito ou que, de outra forma, interfira com o reconhecimento de voz. É possível usar o parâmetro para suprimir conversas laterais ou ruído de plano de fundo.

É possível usar os parâmetros individualmente ou juntos. Eles estão disponíveis para todas as interfaces e para a maioria dos modelos de idioma. Para obter mais informações sobre os parâmetros, seus valores permitidos e seu efeito sobre a qualidade e a latência do reconhecimento de voz, consulte Detecção de atividade de fala.

Agora o Activity Tracker é suportado para interfaces de customização

Agora o serviço suporta o uso de eventos Activity Tracker para todas as operações de customização. A IBM Cloud Activity Tracker registra atividades iniciadas pelo usuário que mudam o estado de um serviço na IBM Cloud. É possível usar esse serviço para investigar atividade anormal e ações críticas e para obedecer aos requisitos de auditoria regulamentares. Além disso, é possível ser alertado sobre ações conforme elas acontecem. Para obter mais informações, consulte Eventos do Activity Tracker.

Correção de defeito: Geração correta de métricas de processamento com a interface WebSocket

Correção de defeito: agora a interface do WebSocket funciona perfeitamente ao gerar métricas de processamento. Anteriormente, as métricas de processamento podiam continuar a ser entregues depois que o cliente tivesse enviado uma mensagem stop para o serviço.

18 de dezembro de 2019

Novos modelos beta disponíveis em italiano

O serviço agora oferece modelos de banda larga e de banda estreita beta para o idioma italiano:

it-IT_BroadbandModel
it-IT_NarrowbandModel

Esses modelos de idioma suportam a customização do modelo acústico. Eles não suportam a customização do modelo de idioma. Como são beta, esses modelos podem não estar prontos para o uso de produção e estão sujeitos a mudança. Eles são ofertas iniciais que irão melhorar em qualidade com o tempo e o uso.

Para obter mais informações, consulte as seções a seguir:

Novo parâmetro end_of_phrase_silence_time para reconhecimento de voz

Para reconhecimento de voz, o serviço agora suporta o parâmetro end_of_phrase_silence_time. O parâmetro especifica a duração do intervalo de pausa no qual o serviço divide uma transcrição em diversos resultados finais. Cada resultado final indica uma pausa ou um silêncio estendido que excede o intervalo de pausa. Na maioria dos idiomas, o intervalo de pausa padrão é de 0,8 segundos; no chinês o intervalo padrão é de 0,6 segundos.

É possível usar o parâmetro para efetivar uma troca entre a frequência com a qual um resultado final é produzido e a precisão da transcrição. Aumente o intervalo quando a precisão for mais importante do que a latência. Diminua o intervalo quando for esperado que o falante diga frases curtas ou palavras únicas.

Para obter mais informações, consulte Tempo de silêncio no término da frase.

Novo parâmetro split_transcript_at_phrase_end para reconhecimento de voz

Para reconhecimento de voz, o serviço agora suporta o parâmetro split_transcript_at_phrase_end. O parâmetro direciona o serviço para dividir a transcrição em diversos resultados finais com base em recursos semânticos da entrada, tais como na conclusão de sentenças. O serviço baseia sua compreensão de recursos semânticos no modelo de idioma de base usado com uma solicitação. Os modelos de idioma customizados e as gramáticas também podem influenciar como e onde o serviço divide uma transcrição.

O parâmetro faz com que um serviço inclua um campo end_of_utterance em cada resultado final para indicar o motivo para a divisão: full_stop, silence, end_of_data ou reset.

Para obter mais informações, consulte Transcrição dividida no término da frase.

12 de dezembro de 2019

Suporte completo para IAM da IBM Cloud

O serviço Speech to Text agora suporta a implementação integral do IBM Cloud Identity and Access Management (IAM). As chaves de API para serviços IBM Watson® não são mais limitadas a uma única instância de serviço. É possível criar políticas de acesso e chaves de API que se aplicam a mais de um serviço e é possível conceder acesso entre os serviços. Para obter mais informações sobre o IAM, consulte Autenticando para os serviços Watson.

Para suportar essa mudança, os terminais em serviço da API usam um domínio diferente e incluem o ID da instância de serviço. O padrão é api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id}.

Exemplo de URL de HTTP para uma instância hospedada no local de Dallas:

https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
Exemplo da URL do WebSocket para uma instância hospedada no local de Dallas:

wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

Para obter mais informações sobre os URLs, consulte a referência da API e do SDK.

Essas URLs não constituem uma alteração que afeta o processamento da mensagem. As novas URLs funcionam para as suas instâncias de serviço existentes e para novas instâncias. As URLs originais continuam a funcionar em suas instâncias de serviço existentes por pelo menos um ano, até dezembro de 2020.

Novos recursos de rede e segurança de dados disponíveis

O suporte para o novo recurso de segurança de rede e dados a seguir já está disponível:

Suporte para terminais de rede privada

Os usuários de planos Premium podem criar terminais de rede privada para se conectar ao serviço Speech to Text por uma rede privada. As conexões com terminais de rede privada não requerem acesso à Internet pública. Para obter mais informações, consulte Terminais de rede pública e privada.

10 de dezembro de 2019

Novos modelos disponíveis em holandês da Holanda

Agora o serviço oferece banda larga beta e modelos de banda estreita para holandês da Holanda:

nl-NL_BroadbandModel
nl-NL_NarrowbandModel

Para obter mais informações, consulte as seções a seguir:

25 de novembro de 2019

Atualizações para rótulos de alto-falante para melhor identificação de alto-falantes individuais: Os rótulos de falante são atualizados para melhorar a identificação de falantes individuais para análise adicional de sua amostra de áudio. Para obter mais informações sobre o recurso de rótulos do falante, consulte Rótulos do falante. Para obter mais informações sobre os aprimoramentos do recurso, consulte IBM Research AI Advances Speaker Diarization in Real Use Cases.

12 de novembro de 2019

Novo local de Seul agora disponível: Agora o serviço Speech to Text está disponível na IBM Cloud em Seul (kr-seo). Assim como em outros locais, o local do IBM Cloud usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.

1º de novembro de 2019

Novos limites no número máximo de modelos customizados: Não é possível criar mais que 1024 modelos de linguagens customizadas e nem mais que 1024 modelos acústicos customizados por credencial que você tiver. Para obter mais informações, consulte Número máximo de modelos customizados.

1º de outubro de 2019

Novo suporte do HIPAA dos EUA aos planos Premium na localização Washington D.C.: O suporte à HIPAA dos EUA está disponível para planos Premium hospedados em Washington, DC (us-leste) e criados em 1 de abril de 2019 ou depois. Para obter mais informações, consulte Lei de portabilidade e responsabilidade de seguros de saúde (HIPAA) dos EUA.

22 de agosto de 2019

Correção de defeito: Diversas pequenas melhorias: O serviço foi atualizado para pequenas correções de defeitos e melhorias.

30 de julho de 2019

Novos modelos para dialetos espanhóis agora disponíveis

Agora, o serviço oferece banda larga e modelos de idioma de banda estreita em seis dialetos de espanhol:

Espanhol argentino (es-AR_BroadbandModel e es-AR_NarrowbandModel)
Espanhol castiliano (es-ES_BroadbandModel e es-ES_NarrowbandModel)
Espanhol chileno (es-CL_BroadbandModel e es-CL_NarrowbandModel)
Espanhol colombiano (es-CO_BroadbandModel e es-CO_NarrowbandModel)
Espanhol mexicano (es-MX_BroadbandModel e es-MX_NarrowbandModel)
Espanhol peruano (es-PE_BroadbandModel e es-PE_NarrowbandModel)

Os modelos de espanhol castelhano não são novos. Eles estão geralmente disponíveis (GA) para reconhecimento de voz e customização de modelo de idioma e em beta para customização de modelo acústico.

Os outros cinco dialetos são novos e beta para todos os usos. Como eles são beta, esses dialetos adicionais podem não estar prontos para uso de produção e estão sujeitos a mudança. Eles são ofertas iniciais que irão melhorar em qualidade com o tempo e o uso.

Para obter mais informações, consulte as seções a seguir:

24 de junho de 2019

Atualizações para os modelos em inglês dos EUA e português do Brasil para reconhecimento de voz melhorado

Os modelos de banda estreita a seguir foram atualizados para melhor reconhecimento de voz:

Modelo de banda estreita de português do Brasil (pt-BR_NarrowbandModel)
Modelo de banda estreita de inglês dos EUA (en-US_NarrowbandModel)

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Novo suporte para solicitações simultâneas para atualizar diferentes modelos acústicos customizados

Agora o serviço permite o envio de múltiplas solicitações simultâneas para incluir diferentes recursos de áudio em um modelo acústico customizado. Anteriormente, o serviço permitia apenas uma solicitação de cada vez para incluir áudio em um modelo customizado.

Novo campo updated para métodos que listam modelos customizados

A saída dos métodos HTTP GET que listam as informações sobre os modelos acústico customizado e de idioma customizado agora inclui um campo updated. O campo indica a data e a hora na Hora Universal Coordenada (UTC) em que o modelo customizado foi modificado pela última vez.

Mudança para esquema para avisos associados ao treinamento do modelo customizado

O esquema foi mudado para um aviso que é gerado por uma solicitação de treinamento de modelo customizado quando o parâmetro strict é configurado como false. Os nomes dos campos mudaram de warning_id e description para code e message, respectivamente. Para obter mais informações, consulte a referência API & SDK.

10 de junho de 2019

Métricas de processamento não disponíveis com interface HTTP síncrona: As métricas de processamento estão disponíveis apenas com as interfaces HTTP WebSocket e assíncronas. Elas não são suportadas com a interface HTTP síncrona. Para obter mais informações, consulte Métricas de processamento.

17 de maio de 2019

Novas métricas de processamento e recursos de métricas de áudio para reconhecimento de voz

Agora, o serviço oferece dois tipos de métricas opcionais com solicitações de reconhecimento de voz:

As Métricas de processamento fornecem informações de sincronização detalhadas sobre a análise do áudio de entrada do serviço. O serviço retorna as métricas em intervalos especificados e com eventos de transcrição, tais como resultados temporários e finais. Use as métricas para calibrar o progresso do serviço na transcrição do áudio.
As Métricas de áudio fornecem informações detalhadas sobre as características de sinal do áudio de entrada. Os resultados fornecem métricas agregadas para o áudio de entrada inteiro na conclusão do processamento da fala. Use as métricas para determinar as características e a qualidade do áudio.

É possível solicitar ambos os tipos de métricas com qualquer solicitação de reconhecimento de voz. Por padrão, o serviço não retorna nenhuma métrica para uma solicitação.

Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado

O modelo de banda larga japonês (ja-JP_BroadbandModel) foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Se você tiver modelos acústicos customizados ou de idioma customizado que sejam baseados no modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

10 de maio de 2019

Atualizações em modelos em espanhol para reconhecimento de voz melhorado

Os modelos de idioma espanhol foram atualizados para reconhecimento de voz melhorado:

es-ES_BroadbandModel
es-ES_NarrowbandModel

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

19 de abril de 2019

Novo parâmetro strict para treinamento de modelo customizado agora disponível

Os métodos de treinamento da interface de customização agora incluem um parâmetro de consulta strict que indica se o treinamento deve continuar se um modelo customizado contiver uma combinação de recursos válidos e inválidos. Por padrão, o treinamento falhará se um modelo customizado contiver um ou mais recursos inválidos. Configure o parâmetro como false para permitir que o treinamento continue, desde que o modelo contenha pelo menos um recurso válido. O serviço exclui recursos inválidos do treinamento.

Para obter mais informações sobre como usar o parâmetro strict com o método POST /v1/customizations/{customization_id}/train, consulte Treinar o modelo de idioma customizado e Falhas de treinamento.
Para obter mais informações sobre como usar o parâmetro strict com o método POST /v1/acoustic_customizations/{customization_id}/train, consulte Treinar o modelo acústico customizado e Falhas de treinamento.

Novos limites no número máximo de palavras fora do vocabulário para modelos de idioma customizados

Agora é possível incluir um máximo de 90 mil palavras de fora do vocabulário (OOV) para o recurso de palavras de um modelo de idioma customizado. O máximo anterior era de 30 mil palavras OOV. Esta figura inclui palavras OOV de todas as origens (corpora, gramáticas e palavras customizadas individuais que você inclui diretamente). É possível incluir um máximo de 10 milhões de palavras totais em um modelo customizado de todas as origens. Para obter mais informações, consulte Quantos dados eu preciso?.

3 de abril de 2019

Novos limites na quantidade máxima de áudio para modelos acústicos customizados: Os modelos acústicos customizados aceitam agora um máximo de 200 horas de áudio. O limite máximo anterior era de 100 horas de áudio.

21 de março de 2019

Visibilidade das credenciais de serviço agora restritas por função

Agora, os usuários podem ver somente informações de credenciais de serviço associadas à função designada à sua conta do IBM Cloud. Por exemplo, se uma função reader estiver designada a você, qualquer nível writer ou superior de credenciais de serviço não estará mais visível.

Essa mudança não afeta o acesso à API para usuários ou aplicativos com credenciais de serviço existentes. A mudança afeta somente a visualização de credenciais no IBM Cloud.

15 de março de 2019

Novo suporte para o formato de áudio lei A: O serviço agora suporta áudio no formato A-law (audio/alaw). Para obter mais informações, consulte formato audio/alaw.

11 de março de 2019

Mudança para passar valor de parâmetro 0 para max_alternatives: Para o parâmetro max_alternatives, o serviço aceita novamente um valor de 0. Se você especificar 0. o serviço usará automaticamente o valor padrão, 1. Uma mudança feita para a atualização de serviço de 4 de março fez com que um valor de 0 retornasse um erro. (O serviço retornará um erro se você especificar um valor negativo.)
Mudança para passar valor de parâmetro 0 para word_alternatives_threshold: Para o parâmetro word_alternatives_threshold, o serviço novamente aceita um valor de 0. Uma mudança feita para a atualização de serviço de 4 de março fez com que um valor de 0 retornasse um erro. (O serviço retornará um erro se você especificar um valor negativo.)
Novo limite na precisão máxima para pontuações de confiança: O serviço agora retorna todas as pontuações de confiança com uma precisão máxima de duas casas decimais. Essa mudança inclui pontuações de confiança para transcrições, confiança de palavra, alternativas de palavra, resultados de palavra-chave e rótulos de falante.

4 de março de 2019

Atualizações para os modelos de banda estreita em português do Brasil, francês e espanhol para reconhecimento de voz melhorado

Os modelos de idioma de banda estreita a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de banda estreita de português do Brasil (pt-BR_NarrowbandModel)
Modelo em francês da França (fr-FR_NarrowbandModel)
Modelo de banda estreita em espanhol (es-ES_NarrowbandModel)

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

28 de janeiro de 2019

Novo suporte para IAM da IBM Cloud por interface de WebSocket

Agora, a interface WebSocket suporta a autenticação do Identity and Access Management (IAM) baseada em token por meio do código JavaScript baseado em navegador. A limitação para o contrário foi removida. Para estabelecer uma conexão autenticada com o método /v1/recognize do WebSocket:

Se usar a autenticação do IAM, inclua o parâmetro de consulta access_token.
Se você usar as credenciais de serviço do Cloud Foundry, inclua o parâmetro de consulta watson-token.

Para obter mais informações, consulte Estabelecer uma conexão.

20 de dezembro de 2018

Novo recurso gramatical beta para modelos de idioma customizados agora disponível

O serviço agora suporta gramáticas para reconhecimento de voz. As gramáticas estão disponíveis como funcionalidade beta para todos os idiomas que suportam a customização do modelo de idioma. É possível incluir gramáticas em um modelo de idioma customizado e utilizá-las para restringir o conjunto de frases que o serviço pode reconhecer do áudio. É possível definir uma gramática em Augmented Backus-Naur Form (ABNF) ou formulário XML.

Os quatro métodos a seguir estão disponíveis para trabalhar com gramáticas:

POST /v1/customizations/{customization_id}/grammars/{grammar_name} inclui um arquivo de gramática em um modelo de idioma customizado.
GET /v1/customizations/{customization_id}/grammars lista informações sobre todas as gramáticas para um modelo customizado.
GET /v1/customizations/{customization_id}/grammars/{grammar_name} retorna informações sobre uma gramática especificada para um modelo customizado.
DELETE /v1/customizations/{customization_id}/grammars/{grammar_name} remove uma gramática existente de um modelo customizado.

É possível usar uma gramática para reconhecimento de voz com as interfaces do WebSocket e HTTP. Use os parâmetros language_customization_id e grammar_name para identificar o modelo customizado e a gramática que você deseja usar. Atualmente, é possível usar apenas uma gramática com uma solicitação de reconhecimento de voz.

Para obter mais informações sobre gramáticas, consulte a documentação a seguir:

Para obter informações sobre todos os métodos da interface, consulte a referência da API e do SDK.

Novo recurso de edição de dados numéricos para inglês americano, japonês e coreano agora disponível

Um novo recurso de edição de dados numéricos agora está disponível para mascarar números que têm três ou mais dígitos consecutivos. A edição de dados destina-se a remover das transcrições as informações pessoais sensíveis, como números de cartão de crédito. Você ativa o recurso configurando o parâmetro redaction como true em uma solicitação de reconhecimento. O recurso é a funcionalidade beta que está disponível para inglês dos EUA, japonês e coreano somente. Para obter mais informações, consulte Edição de dados numéricos.

Novos modelos de banda estreita em francês e alemão agora disponíveis

Os novos modelos de idioma alemão e francês a seguir agora estão disponíveis com o serviço:

Modelo de banda estreita em francês (fr-FR_NarrowbandModel)
Modelo de banda estreita em alemão (de-DE_NarrowbandModel)

Os dois novos modelos suportam a customização do modelo de idioma (GA) e a customização do modelo acústico (beta). Para obter mais informações, consulte Suporte ao idioma para a customização.

Novo en-US_ShortForm_NarrowbandModel em inglês dos EUA agora disponível

Um novo modelo de idioma inglês dos Estados Unidos, en-US_ShortForm_NarrowbandModel, agora está disponível. O novo modelo é destinado para uso nas soluções de suporte ao cliente automatizadas e resposta de voz interativa. O modelo suporta a customização do modelo de idioma (GA) e a customização do modelo acústico (beta). Para obter mais informações, consulte O modelo abreviado de inglês dos EUA.

Atualizações para os modelos de banda estreita em inglês do RU e em espanhol para reconhecimento de voz melhorado

Os modelos de idioma a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de banda estreita em inglês do Reino Unido (en-GB_NarrowbandModel)
Modelo de banda estreita em espanhol (es-ES_NarrowbandModel)

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Novo suporte para o formato de áudio G.279

O serviço agora suporta áudio no formato G.729 (audio/g729). O serviço suporta apenas o G.729 Annex D para áudio de banda estreita. Para obter mais informações, consulte Formato audio/g729.

Recurso de rótulos de alto-falantes agora disponível para modelo de banda estreita em inglês do RU

Agora o recurso de rótulos de alto-falante está disponível para o modelo de banda estreita em inglês do RU (en-GB_NarrowbandModel). O recurso é funcionalidade beta para todos os idiomas suportados. Para obter mais informações, consulte Rótulos do falante.

Novos limites na quantidade máxima de áudio para modelos acústicos customizados

A quantidade máxima de áudio que você pode incluir em um modelo acústico customizado aumentou de 50 para 100 horas.

13 de dezembro de 2018

Novo local de Londres agora disponível: O serviço Speech to Text agora está disponível no local de Londres do IBM Cloud (eu-gb). Como todos os locais, Londres usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.

12 de novembro de 2018

Novo suporte para formatação inteligente para reconhecimento de voz em japonês: O serviço agora suporta a formatação inteligente para reconhecimento de voz em japonês. Anteriormente, o serviço suportava a formatação inteligente apenas para inglês dos EUA e Espanhol. O recurso é funcionalidade beta para todos os idiomas suportados. Para obter mais informações, consulte Formatação inteligente.

7 de novembro de 2018

Novo local de Tóquio agora disponível: O serviço Speech to Text agora está disponível no local de Tóquio do IBM Cloud (jp-tok). Como todos os locais, Tokyo usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.

30 de outubro de 2018

Novo suporte para o IAM da IBM Cloud baseado em token

O serviço Speech to Text migrou para a autenticação do IAM baseada em token para todos os locais. Todos os serviços do IBM Cloud agora usam a autenticação do IAM. O serviço Speech to Text migrou em cada local nas datas a seguir:

Dallas (us-south): 30 de outubro de 2018
Frankfurt (eu-de): 30 de outubro de 2018
Washington, DC (us-este): 12 de junho de 2018
Sydney (au-syd): 15 de maio de 2018

A migração para a autenticação do IAM afeta as instâncias de serviço novas e existentes de forma diferente:

Todas as novas instâncias de serviço que você cria em qualquer local agora usam a autenticação do IAM para acessar o serviço. É possível passar um token de acesso ou uma chave de API: os tokens suportam solicitações autenticadas sem incorporar as credenciais de serviço em cada chamada; as chaves de API usam a autenticação básica de HTTP. Quando você usa qualquer um dos SDKs do Watson, é possível passar a chave de API e deixar que o SDK gerencie o ciclo de vida dos tokens.
As instâncias de serviço existentes criadas em um local antes da data de migração indicada continuam usando o {username} e a {password} de suas credenciais de serviço anteriores do Cloud Foundry para a autenticação, até que sejam migradas por você para usar a autenticação do IAM.

Para obter mais informações, veja a documentação a seguir:

Para saber qual mecanismo de autenticação sua instância de serviço usa, visualize suas credenciais de serviço clicando na instância no painel IBM Cloud.
Para obter mais informações sobre o uso de tokens IAM com serviços Watson, consulte Autenticando para os serviços Watson.
Para obter exemplos que usam a autenticação IAM, consulte a referência da API e do SDK.

9 de outubro de 2018

Atualizações importantes nos encargos de precificação para solicitações de reconhecimento de voz

A partir de 1 de outubro de 2018, você será cobrado por todo áudio que enviar para o serviço de reconhecimento de voz. Os primeiros mil minutos de áudio que você enviava todo mês não são mais grátis. Para obter mais informações sobre os planos de preços do serviço, consulte o serviço Speech to Text no Catálogo IBM Cloud.

Agora o cabeçalho Content-Type é opcional para a maioria das solicitações de reconhecimento de voz

Agora o cabeçalho Content-Type é opcional para a maioria das solicitações de reconhecimento de voz. O serviço agora detecta automaticamente o formato de áudio (tipo MIME) da maioria do áudio. Deve-se continuar a especificar o tipo de conteúdo para os formatos a seguir:

audio/basic
audio/l16
audio/mulaw

Quando indicado, o tipo de conteúdo que você especifica para esses formatos deve incluir a taxa de amostragem e pode, opcionalmente, incluir o número de canais e a ordenação do áudio. Para todos os outros formatos de áudio, é possível omitir o tipo de conteúdo ou especificar um tipo de conteúdo de application/octet-stream para que o serviço detecte automaticamente o formato.

Quando você usa o comando curl para fazer uma solicitação de reconhecimento de voz com a interface de HTTP, deve-se especificar o formato de áudio com o cabeçalho Content-Type, especificar "Content-Type: application/octet-stream" ou especificar "Content-Type:". Se você omitir o cabeçalho completamente, curl usará um valor padrão de application/x-www-form-urlencoded. A maioria dos exemplos nesta documentação continua a especificar o formato para solicitações de reconhecimento de voz independentemente de ele ser necessário.

Essa mudança se aplica aos métodos a seguir:

/v1/recognize para as solicitações do WebSocket. O campo content-type da mensagem de texto que você envia para iniciar uma solicitação por meio de uma conexão do WebSocket aberta agora é opcional.
POST /v1/recognize para solicitações de HTTP síncronas. O cabeçalho Content-Type agora é opcional. (Para solicitações com múltiplas partes, o campo part_content_type dos metadados JSON agora também é opcional.)
POST /v1/recognitions para solicitações de HTTP assíncronas. O cabeçalho Content-Type agora é opcional.

Para obter mais informações, consulte Formatos de áudio.

Atualizações do modelo de banda larga em português do Brasil para reconhecimento de voz melhorado

O modelo de banda larga de português do Brasil, pt-BR_BroadbandModel, foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

O parâmetro customization_id foi renomeado para language_customization_id

O parâmetro customization_id dos métodos de reconhecimento de voz foi descontinuado e será removido em uma liberação futura. Para especificar um modelo de idioma customizado para uma solicitação de reconhecimento de voz, use o parâmetro language_customization_id no lugar. Essa mudança se aplica aos métodos a seguir:

/v1/recognize para solicitações do WebSocket
POST /v1/recognize para solicitações de HTTP síncronas (incluindo solicitações com múltiplas partes)
POST /v1/recognitions para solicitações de HTTP assíncronas

10 de setembro de 2018

Novo modelo de banda larga em alemão

O serviço agora suporta um modelo de banda larga de alemão, de-DE_BroadbandModel. O novo modelo de alemão suporta a customização do modelo de idioma (geralmente disponível) e a customização do modelo acústico (beta).

Para obter informações sobre como o serviço analisa corpora para o alemão, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em alemão, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.

Customização do modelo de idioma agora disponível para português do Brasil

Os modelos de português do Brasil existentes, pt-BR_BroadbandModel e pt-BR_NarrowbandModel, agora suportam customização do modelo de idioma (geralmente disponível). Os modelos não foram atualizados para ativar esse suporte, portanto, nenhum upgrade de modelos acústicos customizados existentes é necessário.

Para obter informações sobre como o serviço analisa corpora para português do Brasil, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em português do Brasil, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.

Atualizações para os modelos em inglês dos EUA e japonês para reconhecimento de voz melhorado

Novas versões dos modelos de banda larga e de banda estreita de inglês dos EUA e japonês estão disponíveis:

Modelo de banda larga de inglês dos EUA (en-US_BroadbandModel)
Modelo de banda estreita de inglês dos EUA (en-US_NarrowbandModel)
Modelo de banda larga em japonês (ja-JP_BroadbandModel)
Modelo de banda estreita japonês (ja-JP_NarrowbandModel)

Os novos modelos oferecem melhor reconhecimento de voz. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

Recursos alternativos de palavras e localização de palavras-chave agora geralmente disponíveis

Os recursos de marcação de palavra-chave e de alternativas de palavra agora estão geralmente disponíveis (GA) em vez da funcionalidade beta para todos os idiomas. Para obter mais informações, consulte

Correção de defeito: Improvar documentação para interface de customização

Correção do defeito: Os seguintes problemas conhecidos que estavam associados à interface de personalização foram resolvidos e estão corrigidos na produção. As informações a seguir são preservadas para usuários que podem ter encontrado os problemas no passado.

Se você incluir dados em um modelo customizado acústico ou de idioma, deverá retreinar o modelo antes de usá-lo para reconhecimento de voz. O problema é mostrado no cenário a seguir:
1. O usuário cria um novo modelo customizado (idioma ou acústico) e treina o modelo.
2. O usuário inclui recursos adicionais (palavras, corpora ou áudio) no modelo customizado, mas não executa o retreinamento do modelo.
3. O usuário não pode usar o modelo customizado para reconhecimento de voz. O serviço retorna um erro da seguinte forma quando usado com uma solicitação de reconhecimento de voz:
```
{
  "code_description": "Bad Request",
  "code": 400,
  "error": "Requested custom language model is not available.
            Please make sure the custom model is trained."
}
```
Para uma solução alternativa desse problema, o usuário deve retreinar o modelo customizado em seus dados mais recentes. Então, o usuário pode usar o modelo customizado com reconhecimento de voz.
Antes de treinar um modelo customizado acústico ou de idioma existente, deve-se fazer upgrade dele para a versão mais recente de seu modelo base. O problema é mostrado no cenário a seguir:
1. O usuário tem um modelo customizado existente (idioma ou acústico) que é baseado em um modelo que foi atualizado.
2. O usuário treina o modelo customizado existente com relação à versão antiga do modelo base sem primeiro fazer upgrade para a versão mais recente do modelo base.
3. O usuário não pode usar o modelo customizado para reconhecimento de voz.
Para uma solução alternativa desse problema, o usuário deve usar o método POST /v1/customizations/{customization_id}/upgrade_model ou POST /v1/acoustic_customizations/{customization_id}/upgrade_model para fazer upgrade do modelo customizado para a versão mais recente de seu modelo base. Então, o usuário pode usar o modelo customizado com reconhecimento de voz.

7 de setembro de 2018

Interface baseada em sessão não está mais disponível

A interface REST de HTTP baseada em sessão não é mais suportada. Todas as informações relacionadas às sessões foram removidas da documentação. Os métodos a seguir não estão mais disponíveis:

POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}

Se seu aplicativo usar a interface de sessões, você deverá migrar para uma das interfaces REST de HTTP restantes ou para a interface do WebSocket. Para obter mais informações, consulte a atualização de serviço para 8 de agosto de 2018.

8 de agosto de 2018

Aviso de descontinuação para interface de reconhecimento de voz baseada em sessão

A interface REST de HTTP baseada em sessão foi descontinuada a partir de 8 de agosto de 2018. Todos os métodos da API de sessões serão removidos do serviço a partir de 7 de setembro de 2018. Após essa data, não será mais possível usar a interface baseada em sessão. Este aviso de descontinuação imediata e de remoção em 30 dias se aplica aos métodos a seguir:

POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}

Se seu aplicativo usar a interface de sessões, você deverá migrar para uma das interfaces a seguir até 7 de setembro:

Para reconhecimento de voz baseado em fluxo (incluindo casos de uso em tempo real), use a interface do WebSocket, que fornece acesso aos resultados provisórios e à mais baixa latência.
Para reconhecimento de voz baseado em arquivo, use uma das interfaces a seguir:
- Para arquivos mais curtos de até alguns poucos minutos de áudio, use a interface de HTTP síncrona(POST /v1/recognize) ou a interface de HTTP assíncrona (POST /v1/recognitions).
- Para arquivos mais longos de mais de alguns poucos minutos de áudio, use a interface de HTTP assíncrona. A interface de HTTP assíncrona aceita o máximo de 1 GB de dados de áudio com uma única solicitação.

As interfaces do WebSocket e HTTP fornecem os mesmos resultados que a interface de sessões (somente a interface do WebSocket fornece resultados provisórios). Também é possível usar um dos SDKs do Watson, que simplificam o desenvolvimento do aplicativo com qualquer uma das interfaces. Para obter mais informações, consulte a referência API & SDK.

13 de julho de 2018

Atualizações do modelo de banda estreita em espanhol para reconhecimento de voz melhorado

O modelo de banda estreita de espanhol, es-ES_NarrowbandModel, foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

No que se refere a essa atualização, estão disponíveis as seguintes duas versões do modelo de banda estreita de espanhol:

es_ES.8kHz.general.lm20180522235959.am20180522235959 (atual)
es_ES.8kHz.general.lm20180308235959.am20180308235959 (anterior)

A versão a seguir do modelo não está mais disponível:

es_ES.8kHz.general.lm20171031235959.am20171031235959

Uma solicitação de reconhecimento que tenta usar um modelo customizado que é baseado no modelo base que agora está indisponível, usa o modelo base mais recente sem nenhuma customização. O serviço retorna a mensagem de aviso a seguir: Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported. Para retomar o uso de um modelo customizado baseado no modelo indisponível, primeiro deve-se atualizar o modelo usando o método upgrade_model apropriado descrito anteriormente.

12 de junho de 2018

Novos recursos para aplicativos hospedados na localização Washington D.C.

Os recursos a seguir estão ativados para aplicativos hospedados em Washington, DC (us-east):

Agora, o serviço suporta um novo processo de autenticação de API. Para obter mais informações, consulte a atualização de serviço de 30 de outubro de 2018.
Agora, o serviço suporta o cabeçalho X-Watson-Metadata e o método DELETE /v1/user_data. Para obter mais informações, consulte Segurança de informações.

15 de maio de 2018

Novos recursos para aplicativos hospedados no local Sydney

Os recursos a seguir estão ativados para aplicativos em Sydney (au-syd):

Agora, o serviço suporta um novo processo de autenticação de API. Para obter mais informações, consulte a atualização de serviço de 30 de outubro de 2018.
Agora, o serviço suporta o cabeçalho X-Watson-Metadata e o método DELETE /v1/user_data. Para obter mais informações, consulte Segurança de informações.

26 de março de 2018

Customização de modelo de idioma agora disponível para modelo de banda larga em francês

Agora o serviço suporta a customização do modelo de idioma para o modelo de idioma de banda larga em francês, fr-FR_BroadbandModel. O modelo em francês está geralmente disponível (GA) para uso de produção com customização de modelo de idioma.

Para obter mais informações sobre como o serviço analisa corpora para o francês, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em francês, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.

Atualizações para modelos em francês, coreano e espanhol para reconhecimento de voz melhorado

Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:

Modelo de banda estreita em coreano (ko-KR_NarrowbandModel)
Modelo de banda estreita em espanhol (es-ES_NarrowbandModel)
Modelo de banda larga em francês (fr-FR_BroadbandModel)

Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam em qualquer um desses modelos, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados.

O parâmetro version foi renomeado para base_model_version

O parâmetro version dos métodos a seguir agora é denominado base_model_version:

/v1/recognize para solicitações do WebSocket
POST /v1/recognize para solicitações de HTTP sem sessão
POST /v1/sessions para solicitações de HTTP baseados em sessão
POST /v1/recognitions para solicitações de HTTP assíncronas

O parâmetro base_model_version especifica a versão de um modelo base que deve ser usada para reconhecimento de voz. Para obter mais informações, consulte Usando modelos customizados atualizados para reconhecimento de voz e Fazendo solicitações de reconhecimento de voz com modelos customizados atualizados.

Novo suporte para formatação inteligente para reconhecimento de voz em espanhol

A formatação inteligente agora é suportada para espanhol, bem como para inglês dos EUA. Para inglês dos EUA, agora o recurso também converte sequências de palavras-chave em símbolos de pontuação para pontos, vírgulas, pontos de interrogação e pontos de exclamação. Para obter mais informações, consulte Formatação inteligente.

1º de março de 2018

Atualizações para modelos de banda larga em francês e espanhol para reconhecimento de voz melhorado

Os modelos de banda larga em francês e espanhol, fr-FR_BroadbandModel e es-ES_BroadbandModel, foram atualizados para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam em qualquer um desses modelos, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações, consulte Fazendo upgrade de modelos customizados. A seção apresenta regras para fazer upgrade de modelos customizados, os efeitos do upgrade e as abordagens para usar modelos que passaram por upgrade.

1º de fevereiro de 2018

Novos modelos em coreano

O serviço agora oferece modelos de idioma para coreano: ko-KR_BroadbandModel para áudio em amostra de no mínimo 16 kHz e ko-KR_NarrowbandModel para áudio em amostrado de no mínimo 8 kHz. Para obter mais informações, consulte Idiomas e modelos de geração anterior.

Para customização do modelo de idioma, os modelos em coreano estão geralmente disponíveis (GA) para uso de produção; para customização de modelo acústico, eles são funcionalidade beta. Para obter mais informações, consulte Suporte ao idioma para a customização.

Para obter mais informações sobre como o serviço analisa os corpora para o coreano, consulte Análise do coreano.
Para obter mais informações sobre como criar pronúncias para palavras customizadas em coreano, consulte Diretrizes para coreano.

14 de dezembro de 2017

Agora a customização de modelo de idioma está geralmente disponível

A customização do modelo de idioma e todos os parâmetros associados estão agora geralmente disponíveis (GA) para todos os idiomas suportados: japonês, espanhol, inglês do Reino Unido e inglês dos EUA.

Customização de modelo beta acústico agora disponível para todos os idiomas

O serviço agora suporta a customização do modelo acústico como funcionalidade beta para todos os idiomas disponíveis. É possível criar modelos acústicos customizados para modelos de banda larga ou de banda estreita para todos os idiomas. Para acessar a introdução à customização, incluindo customização de modelo acústico, consulte Entendendo a customização.

Novo parâmetro version para reconhecimento de voz

Agora os vários métodos para fazer solicitações de reconhecimento incluem um novo parâmetro version que pode ser usado para iniciar solicitações que utilizam versões mais antigas ou adaptadas de modelos base e customizados. Apesar de ser destinado principalmente para uso com modelos customizados que foram atualizados, o parâmetro version também pode ser usado sem modelos customizados. Para obter mais informações, consulte Fazendo solicitações de reconhecimento de voz com modelos customizados atualizados.

Atualizações em modelos em inglês dos EUA para reconhecimento de voz melhorado

Os modelos em inglês dos EUA, en-US_BroadbandModel e en-US_NarrowbandModel, foram atualizados para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam nos modelos em inglês dos EUA, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obter mais informações sobre o procedimento, consulte Fazendo upgrade de modelos customizados. A seção apresenta regras para fazer upgrade de modelos customizados, os efeitos do upgrade e as abordagens para usar modelos que passaram por upgrade. Atualmente, os métodos se aplicam apenas aos novos modelos base em inglês dos EUA. Mas as mesmas informações se aplicarão a upgrades de outros modelos base à medida que se tornarem disponíveis.

Customização de modelo de idioma agora disponível para inglês do Reino Unido

O serviço agora suporta a customização do modelo de idioma para os modelos de inglês do Reino Unido, en-GB_BroadbandModel e en-GB_NarrowbandModel. Embora o serviço manipule os corpora e as palavras customizadas em inglês do Reino Unido e dos EUA de um modo geralmente semelhante, existem algumas diferenças importantes:

Para obter mais informações sobre como o serviço analisa o corpora para inglês do RU, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em inglês do RU, consulte Diretrizes para inglês. Especificamente, para inglês do Reino Unido, não é possível usar pontos ou traços em pronúncias.

2 de outubro de 2017

Nova interface de customização de modelo acústico beta para inglês americano, japonês e espanhol

A interface de customização agora oferece customização do modelo acústico. É possível criar modelos acústicos customizados que adaptam os modelos base do serviço ao ambiente e aos falantes. Você preenche e treina um modelo acústico customizado no áudio que corresponde mais de perto à assinatura acústica do áudio que você deseja transcrever. Em seguida, use o modelo acústico customizado com solicitações de reconhecimento para aumentar a precisão do reconhecimento de voz.

Os modelos acústicos customizados complementam os modelos de idioma customizados. É possível treinar um modelo acústico customizado com um modelo de idioma customizado e usar ambos os tipos de modelo durante o reconhecimento de voz. A customização do modelo acústico é uma interface beta que está disponível apenas para inglês americano, japonês e espanhol.

Para obter mais informações sobre os idiomas que são suportados pela interface de customização e o nível de suporte que está disponível para cada idioma, consulte Suporte ao idioma para customização.
Para obter mais informações sobre a interface de customização do serviço, consulte Entendendo a customização.
Para obter mais informações sobre como criar um modelo acústico customizado, consulte Criando um modelo acústico customizado.
Para obter mais informações sobre o uso de um modelo acústico customizado, consulte Usando um modelo acústico customizado para reconhecimento de voz.
Para obter mais informações sobre todos os métodos da interface de personalização, consulte a referência da API e do SDK.

Novo parâmetro beta customization_weight para modelos de idioma customizados

Para customização do modelo de idioma, o serviço agora inclui um recurso beta que configura um peso de customização opcional para um modelo de idioma customizado. Um peso de customização especifica o peso relativo a ser fornecido para palavras de um modelo de idioma customizado versus as palavras do vocabulário base do serviço. É possível configurar um peso de customização durante o reconhecimento de treinamento e de fala. Para obter mais informações, consulte Usando o peso de customização.

Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado

O modelo de idioma ja-JP_BroadbandModel foi atualizado para capturar melhorias no modelo base. O upgrade não afeta modelos customizados existentes que são baseados no modelo.

Novo parâmetro endianness para o formato de áudio audio/l16

O serviço agora inclui um parâmetro para especificar a ordenação do áudio que é enviado no formato audio/l16 (Linear 16-bit Pulse-Code Modulation (PCM)). Além de especificar os parâmetros rate e channels com o formato, agora é possível especificar também big-endian ou little-endian com o parâmetro endianness. Para obter mais informações, consulte Formato audio/l16.

14 de julho de 2017

Novo suporte para o formato de áudio MP3 (MPEG)

O serviço agora suporta a transcrição do áudio no formato MP3 ou Motion Picture Experts Group (MPEG). Para obter mais informações, consulte Formatos audio/mp3 e áudio/mpeg.

Customização do modelo de idioma beta agora disponível para espanhol

A interface de customização do modelo de idioma agora suporta o espanhol como funcionalidade beta. É possível criar um modelo customizado com base em qualquer um dos modelos de idioma base de espanhol: es-ES_BroadbandModel ou es-ES_NarrowbandModel; para obter mais informações, consulte Criando um modelo de idioma customizado. A precificação para as solicitações de reconhecimento que usam modelos de idioma customizados de espanhol é a mesma que para as solicitações que usam os modelos em japonês e inglês dos EUA.

Novo campo dialect para método que cria um modelo de idioma customizado

O objeto JSON CreateLanguageModel que você passa para o método POST /v1/customizations para criar um novo modelo de idioma customizado agora inclui um campo dialect. O campo especifica o dialeto do idioma que deve ser usado com o modelo customizado. Por padrão, o dialeto corresponde ao idioma do modelo base. O parâmetro é significativo somente para modelos de espanhol, para os quais o serviço pode criar um modelo customizado que é adequado para fala em um dos dialetos a seguir:

es-ES para espanhol castelhano (o padrão)
es-LA para espanhol da América Latina
es-US para espanhol da América do Norte (mexicano)

Os métodos GET /v1/customizations e GET /v1/customizations/{customization_id} da interface de customização incluem o dialeto de um modelo customizado em sua saída. Para obter mais informações, consulte Criando um modelo de idioma customizado e Listando modelos de idioma customizados.

Novos nomes para modelos em inglês do Reino Unido

Os nomes dos modelos de idioma en-UK_BroadbandModel e en-UK_NarrowbandModel foram descontinuados. Os modelos estão agora disponíveis com os nomes en-GB_BroadbandModel e en-GB_NarrowbandModel.

Os nomes en-UK_{model} descontinuados continuam a funcionar, mas o método GET /v1/models não retorna mais os nomes na lista de modelos disponíveis. Ainda é possível consultar os nomes diretamente com o método GET /v1/models/{model_id}.

1º de julho de 2017

Modelo de idioma customizado agora geralmente disponível para inglês dos EUA e japonês

Agora a interface de customização do modelo de idioma do serviço está geralmente disponível (GA) para ambos os idiomas suportados, inglês dos EUA e japonês. O IBM não cobra para criar, hospedar ou gerenciar modelos de idioma customizado. Conforme descrito no próximo marcador, a IBM agora cobra um extra de US$ 0,03 por minuto de áudio para solicitações de reconhecimento que usam modelos customizados.

Atualizações para planos de precificação para o serviço

A IBM atualizou a precificação para o serviço

Eliminando o preço do complemento para o uso de modelos de banda estreita
Fornecendo a precificação em camadas graduadas para clientes de alto volume
Cobrando um valor adicional de US$ 0,03 por minuto de áudio para solicitações de reconhecimento que usam modelos de idioma customizados de inglês dos EUA ou japonês

Para obter mais informações sobre as atualizações de precificação, consulte

O serviço Speech to Text no IBM Cloud Catálogo
As Perguntas frequentes sobre precificação

Corpo vazio não é mais necessário para solicitações HTTP POST

Não é mais necessário passar um objeto de dados vazio como o corpo para as solicitações POST a seguir:

POST /v1/sessions
POST /v1/register_callback
POST /v1/customizations/{customization_id}/train
POST /v1/customizations/{customization_id}/reset
POST /v1/customizations/{customization_id}/upgrade_model

Por exemplo, você agora chama o método POST /v1/sessions com curl, como a seguir:

curl -X POST -u "{username}:{password}" \
--cookie-jar cookies.txt \
"{url}/v1/sessions"

Não é mais necessário passar a opção curl com a solicitação: --data "{}". Se você tiver algum problema com uma dessas solicitações POST, tente passar um objeto de dados vazio com o corpo da solicitação. Transmitir um objeto vazio não muda a natureza ou o significado da solicitação de nenhuma maneira.

22 de maio de 2017

Parâmetro continuous removido de todos os métodos

O parâmetro continuous é removido de todos os métodos que iniciam solicitações de reconhecimento. O serviço agora transcreve um fluxo de áudio inteiro até que ele termine ou atinja o tempo limite, o que ocorrer primeiro. Esse comportamento é equivalente a configurar o parâmetro continuous antigo como true. Por padrão, previamente o serviço parou a transcrição no primeiro meio segundo sem fala (geralmente silêncio) se o parâmetro foi omitido ou configurado como false.

Os aplicativos existentes que configuraram o parâmetro como true não verão nenhuma mudança no comportamento. Os aplicativos que configuraram o parâmetro como false ou que contaram com o comportamento padrão provavelmente verão uma mudança. Se uma solicitação especificar o parâmetro, o serviço agora responderá retornando uma mensagem de aviso para o parâmetro desconhecido:

"warnings": [
  "Unknown arguments: continuous."
]

Apesar do aviso, a solicitação é bem-sucedida e uma sessão existente ou uma conexão do WebSocket não é afetada.

A IBM removeu o parâmetro para responder ao feedback esmagador da comunidade do desenvolvedor, pois especificar continuous=false acrescentaria pouco valor e poderia reduzir a precisão geral da transcrição.

Enviando áudio necessário para evitar tempo limite de sessão

Não é mais possível evitar um tempo limite da sessão sem enviar áudio:

Quando você usa a interface do WebSocket, o cliente não pode mais manter uma conexão ativa enviando uma mensagem de texto JSON com o parâmetro action configurado como no-op. O envio de uma mensagem no-op não gera um erro, mas não tem efeito.
Quando você usa sessões com a interface de HTTP, o cliente não pode mais estender a sessão enviando uma solicitação GET /v1/sessions/{session_id}/recognize. O método ainda retorna o status de uma sessão ativa, mas ele não mantém a sessão ativa.

Agora é possível fazer o seguinte para manter uma sessão ativa:

Configure o parâmetro inactivity_timeout como -1 para evitar o tempo limite de inatividade de 30 segundos.
Envie quaisquer dados de áudio, incluindo apenas silêncio, para o serviço para evitar o tempo limite de sessão de 30 segundos. Você é cobrado pela duração de qualquer dado que envia para o serviço, incluindo o silêncio enviado para estender uma sessão.

Para obter mais informações, consulte Tempos limites. O ideal seria você estabelecer uma sessão imediatamente antes de obter o áudio para transcrição e manter a sessão enviando o áudio a uma taxa próxima do tempo real. Além disso, certifique-se de que seu aplicativo se recupere normalmente de sessões ou conexões fechadas.

A IBM removeu essa funcionalidade para assegurar que ela continue a oferecer a todos os usuários um serviço de reconhecimento de voz de baixa latência excelente.

10 de abril de 2017

Rótulos de alto-falantes agora suportados para inglês dos EUA, espanhol e japonês

O serviço agora suporta o recurso de rótulos do falante para os modelos de banda larga a seguir:

Modelo de banda larga de inglês dos EUA (en-US-BroadbandModel)
Modelo de banda larga em espanhol (es-ES-BroadbandModel)
Modelo de banda larga em japonês (ja-JP_BroadbandModel)

Para obter mais informações, consulte Rótulos do falante.

Novo suporte para o formato de áudio Web Media (WebM)

O serviço agora suporta o formato de áudio Web Media (WebM) com o codec Opus ou Vorbis. Agora, o serviço também suporta o formato de áudio Ogg com o codec Vorbis, além do codec Opus. Para obter mais informações sobre formatos de áudio suportados, consulte Formato de áudio /webm.

Novo suporte para o compartilhamento de recurso de origem cruzada

O serviço agora suporta o Compartilhamento de Recurso de Origem Cruzada (CORS) para permitir que os clientes baseados no navegador chamem o serviço diretamente. Para obter mais informações, consulte Suporte ao CORS.

Novo método para cancelar registro de uma URL de retorno de chamada com interface HTTP assíncrona

A interface HTTP assíncrona agora oferece um método POST /v1/unregister_callback que remove o registro para uma URL de retorno de chamada incluída na lista de permissões. Para obter mais informações, consulte Cancelando o registro de uma URL de retorno de chamada.

Correção de defeito: Eliminar tempos limite para áudio longo com a interface WebSocket

Correção de defeito: a interface do WebSocket não atinge mais um tempo limite para solicitações de reconhecimento para arquivos de áudio especialmente longos. Não é mais necessário solicitar resultados provisórios com a mensagem JSON start para evitar o tempo limite. (Esse problema foi descrito na atualização para 10 de março de 2016.)

Novos códigos de erro HTTP

Agora os métodos de customização do modelo de idioma a seguir podem retornar os códigos de erro HTTP a seguir:

O método DELETE /v1/customizations/{customization_id} agora retorna o código de resposta de HTTP 401 se você tentar excluir um modelo customizado não existente.
O método DELETE /v1/customizations/{customization_id}/corpora/{corpus_name} agora retorna o código de resposta de HTTP 400 se você tenta excluir um corpus não existente.

8 de março de 2017

Agora a interface HTTP assíncrona está geralmente disponível: Agora a interface HTTP assíncrona está geralmente disponível (GA) Antes dessa data, era funcionalidade beta.

1º de dezembro de 2016

Novo recurso beta de rótulos de alto-falante

O serviço agora oferece um recurso beta de rótulo de falante para áudio de banda estreita em inglês dos EUA, espanhol ou japonês. O recurso identifica quais palavras cada um dos falantes falou em uma interação com múltiplas pessoas. Os métodos de reconhecimento sem sessão, baseados em sessão, assíncronos e do WebSocket incluem um parâmetro speaker_labels que aceita um valor booleano para indicar se os rótulos do falante devem ser incluídos na resposta. Para obter mais informações sobre o recurso, consulte Rótulos do falante.

Customização do modelo de idioma beta agora disponível para japonês

A interface de customização do modelo de idioma beta agora é suportada para japonês, além do inglês dos EUA. Todos os métodos da interface suportam o japonês. Para obter mais informações, consulte as seções a seguir:

Para obter mais informações, consulte Criando um modelo de idioma customizado e Usando um modelo de idioma customizado para reconhecimento de voz.
Para considerações gerais e específicas do japonês para incluir um arquivo de texto de corpus, consulte Preparando um arquivo de texto de corpus e O que acontece ao incluir um arquivo de corpus?
Para considerações específicas do japonês ao especificar o campo sounds_like para uma palavra customizada, consulte Diretrizes para japonês.
Para obter mais informações sobre todos os métodos da interface de personalização, consulte a referência da API e do SDK.

Novo método para listar informações sobre um corpus

A interface de customização do modelo de idioma agora inclui um método GET /v1/customizations/{customization_id}/corpora/{corpus_name} que lista informações sobre um corpus especificado. O método é útil para monitorar o status de uma solicitação para incluir um corpus em um modelo customizado. Para obter mais informações, consulte Listando os corpora para um modelo de idioma customizado.

Novo campo count para métodos que listam palavras para modelos de idioma customizado.

Agora a resposta JSON que é retornada pelos métodos GET /v1/customizations/{customization_id}/words e GET /v1/customizations/{customization_id}/words/{word_name} inclui um campo count para cada palavra. O campo indica o número de vezes que a palavra é localizada em todos os corpora. Para incluir uma palavra customizada em um modelo antes de ele ser incluído por quaisquer corpora, a contagem começará em 1. Se a palavra for incluída de um corpus primeiro e depois modificada, a contagem refletirá apenas o número de vezes que ela é encontrada nos corpora. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado.

Para modelos customizados que foram criados antes da existência do campo count, o campo sempre permanece em 0. Para atualizar o campo para esses modelos, inclua novamente os corpora do modelo e inclua o parâmetro allow_overwrite com o método POST /v1/customizations/{customization_id}/corpora/{corpus_name}.

Novo parâmetro sort para métodos que listam palavras para modelos de idioma customizados

O método GET /v1/customizations/{customization_id}/words agora inclui um parâmetro de consulta sort que controla a ordem na qual as palavras devem ser listadas. O parâmetro aceita dois argumentos, alphabetical ou count, para indicar como as palavras devem ser classificadas. É possível pré-anexar um + ou - opcional a um argumento para indicar se os resultados devem ser classificados em ordem crescente ou decrescente. Por padrão, o método exibe as palavras em ordem alfabética crescente. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado.

Para modelos customizados criados antes da introdução do campo count, o uso do argumento count com o parâmetro sort é sem sentido. Use o argumento alphabetical padrão com esses modelos.

Novo formato de campo error para métodos que listam palavras para modelos de idioma customizados

O campo error que pode ser retornado como parte da resposta JSON dos métodos GET /v1/customizations/{customization_id}/words e GET /v1/customizations/{customization_id}/words/{word_name} agora é uma matriz. Se o serviço descobriu um ou mais problemas com a definição de uma palavra customizada, o campo listará cada elemento do problema da definição e fornecerá uma mensagem descrevendo o problema. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado.

Os parâmetros keywords_threshold e word_alternatives_threshold não aceitam mais um valor nulo

Os parâmetros keywords_threshold e word_alternatives_threshold dos métodos de reconhecimento não aceitam mais um valor nulo. Para omitir palavras-chave e alternativas de palavras da resposta, omita os parâmetros. Um valor especificado deve ser um valor flutuante.

22 de setembro de 2016

Nova interface de customização do modelo de idioma beta

O serviço agora oferece uma nova interface de customização do modelo de idioma beta para inglês dos EUA. É possível usar a interface para customizar o vocabulário base do serviço e os modelos de idioma por meio da criação de modelos de idioma customizados que incluem terminologia específica do domínio. É possível incluir palavras customizadas individualmente ou fazer o serviço extraí-las dos corpora. Para usar seus modelos customizados com os métodos de reconhecimento de voz que são oferecidos por qualquer uma das interfaces do serviço, transmita o parâmetro de consulta customization_id. Para obter mais informações, consulte

Novo suporte para o formato de áudio audio/mulaw

A lista de formatos de áudio suportados agora inclui audio/mulaw, que fornece um áudio de canal único codificado usando o algoritmo de dados u-law (ou mu-law). Quando você usa esse formato, também deve-se especificar a taxa de amostragem na qual o áudio é capturado. Para obter mais informações, consulte Formato de áudio /mulaw.

Novos supported_features identificados ao listar modelos

Os métodos GET /v1/models e GET /v1/models/{model_id} agora retornam um campo supported_features como parte de sua saída para cada modelo de idioma. As informações adicionais descrevem se o modelo suporta customização. Para obter mais informações, consulte a referência API & SDK.

30 de junho de 2016

Agora a interface HTTP beta assíncrona suporta todos os idiomas disponíveis: A interface de HTTP assíncrona beta agora suporta todos os idiomas que são suportados pelo serviço. A interface estava disponível anteriormente somente para inglês dos EUA. Para obter mais informações, consulte A interface assíncrona HTTP e a referência da API e do SDK.

23 de junho de 2016

Nova interface HTTP assíncrona agora disponível: Uma interface de HTTP assíncrona beta agora está disponível. A interface fornece recursos de reconhecimento integral para a transcrição em inglês dos EUA por meio de chamadas HTTP sem bloqueio. É possível registrar as URLs de retorno de chamada e fornecer sequências secretas especificadas pelo usuário para alcançar a autenticação e a integridade de dados com assinaturas digitais. Para obter mais informações, consulte A interface assíncrona HTTP e a referência da API e do SDK.
Novo parâmetro beta smart_formatting para reconhecimento de voz: Um recurso de formatação inteligente beta que converte datas, horários, séries de dígitos e números, números de telefone, valores de moeda e endereços da Internet em representações mais convencionais nas transcrições finais. Você ativa o recurso configurando o parâmetro smart_formatting como true em uma solicitação de reconhecimento. O recurso é funcionalidade beta que está disponível somente para inglês dos EUA. Para obter mais informações, consulte Formatação inteligente.
Novo modelo de banda larga em francês: A lista de modelos suportados para reconhecimento de voz agora inclui fr-FR_BroadbandModel para áudio no idioma francês que é amostrado em 16 kHz, no mínimo. Para obter mais informações, consulte Idiomas e modelos de geração anterior.
Novo suporte para o formato de áudio audio/basic: Agora, a lista de formatos de áudio suportados inclui audio/basic. O formato fornece áudio de canal único que é codificado usando os dados de 8 bits u-law (ou mu-law) que são amostrados em 8 kHz. Para obter mais informações, consulte Formato audio/basic.
Métodos de reconhecimento de voz agora retornam avisos para parâmetros inválidos: Os vários métodos de reconhecimento podem retornar uma resposta warnings que inclui mensagens sobre parâmetros de consulta inválidos ou campos JSON que estão incluídos em uma solicitação. O formato dos avisos mudou. Por exemplo, "warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." agora é "warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}."
Corpo vazio necessário para métodos HTTP POST que não passam dados: Para solicitações POST de HTTP que não transmitem dados de outra forma para o serviço, deve-se incluir um corpo da solicitação vazio do formulário {}. Com o comando curl, você usa a opção --data para passar os dados vazios.

10 de março de 2016

Novos limites máximos em áudio transmitidos para reconhecimento de voz: Ambas as formas de transmissão de dados (entrega única e fluxo) agora impõem um limite de tamanho de 100 MB nos dados de áudio, assim como faz a interface do WebSocket. Anteriormente, a abordagem de entrega única tinha um limite máximo de 4 MB de dados. Para obter mais informações, consulte Transmissão de áudio (para todas as interfaces) e Enviar áudio e receber os resultados de reconhecimento (para a interface do WebSocket). A seção WebSocket também discute o tamanho máximo do quadro ou mensagem de 4 MB imposto pela interface do WebSocket.
Interfaces HTTP e WebSocket agora podem retornar avisos: A resposta JSON para uma solicitação de reconhecimento agora pode incluir uma matriz de mensagens de aviso para parâmetros de consulta inválidos ou campos JSON que estão incluídos em uma solicitação. Cada elemento da matriz é uma sequência que descreve a natureza do aviso seguido por uma matriz de sequências de argumentos inválidos. Por exemplo, "warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ]. Para obter mais informações, consulte a referência API & SDK.
O Apple iOS SDK beta foi descontinuado: O beta Watson Speech Software Development Kit (SDK) para o sistema operacional Apple® iOS está descontinuado. Como alternativa, use o Watson SDK para o sistema operacional Apple® iOS. O novo SDK está disponível no repositório ios-sdk no namespace watson-developer-cloud em GitHub.
Interface do WebSocket pode produzir resultados atrasados: A interface do WebSocket pode levar minutos para produzir resultados finais para uma solicitação de reconhecimento para um arquivo de áudio especialmente longo. Para a interface do WebSocket, a conexão TCP subjacente permanece inativa enquanto o serviço prepara a resposta. Portanto, a conexão pode ser fechada devido a um tempo limite. Para evitar o tempo limite com a interface do WebSocket, solicite resultados provisórios (\"interim_results\": \"true\") no JSON para a mensagem start para iniciar a solicitação. É possível descartar os resultados provisórios se você não precisar deles. Esse problema será resolvido em uma atualização futura.

19 de janeiro de 2016

Novo recurso de filtragem de profanidade: O serviço foi atualizado para incluir um novo recurso de filtragem de profanidade em 19 de janeiro de 2016. Por padrão, o serviço censura a profanidade de seus resultados de transcrição para o áudio inglês dos EUA. Para obter mais informações, consulte Filtragem de profanidade.

17 de dezembro de 2015

Novo recurso de localização de palavra-chave: O serviço agora oferece um recurso de marcação de palavra-chave. É possível especificar uma matriz de sequências de palavras-chave que devem ser correspondidas no áudio de entrada. Também deve-se especificar um nível de confiança definido pelo usuário que uma palavra deve atender para ser considerada uma correspondência para uma palavra-chave. Para obter mais informações, consulte Marcação de palavra-chave. O recurso de marcação de palavra-chave é funcionalidade beta.
Novo recurso de palavras alternativas: O serviço agora oferece um recurso de alternativas de palavra. O recurso retorna hipóteses alternativas para palavras na entrada de áudio que atendem um nível de confiança definido pelo usuário. Para obter mais informações, consulte Alternativas de palavra. O recurso de alternativas de palavra é funcionalidade beta.
Novos modelos em árabe e inglês do Reino Unido: O serviço suporta mais idiomas com seus modelos de transcrição: en-UK_BroadbandModel e en-UK_NarrowbandModel para inglês do Reino Unido e ar-AR_BroadbandModel para árabe padrão moderno. Para obter mais informações, consulte Idiomas e modelos de geração anterior.
Novo campo session_closed para métodos baseados em sessão: Nas respostas JSON que ele retorna para erros com métodos baseados em sessão, o serviço agora também inclui um novo campo session_closed. O campo será configurado como true se a sessão estiver fechada como resultado do erro. Para obter mais informações sobre os possíveis códigos de retorno de qualquer método, consulte a referência da API e do SDK.
Tempo limite da plataforma HTTP não se aplica mais: As solicitações de reconhecimento de HTTP não estão mais sujeitas a um tempo limite de plataforma de 10 minutos. O serviço agora mantém a conexão ativa enviando um caractere de espaço no objeto JSON de resposta a cada 20 segundos enquanto o reconhecimento estiver em andamento. Para obter mais informações, consulte Tempos limites.
A limitação de taxa com o comando curl não é mais necessária: Quando você usa o comando curl para transcrever áudio com o serviço, não é mais necessário usar a opção --limit-rate para transferir dados em uma taxa até 40.000 bytes por segundo.
Mudanças nos códigos de erro HTTP: O serviço não retorna mais o código de status HTTP 490 para os métodos de HTTP baseados em sessão GET /v1/sessions/{session_id}/observe_result e POST /v1/sessions/{session_id}/recognize. O serviço agora responde com o código de status HTTP 400 no lugar.

21 de setembro de 2015

Novos SDKs móveis disponíveis

Dois novos SDKs móveis beta estão disponíveis para os serviços de fala. Os SDKs ativam os aplicativos móveis para interagir com os serviços Speech to Text e Text to Speech.

O Watson Speech SDK para a plataforma Google Android™ suporta streaming de áudio para o serviço Speech to Text em tempo real e recebimento de transcrição de áudio conforme você fala. O projeto inclui um aplicativo de exemplo que demonstra a interação com ambos os serviços de fala. O SDK está disponível no repositório speech-android-sdk no espaço de nomes watson-developer-cloud em GitHub.
O Watson Speech SDK para o sistema operacional Apple® iOS suporta streaming de áudio para o serviço Speech to Text e recebimento de transcrição de áudio em resposta. O SDK está disponível no repositório speech-ios-sdk no espaço de nomes watson-developer-cloud em GitHub.

Os SDKs suportam a autenticação com os serviços de fala usando suas credenciais do serviço IBM Cloud ou um token de autenticação. Como os SDKs são beta, eles estão sujeitos a mudanças no futuro.

Novos modelos em chinês mandarim e português do Brasil

O serviço suporta dois novos idiomas, português do Brasil e chinês mandarim, com os modelos a seguir:

Modelo de banda larga de português do Brasil (pt-BR_BroadbandModel)
Modelo de banda estreita de português do Brasil (pt-BR_NarrowbandModel)
Modelo de banda larga em chinês mandarim (zh-CN_BroadbandModel)
Modelo de banda estreita em chinês mandarim (zh-CN_NarrowbandModel)

Para obter mais informações, consulte Idiomas e modelos de geração anterior.

Novo suporte para o formato de áudio audio/ogg;codecs=opus

As solicitações de HTTP POST /v1/sessions/{session_id}/recognize e /v1/recognize, bem como a solicitação do WebSocket /v1/recognize, suportam a transcrição de um novo tipo de mídia: audio/ogg;codecs=opus para os arquivos de formato Ogg que usam o codec Opus. Além disso, o formato audio/wav para os métodos agora suporta qualquer codificação. A restrição sobre o uso da codificação PCM linear foi removida. Para obter mais informações, consulte Formato audio/ogg.

Novo parâmetro sequence_id para longa pesquisa de sessões

O serviço agora suporta a superação de tempos limites ao transcrever arquivos de áudio longos com a interface de HTTP. Ao usar sessões, é possível empregar um padrão de pesquisa detalhada especificando IDs de sequência com os métodos GET /v1/sessions/{session_id}/observe_result e POST /v1/sessions/{session_id}/recognize para tarefas de reconhecimento de longa execução. Usando o novo parâmetro sequence_id desses métodos, é possível solicitar resultados antes, durante ou depois de enviar uma solicitação de reconhecimento.

Novo recurso de capitalização para transcrição em inglês dos EUA

Para os modelos de idioma inglês dos EUA, en_US_BroadbandModel e en_US_NarrowbandModel, o serviço agora insere letras maiúsculas em nomes próprios. Por exemplo, o serviço retornaria um novo texto com a seguinte redação: "Barack Obama se formou na Universidade de Columbia" em vez de "barack obama graduated from columbia university". Essa mudança pode ser interessante para você se o seu aplicativo for sensível de alguma maneira às letras maiúsculas de nomes próprios.

Novo código de erro HTTP

A solicitação HTTP DELETE /v1/sessions/{session_id} não retorna o código de status 415 "Unsupported Media Type". Esse código de retorno foi removido da documentação para o método.

1º de julho de 2015

Agora o serviço Speech to Text está geralmente disponível

O serviço mudou de beta para a disponibilidade geral (GA) em 1º de julho de 2015. As diferenças a seguir existem entre as versões beta e GA das APIs do Speech to Text. A liberação do GA requer que os usuários atualizem para a nova versão do serviço.

A versão GA da API de HTTP é compatível com a versão beta. Será necessário mudar seu código do aplicativo existente somente se você especificou explicitamente um nome do modelo. Por exemplo, o código de amostra disponível para o serviço do GitHub incluiu a linha de código a seguir no arquivo demo.js:

model: 'WatsonModel'

Essa linha especificou o modelo padrão WatsonModel, para a versão beta do serviço. Se seu aplicativo também especificou esse modelo, será necessário mudá-lo para usar um dos novos modelos que são suportados pela versão GA. Para obter mais informações, consulte o próximo marcador.

Novo modelo de programação baseado em token

O serviço agora suporta um novo modelo de programação para interação direta entre um cliente e o serviço por meio de uma conexão do WebSocket. Ao usar esse modelo, um cliente pode obter um token de autenticação para a comunicação diretamente com o serviço. O token ignora a necessidade de um aplicativo proxy do lado do servidor no IBM Cloud para chamar o serviço em nome do cliente. Os tokens são os meios preferenciais para os clientes interagirem com o serviço.

O serviço continua a suportar o modelo de programação antigo que dependia de um proxy do lado do servidor para retransmitir áudio e mensagens entre o cliente e o serviço. Mas o novo modelo é mais eficiente e fornece um rendimento mais alto.

Novo parâmetro model para reconhecimento de voz

Os métodos POST /v1/sessions e POST /v1/recognize, juntamente com o método /v1/recognize do WebSocket, agora suportam um parâmetro de consulta model. Você usa o parâmetro para especificar informações sobre o áudio:

O idioma: inglês, japonês ou espanhol
A taxa mínima de amostragem: banda larga (16 kHz) ou estreita banda (8 kHz)

Para obter mais informações, consulte Idiomas e modelos de geração anterior.

Novo parâmetro inactivity_timeout para reconhecimento de voz

O parâmetro inactivity_timeout configura o valor de tempo limite em segundos após o qual o serviço fecha a conexão se ele detecta silêncio (nenhuma fala) no modo de fluxo. Por padrão, o serviço finaliza a sessão após 30 segundos de silêncio. Os métodos POST /v1/recognize e WebSocket /v1/recognize suportam o parâmetro. Para obter mais informações, consulte Tempos limites.

Novo parâmetro max_alternatives para reconhecimento de voz

O parâmetro max_alternatives instrui o serviço a retornar as n melhores hipóteses alternativas para a transcrição de áudio. Os métodos POST /v1/recognize e WebSocket /v1/recognize suportam o parâmetro. Para obter mais informações, consulte Alternativas máximas.

Novo parâmetro word_confidence para reconhecimento de voz

O parâmetro word_confidence instrui o serviço a retornar uma pontuação de confiança para cada palavra da transcrição. Os métodos POST /v1/recognize e WebSocket /v1/recognize suportam o parâmetro. Para obter mais informações, consulte Confiança de palavra.

Novo parâmetro timestamps para reconhecimento de voz

O parâmetro timestamps instrui o serviço a retornar o horário de início e de encerramento com relação ao início do áudio para cada palavra da transcrição. Os métodos POST /v1/recognize e WebSocket /v1/recognize suportam o parâmetro. Para obter mais informações, consulte Registros de data e hora de palavra.

Método de sessões renomeadas para observação de resultados

O método GET /v1/sessions/{session_id}/observeResult agora é denominado GET /v1/sessions/{session_id}/observe_result. O nome observeResult ainda é suportado para compatibilidade com versões anteriores.

Novo suporte para o formato de áudio Waveform Audio File (WAV)

Agora o cabeçalho Content-Type dos métodos recognize suporta audio/wav para arquivos Waveform Audio File (WAV), além de audio/flac e audio/l16. Para obter mais informações, consulte Formato audio/wav.

Limites na quantidade máxima de áudio para reconhecimento de voz

O serviço agora tem um limite de 100 MB de dados por sessão no modo de fluxo. Você pode especificar o modo de streaming especificando o valor chunked com o cabeçalho Transfer-Encoding. A entrega única de um arquivo de áudio ainda impõe um limite de tamanho de 4 MB nos dados que são enviados. Para obter mais informações, consulte Transmissão de áudio.

Novo cabeçalho para optar por contribuir para melhorias de serviços

Os métodos GET /v1/sessions/{session_id}/observe_result, POST /v1/sessions/{session_id}/recognize e POST /v1/recognize agora incluem o parâmetro de cabeçalho X-WDC-PL-OPT-OUT para controlar se o serviço usa os dados de áudio e transcrição de uma solicitação para melhorar os resultados futuros. A interface do WebSocket inclui um parâmetro de consulta equivalente. Especifique um valor de 1 para evitar que o serviço use os resultados de áudio e transcrição. O parâmetro é aplicado somente à solicitação atual. O novo cabeçalho substitui o cabeçalho X-logging da API beta. Consulte Controlando a criação de log de solicitação para os serviços do Watson.

Mudanças nos códigos de erro HTTP

Agora o serviço pode responder com os códigos de erro HTTP a seguir:

Para os métodos /v1/models, /v1/models/{model_id}, /v1/sessions, /v1/sessions/{session_id}, /v1/sessions/{session_id}/observe_result, /v1/sessions/{session_id}/recognize e /v1/recognize, o código de erro 415 ("Tipo de mídia não suportado") foi incluído.
Para solicitações POST e GET ao método /v1/sessions/{session_id}/recognize, os seguintes códigos de erro são modificados:
- O código de erro 404 ("Session_id não localizado") tem uma mensagem mais descritiva (POST e GET).
- Código de erro 503 ("A sessão já está processando uma solicitação. Solicitações simultâneas não são permitidas na mesma sessão. Sessão permanece ativa após esse erro.") tem uma mensagem mais descritiva (apenas POST).
- Para solicitações POST de HTTP para os métodos /v1/sessions e /v1/recognize, o código de erro 503 ("Serviço indisponível") pode ser retornado. O código de erro também pode ser retornado quando você cria uma conexão WebSocket com o método /v1/recognize.