Notas sobre a liberação para Speech to Text para IBM Cloud
IBM Cloud
Os seguintes recursos e alterações foram incluídos em cada versão e atualização de instâncias gerenciadas do IBM Watson® Speech to Text hospedadas em IBM Cloud ou de instâncias hospedadas em IBM Cloud Pak for Data como um serviço. A menos que seja observado de outra forma, todas as alterações são compatíveis com liberações anteriores e são disponibilizadas de forma automática e transparente para todos os aplicativos novos e existentes.
Para obter informações sobre limitações conhecidas do serviço, consulte Limitações conhecidas.
Para obter informações sobre liberações e atualizações do serviço para o IBM Cloud Pak for Data, consulte as Notas sobre a liberação para Speech to Text para IBM Cloud Pak for Data.
19 de novembro de 2024
- O novo modelo de fala grande para o alemão já está disponível para todos
-
O modelo de fala grande para o alemão já está disponível para todos.
- Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
- Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.
23 de agosto de 2024
- Todos os modelos de fala grande já estão disponíveis para todos
-
Os grandes modelos de fala para todos os idiomas estão agora disponíveis de forma geral (GA). Eles são suportados para uso em aplicativos e ambientes de produção.
- Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
- Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.
18 de Junho de 2024
- Novos grandes modelos de fala para o português do Brasil e o espanhol estão agora em beta aberto
-
Os grandes modelos de fala para o português brasileiro e espanhol estão agora em beta aberto. O espanhol inclui os dialetos castelhano, argentino, chileno, colombiano, mexicano e peruano.
- Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
- Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.
15 de Maio de 2024
- O Modelo de Fala Grande para Inglês agora está geralmente disponível
-
O grande modelo de fala para o inglês, que inclui os dialetos dos Estados Unidos, Austrália, Índia e Reino Unido, agora está geralmente disponível (GA). Ele é compatível com o uso em ambientes e aplicativos de produção.
- Para obter mais informações sobre modelos de fala grandes, consulte Modelos e idiomas de fala grandes.
- Para obter mais informações sobre os recursos suportados para modelos de fala grandes, consulte Recursos suportados para modelos de fala grandes.
07 de março de 2024
- Grande Modelo de Fala para Inglês dos EUA em Open Beta
- O novo modelo de fala Large para o inglês dos EUA está em beta aberto. Consulte Modelos e idiomas de fala grandes para obter mais detalhes com recursos suportados (beta).
30 de novembro de 2023
- Parâmetro Speech to Text speech_begin_event
-
Esse parâmetro permitiria que o aplicativo cliente soubesse que algumas palavras ou fala foram detectadas e que Speech to Text está em processo de decodificação. Para obter mais detalhes, consulte Usando parâmetros de reconhecimento de voz.
- Parâmetro 'mapping_only' para palavras customizadas
-
Ao usar o parâmetro "mapping_only", você pode usar palavras personalizadas diretamente para mapear "sounds_like" (ou palavra) para o valor "display_as" como pós-processamento em vez de treinamento. Para obter mais informações, consulte O recurso de palavras
-
Consulte as diretrizes para Não japoneses e Japoneses.
- Suporte para português brasileiro e franco-canadense na nova customização aprimorada do modelo de idioma da próxima geração
-
A customização do modelo de idioma para os modelos de próxima geração do Brasil-Português e Francês-Canadense foi incluída recentemente. Esta atualização de serviço inclui melhorias internas.
- Novo recurso de formatação inteligente
-
Um novo recurso de formatação inteligente para modelos de próxima geração é suportado nos idiomas inglês dos EUA, português do Brasil, francês e alemão Consulte Versão de formatação inteligente para obter detalhes.
- Suporte para espanhol castelhano e espanhol LATAM na nova personalização aprimorada do modelo de idioma da próxima geração
-
A customização do modelo de idioma para os modelos castelhanos espanhol e LATAM espanhol da próxima geração é incluída. Esta atualização de serviço inclui melhorias internas.
- Modelos de fala grandes para inglês, japonês e francês - para acesso antecipado
-
Para o recurso de acesso antecipado, os Modelos de Fala Grandes estão disponíveis para os idiomas inglês, japonês e francês no IBM Watson Speech-to-Text e no IBM watsonx Assistant. O conjunto de recursos para esses Modelos de Fala Grandes é limitado, mas mais preciso do que os modelos de Próxima Geração e é mais rápido e mais barato para executar devido ao tamanho menor e melhor capacidade de modo de fluxo..
Se você estiver interessado em testar esses modelos de base e compartilhar resultados e feedback, entre em contato com nossa equipe de Gerenciamento de Produto preenchendo este formulário
28 de julho de 2023.
- Importante: Todos os modelos de geração anterior são descontinuados a partir de 1 de agosto de 2023
- Importante: todos os modelos de geração anterior agora estão descontinuados do serviço... Novos clientes agora devem usar apenas os modelos da próxima geração. Agora, todos os clientes existentes devem migrar para o modelo equivalente da próxima geração. Para obter mais informações sobre todos os modelos da próxima geração, consulte Linguagens e modelos da próxima geração Para obter mais informações sobre como migrar para os modelos da próxima geração, consulte Migrando para os modelos da próxima geração
9 de junho de 2023.
- Correção de defeito: A criação e o treinamento de um Modelo de idioma customizado agora são ideais para os modelos padrão e de baixa latência da próxima geração
- Correção de defeito: ao criar e treinar um Modelo de Idioma customizado com arquivos de texto corpora e / ou palavras customizadas usando um modelo de baixa latência de próxima geração, ele agora está executando da mesma maneira que com um modelo padrão Anteriormente, ele não era ideal apenas ao usar um modelo de baixa latência de próxima geração.
- Correção de defeito: as sessões do STT Websockets não falham mais devido à mensagem de erro do tensor
- Correção de defeito: Ao usar soquetes da web STT, as sessões não falham mais devido a uma mensagem de erro "STT retorna o erro: Tamanhos de tensores devem corresponder, exceto na dimensão 0".
18 de maio de 2023
- Atualizações para o modelo de telefonia médica de última geração em inglês
-
O modelo inglês de telefonia médica de última geração foi atualizado para melhorar o reconhecimento de fala:
en-WW_Medical_Telephony
- Adicionado suporte para francês e alemão na nova customização aprimorada do modelo de idioma da próxima geração
-
A customização do modelo de idioma para os modelos de última geração em francês e alemão foi incluída recentemente Esta atualização de serviço inclui melhorias internas.
Para obter mais informações sobre a personalização aprimorada de última geração, consulte
- Correção de defeito: As palavras customizadas que contêm caracteres Katakana de meia largura agora retornam uma mensagem de erro clara com o modelo japonês de Telefonia
-
Correção de defeito: De acordo com a documentação, apenas caracteres Katakana de largura total são aceitos em palavras customizadas e os modelos de próxima geração agora mostram uma mensagem de erro para explicar que não é suportada. Anteriormente, ao criar palavras customizadas contendo caracteres Katakana de meia largura, nenhuma mensagem de erro foi fornecida.
- Correção de defeito: o modelo de idioma de telefonia japonesa não falha mais devido ao longo tempo de treinamento
-
Correção de defeito: ao treinar um modelo de idioma customizado com o Japanese Telephony, o serviço agora manipula efetivamente um grande número de palavras customizadas sem falhar.
2 de maio de 2023
- Novo procedimento para fazer upgrade de um modelo customizado que é baseado em um modelo de próxima geração melhorado
-
Duas abordagens agora estão disponíveis para fazer upgrade de um modelo de idioma customizado para um modelo base de próxima geração aprimorado Ainda é possível modificar e, em seguida, retreinar o modelo customizado, conforme já documentado. Mas agora também é possível fazer upgrade do modelo customizado incluindo o parâmetro de consulta
force=true
com a solicitaçãoPOST /v1/customizations/{customization_id}/train
. O parâmetroforce
atualiza o modelo customizado, independentemente de ele conter mudanças (está no estadoready
ouavailable
).Para obter mais informações, consulte Atualizando um modelo de idioma customizado com base em um modelo de próxima geração melhorado.
- Orientação para incluir palavras em modelos customizados que são baseados em modelos aprimorados da próxima geração..
-
A documentação agora oferece mais orientação sobre a inclusão de palavras em modelos customizados que são baseados em modelos aprimorados da próxima geração Por motivos de desempenho durante o treinamento, a orientação incentiva o uso de corpora em vez da adição direta de palavras personalizadas, sempre que possível
Para obter mais informações, consulte Diretrizes para incluir palavras em modelos customizados com base em modelos aprimorados da próxima geração
- Palavras customizadas em japonês para modelos customizados que são baseados em modelos aprimorados da próxima geração são manipulados de forma diferente
-
Para modelos customizados japoneses baseados em modelos da próxima geração, as palavras customizadas são manipuladas de forma diferente de outros idiomas. Para japonês, você pode adicionar uma palavra ou sons personalizados que não excedam 25 caracteres de comprimento. Se a sua palavra ou o som customizado exceder esse limite, o serviço incluirá a palavra no modelo customizado como se ele fosse incluído por um corpus. A palavra não aparece como uma palavra personalizada para o modelo.
Para obter mais informações, consulte Diretrizes para incluir palavras em modelos em japonês com base em modelos aprimorados da próxima geração
12 de abril de 2023
- Correção de defeito: a interface WebSocket agora atinge o tempo limite conforme esperado ao usar modelos de próxima geração
- Correção de defeito: quando usado para reconhecimento de voz com modelos de próxima geração, a interface WebSocket agora atinge o tempo limite conforme esperado após longos períodos de silêncio. Anteriormente, quando usado para reconhecimento de voz de arquivos de áudio curtos, a sessão WebSocket poderia falhar ao tempo limite. Quando a sessão falhou ao atingir o tempo limite, o serviço não retornou uma hipótese final para o aplicativo cliente em espera e, em vez disso, o cliente atingiu o tempo limite enquanto aguardava os resultados
6 de abril de 2023.
- Correção de defeito: limites para permitir a conclusão de treinamento para modelos customizados japoneses de próxima geração
- Correção de defeito: o treinamento bem-sucedido de um modelo de idioma customizado em japonês da próxima geração exige que palavras e sons customizados incluídos no modelo contenham no máximo 25 caracteres. Para o treinamento mais eficaz, recomenda-se que palavras e sons personalizados não contenham mais de 20 caracteres. O treinamento de modelos customizados japoneses com palavras e sons personalizados mais longos não é concluído após várias horas de treinamento.
Se você precisar incluir o equivalente de uma palavra longa ou sons em um modelo customizado japonês da próxima geração, execute estas etapas:
- Adicione uma palavra ou sons mais curtos-como que capta a essência da palavra ou sons mais longos-como no modelo personalizado.
- Inclua uma ou mais frases que usem a palavra ou sons mais longos em um corpus.
- Considere adicionar sentenças ao corpus que fornecem mais contexto para a palavra ou sons. Um contexto maior dá ao serviço mais informações para reconhecer a palavra e aplicar o som correto.
- Adicione o corpus ao modelo personalizado.
- Reciclar o modelo customizado na combinação da palavra ou do som mais curto e o corpus que contém a sequência mais longa.
Os limites e as etapas recém-descritos permitem que os modelos customizados japoneses da próxima geração concluam o treinamento. Tenha em mente que incluir grandes números de novas palavras customizadas em um modelo de idioma customizado aumenta o tempo de treinamento do modelo. Mas o aumento do tempo de treinamento ocorre apenas quando o modelo customizado é inicialmente treinado nas novas palavras Quando o modelo customizado tiver sido treinado nas novas palavras, o tempo de treinamento retornará ao normal.
For more information, see
- [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
- [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
- [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
- [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)
- Melhorias adicionais para a customização atualizada do modelo de idioma da próxima geração..
- A customização do modelo de idioma para modelos de próxima geração em inglês e japonês foi aprimorada recentemente Esta atualização de serviço inclui melhorias internas. Para obter mais informações sobre a personalização aprimorada de última geração, consulte
13 de março de 2023
- Correção de defeito: a formatação inteligente para datas em inglês dos EUA agora está correta
- Correção de defeito: a formatação inteligente agora inclui corretamente dias da semana e datas quando ambos estão presentes no áudio falado, por exemplo,
Tuesday February 28
. Anteriormente, em alguns casos, o dia da semana era omitido e a data era apresentada incorretamente. Observe que a formatação inteligente é uma funcionalidade beta - Correção de defeito: atualizar a documentação para palavras de hesitação de fala para modelos de próxima geração
- Correção de defeito: a documentação para palavras de hesitação de fala para modelos da próxima geração foi atualizada.. Mais detalhes são fornecidos sobre as palavras de hesitação em inglês dos EUA e japonês. Os modelos de próxima geração incluem as palavras de hesitação reais nos resultados de transcrição, ao contrário dos modelos de geração anterior, que incluem apenas marcadores de hesitação.. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.
27 de fevereiro de 2023.
- Novo modelo japonês de telefonia de próxima geração
-
O serviço agora oferece um modelo de telefonia de última geração para os japoneses:
ja-JP_Telephony
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Customização de modelo de idioma melhorada para modelos de inglês e japonês da próxima geração
-
O serviço agora fornece customização de modelo de idioma aprimorada para modelos de inglês e japonês da próxima geração:
en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony
Melhorias visíveis para os modelos: a nova tecnologia melhora o comportamento padrão dos novos modelos inglês e japonês. Entre outras mudanças, a nova tecnologia otimiza o comportamento padrão para os seguintes parâmetros:
- O padrão
customization_weight
para modelos customizados baseados nas novas versões desses modelos muda de0.2
para0.1
. - O padrão
character_insertion_bias
para modelos customizados que são baseados nas novas versões desses modelos permanece0.0
, mas os modelos mudaram de uma maneira que torna o uso do parâmetro para reconhecimento de voz menos necessário..
Fazendo upgrade para os novos modelos: para aproveitar a tecnologia melhorada, deve-se fazer upgrade de quaisquer modelos de idioma customizados que sejam baseados nos novos modelos. Para fazer upgrade para a nova versão de um desses modelos base, faça o seguinte:
-
Mude seu modelo customizado incluindo ou modificando uma palavra, corpus ou gramática customizada que o modelo contém. Qualquer mudança feita move o modelo para o estado
ready
. -
Use o método
POST /v1/customizations/{customization_id}/train
para reciclar o modelo novamente. O novo treinamento atualiza o modelo customizado para a nova tecnologia e move o modelo para o estadoavailable
..Problema conhecido: neste momento, não é possível usar o método
POST /v1/customizations/{customization_id}/upgrade_model
para fazer upgrade de um modelo customizado para um dos novos modelos base. Esse problema será resolvido em uma versão futura.
Usando os novos modelos: Após o upgrade para o novo modelo base, é aconselhável avaliar o desempenho do modelo customizado atualizado, prestando atenção especial aos parâmetros
customization_weight
echaracter_insertion_bias
para reconhecimento de voz. Ao retreinar seu modelo customizado:- O modelo customizado usa o novo padrão
customization_weight
de0.1
para seu modelo customizado.. Umcustomization_weight
não padrão que você tinha associado ao seu modelo customizado é removido - O modelo customizado pode não requerer mais o uso do parâmetro
character_insertion_bias
para reconhecimento de voz ideal.
As melhorias na customização do modelo de linguagem tornam esses parâmetros menos importantes para reconhecimento de voz de alta qualidade:
- Se você usar os valores padrão para esses parâmetros, continue a fazer isso após o upgrade Os valores padrão provavelmente continuarão oferecendo os melhores resultados para reconhecimento de voz.
- Se você especificar valores não padrão para esses parâmetros, experimente os valores padrão após o upgrade. Seu modelo customizado pode funcionar bem para o reconhecimento de voz com os valores padrão
Se você achar que usar valores diferentes para esses parâmetros pode melhorar o reconhecimento de voz com seu modelo customizado, experimente as mudanças incrementais para determinar se os parâmetros são necessários para melhorar o reconhecimento de voz.
Nota: neste momento, as melhorias na customização do modelo de linguagem se aplicam apenas a modelos customizados que são baseados nos modelos de idioma base em inglês ou japonês da próxima geração listados anteriormente. Com o tempo, as melhorias serão disponibilizadas para outros modelos de linguagem da próxima geração.
Mais informações: Para obter mais informações sobre o upgrade e sobre o reconhecimento de voz com esses parâmetros, consulte
- Correção de defeito: os arquivos de gramática agora manipulam sequências de dígitos corretamente
-
Correção de defeito: quando gramáticas são usadas, o serviço agora manipula sequências mais longas de dígitos corretamente. Anteriormente, estava falhando ao concluir o reconhecimento ou retornar resultados incorretos.
15 de fevereiro de 2023.
- Importante: todos os modelos de geração anterior foram descontinuados e chegarão ao fim do serviço em 31 de julho de 2023
-
Importante: todos os modelos de geração anterior foram descontinuados e atingirão o término de serviço efetivo em 31 de julho de 2023 Nessa data, todos os modelos de geração anterior serão removidos do serviço e da documentação.. A data de reprovação anterior foi 3 de março de 2023 A nova data permite que os usuários tenham mais tempo para migrar para os modelos de próxima geração apropriados Mas os usuários devem migrar para o modelo de próxima geração equivalente até 31 de julho de 2023.
A maioria dos modelos de geração anterior foi descontinuada em 15 de março de 2022. Anteriormente, os modelos árabe e japonês não eram descontinuados.. A descontinuação agora se aplica a todos modelos de geração anterior.
- Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
- Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.
- Para obter mais informações sobre todos os modelos da próxima geração, consulte Linguagens e modelos da próxima geração.
Observação: quando o modelo
en-US_BroadbandModel
de geração anterior for retirado de serviço, o modeloen-US_Multimedia
de próxima geração se tornará o modelo padrão para solicitações de reconhecimento de fala. - Correção de defeito: tempo de treinamento melhorado para modelos de idioma customizados da próxima geração
-
Correção de defeito: o tempo de treinamento para os modelos de idioma customizados da próxima geração agora foi significativamente melhorado Anteriormente, o tempo de treinamento demorava muito mais do que o necessário, conforme relatado para o treinamento de modelos de idioma customizados japoneses. O problema foi corrigido por uma correção interna..
- Correção de defeito: arquivos de gramática gerados dinamicamente agora funcionam corretamente
-
Correção de defeito: arquivos de gramática gerados dinamicamente agora funcionam corretamente. Anteriormente, os arquivos de gramática dinâmica poderiam causar falhas internas, conforme relatado para integração do Speech to Text com IBM® watsonx™ Assistant. O problema foi corrigido por uma correção interna..
20 de janeiro de 2023
- Nomes de modelos árabes e do Reino Unido reprovados não estão mais disponíveis
-
Os seguintes nomes do modelo árabe e do Reino Unido não são mais aceitos pelo serviço:
ar-AR_BroadbandModel
-Usear-MS_BroadbandModel
em vez disso.en-UK_NarrowbandModel
-Useen-GB_NarrowbandModel
em vez disso.en-UK_BroadbandModel
-Useen-GB_BroadbandModel
em vez disso.
O nome do modelo árabe foi reprovado em 2 de dezembro de 2020. Os nomes do modelo inglês do Reino Unido foram reprovados em 14 de julho de 2017.
- Cloud Foundry deprecação e migração para grupos de recursos
-
IBM anunciou a descontinuação do IBM Cloud Foundry em 31 de maio de 2022. A partir de 30 de novembro de 2022, novos IBM Aplicativos Cloud Foundry não poderão ser criados e somente os usuários existentes poderão implementar aplicativos. IBM Cloud Foundry chega ao fim do suporte em 1º de junho de 2023. Nesse momento, qualquer IBM Instâncias de tempo de execução de aplicativos do Cloud Foundry que estejam executando IBM Aplicativos Cloud Foundry serão permanentemente desativadas, desprovisionadas e excluídas.
Para continuar a usar seus aplicativos IBM Cloud após 1º de junho de 2023, você deve migrar para grupos de recursos antes dessa data. Os grupos de recursos são conceitualmente semelhantes aos espaços Cloud Foundry. Eles incluem vários benefícios adicionais, como o controle de acesso mais refinado usando IBM Cloud Identity and Access Management (IAM), a capacidade de conectar instâncias de serviço a aplicativos e serviços em diferentes regiões e uma maneira fácil de visualizar o uso por grupo.
- O parâmetro
max_alternatives
agora está disponível para uso com modelos de próxima geração -
O parâmetro
max_alternatives
agora está disponível para uso com todos os modelos de próxima geração. O parâmetro está geralmente disponível para todos os modelos de próxima geração. Para obter mais informações, consulte Alternativas máximas. - Correção de defeitos: Permitir uso de ambos os parâmetros
max_alternatives
eend_of_phrase_silence_time
com modelos de próxima geração -
Correção de defeito: ao usar os dois parâmetros
max_alternatives
eend_of_phrase_silence_time
na mesma solicitação com modelos de próxima geração, o serviço agora retorna várias transcrições alternativas enquanto também respeita o intervalo de pausa indicado. Anteriormente, o uso dos dois parâmetros em uma única solicitação gerou uma falha. (O uso do parâmetromax_alternatives
com modelos de última geração já estava disponível anteriormente como um recurso experimental para um número limitado de clientes.) - Correção de defeito: Atualizar modelo de telefonia canadense de última geração (upgrade necessário)
-
Defeito corrigido: O modelo de telefonia de última geração canadense,
fr-CA_Telephony
, foi atualizado para tratar de uma inconsistência interna que poderia causar um erro durante o reconhecimento de fala. É necessário fazer o upgrade de qualquer modelo personalizado que se baseie no modelofr-CA_Telephony
. Para obter mais informações sobre o upgrade de modelos personalizados, consulte - Correção de defeitos: Adicionar diretrizes de documentação para criação de sons japoneses-curtidas com base em modelos de próxima geração
-
Correção de defeitos: Em sons-curtidas para modelos de linguagem personalizada japonesa que são baseados em modelos de próxima geração, a sequência de caracteres
ウー
é ambígua em alguns contextos de esquerda. Não use caracteres (sílabas) que terminam com o fonema/o/
, tais comoロ
eト
. Em tais casos, useウウ
ou apenasウ
em vez deウー
. Por exemplo, useロウウマン
ouロウマン
em vez deロウーマン
. Para obter mais informações, consulte Diretrizes para o Japão. - Adicionar palavras diretamente aos modelos personalizados que são baseados em modelos de próxima geração aumenta o tempo de treinamento
-
Adicionar palavras customizadas diretamente a um modelo personalizado que é baseado em um modelo de próxima geração faz com que o treinamento de um modelo leve alguns minutos a mais do que ele de outra forma seria. Se você estiver treinando um modelo com palavras personalizadas que adicionou usando o método
POST /v1/customizations/{customization_id}/words
ouPUT /v1/customizations/{customization_id}/words/{word_name}
, permita que alguns minutos de tempo extra de treinamento para o modelo. Para obter mais informações, consulte - O máximo de horas de recursos de áudio para modelos acústicos personalizados no local de Tóquio foi aumentado
-
O máximo de horas de recursos de áudio que você pode adicionar aos modelos acústicos personalizados no local de Tóquio é novamente 200 horas. Anteriormente, o máximo foi reduzido para 50 horas para a região de Tóquio. Essa redução foi rescindida e adiada para o próximo ano. Para obter mais informações, consulte Máximo de horas de áudio.
5 de dezembro de 2022
- Novo modelo multimídia holandês de última geração holandesa
- O serviço agora oferece um modelo multimídia de última geração para o holandês holandês:
nl-NL_Multimedia
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Correção de defeitos: Correção de palavra customizada reconhecimento em resultados de transcrição para modelos de última geração
- Correção de defeitos: Para personalização de modelo de linguagem com modelos de próxima geração, as palavras customizadas são agora reconhecidas e usadas em todas as transcrições. Anteriormente, palavras customizadas por vezes não conseguiram ser reconhecidas e usadas em resultados de transcrição.
- Correção de defeito: Uso correto do campo
display_as
em resultados de transcrição para modelos de próxima geração - Correção de defeitos: Para personalização de modelo de linguagem com modelos de próxima geração, o valor do campo
display_as
para uma palavra personalizada agora aparece em todas as transcrições. Anteriormente, o valor do campoword
às vezes aparecia em resultados de transcrição. - Correção de defeito: Atualizar documentação de nomenclatura do modelo personalizado
- Defeito corrigido: A documentação agora fornece regras detalhadas para nomear modelos de linguagem personalizados e modelos acústicos personalizados. Para obter mais informações, consulte
20 de outubro de 2022
- Atualizações dos modelos de telefonia de próxima geração em inglês
-
Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Todos esses modelos continuam a apoiar a baixa latência. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- Correção de defeito: Atualizar modelo multimídia de última geração japonesa (upgrade necessário)
-
Defeito corrigido: O modelo multimídia de última geração japonesa,
ja-JP_Multimedia
, foi atualizado para tratar de uma inconsistência interna que poderia causar um erro durante o reconhecimento de fala com baixa latência. É necessário fazer o upgrade de qualquer modelo personalizado que se baseie no modeloja-JP_Multimedia
. Para obter mais informações sobre o upgrade de modelos personalizados, consulte
7 de outubro de 2022
- Novo modelo sueco de telefonia de próxima geração
-
O serviço agora oferece um modelo de telefonia de última geração para os suecos:
sv-SE_Telephony
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Atualizações dos modelos de telefonia de próxima geração em inglês
-
Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Todos esses modelos continuam a apoiar a baixa latência. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
21 de setembro de 2022
- Novo evento Activity Tracker para exclusão GDPR de informações do usuário
-
O serviço agora retorna um evento Activity Tracker quando você usa o método
DELETE /v1/user_data
para excluir todas as informações sobre um usuário. O evento é denominadospeech-to-text.gdpr-user-data.delete
. Para obter mais informações, consulte Eventos do Activity Tracker. - Correção de defeitos: Atualize alguns modelos de última geração para melhorar o tempo de resposta de baixa latência
-
Defeito corrigido: Os modelos de próxima geração de próxima geração foram atualizados para melhorar seu tempo de resposta quando o parâmetro
low_latency
é usado:en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony
Anteriormente, esses modelos não retornaram resultados de reconhecimento tão rapidamente quanto o esperado quando o parâmetro
low_latency
foi usado. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.
19 de agosto de 2022
- Importante: Data de reprovação para a maioria dos modelos de geração anterior é agora 3 de março de 2023
-
Substituído: esse aviso de descontinuação foi substituído pelo 15 de fevereiro de 2023 service update. A data de término de serviço para todos os modelos de geração anterior agora é 31 de Julho de 2023
Em 15 de março de 2022, os modelos da geração anterior para todos os idiomas, exceto o árabe e o japonês, foram descontinuados. Nessa época, os modelos reprovados iam permanecer disponíveis até 15 de setembro de 2022. Para permitir que os usuários tenham mais tempo para migrar para os modelos de próxima geração apropriados, os modelos descontinuados agora permanecerão disponíveis até 3 de março de 2023 Assim como com o aviso de descontinuação inicial, os modelos de geração anterior em árabe e japonês não foram descontinuadas Para obter uma lista completa de todos os modelos descontinuados, consulte a Atualização de serviço de 15 de março de 2022
No dia 3 de março de 2023, os modelos reprovados serão retirados do serviço e da documentação. Se você usar qualquer um dos modelos obsoletos, deverá migrar para o modelo equivalente de próxima geração até 3 de março de 2023.
- Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
- Para obter mais informações sobre os modelos de última geração, consulte Idiomas e modelos de última geração
- Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.
Observação: quando o modelo
en-US_BroadbandModel
de geração anterior for retirado de serviço, o modeloen-US_Multimedia
de próxima geração se tornará o modelo padrão para solicitações de reconhecimento de fala.
15 de agosto de 2022
- Novo modelo multimídia de última geração canadense
-
O serviço agora oferece um modelo multimídia de última geração para o franco-canadense:
fr-CA_Multimedia
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Atualizações dos modelos de telefonia de próxima geração em inglês
-
Os modelos de telefonia de próxima geração em inglês foram atualizados para melhorar o reconhecimento de fala:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Todos esses modelos continuam a apoiar a baixa latência. Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- O modelo multimídia italiano de última geração agora suporta baixa latência
-
O modelo de multimídia de última geração italiana,
it-IT_Multimedia
, agora suporta baixa latência. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Importante: Horas máximas de dados de áudio sendo reduzidos para modelos acústicos personalizados
-
Importante: A quantidade máxima de dados de áudio que você pode adicionar a um modelo acústico personalizado está sendo reduzida de 200 horas para 50 horas. Essa mudança está sendo faseada em locais diferentes de agosto a setembro de 2022. Para obter informações sobre o planejamento para a redução de limite e o que ele significa para os modelos acústicos customizados existentes que contenham mais de 50 horas de áudio, veja Máximo de horas de áudio.
3 de agosto de 2022
- Correção de defeito: Atualização de hesitações de fala e documentação de marcadores de hesitação
-
Correção de defeito: a documentação para hesitações de fala e marcadores de hesitação foi atualizada.. Os modelos de geração anterior incluem marcadores de hesitação no lugar de hesitações de fala em resultados de transcrição para a maioria das línguas; formatação inteligente remove marcadores de hesitação das transcrições finais inglesas dos EUA. Os modelos de última geração incluem as hesitações da fala real em resultados de transcrição; a formatação inteligente não tem efeito sobre a sua inclusão em resultados finais de transcrição.
Para obter mais informações, consulte:
1º de junho de 2022
- Atualizações para vários modelos de telefonia de última geração
-
Os modelos de telefonia de última geração a seguir foram atualizados para reconhecimento de voz melhorado:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
ko-KR_Telephony
Não é necessário fazer upgrade de modelos customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
25 de maio de 2022
- Novo parâmetro
character_insertion_bias
beta para modelos de última geração -
Todos os modelos de última geração agora suportam um novo parâmetro beta,
character_insertion_bias
, que está disponível com todas as interfaces de reconhecimento de voz. Por padrão, o serviço é otimizado para cada modelo individual para equilibrar o reconhecimento de sequências de caracteres candidatas de comprimentos diferentes. O viés específico do modelo é equivalente a 0,0. O viés padrão de cada modelo é suficiente para a maioria das solicitações de reconhecimento de voz.No entanto, determinados casos de uso podem se beneficiar do favorecimento de hipóteses com sequências de caracteres mais curtas ou mais longas. O parâmetro aceita valores entre -1,0 e 1,0 que representam uma mudança a partir do padrão de um modelo. Valores negativos instruem o serviço a favorecer sequências de caracteres mais curtas. Valores positivos instruem o serviço a favorecer sequências de caracteres mais longas. Para obter mais informações, consulte Viés de inserção de caracteres.
19 de maio de 2022
- Novo modelo de última geração
it-IT_Multimedia
italiano -
Agora o serviço oferece um modelo multimídia de última geração para o italiano:
it-IT_Multimedia
. O novo modelo está geralmente disponível. Ele não suporta baixa latência, mas suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração. - Modelos de telefonia e multimídia de última geração atualizados para o coreano
-
Os modelos de última geração existentes para coreano foram atualizados:
- O modelo
ko-KR_Telephony
foi atualizado para melhor suporte de baixa latência para reconhecimento de voz. - O modelo
ko-KR_Multimedia
foi atualizado para reconhecimento de voz melhorado. Agora o modelo suporta também baixa latência.
Ambos os modelos estão geralmente disponíveis e ambos suportam customização e gramáticas do modelo de idioma. Não é necessário fazer upgrade de modelos de idioma customizados que são baseados nesses modelos. Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- O modelo
- Correção de defeito: as pontuações de confiança são agora relatadas para todos os resultados de transcrição
-
Correção de defeito: as pontuações de confiança são agora relatadas para todos os resultados de transcrição. Anteriormente, quando o serviço retornava várias transcrições para uma única solicitação de reconhecimento de voz, as pontuações de confiança poderiam não ser retornadas para todas as transcrições.
11 de abril de 2022
- Novo modelo de última geração
pt-BR_Multimedia
para português brasileiro -
O serviço agora oferece um modelo multimídia de última geração para português brasileiro:
pt-BR_Multimedia
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização e gramáticas de modelo de idioma. Para obter mais informações sobre modelos de última geração e baixa latência, consulte - Atualize para o modelo de última geração
de-DE_Multimedia
alemão para suportar baixa latência -
O modelo alemão de última geração
de-DE_Multimedia
agora suporta baixa latência. Não é necessário fazer upgrade de modelos customizados que sejam baseados no modelo base alemão atualizado. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte - O suporte para pronúncias agora é documentado para modelos customizados com base em modelos de última geração
-
Para modelos de idioma customizados que são baseados em modelos de última geração, o suporte agora é documentado para especificações de pronúncias para palavras customizadas. O suporte para pronúncias já está disponível desde o final de 2021.
Diferenças existem entre o uso do campo
sounds_like
para modelos customizados que são baseados em modelos de última geração e de geração anterior. Para obter mais informações sobre o uso do camposounds_like
com modelos customizados que são baseados em modelos de última geração, consulte Trabalhando com palavras customizadas para modelos de última geração. - Importante: o parâmetro
customization_id
descontinuado foi removido da documentação -
Importante: em 09 de outubro de 2018, o parâmetro
customization_id
de todas as solicitações de reconhecimento de voz foi descontinuado e substituído pelo parâmetrolanguage_customization_id
. O parâmetrocustomization_id
agora foi removido da documentação para os métodos de reconhecimento de voz:/v1/recognize
para solicitações do WebSocketPOST /v1/recognize
para solicitações de HTTP síncronas (incluindo solicitações com múltiplas partes)POST /v1/recognitions
para solicitações de HTTP assíncronas
Nota: se você usar os SDKs do Watson, assegure-se de ter atualizado qualquer código de aplicativo para usar o parâmetro
language_customization_id
em vez do parâmetrocustomization_id
. O parâmetrocustomization_id
não estará mais disponível a partir dos métodos equivalentes dos SDKs a partir da sua próxima liberação principal. Para obter mais informações sobre os métodos de reconhecimento de fala, consulte a referência API & SDK.
17 de março de 2022
- Agora o suporte gramatical para modelos de última geração está geralmente disponível
-
O suporte gramatical agora está geralmente disponível (GA) para modelos de última geração que atendam às condições a seguir:
- Os modelos estão geralmente disponíveis.
- Os modelos suportam customização do modelo de idioma.
Para obter mais informações, veja os tópicos a seguir:
- Para obter mais informações sobre o status de suporte de gramática para modelos de próxima geração, consulte Suporte de customização para modelos de próxima geração
- Para obter mais informações sobre gramáticas, consulte Gramáticas.
- Novo modelo multimídia alemão de última geração
-
Agora o serviço oferece um modelo multimídia de última geração para o alemão:
de-DE_Multimedia
. O novo modelo está geralmente disponível. Ele não suporta baixa latência. Ele suporta customização de modelo de idioma (geralmente disponível) e gramáticas (beta).Para obter mais informações sobre todos os modelos de última geração disponíveis e seu suporte de customização, consulte
- Agora o modelo beta de última geração
en-WW_Medical_Telephony
suporta baixa latência -
Agora o modelo beta de última geração
en-WW_Medical_Telephony
suporta baixa latência. Para obter mais informações sobre todos os modelos de última geração e baixa latência, consulte
15 de março de 2022
- Importante: descontinuação da maioria dos modelos de geração anterior
-
Substituído: esse aviso de descontinuação foi substituído pelo 15 de fevereiro de 2023 service update. A data de término de serviço para todos os modelos de geração anterior agora é 31 de Julho de 2023
Em vigor desde 15 de março de 2022, os modelos de geração anterior para todos os idiomas além de árabe e o japonês estão descontinuados. Os modelos descontinuados permanecerão disponíveis até o dia 15 de setembro de 2022, quando serão retirados do serviço e da documentação. Os modelos árabe e japonês da geração anterior não estão obsoletos.
Agora os modelos de geração anterior a seguir estão descontinuados:
- Chinês (Mandarim):
zh-CN_NarrowbandModel
ezh-CN_BroadbandModel
- Holandês (Holanda):
nl-NL_NarrowbandModel
enl-NL_BroadbandModel
- Inglês (Australiano):
en-AU_NarrowbandModel
een-AU_BroadbandModel
- Inglês (Reino Unido):
en-GB_NarrowbandModel
een-GB_BroadbandModel
- Inglês (Estados Unidos):
en-US_NarrowbandModel
,en-US_BroadbandModel
een-US_ShortForm_NarrowbandModel
- Francês (Canadense):
fr-CA_NarrowbandModel
efr-CA_BroadbandModel
- Francês (França):
fr-FR_NarrowbandModel
efr-FR_BroadbandModel
- Alemão:
de-DE_NarrowbandModel
ede-DE_BroadbandModel
- Italiano:
it-IT_NarrowbandModel
eit_IT_BroadbandModel
- Coreano:
ko-KR_NarrowbandModel
eko-KR_BroadbandModel
- Português (Brasileiro):
pt-BR_NarrowbandModel
ept-BR_BroadbandModel
- Espanhol (Argentino):
es-AR_NarrowbandModel
ees-AR_BroadbandModel
- Espanhol (Castelhano):
es-ES_NarrowbandModel
ees-ES_BroadbandModel
- Espanhol (Chileno):
es-CL_NarrowbandModel
ees-CL_BroadbandModel
- Espanhol (Colombiano):
es-CO_NarrowbandModel
ees-CO_BroadbandModel
- Espanhol (Mexicano):
es-MX_NarrowbandModel
ees-MX_BroadbandModel
- Espanhol (Peruano):
es-PE_NarrowbandModel
ees-PE_BroadbandModel
Se utilizar qualquer um desses modelos descontinuados, você deverá migrar para o modelo de última geração equivalente até a data de término de serviço.
- Para obter mais informações sobre os modelos de última geração para os quais é possível migrar de cada um dos modelos descontinuados, consulte Idiomas e modelos de geração anterior
- Para obter mais informações sobre os modelos de última geração, consulte Idiomas e modelos de última geração
- Para obter mais informações sobre a migração dos modelos de geração anterior para os de última geração, consulte Migrando para modelos de última geração.
Nota: quando a geração anterior
en-US_BroadbandModel
for removida do serviço em 15 de setembro, o modelo de última geraçãoen-US_Multimedia
passará a ser o modelo padrão para solicitações de reconhecimento de voz. - Chinês (Mandarim):
- Agora os modelos de última geração suportam parâmetros de análise de áudio
-
Agora todos os modelos de última geração suportam os parâmetros a seguir de análise de áudio como recursos geralmente disponíveis:
end_of_phrase_silence_time
especifica a duração do intervalo de pausa em que o serviço divide uma transcrição em múltiplos resultados finais. Para obter mais informações, consulte Tempo de silêncio no término da frase.split_transcript_at_phrase_end
direciona o serviço para dividir a transcrição em múltiplos resultados finais com base em recursos semânticos da entrada. Para obter mais informações, consulte Transcrição dividida no término da frase.
- Correção de defeito: Corrigir a documentação dos rótulos dos alto-falantes
-
Correção de defeito: a documentação de rótulos de alto-falante incluía a seguinte instrução errônea em vários lugares: Para os modelos de última geração, os rótulos de alto-falante não são suportados para uso com resultados provisórios ou baixa latência. Os rótulos de alto-falante são suportados para uso com resultados provisórios e baixa latência para modelos de última geração. Para obter mais informações, consulte Rótulos do falante.
28 de fevereiro de 2022
- Atualizações para os modelos multimídia de última geração em inglês e francês para suportar baixa latência
-
Os modelos de multimídia a seguir foram atualizados para suportar baixa latência:
- Inglês australiano:
en-AU_Multimedia
- Inglês do Reino Unido:
en-GB_Multimedia
- Inglês dos EUA:
en-US_Multimedia
- Francês:
fr-FR_Multimedia
Não é preciso atualizar modelos de idioma customizados que são construídos sobre esses modelos de base. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte
- Inglês australiano:
- Novo modelo multimídia de última geração em espanhol castelhano
-
Agora o serviço oferece um modelo multimídia de última geração para espanhol castelhano:
es-ES_Multimedia
. O novo modelo suporta baixa latência e está geralmente disponível. Ele também suporta customização de modelo de idioma (geralmente disponível) e gramáticas (beta).Para obter mais informações sobre todos os modelos de última geração disponíveis e seu suporte de customização, consulte
11 de fevereiro de 2022
- Correção de defeito: Correção da documentação de upgrade do modelo personalizado e da versão do modelo básico
-
Correção de defeito: a documentação que descreve o upgrade de modelos customizados e as sequências de versão que são utilizadas para diferentes versões de modelos de base foi atualizada. Agora a documentação afirma que o upgrade para customização do modelo de idioma também se aplica aos modelos de última geração. Também foram atualizadas as sequências de versões que representam diferentes versões de modelos de base. E o parâmetro
base_model_version
também pode ser usado com modelos de última geração atualizados.Para obter mais informações sobre o upgrade de modelo customizado, quando o upgrade é necessário e como usar versões mais antigas de modelos customizados, consulte
- Correção de defeito: Atualização da documentação de capitalização
-
Correção de defeito: a documentação que descreve a capitalização automática do serviço de transcrições foi atualizada. O serviço capitaliza os substantivos apropriados apenas para os seguintes idiomas e modelos:
- Todos os modelos de inglês dos EUA de geração anterior
- O modelo alemão de última geração
Para obter mais informações, consulte Capitalização.
2 de fevereiro de 2022
- Agora o novo modelo beta
en-WW_Medical_Telephony
está disponível -
Agora um novo beta
en-WW_Medical_Telephony
de última geração está disponível. O novo modelo compreende termos dos domínios médico e farmacológico. Utilize o modelo em situações em que é necessário transcrever a terminologia médica comum, como nomes de medicamentos, marcas de produtos, procedimentos médicos, doenças, tipos de médico ou terminologia relacionada à COVID-19. Os casos de uso comuns incluem conversas entre um paciente e um provedor de serviços médicos (por exemplo, um médico, enfermeiro ou farmacêutico).O novo modelo está disponível para todos os dialetos ingleses suportados: australiano, indiano, Reino Unido e EUA. O novo modelo suporta customização de modelo de idioma e gramáticas como funcionalidade beta. Ele suporta a maioria dos mesmos parâmetros que o modelo
en-US_Telephony
, incluindosmart_formatting
para áudio em inglês dos EUA. Ele não suporta os parâmetros a seguir:low_latency
,profanity_filter
,redaction
espeaker_labels
.Para obter mais informações, consulte O modelo de telefonia médica inglês.
- Atualização para o modelo chinês
zh-CN_Telephony
-
O modelo chinês de última geração
zh-CN_Telephony
foi atualizado para reconhecimento de voz melhorado. O modelo continua suportando baixa latência. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração.Se tiver modelos de idioma customizados baseados no modelo atualizado, você deverá fazer upgrade dos modelos customizados existentes aproveitar as atualizações usando o método
POST /v1/customizations/{customization_id}/upgrade_model
. Para obter mais informações, consulte Fazendo upgrade de modelos customizados. - Atualize para o modelo de última geração
ja-JP_Multimedia
japonês para suportar baixa latência -
Agora o modelo japonês de última geração
ja-JP_Multimedia
suporta baixa latência. É possível usar o parâmetrolow_latency
com solicitações de reconhecimento de voz que utilizam o modelo. Não é preciso fazer upgrade de modelos customizados baseados no modelo de base japonês atualizado. Para obter mais informações sobre os modelos de última geração e baixa latência, consulte
3 de dezembro de 2021
- Novo modelo de telefonia de última geração em espanhol da América Latina
-
Agora o serviço oferece um modelo de telefonia de última geração para o espanhol latino-americano:
es-LA_Telephony
. O novo modelo suporta baixa latência e está geralmente disponível.O modelo
es-LA_Telephony
se aplica a todos os dialetos latino-americanos. Ele é equivalente aos modelos de geração anterior que estão disponíveis para os dialetos argentinos, chilenos, colombianos, mexicanos e peruanos. Se você usou um modelo de geração anterior para qualquer um desses dialetos específicos, use o modeloes-LA_Telephony
para migrar para o modelo de última geração equivalente.Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- Importante: modelos de idioma customizados baseados em determinados modelos de última geração devem ser recriados
-
Importante: se tiver criado modelos de idioma customizados com base em determinados modelos de última geração, você deverá recriar os modelos customizados. Até a recriação dos modelos de idioma customizados, as solicitações de reconhecimento de voz que tentarem usar os modelos customizados falharão com o código de erro HTTP 400.
É preciso recriar os modelos de idioma customizados criados com base nas seguintes versões de modelos de última geração:
- Para o modelo
en-AU_Telephony
, modelos customizados que você criou deen-AU_Telephony.v2021-03-03
paraen-AU_Telephony.v2021-10-04
. - Para o modelo
en-GB_Telephony
, modelos customizados que você criou deen-GB_Telephony.v2021-03-03
paraen-GB_Telephony.v2021-10-04
. - Para o modelo
en-US_Telephony
, modelos customizados que você criou deen-US_Telephony.v2021-06-17
paraen-US_Telephony.v2021-10-04
. - Para o modelo
en-US_Multimedia
, modelos customizados que você criou deen-US_Multimedia.v2021-03-03
paraen-US_Multimedia.v2021-10-04
.
Para identificar a versão de um modelo na qual um modelo de idioma customizado é baseado, use o método
GET /v1/customizations
para listar todos os modelos de idioma customizados ou o métodoGET /v1/customizations/{customization_id}
para listar um modelo específico. O campoversions
da saída mostra o modelo base para um modelo de idioma customizado. Para obter mais informações, consulte Listando modelos de idioma customizados.Para recriar um modelo de idioma customizado, primeiro crie um novo modelo customizado. Em seguida, inclua no novo modelo todas as palavras customizadas e dos corpora do modelo customizado anterior. Em seguida, é possível excluir o modelo customizado anterior. Para obter mais informações, consulte Criando um modelo de idioma customizado.
- Para o modelo
28 de outubro de 2021
- Novo modelo de telefonia chinês de última geração
-
Agora o serviço oferece um modelo de telefonia de última geração para o mandarim chinês:
zh-CN_Telephony
. O novo modelo suporta baixa latência e está geralmente disponível. Para obter mais informações sobre todos os modelos de última geração disponíveis, consulte Idiomas e modelos de última geração. - Novos modelos multimídia de última geração em inglês australiano e inglês do Reino Unido
-
Agora o serviço oferece os modelos multimídia a seguir de última geração. Os novos modelos estão geralmente disponíveis e nenhum suporta baixa latência.
- Inglês australiano:
en-AU_Multimedia
- Inglês do Reino Unido:
en-GB_Multimedia
Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- Inglês australiano:
- Atualizações para vários modelos de última geração para reconhecimento de voz melhorado
-
Os modelos de última geração a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de telefonia em inglês australiano (
en-AU_Telephony
) - Modelo de telefonia em inglês do Reino Unido (
en-GB_Telephony
) - Modelo multimídia em inglês dos EUA (
en-US_Multimedia
) - Modelo de telefonia em inglês dos EUA (
en-US_Telephony
) - Modelo de telefonia em espanhol castelhano (
es-ES_Telephony
)
Para obter mais informações sobre todos os modelos de próxima geração disponíveis, consulte Idiomas e modelos de última geração.
- Modelo de telefonia em inglês australiano (
- Agora o suporte gramatical para modelos de geração anterior está geralmente disponível
-
Agora o suporte gramatical está geralmente disponível (GA) para modelos de geração anterior que atendem às condições a seguir:
- Os modelos estão geralmente disponíveis.
- Os modelos suportam customização do modelo de idioma.
Para obter mais informações, veja os tópicos a seguir:
- Para obter mais informações sobre o status do suporte de gramática para modelos de geração anteriores, consulte Suporte de customização para modelos de geração anteriores
- Para obter mais informações sobre gramáticas, consulte Gramáticas.
- Novo suporte gramatical beta para modelos de última geração
-
Agora o suporte gramatical está disponível como funcionalidade beta para todos os modelos de última geração. Todos os modelos de última geração estão geralmente disponíveis (GA) e suportam customização de modelo de idioma. Para obter mais informações, veja os tópicos a seguir:
- Para obter mais informações sobre o status de suporte de gramática para modelos de próxima geração, consulte Suporte de customização para modelos de próxima geração
- Para obter mais informações sobre gramáticas, consulte Gramáticas.
Nota: o suporte beta para gramáticas fornecido por modelos de última geração está disponível para o serviço Speech to Text apenas na IBM Cloud. As gramáticas ainda não são suportadas para modelos de última geração no IBM Cloud Pak for Data.
- Novo campo
custom_acoustic_model
para recursos suportados -
Os métodos
GET /v1/models
eGET /v1/models/{model_id}
agora informam se um modelo suporta customização de modelo acústico. Agora o objetoSupportedFeatures
inclui um campo adicional,custom_acoustic_model
, um booleano que étrue
para um modelo que suporta customização de modelo acústico efalse
, caso contrário. Atualmente, o campo étrue
para todos os modelos de geração anterior efalse
para todos os modelos de última geração.- Para obter mais informações sobre esses métodos, consulte Listando informações sobre modelos.
- Para obter mais informações sobre o suporte para customização de modelo acústico, consulte Suporte ao idioma para customização.
22 de outubro de 2021
- Correção de defeito: Resolver falhas assíncronas em HTTP
- Correção de defeito: a interface HTTP assíncrona falhou ao transcrever algum áudio. Além disso, o retorno de chamada para a solicitação retornou o status
recognitions.completed_with_results
em vez derecognitions.failed
. Esse erro foi resolvido.
6 de outubro de 2021
- Atualizações para modelos de última geração em tcheco e holandês
-
Os modelos de idioma de última geração a seguir mudaram conforme indicado:
- Agora o modelo de telefonia tcheco,
cs-CZ_Telephony
, está geralmente disponível (GA). O modelo continua suportando baixa latência. - O modelo de telefonia belga holandês,
nl-BE_Telephony
, foi atualizado para reconhecimento de voz melhorado. O modelo continua suportando baixa latência. - Agora o modelo de telefonia holandês da Holanda,
nl-NL_Telephony
, é GA. Além disso, agora o modelo suporta baixa latência.
Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.
- Agora o modelo de telefonia tcheco,
- Novo suporte de HIPAA aos planos Premium na localização de Dallas
-
O suporte à Lei de portabilidade e responsabilidade de seguros de saúde dos EUA (HIPAA) agora está disponível para planos Premium que estão hospedados na localização de Dallas (
us-south
). Para obter mais informações, consulte Lei de portabilidade e responsabilidade de seguros de saúde (HIPAA).
16 de setembro de 2021
- Novos modelos beta de última geração em holandês tcheco e da Holanda
-
Agora o serviço suporta os seguintes novos modelos de idioma de última geração. Ambos os novos modelos são funcionalidade beta.
- Tcheco:
cs-CZ_Telephony
. O novo modelo suporta baixa latência. - Holandês da Holanda:
nl-NL_Telephony
. O novo modelo não suporta baixa latência.
Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.
- Tcheco:
- Atualizações para modelos de última geração em coreano e português do Brasil
-
Os modelos de última geração a seguir foram atualizados:
- Agora o modelo coreano
ko-KR_Telephony
suporta baixa latência. - O modelo em português do Brasil
pt-BR_Telephony
foi atualizado para reconhecimento de voz aprimorado.
- Agora o modelo coreano
- Correção de defeitos: Correção dos resultados provisórios e da documentação de baixa latência
-
Correção de defeito: a documentação que descreve os resultados provisórios e os recursos de baixa latência com modelos de última geração foi reescrita para maior clareza e correção. Para obter mais informações, veja os tópicos a seguir:
- Correção de defeito: Melhorar os resultados das etiquetas de alto-
-
Correção de defeito: ao usar rótulos de alto-falante com modelos de última geração, agora o serviço identifica o alto-falante para todas as palavras do áudio de entrada, incluindo palavras muito curtas que têm os mesmos registros de data e hora iniciais e finais.
31 de agosto de 2021
- Todos os modelos de última geração agora estão geralmente disponíveis
-
Agora todos os modelos de idioma de última geração existentes estão geralmente disponíveis (GA). Eles são suportados para uso em aplicativos e ambientes de produção.
- Para obter mais informações sobre todos os modelos de idiomas de última geração disponíveis, consulte Idiomas e modelos de última geração.
- Para obter mais informações sobre os recursos que são suportados para cada modelo de última geração, consulte Recursos suportados para modelos de última geração.
- A customização do modelo de idioma para modelos de última geração agora está geralmente disponível
-
Agora a customização do modelo de idioma está geralmente disponível (GA) para todos os idiomas e modelos de última geração disponíveis. A customização do modelo de idioma para modelos de última geração é suportada para uso em aplicativos e ambientes de produção.
Para modelos de última geração, você usa os mesmos comandos para criar, gerenciar e usar modelos de idioma customizado, corpora e palavras customizadas assim como para modelos de geração anterior. Mas a customização para modelos de última geração funciona de forma diferente da customização para modelos de geração anterior.. Para modelos customizados baseados em modelos de última geração:
- Os modelos customizados não têm conceito de palavras fora do vocabulário (OOV).
- Palavras de corpora não são incluídas no recurso de palavras.
- Atualmente não é possível utilizar o recurso parecido para palavras customizadas.
- Não é preciso fazer upgrade de modelos customizados quando os modelos de idioma base são atualizados.
- As gramáticas não são suportadas atualmente.
Para obter mais informações sobre o uso da customização de modelo de idioma para modelos de última geração, consulte
- Entendendo a customização
- Suporte ao idioma para customização
- Criando um modelo de idioma customizado
- Usando um modelo de idioma customizado para reconhecimento de voz
- Trabalhando com corpora e palavras customizadas para modelos de última geração
Tópicos adicionais descrevem o gerenciamento de modelos de idioma customizados, corpora e palavras customizadas. Essas operações são as mesmas para modelos customizados baseados em modelos anteriores e de última geração.
16 de agosto de 2021
- Novos modelos beta em inglês indiano, hindi indiano, japonês e coreano de última geração
-
Agora o serviço suporta os seguintes novos modelos de idioma de última geração. Todos os novos modelos são funcionalidade beta.
- Inglês indiano:
en-IN_Telephony
. O modelo suporta baixa latência. - Hindi indiano:
hi-IN_Telephony
. O modelo suporta baixa latência. - Japonês:
ja-JP_Multimedia
. O modelo não suporta baixa latência. - Coreano:
ko-KR_Multimedia
eko-KR_Telephony
. Os modelos não suportam baixa latência.
Para obter mais informações sobre os modelos de última geração e baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.
- Inglês indiano:
16 de julho de 2021
- Novo modelo beta de última geração em francês
- O modelo de idioma francês de última geração
fr-FR_Multimedia
já está disponível. O novo modelo não suporta baixa latência. O modelo é funcionalidade beta. - Atualizações para o modelo beta de última geração em inglês dos EUA para reconhecimento de voz melhorado
- O modelo de última geração
en-US_Telephony
em inglês dos EUA foi atualizado para reconhecimento de voz melhorado. O modelo atualizado continua sendo funcionalidade beta. - Correção de defeito: Documentação de atualização para marcadores de hesitação
- Correção de defeito: a documentação falhou ao afirmar que os modelos de última geração não produzem marcadores de hesitação. A documentação foi atualizada para mencionar que apenas modelos de geração anterior produzem marcadores de hesitação. Os modelos de última geração incluem as hesitações reais em resultados de transcrição. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.
15 de junho de 2021
- Novo modelo beta de última geração em belga da Holanda
-
Agora o modelo de idioma de última geração
nl-BE_Telephony
em belga (flamengo) da Holanda já está disponível. O novo modelo suporta baixa latência. O modelo é funcionalidade beta. Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência. - Novo suporte de baixa latência beta para modelos em árabe, francês canadense e italiano de última geração
-
Agora os modelos de idioma de última geração beta existentes a seguir suportam baixa latência:
- Modelo em árabe
ar-MS_Telephony
- Modelo em francês canadense
fr-CA_Telephony
- Modelo em italiano
it-IT_Telephony
Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.
- Modelo em árabe
- Atualizações para modelos de última geração beta em árabe e português do Brasil para reconhecimento de voz melhorado
-
Os modelos de idioma beta de última geração a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo em árabe
ar-MS_Telephony
- Modelo em português do Brasil
pt-BR_Telephony
Para obter mais informações sobre os modelos de última geração e sobre baixa latência, consulte Idiomas e modelos de última geração e Baixa latência.
- Modelo em árabe
26 de maio de 2021
- Novo suporte beta para parâmetro
audio_metrics
para modelos de última geração - O parâmetro
audio_metrics
agora é suportado como funcionalidade beta para uso com todos os idiomas e modelos de última geração. Para obter mais informações, consulte Métricas de áudio. - Novo suporte beta para parâmetro
word_confidence
para modelos de última geração - O parâmetro
word_confidence
agora é suportado como funcionalidade beta para uso com todos os idiomas e modelos de última geração. Para obter mais informações, consulte Confiança de palavra. - Correção de defeito: documentação de atualização para modelos de última geração
- Correção de defeito: A documentação foi atualizada para corrigir as seguintes informações:
- Ao usar um modelo de última geração para reconhecimento de voz, agora os resultados finais de transcrição incluem o campo
confidence
. O campo é sempre incluído em resultados finais de transcrição quando se usa um modelo de geração anterior. Essa correção aborda uma limitação que foi relatada para a liberação de 12 de abril de 2021 dos modelos de última geração. - A documentação afirmou incorretamente que o uso do parâmetro
smart_formatting
faz com que o serviço remova marcadores de hesitação de resultados finais de transcrição para japonês. A formatação inteligente não remove marcadores de hesitação de resultados finais para o idioma japonês, mas apenas para inglês dos EUA. Para obter mais informações, consulte Quais resultados a formatação inteligente afeta?
- Ao usar um modelo de última geração para reconhecimento de voz, agora os resultados finais de transcrição incluem o campo
27 de abril de 2021
- Novos modelos de última geração beta em árabe e português do Brasil
-
O serviço suporta dois novos modelos beta de última geração:
- O modelo em português do Brasil
pt-BR_Telephony
, que suporta baixa latência. - O modelo em árabe (Padrão Moderno)
ar-MS_Telephony
, que não suporta baixa latência.
Para obter mais informações, consulte Idiomas e modelos de última geração.
- O modelo em português do Brasil
- Atualizações para o modelo beta de última geração em espanhol castelhano para reconhecimento de voz melhorado
-
Agora o modelo beta de última geração
es-ES_Telephony
em espanhol castelhano suporta o parâmetrolow_latency
. Para obter mais informações, consulte Baixa latência. - Novo suporte beta para rótulos de alto-falante com modelos de última geração
-
Agora o parâmetro
speaker_labels
é suportado como funcionalidade beta para uso com os seguintes modelos de última geração:- Modelo em inglês australiano
en-AU_Telephony
- Modelo em inglês do Reino Unido
en-GB_Telephony
- Modelos em inglês dos EUA
en-US_Multimedia
een-US_Telephony
- Modelo em alemão
de-DE_Telephony
- Modelo em espanhol castelhano
es-ES_Telephony
Com os modelos de última geração, o parâmetro
speaker_labels
não é suportado para uso com os parâmetrosinterim_results
oulow_latency
neste momento. Para obter mais informações, consulte Rótulos do falante. - Modelo em inglês australiano
- Novo código de erro HTTP para uso de
word_confidence
com modelos de última geração -
O parâmetro
word_confidence
não é suportado para uso com modelos de última geração. Agora o serviço retornará o código de erro 400 a seguir se você usar o parâmetroword_confidence
com um modelo de última geração para reconhecimento de voz:{ "error": "word_confidence is not a supported feature for model {model}", "code": 400, "code_description": "Bad Request" }
12 de abril de 2021
- Novos modelos de idioma de última geração beta e parâmetro
low_latency
-
Agora o serviço suporta um número crescente de modelos de idioma de última geração. Os modelos multimídia e de telefonia de última geração melhoram as capacidades de reconhecimento de voz da geração anterior do serviço de modelos de banda larga e banda estreita. Os novos modelos alavancam redes neurais e análise bidirecional para alcançar tanto um alto rendimento quanto uma maior precisão de transcrição. Neste momento, os modelos de última geração suportam apenas um número limitado de idiomas e recursos de reconhecimento de voz. Os idiomas suportados, os modelos e os recursos aumentarão com as liberações futuras. Os modelos de última geração são funcionalidade beta.
Muitos dos modelos de última geração também suportam um novo parâmetro
low_latency
que permite solicitar resultados mais rápidos à custa de uma redução na qualidade da transcrição. Quando a baixa latência é ativada, o serviço diminui sua análise do áudio, o que pode reduzir a precisão da transcrição. Essa troca poderá ser aceitável se o aplicativo preferir um tempo de resposta menor à maior precisão possível. O parâmetrolow_latency
é funcionalidade beta.O parâmetro
low_latency
impacta seu uso do parâmetrointerim_results
com a interface do WebSocket. Os resultados provisórios estão disponíveis apenas para aqueles modelos de última geração que suportam baixa latência e somente se ambos os parâmetrosinterim_results
elow_latency
estiverem configurados paratrue
.- Para obter mais informações sobre os modelos de última geração e suas capacidades, consulte Idiomas e modelos de última geração.
- Para obter mais informações sobre o suporte ao idioma para modelos de última geração e sobre quais desses modelos suportam baixa latência, consulte Modelos de idioma de última geração suportados.
- Para obter mais informações sobre o suporte a recursos para modelos de última geração, consulte Recursos suportados para modelos de última geração.
- Para obter mais informações sobre o parâmetro
low_latency
, consulte Baixa latência. - Para obter mais informações sobre a interação entre os parâmetros
low_latency
einterim_results
para modelos de última geração, consulte Solicitando resultados provisórios e baixa latência.
17 de março de 2021
- Correção de defeito: Correção da limitação da interface assíncrona HTTP
- Correção de defeito: a limitação que foi relatada com a interface HTTP assíncrona em Dallas (
us-south
) no dia 16 de dezembro de 2020 foi abordada. Anteriormente, uma pequena porcentagem de tarefas estava entrando em loops infinitos que impediram sua execução. Solicitações HTTP assíncronas no data center de Dallas não sofrem mais essa limitação.
2 de dezembro de 2020
- Modelo em árabe renomeado para
ar-MS_BroadbandModel
- Agora o modelo de banda larga em árabe é chamado
ar-MS_BroadbandModel
. O antigo nome,ar-AR_BroadbandModel
, foi descontinuado. Ele continuará funcionando por pelo menos um ano, mas poderá ser removido em uma data futura. Você é encorajado a migrar para o novo nome assim que puder.
2 de novembro de 2020
- Agora os modelos em francês canadense estão geralmente disponíveis
-
Agora os modelos em francês canadense,
fr-CA_BroadbandModel
efr-CA_NarrowbandModel
, estão geralmente disponíveis (GA). Anteriormente eles eram beta. Agora eles também suportam customização de modelo de idioma e modelo acústico.- Para obter mais informações sobre idiomas e modelos suportados, consulte Idiomas e modelos de geração anterior.
- Para obter mais informações sobre o suporte ao idioma para a customização, consulte Suporte ao idioma para a customização.
22 de outubro de 2020
- Agora os modelos em inglês australiano estão geralmente disponíveis
-
Agora os modelos em inglês australiano,
en-AU_BroadbandModel
een-AU_NarrowbandModel
, estão geralmente disponíveis (GA). Anteriormente eles eram beta. Agora eles também suportam customização de modelo de idioma e modelo acústico.- Para obter mais informações sobre idiomas e modelos suportados, consulte Idiomas e modelos de geração anterior.
- Para obter mais informações sobre o suporte ao idioma para a customização, consulte Suporte ao idioma para a customização.
- Atualizações dos modelos em português do Brasil para reconhecimento de voz melhorado
-
Os modelos em português do Brasil,
pt-BR_BroadbandModel
ept-BR_NarrowbandModel
, foram atualizados para o reconhecimento de voz aprimorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Agora o parâmetro
split_transcript_at_phrase_end
está geralmente disponível para todos os idiomas -
Agora o parâmetro de reconhecimento de voz
split_transcript_at_phrase_end
está geralmente disponível (GA) para todos os idiomas. Anteriormente, ele tinha disponibilidade geral apenas para inglês dos EUA e do Reino Unido. Para obter mais informações, consulte Transcrição dividida no término da frase.
7 de outubro de 2020
- Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado
-
O modelo
ja-JP_BroadbandModel
foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
30 de setembro de 2020
- Atualizações para planos de precificação para o serviço
-
Os planos de precificação para o serviço mudaram:
- O serviço continua oferecendo um plano Lite que fornece acesso básico sem custo para minutos limitados de reconhecimento de voz por mês.
- O serviço oferece um novo plano Plus que fornece um modelo de precificação em camadas simples e acesso às capacidades de customização do serviço.
- O serviço oferece um novo plano Premium que proporciona uma capacidade significativamente maior e recursos aprimorados.
O plano Plus substitui o plano Standard. O plano Standard continuará disponível para compra por um curto período. Ele também continua disponível por tempo indeterminado para usuários existentes do plano sem mudança na precificação. Os usuários existentes podem fazer upgrade para o plano Plus a qualquer momento.
Para obter mais informações sobre os planos de precificação disponíveis, consulte os recursos a seguir:
- Para obter informações gerais sobre os planos de precificação e respostas a perguntas comuns, consulte FAQs de precificação.
- Para obter mais informações sobre os planos de preços ou para adquirir um plano, consulte o serviço Speech to Text no Catálogo IBM Cloud®.
20 de agosto de 2020
- Novos modelos em francês canadense
-
O serviço agora oferece modelos de banda larga beta e de banda estreita para o francês canadense:
fr-CA_BroadbandModel
fr-CA_NarrowbandModel
Os novos modelos não suportam a customização do modelo de idioma ou do modelo acústico, rótulos de falantes ou formatação inteligente. Para obter mais informações sobre esses e todos os modelos suportados, consulte Modelos de idioma de geração anterior suportados.
5 de agosto de 2020
- Novos modelos em inglês australiano
-
O serviço agora oferece modelos de banda larga beta e de banda estreita para o inglês australiano:
en-AU_BroadbandModel
en-AU_NarrowbandModel
Os novos modelos não suportam a customização do modelo de idioma ou do modelo acústico nem a formatação inteligente. Os novos modelos suportam rótulos de falantes. Para obter mais informações, consulte
- Atualizações em vários modelos para reconhecimento de voz melhorado
-
Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de banda larga em francês (
fr-FR_BroadbandModel
) - Modelos de banda larga (
de-DE_BroadbandModel
) e banda estreita (de-DE_NarrowbandModel
) em alemão - Modelos de banda larga (
en-GB_BroadbandModel
) e banda estreita (en-GB_NarrowbandModel
) em inglês do Reino Unido - Modelo de banda estreita (
en-US_ShortForm_NarrowbandModel
) em inglês dos EUA
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda larga em francês (
- Marcador de hesitação para alemão mudou
-
O marcador de hesitação que é usado para modelos atualizados de banda larga e banda estreita em alemão mudou de
[hesitation]
para%HESITATION
. Para obter mais informações, consulte hesitações e marcadores de hesitação da Speech.
4 de junho de 2020
- Correção de defeito: Melhorar a latência para modelos de linguagem personalizados com muitas gramáticas
- Correção de defeito: o problema de latência para modelos de idioma customizados que contêm um grande número de gramáticas foi resolvido. Quando inicialmente usados para o reconhecimento de voz, o carregamento desses modelos customizados poderia demorar vários segundos. Os modelos customizados agora são carregados muito mais rápido, reduzindo drasticamente a latência quando usados para o reconhecimento.
28 de abril de 2020
- Atualizações em modelos em italiano para reconhecimento de voz melhorado
-
Os modelos de banda larga (
it-IT_BroadbandModel
) e banda estreita (it-IT_NarrowbandModel
) italianos foram atualizados para melhor reconhecimento de voz. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Agora os modelos em holandês e italiano estão geralmente disponíveis
-
Os modelos de idioma holandês e italiano agora são geralmente disponíveis (GA) para reconhecimento de voz e para customização de modelo de idioma e de modelo acústico:
- Modelo de banda larga holandês (
nl-NL_BroadbandModel
) - Modelo de banda estreita holandês (
nl-NL_NarrowbandModel
) - Modelo de banda larga italiano (
it-IT_BroadbandModel
) - Modelo de banda estreita italiano (
it-IT_NarrowbandModel
)
Para obter mais informações sobre todos os modelos de idioma disponíveis, consulte
- Modelo de banda larga holandês (
1 de abril de 2020
- Agora a customização de modelo acústico está geralmente disponível
-
A customização de modelo acústico agora é geralmente disponível (GA) para todos os idiomas suportados. Assim como com os modelos de idioma customizados, a IBM não cobra para criar nem hospedar um modelo acústico customizado. Você é cobrado somente por usar um modelo customizado com uma solicitação de reconhecimento de voz.
O uso de um modelo de idioma customizado, um modelo acústico customizado ou ambos os tipos de modelo para transcrição incorre em encargo complementar de US$ 0,03 (USD) por minuto. Esse é o encargo adicional aos encargos de uso padrão de US$ 0,02 (USD) por minuto e se aplica a todos os idiomas suportados pela interface de customização. Portanto, o total de encargos para o uso de um ou mais modelos customizados para reconhecimento de voz é US$ 0,05 (USD) por minuto.
- Para obter mais informações sobre o suporte para modelos de idiomas individuais, consulte Suporte ao idioma para a customização.
- Para obter mais informações sobre precificação, consulte a página de precificação para o serviço Speech to Text ou as FAQs de precificação.
16 de março de 2020
- Agora rótulos de alto-falante são suportados para alemão e coreano
- O serviço agora suporta rótulos de falante (o parâmetro
speaker_labels
) para modelos de idioma alemão e coreano. Os rótulos de falante identificam quais palavras cada indivíduo falou em uma interação com diversos participantes. Para obter mais informações, consulte Rótulos do falante. - Agora o Activity Tracker é suportado para interface HTTP assíncrona
- Agora o serviço suporta o uso de eventos do Activity Tracker para todas as operações da interface HTTP assíncrona. O IBM Cloud Activity Tracker registra atividades iniciadas pelo usuário que mudam o estado de um serviço na IBM Cloud®. Para obter mais informações, consulte Eventos do Activity Tracker.
24 de fevereiro de 2020
- Atualizações em vários modelos para reconhecimento de voz melhorado
-
Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de banda larga holandês (
nl-NL_BroadbandModel
) - Modelo de banda estreita holandês (
nl-NL_NarrowbandModel
) - Modelo de banda larga italiano (
it-IT_BroadbandModel
) - Modelo de banda estreita italiano (
it-IT_NarrowbandModel
) - Modelo de banda estreita japonês (
ja-JP_NarrowbandModel
) - Modelo de banda larga de inglês dos EUA (
en-US_BroadbandModel
)
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda larga holandês (
- Customização de modelo de idioma agora disponível para holandês e italiano
-
Agora a customização do modelo de idioma é suportada para holandês e italiano com as novas versões dos modelos a seguir:
- Modelo de banda larga holandês (
nl-NL_BroadbandModel
) - Modelo de banda estreita holandês (
nl-NL_NarrowbandModel
) - Modelo de banda larga italiano (
it-IT_BroadbandModel
) - Modelo de banda estreita italiano (
it-IT_NarrowbandModel
)
Para obter mais informações, consulte
- Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol
- Diretrizes para holandês, francês, alemão, italiano, português e espanhol
Como os modelos holandês e italiano são beta, seu suporte para a customização de modelo de idioma também é beta.
- Modelo de banda larga holandês (
- Agora o modelo de banda estreita em japonês inclui algumas unidades de palavras multigramas
-
O modelo de banda estreita japonesa (
ja-JP_NarrowbandModel
) agora inclui algumas unidades de palavra de multigrama para dígitos e frações decimais. O serviço retorna essas unidades de multigrama independentemente de você ativar a formatação inteligente. O recurso de formatação inteligente entende e retorna as unidades de multigrama que o modelo gera. Se você aplicar o seu próprio pós-processamento a resultados de transação, será necessário manipular essas unidades adequadamente. Para obter mais informações, consulte Japonês na documentação de formatação inteligente. - Nova parâmetros de detecção de atividade de voz e de supressão de áudio de fundo para reconhecimento de voz
-
O serviço agora oferece dois novos parâmetros opcionais para controlar o nível de detecção de atividade de fala. Os parâmetros podem ajudar a assegurar que apenas o áudio relevante seja processado para reconhecimento de voz.
- O parâmetro
speech_detector_sensitivity
ajusta a sensibilidade da detecção da atividade de fala. É possível usar o parâmetro para suprimir inserções de palavras de música, tosse e outros eventos sem fala. - O parâmetro
background_audio_suppression
suprime o áudio de plano de fundo com base em seu volume para evitar que ele seja transcrito ou que, de outra forma, interfira com o reconhecimento de voz. É possível usar o parâmetro para suprimir conversas laterais ou ruído de plano de fundo.
É possível usar os parâmetros individualmente ou juntos. Eles estão disponíveis para todas as interfaces e para a maioria dos modelos de idioma. Para obter mais informações sobre os parâmetros, seus valores permitidos e seu efeito sobre a qualidade e a latência do reconhecimento de voz, consulte Detecção de atividade de fala.
- O parâmetro
- Agora o Activity Tracker é suportado para interfaces de customização
-
Agora o serviço suporta o uso de eventos Activity Tracker para todas as operações de customização. A IBM Cloud Activity Tracker registra atividades iniciadas pelo usuário que mudam o estado de um serviço na IBM Cloud. É possível usar esse serviço para investigar atividade anormal e ações críticas e para obedecer aos requisitos de auditoria regulamentares. Além disso, é possível ser alertado sobre ações conforme elas acontecem. Para obter mais informações, consulte Eventos do Activity Tracker.
- Correção de defeito: Geração correta de métricas de processamento com a interface WebSocket
-
Correção de defeito: agora a interface do WebSocket funciona perfeitamente ao gerar métricas de processamento. Anteriormente, as métricas de processamento podiam continuar a ser entregues depois que o cliente tivesse enviado uma mensagem
stop
para o serviço.
18 de dezembro de 2019
- Novos modelos beta disponíveis em italiano
-
O serviço agora oferece modelos de banda larga e de banda estreita beta para o idioma italiano:
it-IT_BroadbandModel
it-IT_NarrowbandModel
Esses modelos de idioma suportam a customização do modelo acústico. Eles não suportam a customização do modelo de idioma. Como são beta, esses modelos podem não estar prontos para o uso de produção e estão sujeitos a mudança. Eles são ofertas iniciais que irão melhorar em qualidade com o tempo e o uso.
Para obter mais informações, consulte as seções a seguir:
- Novo parâmetro
end_of_phrase_silence_time
para reconhecimento de voz -
Para reconhecimento de voz, o serviço agora suporta o parâmetro
end_of_phrase_silence_time
. O parâmetro especifica a duração do intervalo de pausa no qual o serviço divide uma transcrição em diversos resultados finais. Cada resultado final indica uma pausa ou um silêncio estendido que excede o intervalo de pausa. Na maioria dos idiomas, o intervalo de pausa padrão é de 0,8 segundos; no chinês o intervalo padrão é de 0,6 segundos.É possível usar o parâmetro para efetivar uma troca entre a frequência com a qual um resultado final é produzido e a precisão da transcrição. Aumente o intervalo quando a precisão for mais importante do que a latência. Diminua o intervalo quando for esperado que o falante diga frases curtas ou palavras únicas.
Para obter mais informações, consulte Tempo de silêncio no término da frase.
- Novo parâmetro
split_transcript_at_phrase_end
para reconhecimento de voz -
Para reconhecimento de voz, o serviço agora suporta o parâmetro
split_transcript_at_phrase_end
. O parâmetro direciona o serviço para dividir a transcrição em diversos resultados finais com base em recursos semânticos da entrada, tais como na conclusão de sentenças. O serviço baseia sua compreensão de recursos semânticos no modelo de idioma de base usado com uma solicitação. Os modelos de idioma customizados e as gramáticas também podem influenciar como e onde o serviço divide uma transcrição.O parâmetro faz com que um serviço inclua um campo
end_of_utterance
em cada resultado final para indicar o motivo para a divisão:full_stop
,silence
,end_of_data
oureset
.Para obter mais informações, consulte Transcrição dividida no término da frase.
12 de dezembro de 2019
- Suporte completo para IAM da IBM Cloud
-
O serviço Speech to Text agora suporta a implementação integral do IBM Cloud Identity and Access Management (IAM). As chaves de API para serviços IBM Watson® não são mais limitadas a uma única instância de serviço. É possível criar políticas de acesso e chaves de API que se aplicam a mais de um serviço e é possível conceder acesso entre os serviços. Para obter mais informações sobre o IAM, consulte Autenticando para os serviços Watson.
Para suportar essa mudança, os terminais em serviço da API usam um domínio diferente e incluem o ID da instância de serviço. O padrão é
api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id}
.-
Exemplo de URL de HTTP para uma instância hospedada no local de Dallas:
https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
-
Exemplo da URL do WebSocket para uma instância hospedada no local de Dallas:
wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
Para obter mais informações sobre os URLs, consulte a referência da API e do SDK.
Essas URLs não constituem uma alteração que afeta o processamento da mensagem. As novas URLs funcionam para as suas instâncias de serviço existentes e para novas instâncias. As URLs originais continuam a funcionar em suas instâncias de serviço existentes por pelo menos um ano, até dezembro de 2020.
-
- Novos recursos de rede e segurança de dados disponíveis
-
O suporte para o novo recurso de segurança de rede e dados a seguir já está disponível:
-
Suporte para terminais de rede privada
Os usuários de planos Premium podem criar terminais de rede privada para se conectar ao serviço Speech to Text por uma rede privada. As conexões com terminais de rede privada não requerem acesso à Internet pública. Para obter mais informações, consulte Terminais de rede pública e privada.
-
10 de dezembro de 2019
- Novos modelos disponíveis em holandês da Holanda
-
Agora o serviço oferece banda larga beta e modelos de banda estreita para holandês da Holanda:
nl-NL_BroadbandModel
nl-NL_NarrowbandModel
Esses modelos de idioma suportam a customização do modelo acústico. Eles não suportam a customização do modelo de idioma. Como são beta, esses modelos podem não estar prontos para o uso de produção e estão sujeitos a mudança. Eles são ofertas iniciais que irão melhorar em qualidade com o tempo e o uso.
Para obter mais informações, consulte as seções a seguir:
25 de novembro de 2019
- Atualizações para rótulos de alto-falante para melhor identificação de alto-falantes individuais
- Os rótulos de falante são atualizados para melhorar a identificação de falantes individuais para análise adicional de sua amostra de áudio. Para obter mais informações sobre o recurso de rótulos do falante, consulte Rótulos do falante. Para obter mais informações sobre os aprimoramentos do recurso, consulte IBM Research AI Advances Speaker Diarization in Real Use Cases.
12 de novembro de 2019
- Novo local de Seul agora disponível
- Agora o serviço Speech to Text está disponível na IBM Cloud em Seul (kr-seo). Assim como em outros locais, o local do IBM Cloud usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.
1º de novembro de 2019
- Novos limites no número máximo de modelos customizados
- Não é possível criar mais que 1024 modelos de linguagens customizadas e nem mais que 1024 modelos acústicos customizados por credencial que você tiver. Para obter mais informações, consulte Número máximo de modelos customizados.
1º de outubro de 2019
- Novo suporte do HIPAA dos EUA aos planos Premium na localização Washington D.C.
- O suporte à HIPAA dos EUA está disponível para planos Premium hospedados em Washington, DC (us-leste) e criados em 1 de abril de 2019 ou depois. Para obter mais informações, consulte Lei de portabilidade e responsabilidade de seguros de saúde (HIPAA) dos EUA.
22 de agosto de 2019
- Correção de defeito: Diversas pequenas melhorias
- O serviço foi atualizado para pequenas correções de defeitos e melhorias.
30 de julho de 2019
- Novos modelos para dialetos espanhóis agora disponíveis
-
Agora, o serviço oferece banda larga e modelos de idioma de banda estreita em seis dialetos de espanhol:
- Espanhol argentino (
es-AR_BroadbandModel
ees-AR_NarrowbandModel
) - Espanhol castiliano (
es-ES_BroadbandModel
ees-ES_NarrowbandModel
) - Espanhol chileno (
es-CL_BroadbandModel
ees-CL_NarrowbandModel
) - Espanhol colombiano (
es-CO_BroadbandModel
ees-CO_NarrowbandModel
) - Espanhol mexicano (
es-MX_BroadbandModel
ees-MX_NarrowbandModel
) - Espanhol peruano (
es-PE_BroadbandModel
ees-PE_NarrowbandModel
)
Os modelos de espanhol castelhano não são novos. Eles estão geralmente disponíveis (GA) para reconhecimento de voz e customização de modelo de idioma e em beta para customização de modelo acústico.
Os outros cinco dialetos são novos e beta para todos os usos. Como eles são beta, esses dialetos adicionais podem não estar prontos para uso de produção e estão sujeitos a mudança. Eles são ofertas iniciais que irão melhorar em qualidade com o tempo e o uso.
Para obter mais informações, consulte as seções a seguir:
- Espanhol argentino (
24 de junho de 2019
- Atualizações para os modelos em inglês dos EUA e português do Brasil para reconhecimento de voz melhorado
-
Os modelos de banda estreita a seguir foram atualizados para melhor reconhecimento de voz:
- Modelo de banda estreita de português do Brasil (
pt-BR_NarrowbandModel
) - Modelo de banda estreita de inglês dos EUA (
en-US_NarrowbandModel
)
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda estreita de português do Brasil (
- Novo suporte para solicitações simultâneas para atualizar diferentes modelos acústicos customizados
-
Agora o serviço permite o envio de múltiplas solicitações simultâneas para incluir diferentes recursos de áudio em um modelo acústico customizado. Anteriormente, o serviço permitia apenas uma solicitação de cada vez para incluir áudio em um modelo customizado.
- Novo campo
updated
para métodos que listam modelos customizados -
A saída dos métodos HTTP
GET
que listam as informações sobre os modelos acústico customizado e de idioma customizado agora inclui um campoupdated
. O campo indica a data e a hora na Hora Universal Coordenada (UTC) em que o modelo customizado foi modificado pela última vez. - Mudança para esquema para avisos associados ao treinamento do modelo customizado
-
O esquema foi mudado para um aviso que é gerado por uma solicitação de treinamento de modelo customizado quando o parâmetro
strict
é configurado comofalse
. Os nomes dos campos mudaram dewarning_id
edescription
paracode
emessage
, respectivamente. Para obter mais informações, consulte a referência API & SDK.
10 de junho de 2019
- Métricas de processamento não disponíveis com interface HTTP síncrona
- As métricas de processamento estão disponíveis apenas com as interfaces HTTP WebSocket e assíncronas. Elas não são suportadas com a interface HTTP síncrona. Para obter mais informações, consulte Métricas de processamento.
17 de maio de 2019
- Novas métricas de processamento e recursos de métricas de áudio para reconhecimento de voz
-
Agora, o serviço oferece dois tipos de métricas opcionais com solicitações de reconhecimento de voz:
- As Métricas de processamento fornecem informações de sincronização detalhadas sobre a análise do áudio de entrada do serviço. O serviço retorna as métricas em intervalos especificados e com eventos de transcrição, tais como resultados temporários e finais. Use as métricas para calibrar o progresso do serviço na transcrição do áudio.
- As Métricas de áudio fornecem informações detalhadas sobre as características de sinal do áudio de entrada. Os resultados fornecem métricas agregadas para o áudio de entrada inteiro na conclusão do processamento da fala. Use as métricas para determinar as características e a qualidade do áudio.
É possível solicitar ambos os tipos de métricas com qualquer solicitação de reconhecimento de voz. Por padrão, o serviço não retorna nenhuma métrica para uma solicitação.
- Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado
-
O modelo de banda larga japonês (
ja-JP_BroadbandModel
) foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento de voz. Se você tiver modelos acústicos customizados ou de idioma customizado que sejam baseados no modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
10 de maio de 2019
- Atualizações em modelos em espanhol para reconhecimento de voz melhorado
-
Os modelos de idioma espanhol foram atualizados para reconhecimento de voz melhorado:
es-ES_BroadbandModel
es-ES_NarrowbandModel
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
19 de abril de 2019
- Novo parâmetro
strict
para treinamento de modelo customizado agora disponível - Os métodos de treinamento da interface de customização agora incluem um parâmetro de consulta
strict
que indica se o treinamento deve continuar se um modelo customizado contiver uma combinação de recursos válidos e inválidos. Por padrão, o treinamento falhará se um modelo customizado contiver um ou mais recursos inválidos. Configure o parâmetro comofalse
para permitir que o treinamento continue, desde que o modelo contenha pelo menos um recurso válido. O serviço exclui recursos inválidos do treinamento.- Para obter mais informações sobre como usar o parâmetro
strict
com o métodoPOST /v1/customizations/{customization_id}/train
, consulte Treinar o modelo de idioma customizado e Falhas de treinamento. - Para obter mais informações sobre como usar o parâmetro
strict
com o métodoPOST /v1/acoustic_customizations/{customization_id}/train
, consulte Treinar o modelo acústico customizado e Falhas de treinamento.
- Para obter mais informações sobre como usar o parâmetro
- Novos limites no número máximo de palavras fora do vocabulário para modelos de idioma customizados
- Agora é possível incluir um máximo de 90 mil palavras de fora do vocabulário (OOV) para o recurso de palavras de um modelo de idioma customizado. O máximo anterior era de 30 mil palavras OOV. Esta figura inclui palavras OOV de todas as origens (corpora, gramáticas e palavras customizadas individuais que você inclui diretamente). É possível incluir um máximo de 10 milhões de palavras totais em um modelo customizado de todas as origens. Para obter mais informações, consulte Quantos dados eu preciso?.
3 de abril de 2019
- Novos limites na quantidade máxima de áudio para modelos acústicos customizados
- Os modelos acústicos customizados aceitam agora um máximo de 200 horas de áudio. O limite máximo anterior era de 100 horas de áudio.
21 de março de 2019
- Visibilidade das credenciais de serviço agora restritas por função
-
Agora, os usuários podem ver somente informações de credenciais de serviço associadas à função designada à sua conta do IBM Cloud. Por exemplo, se uma função
reader
estiver designada a você, qualquer nívelwriter
ou superior de credenciais de serviço não estará mais visível.Essa mudança não afeta o acesso à API para usuários ou aplicativos com credenciais de serviço existentes. A mudança afeta somente a visualização de credenciais no IBM Cloud.
15 de março de 2019
- Novo suporte para o formato de áudio lei A
- O serviço agora suporta áudio no formato A-law (
audio/alaw
). Para obter mais informações, consulte formato audio/alaw.
11 de março de 2019
- Mudança para passar valor de parâmetro
0
paramax_alternatives
- Para o parâmetro
max_alternatives
, o serviço aceita novamente um valor de0
. Se você especificar0
. o serviço usará automaticamente o valor padrão,1
. Uma mudança feita para a atualização de serviço de 4 de março fez com que um valor de0
retornasse um erro. (O serviço retornará um erro se você especificar um valor negativo.) - Mudança para passar valor de parâmetro
0
paraword_alternatives_threshold
- Para o parâmetro
word_alternatives_threshold
, o serviço novamente aceita um valor de0
. Uma mudança feita para a atualização de serviço de 4 de março fez com que um valor de0
retornasse um erro. (O serviço retornará um erro se você especificar um valor negativo.) - Novo limite na precisão máxima para pontuações de confiança
- O serviço agora retorna todas as pontuações de confiança com uma precisão máxima de duas casas decimais. Essa mudança inclui pontuações de confiança para transcrições, confiança de palavra, alternativas de palavra, resultados de palavra-chave e rótulos de falante.
4 de março de 2019
- Atualizações para os modelos de banda estreita em português do Brasil, francês e espanhol para reconhecimento de voz melhorado
-
Os modelos de idioma de banda estreita a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de banda estreita de português do Brasil (
pt-BR_NarrowbandModel
) - Modelo em francês da França (
fr-FR_NarrowbandModel
) - Modelo de banda estreita em espanhol (
es-ES_NarrowbandModel
)
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda estreita de português do Brasil (
28 de janeiro de 2019
- Novo suporte para IAM da IBM Cloud por interface de WebSocket
-
Agora, a interface WebSocket suporta a autenticação do Identity and Access Management (IAM) baseada em token por meio do código JavaScript baseado em navegador. A limitação para o contrário foi removida. Para estabelecer uma conexão autenticada com o método
/v1/recognize
do WebSocket:- Se usar a autenticação do IAM, inclua o parâmetro de consulta
access_token
. - Se você usar as credenciais de serviço do Cloud Foundry, inclua o parâmetro de consulta
watson-token
.
Para obter mais informações, consulte Estabelecer uma conexão.
- Se usar a autenticação do IAM, inclua o parâmetro de consulta
20 de dezembro de 2018
- Novo recurso gramatical beta para modelos de idioma customizados agora disponível
-
O serviço agora suporta gramáticas para reconhecimento de voz. As gramáticas estão disponíveis como funcionalidade beta para todos os idiomas que suportam a customização do modelo de idioma. É possível incluir gramáticas em um modelo de idioma customizado e utilizá-las para restringir o conjunto de frases que o serviço pode reconhecer do áudio. É possível definir uma gramática em Augmented Backus-Naur Form (ABNF) ou formulário XML.
Os quatro métodos a seguir estão disponíveis para trabalhar com gramáticas:
POST /v1/customizations/{customization_id}/grammars/{grammar_name}
inclui um arquivo de gramática em um modelo de idioma customizado.GET /v1/customizations/{customization_id}/grammars
lista informações sobre todas as gramáticas para um modelo customizado.GET /v1/customizations/{customization_id}/grammars/{grammar_name}
retorna informações sobre uma gramática especificada para um modelo customizado.DELETE /v1/customizations/{customization_id}/grammars/{grammar_name}
remove uma gramática existente de um modelo customizado.
É possível usar uma gramática para reconhecimento de voz com as interfaces do WebSocket e HTTP. Use os parâmetros
language_customization_id
egrammar_name
para identificar o modelo customizado e a gramática que você deseja usar. Atualmente, é possível usar apenas uma gramática com uma solicitação de reconhecimento de voz.Para obter mais informações sobre gramáticas, consulte a documentação a seguir:
- Usando gramáticas com modelos de idioma customizados
- Entendendo as gramáticas
- Incluindo uma gramática em um modelo de idioma customizado
- Usando uma gramática para reconhecimento de voz
- Gerenciando gramáticas
- Gramáticas de exemplo
Para obter informações sobre todos os métodos da interface, consulte a referência da API e do SDK.
- Novo recurso de edição de dados numéricos para inglês americano, japonês e coreano agora disponível
-
Um novo recurso de edição de dados numéricos agora está disponível para mascarar números que têm três ou mais dígitos consecutivos. A edição de dados destina-se a remover das transcrições as informações pessoais sensíveis, como números de cartão de crédito. Você ativa o recurso configurando o parâmetro
redaction
comotrue
em uma solicitação de reconhecimento. O recurso é a funcionalidade beta que está disponível para inglês dos EUA, japonês e coreano somente. Para obter mais informações, consulte Edição de dados numéricos. - Novos modelos de banda estreita em francês e alemão agora disponíveis
-
Os novos modelos de idioma alemão e francês a seguir agora estão disponíveis com o serviço:
- Modelo de banda estreita em francês (
fr-FR_NarrowbandModel
) - Modelo de banda estreita em alemão (
de-DE_NarrowbandModel
)
Os dois novos modelos suportam a customização do modelo de idioma (GA) e a customização do modelo acústico (beta). Para obter mais informações, consulte Suporte ao idioma para a customização.
- Modelo de banda estreita em francês (
- Novo
en-US_ShortForm_NarrowbandModel
em inglês dos EUA agora disponível -
Um novo modelo de idioma inglês dos Estados Unidos,
en-US_ShortForm_NarrowbandModel
, agora está disponível. O novo modelo é destinado para uso nas soluções de suporte ao cliente automatizadas e resposta de voz interativa. O modelo suporta a customização do modelo de idioma (GA) e a customização do modelo acústico (beta). Para obter mais informações, consulte O modelo abreviado de inglês dos EUA. - Atualizações para os modelos de banda estreita em inglês do RU e em espanhol para reconhecimento de voz melhorado
-
Os modelos de idioma a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de banda estreita em inglês do Reino Unido (
en-GB_NarrowbandModel
) - Modelo de banda estreita em espanhol (
es-ES_NarrowbandModel
)
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento de voz. Se você tiver modelos customizados acústicos ou de idioma que são baseados nos modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda estreita em inglês do Reino Unido (
- Novo suporte para o formato de áudio G.279
-
O serviço agora suporta áudio no formato G.729 (
audio/g729
). O serviço suporta apenas o G.729 Annex D para áudio de banda estreita. Para obter mais informações, consulte Formato audio/g729. - Recurso de rótulos de alto-falantes agora disponível para modelo de banda estreita em inglês do RU
-
Agora o recurso de rótulos de alto-falante está disponível para o modelo de banda estreita em inglês do RU (
en-GB_NarrowbandModel
). O recurso é funcionalidade beta para todos os idiomas suportados. Para obter mais informações, consulte Rótulos do falante. - Novos limites na quantidade máxima de áudio para modelos acústicos customizados
-
A quantidade máxima de áudio que você pode incluir em um modelo acústico customizado aumentou de 50 para 100 horas.
13 de dezembro de 2018
- Novo local de Londres agora disponível
- O serviço Speech to Text agora está disponível no local de Londres do IBM Cloud (eu-gb). Como todos os locais, Londres usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.
12 de novembro de 2018
- Novo suporte para formatação inteligente para reconhecimento de voz em japonês
- O serviço agora suporta a formatação inteligente para reconhecimento de voz em japonês. Anteriormente, o serviço suportava a formatação inteligente apenas para inglês dos EUA e Espanhol. O recurso é funcionalidade beta para todos os idiomas suportados. Para obter mais informações, consulte Formatação inteligente.
7 de novembro de 2018
- Novo local de Tóquio agora disponível
- O serviço Speech to Text agora está disponível no local de Tóquio do IBM Cloud (jp-tok). Como todos os locais, Tokyo usa a autenticação do IAM baseada em token. Todas as novas instâncias de serviço que você cria nessa localização usam a autenticação do IAM.
30 de outubro de 2018
- Novo suporte para o IAM da IBM Cloud baseado em token
-
O serviço Speech to Text migrou para a autenticação do IAM baseada em token para todos os locais. Todos os serviços do IBM Cloud agora usam a autenticação do IAM. O serviço Speech to Text migrou em cada local nas datas a seguir:
- Dallas (us-south): 30 de outubro de 2018
- Frankfurt (eu-de): 30 de outubro de 2018
- Washington, DC (us-este): 12 de junho de 2018
- Sydney (au-syd): 15 de maio de 2018
A migração para a autenticação do IAM afeta as instâncias de serviço novas e existentes de forma diferente:
- Todas as novas instâncias de serviço que você cria em qualquer local agora usam a autenticação do IAM para acessar o serviço. É possível passar um token de acesso ou uma chave de API: os tokens suportam solicitações autenticadas sem incorporar as credenciais de serviço em cada chamada; as chaves de API usam a autenticação básica de HTTP. Quando você usa qualquer um dos SDKs do Watson, é possível passar a chave de API e deixar que o SDK gerencie o ciclo de vida dos tokens.
- As instâncias de serviço existentes criadas em um local antes da data de migração indicada continuam usando o
{username}
e a{password}
de suas credenciais de serviço anteriores do Cloud Foundry para a autenticação, até que sejam migradas por você para usar a autenticação do IAM.
Para obter mais informações, veja a documentação a seguir:
- Para saber qual mecanismo de autenticação sua instância de serviço usa, visualize suas credenciais de serviço clicando na instância no painel IBM Cloud.
- Para obter mais informações sobre o uso de tokens IAM com serviços Watson, consulte Autenticando para os serviços Watson.
- Para obter exemplos que usam a autenticação IAM, consulte a referência da API e do SDK.
9 de outubro de 2018
- Atualizações importantes nos encargos de precificação para solicitações de reconhecimento de voz
-
A partir de 1 de outubro de 2018, você será cobrado por todo áudio que enviar para o serviço de reconhecimento de voz. Os primeiros mil minutos de áudio que você enviava todo mês não são mais grátis. Para obter mais informações sobre os planos de preços do serviço, consulte o serviço Speech to Text no Catálogo IBM Cloud.
- Agora o cabeçalho
Content-Type
é opcional para a maioria das solicitações de reconhecimento de voz -
Agora o cabeçalho
Content-Type
é opcional para a maioria das solicitações de reconhecimento de voz. O serviço agora detecta automaticamente o formato de áudio (tipo MIME) da maioria do áudio. Deve-se continuar a especificar o tipo de conteúdo para os formatos a seguir:audio/basic
audio/l16
audio/mulaw
Quando indicado, o tipo de conteúdo que você especifica para esses formatos deve incluir a taxa de amostragem e pode, opcionalmente, incluir o número de canais e a ordenação do áudio. Para todos os outros formatos de áudio, é possível omitir o tipo de conteúdo ou especificar um tipo de conteúdo de
application/octet-stream
para que o serviço detecte automaticamente o formato.Quando você usa o comando
curl
para fazer uma solicitação de reconhecimento de voz com a interface de HTTP, deve-se especificar o formato de áudio com o cabeçalhoContent-Type
, especificar"Content-Type: application/octet-stream"
ou especificar"Content-Type:"
. Se você omitir o cabeçalho completamente,curl
usará um valor padrão deapplication/x-www-form-urlencoded
. A maioria dos exemplos nesta documentação continua a especificar o formato para solicitações de reconhecimento de voz independentemente de ele ser necessário.Essa mudança se aplica aos métodos a seguir:
/v1/recognize
para as solicitações do WebSocket. O campocontent-type
da mensagem de texto que você envia para iniciar uma solicitação por meio de uma conexão do WebSocket aberta agora é opcional.POST /v1/recognize
para solicitações de HTTP síncronas. O cabeçalhoContent-Type
agora é opcional. (Para solicitações com múltiplas partes, o campopart_content_type
dos metadados JSON agora também é opcional.)POST /v1/recognitions
para solicitações de HTTP assíncronas. O cabeçalhoContent-Type
agora é opcional.
Para obter mais informações, consulte Formatos de áudio.
- Atualizações do modelo de banda larga em português do Brasil para reconhecimento de voz melhorado
-
O modelo de banda larga de português do Brasil,
pt-BR_BroadbandModel
, foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- O parâmetro
customization_id
foi renomeado paralanguage_customization_id
-
O parâmetro
customization_id
dos métodos de reconhecimento de voz foi descontinuado e será removido em uma liberação futura. Para especificar um modelo de idioma customizado para uma solicitação de reconhecimento de voz, use o parâmetrolanguage_customization_id
no lugar. Essa mudança se aplica aos métodos a seguir:/v1/recognize
para solicitações do WebSocketPOST /v1/recognize
para solicitações de HTTP síncronas (incluindo solicitações com múltiplas partes)POST /v1/recognitions
para solicitações de HTTP assíncronas
10 de setembro de 2018
- Novo modelo de banda larga em alemão
-
O serviço agora suporta um modelo de banda larga de alemão,
de-DE_BroadbandModel
. O novo modelo de alemão suporta a customização do modelo de idioma (geralmente disponível) e a customização do modelo acústico (beta).- Para obter informações sobre como o serviço analisa corpora para o alemão, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
- Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em alemão, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.
- Customização do modelo de idioma agora disponível para português do Brasil
-
Os modelos de português do Brasil existentes,
pt-BR_BroadbandModel
ept-BR_NarrowbandModel
, agora suportam customização do modelo de idioma (geralmente disponível). Os modelos não foram atualizados para ativar esse suporte, portanto, nenhum upgrade de modelos acústicos customizados existentes é necessário.- Para obter informações sobre como o serviço analisa corpora para português do Brasil, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
- Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em português do Brasil, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.
- Atualizações para os modelos em inglês dos EUA e japonês para reconhecimento de voz melhorado
-
Novas versões dos modelos de banda larga e de banda estreita de inglês dos EUA e japonês estão disponíveis:
- Modelo de banda larga de inglês dos EUA (
en-US_BroadbandModel
) - Modelo de banda estreita de inglês dos EUA (
en-US_NarrowbandModel
) - Modelo de banda larga em japonês (
ja-JP_BroadbandModel
) - Modelo de banda estreita japonês (
ja-JP_NarrowbandModel
)
Os novos modelos oferecem melhor reconhecimento de voz. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesses modelos, deverá fazer upgrade de seus modelos customizados existentes para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda larga de inglês dos EUA (
- Recursos alternativos de palavras e localização de palavras-chave agora geralmente disponíveis
-
Os recursos de marcação de palavra-chave e de alternativas de palavra agora estão geralmente disponíveis (GA) em vez da funcionalidade beta para todos os idiomas. Para obter mais informações, consulte
- Correção de defeito: Improvar documentação para interface de customização
-
Correção do defeito: Os seguintes problemas conhecidos que estavam associados à interface de personalização foram resolvidos e estão corrigidos na produção. As informações a seguir são preservadas para usuários que podem ter encontrado os problemas no passado.
-
Se você incluir dados em um modelo customizado acústico ou de idioma, deverá retreinar o modelo antes de usá-lo para reconhecimento de voz. O problema é mostrado no cenário a seguir:
-
O usuário cria um novo modelo customizado (idioma ou acústico) e treina o modelo.
-
O usuário inclui recursos adicionais (palavras, corpora ou áudio) no modelo customizado, mas não executa o retreinamento do modelo.
-
O usuário não pode usar o modelo customizado para reconhecimento de voz. O serviço retorna um erro da seguinte forma quando usado com uma solicitação de reconhecimento de voz:
{ "code_description": "Bad Request", "code": 400, "error": "Requested custom language model is not available. Please make sure the custom model is trained." }
Para uma solução alternativa desse problema, o usuário deve retreinar o modelo customizado em seus dados mais recentes. Então, o usuário pode usar o modelo customizado com reconhecimento de voz.
-
-
Antes de treinar um modelo customizado acústico ou de idioma existente, deve-se fazer upgrade dele para a versão mais recente de seu modelo base. O problema é mostrado no cenário a seguir:
- O usuário tem um modelo customizado existente (idioma ou acústico) que é baseado em um modelo que foi atualizado.
- O usuário treina o modelo customizado existente com relação à versão antiga do modelo base sem primeiro fazer upgrade para a versão mais recente do modelo base.
- O usuário não pode usar o modelo customizado para reconhecimento de voz.
Para uma solução alternativa desse problema, o usuário deve usar o método
POST /v1/customizations/{customization_id}/upgrade_model
ouPOST /v1/acoustic_customizations/{customization_id}/upgrade_model
para fazer upgrade do modelo customizado para a versão mais recente de seu modelo base. Então, o usuário pode usar o modelo customizado com reconhecimento de voz.
-
7 de setembro de 2018
- Interface baseada em sessão não está mais disponível
-
A interface REST de HTTP baseada em sessão não é mais suportada. Todas as informações relacionadas às sessões foram removidas da documentação. Os métodos a seguir não estão mais disponíveis:
POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}
Se seu aplicativo usar a interface de sessões, você deverá migrar para uma das interfaces REST de HTTP restantes ou para a interface do WebSocket. Para obter mais informações, consulte a atualização de serviço para 8 de agosto de 2018.
8 de agosto de 2018
- Aviso de descontinuação para interface de reconhecimento de voz baseada em sessão
-
A interface REST de HTTP baseada em sessão foi descontinuada a partir de 8 de agosto de 2018. Todos os métodos da API de sessões serão removidos do serviço a partir de 7 de setembro de 2018. Após essa data, não será mais possível usar a interface baseada em sessão. Este aviso de descontinuação imediata e de remoção em 30 dias se aplica aos métodos a seguir:
POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}
Se seu aplicativo usar a interface de sessões, você deverá migrar para uma das interfaces a seguir até 7 de setembro:
- Para reconhecimento de voz baseado em fluxo (incluindo casos de uso em tempo real), use a interface do WebSocket, que fornece acesso aos resultados provisórios e à mais baixa latência.
- Para reconhecimento de voz baseado em arquivo, use uma das interfaces a seguir:
- Para arquivos mais curtos de até alguns poucos minutos de áudio, use a interface de HTTP síncrona
(POST /v1/recognize
) ou a interface de HTTP assíncrona (POST /v1/recognitions
). - Para arquivos mais longos de mais de alguns poucos minutos de áudio, use a interface de HTTP assíncrona. A interface de HTTP assíncrona aceita o máximo de 1 GB de dados de áudio com uma única solicitação.
- Para arquivos mais curtos de até alguns poucos minutos de áudio, use a interface de HTTP síncrona
As interfaces do WebSocket e HTTP fornecem os mesmos resultados que a interface de sessões (somente a interface do WebSocket fornece resultados provisórios). Também é possível usar um dos SDKs do Watson, que simplificam o desenvolvimento do aplicativo com qualquer uma das interfaces. Para obter mais informações, consulte a referência API & SDK.
13 de julho de 2018
- Atualizações do modelo de banda estreita em espanhol para reconhecimento de voz melhorado
-
O modelo de banda estreita de espanhol,
es-ES_NarrowbandModel
, foi atualizado para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente o modelo atualizado para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que são baseados nesse modelo, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
No que se refere a essa atualização, estão disponíveis as seguintes duas versões do modelo de banda estreita de espanhol:
es_ES.8kHz.general.lm20180522235959.am20180522235959
(atual)es_ES.8kHz.general.lm20180308235959.am20180308235959
(anterior)
A versão a seguir do modelo não está mais disponível:
es_ES.8kHz.general.lm20171031235959.am20171031235959
Uma solicitação de reconhecimento que tenta usar um modelo customizado que é baseado no modelo base que agora está indisponível, usa o modelo base mais recente sem nenhuma customização. O serviço retorna a mensagem de aviso a seguir:
Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported.
Para retomar o uso de um modelo customizado baseado no modelo indisponível, primeiro deve-se atualizar o modelo usando o métodoupgrade_model
apropriado descrito anteriormente.
12 de junho de 2018
- Novos recursos para aplicativos hospedados na localização Washington D.C.
-
Os recursos a seguir estão ativados para aplicativos hospedados em Washington, DC (us-east):
- Agora, o serviço suporta um novo processo de autenticação de API. Para obter mais informações, consulte a atualização de serviço de 30 de outubro de 2018.
- Agora, o serviço suporta o cabeçalho
X-Watson-Metadata
e o métodoDELETE /v1/user_data
. Para obter mais informações, consulte Segurança de informações.
15 de maio de 2018
- Novos recursos para aplicativos hospedados no local Sydney
-
Os recursos a seguir estão ativados para aplicativos em Sydney (au-syd):
- Agora, o serviço suporta um novo processo de autenticação de API. Para obter mais informações, consulte a atualização de serviço de 30 de outubro de 2018.
- Agora, o serviço suporta o cabeçalho
X-Watson-Metadata
e o métodoDELETE /v1/user_data
. Para obter mais informações, consulte Segurança de informações.
26 de março de 2018
- Customização de modelo de idioma agora disponível para modelo de banda larga em francês
-
Agora o serviço suporta a customização do modelo de idioma para o modelo de idioma de banda larga em francês,
fr-FR_BroadbandModel
. O modelo em francês está geralmente disponível (GA) para uso de produção com customização de modelo de idioma.- Para obter mais informações sobre como o serviço analisa corpora para o francês, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
- Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em francês, consulte Diretrizes para holandês, francês, alemão, italiano, português e espanhol.
- Atualizações para modelos em francês, coreano e espanhol para reconhecimento de voz melhorado
-
Os modelos a seguir foram atualizados para reconhecimento de voz melhorado:
- Modelo de banda estreita em coreano (
ko-KR_NarrowbandModel
) - Modelo de banda estreita em espanhol (
es-ES_NarrowbandModel
) - Modelo de banda larga em francês (
fr-FR_BroadbandModel
)
Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam em qualquer um desses modelos, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados.
- Modelo de banda estreita em coreano (
- O parâmetro
version
foi renomeado parabase_model_version
-
O parâmetro
version
dos métodos a seguir agora é denominadobase_model_version
:/v1/recognize
para solicitações do WebSocketPOST /v1/recognize
para solicitações de HTTP sem sessãoPOST /v1/sessions
para solicitações de HTTP baseados em sessãoPOST /v1/recognitions
para solicitações de HTTP assíncronas
O parâmetro
base_model_version
especifica a versão de um modelo base que deve ser usada para reconhecimento de voz. Para obter mais informações, consulte Usando modelos customizados atualizados para reconhecimento de voz e Fazendo solicitações de reconhecimento de voz com modelos customizados atualizados. - Novo suporte para formatação inteligente para reconhecimento de voz em espanhol
-
A formatação inteligente agora é suportada para espanhol, bem como para inglês dos EUA. Para inglês dos EUA, agora o recurso também converte sequências de palavras-chave em símbolos de pontuação para pontos, vírgulas, pontos de interrogação e pontos de exclamação. Para obter mais informações, consulte Formatação inteligente.
1º de março de 2018
- Atualizações para modelos de banda larga em francês e espanhol para reconhecimento de voz melhorado
-
Os modelos de banda larga em francês e espanhol,
fr-FR_BroadbandModel
ees-ES_BroadbandModel
, foram atualizados para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam em qualquer um desses modelos, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações, consulte Fazendo upgrade de modelos customizados. A seção apresenta regras para fazer upgrade de modelos customizados, os efeitos do upgrade e as abordagens para usar modelos que passaram por upgrade.
1º de fevereiro de 2018
- Novos modelos em coreano
-
O serviço agora oferece modelos de idioma para coreano:
ko-KR_BroadbandModel
para áudio em amostra de no mínimo 16 kHz eko-KR_NarrowbandModel
para áudio em amostrado de no mínimo 8 kHz. Para obter mais informações, consulte Idiomas e modelos de geração anterior.Para customização do modelo de idioma, os modelos em coreano estão geralmente disponíveis (GA) para uso de produção; para customização de modelo acústico, eles são funcionalidade beta. Para obter mais informações, consulte Suporte ao idioma para a customização.
- Para obter mais informações sobre como o serviço analisa os corpora para o coreano, consulte Análise do coreano.
- Para obter mais informações sobre como criar pronúncias para palavras customizadas em coreano, consulte Diretrizes para coreano.
14 de dezembro de 2017
- Agora a customização de modelo de idioma está geralmente disponível
-
A customização do modelo de idioma e todos os parâmetros associados estão agora geralmente disponíveis (GA) para todos os idiomas suportados: japonês, espanhol, inglês do Reino Unido e inglês dos EUA.
- Customização de modelo beta acústico agora disponível para todos os idiomas
-
O serviço agora suporta a customização do modelo acústico como funcionalidade beta para todos os idiomas disponíveis. É possível criar modelos acústicos customizados para modelos de banda larga ou de banda estreita para todos os idiomas. Para acessar a introdução à customização, incluindo customização de modelo acústico, consulte Entendendo a customização.
- Novo parâmetro
version
para reconhecimento de voz -
Agora os vários métodos para fazer solicitações de reconhecimento incluem um novo parâmetro
version
que pode ser usado para iniciar solicitações que utilizam versões mais antigas ou adaptadas de modelos base e customizados. Apesar de ser destinado principalmente para uso com modelos customizados que foram atualizados, o parâmetroversion
também pode ser usado sem modelos customizados. Para obter mais informações, consulte Fazendo solicitações de reconhecimento de voz com modelos customizados atualizados. - Atualizações em modelos em inglês dos EUA para reconhecimento de voz melhorado
-
Os modelos em inglês dos EUA,
en-US_BroadbandModel
een-US_NarrowbandModel
, foram atualizados para reconhecimento de voz melhorado. Por padrão, o serviço usa automaticamente os modelos atualizados para todas as solicitações de reconhecimento. Se você tiver modelos customizados acústicos ou de idioma que se baseiam nos modelos em inglês dos EUA, deverá fazer upgrade de seus modelos customizados para aproveitar as atualizações usando os métodos a seguir:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obter mais informações sobre o procedimento, consulte Fazendo upgrade de modelos customizados. A seção apresenta regras para fazer upgrade de modelos customizados, os efeitos do upgrade e as abordagens para usar modelos que passaram por upgrade. Atualmente, os métodos se aplicam apenas aos novos modelos base em inglês dos EUA. Mas as mesmas informações se aplicarão a upgrades de outros modelos base à medida que se tornarem disponíveis.
- Customização de modelo de idioma agora disponível para inglês do Reino Unido
-
O serviço agora suporta a customização do modelo de idioma para os modelos de inglês do Reino Unido,
en-GB_BroadbandModel
een-GB_NarrowbandModel
. Embora o serviço manipule os corpora e as palavras customizadas em inglês do Reino Unido e dos EUA de um modo geralmente semelhante, existem algumas diferenças importantes:- Para obter mais informações sobre como o serviço analisa o corpora para inglês do RU, consulte Análise sintática de holandês, inglês, francês, alemão, italiano, português e espanhol.
- Para obter mais informações sobre a criação de pronúncias parecidas para palavras customizadas em inglês do RU, consulte Diretrizes para inglês. Especificamente, para inglês do Reino Unido, não é possível usar pontos ou traços em pronúncias.
2 de outubro de 2017
- Nova interface de customização de modelo acústico beta para inglês americano, japonês e espanhol
-
A interface de customização agora oferece customização do modelo acústico. É possível criar modelos acústicos customizados que adaptam os modelos base do serviço ao ambiente e aos falantes. Você preenche e treina um modelo acústico customizado no áudio que corresponde mais de perto à assinatura acústica do áudio que você deseja transcrever. Em seguida, use o modelo acústico customizado com solicitações de reconhecimento para aumentar a precisão do reconhecimento de voz.
Os modelos acústicos customizados complementam os modelos de idioma customizados. É possível treinar um modelo acústico customizado com um modelo de idioma customizado e usar ambos os tipos de modelo durante o reconhecimento de voz. A customização do modelo acústico é uma interface beta que está disponível apenas para inglês americano, japonês e espanhol.
- Para obter mais informações sobre os idiomas que são suportados pela interface de customização e o nível de suporte que está disponível para cada idioma, consulte Suporte ao idioma para customização.
- Para obter mais informações sobre a interface de customização do serviço, consulte Entendendo a customização.
- Para obter mais informações sobre como criar um modelo acústico customizado, consulte Criando um modelo acústico customizado.
- Para obter mais informações sobre o uso de um modelo acústico customizado, consulte Usando um modelo acústico customizado para reconhecimento de voz.
- Para obter mais informações sobre todos os métodos da interface de personalização, consulte a referência da API e do SDK.
- Novo parâmetro beta
customization_weight
para modelos de idioma customizados -
Para customização do modelo de idioma, o serviço agora inclui um recurso beta que configura um peso de customização opcional para um modelo de idioma customizado. Um peso de customização especifica o peso relativo a ser fornecido para palavras de um modelo de idioma customizado versus as palavras do vocabulário base do serviço. É possível configurar um peso de customização durante o reconhecimento de treinamento e de fala. Para obter mais informações, consulte Usando o peso de customização.
- Atualizações do modelo de banda larga em japonês para reconhecimento de voz melhorado
-
O modelo de idioma
ja-JP_BroadbandModel
foi atualizado para capturar melhorias no modelo base. O upgrade não afeta modelos customizados existentes que são baseados no modelo. - Novo parâmetro
endianness
para o formato de áudioaudio/l16
-
O serviço agora inclui um parâmetro para especificar a ordenação do áudio que é enviado no formato
audio/l16
(Linear 16-bit Pulse-Code Modulation (PCM)). Além de especificar os parâmetrosrate
echannels
com o formato, agora é possível especificar tambémbig-endian
oulittle-endian
com o parâmetroendianness
. Para obter mais informações, consulte Formato audio/l16.
14 de julho de 2017
- Novo suporte para o formato de áudio MP3 (MPEG)
-
O serviço agora suporta a transcrição do áudio no formato MP3 ou Motion Picture Experts Group (MPEG). Para obter mais informações, consulte Formatos audio/mp3 e áudio/mpeg.
- Customização do modelo de idioma beta agora disponível para espanhol
-
A interface de customização do modelo de idioma agora suporta o espanhol como funcionalidade beta. É possível criar um modelo customizado com base em qualquer um dos modelos de idioma base de espanhol:
es-ES_BroadbandModel
oues-ES_NarrowbandModel
; para obter mais informações, consulte Criando um modelo de idioma customizado. A precificação para as solicitações de reconhecimento que usam modelos de idioma customizados de espanhol é a mesma que para as solicitações que usam os modelos em japonês e inglês dos EUA. - Novo campo
dialect
para método que cria um modelo de idioma customizado -
O objeto JSON
CreateLanguageModel
que você passa para o métodoPOST /v1/customizations
para criar um novo modelo de idioma customizado agora inclui um campodialect
. O campo especifica o dialeto do idioma que deve ser usado com o modelo customizado. Por padrão, o dialeto corresponde ao idioma do modelo base. O parâmetro é significativo somente para modelos de espanhol, para os quais o serviço pode criar um modelo customizado que é adequado para fala em um dos dialetos a seguir:es-ES
para espanhol castelhano (o padrão)es-LA
para espanhol da América Latinaes-US
para espanhol da América do Norte (mexicano)
Os métodos
GET /v1/customizations
eGET /v1/customizations/{customization_id}
da interface de customização incluem o dialeto de um modelo customizado em sua saída. Para obter mais informações, consulte Criando um modelo de idioma customizado e Listando modelos de idioma customizados. - Novos nomes para modelos em inglês do Reino Unido
-
Os nomes dos modelos de idioma
en-UK_BroadbandModel
een-UK_NarrowbandModel
foram descontinuados. Os modelos estão agora disponíveis com os nomesen-GB_BroadbandModel
een-GB_NarrowbandModel
.Os nomes
en-UK_{model}
descontinuados continuam a funcionar, mas o métodoGET /v1/models
não retorna mais os nomes na lista de modelos disponíveis. Ainda é possível consultar os nomes diretamente com o métodoGET /v1/models/{model_id}
.
1º de julho de 2017
- Modelo de idioma customizado agora geralmente disponível para inglês dos EUA e japonês
-
Agora a interface de customização do modelo de idioma do serviço está geralmente disponível (GA) para ambos os idiomas suportados, inglês dos EUA e japonês. O IBM não cobra para criar, hospedar ou gerenciar modelos de idioma customizado. Conforme descrito no próximo marcador, a IBM agora cobra um extra de US$ 0,03 por minuto de áudio para solicitações de reconhecimento que usam modelos customizados.
- Atualizações para planos de precificação para o serviço
-
A IBM atualizou a precificação para o serviço
- Eliminando o preço do complemento para o uso de modelos de banda estreita
- Fornecendo a precificação em camadas graduadas para clientes de alto volume
- Cobrando um valor adicional de US$ 0,03 por minuto de áudio para solicitações de reconhecimento que usam modelos de idioma customizados de inglês dos EUA ou japonês
Para obter mais informações sobre as atualizações de precificação, consulte
- O serviço Speech to Text no IBM Cloud Catálogo
- As Perguntas frequentes sobre precificação
- Corpo vazio não é mais necessário para solicitações HTTP POST
-
Não é mais necessário passar um objeto de dados vazio como o corpo para as solicitações
POST
a seguir:POST /v1/sessions
POST /v1/register_callback
POST /v1/customizations/{customization_id}/train
POST /v1/customizations/{customization_id}/reset
POST /v1/customizations/{customization_id}/upgrade_model
Por exemplo, você agora chama o método
POST /v1/sessions
comcurl
, como a seguir:curl -X POST -u "{username}:{password}" \ --cookie-jar cookies.txt \ "{url}/v1/sessions"
Não é mais necessário passar a opção
curl
com a solicitação:--data "{}"
. Se você tiver algum problema com uma dessas solicitaçõesPOST
, tente passar um objeto de dados vazio com o corpo da solicitação. Transmitir um objeto vazio não muda a natureza ou o significado da solicitação de nenhuma maneira.
22 de maio de 2017
- Parâmetro
continuous
removido de todos os métodos -
O parâmetro
continuous
é removido de todos os métodos que iniciam solicitações de reconhecimento. O serviço agora transcreve um fluxo de áudio inteiro até que ele termine ou atinja o tempo limite, o que ocorrer primeiro. Esse comportamento é equivalente a configurar o parâmetrocontinuous
antigo comotrue
. Por padrão, previamente o serviço parou a transcrição no primeiro meio segundo sem fala (geralmente silêncio) se o parâmetro foi omitido ou configurado comofalse
.Os aplicativos existentes que configuraram o parâmetro como
true
não verão nenhuma mudança no comportamento. Os aplicativos que configuraram o parâmetro comofalse
ou que contaram com o comportamento padrão provavelmente verão uma mudança. Se uma solicitação especificar o parâmetro, o serviço agora responderá retornando uma mensagem de aviso para o parâmetro desconhecido:"warnings": [ "Unknown arguments: continuous." ]
Apesar do aviso, a solicitação é bem-sucedida e uma sessão existente ou uma conexão do WebSocket não é afetada.
A IBM removeu o parâmetro para responder ao feedback esmagador da comunidade do desenvolvedor, pois especificar
continuous=false
acrescentaria pouco valor e poderia reduzir a precisão geral da transcrição. - Enviando áudio necessário para evitar tempo limite de sessão
-
Não é mais possível evitar um tempo limite da sessão sem enviar áudio:
- Quando você usa a interface do WebSocket, o cliente não pode mais manter uma conexão ativa enviando uma mensagem de texto JSON com o parâmetro
action
configurado comono-op
. O envio de uma mensagemno-op
não gera um erro, mas não tem efeito. - Quando você usa sessões com a interface de HTTP, o cliente não pode mais estender a sessão enviando uma solicitação
GET /v1/sessions/{session_id}/recognize
. O método ainda retorna o status de uma sessão ativa, mas ele não mantém a sessão ativa.
Agora é possível fazer o seguinte para manter uma sessão ativa:
- Configure o parâmetro
inactivity_timeout
como-1
para evitar o tempo limite de inatividade de 30 segundos. - Envie quaisquer dados de áudio, incluindo apenas silêncio, para o serviço para evitar o tempo limite de sessão de 30 segundos. Você é cobrado pela duração de qualquer dado que envia para o serviço, incluindo o silêncio enviado para estender uma sessão.
Para obter mais informações, consulte Tempos limites. O ideal seria você estabelecer uma sessão imediatamente antes de obter o áudio para transcrição e manter a sessão enviando o áudio a uma taxa próxima do tempo real. Além disso, certifique-se de que seu aplicativo se recupere normalmente de sessões ou conexões fechadas.
A IBM removeu essa funcionalidade para assegurar que ela continue a oferecer a todos os usuários um serviço de reconhecimento de voz de baixa latência excelente.
- Quando você usa a interface do WebSocket, o cliente não pode mais manter uma conexão ativa enviando uma mensagem de texto JSON com o parâmetro
10 de abril de 2017
- Rótulos de alto-falantes agora suportados para inglês dos EUA, espanhol e japonês
-
O serviço agora suporta o recurso de rótulos do falante para os modelos de banda larga a seguir:
- Modelo de banda larga de inglês dos EUA (
en-US-BroadbandModel
) - Modelo de banda larga em espanhol (
es-ES-BroadbandModel
) - Modelo de banda larga em japonês (
ja-JP_BroadbandModel
)
Para obter mais informações, consulte Rótulos do falante.
- Modelo de banda larga de inglês dos EUA (
- Novo suporte para o formato de áudio Web Media (WebM)
-
O serviço agora suporta o formato de áudio Web Media (WebM) com o codec Opus ou Vorbis. Agora, o serviço também suporta o formato de áudio Ogg com o codec Vorbis, além do codec Opus. Para obter mais informações sobre formatos de áudio suportados, consulte Formato de áudio /webm.
- Novo suporte para o compartilhamento de recurso de origem cruzada
-
O serviço agora suporta o Compartilhamento de Recurso de Origem Cruzada (CORS) para permitir que os clientes baseados no navegador chamem o serviço diretamente. Para obter mais informações, consulte Suporte ao CORS.
- Novo método para cancelar registro de uma URL de retorno de chamada com interface HTTP assíncrona
-
A interface HTTP assíncrona agora oferece um método
POST /v1/unregister_callback
que remove o registro para uma URL de retorno de chamada incluída na lista de permissões. Para obter mais informações, consulte Cancelando o registro de uma URL de retorno de chamada. - Correção de defeito: Eliminar tempos limite para áudio longo com a interface WebSocket
-
Correção de defeito: a interface do WebSocket não atinge mais um tempo limite para solicitações de reconhecimento para arquivos de áudio especialmente longos. Não é mais necessário solicitar resultados provisórios com a mensagem JSON
start
para evitar o tempo limite. (Esse problema foi descrito na atualização para 10 de março de 2016.) - Novos códigos de erro HTTP
-
Agora os métodos de customização do modelo de idioma a seguir podem retornar os códigos de erro HTTP a seguir:
- O método
DELETE /v1/customizations/{customization_id}
agora retorna o código de resposta de HTTP 401 se você tentar excluir um modelo customizado não existente. - O método
DELETE /v1/customizations/{customization_id}/corpora/{corpus_name}
agora retorna o código de resposta de HTTP 400 se você tenta excluir um corpus não existente.
- O método
8 de março de 2017
- Agora a interface HTTP assíncrona está geralmente disponível
- Agora a interface HTTP assíncrona está geralmente disponível (GA) Antes dessa data, era funcionalidade beta.
1º de dezembro de 2016
- Novo recurso beta de rótulos de alto-falante
-
O serviço agora oferece um recurso beta de rótulo de falante para áudio de banda estreita em inglês dos EUA, espanhol ou japonês. O recurso identifica quais palavras cada um dos falantes falou em uma interação com múltiplas pessoas. Os métodos de reconhecimento sem sessão, baseados em sessão, assíncronos e do WebSocket incluem um parâmetro
speaker_labels
que aceita um valor booleano para indicar se os rótulos do falante devem ser incluídos na resposta. Para obter mais informações sobre o recurso, consulte Rótulos do falante. - Customização do modelo de idioma beta agora disponível para japonês
-
A interface de customização do modelo de idioma beta agora é suportada para japonês, além do inglês dos EUA. Todos os métodos da interface suportam o japonês. Para obter mais informações, consulte as seções a seguir:
- Para obter mais informações, consulte Criando um modelo de idioma customizado e Usando um modelo de idioma customizado para reconhecimento de voz.
- Para considerações gerais e específicas do japonês para incluir um arquivo de texto de corpus, consulte Preparando um arquivo de texto de corpus e O que acontece ao incluir um arquivo de corpus?
- Para considerações específicas do japonês ao especificar o campo
sounds_like
para uma palavra customizada, consulte Diretrizes para japonês. - Para obter mais informações sobre todos os métodos da interface de personalização, consulte a referência da API e do SDK.
- Novo método para listar informações sobre um corpus
-
A interface de customização do modelo de idioma agora inclui um método
GET /v1/customizations/{customization_id}/corpora/{corpus_name}
que lista informações sobre um corpus especificado. O método é útil para monitorar o status de uma solicitação para incluir um corpus em um modelo customizado. Para obter mais informações, consulte Listando os corpora para um modelo de idioma customizado. - Novo campo
count
para métodos que listam palavras para modelos de idioma customizado. -
Agora a resposta JSON que é retornada pelos métodos
GET /v1/customizations/{customization_id}/words
eGET /v1/customizations/{customization_id}/words/{word_name}
inclui um campocount
para cada palavra. O campo indica o número de vezes que a palavra é localizada em todos os corpora. Para incluir uma palavra customizada em um modelo antes de ele ser incluído por quaisquer corpora, a contagem começará em1
. Se a palavra for incluída de um corpus primeiro e depois modificada, a contagem refletirá apenas o número de vezes que ela é encontrada nos corpora. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado.Para modelos customizados que foram criados antes da existência do campo
count
, o campo sempre permanece em0
. Para atualizar o campo para esses modelos, inclua novamente os corpora do modelo e inclua o parâmetroallow_overwrite
com o métodoPOST /v1/customizations/{customization_id}/corpora/{corpus_name}
. - Novo parâmetro
sort
para métodos que listam palavras para modelos de idioma customizados -
O método
GET /v1/customizations/{customization_id}/words
agora inclui um parâmetro de consultasort
que controla a ordem na qual as palavras devem ser listadas. O parâmetro aceita dois argumentos,alphabetical
oucount
, para indicar como as palavras devem ser classificadas. É possível pré-anexar um+
ou-
opcional a um argumento para indicar se os resultados devem ser classificados em ordem crescente ou decrescente. Por padrão, o método exibe as palavras em ordem alfabética crescente. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado.Para modelos customizados criados antes da introdução do campo
count
, o uso do argumentocount
com o parâmetrosort
é sem sentido. Use o argumentoalphabetical
padrão com esses modelos. - Novo formato de campo
error
para métodos que listam palavras para modelos de idioma customizados -
O campo
error
que pode ser retornado como parte da resposta JSON dos métodosGET /v1/customizations/{customization_id}/words
eGET /v1/customizations/{customization_id}/words/{word_name}
agora é uma matriz. Se o serviço descobriu um ou mais problemas com a definição de uma palavra customizada, o campo listará cada elemento do problema da definição e fornecerá uma mensagem descrevendo o problema. Para obter mais informações, consulte Listando palavras customizadas de um modelo de idioma customizado. - Os parâmetros
keywords_threshold
eword_alternatives_threshold
não aceitam mais um valor nulo -
Os parâmetros
keywords_threshold
eword_alternatives_threshold
dos métodos de reconhecimento não aceitam mais um valor nulo. Para omitir palavras-chave e alternativas de palavras da resposta, omita os parâmetros. Um valor especificado deve ser um valor flutuante.
22 de setembro de 2016
- Nova interface de customização do modelo de idioma beta
- O serviço agora oferece uma nova interface de customização do modelo de idioma beta para inglês dos EUA. É possível usar a interface para customizar o vocabulário base do serviço e os modelos de idioma por meio da criação de modelos de idioma
customizados que incluem terminologia específica do domínio. É possível incluir palavras customizadas individualmente ou fazer o serviço extraí-las dos corpora. Para usar seus modelos customizados com os métodos de reconhecimento de voz
que são oferecidos por qualquer uma das interfaces do serviço, transmita o parâmetro de consulta
customization_id
. Para obter mais informações, consulte - Novo suporte para o formato de áudio
audio/mulaw
- A lista de formatos de áudio suportados agora inclui
audio/mulaw
, que fornece um áudio de canal único codificado usando o algoritmo de dados u-law (ou mu-law). Quando você usa esse formato, também deve-se especificar a taxa de amostragem na qual o áudio é capturado. Para obter mais informações, consulte Formato de áudio /mulaw. - Novos
supported_features
identificados ao listar modelos - Os métodos
GET /v1/models
eGET /v1/models/{model_id}
agora retornam um camposupported_features
como parte de sua saída para cada modelo de idioma. As informações adicionais descrevem se o modelo suporta customização. Para obter mais informações, consulte a referência API & SDK.
30 de junho de 2016
- Agora a interface HTTP beta assíncrona suporta todos os idiomas disponíveis
- A interface de HTTP assíncrona beta agora suporta todos os idiomas que são suportados pelo serviço. A interface estava disponível anteriormente somente para inglês dos EUA. Para obter mais informações, consulte A interface assíncrona HTTP e a referência da API e do SDK.
23 de junho de 2016
- Nova interface HTTP assíncrona agora disponível
- Uma interface de HTTP assíncrona beta agora está disponível. A interface fornece recursos de reconhecimento integral para a transcrição em inglês dos EUA por meio de chamadas HTTP sem bloqueio. É possível registrar as URLs de retorno de chamada e fornecer sequências secretas especificadas pelo usuário para alcançar a autenticação e a integridade de dados com assinaturas digitais. Para obter mais informações, consulte A interface assíncrona HTTP e a referência da API e do SDK.
- Novo parâmetro beta
smart_formatting
para reconhecimento de voz - Um recurso de formatação inteligente beta que converte datas, horários, séries de dígitos e números, números de telefone, valores de moeda e endereços da Internet em representações mais convencionais nas transcrições finais. Você ativa o recurso
configurando o parâmetro
smart_formatting
comotrue
em uma solicitação de reconhecimento. O recurso é funcionalidade beta que está disponível somente para inglês dos EUA. Para obter mais informações, consulte Formatação inteligente. - Novo modelo de banda larga em francês
- A lista de modelos suportados para reconhecimento de voz agora inclui
fr-FR_BroadbandModel
para áudio no idioma francês que é amostrado em 16 kHz, no mínimo. Para obter mais informações, consulte Idiomas e modelos de geração anterior. - Novo suporte para o formato de áudio
audio/basic
- Agora, a lista de formatos de áudio suportados inclui
audio/basic
. O formato fornece áudio de canal único que é codificado usando os dados de 8 bits u-law (ou mu-law) que são amostrados em 8 kHz. Para obter mais informações, consulte Formato audio/basic. - Métodos de reconhecimento de voz agora retornam avisos para parâmetros inválidos
- Os vários métodos de reconhecimento podem retornar uma resposta
warnings
que inclui mensagens sobre parâmetros de consulta inválidos ou campos JSON que estão incluídos em uma solicitação. O formato dos avisos mudou. Por exemplo,"warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']."
agora é"warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}."
- Corpo vazio necessário para métodos HTTP
POST
que não passam dados - Para solicitações
POST
de HTTP que não transmitem dados de outra forma para o serviço, deve-se incluir um corpo da solicitação vazio do formulário{}
. Com o comandocurl
, você usa a opção--data
para passar os dados vazios.
10 de março de 2016
- Novos limites máximos em áudio transmitidos para reconhecimento de voz
- Ambas as formas de transmissão de dados (entrega única e fluxo) agora impõem um limite de tamanho de 100 MB nos dados de áudio, assim como faz a interface do WebSocket. Anteriormente, a abordagem de entrega única tinha um limite máximo de 4 MB de dados. Para obter mais informações, consulte Transmissão de áudio (para todas as interfaces) e Enviar áudio e receber os resultados de reconhecimento (para a interface do WebSocket). A seção WebSocket também discute o tamanho máximo do quadro ou mensagem de 4 MB imposto pela interface do WebSocket.
- Interfaces HTTP e WebSocket agora podem retornar avisos
- A resposta JSON para uma solicitação de reconhecimento agora pode incluir uma matriz de mensagens de aviso para parâmetros de consulta inválidos ou campos JSON que estão incluídos em uma solicitação. Cada elemento da matriz é uma sequência
que descreve a natureza do aviso seguido por uma matriz de sequências de argumentos inválidos. Por exemplo,
"warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ]
. Para obter mais informações, consulte a referência API & SDK. - O Apple iOS SDK beta foi descontinuado
- O beta Watson Speech Software Development Kit (SDK) para o sistema operacional Apple® iOS está descontinuado. Como alternativa, use o Watson SDK para o sistema operacional Apple® iOS. O novo SDK está disponível no repositório ios-sdk no namespace
watson-developer-cloud
em GitHub. - Interface do WebSocket pode produzir resultados atrasados
- A interface do WebSocket pode levar minutos para produzir resultados finais para uma solicitação de reconhecimento para um arquivo de áudio especialmente longo. Para a interface do WebSocket, a conexão TCP subjacente permanece inativa enquanto
o serviço prepara a resposta. Portanto, a conexão pode ser fechada devido a um tempo limite. Para evitar o tempo limite com a interface do WebSocket, solicite resultados provisórios (
\"interim_results\": \"true\"
) no JSON para a mensagemstart
para iniciar a solicitação. É possível descartar os resultados provisórios se você não precisar deles. Esse problema será resolvido em uma atualização futura.
19 de janeiro de 2016
- Novo recurso de filtragem de profanidade
- O serviço foi atualizado para incluir um novo recurso de filtragem de profanidade em 19 de janeiro de 2016. Por padrão, o serviço censura a profanidade de seus resultados de transcrição para o áudio inglês dos EUA. Para obter mais informações, consulte Filtragem de profanidade.
17 de dezembro de 2015
- Novo recurso de localização de palavra-chave
- O serviço agora oferece um recurso de marcação de palavra-chave. É possível especificar uma matriz de sequências de palavras-chave que devem ser correspondidas no áudio de entrada. Também deve-se especificar um nível de confiança definido pelo usuário que uma palavra deve atender para ser considerada uma correspondência para uma palavra-chave. Para obter mais informações, consulte Marcação de palavra-chave. O recurso de marcação de palavra-chave é funcionalidade beta.
- Novo recurso de palavras alternativas
- O serviço agora oferece um recurso de alternativas de palavra. O recurso retorna hipóteses alternativas para palavras na entrada de áudio que atendem um nível de confiança definido pelo usuário. Para obter mais informações, consulte Alternativas de palavra. O recurso de alternativas de palavra é funcionalidade beta.
- Novos modelos em árabe e inglês do Reino Unido
- O serviço suporta mais idiomas com seus modelos de transcrição:
en-UK_BroadbandModel
een-UK_NarrowbandModel
para inglês do Reino Unido ear-AR_BroadbandModel
para árabe padrão moderno. Para obter mais informações, consulte Idiomas e modelos de geração anterior. - Novo campo
session_closed
para métodos baseados em sessão - Nas respostas JSON que ele retorna para erros com métodos baseados em sessão, o serviço agora também inclui um novo campo
session_closed
. O campo será configurado comotrue
se a sessão estiver fechada como resultado do erro. Para obter mais informações sobre os possíveis códigos de retorno de qualquer método, consulte a referência da API e do SDK. - Tempo limite da plataforma HTTP não se aplica mais
- As solicitações de reconhecimento de HTTP não estão mais sujeitas a um tempo limite de plataforma de 10 minutos. O serviço agora mantém a conexão ativa enviando um caractere de espaço no objeto JSON de resposta a cada 20 segundos enquanto o reconhecimento estiver em andamento. Para obter mais informações, consulte Tempos limites.
- A limitação de taxa com o comando curl não é mais necessária
- Quando você usa o comando
curl
para transcrever áudio com o serviço, não é mais necessário usar a opção--limit-rate
para transferir dados em uma taxa até 40.000 bytes por segundo. - Mudanças nos códigos de erro HTTP
- O serviço não retorna mais o código de status HTTP 490 para os métodos de HTTP baseados em sessão
GET /v1/sessions/{session_id}/observe_result
ePOST /v1/sessions/{session_id}/recognize
. O serviço agora responde com o código de status HTTP 400 no lugar.
21 de setembro de 2015
- Novos SDKs móveis disponíveis
-
Dois novos SDKs móveis beta estão disponíveis para os serviços de fala. Os SDKs ativam os aplicativos móveis para interagir com os serviços Speech to Text e Text to Speech.
- O Watson Speech SDK para a plataforma Google Android™ suporta streaming de áudio para o serviço Speech to Text em tempo real e recebimento de transcrição de áudio conforme você fala. O projeto inclui um aplicativo de exemplo que
demonstra a interação com ambos os serviços de fala. O SDK está disponível no repositório speech-android-sdk no espaço de nomes
watson-developer-cloud
em GitHub. - O Watson Speech SDK para o sistema operacional Apple® iOS suporta streaming de áudio para o serviço Speech to Text e recebimento de transcrição de áudio em resposta. O SDK está disponível no repositório speech-ios-sdk no espaço de nomes
watson-developer-cloud
em GitHub.
Os SDKs suportam a autenticação com os serviços de fala usando suas credenciais do serviço IBM Cloud ou um token de autenticação. Como os SDKs são beta, eles estão sujeitos a mudanças no futuro.
- O Watson Speech SDK para a plataforma Google Android™ suporta streaming de áudio para o serviço Speech to Text em tempo real e recebimento de transcrição de áudio conforme você fala. O projeto inclui um aplicativo de exemplo que
demonstra a interação com ambos os serviços de fala. O SDK está disponível no repositório speech-android-sdk no espaço de nomes
- Novos modelos em chinês mandarim e português do Brasil
-
O serviço suporta dois novos idiomas, português do Brasil e chinês mandarim, com os modelos a seguir:
- Modelo de banda larga de português do Brasil (
pt-BR_BroadbandModel
) - Modelo de banda estreita de português do Brasil (
pt-BR_NarrowbandModel
) - Modelo de banda larga em chinês mandarim (
zh-CN_BroadbandModel
) - Modelo de banda estreita em chinês mandarim (
zh-CN_NarrowbandModel
)
Para obter mais informações, consulte Idiomas e modelos de geração anterior.
- Modelo de banda larga de português do Brasil (
- Novo suporte para o formato de áudio
audio/ogg;codecs=opus
-
As solicitações de HTTP
POST
/v1/sessions/{session_id}/recognize
e/v1/recognize
, bem como a solicitação do WebSocket/v1/recognize
, suportam a transcrição de um novo tipo de mídia:audio/ogg;codecs=opus
para os arquivos de formato Ogg que usam o codec Opus. Além disso, o formatoaudio/wav
para os métodos agora suporta qualquer codificação. A restrição sobre o uso da codificação PCM linear foi removida. Para obter mais informações, consulte Formato audio/ogg. - Novo parâmetro
sequence_id
para longa pesquisa de sessões -
O serviço agora suporta a superação de tempos limites ao transcrever arquivos de áudio longos com a interface de HTTP. Ao usar sessões, é possível empregar um padrão de pesquisa detalhada especificando IDs de sequência com os métodos
GET /v1/sessions/{session_id}/observe_result
ePOST /v1/sessions/{session_id}/recognize
para tarefas de reconhecimento de longa execução. Usando o novo parâmetrosequence_id
desses métodos, é possível solicitar resultados antes, durante ou depois de enviar uma solicitação de reconhecimento. - Novo recurso de capitalização para transcrição em inglês dos EUA
-
Para os modelos de idioma inglês dos EUA,
en_US_BroadbandModel
een_US_NarrowbandModel
, o serviço agora insere letras maiúsculas em nomes próprios. Por exemplo, o serviço retornaria um novo texto com a seguinte redação: "Barack Obama se formou na Universidade de Columbia" em vez de "barack obama graduated from columbia university". Essa mudança pode ser interessante para você se o seu aplicativo for sensível de alguma maneira às letras maiúsculas de nomes próprios. - Novo código de erro HTTP
-
A solicitação HTTP
DELETE /v1/sessions/{session_id}
não retorna o código de status 415 "Unsupported Media Type". Esse código de retorno foi removido da documentação para o método.
1º de julho de 2015
- Agora o serviço Speech to Text está geralmente disponível
-
O serviço mudou de beta para a disponibilidade geral (GA) em 1º de julho de 2015. As diferenças a seguir existem entre as versões beta e GA das APIs do Speech to Text. A liberação do GA requer que os usuários atualizem para a nova versão do serviço.
A versão GA da API de HTTP é compatível com a versão beta. Será necessário mudar seu código do aplicativo existente somente se você especificou explicitamente um nome do modelo. Por exemplo, o código de amostra disponível para o serviço do GitHub incluiu a linha de código a seguir no arquivo
demo.js
:model: 'WatsonModel'
Essa linha especificou o modelo padrão
WatsonModel
, para a versão beta do serviço. Se seu aplicativo também especificou esse modelo, será necessário mudá-lo para usar um dos novos modelos que são suportados pela versão GA. Para obter mais informações, consulte o próximo marcador. - Novo modelo de programação baseado em token
-
O serviço agora suporta um novo modelo de programação para interação direta entre um cliente e o serviço por meio de uma conexão do WebSocket. Ao usar esse modelo, um cliente pode obter um token de autenticação para a comunicação diretamente com o serviço. O token ignora a necessidade de um aplicativo proxy do lado do servidor no IBM Cloud para chamar o serviço em nome do cliente. Os tokens são os meios preferenciais para os clientes interagirem com o serviço.
O serviço continua a suportar o modelo de programação antigo que dependia de um proxy do lado do servidor para retransmitir áudio e mensagens entre o cliente e o serviço. Mas o novo modelo é mais eficiente e fornece um rendimento mais alto.
- Novo parâmetro
model
para reconhecimento de voz -
Os métodos
POST /v1/sessions
ePOST /v1/recognize
, juntamente com o método/v1/recognize
do WebSocket, agora suportam um parâmetro de consultamodel
. Você usa o parâmetro para especificar informações sobre o áudio:- O idioma: inglês, japonês ou espanhol
- A taxa mínima de amostragem: banda larga (16 kHz) ou estreita banda (8 kHz)
Para obter mais informações, consulte Idiomas e modelos de geração anterior.
- Novo parâmetro
inactivity_timeout
para reconhecimento de voz -
O parâmetro
inactivity_timeout
configura o valor de tempo limite em segundos após o qual o serviço fecha a conexão se ele detecta silêncio (nenhuma fala) no modo de fluxo. Por padrão, o serviço finaliza a sessão após 30 segundos de silêncio. Os métodosPOST /v1/recognize
e WebSocket/v1/recognize
suportam o parâmetro. Para obter mais informações, consulte Tempos limites. - Novo parâmetro
max_alternatives
para reconhecimento de voz -
O parâmetro
max_alternatives
instrui o serviço a retornar as n melhores hipóteses alternativas para a transcrição de áudio. Os métodosPOST /v1/recognize
e WebSocket/v1/recognize
suportam o parâmetro. Para obter mais informações, consulte Alternativas máximas. - Novo parâmetro
word_confidence
para reconhecimento de voz -
O parâmetro
word_confidence
instrui o serviço a retornar uma pontuação de confiança para cada palavra da transcrição. Os métodosPOST /v1/recognize
e WebSocket/v1/recognize
suportam o parâmetro. Para obter mais informações, consulte Confiança de palavra. - Novo parâmetro
timestamps
para reconhecimento de voz -
O parâmetro
timestamps
instrui o serviço a retornar o horário de início e de encerramento com relação ao início do áudio para cada palavra da transcrição. Os métodosPOST /v1/recognize
e WebSocket/v1/recognize
suportam o parâmetro. Para obter mais informações, consulte Registros de data e hora de palavra. - Método de sessões renomeadas para observação de resultados
-
O método
GET /v1/sessions/{session_id}/observeResult
agora é denominadoGET /v1/sessions/{session_id}/observe_result
. O nomeobserveResult
ainda é suportado para compatibilidade com versões anteriores. - Novo suporte para o formato de áudio Waveform Audio File (WAV)
-
Agora o cabeçalho
Content-Type
dos métodosrecognize
suportaaudio/wav
para arquivos Waveform Audio File (WAV), além deaudio/flac
eaudio/l16
. Para obter mais informações, consulte Formato audio/wav. - Limites na quantidade máxima de áudio para reconhecimento de voz
-
O serviço agora tem um limite de 100 MB de dados por sessão no modo de fluxo. Você pode especificar o modo de streaming especificando o valor
chunked
com o cabeçalhoTransfer-Encoding
. A entrega única de um arquivo de áudio ainda impõe um limite de tamanho de 4 MB nos dados que são enviados. Para obter mais informações, consulte Transmissão de áudio. - Novo cabeçalho para optar por contribuir para melhorias de serviços
-
Os métodos
GET /v1/sessions/{session_id}/observe_result
,POST /v1/sessions/{session_id}/recognize
ePOST /v1/recognize
agora incluem o parâmetro de cabeçalhoX-WDC-PL-OPT-OUT
para controlar se o serviço usa os dados de áudio e transcrição de uma solicitação para melhorar os resultados futuros. A interface do WebSocket inclui um parâmetro de consulta equivalente. Especifique um valor de1
para evitar que o serviço use os resultados de áudio e transcrição. O parâmetro é aplicado somente à solicitação atual. O novo cabeçalho substitui o cabeçalhoX-logging
da API beta. Consulte Controlando a criação de log de solicitação para os serviços do Watson. - Mudanças nos códigos de erro HTTP
-
Agora o serviço pode responder com os códigos de erro HTTP a seguir:
- Para os métodos
/v1/models
,/v1/models/{model_id}
,/v1/sessions
,/v1/sessions/{session_id}
,/v1/sessions/{session_id}/observe_result
,/v1/sessions/{session_id}/recognize
e/v1/recognize
, o código de erro 415 ("Tipo de mídia não suportado") foi incluído. - Para solicitações
POST
eGET
ao método/v1/sessions/{session_id}/recognize
, os seguintes códigos de erro são modificados:- O código de erro 404 ("Session_id não localizado") tem uma mensagem mais descritiva (
POST
eGET
). - Código de erro 503 ("A sessão já está processando uma solicitação. Solicitações simultâneas não são permitidas na mesma sessão. Sessão permanece ativa após esse erro.") tem uma mensagem mais descritiva (apenas
POST
). - Para solicitações
POST
de HTTP para os métodos/v1/sessions
e/v1/recognize
, o código de erro 503 ("Serviço indisponível") pode ser retornado. O código de erro também pode ser retornado quando você cria uma conexão WebSocket com o método/v1/recognize
.
- O código de erro 404 ("Session_id não localizado") tem uma mensagem mais descritiva (
- Para os métodos