IBM Cloud Docs
Idiomas e vozes

Idiomas e vozes

O serviço IBM Watson® Text to Speechsuporta uma variedade de idiomas, vozes e dialetos. Para diferentes idiomas, o serviço oferece vozes femininas, vozes masculinas ou ambas. Cada voz usa a cadência e a entonação apropriadas para seu dialeto.

Todas as vozes do serviço usam tecnologia de voz neural. A tecnologia de voz neural usa múltiplas Deep Neural Networks (DNNs) para predizer os recursos acústicos (espectrais) do discurso. As DNNs são treinadas em discursos humanos naturais e geram o áudio resultante por meio dos recursos acústicos preditos. Durante a síntese, as DNNs preveem a duração do tom e do fonema (prosódia), a estrutura espectral e a forma de onda do discurso. As vozes neurais produzem discurso nítido e claro, com uma qualidade de áudio muito natural, suave e consistente.

Idiomas e vozes suportados

O serviço oferece dois tipos de vozes com qualidades e capacidades diferentes:

  • Vozes neurais expressivas oferecem fala de som natural que é excepcionalmente clara e nítida. Sua pronúncia e inflexões são naturais e conversacionais, e o discurso resultante oferece transições extremamente lisas entre as palavras. Também suportam o uso de recursos adicionais que não estão disponíveis com vozes neurais aprimoradas. Para obter uma lista de todas as vozes expressivas, consulte vozes neurais expressivas.
  • Vozes neurais aprimoradas atingem um alto grau de fala natural e suportam a maioria dos recursos de serviço. Para obter uma lista de todas as vozes neurais aprimorados, consulte vozes neurais aprimoradas.

As páginas a seguir fornecem mais informações sobre as vozes e sua tecnologia:

Suporte linguístico por tipo de voz

A Tabela 1 mostra o suporte do serviço para linguagens por tipo de voz. Os tópicos a seguir listam as linguagens e vozes disponíveis para cada tipo de voz.

Tabela 1. Suporte linguístico por tipo de voz
Idioma Vozes neurais expressivas Vozes neurais aprimoradas
Holandês
(Holanda)
Inglês
(Reino Unido)
Inglês
(australiano)
Inglês
(Estados Unidos)
Francês
(canadense)
Francês
(França)
Alemão
Italiano
Japonês
Coreano
Português
(brasileiro)
Espanhol
(Castelhano)
Espanhol
(latino-americano)
Espanhol
(Sul-Americano)

Vozes neurais expressivas

A tabela 2 lista e fornece amostras de áudio para todas as vozes neurais expressivas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Dataou ambos (nenhuma versão do produto é citada).

  • As vozes neurais expressivas suportam recursos adicionais que não estão disponíveis com outros tipos de vozes. Esses recursos incluem estilos de fala adicionais, ênfase automática de interjeições e ênfase de palavras especificadas. Para obter mais informações, consulte Modificando a síntese de fala com vozes neurais expressivas.
  • Quando usado com o elemento SSML <prosody> , vozes expressivas suportam apenas valores percentuais para os atributos rate e pitch . Para obter mais informações, consulte O elemento <prosody>.

As vozes neurais expressivas determinam o sentimento do contexto e usam automaticamente a entonação apropriada para se adequar ao texto. Para produzir as prosoas mais naturais sonoras, as vozes neurais expressivas precisam considerar o contexto de todas as palavras e frases de uma frase. Vozes expressivas são, portanto, mais intensivas em computação e têm latência ligeiramente maior do que outros tipos de vozes. A resposta inicial para um pedido de síntese que usa uma voz expressiva pode levar uma fração de um segundo mais longo (por exemplo, algumas centenas de milissegundos) para chegar. O tempo total de resposta para a solicitação ser concluída também é maior.

Para minimizar a latência e o tempo de resposta para uma voz expressiva, use frases mais curtas sempre que possível.

Tabela 2. Linguagens neurais expressivas e vozes
Idioma Disponibilidade Voz/Sexo Amostra de áudio
Inglês
(australiano)
GA en-AU_HeidiExpressive
Feminino
GA en-AU_JackExpressive
Masculino
Inglês
(Estados Unidos)
GA en-US_AllisonExpressive
Feminino
GA en-US_EmmaExpressive
Feminino
GA en-US_LisaExpressive
Feminino
GA en-US_MichaelExpressive
Masculino

Vozes neurais aprimoradas

A tabela 3 lista e fornece amostras de áudio para todas as vozes neurais aprimoradas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Dataou ambos (nenhuma versão do produto é citada).

Tabela 3. Idiomas neurais aprimorados e vozes
Idioma Disponibilidade Voz/Sexo Amostra de áudio
Holandês
(Holanda)
Beta nl-NL_MerelV3Voice
Feminino
Inglês
(Reino Unido)
GA en-GB_CharlotteV3Voice
Feminino
GA en-GB_JamesV3Voice
Masculino
GA en-GB_KateV3Voice
Feminino
Inglês
(Estados Unidos)
GA en-US_AllisonV3Voice
Feminino
GA en-US_EmilyV3Voice
Feminino
GA en-US_HenryV3Voice
Masculino
GA en-US_KevinV3Voice
Masculino
GA en-US_LisaV3Voice
Feminino
GA en-US_MichaelV3Voice
Masculino
GA en-US_OliviaV3Voice
Feminino
Francês
(canadense)
GA fr-CA_LouiseV3Voice
Feminino
Francês
(França)
GA fr-FR_NicolasV3Voice
Masculino
GA fr-FR_ReneeV3Voice
Feminino
Alemão GA de-DE_BirgitV3Voice
Feminino
GA de-DE_DieterV3Voice
Masculino
GA de-DE_ErikaV3Voice
Feminino
Italiano GA it-IT_FrancescaV3Voice
Feminino
Japonês GA ja-JP_EmiV3Voice
Feminino
Coreano GA ko-KR_JinV3Voice
Feminino
Português
(brasileiro)
GA pt-BR_IsabelaV3Voice
Feminino
Espanhol
(Castelhano)
GA es-ES_EnriqueV3Voice
Masculino
GA es-ES_LauraV3Voice
Feminino
Espanhol
(latino-americano)
GA es-LA_SofiaV3Voice
Feminino
Espanhol
(norte-americano)
GA es-US_SofiaV3Voice
Feminino

As vozes espanholas latino-americanas e norte-americanas da Sofia são essencialmente a mesma voz. A diferença mais significativa diz respeito a como as duas vozes interpretam um $ (cifrão). A versão latino-americana usa o termo pesos; a versão norte-americana usa o termo dólares. Outras diferenças menores também podem existir entre as duas vozes.

Criando um modelo customizado

Ao sintetizar o texto, o serviço aplica as regras de pronúncia dependentes de idioma para converter a ortografia comum de cada palavra em uma ortografia fonética. As regras de pronúncia do serviço funcionam bem para palavras comuns, mas podem produzir resultados imperfeitos para palavras incomuns, tais como termos com origens estrangeiras, nomes pessoais, abreviações ou acrônimos. Se o léxico de seu aplicativo incluir essas palavras, será possível usar a interface de customização para especificar como o serviço as pronuncia.

Um modelo personalizado é um dicionário de palavras e suas traduções. Você cria um modelo customizado para um idioma específico, não para uma voz específica. Portanto, um modelo customizado pode ser usado com qualquer voz para o seu idioma especificado. Por exemplo, um modelo customizado que você cria para o idioma en-US pode ser usado com qualquer voz de inglês dos EUA. Ele não pode, no entanto, ser usado com uma voz en-GB ou en-AU.

A customização está disponível para todos os idiomas. Todas as vozes suportam o uso dos símbolos fonéticos padrão do International Phonetic Alphabet (IPA) e do IBM para customização de palavras. Para obter mais informações, consulte Entendendo a customização.

Criando uma voz customizada

IBM Cloud

Os clientes premium podem trabalhar com a IBM para treinar uma nova voz customizada para seu caso de uso e mercado de destino específicos. Criar uma voz customizada é diferente de customizar uma das vozes existentes do serviço. Uma voz customizada é uma nova voz única que se baseia em dados de treinamento de áudio que o cliente fornece. A IBM pode treinar uma voz customizada com apenas uma hora de dados de treinamento.

Para solicitar uma voz customizada ou para obter mais informações, complete e envie este IBM Formulário de Solicitação.