Idiomas e vozes

O serviço IBM Watson® Text to Speechsuporta uma variedade de idiomas, vozes e dialetos. Para diferentes idiomas, o serviço oferece vozes femininas, vozes masculinas ou ambas. Cada voz usa a cadência e a entonação apropriadas para seu dialeto.

Todas as vozes do serviço usam tecnologia de voz neural. A tecnologia de voz neural usa múltiplas Deep Neural Networks (DNNs) para predizer os recursos acústicos (espectrais) do discurso. As DNNs são treinadas em discursos humanos naturais e geram o áudio resultante por meio dos recursos acústicos preditos. Durante a síntese, as DNNs preveem a duração do tom e do fonema (prosódia), a estrutura espectral e a forma de onda do discurso. As vozes neurais produzem discurso nítido e claro, com uma qualidade de áudio muito natural, suave e consistente.

Idiomas e vozes suportados

O serviço oferece dois tipos de vozes com qualidades e capacidades diferentes:

Vozes neurais expressivas oferecem fala de som natural que é excepcionalmente clara e nítida. Sua pronúncia e inflexões são naturais e conversacionais, e o discurso resultante oferece transições extremamente lisas entre as palavras. Também suportam o uso de recursos adicionais que não estão disponíveis com vozes neurais aprimoradas. Para obter uma lista de todas as vozes expressivas, consulte vozes neurais expressivas.
Vozes neurais aprimoradas atingem um alto grau de fala natural e suportam a maioria dos recursos de serviço. Para obter uma lista de todas as vozes neurais aprimorados, consulte vozes neurais aprimoradas.

As páginas a seguir fornecem mais informações sobre as vozes e sua tecnologia:

Para um blog que introduz as vozes expressivas, veja É sua AI conversacional configurando o tom certo?.
Para obter mais informações sobre a tecnologia de voz neural do serviço, consulte A ciência por trás do serviço.

Suporte linguístico por tipo de voz

A Tabela 1 mostra o suporte do serviço para linguagens por tipo de voz. Os tópicos a seguir listam as linguagens e vozes disponíveis para cada tipo de voz.

Tabela 1. Suporte linguístico por tipo de voz
Idioma	Vozes neurais expressivas	Vozes neurais aprimoradas
Holandês (Holanda)		✔
Inglês (Reino Unido)		✔
Inglês (australiano)	✔
Inglês (Estados Unidos)	✔	✔
Francês (canadense)		✔
Francês (França)		✔
Alemão		✔
Italiano		✔
Japonês		✔
Coreano		✔
Português (brasileiro)		✔
Espanhol (Castelhano)		✔
Espanhol (latino-americano)		✔
Espanhol (Sul-Americano)		✔

Vozes neurais expressivas

A tabela 2 lista e fornece amostras de áudio para todas as vozes neurais expressivas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Dataou ambos (nenhuma versão do produto é citada).

As vozes neurais expressivas suportam recursos adicionais que não estão disponíveis com outros tipos de vozes. Esses recursos incluem estilos de fala adicionais, ênfase automática de interjeições e ênfase de palavras especificadas. Para obter mais informações, consulte Modificando a síntese de fala com vozes neurais expressivas.
Quando usado com o elemento SSML <prosody> , vozes expressivas suportam apenas valores percentuais para os atributos rate e pitch . Para obter mais informações, consulte O elemento <prosody>.

As vozes neurais expressivas determinam o sentimento do contexto e usam automaticamente a entonação apropriada para se adequar ao texto. Para produzir as prosoas mais naturais sonoras, as vozes neurais expressivas precisam considerar o contexto de todas as palavras e frases de uma frase. Vozes expressivas são, portanto, mais intensivas em computação e têm latência ligeiramente maior do que outros tipos de vozes. A resposta inicial para um pedido de síntese que usa uma voz expressiva pode levar uma fração de um segundo mais longo (por exemplo, algumas centenas de milissegundos) para chegar. O tempo total de resposta para a solicitação ser concluída também é maior.

Para minimizar a latência e o tempo de resposta para uma voz expressiva, use frases mais curtas sempre que possível.

Tabela 2. Linguagens neurais expressivas e vozes
Idioma	Disponibilidade	Voz/Sexo
Inglês (australiano)	GA	`en-AU_HeidiExpressive` Feminino
	GA	`en-AU_JackExpressive` Masculino
Inglês (Estados Unidos)	GA	`en-US_AllisonExpressive` Feminino
	GA	`en-US_EmmaExpressive` Feminino
	GA	`en-US_LisaExpressive` Feminino
	GA	`en-US_MichaelExpressive` Masculino

Vozes neurais aprimoradas

A tabela 3 lista e fornece amostras de áudio para todas as vozes neurais aprimoradas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Dataou ambos (nenhuma versão do produto é citada).

Tabela 3. Idiomas neurais aprimorados e vozes
Idioma	Disponibilidade	Voz/Sexo
Holandês (Holanda)	Beta	`nl-NL_MerelV3Voice` Feminino
Inglês (Reino Unido)	GA	`en-GB_CharlotteV3Voice` Feminino
	GA	`en-GB_JamesV3Voice` Masculino
	GA	`en-GB_KateV3Voice` Feminino
Inglês (Estados Unidos)	GA	`en-US_AllisonV3Voice` Feminino
	GA	`en-US_EmilyV3Voice` Feminino
	GA	`en-US_HenryV3Voice` Masculino
	GA	`en-US_KevinV3Voice` Masculino
	GA	`en-US_LisaV3Voice` Feminino
	GA	`en-US_MichaelV3Voice` Masculino
	GA	`en-US_OliviaV3Voice` Feminino
Francês (canadense)	GA	`fr-CA_LouiseV3Voice` Feminino
Francês (França)	GA	`fr-FR_NicolasV3Voice` Masculino
	GA	`fr-FR_ReneeV3Voice` Feminino
Alemão	GA	`de-DE_BirgitV3Voice` Feminino
	GA	`de-DE_DieterV3Voice` Masculino
	GA	`de-DE_ErikaV3Voice` Feminino
Italiano	GA	`it-IT_FrancescaV3Voice` Feminino
Japonês	GA	`ja-JP_EmiV3Voice` Feminino
Coreano	GA	`ko-KR_JinV3Voice` Feminino
Português (brasileiro)	GA	`pt-BR_IsabelaV3Voice` Feminino
Espanhol (Castelhano)	GA	`es-ES_EnriqueV3Voice` Masculino
	GA	`es-ES_LauraV3Voice` Feminino
Espanhol (latino-americano)	GA	`es-LA_SofiaV3Voice` Feminino
Espanhol (norte-americano)	GA	`es-US_SofiaV3Voice` Feminino

As vozes espanholas latino-americanas e norte-americanas da Sofia são essencialmente a mesma voz. A diferença mais significativa diz respeito a como as duas vozes interpretam um $ (cifrão). A versão latino-americana usa o termo pesos; a versão norte-americana usa o termo dólares. Outras diferenças menores também podem existir entre as duas vozes.

Criando um modelo customizado

Ao sintetizar o texto, o serviço aplica as regras de pronúncia dependentes de idioma para converter a ortografia comum de cada palavra em uma ortografia fonética. As regras de pronúncia do serviço funcionam bem para palavras comuns, mas podem produzir resultados imperfeitos para palavras incomuns, tais como termos com origens estrangeiras, nomes pessoais, abreviações ou acrônimos. Se o léxico de seu aplicativo incluir essas palavras, será possível usar a interface de customização para especificar como o serviço as pronuncia.

Um modelo personalizado é um dicionário de palavras e suas traduções. Você cria um modelo customizado para um idioma específico, não para uma voz específica. Portanto, um modelo customizado pode ser usado com qualquer voz para o seu idioma especificado. Por exemplo, um modelo customizado que você cria para o idioma en-US pode ser usado com qualquer voz de inglês dos EUA. Ele não pode, no entanto, ser usado com uma voz en-GB ou en-AU.

A customização está disponível para todos os idiomas. Todas as vozes suportam o uso dos símbolos fonéticos padrão do International Phonetic Alphabet (IPA) e do IBM para customização de palavras. Para obter mais informações, consulte Entendendo a customização.

Criando uma voz customizada

IBM Cloud

Os clientes premium podem trabalhar com a IBM para treinar uma nova voz customizada para seu caso de uso e mercado de destino específicos. Criar uma voz customizada é diferente de customizar uma das vozes existentes do serviço. Uma voz customizada é uma nova voz única que se baseia em dados de treinamento de áudio que o cliente fornece. A IBM pode treinar uma voz customizada com apenas uma hora de dados de treinamento.

Para solicitar uma voz customizada ou para obter mais informações, complete e envie este IBM Formulário de Solicitação.