Idiomas e vozes
O serviço IBM Watson® Text to Speechsuporta uma variedade de idiomas, vozes e dialetos. Para diferentes idiomas, o serviço oferece vozes femininas, vozes masculinas ou ambas. Cada voz usa a cadência e a entonação apropriadas para seu dialeto.
Todas as vozes do serviço usam tecnologia de voz neural. A tecnologia de voz neural usa múltiplas Deep Neural Networks (DNNs) para predizer os recursos acústicos (espectrais) do discurso. As DNNs são treinadas em discursos humanos naturais e geram o áudio resultante por meio dos recursos acústicos preditos. Durante a síntese, as DNNs preveem a duração do tom e do fonema (prosódia), a estrutura espectral e a forma de onda do discurso. As vozes neurais produzem discurso nítido e claro, com uma qualidade de áudio muito natural, suave e consistente.
Idiomas e vozes suportados
O serviço oferece dois tipos de vozes com qualidades e capacidades diferentes:
- Vozes neurais expressivas oferecem fala de som natural que é excepcionalmente clara e nítida. Sua pronúncia e inflexões são naturais e conversacionais, e o discurso resultante oferece transições extremamente lisas entre as palavras. Também suportam o uso de recursos adicionais que não estão disponíveis com vozes neurais aprimoradas. Para obter uma lista de todas as vozes expressivas, consulte vozes neurais expressivas.
- Vozes neurais aprimoradas atingem um alto grau de fala natural e suportam a maioria dos recursos de serviço. Para obter uma lista de todas as vozes neurais aprimorados, consulte vozes neurais aprimoradas.
As páginas a seguir fornecem mais informações sobre as vozes e sua tecnologia:
- Para um blog que introduz as vozes expressivas, veja É sua AI conversacional configurando o tom certo?.
- Para obter mais informações sobre a tecnologia de voz neural do serviço, consulte A ciência por trás do serviço.
Suporte linguístico por tipo de voz
A Tabela 1 mostra o suporte do serviço para linguagens por tipo de voz. Os tópicos a seguir listam as linguagens e vozes disponíveis para cada tipo de voz.
Idioma | Vozes neurais expressivas | Vozes neurais aprimoradas |
---|---|---|
Holandês (Holanda) |
✔ | |
Inglês (Reino Unido) |
✔ | ✔ |
Inglês (australiano) |
✔ | |
Inglês (Estados Unidos) |
✔ | ✔ |
Francês (canadense) |
✔ | |
Francês (França) |
✔ | |
Alemão | ✔ | |
Italiano | ✔ | |
Japonês | ✔ | |
Coreano | ✔ | |
Português (brasileiro) |
✔ | ✔ |
Espanhol (Castelhano) |
✔ | |
Espanhol (latino-americano) |
✔ | ✔ |
Espanhol (Sul-Americano) |
✔ |
Vozes neurais expressivas
A tabela 2 lista e fornece amostras de áudio para todas as vozes neurais expressivas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub, ou todas as 3 (nenhuma versão do produto é citada).
- As vozes neurais expressivas suportam recursos adicionais que não estão disponíveis com outros tipos de vozes. Esses recursos incluem estilos de fala adicionais, ênfase automática de interjeições e ênfase de palavras especificadas. Para obter mais informações, consulte Modificando a síntese de fala com vozes neurais expressivas.
- Quando usado com o elemento SSML
<prosody>
, vozes expressivas suportam apenas valores percentuais para os atributosrate
epitch
. Para obter mais informações, consulte O elemento<prosody>
.
As vozes neurais expressivas determinam o sentimento do contexto e usam automaticamente a entonação apropriada para se adequar ao texto. Para produzir as prosoas mais naturais sonoras, as vozes neurais expressivas precisam considerar o contexto de todas as palavras e frases de uma frase. Vozes expressivas são, portanto, mais intensivas em computação e têm latência ligeiramente maior do que outros tipos de vozes. A resposta inicial para um pedido de síntese que usa uma voz expressiva pode levar uma fração de um segundo mais longo (por exemplo, algumas centenas de milissegundos) para chegar. O tempo total de resposta para a solicitação ser concluída também é maior.
Para minimizar a latência e o tempo de resposta para uma voz expressiva, use frases mais curtas sempre que possível.
Idioma | Disponibilidade | Voz/Sexo | Amostra de áudio |
---|---|---|---|
Inglês (australiano) |
GA | en-AU_HeidiExpressive Feminino |
|
GA | en-AU_JackExpressive Masculino |
||
Inglês (Estados Unidos) |
GA | en-US_AllisonExpressive Feminino |
|
GA | en-US_EmmaExpressive Feminino |
||
GA | en-US_LisaExpressive Feminino |
||
GA | en-US_MichaelExpressive Masculino |
||
Inglês (Reino Unido) |
GA | en-GB_GeorgeExpressive Masculino |
|
Português (brasileiro) |
GA | pt-BR_LucasExpressive Masculino |
|
Espanhol (latino-americano) |
GA | es-LA_DanielaExpressive Feminino |
Vozes neurais aprimoradas
A tabela 3 lista e fornece amostras de áudio para todas as vozes neurais aprimoradas disponíveis. A coluna Disponibilidade indica se cada voz está geralmente disponível (GA) para uso de produção ou beta.. A coluna também indica se cada voz está disponível para IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub ou todas as 3 (nenhuma versão do produto é citada).
Idioma | Disponibilidade | Voz/Sexo | Amostra de áudio |
---|---|---|---|
Holandês (Holanda) |
Beta | nl-NL_MerelV3Voice Feminino |
|
Inglês (Reino Unido) |
GA | en-GB_CharlotteV3Voice Feminino |
|
GA | en-GB_JamesV3Voice Masculino |
||
GA | en-GB_KateV3Voice Feminino |
||
Inglês (Estados Unidos) |
GA | en-US_AllisonV3Voice Feminino |
|
GA | en-US_EmilyV3Voice Feminino |
||
GA | en-US_HenryV3Voice Masculino |
||
GA | en-US_KevinV3Voice Masculino |
||
GA | en-US_LisaV3Voice Feminino |
||
GA | en-US_MichaelV3Voice Masculino |
||
GA | en-US_OliviaV3Voice Feminino |
||
Francês (canadense) |
GA | fr-CA_LouiseV3Voice Feminino |
|
Francês (França) |
GA | fr-FR_NicolasV3Voice Masculino |
|
GA | fr-FR_ReneeV3Voice Feminino |
||
Alemão | GA | de-DE_BirgitV3Voice Feminino |
|
GA | de-DE_DieterV3Voice Masculino |
||
GA | de-DE_ErikaV3Voice Feminino |
||
Italiano | GA | it-IT_FrancescaV3Voice Feminino |
|
Japonês | GA | ja-JP_EmiV3Voice Feminino |
|
Coreano | GA | ko-KR_JinV3Voice Feminino |
|
Português (brasileiro) |
GA | pt-BR_IsabelaV3Voice Feminino |
|
Espanhol (Castelhano) |
GA | es-ES_EnriqueV3Voice Masculino |
|
GA | es-ES_LauraV3Voice Feminino |
||
Espanhol (latino-americano) |
GA | es-LA_SofiaV3Voice Feminino |
|
Espanhol (norte-americano) |
GA | es-US_SofiaV3Voice Feminino |
As vozes espanholas latino-americanas e norte-americanas da Sofia
são essencialmente a mesma voz. A diferença mais significativa diz respeito a como as duas vozes interpretam um $ (cifrão). A versão latino-americana usa o termo
pesos; a versão norte-americana usa o termo dólares. Outras diferenças menores também podem existir entre as duas vozes.
Criando um modelo customizado
Ao sintetizar o texto, o serviço aplica as regras de pronúncia dependentes de idioma para converter a ortografia comum de cada palavra em uma ortografia fonética. As regras de pronúncia do serviço funcionam bem para palavras comuns, mas podem produzir resultados imperfeitos para palavras incomuns, tais como termos com origens estrangeiras, nomes pessoais, abreviações ou acrônimos. Se o léxico de seu aplicativo incluir essas palavras, será possível usar a interface de customização para especificar como o serviço as pronuncia.
Um modelo personalizado é um dicionário de palavras e suas traduções. Você cria um modelo customizado para um idioma específico, não para uma voz específica. Portanto, um modelo customizado pode ser usado com qualquer voz para o seu idioma especificado.
Por exemplo, um modelo customizado que você cria para o idioma en-US
pode ser usado com qualquer voz de inglês dos EUA. Ele não pode, no entanto, ser usado com uma voz en-GB
ou en-AU
.
A customização está disponível para todos os idiomas. Todas as vozes suportam o uso dos símbolos fonéticos padrão do International Phonetic Alphabet (IPA) e do IBM para customização de palavras. Para obter mais informações, consulte Entendendo a customização.
Criando uma voz customizada
IBM Cloud
Os clientes premium podem trabalhar com a IBM para treinar uma nova voz customizada para seu caso de uso e mercado de destino específicos. Criar uma voz customizada é diferente de customizar uma das vozes existentes do serviço. Uma voz customizada é uma nova voz única que se baseia em dados de treinamento de áudio que o cliente fornece. A IBM pode treinar uma voz customizada com apenas uma hora de dados de treinamento.
Para solicitar uma voz customizada ou para obter mais informações, complete e envie este IBM Formulário de Solicitação.