Introdução ao Speech to Text
O serviço IBM Watson® Speech to Text transcreve áudio para texto para ativar os recursos de transcrição de voz para os aplicativos. Este tutorial baseado em curl
pode ajudá-lo a iniciar rapidamente com o serviço. Os exemplos mostram
como chamar o método POST /v1/recognize
do serviço para solicitar uma transcrição.
O tutorial usa o utilitário de linha de comandos curl
para demonstrar chamadas de API REST. Para obter mais informações sobre curl
, consulte Usando curl com exemplos Watson.
IBM Cloud Assista ao vídeo a seguir para obter um resumo visual de como começar a usar o serviço Speech to Text.
Antes de Iniciar
IBM Cloud
IBM Cloud
-
Copie as credenciais para autenticar sua instância de serviço:
-
Visualize a página Gerenciar da instância de serviço:
- Se você estiver na página Introdução para sua instância de serviço, clique na entrada Gerenciar na lista de tópicos.
- Se você estiver na página Lista de Recursos, expanda o agrupamento AI / Machine Learning na coluna Nome, e clique no nome de sua instância de serviço.
-
Na página Gerenciar, clique em Mostrar Credenciais na caixa Credenciais.
-
Copie os valores
API Key
eURL
para a instância de serviço.
-
Este tutorial usa uma chave API para autenticação. Na produção, use um token IAM. Para obter mais informações, consulte Autenticação em IBM Cloud.
IBM Cloud Pak for Data
IBM Cloud Pak for Data
O serviço Speech to Text deve ser instalado e configurado antes de iniciar este tutorial. Para obter mais informações, consulte Watson Serviços de fala em Cloud Pak for Data.
- Crie uma instância do serviço usando o Web client, a API ou a interface de comandos. Para obter mais informações sobre a criação de uma instância de serviço em IBM Cloud Pak for Data, consulte Criação de uma instância de serviço para os serviços de fala de Watson.
- Siga as instruções em Criando uma instância do Watson Speech Services para obter um token de acesso para a instância. Este tutorial usa um token de acesso para autenticar para o serviço.
Transcrever áudio sem opções
Chame o método POST /v1/recognize
para solicitar uma transcrição básica de um arquivo de áudio FLAC sem nenhum parâmetro de solicitação adicional.
-
Faça o download do arquivo de áudio da amostra audio-file.flac.
-
Emita o comando a seguir para chamar o método
/v1/recognize
do serviço para a transcrição básica sem parâmetros. O exemplo usa o cabeçalhoContent-Type
para indicar o tipo de áudio,audio/flac
. O exemplo usa o modelo de idioma padrão,en-US_BroadbandModel
para transcrição.IBM Cloud
- Modifique
{path_to_file}
para especificar a localização do arquivoaudio-file.flac
.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
IBM Cloud Pak for Data IBM Software Hub
- Substitua
{token}
e{url}
pelo token de acesso e URL de sua instância de serviço. - Modifique
{path_to_file}
para especificar a localização do arquivoaudio-file.flac
.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
- Modifique
O serviço retorna os resultados da transcrição a seguir:
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
}
],
"final": true
}
]
}
Transcrever áudio com opções
Chame o método POST /v1/recognize
para transcrever o mesmo arquivo de áudio FLAC, mas especifique dois parâmetros de transcrição.
-
Se necessário, faça o download do arquivo de áudio de amostra audio-file.flac.
-
Emita o comando a seguir para chamar o método
/v1/recognize
do serviço com dois parâmetros extras. Configure o parâmetrotimestamps
comotrue
para indicar o início e o fim de cada palavra no fluxo de áudio. Configure o parâmetromax_alternatives
como3
para receber as três alternativas mais prováveis para a transcrição. O exemplo usa o cabeçalhoContent-Type
para indicar o tipo de áudio,audio/flac
e a solicitação usa o modelo padrão,en-US_BroadbandModel
.IBM Cloud
- Modifique
{path_to_file}
para especificar a localização do arquivoaudio-file.flac
.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
IBM Cloud Pak for Data IBM Software Hub
- Substitua
{token}
e{url}
pelo token de acesso e URL de sua instância de serviço. - Modifique
{path_to_file}
para especificar a localização do arquivoaudio-file.flac
.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
- Modifique
O serviço retorna os resultados a seguir, que incluem os registros de data e hora e três transcrições alternativas:
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"timestamps": [
["several":, 1.0, 1.51],
["tornadoes":, 1.51, 2.15],
["touch":, 2.15, 2.5],
. . .
]
},
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touched down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado and Sunday "
}
],
"final": true
}
]
}
Próximas etapas
- Para tentar um aplicativo de exemplo que transcreva texto de entrada de áudio de fluxo ou de um arquivo do qual você faz upload, consulte a Speech to Text demo.
- Para obter mais informações sobre as interfaces e os recursos do serviço, consulte Recursos do serviço.
- Para obter mais informações sobre todos os métodos das interfaces do serviço, consulte a referência da API e do SDK.