Speech to Text 시작하기
IBM Watson® Speech to Text 서비스는 애플리케이션에 음성 변환 기능을 사용할 수 있도록 오디오를 텍스트로 변환합니다. 이 curl
기반 튜토리얼을 사용하면 서비스를 신속하게 시작할 수 있습니다. 이 예제는 서비스의 POST /v1/recognize
메소드를 호출하여 음성 내용을 요청하는 방법을 보여줍니다.
이 튜토리얼에서는 curl
명령줄 유틸리티를 사용하여 REST API 호출을 시연합니다. For more information about curl
, see Using curl with Watson examples.
IBM Cloud Speech to Text 서비스 시작에 대한 시각적 요약을 보려면 다음 비디오를 시청하십시오.
시작하기 전에
IBM Cloud
IBM Cloud
-
인증할 인증 정보를 서비스 인스턴스에 복사하십시오.
-
서비스 인스턴스의 관리 페이지를 확인하세요:
- 서비스 인스턴스의 시작하기 페이지에 있는 경우 주제 목록에서 관리 항목을 클릭합니다.
- 리소스 목록 페이지에 있는 경우 이름 열에서 Machine Learning 그룹을 확장하고 서비스 인스턴스의 이름을 클릭합니다.
-
관리 페이지의 자격증명 상자에서 자격증명 표시를 클릭합니다.
-
서비스 인스턴스의
API Key
및URL
값을 복사합니다.
-
이 튜토리얼은 API 키를 사용하여 인증합니다. 프로덕션에서 IAM 토큰을 사용합니다. 자세한 정보는 IBM Cloud 인증하기를 참고하세요.
IBM Cloud Pak for Data
IBM Cloud Pak for Data
Speech to Text 를 설치하고 구성해야 이 튜토리얼을 시작할 수 있습니다. 자세한 정보는 Watson Speech services on Cloud Pak for Data 를 참조하십시오.
- 웹 클라이언트, API 또는 명령줄 인터페이스를 사용하여 서비스 인스턴스를 만듭니다. IBM Cloud Pak for Data 에서 서비스 인스턴스를 만드는 방법에 대한 자세한 내용은 Watson 음성 서비스용 서비스 인스턴스 만들기를 참조하십시오.
-
- Watson 스피치 서비스 인스턴스 만들기의* 지침에 따라 인스턴스에 대한 무기명 토큰을 얻습니다. 이 튜토리얼에서는 무기명 토큰을 사용하여 서비스를 인증합니다.
옵션 없이 오디오를 텍스트로 변환
POST /v1/recognize
메소드를 호출하여 추가 요청 매개변수 없이 FLAC 오디오 파일의 기본 음성 내용을 요청하십시오.
-
샘플 오디오 audio-file.flac 다운로드합니다.
-
매개변수가 없는 기본 텍스트 변환을 위해 서비스의
/v1/recognize
메소드를 호출하려면 다음 명령을 실행하십시오. 이 예제에서는Content-Type
헤더를 사용하여 오디오 유형audio/flac
를 표시합니다. 이 예제에서는 기본 언어 모델en-US_BroadbandModel
을 텍스트 변환에 사용합니다.IBM Cloud
{path_to_file}
을 수정하여audio-file.flac
파일의 위치를 지정하십시오.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
IBM Cloud Pak for Data IBM Software Hub
{token}
와{url}
를 액세스 토큰으로, URL 를 서비스 인스턴스로 대체하십시오.{path_to_file}
을 수정하여audio-file.flac
파일의 위치를 지정하십시오.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize"
이 서비스는 다음과 같은 텍스트 변환 결과를 리턴합니다.
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
}
],
"final": true
}
]
}
옵션을 사용한 오디오 변환
POST /v1/recognize
메소드를 호출하여 동일한 FLAC 오디오 파일을 호출하지만 두 개의 텍스트 변환 매개변수를 지정하십시오.
-
필요하다면 샘플 오디오 파일을 다운로드하세요 audio-file.flac.
-
두 개의 추가 매개변수를 사용하여 서비스의
/v1/recognize
메소드를 호출하려면 다음 명령을 실행하십시오. 오디오 스트림의 각 단어에 대한 시작과 끝을 표시하도록timestamps
매개변수를true
로 설정하십시오. 텍스트 변환에 대한 가장 가능성이 높은 세 개의 대안을 수신하도록max_alternatives
매개변수를3
을 설정하십시오. 이 예제에서는Content-Type
헤더를 사용하여 오디오 유형audio/flac
를 표시하고 요청이 기본 모델인en-US_BroadbandModel
을 사용합니다.IBM Cloud
{path_to_file}
을 수정하여audio-file.flac
파일의 위치를 지정하십시오.
curl -X POST -u "apikey:{apikey}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
IBM Cloud Pak for Data IBM Software Hub
{token}
와{url}
를 액세스 토큰으로, URL 를 서비스 인스턴스로 대체하십시오.{path_to_file}
을 수정하여audio-file.flac
파일의 위치를 지정하십시오.
curl -X POST \ --header "Authorization: Bearer {token}" \ --header "Content-Type: audio/flac" \ --data-binary @{path_to_file}audio-file.flac \ "{url}/v1/recognize?timestamps=true&max_alternatives=3"
이 서비스가 시간소인 및 세 개의 대체 텍스트 변환이 포함된 다음과 같은 결과를 리턴합니다.
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"timestamps": [
["several":, 1.0, 1.51],
["tornadoes":, 1.51, 2.15],
["touch":, 2.15, 2.5],
. . .
]
},
{
"confidence": 0.96
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touched down as a line of severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado and Sunday "
}
],
"final": true
}
]
}
다음 단계
- 스트리밍 오디오 입력 또는 업로드한 파일에서 텍스트를 텍스트로 변환하는 애플리케이션의 예시를 사용해보려면 Speech to Text 데모를 참조하세요.
- 서비스의 인터페이스 및 기능에 대한 자세한 정보는 서비스 기능을 참조하십시오.
- 서비스 인터페이스의 모든 방법에 대한 자세한 정보는 API & SDK 참조를 참조하십시오.