IBM Cloud Docs
Speech to Text 시작하기

Speech to Text 시작하기

IBM Watson® Speech to Text 서비스는 애플리케이션에 음성 변환 기능을 사용할 수 있도록 오디오를 텍스트로 변환합니다. 이 curl 기반 튜토리얼을 사용하면 서비스를 신속하게 시작할 수 있습니다. 이 예제는 서비스의 POST /v1/recognize 메소드를 호출하여 음성 내용을 요청하는 방법을 보여줍니다.

이 튜토리얼에서는 curl 명령줄 유틸리티를 사용하여 REST API 호출을 시연합니다. For more information about curl, see Using curl with Watson examples.

IBM Cloud Speech to Text 서비스 시작에 대한 시각적 요약을 보려면 다음 비디오를 시청하십시오.

시작하기 전에

IBM Cloud

IBM Cloud

  • 서비스의 인스턴스를 작성하십시오.

    1. Go to the Speech to Text page in the IBM Cloud catalog.
    2. 무료 IBM Cloud 계정에 가입하거나 로그인하십시오.
    3. 라이선스 계약 약관을 읽고 동의합니다.
    4. 작성을 클릭하십시오.
  • 인증할 인증 정보를 서비스 인스턴스에 복사하십시오.

    1. 서비스 인스턴스의 관리 페이지를 확인하세요:

      • 서비스 인스턴스의 시작하기 페이지에 있는 경우 주제 목록에서 관리 항목을 클릭합니다.
      • 리소스 목록 페이지에 있는 경우 이름 열에서 Machine Learning 그룹을 확장하고 서비스 인스턴스의 이름을 클릭합니다.
    2. 관리 페이지의 자격증명 상자에서 자격증명 표시를 클릭합니다.

    3. 서비스 인스턴스의 API KeyURL 값을 복사합니다.

이 튜토리얼은 API 키를 사용하여 인증합니다. 프로덕션에서 IAM 토큰을 사용합니다. 자세한 정보는 IBM Cloud 인증하기를 참고하세요.

IBM Cloud Pak for Data

IBM Cloud Pak for Data

Speech to Text 를 설치하고 구성해야 이 튜토리얼을 시작할 수 있습니다. 자세한 정보는 Watson Speech services on Cloud Pak for Data 를 참조하십시오.

  1. 웹 클라이언트, API 또는 명령줄 인터페이스를 사용하여 서비스 인스턴스를 만듭니다. IBM Cloud Pak for Data 에서 서비스 인스턴스를 만드는 방법에 대한 자세한 내용은 Watson 음성 서비스용 서비스 인스턴스 만들기를 참조하십시오.
    • Watson 스피치 서비스 인스턴스 만들기의* 지침에 따라 인스턴스에 대한 무기명 토큰을 얻습니다. 이 튜토리얼에서는 무기명 토큰을 사용하여 서비스를 인증합니다.

옵션 없이 오디오를 텍스트로 변환

POST /v1/recognize 메소드를 호출하여 추가 요청 매개변수 없이 FLAC 오디오 파일의 기본 음성 내용을 요청하십시오.

  1. 샘플 오디오 audio-file.flac 다운로드합니다.

  2. 매개변수가 없는 기본 텍스트 변환을 위해 서비스의 /v1/recognize 메소드를 호출하려면 다음 명령을 실행하십시오. 이 예제에서는 Content-Type 헤더를 사용하여 오디오 유형 audio/flac를 표시합니다. 이 예제에서는 기본 언어 모델 en-US_BroadbandModel을 텍스트 변환에 사용합니다.

    IBM Cloud

    • {apikey}{url}을 사용자의 API 키 및 URL로 대체하십시오.
    • {path_to_file}을 수정하여 audio-file.flac 파일의 위치를 지정하십시오.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize"
    

    IBM Cloud Pak for Data IBM Software Hub

    • {token}{url} 를 액세스 토큰으로, URL 를 서비스 인스턴스로 대체하십시오.
    • {path_to_file}을 수정하여 audio-file.flac 파일의 위치를 지정하십시오.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize"
    

이 서비스는 다음과 같은 텍스트 변환 결과를 리턴합니다.

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.96
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
        }
      ],
      "final": true
    }
  ]
}

옵션을 사용한 오디오 변환

POST /v1/recognize 메소드를 호출하여 동일한 FLAC 오디오 파일을 호출하지만 두 개의 텍스트 변환 매개변수를 지정하십시오.

  1. 필요하다면 샘플 오디오 파일을 다운로드하세요 audio-file.flac.

  2. 두 개의 추가 매개변수를 사용하여 서비스의 /v1/recognize 메소드를 호출하려면 다음 명령을 실행하십시오. 오디오 스트림의 각 단어에 대한 시작과 끝을 표시하도록 timestamps 매개변수를 true로 설정하십시오. 텍스트 변환에 대한 가장 가능성이 높은 세 개의 대안을 수신하도록 max_alternatives 매개변수를 3을 설정하십시오. 이 예제에서는 Content-Type 헤더를 사용하여 오디오 유형 audio/flac를 표시하고 요청이 기본 모델인 en-US_BroadbandModel을 사용합니다.

    IBM Cloud

    • {apikey}{url}을 사용자의 API 키 및 URL로 대체하십시오.
    • {path_to_file}을 수정하여 audio-file.flac 파일의 위치를 지정하십시오.
    curl -X POST -u "apikey:{apikey}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize?timestamps=true&max_alternatives=3"
    

    IBM Cloud Pak for Data IBM Software Hub

    • {token}{url} 를 액세스 토큰으로, URL 를 서비스 인스턴스로 대체하십시오.
    • {path_to_file}을 수정하여 audio-file.flac 파일의 위치를 지정하십시오.
    curl -X POST \
    --header "Authorization: Bearer {token}" \
    --header "Content-Type: audio/flac" \
    --data-binary @{path_to_file}audio-file.flac \
    "{url}/v1/recognize?timestamps=true&max_alternatives=3"
    

이 서비스가 시간소인 및 세 개의 대체 텍스트 변환이 포함된 다음과 같은 결과를 리턴합니다.

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "timestamps": [
            ["several":, 1.0, 1.51],
            ["tornadoes":, 1.51, 2.15],
            ["touch":, 2.15, 2.5],
            . . .
          ]
        },
        {
          "confidence": 0.96
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touched down as a line of severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touch down as a line of severe thunderstorms swept through Colorado and Sunday "
        }
      ],
      "final": true
    }
  ]
}

다음 단계

  • 스트리밍 오디오 입력 또는 업로드한 파일에서 텍스트를 텍스트로 변환하는 애플리케이션의 예시를 사용해보려면 Speech to Text 데모를 참조하세요.
  • 서비스의 인터페이스 및 기능에 대한 자세한 정보는 서비스 기능을 참조하십시오.
  • 서비스 인터페이스의 모든 방법에 대한 자세한 정보는 API & SDK 참조를 참조하십시오.