오디오 용어 및 특성

다음 용어는 오디오 데이터와 그 처리의 특성을 설명하는 데 사용됩니다. 이 정보는 오디오를 IBM Watson® Speech to Text 서비스와 함께 사용하는 데 유용합니다.

오디오, 이에 대한 설명 및 이를 지정하는 방법에 대해 잘 모르는 경우에는 이 주제를 먼저 살펴보면 작업을 시작하는 데 도움을 받을 수 있습니다.
이미 오디오 데이터를 다루는 방법을 아는 경우에는 지원되는 오디오 형식부터 먼저 살펴보십시오.

샘플링 속도

샘플링 속도(또는 샘플링 빈도)는 초당 가져오는 오디오 샘플의 수입니다. 샘플링 빈도는 헤르츠(Hz) 또는 킬로헤르츠(kHz)로 측정됩니다. 예를 들어, 초당 16,000개 샘플의 속도는 16,000Hz(또는 16kHz)와 동일합니다. Speech to Text 서비스를 사용하여 오디오의 샘플링 속도를 표시할 모델을 지정합니다.

광대역 및 멀티미디어 모델은 16kHz 이상으로 샘플링된 오디오에 사용되며, IBM®에서는 이를 실시간 대응 애플리케이션(예: 실시간 음성 애플리케이션)에 대해 권장합니다.
협대역 및 전화 통신 모델은 8kHz 이상으로 샘플링된 오디오에 사용되며, 이는 일반적으로 전화 통신 오디오에 사용되는 비율입니다.

이 서비스는 대부분의 언어 및 형식에 두 샘플링 비율을 모두 지원합니다. 음성을 인식하기 전에 사용자가 지정하는 모델과 일치하도록 오디오의 샘플링 속도를 자동으로 조정합니다.

광대역 및 멀티미디어 모델의 경우, 이 서비스는 더 높은 샘플링 비율로 녹음된 오디오를 16kHz로 변환합니다.
협대역 및 전화 통신 모델의 경우, 이 서비스는 더 높은 샘플링 비율로 녹음된 오디오를 8kHz로 변환합니다.

예를 들면 사용자는 어느 모델으로든 44kHz의 오디오를 전송할 수 있지만, 이는 불필요하게 오디오의 크기를 증가시킵니다. 전송할 수 있는 오디오의 양을 최대화하려면 오디오의 샘플링 속도를 사용자가 사용하는 모델과 일치십시오.

서비스는 모델의 샘플링 비율보다 낮은 비율로 샘플링된 오디오를 수락하지 않습니다. 예를 들면, 8kHz로 샘플링된 오디오를 인식하기 위해 광대역 또는 멀티미디어 모델을 사용할 수는 없습니다.

오디오 형식에 대한 참고사항

audio/alaw, audio/l16 및 audio/mulaw 형식의 경우 오디오의 속도를 지정해야 합니다.
audio/basic 및 audio/g729 형식의 경우 이 서비스는 협대역 오디오만 지원합니다.

자세한 정보

지원되는 각 언어에 대해 서비스가 제공하는 모델에 대한 자세한 정보는 대형 음성 언어 및 모델, 이전 세대 언어 및 모델 및 차세대 언어 및 모델 을 참조하십시오.

비트 전송률

비트 전송률은 초당 전송되는 데이터 비트 수입니다. 오디오 스트림의 비트 전송률은 초당 킬로비트(kbps)로 측정됩니다. 비트 전송률은 샘플링 속도 및 샘플당 저장된 비트 수에서 계산됩니다. 음성 인식의 경우 IBM®에서는 오디오에 대해 샘플당 16비트를 녹음하도록 권장합니다.

예를 들어, 16kHz의 광대역 샘플링 속도와 샘플당 16비트를 사용하는 오디오의 비트 전송률은 256kbps((16,000 * 16) / 1000)입니다.

자세한 정보

샘플링 속도와 비트 전송률에 대한 일반적인 설명은 비트 전송률이란 무엇인가요? 및 팟캐스트용 비트 전송률 선택하기를 참조하세요.

압축

압축은 여러 오디오 형식에서 오디오 데이터의 크기를 줄이기 위해 사용됩니다. 압축은 샘플당 저장된 비트 수와 비트 전송률을 줄입니다. 일부 형식은 압축을 사용하지 않지만, 대부분은 두 가지 기본 유형 중 하나를 제공합니다.

무손실 압축은 품질의 손실 없이 오디오의 크기를 줄이지만 일반적으로 압축률이 낮습니다.
손실 압축은 오디오의 크기를 10배 정도 줄이지만 일부 데이터와 품질이 압축에서 영구적으로 손실됩니다.

사용자는 압축을 사용하여 음성 인식 요청이 더 많은 오디오 데이터를 수용하도록 할 수 있습니다. 그러나 사용하는 압축 유형은 변환 품질에 영향을 줍니다.

오디오 형식에 대한 참고사항

audio/ogg 및 audio/webm 형식은 압축이 데이터를 인코딩하는 데 사용하는 코덱(Opus 또는 Vorbis)에 의존하는 컨테이너입니다.
audio/wav 형식은 비압축, 무손실 또는 손실 데이터를 포함할 수 있는 컨테이너입니다.

자세한 정보

서비스가 지원하는 오디오 형식과 함께 사용 가능한 압축에 대한 자세한 정보는 오디오 형식을 참조하십시오.
데이터 압축을 사용하여 요청과 함께 전송할 수 있는 오디오의 양을 늘리는 방법에 대한 자세한 정보는 데이터 한계 및 압축을 사용하십시오.

채널

채널은 녹음된 오디오의 스트림 수를 표시합니다.

모노럴(또는 모노) 오디오에는 하나의 채널만 있습니다.
스테레오포닉(또는 스테레오) 오디오에는 일반적으로 두 개의 채널이 있습니다.

Speech to Text 서비스는 최대 16개의 채널로 오디오를 수신합니다. 이 서비스는 음성 인식에 단일 채널만 사용하기 때문에 트랜스코딩 중에 다중 채널을 사용하는 오디오를 단일 채널 모노로 다운믹스합니다.

오디오 형식에 대한 참고사항

audio/l16 형식의 경우 오디오에 둘 이상의 채널이 있으면 채널의 수를 지정해야 합니다.
audio/wav 형식의 경우 이 서비스는 최대 9개의 채널로 오디오를 수신합니다.

엔디안

*엔디안(endianness)*은 데이터의 바이트가 기본 컴퓨터 아키텍처에서 구성되는 방법을 표시합니다.

*빅 엔디안(big-endian)*은 최상위 비트를 기준으로 데이터를 정렬합니다.
리틀(little-endian은 최하위 비트를 기준으로 데이터를 정렬합니다.

Speech to Text 서비스는 수신 오디오의 엔디안을 자동으로 검색합니다.

오디오 형식에 대한 참고사항

audio/l16 형식에서는 필요한 경우 자동 검색을 사용 안함으로 설정하도록 엔디안을 지정할 수 있습니다.

오디오 주파수

오디오 주파수는 오디오의 가청 주파수 범위를 나타냅니다. 사람의 표준 가청 주파수는 일반적으로 20 - 20,000Hz로 허용됩니다. 스펙트로그래프 분석을 사용하여 오디오의 빈도수 컨텐츠를 표시하는 스펙트로그램을 생성할 수 있습니다.

오디오에 적용되는 샘플링 속도는 일반적으로 최대 오디오 주파수의 두 배입니다. 예를 들어, 샘플링 속도 16kHz는 샘플링된 오디오 신호의 최대 주파수가 8kHz임을 의미합니다. 서비스의 모델은 이를 염두에 두고 작성됩니다.

협대역 모델은 8kHz로 샘플링된 오디오로 빌드됩니다. 협대역 모델은 4kHz 이하의 범위에서 정보를 찾을 것으로 예상합니다.
광대역 모델은 16kHz로 샘플링된 오디오로 빌드됩니다. 광대역 모델은 4 - 8kHz 범위에서 정보를 찾을 것으로 예상합니다.

모델에 대한 훈련 데이터는 여러 채널(협대역 모델의 경우 전화통신)에서 파생됩니다. 모델은 훈련된 채널의 특성을 반영합니다.

업샘플링

업샘플링은 오디오의 샘플링 속도를 늘리지만 오디오에 새로운 정보를 도입하지 않습니다. 더 높은 속도로 오디오를 샘플링하여 얻은 오디오 신호의 근사값을 생성합니다. 또한 오디오 데이터의 크기를 늘립니다.

원래 협대역 주파수에서 샘플링된 오디오의 정보는 0 - 4kHz 범위로 제한됩니다. 협대역 오디오를 더 높은 샘플링 속도로 업샘플링해도 음성 인식 정확도가 향상되지 않을 수 있습니다. 협대역 오디오를 업샘플링하는 경우 광대역 모델이 예상하는 범위의 정보가 부족합니다. 또한 협대역 샘플의 예상 범위에서 발견되는 정보가 광대역 샘플의 동일한 범위에서 발견되는 정보와 질적으로 다릅니다. 따라서 업샘플링은 실제로 인식 정확도를 저하시킵니다.

16kHz의 광대역 샘플링 속도의 경우 샘플링된 오디오 신호에 존재하는 최대 주파수는 8kHz일 것으로 예상됩니다. 따라서 16kHz의 속도로 샘플링하기 전에 8kHz에서 원래 신호를 필터링해야 합니다. 그렇지 않으면 앨리어싱으로 알려진 현상으로 인해 성능 저하가 발생합니다.

유용한 비교 방법은 대형 평면 HDTV에서 VHS 테이프를 본다고 상상하는 것입니다. 고화질 디바이스에서 테이프를 재생하면 실제로 새 정보가 스트림에 추가될 수 없으므로 이미지가 흐릿해집니다. 단순히 형식이 더 나은 장치와 호환되도록 하기 때문입니다. 업샘플링 오디오의 경우도 마찬가지입니다.

다운샘플링

다운샘플링은 오디오의 샘플링 속도를 줄입니다. 더 낮은 속도로 오디오를 샘플링하여 얻은 오디오 신호의 근사값을 생성합니다. 다운샘플링은 오디오 신호에서 정보를 제거하지 않지만 오디오 데이터의 크기를 줄입니다.

일부 경우에는 오디오를 다운샘플링하는 것이 효과적일 수 있습니다. 예를 들어, 오디오의 샘플링 속도가 8KHz보다 높고 또한 스펙트로그래프 검사에서 4KHz보다 높은 주파수 컨텐츠가 표시되지 않으면 오디오를 8KHz로 다운샘플링하는 것을 고려하십시오.