이전 세대 모델의 말뭉치 및 사용자 정의 단어에 대한 작업
이 정보는 이전 세대 모델을 기반으로 하는 사용자 정의 모델에 한정된 정보입니다. 차세대 모델을 기반으로 하는 사용자 정의 모델의 말뭉치 및 사용자 정의 단어에 대한 정보는 차세대 모델의 말뭉치 및 사용자 정의 단어에 대한 작업을 참조하십시오.
말뭉치 또는 문법을 모델에 추가하거나 사용자 정의 단어를 직접 추가하여 사용자 정의 언어 모델을 단어로 채울 수 있습니다.
- 말뭉치 - 단어로 사용자 정의 언어 모델을 채울 때 권장되는 방법은 모델에 하나 이상의 말뭉치를 추가하는 것입니다. 말뭉치를 추가하면 서비스가 파일을 분석하고 발견한 새 단어를 자동으로 사용자 정의 모델에 추가합니다. 사용자 정의 모델에 말뭉치를 추가하면 서비스가 컨텍스트에서 도메인 특정 단어를 추출하여 더 나은 텍스트 변환 결과를 얻을 수 있습니다. 자세한 정보는 말뭉치에 대한 작업을 참조하십시오.
- 문법 - 문법에서 인식하는 단어 또는 구문으로 음성 인식을 제한하기 위해 사용자 정의 모델에 문법을 추가할 수 있습니다. 문법을 모델에 추가하면 이 서비스가 말뭉치에 대해 수행하는 것과 마찬가지로 발견한 새 단어를 자동으로 모델에 추가합니다. 자세한 정보는 사용자 정의 언어 모델에 문법 사용을 참조하십시오.
- 개별 단어 - 모델에 직접 개별 사용자 정의 단어를 추가할 수도 있습니다. 이 서비스가 말뭉치 또는 문법에서 검색한 단어를 추가하는 것과 마찬가지로 단어를 모델에 추가합니다. 단어를 직접 추가하는 경우 여러 발음을 지정하고 단어가 표시되는 방법을 표시할 수 있습니다. 기존 단어를 업데이트하여 말뭉치 또는 문법에서 추출된 정의를 수정하거나 기능 보강할 수도 있습니다. 자세한 정보는 사용자 정의 단어에 대한 작업을 참조하십시오.
추가하는 방법과 관계없이 이 서비스는 사용자 정의 언어 모델에 추가하는 모든 단어를 모델의 단어 리소스에 저장합니다.
단어 리소스
단어 리소스에는 말뭉치 또는 문법에서 추가하거나 직접 추가하는 모든 단어가 포함됩니다. 단어 리소스의 목적은 서비스의 기본 어휘에 이미 존재하지 않는 단어의 발음과 철자를 정의하는 것입니다. 이 정의는 서비스에 이러한 OOV(Out Of Vocabulary) 단어를 텍스트로 변환하는 방법을 알립니다.
단어 리소스에는 각 OOV 단어에 대한 다음 정보가 포함됩니다. 서비스가 말뭉치 및 문법에서 추출된 단어에 대한 정의를 작성합니다. 직접 추가하거나 수정하는 단어의 특성을 지정합니다.
-
word
- 말뭉치나 문법에서 발견되었거나 사용자가 추가한 그대로의 단어의 철자입니다.URL로 인코딩되어야 하는 문자는 사용하지 마십시오. 예를 들어, 이름에 공백, 슬래시, 백슬래시, 콜론, 앰퍼샌드, 큰따옴표, 더하기 기호, 등호, 물음표 등을 사용하지 마십시오. 이 서비스는 이러한 문자의 사용을 막지는 않지만, 어디에서 사용하든 반드시 URL 로 인코딩해야 하기 때문에 강력히 권장하지 않습니다.
-
sounds_like
- 단어의 발음입니다. 말뭉치 및 문법에서 추출된 단어의 경우 이 값은 서비스에서 단어가 해당 언어 규칙에 따라 발음되는 것으로 믿는 방식을 나타냅니다. 많은 경우 발음은word
필드의 철자를 반영합니다.sounds_like
필드를 사용하여 단어의 발음을 수정할 수 있습니다. 이 필드를 사용하여 한 단어에 대한 여러 발음을 지정할 수도 있습니다. 자세한 정보는 sounds_like 필드 사용을 참조하십시오. -
display_as
- 서비스가 텍스트 변환에서 사용하는 단어의 철자입니다. 이 필드는 단어가 표시되는 방법을 나타냅니다. 대부분의 경우 철자는word
필드의 값과 일치합니다.display_as
필드를 사용하여 단어에 대해 다른 철자를 지정할 수 있습니다. 자세한 정보는 display_as 필드 사용을 참조하십시오. -
source
- 단어가 단어 리소스에 추가되는 방법입니다. 서비스가 말뭉치 또는 문법에서 단어를 추출한 경우 이 필드에는 해당 리소스의 이름이 나열됩니다. 서비스가 여러 리소스에서 동일한 단어를 발견할 수 있으므로 이 필드에 여러 말뭉치 또는 문법 이름이 나열될 수 있습니다. 단어를 직접 추가하거나 수정하는 경우 이 필드에user
라는 문자열이 포함됩니다.
모델의 단어 리소스에서 단어를 추가하거나 수정한 후에는 해당 단어의 정의가 올바른지 확인하는 것이 중요합니다. 자세한 정보는 이전 세대 모델의 단어 리소스 유효성 검증을 참조하십시오. 또한 변경사항이 변환 중에 적용되도록 하려면 모델을 학습시켜야 합니다. 자세한 정보는 사용자 정의 언어 모델 학습시키기를 참조하십시오.
필요한 데이터의 양
다양한 요인이 효과적인 사용자 정의 언어 모델에 필요한 데이터의 양에 영향을 미칩니다. 특정 사용자 정의 모델 또는 애플리케이션을 위해 추가해야 하는 단어의 정확한 수를 나타내는 것은 불가능합니다. 유스 케이스에 따라 몇 개의 단어를 사용자 정의 모델에 직접 추가해도 모델의 품질이 향상될 수 있습니다. 그러나 오디오에서 사용되는 컨텍스트의 단어를 표시하는 말뭉치의 OOV 단어를 추가하면 텍스트 변환 정확도가 크게 향상될 수 있습니다.
이 서비스는 사용자 정의 언어 모델에 추가할 수 있는 단어의 수를 제한합니다.
- 사용자 정의 모델의 단어 리소스에 최대 9만 개의 OOV 단어를 추가할 수 있습니다. 이 기능에는 모든 소스(말뭉치, 문법 및 사용자가 직접 추가한 개별 사용자 정의 단어)의 OOV 단어가 포함됩니다.
- 모든 소스의 사용자 정의 모델에 최대 총 천만 개의 단어를 추가할 수 있습니다. 이 수치에는 말뭉치 또는 문법에 포함된 모든 단어(OOV 단어 및 이미 서비스 기본 어휘의 일부인 단어 모두)가 포함됩니다. 말뭉치의 경우 서비스가 이러한 추가 단어를 사용하여 OOV 단어가 표시될 수 있는 컨텍스트를 학습하며, 이것이 말뭉치가 인식 정확도를 향상시키는 보다 효과적인 방법인 이유입니다.
단어 리소스가 크면 음성 인식의 대기 시간이 증가할 수 있지만 정확한 영향을 수량화하거나 예측하기 어렵습니다. 효과적인 사용자 정의 모델을 생성하는 데 필요한 데이터의 양과 마찬가지로 대형 단어 리소스의 성능 영향은 여러 요인에 따라 달라집니다. 다양한 양의 데이터로 사용자 정의 모델을 테스트하여 모델 및 데이터의 성능을 판별하십시오.
이전 세대 모델의 말뭉치에 대한 작업
POST /v1/customizations/{customization_id}/corpora/{corpus_name}
메소드를 사용하여 사용자 정의 모델에 말뭉치를 추가할 수 있습니다. 말뭉치는 도메인의 샘플 문장을 포함하는 일반 텍스트 파일입니다. 다음 예제는 의료 도메인에 대한 축약된 말뭉치를 보여줍니다. 말뭉치 파일은 일반적으로 훨씬 더 깁니다.
Am I at risk for health problems during travel?
Some people are more likely to have health problems when traveling outside the United States.
How Is Coronary Microvascular Disease Treated?
If you're diagnosed with coronary MVD and also have anemia, you may benefit from treatment for that condition.
Anemia is thought to slow the growth of cells needed to repair damaged blood vessels.
What causes autoimmune hepatitis?
A combination of autoimmunity, environmental triggers, and a genetic predisposition can lead to autoimmune hepatitis.
What research is being done for Spinal Cord Injury?
The National Institute of Neurological Disorders and Stroke NINDS conducts spinal cord research in its laboratories at the National Institutes of Health NIH.
NINDS also supports additional research through grants to major research institutions across the country.
Some of the more promising rehabilitation techniques are helping spinal cord injury patients become more mobile.
What is Osteogenesis imperfecta OI?
. . .
음성 인식은 통계 알고리즘에 의존하여 오디오를 분석합니다. 사용자 정의 모델의 단어는 해당 모델의 다른 단어만이 아니라 서비스의 기본 어휘에 있는 단어와도 경쟁합니다. (오디오 잡음 및 화자의 악양과 같은 요인도 텍스트 변환 품질에 영향을 줍니다.)
텍스트 변환 정확도는 단어가 모델에서 정의된 방법과 화자가 말하는 방식에 따라 크게 달라질 수 있습니다. 서비스의 정확도를 높이려면 말뭉치를 사용하여 OOV 단어가 도메인에서 사용되는 방법에 대한 가능한 많은 예제를 제공하십시오. 말뭉치의 OOV 단어를 반복하면 사용자 정의 언어 모델의 품질이 향상될 수 있습니다. 말뭉치의 단어를 복제하는 방법은 인식될 오디오에서 사용자가 단어를 말하는 방식에 따라 다릅니다. 화자가 도메인의 단어를 사용하는 컨텍스트를 나타내는 문장을 더 많이 추가할수록 서비스의 인식 정확도가 더 높아집니다.
이 서비스는 단순 단어 일치 알고리즘을 적용하지 않습니다. 텍스트 변환은 단어가 사용되는 컨텍스트에 따라 달라집니다. 말뭉치를 구문 분석하면 이 서비스에 사용자 정의 모델에 있는 말뭉치 문장의 n-그램(바이그램, 트라이그램 등)에 대한 정보가 포함됩니다. 이 정보는 서비스가 오디오를 더 정확하게 텍스트로 변환하는 데 도움이 되며 사용자 정의 모델을 말뭉치에 대해 훈련하는 것이 사용자 정의 단어만으로 훈련하는 것보다 더 가치 있는 이유를 설명합니다.
예를 들어, 회계사는 GAAP(Generally Accepted Accounting Principles)라고도 하는 공통 표준 및 프로시저 세트를 준수합니다. 금융 도메인에 대한 사용자 정의 모델을 작성할 때 컨텍스트에서 GAAP라는 용어를 사용하는 문장을 제공하십시오. 이 문장은 서비스가 "the gap between them is small"과 같은 일반 구문과 "GAAP provides guidelines for measuring and disclosing financial information"과 같은 도메인 특정 구문을 구별하는 데 도움이 됩니다.
일반적으로 말뭉치는 다양한 컨텍스트의 단어를 사용하는 것이 더 좋으며, 이는 서비스가 단어를 학습하는 방법을 개선할 수 있습니다. 그러나 사용자가 몇 개의 문맥에서만 단어를 말하는 경우 다른 문맥의 단어를 표시해도 사용자 정의 모델의 품질이 향상되지 않습니다. 즉, 화자가 해당 문맥의 단어를 사용하지 않습니다. 화자가 동일한 구문을 자주 사용하는 경우 말뭉치에서 해당 구문을 반복하면 모델의 품질이 향상될 수 있습니다. (일부 경우에 몇 개의 사용자 정의 단어를 사용자 정의 모델에 직접 추가해도 긍정적인 효과를 얻을 수 있습니다.)
말뭉치 텍스트 파일 준비
말뭉치 텍스트 파일을 준비하려면 다음 가이드라인을 따르십시오.
-
ASCII가 아닌 문자가 포함된 경우 UTF-8로 인코딩된 일반 텍스트 파일을 제공하십시오. 이러한 문자가 발생하면 서비스에서 UTF-8 인코딩으로 간주합니다.
말뭉치 텍스트 파일의 문자 인코딩을 알고 있는지 확인하십시오. 서비스는 텍스트 파일에서 찾은 인코딩을 유지합니다. 사용자 정의 모델의 사용자 정의 단어에 대해 작업할 때 이와 동일한 인코딩을 사용해야 합니다. 자세한 정보는 사용자 정의 단어의 문자 인코딩을 참조하십시오.
-
말뭉치의 단어에 대해 일관된 대문자 표시를 사용하십시오. 단어 리소스는 대소문자를 구분합니다. 대문자와 소문자를 혼합하고 의도한 경우에만 대문자 표시를 사용하십시오.
-
말뭉치의 각 문장을 자체 행에 포함하고 각 행을 캐리지 리턴으로 종료하십시오. 여러 문장을 동일한 행에 포함하면 정확도가 떨어질 수 있습니다.
-
개인 이름은 별도의 행에 개별 단위로 추가하십시오. 이름의 개별 요소를 별도의 행에 추가하거나 개별 사용자 정의 단어로 추가하지 말고, 말뭉치의 동일한 행에 여러 이름을 포함시키지 마십시오. 다음 예제는 세 개의 이름에 대한 인식 정확도를 향상시키는 올바른 방법을 보여줍니다.
Gakuto Kutara Sebastian Leifson Malcolm Ingersol
적절한 경우에는 추가 문맥 정보를 포함시키십시오(예:
Doctor Sebastian Leifson
또는President Malcolm Ingersol
). 모든 단어와 마찬가지로, 가능한 경우 여러 컨텍스트에서 여러 번 이름을 복제하면 인식 정확도가 향상될 수 있습니다. -
철자 오류에 주의하십시오. 이 서비스는 철자 오류를 새 단어로 간주합니다. 모델을 훈련하기 전에 오류를 정정하지 않으면 서비스가 모델의 어휘에 추가합니다. *쓰레기가 들어가면 쓰레기가 나온다!*라는 격언을 기억하십시오.
-
문장이 많을수록 정확도가 더 향상됩니다. 그러나 이 서비스에서는 모든 소스를 합쳐서 최대 총 천만 개의 단어와 9만 개의 OOV 단어로 모델을 제한합니다.
서비스가 모든 단어에 대한 발음을 생성할 수는 없습니다. 말뭉치를 추가한 후에는 단어 리소스를 유효성 검증하여 각 OOV 단어의 정의가 완전하며 유효한지 확인해야 합니다. 자세한 정보는 이전 세대 모델의 단어 리소스 유효성 검증을 참조하십시오.
말뭉치 파일을 추가하면 어떻게 됩니까?
말뭉치 파일을 추가하면 서비스가 파일의 컨텐츠를 분석합니다. 또한 발견한 새 OOV 단어를 추출하고 각 OOV 단어를 사용자 정의 모델의 단어 리소스에 추가합니다. 서비스가 컨텐츠에서 가장 많은 의미를 추출하기 위해 말뭉치 파일에서 읽은 데이터를 토큰화하고 구문 분석합니다. 다음 섹션에서는 서비스가 각각의 지원되는 언어에 대한 말뭉치 파일을 구문 분석하는 방법에 대해 설명합니다.
네덜란드어, 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어의 구문 분석
다음 설명은 네덜란드어, 영어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어의 지원되는 모든 통용어에 적용됩니다.
-
숫자를 동등한 단어로 변환합니다.
숫자 변환의 예 언어 정수 10진수 네덜란드어 500
이(가)vijfhonderd
이(가) 됨0,15
이(가)nul komma vijftien
이(가) 됨영어 500
이(가)five hundred
이(가) 됨0.15
이(가)zero point fifteen
이(가) 됨프랑스어 500
이(가)cinq cents
이(가) 됨0,15
이(가)zéro virgule quinze
이(가) 됨독일어 500
이(가)fünfhundert
이(가) 됨0,15
이(가)null punkt fünfzehn
이(가) 됨이탈리아어 500
이(가)cinquecento
이(가) 됨0,15
이(가)zero virgola quindici
이(가) 됨포르투갈어 500
이(가)quinhentos
이(가) 됨0,15
이(가)zero ponto quinze
이(가) 됨스페인어 500
이(가)quinientos
이(가) 됨0,15
이(가)cero coma quince
이(가) 됨 -
특정 기호를 포함하는 토큰을 의미 있는 문자열 표시로 변환합니다. 이러한 예들은 완전하지 않습니다. 이 서비스는 필요에 따라 다른 문자를 유사하게 조정합니다. (스페인어의 경우, 통용어가
es-LA
이면$100
과(와)100$
이(가)cien pesos
이(가) 됩니다.)기호 변환의 예 언어 달러 기호와 숫자 유로 기호와 숫자 백분율 기호와 숫자 네덜란드어 $100
이(가)honderd dollar
이(가) 됨€100
이(가)honderd euro
이(가) 됨100%
이(가)honderd procent
이(가) 됨영어 $100
이(가)one hundred dollars
이(가) 됨€100
이(가)one hundred euros
이(가) 됨100%
이(가)one hundred percent
이(가) 됨프랑스어 $100
이(가)cent dollars
이(가) 됨€100
이(가)cent euros
이(가) 됨100%
이(가)cent pour cent
이(가) 됨독일어 $100
및100$
는einhundert dollar
가 됩니다.€100
및100€
는einhundert euro
가 됩니다.100%
이(가)einhundert prozent
이(가) 됨이탈리아어 $100
이(가)cento dollari
이(가) 됨€100
이(가)cento euro
이(가) 됨100%
이(가)cento per cento
이(가) 됨포르투갈어 $100
및100$
는cem dólares
가 됩니다.€100
및100€
는cem euros
가 됩니다.100%
이(가)cem por cento
이(가) 됨스페인어 $100
및100$
는cien dólares
가 됩니다.€100
및100€
는cien euros
가 됩니다.100%
이(가)cien por ciento
이(가) 됨 -
해당 컨텍스트에 따라 영숫자가 아닌 문자, 문장 부호 및 특수 문자를 처리합니다. 예를 들어, 서비스는 숫자가 뒤에 오지 않으면
$
(달러 기호) 또는€
(유로 기호)를 제거합니다. 처리는 컨텍스트에 따라 다르며 지원되는 언어에서 일관됩니다. -
( )
(괄호),< >
(꺾쇠괄호),[ ]
(대괄호) 또는{ }
(중괄호)로 묶인 문구를 무시합니다.
일본어 구문 분석
- 모든 문자를 전자 문자로 변환합니다.
- 숫자를 해당 단어로 변환합니다. 예를 들어,
500
는五百
로,0.15
는〇・一五
로 변환됩니다. - 기호가 포함된 토큰을 동등한 문자열로 변환하지 않습니다. 예를 들어,
100%
는百%
로 변환됩니다. - 구두점을 자동으로 제거하지 않습니다. IBM에서는 사용자의 애플리케이션이 받아쓰기 기반이 아니라 변환 기반인 경우 구두점을 제거할 것을 강력히 추천합니다.
한국어 구문 분석
-
숫자를 해당 단어로 변환합니다. 예를 들어,
10
는십
로 변환됩니다. -
다음 구두점 및 특수 문자를 제거합니다:
- ( ) * : . , ' "
. 그러나 다른 언어의 경우에 제거되는 모든 문장 부호 및 특수 문자가 한국어에서 제거되는 것은 아닙니다. 예를 들어, 다음과 같습니다.- 마침표(
.
) 기호는 입력 행의 끝에 발생하는 경우에만 제거합니다. - 물결 기호(
~
)를 제거하지 않습니다. …
(삼중 점 또는 줄임표)와 같은 유니코드 와이드 문자 기호를 제거하거나 처리하지 않습니다.
일반적으로 IBM에서는 말뭉치 파일을 처리하기 전에 문장 부호, 특수 문자 및 유니코드 와이드 문자를 제거하도록 권장합니다.
- 마침표(
-
( )
(괄호),< >
(꺾쇠괄호),[ ]
(대괄호) 또는{ }
(중괄호)로 묶인 문구를 제거하거나 무시하지 않습니다. -
특정 기호를 포함하는 토큰을 의미 있는 문자열 표시로 변환합니다. 예를 들어, 다음과 같습니다.
24%
는이십사퍼센트
가 됩니다.$10
는십달러
가 됩니다.
이 목록은 완전하지 않습니다. 이 서비스는 필요에 따라 다른 문자를 유사하게 조정합니다.
-
라틴(영어) 문자로 구성되거나 한글과 라틴 문자가 혼합되어 구성된 구문의 경우 서비스가 말뭉치 파일에 표시되는 대로 정확히 구문에 대한 OOV 단어를 작성합니다. 또한 한글 텍스트 변환을 기반으로 하는 단어에 대한 유사 발음을 작성합니다.
London
라는 단어의 발음은런던
와 비슷합니다.IBM홈페이지
라는 단어의 발음은아이 비 엠 홈페이지
와 비슷합니다.
이전 세대 모델의 사용자 정의 단어에 대한 작업
POST /v1/customizations/{customization_id}/words
및 PUT /v1/customizations/{customization_id}/words/{word_name}
메소드를 사용하여 사용자 정의 모델의 단어 리소스에 새 단어를 추가할 수 있습니다. 이러한 메소드를 사용하여 단어 리소스의 단어를 수정하거나 기능 보강할 수도 있습니다.
예를 들어, 이러한 메소드를 사용하여 말뭉치에서 단어가 추가될 때 발생한 철자 오류 또는 기타 실수를 정정해야 할 수 있습니다. 기존 단어에 대해 동음어 정의를 추가해야 할 수도 있습니다. 기존 단어를 수정하는 경우 사용자가 제공하는 새 데이터가 단어 리소스에 있는 단어의 기존 정의를 겹쳐씁니다. 단어 추가 규칙은 기존 단어를 수정할 때도 적용됩니다.
말뭉치에서 대부분의 사용자 정의 단어를 추가할 가능성이 있습니다. 말뭉치 텍스트 파일의 문자 인코딩을 알고 있는지 확인하십시오. 서비스는 텍스트 파일에서 찾은 인코딩을 유지합니다. 사용자 정의 모델의 사용자 정의 단어에 대해 작업할 때 이와 동일한 인코딩을 사용해야 합니다. 자세한 정보는 사용자 정의 단어의 문자 인코딩을 참조하십시오.
sounds_like 필드 사용
sounds_like
필드는 화자가 단어를 어떻게 발음하는지를 지정합니다. 기본적으로 서비스는 단어의 철자를 사용하여 필드를 자동으로 완성하려 시도합니다. 그러나 서비스가 모든 단어에 대한 발음을 생성할 수는 없습니다. 단어를 추가한 후에는 단어 리소스를 유효성 검증하여 각 단어의 정의가 완전하며 유효한지 확인해야 합니다. 자세한 정보는 이전 세대 모델의 단어 리소스 유효성 검증을
참조하십시오.
발음하기 어렵거나 여러 방식으로 발음할 수 있는 단어에 대해 5개의 대체 발음을 제공할 수 있습니다. 이 필드를 사용하여 다음을 수행하십시오.
-
약어에 대한 여러 발음을 제공합니다. 예를 들면, 두문자어
NCAA
은(는) 철자대로 발음되거나 N. C. 더블 A. 다음 예는 단어NCAA
에 대해 이와 같은 가능한 발음을 둘 다 추가합니다.IBM Cloud
curl -X PUT -u "apikey:{apikey}" \ --header "Content-Type: application/json" \ --data "{\"sounds_like\": [\"N. C. A. A.\", \"N. C. double A.\"]}" \ "{url}/v1/customizations/{customization_id}/words/NCAA"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \ --header "Authorization: Bearer {token}" \ --header "Content-Type: application/json" \ --data "{\"sounds_like\": [\"N. C. A. A.\", \"N. C. double A.\"]}" \ "{url}/v1/customizations/{customization_id}/words/NCAA"
-
외국어 단어를 처리합니다. 예를 들어, 프랑스어 단어
garçon
에는 영어에 없는 문자가 포함되어 있습니다. 사용자는 영어 사용자가 이 단어를 발음하는 방식을 서비스에 알리기 위해ç
을(를)s
(으)로 대체하여 가능한 발음gaarson
을(를) 지정할 수 있습니다.
다음 섹션에서는 유사 발음을 지정하기 위한 언어별 가이드라인을 제공합니다. 음성 인식은 통계 알고리즘을 사용하여 오디오를 분석하므로 단어를 추가한다고 해서 서비스가 완전한 정확도로 단어를 트랜스코딩하는 것은 아닙니다. 단어를 추가할 때 해당 단어가 발음될 수 있는 방법을 고려하십시오. sounds_like
필드를 사용하여 단어가 어떻게 발음되는지를 반영하는 다양한 발음을 제공하십시오.
영어에 대한 가이드라인
영어(호주, 영국 및 미국)를 위한 가이드라인:
- 영어 알파벳 문자(
a-z
및A-Z
)를 사용하십시오. - 발음하기 어려운 단어의 경우 영어로 발음 가능한 실제 단어 또는 조어를 사용하십시오(예:
shuchesnie
라는 단어의 경우Sczcesny
). - 영어에 없는 문자를 동등한 영어 문자로 대체하십시오(예:
ç
에 대해서는s
,ñ
에 대해서는ny
). - 강세가 있는 문자를 강세가 없는 문자로 대체하십시오(예:
à
에 대해서는a
,è
에 대해서는e
). - 여러 단어를 공백으로 구분하여 포함시킬 수 있습니다. 이 서비스는 앞뒤 공백을 제외한 총 40자까지 입력할 수 있도록 제한합니다.
호주 영어 및 미국 영어에만 적용되는 가이드라인:
- 하나의 문자를 발음하려면 문자 다음에 마침표를 사용하십시오. 마침표 다음에 다른 문자가 오는 경우 마침표와 다음 문자 사이에 공백을 사용해야 합니다. 예를 들어,
N. C. A. A.
가 아니라N.C.A.A.
를 사용하십시오. - 숫자는 문자로 풀어 사용하십시오(예:
seventy-five
의 경우75
).
영국 영어에만 적용되는 가이드라인:
- 영국 영어의 유사 발음에서 마침표(.)이나 대시(-)를 사용할 수 없습니다.
- 하나의 문자를 발음하려면 문자 다음에 공백을 사용하십시오. 예를 들어,
N C A A
, * 또는 *가N. C. A. A.
아니라N.C.A.A.
NCAA
를 사용하십시오. - 숫자는 대시 없이 문자로 풀어 사용하십시오(예:
seventy five
의 경우75
).
네덜란드어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어에 대한 지침
네덜란드어, 프랑스어, 독일어, 이탈리아어, 포르투갈어 및 스페인어의 모든 지원되는 통용어에 대한 지침:
- 유사 발음에서 대시를 사용할 수 없습니다.
- 유효한 강세 표시가 있는 문자를 포함하여 언어에 유효한 알파벳 문자(
a-z
및A-Z
)를 사용하십시오. - 하나의 문자를 발음하려면 문자 다음에 마침표를 사용하십시오. 마침표 다음에 다른 문자가 오는 경우 마침표와 다음 문자 사이에 공백을 사용해야 합니다. 예를 들어,
N. C. A. A.
가 아니라N.C.A.A.
를 사용하십시오. - 발음하기 어려운 단어의 경우 해당 언어로 발음 가능한 실제 단어 또는 조어를 사용하십시오.
- 숫자는 대시 없이 문자로 풀어 사용하십시오. 예를 들어,
75
의 경우 다음과 같이 사용하십시오.- 네덜란드어(네덜란드):
vijfenzeventig
- 프랑스어:
soixante quinze
- 독일어:
fünfundsiebzig
- 이탈리아어:
settantacinque
- 포르투갈어(브라질):
setenta e cinco
- 스페인어:
setenta y cinco
- 네덜란드어(네덜란드):
- 여러 단어를 공백으로 구분하여 포함시킬 수 있습니다. 이 서비스는 앞뒤 공백을 제외한 총 40자까지 입력할 수 있도록 제한합니다.
일본어에 대한 가이드라인
-
―
(長音 ) 기호를 사용하여 전각 가타카나 문자만 사용하십시오. 반자 문자는 사용하지 마십시오. -
다음과 같은 음절 맥락에서만 축약된 소리(일본어의 경우, yoh-on 또는 拗音)를 사용하십시오
イェ
,ウィ
,ウェ
,ウォ
,キィ
,キャ
,キュ
,キョ
,ギャ
,ギュ
,ギョ
,クァ
,クィ
,クェ
,クォ
グァ
,グォ
,シィ
,シェ
,シャ
,シュ
,ショ
,ジィ
,ジェ
,ジャ
,ジュ
,ジョ
,スィ
,ズィ
,チェ
チャ
,チュ
,チョ
,ヂェ
,ヂャ
,ヂュ
,ヂョ
,ツァ
,ツィ
,ツェ
,ツォ
,ティ
,テュ
,ディ
,デャ
デュ
,デョ
,トゥ
,ドゥ
,ニェ
,ニャ
,ニュ
,ニョ
,ヒャ
,ヒュ
,ヒョ
,ビャ
,ビュ
,ビョ
,ピィ
ピャ
,ピュ
,ピョ
,ファ
,フィ
,フェ
,フォ
,フュ
,ミャ
,ミュ
,ミョ
,リィ
,リェ
,リャ
,リュ
リョ
,ヴァ
,ヴィ
,ヴェ
,ヴォ
,ヴュ
-
동화된 소리(일본어로는 soku-on 또는 促音) 뒤에는 다음 음절만 사용합니다.
バ
,ビ
,ブ
,ベ
,ボ
,チ
,チェ
,チャ
,チュ
,チョ
,ダ
,デ
,ディ
,ド
,ドゥ
,フ
ファ
,フィ
,フェ
,フォ
,ガ
,ギ
,グ
,ゲ
,ゴ
,ハ
,ヒ
,ヘ
,ホ
,ジ
,ジェ
,ジャ
ジュ
,ジョ
,カ
,キ
,ク
,ケ
,コ
,キャ
,キュ
,キョ
,パ
,ピ
,プ
,ペ
,ポ
,ピャ
ピュ
,ピョ
,サ
,ス
,セ
,ソ
,シ
,シェ
,シャ
,シュ
,ショ
,タ
,テ
,ト
,ツ
,ザ
ズ
,ゼ
,ゾ
-
ン
를 단어의 첫 글자로 사용하지 마십시오. 예를 들어,ンート
대신ウーント
를 사용하십시오. 는 유효하지 않습니다. -
많은 복합어는 접두부+명사 또는 명사+접미부로 구성됩니다. 이 서비스의 기본 어휘는 자주 사용되는 대부분의 복합어(
長電話
,古新聞
등)를 포함하지만, 자주 사용되지 않는 복합어는 포함하지 않습니다. 일반적으로 말뭉치에 복합어가 포함되어 있는 경우 사용자 정의의 첫 단계로 해당 복합어를 하나의 단어로 추가하십시오. 예를 들어,古鉛筆
는 일반적인 일본어 텍스트에서는 흔히 볼 수 없는 단어입니다. 자주 사용하는 단어라면 사용자 지정 모델에 추가하여 필사 정확도를 높이십시오. -
후행 촉음을 사용하지 마십시오.
한국어에 대한 가이드라인
- 한글 문자, 기호 및 음절을 사용하십시오.
- 라틴(영어) 알파벳 문자(
a-z
및A-Z
)를 사용할 수도 있습니다. - 이전 세트에 포함되지 않은 문자 또는 기호는 사용하지 마십시오.
display_as 필드 사용
display_as
필드는 단어가 음성 내용에 표시되는 방법을 지정합니다. 이 필드는 서비스가 단어의 철자와 다른 문자열을 표시하도록 하려는 경우를 위한 것입니다. 예를 들어, hhonors
라는 단어가 HHonors
또는 hilton honors
처럼 들리는지에 관계없이 h honors
로 표시되도록 지정할 수 있습니다.
IBM Cloud
curl -X PUT -u "apikey:{apikey}" \
--header "Content-Type: application/json" \
--data "{\"sounds_like\": [\"hilton honors\", \"H. honors\"], \"display_as\": \"HHonors\"}" \
"{url}/v1/customizations/{customization_id}/words/hhonors"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/json" \
--data "{\"sounds_like\": [\"hilton honors\", \"H. honors\"], \"display_as\": \"HHonors\"}" \
"{url}/v1/customizations/{customization_id}/words/hhonors"
또 다른 예를 들면, 단어 IBM
이(가) IBM™
(으)로 표시되도록 지시할 수 있습니다.
IBM Cloud
curl -X PUT -u "apikey:{apikey}" \
--header "Content-Type: application/json" \
--data "{\"sounds_like\": [\"I. B. M.\"], \"display_as\":\"IBM™\"}" \
"{url}/v1/customizations/{customization_id}/words/IBM"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/json" \
--data "{\"sounds_like\": [\"I. B. M.\"], \"display_as\":\"IBM™\"}" \
"{url}/v1/customizations/{customization_id}/words/IBM"
스마트 형식화 및 숫자 교정과의 상호작용
smart_formatting
또는 redaction
매개변수를 인식 요청에 사용하는 경우 이 서비스가 단어에 대한 display_as
필드를 고려하기 전에 단어에 스마트 형식화 및 교정을 적용한다는 점에 유의하십시오. 결과를 시험하여 이 기능이 사용자 정의 단어가 표시되는 방식을 방해하지 않는지 확인해야 할 수 있습니다. 효과를 얻으려면 사용자 정의
단어를 추가해야 할 수도 있습니다.
예를 들어, one
필드가 display_as
인 사용자 정의 단어 one
을 추가한다고 가정하십시오. 스마트 형식화는 one
이라는 단어를 숫자 1
로 변경하며 display-as 값은 적용되지 않습니다. 이 문제를 해결하려면 숫자 1
에 대한 사용자 정의 단어를 추가하고 동일한 display_as
필드를 해당 단어에 적용할 수 있습니다.
사용자 정의 단어를 추가하거나 수정하면 어떻게 됩니까?
사용자 정의 단어를 추가 또는 수정하는 요청에 대해 서비스가 응답하는 방법은 지정하는 필드 및 값에 따라 다릅니다. 서비스의 기본 어휘에 단어가 있는지 여부에 따라서도 달라집니다.
-
sounds_like
및display_as
필드 모두를 생략합니다.- 단어가 서비스의 기본 어휘에 없는 경우, 서비스는
sounds_like
필드를 해당 단어의 발음으로 설정하려 시도합니다. 서비스가 모든 단어에 대해 발음을 생성할 수는 없으므로, 사용자는 단어의 정의를 검토하여 이것이 완전하며 유효한지 확인해야 합니다. 서비스가display_as
필드를word
필드의 값으로 설정합니다. - 단어가 서비스의 기본 어휘에 있는 경우 서비스가
sounds_like
및display_as
필드를 비워 둡니다. 이러한 필드는 단어가 서비스의 기본 어휘에 있는 경우에만 비어 있습니다. 해당 단어가 모델의 단어 리소스에 존재해도 무관하지만 이는 불필요합니다.
- 단어가 서비스의 기본 어휘에 없는 경우, 서비스는
-
sounds_like
필드만을 지정합니다.sounds_like
필드가 유효한 경우 서비스는display_as
필드를word
필드 값으로 설정합니다.sounds_like
필드가 유효하지 않은 경우:POST /v1/customizations/{customization_id}/words
메소드가 모델의 단어 리소스에 있는 단어에error
필드를 추가합니다.PUT /v1/customizations/{customization_id}/words/{word_name}
메소드가 400 응답 코드 및 오류 메시지와 함께 실패합니다. 서비스가 단어를 단어 리소스에 추가하지 않습니다.
-
display_as
필드만을 지정합니다.- 단어가 서비스의 기본 어휘에 없는 경우, 서비스는
sounds_like
필드를 해당 단어의 발음으로 설정하려 시도합니다. 서비스가 모든 단어에 대해 발음을 생성할 수는 없으므로, 사용자는 단어의 정의를 검토하여 이것이 완전하며 유효한지 확인해야 합니다. 서비스가display_as
필드를 지정된 대로 둡니다. - 단어가 서비스의 기본 어휘에 있는 경우 서비스가
sounds_like
를 비워 두고display_as
필드를 지정된 대로 남겨 둡니다.
- 단어가 서비스의 기본 어휘에 없는 경우, 서비스는
-
sounds_like
및display_as
필드 모두를 지정합니다.sounds_like
필드가 유효한 경우 서비스는sounds_like
및display_as
필드를 지정된 값으로 설정합니다.sounds_like
필드가 올바르지 않은 경우 서비스는sounds_like
필드는 지정되었지만display_as
필드는 지정되지 않은 경우에서처럼 응답합니다.
이전 세대 모델의 단어 리소스 유효성 검증
말뭉치를 사용자 정의 언어 모델에 추가하거나 한 번에 여러 사용자 정의 단어를 추가할 때는 반드시 모델의 단어 리소스에 있는 OOV 단어를 검사하십시오.
- 철자 오류 및 기타 오류를 찾으십시오. 특히 크기가 클 수 있는 말뭉치를 추가할 때 쉽게 실수할 수 있습니다. 말뭉치(또는 사용자 정의 단어나 문법 파일)의 철자 오류는 말뭉치 파일에 남아 있는 잘못된 형식의 HTML 태그와 같이 모델의 단어 리소스에 새 단어를 추가하는 의도하지 않은 결과를 초래합니다.
- *유사 발음을 확인하십시오. * 서비스는 OOV 단어에 대한 유사 발음을 자동으로 생성하려 시도합니다. 대부분의 경우 이러한 발음으로 충분합니다. 그러나 서비스가 모든 단어에 대해 발음을 생성할 수는 없으므로, 사용자는 단어의 정의를 검토하여 이것이 완전하며 유효한지 확인해야 합니다. 철자가 특이하거나 발음하기 어려운 단어, 약어 및 기술 용어 또한 발음의 정확성을 검토하는 것이 좋습니다.
사용자 정의 모델에 대한 단어의 유효성을 검증하고 필요한 경우 정정하려면 단어가 단어 리소스에 추가된 방법과 관계없이 다음 메소드를 사용하십시오.
GET /v1/customizations/{customization_id}/words
메소드를 사용하여 사용자 정의 모델의 모든 단어를 나열하거나GET /v1/customizations/{customization_id}/words/{word_name}
메소드를 사용하여 개별 단어를 조회하십시오. 자세한 정보는 사용자 정의 언어 모델의 사용자 정의 단어 나열을 참조하십시오.POST /v1/customizations/{customization_id}/words
또는PUT /v1/customizations/{customization_id}/words/{word_name}
메소드를 통해 사용자 정의 모델의 단어를 수정하여 오류를 정정하거나 sounds-like 또는 display-as 값을 추가하십시오. 자세한 정보는 이전 세대 모델의 사용자 정의 단어에 대한 작업을 참조하십시오.DELETE /v1/customizations/{customization_id}/words/{word_name}
메소드를 사용하여 오류로 인해(예를 들어, 말뭉치의 철자 또는 기타 실수로) 도입된 불필요한 단어를 삭제합니다. 자세한 정보는 사용자 정의 언어 모델에서 단어 삭제를 참조하십시오.- 단어가 말뭉치에서 추출된 경우 대신 말뭉치 텍스트 파일을 업데이트하여 오류를 정정한 후
allow_overwrite
메소드의POST /v1/customizations/{customization_id}/corpora/{corpus_name}
매개변수를 사용하여 파일을 다시 로드할 수 있습니다. 자세한 정보는 사용자 정의 언어 모델에 말뭉치 추가를 참조하십시오. - 단어가 문법에서 추출된 경우 문법 파일을 업데이트하여 오류를 정정한 후
allow_overwrite
메소드의POST /v1/customizations/{customization_id}/grammars/{grammar_name}
매개변수를 사용하여 파일을 다시 로드할 수 있습니다. 자세한 정보는 사용자 정의 언어 모델에 문법 추가를 참조하십시오.
- 단어가 말뭉치에서 추출된 경우 대신 말뭉치 텍스트 파일을 업데이트하여 오류를 정정한 후