응답 형식화 및 필터링
IBM Watson® Speech to Text 서비스는 변환 결과를 구문 분석하는 데 사용할 수 있는 세 가지 기능을 제공합니다. 사용자는 최종 변환 내용을 형식화하여 특정 문자열에 대한 더 일반적인 표현과 구두점을 포함시킬 수 있습니다. 최종 변환 내용에서 중요한 숫자 정보를 검열 삭제할 수 있으며 대부분의 변환 결과에서 비속어를 필터링할 수 있습니다. 이러한 모든 기능은 베타 기능이며 특정 언어로 제한됩니다.
스마트 형식화 버전 2
새로운 버전의 스마트 서식 기능은 미국 영어, 브라질 포르투갈어, 프랑스어, 독일어, 스페인어(카스티야), 스페인어(라틴 아메리카), 프랑스어(캐나다)에서 사용할 수 있습니다. 또한 미국 영어 오디오가 인식될 때 en-WW_Medical_Telephony 모델에서도 사용할 수 있습니다.
새 버전:
- 이전의 스마트 형식화와 비교하여 새 언어 및 패턴을 추가하는 데 더 많은 유연성을 제공합니다.
- 이전 버전은 규칙 기반 접근 방식이었던 것에 비해, 최신 버전은 보다 정교한 기계 학습 기법(가중 유한 상태 변환기)을 사용하여 텍스트의 개체를 식별합니다.
- 더 정확한 개체 분류와 포맷을 제공하고, 동일한 텍스트가 두 개의 다른 개체 유형으로 식별될 수 있을 때 가중치를 사용하여 계층 구조를 정의하는 기능도 추가합니다.
smart_formatting
(문자열 변환) 기능은 다음과 같은 문자열을 보다 일반적인 표현으로 변환하도록 서비스를 지시합니다
- 날짜 및 시간
- 정수, 10진수, 서수
- 영숫자 시퀀스 (길이 > 2)
- 전화번호
- 통화 값
- 측정 (
/km²
,kg
,mph
,m³
등) - 이메일, URL, IP 주소
- 신용카드 번호 (4자리그룹으로 형식화됨)
- 구두점 (구술에서 말하는 대로)
미국 영어, 브라질 포르투갈어, 프랑스어, 독일어, 스페인어(카스티야), 스페인어(라틴 아메리카), 프랑스어(캐나다)에 대한 새로운 스마트 서식 기능을 사용하려면 smart_formatting=true 및 smart_formatting_version=2 매개변수를 설정하십시오.
엔티티 패턴 및 예제
미국 영어
- 날짜를 숫자 또는 월 이름으로 사용하고
the
및of
(the twenty fifth of july twenty twelve
) 를 사용하는 것을 포함하여 서로 다른 형태의 날짜가 허용됩니다. 날짜는m/d/yyyy
으로 형식화됩니다. - 시간은 키워드 또는 접미사로 식별됩니다. 예를 들어, 시간대(
est
,eastern
),am
,pm
,hours
,o'clock
,minutes past hour
. - 전화번호는
911
또는 10자리 숫자를 포함하거나[+]1
로 시작하는 번호여야 합니다. - 예를 들어,
dollar
,cent
,euro
,yen
와 같은 문맥에서 통화 기호가 문자열로 대체됩니다.cent
는dollar
뒤에 추가할 수 있습니다. 예를 들어,twelve dollars twenty five
와twelve dollars twenty five cents
는$12.25
로 표시됩니다. - 공통 형식의 인터넷 이메일 주소 (예:
[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname
) 스마트 형식입니다. - 짧은 양식과 긴 양식 모두 웹 URL이 형식화됩니다. 여기에는 프로토콜(
http/s
), 서브도메인(www
), 포트(443
,80
), 경로(/help/abc
)가 포함됩니다. - 대부분의 큰 정수는 숫자 시퀀스로 형식화됩니다. 큰 숫자(백만, 십억)가 단일 그룹 정수로 사용될 때는 가독성을 위해 수량 단어 '
million/billion
'가 변환되지 않습니다(예:fifty nine million
->59 million
). 그러나 숫자가 더 복잡할 때는 숫자 형식으로 표시됩니다(예:fifty nine million and one
->59000001
). - 10 미만의 숫자는 홀수 서식(odd formatting)을 피하기 위해 숫자로 변환되지 않습니다(예:
You are one of them
->You are 1 of them
). 그러나 통화 표시와 같은 다른 맥락에서는 변환됩니다(예:Give me one dollar
->Give me $1
). - 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
comma
(,
),period
(.
),question mark
(?
),exclamation point
(!
),semicolon
(;
),hyphen
(-
).
스마트 형식화 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 음성 내용은 미국 영어 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 십오십오십오십오십오십오 | 2012년 7월 25일 |
7월 25일의 25일. | 2012년 7월 25일 | |
1천 2천 3백만 원을 주다. | 2000년 1월 31일 | |
제로 5제로 5 19, 83 | 1983년 5월 5일 | |
222사분기의 2사분기 | 2022년 2분기 | |
시간 | 그것은 두 개의 11동부이다 | 02:11 |
오 칠백 시간부터 시작합니다 | 07:00에 시작합니다. | |
1분의 1 | 01:15 | |
3 시 | 03:00 | |
숫자 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
5백 2십만 달러가 소요됩니다. | 5.2 백만이 소요됩니다. | |
그것의 첫 번째 재판은 120번 째입니다. | 121st 평가판 | |
전화번호 |
|
914-556-8331 |
더하기 1개 9개 2개 3개 2개 3개 5개 6개 7개 8 개 | +1 923-123-5678 | |
통화 값 | 당신은 나에게 4개의 미국 달러와 69센트의 빚을 지고 있습니다. | 당신은 나에게 빚을 졌어 4.69 |
75달러 63 센트 | $75.63 | |
(초점) 달러/엔, 9개월래 최고치 기록 | 달러, 엔에 대해서는109.79 엔까지 상승했다. | |
이메일, URL, IP | 나는 w w w w w w w dot ya후 dot com에 대한 이야기를 보았다. | 저는 www.yahoo.com |
a b 3개의 하이픈 (-) d d 대시 3 at g mail dot com | ab3-sdd-3@gmail.com | |
h t t p 콜론 슬래시 w w w점 c o m d i l y n e w점 a b 슬래시 s m | http://www.comdailynews.ab/sm | |
두 개의 두 개의 다섯 개의 두 개의 두 개의 다섯 개의 두 개의 | 225.55.0.45 | |
측도 | 시간당 200 킬로미터 | 200km |
2킬로와트시 | 2 kWh | |
시퀀스 | H F H 9 9점 7 B | HFH993.7B |
10개의 80 p 디스플레이 | 1080p 표시장치 |
브라질 포르투갈어
- 날짜의 경우, 스크립트에서
do
와de
가 일, 월, 연도를 구분하는 구분자로 사용됩니다.primeiro
는 1st 간주됩니다. 날짜는DD/MM/YYYY
으로 형식화됩니다. - 시간은 키워드와 접두사로 식별됩니다. 예를 들어,
às
ao
,à
,da tarde
(p.m.
),da madrugada
(a.m.
),meia noite
,meio dia
. 접두사às
ao
,à
는 선택 사항입니다. - 랜드마크 번호에는 10자리숫자 (2자리국가 코드 및 8자리숫자) 가 있어야 하며, 휴대전화 번호는 9자리숫자이며 첫 번째 숫자는 선택적 국가 코드가 있는
9
입니다. 지역 번호는 선택사항입니다. 숫자의 형식은 '+NN (NN) NNNN-NNNN
' 및 '+NN (NN) 9NNNN-NNNN
' 입니다. - 브라질 실제 통화 기호는
R$
입니다. 기타 통화 기호는 적절한 컨텍스트 (예:dollar
,cent
,euro
,yen
) 에서 문자열에 대해 대체됩니다.centavos
는reais
다음에 선택사항입니다 (예:setenta e cinco dólares e sessenta e três
및setenta e cinco dólares e sessenta e três centavos
R$75,63
로 형식화됨). - 공통 형식의 인터넷 이메일 주소 (예:
[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname
) 스마트 형식입니다. - 웹 URL은 짧은 양식과 긴 양식으로 형식화됩니다. 여기에는 프로토콜(
http/s
), 서브도메인(www
), 포트(443
,80
), 경로(/help/abc
)가 포함됩니다. - 대부분의 큰 정수는 숫자 시퀀스로 형식화됩니다. 큰 숫자(수백만, 수십억 등)가 단일 그룹의 정수로 사용될 때는 양(quantity) 단어 '
milhões/bilhões
'가 가독성을 위해 변환되지 않습니다(예:doze milhões
->12 milhões
). 그러나 숫자가 더 복잡할 때는 숫자 형식으로 표시됩니다(예:doze milhões e um
->12000001
). - 10미만의 숫자는 홀수 변환을 방지하기 위해 숫자로 형식화되지 않습니다 (예:
vivo em uma casa
-- >vivo em 1 casa
). - 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
vírgula
(,
),ponto
(.
),ponto de interrogação
(?
),ponto de exclamação
(!
),ponto e vírgula
(;
),hífen
(-
).
브라질-포르투갈어에 대한 스마트 서식 지정 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 브라질-포르투갈어 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 타움 데 데즈엠로 데즈엠베로 드밀 노베센토스 에오이타 에귀토 | 1988년 12월 31 일 |
음도일 드밀 노베센토스 이타젠타 | 1987년 1월 1 일 | |
시간 | 키네즈 프로메오 디아 | 11:45 |
메오 디아 메아 호라 | 12 :30 | |
아오메오 디아 이 메오 | 아오 12 :30 | |
데스 프라스 다 마두라다 | 1:50 a.m입니다. | |
파파라메아노이트를 아물다. | 표시 23:45 | |
숫자 | 센토 (cento) 에쿼타 (quarenta) 에세테 밀 (Sete mil) 퀘트로센토스 에크센타 (cinquenta e um) | 147451 |
um Vírgula vinte e seis | 1,26 년 | |
데치모 프리메이로 | 11K | |
전화번호 | 카트로 친고음 도아의 경우, 카트로 친고세아의 경우, 이토의 경우는 | (45) 1254-5678] 을 참조한다. |
온즈노브 노브 이토 미이토 미이아 신코 키노즈 제로 도아 | (11) 99865-1502 | |
nove vinte e sete vinte e o이토 trinta e sete trinta e o이토 | 92728-3738 | |
마is cinco cinco onze nove meia nove zero meia zero quatro meia | +55 (11) 96906-0146 | |
통화 값 | 빈테 에친코 센타보 | $0,25 |
빈테 에노브 도라레스의 신켄타 센타보 | $29 ,50 | |
빈테 에친코 센타보 | $0,25 | |
이메일, URL, IP | 폰토 b c arroba g 메일 폰토 | a.bc@gmail.com |
한 마리의 교황에게 한 마리의 교황을 포함하여 한 마리의 교황을 포함하여 한 마리의 교황을 포함한다. | www.abc.es/efg | |
w w w nvidia | www.nvidia.com | |
노벤타 이토 포니토 세텐타 에세이즈 포니토 노벤타 에이토 포이토 데제세아 | 98.76.98.16 | |
측도 | 두젠토스 에쿼타 에코코 쿠릴로 코메트로스 호라 | 245kph |
duzentos e quarenta e cinco metros por segundo | 245m/s | |
시퀀스 | 데제세아의 경우에는 히펜의 노벤타가 없다. | d1639c-f98 |
Modelo f t doze x | 모델로 ft12x |
프랑스어
- 날짜에서 서수
premier
는 1st 간주됩니다. 날짜는DD/MM/YYYY
으로 형식화됩니다. - 시간은 키워드 및 접두부로 식별됩니다 (예:
heures
,de l'après-midi
또는du soir
,du matin
,midi
). 시간은 24H 시계로 형식화됩니다.HH h MM
- 전화번호에는 9또는 10자리 (5쌍의 두 자리 숫자) 가 있어야 합니다. 첫 번째 쌍 중 하나의 숫자만 허용되는 경우에는 0이 생략되었다고 가정합니다. 숫자는
NN NN NN NN NN
로 형식화됩니다. de
또는d'
전치사를 사용하여 통화를 표현하는 경우 통화 기호를 사용하여 형식을 지정하지 않습니다. 이는 일반적으로 큰 반올림 숫자 (예:1 milliard d'euro
로 형식화된un milliard d'euro
) 에서 발생합니다.- 일반적인 형식(예:
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
)의 인터넷 이메일 주소는 스마트 형식입니다.@
는arobase
,chez
,at
,à
중 하나로 표현할 수 있습니다. - 9보다 작은 카디널은 변환되지 않습니다(
j'ai un pomme
->j'ai 1 pomme
및 기타 이상한 변환을 피하기 위해) - 서수형 명사의 경우, 'siècles'는 서수형 형용사가 붙으면 로마 숫자로 표기됩니다.
dix-neuvième siècle
->XIXᵉ siècle
. - 분수 형식화가 지원됩니다. 예를 들어,
un onzième
- >1/11
입니다. - 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
).
프랑스어에 대한 스마트 서식 지정 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 프랑스어 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 두번의 유유로 나무를 자를 수 있는 극소의 대들보 | 2013년 7월 24일 |
디x-huit mai 디x-neuf 센트 트렌치 | 18/5/1930 | |
시간 | 마주석의 허트 | 8시간 |
온즈는 신부들을 후회한다. | 11시간 57 | |
두 번의 두 번의 히스치 | 14시간 | |
숫자 | 4센트 4센트 동전과 5센트 동전, 5센트 동전 | 147451 |
moins vingt-cinq-mille-트렌치-sept | 25037 | |
제어 | 23 | |
극과 극을 연상시키는 연극 | 4 2/4 | |
전화번호 | double neuf douze 참호 -deux 참호 참호 | 99 12 32 30 30 |
deux douze 참호 -deux 참호 참호 | 02 12 32 30 30 | |
통화 값 | deux 달러 vingt | 2,20 $ |
cinq euro등 soixante | 5,60유로 | |
퀘이츠버레 퀘트브링트 드 유로 | 4,80만 유로 | |
이메일, URL, IP | a b 지점 s d 지점 trois arobase g 메일 지점 com | ab3.sdd.3@gmail.com |
W w w w w 포인트 웹 포인트 c o 포인트 f r | www.web.co.fr | |
이중 중성 도트 트렌치 -deux 도트 트렌치 도트 트렌치 | 99.32.30.30 | |
측도 | 4-드밀-드밀-드루-센트-신칸테-노이프-세르 | 42 259/m² |
데두 센트 | 200km | |
시퀀스 | 문서 번호가 기록되어 있는 zéro deux 트렌치-6개의 vingt-quatre | le 문서 numéro 023624 |
r t x dix-huit t i | rtx18ti |
프랑스어 - 캐나다어
- 날짜에서 서수
premier
는 월의 1st 로 간주됩니다. 날짜는DD/MM/YYYY
으로 형식화됩니다. - 시간은 키워드 및 접두부 (예:
heures
,de l'après-midi
또는du soir
,du matin
,midi
) 로 식별됩니다. 시간은 24H 시계로 형식화됩니다.HH h MM
- 전화번호는
911
또는 10자리 숫자를 포함하거나[+]1
로 시작하는 번호여야 합니다. - 공통 형식의 인터넷 이메일 주소 (예:
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) 스마트 형식입니다.@
는arobase
,chez
,at
,à
중 하나로 표시될 수 있습니다. - 9보다 작은 카디널은 다른 텍스트의 중간에 있는 경우 변환되지 않습니다(
j'ai un pomme
->j'ai 1 pomme
및 기타 이상한 변환을 피하기 위해). 다른 텍스트 없이 분리되어 발생하는 경우에도 여전히 형식화됩니다. - 분수의 형식화가 지원됩니다. 예:
un onzième
- >1/11
- 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 말/지시된 구두점 기호를 대체합니다.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
) 등
프랑스어-캐나다어를 위한 스마트 서식 지정 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 필사본은 프랑스계 캐나다인의 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 두번의 유유로 나무를 자를 수 있는 극소의 대들보 | 2013년 7월 24일 |
디x-huit mai 디x-neuf 센트 트렌치 | 18/5/1930 | |
시간 | 마주석의 허트 | 8시간 |
온즈는 신부들을 후회한다. | 11시간 57 | |
두 번의 두 번의 히스치 | 14시간 | |
숫자 | 4센트 4센트 동전과 5센트 동전, 5센트 동전 | 147451 |
moins vingt-cinq-mille-트렌치-sept | 25037 | |
제어 | 23es | |
극과 극을 연상시키는 연극 | 4 2/4 | |
전화번호 | +un-cinq un-quatre cinq cinq cinq un deux trois qu대극장 | +1 (514) 555-1234 |
6개의 극장이 있다. | 02 12 32 30 30 | |
통화 값 | deux 달러 vingt | 2,20 $ |
Vingt 달러 cinq | 20 ,05 $ | |
퀘이츠버레 퀘트브링트 드 유로 | 4,80만 유로 | |
이메일, URL, IP | a b 지점 s d 지점 trois arobase g 메일 지점 com | ab3.sdd.3@gmail.com |
W w w w w 포인트 웹 포인트 c o 포인트 f r | www.web.co.fr | |
이중 중성 도트 트렌치 -deux 도트 트렌치 도트 트렌치 | (514) 469-210] 에 개시되어 있다. | |
측도 | 4-드밀-드밀-드루-센트-신칸테-노이프-세르 | 42 259/m² |
데두 센트 | 200km | |
시퀀스 | 문서 번호가 기록되어 있는 zéro deux 트렌치-6개의 vingt-quatre | le 문서 numéro 023624 |
r t x dix-huit t i | rtx18ti |
스페인어
- 날짜에서 서수
primero
는 1st 간주됩니다. 날짜는DD/MM/YYYY
으로 형식화됩니다. - 시간 또는 접미사 a.m 또는 p.m 나타냄)가 붙지 않은 시간 converted.e.g
las dos pe eme
. 시간은 24H 형식으로 표시됩니다:HH h MM
또는 a.m./p.m 표시된 12H - 전화 번호에는 8, 9또는 10자리숫자가 있어야 합니다. 숫자는
NNNN NNNN
또는NNN NNN NNN
또는NNN NNN NNNN
로 형식화됩니다. - 일반적인 형식의 인터넷 이메일 주소(예:
[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname
)는 스마트 형식입니다. - 9보다 작은 카디널은 다른 텍스트의 중간에 있는 경우 변환되지 않습니다(
un gato en el camino
->1 gato en el camino
및 기타 이상한 변환을 피하기 위해). 다른 텍스트 없이 분리되어 발생하는 경우에도 여전히 형식화됩니다. - 분수 형식화가 지원됩니다. For example,
un décimo
->1/10
- 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
punto
(.
),interrogación
(?
),exclamación
(!
),punto y coma
(;
),guion medio
(-
), 등.
스페인어에 대한 스마트 서식 지정 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 스페인어 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 밀레 노세엔토스 노벤타도 | 1992년 12월 31 일 |
디세시세베아 디세베헤르 밀 디세코초 | 2018년 9월 16일 | |
시간 | 라스디세이스씨젠타 | 라스16 :50 |
라스는 에임을 하다. | las 2:00 a.m. | |
숫자 | 밀 (mil) 노세센토스 신쿠엔타 (cincuenta) y 오초 | 1958 |
1밀 (mil) novecientos cincuenta y ocho | 11958 | |
데시마 프리메라 | 11i | |
쿠아렌티누나보 | 1/41 | |
전화번호 | 누에브 누에오 쿠아트로 신코 | 914 556 8331 |
쿠아트로 친초 (cinco seis siete ocho) | 1234 5678 년 | |
통화 값 | dos 유로 noventa 센타보 | € 2,90 |
도세 유로 (ycinco) 센타보 | € 12 ,05 | |
Cinco millones de pesos 에게 주먹질을 하다. | $9.5 밀론 | |
URL | a b c arroba g 메일이 a b c에 대해 펀치함 | abc@gmail.abc |
doble uve doble uve doble uve punto nvidia punto com | www.nvidia.com | |
측도 | tres metros cbicos | 3m³ |
킬로메트로스 패어 호르 | 2kph | |
시퀀스 | cero dos tres seis dos cuatro | 023624 |
r t x cero do tres w | rtx023w |
독일어
- 날짜 형식에는 숫자와 이름이 모두 지원됩니다(예를 들어,
zweiter
은februar
과 동일합니다). 날짜는DD.MM.YYYY
으로 형식화됩니다. - 시간은 키워드로 식별됩니다 (예:
nach
uhr
,vor
,minuten
). 시간은 24시간시계 (HH:MM:SS
) 로 형식화됩니다. - 전화번호는 3-4자리 지역 번호와 8자리 번호로 구성되어야 하며, 지역 번호는
0
로 시작해야 합니다. 국가 코드 (+49) 는 선택사항입니다. 국가 코드를 사용하는 경우 지역 번호는0
로 시작해서는 안 됩니다. 숫자의 형식은 '+49 [N]NN NNNNNNNN
' 또는 '0[N]NN NNNNNNNN
' 입니다. - 대부분의 통화 기호는 적절한 컨텍스트 (예:
dollar
,cent
,euro
,yen
) 의 문자열로 대체됩니다. - 일반적인 형식(예:
[alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname
)의 인터넷 이메일 주소가 형식화됩니다. - 웹 URL은 짧은 양식과 긴 양식으로 형식화됩니다. 여기에는 프로토콜(
http/s
), 서브도메인(www
), 포트(443
,80
), 경로(/help/abc
)가 포함됩니다 - 9보다 작은 카디널은 홀수 또는 모호한 변환을 피하기 위해 변환되지 않습니다.
- 서수와 분수의 서식도 지원됩니다.
- 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
komma
(,
),punkt
(.
),fragezeichen
(?
),ausrufezeichen
(!
),semikolon
(;
),bindestrich
(-
).
독일어에 대한 스마트 서식 지정 예제
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 독일어 오디오를 기반으로 합니다.
엔티티 유형 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | 비에르룬츠완지가스터 줄리 주 | 24.07.2013 |
드비젠터 주피터 주바이시 타우스트 지완지그 | 13.02.2020 | |
시간 | 비에르룬츠흐르츠위드룬츠완지그 | 24:22시간 |
요트 | 08:07 시간 | |
에인우르 에인분 에인슈네드 | 01:01:01 Uhr | |
숫자 | -세월호 참사를 조롱하고 있는 | -25037 년 |
요트 하르트 아치존 콤마 | 818 ,303 | |
Fünfundzwanzigtausdeinhundertelftem | 25111 년 | |
드와이즈웨이 에인후트텔 | 100 /3 | |
전화번호 | 널 (null) 인 eins eins zwei drei viins zwei drei vier | 0411 12341234 |
+비어네운 비에인은 에인즈 지웨이 비에인즈 지웨이 즈웨이 비에인즈 지웨이 비에어 | +49 411 12341234 | |
통화 값 | zwei komma널 (null) 널 (null) 널 (null) eins 달러 | 2,0001 $ |
즈완드지그 센트 | 0,22 € | |
이메일, URL, IP | 한 인터넷 사이트에 있는 한 인터넷 사이트에 있는 한 웹 사이트 | ab3-sdd-3@gmail.com |
h t t t t p doppelpunkt 슬래시 슬래시 w w punkt a b c punkt com 슬래시 a b | https://www.abc.com/ab | |
준엄한 처벌을 받고 있는 장음들의 펀트들이다. | 35.135.24.24 | |
측도 | Zwei 킬로미터의 프로스턴트 스턴트 연기 | 2km |
비에르하르트 비에르지그 밀리리터 | 440ml | |
시퀀스 | 그는 " 나는 내가 하는 일을 하지 않을 것이다. | cb43-535242.435 |
테일열거머 | teilenummer ft-12p |
스마트 형식화 V2 예제
다음 예제에서는 smart_formatting
매개변수를 true
로 설정하여 인식 요청에 대한 스마트 형식화를 요청합니다. 다음 섹션에서는 스마트 형식화가 요청의 결과에 미치는 영향을 보여줍니다.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
스마트 형식화
스마트 형식화 기능은 미국 영어, 일본어 및 스페인어(모든 통용어)에 대해 사용할 수 있는 베타 기능입니다. 또한 미국 영어 음성이 인식되는 경우, en-WW_Medical_Telephony
모델에서도 사용할 수 있습니다.
smart_formatting
매개변수는 다음 문자열을 더 일반적인 표시로 변환하도록 서비스에 지시합니다.
- 날짜
- 시간
- 일련의 숫자 및 번호
- 전화번호
- 통화 값(미국 영어 및 스페인어의 경우)
- 인터넷 이메일 및 웹 주소(미국 영어 및 스페인어의 경우)
스마트 형식화를 사용으로 설정하려면 smart_formatting
매개변수를 true
로 설정합니다. 기본적으로 이 서비스는 스마트 형식화를 수행하지 않습니다. 서비스는 텍스트 정규화가 완료되면 최종 결과를 클라이언트로 리턴하기 바로 전에 스마트 형식화를 적용합니다. 텍스트 변환을 통해 텍스트 변환 내용을 더 쉽게 읽을 수 있고 일반적으로 기록된 대로 이러한 아티팩트를 표현함으로써 텍스트
변환 결과의 사후 처리를 더 효과적으로 승격시킬 수 있습니다.
스마트 형식화가 결과에 미치는 영향
스마트 형식화는 일부 텍스트 변환 결과에 영향을 주고 다른 결과에는 영향을 주지 않습니다.
-
스마트 형식화는 최종 결과의
transcript
필드에 있는 단어에만 적용되고 해당 결과는final
필드가true
인 결과입니다. 이는final
이false
인 중간 결과에는 영향을 주지 않습니다. -
스마트 형식화는 응답의 다른 필드에 있는 단어에는 영향을 주지 않습니다. 예를 들어 스마트 형식화는
timestamps
또는alternatives
필드에 있는 응답 단어에는 적용되지 않습니다. -
"음"과 "어"와 같은 말의 멈춤 현상은 일부 언어의 스마트 서식 기능에 의해 구문과 문자열의 변환에 부정적인 영향을 미칠 수 있습니다. 이전 세대 모델은 트랜스크립트에서 이러한 망설임을 대체하기 위해 망설임 마커를 생성합니다. 스마트 형식화는 이전 세대 모델의 망설임 마커에 다음과 같은 영향을 미칩니다.
- 미국 영어의 경우, 스마트 형식화는 최종 결과를 위해
transcript
필드에서 망설임 표지를 억제합니다. - 일본어의 경우, 망설임 표지는 최종 결과에도 표시됩니다.
- 미국 영어와 일본어의 경우, 망설임 표지는 중간 결과에도 표시됩니다.
- 스페인어의 경우, 서비스는 모든 결과에 대해 망설임 표지를 생성하지 않습니다.
차세대 모델은 망설임 표지를 생성하지 않습니다. 대신에, 그들은 실제적인 망설임을 전사 결과에 포함시킨다. 스마트 형식화는 차세대 모델에 포함되는 망설임에 영향을 주지 않습니다. 자세한 정보는 음성 망설임 및 망설임 마커 를 참조하십시오.
- 미국 영어의 경우, 스마트 형식화는 최종 결과를 위해
언어 차이점
스마트 형식화는 음성 내용에 명백한 키워드가 존재하는지를 기반으로 합니다. 지원되는 언어 간의 차이로 인해 스마트 형식화는 각 언어에 대해 약간 다르게 작동합니다. 다음 절에서는 미국 영어 및 스페인어, 일본어의 스마트 형식화 변경을 트리거하는 문자열 및 컨텐츠에 대해 설명합니다.
미국 영어 및 스페인어
-
시간은
AM
,PM
또는EST
와 같은 키워드로 식별됩니다. -
군용 시간은 키워드
hours
(미국 영어) 또는horas
(스페인어)로 식별되는 경우 변환됩니다. -
전화번호는
911
이거나, 10 또는 11숫자를 포함하고 숫자1
로 시작하는 수여야 합니다. -
통화 기호는 적절한 컨텍스트에서 다음 문자열에 대해 대체됩니다.
- 미국 영어의 경우 달러, 센트 및 유로입니다.
- *스페인어의 경우 * 돌라르, 페소, 페세타, 파운드, 리브라 및 유로입니다.
-
인터넷 이메일 주소는 일부 경우에 변환됩니다. 특히 서비스는 입력 오디오에서
email address ... {address}
구문을 사용하는 경우 이메일 주소를 변환합니다. 다음 예제에서는 구어 구문의 올바른 변환을 보여줍니다.My email address is j dot d o e at i b m dot com
은My email address is j.doe@ibm.com
이 됩니다.Mi correo electronico es j punto d o e arroba i b m punto com
은Mi correo electronico es j.doe@ibm.com
이 됩니다.
-
간략한 양식의 인터넷 웹 주소는 변환됩니다. 완전한 웹 주소는 변환되지 않습니다. 다음 예제는 완전한 변환을 표시합니다.
I saw the story on yahoo dot com
은I saw the story on yahoo.com
이 됩니다.Vi la historia en yahoo punto com
은Vi la historia en yahoo.com
이 됩니다.
다음 예제는 불완전 변환을 표시합니다.
I saw the story on w w w dot yahoo dot com
은I saw the story on w w w .yahoo.com
이 됩니다.Vi la historia en w w w punto yahoo punto com
은Vi la historia en w w w .yahoo.com
이 됩니다.
-
큰 수와 통합 값 변환은 어려울 수 있습니다. 서비스는 숫자와 큰 수도 변환합니다. 그러나 더 크고 복잡한 수와 통화 값은 더 정확한 구문에서 가장 잘 작동합니다. 예를 들어 서비스는 정확한 표현으로 인해 다음 텍스트 변환 내용을 올바르게 변환합니다.
sixty nine thousand five hundred sixty dollars and twenty five cents
가$69560.25
가 됩니다.sixty nine thousand five hundred sixty dollars point twenty five
은$69560.25
이 됩니다.
그러나 느슨한 구문 표현으로 인해 서비스는 다음 텍스트 변환 내용을 올바르게 변환할 수 없습니다.
sixty nine thousand five sixty dollars and twenty five cents
은60 9000 $560.25
이 됩니다.sixty nine thousand five sixty dollars point twenty five
은60 9000 $560.25
이 됩니다.
좀 더 다양한 복합 수를 올바르게 변환하려면 스마트 형식화의 결과로 실험하고 자체 사후 처리 유틸리티를 사용자 정의해야 합니다.
-
미국 영어의 경우, 적절한 위치에서 발생하는 특수 키워드에 대해 특정 구두점 기호가 추가됩니다. 스마트 형식화를 사용하는 경우, 서비스는 변환 내용에서 다음 키워드 문자열을 문자열이 발견된 위치에 따라 구두점 기호로 대체합니다.
Comma
(,
)Period
(.
)Question mark
(?
)Exclamation point
(!
)
이 서비스는 이러한 키워드 문자열을 성적표의 적절한 위치에서만 기호로 변환합니다. 다음 예에서, 화자는 문장의 끝에
period
(이)라는 단어를 말합니다.the warranty period is short period
이(가)the warranty period is short.
이(가) 됨
서비스는 문장에서 앞에 표시되는 명사와 마침표 사이를 정확하게 구분합니다.
일본어
-
전화번호는 10자리 또는 11자리여야 하며 일본의 전화번호에 유효한 접두부로 시작해야 합니다. 예를 들어, 유효한 접두부에는
03
및090
이 있습니다. -
영어 단어는 ASCII(hankaku) 문자로 변환됩니다. 예를 들어,
IBM
는IBM
로 변환됩니다. -
충분한 컨텍스트가 사용 불가능한 경우 모호한 용어가 변환되지 않을 수 있습니다. 예를 들어, "
一時
"와 "十分
"가 시간을 가리키는 것인지 확실하지 않습니다. -
문장 부호는 스마트 형식화를 수행하는지 여부와 관계없이 동일하게 처리됩니다. 예를 들어, 확률 계산에 기초하여,
カンマ
또는,
중 하나가 선택됩니다. -
엔 값을 설명하는 문자열은 엔 통화 기호로 대체되지 않습니다.
-
모든 양식에서 인터넷 이메일과 웹 주소는 변환되지 않습니다.
-
일본어 협대역 모델(
ja-JP_NarrowbandModel
)에는 숫자 및 소수 부분에 대한 멀티그램 단어 단위가 포함됩니다. 서비스는 사용자가 스마트 형식화를 사용으로 설정했는지에 관계없이 이러한 멀티그램 단위를 리턴합니다. 다음 예제는 서비스가 리턴하는 단위를 표시합니다. 괄호 안에 있는 수는 각 단위에 대해 동일한 아랍어 숫자 표현식을 표시합니다.- 숫자:
〇一
(01), ...,〇九
(09),一〇
(10), ...,九〇
(90) - 10진수분수:
〇・
(0.),一・
(1.), ...,十・
(10.)
스마트 형식화 기능은 모델에서 생성하는 멀티그램 단위를 이해하고 리턴합니다. 자체 사후 처리를 텍스트 변환 결과에 적용하는 경우, 이러한 단위를 적절히 처리해야 합니다.
- 숫자:
스마트 형식화 결과
다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 음성 내용은 미국 영어 오디오를 기반으로 합니다.
정보 | 스마트 형식화를 사용하지 않는 경우 | 스마트 형식화를 사용하는 경우 |
---|---|---|
날짜 | I was born on ten oh six nineteen seventy | I was born on 10/6/1970 |
I was born on the ninth of December nineteen hundred | I was born on 12/9/1900 | |
Today is June sixth | Today is June 6 | |
시간 | The meeting starts at nine thirty AM | The meeting starts at 9:30 AM |
I am available at seven EST | I am available at 7:00 EST | |
We meet at oh seven hundred hours | We meet at 0700 hours | |
숫자 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
전화번호 | Call me at nine one four two three seven one thousand | Call me at 914-237-1000 |
Call me at one nine one four nine oh nine twenty six forty five | Call me at 1-914-909-2645 | |
통화 값 | You owe me three thousand two hundred two dollars and sixty six | You owe me $3202.66 |
The dollar rose to one hundred and nine point seven nine yen from one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen | |
인터넷 이메일 및 웹 주소 | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com |
I saw the story on yahoo dot com | I saw the story on yahoo.com | |
조합 | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 |
There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |
긴 일시정지에 대한 스마트 형식화 결과
발화에 충분히 긴 일시정지가 포함되어 있는 경우에는 서비스가 텍스트 변환 내용을 두 개 이상의 최종 결과로 분할할 수 있습니다. 다음 예에서 볼 수 있듯이, 이것은 응답 내용에 영향을 미칩니다.
오디오 음성 | 형식화된 변환 결과 |
---|---|
My phone number is nine one four five five seven three three nine two | "My phone number is 914-557-3392" |
My phone number is nine one four ...휴지... five five seven three three nine two | "My phone number is 914" "5573392" |
서비스의 응답에 영향을 주는 일시정지 간격의 지정에 대한 자세한 정보는 구문 종료 무음 시간을 참조하십시오.
스마트 형식화 예제
다음 예제에서는 smart_formatting
매개변수를 true
로 설정하여 인식 요청에 대한 스마트 형식화를 요청합니다. 다음 섹션에서는 스마트 형식화가 요청의 결과에 미치는 영향을 보여줍니다.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
숫자 교정
숫자 교정 기능은 미국 영어, 일본어 및 한국어에 사용할 수 있는 베타 기능입니다.
redaction
매개변수는 최종 음성 내용에서 숫자 데이터를 교정하거나 마스킹하도록 서비스에 지시합니다. 이 기능은 각 숫자를 X
문자로 대체하여 세 개 이상의 연속 숫자가 포함된 번호를 교정합니다. 이 기능은 신용카드 번호와 같은 민감한 숫자 데이터를 교정하기 위한 것입니다.
기본적으로 이 서비스는 숫자 데이터를 교정하지 않습니다. 숫자 교정을 사용으로 설정하려면 redaction
매개변수를 true
로 설정하십시오. 검열 삭제를 사용으로 설정하면 서비스가 자동으로 smart_formatting
매개변수를 true
(으)로 설정하여 스마트 형식화를 사용으로 설정하며, 이는 사용자가 이 기능을 명시적으로 사용 안함으로
설정한 경우에도 해당됩니다. 보안을 최대한으로 보장하기 위해, 검열 삭제를 사용으로 설정하는 경우 서비스는 다음 매개변수 또한 사용 안함으로 설정합니다.
- 이 서비스는
keywords
및keywords_threshold
매개변수에 대한 값을 지정하는지 여부와 관계없이 키워드 발견을 사용 안함으로 설정합니다. - 서비스는
max_alternatives
매개변수에 1보다 큰 값이 지정되었는지에 관계없이 최대 대안 수를 사용 안함으로 설정합니다. 서비스는 단일 최종 변환 내용만 리턴합니다. - 서비스는
interim_results
매개변수가true
(으) 설정되었는지에 관계없이 WebSocket 인터페이스에 대해 중간 결과를 사용 안함으로 설정합니다.
이 기능의 디자인은 기존의 스마트 형식화 기능과 유사합니다. 이 서비스는 클라이언트에 결과를 리턴하기 직전 및 텍스트 정규화가 완료된 후 인식 요청의 최종 음성 내용에만 교정을 적용합니다.
언어 차이점
이 기능은 미국 영어 모델에 대해 설명된 대로 정확히 작동하지만 일본어 및 한국어 모델에는 다음과 같은 차이점이 있습니다.
일본어
일본어 교정에는 다음과 같은 차이점이 있습니다.
-
교정은 3자리 이상의 연속 숫자가 있는 문자열을 마스킹하는 것 이외에 3자리 미만의 숫자를 포함하는지 여부에 관계없이 주소 및 숫자를 마스킹합니다.
-
마찬가지로 교정은 일본식 생년월일의 날짜 정보를 마스킹합니다. 일본어에서는 날짜 정보가 주로 서력 기원 형식으로 표시되지만 특히 생년월일의 경우 때때로 일본식을 따르기도 합니다. 이 경우, 연도 및 월은 하나 또는 두 자리 숫자를 포함하는 경우에도 마스킹됩니다.
예를 들어, 교정이 없는 일본어 스타일의 생년월일은
平成 30年 2月
입니다. 교정을 사용하면 날짜가平成 XX年 X月
가 됩니다.
한국어
한국어 교정에는 다음과 같은 차이점이 있습니다.
-
스마트 형식화 기능이 지원되지 않습니다. 이 서비스는 한국어에 대해서도 숫자 교정을 수행하지만 다른 스마트 형식화는 수행하지 않습니다.
-
격리된 숫자 문자는 축소되지만 한국어 구문의 일부로 포함될 수 있는 격리된 숫자 문자는 그렇지 않습니다. 예를 들어, 다음 문장에서 '
이
'라는 문자는 'X
'로 대체되지 않습니다. 그 이유는 다음 문자와 인접해 있기 때문입니다이입니다
이
문자가 다음 문자와 공백으로 구분되어 있는 경우, 숫자 편집 결과 에서 설명한 대로X
로 대체됩니다.
숫자 교정 결과
다음 표에서는 지원되는 각 언어에서 숫자 교정을 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다.
언어 | 검열 삭제를 사용하지 않는 경우 | 검열 삭제를 사용하는 경우 |
---|---|---|
미국 영어 | my credit card number is four one four seven two | my credit card number is XXXXX |
일본어 | ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' | ■ ' 한-중-한-중-한-중-한-중 - - 한-중-한-중-한-중-한-중 - |
한국어 |
|
■ ' HX- X- X- X- X- X--X- |
숫자 교정 예제
다음 예제에서는 redaction
매개변수를 true
로 설정하여 인식 요청에 대한 숫자 교정을 요청합니다. 이 요청은 교정을 사용하므로 이 서비스가 내재적으로 요청에 스마트 형식화를 사용합니다. 이 서비스는 요청의 다른 매개변수를 효과적으로 사용 안함으로 설정하므로 이러한 매개변수는 적용되지 않습니다. 이 서비스는 단일 최종 음성 내용을 리턴하고 키워드를 인식하지 않습니다.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
욕설 필터링
비속어 필터링 기능은 미국 영어 및 일본어에 대해서만 GA(General Availability)되어 있습니다.
profanity_filter
매개변수는 서비스가 결과에서 욕설을 검열할지 여부를 표시합니다. 기본적으로 이 서비스는 음성 내용에서 욕설을 일련의 별표로 대체하여 모든 욕설을 숨깁니다. 이 매개변수를 false
로 설정하면 단어가 정확히 기록된 대로 출력에 표시됩니다.
이 서비스는 모든 최종 음성 내용 및 대체 음성 내용에서 욕설을 검열합니다. 또한 단어 대체, 단어 신뢰도 및 단어 시간소인과 연관된 결과에서 욕설을 검열합니다. 유일한 예외는 키워드 발견입니다. 이 기능의 경우 profanity_filter
가 true
인지 여부에 관계없이 서비스가 모든 단어를 사용자가 지정한 대로 리턴합니다.
욕설 필터링 예제
다음 예제는 true
매개변수가 기본값인 profanity_filter
값으로 설정된 상태로 텍스트로 변환된 간단한 오디오 파일에 대한 결과를 보여줍니다. 또한 이 요청은 word_alternatives_threshold
매개변수를 비교적 높은 값인 0.99
로 설정하고 word_confidence
및 timestamps
매개변수를 true
로 설정합니다.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
서비스는 응답에 포함된 비속어를 일련의 별표로 대체하여 가립니다.
{
"result_index": 0,
"results": [
{
"word_alternatives": [
{
"start_time": 0.03,
"alternatives": [
{
"confidence": 1.0,
"word": "****"
}
],
"end_time": 0.25
},
{
"start_time": 0.25,
"alternatives": [
{
"confidence": 0.99,
"word": "you"
}
],
"end_time": 0.56
}
],
"alternatives": [
{
"transcript": "**** you",
"confidence": 0.99,
"word_confidence": [
["****", 1.0],
["you", 0.99]
],
"timestamps": [
["****", 0.03, 0.25],
["you", 0.25, 0.56]
]
}
],
"final": true
}
]
}