IBM Cloud Docs
응답 형식화 및 필터링

응답 형식화 및 필터링

IBM Watson® Speech to Text 서비스는 변환 결과를 구문 분석하는 데 사용할 수 있는 세 가지 기능을 제공합니다. 사용자는 최종 변환 내용을 형식화하여 특정 문자열에 대한 더 일반적인 표현과 구두점을 포함시킬 수 있습니다. 최종 변환 내용에서 중요한 숫자 정보를 검열 삭제할 수 있으며 대부분의 변환 결과에서 비속어를 필터링할 수 있습니다. 이러한 모든 기능은 베타 기능이며 특정 언어로 제한됩니다.

스마트 형식화 버전 2

새로운 버전의 스마트 서식 기능은 미국 영어, 브라질 포르투갈어, 프랑스어, 독일어, 스페인어(카스티야), 스페인어(라틴 아메리카), 프랑스어(캐나다)에서 사용할 수 있습니다. 또한 미국 영어 오디오가 인식될 때 en-WW_Medical_Telephony 모델에서도 사용할 수 있습니다.

새 버전:

  • 이전의 스마트 형식화와 비교하여 새 언어 및 패턴을 추가하는 데 더 많은 유연성을 제공합니다.
  • 이전 버전은 규칙 기반 접근 방식이었던 것에 비해, 최신 버전은 보다 정교한 기계 학습 기법(가중 유한 상태 변환기)을 사용하여 텍스트의 개체를 식별합니다.
  • 더 정확한 개체 분류와 포맷을 제공하고, 동일한 텍스트가 두 개의 다른 개체 유형으로 식별될 수 있을 때 가중치를 사용하여 계층 구조를 정의하는 기능도 추가합니다.

smart_formatting (문자열 변환) 기능은 다음과 같은 문자열을 보다 일반적인 표현으로 변환하도록 서비스를 지시합니다

  • 날짜 및 시간
  • 정수, 10진수, 서수
  • 영숫자 시퀀스 (길이 > 2)
  • 전화번호
  • 통화 값
  • 측정 ( /km², kg, mph, 등)
  • 이메일, URL, IP 주소
  • 신용카드 번호 (4자리그룹으로 형식화됨)
  • 구두점 (구술에서 말하는 대로)

미국 영어, 브라질 포르투갈어, 프랑스어, 독일어, 스페인어(카스티야), 스페인어(라틴 아메리카), 프랑스어(캐나다)에 대한 새로운 스마트 서식 기능을 사용하려면 smart_formatting=true 및 smart_formatting_version=2 매개변수를 설정하십시오.

엔티티 패턴 및 예제

미국 영어

  • 날짜를 숫자 또는 월 이름으로 사용하고 theof (the twenty fifth of july twenty twelve) 를 사용하는 것을 포함하여 서로 다른 형태의 날짜가 허용됩니다. 날짜는 m/d/yyyy 으로 형식화됩니다.
  • 시간은 키워드 또는 접미사로 식별됩니다. 예를 들어, 시간대( est, eastern ), am, pm, hours, o'clock, minutes past hour.
  • 전화번호는 911 또는 10자리 숫자를 포함하거나 [+]1 로 시작하는 번호여야 합니다.
  • 예를 들어, dollar, cent, euro, yen 와 같은 문맥에서 통화 기호가 문자열로 대체됩니다. centdollar 뒤에 추가할 수 있습니다. 예를 들어, twelve dollars twenty fivetwelve dollars twenty five cents$12.25 로 표시됩니다.
  • 공통 형식의 인터넷 이메일 주소 (예: [alphanumeric+symbols]+ at [alphanumeric dot]+ domainname ) 스마트 형식입니다.
  • 짧은 양식과 긴 양식 모두 웹 URL이 형식화됩니다. 여기에는 프로토콜( http/s ), 서브도메인( www ), 포트( 443, 80 ), 경로( /help/abc )가 포함됩니다.
  • 대부분의 큰 정수는 숫자 시퀀스로 형식화됩니다. 큰 숫자(백만, 십억)가 단일 그룹 정수로 사용될 때는 가독성을 위해 수량 단어 ' million/billion '가 변환되지 않습니다(예: fifty nine million-> 59 million ). 그러나 숫자가 더 복잡할 때는 숫자 형식으로 표시됩니다(예: fifty nine million and one-> 59000001 ).
  • 10 미만의 숫자는 홀수 서식(odd formatting)을 피하기 위해 숫자로 변환되지 않습니다(예: You are one of them-> You are 1 of them ). 그러나 통화 표시와 같은 다른 맥락에서는 변환됩니다(예: Give me one dollar-> Give me $1 ).
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
    • comma (,), period (.), question mark (?), exclamation point (!), semicolon (;), hyphen (-).

스마트 형식화 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 음성 내용은 미국 영어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 십오십오십오십오십오십오 2012년 7월 25일
7월 25일의 25일. 2012년 7월 25일
1천 2천 3백만 원을 주다. 2000년 1월 31일
제로 5제로 5 19, 83 1983년 5월 5일
222사분기의 2사분기 2022년 2분기
시간 그것은 두 개의 11동부이다 02:11
오 칠백 시간부터 시작합니다 07:00에 시작합니다.
1분의 1 01:15
3 시 03:00
숫자 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
5백 2십만 달러가 소요됩니다. 5.2 백만이 소요됩니다.
그것의 첫 번째 재판은 120번 째입니다. 121st 평가판
전화번호
            1. 1
914-556-8331
더하기 1개 9개 2개 3개 2개 3개 5개 6개 7개 8 개 +1 923-123-5678
통화 값 당신은 나에게 4개의 미국 달러와 69센트의 빚을 지고 있습니다. 당신은 나에게 빚을 졌어 4.69
75달러 63 센트 $75.63
(초점) 달러/엔, 9개월래 최고치 기록 달러, 엔에 대해서는109.79 엔까지 상승했다.
이메일, URL, IP 나는 w w w w w w w dot ya후 dot com에 대한 이야기를 보았다. 저는 www.yahoo.com
a b 3개의 하이픈 (-) d d 대시 3 at g mail dot com ab3-sdd-3@gmail.com
h t t p 콜론 슬래시 w w w점 c o m d i l y n e w점 a b 슬래시 s m http://www.comdailynews.ab/sm
두 개의 두 개의 다섯 개의 두 개의 두 개의 다섯 개의 두 개의 225.55.0.45
측도 시간당 200 킬로미터 200km
2킬로와트시 2 kWh
시퀀스 H F H 9 9점 7 B HFH993.7B
10개의 80 p 디스플레이 1080p 표시장치

브라질 포르투갈어

  • 날짜의 경우, 스크립트에서 dode 가 일, 월, 연도를 구분하는 구분자로 사용됩니다. primeiro 는 1st 간주됩니다. 날짜는 DD/MM/YYYY 으로 형식화됩니다.
  • 시간은 키워드와 접두사로 식별됩니다. 예를 들어, às ao, à, da tarde ( p.m. ), da madrugada ( a.m. ), meia noite, meio dia. 접두사 às ao, à 는 선택 사항입니다.
  • 랜드마크 번호에는 10자리숫자 (2자리국가 코드 및 8자리숫자) 가 있어야 하며, 휴대전화 번호는 9자리숫자이며 첫 번째 숫자는 선택적 국가 코드가 있는 9 입니다. 지역 번호는 선택사항입니다. 숫자의 형식은 ' +NN (NN) NNNN-NNNN ' 및 ' +NN (NN) 9NNNN-NNNN' 입니다.
  • 브라질 실제 통화 기호는 R$ 입니다. 기타 통화 기호는 적절한 컨텍스트 (예: dollar, cent, euro, yen) 에서 문자열에 대해 대체됩니다. centavosreais 다음에 선택사항입니다 (예: setenta e cinco dólares e sessenta e trêssetenta e cinco dólares e sessenta e três centavos R$75,63 로 형식화됨).
  • 공통 형식의 인터넷 이메일 주소 (예: [alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname ) 스마트 형식입니다.
  • 웹 URL은 짧은 양식과 긴 양식으로 형식화됩니다. 여기에는 프로토콜( http/s ), 서브도메인( www ), 포트( 443, 80 ), 경로( /help/abc )가 포함됩니다.
  • 대부분의 큰 정수는 숫자 시퀀스로 형식화됩니다. 큰 숫자(수백만, 수십억 등)가 단일 그룹의 정수로 사용될 때는 양(quantity) 단어 ' milhões/bilhões '가 가독성을 위해 변환되지 않습니다(예: doze milhões-> 12 milhões ). 그러나 숫자가 더 복잡할 때는 숫자 형식으로 표시됩니다(예: doze milhões e um-> 12000001 ).
  • 10미만의 숫자는 홀수 변환을 방지하기 위해 숫자로 형식화되지 않습니다 (예: vivo em uma casa-- > vivo em 1 casa).
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
    • vírgula (,), ponto (.), ponto de interrogação (?), ponto de exclamação (!), ponto e vírgula (;), hífen (-).

브라질-포르투갈어에 대한 스마트 서식 지정 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 브라질-포르투갈어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 타움 데 데즈엠로 데즈엠베로 드밀 노베센토스 에오이타 에귀토 1988년 12월 31 일
음도일 드밀 노베센토스 이타젠타 1987년 1월 1 일
시간 키네즈 프로메오 디아 11:45
메오 디아 메아 호라 12 :30
아오메오 디아 이 메오 아오 12 :30
데스 프라스 다 마두라다 1:50 a.m입니다.
파파라메아노이트를 아물다. 표시 23:45
숫자 센토 (cento) 에쿼타 (quarenta) 에세테 밀 (Sete mil) 퀘트로센토스 에크센타 (cinquenta e um) 147451
um Vírgula vinte e seis 1,26 년
데치모 프리메이로 11K
전화번호 카트로 친고음 도아의 경우, 카트로 친고세아의 경우, 이토의 경우는 (45) 1254-5678] 을 참조한다.
온즈노브 노브 이토 미이토 미이아 신코 키노즈 제로 도아 (11) 99865-1502
nove vinte e sete vinte e o이토 trinta e sete trinta e o이토 92728-3738
마is cinco cinco onze nove meia nove zero meia zero quatro meia +55 (11) 96906-0146
통화 값 빈테 에친코 센타보 $0,25
빈테 에노브 도라레스의 신켄타 센타보 $29 ,50
빈테 에친코 센타보 $0,25
이메일, URL, IP 폰토 b c arroba g 메일 폰토 a.bc@gmail.com
한 마리의 교황에게 한 마리의 교황을 포함하여 한 마리의 교황을 포함하여 한 마리의 교황을 포함한다. www.abc.es/efg
w w w nvidia www.nvidia.com
노벤타 이토 포니토 세텐타 에세이즈 포니토 노벤타 에이토 포이토 데제세아 98.76.98.16
측도 두젠토스 에쿼타 에코코 쿠릴로 코메트로스 호라 245kph
duzentos e quarenta e cinco metros por segundo 245m/s
시퀀스 데제세아의 경우에는 히펜의 노벤타가 없다. d1639c-f98
Modelo f t doze x 모델로 ft12x

프랑스어

  • 날짜에서 서수 premier 는 1st 간주됩니다. 날짜는 DD/MM/YYYY 으로 형식화됩니다.
  • 시간은 키워드 및 접두부로 식별됩니다 (예: heures, de l'après-midi 또는 du soir, du matin, midi). 시간은 24H 시계로 형식화됩니다. HH h MM
  • 전화번호에는 9또는 10자리 (5쌍의 두 자리 숫자) 가 있어야 합니다. 첫 번째 쌍 중 하나의 숫자만 허용되는 경우에는 0이 생략되었다고 가정합니다. 숫자는 NN NN NN NN NN 로 형식화됩니다.
  • de 또는 d' 전치사를 사용하여 통화를 표현하는 경우 통화 기호를 사용하여 형식을 지정하지 않습니다. 이는 일반적으로 큰 반올림 숫자 (예: 1 milliard d'euro 로 형식화된 un milliard d'euro ) 에서 발생합니다.
  • 일반적인 형식(예: [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname )의 인터넷 이메일 주소는 스마트 형식입니다. @arobase, chez, at, à 중 하나로 표현할 수 있습니다.
  • 9보다 작은 카디널은 변환되지 않습니다( j'ai un pomme-> j'ai 1 pomme 및 기타 이상한 변환을 피하기 위해)
  • 서수형 명사의 경우, 'siècles'는 서수형 형용사가 붙으면 로마 숫자로 표기됩니다. dix-neuvième siècle-> XIXᵉ siècle.
  • 분수 형식화가 지원됩니다. 예를 들어,un onzième- > 1/11 입니다.
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-).

프랑스어에 대한 스마트 서식 지정 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 프랑스어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 두번의 유유로 나무를 자를 수 있는 극소의 대들보 2013년 7월 24일
디x-huit mai 디x-neuf 센트 트렌치 18/5/1930
시간 마주석의 허트 8시간
온즈는 신부들을 후회한다. 11시간 57
두 번의 두 번의 히스치 14시간
숫자 4센트 4센트 동전과 5센트 동전, 5센트 동전 147451
moins vingt-cinq-mille-트렌치-sept 25037
제어 23
극과 극을 연상시키는 연극 4 2/4
전화번호 double neuf douze 참호 -deux 참호 참호 99 12 32 30 30
deux douze 참호 -deux 참호 참호 02 12 32 30 30
통화 값 deux 달러 vingt 2,20 $
cinq euro등 soixante 5,60유로
퀘이츠버레 퀘트브링트 드 유로 4,80만 유로
이메일, URL, IP a b 지점 s d 지점 trois arobase g 메일 지점 com ab3.sdd.3@gmail.com
W w w w w 포인트 웹 포인트 c o 포인트 f r www.web.co.fr
이중 중성 도트 트렌치 -deux 도트 트렌치 도트 트렌치 99.32.30.30
측도 4-드밀-드밀-드루-센트-신칸테-노이프-세르 42 259/m²
데두 센트 200km
시퀀스 문서 번호가 기록되어 있는 zéro deux 트렌치-6개의 vingt-quatre le 문서 numéro 023624
r t x dix-huit t i rtx18ti

프랑스어 - 캐나다어

  • 날짜에서 서수 premier 는 월의 1st 로 간주됩니다. 날짜는 DD/MM/YYYY 으로 형식화됩니다.
  • 시간은 키워드 및 접두부 (예: heures, de l'après-midi 또는 du soir, du matin, midi) 로 식별됩니다. 시간은 24H 시계로 형식화됩니다. HH h MM
  • 전화번호는 911 또는 10자리 숫자를 포함하거나 [+]1 로 시작하는 번호여야 합니다.
  • 공통 형식의 인터넷 이메일 주소 (예: [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) 스마트 형식입니다. @arobase, chez, at, à 중 하나로 표시될 수 있습니다.
  • 9보다 작은 카디널은 다른 텍스트의 중간에 있는 경우 변환되지 않습니다( j'ai un pomme-> j'ai 1 pomme 및 기타 이상한 변환을 피하기 위해). 다른 텍스트 없이 분리되어 발생하는 경우에도 여전히 형식화됩니다.
  • 분수의 형식화가 지원됩니다. 예:un onzième- > 1/11
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 말/지시된 구두점 기호를 대체합니다.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-) 등

프랑스어-캐나다어를 위한 스마트 서식 지정 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 필사본은 프랑스계 캐나다인의 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 두번의 유유로 나무를 자를 수 있는 극소의 대들보 2013년 7월 24일
디x-huit mai 디x-neuf 센트 트렌치 18/5/1930
시간 마주석의 허트 8시간
온즈는 신부들을 후회한다. 11시간 57
두 번의 두 번의 히스치 14시간
숫자 4센트 4센트 동전과 5센트 동전, 5센트 동전 147451
moins vingt-cinq-mille-트렌치-sept 25037
제어 23es
극과 극을 연상시키는 연극 4 2/4
전화번호 +un-cinq un-quatre cinq cinq cinq un deux trois qu대극장 +1 (514) 555-1234
6개의 극장이 있다. 02 12 32 30 30
통화 값 deux 달러 vingt 2,20 $
Vingt 달러 cinq 20 ,05 $
퀘이츠버레 퀘트브링트 드 유로 4,80만 유로
이메일, URL, IP a b 지점 s d 지점 trois arobase g 메일 지점 com ab3.sdd.3@gmail.com
W w w w w 포인트 웹 포인트 c o 포인트 f r www.web.co.fr
이중 중성 도트 트렌치 -deux 도트 트렌치 도트 트렌치 (514) 469-210] 에 개시되어 있다.
측도 4-드밀-드밀-드루-센트-신칸테-노이프-세르 42 259/m²
데두 센트 200km
시퀀스 문서 번호가 기록되어 있는 zéro deux 트렌치-6개의 vingt-quatre le 문서 numéro 023624
r t x dix-huit t i rtx18ti

스페인어

  • 날짜에서 서수 primero 는 1st 간주됩니다. 날짜는 DD/MM/YYYY 으로 형식화됩니다.
  • 시간 또는 접미사 a.m 또는 p.m 나타냄)가 붙지 않은 시간 converted.e.g las dos pe eme. 시간은 24H 형식으로 표시됩니다: HH h MM 또는 a.m./p.m 표시된 12H
  • 전화 번호에는 8, 9또는 10자리숫자가 있어야 합니다. 숫자는 NNNN NNNN 또는 NNN NNN NNN 또는 NNN NNN NNNN 로 형식화됩니다.
  • 일반적인 형식의 인터넷 이메일 주소(예: [alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname )는 스마트 형식입니다.
  • 9보다 작은 카디널은 다른 텍스트의 중간에 있는 경우 변환되지 않습니다( un gato en el camino-> 1 gato en el camino 및 기타 이상한 변환을 피하기 위해). 다른 텍스트 없이 분리되어 발생하는 경우에도 여전히 형식화됩니다.
  • 분수 형식화가 지원됩니다. For example, un décimo-> 1/10
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
    • punto ( . ), interrogación ( ? ), exclamación ( ! ), punto y coma ( ; ), guion medio ( - ), 등.

스페인어에 대한 스마트 서식 지정 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 스페인어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 밀레 노세엔토스 노벤타도 1992년 12월 31 일
디세시세베아 디세베헤르 밀 디세코초 2018년 9월 16일
시간 라스디세이스씨젠타 라스16 :50
라스는 에임을 하다. las 2:00 a.m.
숫자 밀 (mil) 노세센토스 신쿠엔타 (cincuenta) y 오초 1958
1밀 (mil) novecientos cincuenta y ocho 11958
데시마 프리메라 11i
쿠아렌티누나보 1/41
전화번호 누에브 누에오 쿠아트로 신코 914 556 8331
쿠아트로 친초 (cinco seis siete ocho) 1234 5678 년
통화 값 dos 유로 noventa 센타보 € 2,90
도세 유로 (ycinco) 센타보 € 12 ,05
Cinco millones de pesos 에게 주먹질을 하다. $9.5 밀론
URL a b c arroba g 메일이 a b c에 대해 펀치함 abc@gmail.abc
doble uve doble uve doble uve punto nvidia punto com www.nvidia.com
측도 tres metros cbicos 3m³
킬로메트로스 패어 호르 2kph
시퀀스 cero dos tres seis dos cuatro 023624
r t x cero do tres w rtx023w

독일어

  • 날짜 형식에는 숫자와 이름이 모두 지원됩니다(예를 들어, zweiterfebruar 과 동일합니다). 날짜는 DD.MM.YYYY 으로 형식화됩니다.
  • 시간은 키워드로 식별됩니다 (예: nach uhr, vor, minuten). 시간은 24시간시계 ( HH:MM:SS) 로 형식화됩니다.
  • 전화번호는 3-4자리 지역 번호와 8자리 번호로 구성되어야 하며, 지역 번호는 0 로 시작해야 합니다. 국가 코드 (+49) 는 선택사항입니다. 국가 코드를 사용하는 경우 지역 번호는 0 로 시작해서는 안 됩니다. 숫자의 형식은 ' +49 [N]NN NNNNNNNN ' 또는 ' 0[N]NN NNNNNNNN' 입니다.
  • 대부분의 통화 기호는 적절한 컨텍스트 (예: dollar, cent, euro, yen) 의 문자열로 대체됩니다.
  • 일반적인 형식(예: [alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname )의 인터넷 이메일 주소가 형식화됩니다.
  • 웹 URL은 짧은 양식과 긴 양식으로 형식화됩니다. 여기에는 프로토콜( http/s ), 서브도메인( www ), 포트( 443, 80 ), 경로( /help/abc )가 포함됩니다
  • 9보다 작은 카디널은 홀수 또는 모호한 변환을 피하기 위해 변환되지 않습니다.
  • 서수와 분수의 서식도 지원됩니다.
  • 대부분의 구두점은 적절한 위치에 나타나는 특수 키워드를 위해 추가됩니다. 스마트 형식화를 사용하는 경우 서비스는 키워드 문자열에 대해 구어 또는 지시된 구두점 기호를 대체합니다.
    • komma (,), punkt (.), fragezeichen (?), ausrufezeichen (!), semikolon (;), bindestrich (-).

독일어에 대한 스마트 서식 지정 예제

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 녹취록은 독일어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
엔티티 유형 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 비에르룬츠완지가스터 줄리 주 24.07.2013
드비젠터 주피터 주바이시 타우스트 지완지그 13.02.2020
시간 비에르룬츠흐르츠위드룬츠완지그 24:22시간
요트 08:07 시간
에인우르 에인분 에인슈네드 01:01:01 Uhr
숫자 -세월호 참사를 조롱하고 있는 -25037 년
요트 하르트 아치존 콤마 818 ,303
Fünfundzwanzigtausdeinhundertelftem 25111 년
드와이즈웨이 에인후트텔 100 /3
전화번호 널 (null) 인 eins eins zwei drei viins zwei drei vier 0411 12341234
+비어네운 비에인은 에인즈 지웨이 비에인즈 지웨이 즈웨이 비에인즈 지웨이 비에어 +49 411 12341234
통화 값 zwei komma널 (null) 널 (null) 널 (null) eins 달러 2,0001 $
즈완드지그 센트 0,22 €
이메일, URL, IP 한 인터넷 사이트에 있는 한 인터넷 사이트에 있는 한 웹 사이트 ab3-sdd-3@gmail.com
h t t t t p doppelpunkt 슬래시 슬래시 w w punkt a b c punkt com 슬래시 a b https://www.abc.com/ab
준엄한 처벌을 받고 있는 장음들의 펀트들이다. 35.135.24.24
측도 Zwei 킬로미터의 프로스턴트 스턴트 연기 2km
비에르하르트 비에르지그 밀리리터 440ml
시퀀스 그는 " 나는 내가 하는 일을 하지 않을 것이다. cb43-535242.435
테일열거머 teilenummer ft-12p

스마트 형식화 V2 예제

다음 예제에서는 smart_formatting 매개변수를 true로 설정하여 인식 요청에 대한 스마트 형식화를 요청합니다. 다음 섹션에서는 스마트 형식화가 요청의 결과에 미치는 영향을 보여줍니다.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

스마트 형식화

스마트 형식화 기능은 미국 영어, 일본어 및 스페인어(모든 통용어)에 대해 사용할 수 있는 베타 기능입니다. 또한 미국 영어 음성이 인식되는 경우, en-WW_Medical_Telephony 모델에서도 사용할 수 있습니다.

smart_formatting 매개변수는 다음 문자열을 더 일반적인 표시로 변환하도록 서비스에 지시합니다.

  • 날짜
  • 시간
  • 일련의 숫자 및 번호
  • 전화번호
  • 통화 값(미국 영어 및 스페인어의 경우)
  • 인터넷 이메일 및 웹 주소(미국 영어 및 스페인어의 경우)

스마트 형식화를 사용으로 설정하려면 smart_formatting 매개변수를 true로 설정합니다. 기본적으로 이 서비스는 스마트 형식화를 수행하지 않습니다. 서비스는 텍스트 정규화가 완료되면 최종 결과를 클라이언트로 리턴하기 바로 전에 스마트 형식화를 적용합니다. 텍스트 변환을 통해 텍스트 변환 내용을 더 쉽게 읽을 수 있고 일반적으로 기록된 대로 이러한 아티팩트를 표현함으로써 텍스트 변환 결과의 사후 처리를 더 효과적으로 승격시킬 수 있습니다.

스마트 형식화가 결과에 미치는 영향

스마트 형식화는 일부 텍스트 변환 결과에 영향을 주고 다른 결과에는 영향을 주지 않습니다.

  • 스마트 형식화는 최종 결과의 transcript 필드에 있는 단어에만 적용되고 해당 결과는 final 필드가 true인 결과입니다. 이는 finalfalse인 중간 결과에는 영향을 주지 않습니다.

  • 스마트 형식화는 응답의 다른 필드에 있는 단어에는 영향을 주지 않습니다. 예를 들어 스마트 형식화는 timestamps 또는 alternatives 필드에 있는 응답 단어에는 적용되지 않습니다.

  • "음"과 "어"와 같은 말의 멈춤 현상은 일부 언어의 스마트 서식 기능에 의해 구문과 문자열의 변환에 부정적인 영향을 미칠 수 있습니다. 이전 세대 모델은 트랜스크립트에서 이러한 망설임을 대체하기 위해 망설임 마커를 생성합니다. 스마트 형식화는 이전 세대 모델의 망설임 마커에 다음과 같은 영향을 미칩니다.

    • 미국 영어의 경우, 스마트 형식화는 최종 결과를 위해 transcript 필드에서 망설임 표지를 억제합니다.
    • 일본어의 경우, 망설임 표지는 최종 결과에도 표시됩니다.
    • 미국 영어와 일본어의 경우, 망설임 표지는 중간 결과에도 표시됩니다.
    • 스페인어의 경우, 서비스는 모든 결과에 대해 망설임 표지를 생성하지 않습니다.

    차세대 모델은 망설임 표지를 생성하지 않습니다. 대신에, 그들은 실제적인 망설임을 전사 결과에 포함시킨다. 스마트 형식화는 차세대 모델에 포함되는 망설임에 영향을 주지 않습니다. 자세한 정보는 음성 망설임 및 망설임 마커 를 참조하십시오.

언어 차이점

스마트 형식화는 음성 내용에 명백한 키워드가 존재하는지를 기반으로 합니다. 지원되는 언어 간의 차이로 인해 스마트 형식화는 각 언어에 대해 약간 다르게 작동합니다. 다음 절에서는 미국 영어 및 스페인어, 일본어의 스마트 형식화 변경을 트리거하는 문자열 및 컨텐츠에 대해 설명합니다.

미국 영어 및 스페인어

  • 시간은 AM, PM 또는 EST와 같은 키워드로 식별됩니다.

  • 군용 시간은 키워드 hours(미국 영어) 또는 horas(스페인어)로 식별되는 경우 변환됩니다.

  • 전화번호는 911이거나, 10 또는 11숫자를 포함하고 숫자 1로 시작하는 수여야 합니다.

  • 통화 기호는 적절한 컨텍스트에서 다음 문자열에 대해 대체됩니다.

    • 미국 영어의 경우 달러, 센트 및 유로입니다.
    • *스페인어의 경우 * 돌라르, 페소, 페세타, 파운드, 리브라 및 유로입니다.
  • 인터넷 이메일 주소는 일부 경우에 변환됩니다. 특히 서비스는 입력 오디오에서 email address ... {address} 구문을 사용하는 경우 이메일 주소를 변환합니다. 다음 예제에서는 구어 구문의 올바른 변환을 보여줍니다.

    • My email address is j dot d o e at i b m dot comMy email address is j.doe@ibm.com이 됩니다.
    • Mi correo electronico es j punto d o e arroba i b m punto comMi correo electronico es j.doe@ibm.com이 됩니다.
  • 간략한 양식의 인터넷 웹 주소는 변환됩니다. 완전한 웹 주소는 변환되지 않습니다. 다음 예제는 완전한 변환을 표시합니다.

    • I saw the story on yahoo dot comI saw the story on yahoo.com이 됩니다.
    • Vi la historia en yahoo punto comVi la historia en yahoo.com이 됩니다.

    다음 예제는 불완전 변환을 표시합니다.

    • I saw the story on w w w dot yahoo dot comI saw the story on w w w .yahoo.com이 됩니다.
    • Vi la historia en w w w punto yahoo punto comVi la historia en w w w .yahoo.com이 됩니다.
  • 큰 수와 통합 값 변환은 어려울 수 있습니다. 서비스는 숫자와 큰 수도 변환합니다. 그러나 더 크고 복잡한 수와 통화 값은 더 정확한 구문에서 가장 잘 작동합니다. 예를 들어 서비스는 정확한 표현으로 인해 다음 텍스트 변환 내용을 올바르게 변환합니다.

    • sixty nine thousand five hundred sixty dollars and twenty five cents$69560.25가 됩니다.
    • sixty nine thousand five hundred sixty dollars point twenty five$69560.25이 됩니다.

    그러나 느슨한 구문 표현으로 인해 서비스는 다음 텍스트 변환 내용을 올바르게 변환할 수 없습니다.

    • sixty nine thousand five sixty dollars and twenty five cents60 9000 $560.25이 됩니다.
    • sixty nine thousand five sixty dollars point twenty five60 9000 $560.25이 됩니다.

    좀 더 다양한 복합 수를 올바르게 변환하려면 스마트 형식화의 결과로 실험하고 자체 사후 처리 유틸리티를 사용자 정의해야 합니다.

  • 미국 영어의 경우, 적절한 위치에서 발생하는 특수 키워드에 대해 특정 구두점 기호가 추가됩니다. 스마트 형식화를 사용하는 경우, 서비스는 변환 내용에서 다음 키워드 문자열을 문자열이 발견된 위치에 따라 구두점 기호로 대체합니다.

    • Comma (,)
    • Period (.)
    • Question mark (?)
    • Exclamation point (!)

    이 서비스는 이러한 키워드 문자열을 성적표의 적절한 위치에서만 기호로 변환합니다. 다음 예에서, 화자는 문장의 끝에 period(이)라는 단어를 말합니다.

    • the warranty period is short period이(가) the warranty period is short.이(가) 됨

    서비스는 문장에서 앞에 표시되는 명사와 마침표 사이를 정확하게 구분합니다.

일본어

  • 전화번호는 10자리 또는 11자리여야 하며 일본의 전화번호에 유효한 접두부로 시작해야 합니다. 예를 들어, 유효한 접두부에는 03090이 있습니다.

  • 영어 단어는 ASCII(hankaku) 문자로 변환됩니다. 예를 들어, IBMIBM 로 변환됩니다.

  • 충분한 컨텍스트가 사용 불가능한 경우 모호한 용어가 변환되지 않을 수 있습니다. 예를 들어, " 一時 "와 " 十分 "가 시간을 가리키는 것인지 확실하지 않습니다.

  • 문장 부호는 스마트 형식화를 수행하는지 여부와 관계없이 동일하게 처리됩니다. 예를 들어, 확률 계산에 기초하여, カンマ 또는 , 중 하나가 선택됩니다.

  • 엔 값을 설명하는 문자열은 엔 통화 기호로 대체되지 않습니다.

  • 모든 양식에서 인터넷 이메일과 웹 주소는 변환되지 않습니다.

  • 일본어 협대역 모델(ja-JP_NarrowbandModel)에는 숫자 및 소수 부분에 대한 멀티그램 단어 단위가 포함됩니다. 서비스는 사용자가 스마트 형식화를 사용으로 설정했는지에 관계없이 이러한 멀티그램 단위를 리턴합니다. 다음 예제는 서비스가 리턴하는 단위를 표시합니다. 괄호 안에 있는 수는 각 단위에 대해 동일한 아랍어 숫자 표현식을 표시합니다.

    • 숫자: 〇一 (01), ..., 〇九 (09), 一〇 (10), ..., 九〇 (90)
    • 10진수분수: 〇・ (0.), 一・ (1.), ..., 十・ (10.)

    스마트 형식화 기능은 모델에서 생성하는 멀티그램 단위를 이해하고 리턴합니다. 자체 사후 처리를 텍스트 변환 결과에 적용하는 경우, 이러한 단위를 적절히 처리해야 합니다.

스마트 형식화 결과

다음 표에서는 스마트 형식화를 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다. 음성 내용은 미국 영어 오디오를 기반으로 합니다.

스마트 서식 예시 스크립트
정보 스마트 형식화를 사용하지 않는 경우 스마트 형식화를 사용하는 경우
날짜 I was born on ten oh six nineteen seventy I was born on 10/6/1970
I was born on the ninth of December nineteen hundred I was born on 12/9/1900
Today is June sixth Today is June 6
시간 The meeting starts at nine thirty AM The meeting starts at 9:30 AM
I am available at seven EST I am available at 7:00 EST
We meet at oh seven hundred hours We meet at 0700 hours
숫자 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
전화번호 Call me at nine one four two three seven one thousand Call me at 914-237-1000
Call me at one nine one four nine oh nine twenty six forty five Call me at 1-914-909-2645
통화 값 You owe me three thousand two hundred two dollars and sixty six You owe me $3202.66
The dollar rose to one hundred and nine point seven nine yen from one hundred and nine point seven two yen The dollar rose to 109.79 yen from 109.72 yen
인터넷 이메일 및 웹 주소 My email address is john dot doe at foo dot com My email address is john.doe@foo.com
I saw the story on yahoo dot com I saw the story on yahoo.com
조합 The code is zero two four eight one and the date of service is May fifth two thousand and one The code is 02481 and the date of service is 5/5/2001
There are forty seven links on Yahoo dot com now There are 47 links on Yahoo.com now

긴 일시정지에 대한 스마트 형식화 결과

발화에 충분히 긴 일시정지가 포함되어 있는 경우에는 서비스가 텍스트 변환 내용을 두 개 이상의 최종 결과로 분할할 수 있습니다. 다음 예에서 볼 수 있듯이, 이것은 응답 내용에 영향을 미칩니다.

긴 멈춤을 위한 스마트 서식 예시
오디오 음성 형식화된 변환 결과
My phone number is nine one four five five seven three three nine two "My phone number is 914-557-3392"
My phone number is nine one four ...휴지... five five seven three three nine two "My phone number is 914"
"5573392"

서비스의 응답에 영향을 주는 일시정지 간격의 지정에 대한 자세한 정보는 구문 종료 무음 시간을 참조하십시오.

스마트 형식화 예제

다음 예제에서는 smart_formatting 매개변수를 true로 설정하여 인식 요청에 대한 스마트 형식화를 요청합니다. 다음 섹션에서는 스마트 형식화가 요청의 결과에 미치는 영향을 보여줍니다.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

숫자 교정

숫자 교정 기능은 미국 영어, 일본어 및 한국어에 사용할 수 있는 베타 기능입니다.

redaction 매개변수는 최종 음성 내용에서 숫자 데이터를 교정하거나 마스킹하도록 서비스에 지시합니다. 이 기능은 각 숫자를 X 문자로 대체하여 세 개 이상의 연속 숫자가 포함된 번호를 교정합니다. 이 기능은 신용카드 번호와 같은 민감한 숫자 데이터를 교정하기 위한 것입니다.

기본적으로 이 서비스는 숫자 데이터를 교정하지 않습니다. 숫자 교정을 사용으로 설정하려면 redaction 매개변수를 true로 설정하십시오. 검열 삭제를 사용으로 설정하면 서비스가 자동으로 smart_formatting 매개변수를 true(으)로 설정하여 스마트 형식화를 사용으로 설정하며, 이는 사용자가 이 기능을 명시적으로 사용 안함으로 설정한 경우에도 해당됩니다. 보안을 최대한으로 보장하기 위해, 검열 삭제를 사용으로 설정하는 경우 서비스는 다음 매개변수 또한 사용 안함으로 설정합니다.

  • 이 서비스는 keywordskeywords_threshold 매개변수에 대한 값을 지정하는지 여부와 관계없이 키워드 발견을 사용 안함으로 설정합니다.
  • 서비스는 max_alternatives 매개변수에 1보다 큰 값이 지정되었는지에 관계없이 최대 대안 수를 사용 안함으로 설정합니다. 서비스는 단일 최종 변환 내용만 리턴합니다.
  • 서비스는 interim_results 매개변수가 true(으) 설정되었는지에 관계없이 WebSocket 인터페이스에 대해 중간 결과를 사용 안함으로 설정합니다.

이 기능의 디자인은 기존의 스마트 형식화 기능과 유사합니다. 이 서비스는 클라이언트에 결과를 리턴하기 직전 및 텍스트 정규화가 완료된 후 인식 요청의 최종 음성 내용에만 교정을 적용합니다.

언어 차이점

이 기능은 미국 영어 모델에 대해 설명된 대로 정확히 작동하지만 일본어 및 한국어 모델에는 다음과 같은 차이점이 있습니다.

일본어

일본어 교정에는 다음과 같은 차이점이 있습니다.

  • 교정은 3자리 이상의 연속 숫자가 있는 문자열을 마스킹하는 것 이외에 3자리 미만의 숫자를 포함하는지 여부에 관계없이 주소 및 숫자를 마스킹합니다.

  • 마찬가지로 교정은 일본식 생년월일의 날짜 정보를 마스킹합니다. 일본어에서는 날짜 정보가 주로 서력 기원 형식으로 표시되지만 특히 생년월일의 경우 때때로 일본식을 따르기도 합니다. 이 경우, 연도 및 월은 하나 또는 두 자리 숫자를 포함하는 경우에도 마스킹됩니다.

    예를 들어, 교정이 없는 일본어 스타일의 생년월일은 平成 30年 2月 입니다. 교정을 사용하면 날짜가 平成 XX年 X月 가 됩니다.

한국어

한국어 교정에는 다음과 같은 차이점이 있습니다.

  • 스마트 형식화 기능이 지원되지 않습니다. 이 서비스는 한국어에 대해서도 숫자 교정을 수행하지만 다른 스마트 형식화는 수행하지 않습니다.

  • 격리된 숫자 문자는 축소되지만 한국어 구문의 일부로 포함될 수 있는 격리된 숫자 문자는 그렇지 않습니다. 예를 들어, 다음 문장에서 ' '라는 문자는 ' X '로 대체되지 않습니다. 그 이유는 다음 문자와 인접해 있기 때문입니다

    이입니다

    문자가 다음 문자와 공백으로 구분되어 있는 경우, 숫자 편집 결과 에서 설명한 대로 X 로 대체됩니다.

숫자 교정 결과

다음 표에서는 지원되는 각 언어에서 숫자 교정을 적용하거나 적용하지 않은 최종 음성 내용의 예제를 보여줍니다.

숫자 편집 예시 스크립트
언어 검열 삭제를 사용하지 않는 경우 검열 삭제를 사용하는 경우
미국 영어 my credit card number is four one four seven two my credit card number is XXXXX
일본어 ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ' ■ ' 한-중-한-중-한-중-한-중 - - 한-중-한-중-한-중-한-중 -
한국어
  • (1)-(1)-(1)-(1))-(1)-(1)
■ ' HX- X- X- X- X- X--X-

숫자 교정 예제

다음 예제에서는 redaction 매개변수를 true로 설정하여 인식 요청에 대한 숫자 교정을 요청합니다. 이 요청은 교정을 사용하므로 이 서비스가 내재적으로 요청에 스마트 형식화를 사용합니다. 이 서비스는 요청의 다른 매개변수를 효과적으로 사용 안함으로 설정하므로 이러한 매개변수는 적용되지 않습니다. 이 서비스는 단일 최종 음성 내용을 리턴하고 키워드를 인식하지 않습니다.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

욕설 필터링

비속어 필터링 기능은 미국 영어 및 일본어에 대해서만 GA(General Availability)되어 있습니다.

profanity_filter 매개변수는 서비스가 결과에서 욕설을 검열할지 여부를 표시합니다. 기본적으로 이 서비스는 음성 내용에서 욕설을 일련의 별표로 대체하여 모든 욕설을 숨깁니다. 이 매개변수를 false로 설정하면 단어가 정확히 기록된 대로 출력에 표시됩니다.

이 서비스는 모든 최종 음성 내용 및 대체 음성 내용에서 욕설을 검열합니다. 또한 단어 대체, 단어 신뢰도 및 단어 시간소인과 연관된 결과에서 욕설을 검열합니다. 유일한 예외는 키워드 발견입니다. 이 기능의 경우 profanity_filtertrue인지 여부에 관계없이 서비스가 모든 단어를 사용자가 지정한 대로 리턴합니다.

욕설 필터링 예제

다음 예제는 true 매개변수가 기본값인 profanity_filter 값으로 설정된 상태로 텍스트로 변환된 간단한 오디오 파일에 대한 결과를 보여줍니다. 또한 이 요청은 word_alternatives_threshold 매개변수를 비교적 높은 값인 0.99로 설정하고 word_confidencetimestamps 매개변수를 true로 설정합니다.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

서비스는 응답에 포함된 비속어를 일련의 별표로 대체하여 가립니다.

{
  "result_index": 0,
  "results": [
    {
      "word_alternatives": [
        {
          "start_time": 0.03,
          "alternatives": [
            {
              "confidence": 1.0,
              "word": "****"
            }
          ],
          "end_time": 0.25
        },
        {
          "start_time": 0.25,
          "alternatives": [
            {
              "confidence": 0.99,
              "word": "you"
            }
          ],
          "end_time": 0.56
        }
      ],
      "alternatives": [
        {
          "transcript": "**** you",
          "confidence": 0.99,
          "word_confidence": [
            ["****", 1.0],
            ["you", 0.99]
          ],
          "timestamps": [
            ["****", 0.03, 0.25],
            ["you", 0.25, 0.56]
          ]
        }
      ],
      "final": true
    }
  ]
}