SSML 요소

IBM Watson® Text to Speech 서비스를 사용하면 대부분의 SSML(Speech Synthesis Markup Language) 요소 및 속성을 사용하여 텍스트의 합성을 제어할 수 있습니다.

지원되는 요소 및 속성

표 1에는 SSML 요소 및 속성에 대한 서비스 지원이 요약되어 있습니다.

전체는 서비스가 HTTP 및 WebSocket 인터페이스를 사용하여 요소 또는 속성을 완전히 지원함을 의미합니다.
부분적이란 요소 또는 속성에 대한 서비스의 지원이 다음 중 한 가지 방식으로 제한됨을 의미합니다:
- 이 서비스는 요소 또는 속성의 일부 측면만 지원합니다.
- 서비스는 해당 요소 또는 속성의 일부 음성만 지원합니다.
- 이 서비스는 HTTP 또는 WebSocket 인터페이스 중 하나만 사용하여 요소 또는 속성을 지원합니다.
없음은 서비스가 요소 또는 속성을 지원하지 않음을 의미합니다.

다음 절에서는 예제, 제한사항, 서비스 지원이 표준 SSML과 다른지 여부를 포함한 각 요소 또는 속성에 관한 설명을 제공합니다. 일부 속성 및 값에 대한 지원은 SSML 스펙과는 약간 다릅니다. 자세한 내용은 W3C 음성 합성 마크업 언어(SSML)버전 1.1 을 참조하세요.

SSML 요소 및 속성
요소 또는 속성	지원	요소 또는 속성	지원
`<audio>` 요소	없음	`<prosody>` 요소	부분
`<break>` 요소	전체	contour 속성	없음
`<desc>` 요소	없음	duration 속성	없음
`<emphasis>` 요소	부분	pitch 속성	전체
`<express-as>` 요소	부분	range 속성	없음
`<lexicon>` 요소	없음	rate 속성	전체
`<mark>` 요소	부분	volume 속성	없음
`<meta>` 요소	없음	`<say-as>` 요소	부분
`<metadata>` 요소	없음	interpret-as 속성	부분
`<paragraph>` 요소	전체	`<sentence>` 요소	전체
`<phoneme>` 요소	전체	`<speak>` 요소	전체
		`<sub>` 요소	전체
		`<voice>` 요소	없음

`<audio>` 요소

이 <audio> 요소는 기록된 요소를 서비스 생성 오디오에 삽입합니다. 지원되지 않습니다.

`<break>` 요소

<break> 요소는 음성 텍스트에 일시정지를 삽입합니다. 여기에는 다음과 같은 선택적인 속성이 있습니다.

strength는 다양한 수준 값으로 일시정지의 시간을 지정합니다.
- none 처리 중에 생성될 수 있는 중단을 억제합니다.
- x-weak, weak, medium, strong 또는 x-strong은 더욱 강력한 중단을 삽입합니다.
time은 초 또는 밀리초로 일시중단의 시간을 지정합니다. 올바른 값 형식은 {integer}s(초) 또는 {integer}ms(밀리초)입니다.

Break size <break strength="none"/> no pause
Break size <break strength="x-weak"/> x-weak pause
Break size <break strength="weak"/> weak pause
Break size <break strength="medium"/> medium pause
Break size <break strength="strong"/> strong pause
Break size <break strength="x-strong"/> x-strong pause
Break size <break time="1s"/> one-second pause
Break size <break time="1500ms"/> 1500-millisecond pause

<break> 요소는 자연스러운 음성을 위한 베타 기능입니다.

`<desc>` 요소

<desc> 요소는 <audio> 요소 내에서만 발생할 수 있습니다. <audio> 요소가 지원되지 않으므로, 둘 다 <desc> 요소가 아닙니다.

`<emphasis>` 요소

<emphasis> 요소는 표현형 뉴럴 보이스에만 사용할 수 있도록 지원됩니다.

표현형 신경 음성을 사용하면 <emphasis> 요소를 사용하여 입력 텍스트의 하나 이상의 단어를 강조하거나 강조하지 않을 수 있습니다. 이 요소는 다음 값 중 하나를 허용하는 선택적 level 속성을 지원합니다:

none- Prevents the service from emphasizing text that might otherwise be emphasized.
moderate- Provides a noticeable amount of emphasis to the text. level 속성을 생략하는 경우 이 수준이 기본값입니다.
strong- Provides a more significant amount of emphasis to the text than the moderate level provides.
reduced- De-emphasizes the text by tending to reduce its significance in the audio. 이 수준은 텍스트를 강조하는 것과 반대입니다.

다음 예는 moderate 단어에 give 레벨을 적용하는 예입니다:

I am going to <emphasis level="moderate">give</emphasis> her the book.

자세한 내용은 단어 강조하기를 참조하세요.

`<express-as>` 요소

<express-as> 요소는 Text to Speech 서비스 전용 SSML 확장자입니다. 표현형 뉴럴 보이스로만 사용하도록 지원됩니다.

표현 신경 음성을 사용하면 <express-as> 요소를 사용하여 말하기 스타일을 적용하여 입력 텍스트의 전체 또는 일부에 대해 특정 특성을 강조하는 서비스를 강화할 수 있습니다. 이 요소는 다음 말하기 스타일 중 하나를 허용하는 필수 style 속성을 지원합니다:

cheerful- Expresses happiness and good news.
empathetic- Expresses empathy and compassion.
neutral- Expresses objectivity and evenness.
uncertain- Expresses confusion and uncertainty.

다음 예는 전체 입력 텍스트에 cheerful 스타일을 적용하는 예제입니다:

<express-as style="cheerful">Oh, that's good news! I'm glad that we could help.</express-as>

자세한 내용은 말하기 스타일 사용을 참조하세요.

`<lexicon>` 요소

이 <lexicon> 요소는 지정된 SSML 문서의 발음 사전을 소개합니다. 지원되지 않습니다.

서비스의 사용자 정의 인터페이스를 사용하여 음성 합성 중에 사용할 사용자 정의 항목(단어/변환 쌍)의 사전을 정의할 수 있습니다. 자세한 정보는 사용자 정의 이해를 참조하십시오.

`` 요소

 요소는 해당 요소를 무시하는 HTTP 인터페이스가 아닌 서비스의 WebSocket 인터페이스에서만 지원됩니다. 자세한 정보는 SSML 표시 지정을 참조하십시오.

 요소는 자연스러운 음성에는 지원되지 않습니다.

 요소는 합성할 텍스트에 마커를 배치하는 비어 있는 요소입니다.  요소 앞에 있는 모든 텍스트가 합성되었을 때 클라이언트에게 알립니다. 요소는 고유하게 마크를 식별하는 문자열을 지정하는 단일 name 속성을 허용하며, 이름은 영문자로 시작되어야 합니다. 이름은 표시가 합성된 오디오에서 발생하는 시간과 함께 리턴됩니다.

Hello <mark name="here"/> world.

`<meta>` 및 `<metadata>` 요소

<meta> 및 <metadata> 요소는 문서에 관한 정보를 배치할 수 있는 컨테이너입니다. 이는 지원되지 않습니다.

`<paragraph>` 및 `<sentence>` 요소

<paragraph>(또는 ) 및 <sentence>(또는 <s>) 요소는 텍스트 구조에 관한 힌트를 제공하는 데 사용할 수 있는 선택적 요소입니다. <paragraph> 또는 <sentence> 요소 내에 있는 텍스트가 문장 끝의 구두점 문자(예: 마침표)로 끝나지 않는 경우 서비스는 합성된 오디오에 평소보다 더 긴 일시정지를 추가합니다.

요소 중 하나에 대한 유일한 유효 속성은 xml:lang이며, 언어를 변경하는 데 사용할 수 있습니다. 속성은 지원되지 않습니다.

<paragraph>
  <sentence>Text within a sentence element.</sentence>
  <s>More text in another sentence.</s>
</paragraph>

`<phoneme>` 요소

<phoneme> 요소는 포함된 텍스트의 음성 발음을 제공합니다. 음성 철자는 단어의 소리, 소리가 음절로 구분되는 방식 및 강세가 표시되는 음절을 나타냅니다. 요소에는 두 가지 속성이 있습니다.

alphabet은 사용될 음운 체계를 지정하는 선택적인 속성입니다. 지원되는 알파벳은 다음과 같습니다.
- 표준 IPA(International Phonetic Alphabet): alphabet="ipa".
- IBM SPR(Symbolic Phonetic Representation): alphabet="ibm".
알파벳이 지정되지 않으면 서비스는 기본적으로 IBM SPR을 사용합니다. 자세한 내용은 음성 기호 이해하기를 참조하세요.
ph는 표시된 알파벳으로 발음을 제공하는 필수 속성입니다. 다음 예에서는 두 가지 형식으로 tomato 단어의 발음을 보여줍니다.
- IPA 형식:
```
<phoneme alphabet="ipa" ph="təˈmeɪ.ɾoʊ">tomato</phoneme>
```
- 유니코드 기호가 포함된 IPA 형식:
```
<phoneme alphabet="ipa" ph="t&#x0259;&#x02C8;me&#x026A;.&#x027E;o&#x028A;">tomato</phoneme>
```
- IBM SPR 형식:
```
<phoneme alphabet="ibm" ph=".0tx.1me.0Fo">tomato</phoneme>
```

<phoneme> 요소와 함께 SPR 및 IPA 표기법을 사용하는 방법에 관한 자세한 정보는 음성 기호 이해를 참조하십시오.

`<prosody>` 요소

<prosody> 요소는 텍스트의 음높이 및 말하기 속도를 제어합니다. 모든 속성은 선택적이지만, 요소와 함께 하나 이상의 속성을 지정하지 않으면 오류가 발생합니다.

이 서비스는 SSML 스펙의 다음 두 가지 속성을 지원합니다.

pitch 속성
rate 속성

또한 SSML 스펙은 서비스가 지원하지 않는 네 가지 속성을 제공합니다.

contour 속성
range 속성
duration 속성
volume 속성

이 서비스는 음성 합성 요청의 모든 텍스트에 대해 속도와 높낮이를 조정할 수 있는 쿼리 매개변수도 지원합니다. 매개 변수와 <prosody> 요소의 pitch 및 rate 속성과의 상호 작용에 대한 자세한 내용은 다음을 참조하세요

<prosody> 요소는 자연스러운 음성에는 지원되지 않습니다.

SSML 버전 1.1 사양과의 차이점

Text to Speech 서비스는 W3C 음성 합성 마크업 언어(SSML)버전 1.1 기반으로 SSML을 지원합니다. 그러나 서비스가 처음 출시된 이후 SSML 사양은 계속 발전해 왔습니다. 사용자를 위한 이전 버전과의 호환성을 유지하기 위해 최신 SSML 사양과 다른 <prosody> 요소의 일부 기능을 계속 지원합니다.

- pitch 속성의 경우* 이 서비스는 다음과 같은 추가 기능을 지원합니다:
- 부호 또는 부호가 없는 숫자와 % (퍼센트 기호)로 표시된 상대적 변화율입니다. 음성의 기본 피치는 0% 값을 전달하는 것과 같습니다.
- 부호 또는 부호 없는 숫자로 표시되고 그 뒤에 st 문자열이 오는 상대적인 반음 변화입니다.
- rate 속성의 경우* 이 서비스는 다음과 같은 추가 기능을 지원합니다:
- 부호 또는 부호가 없는 숫자와 % (퍼센트 기호)로 표시된 상대적 변화율입니다. 음성의 기본 말하기 속도는 0% 값을 전달하는 것과 같습니다.
- 단위 지정이 없는 숫자는 분당 단어 수를 지정합니다. 이 숫자는 절대값이며 분당 단어 수에 대한 상대적인 증가 또는 감소를 지정할 수 없습니다.
표현형 뉴럴 보이스의 경우 pitch 및 rate 속성은 백분율 값만 지원합니다.
- pitch 속성의 경우 헤르츠, 반음 또는 키워드를 사용하지 마세요.
- rate 속성의 경우 분당 단어 수 또는 키워드를 사용하지 마세요.

SSML 1.1 지원하는 기능에 대한 자세한 내용은 SSML 사양의 3.2.4 prosody Element 참조하세요.

`pitch` 속성

pitch 속성은 요소 내 텍스트의 기준 피치 또는 톤을 수정합니다. 허용되는 값은 다음과 같습니다.

뒤에 Hz(헤르츠)가 지정된 숫자: 기준선 음높이가 지정된 값까지 전치(위 또는 아래)됩니다. 예: 150Hz.
백분율 단위의 상대적 변화입니다: 기본 기준선에서 상대적인 변화를 일으키는 수치입니다. 숫자 앞에는 + (증가) 또는 - (감소)가 오고 그 뒤에는 % (퍼센트 기호)가 옵니다. 뒤에 % 붙은 부호 없는 숫자는 양수 증가로 해석됩니다. 예를 들어, +10% 또는 10%. 음성의 기본 피치는 0% 값을 전달하는 것과 같습니다.
반음의 상대적인 변화입니다: 기본 기준선에서 절대적인 변화를 일으키는 숫자. 숫자는 +(증가) 또는 -(감소) 뒤에 오고 st(반음) 앞에 옵니다. 부호가 없는 숫자 뒤에 st 붙으면 양수 증가로 해석됩니다. 예를 들어, +5st 또는 5st.
키워드: 다음 여섯 개의 키워드 중 하나는 해당 사전 정의된 값으로 음높이를 수정합니다.
- default: 서비스의 기본 기준선 음높이를 사용합니다.
- x-low: 12 반음까지 음높이 기준선을 하향 이동합니다.
- low: 6 반음까지 음높이 기준선을 하향 이동합니다.
- medium: default과 동일한 동작이 발생합니다.
- high: 6 반음까지 음높이 기준선을 상향 이동합니다.
- x-high: 12 반음까지 음높이 기준선을 상향 이동합니다.

표현형 인공신경망 음성은 pitch 속성에 대한 백분율 값만 지원합니다. 헤르츠, 반음 또는 키워드 사용은 지원하지 않습니다.

애플리케이션에 적합한 값을 결정하는 가장 좋은 방법은 백분율을 기준으로 조정하고 다양한 값으로 실험해 보는 것입니다. 더 큰 수정을 하기 전에 5% 또는 10%씩 점진적으로 변경해 보세요.

<prosody pitch="150Hz">Transpose pitch to 150 Hz</prosody>
<prosody pitch="-20Hz">Lower pitch by 20 Hz from baseline</prosody>
<prosody pitch="+20Hz">Increase pitch by 20 Hz from baseline</prosody>
<prosody pitch="-10%">Decrease pitch by 10 percent</prosody>
<prosody pitch="+10%">Increase pitch by 10 percent</prosody>
<prosody pitch="-12st">Lower pitch by 12 semitones from baseline</prosody>
<prosody pitch="+12st">Increase pitch by 12 semitones from baseline</prosody>
<prosody pitch="x-low">Lower pitch by 12 semitones from baseline</prosody>

`rate` 속성

rate 속성은 요소 내 텍스트에 대한 말하기 속도의 변경사항을 표시합니다. 허용되는 값은 다음과 같습니다.

단위 지정이 없는 숫자입니다: 속도가 분당 지정된 단어 수로 변경됩니다. 예를 들어 50 값은 분당 50단어의 말하기 속도를 나타냅니다. 이 숫자는 절대값이며 분당 단어 수에 대한 상대적인 증가 또는 감소를 지정할 수 없습니다.
백분율 단위의 상대적인 변화입니다: 기본 말하기 속도에서 상대적인 변화를 일으키는 숫자. 숫자 앞에는 + (증가) 또는 - (감소)가 오고 그 뒤에는 % (퍼센트 기호)가 옵니다. 뒤에 % 붙은 부호 없는 숫자는 양수 증가로 해석됩니다. 예를 들어, +10% 또는 10%. 음성의 기본 말하기 속도는 0% 값을 전달하는 것과 같습니다.
키워드: 다음 여섯 가지 키워드 중 하나로, 미리 정의된 해당 값으로 말하기 속도를 수정합니다:
- default 는 서비스의 기본 말하기 속도를 사용합니다.
- x-slow: 속도가 50%까지 감소합니다.
- slow: 속도가 25%까지 감소합니다.
- medium: default과 동일한 동작이 발생합니다.
- fast: 속도가 25%까지 증가합니다.
- x-fast: 속도가 50%까지 증가합니다.

표현형 인공신경망 음성은 rate 속성에 대한 백분율 값만 지원합니다. 분당 단어 수 또는 키워드는 지원하지 않습니다.

<prosody rate="50">Set speaking rate to 50 words per minute</prosody>
<prosody rate="-5%">Decrease speaking rate by 5 percent</prosody>
<prosody rate="+5%">Increase speaking rate by 5 percent</prosody>
<prosody rate="slow">Decrease speaking rate by 25%</prosody>
<prosody rate="fast">Increase speaking rate by 25%</prosody>

`<say-as>` 요소

<say-as> 요소는 요소에 포함된 텍스트 유형에 관한 정보를 제공하고 텍스트를 렌더링하기 위한 세부사항 레벨을 지정합니다.

요소에는 하나의 필수 속성인 interpret-as가 있습니다. 이 속성은 포함된 텍스트가 해석되는 방식을 표시합니다.
요소에는 다음 예제에 표시된 대로 interpret-as 속성의 특정 값에만 사용되는 두 개의 선택적 속성인 format 및 detail가 있습니다.

서비스는 다음 언어로 <say-as> 요소를 지원합니다.

서비스는 미국 영어에 대한 <say-as> 요소를 완전히 지원합니다.
그 외 대부분의 언어에 대해서는 요소의 digits 및 letters 속성만 지원됩니다.
일본어의 경우 digits 속성만 지원됩니다. 이 서비스는 숫자 문자열에 포함된 숫자가 아닌 문자는 무시합니다.

알파벳, 숫자, 영숫자 문자열의 서비스 기본 발음은 언어마다 다르며, 각 언어마다 고유한 규칙이 있습니다. <say-as> 요소를 사용하여 letters 및 digits 요소를 사용하여 문자열을 개별 문자로 발음할지 여부를 포함하여 문자열의 발음 방식을 제어할 수 있습니다.

독일어의 경우 서비스에서 문자를 발음하는 속도를 제어할 수도 있습니다. 자세한 내용은 문자열 철자법 지정하기를 참조하세요.

`interpret-as` 속성

각 값의 interpret-as 속성 및 예제에 대한 허용 가능한 값은 다음과 같습니다. 서비스는 interpret-as 속성에 대한 인수로 다음 값을 지원합니다.

cardinal
date
digits
interjection
letters
number
ordinal
vxml:boolean
vxml:currency
vxml:date
vxml:time
vxml:digits
vxml:phone

`cardinal`

cardinal 값은 요소 내의 기수를 나타냅니다. 다음 예는 Super Bowl forty-nine을 발음합니다. 첫 번째는 서비스의 기본 동작을 변경하지 않으므로 필요하지 않습니다.

Super Bowl <say-as interpret-as="cardinal">49</say-as>
Super Bowl <say-as interpret-as="cardinal">XLIX</say-as>

`date`

date 값은 연관된 format 속성에 지정된 형식에 따라 요소 내의 날짜를 나타냅니다. format 속성은 date 값에 필요합니다. format이 없으면 서비스는 계속해서 날짜의 발음을 시도합니다. 다음 예는 지정된 형식으로 표시된 날짜를 나타냅니다. 여기서, d, m 및 y는 일, 월, 년입니다.

<say-as interpret-as="date" format="mdy">12/17/2005</say-as>
<say-as interpret-as="date" format="ymd">2005/12/17</say-as>
<say-as interpret-as="date" format="dmy">17/12/2005</say-as>
<say-as interpret-as="date" format="ydm">2005/17/12</say-as>
<say-as interpret-as="date" format="my">12/2005</say-as>
<say-as interpret-as="date" format="md">12/17</say-as>
<say-as interpret-as="date" format="ym">2005/12</say-as>

`digits`

digits 값이 요소 내의 자릿수를 나타냅니다. (이 값은 동봉된 문자열에 포함된 모든 알파벳 문자를 개별적으로 발음하기도 합니다.) 다음 예는 123456의 개별 자릿수를 나타냅니다.

<say-as interpret-as="digits">123456</say-as>

`interjection`

interjection 속성은 Text to Speech 서비스 전용 SSML 확장자입니다. 표현형 뉴럴 보이스로만 사용하도록 지원됩니다.

표현력이 풍부한 신경 음성을 통해 서비스는 자동으로 다음 감탄사를 강조합니다: aha, hmm, huh, oh, uh, uh-huh, um. interjection 값을 사용하여 서비스의 감탄사 강조( aha 및 oh)를 활성화 또는 비활성화할 수 있습니다. 감탄사를 활성화 또는 비활성화하려면 true 또는 false 값과 함께 enabled 속성을 추가로 포함하세요.

다음 예에서는 텍스트에서 aha 및 oh 감탄사 강조를 모두 비활성화합니다:

<say-as interpret-as='interjection' enabled='false'>Oh</say-as>, in addition, the <say-as interpret-as='interjection' enabled='false'>aha</say-as> wasp is endemic to Australia.

자세한 내용은 감탄사 강조하기를 참조하세요.

`letters`

letters 값은 요소 내에서 단어의 철자를 표시합니다. (이 값은 묶인 문자열에 포함된 모든 숫자 문자를 개별적으로 발음합니다.) 다음 예에서는 hello라는 단어의 철자를 음성으로 표시합니다.

<say-as interpret-as="letters">Hello</say-as>

선택 사항인 format 속성과 함께 group 또는 single 값을 지정할 수도 있습니다. 이러한 속성은 숫자 및 ID 확인과 같은 영숫자 문자열의 가독성을 개선하는 데 도움이 됩니다. single 형식은 문자를 하나씩 철자하면서 더 많은 침묵을 추가합니다. group 형식은 숫자에서 문자로 또는 그 반대로 전환할 때와 같은 유형의 문자를 3~4개 읽을 때마다 더 긴 침묵을 추가합니다.

<say-as interpret-as="letters" format=“single”>112A567B</say-as>
<say-as interpret-as="letters" format=“group”>3174A2W486</say-as>

`number`

number 값은 cardinal 및 ordinal 값에 대한 대체 항목을 제공합니다. 선택적인 format 속성을 사용하여 일련의 숫자가 해석되는 방식을 표시할 수 있습니다. 첫 번째 예에서는 기수 값으로 숫자를 발음하기 위해 format 속성을 생략합니다. 두 번째 예에서는 숫자가 cardinal 값으로 발음되도록 명시적으로 지정합니다. 세 번째 예에서는 숫자가 ordinal 값으로 발음되도록 지정합니다.

<say-as interpret-as="number">123456</say-as>
<say-as interpret-as="number" format="cardinal">123456</say-as>
<say-as interpret-as="number" format="ordinal">123456</say-as>

telephone 속성에 format 값도 지정할 수 있습니다. 이 예에서는 일련의 숫자를 전화 번호로 발음하는 두 가지 방식을 보여줍니다. 구두점을 포함하여 숫자를 발음하려면 선택적인 punctuation 속성에 detail 값을 지정하십시오.

<say-as interpret-as="number" format="telephone">555-555-5555</say-as>
<say-as interpret-as="number" format="telephone" detail="punctuation">555-555-5555</say-as>

`ordinal`

ordinal 값은 요소 내의 자릿수에 대한 서수 값입니다. 다음 예에서는 second first라고 발음합니다.

<say-as interpret-as="ordinal">2</say-as>
<say-as interpret-as="ordinal">1</say-as>

`vxml:boolean`

vxml:boolean 값은 요소 내의 * 또는 * 값에 따라 yes 또는 truenofalse를 나타냅니다.

<say-as interpret-as="vxml:boolean">true</say-as>
<say-as interpret-as="vxml:boolean">false</say-as>

`vxml:currency`

vxml:currency 값은 화폐 가치의 합성을 제어하는 데 사용됩니다. 문자열은 UUUmm.nn 형식으로 작성되어야 합니다. 여기서, UUU는 ISO 표준 4217로 지정된 3자의 통화 지표이며 mm.nn은 양입니다. 다음 예에서는 forty-five dollars and thirty cents라고 발음합니다.

<say-as interpret-as="vxml:currency">USD45.30</say-as>

지정된 숫자에 소수 셋째 자리 이상이 포함된 경우 금액은 통화 지표 앞에 표시되는 10진수로 합성됩니다. 3자로 된 통화 지표가 표시되지 않으면 금액은 10진수로 합성되지 않으며 통화 유형은 발음되지 않습니다. 다음 예에서는 forty-five point three two nine US dollars라고 발음합니다.

<say-as interpret-as="vxml:currency">USD45.329</say-as>

`vxml:date`

vxml:date 값은 date 값과 같이 표시되지만 형식은 YYYYMMDD로 사전 정의됩니다. 일, 월, 년을 알 수 없거나 음성화되길 원하지 않는 경우 값을 ?(물음표)로 대체하십시오. 두 번째 및 세 번째 예에는 물음표가 포함됩니다.

<say-as interpret-as="vxml:date">20050720</say-as>
<say-as interpret-as="vxml:date">????0720</say-as>
<say-as interpret-as="vxml:date">200507??</say-as>

`vxml:time`

'vxml:time' 값은 관련 형식 속성에 지정된 형식에 따라 요소 내의 시간을 나타냅니다. 형식 속성은 시간 값에 필요합니다. 형식은 접미사가 없는 4자리 숫자, "a", "p" 또는 "h"여야 합니다. 다음 예는 지정된 형식으로 표시된 시간을 말하며, 여기서 d, m, y는 일, 월, 연도를 나타냅니다.

<say-as interpret-as="vxml:time">1230</say-as>
<say-as interpret-as="vxml:time">1230a</say-as>
<say-as interpret-as="vxml:time">1230p</say-as>
<say-as interpret-as="vxml:time">0100h</say-as>

`vxml:digits`

vxml:digits 값은 digits 값과 동일한 기능을 제공합니다.

`vxml:phone`

vxml:phone 값은 숫자 및 구두점으로 전화 번호를 나타냅니다. number 값을 사용하고, telephone 속성에 format을 지정하고 punctuation 속성에 detail을 지정하는 것과 동등합니다.

<say-as interpret-as="vxml:phone">555-555-5555</say-as>

`<speak>` 요소

서비스는 전체 XML 헤더를 포함하지 않는 SSML 요소인 SSML 단편을 지원한다. <speak> 요소는 서비스에 전달하는 SSML의 경우 선택 사항입니다.

<speak> 요소는 SSML 문서의 루트 요소입니다. 올바른 속성은 다음과 같습니다.

version은 SSML 스펙을 지정하는 필수 속성입니다. 허용되는 값은 1.0입니다.
xml:lang은 서비스에 필요하지 않습니다. 이 요소 사용 시 속성을 생략하십시오. 이 속성을 사용하여 음성 합성 요청에 대한 언어를 변경할 수 없습니다.
xml:base에는 영향이 없습니다.
xmlns은 서비스에 필요하지 않습니다. 이 요소 사용 시 속성을 생략하십시오.

<speak version="1.1">
  The text to be spoken.
</speak>

`` 요소

 요소는 alias 속성으로 지정되는 텍스트가 음성이 합성될 때 요소 내에 포함된 텍스트를 대체함을 표시합니다. alias 속성은 요소의 유일한 속성이며 필수 항목입니다.

<sub alias="International Business Machines">IBM</sub>

`<voice>` 요소

이 <voice> 요소는 음성의 변경을 요청합니다. 지원되지 않습니다.

IBM Cloud

SSML 요소

지원되는 요소 및 속성

`<audio>` 요소

`<break>` 요소

`<desc>` 요소

`<emphasis>` 요소

`<express-as>` 요소

`<lexicon>` 요소

`<mark>` 요소

`<meta>` 및 `<metadata>` 요소

`<paragraph>` 및 `<sentence>` 요소

`<phoneme>` 요소

`<prosody>` 요소

SSML 버전 1.1 사양과의 차이점

`pitch` 속성

`rate` 속성

`<say-as>` 요소

`interpret-as` 속성

`cardinal`

`date`

`digits`

`interjection`

`letters`

`number`

`ordinal`

`vxml:boolean`

`vxml:currency`

`vxml:date`

`vxml:time`

`vxml:digits`

`vxml:phone`

`<speak>` 요소

`<sub>` 요소

`<voice>` 요소

SSML 요소

지원되는 요소 및 속성

<audio> 요소

<break> 요소

<desc> 요소

<emphasis> 요소

<express-as> 요소

<lexicon> 요소

<mark> 요소

<meta> 및 <metadata> 요소

<paragraph> 및 <sentence> 요소

<phoneme> 요소

<prosody> 요소

SSML 버전 1.1 사양과의 차이점

pitch 속성

rate 속성

<say-as> 요소

interpret-as 속성

cardinal

date

digits

interjection

letters

number

ordinal

vxml:boolean

vxml:currency

vxml:date

vxml:time

vxml:digits

vxml:phone

<speak> 요소

<sub> 요소

<voice> 요소

`<audio>` 요소

`<break>` 요소

`<desc>` 요소

`<emphasis>` 요소

`<express-as>` 요소

`<lexicon>` 요소

`<mark>` 요소

`<meta>` 및 `<metadata>` 요소

`<paragraph>` 및 `<sentence>` 요소

`<phoneme>` 요소

`<prosody>` 요소

`pitch` 속성

`rate` 속성

`<say-as>` 요소

`interpret-as` 속성

`cardinal`

`date`

`digits`

`interjection`

`letters`

`number`

`ordinal`

`vxml:boolean`

`vxml:currency`

`vxml:date`

`vxml:time`

`vxml:digits`

`vxml:phone`

`<speak>` 요소

`<sub>` 요소

`<voice>` 요소