用于创建定制提示和演讲者模型的规则
"按示例调整" 功能是仅支持美国英语定制模型和声音的 Beta 功能。
对于定制提示和说话者模型,服务会强制实施以下规则。 其中包括最有效利用该功能的准则。
用于创建定制提示的规则
以下规则适用于向定制模型添加定制提示时提供的标识,文本和音频。
提示标识的规则
对于提示的标识:
- 最多包含 49 个字符。
- 仅包含字母数字字符和
_
(下划线)。 - Do not include XML sensitive characters (double quotes, single quotes, ampersands, angle brackets, and slashes).
- 要添加新提示,该标识对于指定的定制模型必须唯一。 否则,提示的信息将覆盖具有该标识的现有提示。
提示文本的规则
对于提示的书面文本:
-
像平时一样,用逗号和句子结尾标点符号写提示的文本。 但是, Tune by Example 将提示的韵律和音调建立在提示音频上,而不是像常规语音合成那样建立在提示文本的标点上。 只有口语音频会影响合成提示的韵律。
-
提示包含的文本不能超过 1000 个字符。 说一两句文本是建议的限制。
-
提示只能包含固定静态文本。 它不能包含可变数据,即针对提示的不同用途而更改的数据。 例如, "您的帐户余额为 $500" 包含可变数据: 即 "$500" ,这是根据用户的帐户余额而更改的可变值。 在这种情况下,提示需要说出 "你的账户余额是" ,第二个合成请求需要说出余额。
-
Escape XML sensitive characters (double quotes, single quotes, ampersands, angle brackets, and slashes) that appear in the text of a prompt by applying the same rules that you use to provide text for a synthesis request. 有关更多信息,请参阅对 XML 控制字符转义。
-
您可以在提示的文本中包含 SSML 元素。 例如,诸如 read 之类的单词或包含日期或数字之类的内容的输入的发音可能不明确。 您可能需要告诉服务如何发音此类词,以便它知道如何使输入文本与音频同步。 但是,在大多数情况下,音素和文本的映射是显而易见的。
例如, SSML
<say-as>
元素用于指示服务如何显示数字,字母和日期。 此示例指示服务说值123456
的各个数字,而不是说值为数十万的数量:<speak version="1.1"> <say-as interpret-as="digits">123456</say-as> </speak>
提示音频的规则
对于提示的口语音频:
- 音频必须为 WAV 格式,并且最小采样率必须为 16 kHz。 该服务接受具有较高采样率的音频,在处理该音频之前,该服务会将其代码转换为 16 kHz。
- 提示音频的长度限制为 30 秒。
- 确保音频使用韵律来说话提示的文本,这反映了您希望提示由服务的某个声音说话的方式。 以下是一些使用提示来更改韵律的方法示例:
- 如果你说一个问题,让它听起来像一个问题。 例如,在问题结束时,调音往往会上升。
- 如果你说一个命令,让它听起来像一个命令。 强调指示命令的短语的词。
- 通过在单词和音节级别加速或减速语音来影响说话率。
- 通过使单词和音节音高或低来控制音高。 对于具有说话者模型的提示,音高控制要有效得多。
- 插入暂停以强调短语的某些方面。 除去前导和尾部暂停。
- 不能更改单词的发音。 服务根据其缺省词汇表以及为定制提示的模型定义的任何定制词来发音词。 有关更多信息,请参阅 按示例和词发音调整。
- 您无法控制短语的表现力 (例如,快乐或悲伤)。 这些特质与调性不同,无法被特征充分捕捉。
- 您无法控制短语的响度。 服务会忽略语音提示的响度。
创建演讲者模型的规则
以下规则适用于您在创建演讲者模型时提供的名称和注册音频。
演讲者姓名的规则
对于演讲者模型的名称:
- 最多包含 49 个字符。
- 仅包含字母数字字符和
_
(下划线)。 - Do not include XML sensitive characters (double quotes, single quotes, ampersands, angle brackets, and slashes).
- 请勿使用已为服务实例定义的现有演讲者模型的名称。 演讲者模型的名称对于其服务实例必须是唯一的。 要为现有演讲者名称重新创建演讲者模型,必须首先删除具有该名称的现有模型。
演讲者音频的规则
对于演讲者模型的注册音频:
- 音频必须为 WAV 格式,并且最小采样率必须为 16 kHz。 该服务接受具有较高采样率的音频,在处理该音频之前,该服务会将其代码转换为 16 kHz。
- 注册音频的长度限制为 1 分钟。 建议讲一段或两段包含五到十句话的文本。
- 按您通常会说的那样说注册音频。 这允许服务确定您的正常语音,并将该信息应用于与演讲者模型关联的提示。