IBM Cloud Docs
用于创建定制条目的规则

用于创建定制条目的规则

以下规则和准则适用于使用定制条目(词/转换项对)填充定制模型。

最大定制条目数和限制

以下限制适用于所有定制模型和条目:

  • 一个定制条目中的一个词最多可包含 49 个字符。
  • 一个定制条目中的一个转换项最多可包含 499 个字符。
  • 一个定制模型最多可包含 20,000 个定制条目。
  • 自定义模型最多可包含 1000 个自定义提示。
  • 请勿在名称中使用反斜线、斜线、冒号、等号、标点符号或问号。

字符编码

服务接受对 wordtranslation 条目进行 ASCII 和 UTF-8 字符编码。 对于转换项,请将 ASCII 编码用于 SPR 表示法,将 UTF-8 编码用于 IPA 表示法。

空格

单词不能包含空白。 服务使用空格来对输入文本中各个词定界。

区分大小写

单词区分大小写。 例如,假定定制模型包含条目 {word='Sun', translation='Sunday'}。 服务会将其缺省发音应用于词 sun,但会将定制转换项应用于词 Sun,因为只有后者的首字母大写。

要将定制转换项应用于可能显示带或不带首字母大写的词,请为这两种可能的出现创建两个条目。 仅当要将转换项应用于该词的这两种形式时,才包含这两个条目。

上下文相关

一些词的发音是上下文相关的。 例如,假设有以下输入句子的示例:

St. Anthony lives on Henry St.

服务的缺省发音规则会正确地将此文本合成为:

Saint Anthony lives on Henry Street

但是,如果覆盖字符串 St. 的缺省发音规则,以将其转换为 saint,那么服务就无法再根据上下文对该词发音。 应用包含此类转换项的定制模型会导致服务将上述输入的句子发音为:

Saint Anthony lives on Henry saint

在开发词/转换项对时,请考虑此类情况。

尾部句点

服务仅将定制模型中的词应用于输入文本中与该词完全匹配的那些字符串。 单词条目中的尾部 ".(句号)会改变单词的合成方式:

  • 没有结尾句点的词几乎可以包含任何字符。 字符包括字母、数字、标点符号(尾部句号除外)、非字母符号(如 "%、"&"和 "@")、引号、括号、括号等。 该词的转换项可以包含对服务的任何合法输入,包括 SSML 格式的空格和音标表示法。
  • 具有尾部句点的词只能包含字母、句点和内部撇号(不作为第一个或最后一个字符)。 该词的转换项只能包含用空格或连字符分隔的正常拼写的普通词。 不能包含音标表示法。

例如 div."就是一个带尾部句点的单词。假设自定义模型中包 {word='div.', translation='division'}"*"条目。 服务不会将转换项应用于字符串“div”,因为它不包含尾部句点,因此与该条目不匹配。

外来词的音标转换项

音标转换项的一种用途是为定制模型的基本语言的外来词添加发音。 例如,可以向基于英语的定制模型添加法语词的发音。 在这种情况下,必须使用定制模型所用语言(即,英语)的音标符号。

对于不同的语言,同一个音标符号可能会生成不同的发音。 此外,并非所有语言都支持所有音标符号。 在定义转换项时,请确保使用定制模型的基本语言的音标符号。

使用 IBM SPR 条目

符号音标表示法 (SPR) 是一种专有的语言相关格式,由 IBM 开发,用于指定词的发音。 对于每种支持的语言,SPR 都包含音位 alphabet、表示音节边界的符号以及表示词重音级别的符号。 以下基本规则适用于创建 SPR 条目:

  • 自定义界面返回的单词默认发音以"```"(反引号)开头,并用 "[](方括号)括起来。 例如,对于词 tomato,接口会返回以下发音:

    `[.0tx.1ma.0to]
    

    使用定制接口的方法来指定词的转换项时,请省略反引号和方括号。

  • 可以使用句点来指示转换项中音节的开头,但句点是可选的,不会影响词的发音。 仅当在词的转换项中包含句点时,句点才会出现在词的发音中。 不要使用空格来指示音节边界。

  • IBM 建议您在词的主重读元音前面添加 1 符号,但这并不是严格必需的。 如果未使用该符号指示,服务会自行确定出现重音的位置。 您还可以使用 2 符号来指示每个次重音位置,但 2 符号的使用也是可选的。 仅当在词的转换项中包含句点时,句点才会出现在词的发音中。

有关使用 SPR 的更多信息,请参阅 了解音标

使用日语条目

额外规则和 part_of_speech 字段适用于创建日语定制模型中词的条目:

  • 近似读音转换项只能包含片假名字符。 不允许使用日本汉字平假名字符。

  • 创建词的转换项(近似读音或音标)时,还可以指定可选的 part_of_speech 字段来标识词的词性。 服务会使用词性来为词生成正确的语调。 有关完整列表,请参阅日语词性

  • 对于任何词,都只能创建一个条目,并且只能指定一个词性。 对于同一个词,不能创建具有不同词性(例如,名词和动词)的多个条目。 向模型中存在的词添加转换项会覆盖该词的现有转换项,包括其词性。

    为提高合成语音的自然度,请勿为长短句创建自定义条目。 仅为单词或短语创建翻译。 请注意,其他语言的翻译仅限于单个单词。

  • 服务会从为定制模型定义的词/转换项对中,选择最长的匹配词来应用。 例如,假设定制模型有以下三个条目。

    {
      "words": [
        {
          "word": "NY",
          "translation": "ニューヨーク",
          "part_of_speech": "Mesi"
        },
        {
          "word": "NYC",
          "translation": "ニューヨークシティ",
          "part_of_speech": "Mesi"
        },
        {
          "word": "YC",
          "translation": "ヨコハマチューカガイ",
          "part_of_speech": "Mesi"
        }
      ]
    }
    

    With these entries, assume that the service receives the following input text: 一週間NYCを訪問した. 在本例中,服务匹配单词 "NYC,因为 "NYC比 "NY长,而且 "NYC在 "YC之前。

日语词性

下表列出了日语定制条目支持的词性。 有关指定日语定制条目词性的更多信息,请参阅向日语定制模型添加词

日语词性
part_of_speech 自变量 日语含义 英语含义
Dosi Doushi 动词
Fuku Fukishi 副词
Gobi Gobi 词形变化
Hoka Hoka 其他(具有其自己特殊语法含义且不适合归类为其他任何词性的词。 例如,ありがとう 表示“谢谢”)
Jodo Jodoushi 助动词
Josi Joshi 后置质点(例如,が の を 表示 "的")
Kato Kantoushi 感叹词
Kedo Keiyodoushi 形容词
Keyo Keiyoshi 形容词(例如,美し 表示 "美丽",明る 表示 "明亮"。)
Kigo Kigou 符号
Koyu Koyuumeishi 专有名词
Mesi Meishi 名词
Reta Rentaishi 限定词
Stbi Setsubiji 后缀
Stto Settoji 前缀
Stzo Setsuzokushi 连词
Suji Suuji 数词