IBM Cloud Docs
Règles de création d'entrées personnalisées

Règles de création d'entrées personnalisées

Les règles et consignes suivantes s'appliquent pour remplir un modèle personnalisé avec des entrées personnalisées (paires mot/traduction).

Nombre maximal d'entrées personnalisées et limites

Les limites suivantes s'appliquent à l'ensemble des entrées et modèles personnalisés :

  • Un mot dans une entrée personnalisée peut contenir un maximum de 49 caractères.
  • Une traduction dans une entrée personnalisée peut contenir un maximum de 499 caractères.
  • Un modèle personnalisé peut inclure un maximum de 20 000 entrées personnalisées.
  • Un modèle personnalisé peut inclure jusqu'à 1 000 invites personnalisées.
  • N'utilisez pas de barres obliques inversées, de barres obliques, de deux points, de signes égaux, d'esperluettes ou de points d'interrogation dans le nom.

Codage de caractères

Le service accepte le codage de caractères ASCII et UTF-8 pour les entrées mot et traduction. Pour les traductions, utilisez le codage ASCII pour les notations SPR et le codage UTF-8 pour les notations IPA.

Blanc

Un mot ne peut pas inclure de blanc. Le service utilise des espaces pour délimiter chaque mot individuel dans le texte en entrée.

Sensible à la casse

Un mot est sensible à la casse. Par exemple, supposons qu'un modèle personnalisé contienne l'entrée {word='Sun', translation='Sunday'}. Le service applique sa prononciation par défaut au mot sun, mais il applique la traduction personnalisée au mot Sun, car seul ce dernier a une lettre majuscule initiale.

Pour appliquer une traduction personnalisée à un mot pouvant apparaître avec ou sans capitalisation initiale, créez deux entrées pour les deux occurrences possibles. Incluez les deux entrées uniquement si la traduction doit être appliquée aux deux formes du mot.

Sensibilité au contexte

La prononciation de certains mots dépend du contexte. Par exemple, considérons l'exemple de phrase en entrée suivant :

St. Anthony lives on Henry St.

Les règles de prononciation par défaut du service synthétisent correctement ce texte comme suit

Saint Anthony lives on Henry Street

Toutefois, si vous remplacez les règles de prononciation par défaut pour que la chaîne St. soit traduite par saint, le service ne peut plus prononcer le mot en fonction du contexte. L'application d'un modèle personnalisé incluant une telle traduction force le service à prononcer la phrase entrée précédente comme suit :

Saint Anthony lives on Henry saint

Envisagez ce type de cas lorsque vous développez des paires de mots/traduction.

Points finaux

Le service applique un mot d'un modèle personnalisé uniquement aux chaînes du texte d'entrée qui correspondent exactement au mot. Un point final (.) dans une entrée de mot change la façon dont le mot est synthétisé :

  • Un mot qui ne comporte pas de point final peut contenir pratiquement n'importe quel caractère. Les caractères comprennent les lettres, les chiffres, la ponctuation (autre qu'un point de fin), les symboles non-lettres (tels que %, & et @), les guillemets, les parenthèses, les crochets, etc. Sa traduction peut inclure toute entrée admise par le service, y compris les espaces blancs et les représentations phonétiques au format SSML.
  • Un mot qui contient un point final ne peut contenir que des lettres, des points et des apostrophes internes (et non en tant que premier ou dernier caractère). La traduction de ce mot ne peut contenir que des mots ordinaires, orthographiés normalement, séparés par des espaces ou des traits d'union. Elle ne peut pas contenir de représentation phonétique.

Un exemple de mot avec un point final est div.". Supposons qu'un modèle personnalisé comprenne l'entrée {word='div.', translation='division'}. Le service n'applique pas la traduction à la chaîne "div" car elle n'inclut pas de point final et ne correspond donc pas à l'entrée.

Traduction phonétique des mots étrangers

La traduction phonétique permet notamment d'ajouter les prononciations de mots étrangers à la langue de base du modèle personnalisé. Par exemple, vous pouvez ajouter une prononciation pour un mot français à un modèle personnalisé basé sur l'anglais. Utilisez alors les symboles phonétiques pour la langue du modèle personnalisé, l'anglais.

Le même symbole phonétique peut produire des sons différents pour différentes langues. De plus, tous les symboles phonétiques ne sont pas pris en charge pour toutes les langues. Veillez à utiliser les symboles phonétiques pour la langue de base du modèle personnalisé lors de la définition d'une traduction.

Utilisation des entrées IBM SPR

La représentation phonétique symbolique (SPR) est un format propriétaire, dépendant de la langue, développé par IBM pour spécifier la prononciation d'un mot. Pour chaque langue prise en charge, SPR comprend un alphabet de phonèmes, des symboles pour les limites des syllabes et des symboles pour les niveaux de d'accentuation lexicale. Les règles de base suivantes s'appliquent à la création d'entrées SPR :

  • La prononciation par défaut que l'interface de personnalisation renvoie pour un mot commence par un `` (guillemet) et est entourée de '[] (crochets). Par exemple, l'interface renvoie la prononciation suivante pour le mot tomato :

    `[.0tx.1ma.0to]
    

    Omettez le guillemet et les crochets lorsque vous spécifiez la traduction d'un mot à l'aide des méthodes de l'interface de personnalisation.

  • Vous pouvez utiliser un point pour indiquer le début d'une syllabe dans une traduction, mais les points sont facultatifs et n'influencent pas la prononciation du mot. Ils n'apparaissent dans la prononciation d'un mot que si vous les incluez dans la traduction du mot. N'utilisez pas d'espaces pour indiquer les limites des syllabes.

  • IBM vous recommande de faire précéder la voyelle sur laquelle l'accentuation principale est mise dans un mot par le symbole 1, bien que cela ne soit pas strictement nécessaire. Le service détermine où l'accentuation se produit si vous ne l'indiquez pas. Vous pouvez également utiliser le symbole 2 pour indiquer chaque position d'accentuation secondaire, mais l'utilisation du symbole 2 est également facultative. Ils n'apparaissent dans la prononciation d'un mot que si vous les incluez dans la traduction du mot.

Pour plus d'informations sur l'utilisation de SPR, voir Comprendre les symboles phonétiques.

Utilisation des entrées en japonais

Des règles supplémentaires et une zone part_of_speech s'appliquent à la création d'entrées de mots dans un modèle personnalisé japonais :

  • Une traduction basée sur la sonorité ne peut contenir que des caractères Katakana. Les caractères Kanji et Hiragana ne sont pas autorisés.

  • Lorsque vous créez une traduction (basée sur la sonorité ou phonétique) pour un mot, vous pouvez également spécifier une zone facultative part_of_speech pour identifier la partie de discours de ce mot. Le service utilise la partie du discours pour produire l'intonation correcte du mot. Pour une liste complète, voir Partie du discours en japonais.

  • Vous ne pouvez créer qu'une seule entrée pour un mot et vous ne pouvez spécifier qu'une seule partie du discours pour un mot. Vous ne pouvez pas créer plusieurs entrées avec différentes parties du discours (par exemple, nom et verbe) pour le même mot. L'ajout d'une traduction pour un mot existant dans un modèle écrase la traduction existante du mot, y compris sa partie du discours.

    Pour améliorer le naturel de la parole synthétisée, ne créez pas d'entrées personnalisées pour les phrases longues. Créez des traductions pour des mots simples ou des phrases courtes. Il est à noter que d'autres langues limitent la traduction à des mots simples.

  • Le service applique le mot correspondant le plus long parmi les paires mot/traduction définies pour un modèle personnalisé. Par exemple, considérons les trois entrées suivantes pour un modèle personnalisé.

    {
      "words": [
        {
          "word": "NY",
          "translation": "ニューヨーク",
          "part_of_speech": "Mesi"
        },
        {
          "word": "NYC",
          "translation": "ニューヨークシティ",
          "part_of_speech": "Mesi"
        },
        {
          "word": "YC",
          "translation": "ヨコハマチューカガイ",
          "part_of_speech": "Mesi"
        }
      ]
    }
    

    With these entries, assume that the service receives the following input text: 一週間NYCを訪問した. Dans ce cas, le service correspond au mot " NYC parce que " NYC est plus long que " NY et parce que " NYC " correspond au mot " YC".

Parties du discours en japonais

Le tableau suivant répertorie les parties du discours prises en charge pour les entrées personnalisées en japonais. Pour plus d'informations sur la spécification de la partie du discours pour une entrée personnalisée en japonais, voir Ajout de mots à un modèle personnalisé japonais.

Parties du discours en japonais
Argument part_of_speech Signification en japonais Signification en anglais
Dosi Doushi Verbe
Fuku Fukishi Adverbe
Gobi Gobi Inflexion
Hoka Hoka Autre (Mots qui ont une signification grammaticale bien spécifique qui n'est liée à aucune autre partie du discours. Par exemple, " ありがとう pour "merci".)
Jodo Jodoushi Verbe auxiliaire
Josi Joshi Particule postpositionnelle (par exemple, が の を pour "de")
Kato Kantoushi Interjection
Kedo Keiyodoushi Adjectif
Keyo Keiyoshi Adjectif (par exemple, 美し pour "beau" ou 明る pour "brillant")
Kigo Kigou Symbole
Koyu Koyuumeishi Nom propre
Mesi Meishi Nom
Reta Rentaishi Déterminant
Stbi Setsubiji Suffixe
Stto Settoji Préfixe
Stzo Setsuzokushi Conjonction
Suji Suuji Valeur numérique