Wissenswertes über die Anpassung

Wenn Sie mit IBM Watson® Text to Speech aus Text synthetisch Sprache erstellen, wendet der Service sprachenabhängige Ausspracheregeln an. Durch die Anwendung der Regeln konvertiert der Service die herkömmliche (also die orthografische) Schreibweise jedes Wortes in eine phonetische Schreibweise. Die phonetische Schreibweise eines Wortes verwendet Phonemsymbole, um zu definieren, wie das Wort ausgesprochen wird. Bei diesen Symbolen handelt es sich um die verschiedenen Lauteinheiten, die Wörter in einer Sprache unterscheiden, um die Grenzen zwischen den Silben und um die Betonungszeichen für die Silben.

Die normalen Ausspracheregeln des Service sind für gängige Wörter gut geeignet. Bei ungewöhnlichen Wörtern können sie jedoch zu mangelhaften Ergebnissen führen. Hierzu gehören Fachbegriffe, Wörter fremdsprachigen Ursprungs, Personennamen bzw. geografische Bezeichnungen und Abkürzungen oder Akronyme. Falls das Wörterbuch Ihrer Anwendung solche Wörter enthält, können Sie mit der Anpassungsschnittstelle angeben, wie sie vom Service ausgesprochen werden sollen.

Ein angepasstes Modell kann auch angepasste Prompts enthalten, die Sie für die Funktion "Tune by Example" definiert haben. Weitere Informationen zu Tune by Example, angepassten Prompts und Sprechermodellen finden Sie in Erläuterungen zu Tune by Example.

Status und Unterstützung

Die folgenden Informationen zu Status und Unterstützung beziehen sich auf die Anpassung:

Die Anpassung ist für alle Sprachen verfügbar.
IBM Cloud Sie müssen über den Standard- oder Premium-Tarif verfügen, um die Anpassung nutzen zu können. Benutzer des Lite-Plans können die Anpassungsschnittstelle nicht verwenden. Weitere Informationen finden Sie unter dem Service Text to Speech im IBM Cloud® Katalog.
IBM Cloud Premium-Kunden können mit IBM arbeiten, um eine neue benutzerdefinierte Stimme für ihre spezifischen Anwendungsanforderungen zu trainieren. Um eine benutzerdefinierte Stimme anzufordern oder weitere Informationen zu erhalten, füllen Sie dieses IBM Anfrageformular aus.

Funktionsweise der Anpassung

Die Anpassungsschnittstelle des Text to Speech-Service erstellt ein Wörterverzeichnis mit Wörtern und deren Umsetzungen für eine bestimmte Sprache. Dieses Wörterverzeichnis wird als angepasstes Modell bezeichnet. Jeder angepasste Eintrag in einem angepassten Modell besteht aus einem Paar im Format Wort/Umsetzung. Die Umsetzung eines Wortes teilt dem Service mit, wie das Wort auszusprechen ist, wenn es im Eingabetext vorkommt.

Die Anpassungsschnittstelle bietet Methoden, mit denen Sie Ihre angepassten Modelle, die vom Service permanent gespeichert werden, erstellen und verwalten können. Nachdem Sie ein angepasstes Modell erstellt haben, können Sie es während der Synthese mit jeder beliebigen Version der Methode /v1/synthesize verwenden. Wenn der Service aus Eingabetext synthetisch Sprache erstellt, ermittelt er die Aussprache der Wörter, die im angepassten Modell enthalten sind, durch eine direkte oder indirekte Anwendung ihrer Umsetzungen. Da Sie ein angepasstes Modell für eine bestimmte Sprache erstellen, kann ein angepasstes Modell mit einer beliebigen Stimme verwendet werden, die in dieser Sprache verfügbar ist.

Die Umsetzung für ein Wort geben Sie in einem angepassten Modell als gleich klingende Umsetzung oder phonetische Umsetzung an. Sie können beide Methoden für Einträge in demselben angepassten Modell verwenden und die beiden Methoden auch innerhalb einer Umsetzung kombinieren. Für angepasste Einträge gelten eine Reihe von Regeln und Richtlinien. Weitere Informationen finden Sie im Abschnitt Regeln für die Erstellung von angepassten Einträgen.

Gleich klingende Umsetzung

Bei der gleich klingenden Umsetzung werden die normalen Ausspracheregeln des Service verwendet, um die Aussprache eines Zielworts indirekt darzustellen. Eine gleich klingende Umsetzung wird aus den normalen Aussprachevarianten für eines oder mehrere Wörter gebildet. Der Service ersetzt zunächst jedes Vorkommen des Wortes im Eingabetext durch die angegebene Umsetzung. Anschließend wendet er seine normalen Ausspracheregeln auf die Umsetzung an, wobei die Umsetzung in ihre phonetische Darstellung konvertiert und auf diese Weise die Aussprache erhalten wird.

Viele gängige Abkürzungen und Akronyme werden beispielsweise einwandfrei durch die normalen Ausspracheregeln des Service umgesetzt. Der Service spricht die Abkürzung cm als centimeter aus. Seltener verwendete Abkürzungen werden Buchstabe für Buchstabe ausgesprochen. Beispielsweise wird die Zeichenfolge Str (Abkürzung für street) als S T R ausgesprochen, also mit einzeln ausgesprochenen Buchstaben. Mit der Methode für die gleich klingende Umsetzung können Sie die Umsetzung street für die Zeichenfolge Str angeben.

Ein weiteres Beispiel für ein Akronym ist das Wort IEEE, das für 'Institute of Electrical and Electronic Engineers' steht. Standardmäßig spricht der Service dieses Akronym als I E E E aus. Das Akronym wird im Englischen jedoch häufig als I triple E ausgesprochen, das Sie problemlos mithilfe der einfachen Umsetzung in Form eines gleichlautenden Elements als I triple E definieren können. Wenn das Wort IEEE in Ihrem angepassten Modell mit dieser Umsetzung vorkommt, ersetzt der Service jedes Vorkommen des Wortes durch die Umsetzung. Anschließend wendet er seine normalen Ausspracheregeln auf die einzelnen Wörter I, triple und E an, um die gängige Aussprache zu erzielen.

Die Methode der gleich klingenden Umsetzung können Sie auf mehr als nur Abkürzungen oder Akronyme anwenden. Sie funktioniert bei komplexen oder ungewöhnlichen Wörtern ebenso gut. Beispielsweise ergibt das folgende Paar von gleich klingenden Umsetzungen korrekte Aussprachen für ungewöhnliche Wörter, die durch die normalen Ausspracheregeln des Service mangelhaft verarbeitet werden. Die Ermittlung der richtigen Umsetzungen für solche Wörter kann eine größere Herausforderung als bei einfachen Abkürzungen darstellen. Bei den folgenden Beispielen wird die Schreibweise der Wörter unter Verwendung der normalen Ausspracheregeln für die Umsetzung geändert.

Wort: ayurvedic, Umsetzung: aayervedic
Wort: gastroenteritis, Umsetzung: gastro enteritis

Aus diesen Beispielen wird ersichtlich, dass gleich klingende Umsetzungen eher durch Versuch und Irrtum als durch ein schablonenhaftes Vorgehen entwickelt werden. Erstellen Sie aufgrund Ihrer Intuition eine mögliche Umsetzung und experimentieren Sie dann mit dem Service. Anschließend erstellen Sie aus dem Wort für die mögliche Umsetzung synthetisch Sprache als Eingabetext und hören Sie sich die resultierende Audioausgabe an. Wenn Sie mit der Aussprache zufrieden sind, können Sie die Umsetzung in Ihrem angepassten Modell verwenden. Andernfalls ändern Sie die Umsetzung und testen sie erneut.

Phonetische Umsetzung

Die Methode der gleich klingenden Umsetzung ist ein relativ einfaches und brauchbares Verfahren für die Festlegung einer Aussprache. Es ist jedoch nicht immer möglich, gleich klingende Umsetzungen zu entwickeln. Als direkte Alternative erscheint die phonetische Methode möglicherweise komplizierter und zeitaufwendiger, aber mit ihrer Hilfe kann für jedes beliebige Wort eine Aussprache festgelegt werden.

Bei der phonetischen Umsetzung wird eine Aussprache in Form von Phonemsymbolen, Betonungszeichen für Silben und optionalen Silbentrennungen angegeben, die die normalen Ausspracheregeln des Service außer Kraft setzen. Zur Angabe einer phonetischen Umsetzung verwenden Sie eines der folgenden Formate:

Standarddarstellung gemäß IPA (International Phonetic Alphabet)
IBM eigenes Format 'Symbolic Phonetic Representation' (SPR)

In beiden Fällen geben Sie eine Umsetzung mithilfe eines bestimmten Phonemformats an, das auf SSML (Speech Synthesis Markup Language) basiert. SSML ist eine XML-basierte Markup-Sprache, die Annotationen von Text für Sprachsyntheseanwendungen bereitstellt. Sie geben die phonetische Umsetzung für ein Wort mithilfe des SSML-Elements <phoneme> an:

<phoneme alphabet="{ipa | ibm}" ph="{translation}"></phoneme>

Das Attribut alphabet gibt den Typ der phonetischen Darstellung an, also ipa oder ibm. Das Attribut ph gibt die Zeichenfolge für die phonetische Umsetzung an.

Dies wird nachfolgend am Beispiel des Wortes trinitroglycerin erläutert. Die normalen Ausspracheregeln des Service erzeugen eine andere Aussprache, als üblicherweise von Chemikern und Physikern verwendet wird. Die korrekte Aussprache kann mit einer phonetischen Umsetzung erzielt werden:

IPA: tɹaɪnˈaɪtɹəglɪsəɹɨn
SPR: trYn1YtrxglIsxrXn

In diesen Beispielen besteht die Zeichenfolge für die phonetische Umsetzung aus Phonemsymbolen und einer einzigen Markierung für die Hauptbetonung. Das primäre Betonungszeichen wird in IPA durch " ˈ und in SPR durch " 1 dargestellt. In beiden Fällen steht sie unmittelbar vor dem Symbol für den betonten Vokal. Auch wenn es in den Beispielen nicht dargestellt ist, können Sie ebenfalls Silbengrenzen und Positionen für eine Nebenbetonung in einer phonetischen Umsetzung angeben. Diese Elemente sind nicht erforderlich und werden normalerweise nicht benötigt, um eine Aussprache festzulegen. Wie gleich klingende Umsetzungen können Sie auch eine phonetische Umsetzung aus mehreren Zeichenfolgen bilden, die durch Leerzeichen voneinander abgegrenzt werden.

Umsetzungen im IPA-Format können Sie auch als IPA-Unicode-Werte angeben. Weitere Informationen finden Sie unter Informationen zu phonetischen Symbolen und den sprachspezifischen Tabellen auf den Seiten, auf die unter Phonetische Symbole für unterstützte Sprachen verwiesen wird. Ein Beispiel für eine Umsetzung, die IPA-Unicode-Werte verwendet, finden Sie unter Element 'phoneme'.

Vorhandene phonetische Umsetzung bearbeiten

Sofern Sie nicht gerade Experte auf dem Gebiet der Phonetik sind, ist die Bildung von phonetischen Umsetzungen keine einfache Aufgabe. Es ist immer leichter, eine vorhandene phonetische Umsetzung zu bearbeiten, als sie völlig neu zu erstellen. Die API des Service umfasst eine Methode GET /v1/pronunciation, die Sie bei der Erstellung von phonetischen Umsetzungen unterstützt. Die Methode gibt die IPA- oder SPR-Darstellung zurück, die von den normalen Ausspracheregeln des Service für ein Wort in einer angegebenen Sprache generiert wird. Sie haben außerdem die Möglichkeit, die Aussprache für ein Wort aus einem angegebenen angepassten Modell abzurufen, um die Umsetzung in der Sprache für dieses Modell anzuzeigen.

Mit der Methode /GET v/1/pronunciation können Sie eine erste phonetische Umsetzung für ein Wort anfordern. Anschließend können Sie die Umsetzung ändern und so die gewünschte Aussprache erzielen. Wie bei der Methode für gleich klingende Umsetzungen arbeiten Sie auch hier nach dem Prinzip von Versuch und Irrtum. Sie übergeben Ihre mögliche Umsetzung an den Service, lassen aus dem Wort synthetisch Eingabetext erstellen, hören sich die resultierende Audioausgabe an und bearbeiten die mögliche Umsetzung. Diesen Prozess können Sie wiederholen, bis Sie mit der Aussprache zufrieden sind.

Zusätzliche Angaben finden Sie im Abschnitt Wort aus einer Sprache abfragen.

Weitere Informationen zur phonetischen Umsetzung

Die folgenden Quellen bieten weitere Informationen zur phonetischen Umsetzung:

Weitere Informationen zur Verwendung von SSML und des zugehörigen Elements <phoneme> finden Sie in denErläuterungen zu SSML.
Weitere Informationen zur Angabe von SPR- und IPA-Zeichen und -Umsetzungen finden Sie in den Erläuterungen zu phonetischen Zeichen.

Gleich klingende und phonetische Umsetzung kombinieren

Sie können die Methoden für die gleich klingende und die phonetische Umsetzung in ein und derselben Umsetzung kombinieren. Dies kann die mit der Erstellung einer Umsetzung verbundene Arbeit verringern.

Nehmen wir beispielsweise an, Sie haben für den Teil eines Wortes mit der Methode für die gleich klingende Umsetzung eine zufriedenstellende Aussprache erreicht. Nun müssen Sie jedoch noch die übrigen Elemente des Wortes optimieren. Mit der phonetischen Methode können Sie die komplizierten Aspekte des Wortes angeben. Beim folgenden Beispiel wird eine kombinierte Umsetzung für das Wort trinitroglycerin angewendet:

try<phoneme alphabet="ipa" ph="nˈaɪtɹəglɪsəɹɨn"></phoneme>