IBM Cloud Docs
Sprachen und Stimmen

Sprachen und Stimmen

Der IBM Watson® Text to Speech-Service unterstützt eine Vielzahl von Sprachen, Stimmen und Dialekten. Für verschiedene Sprachen bietet der Service Frauenstimmen und/oder Männerstimmen. Jede Stimme verwendet den geeigneten Tonfall und die passende Satzmelodie für ihren Dialekt.

Alle Stimmen des Service verwenden neuronale Sprachtechnologie. Die neuronale Sprachtechnologie nutzt mehrere Deep Neural Networks (DNNs), um die akustischen (spektralen) Merkmale der Sprache vorherzusagen. Die DNNs werden für eine natürliche menschliche Sprache trainiert und erzeugen die daraus resultierende Audioausgabe aus den vorhergesagten akustischen Merkmalen. Während der Synthese sagen die DNNs die Tonhöhe und die Phonemdauer (Satzrhythmus), die spektrale Struktur und die Signalform der Sprache voraus. Neuronale Stimmen erzeugen Sprache, die klar und klar ist, mit einer Audioqualität, die sich durch natürlichen Klang und Sprechfluss sowie Konsistenz auszeichnet.

Unterstützte Sprachen und Stimmen

Der Dienst bietet drei Arten von Stimmen mit unterschiedlichen Eigenschaften und Fähigkeiten:

  • Natürliche Stimmen bieten eine fortschrittliche Leistung in Bezug auf Natürlichkeit und Ausdruckskraft. Diese Stimmen verwenden verschiedene Techniken, um einen Vorteil gegenüber den expressiven Stimmen zu erzielen. Eine Liste aller natürlichen Stimmen finden Sie unter Natürliche Stimmen.
  • Ausdrucksstarke neuronale Stimmen bieten natürlich klingende Sprache, die außergewöhnlich klar und klar ist. Ihre Aussprache und ihre Flexionen sind natürlich und dialogorientiert, und die resultierende Sprache bietet extrem glatte Übergänge zwischen Wörtern. Sie unterstützen auch die Verwendung zusätzlicher Funktionen, die bei erweiterten neuronalen Stimmen nicht verfügbar sind. Eine Liste aller expressiven Stimmen finden Sie unter Expressive neuronale Stimmen.
  • Erweiterte neuronale Stimmen erreichen ein hohes Maß an natürlich klingender Sprache und unterstützen die meisten Servicefunktionen. Eine Liste aller erweiterten neuronalen Stimmen finden Sie unter Erweiterte neuronale Stimmen.

Auf den folgenden Seiten finden Sie weitere Informationen zu den Stimmen und deren Technologie:

Sprachunterstützung nach Sprachtyp

Tabelle 1 zeigt die Unterstützung des Service für Sprachen nach Sprachtyp. In den folgenden Abschnitten werden die verfügbaren Sprachen und Stimmen für jeden Sprachtyp aufgelistet.

Sprachunterstützung nach Art der Stimme
Sprache Natürliche Stimmen Expressive neuronale Stimmen Erweiterte neuronale Stimmen
Niederländisch
(Niederlande)
Englisch
(Großbritannien)
Englisch
(Australien)
Englisch
(Vereinigte Staaten)
Französisch
(Kanada)
Französisch
(Frankreich)
Deutsch
Italienisch
Japanisch
Koreanisch
Portugiesisch
(Brasilien)
Spanisch
(Kastilisch)
Spanisch
(Lateinamerika)
Spanisch
(Südamerika)

Natürliche Stimmen

In Tabelle 2 finden Sie eine Liste mit Hörbeispielen für alle verfügbaren natürlichen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.

Natürliche Sprachen und Stimmen
Sprache Verfügbarkeit Stimme/Geschlecht Audiobeispiel
Englisch
(Vereinigte Staaten)
GA en-US_EllieNatural
Weiblich

Expressive neuronale Stimmen

In Tabelle 3 sind alle verfügbaren ausdrucksstarken neuronalen Stimmen aufgeführt und mit Hörbeispielen versehen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.

  • Expressive neuronale Stimmen unterstützen zusätzliche Funktionen, die bei anderen Arten von Stimmen nicht verfügbar sind. Zu diesen Funktionen gehören zusätzliche Sprechstile, automatische Hervorhebung von Interjektionen und Hervorhebung bestimmter Wörter. Weitere Informationen finden Sie unter Sprachsynthese mit expressiven neuronalen Stimmen ändern.
  • Bei Verwendung mit dem SSML-Element <prosody> unterstützen expressive Stimmen nur Prozentwerte für die Attribute rate und pitch. Weitere Informationen finden Sie unter Element <prosody>.

Expressive neuronale Stimmen bestimmen die Stimmung aus dem Kontext und verwenden automatisch die richtige Intonation für den Text. Um die natürlichste Prosodie zu erzeugen, müssen expressive neuronale Stimmen den Kontext aller Wörter und Phrasen eines Satzes berücksichtigen. Expressive Stimmen sind daher rechenintensiver und haben eine etwas höhere Latenz als andere Arten von Stimmen. Die erste Antwort für eine Syntheseanforderung, die eine expressive Stimme verwendet, kann einen Bruchteil einer Sekunde länger dauern (z. B. einige hundert Millisekunden), bis sie eintrifft. Die Gesamtantwortzeit für die Ausführung der Anforderung ist ebenfalls länger.

Um die Latenz und Antwortzeit für eine ausdrucksstarke Stimme zu minimieren, verwenden Sie nach Möglichkeit kürzere Sätze.

Ausdrucksstarke neuronale Sprachen und Stimmen
Sprache Verfügbarkeit Stimme/Geschlecht Audiobeispiel
Englisch
(Australien)
GA en-AU_HeidiExpressive
Weiblich
GA en-AU_JackExpressive
Männlich
Englisch
(Vereinigte Staaten)
GA en-US_AllisonExpressive
Weiblich
GA en-US_EmmaExpressive
Weiblich
GA en-US_LisaExpressive
Weiblich
GA en-US_MichaelExpressive
Männlich
Englisch
(Großbritannien)
GA en-GB_GeorgeExpressive
Männlich
Portugiesisch
(Brasilien)
GA pt-BR_LucasExpressive
Männlich
Spanisch
(Lateinamerika)
GA es-LA_DanielaExpressive
Weiblich

Erweiterte neuronale Stimmen

Tabelle 4 enthält eine Liste und Hörbeispiele für alle verfügbaren erweiterten neuronalen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt)

Verbesserte neuronale Sprachen und Stimmen
Sprache Verfügbarkeit Stimme/Geschlecht Audiobeispiel
Niederländisch
(Niederlande)
Betaversion nl-NL_MerelV3Voice
Weiblich
Englisch
(Großbritannien)
GA en-GB_CharlotteV3Voice
Weiblich
GA en-GB_KateV3Voice
Weiblich
Englisch
(Vereinigte Staaten)
GA en-US_AllisonV3Voice
Weiblich
GA en-US_EmilyV3Voice
Weiblich
GA en-US_HenryV3Voice
Männlich
GA en-US_KevinV3Voice
Männlich
GA en-US_LisaV3Voice
Weiblich
GA en-US_MichaelV3Voice
Männlich
GA en-US_OliviaV3Voice
Weiblich
Französisch
(Kanada)
GA fr-CA_LouiseV3Voice
Weiblich
Französisch
(Frankreich)
GA fr-FR_NicolasV3Voice
Männlich
GA fr-FR_ReneeV3Voice
Weiblich
Deutsch GA de-DE_BirgitV3Voice
Weiblich
GA de-DE_DieterV3Voice
Männlich
GA de-DE_ErikaV3Voice
Weiblich
Italienisch GA it-IT_FrancescaV3Voice
Weiblich
Japanisch GA ja-JP_EmiV3Voice
Weiblich
Koreanisch GA ko-KR_JinV3Voice
Weiblich
Portugiesisch
(Brasilien)
GA pt-BR_IsabelaV3Voice
Weiblich
Spanisch
(Kastilisch)
GA es-ES_EnriqueV3Voice
Männlich
GA es-ES_LauraV3Voice
Weiblich
Spanisch
(Lateinamerika)
GA es-LA_SofiaV3Voice
Weiblich
Spanisch
(Nordamerika)
GA es-US_SofiaV3Voice
Weiblich

Die Stimmen von Sofia für lateinamerikanisches Spanisch und für nordamerikanisches Spanisch sind im Wesentlichen identisch. Der größte Unterschied besteht in der Interpretation eines Dollarzeichens ($) durch die beiden Stimmen. In der lateinamerikanischen Version wird der Begriff Pesos verwendet, in der nordamerikanischen Version der Begriff Dólares. Darüber hinaus kann es einige geringere Unterschiede zwischen den beiden Stimmen geben.

Angepasstes Modell erstellen

Bei der synthetischen Erstellung von Sprache aus Text wendet der Service sprachenabhängige Ausspracheregeln an, um die normale Schreibweise eines Wortes in eine phonetische Schreibweise zu konvertieren. Bei gängigen Wörtern funktionieren die Ausspracheregeln des Service gut, jedoch kann es bei unüblichen Wörtern wie beispielsweise Begriffen fremdsprachlichen Ursprungs, Personennamen sowie Abkürzungen oder Akronymen zu mangelhaften Ergebnissen kommen. Falls das Wörterbuch Ihrer Anwendung solche Wörter enthält, können Sie mit der Anpassungsschnittstelle angeben, wie sie vom Service ausgesprochen werden sollen.

Ein angepasstes Modell ist ein Wörterverzeichnis mit Wörtern und deren Übersetzungen. Sie erstellen ein angepasstes Modell für eine bestimmte Sprache, nicht für eine bestimmte Stimme. So kann ein angepasstes Modell für seine angegebene Sprache mit jeder Stimme verwendet werden. Ein angepasstes Modell, das Sie für die Sprache en-US erstellen, kann so zum Beispiel mit jeder beliebigen Stimme für amerikanisches Englisch verwendet werden. Es kann jedoch nicht mit einer Stimme für en-GB oder en-AU verwendet werden.

Die Anpassung ist für alle Sprachen verfügbar. Alle Stimmen unterstützen die Verwendung von IPA-Standardsymbolen (IPA = International Phonetic Alphabet) und IBM Symbolic Phonetic Representation (SPR = Symbolic Phonetic Representation) für die Wortanpassung. Weitere Informationen enthält der Abschnitt Wissenswertes über die Anpassung.

Angepasste Stimme erstellen

IBM Cloud

Premium-Kunden können mit IBM arbeiten, um eine neue angepasste Stimme für ihren speziellen Anwendungsfall und Zielmarkt zu schulen. Die Erstellung einer angepassten Stimme unterscheidet sich von der Anpassung einer der vorhandenen Stimmen des Service. Eine angepasste Stimme ist eine eindeutige neue Stimme, die auf Audiotrainingsdaten basiert, die der Kunde bereitstellt. IBM kann eine angepasste Stimme mit nur einer Stunde Schulungsdaten schulen.

Um eine angepasste Stimme anzufordern oder weitere Informationen zu erhalten, füllen Sie dieses IBM-Anforderungsformularaus und übergeben Sie es.