Sprachen und Stimmen

Der IBM Watson® Text to Speech-Service unterstützt eine Vielzahl von Sprachen, Stimmen und Dialekten. Für verschiedene Sprachen bietet der Service Frauenstimmen und/oder Männerstimmen. Jede Stimme verwendet den geeigneten Tonfall und die passende Satzmelodie für ihren Dialekt.

Alle Stimmen des Service verwenden neuronale Sprachtechnologie. Die neuronale Sprachtechnologie nutzt mehrere Deep Neural Networks (DNNs), um die akustischen (spektralen) Merkmale der Sprache vorherzusagen. Die DNNs werden für eine natürliche menschliche Sprache trainiert und erzeugen die daraus resultierende Audioausgabe aus den vorhergesagten akustischen Merkmalen. Während der Synthese sagen die DNNs die Tonhöhe und die Phonemdauer (Satzrhythmus), die spektrale Struktur und die Signalform der Sprache voraus. Neuronale Stimmen erzeugen Sprache, die klar und klar ist, mit einer Audioqualität, die sich durch natürlichen Klang und Sprechfluss sowie Konsistenz auszeichnet.

Unterstützte Sprachen und Stimmen

Der Dienst bietet drei Arten von Stimmen mit unterschiedlichen Eigenschaften und Fähigkeiten:

Natürliche Stimmen bieten eine fortschrittliche Leistung in Bezug auf Natürlichkeit und Ausdruckskraft. Diese Stimmen verwenden verschiedene Techniken, um einen Vorteil gegenüber den expressiven Stimmen zu erzielen. Eine Liste aller natürlichen Stimmen finden Sie unter Natürliche Stimmen.
Ausdrucksstarke neuronale Stimmen bieten natürlich klingende Sprache, die außergewöhnlich klar und klar ist. Ihre Aussprache und ihre Flexionen sind natürlich und dialogorientiert, und die resultierende Sprache bietet extrem glatte Übergänge zwischen Wörtern. Sie unterstützen auch die Verwendung zusätzlicher Funktionen, die bei erweiterten neuronalen Stimmen nicht verfügbar sind. Eine Liste aller expressiven Stimmen finden Sie unter Expressive neuronale Stimmen.
Erweiterte neuronale Stimmen erreichen ein hohes Maß an natürlich klingender Sprache und unterstützen die meisten Servicefunktionen. Eine Liste aller erweiterten neuronalen Stimmen finden Sie unter Erweiterte neuronale Stimmen.

Auf den folgenden Seiten finden Sie weitere Informationen zu den Stimmen und deren Technologie:

Ein Blog, in dem die expressiven Stimmen vorgestellt werden, finden Sie unter Ist Ihre dialogorientierte KI den richtigen Ton?.
Weitere Informationen zur neuronalen Sprachtechnologie des Service finden Sie unter Die Wissenschaft hinter dem Service.

Sprachunterstützung nach Sprachtyp

Tabelle 1 zeigt die Unterstützung des Service für Sprachen nach Sprachtyp. In den folgenden Abschnitten werden die verfügbaren Sprachen und Stimmen für jeden Sprachtyp aufgelistet.

Sprachunterstützung nach Art der Stimme
Sprache	Natürliche Stimmen	Expressive neuronale Stimmen	Erweiterte neuronale Stimmen
Niederländisch (Niederlande)			✔
Englisch (Großbritannien)		✔	✔
Englisch (Australien)		✔
Englisch (Vereinigte Staaten)	✔	✔	✔
Französisch (Kanada)			✔
Französisch (Frankreich)			✔
Deutsch			✔
Italienisch			✔
Japanisch			✔
Koreanisch			✔
Portugiesisch (Brasilien)		✔	✔
Spanisch (Kastilisch)			✔
Spanisch (Lateinamerika)		✔	✔
Spanisch (Südamerika)			✔

Natürliche Stimmen

In Tabelle 2 finden Sie eine Liste mit Hörbeispielen für alle verfügbaren natürlichen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.

Natürliche Sprachen und Stimmen
Sprache	Verfügbarkeit	Stimme/Geschlecht	Audiobeispiel
Englisch (Vereinigte Staaten)	GA	`en-US_EllieNatural` Weiblich

Expressive neuronale Stimmen

In Tabelle 3 sind alle verfügbaren ausdrucksstarken neuronalen Stimmen aufgeführt und mit Hörbeispielen versehen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.

Expressive neuronale Stimmen unterstützen zusätzliche Funktionen, die bei anderen Arten von Stimmen nicht verfügbar sind. Zu diesen Funktionen gehören zusätzliche Sprechstile, automatische Hervorhebung von Interjektionen und Hervorhebung bestimmter Wörter. Weitere Informationen finden Sie unter Sprachsynthese mit expressiven neuronalen Stimmen ändern.
Bei Verwendung mit dem SSML-Element <prosody> unterstützen expressive Stimmen nur Prozentwerte für die Attribute rate und pitch. Weitere Informationen finden Sie unter Element <prosody>.

Expressive neuronale Stimmen bestimmen die Stimmung aus dem Kontext und verwenden automatisch die richtige Intonation für den Text. Um die natürlichste Prosodie zu erzeugen, müssen expressive neuronale Stimmen den Kontext aller Wörter und Phrasen eines Satzes berücksichtigen. Expressive Stimmen sind daher rechenintensiver und haben eine etwas höhere Latenz als andere Arten von Stimmen. Die erste Antwort für eine Syntheseanforderung, die eine expressive Stimme verwendet, kann einen Bruchteil einer Sekunde länger dauern (z. B. einige hundert Millisekunden), bis sie eintrifft. Die Gesamtantwortzeit für die Ausführung der Anforderung ist ebenfalls länger.

Um die Latenz und Antwortzeit für eine ausdrucksstarke Stimme zu minimieren, verwenden Sie nach Möglichkeit kürzere Sätze.

Ausdrucksstarke neuronale Sprachen und Stimmen
Sprache	Verfügbarkeit	Stimme/Geschlecht
Englisch (Australien)	GA	`en-AU_HeidiExpressive` Weiblich
	GA	`en-AU_JackExpressive` Männlich
Englisch (Vereinigte Staaten)	GA	`en-US_AllisonExpressive` Weiblich
	GA	`en-US_EmmaExpressive` Weiblich
	GA	`en-US_LisaExpressive` Weiblich
	GA	`en-US_MichaelExpressive` Männlich
Englisch (Großbritannien)	GA	`en-GB_GeorgeExpressive` Männlich
Portugiesisch (Brasilien)	GA	`pt-BR_LucasExpressive` Männlich
Spanisch (Lateinamerika)	GA	`es-LA_DanielaExpressive` Weiblich

Erweiterte neuronale Stimmen

Tabelle 4 enthält eine Liste und Hörbeispiele für alle verfügbaren erweiterten neuronalen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt)

Verbesserte neuronale Sprachen und Stimmen
Sprache	Verfügbarkeit	Stimme/Geschlecht
Niederländisch (Niederlande)	Betaversion	`nl-NL_MerelV3Voice` Weiblich
Englisch (Großbritannien)	GA	`en-GB_CharlotteV3Voice` Weiblich
	GA	`en-GB_KateV3Voice` Weiblich
Englisch (Vereinigte Staaten)	GA	`en-US_AllisonV3Voice` Weiblich
	GA	`en-US_EmilyV3Voice` Weiblich
	GA	`en-US_HenryV3Voice` Männlich
	GA	`en-US_KevinV3Voice` Männlich
	GA	`en-US_LisaV3Voice` Weiblich
	GA	`en-US_MichaelV3Voice` Männlich
	GA	`en-US_OliviaV3Voice` Weiblich
Französisch (Kanada)	GA	`fr-CA_LouiseV3Voice` Weiblich
Französisch (Frankreich)	GA	`fr-FR_NicolasV3Voice` Männlich
	GA	`fr-FR_ReneeV3Voice` Weiblich
Deutsch	GA	`de-DE_BirgitV3Voice` Weiblich
	GA	`de-DE_DieterV3Voice` Männlich
	GA	`de-DE_ErikaV3Voice` Weiblich
Italienisch	GA	`it-IT_FrancescaV3Voice` Weiblich
Japanisch	GA	`ja-JP_EmiV3Voice` Weiblich
Koreanisch	GA	`ko-KR_JinV3Voice` Weiblich
Portugiesisch (Brasilien)	GA	`pt-BR_IsabelaV3Voice` Weiblich
Spanisch (Kastilisch)	GA	`es-ES_EnriqueV3Voice` Männlich
	GA	`es-ES_LauraV3Voice` Weiblich
Spanisch (Lateinamerika)	GA	`es-LA_SofiaV3Voice` Weiblich
Spanisch (Nordamerika)	GA	`es-US_SofiaV3Voice` Weiblich

Die Stimmen von Sofia für lateinamerikanisches Spanisch und für nordamerikanisches Spanisch sind im Wesentlichen identisch. Der größte Unterschied besteht in der Interpretation eines Dollarzeichens ($) durch die beiden Stimmen. In der lateinamerikanischen Version wird der Begriff Pesos verwendet, in der nordamerikanischen Version der Begriff Dólares. Darüber hinaus kann es einige geringere Unterschiede zwischen den beiden Stimmen geben.

Angepasstes Modell erstellen

Bei der synthetischen Erstellung von Sprache aus Text wendet der Service sprachenabhängige Ausspracheregeln an, um die normale Schreibweise eines Wortes in eine phonetische Schreibweise zu konvertieren. Bei gängigen Wörtern funktionieren die Ausspracheregeln des Service gut, jedoch kann es bei unüblichen Wörtern wie beispielsweise Begriffen fremdsprachlichen Ursprungs, Personennamen sowie Abkürzungen oder Akronymen zu mangelhaften Ergebnissen kommen. Falls das Wörterbuch Ihrer Anwendung solche Wörter enthält, können Sie mit der Anpassungsschnittstelle angeben, wie sie vom Service ausgesprochen werden sollen.

Ein angepasstes Modell ist ein Wörterverzeichnis mit Wörtern und deren Übersetzungen. Sie erstellen ein angepasstes Modell für eine bestimmte Sprache, nicht für eine bestimmte Stimme. So kann ein angepasstes Modell für seine angegebene Sprache mit jeder Stimme verwendet werden. Ein angepasstes Modell, das Sie für die Sprache en-US erstellen, kann so zum Beispiel mit jeder beliebigen Stimme für amerikanisches Englisch verwendet werden. Es kann jedoch nicht mit einer Stimme für en-GB oder en-AU verwendet werden.

Die Anpassung ist für alle Sprachen verfügbar. Alle Stimmen unterstützen die Verwendung von IPA-Standardsymbolen (IPA = International Phonetic Alphabet) und IBM Symbolic Phonetic Representation (SPR = Symbolic Phonetic Representation) für die Wortanpassung. Weitere Informationen enthält der Abschnitt Wissenswertes über die Anpassung.

Angepasste Stimme erstellen

IBM Cloud

Premium-Kunden können mit IBM arbeiten, um eine neue angepasste Stimme für ihren speziellen Anwendungsfall und Zielmarkt zu schulen. Die Erstellung einer angepassten Stimme unterscheidet sich von der Anpassung einer der vorhandenen Stimmen des Service. Eine angepasste Stimme ist eine eindeutige neue Stimme, die auf Audiotrainingsdaten basiert, die der Kunde bereitstellt. IBM kann eine angepasste Stimme mit nur einer Stunde Schulungsdaten schulen.

Um eine angepasste Stimme anzufordern oder weitere Informationen zu erhalten, füllen Sie dieses IBM-Anforderungsformularaus und übergeben Sie es.