Sprachen und Stimmen
Der IBM Watson® Text to Speech-Service unterstützt eine Vielzahl von Sprachen, Stimmen und Dialekten. Für verschiedene Sprachen bietet der Service Frauenstimmen und/oder Männerstimmen. Jede Stimme verwendet den geeigneten Tonfall und die passende Satzmelodie für ihren Dialekt.
Alle Stimmen des Service verwenden neuronale Sprachtechnologie. Die neuronale Sprachtechnologie nutzt mehrere Deep Neural Networks (DNNs), um die akustischen (spektralen) Merkmale der Sprache vorherzusagen. Die DNNs werden für eine natürliche menschliche Sprache trainiert und erzeugen die daraus resultierende Audioausgabe aus den vorhergesagten akustischen Merkmalen. Während der Synthese sagen die DNNs die Tonhöhe und die Phonemdauer (Satzrhythmus), die spektrale Struktur und die Signalform der Sprache voraus. Neuronale Stimmen erzeugen Sprache, die klar und klar ist, mit einer Audioqualität, die sich durch natürlichen Klang und Sprechfluss sowie Konsistenz auszeichnet.
Unterstützte Sprachen und Stimmen
Der Dienst bietet drei Arten von Stimmen mit unterschiedlichen Eigenschaften und Fähigkeiten:
- Natürliche Stimmen bieten eine fortschrittliche Leistung in Bezug auf Natürlichkeit und Ausdruckskraft. Diese Stimmen verwenden verschiedene Techniken, um einen Vorteil gegenüber den expressiven Stimmen zu erzielen. Eine Liste aller natürlichen Stimmen finden Sie unter Natürliche Stimmen.
- Ausdrucksstarke neuronale Stimmen bieten natürlich klingende Sprache, die außergewöhnlich klar und klar ist. Ihre Aussprache und ihre Flexionen sind natürlich und dialogorientiert, und die resultierende Sprache bietet extrem glatte Übergänge zwischen Wörtern. Sie unterstützen auch die Verwendung zusätzlicher Funktionen, die bei erweiterten neuronalen Stimmen nicht verfügbar sind. Eine Liste aller expressiven Stimmen finden Sie unter Expressive neuronale Stimmen.
- Erweiterte neuronale Stimmen erreichen ein hohes Maß an natürlich klingender Sprache und unterstützen die meisten Servicefunktionen. Eine Liste aller erweiterten neuronalen Stimmen finden Sie unter Erweiterte neuronale Stimmen.
Auf den folgenden Seiten finden Sie weitere Informationen zu den Stimmen und deren Technologie:
- Ein Blog, in dem die expressiven Stimmen vorgestellt werden, finden Sie unter Ist Ihre dialogorientierte KI den richtigen Ton?.
- Weitere Informationen zur neuronalen Sprachtechnologie des Service finden Sie unter Die Wissenschaft hinter dem Service.
Sprachunterstützung nach Sprachtyp
Tabelle 1 zeigt die Unterstützung des Service für Sprachen nach Sprachtyp. In den folgenden Abschnitten werden die verfügbaren Sprachen und Stimmen für jeden Sprachtyp aufgelistet.
Sprache | Natürliche Stimmen | Expressive neuronale Stimmen | Erweiterte neuronale Stimmen |
---|---|---|---|
Niederländisch (Niederlande) |
✔ | ||
Englisch (Großbritannien) |
✔ | ✔ | |
Englisch (Australien) |
✔ | ||
Englisch (Vereinigte Staaten) |
✔ | ✔ | ✔ |
Französisch (Kanada) |
✔ | ||
Französisch (Frankreich) |
✔ | ||
Deutsch | ✔ | ||
Italienisch | ✔ | ||
Japanisch | ✔ | ||
Koreanisch | ✔ | ||
Portugiesisch (Brasilien) |
✔ | ✔ | |
Spanisch (Kastilisch) |
✔ | ||
Spanisch (Lateinamerika) |
✔ | ✔ | |
Spanisch (Südamerika) |
✔ |
Natürliche Stimmen
In Tabelle 2 finden Sie eine Liste mit Hörbeispielen für alle verfügbaren natürlichen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.
Sprache | Verfügbarkeit | Stimme/Geschlecht | Audiobeispiel |
---|---|---|---|
Englisch (Vereinigte Staaten) |
GA | en-US_EllieNatural Weiblich |
Expressive neuronale Stimmen
In Tabelle 3 sind alle verfügbaren ausdrucksstarken neuronalen Stimmen aufgeführt und mit Hörbeispielen versehen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt) verfügbar ist.
- Expressive neuronale Stimmen unterstützen zusätzliche Funktionen, die bei anderen Arten von Stimmen nicht verfügbar sind. Zu diesen Funktionen gehören zusätzliche Sprechstile, automatische Hervorhebung von Interjektionen und Hervorhebung bestimmter Wörter. Weitere Informationen finden Sie unter Sprachsynthese mit expressiven neuronalen Stimmen ändern.
- Bei Verwendung mit dem SSML-Element
<prosody>
unterstützen expressive Stimmen nur Prozentwerte für die Attributerate
undpitch
. Weitere Informationen finden Sie unter Element<prosody>
.
Expressive neuronale Stimmen bestimmen die Stimmung aus dem Kontext und verwenden automatisch die richtige Intonation für den Text. Um die natürlichste Prosodie zu erzeugen, müssen expressive neuronale Stimmen den Kontext aller Wörter und Phrasen eines Satzes berücksichtigen. Expressive Stimmen sind daher rechenintensiver und haben eine etwas höhere Latenz als andere Arten von Stimmen. Die erste Antwort für eine Syntheseanforderung, die eine expressive Stimme verwendet, kann einen Bruchteil einer Sekunde länger dauern (z. B. einige hundert Millisekunden), bis sie eintrifft. Die Gesamtantwortzeit für die Ausführung der Anforderung ist ebenfalls länger.
Um die Latenz und Antwortzeit für eine ausdrucksstarke Stimme zu minimieren, verwenden Sie nach Möglichkeit kürzere Sätze.
Sprache | Verfügbarkeit | Stimme/Geschlecht | Audiobeispiel |
---|---|---|---|
Englisch (Australien) |
GA | en-AU_HeidiExpressive Weiblich |
|
GA | en-AU_JackExpressive Männlich |
||
Englisch (Vereinigte Staaten) |
GA | en-US_AllisonExpressive Weiblich |
|
GA | en-US_EmmaExpressive Weiblich |
||
GA | en-US_LisaExpressive Weiblich |
||
GA | en-US_MichaelExpressive Männlich |
||
Englisch (Großbritannien) |
GA | en-GB_GeorgeExpressive Männlich |
|
Portugiesisch (Brasilien) |
GA | pt-BR_LucasExpressive Männlich |
|
Spanisch (Lateinamerika) |
GA | es-LA_DanielaExpressive Weiblich |
Erweiterte neuronale Stimmen
Tabelle 4 enthält eine Liste und Hörbeispiele für alle verfügbaren erweiterten neuronalen Stimmen. Die Spalte Verfügbarkeit gibt an, ob jede Stimme allgemein für die produktive Nutzung oder die Betaversion verfügbar ist. In der Spalte wird auch angegeben, ob jede Stimme verfügbar ist für IBM Cloud, IBM Cloud Pak for Data, IBM Software Hub oder alle 3 (es wird keine Produktversion genannt)
Sprache | Verfügbarkeit | Stimme/Geschlecht | Audiobeispiel |
---|---|---|---|
Niederländisch (Niederlande) |
Betaversion | nl-NL_MerelV3Voice Weiblich |
|
Englisch (Großbritannien) |
GA | en-GB_CharlotteV3Voice Weiblich |
|
GA | en-GB_KateV3Voice Weiblich |
||
Englisch (Vereinigte Staaten) |
GA | en-US_AllisonV3Voice Weiblich |
|
GA | en-US_EmilyV3Voice Weiblich |
||
GA | en-US_HenryV3Voice Männlich |
||
GA | en-US_KevinV3Voice Männlich |
||
GA | en-US_LisaV3Voice Weiblich |
||
GA | en-US_MichaelV3Voice Männlich |
||
GA | en-US_OliviaV3Voice Weiblich |
||
Französisch (Kanada) |
GA | fr-CA_LouiseV3Voice Weiblich |
|
Französisch (Frankreich) |
GA | fr-FR_NicolasV3Voice Männlich |
|
GA | fr-FR_ReneeV3Voice Weiblich |
||
Deutsch | GA | de-DE_BirgitV3Voice Weiblich |
|
GA | de-DE_DieterV3Voice Männlich |
||
GA | de-DE_ErikaV3Voice Weiblich |
||
Italienisch | GA | it-IT_FrancescaV3Voice Weiblich |
|
Japanisch | GA | ja-JP_EmiV3Voice Weiblich |
|
Koreanisch | GA | ko-KR_JinV3Voice Weiblich |
|
Portugiesisch (Brasilien) |
GA | pt-BR_IsabelaV3Voice Weiblich |
|
Spanisch (Kastilisch) |
GA | es-ES_EnriqueV3Voice Männlich |
|
GA | es-ES_LauraV3Voice Weiblich |
||
Spanisch (Lateinamerika) |
GA | es-LA_SofiaV3Voice Weiblich |
|
Spanisch (Nordamerika) |
GA | es-US_SofiaV3Voice Weiblich |
Die Stimmen von Sofia
für lateinamerikanisches Spanisch und für nordamerikanisches Spanisch sind im Wesentlichen identisch. Der größte Unterschied besteht in der Interpretation eines Dollarzeichens ($) durch die beiden Stimmen.
In der lateinamerikanischen Version wird der Begriff Pesos verwendet, in der nordamerikanischen Version der Begriff Dólares. Darüber hinaus kann es einige geringere Unterschiede zwischen den beiden Stimmen geben.
Angepasstes Modell erstellen
Bei der synthetischen Erstellung von Sprache aus Text wendet der Service sprachenabhängige Ausspracheregeln an, um die normale Schreibweise eines Wortes in eine phonetische Schreibweise zu konvertieren. Bei gängigen Wörtern funktionieren die Ausspracheregeln des Service gut, jedoch kann es bei unüblichen Wörtern wie beispielsweise Begriffen fremdsprachlichen Ursprungs, Personennamen sowie Abkürzungen oder Akronymen zu mangelhaften Ergebnissen kommen. Falls das Wörterbuch Ihrer Anwendung solche Wörter enthält, können Sie mit der Anpassungsschnittstelle angeben, wie sie vom Service ausgesprochen werden sollen.
Ein angepasstes Modell ist ein Wörterverzeichnis mit Wörtern und deren Übersetzungen. Sie erstellen ein angepasstes Modell für eine bestimmte Sprache, nicht für eine bestimmte Stimme. So kann ein angepasstes Modell für seine angegebene Sprache
mit jeder Stimme verwendet werden. Ein angepasstes Modell, das Sie für die Sprache en-US
erstellen, kann so zum Beispiel mit jeder beliebigen Stimme für amerikanisches Englisch verwendet werden. Es kann jedoch nicht mit einer
Stimme für en-GB
oder en-AU
verwendet werden.
Die Anpassung ist für alle Sprachen verfügbar. Alle Stimmen unterstützen die Verwendung von IPA-Standardsymbolen (IPA = International Phonetic Alphabet) und IBM Symbolic Phonetic Representation (SPR = Symbolic Phonetic Representation) für die Wortanpassung. Weitere Informationen enthält der Abschnitt Wissenswertes über die Anpassung.
Angepasste Stimme erstellen
IBM Cloud
Premium-Kunden können mit IBM arbeiten, um eine neue angepasste Stimme für ihren speziellen Anwendungsfall und Zielmarkt zu schulen. Die Erstellung einer angepassten Stimme unterscheidet sich von der Anpassung einer der vorhandenen Stimmen des Service. Eine angepasste Stimme ist eine eindeutige neue Stimme, die auf Audiotrainingsdaten basiert, die der Kunde bereitstellt. IBM kann eine angepasste Stimme mit nur einer Stunde Schulungsdaten schulen.
Um eine angepasste Stimme anzufordern oder weitere Informationen zu erhalten, füllen Sie dieses IBM-Anforderungsformularaus und übergeben Sie es.