Sprachen und Modelle der nächsten Generation

Der Service IBM Watson® Speech to Text unterstützt eine wachsende Sammlung von Modellen der nächsten Generation mit verbesserten Spracherkennungsfunktionen gegenüber den Modellen der vorherige Generation. Das Modell gibt an, in welcher Sprache das Audiomaterial gesprochen wird und mit welcher Abtastrate es erfasst wird. Modelle der nächsten Generation bieten einen höheren Durchsatz als die Modelle der vorherigen Generation, d. h. der Service kann Transkriptionen schneller zurückgeben. Modelle der nächsten Generation liefern außerdem viel genauere Transkriptionen.

In Modellen der nächsten Generation, werden Audiodaten von dem Service bidirektional analysiert. Mithilfe ausführlicher neuronaler Netze analysiert und extrahiert das Modell Informationen aus den Audiodaten. Anschließend wertet das Modell die Informationen sowohl vorwärts als auch rückwärts aus, um die Transkription vorherzusagen, d. h. die Audiodaten werden zweimal "angehört".

Mit den zusätzlichen Daten und Kontextinformationen der bidirektionalen Analyse kann der Service genauere Hypothesen zu den gesprochenen Wörtern in den Audiodaten liefern. Trotz des zusätzlichen Analysevorgangs ist die Erkennung mit Modellen der nächsten Generation effizienter als mit Modellen der vorherigen Generation, d. h. der Service liefert in kürzerer Zeit und Ergebnisse mit höherer Genauigkeit. Die meisten Modelle der nächsten Generation bieten darüber hinaus eine Option für kurze Latenzzeiten, damit die Ergebnisse noch schneller zur Verfügung stehen. Durch die verkürzte Latenzzeit kann jedoch die Genauigkeit der Transkription beeinträchtigt werden.

Neben der höheren Transkriptionsgenauigkeit bieten die Modelle auch die Möglichkeit, Wörter hypothetisch abzuleiten, die weder im Basissprachmodell enthalten sind noch beim Trainingsprozess erfasst wurden. Diese Funktion kann die Notwendigkeit zum Anpassen domänenspezifischer Begriffe verringern. Das Vokabular des Modells muss keinen bestimmten Begriff enthalten, damit ein Wort vorhergesagt werden kann.

Eine Übersicht über die Modelle der nächsten Generation und ihre Technologie finden Sie unter Watson Speech to Text der nächsten Generation Watson Speech to Text.
Weitere Informationen über die Technologie, die den Modellen der nächsten Generation zugrunde liegt, finden Sie unter "Advancing RNN Transducer Technology for Speech Recognition ".
Informationen zur Migration von Modellen der vorherigen Generation auf die nächste Generation finden Sie in Migration auf Modelle der nächsten Generation.

Modelltypen der nächsten Generation

Der Service stellt zwei Typen von Modellen der nächsten Generation zur Verfügung:

Telefoniemodelle sind speziell auf Audiodaten abgestimmt, die telefonisch übermittelt werden. Wie die Schmalbandmodelle der vorherigen Generation sind Telefoniemodelle für Audiodaten mit einer Abtastfrequenz von mindestens 8 kHz konzipiert.
Multimediamodelle sind für Audiodaten bestimmt, die aus Quellen mit höherer Abtastfrequenz extrahiert werden (z. B. Video). Verwenden Sie Multimediamodelle für Audiodaten, die nicht aus Telefoniequellen stammen. Ähnlich wie Breitbandmodelle der vorherigen Generation sind Multimediamodelle auf Audiodaten mit einer Abtastfrequenz von mindestens 16 kHz abgestimmt.

Wählen Sie den Modelltyp aus, der Ihren Audiodaten in Quelle und Abtastrate am besten entspricht. Der Service passt die Abtastrate Ihrer Audiodaten automatisch an das Modell an, das Sie angeben. Um die beste Erkennungsgenauigkeit zu erreichen, berücksichtigen Sie auch den Frequenzbereich Ihrer Audiodaten. Weitere Informationen finden Sie unter Abtastrate und Audiofrequenz.

Unterstützte Sprachmodelle der nächsten Generation

In den folgenden Abschnitten werden die verfügbaren Modelltypen der nächsten Generation für die einzelnen Sprachen aufgelistet. Die Tabellen in den Abschnitten enthalten die folgenden Informationen:

In der Spalte Modellname wird der Name des Modells angegeben. (Im Unterschied zu Modellen der vorherigen Generation enthalten die Modelle der nächsten Generation nicht das Wort Model im Modellnamen.)
In der Spalte Unterstützung für geringe Latenzzeit wird angegeben, ob das Modell den Parameter low_latency für die Spracherkennung unterstützt. Weitere Informationen finden Sie unter Geringe Latenzzeit.
In der Spalte Status wird angegeben, ob das Modell allgemein verfügbar (General Availability, GA) oder als Betaversion verfügbar ist.

In den Spalten Modellname und Unterstützung für geringe Latenzzeit wird angegeben, in welchen Produktversionen das Modell und die geringe Latenzzeit unterstützt werden. Sofern nicht anders angegeben IBM Cloud, IBM Cloud Pak for Data oder IBM Software Hub, werden ein Modell und eine geringe Latenz für alle Versionen des Dienstes unterstützt

Telefoniemodelle

In Tabelle 1 sind die verfügbaren Telefonmodelle der nächsten Generation aufgelistet.

Telefoniemodelle der nächsten Generation
Sprache	Modellname	Unterstützung für geringe Latenzzeit	Status
Arabisch (Moderne Standardsprache)	`ar-MS_Telephony`	Ja	GA
Chinesisch (Mandarin)	`zh-CN_Telephony`	Ja	GA
Tschechisch	`cs-CZ_Telephony`	Ja	GA
Niederländisch (Belgien)	`nl-BE_Telephony`	Ja	GA
Niederländisch (Niederlande)	`nl-NL_Telephony`	Ja	GA
Englisch (Australien)	`en-AU_Telephony`	Ja	GA
Englisch (Indien)	`en-IN_Telephony`	Ja	GA
Englisch (Großbritannien)	`en-GB_Telephony`	Ja	GA
Englisch (Vereinigte Staaten)	`en-US_Telephony`	Ja	GA
Englisch (alle unterstützten Dialekte)	`en-WW_Medical_Telephony`	Ja	Betaversion
Französisch (Kanada)	`fr-CA_Telephony`	Ja	GA
Französisch (Frankreich)	`fr-FR_Telephony`	Ja	GA
Deutsch	`de-DE_Telephony`	Ja	GA
Hindi (Indien)	`hi-IN_Telephony`	Ja	GA
Italienisch	`it-IT_Telephony`	Ja	GA
Japanisch	`ja-JP_Telephony`	Ja	GA
Koreanisch	`ko-KR_Telephony`	Ja	GA
Portugiesisch (Brasilien)	`pt-BR_Telephony`	Ja	GA
Spanisch (Kastilisch)	`es-ES_Telephony`	Ja	GA
Spanisch (Argentinien, Chile, Kolumbien, Mexiko, und Peru)	`es-LA_Telephony`	Ja	GA
Schwedisch	`sv-SE_Telephony`	Ja	GA

Das Modell 'Spanisch (Lateinamerika)', es-LA_Telephony, gilt für alle lateinamerikanischen Dialekte. Es entspricht den Modellen der vorherigen Generation, die für spanische Dialekte in Argentinien, Chile, Kolumbien, Mexiko und Peru verfügbar sind. Wenn Sie für einen dieser lateinamerikanischen Dialekte ein Modell der vorherigen Generation verwendet haben, verwenden Sie das Modell es-LA_Telephony für die Migration auf das entsprechende Modell der nächsten Generation.

Multimediamodelle

In Tabelle 2 sind die verfügbaren Multimediamodelle der nächsten Generation aufgelistet.

Multimedia-Modelle der nächsten Generation
Sprache	Modellname	Unterstützung für geringe Latenzzeit	Status
Niederländisch (Niederlande)	`nl-NL_Multimedia`	Ja	GA
Englisch (Australien)	`en-AU_Multimedia`	Ja	GA
Englisch (Großbritannien)	`en-GB_Multimedia`	Ja	GA
Englisch (Vereinigte Staaten)	`en-US_Multimedia`	Ja	GA
Französisch (Kanada)	`fr-CA_Multimedia`	Ja	GA
Französisch (Frankreich)	`fr-FR_Multimedia`	Ja	GA
Deutsch	`de-DE_Multimedia`	Ja	GA
Italienisch	`it-IT_Multimedia`	Ja	GA
Japanisch	`ja-JP_Multimedia`	Ja	GA
Koreanisch	`ko-KR_Multimedia`	Ja	GA
Portugiesisch (Brasilien)	`pt-BR_Multimedia`	Ja	GA
Spanisch (Kastilisch)	`es-ES_Multimedia`	Ja	GA

Das Telefoniemodell für medizinisches Englisch

Die Betaversion der nächsten Generation en-WW_Medical_Telephony erkennt Begriffe aus den Bereichen Medizin und Pharmakologie. Verwenden Sie das Modell zum Transkribieren allgemeiner medizinischer Terminologie wie Namen von Medikamenten, Produktmarken, medizinische Behandlungen, Krankheiten, Arzttypen oder COVID 19--Terminologie.

Häufige Anwendungsfälle sind Gespräche zwischen einem Patienten und einem medizinischen Versorger (z. B. Arzt, Krankenschwester oder Apotheker):

"Mein Kopf tut weh. Geben Sie mir bitte Ibuprofen."
"Können Sie einen Orthopäden vorschlagen, der auf Arthrose spezialisiert ist?"
"Helfen Sie mir bitte, einen Internisten in Chicago zu finden."

Das neue Modell ist für alle unterstützten englischen Dialekte verfügbar: Australien, Indien, Großbritannien und USA. Das neue Modell unterstützt die Sprachmodellanpassung und Grammatiken als Betafunktionen. Es unterstützt überwiegend die gleichen Parameter wie das Modell en-US_Telephony, einschließlich smart_formatting für Audiodaten in amerikanischem Englisch. Neben den in Unterstützte Funktionen für Modelle der nächsten Generationaufgelisteten Features, bietet das Modell jedoch keine Unterstützung für die Parameter profanity_filter, redaction und speaker_labels.

Unterstützte Funktionen für Modelle der nächsten Generation

Die Modelle der nächsten Generation werden für die Verwendung mit einem großen Teil der Spracherkennungsfunktionen des Service unterstützt. Falls eine unterstützte Funktion auf bestimmte Sprachen beschränkt ist, gelten in der Regel die gleichen Spracheinschränkungen für Modelle der vorherigen und der nächsten Generation.

Weitere Informationen zu den Parametern, die Sie mit Modellen der nächsten Generation verwenden können, einschließlich der zugehörigen Sprachunterstützung und der Einstufung als allgemein verfügbare Parameter oder Parameter der Betaversion, finden Sie in Parameterübersicht.
Weitere Informationen zur Unterstützung der Anpassung von Modellen der nächsten Generation finden Sie unter Anpassungsunterstützung für Modelle der nächsten Generation.

Modelle der nächsten Generation unterstützen alle Spracherkennungsparameter und Header Ausnahme für Folgendes:

acoustic_customization_id (Modelle der nächsten Generation unterstützen nicht die Anpassung des akustischen Modells.)
keywords und keywords_threshold
processing_metrics und processing_metrics_interval
word_alternatives_threshold

Modelle der nächsten Generation unterstützen auch die folgenden Parameter, die bei Modellen der vorherigen Generation nicht verfügbar sind:

character_insertion_bias, das von allen Modellen der nächsten Generation unterstützt wird. Weitere Informationen finden Sie unter Zeicheneinfügeabweichung.
low_latency wird von den meisten Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie unter Geringe Latenzzeit.

Modelle der nächsten Generation unterscheiden sich auch im Hinblick auf die folgenden zusätzlichen Merkmale von Modellen der vorherigen Generation:

Modelle der nächsten Generation erzeugen keine Verzögerungsmarkierungen. Sie enthalten stattdessen die tatsächlichen Bedenken in den Transkriptionsergebnissen. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
Modelle der nächsten Generation unterstützen die automatische Großschreibung nur für Modelle in deutscher Sprache. Modelle früherer Generationen unterstützen die automatische Anpassung nur für Modelle in amerikanischem Englisch. Weitere Informationen finden Sie unter Groß-/Kleinschreibung.