IBM Cloud Docs
Sprachen und Modelle der nächsten Generation

Sprachen und Modelle der nächsten Generation

Der Service IBM Watson® Speech to Text unterstützt eine wachsende Sammlung von Modellen der nächsten Generation mit verbesserten Spracherkennungsfunktionen gegenüber den Modellen der vorherige Generation. Das Modell gibt an, in welcher Sprache das Audiomaterial gesprochen wird und mit welcher Abtastrate es erfasst wird. Modelle der nächsten Generation bieten einen höheren Durchsatz als die Modelle der vorherigen Generation, d. h. der Service kann Transkriptionen schneller zurückgeben. Modelle der nächsten Generation liefern außerdem viel genauere Transkriptionen.

In Modellen der nächsten Generation, werden Audiodaten von dem Service bidirektional analysiert. Mithilfe ausführlicher neuronaler Netze analysiert und extrahiert das Modell Informationen aus den Audiodaten. Anschließend wertet das Modell die Informationen sowohl vorwärts als auch rückwärts aus, um die Transkription vorherzusagen, d. h. die Audiodaten werden zweimal "angehört".

Mit den zusätzlichen Daten und Kontextinformationen der bidirektionalen Analyse kann der Service genauere Hypothesen zu den gesprochenen Wörtern in den Audiodaten liefern. Trotz des zusätzlichen Analysevorgangs ist die Erkennung mit Modellen der nächsten Generation effizienter als mit Modellen der vorherigen Generation, d. h. der Service liefert in kürzerer Zeit und Ergebnisse mit höherer Genauigkeit. Die meisten Modelle der nächsten Generation bieten darüber hinaus eine Option für kurze Latenzzeiten, damit die Ergebnisse noch schneller zur Verfügung stehen. Durch die verkürzte Latenzzeit kann jedoch die Genauigkeit der Transkription beeinträchtigt werden.

Neben der höheren Transkriptionsgenauigkeit bieten die Modelle auch die Möglichkeit, Wörter hypothetisch abzuleiten, die weder im Basissprachmodell enthalten sind noch beim Trainingsprozess erfasst wurden. Diese Funktion kann die Notwendigkeit zum Anpassen domänenspezifischer Begriffe verringern. Das Vokabular des Modells muss keinen bestimmten Begriff enthalten, damit ein Wort vorhergesagt werden kann.

Modelltypen der nächsten Generation

Der Service stellt zwei Typen von Modellen der nächsten Generation zur Verfügung:

  • Telefoniemodelle sind speziell auf Audiodaten abgestimmt, die telefonisch übermittelt werden. Wie die Schmalbandmodelle der vorherigen Generation sind Telefoniemodelle für Audiodaten mit einer Abtastfrequenz von mindestens 8 kHz konzipiert.
  • Multimediamodelle sind für Audiodaten bestimmt, die aus Quellen mit höherer Abtastfrequenz extrahiert werden (z. B. Video). Verwenden Sie Multimediamodelle für Audiodaten, die nicht aus Telefoniequellen stammen. Ähnlich wie Breitbandmodelle der vorherigen Generation sind Multimediamodelle auf Audiodaten mit einer Abtastfrequenz von mindestens 16 kHz abgestimmt.

Wählen Sie den Modelltyp aus, der Ihren Audiodaten in Quelle und Abtastrate am besten entspricht. Der Service passt die Abtastrate Ihrer Audiodaten automatisch an das Modell an, das Sie angeben. Um die beste Erkennungsgenauigkeit zu erreichen, berücksichtigen Sie auch den Frequenzbereich Ihrer Audiodaten. Weitere Informationen finden Sie unter Abtastrate und Audiofrequenz.

Unterstützte Sprachmodelle der nächsten Generation

In den folgenden Abschnitten werden die verfügbaren Modelltypen der nächsten Generation für die einzelnen Sprachen aufgelistet. Die Tabellen in den Abschnitten enthalten die folgenden Informationen:

  • In der Spalte Modellname wird der Name des Modells angegeben. (Im Unterschied zu Modellen der vorherigen Generation enthalten die Modelle der nächsten Generation nicht das Wort Model im Modellnamen.)
  • In der Spalte Unterstützung für geringe Latenzzeit wird angegeben, ob das Modell den Parameter low_latency für die Spracherkennung unterstützt. Weitere Informationen finden Sie unter Geringe Latenzzeit.
  • In der Spalte Status wird angegeben, ob das Modell allgemein verfügbar (General Availability, GA) oder als Betaversion verfügbar ist.

In den Spalten Modellname und Unterstützung für geringe Latenzzeit wird angegeben, in welchen Produktversionen das Modell und die geringe Latenzzeit unterstützt werden. Sofern nicht anders angegeben IBM Cloud, IBM Cloud Pak for Data oder IBM Software Hub, werden ein Modell und eine geringe Latenz für alle Versionen des Dienstes unterstützt

Telefoniemodelle

In Tabelle 1 sind die verfügbaren Telefonmodelle der nächsten Generation aufgelistet.

Telefoniemodelle der nächsten Generation
Sprache Modellname Unterstützung für geringe Latenzzeit Status
Arabisch
(Moderne Standardsprache)
ar-MS_Telephony Ja GA
Chinesisch
(Mandarin)
zh-CN_Telephony Ja GA
Tschechisch cs-CZ_Telephony Ja GA
Niederländisch
(Belgien)
nl-BE_Telephony Ja GA
Niederländisch
(Niederlande)
nl-NL_Telephony Ja GA
Englisch
(Australien)
en-AU_Telephony Ja GA
Englisch
(Indien)
en-IN_Telephony Ja GA
Englisch
(Großbritannien)
en-GB_Telephony Ja GA
Englisch
(Vereinigte Staaten)
en-US_Telephony Ja GA
Englisch
(alle unterstützten Dialekte)
en-WW_Medical_Telephony Ja Betaversion
Französisch
(Kanada)
fr-CA_Telephony Ja GA
Französisch
(Frankreich)
fr-FR_Telephony Ja GA
Deutsch de-DE_Telephony Ja GA
Hindi
(Indien)
hi-IN_Telephony Ja GA
Italienisch it-IT_Telephony Ja GA
Japanisch ja-JP_Telephony Ja GA
Koreanisch ko-KR_Telephony Ja GA
Portugiesisch
(Brasilien)
pt-BR_Telephony Ja GA
Spanisch
(Kastilisch)
es-ES_Telephony Ja GA
Spanisch
(Argentinien, Chile,
Kolumbien, Mexiko,
und Peru)
es-LA_Telephony Ja GA
Schwedisch sv-SE_Telephony Ja GA

Das Modell 'Spanisch (Lateinamerika)', es-LA_Telephony, gilt für alle lateinamerikanischen Dialekte. Es entspricht den Modellen der vorherigen Generation, die für spanische Dialekte in Argentinien, Chile, Kolumbien, Mexiko und Peru verfügbar sind. Wenn Sie für einen dieser lateinamerikanischen Dialekte ein Modell der vorherigen Generation verwendet haben, verwenden Sie das Modell es-LA_Telephony für die Migration auf das entsprechende Modell der nächsten Generation.

Multimediamodelle

In Tabelle 2 sind die verfügbaren Multimediamodelle der nächsten Generation aufgelistet.

Multimedia-Modelle der nächsten Generation
Sprache Modellname Unterstützung für geringe Latenzzeit Status
Niederländisch
(Niederlande)
nl-NL_Multimedia Ja GA
Englisch
(Australien)
en-AU_Multimedia Ja GA
Englisch
(Großbritannien)
en-GB_Multimedia Ja GA
Englisch
(Vereinigte Staaten)
en-US_Multimedia Ja GA
Französisch
(Kanada)
fr-CA_Multimedia Ja GA
Französisch
(Frankreich)
fr-FR_Multimedia Ja GA
Deutsch de-DE_Multimedia Ja GA
Italienisch it-IT_Multimedia Ja GA
Japanisch ja-JP_Multimedia Ja GA
Koreanisch ko-KR_Multimedia Ja GA
Portugiesisch
(Brasilien)
pt-BR_Multimedia Ja GA
Spanisch
(Kastilisch)
es-ES_Multimedia Ja GA

Das Telefoniemodell für medizinisches Englisch

Die Betaversion der nächsten Generation en-WW_Medical_Telephony erkennt Begriffe aus den Bereichen Medizin und Pharmakologie. Verwenden Sie das Modell zum Transkribieren allgemeiner medizinischer Terminologie wie Namen von Medikamenten, Produktmarken, medizinische Behandlungen, Krankheiten, Arzttypen oder COVID 19--Terminologie.

Häufige Anwendungsfälle sind Gespräche zwischen einem Patienten und einem medizinischen Versorger (z. B. Arzt, Krankenschwester oder Apotheker):

  • "Mein Kopf tut weh. Geben Sie mir bitte Ibuprofen."
  • "Können Sie einen Orthopäden vorschlagen, der auf Arthrose spezialisiert ist?"
  • "Helfen Sie mir bitte, einen Internisten in Chicago zu finden."

Das neue Modell ist für alle unterstützten englischen Dialekte verfügbar: Australien, Indien, Großbritannien und USA. Das neue Modell unterstützt die Sprachmodellanpassung und Grammatiken als Betafunktionen. Es unterstützt überwiegend die gleichen Parameter wie das Modell en-US_Telephony, einschließlich smart_formatting für Audiodaten in amerikanischem Englisch. Neben den in Unterstützte Funktionen für Modelle der nächsten Generationaufgelisteten Features, bietet das Modell jedoch keine Unterstützung für die Parameter profanity_filter, redaction und speaker_labels.

Unterstützte Funktionen für Modelle der nächsten Generation

Die Modelle der nächsten Generation werden für die Verwendung mit einem großen Teil der Spracherkennungsfunktionen des Service unterstützt. Falls eine unterstützte Funktion auf bestimmte Sprachen beschränkt ist, gelten in der Regel die gleichen Spracheinschränkungen für Modelle der vorherigen und der nächsten Generation.

  • Weitere Informationen zu den Parametern, die Sie mit Modellen der nächsten Generation verwenden können, einschließlich der zugehörigen Sprachunterstützung und der Einstufung als allgemein verfügbare Parameter oder Parameter der Betaversion, finden Sie in Parameterübersicht.
  • Weitere Informationen zur Unterstützung der Anpassung von Modellen der nächsten Generation finden Sie unter Anpassungsunterstützung für Modelle der nächsten Generation.

Modelle der nächsten Generation unterstützen alle Spracherkennungsparameter und Header Ausnahme für Folgendes:

  • acoustic_customization_id (Modelle der nächsten Generation unterstützen nicht die Anpassung des akustischen Modells.)
  • keywords und keywords_threshold
  • processing_metrics und processing_metrics_interval
  • word_alternatives_threshold

Modelle der nächsten Generation unterstützen auch die folgenden Parameter, die bei Modellen der vorherigen Generation nicht verfügbar sind:

  • character_insertion_bias, das von allen Modellen der nächsten Generation unterstützt wird. Weitere Informationen finden Sie unter Zeicheneinfügeabweichung.
  • low_latency wird von den meisten Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie unter Geringe Latenzzeit.

Modelle der nächsten Generation unterscheiden sich auch im Hinblick auf die folgenden zusätzlichen Merkmale von Modellen der vorherigen Generation:

  • Modelle der nächsten Generation erzeugen keine Verzögerungsmarkierungen. Sie enthalten stattdessen die tatsächlichen Bedenken in den Transkriptionsergebnissen. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
  • Modelle der nächsten Generation unterstützen die automatische Großschreibung nur für Modelle in deutscher Sprache. Modelle früherer Generationen unterstützen die automatische Anpassung nur für Modelle in amerikanischem Englisch. Weitere Informationen finden Sie unter Groß-/Kleinschreibung.