IBM Cloud Docs
Releaseinformationen für Speech to Text for IBM Cloud

Releaseinformationen für Speech to Text for IBM Cloud

IBM Cloud

Die folgenden Funktionen und Änderungen wurden für jede Version und jedes Update von verwalteten Instanzen von IBM Watson® Speech to Text, die auf IBM Cloud gehostet werden, oder für Instanzen, die auf IBM Cloud Pak for Data als Service gehostet werden, aufgenommen. Sofern nicht anders angegeben, sind alle Änderungen mit früheren (älteren) Versionen kompatibel und werden für alle neuen und vorhandenen Anwendungen automatisch und transparent verfügbar gemacht.

Informationen zu bekannten Einschränkungen des Service finden Sie unter Bekannte Einschränkungen.

Informationen zu Releases und Aktualisierungen des Service für IBM Cloud Pak for Data finden Sie unter Releaseinformationen für Speech to Text for IBM Cloud Pak for Data.

19. November 2024

Neues großes Sprachmodell für Deutsch ist jetzt allgemein verfügbar

Das große Sprachmodell für Deutsch ist jetzt allgemein verfügbar.

23. August 2024

Alle Large-Speech-Modelle sind jetzt allgemein verfügbar

Die großen Sprachmodelle für alle Sprachen sind jetzt allgemein verfügbar (GA). Sie werden für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.

18. Juni 2024

Neue große Sprachmodelle für brasilianisches Portugiesisch und Spanisch sind jetzt in der offenen Betaversion verfügbar

Die großen Sprachmodelle für brasilianisches Portugiesisch und Spanisch sind jetzt in der Open Beta. Spanisch umfasst die kastilischen, argentinischen, chilenischen, kolumbianischen, mexikanischen und peruanischen Dialekte.

15. Mai 2024

Großes Sprachmodell für Englisch ist jetzt allgemein verfügbar

Das große Sprachmodell für Englisch, das die Dialekte der Vereinigten Staaten, Australiens, Indiens und des Vereinigten Königreichs enthält, ist jetzt allgemein verfügbar (GA). Es wird für den Einsatz in Produktionsumgebungen und -anwendungen unterstützt.

07. März 2024

Großes Sprachmodell für amerikanisches Englisch in Open Beta
Das neue Large-Speech-Modell für US-Englisch ist in der offenen Beta-Phase. Weitere Details zu unterstützten Features (Betaversion) finden Sie unter Large speech languages and models.

30. November 2023

Speech to Text-Parameter "speech_begin_event"

Mit diesem Parameter kann die Client-Anwendung erkennen, dass einige Wörter oder Sprache erkannt wurden und Speech to Text gerade dekodiert wird. Weitere Informationen finden Sie unter Spracherkennungsparameter verwenden.

Parameter 'mapping_only' für angepasste Wörter

Mit dem Parameter "mapping_only" können Sie benutzerdefinierte Wörter direkt verwenden, um "sounds_like" (oder Wort) auf den "display_as"-Wert als Post-Processing statt als Training abzubilden. Weitere Informationen finden Sie unter The words resource.

Siehe die Leitlinien für Nichtjapanisch und Japanisch.

Unterstützung für Brasilianisch-Portugiesisch und Französisch-Kanada bei der Anpassung eines neuen Sprachmodells der nächsten Generation

Die Sprachmodellanpassung für brasilianisch-portugiesische und französisch-kanadische Modelle der nächsten Generation wurde kürzlich hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.

Neue Funktion für intelligente Formatierung

Eine neue intelligente Formatierungsfunktion für Modelle der nächsten Generation wird in amerikanischem Englisch, brasilianischem Portugiesisch, Französisch und Deutsch unterstützt. Weitere Informationen finden Sie unter Version der intelligenten Formatierung.

Unterstützung für Spanisch (Kastilisch) und Spanisch (LATAM) bei der neuen verbesserten Anpassung des Sprachmodells der nächsten Generation

Die Sprachmodellanpassung für kastilische Spanisch-und LATAM-Spanisch-Modelle der nächsten Generation wurde hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.

Große Sprachmodelle für Englisch, Japanisch und Französisch - für frühen Zugang

Für die Frühzugriffsfunktion sind Large Speech Models für Englisch, Japanisch und Französisch in IBM Watson Speech-to-Text und IBM watsonx Assistantfür Sie verfügbar. Das Feature-Set für diese Large Speech-Modelle ist begrenzt, aber genauer als Modelle der nächsten Generation und aufgrund der kleineren Größe und besseren Streaming-Modus-Funktionalität schneller und kostengünstiger auszuführen.

Wenn Sie daran interessiert sind, diese Basismodelle zu testen und Ergebnisse und Feedback zu teilen, wenden Sie sich an unser Produktmanagementteam, indem Sie dieses Formular ausfüllen.

28. Juli 2023

Wichtig: Alle Modelle der Vorgängergeneration werden ab 1. August 2023 eingestellt.
Wichtig: Der Service wird jetzt für alle Modelle der vorherigen Generation eingestellt. Neue Clients dürfen jetzt nur die Modelle der nächsten Generation verwenden. Alle vorhandenen Clients müssen jetzt auf das entsprechende Modell der nächsten Generation migrieren. Weitere Informationen zu allen Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation. Weitere Informationen zur Migration auf Modelle der nächsten Generation finden Sie unter Auf Modelle der nächsten Generation migrieren.

9. Juni 2023

Fehlerkorrektur: Das Erstellen und Trainieren eines angepassten Sprachmodells ist jetzt optimal für Standardmodelle und Modelle der nächsten Generation mit niedriger Latenz.
Fehlerkorrektur: Wenn Sie ein angepasstes Sprachmodell mit Korpora-Textdateien und/oder angepassten Wörtern unter Verwendung eines Modells der nächsten Generation mit niedriger Latenzzeit erstellen und trainieren, arbeitet es jetzt auf dieselbe Weise wie bei einem Standardmodell. Bisher war es nur bei Verwendung eines Modells der nächsten Generation mit niedriger Latenzzeit nicht optimal.
Fehlerkorrektur: STT Websockets-Sitzungen schlagen aufgrund einer Tensorfehlernachricht nicht mehr fehl
Fehlerkorrektur: Bei Verwendung von STT-Websockets schlagen Sitzungen nicht mehr aufgrund einer Fehlernachricht fehl: "STT gibt den Fehler zurück: Die Größen von Tensoren müssen übereinstimmen, außer in Dimension 0".

18. Mai 2023

Aktualisierungen des englischen Modells für medizinische Telefonie der nächsten Generation

Das englische medizinische Telefoniemodell der nächsten Generation wurde für eine verbesserte Spracherkennung aktualisiert:

  • en-WW_Medical_Telephony
Unterstützung für Französisch und Deutsch für neue verbesserte Sprachmodellanpassung der nächsten Generation hinzugefügt

Die Sprachmodellanpassung für französische und deutsche Modelle der nächsten Generation wurde kürzlich hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.

Weitere Informationen zur verbesserten Anpassung der nächsten Generation finden Sie unter

Fehlerkorrektur: Benutzerdefinierte Wörter, die Katakana-Zeichen mit halber Breite enthalten, geben jetzt eine klare Fehlernachricht mit dem japanischen Telefonmodell zurück

Fehlerkorrektur: Gemäß der -Dokumentation werden nur Katakana-Zeichen mit voller Breite in angepassten Wörtern akzeptiert und die Modelle der nächsten Generation zeigen jetzt eine Fehlernachricht an, um zu erklären, dass sie nicht unterstützt werden. Bisher wurde beim Erstellen angepasster Wörter mit Katakana-Zeichen mit halber Breite keine Fehlernachricht angezeigt.

Fehlerkorrektur: Japanisches Telefonsprachmodell schlägt aufgrund langer Trainingszeit nicht mehr fehl

Fehlerkorrektur: Beim Trainieren eines angepassten Sprachmodells mit der japanischen Telefonie verarbeitet der Service jetzt effektiv eine große Anzahl angepasster Wörter, ohne dass ein Fehler auftritt.

2. Mai 2023

Neue Prozedur für das Upgrade eines angepassten Modells, das auf einem verbesserten Modell der nächsten Generation basiert

Es gibt jetzt zwei Ansätze, um ein angepasstes Sprachmodell auf ein verbessertes Basismodell der nächsten Generation zu aktualisieren. Sie können das angepasste Modell weiterhin ändern und anschließend erneut trainieren, wie bereits dokumentiert. Jetzt können Sie das angepasste Modell aber auch aktualisieren, indem Sie den Abfrageparameter force=true in die Anforderung POST /v1/customizations/{customization_id}/train einschließen. Der Parameter force aktualisiert das angepasste Modell unabhängig davon, ob es Änderungen enthält (befindet sich im Status ready oder available ).

Weitere Informationen finden Sie unter Upgrade eines angepassten Sprachmodells auf der Basis eines verbesserten Modells der nächsten Generation durchführen.

Anleitung zum Hinzufügen von Wörtern zu angepassten Modellen, die auf verbesserten Modellen der nächsten Generation basieren

Die Dokumentation bietet jetzt weitere Anleitungen zum Hinzufügen von Wörtern zu angepassten Modellen, die auf verbesserten Modellen der nächsten Generation basieren. Aus Leistungsgründen während des Trainings fördert die Anleitung die Verwendung von Korpora anstelle des direkten Hinzufügens benutzerdefinierter Wörter, wann immer dies möglich ist.

Weitere Informationen finden Sie unter Richtlinien für das Hinzufügen von Wörtern zu angepassten Modellen auf der Basis verbesserter Modelle der nächsten Generation.

Angepasste japanische Wörter für angepasste Modelle, die auf verbesserten Modellen der nächsten Generation basieren, werden anders behandelt

Bei angepassten japanischen Modellen, die auf Modellen der nächsten Generation basieren, werden angepasste Wörter anders behandelt als andere Sprachen. Für Japanisch können Sie ein angepasstes Wort oder ein gleich klingendes Wort hinzufügen, das nicht länger als 25 Zeichen ist. Wenn Ihr angepasstes Wort oder Ihr gleich klingendes Wort diesen Grenzwert überschreitet, fügt der Service das Wort zum angepassten Modell hinzu, als wäre es durch ein Korpus hinzugefügt worden. Das Wort wird nicht als angepasstes Wort für das Modell angezeigt.

Weitere Informationen finden Sie unter Richtlinien zum Hinzufügen von Wörtern zu japanischen Modellen basierend auf verbesserten Modellen der nächsten Generation.

12. April 2023

Fehlerkorrektur: Die Schnittstelle WebSocket überschreitet jetzt das erwartete Zeitlimit, wenn Modelle der nächsten Generation verwendet werden.
Fehlerkorrektur: Bei Verwendung für die Spracherkennung mit Modellen der nächsten Generation überschreitet die WebSocket-Schnittstelle das erwartete Zeitlimit nach langer Sprechpause. Bisher konnte die WebSocket-Sitzung bei der Spracherkennung kurzer Audiodateien das Zeitlimit möglicherweise nicht erreichen. Wenn das Zeitlimit für die Sitzung nicht überschritten wurde, gab der Service keine endgültige Hypothese an die wartende Clientanwendung zurück und der Client hat stattdessen beim Warten auf die Ergebnisse das Zeitlimit überschritten.

6. April 2023

Fehlerkorrektur: Grenzwerte für den Abschluss des Trainings für angepasste japanische Modelle der nächsten Generation
Fehlerkorrektur: Das erfolgreiche Training eines angepassten japanischen Sprachmodells der nächsten Generation erfordert, dass angepasste Wörter und Klänge, die dem Modell hinzugefügt werden, nicht mehr als 25 Zeichen enthalten. Für das effektivste Training wird empfohlen, dass benutzerdefinierte Wörter und Sounds nicht mehr als 20 Zeichen enthalten. Das Training von japanischen angepassten Modellen mit längeren angepassten Wörtern und Klängen-Likes wird nach mehreren Stunden des Trainings nicht abgeschlossen.

Führen Sie die folgenden Schritte aus, wenn Sie das Äquivalent eines langen Wortes oder eines Klangs zu einem angepassten Modell der nächsten Generation in Japanisch hinzufügen müssen:

  1. Fügen Sie dem angepassten Modell ein kürzeres Wort oder einen Klang hinzu, das bzw. der die Essenz des längeren Wortes oder des Klangs erfasst.
  2. Fügen Sie einen oder mehrere Sätze hinzu, die das längere Wort verwenden oder wie ein Korpus klingen.
  3. Fügen Sie dem Korpus Sätze hinzu, die mehr Kontext für das Wort oder das gleich klingende Wort bieten. Ein größerer Kontext gibt dem Service mehr Informationen, mit denen das Wort erkannt und das richtige gleich klingende Wort angewendet werden kann.
  4. Fügen Sie das Korpus zum benutzerdefinierten Modell hinzu.
  5. Trainieren Sie das angepasste Modell mit der Kombination aus dem kürzeren Wort oder dem gleich klingenden Korpus und dem Korpus, das die längere Zeichenfolge enthält.

Die soeben beschriebenen Begrenzungen und Schritte ermöglichen die Ausführung des Trainings für angepasste japanische Modelle der nächsten Generation. Beachten Sie, dass das Hinzufügen einer großen Anzahl neuer angepasster Wörter zu einem angepassten Sprachmodell die Trainingszeit des Modells verlängert. Die erhöhte Trainingszeit tritt jedoch nur auf, wenn das angepasste Modell zum ersten Mal mit den neuen Wörtern trainiert wird. Sobald das angepasste Modell mit den neuen Wörtern trainiert wurde, wird die Trainingszeit wieder normal.

For more information, see
-   [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
-   [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
-   [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
-   [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)
Weitere Verbesserungen bei der aktualisierten Sprachmodellanpassung der nächsten Generation
Die Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation wurde kürzlich verbessert. Diese Serviceaktualisierung enthält weitere interne Verbesserungen. Weitere Informationen zur verbesserten Anpassung der nächsten Generation finden Sie unter

13. März 2023

Fehlerkorrektur: Intelligente Formatierung für Datumsangaben in amerikanischem Englisch ist jetzt korrekt
Fehlerkorrektur: Die intelligente Formatierung enthält jetzt ordnungsgemäß Wochentage und Datumsangaben, wenn beide in den gesprochenen Audiodaten vorhanden sind, z. B. Tuesday February 28. Bisher wurde in einigen Fällen der Wochentag weggelassen und das Datum falsch dargestellt. Beachten Sie, dass die intelligente Formatierung die Betafunktionalität ist.
Fehlerkorrektur: Dokumentation für Wörter mit Sprachzögerung für Modelle der nächsten Generation aktualisieren
Fehlerkorrektur: Die Dokumentation für Wörter mit Sprachzögerung für Modelle der nächsten Generation wurde aktualisiert. Weitere Details werden über zögerliche Wörter in amerikanischem Englisch und Japanisch bereitgestellt. Modelle der nächsten Generation enthalten die tatsächlichen zögerlichen Wörter in Transkriptionsergebnissen, im Gegensatz zu Modellen der vorherigen Generation, die nur zögerliche Marker enthalten. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.

27. Februar 2023

Neues japanisches Telefoniemodell der nächsten Generation

Der Dienst bietet jetzt ein Telefoniemodell der nächsten Generation für Japaner an: ja-JP_Telephony. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter

Verbesserte Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation

Der Service bietet jetzt eine verbesserte Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation:

  • en-AU_Multimedia
  • en-AU_Telephony
  • en-IN_Telephony
  • en-GB_Multimedia
  • en-GB_Telephony
  • en-US_Multimedia
  • en-US_Telephony
  • ja-JP_Multimedia
  • ja-JP_Telephony

Sichtbare Verbesserungen an den Modellen: Die neue Technologie verbessert das Standardverhalten der neuen englischen und japanischen Modelle. Neben anderen Änderungen optimiert die neue Technologie das Standardverhalten für die folgenden Parameter:

  • Der Standardwert customization_weight für angepasste Modelle, die auf den neuen Versionen dieser Modelle basieren, wird von 0.2 in 0.1 geändert.
  • Der Standardwert character_insertion_bias für angepasste Modelle, die auf den neuen Versionen dieser Modelle basieren, bleibt 0.0, aber die Modelle wurden auf eine Weise geändert, die die Verwendung des Parameters für die Spracherkennung weniger erforderlich macht.

Upgrade auf die neuen Modelle: Um die Vorteile der verbesserten Technologie nutzen zu können, müssen Sie alle angepassten Sprachmodelle, die auf den neuen Modellen basieren, aktualisieren. Gehen Sie wie folgt vor, um ein Upgrade auf die neue Version eines dieser Basismodelle durchzuführen:

  1. Ändern Sie Ihr angepasstes Modell, indem Sie ein angepasstes Wort, einen angepassten Korpus oder eine angepasste Grammatik hinzufügen oder ändern, die das Modell enthält. Jede Änderung, die Sie vornehmen, versetzt das Modell in den Status ready.

  2. Verwenden Sie die Methode POST /v1/customizations/{customization_id}/train, um das Modell erneut zu trainieren. Beim erneuten Training wird das angepasste Modell auf die neue Technologie aktualisiert und das Modell in den Status available versetzt.

    Bekanntes Problem: Derzeit können Sie die Methode POST /v1/customizations/{customization_id}/upgrade_model nicht verwenden, um ein Upgrade eines angepassten Modells auf eines der neuen Basismodelle durchzuführen. Dieses Problem wird in einer zukünftigen Version behoben.

Verwendung der neuen Modelle: Nach dem Upgrade auf das neue Basismodell sollten Sie die Leistung des aktualisierten angepassten Modells bewerten, indem Sie den Parametern customization_weight und character_insertion_bias für die Spracherkennung besondere Aufmerksamkeit schenken. Wenn Sie Ihr angepasstes Modell erneut trainieren:

  • Das angepasste Modell verwendet den neuen Standardwert customization_weight von 0.1 für Ihr angepasstes Modell. Eine vom Standard abweichende customization_weight, die Sie Ihrem angepassten Modell zugeordnet hatten, wird entfernt.
  • Das angepasste Modell erfordert möglicherweise nicht mehr die Verwendung des Parameters character_insertion_bias für eine optimale Spracherkennung.

Verbesserungen bei der Sprachmodellanpassung machen diese Parameter für eine qualitativ hochwertige Spracherkennung weniger wichtig:

  • Wenn Sie die Standardwerte für diese Parameter verwenden, fahren Sie nach dem Upgrade fort. Die Standardwerte bieten wahrscheinlich weiterhin die besten Ergebnisse für die Spracherkennung.
  • Wenn Sie für diese Parameter vom Standard abweichende Werte angeben, experimentieren Sie nach dem Upgrade mit den Standardwerten. Ihr angepasstes Modell funktioniert möglicherweise gut für die Spracherkennung mit den Standardwerten.

Wenn Sie der Meinung sind, dass die Verwendung unterschiedlicher Werte für diese Parameter die Spracherkennung mit Ihrem angepassten Modell verbessern könnte, experimentieren Sie mit inkrementellen Änderungen, um festzustellen, ob die Parameter zur Verbesserung der Spracherkennung erforderlich sind.

Hinweis: Zu diesem Zeitpunkt gelten die Verbesserungen bei der Sprachmodellanpassung nur für angepasste Modelle, die auf den zuvor aufgelisteten englischen oder japanischen Basissprachmodellen der nächsten Generation basieren. Im Laufe der Zeit werden die Verbesserungen für andere Sprachmodelle der nächsten Generation verfügbar gemacht.

Weitere Informationen: Weitere Informationen zum Upgrade und zur Spracherkennung mit diesen Parametern finden Sie unter

Fehlerkorrektur: Grammatikdateien verarbeiten jetzt Zeichenfolgen von Ziffern korrekt

Fehlerkorrektur: Wenn Grammatiken verwendet werden, verarbeitet der Service jetzt längere Zeichenfolgen mit Ziffern ordnungsgemäß. Bisher konnte die Erkennung nicht abgeschlossen werden oder es wurden falsche Ergebnisse zurückgegeben.

15. Februar 2023

Wichtig: Alle Modelle der vorherigen Generation sind veraltet und werden am 31. Juli 2023 das Ende des Servicezeitraums erreichen

Wichtig: Alle Modelle der vorherigen Generation sind veraltet und erreichen das Ende des Servicezeitraums ab 31. Juli 2023. An diesem Datum werden alle Modelle der vorherigen Generation aus dem Service und der Dokumentation entfernt. Das vorherige Nichtweiterverwendungsdatum war der 3. März 2023. Das neue Datum ermöglicht Benutzern mehr Zeit für die Migration auf die entsprechenden Modelle der nächsten Generation. Benutzer müssen jedoch bis zum 31. Juli 2023 auf das entsprechende Modell der nächsten Generation migrieren.

Die meisten Modelle der Vorgängergeneration wurden am 15. März 2022 als veraltet markiert. Bisher waren die arabischen und japanischen Modelle nicht veraltet. Die Einstellung der Unterstützung gilt jetzt für alle Modelle der vorherigen Generation.

Hinweis: Wenn die vorherige Generation en-US_BroadbandModel außer Betrieb genommen wird, wird das Modell der nächsten Generation en-US_Multimedia das Standardmodell für Spracherkennungsanfragen.

Fehlerkorrektur: Verbesserte Trainingszeit für angepasste Sprachmodelle der nächsten Generation

Fehlerkorrektur: Die Trainingszeit für angepasste Sprachmodelle der nächsten Generation wurde jetzt deutlich verbessert. Bisher dauerte die Trainingszeit viel länger als nötig, wie für das Training von angepassten japanischen Sprachmodellen berichtet wurde. Das Problem wurde durch einen internen Fix behoben.

Fehlerkorrektur: Dynamisch generierte Grammatikdateien funktionieren jetzt ordnungsgemäß

Fehlerkorrektur: Dynamisch generierte Grammatikdateien funktionieren jetzt ordnungsgemäß. Bisher konnten dynamische Grammatikdateien zu internen Fehlern führen, die für die Integration von Speech to Text in IBM® watsonx™ Assistantgemeldet wurden. Das Problem wurde durch einen internen Fix behoben.

20 Januar 2023

Veraltete arabische und britische Modellnamen sind nicht mehr verfügbar

Die folgenden arabischen und britischen Modellnamen werden vom Service nicht mehr akzeptiert:

  • ar-AR_BroadbandModel-Verwenden Sie stattdessen ar-MS_BroadbandModel.
  • en-UK_NarrowbandModel-Verwenden Sie stattdessen en-GB_NarrowbandModel.
  • en-UK_BroadbandModel-Verwenden Sie stattdessen en-GB_BroadbandModel.

Der arabische Modellname wird am 2. Dezember 2020 nicht mehr verwendet. Die britischen englischen Modellnamen wurden am 14. Juli 2017 nicht mehr verwendet.

Einstellung der Unterstützung für Cloud Foundry und Migration auf Ressourcengruppen

{{{site.data.keyword.IBM_notm}} kündigte die Abschaffung von IBM Cloud Foundry zum 31. Mai 2022 an. Ab dem 30. November 2022 können neue IBM Cloud Foundry nicht mehr erstellt werden und nur noch bestehende Nutzer können Anwendungen bereitstellen. IBM Cloud Foundry erreicht das Ende des Supports am 1. Juni 2023. Zu diesem Zeitpunkt werden alle IBM Cloud Foundry, auf denen IBM Cloud Foundry werden dauerhaft deaktiviert, deprovisioniert und gelöscht.

Um Ihre IBM Cloud über den 1. Juni 2023 hinaus nutzen zu können, müssen Sie vor diesem Datum zu Ressourcengruppen migrieren. Ressourcengruppen sind konzeptionell ähnlich wie Cloud Foundry. Sie bieten mehrere zusätzliche Vorteile, wie z. B. eine feinere Zugriffskontrolle durch IBM Cloud Identity and Access Management (IAM), die Möglichkeit, Service-Instanzen mit Anwendungen und Diensten über verschiedene Regionen hinweg zu verbinden, und eine einfache Möglichkeit, die Nutzung pro Gruppe anzuzeigen.

Der Parameter max_alternatives ist jetzt für die Verwendung mit Modellen der nächsten Generation verfügbar

Der Parameter max_alternatives ist jetzt für alle Modelle der nächsten Generation verfügbar. Der Parameter ist generell für alle Modelle der nächsten Generation verfügbar. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl Alternativen.

Fehlerkorrektur: Verwendung der Parameter max_alternatives und end_of_phrase_silence_time bei Modellen der nächsten Generation zulassen

Fehlerkorrektur: Wenn Sie sowohl die Parameter max_alternatives als auch end_of_phrase_silence_time in derselben Anforderung mit Modellen der nächsten Generation verwenden, gibt der Service jetzt mehrere alternative Transkripte zurück und berücksichtigt gleichzeitig das angegebene Pausenintervall. Bisher hat die Verwendung der beiden Parameter in einer einzelnen Anforderung einen Fehler generiert. (Die Verwendung des Parameters max_alternatives mit Modellen der nächsten Generation war zuvor als experimentelle Funktion für eine begrenzte Anzahl von Kunden verfügbar.)

Fehlerkorrektur: Aktualisierung des kanadischen Telefoniemodells der nächsten Generation in Französisch (Upgrade erforderlich)

Fehlerkorrektur: Das französische Telefonmodell der nächsten Generation, fr-CA_Telephony, wurde aktualisiert, um eine interne Inkonsistenz zu beheben, die während der Spracherkennung einen Fehler verursachen könnte. Sie müssen alle angepassten Modelle aktualisieren, die auf dem fr-CA_Telephony-Modell basieren. Weitere Informationen zur Aktualisierung von benutzerdefinierten Modellen finden Sie unter

Fehlerkorrektur: Hinzufügen von Dokumentationsrichtlinien für die Erstellung japanischer Klänge auf der Basis von Modellen der nächsten Generation

Fehlerkorrektur: In "sounds-likes" für angepasste japanische Sprachmodelle, die auf Modellen der nächsten Generation basieren, ist die Zeichenfolge ウー in einigen linken Kontexten mehrdeutig. Verwenden Sie keine Zeichen (Silben), die mit dem Phonem /o/ enden, z. B. und . Verwenden Sie in solchen Fällen ウウ oder einfach anstelle von ウー. Verwenden Sie beispielsweise ロウウマン oder ロウマン anstelle von ロウーマン. Weitere Informationen finden Sie unter Richtlinien für Japanisch.

Das direkte Hinzufügen von Wörtern zu angepassten Modellen, die auf Modellen der nächsten Generation basieren, erhöht die Trainingszeit

Wenn Sie angepasste Wörter direkt zu einem angepassten Modell hinzufügen, das auf einem Modell der nächsten Generation basiert, dauert das Training eines Modells einige Minuten länger als sonst. Wenn Sie ein Modell mit angepassten Wörtern trainieren, die Sie mithilfe der Methode POST /v1/customizations/{customization_id}/words oder PUT /v1/customizations/{customization_id}/words/{word_name} hinzugefügt haben, planen Sie einige Minuten zusätzliche Trainingszeit für das Modell ein. Weitere Informationen finden Sie

Die maximale Anzahl an Audioressourcen für angepasste Akustikmodelle am Standort Tokio wurde erhöht.

Die maximale Anzahl an Stunden für Audioressourcen, die Sie angepassten Akustikmodellen am Standort Tokio hinzufügen können, beträgt wieder 200 Stunden. Zuvor wurde das Maximum für die Region Tokio auf 50 Stunden reduziert. Diese Kürzung wurde aufgehoben und auf das nächste Jahr verschoben. Weitere Informationen finden Sie unter Maximale Anzahl Audiostunden.

5. Dezember 2022

Neues niederländisches Multimedia-Modell der nächsten Generation
Der Dienst bietet jetzt ein Multimedia-Modell der nächsten Generation für Niederländisch an: nl-NL_Multimedia. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter
Fehlerkorrektur: Angepasste Worterkennung in Transkriptionsergebnissen für Modelle der nächsten Generation korrigieren
Fehlerkorrektur: Für die Sprachmodellanpassung mit Modellen der nächsten Generation werden angepasste Wörter jetzt erkannt und in allen Transkriptionen verwendet. Bisher konnten angepasste Wörter manchmal nicht erkannt und in Transkriptionsergebnissen verwendet werden.
Fehlerkorrektur: Korrekte Verwendung des Felds display_as in Transkriptionsergebnissen für Modelle der nächsten Generation
Fehlerkorrektur: Für die Sprachmodellanpassung mit Modellen der nächsten Generation wird der Wert des Felds display_as für ein angepasstes Wort jetzt in allen Transkripten angezeigt. Bisher erschien der Wert des Felds word manchmal in Transkriptionsergebnissen.
Fehlerkorrektur: Dokumentation zur Benennung angepasster Modelle aktualisieren
Fehlerkorrektur: Die Dokumentation enthält jetzt detaillierte Regeln für die Benennung angepasster Sprachmodelle und angepasster Akustikmodelle. Weitere Informationen finden Sie

20 Oktober 2022

Updates für englische Telefoniemodelle der nächsten Generation

Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Fehlerkorrektur: Aktualisieren des japanischen Multimedia-Modells der nächsten Generation (Upgrade erforderlich)

Fehlerkorrektur: Das japanische Multimediamodell der nächsten Generation, ja-JP_Multimedia, wurde aktualisiert, um eine interne Inkonsistenz zu beheben, die während der Spracherkennung mit geringer Latenz einen Fehler verursachen könnte. Sie müssen alle angepassten Modelle aktualisieren, die auf dem ja-JP_Multimedia-Modell basieren. Weitere Informationen zur Aktualisierung von benutzerdefinierten Modellen finden Sie unter

7. Oktober 2022

Neues schwedisches Telefoniemodell der nächsten Generation

Der Dienst bietet jetzt ein Telefoniemodell der nächsten Generation für Schweden an: sv-SE_Telephony. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter

Updates für englische Telefoniemodelle der nächsten Generation

Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

21. September 2022

Neues Activity Tracker-Ereignis zum Löschen von Benutzerinformationen in der DSGVO

Der Service gibt jetzt ein Ereignis Activity Tracker zurück, wenn Sie die Methode DELETE /v1/user_data verwenden, um alle Informationen zu einem Benutzer zu löschen. Das Ereignis hat den Namen speech-to-text.gdpr-user-data.delete. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse.

Fehlerkorrektur: Aktualisieren Sie einige Modelle der nächsten Generation, um die Antwortzeit mit niedriger Latenz zu verbessern.

Fehlerkorrektur: Die folgenden Modelle der nächsten Generation wurden aktualisiert, um ihre Antwortzeit zu verbessern, wenn der Parameter low_latency verwendet wird:

  • en-IN_Telephony
  • hi-IN_Telephony
  • it-IT_Multimedia
  • nl-NL_Telephony

Bisher haben diese Modelle Erkennungsergebnisse nicht so schnell wie erwartet zurückgegeben, als der Parameter low_latency verwendet wurde. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

19. August 2022

Wichtig: Das Datum der Einstellung der Unterstützung für die meisten Modelle der Vorgängergeneration ist jetzt der 3 März 2023.

Ersetzt: Diese Benachrichtigung über veraltete Features wird durch die Serviceaktualisierung vom 15. Februar 2023 ersetzt. Das Enddatum des Servicezeitraums für alle Modelle der vorherigen Generation ist jetzt 31. Juli 2023.

Am 15. März 2022 wurden die Modelle der vorherigen Generation für alle Sprachen außer Arabisch und Japanisch abgeschafft. Zu diesem Zeitpunkt sollten die veralteten Modelle bis zum 15. September 2022 verfügbar bleiben. Damit Benutzer mehr Zeit für die Migration auf die entsprechenden Modelle der nächsten Generation haben, bleiben die veralteten Modelle bis 3. März 2023 verfügbar. Wie beim ersten Hinweis zu veralteten Versionen sind die arabischen und japanischen Modelle der vorherigen Generation nicht veraltet. Eine vollständige Liste aller veralteten Modelle finden Sie unter 15. März 2022-Serviceaktualisierung.

Am 3. März 2023 werden die veralteten Modelle aus dem Service und der Dokumentation entfernt. Wenn Sie eines der veralteten Modelle verwenden, müssen Sie bis zum 3. März 2023 auf das entsprechende Modell der nächsten Generation umsteigen.

Hinweis: Wenn die vorherige Generation en-US_BroadbandModel außer Betrieb genommen wird, wird das Modell der nächsten Generation en-US_Multimedia das Standardmodell für Spracherkennungsanfragen.

15. August 2022

Neues französisches Multimediamodell der nächsten Generation in Kanada

Der Dienst bietet jetzt ein Multimediamodell der nächsten Generation für Französisch-Kanadier: fr-CA_Multimedia. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter

Updates für englische Telefoniemodelle der nächsten Generation

Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony

Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Italienisches Multimedia-Modell der nächsten Generation unterstützt jetzt niedrige Latenzzeiten

Das italienische Multimedia-Modell der nächsten Generation, it-IT_Multimedia, unterstützt jetzt eine geringe Latenz. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter

Wichtig: Maximale Anzahl an Stunden, die Audiodaten für angepasste Akustikmodelle reduziert werden

Wichtig: Die maximale Menge an Audiodaten, die Sie einem angepassten Akustikmodell hinzufügen können, wird von 200 Stunden auf 50 Stunden reduziert. Diese Änderung wird von August bis September 2022 an verschiedenen Orten durchgeführt. Informationen zum Zeitplan für die Reduzierung des Grenzwerts und dessen Bedeutung für vorhandene angepasste Akustikmodelle, die mehr als 50 Audiostunden enthalten, finden Sie unter Maximale Audiostunden.

3. August 2022

Fehlerkorrektur: Aktualisieren Sie die Dokumentation für Sprachzögerungen und Stockungsmarkierungen.

Fehlerkorrektur: Die Dokumentation für Sprachzögerungen und Stockungsmarkierungen wurde aktualisiert. Modelle der vorherigen Generation enthalten Hesitation-Marker anstelle von Sprachzögerungen in Transkriptionsergebnissen für die meisten Sprachen; die intelligente Formatierung entfernt Hesitation-Marker aus finalen Transkripten in amerikanischem Englisch. Modelle der nächsten Generation enthalten die tatsächlichen Sprachzögernisse in Transkriptionsergebnissen. Die intelligente Formatierung hat keinen Einfluss auf ihre Einbeziehung in endgültige Transkriptionsergebnisse.

Weitere Informationen finden Sie unter:

1. Juni 2022

Updates für mehrere Telefoniemodelle der nächsten Generation

Die folgenden Telefoniemodelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:

  • en-AU_Telephony
  • en-GB_Telephony
  • en-IN_Telephony
  • en-US_Telephony
  • ko-KR_Telephony

Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

25. Mai 2022

Neuer Betaparameter character_insertion_bias für Modelle der nächsten Generation

Alle Modelle der nächsten Generation unterstützen jetzt den neuen Betaparameter character_insertion_bias, der mit allen Spracherkennungsschnittstellen verfügbar ist. Standardmäßig wird der Service für jedes einzelne Modell optimiert, um die Erkennung von potenziellen Zeichenfolgen unterschiedlicher Längen auszugleichen. Die modellspezifische Abweichung entspricht 0,0. Die Standardabweichung jedes Modells ist für die meisten Spracherkennungsanforderungen ausreichend.

Für bestimmte Anwendungsfälle ist jedoch die Bevorzugung von Hypothesen mit kürzeren oder längeren Zeichenfolgen von Vorteil. Der Parameter akzeptiert Werte zwischen -1,0 und 1,0, die eine Änderung des Standardwerts eines Modells darstellen. Negative Werte weisen den Service an, kürzere Zeichenfolgen zu bevorzugen. Positive Werte weisen den Service an, längere Zeichenfolgen zu bevorzugen. Weitere Informationen finden Sie unter Zeicheneinfügeabweichung.

19 Mai 2022

Neues italienisches it-IT_Multimedia-Modell der nächsten Generation

Der Service bietet jetzt ein Multimediamodell der nächsten Generation für Italienisch: it-IT_Multimedia. Das neue Modell ist allgemein verfügbar. Es unterstützt keine geringe Latenzzeit, aber es unterstützt die Sprachmodellanpassung und Grammatiken. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Aktualisierte koreanische Telefonie- und Multimediamodelle der nächsten Generation

Die bestehenden koreanischen Modelle der nächsten Generation wurden aktualisiert:

  • Das Modell ko-KR_Telephony wurde aktualisiert, um die Unterstützung für Spracherkennung mit geringer Latenzzeit zu verbessern.
  • Das Modell ko-KR_Multimedia wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt jetzt auch geringe Latenzzeiten.

Beide Modelle sind allgemein verfügbar und unterstützen die Anpassung von Sprachmodellen und Grammatiken. Sie müssen keine angepassten Sprachmodelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Fehlerkorrektur: Verlässlichkeitsscores werden jetzt für alle Transkriptionsergebnisse gemeldet

Fehlerkorrektur: Verlässlichkeitsscores werden jetzt für alle Transkriptionsergebnisse gemeldet. Wenn der Service bisher mehrere Transkripte für eine einzelne Spracherkennungsanforderung zurückgegeben hat, wurden möglicherweise nicht für alle Transkripte Verlässlichkeitsscores zurückgegeben.

11. April 2022

Neues pt-BR_Multimedia Modell der nächsten Generation in Portugiesisch (Brasilien)

Der Service bietet jetzt ein Multimediamodell der nächsten Generation für Portugiesisch (Brasilien): pt-BR_Multimedia. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter

Aktualisierung des deutschen de-DE_Multimedia-Modells der nächsten Generation zur Unterstützung geringer Latenzzeiten

Das deutsche Modell de-DE_Multimedia der nächsten Generation unterstützt jetzt geringe Latenzzeit. Sie müssen keine angepassten Modelle aktualisieren, die auf dem aktualisierten deutschen Basismodell basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:

Unterstützung für gleich klingende Modelle ist jetzt für angepasste Modelle auf der Basis von Modellen der nächsten Generation dokumentiert

Für angepasste Sprachmodelle, die auf Modellen der nächsten Generation basieren, ist jetzt die Unterstützung für gleich klingende Spezifikationen für angepasste Wörter dokumentiert. Unterstützung für gleich klingende Spezifikationen gibt es seit Ende 2021.

Es gibt Unterschiede zwischen der Verwendung des Felds sounds_like für angepasste Modelle, die auf Modellen der nächsten Generation und Modellen der vorherigen Generation basieren. Weitere Informationen zur Verwendung des Felds sounds_like mit angepassten Modellen, die auf Modellen der nächsten Generation basieren, finden Sie unter Mit angepassten Wörtern für Modelle der nächsten Generation arbeiten.

Wichtig: Veralteter Parameter customization_id wurde aus der Dokumentation entfernt

Wichtig: Am 9. Oktober 2018 endete die Unterstützung des Parameters customization_id aller Spracherkennungsanforderungen. Er wurde durch den Parameter language_customization_id ersetzt. Der Parameter customization_id wurde aus der Dokumentation für die Spracherkennungsmethoden entfernt:

  • /v1/recognize für WebSocket-Anforderungen
  • POST /v1/recognize für synchrone HTTP-Anforderungen (einschließlich mehrteiliger Anforderungen)
  • POST /v1/recognitions für asynchrone HTTP-Anforderungen

Anmerkung: Wenn Sie die Watson-SDKs verwenden, müssen Sie sicherstellen, dass die Anwendungscodes aktualisiert sind, sodass der Parameter language_customization_id anstelle des Parameters customization_id verwendet wird. Der Parameter customization_id ist ab dem nächsten Hauptrelease nicht mehr über die entsprechenden Methoden der SDKs verfügbar. Weitere Informationen zu den Spracherkennungsmethoden finden Sie in der API-und SDK-Referenz.

17. März 2022

Grammatikunterstützung für Modelle der nächsten Generation ist jetzt allgemein verfügbar

Grammatikunterstützung ist jetzt allgemein verfügbar (General Availability, GA) für Modelle der nächsten Generation, die die folgenden Bedingungen erfüllen:

  • Die Modelle sind allgemein verfügbar.
  • Die Modelle unterstützen die Sprachmodellanpassung.

Weitere Informationen finden Sie in den folgenden Quellen:

Neues Multimediamodell der nächsten Generation für Deutsch

Der Service stellt jetzt ein Multimediamodell der nächsten Generation für Deutsch bereit: de-DE_Multimedia. Das neue Modell ist allgemein verfügbar. Das Modell unterstützt geringe Latenzzeit nicht. Es unterstützt die Sprachmodellanpassung (allgemein verfügbar) und Grammatiken (Betafunktion).

Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation und der zugehörigen Anpassungsunterstützung finden Sie in den folgenden Abschnitten:

Das als Betafunktion bereitgestellte Modell en-WW_Medical_Telephony der nächsten Generation unterstützt jetzt geringe Latenzzeit

Das als Betafunktion bereitgestellte Modell en-WW_Medical_Telephony der nächsten Generation unterstützt jetzt geringe Latenzzeit. Weitere Informationen zu allen Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:

15. März 2022

Wichtig: Die meisten Modelle der vorherigen Generation werden nicht mehr unterstützt.

Ersetzt: Diese Benachrichtigung über veraltete Features wird durch die Serviceaktualisierung vom 15. Februar 2023 ersetzt. Das Enddatum des Servicezeitraums für alle Modelle der vorherigen Generation ist jetzt 31. Juli 2023.

Seit dem 15. März 2022 werden Modelle der vorherigen Generation für alle Sprachen außer Arabisch und Japanisch nicht mehr verwendet. Die veralteten Modelle bleiben bis zum 15. September 2022 verfügbar und werden danach aus dem Service und der Dokumentation entfernt. Die arabischen und japanischen Modelle der vorherigen Generation sind nicht veraltet.

Die folgenden Modelle der vorherigen Generation sind jetzt veraltet:

  • Chinesisch (Mandarin): zh-CN_NarrowbandModel und zh-CN_BroadbandModel
  • Niederländisch (Niederlande): nl-NL_NarrowbandModel und nl-NL_BroadbandModel
  • Englisch (Australien): en-AU_NarrowbandModel und en-AU_BroadbandModel
  • Englisch (Vereinigtes Königreich): en-GB_NarrowbandModel und en-GB_BroadbandModel
  • Englisch (Vereinigte Staaten): en-US_NarrowbandModel, en-US_BroadbandModel und en-US_ShortForm_NarrowbandModel
  • Französisch (Kanada): fr-CA_NarrowbandModel und fr-CA_BroadbandModel
  • Französisch (Frankreich): fr-FR_NarrowbandModel und fr-FR_BroadbandModel
  • Deutsch: de-DE_NarrowbandModel und de-DE_BroadbandModel
  • Italienisch: it-IT_NarrowbandModel und it_IT_BroadbandModel
  • Koreanisch: ko-KR_NarrowbandModel und ko-KR_BroadbandModel
  • Portugiesisch (Brasilien): pt-BR_NarrowbandModel und pt-BR_BroadbandModel
  • Spanisch (Argentinien): es-AR_NarrowbandModel und es-AR_BroadbandModel
  • Spanisch (Kastilien): es-ES_NarrowbandModel und es-ES_BroadbandModel
  • Spanisch (Chile): es-CL_NarrowbandModel und es-CL_BroadbandModel
  • Spanisch (Kolumbien): es-CO_NarrowbandModel und es-CO_BroadbandModel
  • Spanisch (Mexiko): es-MX_NarrowbandModel und es-MX_BroadbandModel
  • Spanisch (Peru): es-PE_NarrowbandModel und es-PE_BroadbandModel

Wenn Sie eines dieser veralteten Modelle verwenden, müssen Sie bis zum Ende des Servicezeitraums auf das entsprechende Modell der nächsten Generation migrieren.

Hinweis: Der Servicezeitraum für das Modell en-US_BroadbandModel der vorherigen Generation endet am 15. September und das Modell en-US_Multimedia der nächsten Generation wird damit zum Standardmodell für Spracherkennungsanforderungen.

Modelle der nächsten Generation unterstützen jetzt Parameter für die Audioanalyse

Alle Modelle der nächsten Generation unterstützen jetzt die folgenden Parameter für Audioanalyse als allgemein verfügbare Funktionen:

  • end_of_phrase_silence_time gibt die Dauer des Pausenintervalls an, nach dem der Service ein Transkript in mehrere Endergebnisse aufteilt. Weitere Informationen finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.
  • split_transcript_at_phrase_end weist den Service an, das Transkript basierend auf semantischen Merkmalen der Eingabe in mehrere Endergebnisse aufzuteilen. Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.
Defekt behoben: Korrekte Dokumentation der Lautsprecherbeschriftung

Fehlerkorrektur: Die Dokumentation für Sprecherbezeichnungen enthielt an mehreren Stellen den folgenden falschen Hinweis: Bei Modellen der nächsten Generation werden Sprecherbezeichnungen für die Verwendung mit Zwischenergebnissen oder geringer Latenzzeit nicht unterstützt. Die Verwendung von Sprecherbezeichnungen mit Zwischenergebnissen und niedriger Latenz für Modelle der nächsten Generation wird unterstützt. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.

28. Februar 2022

Aktualisierungen der englischen und französischen Multimediamodelle der nächsten Generation zur Unterstützung für geringe Latenzzeit

Die folgenden Multimediamodelle wurden aktualisiert, um geringe Latenzzeit zu unterstützen:

  • Englisch (Australien): en-AU_Multimedia
  • Englisch (Vereinigtes Königreich): en-GB_Multimedia
  • Englisch (Vereinige Staaten): en-US_Multimedia
  • Französisch:fr-FR_Multimedia

Sie müssen kein Upgrade für angepasste Sprachmodelle durchführen, die auf diesen Basismodellen basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:

Neues Multimediamodell der nächsten Generation für kastilisches Spanisch

Der Service stellt jetzt ein Multimediamodell der nächsten Generation für kastilisches Spanisch bereit: es-ES_Multimedia. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt außerdem die Sprachmodellanpassung (allgemein verfügbar) und Grammatiken (Betafunktion).

Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation und der zugehörigen Anpassungsunterstützung finden Sie in den folgenden Abschnitten:

11. Februar 2022

Defekt behoben: Korrigierte Dokumentation für benutzerdefinierte Modell-Upgrades und Basismodellversionen

Fehlerkorrektur: Die Beschreibung für das Upgrade angepasster Modelle und die Versionszeichenfolgen für verschiedene Versionen der Basismodelle in der Dokumentation wurden aktualisiert. In der Dokumentation wird jetzt angegeben, dass das Upgrade für die Sprachmodellanpassung auch für Modelle der nächsten Generation gilt. Außerdem wurden die Versionszeichenfolgen für verschiedene Versionen der Basismodelle aktualisiert. Der Parameter base_model_version kann auch für Modelle der nächsten Generation verwendet werden, für die ein Upgrade durchgeführt wurde.

Weitere Informationen zum Upgrade für angepasste Modelle, wann ein Upgrade erforderlich ist und wie Vorgängerversionen angepasster Modelle verwendet werden, finden Sie in den folgenden Abschnitten:

Defekt behoben: Aktualisierung der Dokumentation zur Großschreibung

Fehlerkorrektur: In der Dokumentation wurde die Beschreibung der automatischen Groß-/Kleinschreibung in Transkripten des Service aktualisiert. Der Service verwendet die Großschreibung der entsprechenden Nomen nur für die folgenden Sprachen und Modelle:

  • Alle Modelle der früheren Generation für amerikanisches Englisch
  • Das Modell der nächsten Generation für Deutsch

Weitere Informationen finden Sie unter Groß-/Kleinschreibung.

2. Februar 2022

Neues Modell en-WW_Medical_Telephony jetzt als Betafunktion verfügbar

Eine neues Modell en-WW_Medical_Telephony der nächsten Generation ist jetzt als Betafunktion verfügbar. Das neue Modell erkennt Begriffe aus den Fachgebieten Medizin und Pharmakologie. Verwenden Sie das Modell zum Transkribieren allgemeiner medizinischer Terminologie wie Namen von Medikamenten, Produktmarken, medizinische Behandlungen, Krankheiten, Arzttypen oder COVID 19--Terminologie. Häufige Anwendungsfälle sind Gespräche zwischen einem Patienten und einem medizinischen Versorger (z. B. Arzt, Krankenschwester oder Apotheker).

Das neue Modell ist für alle unterstützten englischen Dialekte verfügbar: Australien, Indien, Großbritannien und USA. Das neue Modell unterstützt die Sprachmodellanpassung und Grammatiken als Betafunktionen. Es unterstützt überwiegend die gleichen Parameter wie das Modell en-US_Telephony, einschließlich smart_formatting für Audiodaten in amerikanischem Englisch. Die folgenden Parameter werden nicht unterstützt: low_latency, profanity_filter, redaction und speaker_labels.

Weitere Informationen finden Sie unter Das englische Telefoniemodell für Medizin.

Aktualisierung des Modells zh-CN_Telephony für Chinesisch

Das Modell der nächsten Generation zh-CN_Telephony für Chinesisch wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt weiterhin geringe Latenzzeit. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Wenn Sie über angepasste Sprachmodelle verfügen, die auf dem aktualisierten Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle aktualisieren, um die Vorteile der Aktualisierungen mithilfe der Methode POST /v1/customizations/{customization_id}/upgrade_model nutzen zu können. Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Aktualisierung des japanischen ja-JP_Multimedia-Modells der nächsten Generation zur Unterstützung niedriger Latenzzeiten

Das japanische Modell ja-JP_Multimedia der nächsten Generation unterstützt jetzt geringe Latenzzeit. Sie können den Parameter low_latency in Spracherkennungsanforderungen angeben, die das Modell verwenden. Sie müssen kein Upgrade für angepasste Modelle durchführen, die auf dem aktualisierten Basismodell für Japanisch basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:

3. Dezember 2021

Neues Telefoniemodell der nächsten Generation für lateinamerikanisches Spanisch

Der Service stellt jetzt ein Telefonmodell der nächsten Generation für lateinamerikanisches Spanisch bereit: es-LA_Telephony. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar.

Das Modell es-LA_Telephony gilt für alle lateinamerikanischen Dialekte. Es entspricht den Modellen der vorherigen Generation, die für spanische Dialekte in Argentinien, Chile, Kolumbien, Mexiko und Peru verfügbar sind. Wenn Sie ein Modell der vorherigen Generation für einen dieser Dialekte verwendet haben, verwenden Sie das Modell es-LA_Telephony für die Migration auf das entsprechende Modell der nächsten Generation.

Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Wichtig: Angepasste Sprachmodelle, die auf bestimmten Modellen der nächsten Generation basieren, müssen erneut erstellt werden

Wichtig: Wenn Sie angepasste Sprachmodelle auf der Basis bestimmter Modelle der nächsten Generation erstellt haben, müssen Sie die angepassten Modelle erneut erstellen. Wenn Sie die angepassten Sprachmodelle nicht erneut erstellen, schlagen Spracherkennungsanforderungen, in denen die angepassten Modelle verwendet werden sollen, mit dem HTTP-Fehlercode 400 fehl.

Angepasste Sprachmodelle, die auf den folgenden Modellversionen der nächsten Generation basieren, müssen erneut erstellt werden:

  • Angepasste Modelle für das Modell en-AU_Telephony, die Sie aus en-AU_Telephony.v2021-03-03 in en-AU_Telephony.v2021-10-04 erstellt haben.
  • Angepasste Modelle für das Modell en-GB_Telephony, die Sie aus en-GB_Telephony.v2021-03-03 in en-GB_Telephony.v2021-10-04 erstellt haben.
  • Angepasste Modelle für das Modell en-US_Telephony, die Sie aus en-US_Telephony.v2021-06-17 in en-US_Telephony.v2021-10-04 erstellt haben.
  • Angepasste Modelle für das Modell en-US_Multimedia, die Sie aus en-US_Multimedia.v2021-03-03 in en-US_Multimedia.v2021-10-04 erstellt haben.

Modellversion ermitteln, auf der ein angepasstes Sprachmodell basiert: Verwenden Sie die Methode GET /v1/customizations, um alle angepassten Sprachmodelle aufzulisten, oder die Methode GET /v1/customizations/{customization_id}, um ein bestimmtes angepasstes Sprachmodell aufzulisten. Im Feld versions der Ausgabedaten wird das Basismodell für ein angepasstes Sprachmodell angezeigt. Weitere Informationen finden Sie im Abschnitt Angepasste Sprachmodelle auflisten.

Angepasstes Sprachmodell erneut erstellen: Erstellen Sie zunächst ein neues angepasstes Modell. Fügen Sie anschließend alle Korpora und angepassten Wörter aus dem vorherigen angepassten Modell zu dem neuen Modell hinzu. Danach können Sie das vorherige angepasste Modell löschen. Weitere Informationen finden Sie unter Angepasstes Sprachmodell erstellen.

28. Oktober 2021

Neues Telefoniemodell der nächsten Generation für Chinesisch

Der Service stellt jetzt ein Telefonmodell der nächsten Generation für Chinesisch (Mandarin) bereit: zh-CN_Telephony. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Neue Multimediamodelle der nächsten Generation für australisches Englisch und britisches Englisch

Der Service stellt jetzt die folgenden Multimediamodelle der nächsten Generation bereit. Die neuen Modelle sind allgemein verfügbar und keines der Modelle unterstützt geringe Latenzzeit.

  • Englisch (Australien): en-AU_Multimedia
  • Englisch (Vereinigtes Königreich): en-GB_Multimedia

Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Viele Modelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern

Die folgenden Modelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:

  • Telefoniemodell für Englisch (Australien) - en-AU_Telephony
  • Telefoniemodell für Englisch (Vereinigtes Königreich) - en-GB_Telephony
  • Multimediamodell für Englisch (Vereinigte Staaten) - en-US_Multimedia
  • Telefoniemodell für Englisch (Vereinigte Staaten) - en-US_Telephony
  • Telefoniemodell für Spanisch (Kastilien) - es-ES_Telephony

Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Grammatikunterstützung für Modelle der vorherigen Generation ist jetzt allgemein verfügbar

Grammatikunterstützung ist jetzt allgemein verfügbar (General Availability, GA) für Modelle der nächsten Generation, die die folgenden Bedingungen erfüllen:

  • Die Modelle sind allgemein verfügbar.
  • Die Modelle unterstützen die Sprachmodellanpassung.

Weitere Informationen finden Sie in den folgenden Quellen:

Neue Betafunktion zur Grammatikunterstützung für Modelle der nächsten Generation

Grammatikunterstützung steht jetzt als Betafunktion für alle Modelle der nächsten Generation zur Verfügung. Alle Modelle der nächsten Generation sind allgemein verfügbar (GA) und unterstützen die Sprachmodellanpassung. Weitere Informationen finden Sie in den folgenden Quellen:

Hinweis: Unterstützung für Grammatiken durch Modelle der nächsten Generation ist als Betafunktion für den Speech to Text-Service unter IBM Cloud verfügbar. Unterstützung für Grammatiken in Modellen der nächsten Generation unter IBM Cloud Pak for Data ist momentan noch nicht verfügbar.

Neues Feld custom_acoustic_model für unterstützte Funktionen

Die Methoden GET /v1/models und GET /v1/models/{model_id} melden jetzt, ob ein Modell die Akustikmodellanpassung unterstützt. Das Objekt SupportedFeatures enthält jetzt das zusätzliche Feld custom_acoustic_model für boolesche Werte. Der Wert true bedeutet, dass ein Modell die Akustikmodellanpassung unterstützt, der Wert false bedeutet das Gegenteil. Derzeit ist das Feld für alle Modelle der vorherigen Generation auf true gesetzt und für alle Modelle der nächsten Generation auf false.

22. Oktober 2021

Fehlerbehebung: Behebung von asynchronen HTTP Fehlern
Fehlerkorrektur: Die asynchrone HTTP-Schnittstelle konnte manche Audiodaten nicht transkribieren. Außerdem wurde vom Callback für die Anforderung der Status recognitions.completed_with_results zurückgegeben und nicht recognitions.failed. Dieser Fehler wurde behoben.

6. Oktober 2021

Aktualisierungen für Modelle der nächsten Generation für Tschechisch und Niederländisch

Die folgenden Sprachmodelle der nächsten Generation wurden wie angegeben geändert:

  • Das Telefonmodell für Tschechisch (cs-CZ_Telephony) ist jetzt allgemein verfügbar (GA). Das Modell unterstützt weiterhin geringe Latenzzeit.
  • Das Telefoniemodell für belgisches Niederländisch (nl-BE_Telephony) wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt weiterhin geringe Latenzzeit.
  • Das Telefoniemodell für belgisches Niederländisch (nl-NL_Telephony) ist jetzt allgemein verfügbar (GA). Außerdem unterstützt das Modell jetzt geringe Latenzzeit.

Weitere Informationen zu allen verfügbaren Sprachmodellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Neue Unterstützung für HIPAA für Premium-Pläne am Standort Dallas

Unterstützung für das US-amerikanische Gesetz HIPAA (Health Insurance Portability and Accountability Act) ist jetzt für Premium-Pläne verfügbar, die am Standort Dallas (us-south) gehostet werden. Weitere Informationen finden Sie unter Health Insurance Portability and Accountability Act (HIPAA).

16 September 2021

Neue Modelle der nächsten Generation für Tschechisch und Niederländisch (Niederlande) als Betafunktionen

Der Service unterstützt jetzt die folgenden neuen Sprachmodelle der nächsten Generation. Beide neuen Modelle sind als Betafunktion verfügbar.

  • Tschechisch: cs-CZ_Telephony. Das neue Modell unterstützt geringe Latenzzeit.
  • Niederländisch (Niederlande): nl-NL_Telephony. Das neue Modell unterstützt geringe Latenzzeit nicht.

Weitere Informationen zu allen verfügbaren Sprachmodellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.

Aktualisierungen der Modelle der nächsten Generation für Koreanisch und für brasilianisches Portugiesisch

Die folgenden Modelle der nächsten Generation wurden aktualisiert:

  • Das Modell für Koreanisch (ko-KR_Telephony) unterstützt jetzt geringe Latenzzeit.
  • Das Modell für brasilianisches Portugiesisch (pt-BR_Telephony) wurde aktualisiert, um die Spracherkennung zu verbessern.
Defekt behoben: Korrektur der Zwischenergebnisse und der Dokumentation für niedrige Latenzzeiten

Fehlerkorrektur: Die Beschreibung der Funktionen für Zwischenergebnisse und für geringe Latenzzeit bei Modellen der nächsten Generation wurde mit leicht verständlichem und inhaltlich überarbeitetem Wortlaut neu formuliert. Weitere Informationen finden Sie in den folgenden Quellen:

Fehlerkorrektur: Ergebnisse für Sprecherbezeichnungen verbessern

Fehlerkorrektur: Bei Verwendung von Sprecherbezeichnungen in Modellen der nächsten Generation identifiziert der Service jetzt den Sprecher für alle Wörter in den Eingabeaudiodaten, auch für sehr kurze Wörter mit identischer Start- und Endzeitmarke.

31 August 2021

Alle Modelle der nächsten Generation sind jetzt allgemein verfügbar

Alle vorhandenen Sprachmodelle der nächsten Generation sind jetzt allgemein verfügbar (GA). Sie werden für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.

Sprachmodellanpassung für Modelle der nächsten Generation ist jetzt allgemein verfügbar

Die Sprachmodellanpassung für alle verfügbaren Sprachen und Modelle der nächsten Generation ist jetzt allgemein verfügbar (GA). Die Sprachmodellanpassung für Modelle der nächsten Generation wird für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.

Dabei werden für Modelle der nächsten Generation dieselben Befehle zum Erstellen, Verwalten und Verwenden angepasster Sprachmodelle, Korpora und angepasster Wörtern verwendet wie für Modelle der vorherigen Generation. Die Anpassung für Modelle der nächsten Generation funktioniert jedoch anders als für Modelle der vorherigen Generation. Angepasste Modelle, die auf Modellen der nächsten Generation basieren:

  • In den angepassten Modellen wird das Konzept der vokabularexternen Wörter (Out-of-vocabulary, OOV) nicht verwendet.
  • Wörter aus Korpora werden nicht zur Wörterressource hinzugefügt.
  • Die Funktion für gleich klingende Wörter kann derzeit nicht auf benutzerdefinierte Wörter angewendet werden.
  • Nach der Aktualisierung des Basissprachmodells muss kein Upgrade für angepasste Modelle durchführt werden.
  • Grammatiken werden derzeit nicht unterstützt.

Weitere Informationen zur Verwendung der Sprachmodellanpassung für Modelle der nächsten Generation finden Sie unter

Weitere Themen beschreiben die Verwaltung von angepassten Sprachmodellen, Korpora und angepassten Wörtern. Diese Operationen sind dieselben für angepasste Modelle, die auf Modellen der vorherigen oder der nächsten Generation basieren.

16 August 2021

Neue Modelle der nächsten Generation für indisches Englisch, indisches Hindi, Japanisch und Koreanisch als Betafunktion

Der Service unterstützt jetzt die folgenden neuen Sprachmodelle der nächsten Generation. Alle neuen Modelle sind als Betafunktion verfügbar.

  • Englisch (Indien): en-IN_Telephony. Das Modell unterstützt geringe Latenzzeit.
  • Indisch (Hindi): hi-IN_Telephony. Das Modell unterstützt geringe Latenzzeit.
  • Japanisch: ja-JP_Multimedia. Das Modell unterstützt geringe Latenzzeit nicht.
  • Koreanisch: ko-KR_Multimedia und ko-KR_Telephony Die Modelle unterstützen geringe Latenzzeit nicht.

Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie unter Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.

16. Juli 2021

Neues Modell der nächsten Generation für Französisch als Betafunktion
Das Sprachmodell der nächsten Generation für Französisch (fr-FR_Multimedia) ist jetzt verfügbar. Das neue Modell unterstützt geringe Latenzzeit nicht. Das Modell ist als Betafunktion verfügbar.
Aktualisiertes Modell der nächsten Generation für amerikanisches Englisch (Betafunktion) mit verbesserter Spracherkennung
Das Modell der nächsten Generation für amerikanisches Englisch (en-US_Telephony) wurde aktualisiert, um die Spracherkennung zu verbessern. Das aktualisierte Modell ist weiterhin als Betafunktion verfügbar.
Fehlerkorrektur: Dokumentation für Stockungsmarkierungen aktualisieren
Fehlerkorrektur: In der Dokumentation war nicht angegeben, dass Modelle der nächsten Generation keine Verzögerungsmarkierungen erzeugen. Die Dokumentation wurde aktualisiert und weist nun darauf hin, dass nur Modelle der vorherigen Generation Verzögerungsmarkierungen erzeugen. Modelle der nächsten Generation enthalten die tatsächlichen Bedenken in den Transkriptionsergebnissen. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.

15 Juni 2021

Neues Modell der nächsten Generation für belgisches Niederländisch als Betafunktion

Das Sprachmodell der nächsten Generation nl-BE_Telephony für belgisches Niederländisch (Flämisch) ist jetzt verfügbar. Das neue Modell unterstützt geringe Latenzzeit. Das Modell ist als Betafunktion verfügbar. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.

Neue Unterstützung für geringe Latenzzeit (Betafunktion) bei den Modellen der nächsten Generation für Arabisch, kanadisches Französisch und Italienisch

Die folgenden, als Betafunktion vorhandenen Sprachmodelle der nächsten Generation unterstützen jetzt geringe Latenzzeit:

  • Modell für Arabisch - ar-MS_Telephony
  • Modell für Französisch (Kanada) - fr-CA_Telephony
  • Modell für Italienisch - it-IT_Telephony

Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.

Aktualisierte Modelle der nächsten Generation (Betafunktion) für Arabisch und brasilianisches Portugiesisch mit verbesserter Spracherkennung

Die folgenden, als Betafunktion vorhandenen Sprachmodelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:

  • Modell für Arabisch - ar-MS_Telephony
  • Modell für Portugiesisch (Brasilien) - pt-BR_Telephony

Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.

26. Mai 2021

Neue Unterstützung (Betafunktion) des Parameters audio_metrics für Modelle der nächsten Generation
Der Parameter audio_metrics wird jetzt als Betafunktion für die Verwendung mit allen Sprachen und Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie unter Audiometriken.
Neue Unterstützung (Betafunktion) des Parameters word_confidence für Modelle der nächsten Generation
Der Parameter word_confidence wird jetzt als Betafunktion für die Verwendung mit allen Sprachen und Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie im Abschnitt Wortkonfidenz.
Fehlerkorrektur: Aktualisierungsdokumentation für Modelle der nächsten Generation
Defekt behoben: Die Dokumentation wurde aktualisiert, um die folgenden Informationen zu korrigieren:
  • Bei Verwendung eines Modells der nächsten Generation für die Spracherkennung enthalten die Endergebnisse der Transkription jetzt das Feld confidence. Dieses Feld war bisher stets in den Endergebnissen der Transkription enthalten, wenn ein Modell der vorherigen Generation verwendet wurde. Diese Korrektur behebt eine Einschränkung, die für das Release vom 12. April 2021 der Modelle der nächsten Generation gemeldet wurde.
  • In der Dokumentation war irrtümlich angegeben, dass bei Verwendung des Parameters smart_formatting Verzögerungsmarkierungen aus den Endergebnissen der Transkription für Japanisch entfernt werden. Die intelligente Formatierung entfernt keine Verzögerungsmarkierungen aus den Endergebnissen für Japanisch, sondern nur aus den Endergebnissen für amerikanisches Englisch. Weitere Informationen finden Sie unter Wie wirkt sich die intelligente Formatierung aus?

27 April 2021

Neue Modelle der nächsten Generation für Arabisch und brasilianisches Portugiesisch (Betafunktion)

Der Service unterstützt zwei neue Modelle der nächsten Generation als Betafunktion:

  • Das Modell pt-BR_Telephony für Portugiesisch (Brasilien), das geringe Latenzzeit unterstützt
  • Das Modell ar-MS_Telephony für Arabisch (moderne Standardsprache), das geringe Latenzzeit nicht unterstützt.

Weitere Informationen finden Sie unter Sprachen und Modelle der nächsten Generation.

Aktualisiertes Modell der nächsten Generation für kastilisches Spanisch (Betafunktion) mit verbesserter Spracherkennung

Das Modell es-ES_Telephony für kastilisches Spanisch (Betafunktion) unterstützt jetzt den Parameter low_latency. Weitere Informationen finden Sie unter Geringe Latenzzeit.

Neue Unterstützung für Sprecherbezeichnungen bei Modellen der nächsten Generation (Betafunktion)

Der Parameter speaker_labels wird jetzt als Betafunktion für die Verwendung mit den folgenden Modellen der nächsten Generation unterstützt:

  • Modell für Englisch (Australien) - en-AU_Telephony
  • Modell für Englisch (Vereinigtes Königreich) - en-GB_Telephony
  • Modelle für Englisch (Vereinigte Staaten) - en-US_Multimedia und en-US_Telephony
  • Modell für Deutsch - de-DE_Telephony
  • Modell für Spanisch (Kastilien) - es-ES_Telephony

Die Modelle der nächsten Generation unterstützen den Parameter speaker_labels derzeit nicht für die gemeinsame Verwendung mit dem Parameter interim_results oder low_latency. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.

Neuer HTTP-Fehlercode für die Verwendung von word_confidence mit Modellen der nächsten Generation

Der Parameter word_confidence wird für die Verwendung mit Modellen der nächsten Generation nicht unterstützt. Der Service gibt jetzt den folgenden Fehlercode 400 zurück, wenn Sie den Parameter word_confidence mit einem Modell der nächsten Generation für die Spracherkennung verwenden:

{
  "error": "word_confidence is not a supported feature for model {model}",
  "code": 400,
  "code_description": "Bad Request"
}

12 April 2021

Neue Sprachmodelle der nächsten Generation und neuer Parameter low_latency (Betafunktion)

Der Service unterstützt jetzt eine wachsende Anzahl von Sprachmodellen der nächsten Generation. Die Multimediamodelle und Telefoniemodelle der nächsten Generation verbessern die Spracherkennungsfunktionen der Breitband- und Schmalbandmodelle der vorherigen Generation. Die neuen Modelle nutzen tiefgreifende neuronale Netze und die bidirektionale Analyse, um einen höheren Durchsatz und größere Transkriptionsgenauigkeit zu erreichen. Die Modelle der nächsten Generation unterstützen eine begrenzte Anzahl von Sprachen und Spracherkennungsfunktionen. In zukünftigen Releases sollen weitere Sprachen, Modelle und Funktionen unterstützt werden. Die Modelle der nächsten Generation sind als Betafunktion verfügbar.

Viele Modelle der nächsten Generation unterstützen außerdem den neuen Parameter low_latency, der auf Anforderung schneller Ergebnisse liefert. Dies kann jedoch zu einer reduzierten Transkriptionsqualität führen. Wenn die geringe Latenzzeit aktiviert ist, begrenzt der Service die Analyse der Audiodaten. Dadurch kann die Genauigkeit der Transkription beeinträchtigt werden. Dieser Nachteil kann hinnehmbar sein, wenn eine möglichst kurze Antwortzeit für Ihre Anwendung wichtiger ist als die größtmögliche Genauigkeit. Der Parameter low_latency ist als Betafunktion verfügbar.

Der Parameter low_latency wirkt sich auf die Verwendung des Parameters interim_results mit der WebSocket-Schnittstelle aus. Zwischenergebnisse sind nur für Modelle der nächsten Generation verfügbar, die geringe Latenzzeit unterstützen, sofern die beiden Parameter interim_results und low_latency auf true gesetzt sind.

17. März 2021

Defekt behoben: Behebung der Einschränkung für die asynchrone Schnittstelle HTTP
Fehlerkorrektur: Die am 16. Dezember 2020 gemeldete Einschränkung der asynchronen HTTP-Schnittstelle am Standort Dallas (us-south) wurde behoben. Zuvor wurden für einen kleinen Prozentsatz der Jobs Endlosschleifen initiiert, die ihre Ausführung verhinderten. Diese Einschränkung tritt bei asynchronen HTTP-Anforderungen im Rechenzentrum Dallas nicht mehr auf.

2. Dezember 2020

Modell für Arabisch umbenannt in ar-MS_BroadbandModel
Das Breitband-Sprachmodell für Arabisch wurde in ar-MS_BroadbandModel umbenannt. Der frühere Name ar-AR_BroadbandModel ist veraltet. Die Stimme kann mindestens ein Jahr weiterhin verwendet werden, wird zu einem späteren Zeitpunkt jedoch möglicherweise entfernt. Es wird empfohlen, sobald wie möglich auf den neuen Namen zu migrieren.

02. November 2020

Modelle für Französisch (Kanada) jetzt allgemein verfügbar

Die Modelle für Französisch (Kanada), fr-CA_BroadbandModel und fr-CA_NarrowbandModel, sind jetzt allgemein verfügbar (GA). Sie waren zuvor als Betafunktion verfügbar. Sie unterstützen jetzt auch die Sprachmodell- und Akustikmodellanpassung.

22. Oktober 2020

Modelle für Englisch (Australien) jetzt allgemein verfügbar

Die Modelle für Englisch (Australien), en-AU_BroadbandModel und en-AU_NarrowbandModel, sind jetzt allgemein verfügbar (GA). Sie waren zuvor als Betafunktion verfügbar. Sie unterstützen jetzt auch die Sprachmodell- und Akustikmodellanpassung.

Aktualisierte Modellen für brasilianisches Portugiesisch mit verbesserter Spracherkennung

Die Modelle für Portugiesisch (Brasilien), pt-BR_BroadbandModel und pt-BR_NarrowbandModel, wurden aktualisiert, um die Spracherkennung zu verbessern. Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Der Parameter split_transcript_at_phrase_end ist jetzt für alle Sprachen allgemein verfügbar.

Der Spracherkennungsparameter split_transcript_at_phrase_end ist jetzt für alle Sprachen allgemein verfügbar (GA). Bisher war er nur für amerikanisches und britisches Englisch allgemein verfügbar. Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.

7. Oktober 2020

Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung

Das Modell ja-JP_BroadbandModel wurde aktualisiert, um die Spracherkennung zu verbessern. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

30. September 2020

Aktualisierte Preisstruktur für den Service

Die Preisstruktur für den Service wurde geändert:

  • Der Service bietet weiterhin einen Lite-Plan mit kostenfreiem Basiszugriff auf die Spracherkennung für eine begrenzte Anzahl von Minuten pro Monat.
  • Der Service bietet einen neuen Plus-Plan mit einem einfachen, gestaffelten Preismodell und Zugriff auf die Anpassungsfunktionen des Service.
  • Der Service bietet einen neuen Premium-Plan mit deutlich größerer Kapazität und erweiterten Funktionen.

Der Plus-Plan ersetzt den bisherigen Standard-Plan. Der Standard-Plan wird für kurze Zeit weiterhin zum Kauf angeboten. Darüber hinaus ist er für Bestandskunden dieses Plans für unbegrenzte Zeit und mit unveränderter Preisstruktur weiterhin verfügbar. Bestandskunden können jederzeit ein Upgrade auf den Plus-Plan durchführen.

Weitere Informationen zu den verfügbaren Preisstrukturplänen finden Sie in den folgenden Ressourcen:

20. August 2020

Neue Modelle für kanadisches Französisch

Der Service bietet jetzt Breitband- und Schmalbandmodelle für kanadisches Französisch:

  • fr-CA_BroadbandModel
  • fr-CA_NarrowbandModel

Die neuen Modelle unterstützen weder die Anpassung von Sprachmodellen oder akustischen Modellen noch die Verwendung von Sprecherbezeichnungen oder der Funktion für intelligente Formatierung. Weitere Informationen zu diesen und allen unterstützten Modellen finden Sie in Unterstützte Sprachmodelle der vorherigen Generation.

5. August 2020

Neue Modelle für australisches Englisch

Der Service bietet jetzt Breitband- und Schmalbandmodelle für australisches Englisch:

  • en-AU_BroadbandModel
  • en-AU_NarrowbandModel

Die neuen Modelle unterstützen weder die Anpassung von Sprachmodellen oder akustischen Modellen noch die Verwendung der Funktion für intelligente Formatierung. Die neuen Modelle unterstützen Sprecherbezeichnungen nicht. Weitere Informationen finden Sie

Aktualisierungen für mehrere Modelle zur Verbesserung der Spracherkennung

Die folgenden Modelle wurden zur Verbesserung der Spracherkennung aktualisiert:

  • Breitbandmodell für Französisch (fr-FR_BroadbandModel)
  • Breitband- und Schmalbandmodelle für Deutsch (de-DE_BroadbandModel und de-DE_NarrowbandModel)
  • Breitband- und Schmalbandmodelle für britisches Englisch (en-GB_BroadbandModel und en-GB_NarrowbandModel)
  • Kurzform-Schmalbandmodell für amerikanisches Englisch (en-US_ShortForm_NarrowbandModel)

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Verzögerungsmarkierung für Deutsch wurde geändert

Die Verzögerungsmarkierung in den aktualisierten Breitband- und Schmalbandmodellen für die deutsche Sprache wurde von [hesitation] in %HESITATION geändert. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.

4. Juni 2020

Defekt behoben: Verbesserung der Latenzzeit für benutzerdefinierte Sprachmodelle mit vielen Grammatiken
Fehlerkorrektur: Das Problem mit der Latenzzeit bei angepassten Sprachmodellen, die eine große Anzahl von Grammatiken enthalten, wurde behoben. Bei der Verwendung für die Spracherkennung konnte das Laden solcher angepassten Modelle anfänglich mehrere Sekunden in Anspruch nehmen. Die angepassten Modelle werden nun erheblich schneller geladen, wodurch sich die Latenz bei deren Verwendung für die Spracherkennung deutlich reduziert.

28. April 2020

Aktualisierte Modelle für Italienisch zur Verbesserung der Spracherkennung

Das Breitbandmodell (it-IT_BroadbandModel) und das Schmalbandmodell (it-IT_NarrowbandModel) für Italienisch wurden aktualisiert, um eine bessere Spracherkennung zu integrieren. Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Modelle für Niederländisch und Italienisch jetzt allgemein verfügbar

Die Sprachmodelle für Niederländisch und Italienisch sind nun allgemein für die Spracherkennung und für die Sprach- und Akustikmodellanpassungen verfügbar (GA):

  • Niederländisch Breitbandmodell (nl-NL_BroadbandModel)
  • Niederländisch Schmalbandmodell (nl-NL_NarrowbandModel)
  • Italienisch Breitbandmodell (it-IT_BroadbandModel)
  • Italienisch Schmalbandmodell (it-IT_NarrowbandModel)

Weitere Informationen zu allen verfügbaren Sprachmodellen finden Sie in den folgenden Abschnitten:

1. April 2020

Akustikmodellanpassung jetzt allgemein verfügbar

Die Akustikmodellanpassung ist nun allgemein für alle unterstützten Sprachen verfügbar (GA). So wie bei angepassten Sprachmodellen wird bei IBM die Erstellung und das Hosting eines angepassten Akustikmodells nicht in Rechnung gestellt. Ihnen wird nur die Verwendung eines angepassten Modells mit einer Spracherkennungsanforderung berechnet.

Für die Verwendung eines angepassten Sprachmodells, eines angepassten Akustikmodells oder beider Modelltypen für die Transkription entstehen zusätzliche Kosten in Höhe von $0,03 (USD) pro Minute. Diese Gebühr wird zusätzlich zu der Standardnutzungsgebühr in Höhe von $0,02 (USD) pro Minute berechnet und gilt für alle von der Anpassungsschnittstelle unterstützten Sprachen. Die Gesamtkosten für die Nutzung eines angepassten Modells oder mehrerer angepasster Modelle für die Spracherkennung betragen folglich $0,05 (USD) pro Minute.

16. März 2020

Sprecherbezeichnungen für Deutsch und Koreanisch werden jetzt unterstützt
Der Service unterstützt nun Sprecherbezeichnungen (Parameter speaker_labels) für die Sprachmodelle für Deutsch und Koreanisch. Sprecherbezeichnungen geben an, von welchen Personen in einer Konversation mit mehreren Beteiligten welche Worte gesprochen wurden. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.
Activity Tracker für die asynchrone HTTP-Schnittstelle wird jetzt unterstützt
Der Service unterstützt jetzt die Verwendung von Activity Tracker-Ereignissen für alle Operationen der asynchronen HTTP-Schnittstelle. IBM Cloud Activity Tracker zeichnet vom Benutzer eingeleitete Aktivitäten auf, die den Status eines Service in IBM Cloud® ändern. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse.

24. Februar 2020

Aktualisierungen für mehrere Modelle zur Verbesserung der Spracherkennung

Die folgenden Modelle wurden zur Verbesserung der Spracherkennung aktualisiert:

  • Niederländisch Breitbandmodell (nl-NL_BroadbandModel)
  • Niederländisch Schmalbandmodell (nl-NL_NarrowbandModel)
  • Italienisch Breitbandmodell (it-IT_BroadbandModel)
  • Italienisch Schmalbandmodell (it-IT_NarrowbandModel)
  • Japanisch Schmalbandmodell (ja-JP_NarrowbandModel)
  • Amerikanisches Englisch Breitbandmodell (en-US_BroadbandModel)

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Sprachmodellanpassung für Niederländisch und Italienisch jetzt verfügbar

Die Sprachmodellanpassung für Niederländisch und Italienisch wird jetzt mit den neuen Versionen der folgenden Modelle unterstützt:

  • Niederländisch Breitbandmodell (nl-NL_BroadbandModel)
  • Niederländisch Schmalbandmodell (nl-NL_NarrowbandModel)
  • Italienisch Breitbandmodell (it-IT_BroadbandModel)
  • Italienisch Schmalbandmodell (it-IT_NarrowbandModel)

Weitere Informationen finden Sie

Da es sich bei den Modellen für Niederländisch und Italienisch um Betaversionen handelt, ist deren Unterstützung für die Anpassung von Sprachmodellen ebenfalls eine Betaversion.

Schmalbandmodell für Japanisch enthält jetzt Multigram-Worteinheiten

Das Schmalbandmodell für Japanisch (ja-JP_NarrowbandModel) umfasst nun einige Multigram-Worteinheiten für Ziffern und Dezimalbrüche. Der Service gibt diese Multigram-Einheiten unabhängig davon zurück, ob Sie intelligente Formatierung aktiviert oder inaktiviert haben. Die Funktion 'Intelligente Formatierung' versteht Multigram-Einheiten, die das Modell generiert, und gibt diese zurück. Wenn Sie Ihre eigene Nachbearbeitung auf die Transkriptionsergebnisse anwenden, müssen Sie diese Einheiten entsprechend handhaben. Weitere Informationen finden Sie in der Dokumentation zur intelligenten Formatierung unter Japanisch.

Neue Parameter zum Erkennen von Sprachaktivitäten und zum Unterdrücken von Hintergrundgeräuschen bei der Spracherkennung

Der Service bietet nun zwei neue optionale Parameter zur Steuerung der Stufe der Sprechaktivitätserkennung. Die Parameter können Sie dabei unterstützen, sicherzustellen, dass nur relevante Audiodaten für die Spracherkennung verarbeitet werden.

  • Der Parameter speech_detector_sensitivity passt die Empfindlichkeit für die Sprechaktivitätserkennung an. Sie können den Parameter verwenden, um Worteinfügungen aus Musik oder durch Husten oder andere nichtsprachliche Ereignisse zu unterdrücken.
  • Der Parameter background_audio_suppression unterdrückt die Hintergrundaudiosignale auf Basis der Lautstärke, damit diese nicht als Sprache transkribiert werden oder auf andere Weise die Spracherkennung stören. Sie können diesen Parameter verwenden, um Nebengespräche oder Hintergrundgeräusche zu unterdrücken.

Sie können die Parameter einzeln oder zusammen verwenden. Sie sind für alle Schnittstellen und für die meisten Sprachmodelle verfügbar. Weitere Informationen zu den Parametern, ihren zulässigen Werten und ihren Auswirkungen auf die Qualität und die Latenzzeit von Spracherkennung finden Sie unter Sprechaktivitätserkennung .

Activity Tracker wird jetzt für Anpassungsschnittstellen unterstützt

Der Service unterstützt jetzt die Verwendung von Activity Tracker-Ereignissen für alle Anpassungsoperationen. IBM Cloud Activity Tracker zeichnet vom Benutzer eingeleitete Aktivitäten auf, die den Status eines Service in IBM Cloud ändern. Mithilfe dieses Service können Sie abnormale Aktivität und kritische Aktionen untersuchen sowie gesetzliche Prüfvorschriften erfüllen. Darüber hinaus können Sie Warnnachrichten Alerts über Aktionen empfangen, sobald diese stattfinden. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse.

Fehlerkorrektur: Korrekte Generierung von Verarbeitungsmetriken mit der WebSocket-Schnittstelle

Fehlerkorrektur: Die WebSocket-Schnittstelle funktioniert jetzt reibungslos beim Generieren von Verarbeitungsmetriken. Vorherige Verarbeitungsmetriken können weiterhin bereitgestellt werden, nachdem der Client eine stop-Nachricht an den Service gesendet hat.

18. Dezember 2019

Neue Modelle für Italienisch als Betafunktion verfügbar

Der Service bietet jetzt Betaversionen für Breitband- und Schmalbandmodelle für Italienisch an.

  • it-IT_BroadbandModel
  • it-IT_NarrowbandModel

Diese Sprachmodelle unterstützen die Akustikmodellanpassung. Sie unterstützen keine Sprachmodellanpassung. Da es sich um Betamodelle handelt, sind diese Modelle möglicherweise noch nicht für den Produktionseinsatz bereit und können weiteren Änderungen unterliegen. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.

Weitere Informationen finden Sie in den folgenden Abschnitten:

Neuer Parameter end_of_phrase_silence_time für die Spracherkennung

Für die Spracherkennung unterstützt der Service jetzt den Parameter end_of_phrase_silence_time. Der Parameter gibt die Dauer des Pausenintervalls an, bei dem der Service eine Transkription in mehrere Endergebnisse aufteilt. Jedes Endergebnis gibt eine Sprechpause oder ein längeres Schweigen an, das das Pausenintervall überschreitet. Für die meisten Sprachen beträgt das Standardpausenintervall 0,8 Sekunden; bei Chinesisch beträgt das Standardintervall 0,6 Sekunden.

Sie können den Parameter verwenden, um ein Gleichgewicht zwischen der Häufigkeit, mit der ein Endergebnis erzielt wird, und der Genauigkeit der Transkription herzustellen. Erhöhen Sie das Intervall, wenn die Genauigkeit wichtiger ist als die Latenzzeit. Verringern Sie das Intervall, wenn der Sprecher kurze Ausdrücke oder einzelne Wörter spricht.

Weitere Informationen finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.

Neuer Parameter split_transcript_at_phrase_end für die Spracherkennung

Für die Spracherkennung unterstützt der Service jetzt den Parameter split_transcript_at_phrase_end. Der Parameter weist den Service an, die Transkription in mehrere Endergebnisse für semantische Merkmale der Eingabe aufzuteilen, wie z. B. vollständige Sätze. Der Service basiert auf dem Verständnis von semantischen Merkmalen für das Basissprachmodell, das Sie mit einer Anforderung verwenden. Angepasste Sprachmodelle und Grammatiken können auch beeinflussen, wie und wo der Service eine Transkription aufteilt.

Der Parameter bewirkt, dass der Service jedem Endergebnis das Feld end_of_utterance hinzufügt, um die Motivation für die Aufteilung anzugeben: full_stop, silence, end_of_data oder reset.

Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.

12. Dezember 2019

Vollständige Unterstützung für IBM Cloud IAM

Der Speech to Text-Service unterstützt jetzt die vollständige Implementierung von IBM Cloud Identity and Access Management (IAM). API-Schlüssel für IBM Watson®-Services sind nicht mehr auf eine einzelne Serviceinstanz beschränkt. Sie können Zugriffsrichtlinien und API-Schlüssel erstellen, die für mehr als einen Service gelten, und Sie können den Zugriff zwischen Services erteilen. Weitere Informationen zu IAM finden Sie unter Authentifizierung bei Watson-Services.

Damit diese Änderung unterstützt wird, verwenden die API-Serviceendpunkte eine andere Domäne und beziehen die Serviceinstanz-ID ein. Das Muster ist api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id}.

  • Beispiel einer HTTP-URL für eine Instanz, die am Standort Dallas gehostet ist:

    https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

  • Beispiel für eine WebSocket-URL für eine Instanz, die am Standort Dallas gehostet ist:

    wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

Weitere Informationen zu den URLs finden Sie in der API & SDK-Referenz.

Diese URLs stellen keine Änderungen dar, die zu Fehlern bei anderen Services führen können. Die neuen URLs funktionieren sowohl für Ihre vorhandenen Serviceinstanzen als auch für neue Instanzen. Die ursprünglichen URLs funktionieren auf Ihren vorhandenen Serviceinstanzen weiterhin für mindestens ein Jahr bis Dezember 2020.

Neue Funktionen für Netz- und Datensicherheit verfügbar

Unterstützung für die folgende neue Netzwerk- und Datensicherheitsfunktion ist jetzt verfügbar:

  • Unterstützung für private Netzwerk-Endpunkte

    Benutzer von Premium-Plänen können private Netzendpunkte erstellen, um über ein privates Netz eine Verbindung zum Speech to Text-Service herzustellen. Für Verbindungen zu privaten Netzendpunkten ist kein öffentlicher Internetzugriff erforderlich. Weitere Informationen finden Sie unter Öffentliche und private Netzendpunkte.

10. Dezember 2019

Neue Modelle für Niederländisch (Niederlande) verfügbar (Betafunktion)

Der Service stellt jetzt als Betafunktion Breitband- und Schmalbandmodelle für die Sprache Niederländisch (Niederlande) bereit:

  • nl-NL_BroadbandModel
  • nl-NL_NarrowbandModel

Diese Sprachmodelle unterstützen die Akustikmodellanpassung. Sie unterstützen keine Sprachmodellanpassung. Da es sich um Betamodelle handelt, sind diese Modelle möglicherweise noch nicht für den Produktionseinsatz bereit und können weiteren Änderungen unterliegen. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.

Weitere Informationen finden Sie in den folgenden Abschnitten:

25. November 2019

Aktualisierte Sprecherbezeichnungen zur besseren Identifizierung einzelner Sprecher
Sprecherbezeichnungen werden aktualisiert, um die Identifikation einzelner Sprecher für die weitere Analyse Ihrer Audiosamples zu verbessern. Weitere Informationen zur Funktion für Sprecherbezeichnungen finden Sie unter Sprecherbezeichnungen. Weitere Informationen über die Verbesserungen der Funktion finden Sie unter IBM Research AI Advances Speaker Diarization in Real Use Cases.

12. November 2019

Neuer Standort in Seoul jetzt verfügbar
Der Speech to Text-Service ist jetzt am IBM Cloud-Standort Seoul (kr-seo) verfügbar. Wie andere Standorte auch verwendet dieser IBM Cloud-Standort eine tokenbasierte IAM-Authentifizierung. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.

1. November 2019

Neue Grenzwerte für die maximale Anzahl angepasster Modelle
Sie können nicht mehr als 1024 angepasste Sprachmodelle und nicht mehr als 1024 angepasste akustische Modelle pro besitzenden Berechtigungsnachweis erstellen. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl an angepassten Modellen.

1. Oktober 2019

Neue HIPAA-Unterstützung für Premium-Pläne am Standort Washington, DC
HIPAA-Unterstützung (USA) ist für Premium-Pläne verfügbar, die am Standort Washington DC (us-east) gehostet werden und ab dem 1. April 2019 erstellt wurden oder werden. Weitere Informationen finden Sie im Abschnitt US Health Insurance Portability and Accountability Act (HIPAA).

22. August 2019

Fehlerkorrektur: Mehrere kleine Verbesserungen
Der Service wurde für kleine Fehlerkorrekturen und Verbesserungen aktualisiert.

30. Juli 2019

Neue Modelle für spanische Dialekte jetzt verfügbar

Der Service bietet jetzt Breitband- und Schmalbandsprachmodelle in sechs spanischen Dialekten an:

  • Argentinisches Spanisch (es-AR_BroadbandModel und es-AR_NarrowbandModel)
  • Kastilisches Spanisch (es-ES_BroadbandModel und es-ES_NarrowbandModel)
  • Chilenisches Spanisch (es-CL_BroadbandModel und es-CL_NarrowbandModel)
  • Kolumbianisches Spanisch (es-CO_BroadbandModel und es-CO_NarrowbandModel)
  • Mexikanisches Spanisch (es-MX_BroadbandModel und es-MX_NarrowbandModel)
  • Peruanisches Spanisch (es-PE_BroadbandModel und es-PE_NarrowbandModel)

Die Modelle für kastilisches Spanisch sind nicht neu. Sie sind für die Spracherkennung und Sprachmodellanpassung allgemein verfügbar (GA) und für die Akustikmodellanpassung als Betafunktion.

Die anderen fünf Dialekte sind neu und sind als Betamodelle vielseitig einsetzbar. Da es sich um Beta-Versionen handelt, sind diese zusätzlichen Dialekte möglicherweise nicht für den Produktionseinsatz bereit und können sich ändern. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.

Weitere Informationen finden Sie in den folgenden Abschnitten:

24. Juni 2019

Aktualisierte Modelle für brasilianisches Portugiesisch und amerikanisches Englisch mit verbesserter Spracherkennung

Die folgenden Schmalbandsprachmodelle wurden aktualisiert, um die Spracherkennung zu verbessern:

  • Schmalbandmodell für 'Brasilianisches Portugiesisch' (pt-BR_NarrowbandModel)
  • Schmalbandmodell für 'Amerikanisches Englisch' (en-US_NarrowbandModel)

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Neue Unterstützung für gleichzeitige Anforderungen zum Aktualisieren verschiedener angepasster Akustikmodelle

Mit dem Service können Sie jetzt mehrere simultane Anforderungen zum Hinzufügen verschiedener Audioressourcen zu einem angepassten akustischen Modell übergeben. Bisher konnte nur immer nur eine Anforderung übergeben werden.

Neues Feld updated für Methoden zum Auflisten angepasster Modelle

Die Ausgabe der HTTP-Methode GET, die Informationen zu angepassten Sprachmodellen und angepassten Akustikmodellen auflistet, enthält jetzt das Feld updated. Das Feld gibt das Datum und die Uhrzeit in der koordinierten Weltzeit (Coordinated Universal Time, UTC) an, an der das angepasste Modell zuletzt geändert wurde.

Geändertes Schema für Warnungen beim Trainieren angepasster Modelle

Das Schema wurde für eine Warnung geändert, die von einer angepassten Modellbildungsanforderung generiert wird, wenn der Parameter strict auf false gesetzt ist. Die Namen der Felder haben sich von warning_id und description in code bzw. message geändert. Weitere Informationen finden Sie in der API-& SDK-Referenz.

10. Juni 2019

Verarbeitungsmetriken nicht mit synchroner HTTP-Schnittstelle verfügbar
Verarbeitungsmetriken sind nur mit der WebSocket- und der asynchrone HTTP-Schnittstelle verfügbar. Für die synchrone HTTP-Schnittstelle werden sie nicht unterstützt. Weitere Informationen finden Sie unter Verarbeitungsmetriken.

17. Mai 2019

Neue Funktionen für Verarbeitungs- und Audiometriken für die Spracherkennung

Der Service bietet nun zwei Typen von optionalen Metriken für Spracherkennungsanforderungen an:

  • Verarbeitungsmetriken stellen detaillierte Zeitinformationen über die Analyse der Audioeingabedaten durch den Service bereit. Der Service gibt die Metriken in festgelegten Intervallen und mit Transkriptionsereignissen zurück, z. B. als Zwischen- und Endergebnisse. Mithilfe der Metriken können Sie den Fortschritt des Service bei der Transkription der Audiodaten messen.
  • Audiometriken stellen detaillierte Informationen über die Signalmerkmale der Audioeingabedaten bereit. In den Ergebnissen sind Metriken für die gesamten Audioeingabedaten zum Abschluss der Sprachverarbeitung zusammengefasst. Mithilfe der Metriken können Sie die Merkmale und die Qualität der Audiodaten feststellen.

Sie können beide Metriktypen mit einer Spracherkennungsanforderung anfordern. In der Standardeinstellung gibt der Service keine Metriken für eine Anforderung zurück.

Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung

Das Breitbandmodell für Japanisch (ja-JP_BroadbandModel) wurde für eine verbesserte Spracherkennung aktualisiert. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf dem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

10. Mai 2019

Aktualisierte Modelle für Spanisch mit verbesserter Spracherkennung

Die Sprachmodelle für Spanisch wurden für eine verbesserte Spracherkennung aktualisiert:

  • es-ES_BroadbandModel
  • es-ES_NarrowbandModel

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

19. April 2019

Neuer Parameter strict zum Trainieren angepasster Modelle jetzt verfügbar
Die Trainingsmethoden der Anpassungsschnittstelle enthalten jetzt einen Abfrageparameter strict, der angibt, ob das Training fortgesetzt werden soll, wenn ein angepasstes Modell eine Mischung aus gültigen und ungültigen Ressourcen enthält. Standardmäßig schlägt das Training fehl, wenn ein angepasstes Modell mindestens eine ungültige Ressource enthält. Setzen Sie den Parameter auf false, damit das Training fortgesetzt werden kann, sofern das Modell mindestens eine gültige Ressource enthält. Der Service schließt ungültige Ressourcen vom Training aus.
Neue Grenzwerte für die maximale Anzahl vokabularexterner Wörter für angepasste Sprachmodelle
Sie können maximal 90.000 vokabularexterne Wörter (OOV-Wörter) zur Wörterressource eines angepassten Sprachmodells hinzufügen. Der bisherige maximale Wert lag bei 30.000 OOV-Wörtern. Dazu zählen OOV-Wörter aus allen Quellen (Korpora, Grammatiken und von Ihnen direkt hinzugefügte Wörter). Sie können insgesamt maximal 10.000.000 Wörter aus allen Quellen zu einem angepassten Modell hinzufügen. Weitere Informationen finden Sie im Abschnitt Wie viele Daten benötige ich?.

3. April 2019

Neue Obergrenzen für das Audiodatenvolumen für angepasste Akustikmodelle
Angepasste Akustikmodelle akzeptieren jetzt Audiodaten für maximal 200 Stunden. Der bisherige Maximalwert waren Audiodaten für 100 Stunden.

21. März 2019

Sichtbarkeit von Serviceberechtigungsnachweisen jetzt auf Rolle begrenzt

Benutzer können nun ausschließlich Informationen zu Serviceberechtigungsnachweisen für die Rolle anzeigen, die ihrem IBM Cloud-Konto zugeordnet ist. Falls Ihnen beispielsweise die Rolle reader zugeordnet ist, sind Serviceberechtigungsnachweise der Ebene writer oder einer höheren Ebene für Sie nicht mehr sichtbar.

Diese Änderung betrifft nicht den API-Zugriff für Benutzer oder Anwendungen mit bestehenden Serviceberechtigungsnachweisen. Sie wirkt sich lediglich auf das Anzeigen von Berechtigungsnachweisen in IBM Cloud aus.

15. März 2019

Neue Unterstützung für das Audioformat A-law
Der Service unterstützt jetzt Audio im Format A-law (audio/alaw). Weitere Informationen finden Sie im Abschnitt Format 'audio/alaw'.

11. März 2019

Änderung beim Übergeben des Werts 0 für den Parameter max_alternatives
Für den Parameter max_alternatives akzeptiert der Service jetzt wieder den Wert 0. Wenn Sie 0 angeben, verwendet der Service automatisch den Standardwert 1. Eine Änderung für die Aktualisierung des Service vom 4. März führte dazu, dass für den Wert 0 ein Fehler zurückgegeben wurde. (Der Service gibt einen Fehler zurück, wenn Sie einen negativen Wert angeben.)
Änderung beim Übergeben des Werts 0 für den Parameter word_alternatives_threshold
Für den Parameter word_alternatives_threshold akzeptiert der Service wieder den Wert 0. Eine Änderung für die Aktualisierung des Service vom 4. März führte dazu, dass für den Wert 0 ein Fehler zurückgegeben wurde. (Der Service gibt einen Fehler zurück, wenn Sie einen negativen Wert angeben.)
Neuer Grenzwert für maximale Genauigkeit des Verlässlichkeitsscores
Der Service gibt jetzt alle Konfidenzwerte mit einer maximalen Genauigkeit von zwei Dezimalstellen zurück. Dazu gehören auch Konfidenzwerte für Aufzeichnungen, Wortkonfidenz, Wortalternativen, Schlüsselwortergebnisse und Sprecherbezeichnungen.

4. März 2019

Aktualisierte Schmalbandmodelle für brasilianischem Portugiesisch, Französisch und Spanisch zur Verbesserung der Spracherkennung

Die folgenden Schmalbandsprachmodelle wurden aktualisiert, um die Spracherkennung zu verbessern:

  • Schmalbandmodell für 'Brasilianisches Portugiesisch' (pt-BR_NarrowbandModel)
  • Modell für Französisch (Frankreich) - fr-FR_NarrowbandModel
  • Schmalbandmodell für Spanisch - es-ES_NarrowbandModel

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

28. Januar 2019

Neue Unterstützung für IBM Cloud IAM durch WebSocket-Schnittstelle

Die WebSocket-Schnittstelle unterstützt jetzt die tokenbasierte Authentifizierung mit Identity and Access Management (IAM) mit browserbasiertem JavaScript-Code. Die bisherige Einschränkung auf das Gegenteil wurde behoben. Gehen Sie wie folgt vor, um eine authentifizierte Verbindung mit der WebSocket-Methode /v1/recognize herzustellen:

  • Wenn Sie die IAM-Authentifizierung verwenden, geben Sie den Abfrageparameter access_token an.
  • Wenn Sie Cloud Foundry-Serviceberechtigungsnachweise verwenden, geben Sie den Abfrageparameter watson-token an.

Weitere Informationen finden Sie im Abschnitt Verbindung öffnen.

20. Dezember 2018

Neue Funktion für Grammatiken (Betafunktion) für angepasste Sprachmodelle jetzt verfügbar

Der Service unterstützt jetzt Grammatiken für die Spracherkennung. Grammatiken sind als Betafunktion für alle Sprachen verfügbar, die angepasste Sprachmodelle unterstützen. Sie können Grammatiken zu einem angepassten Sprachmodell hinzufügen, um die Gruppe der Ausdrücke zu beschränken, die der Service in Audiodaten erkennen kann. Grammatiken können im Format 'Augmented Backus-Naur Form (ABNF)' oder im Format 'XML Form' definiert werden.

Die folgenden vier Methoden zum Arbeiten mit Grammatiken stehen zur Verfügung:

  • POST /v1/customizations/{customization_id}/grammars/{grammar_name} fügt eine Grammatikdatei zu einem angepassten Sprachmodell hinzu.
  • GET /v1/customizations/{customization_id}/grammars listet Informationen zu allen Grammatiken für ein angepasstes Modell auf.
  • GET /v1/customizations/{customization_id}/grammars/{grammar_name} gibt Informationen zu einer bestimmten Grammatik für ein angepasstes Modell zurück.
  • DELETE /v1/customizations/{customization_id}/grammars/{grammar_name} entfernt eine vorhandene Grammatik aus einem angepassten Modell.

Sie können eine Grammatik für die Spracherkennung mit den WebSocket- und HTTP-Schnittstellen verwenden. Mit den Parametern language_customization_id und grammar_name können Sie das angepasste Modell und die Grammatik angeben, die Sie verwenden möchten. Derzeit kann in einer Spracherkennungsanforderung nur eine einzige Grammatik verwendet werden.

Weitere Informationen zu Grammatiken finden Sie in der folgenden Dokumentation:

Informationen über alle Methoden der Schnittstelle finden Sie in der API & SDK-Referenz.

Neue Funktion für Zahlenschwärzung für amerikanisches Englisch, Japanisch und Koreanisch jetzt verfügbar

Eine neue Funktion zum Schwärzen von Zahlen ermöglicht jetzt die Maskierung von Zahlen, die aus mindestens drei aufeinanderfolgenden Ziffern bestehen. Zweck der Schwärzung ist es, sensible personenbezogene Daten wie beispielsweise Kreditkartennummern aus Transkriptionen zu entfernen. Sie können diese Funktion aktivieren, indem Sie in einer Erkennungsanforderung den Parameter redaction auf true setzen. Diese Funktion ist als Betafunktionalität nur für amerikanisches Englisch, Japanisch und Koreanisch verfügbar. Weitere Informationen finden Sie im Abschnitt Zahlenschwärzung.

Neue Schmalbandmodelle für Französisch und Deutsch jetzt verfügbar

Die folgenden neuen Sprachmodelle für Deutsch und Französisch sind jetzt mit dem Service verfügbar:

  • Schmalbandmodell für Französisch - fr-FR_NarrowbandModel
  • Schmalbandmodell für Deutsch - de-DE_NarrowbandModel

Beide neuen Modelle unterstützen die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion). Weitere Informationen finden Sie im Abschnitt Sprachunterstützung bei der Anpassung.

Neues Sprachmodell für amerikanisches Englisch (en-US_ShortForm_NarrowbandModel) jetzt verfügbar

Ein neues Modell für amerikanisches Englisch, en-US_ShortForm_NarrowbandModel, ist jetzt verfügbar. Das neue Modell ist für die Verwendung in Lösungen für Interactive-Voice-Response und für automatisierte Kundenunterstützung vorgesehen. Das Modell unterstützt die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion). Weitere Informationen finden Sie im Abschnitt Kurzformmodell für amerikanisches Englisch.

Aktualisierte Schmalbandmodelle für Englisch (Vereinigtes Königreich) und Spanisch zur Verbesserung der Spracherkennung

Die folgenden Sprachmodelle wurden aktualisiert und bieten nun eine verbesserte Spracherkennung:

  • Schmalbandmodell für Englisch (Vereinigtes Königreich) -en-GB_NarrowbandModel
  • Schmalbandmodell für Spanisch - es-ES_NarrowbandModel

Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Neue Unterstützung für das Audioformat G.279

Der Service unterstützt jetzt das Audioformat G.729 (audio/g729). Für schmalbandige Audiodaten unterstützt der Service nur G.729 Annex D. Weitere Informationen finden Sie unter Format audio/g729.

Funktion für Sprecherbezeichnungen für das Schmalbandmodell für britisches Englisch jetzt verfügbar

Die Funktion für Sprecherbezeichnungen ist jetzt für das Schmalbandmodell für britisches Englisch (en-GB_NarrowbandModel) verfügbar. Die Funktion wird als Betafunktion für alle unterstützten Sprachen bereitgestellt. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.

Neue Obergrenzen für das Audiodatenvolumen für angepasste Akustikmodelle

Die maximale Menge an Audiodaten, die Sie zu einem angepassten Akustikmodell hinzufügen können, wurde von 50 Stunden auf 100 Stunden erhöht.

13. Dezember 2018

Neuer Standort in London jetzt verfügbar
Der Speech to Text-Service ist nun am IBM Cloud-Standardort London (eu-gb) verfügbar. Wie an allen Standorten wird auch am Standort London die tokenbasierte IAM-Authentifizierung verwendet. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.

12. November 2018

Neue Unterstützung für intelligente Formatierung in der Spracherkennung für Japanisch
Der Service unterstützt jetzt die intelligente Formatierung bei der Spracherkennung für Japanisch. Bisher hat der Service die intelligente Formatierung nur für amerikanisches Englisch und Spanisch unterstützt. Diese Funktion ist als Betafunktionalität für alle unterstützten Sprachen verfügbar. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.

7. November 2018

Neuer Standort in Tokio jetzt verfügbar
Der Speech to Text-Service ist nun am IBM Cloud-Standardort Tokio (jp-tok) verfügbar. Wie an allen Standorten wird auch am Standort Tokio die tokenbasierte IAM-Authentifizierung verwendet. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.

30. Oktober 2018

Neue Unterstützung für tokenbasiertes IBM Cloud IAM

Der Service Speech to Text hat die Migration auf die tokenbasierte IAM-Authentifizierung für alle Standorte durchgeführt. Alle IBM Cloud-Services verwenden jetzt die IAM-Authentifizierung. Der Speech to Text-Service wurde für die einzelnen Standorte an den folgenden Terminen umgestellt:

  • Dallas (us-south): 30. Oktober 2018
  • Frankfurt (eu-de): 30. Oktober 2018
  • Washington DC (us-east): 12. Juni 2018
  • Sydney (au-syd): 15. Mai 2018

Die Migration zur IAM-Authentifizierung wirkt sich auf neue und auf bestehende Serviceinstanzen jeweils anders aus:

  • Alle neuen Service-Instanzen, die Sie an einem beliebigen Standort erstellen, verwenden nun die IAM-Authentifizierung für den Zugriff auf den Service. Sie können entweder ein Trägertoken oder einen API-Schlüssel übergeben: Token unterstützen authentifizierte Anfragen, ohne in jeden Aufruf Serviceberechtigungsnachweise einzubetten, und API-Schlüssel verwenden die HTTP-Basisauthentifizierung. Wenn Sie ein beliebiges Watson-SDK verwenden, können Sie den API-Schlüssel übergeben und dem SDK die Verwaltung des Lebenszyklus der Token überlassen.
  • Vorhandene Serviceinstanzen, die Sie vor dem angegebenen Umstellungstermin an einem Standort erstellt haben, verwenden weiterhin die Kombination aus {username} und {password} aus den vorherigen Cloud Foundry-Serviceberechtigungsnachweisen, bis Sie die betreffenden Services auf die Verwendung der IAM-Authentifizierung umstellen.

Weitere Informationen finden Sie in der folgenden Dokumentation:

  • Um zu erfahren, welchen Authentifizierungsmechanismus Ihre Dienstinstanz verwendet, zeigen Sie Ihre Dienstanmeldeinformationen an, indem Sie auf die Instanz im IBM Cloud Dashboard klicken.
  • Weitere Informationen zur Verwendung von IAM-Tokens mit Watson-Services finden Sie unter Authentifizierung bei Watson-Services.
  • Beispiele für die Verwendung der IAM-Authentifizierung finden Sie in der API & SDK-Referenz.

9. Oktober 2018

Wichtige Änderungen in der Preisstruktur für Spracherkennungsanforderungen

Ab dem 1. Oktober 2018 werden alle Audiodaten in Rechnung gestellt, die Sie zur Spracherkennung an den Service übergeben. Die ersten eintausend Minuten im Monat, die von Ihnen gesendet werden, sind nicht mehr kostenfrei. Weitere Informationen zu den Preisplänen für den Dienst finden Sie unter Speech to Text im IBM Cloud Katalog.

Der Header Content-Type ist jetzt für die meisten Spracherkennungsanforderungen optional

Der Header Content-Type ist jetzt für die meisten Spracherkennungsanforderungen optional. Der Service erkennt jetzt automatisch das Audioformat (MIME-Typ) der meisten Audiodaten. Für die folgenden Formate müssen Sie den Inhaltstyp (Content-Type) weiterhin angeben:

  • audio/basic
  • audio/l16
  • audio/mulaw

Falls angegeben, muss der Inhaltstyp, den Sie für diese Formate angeben, die Abtastfrequenz enthalten und kann optional die Anzahl der Kanäle und die Endianess der Audiodaten enthalten. Bei allen anderen Audioformaten können Sie den Inhaltstyp übergehen oder den Inhaltstyp application/octet-stream angeben, damit der Service das Format automatisch erkennt.

Wenn Sie den Befehl curl für eine Spracherkennungsanforderung mit der HTTP-Schnittstelle verwenden, müssen Sie das Audioformat im Header Content-Type entweder als "Content-Type: application/octet-stream" oder als "Content-Type:" angeben. Falls Sie den Header komplett weglassen, verwendet curl den Standardwert application/x-www-form-urlencoded. In den meisten Beispielen in dieser Dokumentation wird weiterhin das Format für Spracherkennungsanforderungen angegeben, selbst wenn es nicht erforderlich ist.

Diese Änderung gilt für die folgenden Methoden:

  • /v1/recognize für WebSocket-Anforderungen. Das Feld content-type der Textnachricht, die Sie über eine geöffnete WebSocket-Verbindung senden können, um eine Anforderung zu initialisieren, ist jetzt optional.
  • POST /v1/recognize für synchrone HTTP-Anforderungen. Der Header Content-Type ist jetzt optional. (Für mehrteilige Anforderungen ist das Feld part_content_type der JSON-Metadaten jetzt ebenfalls optional.)
  • POST /v1/recognitions für asynchrone HTTP-Anforderungen. Der Header Content-Type ist jetzt optional.

Weitere Informationen finden Sie unter Audioformate.

Aktualisiertes Breitbandmodell für brasilianisches Portugiesisch zur Verbesserung der Spracherkennung

Das Breitbandmodell für brasilianisches Portugiesisch, pt-BR_BroadbandModel, wurde aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Spracherkennungsanforderungen automatisch das aktualisierte Modell. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Parameter customization_id in language_customization_id umbenannt

Der Parameter customization_id der Spracherkennungsmethoden wird nicht mehr unterstützt. Er wird in einem künftigen Release entfernt. Wenn Sie ein angepasstes Sprachmodell für eine Spracherkennungsanforderung angeben möchten, verwenden Sie stattdessen den Parameter language_customization_id. Diese Änderung gilt für die folgenden Methoden:

  • /v1/recognize für WebSocket-Anforderungen
  • POST /v1/recognize für synchrone HTTP-Anforderungen (einschließlich mehrteiliger Anforderungen)
  • POST /v1/recognitions für asynchrone HTTP-Anforderungen

10. September 2018

Neues Breitbandmodell für Deutsch

Der Service unterstützt jetzt ein Breitbandmodell für Deutsch (de-DE_BroadbandModel). Das neue Modell für Deutsch unterstützt die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion).

Sprachmodellanpassung jetzt für brasilianisches Portugiesisch verfügbar

Die vorhandenen Modelle für brasilianisches Portugiesisch (pt-BR_BroadbandModel und pt-BR_NarrowbandModel) unterstützen jetzt auch die Sprachmodellanpassung (allgemein verfügbar). Zum Aktivieren dieser Unterstützung wurden die Modelle nicht aktualisiert, daher ist kein Upgrade der vorhandenen angepassten Akustikmodelle erforderlich.

Aktualisierte Modelle für amerikanisches Englisch und Japanisch zur Verbesserung der Spracherkennung

Neue Versionen der Breit- und Schmalbandmodelle für amerikanisches Englisch und Japanisch sind verfügbar:

  • Amerikanisches Englisch Breitbandmodell (en-US_BroadbandModel)
  • Schmalbandmodell für 'Amerikanisches Englisch' (en-US_NarrowbandModel)
  • Breitbandmodell für Japanisch - ja-JP_BroadbandModel
  • Japanisch Schmalbandmodell (ja-JP_NarrowbandModel)

Die neuen Modelle bieten eine verbesserte Spracherkennung. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Funktionen für Schlüsselworterkennung und Wortalternativen jetzt allgemein verfügbar

Die Funktionen für Schlüsselworterkennung und Wortalternativen sind jetzt für alle Sprachen allgemein verfügbar (GA) und nicht mehr als Betafunktionalität. Weitere Informationen finden Sie

Fehlerkorrektur: Dokumentation für Anpassungsschnittstelle verbessern

Fehlerbehebung: Die folgenden bekannten Probleme, die mit der Anpassungsschnittstelle zusammenhingen, wurden behoben und werden in der Produktion behoben. Die folgenden Informationen werden weiterhin für Benutzer bereitgestellt, bei denen diese Probleme möglicherweise zuvor aufgetreten sind.

  • Wenn Sie Daten zu einem angepassten Sprachmodell oder Akustikmodell hinzufügen, müssen Sie das Modell erneut trainieren, bevor es für die Spracherkennung verwendet wird. Das Problem tritt im folgenden Szenario auf:

    1. Der Benutzer erstellt ein neues angepasstes Modell (Sprach- oder Akustikmodell) und trainiert das Modell.

    2. Der Benutzer fügt zusätzliche Ressourcen (Wörter, Korpora oder Audio) zu dem angepassten Modell hinzu, ohne das Modell erneut zu trainieren.

    3. Der Benutzer kann das angepasste Modell nicht für die Spracherkennung verwenden. Der Service gibt bei Verwendung mit einer Spracherkennungsanforderung einen Fehler wie den folgenden zurück:

      {
        "code_description": "Bad Request",
        "code": 400,
        "error": "Requested custom language model is not available.
                  Please make sure the custom model is trained."
      }
      

    Um dieses Problem zu umgehen, muss der Benutzer das angepasste Modell mit den zugehörigen aktuellen Daten erneut trainieren. Anschließend kann der Benutzer das angepasste Modell mit Spracherkennung verwenden.

  • Bevor Sie ein vorhandenes angepasstes Sprach- oder Akustikmodell trainieren, müssen Sie für das Modell ein Upgrade auf die aktuelle Version durchführen. Das Problem tritt im folgenden Szenario auf:

    1. Der Benutzer verfügt über ein vorhandenes angepasstes Modell (Sprach- oder Akustikmodell), das auf einem aktualisierten Modell basiert.
    2. Der Benutzer trainiert das angepasste Modell anhand der Vorgängerversion des Basismodells, ohne ein Upgrade auf die aktuelle Version des Basismodells durchzuführen.
    3. Der Benutzer kann das angepasste Modell nicht für die Spracherkennung verwenden.

    Um dieses Problem zu umgehen, muss der Benutzer mit der Methode POST /v1/customizations/{customization_id}/upgrade_model oder POST /v1/acoustic_customizations/{customization_id}/upgrade_model für das angepasste Modell ein Upgrade auf die aktuelle Version des Basismodells durchführen. Anschließend kann der Benutzer das angepasste Modell mit Spracherkennung verwenden.

7. September 2018

Sitzungsbasierte Schnittstelle nicht mehr verfügbar

Die sitzungsbasierte HTTP-REST-Schnittstelle wird nicht mehr unterstützt. Alle Informationen, die sich auf Sitzungen beziehen, werden aus der Dokumentation entfernt. Die folgenden Methoden sind nicht mehr verfügbar:

  • POST /v1/sessions
  • POST /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/observe_result
  • DELETE /v1/sessions/{session_id}

Wenn Ihre Anwendung die Sitzungsschnittstelle verwendet, müssen Sie ein Upgrade auf eine der übrigen HTTP-REST-Schnittstellen oder auf die WebSocket-Schnittstelle durchführen. Weitere Informationen finden Sie in der Serviceaktualisierung vom 8. August 2018.

8. August 2018

Hinweis zur Einstellung der Unterstützung für die sitzungsbasierte Spracherkennungsschnittstelle

Die sitzungsbasierte HTTP-REST-Schnittstelle wird ab dem 8. August 2018 nicht mehr unterstützt. Alle Methoden der Sitzungs-API werden ab dem 7. September 2018 aus dem Service entfernt. Danach können Sie die sitzungsbasierte Schnittstelle nicht mehr verwenden. Dieser Hinweis auf die sofortige Einstellung der Unterstützung und die Entfernung in 30 Tagen gilt für die folgenden Methoden:

  • POST /v1/sessions
  • POST /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/recognize
  • GET /v1/sessions/{session_id}/observe_result
  • DELETE /v1/sessions/{session_id}

Wenn Ihre Anwendung die Sitzungsschnittstelle verwendet, müssen Sie bis zum 7. September auf eine der folgenden Schnittstellen migrieren:

  • Verwenden Sie für die datenstrombasierte Spracherkennung (einschließlich Live-Anwendungsfälle) die WebSocket-Schnittstelle. Sie bietet Zugriff auf vorläufige Ergebnisse und die niedrigste Latenz.
  • Verwenden Sie für die dateibasierte Spracherkennung eine der folgenden Schnittstellen:
    • Verwenden Sie für kurze Dateien mit Audiodaten für wenige Minuten entweder die synchrone HTTP-Schnittstelle (POST /v1/recognize) oder die asynchrone HTTP-Schnittstelle (POST /v1/recognitions).
    • Verwenden Sie für längere Dateien mit Audiodaten für viele Minuten die asynchrone HTTP-Schnittstelle. Die asynchrone HTTP-Schnittstelle akzeptiert in einer einzigen Anforderung bis zu 1 GB Audiodaten.

Die WebSocket- und HTTP-Schnittstellen stellen die gleichen Ergebnisse wie die Sitzungsschnittstelle bereit (nur die WebSocket-Schnittstelle liefert Zwischenergebnisse). Sie können auch eines der Watson-SDKs, um die Anwendungsentwicklung mit einer der Schnittstellen zu vereinfachen. Weitere Informationen finden Sie in der API-& SDK-Referenz.

13. Juli 2018

Aktualisiertes Schmalbandmodell für Spanisch zur Verbesserung der Spracherkennung

Das Schmalbandmodell für Spanisch, es-ES_NarrowbandModel, wurde aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Spracherkennungsanforderungen automatisch das aktualisierte Modell. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Ab dieser Aktualisierung sind die beiden folgenden Versionen des Schmalbandmodells für Spanisch verfügbar:

  • es_ES.8kHz.general.lm20180522235959.am20180522235959 (aktuelle Version)
  • es_ES.8kHz.general.lm20180308235959.am20180308235959 (vorherige Version)

Die folgende Version des Modells ist nicht mehr verfügbar:

  • es_ES.8kHz.general.lm20171031235959.am20171031235959

Eine Erkennungsanforderung, die ein angepasstes Modell zu verwenden versucht, das auf dem nicht mehr verfügbaren Basismodell basiert, greift auf das aktuelle Basismodell ohne jede Anpassung zurück. Der Service gibt die folgende Warnung zurück: Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported. Wenn Sie die Verwendung eines angepassten Modells wiederaufnehmen möchten, das auf dem nicht verfügbaren Modell basiert, müssen Sie zuerst das Modell mit der entsprechenden upgrade_model -Methode aktualisieren, wie zuvor beschrieben.

12. Juni 2018

Neue Funktionen für am Standort Washington DC gehostete Anwendungen

Die folgenden Funktionen wurden für Anwendungen aktiviert, die in Washington DC (us-east) gehostet werden:

  • Der Service unterstützt jetzt einen neuen Prozess für API-Authentifizierung. Weitere Informationen enthalten die Angaben zur Serviceaktualisierung vom 30. Oktober 2018.
  • Der Service unterstützt jetzt den Header X-Watson-Metadata und die Methode DELETE /v1/user_data. Weitere Informationen finden Sie im Abschnitt Informationssicherheit.

15. Mai 2018

Neue Funktionen für am Standort Sydney gehostete Anwendungen

Die folgenden Funktionen wurden für Anwendungen aktiviert, die in Sydney (au-syd) gehostet werden:

  • Der Service unterstützt jetzt einen neuen Prozess für API-Authentifizierung. Weitere Informationen enthalten die Angaben zur Serviceaktualisierung vom 30. Oktober 2018.
  • Der Service unterstützt jetzt den Header X-Watson-Metadata und die Methode DELETE /v1/user_data. Weitere Informationen finden Sie im Abschnitt Informationssicherheit.

26. März 2018

Sprachmodellanpassung für das Breitbandmodell für Französisch jetzt verfügbar

Der Service unterstützt jetzt die Sprachmodellanpassung für das Breitbandsprachmodell für Französisch fr-FR_BroadbandModel. Das Modell für Französisch ist allgemein verfügbar (GA) für den Einsatz in Produktionsumgebungen mit Sprachmodellanpassung.

Aktualisierte Modelle für Französische, Koreanisch und Spanisch zur Verbesserung der Spracherkennung

Die folgenden Modelle wurden aktualisiert, um die Spracherkennung zu verbessern:

  • Schmalbandmodell für Koreanisch - ko-KR_NarrowbandModel
  • Schmalbandmodell für Spanisch - es-ES_NarrowbandModel
  • Breitbandmodell für Französisch (fr-FR_BroadbandModel)

Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem dieser Modelle basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.

Parameter version in base_model_version umbenannt

Der Parameter version für die folgenden Methoden trägt jetzt den Namen base_model_version:

  • /v1/recognize für WebSocket-Anforderungen
  • POST /v1/recognize für HTTP-Anforderungen ohne Sitzung
  • POST /v1/sessions für sitzungsbasierte HTTP-Anforderungen
  • POST /v1/recognitions für asynchrone HTTP-Anforderungen

Der Parameter base_model_version gibt die Version eines Basismodells an, das für die Spracherkennung verwendet werden soll. Weitere Informationen finden Sie unter Aktualisierte angepasste Modelle für die Spracherkennung verwenden und Spracherkennungsanforderungen mit aktualisierten angepassten Modellen erstellen.

Neue Unterstützung für intelligente Formatierung in der Spracherkennung für Spanisch

Die intelligente Formatierung wird jetzt für Spanisch und für amerikanisches Englisch unterstützt. Die Funktion für amerikanisches Englisch konvertiert jetzt auch Schlüsselwortzeichenfolgen in Interpunktionssymbole für Punkte, Kommas, Fragezeichen und Ausrufezeichen. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.

1. März 2018

Aktualisierte Breitbandmodelle für Französisch und Spanisch zur Verbesserung der Spracherkennung

Die Breitbandmodelle für Französisch und Spanisch (fr-FR_BroadbandModel und es-ES_BroadbandModel) wurden aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem dieser Modelle basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen. In diesem Abschnitt werden Regeln für die Durchführung von Upgrades für angepasste Modelle, die Auswirkungen der Upgrades und Konzepte für die Verwendung aktualisierter Modelle beschrieben.

1. Februar 2018

Neue Modelle für Koreanisch

Der Service stellt jetzt Sprachmodelle für Koreanisch bereit: ko-KR_BroadbandModel für Audiodaten mit einer Mindestabtastrate von 16 kHz und ko-KR_NarrowbandModel für Audiodaten mit einer Mindestabtastrate von 8 kHz. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.

Die Sprachmodelle für Koreanisch sind für die Sprachmodellanpassung in Produktionsumgebungen allgemein verfügbar (GA) und für die Akustikmodellanpassung als Betafunktion verfügbar. Weitere Informationen finden Sie im Abschnitt Sprachunterstützung bei der Anpassung.

  • Weitere Informationen zur Vorgehensweise des Service beim Korpusparsing für Koreanisch finden Sie im Abschnitt Parsing für Koreanisch.
  • Weitere Informationen zum Erstellen gleich klingender Aussprachevarianten für angepasste Wörter in Koreanisch finden Sie im Abschnitt Richtlinien für Koreanisch.

14. Dezember 2017

Sprachmodellanpassung jetzt allgemein verfügbar

Die Sprachmodellanpassung und alle zugehörigen Parameter sind jetzt für alle unterstützten Sprachen allgemein verfügbar: Japanisch, Spanisch, britisches Englisch und amerikanisches Englisch.

Akustikmodellanpassung als Betafunktion jetzt für alle Sprachen verfügbar

Der Service unterstützt jetzt die Akustikmodellanpassung als Betafunktionalität für alle verfügbaren Sprachen. Sie können angepasste Akustikmodelle für Breitband- oder Schmalbandmodelle für alle Sprachen erstellen. Eine Einführung in die Anpassung, einschließlich Akustikmodellanpassung, finden Sie unter Anpassung verstehen.

Neuer Parameter version für die Spracherkennung

Für die verschiedenen Methoden zum Erstellen von Erkennungsanforderungen ist jetzt ein neuer Parameter version verfügbar, mit dem Sie Anforderungen initiieren können, die frühere oder aktualisierte Versionen der Basismodelle und angepassten Modellen verwenden. Obwohl er in erster Linie für die Verwendung mit angepassten Modellen bestimmt ist, für die ein Upgrade durchgeführt wurde, kann der Parameter version auch ohne angepasste Modelle verwendet werden. Weitere Informationen finden Sie unter Spracherkennungsanforderung mit aktualisierten angepassten Modellen erstellen.

Aktualisierte Modelle für amerikanisches Englisch zur Verbesserung der Spracherkennung

Die Modelle für amerikanisches Englisch (en-US_BroadbandModel und en-US_NarrowbandModel) wurden aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem der Modelle für amerikanisches Englisch basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:

  • POST /v1/customizations/{customization_id}/upgrade_model
  • POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Weitere Informationen zur Vorgehensweise finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen. In diesem Abschnitt werden Regeln für die Durchführung von Upgrades für angepasste Modelle, die Auswirkungen der Upgrades und Konzepte für die Verwendung aktualisierter Modelle beschrieben. Derzeit sind die Methoden nur auf die neuen Basismodelle für amerikanisches Englisch anwendbar. Dieselben Informationen gelten jedoch auch für Upgrades anderer Basismodelle, sobald sie verfügbar sind.

Sprachmodellanpassung jetzt für britisches Englisch verfügbar

Der Service unterstützt jetzt die Sprachmodellanpassung für die Modelle für amerikanisches Englisch (en-GB_BroadbandModel und en-GB_NarrowbandModel). Obwohl der Service Korpora für britisches und amerikanisches Englisch und angepasste Wörter auf ähnliche Weise verarbeitet, sind einige wichtige Unterschiede zu beachten:

2. Oktober 2017

Neue Schnittstelle für die Akustikmodellanpassung als Betafunktion für amerikanisches Englisch, Japanisch und Spanisch

Die Anpassungsschnittstelle bietet jetzt die Akustikmodellanpassung. Sie können jetzt angepasste Akustikmodelle erstellen, die die Basismodelle des Service an Ihre Umgebung und die verwendeten Sprecher anpassen. Zum Bestücken und Trainieren eines angepassten Akustikmodells werden Audiodaten verwendet, die noch enger an die akustische Signatur der Audiodaten angelehnt sind, die Sie transkribieren möchten. Anschließend können Sie das angepasste Akustikmodell mit Erkennungsanforderungen verwenden, um die Genauigkeit der Spracherkennung zu optimieren.

Angepasste Akustikmodelle ergänzen angepasste Sprachmodelle. Sie können ein angepasstes Akustikmodell mit einem angepassten Sprachmodell trainieren und Sie können beide Modelltypen für die Spracherkennung verwenden. Die Schnittstelle für Akustikmodellanpassung ist als Betafunktion und nur für amerikanisches Englisch, Japanisch und Spanisch verfügbar.

Neuer Parameter customization_weight für angepasste Sprachmodelle als Betafunktion

Für die Sprachmodellanpassung stellt der Service jetzt eine Betafunktion zur Verfügung, die optional eine Anpassungsgewichtung für ein angepasstes Sprachmodell festlegt. Die Anpassungsgewichtung gibt die relative Gewichtung für Wörter aus einem angepassten Sprachmodell im Verhältnis zu Wörtern aus dem Basisvokabular des Service an. Eine Anpassungsgewichtung können Sie sowohl beim Trainieren als auch bei der Spracherkennung festlegen. Weitere Informationen finden Sie im Abschnitt Anpassungsgewichtung verwenden.

Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung

Das Sprachmodell ja-JP_BroadbandModel wurde aktualisiert, um Verbesserungen des Basismodells zu nutzen. Die Aktualisierung wirkt sich nicht auf vorhandene angepasste Modelle aus, die auf dem Modell basieren.

Neuer Parameter endianness für das Audioformat audio/l16

Der Service enthält jetzt einen Parameter zum Angeben der Endianess von Audiodaten, die im Format audio/l16 (lineare 16-Bit-Pulsecodemodulation (PCM)) übergeben werden. Neben den Parametern rate und channels für das Format können Sie jetzt zusätzlich den Wert big-endian oder little-endian mit dem Parameter endianness angeben. Weitere Informationen finden Sie unter Format audio/l16.

14. Juli 2017

Neue Unterstützung für das Audioformat MP3 (MPEG)

Der Service unterstützt jetzt die Transkription von Audiodaten in den Formaten MP3 oder MPEG (Motion Picture Experts Group). Weitere Informationen finden Sie unter Formate audio/mp3 und audio/mpeg.

Sprachmodellanpassung für Spanisch jetzt als Betafunktion verfügbar

Die Schnittstelle für Sprachmodellanpassung unterstützt jetzt Spanisch als Betafunktionalität. Sie können ein angepasstes Modell erstellen, das auf einem der Sprachmodelle für Spanisch (es-ES_BroadbandModel oder es-ES_NarrowbandModel) basiert. Weitere Informationen finden Sie im Abschnitt Angepasstes Sprachmodell erstellen. Für Erkennungsanforderungen, die angepasste Sprachmodelle für Spanisch verwenden, gilt die gleiche Preisstruktur wie bei Modellen für amerikanisches Englisch und Japanisch.

Neues Feld dialect für die Methode zum Erstellen eines angepassten Sprachmodells erstellt

Das JSON-Objekt CreateLanguageModel, das Sie an die Methode POST /v1/customizations übergeben, um ein neues angepasstes Sprachmodell zu erstellen, enthält jetzt ein Feld dialect. Das Feld gibt den Dialekt der Sprache an, der für das angepasste Modell verwendet werden soll. Der Dialekt entspricht standardmäßig der Sprache des Basismodells. Der Parameter ist nur für Modelle in Spanisch von Bedeutung, für die der Service ein angepasstes Modell erstellen kann, das für Sprachdaten in einem der folgenden Dialekte geeignet ist:

  • es-ES für Spanisch (Kastilien), die Standardeinstellung
  • es-LA für Spanisch (Lateinamerika)
  • es-US für Spanisch (Mexiko, Nordamerika)

Die Methoden GET /v1/customizations und GET /v1/customizations/{customization_id} der Anpassungsschnittstelle enthalten in der Ausgabe den Dialekt eines angepassten Modells. Weitere Informationen finden Sie in den Abschnitten Angepasstes Sprachmodell erstellen und Angepasste Sprachmodelle auflisten.

Neue Namen für die Modelle für britisches Englisch

Die Namen der Sprachmodelle (en-UK_BroadbandModel und en-UK_NarrowbandModel) werden nicht mehr verwendet. Diese Modelle tragen jetzt die Namen en-GB_BroadbandModel und en-GB_NarrowbandModel.

Die nicht mehr verwendeten Namen en-UK_{model} funktionieren weiterhin, aber die Methode GET /v1/models gibt die Namen nicht mehr in der Liste der verfügbaren Modelle aus. Sie können die Namen jedoch weiterhin direkt mit der Methode GET /v1/models/{model_id} abfragen.

1. Juli 2017

Sprachmodellanpassung für amerikanisches Englisch und Japanisch jetzt allgemein verfügbar

Die Schnittstelle für Sprachmodellanpassung des Service ist jetzt allgemein verfügbar (GA) für die beiden unterstützten Sprachen amerikanisches Englisch und Japanisch. IBM stellt für Erstellung, Hosting und Verwaltung angepasster Sprachmodelle keine Gebühren in Rechnung. Wie im nächsten Listenpunkt erläutert, berechnet IBM jetzt zusätzlich $ 0,03 (USD) pro Minute für Audiodaten für Erkennungsanforderungen, die angepasste Modelle verwenden.

Aktualisierte Preisstruktur für den Service

Die IBM Preisgestaltung für den Service wurde wie folgt geändert:

  • Die Zusatzgebühr für die Verwendung von Schmalbandmodellen wurde gestrichen.
  • Eine gestaffelte Preisgestaltung für Kunden mit hohem Verbrauch wird bereitgestellt.
  • Eine Zusatzgebühr von $ 0,03 (USD) pro Minute gilt für Audiodaten für Erkennungsanforderungen, die angepasste Sprachmodelle für amerikanisches Englisch oder Japanisch verwenden.

Weitere Informationen zur geänderten Preisgestaltung finden Sie hier:

Leerer Hauptteil für HTTP-POST-Anforderungen nicht mehr erforderlich

Es ist nicht mehr erforderlich, ein leeres Datenobjekt als Hauptteil für die folgenden POST-Anforderungen zu übergeben:

  • POST /v1/sessions
  • POST /v1/register_callback
  • POST /v1/customizations/{customization_id}/train
  • POST /v1/customizations/{customization_id}/reset
  • POST /v1/customizations/{customization_id}/upgrade_model

Beispiel: Die Methode POST /v1/sessions wird jetzt mit curl wie folgt aufgerufen:

curl -X POST -u "{username}:{password}" \
--cookie-jar cookies.txt \
"{url}/v1/sessions"

Sie müssen die folgende curl-Option nicht mehr mit der Anforderung übergeben: --data "{}". Wenn Probleme mit einer dieser POST-Anforderungen auftreten, versuchen Sie, ein leeres Datenobjekt mit dem Hauptteil der Anforderung zu übergeben. Durch das Übergeben eines leeren Objekts wird weder die Art noch die Bedeutung der Anforderung geändert.

22. Mai 2017

Der Parameter continuous wurde aus allen Methoden entfernt

Der Parameter continuous wurde aus allen Methoden entfernt, die Erkennungsanforderungen aufrufen. Der Service transkribiert jetzt einen vollständigen Audiodatenstrom bis er endet oder das Zeitlimit überschritten wird (je nachdem, was zuerst eintritt). Dieses Verhalten entspricht dem Festlegen des vorherigen Parameters continuous auf true. Standardmäßig wurde die Transkription für den Service nach der ersten halben Sekunde Stille (Sprechpause) gestoppt, wenn der Parameter nicht angegeben oder auf false gesetzt war.

Für vorhandene Anwendungen, in denen der Parameter auf true gesetzt wird, bleibt das Verhalten unverändert. Für Anwendungen, in denen der Parameter auf false gesetzt oder das Standardverhalten verwendet wurde, kann eine Verhaltensänderung auftreten. Wenn der Parameter in einer Anforderung angegeben wird, gibt der Service jetzt eine Warnung für den unbekannten Parameter zurück:

"warnings": [
  "Unknown arguments: continuous."
]

Die Anforderung wird trotz Warnung erfolgreich ausgeführt und eine vorhandene Sitzung oder WebSocket-Verbindung ist nicht davon betroffen.

Der Parameter wurde von IBM als Antwort auf die mehrheitliche Auffassung der Entwicklercommunity entfernt, dass die Angabe continuous=false kaum Mehrwert bietet und die Transkriptionsgenauigkeit insgesamt beeinträchtigen kann.

Senden von Audiodaten erforderlich, um Zeitlimitüberschreitung der Sitzung zu vermeiden

Es ist nicht mehr möglich, eine Sitzungszeitlimitüberschreitung zu vermeiden, ohne Audiodaten zu senden:

  • Wenn Sie die WebSocket-Schnittstelle verwenden, kann der Client eine Verbindung nicht mehr durch das Senden einer JSON-Textnachricht aufrecht erhalten, die den Parameter action mit dem Wert no-op enthält. Das Senden einer Nachricht no-op generiert keinen Fehler und hat keine Auswirkungen.
  • Wenn Sie Sitzungen in Verbindung mit der HTTP-Schnittstelle verwenden, kann der Client die Sitzung nicht mehr durch das Senden einer Anforderung GET /v1/sessions/{session_id}/recognize verlängern. Diese Methode gibt zwar weiterhin den Status einer aktiven Sitzung zurück, aber die Sitzungsaktivität wird nicht aufrecht erhalten.

Sie können nun wie folgt vorgehen, damit eine Sitzung aktiv bleibt:

  • Setzen Sie den Parameter inactivity_timeout auf den Wert -1, um das Inaktivitätszeitlimit (30 Sekunden) zu umgehen.
  • Senden Sie beliebige Audiodaten (die Daten können auch aus Stille (Sprechpause) bestehen) an den Service, um das Sitzungszeitlimit von 30 Sekunden zu umgehen. Die Übertragungszeit für die Daten, die Sie an den Service senden (einschließlich der Sprechpausen, um eine Sitzung aktiv zu halten), wird Ihnen in Rechnung gestellt.

Weitere Informationen finden Sie im Abschnitt Zeitlimits. Im Idealfall würden Sie unmittelbar vor dem Abrufen der Audiodaten für die Transkription eine Sitzung aufbauen und diese Sitzung aktiv halten, indem Audiodaten nahezu in Echtzeit gesendet werden. Stellen Sie außerdem sicher, dass Ihre Anwendung geschlossene Sitzungen oder Verbindungen ordnungsgemäß verarbeitet.

Diese Funktionalität wurde von IBM entfernt, um sicherzustellen, dass für alle Benutzer eine leistungsfähige Spracherkennung mit niedrigen Latenzzeiten bereitgestellt wird.

10. April 2017

Sprecherbezeichnungen werden jetzt für amerikanisches Englisch, Spanisch und Japanisch unterstützt

Der Service unterstützt jetzt die Funktion der Sprecherbezeichnungen in den folgenden Breitbandmodellen:

  • Amerikanisches Englisch Breitbandmodell (en-US-BroadbandModel)
  • Breitbandmodell für Spanisch - es-ES-BroadbandModel
  • Breitbandmodell für Japanisch - ja-JP_BroadbandModel

Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.

Neue Unterstützung für das Audioformat 'WebM' (Web Media)

Der Service unterstützt jetzt das Audioformat 'Web Media' (WebM) mit dem Opus- oder Vorbis-Codec. Außerdem unterstützt er das Audioformat 'Ogg' nun zusätzlich zum Opus-Codec mit dem Vorbis-Codec. Weitere Informationen zu unterstützten Audioformaten finden Sie unter Format audio/webm.

Neue Unterstützung für Cross-Origin Resource Sharing

Der Service unterstützt jetzt Cross-Origin Resource Sharing (CORS), sodass browserbasierte Clients den Service direkt aufrufen können. Weitere Informationen finden Sie im Abschnitt CORS-Unterstützung.

Neue Methode zum Aufheben der Registrierung einer Callback-URL in der asynchronen HTTP-Schnittstelle

Die asynchrone HTTP-Schnittstelle bietet jetzt eine Methode POST /v1/unregister_callback, die die Registrierung für eine in der Zulassungsliste aufgeführte Callback-URL entfernt. Weitere Informationen finden Sie im Abschnitt Registrierung einer Callback-URL rückgängig machen.

Defekt behoben: Beseitigung von Timeouts bei langen Audiodateien mit der Schnittstelle WebSocket

Fehlerkorrektur: Bei Erkennungsanforderungen für besonders umfangreiche Audiodaten treten in der WebSocket-Schnittstelle keine Zeitlimitüberschreitungen mehr auf. Es ist nicht länger erforderlich, mithilfe der JSON-Nachricht start Zwischenergebnisse anzufordern, um die Zeitlimitüberschreitung zu vermeiden. (Dieses Problem wurde in der Aktualisierung vom 10. März 2016beschrieben.)

Neue HTTP-Fehlercodes

Die folgenden Methoden für die Sprachmodellanpassung können jetzt diese neuen HTTP-Fehlercodes zurückgeben:

  • Die Methode DELETE /v1/customizations/{customization_id} gibt jetzt den HTTP-Antwortcode 401 zurück, wenn Sie versuchen, ein nicht vorhandenes angepasstes Modell zu löschen.
  • Die Methode DELETE /v1/customizations/{customization_id}/corpora/{corpus_name} gibt jetzt den HTTP-Antwortcode 400 zurück, wenn Sie versuchen, ein nicht vorhandenes Korpus zu löschen.

8. März 2017

Asynchrone HTTP-Schnittstelle jetzt allgemein verfügbar
Die asynchrone HTTP-Schnittstelle ist jetzt allgemein verfügbar (GA). Bis zu diesem Datum wurde sie als Betafunktionalität bereitgestellt.

1. Dezember 2016

Neue Funktion für Sprecherbezeichnungen (Betafunktion)

Der Service stellt jetzt die Funktion der Sprecherbezeichnungen für Schmalbandaudiodaten für amerikanisches Englisch, Spanisch oder Japanisch als Betafunktionalität bereit. Diese Funktion gibt an, welche Wörter in einem Austausch zwischen mehreren Personen von welchen Sprechern gesprochen wurden. Die Erkennungsmethoden 'sessionless', 'session-based', 'asynchronous' und 'WebSocket' enthalten jeweils einen Parameter speaker_labels, der einen booleschen Wert akzeptiert. Dieser Wert gibt an, ob Sprecherbezeichnungen in die Antwort einbezogen werden sollen. Weitere Informationen zu der Funktion finden Sie im Abschnitt Sprecherbezeichnungen.

Sprachmodellanpassung für Japanisch jetzt als Betafunktion verfügbar

Die Betaversion der Schnittstelle für Sprachmodellanpassung wird jetzt für Japanisch und für amerikanisches Englisch unterstützt. Alle Methoden der Schnittstelle unterstützen Japanisch. Weitere Informationen finden Sie in den folgenden Abschnitten:

Neue Methode zum Auflisten von Informationen zu einem Korpus

Die Schnittstelle für Sprachmodellanpassung enthält jetzt eine Methode GET /v1/customizations/{customization_id}/corpora/{corpus_name} zum Auflisten von Information zu einem angegebenen Korpus. Die Methode ist hilfreich zum Überwachen des Status einer Anforderung zum Hinzufügen eines Korpus zu einem angepassten Modell. Weitere Informationen finden Sie im Abschnitt Korpora für angepasstes Sprachmodell auflisten.

Neues Feld count für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle

Die von den Methoden GET /v1/customizations/{customization_id}/words und GET /v1/customizations/{customization_id}/words/{word_name} zurückgegebene JSON-Antwort enthält jetzt für jedes Wort ein Feld count. Das Feld gibt an, wie oft das Wort in allen Korpora gefunden wurde. Wenn Sie ein angepasstes Wort in einem Modell hinzufügen, bevor es von Korpora hinzugefügt wird, startet der Zähler mit dem Wert 1. Wird das Wort zuerst aus einem Korpus hinzugefügt und später geändert, berücksichtigt der Zähler nur die Anzahl der Vorkommen in Korpora-Instanzen. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten.

Für angepasste Modelle, die vor der Einführung des Felds count erstellt wurden, zeigt das Feld stets den Wert 0 an. Um das Feld für solche Modelle zu aktualisieren, fügen Sie die Korpora des Modells erneut hinzu und geben Sie den Parameter allow_overwrite in der Methode POST /v1/customizations/{customization_id}/corpora/{corpus_name} an.

Neuer Parameter sort für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle

Die Methode GET /v1/customizations/{customization_id}/words enthält jetzt einen Abfrageparameter sort, der angibt, in welcher Reihenfolge die Wörter aufgelistet werden sollen. Der Parameter akzeptiert die beiden Argumente alphabetical oder count, um die Sortierreihenfolge für die Wörter anzugeben. Sie können einem Argument optional das Zeichen + oder - voranstellen, um anzugeben, ob die Ergebnisse in aufsteigender oder absteigender Reihenfolge sortiert werden sollen. Standardmäßig werden die Wörter von der Methode in aufsteigender alphabetischer Reihenfolge angezeigt. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten.

Für angepasste Modelle, die vor der Einführung des Felds count erstellt wurden, ist die Verwendung des Arguments count im Parameter sort ohne Bedeutung. Verwenden Sie für solche Modelle das Standardargument alphabetical.

Neues Feldformat error für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle

Das Feld error, das als Teil der JSON-Antwort von den Methoden GET /v1/customizations/{customization_id}/words und GET /v1/customizations/{customization_id}/words/{word_name} zurückgegeben werden kann, ist jetzt ein Array. Wenn der Service mindestens ein Problem für die Definition eines angepassten Worts festgestellt hat, werden in dem Feld alle Problemelemente aus der Definition und eine Nachricht mit der Beschreibung des Problems aufgelistet. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten.

Die Parameter keywords_threshold und word_alternatives_threshold akzeptieren keinen Nullwert mehr.

Die Parameter keywords_threshold und word_alternatives_threshold der Erkennungsmethoden akzeptieren keine Nullwerte mehr. Um Schlüsselwörter und Wortalternativen aus der Antwort auszuschließen, geben Sie die Parameter nicht an. Als Wert muss ein Gleitkommawert angegeben werden.

22. September 2016

Neue Schnittstelle für Sprachmodellanpassung als Betafunktion
Der Service stellt jetzt eine neue Schnittstelle für die Sprachmodellanpassung für amerikanisches Englisch als Betaversion bereit. Mit dieser Schnittstelle können Sie das Basisvokabular und die Sprachmodelle des Service anpassen, indem Sie angepasste Sprachmodelle erstellen, die fachspezifische Terminologie enthalten. Sie können angepasste Wörter einzeln hinzufügen oder von einem Service aus Korpora extrahieren lassen. Um Ihre angepassten Modelle mit den von einer der Serviceschnittstellen bereitgestellten Spracherkennungsmethoden zu verwenden, übergeben Sie den Abfrageparameter customization_id. Weitere Informationen finden Sie
Neue Unterstützung für Audioformat audio/mulaw
Die Liste der unterstützten Audioformate enthält jetzt das Format audio/mulaw, das Einkanalaudiodaten zur Verfügung stellt, die mit dem Datenalgorithmus 'u-law' (oder 'mu-law') codiert sind. Wenn Sie dieses Format verwenden, müssen Sie auch die Abtastfrequenz für die Erfassung von Audiodaten angeben. Weitere Informationen finden Sie unter Format audio/mulaw.
Neues Feld supported_features wird beim Auflisten von Modellen identifiziert
Die Methoden GET /v1/models und GET /v1/models/{model_id} geben jetzt ein Feld supported_features als Teil ihrer Ausgabe für jedes Sprachmodell zurück. Diese zusätzlichen Informationen beschreiben, ob die Anpassung für dieses Modell unterstützt wird. Weitere Informationen finden Sie in der API-& SDK-Referenz.

30. Juni 2016

Asynchrone HTTP-Schnittstelle (Betafunktion) unterstützt jetzt alle verfügbaren Sprachen
Die Betaversion der asynchronen HTTP-Schnittstelle bietet jetzt Unterstützung für alle Sprachen, die vom Service unterstützt werden. Bisher war die Schnittstelle nur für amerikanisches Englisch verfügbar. Weitere Informationen finden Sie unter "Die asynchrone HTTP-Schnittstelle" und "API- und SDK-Referenz ".

23. Juni 2016

Neue asynchrone HTTP-Schnittstelle jetzt als Betafunktion verfügbar
Die asynchrone HTTP-Schnittstelle ist jetzt als Betaversion verfügbar. Die Schnittstelle bietet alle Erkennungsfunktionen für Transkription in amerikanischem Englisch über nicht blockierende HTTP-Aufrufe. Sie können Callback-URLs registrieren und benutzerspezifische geheime Zeichenfolgen angeben, um die Authentifizierung und Datenintegrität mithilfe digitaler Signaturen umzusetzen. Weitere Informationen finden Sie unter "Die asynchrone HTTP-Schnittstelle" und "API- und SDK-Referenz ".
Neuer Parameter smart_formatting für die Spracherkennung (Betafunktion)
Eine Betafunktion für intelligente Formatierung ermöglicht das Konvertieren von Datumsangaben, Zeitangaben, Ziffern- und Zahlenreihen, Telefonnummern, Währungswerten und Internetadressen in herkömmliche Darstellungen für endgültige Transkripte. Sie können diese Funktion aktivieren, indem Sie in einer Erkennungsanforderung den Parameter smart_formatting auf true setzen. Diese Funktion ist nur als Betafunktionalität für amerikanisches Englisch verfügbar. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.
Neues Breitbandmodell für Französisch
Die Liste der für die Spracherkennung unterstützten Modelle enthält jetzt fr-FR_BroadbandModel für Audiodaten in Französisch mit einer Abtastfrequenz von mindestens 16 kHz. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.
Neue Unterstützung für Audioformat audio/basic
Die Liste der unterstützten Audioformate enthält jetzt audio/basic. Dieses Format stellt Einkanalaudiodaten mit 8 Bit in der Codierung 'u-law' (bzw. 'mu-law') und mit einer Abtastfrequenz von 8 kHz bereit. Weitere Informationen finden Sie unter Format audio/basic.
Spracherkennungsmethoden geben jetzt Warnungen für ungültige Parameter zurück
Die verschiedenen Erkennungsmethoden können eine Antwort mit Warnungen (warnings) zurückgeben, die Nachrichten über ungültige Abfrageparameter enthalten oder JSON-Felder, die in einer Anforderung enthalten sind. Das Format der Warnungen wurde geändert. Beispiel: "warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." lautet jetzt "warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}.".
Leerer Hauptteil erforderlich für HTTP-Methoden des Typs POST, die keine Daten übergeben
Für HTTP-Anforderungen POST, die keine anderen Daten an den Service übergeben, müssen Sie einen leeren Anforderungshauptteil mit dem Format {} übergeben. In Verbindung mit dem Befehl curl wird die Option --data verwendet, um die leeren Daten zu übergeben.

10. März 2016

Neue Obergrenzen für die zur Spracherkennung übertragenen Audiodaten
Bei beiden Formen der Datenübertragung (Einzelübermittlung bzw. Streaming) gilt jetzt eine Größenbegrenzung auf 100 MB für die Audiodaten (wie bei der WebSocket-Schnittstelle). Bislang galt für die Einzelübertragung ein Maximalwert von 4 MB. Weitere Informationen finden Sie in den Abschnitten Übertragung von Audiodaten (für alle Schnittstellen) und Audiodaten senden und Erkennungsergebnisse empfangen (für die WebSocket-Schnittstelle). Im Abschnitt über WebSocket wird außerdem die maximale Frame- oder Nachrichtengröße von 4 MB für die WebSocket-Schnittstelle erläutert.
HTTP- und WebSocket-Schnittstelle können jetzt Warnungen zurückgeben
Die JSON-Antwort für eine Erkennungsanforderung kann jetzt ein Array mit Warnungen für einzelne Abfrageparameter oder JSON-Felder aus einer Anforderung enthalten. Jedes Element des Arrays ist eine Zeichenfolge, die die Art der Warnung beschreibt, gefolgt von einem Array mit ungültigen Argumenten. Beispiel: "warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ]. Weitere Informationen finden Sie in der API-& SDK-Referenz.
Betaversion des Apple iOS SDK wird nicht mehr verwendet
Das als Betafunktion bereitgestellte Watson Speech Software Development Kit (SDK) für das Betriebssystem Apple ® iOS wird nicht mehr verwendet. Verwenden Sie stattdessen das Watson-SDK für das Betriebssystem Apple ® iOS. Das neue SDK ist im ios-sdk Repository im watson-developer-cloud Namespace auf GitHub verfügbar.
WebSocket-Schnittstelle liefert Ergebnisse möglicherweise mit Verzögerung
Es kann einige Minuten dauern, bis die WebSocket-Schnittstelle Endergebnisse für eine Erkennungsanforderung mit besonders langen Audiodaten liefert. Die zugrunde liegende TCP-Verbindung für die WebSocket-Schnittstelle bleibt inaktiv, solange der Service die Antwort vorbereitet. Dies kann dazu führen, dass die Verbindung aufgrund einer Zeitlimitüberschreitung beendet wird. Um die Zeitlimitüberschreitung der WebSocket-Schnittstelle zu vermeiden, fordern Sie Zwischenergebnisse (\"interim_results\": \"true\") im JSON-Code für die Nachricht start an, um die Anforderung zu initialisieren. Sie können die Zwischenergebnisse löschen, wenn sie nicht benötigt werden. Dieses Problem wir in einem künftigen Update behoben.

19. Januar 2016

Neue Filterfunktion für Vulgärsprache
Der Service wurde aktualisiert und enthält seit dem 19. Januar 2016 eine neue Filterfunktion für vulgäre Ausdrücke. Der Service zensiert standardmäßig vulgäre Ausdrücke in Transkriptionsergebnissen der Audiodaten für amerikanisches Englisch. Weitere Informationen finden Sie im Abschnitt Vulgäre Ausdrücke filtern.

17. Dezember 2015

Neue Funktion für Schlüsselworterkennung
Der Service bietet jetzt eine Funktion für Schlüsselworterkennung. Sie können ein Array mit Schlüsselwortzeichenfolgen angeben, die in den Eingabeaudiodaten erkannt werden sollen. Außerdem müssen Sie ein benutzerdefiniertes Konfidenzniveau angeben, das ein Wort aufweisen muss, damit es als Übereinstimmung mit einem Schlüsselwort infrage kommt. Weitere Informationen finden Sie im Abschnitt Schlüsselworterkennung. Die Funktion für Schlüsselworterkennung wird als Betafunktionalität bereitgestellt.
Funktion für neue Wortalternativen
Der Service bietet jetzt eine Funktion für Wortalternativen. Diese Funktion liefert alternative Hypothesen für Wörter in den Eingabeaudiodaten, die ein vom Benutzer definiertes Konfidenzniveau aufweisen. Weitere Informationen finden Sie im Abschnitt Wortalternativen. Die Funktion für Wortalternativen wird als Betafunktionalität bereitgestellt.
Neue Modelle für britisches Englisch und für Arabisch
Der Service unterstützt jetzt mehr Sprachen durch die bereitgestellten Transkriptionsmodelle: en-UK_BroadbandModel und en-UK_NarrowbandModel für britisches Englisch und ar-AR_BroadbandModel für modernes Hocharabisch. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.
Neues Feld session_closed für sitzungsbasierte Methoden
In den JSON-Antworten, die der Service für Fehler bei sitzungsbasierten Methoden zurückgibt, ist jetzt eine neues Feld session_closed enthalten. Dieses Feld wird auf true gesetzt, wenn die Sitzung aufgrund des Fehlers geschlossen wird. Weitere Informationen über mögliche Rückgabewerte für jede Methode finden Sie in der API- und SDK-Referenz.
Kein Zeitlimit für HTTP-Plattform
HTTP-Erkennungsanforderungen unterliegen nicht mehr einem Plattformzeitlimit von 10 Minuten. Der Dienst hält nun die Verbindung aufrecht, indem er alle 20 Sekunden ein Leerzeichen im JSON-Antwortobjekt sendet, solange die Erkennung läuft. Weitere Informationen finden Sie im Abschnitt Zeitlimits.
Die Ratenbegrenzung mit dem Befehl curl ist nicht mehr erforderlich
Wenn Sie den Befehl curl zum Transkribieren von Audiodaten mit dem Service verwenden, müssen Sie nicht mehr die Option --limit-rate angeben, damit nicht mehr als 40.000 Datenbyte pro Sekunde übertragen werden.
Änderungen für HTTP-Fehlercodes
Der Service gibt nicht mehr den HTTP-Statuscode 490 für die sitzungsbasierten HTTP-Methoden GET /v1/sessions/{session_id}/observe_result und POST /v1/sessions/{session_id}/recognize zurück. Stattdessen antwortet der Service jetzt mit dem HTTP-Statuscode 400.

21. September 2015

Neue SDKs für mobile Geräte verfügbar

Für die Speech-Services sind zwei neue Software Development Kits (SDKs) für mobile Geräte als Betafunktionalität verfügbar. Die SDKs ermöglichen mobilen Anwendungen die Interaktion mit Speech to Text- und Text to Speech-Services.

  • Das Watson Speech-SDK für die Google-Plattform Android™ unterstützt das Streaming von Audiodaten an den Speech to Text-Service in Echtzeit und das Empfangen eines Transkripts der Audiodaten während des Sprechvorgangs. Das Projekt enthält eine Beispielanwendung zur Veranschaulichung der Interaktion mit beiden Speech-Services. Das SDK ist im Repository speech-android-sdk im Namespace watson-developer-cloud auf GitHub verfügbar.
  • Das Watson Speech-SDK für das Betriebssystem Apple ® iOS unterstützt das Streaming von Audiodaten an den Speech to Text-Service und das Empfangen eines Transkripts der Audiodaten als Antwort. Das SDK ist im Repository speech-ios-sdk im Namespace watson-developer-cloud auf GitHub verfügbar.

Beide SDKs unterstützen die Authentifizierung bei den Speech-Services entweder mit Ihren IBM Cloud-Serviceberechtigungsnachweisen oder mit einem Authentifizierungstoken. Da die SDKs als Betafunktionalität vorliegen, bleiben künftige Änderungen vorbehalten.

Neue Modelle für brasilianisches Portugiesisch und für Chinesisch (Mandarin)

Der Service unterstützt zwei neue Sprachen: Portugiesisch (Brasilien) und Chinesisch (Mandarin) mit den folgenden Modellen:

  • Brasilianisches Portugiesisch, Breitbandmodell (pt-BR_BroadbandModel)
  • Schmalbandmodell für 'Brasilianisches Portugiesisch' (pt-BR_NarrowbandModel)
  • Beitbandmodell für Chinesisch (Mandarin) - zh-CN_BroadbandModel
  • Schmalbandmodell für Chinesisch (Mandarin) - zh-CN_NarrowbandModel

Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.

Neue Unterstützung für Audioformat audio/ogg;codecs=opus

Die HTTP-POST-Anforderungen /v1/sessions/{session_id}/recognize und /v1/recognize sowie die WebSocket-Anforderung /v1/recognize unterstützen die Transkription eines neuen Medientyps: audio/ogg;codecs=opus für Dateien im Ogg-Format, die den Opus-Codec verwenden. Darüber hinaus unterstützt das Format audio/wav für die Methoden jetzt jede Codierung. Die Einschränkung in Bezug auf die Verwendung der linearen PCM-Codierung wurde behoben. Weitere Informationen finden Sie unter Format audio/ogg.

Neuer Parameter sequence_id für lange Abfragen in Sitzungen

Der Service unterstützt jetzt die Überwindung von Zeitlimits beim Transkribieren langer Audiodateien mit der HTTP-Schnittstelle. Beim Arbeiten mit Sitzungen können Sie ein langes Abfragemuster verwenden, indem Sie mit den Methoden GET /v1/sessions/{session_id}/observe_result und POST /v1/sessions/{session_id}/recognize Folgen-IDs für Erkennungstasks mit langer Laufzeit angeben. Mit dem neuen Parameter sequence_id für diese Methoden können Sie vor, während und nach dem Übergeben einer Erkennungsanforderung Ergebnisse anfordern.

Neue Funktion für Großschreibung in Transkriptionen für amerikanisches Englisch

Für die Sprachmodelle für amerikanisches Englisch (en_US_BroadbandModel und en_US_NarrowbandModel) verwendet der Service jetzt bei vielen Eigennamen die korrekte Großschreibung. Der Dienst würde zum Beispiel einen neuen Text zurückgeben, der lautet "Barack Obama graduierte von der Columbia University" statt "barack obama graduierte von der columbia university". Diese Änderung kann für Sie von Interesse sein, wenn Ihre Anwendung die Groß-/Kleinschreibung von Eigennamen berücksichtigen muss.

Neuer HTTP-Fehlercode

Die Anfrage HTTP DELETE /v1/sessions/{session_id} liefert nicht den Statuscode 415 "Unsupported Media Type". Dieser Rückgabecode wurde aus der Dokumentation für die Methode entfernt.

1. Juli 2015

Speech to Text-Service jetzt allgemein verfügbar

Der Service wird nicht mehr als Betaversion bereitgestellt, sondern ist seit dem 1. Juli 2015 allgemein verfügbar. Zwischen der Betaversion und der allgemein verfügbaren Version der Speech to Text-APIs bestehen die folgenden Unterschiede. Für das allgemein verfügbare Release müssen die Benutzer ein Upgrade auf die neue Version des Service durchführen.

Die allgemein verfügbare Version der HTTP-API ist mit der Betaversion kompatibel. Sie müssen Ihren vorhandenen Anwendungscode nur ändern, wenn Sie einen Modellnamen explizit angegeben haben. Der Beispielcode für den Service bei GitHub enthielt beispielsweise die folgende Codezeile in der Datei demo.js:

model: 'WatsonModel'

In dieser Zeile wurde das Standardmodell WatsonModel für die Betaversion des Dienstes angegeben. Wenn dieses Modell auch in Ihrer Anwendung angegeben wird, müssen Sie die Anwendung ändern, sodass eines der neuen Modelle verwendet wird, die von der allgemein verfügbaren Version unterstützt werden. Weitere Informationen finden Sie im nächsten Listenpunkt.

Neues tokenbasiertes Programmiermodell

Der Service unterstützt jetzt ein neues Programmiermodell für die direkte Interaktion zwischen einem Client und dem Service über eine WebSocket-Verbindung. Bei Verwendung dieses Modells kann ein Client ein Authentifizierungstoken für die direkte Kommunikation mit dem Service anfordern. Dieses Token macht es für eine serverseitige Proxy-Anwendung in IBM Cloud überflüssig, den Service im Namen des Clients aufzurufen. Tokens sind die bevorzugte Methode für die Interaktion von Clients mit dem Service.

Der Service unterstützt weiterhin das frühere Programmiermodell, bei dem ein serverseitiger Proxy Audiodaten und Nachrichten zwischen dem Client und dem Service überträgt. Das neue Modell ist jedoch effizienter und bietet einen höheren Durchsatz.

Neuer Parameter model für die Spracherkennung

Die Methoden POST /v1/sessions und POST /v1/recognize sowie die WebSocket-Methode /v1/recognize unterstützen jetzt einen Abfrageparameter model. Mit diesem Parameter können Sie folgende Informationen zu den Audiodaten angeben:

  • Sprache: Englisch, Japanisch oder Spanisch
  • Mindestabtastfrequenz: Breitband (16 kHz) oder Schmalband (8 kHz)

Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.

Neuer Parameter inactivity_timeout für die Spracherkennung

Der Parameter inactivity_timeout legt das Zeitlimit in Sekunden fest, nach dem der Service die Verbindung beendet, wenn im Streaming-Modus eine Sprechpause (Stille) erkannt wird. Standardmäßig wird die Sitzung vom Service nach einer Sprechpause von 30 Sekunden beendet. Die Methoden POST /v1/recognize und WebSocket /v1/recognize unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Zeitlimits.

Neuer Parameter max_alternatives für die Spracherkennung

Der Parameter max_alternatives veranlasst den Service, die n besten alternativen Hypothesen für die Audiotranskription zurückzugeben. Die Methoden POST /v1/recognize und WebSocket /v1/recognize unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl Alternativen.

Neuer Parameter word_confidence für die Spracherkennung

Der Parameter word_confidence veranlasst den Service, für jedes Wort der Transkription einen Konfidenzwert zurückzugeben. Die Methoden POST /v1/recognize und WebSocket /v1/recognize unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Wortkonfidenz.

Neuer Parameter timestamps für die Spracherkennung

Der Parameter timestamps veranlasst den Service, die Anfangs- und Endzeit in Relation zum Start der Audiodaten für jedes Wort in der Transkription zurückzugeben. Die Methoden POST /v1/recognize und WebSocket /v1/recognize unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Wortzeitmarken.

Methode 'sessions' zum Beobachten von Ergebnissen wurde umbenannt

Die Methode GET /v1/sessions/{session_id}/observeResult wurde in GET /v1/sessions/{session_id}/observe_result umbenannt. Der vorherige Name observeResult wird für die Abwärtskompatibilität weiterhin unterstützt.

Neue Unterstützung für das Format Waveform Audio File (WAV)

Der Header Content-Type der recognize-Methoden unterstützt jetzt neben audio/flac und audio/l16 zusätzlich audio/wav für Dateien im Format Waveform Audio File (WAV). Weitere Informationen finden Sie unter Format audio/wav.

Obergrenzen für Audiodaten bei der Spracherkennung

Im Streaming-Modus gilt für den Service jetzt ein Grenzwert von 100 MB für Daten pro Sitzung. Sie können den Streaming-Modus angeben, indem Sie den Wert chunked mit dem Header Transfer-Encoding angeben. Bei der Einzelübertragung einer Audiodatei gilt weiterhin ein Größenlimit von 4 MB für die gesendeten Daten. Weitere Informationen finden Sie im Abschnitt Übertragung von Audiodaten.

Neuer Header zum Inaktivieren von Mitarbeit in Bezug auf Serviceverbesserungen

Die Methoden GET /v1/sessions/{session_id}/observe_result, POST /v1/sessions/{session_id}/recognize und POST /v1/recognize enthalten jetzt den Headerparameter X-WDC-PL-OPT-OUT. Dieser Parameter steuert, ob der Service die Audio- und Transkriptionsdaten aus der Anforderung verwendet, um zukünftige Ergebnisse zu verbessern. Die WebSocket-Schnittstelle enthält einen funktional entsprechenden Abfrageparameter. Geben Sie den Wert 1 an, um zu verhindern, dass der Service die Audio- und Transkriptionsergebnisse verwendet. Der Parameter gilt nur für die aktuelle Anforderung. Der neue Header ersetzt den Header X-logging aus der Betaversion der API. Weitere Informationen finden Sie im Abschnitt Anforderungsprotokollierung für Watson-Services steuern.

Änderungen für HTTP-Fehlercodes

Der Service kann jetzt die folgende HTTP-Fehlercodes zurückgeben:

  • Für die Methoden /v1/models, /v1/models/{model_id}, /v1/sessions, /v1/sessions/{session_id}, /v1/sessions/{session_id}/observe_result, /v1/sessions/{session_id}/recognize und /v1/recognize wurde der Fehlercode 415 (Unsupported Media Type, nicht unterstützter Medientyp) hinzugefügt.
  • Bei POST und GET werden bei Anfragen an die Methode /v1/sessions/{session_id}/recognize die folgenden Fehlercodes geändert:
    • Für den Fehlercode 404 ("Session_id not found") wurde eine aussagekräftigere Nachricht hinzugefügt (POST und GET).
    • Für den Fehlercode 503 ("Session is already processing a request. Concurrent requests are not allowed on the same session. Session remains alive after this error.") ist eine verständlichere Nachricht verfügbar (nur POST).
    • Für HTTP-POST-Anforderungen an die Methoden /v1/sessions und /v1/recognize kann der Fehlercode 503 ("Service Unavailable") zurückgegeben werden. Der Fehlercode kann auch zurückgegeben werden, wenn Sie eine WebSocket Verbindung mit der Methode /v1/recognize erstellen.