Releaseinformationen für Speech to Text for IBM Cloud
IBM Cloud
Die folgenden Funktionen und Änderungen wurden für jede Version und jedes Update von verwalteten Instanzen von IBM Watson® Speech to Text, die auf IBM Cloud gehostet werden, oder für Instanzen, die auf IBM Cloud Pak for Data als Service gehostet werden, aufgenommen. Sofern nicht anders angegeben, sind alle Änderungen mit früheren (älteren) Versionen kompatibel und werden für alle neuen und vorhandenen Anwendungen automatisch und transparent verfügbar gemacht.
Informationen zu bekannten Einschränkungen des Service finden Sie unter Bekannte Einschränkungen.
Informationen zu Releases und Aktualisierungen des Service für IBM Cloud Pak for Data finden Sie unter Releaseinformationen für Speech to Text for IBM Cloud Pak for Data.
19. November 2024
- Neues großes Sprachmodell für Deutsch ist jetzt allgemein verfügbar
-
Das große Sprachmodell für Deutsch ist jetzt allgemein verfügbar.
- Weitere Informationen zu großen Sprachmodellen finden Sie unter Large speech languages and models.
- Weitere Informationen zu den Features, die für große Sprachmodelle unterstützt werden, finden Sie unter Unterstützte Features für große Sprachmodelle.
23. August 2024
- Alle Large-Speech-Modelle sind jetzt allgemein verfügbar
-
Die großen Sprachmodelle für alle Sprachen sind jetzt allgemein verfügbar (GA). Sie werden für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.
- Weitere Informationen zu großen Sprachmodellen finden Sie unter Large speech languages and models.
- Weitere Informationen zu den Features, die für große Sprachmodelle unterstützt werden, finden Sie unter Unterstützte Features für große Sprachmodelle.
18. Juni 2024
- Neue große Sprachmodelle für brasilianisches Portugiesisch und Spanisch sind jetzt in der offenen Betaversion verfügbar
-
Die großen Sprachmodelle für brasilianisches Portugiesisch und Spanisch sind jetzt in der Open Beta. Spanisch umfasst die kastilischen, argentinischen, chilenischen, kolumbianischen, mexikanischen und peruanischen Dialekte.
- Weitere Informationen zu großen Sprachmodellen finden Sie unter Large speech languages and models.
- Weitere Informationen zu den Features, die für große Sprachmodelle unterstützt werden, finden Sie unter Unterstützte Features für große Sprachmodelle.
15. Mai 2024
- Großes Sprachmodell für Englisch ist jetzt allgemein verfügbar
-
Das große Sprachmodell für Englisch, das die Dialekte der Vereinigten Staaten, Australiens, Indiens und des Vereinigten Königreichs enthält, ist jetzt allgemein verfügbar (GA). Es wird für den Einsatz in Produktionsumgebungen und -anwendungen unterstützt.
- Weitere Informationen zu großen Sprachmodellen finden Sie unter Large speech languages and models.
- Weitere Informationen zu den Features, die für große Sprachmodelle unterstützt werden, finden Sie unter Unterstützte Features für große Sprachmodelle.
07. März 2024
- Großes Sprachmodell für amerikanisches Englisch in Open Beta
- Das neue Large-Speech-Modell für US-Englisch ist in der offenen Beta-Phase. Weitere Details zu unterstützten Features (Betaversion) finden Sie unter Large speech languages and models.
30. November 2023
- Speech to Text-Parameter "speech_begin_event"
-
Mit diesem Parameter kann die Client-Anwendung erkennen, dass einige Wörter oder Sprache erkannt wurden und Speech to Text gerade dekodiert wird. Weitere Informationen finden Sie unter Spracherkennungsparameter verwenden.
- Parameter 'mapping_only' für angepasste Wörter
-
Mit dem Parameter "mapping_only" können Sie benutzerdefinierte Wörter direkt verwenden, um "sounds_like" (oder Wort) auf den "display_as"-Wert als Post-Processing statt als Training abzubilden. Weitere Informationen finden Sie unter The words resource.
-
Siehe die Leitlinien für Nichtjapanisch und Japanisch.
- Unterstützung für Brasilianisch-Portugiesisch und Französisch-Kanada bei der Anpassung eines neuen Sprachmodells der nächsten Generation
-
Die Sprachmodellanpassung für brasilianisch-portugiesische und französisch-kanadische Modelle der nächsten Generation wurde kürzlich hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.
- Neue Funktion für intelligente Formatierung
-
Eine neue intelligente Formatierungsfunktion für Modelle der nächsten Generation wird in amerikanischem Englisch, brasilianischem Portugiesisch, Französisch und Deutsch unterstützt. Weitere Informationen finden Sie unter Version der intelligenten Formatierung.
- Unterstützung für Spanisch (Kastilisch) und Spanisch (LATAM) bei der neuen verbesserten Anpassung des Sprachmodells der nächsten Generation
-
Die Sprachmodellanpassung für kastilische Spanisch-und LATAM-Spanisch-Modelle der nächsten Generation wurde hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.
- Große Sprachmodelle für Englisch, Japanisch und Französisch - für frühen Zugang
-
Für die Frühzugriffsfunktion sind Large Speech Models für Englisch, Japanisch und Französisch in IBM Watson Speech-to-Text und IBM watsonx Assistantfür Sie verfügbar. Das Feature-Set für diese Large Speech-Modelle ist begrenzt, aber genauer als Modelle der nächsten Generation und aufgrund der kleineren Größe und besseren Streaming-Modus-Funktionalität schneller und kostengünstiger auszuführen.
Wenn Sie daran interessiert sind, diese Basismodelle zu testen und Ergebnisse und Feedback zu teilen, wenden Sie sich an unser Produktmanagementteam, indem Sie dieses Formular ausfüllen.
28. Juli 2023
- Wichtig: Alle Modelle der Vorgängergeneration werden ab 1. August 2023 eingestellt.
- Wichtig: Der Service wird jetzt für alle Modelle der vorherigen Generation eingestellt. Neue Clients dürfen jetzt nur die Modelle der nächsten Generation verwenden. Alle vorhandenen Clients müssen jetzt auf das entsprechende Modell der nächsten Generation migrieren. Weitere Informationen zu allen Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation. Weitere Informationen zur Migration auf Modelle der nächsten Generation finden Sie unter Auf Modelle der nächsten Generation migrieren.
9. Juni 2023
- Fehlerkorrektur: Das Erstellen und Trainieren eines angepassten Sprachmodells ist jetzt optimal für Standardmodelle und Modelle der nächsten Generation mit niedriger Latenz.
- Fehlerkorrektur: Wenn Sie ein angepasstes Sprachmodell mit Korpora-Textdateien und/oder angepassten Wörtern unter Verwendung eines Modells der nächsten Generation mit niedriger Latenzzeit erstellen und trainieren, arbeitet es jetzt auf dieselbe Weise wie bei einem Standardmodell. Bisher war es nur bei Verwendung eines Modells der nächsten Generation mit niedriger Latenzzeit nicht optimal.
- Fehlerkorrektur: STT Websockets-Sitzungen schlagen aufgrund einer Tensorfehlernachricht nicht mehr fehl
- Fehlerkorrektur: Bei Verwendung von STT-Websockets schlagen Sitzungen nicht mehr aufgrund einer Fehlernachricht fehl: "STT gibt den Fehler zurück: Die Größen von Tensoren müssen übereinstimmen, außer in Dimension 0".
18. Mai 2023
- Aktualisierungen des englischen Modells für medizinische Telefonie der nächsten Generation
-
Das englische medizinische Telefoniemodell der nächsten Generation wurde für eine verbesserte Spracherkennung aktualisiert:
en-WW_Medical_Telephony
- Unterstützung für Französisch und Deutsch für neue verbesserte Sprachmodellanpassung der nächsten Generation hinzugefügt
-
Die Sprachmodellanpassung für französische und deutsche Modelle der nächsten Generation wurde kürzlich hinzugefügt. Diese Serviceaktualisierung enthält weitere interne Verbesserungen.
Weitere Informationen zur verbesserten Anpassung der nächsten Generation finden Sie unter
- Fehlerkorrektur: Benutzerdefinierte Wörter, die Katakana-Zeichen mit halber Breite enthalten, geben jetzt eine klare Fehlernachricht mit dem japanischen Telefonmodell zurück
-
Fehlerkorrektur: Gemäß der -Dokumentation werden nur Katakana-Zeichen mit voller Breite in angepassten Wörtern akzeptiert und die Modelle der nächsten Generation zeigen jetzt eine Fehlernachricht an, um zu erklären, dass sie nicht unterstützt werden. Bisher wurde beim Erstellen angepasster Wörter mit Katakana-Zeichen mit halber Breite keine Fehlernachricht angezeigt.
- Fehlerkorrektur: Japanisches Telefonsprachmodell schlägt aufgrund langer Trainingszeit nicht mehr fehl
-
Fehlerkorrektur: Beim Trainieren eines angepassten Sprachmodells mit der japanischen Telefonie verarbeitet der Service jetzt effektiv eine große Anzahl angepasster Wörter, ohne dass ein Fehler auftritt.
2. Mai 2023
- Neue Prozedur für das Upgrade eines angepassten Modells, das auf einem verbesserten Modell der nächsten Generation basiert
-
Es gibt jetzt zwei Ansätze, um ein angepasstes Sprachmodell auf ein verbessertes Basismodell der nächsten Generation zu aktualisieren. Sie können das angepasste Modell weiterhin ändern und anschließend erneut trainieren, wie bereits dokumentiert. Jetzt können Sie das angepasste Modell aber auch aktualisieren, indem Sie den Abfrageparameter
force=true
in die AnforderungPOST /v1/customizations/{customization_id}/train
einschließen. Der Parameterforce
aktualisiert das angepasste Modell unabhängig davon, ob es Änderungen enthält (befindet sich im Statusready
oderavailable
).Weitere Informationen finden Sie unter Upgrade eines angepassten Sprachmodells auf der Basis eines verbesserten Modells der nächsten Generation durchführen.
- Anleitung zum Hinzufügen von Wörtern zu angepassten Modellen, die auf verbesserten Modellen der nächsten Generation basieren
-
Die Dokumentation bietet jetzt weitere Anleitungen zum Hinzufügen von Wörtern zu angepassten Modellen, die auf verbesserten Modellen der nächsten Generation basieren. Aus Leistungsgründen während des Trainings fördert die Anleitung die Verwendung von Korpora anstelle des direkten Hinzufügens benutzerdefinierter Wörter, wann immer dies möglich ist.
Weitere Informationen finden Sie unter Richtlinien für das Hinzufügen von Wörtern zu angepassten Modellen auf der Basis verbesserter Modelle der nächsten Generation.
- Angepasste japanische Wörter für angepasste Modelle, die auf verbesserten Modellen der nächsten Generation basieren, werden anders behandelt
-
Bei angepassten japanischen Modellen, die auf Modellen der nächsten Generation basieren, werden angepasste Wörter anders behandelt als andere Sprachen. Für Japanisch können Sie ein angepasstes Wort oder ein gleich klingendes Wort hinzufügen, das nicht länger als 25 Zeichen ist. Wenn Ihr angepasstes Wort oder Ihr gleich klingendes Wort diesen Grenzwert überschreitet, fügt der Service das Wort zum angepassten Modell hinzu, als wäre es durch ein Korpus hinzugefügt worden. Das Wort wird nicht als angepasstes Wort für das Modell angezeigt.
Weitere Informationen finden Sie unter Richtlinien zum Hinzufügen von Wörtern zu japanischen Modellen basierend auf verbesserten Modellen der nächsten Generation.
12. April 2023
- Fehlerkorrektur: Die Schnittstelle WebSocket überschreitet jetzt das erwartete Zeitlimit, wenn Modelle der nächsten Generation verwendet werden.
- Fehlerkorrektur: Bei Verwendung für die Spracherkennung mit Modellen der nächsten Generation überschreitet die WebSocket-Schnittstelle das erwartete Zeitlimit nach langer Sprechpause. Bisher konnte die WebSocket-Sitzung bei der Spracherkennung kurzer Audiodateien das Zeitlimit möglicherweise nicht erreichen. Wenn das Zeitlimit für die Sitzung nicht überschritten wurde, gab der Service keine endgültige Hypothese an die wartende Clientanwendung zurück und der Client hat stattdessen beim Warten auf die Ergebnisse das Zeitlimit überschritten.
6. April 2023
- Fehlerkorrektur: Grenzwerte für den Abschluss des Trainings für angepasste japanische Modelle der nächsten Generation
- Fehlerkorrektur: Das erfolgreiche Training eines angepassten japanischen Sprachmodells der nächsten Generation erfordert, dass angepasste Wörter und Klänge, die dem Modell hinzugefügt werden, nicht mehr als 25 Zeichen enthalten. Für das effektivste Training wird empfohlen, dass benutzerdefinierte Wörter und Sounds nicht mehr als 20 Zeichen enthalten. Das Training von japanischen angepassten Modellen mit längeren angepassten Wörtern und Klängen-Likes wird nach mehreren Stunden des Trainings nicht abgeschlossen.
Führen Sie die folgenden Schritte aus, wenn Sie das Äquivalent eines langen Wortes oder eines Klangs zu einem angepassten Modell der nächsten Generation in Japanisch hinzufügen müssen:
- Fügen Sie dem angepassten Modell ein kürzeres Wort oder einen Klang hinzu, das bzw. der die Essenz des längeren Wortes oder des Klangs erfasst.
- Fügen Sie einen oder mehrere Sätze hinzu, die das längere Wort verwenden oder wie ein Korpus klingen.
- Fügen Sie dem Korpus Sätze hinzu, die mehr Kontext für das Wort oder das gleich klingende Wort bieten. Ein größerer Kontext gibt dem Service mehr Informationen, mit denen das Wort erkannt und das richtige gleich klingende Wort angewendet werden kann.
- Fügen Sie das Korpus zum benutzerdefinierten Modell hinzu.
- Trainieren Sie das angepasste Modell mit der Kombination aus dem kürzeren Wort oder dem gleich klingenden Korpus und dem Korpus, das die längere Zeichenfolge enthält.
Die soeben beschriebenen Begrenzungen und Schritte ermöglichen die Ausführung des Trainings für angepasste japanische Modelle der nächsten Generation. Beachten Sie, dass das Hinzufügen einer großen Anzahl neuer angepasster Wörter zu einem angepassten Sprachmodell die Trainingszeit des Modells verlängert. Die erhöhte Trainingszeit tritt jedoch nur auf, wenn das angepasste Modell zum ersten Mal mit den neuen Wörtern trainiert wird. Sobald das angepasste Modell mit den neuen Wörtern trainiert wurde, wird die Trainingszeit wieder normal.
For more information, see
- [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
- [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
- [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
- [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)
- Weitere Verbesserungen bei der aktualisierten Sprachmodellanpassung der nächsten Generation
- Die Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation wurde kürzlich verbessert. Diese Serviceaktualisierung enthält weitere interne Verbesserungen. Weitere Informationen zur verbesserten Anpassung der nächsten Generation finden Sie unter
13. März 2023
- Fehlerkorrektur: Intelligente Formatierung für Datumsangaben in amerikanischem Englisch ist jetzt korrekt
- Fehlerkorrektur: Die intelligente Formatierung enthält jetzt ordnungsgemäß Wochentage und Datumsangaben, wenn beide in den gesprochenen Audiodaten vorhanden sind, z. B.
Tuesday February 28
. Bisher wurde in einigen Fällen der Wochentag weggelassen und das Datum falsch dargestellt. Beachten Sie, dass die intelligente Formatierung die Betafunktionalität ist. - Fehlerkorrektur: Dokumentation für Wörter mit Sprachzögerung für Modelle der nächsten Generation aktualisieren
- Fehlerkorrektur: Die Dokumentation für Wörter mit Sprachzögerung für Modelle der nächsten Generation wurde aktualisiert. Weitere Details werden über zögerliche Wörter in amerikanischem Englisch und Japanisch bereitgestellt. Modelle der nächsten Generation enthalten die tatsächlichen zögerlichen Wörter in Transkriptionsergebnissen, im Gegensatz zu Modellen der vorherigen Generation, die nur zögerliche Marker enthalten. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
27. Februar 2023
- Neues japanisches Telefoniemodell der nächsten Generation
-
Der Dienst bietet jetzt ein Telefoniemodell der nächsten Generation für Japaner an:
ja-JP_Telephony
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Verbesserte Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation
-
Der Service bietet jetzt eine verbesserte Sprachmodellanpassung für englische und japanische Modelle der nächsten Generation:
en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony
Sichtbare Verbesserungen an den Modellen: Die neue Technologie verbessert das Standardverhalten der neuen englischen und japanischen Modelle. Neben anderen Änderungen optimiert die neue Technologie das Standardverhalten für die folgenden Parameter:
- Der Standardwert
customization_weight
für angepasste Modelle, die auf den neuen Versionen dieser Modelle basieren, wird von0.2
in0.1
geändert. - Der Standardwert
character_insertion_bias
für angepasste Modelle, die auf den neuen Versionen dieser Modelle basieren, bleibt0.0
, aber die Modelle wurden auf eine Weise geändert, die die Verwendung des Parameters für die Spracherkennung weniger erforderlich macht.
Upgrade auf die neuen Modelle: Um die Vorteile der verbesserten Technologie nutzen zu können, müssen Sie alle angepassten Sprachmodelle, die auf den neuen Modellen basieren, aktualisieren. Gehen Sie wie folgt vor, um ein Upgrade auf die neue Version eines dieser Basismodelle durchzuführen:
-
Ändern Sie Ihr angepasstes Modell, indem Sie ein angepasstes Wort, einen angepassten Korpus oder eine angepasste Grammatik hinzufügen oder ändern, die das Modell enthält. Jede Änderung, die Sie vornehmen, versetzt das Modell in den Status
ready
. -
Verwenden Sie die Methode
POST /v1/customizations/{customization_id}/train
, um das Modell erneut zu trainieren. Beim erneuten Training wird das angepasste Modell auf die neue Technologie aktualisiert und das Modell in den Statusavailable
versetzt.Bekanntes Problem: Derzeit können Sie die Methode
POST /v1/customizations/{customization_id}/upgrade_model
nicht verwenden, um ein Upgrade eines angepassten Modells auf eines der neuen Basismodelle durchzuführen. Dieses Problem wird in einer zukünftigen Version behoben.
Verwendung der neuen Modelle: Nach dem Upgrade auf das neue Basismodell sollten Sie die Leistung des aktualisierten angepassten Modells bewerten, indem Sie den Parametern
customization_weight
undcharacter_insertion_bias
für die Spracherkennung besondere Aufmerksamkeit schenken. Wenn Sie Ihr angepasstes Modell erneut trainieren:- Das angepasste Modell verwendet den neuen Standardwert
customization_weight
von0.1
für Ihr angepasstes Modell. Eine vom Standard abweichendecustomization_weight
, die Sie Ihrem angepassten Modell zugeordnet hatten, wird entfernt. - Das angepasste Modell erfordert möglicherweise nicht mehr die Verwendung des Parameters
character_insertion_bias
für eine optimale Spracherkennung.
Verbesserungen bei der Sprachmodellanpassung machen diese Parameter für eine qualitativ hochwertige Spracherkennung weniger wichtig:
- Wenn Sie die Standardwerte für diese Parameter verwenden, fahren Sie nach dem Upgrade fort. Die Standardwerte bieten wahrscheinlich weiterhin die besten Ergebnisse für die Spracherkennung.
- Wenn Sie für diese Parameter vom Standard abweichende Werte angeben, experimentieren Sie nach dem Upgrade mit den Standardwerten. Ihr angepasstes Modell funktioniert möglicherweise gut für die Spracherkennung mit den Standardwerten.
Wenn Sie der Meinung sind, dass die Verwendung unterschiedlicher Werte für diese Parameter die Spracherkennung mit Ihrem angepassten Modell verbessern könnte, experimentieren Sie mit inkrementellen Änderungen, um festzustellen, ob die Parameter zur Verbesserung der Spracherkennung erforderlich sind.
Hinweis: Zu diesem Zeitpunkt gelten die Verbesserungen bei der Sprachmodellanpassung nur für angepasste Modelle, die auf den zuvor aufgelisteten englischen oder japanischen Basissprachmodellen der nächsten Generation basieren. Im Laufe der Zeit werden die Verbesserungen für andere Sprachmodelle der nächsten Generation verfügbar gemacht.
Weitere Informationen: Weitere Informationen zum Upgrade und zur Spracherkennung mit diesen Parametern finden Sie unter
- Fehlerkorrektur: Grammatikdateien verarbeiten jetzt Zeichenfolgen von Ziffern korrekt
-
Fehlerkorrektur: Wenn Grammatiken verwendet werden, verarbeitet der Service jetzt längere Zeichenfolgen mit Ziffern ordnungsgemäß. Bisher konnte die Erkennung nicht abgeschlossen werden oder es wurden falsche Ergebnisse zurückgegeben.
15. Februar 2023
- Wichtig: Alle Modelle der vorherigen Generation sind veraltet und werden am 31. Juli 2023 das Ende des Servicezeitraums erreichen
-
Wichtig: Alle Modelle der vorherigen Generation sind veraltet und erreichen das Ende des Servicezeitraums ab 31. Juli 2023. An diesem Datum werden alle Modelle der vorherigen Generation aus dem Service und der Dokumentation entfernt. Das vorherige Nichtweiterverwendungsdatum war der 3. März 2023. Das neue Datum ermöglicht Benutzern mehr Zeit für die Migration auf die entsprechenden Modelle der nächsten Generation. Benutzer müssen jedoch bis zum 31. Juli 2023 auf das entsprechende Modell der nächsten Generation migrieren.
Die meisten Modelle der Vorgängergeneration wurden am 15. März 2022 als veraltet markiert. Bisher waren die arabischen und japanischen Modelle nicht veraltet. Die Einstellung der Unterstützung gilt jetzt für alle Modelle der vorherigen Generation.
- Weitere Informationen zu den Modellen der nächsten Generation, auf die Sie die einzelnen veralteten Modellen migrieren können, finden Sie unter Sprachen und Modelle der vorherigen Generation
- Weitere Informationen zur Migration von Modellen der vorherigen Generation auf Modelle der nächsten Generation finden Sie in Migration auf Modelle der nächsten Generation.
- Weitere Informationen zu allen Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
Hinweis: Wenn die vorherige Generation
en-US_BroadbandModel
außer Betrieb genommen wird, wird das Modell der nächsten Generationen-US_Multimedia
das Standardmodell für Spracherkennungsanfragen. - Fehlerkorrektur: Verbesserte Trainingszeit für angepasste Sprachmodelle der nächsten Generation
-
Fehlerkorrektur: Die Trainingszeit für angepasste Sprachmodelle der nächsten Generation wurde jetzt deutlich verbessert. Bisher dauerte die Trainingszeit viel länger als nötig, wie für das Training von angepassten japanischen Sprachmodellen berichtet wurde. Das Problem wurde durch einen internen Fix behoben.
- Fehlerkorrektur: Dynamisch generierte Grammatikdateien funktionieren jetzt ordnungsgemäß
-
Fehlerkorrektur: Dynamisch generierte Grammatikdateien funktionieren jetzt ordnungsgemäß. Bisher konnten dynamische Grammatikdateien zu internen Fehlern führen, die für die Integration von Speech to Text in IBM® watsonx™ Assistantgemeldet wurden. Das Problem wurde durch einen internen Fix behoben.
20 Januar 2023
- Veraltete arabische und britische Modellnamen sind nicht mehr verfügbar
-
Die folgenden arabischen und britischen Modellnamen werden vom Service nicht mehr akzeptiert:
ar-AR_BroadbandModel
-Verwenden Sie stattdessenar-MS_BroadbandModel
.en-UK_NarrowbandModel
-Verwenden Sie stattdessenen-GB_NarrowbandModel
.en-UK_BroadbandModel
-Verwenden Sie stattdessenen-GB_BroadbandModel
.
Der arabische Modellname wird am 2. Dezember 2020 nicht mehr verwendet. Die britischen englischen Modellnamen wurden am 14. Juli 2017 nicht mehr verwendet.
- Einstellung der Unterstützung für Cloud Foundry und Migration auf Ressourcengruppen
-
{{{site.data.keyword.IBM_notm}} kündigte die Abschaffung von IBM Cloud Foundry zum 31. Mai 2022 an. Ab dem 30. November 2022 können neue IBM Cloud Foundry nicht mehr erstellt werden und nur noch bestehende Nutzer können Anwendungen bereitstellen. IBM Cloud Foundry erreicht das Ende des Supports am 1. Juni 2023. Zu diesem Zeitpunkt werden alle IBM Cloud Foundry, auf denen IBM Cloud Foundry werden dauerhaft deaktiviert, deprovisioniert und gelöscht.
Um Ihre IBM Cloud über den 1. Juni 2023 hinaus nutzen zu können, müssen Sie vor diesem Datum zu Ressourcengruppen migrieren. Ressourcengruppen sind konzeptionell ähnlich wie Cloud Foundry. Sie bieten mehrere zusätzliche Vorteile, wie z. B. eine feinere Zugriffskontrolle durch IBM Cloud Identity and Access Management (IAM), die Möglichkeit, Service-Instanzen mit Anwendungen und Diensten über verschiedene Regionen hinweg zu verbinden, und eine einfache Möglichkeit, die Nutzung pro Gruppe anzuzeigen.
- Der Parameter
max_alternatives
ist jetzt für die Verwendung mit Modellen der nächsten Generation verfügbar -
Der Parameter
max_alternatives
ist jetzt für alle Modelle der nächsten Generation verfügbar. Der Parameter ist generell für alle Modelle der nächsten Generation verfügbar. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl Alternativen. - Fehlerkorrektur: Verwendung der Parameter
max_alternatives
undend_of_phrase_silence_time
bei Modellen der nächsten Generation zulassen -
Fehlerkorrektur: Wenn Sie sowohl die Parameter
max_alternatives
als auchend_of_phrase_silence_time
in derselben Anforderung mit Modellen der nächsten Generation verwenden, gibt der Service jetzt mehrere alternative Transkripte zurück und berücksichtigt gleichzeitig das angegebene Pausenintervall. Bisher hat die Verwendung der beiden Parameter in einer einzelnen Anforderung einen Fehler generiert. (Die Verwendung des Parametersmax_alternatives
mit Modellen der nächsten Generation war zuvor als experimentelle Funktion für eine begrenzte Anzahl von Kunden verfügbar.) - Fehlerkorrektur: Aktualisierung des kanadischen Telefoniemodells der nächsten Generation in Französisch (Upgrade erforderlich)
-
Fehlerkorrektur: Das französische Telefonmodell der nächsten Generation,
fr-CA_Telephony
, wurde aktualisiert, um eine interne Inkonsistenz zu beheben, die während der Spracherkennung einen Fehler verursachen könnte. Sie müssen alle angepassten Modelle aktualisieren, die auf demfr-CA_Telephony
-Modell basieren. Weitere Informationen zur Aktualisierung von benutzerdefinierten Modellen finden Sie unter - Fehlerkorrektur: Hinzufügen von Dokumentationsrichtlinien für die Erstellung japanischer Klänge auf der Basis von Modellen der nächsten Generation
-
Fehlerkorrektur: In "sounds-likes" für angepasste japanische Sprachmodelle, die auf Modellen der nächsten Generation basieren, ist die Zeichenfolge
ウー
in einigen linken Kontexten mehrdeutig. Verwenden Sie keine Zeichen (Silben), die mit dem Phonem/o/
enden, z. B.ロ
undト
. Verwenden Sie in solchen Fällenウウ
oder einfachウ
anstelle vonウー
. Verwenden Sie beispielsweiseロウウマン
oderロウマン
anstelle vonロウーマン
. Weitere Informationen finden Sie unter Richtlinien für Japanisch. - Das direkte Hinzufügen von Wörtern zu angepassten Modellen, die auf Modellen der nächsten Generation basieren, erhöht die Trainingszeit
-
Wenn Sie angepasste Wörter direkt zu einem angepassten Modell hinzufügen, das auf einem Modell der nächsten Generation basiert, dauert das Training eines Modells einige Minuten länger als sonst. Wenn Sie ein Modell mit angepassten Wörtern trainieren, die Sie mithilfe der Methode
POST /v1/customizations/{customization_id}/words
oderPUT /v1/customizations/{customization_id}/words/{word_name}
hinzugefügt haben, planen Sie einige Minuten zusätzliche Trainingszeit für das Modell ein. Weitere Informationen finden Sie - Die maximale Anzahl an Audioressourcen für angepasste Akustikmodelle am Standort Tokio wurde erhöht.
-
Die maximale Anzahl an Stunden für Audioressourcen, die Sie angepassten Akustikmodellen am Standort Tokio hinzufügen können, beträgt wieder 200 Stunden. Zuvor wurde das Maximum für die Region Tokio auf 50 Stunden reduziert. Diese Kürzung wurde aufgehoben und auf das nächste Jahr verschoben. Weitere Informationen finden Sie unter Maximale Anzahl Audiostunden.
5. Dezember 2022
- Neues niederländisches Multimedia-Modell der nächsten Generation
- Der Dienst bietet jetzt ein Multimedia-Modell der nächsten Generation für Niederländisch an:
nl-NL_Multimedia
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Fehlerkorrektur: Angepasste Worterkennung in Transkriptionsergebnissen für Modelle der nächsten Generation korrigieren
- Fehlerkorrektur: Für die Sprachmodellanpassung mit Modellen der nächsten Generation werden angepasste Wörter jetzt erkannt und in allen Transkriptionen verwendet. Bisher konnten angepasste Wörter manchmal nicht erkannt und in Transkriptionsergebnissen verwendet werden.
- Fehlerkorrektur: Korrekte Verwendung des Felds
display_as
in Transkriptionsergebnissen für Modelle der nächsten Generation - Fehlerkorrektur: Für die Sprachmodellanpassung mit Modellen der nächsten Generation wird der Wert des Felds
display_as
für ein angepasstes Wort jetzt in allen Transkripten angezeigt. Bisher erschien der Wert des Feldsword
manchmal in Transkriptionsergebnissen. - Fehlerkorrektur: Dokumentation zur Benennung angepasster Modelle aktualisieren
- Fehlerkorrektur: Die Dokumentation enthält jetzt detaillierte Regeln für die Benennung angepasster Sprachmodelle und angepasster Akustikmodelle. Weitere Informationen finden Sie
20 Oktober 2022
- Updates für englische Telefoniemodelle der nächsten Generation
-
Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Fehlerkorrektur: Aktualisieren des japanischen Multimedia-Modells der nächsten Generation (Upgrade erforderlich)
-
Fehlerkorrektur: Das japanische Multimediamodell der nächsten Generation,
ja-JP_Multimedia
, wurde aktualisiert, um eine interne Inkonsistenz zu beheben, die während der Spracherkennung mit geringer Latenz einen Fehler verursachen könnte. Sie müssen alle angepassten Modelle aktualisieren, die auf demja-JP_Multimedia
-Modell basieren. Weitere Informationen zur Aktualisierung von benutzerdefinierten Modellen finden Sie unter
7. Oktober 2022
- Neues schwedisches Telefoniemodell der nächsten Generation
-
Der Dienst bietet jetzt ein Telefoniemodell der nächsten Generation für Schweden an:
sv-SE_Telephony
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Updates für englische Telefoniemodelle der nächsten Generation
-
Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
21. September 2022
- Neues Activity Tracker-Ereignis zum Löschen von Benutzerinformationen in der DSGVO
-
Der Service gibt jetzt ein Ereignis Activity Tracker zurück, wenn Sie die Methode
DELETE /v1/user_data
verwenden, um alle Informationen zu einem Benutzer zu löschen. Das Ereignis hat den Namenspeech-to-text.gdpr-user-data.delete
. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse. - Fehlerkorrektur: Aktualisieren Sie einige Modelle der nächsten Generation, um die Antwortzeit mit niedriger Latenz zu verbessern.
-
Fehlerkorrektur: Die folgenden Modelle der nächsten Generation wurden aktualisiert, um ihre Antwortzeit zu verbessern, wenn der Parameter
low_latency
verwendet wird:en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony
Bisher haben diese Modelle Erkennungsergebnisse nicht so schnell wie erwartet zurückgegeben, als der Parameter
low_latency
verwendet wurde. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
19. August 2022
- Wichtig: Das Datum der Einstellung der Unterstützung für die meisten Modelle der Vorgängergeneration ist jetzt der 3 März 2023.
-
Ersetzt: Diese Benachrichtigung über veraltete Features wird durch die Serviceaktualisierung vom 15. Februar 2023 ersetzt. Das Enddatum des Servicezeitraums für alle Modelle der vorherigen Generation ist jetzt 31. Juli 2023.
Am 15. März 2022 wurden die Modelle der vorherigen Generation für alle Sprachen außer Arabisch und Japanisch abgeschafft. Zu diesem Zeitpunkt sollten die veralteten Modelle bis zum 15. September 2022 verfügbar bleiben. Damit Benutzer mehr Zeit für die Migration auf die entsprechenden Modelle der nächsten Generation haben, bleiben die veralteten Modelle bis 3. März 2023 verfügbar. Wie beim ersten Hinweis zu veralteten Versionen sind die arabischen und japanischen Modelle der vorherigen Generation nicht veraltet. Eine vollständige Liste aller veralteten Modelle finden Sie unter 15. März 2022-Serviceaktualisierung.
Am 3. März 2023 werden die veralteten Modelle aus dem Service und der Dokumentation entfernt. Wenn Sie eines der veralteten Modelle verwenden, müssen Sie bis zum 3. März 2023 auf das entsprechende Modell der nächsten Generation umsteigen.
- Weitere Informationen zu den Modellen der nächsten Generation, auf die Sie die einzelnen veralteten Modellen migrieren können, finden Sie unter Sprachen und Modelle der vorherigen Generation
- Weitere Informationen zu den Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation
- Weitere Informationen zur Migration von Modellen der vorherigen Generation auf Modelle der nächsten Generation finden Sie in Migration auf Modelle der nächsten Generation.
Hinweis: Wenn die vorherige Generation
en-US_BroadbandModel
außer Betrieb genommen wird, wird das Modell der nächsten Generationen-US_Multimedia
das Standardmodell für Spracherkennungsanfragen.
15. August 2022
- Neues französisches Multimediamodell der nächsten Generation in Kanada
-
Der Dienst bietet jetzt ein Multimediamodell der nächsten Generation für Französisch-Kanadier:
fr-CA_Multimedia
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Updates für englische Telefoniemodelle der nächsten Generation
-
Die englischen Telefoniemodelle der nächsten Generation wurden für eine verbesserte Spracherkennung aktualisiert:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Alle diese Modelle unterstützen weiterhin niedrige Latenzzeiten. Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Italienisches Multimedia-Modell der nächsten Generation unterstützt jetzt niedrige Latenzzeiten
-
Das italienische Multimedia-Modell der nächsten Generation,
it-IT_Multimedia
, unterstützt jetzt eine geringe Latenz. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Wichtig: Maximale Anzahl an Stunden, die Audiodaten für angepasste Akustikmodelle reduziert werden
-
Wichtig: Die maximale Menge an Audiodaten, die Sie einem angepassten Akustikmodell hinzufügen können, wird von 200 Stunden auf 50 Stunden reduziert. Diese Änderung wird von August bis September 2022 an verschiedenen Orten durchgeführt. Informationen zum Zeitplan für die Reduzierung des Grenzwerts und dessen Bedeutung für vorhandene angepasste Akustikmodelle, die mehr als 50 Audiostunden enthalten, finden Sie unter Maximale Audiostunden.
3. August 2022
- Fehlerkorrektur: Aktualisieren Sie die Dokumentation für Sprachzögerungen und Stockungsmarkierungen.
-
Fehlerkorrektur: Die Dokumentation für Sprachzögerungen und Stockungsmarkierungen wurde aktualisiert. Modelle der vorherigen Generation enthalten Hesitation-Marker anstelle von Sprachzögerungen in Transkriptionsergebnissen für die meisten Sprachen; die intelligente Formatierung entfernt Hesitation-Marker aus finalen Transkripten in amerikanischem Englisch. Modelle der nächsten Generation enthalten die tatsächlichen Sprachzögernisse in Transkriptionsergebnissen. Die intelligente Formatierung hat keinen Einfluss auf ihre Einbeziehung in endgültige Transkriptionsergebnisse.
Weitere Informationen finden Sie unter:
1. Juni 2022
- Updates für mehrere Telefoniemodelle der nächsten Generation
-
Die folgenden Telefoniemodelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
ko-KR_Telephony
Sie müssen keine angepassten Modelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
25. Mai 2022
- Neuer Betaparameter
character_insertion_bias
für Modelle der nächsten Generation -
Alle Modelle der nächsten Generation unterstützen jetzt den neuen Betaparameter
character_insertion_bias
, der mit allen Spracherkennungsschnittstellen verfügbar ist. Standardmäßig wird der Service für jedes einzelne Modell optimiert, um die Erkennung von potenziellen Zeichenfolgen unterschiedlicher Längen auszugleichen. Die modellspezifische Abweichung entspricht 0,0. Die Standardabweichung jedes Modells ist für die meisten Spracherkennungsanforderungen ausreichend.Für bestimmte Anwendungsfälle ist jedoch die Bevorzugung von Hypothesen mit kürzeren oder längeren Zeichenfolgen von Vorteil. Der Parameter akzeptiert Werte zwischen -1,0 und 1,0, die eine Änderung des Standardwerts eines Modells darstellen. Negative Werte weisen den Service an, kürzere Zeichenfolgen zu bevorzugen. Positive Werte weisen den Service an, längere Zeichenfolgen zu bevorzugen. Weitere Informationen finden Sie unter Zeicheneinfügeabweichung.
19 Mai 2022
- Neues italienisches
it-IT_Multimedia
-Modell der nächsten Generation -
Der Service bietet jetzt ein Multimediamodell der nächsten Generation für Italienisch:
it-IT_Multimedia
. Das neue Modell ist allgemein verfügbar. Es unterstützt keine geringe Latenzzeit, aber es unterstützt die Sprachmodellanpassung und Grammatiken. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation. - Aktualisierte koreanische Telefonie- und Multimediamodelle der nächsten Generation
-
Die bestehenden koreanischen Modelle der nächsten Generation wurden aktualisiert:
- Das Modell
ko-KR_Telephony
wurde aktualisiert, um die Unterstützung für Spracherkennung mit geringer Latenzzeit zu verbessern. - Das Modell
ko-KR_Multimedia
wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt jetzt auch geringe Latenzzeiten.
Beide Modelle sind allgemein verfügbar und unterstützen die Anpassung von Sprachmodellen und Grammatiken. Sie müssen keine angepassten Sprachmodelle aktualisieren, die auf diesen Modellen basieren. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Das Modell
- Fehlerkorrektur: Verlässlichkeitsscores werden jetzt für alle Transkriptionsergebnisse gemeldet
-
Fehlerkorrektur: Verlässlichkeitsscores werden jetzt für alle Transkriptionsergebnisse gemeldet. Wenn der Service bisher mehrere Transkripte für eine einzelne Spracherkennungsanforderung zurückgegeben hat, wurden möglicherweise nicht für alle Transkripte Verlässlichkeitsscores zurückgegeben.
11. April 2022
- Neues
pt-BR_Multimedia
Modell der nächsten Generation in Portugiesisch (Brasilien) -
Der Service bietet jetzt ein Multimediamodell der nächsten Generation für Portugiesisch (Brasilien):
pt-BR_Multimedia
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt auch die Sprachmodellanpassung und Grammatiken. Weitere Informationen über Modelle der nächsten Generation und niedrige Latenzzeiten finden Sie unter - Aktualisierung des deutschen
de-DE_Multimedia
-Modells der nächsten Generation zur Unterstützung geringer Latenzzeiten -
Das deutsche Modell
de-DE_Multimedia
der nächsten Generation unterstützt jetzt geringe Latenzzeit. Sie müssen keine angepassten Modelle aktualisieren, die auf dem aktualisierten deutschen Basismodell basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten: - Unterstützung für gleich klingende Modelle ist jetzt für angepasste Modelle auf der Basis von Modellen der nächsten Generation dokumentiert
-
Für angepasste Sprachmodelle, die auf Modellen der nächsten Generation basieren, ist jetzt die Unterstützung für gleich klingende Spezifikationen für angepasste Wörter dokumentiert. Unterstützung für gleich klingende Spezifikationen gibt es seit Ende 2021.
Es gibt Unterschiede zwischen der Verwendung des Felds
sounds_like
für angepasste Modelle, die auf Modellen der nächsten Generation und Modellen der vorherigen Generation basieren. Weitere Informationen zur Verwendung des Feldssounds_like
mit angepassten Modellen, die auf Modellen der nächsten Generation basieren, finden Sie unter Mit angepassten Wörtern für Modelle der nächsten Generation arbeiten. - Wichtig: Veralteter Parameter
customization_id
wurde aus der Dokumentation entfernt -
Wichtig: Am 9. Oktober 2018 endete die Unterstützung des Parameters
customization_id
aller Spracherkennungsanforderungen. Er wurde durch den Parameterlanguage_customization_id
ersetzt. Der Parametercustomization_id
wurde aus der Dokumentation für die Spracherkennungsmethoden entfernt:/v1/recognize
für WebSocket-AnforderungenPOST /v1/recognize
für synchrone HTTP-Anforderungen (einschließlich mehrteiliger Anforderungen)POST /v1/recognitions
für asynchrone HTTP-Anforderungen
Anmerkung: Wenn Sie die Watson-SDKs verwenden, müssen Sie sicherstellen, dass die Anwendungscodes aktualisiert sind, sodass der Parameter
language_customization_id
anstelle des Parameterscustomization_id
verwendet wird. Der Parametercustomization_id
ist ab dem nächsten Hauptrelease nicht mehr über die entsprechenden Methoden der SDKs verfügbar. Weitere Informationen zu den Spracherkennungsmethoden finden Sie in der API-und SDK-Referenz.
17. März 2022
- Grammatikunterstützung für Modelle der nächsten Generation ist jetzt allgemein verfügbar
-
Grammatikunterstützung ist jetzt allgemein verfügbar (General Availability, GA) für Modelle der nächsten Generation, die die folgenden Bedingungen erfüllen:
- Die Modelle sind allgemein verfügbar.
- Die Modelle unterstützen die Sprachmodellanpassung.
Weitere Informationen finden Sie in den folgenden Quellen:
- Weitere Informationen zum Status der Grammatikunterstützung für Modelle der nächsten Generation finden Sie unter Anpassungsunterstützung für Modelle der nächsten Generation.
- Weitere Informationen zu Grammatiken finden Sie unter Grammatiken.
- Neues Multimediamodell der nächsten Generation für Deutsch
-
Der Service stellt jetzt ein Multimediamodell der nächsten Generation für Deutsch bereit:
de-DE_Multimedia
. Das neue Modell ist allgemein verfügbar. Das Modell unterstützt geringe Latenzzeit nicht. Es unterstützt die Sprachmodellanpassung (allgemein verfügbar) und Grammatiken (Betafunktion).Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation und der zugehörigen Anpassungsunterstützung finden Sie in den folgenden Abschnitten:
- Das als Betafunktion bereitgestellte Modell
en-WW_Medical_Telephony
der nächsten Generation unterstützt jetzt geringe Latenzzeit -
Das als Betafunktion bereitgestellte Modell
en-WW_Medical_Telephony
der nächsten Generation unterstützt jetzt geringe Latenzzeit. Weitere Informationen zu allen Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:
15. März 2022
- Wichtig: Die meisten Modelle der vorherigen Generation werden nicht mehr unterstützt.
-
Ersetzt: Diese Benachrichtigung über veraltete Features wird durch die Serviceaktualisierung vom 15. Februar 2023 ersetzt. Das Enddatum des Servicezeitraums für alle Modelle der vorherigen Generation ist jetzt 31. Juli 2023.
Seit dem 15. März 2022 werden Modelle der vorherigen Generation für alle Sprachen außer Arabisch und Japanisch nicht mehr verwendet. Die veralteten Modelle bleiben bis zum 15. September 2022 verfügbar und werden danach aus dem Service und der Dokumentation entfernt. Die arabischen und japanischen Modelle der vorherigen Generation sind nicht veraltet.
Die folgenden Modelle der vorherigen Generation sind jetzt veraltet:
- Chinesisch (Mandarin):
zh-CN_NarrowbandModel
undzh-CN_BroadbandModel
- Niederländisch (Niederlande):
nl-NL_NarrowbandModel
undnl-NL_BroadbandModel
- Englisch (Australien):
en-AU_NarrowbandModel
unden-AU_BroadbandModel
- Englisch (Vereinigtes Königreich):
en-GB_NarrowbandModel
unden-GB_BroadbandModel
- Englisch (Vereinigte Staaten):
en-US_NarrowbandModel
,en-US_BroadbandModel
unden-US_ShortForm_NarrowbandModel
- Französisch (Kanada):
fr-CA_NarrowbandModel
undfr-CA_BroadbandModel
- Französisch (Frankreich):
fr-FR_NarrowbandModel
undfr-FR_BroadbandModel
- Deutsch:
de-DE_NarrowbandModel
undde-DE_BroadbandModel
- Italienisch:
it-IT_NarrowbandModel
undit_IT_BroadbandModel
- Koreanisch:
ko-KR_NarrowbandModel
undko-KR_BroadbandModel
- Portugiesisch (Brasilien):
pt-BR_NarrowbandModel
undpt-BR_BroadbandModel
- Spanisch (Argentinien):
es-AR_NarrowbandModel
undes-AR_BroadbandModel
- Spanisch (Kastilien):
es-ES_NarrowbandModel
undes-ES_BroadbandModel
- Spanisch (Chile):
es-CL_NarrowbandModel
undes-CL_BroadbandModel
- Spanisch (Kolumbien):
es-CO_NarrowbandModel
undes-CO_BroadbandModel
- Spanisch (Mexiko):
es-MX_NarrowbandModel
undes-MX_BroadbandModel
- Spanisch (Peru):
es-PE_NarrowbandModel
undes-PE_BroadbandModel
Wenn Sie eines dieser veralteten Modelle verwenden, müssen Sie bis zum Ende des Servicezeitraums auf das entsprechende Modell der nächsten Generation migrieren.
- Weitere Informationen zu den Modellen der nächsten Generation, auf die Sie die einzelnen veralteten Modellen migrieren können, finden Sie unter Sprachen und Modelle der vorherigen Generation
- Weitere Informationen zu den Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation
- Weitere Informationen zur Migration von Modellen der vorherigen Generation auf Modelle der nächsten Generation finden Sie in Migration auf Modelle der nächsten Generation.
Hinweis: Der Servicezeitraum für das Modell
en-US_BroadbandModel
der vorherigen Generation endet am 15. September und das Modellen-US_Multimedia
der nächsten Generation wird damit zum Standardmodell für Spracherkennungsanforderungen. - Chinesisch (Mandarin):
- Modelle der nächsten Generation unterstützen jetzt Parameter für die Audioanalyse
-
Alle Modelle der nächsten Generation unterstützen jetzt die folgenden Parameter für Audioanalyse als allgemein verfügbare Funktionen:
end_of_phrase_silence_time
gibt die Dauer des Pausenintervalls an, nach dem der Service ein Transkript in mehrere Endergebnisse aufteilt. Weitere Informationen finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.split_transcript_at_phrase_end
weist den Service an, das Transkript basierend auf semantischen Merkmalen der Eingabe in mehrere Endergebnisse aufzuteilen. Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.
- Defekt behoben: Korrekte Dokumentation der Lautsprecherbeschriftung
-
Fehlerkorrektur: Die Dokumentation für Sprecherbezeichnungen enthielt an mehreren Stellen den folgenden falschen Hinweis: Bei Modellen der nächsten Generation werden Sprecherbezeichnungen für die Verwendung mit Zwischenergebnissen oder geringer Latenzzeit nicht unterstützt. Die Verwendung von Sprecherbezeichnungen mit Zwischenergebnissen und niedriger Latenz für Modelle der nächsten Generation wird unterstützt. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.
28. Februar 2022
- Aktualisierungen der englischen und französischen Multimediamodelle der nächsten Generation zur Unterstützung für geringe Latenzzeit
-
Die folgenden Multimediamodelle wurden aktualisiert, um geringe Latenzzeit zu unterstützen:
- Englisch (Australien):
en-AU_Multimedia
- Englisch (Vereinigtes Königreich):
en-GB_Multimedia
- Englisch (Vereinige Staaten):
en-US_Multimedia
- Französisch:
fr-FR_Multimedia
Sie müssen kein Upgrade für angepasste Sprachmodelle durchführen, die auf diesen Basismodellen basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:
- Englisch (Australien):
- Neues Multimediamodell der nächsten Generation für kastilisches Spanisch
-
Der Service stellt jetzt ein Multimediamodell der nächsten Generation für kastilisches Spanisch bereit:
es-ES_Multimedia
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Es unterstützt außerdem die Sprachmodellanpassung (allgemein verfügbar) und Grammatiken (Betafunktion).Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation und der zugehörigen Anpassungsunterstützung finden Sie in den folgenden Abschnitten:
11. Februar 2022
- Defekt behoben: Korrigierte Dokumentation für benutzerdefinierte Modell-Upgrades und Basismodellversionen
-
Fehlerkorrektur: Die Beschreibung für das Upgrade angepasster Modelle und die Versionszeichenfolgen für verschiedene Versionen der Basismodelle in der Dokumentation wurden aktualisiert. In der Dokumentation wird jetzt angegeben, dass das Upgrade für die Sprachmodellanpassung auch für Modelle der nächsten Generation gilt. Außerdem wurden die Versionszeichenfolgen für verschiedene Versionen der Basismodelle aktualisiert. Der Parameter
base_model_version
kann auch für Modelle der nächsten Generation verwendet werden, für die ein Upgrade durchgeführt wurde.Weitere Informationen zum Upgrade für angepasste Modelle, wann ein Upgrade erforderlich ist und wie Vorgängerversionen angepasster Modelle verwendet werden, finden Sie in den folgenden Abschnitten:
- Defekt behoben: Aktualisierung der Dokumentation zur Großschreibung
-
Fehlerkorrektur: In der Dokumentation wurde die Beschreibung der automatischen Groß-/Kleinschreibung in Transkripten des Service aktualisiert. Der Service verwendet die Großschreibung der entsprechenden Nomen nur für die folgenden Sprachen und Modelle:
- Alle Modelle der früheren Generation für amerikanisches Englisch
- Das Modell der nächsten Generation für Deutsch
Weitere Informationen finden Sie unter Groß-/Kleinschreibung.
2. Februar 2022
- Neues Modell
en-WW_Medical_Telephony
jetzt als Betafunktion verfügbar -
Eine neues Modell
en-WW_Medical_Telephony
der nächsten Generation ist jetzt als Betafunktion verfügbar. Das neue Modell erkennt Begriffe aus den Fachgebieten Medizin und Pharmakologie. Verwenden Sie das Modell zum Transkribieren allgemeiner medizinischer Terminologie wie Namen von Medikamenten, Produktmarken, medizinische Behandlungen, Krankheiten, Arzttypen oder COVID 19--Terminologie. Häufige Anwendungsfälle sind Gespräche zwischen einem Patienten und einem medizinischen Versorger (z. B. Arzt, Krankenschwester oder Apotheker).Das neue Modell ist für alle unterstützten englischen Dialekte verfügbar: Australien, Indien, Großbritannien und USA. Das neue Modell unterstützt die Sprachmodellanpassung und Grammatiken als Betafunktionen. Es unterstützt überwiegend die gleichen Parameter wie das Modell
en-US_Telephony
, einschließlichsmart_formatting
für Audiodaten in amerikanischem Englisch. Die folgenden Parameter werden nicht unterstützt:low_latency
,profanity_filter
,redaction
undspeaker_labels
.Weitere Informationen finden Sie unter Das englische Telefoniemodell für Medizin.
- Aktualisierung des Modells
zh-CN_Telephony
für Chinesisch -
Das Modell der nächsten Generation
zh-CN_Telephony
für Chinesisch wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt weiterhin geringe Latenzzeit. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.Wenn Sie über angepasste Sprachmodelle verfügen, die auf dem aktualisierten Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle aktualisieren, um die Vorteile der Aktualisierungen mithilfe der Methode
POST /v1/customizations/{customization_id}/upgrade_model
nutzen zu können. Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen. - Aktualisierung des japanischen
ja-JP_Multimedia
-Modells der nächsten Generation zur Unterstützung niedriger Latenzzeiten -
Das japanische Modell
ja-JP_Multimedia
der nächsten Generation unterstützt jetzt geringe Latenzzeit. Sie können den Parameterlow_latency
in Spracherkennungsanforderungen angeben, die das Modell verwenden. Sie müssen kein Upgrade für angepasste Modelle durchführen, die auf dem aktualisierten Basismodell für Japanisch basieren. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in den folgenden Abschnitten:
3. Dezember 2021
- Neues Telefoniemodell der nächsten Generation für lateinamerikanisches Spanisch
-
Der Service stellt jetzt ein Telefonmodell der nächsten Generation für lateinamerikanisches Spanisch bereit:
es-LA_Telephony
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar.Das Modell
es-LA_Telephony
gilt für alle lateinamerikanischen Dialekte. Es entspricht den Modellen der vorherigen Generation, die für spanische Dialekte in Argentinien, Chile, Kolumbien, Mexiko und Peru verfügbar sind. Wenn Sie ein Modell der vorherigen Generation für einen dieser Dialekte verwendet haben, verwenden Sie das Modelles-LA_Telephony
für die Migration auf das entsprechende Modell der nächsten Generation.Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Wichtig: Angepasste Sprachmodelle, die auf bestimmten Modellen der nächsten Generation basieren, müssen erneut erstellt werden
-
Wichtig: Wenn Sie angepasste Sprachmodelle auf der Basis bestimmter Modelle der nächsten Generation erstellt haben, müssen Sie die angepassten Modelle erneut erstellen. Wenn Sie die angepassten Sprachmodelle nicht erneut erstellen, schlagen Spracherkennungsanforderungen, in denen die angepassten Modelle verwendet werden sollen, mit dem HTTP-Fehlercode 400 fehl.
Angepasste Sprachmodelle, die auf den folgenden Modellversionen der nächsten Generation basieren, müssen erneut erstellt werden:
- Angepasste Modelle für das Modell
en-AU_Telephony
, die Sie ausen-AU_Telephony.v2021-03-03
inen-AU_Telephony.v2021-10-04
erstellt haben. - Angepasste Modelle für das Modell
en-GB_Telephony
, die Sie ausen-GB_Telephony.v2021-03-03
inen-GB_Telephony.v2021-10-04
erstellt haben. - Angepasste Modelle für das Modell
en-US_Telephony
, die Sie ausen-US_Telephony.v2021-06-17
inen-US_Telephony.v2021-10-04
erstellt haben. - Angepasste Modelle für das Modell
en-US_Multimedia
, die Sie ausen-US_Multimedia.v2021-03-03
inen-US_Multimedia.v2021-10-04
erstellt haben.
Modellversion ermitteln, auf der ein angepasstes Sprachmodell basiert: Verwenden Sie die Methode
GET /v1/customizations
, um alle angepassten Sprachmodelle aufzulisten, oder die MethodeGET /v1/customizations/{customization_id}
, um ein bestimmtes angepasstes Sprachmodell aufzulisten. Im Feldversions
der Ausgabedaten wird das Basismodell für ein angepasstes Sprachmodell angezeigt. Weitere Informationen finden Sie im Abschnitt Angepasste Sprachmodelle auflisten.Angepasstes Sprachmodell erneut erstellen: Erstellen Sie zunächst ein neues angepasstes Modell. Fügen Sie anschließend alle Korpora und angepassten Wörter aus dem vorherigen angepassten Modell zu dem neuen Modell hinzu. Danach können Sie das vorherige angepasste Modell löschen. Weitere Informationen finden Sie unter Angepasstes Sprachmodell erstellen.
- Angepasste Modelle für das Modell
28. Oktober 2021
- Neues Telefoniemodell der nächsten Generation für Chinesisch
-
Der Service stellt jetzt ein Telefonmodell der nächsten Generation für Chinesisch (Mandarin) bereit:
zh-CN_Telephony
. Das neue Modell unterstützt geringe Latenzzeit und ist allgemein verfügbar. Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation. - Neue Multimediamodelle der nächsten Generation für australisches Englisch und britisches Englisch
-
Der Service stellt jetzt die folgenden Multimediamodelle der nächsten Generation bereit. Die neuen Modelle sind allgemein verfügbar und keines der Modelle unterstützt geringe Latenzzeit.
- Englisch (Australien):
en-AU_Multimedia
- Englisch (Vereinigtes Königreich):
en-GB_Multimedia
Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Englisch (Australien):
- Viele Modelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern
-
Die folgenden Modelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:
- Telefoniemodell für Englisch (Australien) -
en-AU_Telephony
- Telefoniemodell für Englisch (Vereinigtes Königreich) -
en-GB_Telephony
- Multimediamodell für Englisch (Vereinigte Staaten) -
en-US_Multimedia
- Telefoniemodell für Englisch (Vereinigte Staaten) -
en-US_Telephony
- Telefoniemodell für Spanisch (Kastilien) -
es-ES_Telephony
Weitere Informationen zu allen verfügbaren Modellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Telefoniemodell für Englisch (Australien) -
- Grammatikunterstützung für Modelle der vorherigen Generation ist jetzt allgemein verfügbar
-
Grammatikunterstützung ist jetzt allgemein verfügbar (General Availability, GA) für Modelle der nächsten Generation, die die folgenden Bedingungen erfüllen:
- Die Modelle sind allgemein verfügbar.
- Die Modelle unterstützen die Sprachmodellanpassung.
Weitere Informationen finden Sie in den folgenden Quellen:
- Weitere Informationen zum Status der Grammatikunterstützung für Modelle der früheren Generation finden Sie unter Anpassungsunterstützung für Modelle der früheren Generation.
- Weitere Informationen zu Grammatiken finden Sie unter Grammatiken.
- Neue Betafunktion zur Grammatikunterstützung für Modelle der nächsten Generation
-
Grammatikunterstützung steht jetzt als Betafunktion für alle Modelle der nächsten Generation zur Verfügung. Alle Modelle der nächsten Generation sind allgemein verfügbar (GA) und unterstützen die Sprachmodellanpassung. Weitere Informationen finden Sie in den folgenden Quellen:
- Weitere Informationen zum Status der Grammatikunterstützung für Modelle der nächsten Generation finden Sie unter Anpassungsunterstützung für Modelle der nächsten Generation.
- Weitere Informationen zu Grammatiken finden Sie unter Grammatiken.
Hinweis: Unterstützung für Grammatiken durch Modelle der nächsten Generation ist als Betafunktion für den Speech to Text-Service unter IBM Cloud verfügbar. Unterstützung für Grammatiken in Modellen der nächsten Generation unter IBM Cloud Pak for Data ist momentan noch nicht verfügbar.
- Neues Feld
custom_acoustic_model
für unterstützte Funktionen -
Die Methoden
GET /v1/models
undGET /v1/models/{model_id}
melden jetzt, ob ein Modell die Akustikmodellanpassung unterstützt. Das ObjektSupportedFeatures
enthält jetzt das zusätzliche Feldcustom_acoustic_model
für boolesche Werte. Der Werttrue
bedeutet, dass ein Modell die Akustikmodellanpassung unterstützt, der Wertfalse
bedeutet das Gegenteil. Derzeit ist das Feld für alle Modelle der vorherigen Generation auftrue
gesetzt und für alle Modelle der nächsten Generation auffalse
.- Weitere Informationen zu diesen Methoden finden Sie unter Informationen zu Modellen auflisten.
- Weitere Informationen zur Unterstützung der Akustikmodellanpassung finden Sie unter Sprachunterstützung für die Anpassung.
22. Oktober 2021
- Fehlerbehebung: Behebung von asynchronen HTTP Fehlern
- Fehlerkorrektur: Die asynchrone HTTP-Schnittstelle konnte manche Audiodaten nicht transkribieren. Außerdem wurde vom Callback für die Anforderung der Status
recognitions.completed_with_results
zurückgegeben und nichtrecognitions.failed
. Dieser Fehler wurde behoben.
6. Oktober 2021
- Aktualisierungen für Modelle der nächsten Generation für Tschechisch und Niederländisch
-
Die folgenden Sprachmodelle der nächsten Generation wurden wie angegeben geändert:
- Das Telefonmodell für Tschechisch (
cs-CZ_Telephony
) ist jetzt allgemein verfügbar (GA). Das Modell unterstützt weiterhin geringe Latenzzeit. - Das Telefoniemodell für belgisches Niederländisch (
nl-BE_Telephony
) wurde aktualisiert, um die Spracherkennung zu verbessern. Das Modell unterstützt weiterhin geringe Latenzzeit. - Das Telefoniemodell für belgisches Niederländisch (
nl-NL_Telephony
) ist jetzt allgemein verfügbar (GA). Außerdem unterstützt das Modell jetzt geringe Latenzzeit.
Weitere Informationen zu allen verfügbaren Sprachmodellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Das Telefonmodell für Tschechisch (
- Neue Unterstützung für HIPAA für Premium-Pläne am Standort Dallas
-
Unterstützung für das US-amerikanische Gesetz HIPAA (Health Insurance Portability and Accountability Act) ist jetzt für Premium-Pläne verfügbar, die am Standort Dallas (
us-south
) gehostet werden. Weitere Informationen finden Sie unter Health Insurance Portability and Accountability Act (HIPAA).
16 September 2021
- Neue Modelle der nächsten Generation für Tschechisch und Niederländisch (Niederlande) als Betafunktionen
-
Der Service unterstützt jetzt die folgenden neuen Sprachmodelle der nächsten Generation. Beide neuen Modelle sind als Betafunktion verfügbar.
- Tschechisch:
cs-CZ_Telephony
. Das neue Modell unterstützt geringe Latenzzeit. - Niederländisch (Niederlande):
nl-NL_Telephony
. Das neue Modell unterstützt geringe Latenzzeit nicht.
Weitere Informationen zu allen verfügbaren Sprachmodellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Tschechisch:
- Aktualisierungen der Modelle der nächsten Generation für Koreanisch und für brasilianisches Portugiesisch
-
Die folgenden Modelle der nächsten Generation wurden aktualisiert:
- Das Modell für Koreanisch (
ko-KR_Telephony
) unterstützt jetzt geringe Latenzzeit. - Das Modell für brasilianisches Portugiesisch (
pt-BR_Telephony
) wurde aktualisiert, um die Spracherkennung zu verbessern.
- Das Modell für Koreanisch (
- Defekt behoben: Korrektur der Zwischenergebnisse und der Dokumentation für niedrige Latenzzeiten
-
Fehlerkorrektur: Die Beschreibung der Funktionen für Zwischenergebnisse und für geringe Latenzzeit bei Modellen der nächsten Generation wurde mit leicht verständlichem und inhaltlich überarbeitetem Wortlaut neu formuliert. Weitere Informationen finden Sie in den folgenden Quellen:
- Fehlerkorrektur: Ergebnisse für Sprecherbezeichnungen verbessern
-
Fehlerkorrektur: Bei Verwendung von Sprecherbezeichnungen in Modellen der nächsten Generation identifiziert der Service jetzt den Sprecher für alle Wörter in den Eingabeaudiodaten, auch für sehr kurze Wörter mit identischer Start- und Endzeitmarke.
31 August 2021
- Alle Modelle der nächsten Generation sind jetzt allgemein verfügbar
-
Alle vorhandenen Sprachmodelle der nächsten Generation sind jetzt allgemein verfügbar (GA). Sie werden für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.
- Weitere Informationen zu allen verfügbaren Sprachmodellen der nächsten Generation finden Sie unter Sprachen und Modelle der nächsten Generation.
- Weitere Informationen zu den Funktionen, die für jedes Modell der nächsten Generation unterstützt werden, finden Sie in Unterstützte Funktionen für Modelle der nächsten Generation.
- Sprachmodellanpassung für Modelle der nächsten Generation ist jetzt allgemein verfügbar
-
Die Sprachmodellanpassung für alle verfügbaren Sprachen und Modelle der nächsten Generation ist jetzt allgemein verfügbar (GA). Die Sprachmodellanpassung für Modelle der nächsten Generation wird für die Verwendung in Produktionsumgebungen und in Anwendungen unterstützt.
Dabei werden für Modelle der nächsten Generation dieselben Befehle zum Erstellen, Verwalten und Verwenden angepasster Sprachmodelle, Korpora und angepasster Wörtern verwendet wie für Modelle der vorherigen Generation. Die Anpassung für Modelle der nächsten Generation funktioniert jedoch anders als für Modelle der vorherigen Generation. Angepasste Modelle, die auf Modellen der nächsten Generation basieren:
- In den angepassten Modellen wird das Konzept der vokabularexternen Wörter (Out-of-vocabulary, OOV) nicht verwendet.
- Wörter aus Korpora werden nicht zur Wörterressource hinzugefügt.
- Die Funktion für gleich klingende Wörter kann derzeit nicht auf benutzerdefinierte Wörter angewendet werden.
- Nach der Aktualisierung des Basissprachmodells muss kein Upgrade für angepasste Modelle durchführt werden.
- Grammatiken werden derzeit nicht unterstützt.
Weitere Informationen zur Verwendung der Sprachmodellanpassung für Modelle der nächsten Generation finden Sie unter
- Wissenswertes über die Anpassung
- Sprachunterstützung bei der Anpassung
- Angepasstes Sprachmodell erstellen
- Angepasstes Sprachmodell für die Spracherkennung verwenden
- Korpora und angepasste Wörter für Modelle der nächsten Generation verwenden
Weitere Themen beschreiben die Verwaltung von angepassten Sprachmodellen, Korpora und angepassten Wörtern. Diese Operationen sind dieselben für angepasste Modelle, die auf Modellen der vorherigen oder der nächsten Generation basieren.
16 August 2021
- Neue Modelle der nächsten Generation für indisches Englisch, indisches Hindi, Japanisch und Koreanisch als Betafunktion
-
Der Service unterstützt jetzt die folgenden neuen Sprachmodelle der nächsten Generation. Alle neuen Modelle sind als Betafunktion verfügbar.
- Englisch (Indien):
en-IN_Telephony
. Das Modell unterstützt geringe Latenzzeit. - Indisch (Hindi):
hi-IN_Telephony
. Das Modell unterstützt geringe Latenzzeit. - Japanisch:
ja-JP_Multimedia
. Das Modell unterstützt geringe Latenzzeit nicht. - Koreanisch:
ko-KR_Multimedia
undko-KR_Telephony
Die Modelle unterstützen geringe Latenzzeit nicht.
Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie unter Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.
- Englisch (Indien):
16. Juli 2021
- Neues Modell der nächsten Generation für Französisch als Betafunktion
- Das Sprachmodell der nächsten Generation für Französisch (
fr-FR_Multimedia
) ist jetzt verfügbar. Das neue Modell unterstützt geringe Latenzzeit nicht. Das Modell ist als Betafunktion verfügbar. - Aktualisiertes Modell der nächsten Generation für amerikanisches Englisch (Betafunktion) mit verbesserter Spracherkennung
- Das Modell der nächsten Generation für amerikanisches Englisch (
en-US_Telephony
) wurde aktualisiert, um die Spracherkennung zu verbessern. Das aktualisierte Modell ist weiterhin als Betafunktion verfügbar. - Fehlerkorrektur: Dokumentation für Stockungsmarkierungen aktualisieren
- Fehlerkorrektur: In der Dokumentation war nicht angegeben, dass Modelle der nächsten Generation keine Verzögerungsmarkierungen erzeugen. Die Dokumentation wurde aktualisiert und weist nun darauf hin, dass nur Modelle der vorherigen Generation Verzögerungsmarkierungen erzeugen. Modelle der nächsten Generation enthalten die tatsächlichen Bedenken in den Transkriptionsergebnissen. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
15 Juni 2021
- Neues Modell der nächsten Generation für belgisches Niederländisch als Betafunktion
-
Das Sprachmodell der nächsten Generation
nl-BE_Telephony
für belgisches Niederländisch (Flämisch) ist jetzt verfügbar. Das neue Modell unterstützt geringe Latenzzeit. Das Modell ist als Betafunktion verfügbar. Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit. - Neue Unterstützung für geringe Latenzzeit (Betafunktion) bei den Modellen der nächsten Generation für Arabisch, kanadisches Französisch und Italienisch
-
Die folgenden, als Betafunktion vorhandenen Sprachmodelle der nächsten Generation unterstützen jetzt geringe Latenzzeit:
- Modell für Arabisch -
ar-MS_Telephony
- Modell für Französisch (Kanada) -
fr-CA_Telephony
- Modell für Italienisch -
it-IT_Telephony
Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.
- Modell für Arabisch -
- Aktualisierte Modelle der nächsten Generation (Betafunktion) für Arabisch und brasilianisches Portugiesisch mit verbesserter Spracherkennung
-
Die folgenden, als Betafunktion vorhandenen Sprachmodelle der nächsten Generation wurden aktualisiert, um die Spracherkennung zu verbessern:
- Modell für Arabisch -
ar-MS_Telephony
- Modell für Portugiesisch (Brasilien) -
pt-BR_Telephony
Weitere Informationen zu den Modellen der nächsten Generation und zu geringer Latenzzeit finden Sie in Sprachen und Modelle der nächsten Generation und Geringe Latenzzeit.
- Modell für Arabisch -
26. Mai 2021
- Neue Unterstützung (Betafunktion) des Parameters
audio_metrics
für Modelle der nächsten Generation - Der Parameter
audio_metrics
wird jetzt als Betafunktion für die Verwendung mit allen Sprachen und Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie unter Audiometriken. - Neue Unterstützung (Betafunktion) des Parameters
word_confidence
für Modelle der nächsten Generation - Der Parameter
word_confidence
wird jetzt als Betafunktion für die Verwendung mit allen Sprachen und Modellen der nächsten Generation unterstützt. Weitere Informationen finden Sie im Abschnitt Wortkonfidenz. - Fehlerkorrektur: Aktualisierungsdokumentation für Modelle der nächsten Generation
- Defekt behoben: Die Dokumentation wurde aktualisiert, um die folgenden Informationen zu korrigieren:
- Bei Verwendung eines Modells der nächsten Generation für die Spracherkennung enthalten die Endergebnisse der Transkription jetzt das Feld
confidence
. Dieses Feld war bisher stets in den Endergebnissen der Transkription enthalten, wenn ein Modell der vorherigen Generation verwendet wurde. Diese Korrektur behebt eine Einschränkung, die für das Release vom 12. April 2021 der Modelle der nächsten Generation gemeldet wurde. - In der Dokumentation war irrtümlich angegeben, dass bei Verwendung des Parameters
smart_formatting
Verzögerungsmarkierungen aus den Endergebnissen der Transkription für Japanisch entfernt werden. Die intelligente Formatierung entfernt keine Verzögerungsmarkierungen aus den Endergebnissen für Japanisch, sondern nur aus den Endergebnissen für amerikanisches Englisch. Weitere Informationen finden Sie unter Wie wirkt sich die intelligente Formatierung aus?
- Bei Verwendung eines Modells der nächsten Generation für die Spracherkennung enthalten die Endergebnisse der Transkription jetzt das Feld
27 April 2021
- Neue Modelle der nächsten Generation für Arabisch und brasilianisches Portugiesisch (Betafunktion)
-
Der Service unterstützt zwei neue Modelle der nächsten Generation als Betafunktion:
- Das Modell
pt-BR_Telephony
für Portugiesisch (Brasilien), das geringe Latenzzeit unterstützt - Das Modell
ar-MS_Telephony
für Arabisch (moderne Standardsprache), das geringe Latenzzeit nicht unterstützt.
Weitere Informationen finden Sie unter Sprachen und Modelle der nächsten Generation.
- Das Modell
- Aktualisiertes Modell der nächsten Generation für kastilisches Spanisch (Betafunktion) mit verbesserter Spracherkennung
-
Das Modell
es-ES_Telephony
für kastilisches Spanisch (Betafunktion) unterstützt jetzt den Parameterlow_latency
. Weitere Informationen finden Sie unter Geringe Latenzzeit. - Neue Unterstützung für Sprecherbezeichnungen bei Modellen der nächsten Generation (Betafunktion)
-
Der Parameter
speaker_labels
wird jetzt als Betafunktion für die Verwendung mit den folgenden Modellen der nächsten Generation unterstützt:- Modell für Englisch (Australien) -
en-AU_Telephony
- Modell für Englisch (Vereinigtes Königreich) -
en-GB_Telephony
- Modelle für Englisch (Vereinigte Staaten) -
en-US_Multimedia
unden-US_Telephony
- Modell für Deutsch -
de-DE_Telephony
- Modell für Spanisch (Kastilien) -
es-ES_Telephony
Die Modelle der nächsten Generation unterstützen den Parameter
speaker_labels
derzeit nicht für die gemeinsame Verwendung mit dem Parameterinterim_results
oderlow_latency
. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen. - Modell für Englisch (Australien) -
- Neuer HTTP-Fehlercode für die Verwendung von
word_confidence
mit Modellen der nächsten Generation -
Der Parameter
word_confidence
wird für die Verwendung mit Modellen der nächsten Generation nicht unterstützt. Der Service gibt jetzt den folgenden Fehlercode 400 zurück, wenn Sie den Parameterword_confidence
mit einem Modell der nächsten Generation für die Spracherkennung verwenden:{ "error": "word_confidence is not a supported feature for model {model}", "code": 400, "code_description": "Bad Request" }
12 April 2021
- Neue Sprachmodelle der nächsten Generation und neuer Parameter
low_latency
(Betafunktion) -
Der Service unterstützt jetzt eine wachsende Anzahl von Sprachmodellen der nächsten Generation. Die Multimediamodelle und Telefoniemodelle der nächsten Generation verbessern die Spracherkennungsfunktionen der Breitband- und Schmalbandmodelle der vorherigen Generation. Die neuen Modelle nutzen tiefgreifende neuronale Netze und die bidirektionale Analyse, um einen höheren Durchsatz und größere Transkriptionsgenauigkeit zu erreichen. Die Modelle der nächsten Generation unterstützen eine begrenzte Anzahl von Sprachen und Spracherkennungsfunktionen. In zukünftigen Releases sollen weitere Sprachen, Modelle und Funktionen unterstützt werden. Die Modelle der nächsten Generation sind als Betafunktion verfügbar.
Viele Modelle der nächsten Generation unterstützen außerdem den neuen Parameter
low_latency
, der auf Anforderung schneller Ergebnisse liefert. Dies kann jedoch zu einer reduzierten Transkriptionsqualität führen. Wenn die geringe Latenzzeit aktiviert ist, begrenzt der Service die Analyse der Audiodaten. Dadurch kann die Genauigkeit der Transkription beeinträchtigt werden. Dieser Nachteil kann hinnehmbar sein, wenn eine möglichst kurze Antwortzeit für Ihre Anwendung wichtiger ist als die größtmögliche Genauigkeit. Der Parameterlow_latency
ist als Betafunktion verfügbar.Der Parameter
low_latency
wirkt sich auf die Verwendung des Parametersinterim_results
mit der WebSocket-Schnittstelle aus. Zwischenergebnisse sind nur für Modelle der nächsten Generation verfügbar, die geringe Latenzzeit unterstützen, sofern die beiden Parameterinterim_results
undlow_latency
auftrue
gesetzt sind.- Weitere Informationen zu den Modellen der nächsten Generation und den zugehörigen Leistungsmerkmalen finden Sie unter Sprachen und Modelle der nächsten Generation.
- Weitere Informationen zur Sprachunterstützung für Modelle der nächsten Generation und zu den Modellen der nächsten Generation, die geringe Latenzzeit unterstützen, finden Sie unter Unterstützte Sprachmodelle der nächsten Generation.
- Weitere Informationen zur Unterstützung von Funktionen für Modelle der nächsten Generation finden Sie unter Unterstützte Funktionen für Modelle der nächsten Generation.
- Weitere Informationen zum Parameter
low_latency
finden Sie unter Geringe Latenzzeit. - Weitere Informationen zur Interaktion zwischen den Parametern
low_latency
undinterim_results
für Modelle der nächsten Generation finden Sie in Zwischenergebnisse und geringe Latenzzeit anfordern.
17. März 2021
- Defekt behoben: Behebung der Einschränkung für die asynchrone Schnittstelle HTTP
- Fehlerkorrektur: Die am 16. Dezember 2020 gemeldete Einschränkung der asynchronen HTTP-Schnittstelle am Standort Dallas (
us-south
) wurde behoben. Zuvor wurden für einen kleinen Prozentsatz der Jobs Endlosschleifen initiiert, die ihre Ausführung verhinderten. Diese Einschränkung tritt bei asynchronen HTTP-Anforderungen im Rechenzentrum Dallas nicht mehr auf.
2. Dezember 2020
- Modell für Arabisch umbenannt in
ar-MS_BroadbandModel
- Das Breitband-Sprachmodell für Arabisch wurde in
ar-MS_BroadbandModel
umbenannt. Der frühere Namear-AR_BroadbandModel
ist veraltet. Die Stimme kann mindestens ein Jahr weiterhin verwendet werden, wird zu einem späteren Zeitpunkt jedoch möglicherweise entfernt. Es wird empfohlen, sobald wie möglich auf den neuen Namen zu migrieren.
02. November 2020
- Modelle für Französisch (Kanada) jetzt allgemein verfügbar
-
Die Modelle für Französisch (Kanada),
fr-CA_BroadbandModel
undfr-CA_NarrowbandModel
, sind jetzt allgemein verfügbar (GA). Sie waren zuvor als Betafunktion verfügbar. Sie unterstützen jetzt auch die Sprachmodell- und Akustikmodellanpassung.- Weitere Informationen zu unterstützten Sprachen und Modellen finden Sie unter Sprachen und Modelle der vorherigen Generation.
- Weitere Informationen zur Sprachunterstützung bei der Anpassung finden Sie in Sprachunterstützung bei der Anpassung.
22. Oktober 2020
- Modelle für Englisch (Australien) jetzt allgemein verfügbar
-
Die Modelle für Englisch (Australien),
en-AU_BroadbandModel
unden-AU_NarrowbandModel
, sind jetzt allgemein verfügbar (GA). Sie waren zuvor als Betafunktion verfügbar. Sie unterstützen jetzt auch die Sprachmodell- und Akustikmodellanpassung.- Weitere Informationen zu unterstützten Sprachen und Modellen finden Sie unter Sprachen und Modelle der vorherigen Generation.
- Weitere Informationen zur Sprachunterstützung bei der Anpassung finden Sie in Sprachunterstützung bei der Anpassung.
- Aktualisierte Modellen für brasilianisches Portugiesisch mit verbesserter Spracherkennung
-
Die Modelle für Portugiesisch (Brasilien),
pt-BR_BroadbandModel
undpt-BR_NarrowbandModel
, wurden aktualisiert, um die Spracherkennung zu verbessern. Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Der Parameter
split_transcript_at_phrase_end
ist jetzt für alle Sprachen allgemein verfügbar. -
Der Spracherkennungsparameter
split_transcript_at_phrase_end
ist jetzt für alle Sprachen allgemein verfügbar (GA). Bisher war er nur für amerikanisches und britisches Englisch allgemein verfügbar. Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.
7. Oktober 2020
- Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung
-
Das Modell
ja-JP_BroadbandModel
wurde aktualisiert, um die Spracherkennung zu verbessern. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
30. September 2020
- Aktualisierte Preisstruktur für den Service
-
Die Preisstruktur für den Service wurde geändert:
- Der Service bietet weiterhin einen Lite-Plan mit kostenfreiem Basiszugriff auf die Spracherkennung für eine begrenzte Anzahl von Minuten pro Monat.
- Der Service bietet einen neuen Plus-Plan mit einem einfachen, gestaffelten Preismodell und Zugriff auf die Anpassungsfunktionen des Service.
- Der Service bietet einen neuen Premium-Plan mit deutlich größerer Kapazität und erweiterten Funktionen.
Der Plus-Plan ersetzt den bisherigen Standard-Plan. Der Standard-Plan wird für kurze Zeit weiterhin zum Kauf angeboten. Darüber hinaus ist er für Bestandskunden dieses Plans für unbegrenzte Zeit und mit unveränderter Preisstruktur weiterhin verfügbar. Bestandskunden können jederzeit ein Upgrade auf den Plus-Plan durchführen.
Weitere Informationen zu den verfügbaren Preisstrukturplänen finden Sie in den folgenden Ressourcen:
- Allgemeine Informationen zu den Preisstrukturplänen und Antworten auf häufig gestellte Fragen finden Sie unter Häufig gestellte Fragen zur Preisstruktur.
- Weitere Informationen zu den Preisplänen oder zum Kauf eines Plans finden Sie unter Speech to Text im IBM Cloud® Katalog.
20. August 2020
- Neue Modelle für kanadisches Französisch
-
Der Service bietet jetzt Breitband- und Schmalbandmodelle für kanadisches Französisch:
fr-CA_BroadbandModel
fr-CA_NarrowbandModel
Die neuen Modelle unterstützen weder die Anpassung von Sprachmodellen oder akustischen Modellen noch die Verwendung von Sprecherbezeichnungen oder der Funktion für intelligente Formatierung. Weitere Informationen zu diesen und allen unterstützten Modellen finden Sie in Unterstützte Sprachmodelle der vorherigen Generation.
5. August 2020
- Neue Modelle für australisches Englisch
-
Der Service bietet jetzt Breitband- und Schmalbandmodelle für australisches Englisch:
en-AU_BroadbandModel
en-AU_NarrowbandModel
Die neuen Modelle unterstützen weder die Anpassung von Sprachmodellen oder akustischen Modellen noch die Verwendung der Funktion für intelligente Formatierung. Die neuen Modelle unterstützen Sprecherbezeichnungen nicht. Weitere Informationen finden Sie
- Aktualisierungen für mehrere Modelle zur Verbesserung der Spracherkennung
-
Die folgenden Modelle wurden zur Verbesserung der Spracherkennung aktualisiert:
- Breitbandmodell für Französisch (
fr-FR_BroadbandModel
) - Breitband- und Schmalbandmodelle für Deutsch (
de-DE_BroadbandModel
undde-DE_NarrowbandModel
) - Breitband- und Schmalbandmodelle für britisches Englisch (
en-GB_BroadbandModel
unden-GB_NarrowbandModel
) - Kurzform-Schmalbandmodell für amerikanisches Englisch (
en-US_ShortForm_NarrowbandModel
)
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Breitbandmodell für Französisch (
- Verzögerungsmarkierung für Deutsch wurde geändert
-
Die Verzögerungsmarkierung in den aktualisierten Breitband- und Schmalbandmodellen für die deutsche Sprache wurde von
[hesitation]
in%HESITATION
geändert. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
4. Juni 2020
- Defekt behoben: Verbesserung der Latenzzeit für benutzerdefinierte Sprachmodelle mit vielen Grammatiken
- Fehlerkorrektur: Das Problem mit der Latenzzeit bei angepassten Sprachmodellen, die eine große Anzahl von Grammatiken enthalten, wurde behoben. Bei der Verwendung für die Spracherkennung konnte das Laden solcher angepassten Modelle anfänglich mehrere Sekunden in Anspruch nehmen. Die angepassten Modelle werden nun erheblich schneller geladen, wodurch sich die Latenz bei deren Verwendung für die Spracherkennung deutlich reduziert.
28. April 2020
- Aktualisierte Modelle für Italienisch zur Verbesserung der Spracherkennung
-
Das Breitbandmodell (
it-IT_BroadbandModel
) und das Schmalbandmodell (it-IT_NarrowbandModel
) für Italienisch wurden aktualisiert, um eine bessere Spracherkennung zu integrieren. Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Modelle für Niederländisch und Italienisch jetzt allgemein verfügbar
-
Die Sprachmodelle für Niederländisch und Italienisch sind nun allgemein für die Spracherkennung und für die Sprach- und Akustikmodellanpassungen verfügbar (GA):
- Niederländisch Breitbandmodell (
nl-NL_BroadbandModel
) - Niederländisch Schmalbandmodell (
nl-NL_NarrowbandModel
) - Italienisch Breitbandmodell (
it-IT_BroadbandModel
) - Italienisch Schmalbandmodell (
it-IT_NarrowbandModel
)
Weitere Informationen zu allen verfügbaren Sprachmodellen finden Sie in den folgenden Abschnitten:
- Niederländisch Breitbandmodell (
1. April 2020
- Akustikmodellanpassung jetzt allgemein verfügbar
-
Die Akustikmodellanpassung ist nun allgemein für alle unterstützten Sprachen verfügbar (GA). So wie bei angepassten Sprachmodellen wird bei IBM die Erstellung und das Hosting eines angepassten Akustikmodells nicht in Rechnung gestellt. Ihnen wird nur die Verwendung eines angepassten Modells mit einer Spracherkennungsanforderung berechnet.
Für die Verwendung eines angepassten Sprachmodells, eines angepassten Akustikmodells oder beider Modelltypen für die Transkription entstehen zusätzliche Kosten in Höhe von $0,03 (USD) pro Minute. Diese Gebühr wird zusätzlich zu der Standardnutzungsgebühr in Höhe von $0,02 (USD) pro Minute berechnet und gilt für alle von der Anpassungsschnittstelle unterstützten Sprachen. Die Gesamtkosten für die Nutzung eines angepassten Modells oder mehrerer angepasster Modelle für die Spracherkennung betragen folglich $0,05 (USD) pro Minute.
- Weitere Informationen zur Unterstützung einzelner Sprachmodelle finden Sie unter Sprachunterstützung bei der Anpassung.
- Weitere Informationen zur Preisgestaltung finden Sie auf der Seite zur Preisgestaltung für den Speech to Text-Service oder unter Häufig gestellte Fragen zur Preisgestaltung.
16. März 2020
- Sprecherbezeichnungen für Deutsch und Koreanisch werden jetzt unterstützt
- Der Service unterstützt nun Sprecherbezeichnungen (Parameter
speaker_labels
) für die Sprachmodelle für Deutsch und Koreanisch. Sprecherbezeichnungen geben an, von welchen Personen in einer Konversation mit mehreren Beteiligten welche Worte gesprochen wurden. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen. - Activity Tracker für die asynchrone HTTP-Schnittstelle wird jetzt unterstützt
- Der Service unterstützt jetzt die Verwendung von Activity Tracker-Ereignissen für alle Operationen der asynchronen HTTP-Schnittstelle. IBM Cloud Activity Tracker zeichnet vom Benutzer eingeleitete Aktivitäten auf, die den Status eines Service in IBM Cloud® ändern. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse.
24. Februar 2020
- Aktualisierungen für mehrere Modelle zur Verbesserung der Spracherkennung
-
Die folgenden Modelle wurden zur Verbesserung der Spracherkennung aktualisiert:
- Niederländisch Breitbandmodell (
nl-NL_BroadbandModel
) - Niederländisch Schmalbandmodell (
nl-NL_NarrowbandModel
) - Italienisch Breitbandmodell (
it-IT_BroadbandModel
) - Italienisch Schmalbandmodell (
it-IT_NarrowbandModel
) - Japanisch Schmalbandmodell (
ja-JP_NarrowbandModel
) - Amerikanisches Englisch Breitbandmodell (
en-US_BroadbandModel
)
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Niederländisch Breitbandmodell (
- Sprachmodellanpassung für Niederländisch und Italienisch jetzt verfügbar
-
Die Sprachmodellanpassung für Niederländisch und Italienisch wird jetzt mit den neuen Versionen der folgenden Modelle unterstützt:
- Niederländisch Breitbandmodell (
nl-NL_BroadbandModel
) - Niederländisch Schmalbandmodell (
nl-NL_NarrowbandModel
) - Italienisch Breitbandmodell (
it-IT_BroadbandModel
) - Italienisch Schmalbandmodell (
it-IT_NarrowbandModel
)
Weitere Informationen finden Sie
- Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch
- Richtlinien für Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch
Da es sich bei den Modellen für Niederländisch und Italienisch um Betaversionen handelt, ist deren Unterstützung für die Anpassung von Sprachmodellen ebenfalls eine Betaversion.
- Niederländisch Breitbandmodell (
- Schmalbandmodell für Japanisch enthält jetzt Multigram-Worteinheiten
-
Das Schmalbandmodell für Japanisch (
ja-JP_NarrowbandModel
) umfasst nun einige Multigram-Worteinheiten für Ziffern und Dezimalbrüche. Der Service gibt diese Multigram-Einheiten unabhängig davon zurück, ob Sie intelligente Formatierung aktiviert oder inaktiviert haben. Die Funktion 'Intelligente Formatierung' versteht Multigram-Einheiten, die das Modell generiert, und gibt diese zurück. Wenn Sie Ihre eigene Nachbearbeitung auf die Transkriptionsergebnisse anwenden, müssen Sie diese Einheiten entsprechend handhaben. Weitere Informationen finden Sie in der Dokumentation zur intelligenten Formatierung unter Japanisch. - Neue Parameter zum Erkennen von Sprachaktivitäten und zum Unterdrücken von Hintergrundgeräuschen bei der Spracherkennung
-
Der Service bietet nun zwei neue optionale Parameter zur Steuerung der Stufe der Sprechaktivitätserkennung. Die Parameter können Sie dabei unterstützen, sicherzustellen, dass nur relevante Audiodaten für die Spracherkennung verarbeitet werden.
- Der Parameter
speech_detector_sensitivity
passt die Empfindlichkeit für die Sprechaktivitätserkennung an. Sie können den Parameter verwenden, um Worteinfügungen aus Musik oder durch Husten oder andere nichtsprachliche Ereignisse zu unterdrücken. - Der Parameter
background_audio_suppression
unterdrückt die Hintergrundaudiosignale auf Basis der Lautstärke, damit diese nicht als Sprache transkribiert werden oder auf andere Weise die Spracherkennung stören. Sie können diesen Parameter verwenden, um Nebengespräche oder Hintergrundgeräusche zu unterdrücken.
Sie können die Parameter einzeln oder zusammen verwenden. Sie sind für alle Schnittstellen und für die meisten Sprachmodelle verfügbar. Weitere Informationen zu den Parametern, ihren zulässigen Werten und ihren Auswirkungen auf die Qualität und die Latenzzeit von Spracherkennung finden Sie unter Sprechaktivitätserkennung .
- Der Parameter
- Activity Tracker wird jetzt für Anpassungsschnittstellen unterstützt
-
Der Service unterstützt jetzt die Verwendung von Activity Tracker-Ereignissen für alle Anpassungsoperationen. IBM Cloud Activity Tracker zeichnet vom Benutzer eingeleitete Aktivitäten auf, die den Status eines Service in IBM Cloud ändern. Mithilfe dieses Service können Sie abnormale Aktivität und kritische Aktionen untersuchen sowie gesetzliche Prüfvorschriften erfüllen. Darüber hinaus können Sie Warnnachrichten Alerts über Aktionen empfangen, sobald diese stattfinden. Weitere Informationen finden Sie im Abschnitt Activity Tracker-Ereignisse.
- Fehlerkorrektur: Korrekte Generierung von Verarbeitungsmetriken mit der WebSocket-Schnittstelle
-
Fehlerkorrektur: Die WebSocket-Schnittstelle funktioniert jetzt reibungslos beim Generieren von Verarbeitungsmetriken. Vorherige Verarbeitungsmetriken können weiterhin bereitgestellt werden, nachdem der Client eine
stop
-Nachricht an den Service gesendet hat.
18. Dezember 2019
- Neue Modelle für Italienisch als Betafunktion verfügbar
-
Der Service bietet jetzt Betaversionen für Breitband- und Schmalbandmodelle für Italienisch an.
it-IT_BroadbandModel
it-IT_NarrowbandModel
Diese Sprachmodelle unterstützen die Akustikmodellanpassung. Sie unterstützen keine Sprachmodellanpassung. Da es sich um Betamodelle handelt, sind diese Modelle möglicherweise noch nicht für den Produktionseinsatz bereit und können weiteren Änderungen unterliegen. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.
Weitere Informationen finden Sie in den folgenden Abschnitten:
- Neuer Parameter
end_of_phrase_silence_time
für die Spracherkennung -
Für die Spracherkennung unterstützt der Service jetzt den Parameter
end_of_phrase_silence_time
. Der Parameter gibt die Dauer des Pausenintervalls an, bei dem der Service eine Transkription in mehrere Endergebnisse aufteilt. Jedes Endergebnis gibt eine Sprechpause oder ein längeres Schweigen an, das das Pausenintervall überschreitet. Für die meisten Sprachen beträgt das Standardpausenintervall 0,8 Sekunden; bei Chinesisch beträgt das Standardintervall 0,6 Sekunden.Sie können den Parameter verwenden, um ein Gleichgewicht zwischen der Häufigkeit, mit der ein Endergebnis erzielt wird, und der Genauigkeit der Transkription herzustellen. Erhöhen Sie das Intervall, wenn die Genauigkeit wichtiger ist als die Latenzzeit. Verringern Sie das Intervall, wenn der Sprecher kurze Ausdrücke oder einzelne Wörter spricht.
Weitere Informationen finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.
- Neuer Parameter
split_transcript_at_phrase_end
für die Spracherkennung -
Für die Spracherkennung unterstützt der Service jetzt den Parameter
split_transcript_at_phrase_end
. Der Parameter weist den Service an, die Transkription in mehrere Endergebnisse für semantische Merkmale der Eingabe aufzuteilen, wie z. B. vollständige Sätze. Der Service basiert auf dem Verständnis von semantischen Merkmalen für das Basissprachmodell, das Sie mit einer Anforderung verwenden. Angepasste Sprachmodelle und Grammatiken können auch beeinflussen, wie und wo der Service eine Transkription aufteilt.Der Parameter bewirkt, dass der Service jedem Endergebnis das Feld
end_of_utterance
hinzufügt, um die Motivation für die Aufteilung anzugeben:full_stop
,silence
,end_of_data
oderreset
.Weitere Informationen finden Sie im Abschnitt Transkription nach Ausdrucksende aufteilen.
12. Dezember 2019
- Vollständige Unterstützung für IBM Cloud IAM
-
Der Speech to Text-Service unterstützt jetzt die vollständige Implementierung von IBM Cloud Identity and Access Management (IAM). API-Schlüssel für IBM Watson®-Services sind nicht mehr auf eine einzelne Serviceinstanz beschränkt. Sie können Zugriffsrichtlinien und API-Schlüssel erstellen, die für mehr als einen Service gelten, und Sie können den Zugriff zwischen Services erteilen. Weitere Informationen zu IAM finden Sie unter Authentifizierung bei Watson-Services.
Damit diese Änderung unterstützt wird, verwenden die API-Serviceendpunkte eine andere Domäne und beziehen die Serviceinstanz-ID ein. Das Muster ist
api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id}
.-
Beispiel einer HTTP-URL für eine Instanz, die am Standort Dallas gehostet ist:
https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
-
Beispiel für eine WebSocket-URL für eine Instanz, die am Standort Dallas gehostet ist:
wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
Weitere Informationen zu den URLs finden Sie in der API & SDK-Referenz.
Diese URLs stellen keine Änderungen dar, die zu Fehlern bei anderen Services führen können. Die neuen URLs funktionieren sowohl für Ihre vorhandenen Serviceinstanzen als auch für neue Instanzen. Die ursprünglichen URLs funktionieren auf Ihren vorhandenen Serviceinstanzen weiterhin für mindestens ein Jahr bis Dezember 2020.
-
- Neue Funktionen für Netz- und Datensicherheit verfügbar
-
Unterstützung für die folgende neue Netzwerk- und Datensicherheitsfunktion ist jetzt verfügbar:
-
Unterstützung für private Netzwerk-Endpunkte
Benutzer von Premium-Plänen können private Netzendpunkte erstellen, um über ein privates Netz eine Verbindung zum Speech to Text-Service herzustellen. Für Verbindungen zu privaten Netzendpunkten ist kein öffentlicher Internetzugriff erforderlich. Weitere Informationen finden Sie unter Öffentliche und private Netzendpunkte.
-
10. Dezember 2019
- Neue Modelle für Niederländisch (Niederlande) verfügbar (Betafunktion)
-
Der Service stellt jetzt als Betafunktion Breitband- und Schmalbandmodelle für die Sprache Niederländisch (Niederlande) bereit:
nl-NL_BroadbandModel
nl-NL_NarrowbandModel
Diese Sprachmodelle unterstützen die Akustikmodellanpassung. Sie unterstützen keine Sprachmodellanpassung. Da es sich um Betamodelle handelt, sind diese Modelle möglicherweise noch nicht für den Produktionseinsatz bereit und können weiteren Änderungen unterliegen. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.
Weitere Informationen finden Sie in den folgenden Abschnitten:
25. November 2019
- Aktualisierte Sprecherbezeichnungen zur besseren Identifizierung einzelner Sprecher
- Sprecherbezeichnungen werden aktualisiert, um die Identifikation einzelner Sprecher für die weitere Analyse Ihrer Audiosamples zu verbessern. Weitere Informationen zur Funktion für Sprecherbezeichnungen finden Sie unter Sprecherbezeichnungen. Weitere Informationen über die Verbesserungen der Funktion finden Sie unter IBM Research AI Advances Speaker Diarization in Real Use Cases.
12. November 2019
- Neuer Standort in Seoul jetzt verfügbar
- Der Speech to Text-Service ist jetzt am IBM Cloud-Standort Seoul (kr-seo) verfügbar. Wie andere Standorte auch verwendet dieser IBM Cloud-Standort eine tokenbasierte IAM-Authentifizierung. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.
1. November 2019
- Neue Grenzwerte für die maximale Anzahl angepasster Modelle
- Sie können nicht mehr als 1024 angepasste Sprachmodelle und nicht mehr als 1024 angepasste akustische Modelle pro besitzenden Berechtigungsnachweis erstellen. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl an angepassten Modellen.
1. Oktober 2019
- Neue HIPAA-Unterstützung für Premium-Pläne am Standort Washington, DC
- HIPAA-Unterstützung (USA) ist für Premium-Pläne verfügbar, die am Standort Washington DC (us-east) gehostet werden und ab dem 1. April 2019 erstellt wurden oder werden. Weitere Informationen finden Sie im Abschnitt US Health Insurance Portability and Accountability Act (HIPAA).
22. August 2019
- Fehlerkorrektur: Mehrere kleine Verbesserungen
- Der Service wurde für kleine Fehlerkorrekturen und Verbesserungen aktualisiert.
30. Juli 2019
- Neue Modelle für spanische Dialekte jetzt verfügbar
-
Der Service bietet jetzt Breitband- und Schmalbandsprachmodelle in sechs spanischen Dialekten an:
- Argentinisches Spanisch (
es-AR_BroadbandModel
undes-AR_NarrowbandModel
) - Kastilisches Spanisch (
es-ES_BroadbandModel
undes-ES_NarrowbandModel
) - Chilenisches Spanisch (
es-CL_BroadbandModel
undes-CL_NarrowbandModel
) - Kolumbianisches Spanisch (
es-CO_BroadbandModel
undes-CO_NarrowbandModel
) - Mexikanisches Spanisch (
es-MX_BroadbandModel
undes-MX_NarrowbandModel
) - Peruanisches Spanisch (
es-PE_BroadbandModel
undes-PE_NarrowbandModel
)
Die Modelle für kastilisches Spanisch sind nicht neu. Sie sind für die Spracherkennung und Sprachmodellanpassung allgemein verfügbar (GA) und für die Akustikmodellanpassung als Betafunktion.
Die anderen fünf Dialekte sind neu und sind als Betamodelle vielseitig einsetzbar. Da es sich um Beta-Versionen handelt, sind diese zusätzlichen Dialekte möglicherweise nicht für den Produktionseinsatz bereit und können sich ändern. Es handelt sich um erste Angebote, die sich mit der Zeit und der Nutzung qualitativ verbessern.
Weitere Informationen finden Sie in den folgenden Abschnitten:
- Argentinisches Spanisch (
24. Juni 2019
- Aktualisierte Modelle für brasilianisches Portugiesisch und amerikanisches Englisch mit verbesserter Spracherkennung
-
Die folgenden Schmalbandsprachmodelle wurden aktualisiert, um die Spracherkennung zu verbessern:
- Schmalbandmodell für 'Brasilianisches Portugiesisch' (
pt-BR_NarrowbandModel
) - Schmalbandmodell für 'Amerikanisches Englisch' (
en-US_NarrowbandModel
)
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Schmalbandmodell für 'Brasilianisches Portugiesisch' (
- Neue Unterstützung für gleichzeitige Anforderungen zum Aktualisieren verschiedener angepasster Akustikmodelle
-
Mit dem Service können Sie jetzt mehrere simultane Anforderungen zum Hinzufügen verschiedener Audioressourcen zu einem angepassten akustischen Modell übergeben. Bisher konnte nur immer nur eine Anforderung übergeben werden.
- Neues Feld
updated
für Methoden zum Auflisten angepasster Modelle -
Die Ausgabe der HTTP-Methode
GET
, die Informationen zu angepassten Sprachmodellen und angepassten Akustikmodellen auflistet, enthält jetzt das Feldupdated
. Das Feld gibt das Datum und die Uhrzeit in der koordinierten Weltzeit (Coordinated Universal Time, UTC) an, an der das angepasste Modell zuletzt geändert wurde. - Geändertes Schema für Warnungen beim Trainieren angepasster Modelle
-
Das Schema wurde für eine Warnung geändert, die von einer angepassten Modellbildungsanforderung generiert wird, wenn der Parameter
strict
auffalse
gesetzt ist. Die Namen der Felder haben sich vonwarning_id
unddescription
incode
bzw.message
geändert. Weitere Informationen finden Sie in der API-& SDK-Referenz.
10. Juni 2019
- Verarbeitungsmetriken nicht mit synchroner HTTP-Schnittstelle verfügbar
- Verarbeitungsmetriken sind nur mit der WebSocket- und der asynchrone HTTP-Schnittstelle verfügbar. Für die synchrone HTTP-Schnittstelle werden sie nicht unterstützt. Weitere Informationen finden Sie unter Verarbeitungsmetriken.
17. Mai 2019
- Neue Funktionen für Verarbeitungs- und Audiometriken für die Spracherkennung
-
Der Service bietet nun zwei Typen von optionalen Metriken für Spracherkennungsanforderungen an:
- Verarbeitungsmetriken stellen detaillierte Zeitinformationen über die Analyse der Audioeingabedaten durch den Service bereit. Der Service gibt die Metriken in festgelegten Intervallen und mit Transkriptionsereignissen zurück, z. B. als Zwischen- und Endergebnisse. Mithilfe der Metriken können Sie den Fortschritt des Service bei der Transkription der Audiodaten messen.
- Audiometriken stellen detaillierte Informationen über die Signalmerkmale der Audioeingabedaten bereit. In den Ergebnissen sind Metriken für die gesamten Audioeingabedaten zum Abschluss der Sprachverarbeitung zusammengefasst. Mithilfe der Metriken können Sie die Merkmale und die Qualität der Audiodaten feststellen.
Sie können beide Metriktypen mit einer Spracherkennungsanforderung anfordern. In der Standardeinstellung gibt der Service keine Metriken für eine Anforderung zurück.
- Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung
-
Das Breitbandmodell für Japanisch (
ja-JP_BroadbandModel
) wurde für eine verbesserte Spracherkennung aktualisiert. Standardmäßig verwendet der Service automatisch das aktualisierte Modell für alle Spracherkennungsanforderungen. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf dem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
10. Mai 2019
- Aktualisierte Modelle für Spanisch mit verbesserter Spracherkennung
-
Die Sprachmodelle für Spanisch wurden für eine verbesserte Spracherkennung aktualisiert:
es-ES_BroadbandModel
es-ES_NarrowbandModel
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
19. April 2019
- Neuer Parameter
strict
zum Trainieren angepasster Modelle jetzt verfügbar - Die Trainingsmethoden der Anpassungsschnittstelle enthalten jetzt einen Abfrageparameter
strict
, der angibt, ob das Training fortgesetzt werden soll, wenn ein angepasstes Modell eine Mischung aus gültigen und ungültigen Ressourcen enthält. Standardmäßig schlägt das Training fehl, wenn ein angepasstes Modell mindestens eine ungültige Ressource enthält. Setzen Sie den Parameter auffalse
, damit das Training fortgesetzt werden kann, sofern das Modell mindestens eine gültige Ressource enthält. Der Service schließt ungültige Ressourcen vom Training aus.- Weitere Informationen zur Verwendung des Parameters
strict
mit der MethodePOST /v1/customizations/{customization_id}/train
finden Sie in den Abschnitten Angepasstes Sprachmodell trainieren und Fehler bei Training. - Weitere Informationen zur Verwendung des Parameters
strict
mit der MethodePOST /v1/acoustic_customizations/{customization_id}/train
finden Sie in den Abschnitten Angepasstes Sprachmodell trainieren und Fehler bei Training.
- Weitere Informationen zur Verwendung des Parameters
- Neue Grenzwerte für die maximale Anzahl vokabularexterner Wörter für angepasste Sprachmodelle
- Sie können maximal 90.000 vokabularexterne Wörter (OOV-Wörter) zur Wörterressource eines angepassten Sprachmodells hinzufügen. Der bisherige maximale Wert lag bei 30.000 OOV-Wörtern. Dazu zählen OOV-Wörter aus allen Quellen (Korpora, Grammatiken und von Ihnen direkt hinzugefügte Wörter). Sie können insgesamt maximal 10.000.000 Wörter aus allen Quellen zu einem angepassten Modell hinzufügen. Weitere Informationen finden Sie im Abschnitt Wie viele Daten benötige ich?.
3. April 2019
- Neue Obergrenzen für das Audiodatenvolumen für angepasste Akustikmodelle
- Angepasste Akustikmodelle akzeptieren jetzt Audiodaten für maximal 200 Stunden. Der bisherige Maximalwert waren Audiodaten für 100 Stunden.
21. März 2019
- Sichtbarkeit von Serviceberechtigungsnachweisen jetzt auf Rolle begrenzt
-
Benutzer können nun ausschließlich Informationen zu Serviceberechtigungsnachweisen für die Rolle anzeigen, die ihrem IBM Cloud-Konto zugeordnet ist. Falls Ihnen beispielsweise die Rolle
reader
zugeordnet ist, sind Serviceberechtigungsnachweise der Ebenewriter
oder einer höheren Ebene für Sie nicht mehr sichtbar.Diese Änderung betrifft nicht den API-Zugriff für Benutzer oder Anwendungen mit bestehenden Serviceberechtigungsnachweisen. Sie wirkt sich lediglich auf das Anzeigen von Berechtigungsnachweisen in IBM Cloud aus.
15. März 2019
- Neue Unterstützung für das Audioformat A-law
- Der Service unterstützt jetzt Audio im Format A-law (
audio/alaw
). Weitere Informationen finden Sie im Abschnitt Format 'audio/alaw'.
11. März 2019
- Änderung beim Übergeben des Werts
0
für den Parametermax_alternatives
- Für den Parameter
max_alternatives
akzeptiert der Service jetzt wieder den Wert0
. Wenn Sie0
angeben, verwendet der Service automatisch den Standardwert1
. Eine Änderung für die Aktualisierung des Service vom 4. März führte dazu, dass für den Wert0
ein Fehler zurückgegeben wurde. (Der Service gibt einen Fehler zurück, wenn Sie einen negativen Wert angeben.) - Änderung beim Übergeben des Werts
0
für den Parameterword_alternatives_threshold
- Für den Parameter
word_alternatives_threshold
akzeptiert der Service wieder den Wert0
. Eine Änderung für die Aktualisierung des Service vom 4. März führte dazu, dass für den Wert0
ein Fehler zurückgegeben wurde. (Der Service gibt einen Fehler zurück, wenn Sie einen negativen Wert angeben.) - Neuer Grenzwert für maximale Genauigkeit des Verlässlichkeitsscores
- Der Service gibt jetzt alle Konfidenzwerte mit einer maximalen Genauigkeit von zwei Dezimalstellen zurück. Dazu gehören auch Konfidenzwerte für Aufzeichnungen, Wortkonfidenz, Wortalternativen, Schlüsselwortergebnisse und Sprecherbezeichnungen.
4. März 2019
- Aktualisierte Schmalbandmodelle für brasilianischem Portugiesisch, Französisch und Spanisch zur Verbesserung der Spracherkennung
-
Die folgenden Schmalbandsprachmodelle wurden aktualisiert, um die Spracherkennung zu verbessern:
- Schmalbandmodell für 'Brasilianisches Portugiesisch' (
pt-BR_NarrowbandModel
) - Modell für Französisch (Frankreich) -
fr-FR_NarrowbandModel
- Schmalbandmodell für Spanisch -
es-ES_NarrowbandModel
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Schmalbandmodell für 'Brasilianisches Portugiesisch' (
28. Januar 2019
- Neue Unterstützung für IBM Cloud IAM durch WebSocket-Schnittstelle
-
Die WebSocket-Schnittstelle unterstützt jetzt die tokenbasierte Authentifizierung mit Identity and Access Management (IAM) mit browserbasiertem JavaScript-Code. Die bisherige Einschränkung auf das Gegenteil wurde behoben. Gehen Sie wie folgt vor, um eine authentifizierte Verbindung mit der WebSocket-Methode
/v1/recognize
herzustellen:- Wenn Sie die IAM-Authentifizierung verwenden, geben Sie den Abfrageparameter
access_token
an. - Wenn Sie Cloud Foundry-Serviceberechtigungsnachweise verwenden, geben Sie den Abfrageparameter
watson-token
an.
Weitere Informationen finden Sie im Abschnitt Verbindung öffnen.
- Wenn Sie die IAM-Authentifizierung verwenden, geben Sie den Abfrageparameter
20. Dezember 2018
- Neue Funktion für Grammatiken (Betafunktion) für angepasste Sprachmodelle jetzt verfügbar
-
Der Service unterstützt jetzt Grammatiken für die Spracherkennung. Grammatiken sind als Betafunktion für alle Sprachen verfügbar, die angepasste Sprachmodelle unterstützen. Sie können Grammatiken zu einem angepassten Sprachmodell hinzufügen, um die Gruppe der Ausdrücke zu beschränken, die der Service in Audiodaten erkennen kann. Grammatiken können im Format 'Augmented Backus-Naur Form (ABNF)' oder im Format 'XML Form' definiert werden.
Die folgenden vier Methoden zum Arbeiten mit Grammatiken stehen zur Verfügung:
POST /v1/customizations/{customization_id}/grammars/{grammar_name}
fügt eine Grammatikdatei zu einem angepassten Sprachmodell hinzu.GET /v1/customizations/{customization_id}/grammars
listet Informationen zu allen Grammatiken für ein angepasstes Modell auf.GET /v1/customizations/{customization_id}/grammars/{grammar_name}
gibt Informationen zu einer bestimmten Grammatik für ein angepasstes Modell zurück.DELETE /v1/customizations/{customization_id}/grammars/{grammar_name}
entfernt eine vorhandene Grammatik aus einem angepassten Modell.
Sie können eine Grammatik für die Spracherkennung mit den WebSocket- und HTTP-Schnittstellen verwenden. Mit den Parametern
language_customization_id
undgrammar_name
können Sie das angepasste Modell und die Grammatik angeben, die Sie verwenden möchten. Derzeit kann in einer Spracherkennungsanforderung nur eine einzige Grammatik verwendet werden.Weitere Informationen zu Grammatiken finden Sie in der folgenden Dokumentation:
- Grammatiken bei angepassten Sprachmodellen verwenden
- Wissenswertes über Grammatiken
- Grammatik zu einem angepassten Sprachmodell hinzufügen
- Grammatik bei der Spracherkennung verwenden
- Grammatiken verwalten
- Beispiele für Grammatiken
Informationen über alle Methoden der Schnittstelle finden Sie in der API & SDK-Referenz.
- Neue Funktion für Zahlenschwärzung für amerikanisches Englisch, Japanisch und Koreanisch jetzt verfügbar
-
Eine neue Funktion zum Schwärzen von Zahlen ermöglicht jetzt die Maskierung von Zahlen, die aus mindestens drei aufeinanderfolgenden Ziffern bestehen. Zweck der Schwärzung ist es, sensible personenbezogene Daten wie beispielsweise Kreditkartennummern aus Transkriptionen zu entfernen. Sie können diese Funktion aktivieren, indem Sie in einer Erkennungsanforderung den Parameter
redaction
auftrue
setzen. Diese Funktion ist als Betafunktionalität nur für amerikanisches Englisch, Japanisch und Koreanisch verfügbar. Weitere Informationen finden Sie im Abschnitt Zahlenschwärzung. - Neue Schmalbandmodelle für Französisch und Deutsch jetzt verfügbar
-
Die folgenden neuen Sprachmodelle für Deutsch und Französisch sind jetzt mit dem Service verfügbar:
- Schmalbandmodell für Französisch -
fr-FR_NarrowbandModel
- Schmalbandmodell für Deutsch -
de-DE_NarrowbandModel
Beide neuen Modelle unterstützen die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion). Weitere Informationen finden Sie im Abschnitt Sprachunterstützung bei der Anpassung.
- Schmalbandmodell für Französisch -
- Neues Sprachmodell für amerikanisches Englisch (
en-US_ShortForm_NarrowbandModel
) jetzt verfügbar -
Ein neues Modell für amerikanisches Englisch,
en-US_ShortForm_NarrowbandModel
, ist jetzt verfügbar. Das neue Modell ist für die Verwendung in Lösungen für Interactive-Voice-Response und für automatisierte Kundenunterstützung vorgesehen. Das Modell unterstützt die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion). Weitere Informationen finden Sie im Abschnitt Kurzformmodell für amerikanisches Englisch. - Aktualisierte Schmalbandmodelle für Englisch (Vereinigtes Königreich) und Spanisch zur Verbesserung der Spracherkennung
-
Die folgenden Sprachmodelle wurden aktualisiert und bieten nun eine verbesserte Spracherkennung:
- Schmalbandmodell für Englisch (Vereinigtes Königreich) -
en-GB_NarrowbandModel
- Schmalbandmodell für Spanisch -
es-ES_NarrowbandModel
Standardmäßig verwendet der Service die aktualisierten Modelle automatisch für alle Spracherkennungsanforderungen. Falls Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf den Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle mit den folgenden Methoden ein Upgrade durchführen, um die Aktualisierungen nutzen zu können:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Schmalbandmodell für Englisch (Vereinigtes Königreich) -
- Neue Unterstützung für das Audioformat G.279
-
Der Service unterstützt jetzt das Audioformat G.729 (
audio/g729
). Für schmalbandige Audiodaten unterstützt der Service nur G.729 Annex D. Weitere Informationen finden Sie unter Format audio/g729. - Funktion für Sprecherbezeichnungen für das Schmalbandmodell für britisches Englisch jetzt verfügbar
-
Die Funktion für Sprecherbezeichnungen ist jetzt für das Schmalbandmodell für britisches Englisch (
en-GB_NarrowbandModel
) verfügbar. Die Funktion wird als Betafunktion für alle unterstützten Sprachen bereitgestellt. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen. - Neue Obergrenzen für das Audiodatenvolumen für angepasste Akustikmodelle
-
Die maximale Menge an Audiodaten, die Sie zu einem angepassten Akustikmodell hinzufügen können, wurde von 50 Stunden auf 100 Stunden erhöht.
13. Dezember 2018
- Neuer Standort in London jetzt verfügbar
- Der Speech to Text-Service ist nun am IBM Cloud-Standardort London (eu-gb) verfügbar. Wie an allen Standorten wird auch am Standort London die tokenbasierte IAM-Authentifizierung verwendet. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.
12. November 2018
- Neue Unterstützung für intelligente Formatierung in der Spracherkennung für Japanisch
- Der Service unterstützt jetzt die intelligente Formatierung bei der Spracherkennung für Japanisch. Bisher hat der Service die intelligente Formatierung nur für amerikanisches Englisch und Spanisch unterstützt. Diese Funktion ist als Betafunktionalität für alle unterstützten Sprachen verfügbar. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.
7. November 2018
- Neuer Standort in Tokio jetzt verfügbar
- Der Speech to Text-Service ist nun am IBM Cloud-Standardort Tokio (jp-tok) verfügbar. Wie an allen Standorten wird auch am Standort Tokio die tokenbasierte IAM-Authentifizierung verwendet. Alle neuen Serviceinstanzen, die Sie an diesem Standort erstellen, verwenden die IAM-Authentifizierung.
30. Oktober 2018
- Neue Unterstützung für tokenbasiertes IBM Cloud IAM
-
Der Service Speech to Text hat die Migration auf die tokenbasierte IAM-Authentifizierung für alle Standorte durchgeführt. Alle IBM Cloud-Services verwenden jetzt die IAM-Authentifizierung. Der Speech to Text-Service wurde für die einzelnen Standorte an den folgenden Terminen umgestellt:
- Dallas (us-south): 30. Oktober 2018
- Frankfurt (eu-de): 30. Oktober 2018
- Washington DC (us-east): 12. Juni 2018
- Sydney (au-syd): 15. Mai 2018
Die Migration zur IAM-Authentifizierung wirkt sich auf neue und auf bestehende Serviceinstanzen jeweils anders aus:
- Alle neuen Service-Instanzen, die Sie an einem beliebigen Standort erstellen, verwenden nun die IAM-Authentifizierung für den Zugriff auf den Service. Sie können entweder ein Trägertoken oder einen API-Schlüssel übergeben: Token unterstützen authentifizierte Anfragen, ohne in jeden Aufruf Serviceberechtigungsnachweise einzubetten, und API-Schlüssel verwenden die HTTP-Basisauthentifizierung. Wenn Sie ein beliebiges Watson-SDK verwenden, können Sie den API-Schlüssel übergeben und dem SDK die Verwaltung des Lebenszyklus der Token überlassen.
- Vorhandene Serviceinstanzen, die Sie vor dem angegebenen Umstellungstermin an einem Standort erstellt haben, verwenden weiterhin die Kombination aus
{username}
und{password}
aus den vorherigen Cloud Foundry-Serviceberechtigungsnachweisen, bis Sie die betreffenden Services auf die Verwendung der IAM-Authentifizierung umstellen.
Weitere Informationen finden Sie in der folgenden Dokumentation:
- Um zu erfahren, welchen Authentifizierungsmechanismus Ihre Dienstinstanz verwendet, zeigen Sie Ihre Dienstanmeldeinformationen an, indem Sie auf die Instanz im IBM Cloud Dashboard klicken.
- Weitere Informationen zur Verwendung von IAM-Tokens mit Watson-Services finden Sie unter Authentifizierung bei Watson-Services.
- Beispiele für die Verwendung der IAM-Authentifizierung finden Sie in der API & SDK-Referenz.
9. Oktober 2018
- Wichtige Änderungen in der Preisstruktur für Spracherkennungsanforderungen
-
Ab dem 1. Oktober 2018 werden alle Audiodaten in Rechnung gestellt, die Sie zur Spracherkennung an den Service übergeben. Die ersten eintausend Minuten im Monat, die von Ihnen gesendet werden, sind nicht mehr kostenfrei. Weitere Informationen zu den Preisplänen für den Dienst finden Sie unter Speech to Text im IBM Cloud Katalog.
- Der Header
Content-Type
ist jetzt für die meisten Spracherkennungsanforderungen optional -
Der Header
Content-Type
ist jetzt für die meisten Spracherkennungsanforderungen optional. Der Service erkennt jetzt automatisch das Audioformat (MIME-Typ) der meisten Audiodaten. Für die folgenden Formate müssen Sie den Inhaltstyp (Content-Type) weiterhin angeben:audio/basic
audio/l16
audio/mulaw
Falls angegeben, muss der Inhaltstyp, den Sie für diese Formate angeben, die Abtastfrequenz enthalten und kann optional die Anzahl der Kanäle und die Endianess der Audiodaten enthalten. Bei allen anderen Audioformaten können Sie den Inhaltstyp übergehen oder den Inhaltstyp
application/octet-stream
angeben, damit der Service das Format automatisch erkennt.Wenn Sie den Befehl
curl
für eine Spracherkennungsanforderung mit der HTTP-Schnittstelle verwenden, müssen Sie das Audioformat im HeaderContent-Type
entweder als"Content-Type: application/octet-stream"
oder als"Content-Type:"
angeben. Falls Sie den Header komplett weglassen, verwendetcurl
den Standardwertapplication/x-www-form-urlencoded
. In den meisten Beispielen in dieser Dokumentation wird weiterhin das Format für Spracherkennungsanforderungen angegeben, selbst wenn es nicht erforderlich ist.Diese Änderung gilt für die folgenden Methoden:
/v1/recognize
für WebSocket-Anforderungen. Das Feldcontent-type
der Textnachricht, die Sie über eine geöffnete WebSocket-Verbindung senden können, um eine Anforderung zu initialisieren, ist jetzt optional.POST /v1/recognize
für synchrone HTTP-Anforderungen. Der HeaderContent-Type
ist jetzt optional. (Für mehrteilige Anforderungen ist das Feldpart_content_type
der JSON-Metadaten jetzt ebenfalls optional.)POST /v1/recognitions
für asynchrone HTTP-Anforderungen. Der HeaderContent-Type
ist jetzt optional.
Weitere Informationen finden Sie unter Audioformate.
- Aktualisiertes Breitbandmodell für brasilianisches Portugiesisch zur Verbesserung der Spracherkennung
-
Das Breitbandmodell für brasilianisches Portugiesisch,
pt-BR_BroadbandModel
, wurde aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Spracherkennungsanforderungen automatisch das aktualisierte Modell. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre vorhandenen angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Parameter
customization_id
inlanguage_customization_id
umbenannt -
Der Parameter
customization_id
der Spracherkennungsmethoden wird nicht mehr unterstützt. Er wird in einem künftigen Release entfernt. Wenn Sie ein angepasstes Sprachmodell für eine Spracherkennungsanforderung angeben möchten, verwenden Sie stattdessen den Parameterlanguage_customization_id
. Diese Änderung gilt für die folgenden Methoden:/v1/recognize
für WebSocket-AnforderungenPOST /v1/recognize
für synchrone HTTP-Anforderungen (einschließlich mehrteiliger Anforderungen)POST /v1/recognitions
für asynchrone HTTP-Anforderungen
10. September 2018
- Neues Breitbandmodell für Deutsch
-
Der Service unterstützt jetzt ein Breitbandmodell für Deutsch (
de-DE_BroadbandModel
). Das neue Modell für Deutsch unterstützt die Sprachmodellanpassung (allgemein verfügbar) und die Akustikmodellanpassung (Betaversion).- Informationen zur Vorgehensweise des Service bei der Syntaxanalyse von Korpora für Deutsch finden Sie unter Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Weitere Informationen zum Erstellen ähnlich klingender Aussprachevarianten für angepasste Wörter in der deutschen Sprache finden Sie unter Richtlinien für Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Sprachmodellanpassung jetzt für brasilianisches Portugiesisch verfügbar
-
Die vorhandenen Modelle für brasilianisches Portugiesisch (
pt-BR_BroadbandModel
undpt-BR_NarrowbandModel
) unterstützen jetzt auch die Sprachmodellanpassung (allgemein verfügbar). Zum Aktivieren dieser Unterstützung wurden die Modelle nicht aktualisiert, daher ist kein Upgrade der vorhandenen angepassten Akustikmodelle erforderlich.- Informationen zur Vorgehensweise des Service bei der Syntaxanalyse von Korpora für brasilianisches Portugiesisch finden Sie unter Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Weitere Informationen zum Erstellen ähnlich klingender Aussprachevarianten für angepasste Wörter in brasilianischem Portugiesisch finden Sie unter Richtlinien für Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Aktualisierte Modelle für amerikanisches Englisch und Japanisch zur Verbesserung der Spracherkennung
-
Neue Versionen der Breit- und Schmalbandmodelle für amerikanisches Englisch und Japanisch sind verfügbar:
- Amerikanisches Englisch Breitbandmodell (
en-US_BroadbandModel
) - Schmalbandmodell für 'Amerikanisches Englisch' (
en-US_NarrowbandModel
) - Breitbandmodell für Japanisch -
ja-JP_BroadbandModel
- Japanisch Schmalbandmodell (
ja-JP_NarrowbandModel
)
Die neuen Modelle bieten eine verbesserte Spracherkennung. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprach- oder Akustikmodelle verfügen, die auf diesen Modellen basieren, müssen Sie für Ihre vorhandenen angepassten Modelle Upgrades durchführen, um die Aktualisierungen zu nutzen. Verwenden Sie hierzu die folgenden Methoden:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Amerikanisches Englisch Breitbandmodell (
- Funktionen für Schlüsselworterkennung und Wortalternativen jetzt allgemein verfügbar
-
Die Funktionen für Schlüsselworterkennung und Wortalternativen sind jetzt für alle Sprachen allgemein verfügbar (GA) und nicht mehr als Betafunktionalität. Weitere Informationen finden Sie
- Fehlerkorrektur: Dokumentation für Anpassungsschnittstelle verbessern
-
Fehlerbehebung: Die folgenden bekannten Probleme, die mit der Anpassungsschnittstelle zusammenhingen, wurden behoben und werden in der Produktion behoben. Die folgenden Informationen werden weiterhin für Benutzer bereitgestellt, bei denen diese Probleme möglicherweise zuvor aufgetreten sind.
-
Wenn Sie Daten zu einem angepassten Sprachmodell oder Akustikmodell hinzufügen, müssen Sie das Modell erneut trainieren, bevor es für die Spracherkennung verwendet wird. Das Problem tritt im folgenden Szenario auf:
-
Der Benutzer erstellt ein neues angepasstes Modell (Sprach- oder Akustikmodell) und trainiert das Modell.
-
Der Benutzer fügt zusätzliche Ressourcen (Wörter, Korpora oder Audio) zu dem angepassten Modell hinzu, ohne das Modell erneut zu trainieren.
-
Der Benutzer kann das angepasste Modell nicht für die Spracherkennung verwenden. Der Service gibt bei Verwendung mit einer Spracherkennungsanforderung einen Fehler wie den folgenden zurück:
{ "code_description": "Bad Request", "code": 400, "error": "Requested custom language model is not available. Please make sure the custom model is trained." }
Um dieses Problem zu umgehen, muss der Benutzer das angepasste Modell mit den zugehörigen aktuellen Daten erneut trainieren. Anschließend kann der Benutzer das angepasste Modell mit Spracherkennung verwenden.
-
-
Bevor Sie ein vorhandenes angepasstes Sprach- oder Akustikmodell trainieren, müssen Sie für das Modell ein Upgrade auf die aktuelle Version durchführen. Das Problem tritt im folgenden Szenario auf:
- Der Benutzer verfügt über ein vorhandenes angepasstes Modell (Sprach- oder Akustikmodell), das auf einem aktualisierten Modell basiert.
- Der Benutzer trainiert das angepasste Modell anhand der Vorgängerversion des Basismodells, ohne ein Upgrade auf die aktuelle Version des Basismodells durchzuführen.
- Der Benutzer kann das angepasste Modell nicht für die Spracherkennung verwenden.
Um dieses Problem zu umgehen, muss der Benutzer mit der Methode
POST /v1/customizations/{customization_id}/upgrade_model
oderPOST /v1/acoustic_customizations/{customization_id}/upgrade_model
für das angepasste Modell ein Upgrade auf die aktuelle Version des Basismodells durchführen. Anschließend kann der Benutzer das angepasste Modell mit Spracherkennung verwenden.
-
7. September 2018
- Sitzungsbasierte Schnittstelle nicht mehr verfügbar
-
Die sitzungsbasierte HTTP-REST-Schnittstelle wird nicht mehr unterstützt. Alle Informationen, die sich auf Sitzungen beziehen, werden aus der Dokumentation entfernt. Die folgenden Methoden sind nicht mehr verfügbar:
POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}
Wenn Ihre Anwendung die Sitzungsschnittstelle verwendet, müssen Sie ein Upgrade auf eine der übrigen HTTP-REST-Schnittstellen oder auf die WebSocket-Schnittstelle durchführen. Weitere Informationen finden Sie in der Serviceaktualisierung vom 8. August 2018.
8. August 2018
- Hinweis zur Einstellung der Unterstützung für die sitzungsbasierte Spracherkennungsschnittstelle
-
Die sitzungsbasierte HTTP-REST-Schnittstelle wird ab dem 8. August 2018 nicht mehr unterstützt. Alle Methoden der Sitzungs-API werden ab dem 7. September 2018 aus dem Service entfernt. Danach können Sie die sitzungsbasierte Schnittstelle nicht mehr verwenden. Dieser Hinweis auf die sofortige Einstellung der Unterstützung und die Entfernung in 30 Tagen gilt für die folgenden Methoden:
POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}
Wenn Ihre Anwendung die Sitzungsschnittstelle verwendet, müssen Sie bis zum 7. September auf eine der folgenden Schnittstellen migrieren:
- Verwenden Sie für die datenstrombasierte Spracherkennung (einschließlich Live-Anwendungsfälle) die WebSocket-Schnittstelle. Sie bietet Zugriff auf vorläufige Ergebnisse und die niedrigste Latenz.
- Verwenden Sie für die dateibasierte Spracherkennung eine der folgenden Schnittstellen:
- Verwenden Sie für kurze Dateien mit Audiodaten für wenige Minuten entweder die synchrone HTTP-Schnittstelle
(POST /v1/recognize
) oder die asynchrone HTTP-Schnittstelle (POST /v1/recognitions
). - Verwenden Sie für längere Dateien mit Audiodaten für viele Minuten die asynchrone HTTP-Schnittstelle. Die asynchrone HTTP-Schnittstelle akzeptiert in einer einzigen Anforderung bis zu 1 GB Audiodaten.
- Verwenden Sie für kurze Dateien mit Audiodaten für wenige Minuten entweder die synchrone HTTP-Schnittstelle
Die WebSocket- und HTTP-Schnittstellen stellen die gleichen Ergebnisse wie die Sitzungsschnittstelle bereit (nur die WebSocket-Schnittstelle liefert Zwischenergebnisse). Sie können auch eines der Watson-SDKs, um die Anwendungsentwicklung mit einer der Schnittstellen zu vereinfachen. Weitere Informationen finden Sie in der API-& SDK-Referenz.
13. Juli 2018
- Aktualisiertes Schmalbandmodell für Spanisch zur Verbesserung der Spracherkennung
-
Das Schmalbandmodell für Spanisch,
es-ES_NarrowbandModel
, wurde aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Spracherkennungsanforderungen automatisch das aktualisierte Modell. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf diesem Modell basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
Ab dieser Aktualisierung sind die beiden folgenden Versionen des Schmalbandmodells für Spanisch verfügbar:
es_ES.8kHz.general.lm20180522235959.am20180522235959
(aktuelle Version)es_ES.8kHz.general.lm20180308235959.am20180308235959
(vorherige Version)
Die folgende Version des Modells ist nicht mehr verfügbar:
es_ES.8kHz.general.lm20171031235959.am20171031235959
Eine Erkennungsanforderung, die ein angepasstes Modell zu verwenden versucht, das auf dem nicht mehr verfügbaren Basismodell basiert, greift auf das aktuelle Basismodell ohne jede Anpassung zurück. Der Service gibt die folgende Warnung zurück:
Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported.
Wenn Sie die Verwendung eines angepassten Modells wiederaufnehmen möchten, das auf dem nicht verfügbaren Modell basiert, müssen Sie zuerst das Modell mit der entsprechendenupgrade_model
-Methode aktualisieren, wie zuvor beschrieben.
12. Juni 2018
- Neue Funktionen für am Standort Washington DC gehostete Anwendungen
-
Die folgenden Funktionen wurden für Anwendungen aktiviert, die in Washington DC (us-east) gehostet werden:
- Der Service unterstützt jetzt einen neuen Prozess für API-Authentifizierung. Weitere Informationen enthalten die Angaben zur Serviceaktualisierung vom 30. Oktober 2018.
- Der Service unterstützt jetzt den Header
X-Watson-Metadata
und die MethodeDELETE /v1/user_data
. Weitere Informationen finden Sie im Abschnitt Informationssicherheit.
15. Mai 2018
- Neue Funktionen für am Standort Sydney gehostete Anwendungen
-
Die folgenden Funktionen wurden für Anwendungen aktiviert, die in Sydney (au-syd) gehostet werden:
- Der Service unterstützt jetzt einen neuen Prozess für API-Authentifizierung. Weitere Informationen enthalten die Angaben zur Serviceaktualisierung vom 30. Oktober 2018.
- Der Service unterstützt jetzt den Header
X-Watson-Metadata
und die MethodeDELETE /v1/user_data
. Weitere Informationen finden Sie im Abschnitt Informationssicherheit.
26. März 2018
- Sprachmodellanpassung für das Breitbandmodell für Französisch jetzt verfügbar
-
Der Service unterstützt jetzt die Sprachmodellanpassung für das Breitbandsprachmodell für Französisch
fr-FR_BroadbandModel
. Das Modell für Französisch ist allgemein verfügbar (GA) für den Einsatz in Produktionsumgebungen mit Sprachmodellanpassung.- Informationen zur Vorgehensweise des Service bei der Syntaxanalyse von Korpora für Französisch finden Sie unter Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Weitere Informationen zum Erstellen ähnlich klingende Aussprachevarianten für angepasste Wörter in Französisch finden Sie in Richtlinien für Niederländisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Aktualisierte Modelle für Französische, Koreanisch und Spanisch zur Verbesserung der Spracherkennung
-
Die folgenden Modelle wurden aktualisiert, um die Spracherkennung zu verbessern:
- Schmalbandmodell für Koreanisch -
ko-KR_NarrowbandModel
- Schmalbandmodell für Spanisch -
es-ES_NarrowbandModel
- Breitbandmodell für Französisch (
fr-FR_BroadbandModel
)
Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem dieser Modelle basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen.
- Schmalbandmodell für Koreanisch -
- Parameter
version
inbase_model_version
umbenannt -
Der Parameter
version
für die folgenden Methoden trägt jetzt den Namenbase_model_version
:/v1/recognize
für WebSocket-AnforderungenPOST /v1/recognize
für HTTP-Anforderungen ohne SitzungPOST /v1/sessions
für sitzungsbasierte HTTP-AnforderungenPOST /v1/recognitions
für asynchrone HTTP-Anforderungen
Der Parameter
base_model_version
gibt die Version eines Basismodells an, das für die Spracherkennung verwendet werden soll. Weitere Informationen finden Sie unter Aktualisierte angepasste Modelle für die Spracherkennung verwenden und Spracherkennungsanforderungen mit aktualisierten angepassten Modellen erstellen. - Neue Unterstützung für intelligente Formatierung in der Spracherkennung für Spanisch
-
Die intelligente Formatierung wird jetzt für Spanisch und für amerikanisches Englisch unterstützt. Die Funktion für amerikanisches Englisch konvertiert jetzt auch Schlüsselwortzeichenfolgen in Interpunktionssymbole für Punkte, Kommas, Fragezeichen und Ausrufezeichen. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.
1. März 2018
- Aktualisierte Breitbandmodelle für Französisch und Spanisch zur Verbesserung der Spracherkennung
-
Die Breitbandmodelle für Französisch und Spanisch (
fr-FR_BroadbandModel
undes-ES_BroadbandModel
) wurden aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem dieser Modelle basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen. In diesem Abschnitt werden Regeln für die Durchführung von Upgrades für angepasste Modelle, die Auswirkungen der Upgrades und Konzepte für die Verwendung aktualisierter Modelle beschrieben.
1. Februar 2018
- Neue Modelle für Koreanisch
-
Der Service stellt jetzt Sprachmodelle für Koreanisch bereit:
ko-KR_BroadbandModel
für Audiodaten mit einer Mindestabtastrate von 16 kHz undko-KR_NarrowbandModel
für Audiodaten mit einer Mindestabtastrate von 8 kHz. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.Die Sprachmodelle für Koreanisch sind für die Sprachmodellanpassung in Produktionsumgebungen allgemein verfügbar (GA) und für die Akustikmodellanpassung als Betafunktion verfügbar. Weitere Informationen finden Sie im Abschnitt Sprachunterstützung bei der Anpassung.
- Weitere Informationen zur Vorgehensweise des Service beim Korpusparsing für Koreanisch finden Sie im Abschnitt Parsing für Koreanisch.
- Weitere Informationen zum Erstellen gleich klingender Aussprachevarianten für angepasste Wörter in Koreanisch finden Sie im Abschnitt Richtlinien für Koreanisch.
14. Dezember 2017
- Sprachmodellanpassung jetzt allgemein verfügbar
-
Die Sprachmodellanpassung und alle zugehörigen Parameter sind jetzt für alle unterstützten Sprachen allgemein verfügbar: Japanisch, Spanisch, britisches Englisch und amerikanisches Englisch.
- Akustikmodellanpassung als Betafunktion jetzt für alle Sprachen verfügbar
-
Der Service unterstützt jetzt die Akustikmodellanpassung als Betafunktionalität für alle verfügbaren Sprachen. Sie können angepasste Akustikmodelle für Breitband- oder Schmalbandmodelle für alle Sprachen erstellen. Eine Einführung in die Anpassung, einschließlich Akustikmodellanpassung, finden Sie unter Anpassung verstehen.
- Neuer Parameter
version
für die Spracherkennung -
Für die verschiedenen Methoden zum Erstellen von Erkennungsanforderungen ist jetzt ein neuer Parameter
version
verfügbar, mit dem Sie Anforderungen initiieren können, die frühere oder aktualisierte Versionen der Basismodelle und angepassten Modellen verwenden. Obwohl er in erster Linie für die Verwendung mit angepassten Modellen bestimmt ist, für die ein Upgrade durchgeführt wurde, kann der Parameterversion
auch ohne angepasste Modelle verwendet werden. Weitere Informationen finden Sie unter Spracherkennungsanforderung mit aktualisierten angepassten Modellen erstellen. - Aktualisierte Modelle für amerikanisches Englisch zur Verbesserung der Spracherkennung
-
Die Modelle für amerikanisches Englisch (
en-US_BroadbandModel
unden-US_NarrowbandModel
) wurden aktualisiert, um die Spracherkennung zu verbessern. Der Service verwendet standardmäßig für alle Erkennungsanforderungen automatisch die aktualisierten Modelle. Wenn Sie über angepasste Sprachmodelle verfügen oder über angepasste Akustikmodelle, die auf einem der Modelle für amerikanisches Englisch basieren, müssen Sie Ihre angepassten Modelle mit den folgenden Methoden aktualisieren, um von den Vorteilen der Aktualisierungen zu profitieren:POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Weitere Informationen zur Vorgehensweise finden Sie im Abschnitt Upgrade für angepasste Modelle durchführen. In diesem Abschnitt werden Regeln für die Durchführung von Upgrades für angepasste Modelle, die Auswirkungen der Upgrades und Konzepte für die Verwendung aktualisierter Modelle beschrieben. Derzeit sind die Methoden nur auf die neuen Basismodelle für amerikanisches Englisch anwendbar. Dieselben Informationen gelten jedoch auch für Upgrades anderer Basismodelle, sobald sie verfügbar sind.
- Sprachmodellanpassung jetzt für britisches Englisch verfügbar
-
Der Service unterstützt jetzt die Sprachmodellanpassung für die Modelle für amerikanisches Englisch (
en-GB_BroadbandModel
unden-GB_NarrowbandModel
). Obwohl der Service Korpora für britisches und amerikanisches Englisch und angepasste Wörter auf ähnliche Weise verarbeitet, sind einige wichtige Unterschiede zu beachten:- Weitere Informationen zur Vorgehensweise des Service bei der Syntaxanalyse von Korpora für britisches Englisch finden Sie unter Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch.
- Weitere Informationen zum Erstellen ähnlich klingende Aussprachevarianten für angepasste Wörter für britisches Englisch finden Sie unter Richtlinien für Englisch. In gleich klingenden Aussprachevarianten für britisches Englisch dürfen keine Punkte und Gedankenstriche verwendet werden.
2. Oktober 2017
- Neue Schnittstelle für die Akustikmodellanpassung als Betafunktion für amerikanisches Englisch, Japanisch und Spanisch
-
Die Anpassungsschnittstelle bietet jetzt die Akustikmodellanpassung. Sie können jetzt angepasste Akustikmodelle erstellen, die die Basismodelle des Service an Ihre Umgebung und die verwendeten Sprecher anpassen. Zum Bestücken und Trainieren eines angepassten Akustikmodells werden Audiodaten verwendet, die noch enger an die akustische Signatur der Audiodaten angelehnt sind, die Sie transkribieren möchten. Anschließend können Sie das angepasste Akustikmodell mit Erkennungsanforderungen verwenden, um die Genauigkeit der Spracherkennung zu optimieren.
Angepasste Akustikmodelle ergänzen angepasste Sprachmodelle. Sie können ein angepasstes Akustikmodell mit einem angepassten Sprachmodell trainieren und Sie können beide Modelltypen für die Spracherkennung verwenden. Die Schnittstelle für Akustikmodellanpassung ist als Betafunktion und nur für amerikanisches Englisch, Japanisch und Spanisch verfügbar.
- Weitere Informationen zu den von der Anpassungsschnittstelle unterstützten Sprachen und zur verfügbaren Unterstützungsstufe für die einzelnen Sprachen finden Sie im Abschnitt Sprachunterstützung für Anpassung.
- Weitere Informationen zur Anpassungsschnittstelle des Service finden Sie unter Anpassung verstehen.
- Weitere Informationen zum Erstellen eines angepassten Akustikmodells finden Sie im Abschnitt Angepasstes Akustikmodell erstellen.
- Weitere Informationen zur Verwendung eines angepassten Akustikmodells finden Sie unter Angepasstes Akustikmodell für die Spracherkennung verwenden.
- Weitere Informationen zu allen Methoden der Anpassungsschnittstelle finden Sie in der API & SDK-Referenz.
- Neuer Parameter
customization_weight
für angepasste Sprachmodelle als Betafunktion -
Für die Sprachmodellanpassung stellt der Service jetzt eine Betafunktion zur Verfügung, die optional eine Anpassungsgewichtung für ein angepasstes Sprachmodell festlegt. Die Anpassungsgewichtung gibt die relative Gewichtung für Wörter aus einem angepassten Sprachmodell im Verhältnis zu Wörtern aus dem Basisvokabular des Service an. Eine Anpassungsgewichtung können Sie sowohl beim Trainieren als auch bei der Spracherkennung festlegen. Weitere Informationen finden Sie im Abschnitt Anpassungsgewichtung verwenden.
- Aktualisiertes Breitbandmodell für Japanisch zur Verbesserung der Spracherkennung
-
Das Sprachmodell
ja-JP_BroadbandModel
wurde aktualisiert, um Verbesserungen des Basismodells zu nutzen. Die Aktualisierung wirkt sich nicht auf vorhandene angepasste Modelle aus, die auf dem Modell basieren. - Neuer Parameter
endianness
für das Audioformataudio/l16
-
Der Service enthält jetzt einen Parameter zum Angeben der Endianess von Audiodaten, die im Format
audio/l16
(lineare 16-Bit-Pulsecodemodulation (PCM)) übergeben werden. Neben den Parameternrate
undchannels
für das Format können Sie jetzt zusätzlich den Wertbig-endian
oderlittle-endian
mit dem Parameterendianness
angeben. Weitere Informationen finden Sie unter Format audio/l16.
14. Juli 2017
- Neue Unterstützung für das Audioformat MP3 (MPEG)
-
Der Service unterstützt jetzt die Transkription von Audiodaten in den Formaten MP3 oder MPEG (Motion Picture Experts Group). Weitere Informationen finden Sie unter Formate audio/mp3 und audio/mpeg.
- Sprachmodellanpassung für Spanisch jetzt als Betafunktion verfügbar
-
Die Schnittstelle für Sprachmodellanpassung unterstützt jetzt Spanisch als Betafunktionalität. Sie können ein angepasstes Modell erstellen, das auf einem der Sprachmodelle für Spanisch (
es-ES_BroadbandModel
oderes-ES_NarrowbandModel
) basiert. Weitere Informationen finden Sie im Abschnitt Angepasstes Sprachmodell erstellen. Für Erkennungsanforderungen, die angepasste Sprachmodelle für Spanisch verwenden, gilt die gleiche Preisstruktur wie bei Modellen für amerikanisches Englisch und Japanisch. - Neues Feld
dialect
für die Methode zum Erstellen eines angepassten Sprachmodells erstellt -
Das JSON-Objekt
CreateLanguageModel
, das Sie an die MethodePOST /v1/customizations
übergeben, um ein neues angepasstes Sprachmodell zu erstellen, enthält jetzt ein Felddialect
. Das Feld gibt den Dialekt der Sprache an, der für das angepasste Modell verwendet werden soll. Der Dialekt entspricht standardmäßig der Sprache des Basismodells. Der Parameter ist nur für Modelle in Spanisch von Bedeutung, für die der Service ein angepasstes Modell erstellen kann, das für Sprachdaten in einem der folgenden Dialekte geeignet ist:es-ES
für Spanisch (Kastilien), die Standardeinstellunges-LA
für Spanisch (Lateinamerika)es-US
für Spanisch (Mexiko, Nordamerika)
Die Methoden
GET /v1/customizations
undGET /v1/customizations/{customization_id}
der Anpassungsschnittstelle enthalten in der Ausgabe den Dialekt eines angepassten Modells. Weitere Informationen finden Sie in den Abschnitten Angepasstes Sprachmodell erstellen und Angepasste Sprachmodelle auflisten. - Neue Namen für die Modelle für britisches Englisch
-
Die Namen der Sprachmodelle (
en-UK_BroadbandModel
unden-UK_NarrowbandModel
) werden nicht mehr verwendet. Diese Modelle tragen jetzt die Namenen-GB_BroadbandModel
unden-GB_NarrowbandModel
.Die nicht mehr verwendeten Namen
en-UK_{model}
funktionieren weiterhin, aber die MethodeGET /v1/models
gibt die Namen nicht mehr in der Liste der verfügbaren Modelle aus. Sie können die Namen jedoch weiterhin direkt mit der MethodeGET /v1/models/{model_id}
abfragen.
1. Juli 2017
- Sprachmodellanpassung für amerikanisches Englisch und Japanisch jetzt allgemein verfügbar
-
Die Schnittstelle für Sprachmodellanpassung des Service ist jetzt allgemein verfügbar (GA) für die beiden unterstützten Sprachen amerikanisches Englisch und Japanisch. IBM stellt für Erstellung, Hosting und Verwaltung angepasster Sprachmodelle keine Gebühren in Rechnung. Wie im nächsten Listenpunkt erläutert, berechnet IBM jetzt zusätzlich $ 0,03 (USD) pro Minute für Audiodaten für Erkennungsanforderungen, die angepasste Modelle verwenden.
- Aktualisierte Preisstruktur für den Service
-
Die IBM Preisgestaltung für den Service wurde wie folgt geändert:
- Die Zusatzgebühr für die Verwendung von Schmalbandmodellen wurde gestrichen.
- Eine gestaffelte Preisgestaltung für Kunden mit hohem Verbrauch wird bereitgestellt.
- Eine Zusatzgebühr von $ 0,03 (USD) pro Minute gilt für Audiodaten für Erkennungsanforderungen, die angepasste Sprachmodelle für amerikanisches Englisch oder Japanisch verwenden.
Weitere Informationen zur geänderten Preisgestaltung finden Sie hier:
- Der Speech to Text-Service im IBM Cloud-Katalog
- Häufig gestellte Fragen (FAQs) zur Preisgestaltung
- Leerer Hauptteil für HTTP-POST-Anforderungen nicht mehr erforderlich
-
Es ist nicht mehr erforderlich, ein leeres Datenobjekt als Hauptteil für die folgenden
POST
-Anforderungen zu übergeben:POST /v1/sessions
POST /v1/register_callback
POST /v1/customizations/{customization_id}/train
POST /v1/customizations/{customization_id}/reset
POST /v1/customizations/{customization_id}/upgrade_model
Beispiel: Die Methode
POST /v1/sessions
wird jetzt mitcurl
wie folgt aufgerufen:curl -X POST -u "{username}:{password}" \ --cookie-jar cookies.txt \ "{url}/v1/sessions"
Sie müssen die folgende
curl
-Option nicht mehr mit der Anforderung übergeben:--data "{}"
. Wenn Probleme mit einer dieserPOST
-Anforderungen auftreten, versuchen Sie, ein leeres Datenobjekt mit dem Hauptteil der Anforderung zu übergeben. Durch das Übergeben eines leeren Objekts wird weder die Art noch die Bedeutung der Anforderung geändert.
22. Mai 2017
- Der Parameter
continuous
wurde aus allen Methoden entfernt -
Der Parameter
continuous
wurde aus allen Methoden entfernt, die Erkennungsanforderungen aufrufen. Der Service transkribiert jetzt einen vollständigen Audiodatenstrom bis er endet oder das Zeitlimit überschritten wird (je nachdem, was zuerst eintritt). Dieses Verhalten entspricht dem Festlegen des vorherigen Parameterscontinuous
auftrue
. Standardmäßig wurde die Transkription für den Service nach der ersten halben Sekunde Stille (Sprechpause) gestoppt, wenn der Parameter nicht angegeben oder auffalse
gesetzt war.Für vorhandene Anwendungen, in denen der Parameter auf
true
gesetzt wird, bleibt das Verhalten unverändert. Für Anwendungen, in denen der Parameter auffalse
gesetzt oder das Standardverhalten verwendet wurde, kann eine Verhaltensänderung auftreten. Wenn der Parameter in einer Anforderung angegeben wird, gibt der Service jetzt eine Warnung für den unbekannten Parameter zurück:"warnings": [ "Unknown arguments: continuous." ]
Die Anforderung wird trotz Warnung erfolgreich ausgeführt und eine vorhandene Sitzung oder WebSocket-Verbindung ist nicht davon betroffen.
Der Parameter wurde von IBM als Antwort auf die mehrheitliche Auffassung der Entwicklercommunity entfernt, dass die Angabe
continuous=false
kaum Mehrwert bietet und die Transkriptionsgenauigkeit insgesamt beeinträchtigen kann. - Senden von Audiodaten erforderlich, um Zeitlimitüberschreitung der Sitzung zu vermeiden
-
Es ist nicht mehr möglich, eine Sitzungszeitlimitüberschreitung zu vermeiden, ohne Audiodaten zu senden:
- Wenn Sie die WebSocket-Schnittstelle verwenden, kann der Client eine Verbindung nicht mehr durch das Senden einer JSON-Textnachricht aufrecht erhalten, die den Parameter
action
mit dem Wertno-op
enthält. Das Senden einer Nachrichtno-op
generiert keinen Fehler und hat keine Auswirkungen. - Wenn Sie Sitzungen in Verbindung mit der HTTP-Schnittstelle verwenden, kann der Client die Sitzung nicht mehr durch das Senden einer Anforderung
GET /v1/sessions/{session_id}/recognize
verlängern. Diese Methode gibt zwar weiterhin den Status einer aktiven Sitzung zurück, aber die Sitzungsaktivität wird nicht aufrecht erhalten.
Sie können nun wie folgt vorgehen, damit eine Sitzung aktiv bleibt:
- Setzen Sie den Parameter
inactivity_timeout
auf den Wert-1
, um das Inaktivitätszeitlimit (30 Sekunden) zu umgehen. - Senden Sie beliebige Audiodaten (die Daten können auch aus Stille (Sprechpause) bestehen) an den Service, um das Sitzungszeitlimit von 30 Sekunden zu umgehen. Die Übertragungszeit für die Daten, die Sie an den Service senden (einschließlich der Sprechpausen, um eine Sitzung aktiv zu halten), wird Ihnen in Rechnung gestellt.
Weitere Informationen finden Sie im Abschnitt Zeitlimits. Im Idealfall würden Sie unmittelbar vor dem Abrufen der Audiodaten für die Transkription eine Sitzung aufbauen und diese Sitzung aktiv halten, indem Audiodaten nahezu in Echtzeit gesendet werden. Stellen Sie außerdem sicher, dass Ihre Anwendung geschlossene Sitzungen oder Verbindungen ordnungsgemäß verarbeitet.
Diese Funktionalität wurde von IBM entfernt, um sicherzustellen, dass für alle Benutzer eine leistungsfähige Spracherkennung mit niedrigen Latenzzeiten bereitgestellt wird.
- Wenn Sie die WebSocket-Schnittstelle verwenden, kann der Client eine Verbindung nicht mehr durch das Senden einer JSON-Textnachricht aufrecht erhalten, die den Parameter
10. April 2017
- Sprecherbezeichnungen werden jetzt für amerikanisches Englisch, Spanisch und Japanisch unterstützt
-
Der Service unterstützt jetzt die Funktion der Sprecherbezeichnungen in den folgenden Breitbandmodellen:
- Amerikanisches Englisch Breitbandmodell (
en-US-BroadbandModel
) - Breitbandmodell für Spanisch -
es-ES-BroadbandModel
- Breitbandmodell für Japanisch -
ja-JP_BroadbandModel
Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.
- Amerikanisches Englisch Breitbandmodell (
- Neue Unterstützung für das Audioformat 'WebM' (Web Media)
-
Der Service unterstützt jetzt das Audioformat 'Web Media' (WebM) mit dem Opus- oder Vorbis-Codec. Außerdem unterstützt er das Audioformat 'Ogg' nun zusätzlich zum Opus-Codec mit dem Vorbis-Codec. Weitere Informationen zu unterstützten Audioformaten finden Sie unter Format audio/webm.
- Neue Unterstützung für Cross-Origin Resource Sharing
-
Der Service unterstützt jetzt Cross-Origin Resource Sharing (CORS), sodass browserbasierte Clients den Service direkt aufrufen können. Weitere Informationen finden Sie im Abschnitt CORS-Unterstützung.
- Neue Methode zum Aufheben der Registrierung einer Callback-URL in der asynchronen HTTP-Schnittstelle
-
Die asynchrone HTTP-Schnittstelle bietet jetzt eine Methode
POST /v1/unregister_callback
, die die Registrierung für eine in der Zulassungsliste aufgeführte Callback-URL entfernt. Weitere Informationen finden Sie im Abschnitt Registrierung einer Callback-URL rückgängig machen. - Defekt behoben: Beseitigung von Timeouts bei langen Audiodateien mit der Schnittstelle WebSocket
-
Fehlerkorrektur: Bei Erkennungsanforderungen für besonders umfangreiche Audiodaten treten in der WebSocket-Schnittstelle keine Zeitlimitüberschreitungen mehr auf. Es ist nicht länger erforderlich, mithilfe der JSON-Nachricht
start
Zwischenergebnisse anzufordern, um die Zeitlimitüberschreitung zu vermeiden. (Dieses Problem wurde in der Aktualisierung vom 10. März 2016beschrieben.) - Neue HTTP-Fehlercodes
-
Die folgenden Methoden für die Sprachmodellanpassung können jetzt diese neuen HTTP-Fehlercodes zurückgeben:
- Die Methode
DELETE /v1/customizations/{customization_id}
gibt jetzt den HTTP-Antwortcode 401 zurück, wenn Sie versuchen, ein nicht vorhandenes angepasstes Modell zu löschen. - Die Methode
DELETE /v1/customizations/{customization_id}/corpora/{corpus_name}
gibt jetzt den HTTP-Antwortcode 400 zurück, wenn Sie versuchen, ein nicht vorhandenes Korpus zu löschen.
- Die Methode
8. März 2017
- Asynchrone HTTP-Schnittstelle jetzt allgemein verfügbar
- Die asynchrone HTTP-Schnittstelle ist jetzt allgemein verfügbar (GA). Bis zu diesem Datum wurde sie als Betafunktionalität bereitgestellt.
1. Dezember 2016
- Neue Funktion für Sprecherbezeichnungen (Betafunktion)
-
Der Service stellt jetzt die Funktion der Sprecherbezeichnungen für Schmalbandaudiodaten für amerikanisches Englisch, Spanisch oder Japanisch als Betafunktionalität bereit. Diese Funktion gibt an, welche Wörter in einem Austausch zwischen mehreren Personen von welchen Sprechern gesprochen wurden. Die Erkennungsmethoden 'sessionless', 'session-based', 'asynchronous' und 'WebSocket' enthalten jeweils einen Parameter
speaker_labels
, der einen booleschen Wert akzeptiert. Dieser Wert gibt an, ob Sprecherbezeichnungen in die Antwort einbezogen werden sollen. Weitere Informationen zu der Funktion finden Sie im Abschnitt Sprecherbezeichnungen. - Sprachmodellanpassung für Japanisch jetzt als Betafunktion verfügbar
-
Die Betaversion der Schnittstelle für Sprachmodellanpassung wird jetzt für Japanisch und für amerikanisches Englisch unterstützt. Alle Methoden der Schnittstelle unterstützen Japanisch. Weitere Informationen finden Sie in den folgenden Abschnitten:
- Weitere Informationen finden Sie unter Angepasstes Sprachmodell erstellen und Angepasstes Sprachmodell für die Spracherkennung verwenden.
- Allgemeine Hinweise zum Hinzufügen einer Korpustextdatei und spezielle Hinweise für Japanisch finden Sie in den Abschnitten Korpustextdatei vorbereiten und Was passiert, wenn ich eine Korpusdatei hinzufüge?
- Spezielle Hinweise für Japanisch beim Angeben des Felds
sounds_like
für ein angepasstes Wort finden Sie im Abschnitt Richtlinien für Japanisch. - Weitere Informationen zu allen Methoden der Anpassungsschnittstelle finden Sie in der API & SDK-Referenz.
- Neue Methode zum Auflisten von Informationen zu einem Korpus
-
Die Schnittstelle für Sprachmodellanpassung enthält jetzt eine Methode
GET /v1/customizations/{customization_id}/corpora/{corpus_name}
zum Auflisten von Information zu einem angegebenen Korpus. Die Methode ist hilfreich zum Überwachen des Status einer Anforderung zum Hinzufügen eines Korpus zu einem angepassten Modell. Weitere Informationen finden Sie im Abschnitt Korpora für angepasstes Sprachmodell auflisten. - Neues Feld
count
für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle -
Die von den Methoden
GET /v1/customizations/{customization_id}/words
undGET /v1/customizations/{customization_id}/words/{word_name}
zurückgegebene JSON-Antwort enthält jetzt für jedes Wort ein Feldcount
. Das Feld gibt an, wie oft das Wort in allen Korpora gefunden wurde. Wenn Sie ein angepasstes Wort in einem Modell hinzufügen, bevor es von Korpora hinzugefügt wird, startet der Zähler mit dem Wert1
. Wird das Wort zuerst aus einem Korpus hinzugefügt und später geändert, berücksichtigt der Zähler nur die Anzahl der Vorkommen in Korpora-Instanzen. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten.Für angepasste Modelle, die vor der Einführung des Felds
count
erstellt wurden, zeigt das Feld stets den Wert0
an. Um das Feld für solche Modelle zu aktualisieren, fügen Sie die Korpora des Modells erneut hinzu und geben Sie den Parameterallow_overwrite
in der MethodePOST /v1/customizations/{customization_id}/corpora/{corpus_name}
an. - Neuer Parameter
sort
für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle -
Die Methode
GET /v1/customizations/{customization_id}/words
enthält jetzt einen Abfrageparametersort
, der angibt, in welcher Reihenfolge die Wörter aufgelistet werden sollen. Der Parameter akzeptiert die beiden Argumentealphabetical
odercount
, um die Sortierreihenfolge für die Wörter anzugeben. Sie können einem Argument optional das Zeichen+
oder-
voranstellen, um anzugeben, ob die Ergebnisse in aufsteigender oder absteigender Reihenfolge sortiert werden sollen. Standardmäßig werden die Wörter von der Methode in aufsteigender alphabetischer Reihenfolge angezeigt. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten.Für angepasste Modelle, die vor der Einführung des Felds
count
erstellt wurden, ist die Verwendung des Argumentscount
im Parametersort
ohne Bedeutung. Verwenden Sie für solche Modelle das Standardargumentalphabetical
. - Neues Feldformat
error
für Methoden zum Auflisten von Wörtern für angepasste Sprachmodelle -
Das Feld
error
, das als Teil der JSON-Antwort von den MethodenGET /v1/customizations/{customization_id}/words
undGET /v1/customizations/{customization_id}/words/{word_name}
zurückgegeben werden kann, ist jetzt ein Array. Wenn der Service mindestens ein Problem für die Definition eines angepassten Worts festgestellt hat, werden in dem Feld alle Problemelemente aus der Definition und eine Nachricht mit der Beschreibung des Problems aufgelistet. Weitere Informationen finden Sie in Angepasste Wörter aus einem angepassten Sprachmodell auflisten. - Die Parameter
keywords_threshold
undword_alternatives_threshold
akzeptieren keinen Nullwert mehr. -
Die Parameter
keywords_threshold
undword_alternatives_threshold
der Erkennungsmethoden akzeptieren keine Nullwerte mehr. Um Schlüsselwörter und Wortalternativen aus der Antwort auszuschließen, geben Sie die Parameter nicht an. Als Wert muss ein Gleitkommawert angegeben werden.
22. September 2016
- Neue Schnittstelle für Sprachmodellanpassung als Betafunktion
- Der Service stellt jetzt eine neue Schnittstelle für die Sprachmodellanpassung für amerikanisches Englisch als Betaversion bereit. Mit dieser Schnittstelle können Sie das Basisvokabular und die Sprachmodelle des Service anpassen, indem Sie
angepasste Sprachmodelle erstellen, die fachspezifische Terminologie enthalten. Sie können angepasste Wörter einzeln hinzufügen oder von einem Service aus Korpora extrahieren lassen. Um Ihre angepassten Modelle mit den von einer der Serviceschnittstellen
bereitgestellten Spracherkennungsmethoden zu verwenden, übergeben Sie den Abfrageparameter
customization_id
. Weitere Informationen finden Sie - Neue Unterstützung für Audioformat
audio/mulaw
- Die Liste der unterstützten Audioformate enthält jetzt das Format
audio/mulaw
, das Einkanalaudiodaten zur Verfügung stellt, die mit dem Datenalgorithmus 'u-law' (oder 'mu-law') codiert sind. Wenn Sie dieses Format verwenden, müssen Sie auch die Abtastfrequenz für die Erfassung von Audiodaten angeben. Weitere Informationen finden Sie unter Format audio/mulaw. - Neues Feld
supported_features
wird beim Auflisten von Modellen identifiziert - Die Methoden
GET /v1/models
undGET /v1/models/{model_id}
geben jetzt ein Feldsupported_features
als Teil ihrer Ausgabe für jedes Sprachmodell zurück. Diese zusätzlichen Informationen beschreiben, ob die Anpassung für dieses Modell unterstützt wird. Weitere Informationen finden Sie in der API-& SDK-Referenz.
30. Juni 2016
- Asynchrone HTTP-Schnittstelle (Betafunktion) unterstützt jetzt alle verfügbaren Sprachen
- Die Betaversion der asynchronen HTTP-Schnittstelle bietet jetzt Unterstützung für alle Sprachen, die vom Service unterstützt werden. Bisher war die Schnittstelle nur für amerikanisches Englisch verfügbar. Weitere Informationen finden Sie unter "Die asynchrone HTTP-Schnittstelle" und "API- und SDK-Referenz ".
23. Juni 2016
- Neue asynchrone HTTP-Schnittstelle jetzt als Betafunktion verfügbar
- Die asynchrone HTTP-Schnittstelle ist jetzt als Betaversion verfügbar. Die Schnittstelle bietet alle Erkennungsfunktionen für Transkription in amerikanischem Englisch über nicht blockierende HTTP-Aufrufe. Sie können Callback-URLs registrieren und benutzerspezifische geheime Zeichenfolgen angeben, um die Authentifizierung und Datenintegrität mithilfe digitaler Signaturen umzusetzen. Weitere Informationen finden Sie unter "Die asynchrone HTTP-Schnittstelle" und "API- und SDK-Referenz ".
- Neuer Parameter
smart_formatting
für die Spracherkennung (Betafunktion) - Eine Betafunktion für intelligente Formatierung ermöglicht das Konvertieren von Datumsangaben, Zeitangaben, Ziffern- und Zahlenreihen, Telefonnummern, Währungswerten und Internetadressen in herkömmliche Darstellungen für endgültige Transkripte.
Sie können diese Funktion aktivieren, indem Sie in einer Erkennungsanforderung den Parameter
smart_formatting
auftrue
setzen. Diese Funktion ist nur als Betafunktionalität für amerikanisches Englisch verfügbar. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung. - Neues Breitbandmodell für Französisch
- Die Liste der für die Spracherkennung unterstützten Modelle enthält jetzt
fr-FR_BroadbandModel
für Audiodaten in Französisch mit einer Abtastfrequenz von mindestens 16 kHz. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation. - Neue Unterstützung für Audioformat
audio/basic
- Die Liste der unterstützten Audioformate enthält jetzt
audio/basic
. Dieses Format stellt Einkanalaudiodaten mit 8 Bit in der Codierung 'u-law' (bzw. 'mu-law') und mit einer Abtastfrequenz von 8 kHz bereit. Weitere Informationen finden Sie unter Format audio/basic. - Spracherkennungsmethoden geben jetzt Warnungen für ungültige Parameter zurück
- Die verschiedenen Erkennungsmethoden können eine Antwort mit Warnungen (
warnings
) zurückgeben, die Nachrichten über ungültige Abfrageparameter enthalten oder JSON-Felder, die in einer Anforderung enthalten sind. Das Format der Warnungen wurde geändert. Beispiel:"warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']."
lautet jetzt"warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}."
. - Leerer Hauptteil erforderlich für HTTP-Methoden des Typs
POST
, die keine Daten übergeben - Für HTTP-Anforderungen
POST
, die keine anderen Daten an den Service übergeben, müssen Sie einen leeren Anforderungshauptteil mit dem Format{}
übergeben. In Verbindung mit dem Befehlcurl
wird die Option--data
verwendet, um die leeren Daten zu übergeben.
10. März 2016
- Neue Obergrenzen für die zur Spracherkennung übertragenen Audiodaten
- Bei beiden Formen der Datenübertragung (Einzelübermittlung bzw. Streaming) gilt jetzt eine Größenbegrenzung auf 100 MB für die Audiodaten (wie bei der WebSocket-Schnittstelle). Bislang galt für die Einzelübertragung ein Maximalwert von 4 MB. Weitere Informationen finden Sie in den Abschnitten Übertragung von Audiodaten (für alle Schnittstellen) und Audiodaten senden und Erkennungsergebnisse empfangen (für die WebSocket-Schnittstelle). Im Abschnitt über WebSocket wird außerdem die maximale Frame- oder Nachrichtengröße von 4 MB für die WebSocket-Schnittstelle erläutert.
- HTTP- und WebSocket-Schnittstelle können jetzt Warnungen zurückgeben
- Die JSON-Antwort für eine Erkennungsanforderung kann jetzt ein Array mit Warnungen für einzelne Abfrageparameter oder JSON-Felder aus einer Anforderung enthalten. Jedes Element des Arrays ist eine Zeichenfolge, die die Art der Warnung beschreibt,
gefolgt von einem Array mit ungültigen Argumenten. Beispiel:
"warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ]
. Weitere Informationen finden Sie in der API-& SDK-Referenz. - Betaversion des Apple iOS SDK wird nicht mehr verwendet
- Das als Betafunktion bereitgestellte Watson Speech Software Development Kit (SDK) für das Betriebssystem Apple ® iOS wird nicht mehr verwendet. Verwenden Sie stattdessen das Watson-SDK für das Betriebssystem Apple ® iOS.
Das neue SDK ist im ios-sdk Repository im
watson-developer-cloud
Namespace auf GitHub verfügbar. - WebSocket-Schnittstelle liefert Ergebnisse möglicherweise mit Verzögerung
- Es kann einige Minuten dauern, bis die WebSocket-Schnittstelle Endergebnisse für eine Erkennungsanforderung mit besonders langen Audiodaten liefert. Die zugrunde liegende TCP-Verbindung für die WebSocket-Schnittstelle bleibt inaktiv, solange
der Service die Antwort vorbereitet. Dies kann dazu führen, dass die Verbindung aufgrund einer Zeitlimitüberschreitung beendet wird. Um die Zeitlimitüberschreitung der WebSocket-Schnittstelle zu vermeiden, fordern Sie Zwischenergebnisse
(
\"interim_results\": \"true\"
) im JSON-Code für die Nachrichtstart
an, um die Anforderung zu initialisieren. Sie können die Zwischenergebnisse löschen, wenn sie nicht benötigt werden. Dieses Problem wir in einem künftigen Update behoben.
19. Januar 2016
- Neue Filterfunktion für Vulgärsprache
- Der Service wurde aktualisiert und enthält seit dem 19. Januar 2016 eine neue Filterfunktion für vulgäre Ausdrücke. Der Service zensiert standardmäßig vulgäre Ausdrücke in Transkriptionsergebnissen der Audiodaten für amerikanisches Englisch. Weitere Informationen finden Sie im Abschnitt Vulgäre Ausdrücke filtern.
17. Dezember 2015
- Neue Funktion für Schlüsselworterkennung
- Der Service bietet jetzt eine Funktion für Schlüsselworterkennung. Sie können ein Array mit Schlüsselwortzeichenfolgen angeben, die in den Eingabeaudiodaten erkannt werden sollen. Außerdem müssen Sie ein benutzerdefiniertes Konfidenzniveau angeben, das ein Wort aufweisen muss, damit es als Übereinstimmung mit einem Schlüsselwort infrage kommt. Weitere Informationen finden Sie im Abschnitt Schlüsselworterkennung. Die Funktion für Schlüsselworterkennung wird als Betafunktionalität bereitgestellt.
- Funktion für neue Wortalternativen
- Der Service bietet jetzt eine Funktion für Wortalternativen. Diese Funktion liefert alternative Hypothesen für Wörter in den Eingabeaudiodaten, die ein vom Benutzer definiertes Konfidenzniveau aufweisen. Weitere Informationen finden Sie im Abschnitt Wortalternativen. Die Funktion für Wortalternativen wird als Betafunktionalität bereitgestellt.
- Neue Modelle für britisches Englisch und für Arabisch
- Der Service unterstützt jetzt mehr Sprachen durch die bereitgestellten Transkriptionsmodelle:
en-UK_BroadbandModel
unden-UK_NarrowbandModel
für britisches Englisch undar-AR_BroadbandModel
für modernes Hocharabisch. Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation. - Neues Feld
session_closed
für sitzungsbasierte Methoden - In den JSON-Antworten, die der Service für Fehler bei sitzungsbasierten Methoden zurückgibt, ist jetzt eine neues Feld
session_closed
enthalten. Dieses Feld wird auftrue
gesetzt, wenn die Sitzung aufgrund des Fehlers geschlossen wird. Weitere Informationen über mögliche Rückgabewerte für jede Methode finden Sie in der API- und SDK-Referenz. - Kein Zeitlimit für HTTP-Plattform
- HTTP-Erkennungsanforderungen unterliegen nicht mehr einem Plattformzeitlimit von 10 Minuten. Der Dienst hält nun die Verbindung aufrecht, indem er alle 20 Sekunden ein Leerzeichen im JSON-Antwortobjekt sendet, solange die Erkennung läuft. Weitere Informationen finden Sie im Abschnitt Zeitlimits.
- Die Ratenbegrenzung mit dem Befehl curl ist nicht mehr erforderlich
- Wenn Sie den Befehl
curl
zum Transkribieren von Audiodaten mit dem Service verwenden, müssen Sie nicht mehr die Option--limit-rate
angeben, damit nicht mehr als 40.000 Datenbyte pro Sekunde übertragen werden. - Änderungen für HTTP-Fehlercodes
- Der Service gibt nicht mehr den HTTP-Statuscode 490 für die sitzungsbasierten HTTP-Methoden
GET /v1/sessions/{session_id}/observe_result
undPOST /v1/sessions/{session_id}/recognize
zurück. Stattdessen antwortet der Service jetzt mit dem HTTP-Statuscode 400.
21. September 2015
- Neue SDKs für mobile Geräte verfügbar
-
Für die Speech-Services sind zwei neue Software Development Kits (SDKs) für mobile Geräte als Betafunktionalität verfügbar. Die SDKs ermöglichen mobilen Anwendungen die Interaktion mit Speech to Text- und Text to Speech-Services.
- Das Watson Speech-SDK für die Google-Plattform Android™ unterstützt das Streaming von Audiodaten an den Speech to Text-Service in Echtzeit und das Empfangen eines Transkripts der Audiodaten während des Sprechvorgangs. Das Projekt
enthält eine Beispielanwendung zur Veranschaulichung der Interaktion mit beiden Speech-Services. Das SDK ist im Repository speech-android-sdk im Namespace
watson-developer-cloud
auf GitHub verfügbar. - Das Watson Speech-SDK für das Betriebssystem Apple ® iOS unterstützt das Streaming von Audiodaten an den Speech to Text-Service und das Empfangen eines Transkripts der Audiodaten als Antwort. Das SDK ist im Repository speech-ios-sdk im Namespace
watson-developer-cloud
auf GitHub verfügbar.
Beide SDKs unterstützen die Authentifizierung bei den Speech-Services entweder mit Ihren IBM Cloud-Serviceberechtigungsnachweisen oder mit einem Authentifizierungstoken. Da die SDKs als Betafunktionalität vorliegen, bleiben künftige Änderungen vorbehalten.
- Das Watson Speech-SDK für die Google-Plattform Android™ unterstützt das Streaming von Audiodaten an den Speech to Text-Service in Echtzeit und das Empfangen eines Transkripts der Audiodaten während des Sprechvorgangs. Das Projekt
enthält eine Beispielanwendung zur Veranschaulichung der Interaktion mit beiden Speech-Services. Das SDK ist im Repository speech-android-sdk im Namespace
- Neue Modelle für brasilianisches Portugiesisch und für Chinesisch (Mandarin)
-
Der Service unterstützt zwei neue Sprachen: Portugiesisch (Brasilien) und Chinesisch (Mandarin) mit den folgenden Modellen:
- Brasilianisches Portugiesisch, Breitbandmodell (
pt-BR_BroadbandModel
) - Schmalbandmodell für 'Brasilianisches Portugiesisch' (
pt-BR_NarrowbandModel
) - Beitbandmodell für Chinesisch (Mandarin) -
zh-CN_BroadbandModel
- Schmalbandmodell für Chinesisch (Mandarin) -
zh-CN_NarrowbandModel
Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.
- Brasilianisches Portugiesisch, Breitbandmodell (
- Neue Unterstützung für Audioformat
audio/ogg;codecs=opus
-
Die HTTP-
POST
-Anforderungen/v1/sessions/{session_id}/recognize
und/v1/recognize
sowie die WebSocket-Anforderung/v1/recognize
unterstützen die Transkription eines neuen Medientyps:audio/ogg;codecs=opus
für Dateien im Ogg-Format, die den Opus-Codec verwenden. Darüber hinaus unterstützt das Formataudio/wav
für die Methoden jetzt jede Codierung. Die Einschränkung in Bezug auf die Verwendung der linearen PCM-Codierung wurde behoben. Weitere Informationen finden Sie unter Format audio/ogg. - Neuer Parameter
sequence_id
für lange Abfragen in Sitzungen -
Der Service unterstützt jetzt die Überwindung von Zeitlimits beim Transkribieren langer Audiodateien mit der HTTP-Schnittstelle. Beim Arbeiten mit Sitzungen können Sie ein langes Abfragemuster verwenden, indem Sie mit den Methoden
GET /v1/sessions/{session_id}/observe_result
undPOST /v1/sessions/{session_id}/recognize
Folgen-IDs für Erkennungstasks mit langer Laufzeit angeben. Mit dem neuen Parametersequence_id
für diese Methoden können Sie vor, während und nach dem Übergeben einer Erkennungsanforderung Ergebnisse anfordern. - Neue Funktion für Großschreibung in Transkriptionen für amerikanisches Englisch
-
Für die Sprachmodelle für amerikanisches Englisch (
en_US_BroadbandModel
unden_US_NarrowbandModel
) verwendet der Service jetzt bei vielen Eigennamen die korrekte Großschreibung. Der Dienst würde zum Beispiel einen neuen Text zurückgeben, der lautet "Barack Obama graduierte von der Columbia University" statt "barack obama graduierte von der columbia university". Diese Änderung kann für Sie von Interesse sein, wenn Ihre Anwendung die Groß-/Kleinschreibung von Eigennamen berücksichtigen muss. - Neuer HTTP-Fehlercode
-
Die Anfrage HTTP
DELETE /v1/sessions/{session_id}
liefert nicht den Statuscode 415 "Unsupported Media Type". Dieser Rückgabecode wurde aus der Dokumentation für die Methode entfernt.
1. Juli 2015
- Speech to Text-Service jetzt allgemein verfügbar
-
Der Service wird nicht mehr als Betaversion bereitgestellt, sondern ist seit dem 1. Juli 2015 allgemein verfügbar. Zwischen der Betaversion und der allgemein verfügbaren Version der Speech to Text-APIs bestehen die folgenden Unterschiede. Für das allgemein verfügbare Release müssen die Benutzer ein Upgrade auf die neue Version des Service durchführen.
Die allgemein verfügbare Version der HTTP-API ist mit der Betaversion kompatibel. Sie müssen Ihren vorhandenen Anwendungscode nur ändern, wenn Sie einen Modellnamen explizit angegeben haben. Der Beispielcode für den Service bei GitHub enthielt beispielsweise die folgende Codezeile in der Datei
demo.js
:model: 'WatsonModel'
In dieser Zeile wurde das Standardmodell
WatsonModel
für die Betaversion des Dienstes angegeben. Wenn dieses Modell auch in Ihrer Anwendung angegeben wird, müssen Sie die Anwendung ändern, sodass eines der neuen Modelle verwendet wird, die von der allgemein verfügbaren Version unterstützt werden. Weitere Informationen finden Sie im nächsten Listenpunkt. - Neues tokenbasiertes Programmiermodell
-
Der Service unterstützt jetzt ein neues Programmiermodell für die direkte Interaktion zwischen einem Client und dem Service über eine WebSocket-Verbindung. Bei Verwendung dieses Modells kann ein Client ein Authentifizierungstoken für die direkte Kommunikation mit dem Service anfordern. Dieses Token macht es für eine serverseitige Proxy-Anwendung in IBM Cloud überflüssig, den Service im Namen des Clients aufzurufen. Tokens sind die bevorzugte Methode für die Interaktion von Clients mit dem Service.
Der Service unterstützt weiterhin das frühere Programmiermodell, bei dem ein serverseitiger Proxy Audiodaten und Nachrichten zwischen dem Client und dem Service überträgt. Das neue Modell ist jedoch effizienter und bietet einen höheren Durchsatz.
- Neuer Parameter
model
für die Spracherkennung -
Die Methoden
POST /v1/sessions
undPOST /v1/recognize
sowie die WebSocket-Methode/v1/recognize
unterstützen jetzt einen Abfrageparametermodel
. Mit diesem Parameter können Sie folgende Informationen zu den Audiodaten angeben:- Sprache: Englisch, Japanisch oder Spanisch
- Mindestabtastfrequenz: Breitband (16 kHz) oder Schmalband (8 kHz)
Weitere Informationen finden Sie unter Sprachen und Modelle der vorherigen Generation.
- Neuer Parameter
inactivity_timeout
für die Spracherkennung -
Der Parameter
inactivity_timeout
legt das Zeitlimit in Sekunden fest, nach dem der Service die Verbindung beendet, wenn im Streaming-Modus eine Sprechpause (Stille) erkannt wird. Standardmäßig wird die Sitzung vom Service nach einer Sprechpause von 30 Sekunden beendet. Die MethodenPOST /v1/recognize
und WebSocket/v1/recognize
unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Zeitlimits. - Neuer Parameter
max_alternatives
für die Spracherkennung -
Der Parameter
max_alternatives
veranlasst den Service, die n besten alternativen Hypothesen für die Audiotranskription zurückzugeben. Die MethodenPOST /v1/recognize
und WebSocket/v1/recognize
unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Maximale Anzahl Alternativen. - Neuer Parameter
word_confidence
für die Spracherkennung -
Der Parameter
word_confidence
veranlasst den Service, für jedes Wort der Transkription einen Konfidenzwert zurückzugeben. Die MethodenPOST /v1/recognize
und WebSocket/v1/recognize
unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Wortkonfidenz. - Neuer Parameter
timestamps
für die Spracherkennung -
Der Parameter
timestamps
veranlasst den Service, die Anfangs- und Endzeit in Relation zum Start der Audiodaten für jedes Wort in der Transkription zurückzugeben. Die MethodenPOST /v1/recognize
und WebSocket/v1/recognize
unterstützen den Parameter. Weitere Informationen finden Sie im Abschnitt Wortzeitmarken. - Methode 'sessions' zum Beobachten von Ergebnissen wurde umbenannt
-
Die Methode
GET /v1/sessions/{session_id}/observeResult
wurde inGET /v1/sessions/{session_id}/observe_result
umbenannt. Der vorherige NameobserveResult
wird für die Abwärtskompatibilität weiterhin unterstützt. - Neue Unterstützung für das Format Waveform Audio File (WAV)
-
Der Header
Content-Type
derrecognize
-Methoden unterstützt jetzt nebenaudio/flac
undaudio/l16
zusätzlichaudio/wav
für Dateien im Format Waveform Audio File (WAV). Weitere Informationen finden Sie unter Format audio/wav. - Obergrenzen für Audiodaten bei der Spracherkennung
-
Im Streaming-Modus gilt für den Service jetzt ein Grenzwert von 100 MB für Daten pro Sitzung. Sie können den Streaming-Modus angeben, indem Sie den Wert
chunked
mit dem HeaderTransfer-Encoding
angeben. Bei der Einzelübertragung einer Audiodatei gilt weiterhin ein Größenlimit von 4 MB für die gesendeten Daten. Weitere Informationen finden Sie im Abschnitt Übertragung von Audiodaten. - Neuer Header zum Inaktivieren von Mitarbeit in Bezug auf Serviceverbesserungen
-
Die Methoden
GET /v1/sessions/{session_id}/observe_result
,POST /v1/sessions/{session_id}/recognize
undPOST /v1/recognize
enthalten jetzt den HeaderparameterX-WDC-PL-OPT-OUT
. Dieser Parameter steuert, ob der Service die Audio- und Transkriptionsdaten aus der Anforderung verwendet, um zukünftige Ergebnisse zu verbessern. Die WebSocket-Schnittstelle enthält einen funktional entsprechenden Abfrageparameter. Geben Sie den Wert1
an, um zu verhindern, dass der Service die Audio- und Transkriptionsergebnisse verwendet. Der Parameter gilt nur für die aktuelle Anforderung. Der neue Header ersetzt den HeaderX-logging
aus der Betaversion der API. Weitere Informationen finden Sie im Abschnitt Anforderungsprotokollierung für Watson-Services steuern. - Änderungen für HTTP-Fehlercodes
-
Der Service kann jetzt die folgende HTTP-Fehlercodes zurückgeben:
- Für die Methoden
/v1/models
,/v1/models/{model_id}
,/v1/sessions
,/v1/sessions/{session_id}
,/v1/sessions/{session_id}/observe_result
,/v1/sessions/{session_id}/recognize
und/v1/recognize
wurde der Fehlercode 415 (Unsupported Media Type, nicht unterstützter Medientyp) hinzugefügt. - Bei
POST
undGET
werden bei Anfragen an die Methode/v1/sessions/{session_id}/recognize
die folgenden Fehlercodes geändert:- Für den Fehlercode 404 ("Session_id not found") wurde eine aussagekräftigere Nachricht hinzugefügt (
POST
undGET
). - Für den Fehlercode 503 ("Session is already processing a request. Concurrent requests are not allowed on the same session. Session remains alive after this error.") ist eine verständlichere Nachricht verfügbar (nur
POST
). - Für HTTP-
POST
-Anforderungen an die Methoden/v1/sessions
und/v1/recognize
kann der Fehlercode 503 ("Service Unavailable") zurückgegeben werden. Der Fehlercode kann auch zurückgegeben werden, wenn Sie eine WebSocket Verbindung mit der Methode/v1/recognize
erstellen.
- Für den Fehlercode 404 ("Session_id not found") wurde eine aussagekräftigere Nachricht hinzugefügt (
- Für die Methoden