Häufig gestellte Fragen zur Verwendung des Service

Zu den häufig gestellten Fragen für IBM Watson® Speech to Text gehören Fragen zur Spracherkennung, zur Audiodatenübertragung, zur Anpassung und zu anderen Themen. Alle FAQs für IBM Cloud®finden Sie in der FAQ-Bibliothek.

Wie kann ich auf meine Serviceberechtigungsnachweise zugreifen?

Die Vorgehenweise für den Zugriff auf Ihre Serviceberechtigungsnachweise hängt davon ab, ob Sie Speech to Text mit IBM Cloud® oder IBM Cloud Pak® for Dataverwenden. Weitere Informationen zum Abrufen Ihrer Berechtigungsnachweise für beide Versionen finden Sie unter Vorbereitende Schritte im Einführungslernprogramm.

Nachdem Sie Ihre Serviceberechtigungsnachweise erhalten haben, können Sie sich anhand der folgenden Abschnitte über die Authentifizierung beim Service informieren:

Welche Sprachen unterstützt der Service?

Der Service Speech to Text unterstützt große Sprachmodelle, Sprachen und Modelle der vorherigen und der nächsten Generation. Die meisten Sprachen unterstützen sowohl Breitband-/Multimedia- als auch Schmalband-/Telefoniemodelle mit Abtastraten von mindestens 16 kHz bzw. 8 kHz. Weitere Informationen zu den verfügbaren Modellen und den Funktionen, die sie für alle Sprachen unterstützen, finden Sie in den folgenden Abschnitten:

Welche Formate für Audioeingabedaten sind verfügbar?

Der Service unterstützt zahlreiche Audioformate (MIME-Typen). Verschiedene Formate unterstützen unterschiedliche Abtastraten und andere Merkmale. Wenn Sie ein Format verwenden, das Komprimierung unterstützt, können Sie die Menge der Audiodaten maximieren, die Sie mit einer Anforderung senden können. Weitere Informationen zu den unterstützten Audioformaten finden Sie in den folgenden Abschnitten:

Wie viele Audiodaten kann ich an den Service übergeben?

Die Menge an Audiodaten, die Sie bei einer einzelnen Spracherkennungsanforderung übergeben können, hängt von der verwendeten Schnittstelle ab:

Die WebSocket-Schnittstelle und die synchrone HTTP-Schnittstelle akzeptieren Audiodaten mit einer Größe von maximal 100 MB.
Die asynchrone HTTP-Schnittstelle akzeptiert Audiodaten mit einer maximalen Größe von 1 GB.

Weitere Informationen finden Sie in Spracherkennung mit dem Service.

Kann ich Sprache aus Videodateien transkribieren?

Sie können keine Sprache aus einer Multimedia-Datei transkribieren, die sowohl Audio- als auch Videodateien enthält. Zum Transkribieren von Sprache aus einer Videodatei müssen Sie die Audiodaten von den Videodaten trennen. Weitere Informationen finden Sie unter Sprache aus Videodateien transkribieren.

Wie kann ich die Transkriptionsgenauigkeit verbessern?

Der Speech to Text-Service bietet eine Anpassungsschnittstelle, die viele Funktionen und Optionen zur Verbesserung der Spracherkennungsfunktionalität der unterstützten Basissprachmodelle zur Verfügung stellt:

Wenn Sie Audiodaten für ein bestimmtes Fachgebiet transkribieren, können Sie angepasste Sprachmodelle erstellen und damit das Vokabular eines Basismodells so erweitern und anpassen, dass es fachspezifische Terminologie enthält. Wenn Sie angepasste Sprachmodelle verwenden, können Sie auch angepasste Grammatiken erstellen und integrieren, um die Wörter zu beschränken, die der Service aus dem Vokabular Ihres Modells erkennen kann. Die Sprachmodellanpassung wird für große Sprachmodelle, Modelle der vorherigen und der nächsten Generation unterstützt. Weitere Informationen enthalten die Abschnitte Angepasstes Sprachmodell erstellen und Grammatik zu einem angepassten Sprachmodell hinzufügen.
Wenn Sie Audiodaten mit spezifischen Eigenschaften (z. B. Sprecherakzente, Telefongespräche oder Hintergrundgeräusche) transkribieren, können Sie ein angepasstes akustisches Modell erstellen, um ein Basismodell für Ihre Umgebung und Ihre Sprecher anzupassen. Die Akustikmodellanpassung wird nur für Modelle der vorherigen Generation unterstützt. Weitere Informationen enthält der Abschnitt Angepasstes Akustikmodell erstellen.
Sie können auch angepasste Akustikmodelle und angepasste Sprachmodelle kombiniert verwenden. Falls für Ihre Audiodaten Transkriptionen oder zugehörige Korpora verfügbar sind, können Sie mithilfe dieser Daten ein ergänzendes angepasstes Sprachmodell erstellen, um die Qualität der Spracherkennung ausgehend von Ihrem angepassten Akustikmodell weiter zu verbessern. Grammatiken werden nur für Modelle der vorherigen Generation unterstützt. Weitere Informationen enthält der Abschnitt Angepasste Akustikmodelle und angepasste Sprachmodelle kombiniert verwenden.

Wie viele Wörter kann ich zu einem angepassten Sprachmodell hinzufügen?

Sie können insgesamt maximal 90.000 vokabularexterne Wörter (OOV-Wörter) aus allen Quellen zu einem angepassten Sprachmodell hinzufügen. Sie können insgesamt maximal 10.000.000 Wörter aus allen Quellen zu einem angepassten Sprachmodell hinzufügen. Die für ein effizientes angepasstes Sprachmodell erforderliche Datenmenge hängt jedoch von vielen Faktoren ab. Wie viele Wörter für ein angepasstes Modell oder eine angepasste Anwendung hinzugefügt werden sollten, lässt sich zwar nicht genau beziffern, aber die Spracherkennung kann schon durch das Hinzufügen weniger Wörter zu einem angepassten Modell verbessert werden. Weitere Informationen zu den Grenzwerten für die Wortanzahl, die Sie hinzufügen können, und zu anderen Faktoren, die sich auf das benötigte Datenvolumen auswirken, enthält der Abschnitt Wie viele Daten benötige ich?

Wie führt ein angepasstes Modell Upgrades durch?

Wenn eine neue Version für ein Basismodell der vorherigen Generation freigegeben wird, um die Qualität der Spracherkennung zu verbessern, müssen Sie alle angepassten Sprachmodelle und angepassten Akustikmodelle aktualisieren, die auf dem betreffenden Modell basieren, um von den Vorteilen der Aktualisierung zu profitieren. Wenn Sie ein Upgrade für ein angepasstes Modell durchführen, müssen Sie die zugehörigen Ressourcen nicht einzeln aktualisieren. Der Service aktualisiert die Ressourcen automatisch. Das Upgrade für angepasste Modelle gilt nur für Modelle der früheren Generation.

Weitere Informationen zum Durchführen von Upgrades für angepasste Modelle finden Sie unter Upgrade für angepasste Modelle durchführen.
Weitere Informationen zur Verwendung eines aktualisierten angepassten Modells für eine Spracherkennungsanforderung finden Sie unter Aktualisierte angepasste Modelle für die Spracherkennung verwenden.

Kann der Speech to Text-Service Zahlen als Ziffern anstelle von Zeichenfolgen transkribieren?

Für amerikanisches Englisch, brasilianisches Portugiesisch, Französisch, Deutsch und das Medizinmodell für amerikanisches Englisch können Sie die neue Version der verfügbaren Funktion für intelligente Formatierung verwenden. Weitere Informationen finden Sie unter Neue intelligente Formatierung.

Für japanische und spanische Audiodaten können Sie die intelligente Formatierung verwenden, um bestimmte Zeichenfolgen, wie z. B. Ziffern und Zahlen, in konventionelle Darstellungen zu konvertieren. Die Funktion für die intelligente Formatierung liegt als Betaversion vor. Weitere Informationen finden Sie im Abschnitt Intelligente Formatierung.