IBM Cloud Docs
Informationen zu Speech to Text

Informationen zu Speech to Text

Der IBM Watson® Speech to Text-Service stellt Sprachtranskriptionsfunktionen für Ihre Anwendungen bereit. Der Service nutzt Machine Learning, um menschliche Stimme mithilfe von Kenntnissen über Grammatik, Sprachstruktur sowie die Bildung von Audio- und Sprachsignalen präzise zu transkribieren. Der Service aktualisiert und optimiert die Transkription kontinuierlich, sobald er weitere Spracheingabe empfängt.

Mit dem Service stehen APIs zur Verfügung, die ihn für jede Anwendung geeignet machen, bei der die Eingabe aus Sprache und die Ausgabe aus einer Transkription in Text besteht. Er kann für Anwendungen wie sprachgesteuerte automatisierte Chatbots, Call-Center-Analysetools für Kundenservice und Multimediatranskription verwendet werden. Die Sprachsteuerung von integrierten Einheiten, die Transkription von Meetings und Telefonkonferenzen sowie das Diktieren von Nachrichten und Notizen sind weitere mögliche Anwendungen.

Der Service ist eine ideale Lösung für die Extraktion hochwertiger Sprachtranskriptionen aus den Audiodaten eines Call-Centers. Im Bereich der Finanzdienstleistungen, des Gesundheits- und Versicherungswesens sowie der Telekommunikation können für die Cloud native Anwendungen zum Zweck der Kundenbetreuung, der Berücksichtigung von Kundenforderungen, der Unterstützung durch Mitarbeiter und für andere Lösungen entwickelt werden.

Produktversionen

Speech to Text kann als verwalteter Cloud-Service bereitgestellt oder lokal installiert werden. In dieser Dokumentation wird die Verwendung beider Versionen des Produkts beschrieben. Informationen wie Themen, Absätze und Beispiele, die ausschließlich für eine Version gelten, sind deutlich gekennzeichnet:

Spracherkennung

Der Speech to Text-Service bietet drei Schnittstellen zur Spracherkennung: eine WebSocket-Schnittstelle, eine synchrone HTTP-Schnittstelle und eine asynchrone HTTP-Schnittstelle. Mithilfe der Schnittstellen können Sie die Audiosprache sowie das Format und die Abtastrate angeben. Darüber hinaus stehen zahlreiche Parameter zur Verfügung, die Sie verwenden können, um die Abfrage von Audiodaten und die Informationen, die der Service als Antwort darauf zurückgibt, anzupassen. Sie können auch Metriken zu der vom Service vorgenommenen Analyse der Audiodaten und zu den Audiodaten selbst anfordern.

Anpassung

Mit dem Service steht eine Anpassungsschnittstelle zur Verfügung, über die Sie die Spracherkennung den jeweiligen Sprach- und Akustikanforderungen entsprechend optimieren können. Hierbei können Sie das Vokabular eines Modells durch fachspezifische Terminologie erweitern oder ein Modell für die akustischen Merkmale Ihrer Audiodaten anpassen. Darüber hinaus können Sie Grammatiken hinzufügen, um die Ausdrücke einzugrenzen, die der Service erkennen kann. Weitere Informationen enthält der Abschnitt zum Anpassen des Service.

Sprachunterstützung

Der Service unterstützt zahlreiche Sprachen und Dialekte:

  • Arabisch (Moderne Standardsprache)
  • Chinesisch (Mandarin)
  • Tschechisch
  • Niederländisch (Belgien und Niederlande)
  • Englisch (Australien, Indien, Vereinigtes Königreich und Vereinigte Staaten)
  • Französisch (Kanada und Frankreich)
  • Deutsch
  • Hindi (Indien)
  • Italienisch
  • Japanisch
  • Koreanisch
  • Portugiesisch (Brasilien)
  • Spanisch (Kastilisch und Lateinamerika)
  • Schwedisch

Weitere Informationen zu den unterstützten Sprachen und zur Verwendung großer Sprachmodelle, Modelle der vorherigen und der nächsten Generation für die Spracherkennung finden Sie unter "Sprachen und Modelle verwenden ".

Audiounterstützung

Der Service akzeptiert Audiodaten für die Transkription in zahlreichen gängigen Formaten:

  • Ogg- oder WebM-Audio mit Opus- oder Vorbis-Codec
  • MP3 (oder MPEG)
  • Waveform Audio File Format (WAV)
  • Free Lossless Audio Codec (FLAC)
  • Lineare 16-Bit-PCM (Pulscodemodulation)
  • G.729
  • A-Law
  • Mu-law (oder U-law)
  • Basisaudiodaten

Weitere Informationen zu den unterstützten Audioformaten und den zugehörigen Merkmalen finden Sie in Audioformate verwenden.

Integrierte Anwendungsfälle

Sie können den Speech to Text-Service zusammen mit anderen Watson-Services verwenden, um Anwendungen mit noch größerem Leistungsumfang und erweiterter Funktionalität zu erstellen:

  • KI-Assistent für Telefonie: Reduzieren Sie die Wartezeiten und verbessern Sie die Kundenzufriedenheit mit der IBM® watsonx™ Assistant-Telefonintegration. Stellen Sie Live-Support für Ihre Kunden bereit, durch die vordefinierte Integration von watsonx Assistant, Speech to Text und IBM Watson® Text to Speech.
  • Kundenanrufe analysieren: Erkennen Sie Muster und führen Sie eine Ursachenanalyse für Transkripte von Telefongesprächen zwischen Ihren Kunden und Call-Center-Mitarbeitern durch. Transkribieren Sie Audiodaten mithilfe von Speech to Text und analysieren Sie anschließend die Transkription mit IBM Watson® Natural Language Understanding.
  • Agenten unterstützen: Stellen Sie Echtzeitinformationen bereit, um die Effizienz und den Fokus der Agenten zu verbessern. Verwenden Sie Speech to Text, für Live-Transkriptionen der Anrufe und extrahieren Sie anschließend mit IBM Watson® Discovery automatisch relevante Informationen, damit sich der zuständige Agent ganz auf den Kunden konzentrieren kann, anstatt durch Suchvorgänge abgelenkt zu werden.

Features als Betaversion

Von IBM werden teilweise Features und Sprachunterstützung veröffentlicht, die als Betaversion klassifiziert sind. Derartige Features werden bereitgestellt, um Ihnen die Gelegenheit zu geben, die Funktionalität zu bewerten. Sie können instabil sein und kurzfristig geändert oder entfernt werden. Ihre Verwendung in einer Produktionsumgebung ist nicht vorgesehen.

Beta-Features bieten möglicherweise nicht dieselbe Leistung oder Kompatibilität wie allgemein verfügbare Features. Allgemein verfügbare Features können in einer Produktionsumgebung verwendet werden.

Preisgestaltung

IBM Cloud

Der Service bietet mehrere Preistarife, die auf Ihre Nutzungs- und Anwendungsanforderungen abgestimmt sind: