Unterstützte Audioformate

Der IBM Watson® Speech to Text-Service kann Sprache aus Audiodaten in vielen Formaten extrahieren. In den weiteren Abschnitten finden Sie Informationen zur optimalen Nutzung des Service. Wenn Sie mit der Verarbeitung von Audiodaten noch nicht vertraut sind, finden Sie in Audioterminologie und -merkmale einführende Informationen zu Audiokonzepten.

Audioformate

Tabelle 1 vermittelt Ihnen einen Überblick über die vom Service unterstützten Audioformate.

Audioformat identifiziert jedes unterstützte Format anhand der zugehörigen Content-Type-Spezifikation.
Komprimierung gibt an, wie das Format die Komprimierung unterstützt. Bei Verwendung eines Formats, das eine Komprimierung unterstützt, können Sie die Größe Ihrer Audiodaten verringern, um die Menge der an den Service übertragbaren Daten zu erhöhen. Beachten Sie jedoch die potenziellen Auswirkungen der Komprimierung auf die Qualität der Audiodaten. Weitere Informationen enthält der Abschnitt Datengrenzwerte und Komprimierung.
In der Spalte Spezifikation des Inhaltstyps ist angegeben, ob Sie den Header Content-Type oder einen funktional entsprechenden Parameter verwenden müssen, um das Format (MIME-Typ) der an den Service gesendeten Audiodaten anzugeben. Weitere Informationen enthält der Abschnitt Audioformat angeben.

In den weiteren Spalten sind für jedes Format zusätzliche erforderliche Parameter und optionale Parameter aufgeführt. In den folgenden Abschnitten finden Sie weitere Informationen zu diesen Parametern.

Zusammenfassung der unterstützten Audioformate
Audioformat	Komprimierung	Spezifikation des Inhaltstyps	Erforderliche Parameter	Optionale Parameter
audio/alaw	Verlustbehaftet	Erforderlich	`rate={integer}`	Keine
audio/basic	Verlustbehaftet	Erforderlich	Keine	Keine
audio/flac	Verlustfrei	Optionale	Keine	Keine
audio/g729	Verlustbehaftet	Optionale	Keine	Keine
audio/l16	Keine	Erforderlich	`rate={integer}`	`channels={integer}` `endianness=big-endian` `endianness=little-endian`
audio/mp3 audio/MPEG	Verlustbehaftet	Optionale	Keine	Keine
audio/mulaw	Verlustbehaftet	Erforderlich	`rate={integer}`	Keine
audio/ogg	Verlustbehaftet	Optionale	Keine	`codecs=opus` `codecs=vorbis`
audio/wav	Ohne, verlustfrei oder verlustbehaftet	Optionale	Keine	Keine
audio/webm	Verlustbehaftet	Optionale	Keine	`codecs=opus` `codecs=vorbis`

Format 'audio/alaw'

A-Law (audio/alaw) ist ein verlustbehaftetes Einkanalaudioformat. Es verwendet einen ähnlichen Algorithmus wie den durch die Formate audio/basic und audio/mulaw angewendeten U-Law-Algorithmus. Der A-Law-Algorithmus erzeugt jedoch andere Signalmerkmale. Bei Verwendung dieses Formats macht der Service einen zusätzlichen Parameter für die Formatspezifikation erforderlich.

Parameter für Audio-/Gesetzesformat
Parameter	Beschreibung
`rate` Erforderlich	Eine ganze Zahl, mit der die Abtastrate angegeben wird, in der die Audiodaten aufgezeichnet wurden. Geben Sie beispielsweise den folgenden Parameter für Audiodaten an, die mit der Abtastrate 8 kHz erfasst werden: `audio/alaw;rate=8000`

Format 'audio/basic'

Das Basisaudioformat (audio/basic) ist ein verlustbehaftetes Einkanalaudioformat, das unter Verwendung von mit 8 kHz abgetasteten 8-Bit-U-Law-Daten (oder Mu-Law-Daten) codiert wird. Dieses Format ist der kleinste gemeinsame Nenner für die Angabe des Medientyps von Audiodaten. Der Service unterstützt die Verwendung von Dateien im Format audio/basic nur bei Schmalbandmodellen.

Weitere Informationen finden Sie in der Internet Engineering Task Force (IETF) Request for Comment(RFC)2046 und unter iana.org/assignments/media-types/audio/basic.

Format 'audio/flac'

Free Lossless Audio Codec, kurz 'FLAC' (audio/flac), ist ein verlustfreies Audioformat.

Format 'audio/g729'

G.729 (audio/g729) ist ein verlustbehaftetes Format, das bei 8 kHz codierte Daten unterstützt. Der Service unterstützt G.729 nur mit Annex D und nicht mit Annex J. Die Verwendung von Dateien im Format audio/g729 wird durch den Service nur bei Schmalbandmodellen unterstützt.

Format 'audio/l16'

Die lineare 16-Bit-Pulscodemodulation (PCM) ist ein nicht komprimiertes Audioformat (audio/l16). Verwenden Sie dieses Format, um eine unbearbeitete PCM-Datei zu übergeben. Lineare PCM-Audiodaten können auch innerhalb einer WAV-Datei als Container übergeben werden. Bei Verwendung des Formats audio/l16 akzeptiert der Service zusätzliche erforderliche und optionale Parameter in der Formatspezifikation.

Parameter Beschreibung

Parameter	Beschreibung
`rate` Erforderlich	Eine ganze Zahl, mit der die Abtastrate angegeben wird, in der die Audiodaten aufgezeichnet wurden. Geben Sie beispielsweise den folgenden Parameter für Audiodaten an, die mit der Abtastrate 16 kHz erfasst werden: `audio/l16;rate=16000`
`channels` Optional	Standardmäßig behandelt der Service Audiodaten so, als ob sie über einen

rate
Erforderlich

Eine ganze Zahl, mit der die Abtastrate angegeben wird, in der die Audiodaten aufgezeichnet wurden. Geben Sie beispielsweise den folgenden Parameter für Audiodaten an, die mit der Abtastrate 16 kHz erfasst werden:

audio/l16;rate=16000

channels
Optional Standardmäßig behandelt der Service Audiodaten so, als ob sie über einen

  einzigen Kanal verfügen. *Falls die Audiodaten mehrere Kanäle
  enthalten,* müssen Sie die Anzahl der Kanäle mit einer ganzen Zahl
  angeben. Geben Sie beispielsweise den folgenden Parameter für zweikanalige Audiodaten an, die mit der Abtastrate 16 kHz erfasst werden:  \n   \n `audio/l16;rate=16000;channels=2`  \n   \n Der Service akzeptiert maximal 16 Kanäle. Während der Transcodierung
  wird die Anzahl der Kanäle auf 1 heruntergesetzt. |

| endianness \n Optional | Die Endianess von eingehenden Audiodaten wird durch den Service standardmäßig automatisch erkannt. Die automatische Erkennung kann jedoch manchmal fehlschlagen und die Verbindung für kurze Audiodaten im Format audio/l16 trennen. Durch die Angabe der Endianess wird die automatische Erkennung inaktiviert. Geben Sie entweder big-endian oder little-endian an. Geben Sie beispielsweise den folgenden Parameter für Audiodaten an, die mit der Abtastrate 16 kHz im Format 'little-endian' erfasst werden: \n \n audio/l16;rate=16000;endianness=little-endian \n \n Im Abschnitt 5.1 in Request for Comment (RFC) 2045 wird das Format 'big-endian' für audio/l16-Daten angegeben, viele Benutzer verwenden jedoch das Format 'little-endian'. |

Weitere Informationen finden Sie im IETF Request for Comment(RFC)2586.

Formate 'audio/mp3' und 'audio/mpeg'

MP3 (audio/mp3) oder Motion Picture Experts Group (MPEG) (audio/mpeg) ist ein verlustbehaftetes Audioformat. MP3 und MPEG beziehen sich auf dasselbe Format.).

Format 'audio/mulaw'

Mu-Law (audio/mulaw) ist ein verlustbehaftetes Einkanalaudioformat. Die Daten werden unter Verwendung des U-Law-Algorithmus (oder Mu-Law-Algorithmus) codiert. Das Format audio/basic ist ein funktional entsprechendes Format, das immer mit 8 kHz abgetastet wird. Bei Verwendung dieses Formats macht der Service einen zusätzlichen Parameter für die Formatspezifikation erforderlich.

Parameter für Audio-/Mulaw-Format
Parameter	Beschreibung
`rate` Erforderlich	Eine ganze Zahl, mit der die Abtastrate angegeben wird, in der die Audiodaten aufgezeichnet wurden. Geben Sie beispielsweise den folgenden Parameter für Audiodaten an, die mit der Abtastrate 8 kHz erfasst werden: `audio/mulaw;rate=8000`

Format 'audio/ogg'

Ogg (audio/ogg) ist ein offenes Containerformat, das von der Xiph.org Foundation xiph.org/ogg) gepflegt wird. Sie können komprimierte Audiodatenströme zusammen mit den folgenden verlustbehafteten Codecs verwenden:

Opus (audio/ogg;codecs=opus). Weitere Informationen finden Sie unter opus-codec.org.
Vorbis (audio/ogg;codecs=vorbis). Weitere Informationen finden Sie unter xiph.org/vorbis.

OGG Opus ist der bevorzugte Codec. Es ist der logische Nachfolger von OGG Vorbis wegen seiner geringen Latenzzeit, hohen Audioqualität und reduzierten Größe. Er wurde von der Internet Engineering Task Force (IETF) als Request for Comment(RFC)6716 standardisiert.

Wenn Sie den Codec nicht im Inhaltstyp angeben, erkennt der Service den Codec automatisch in den Audioeingabedaten.

Format 'audio/wav'

Waveform Audio File Format (WAV) (audio/wav) ist ein häufig für nicht komprimierte Audiodatenströme verwendetes Containerformat, das jedoch auch komprimierte Audiodaten enthalten kann. Der Service unterstützt WAV-Audiodaten mit einer beliebigen Codierung und (aufgrund einer Einschränkung bei FFmpeg) maximal neun Kanälen.

Zusätzliche Angaben über die Reduzierung der Größe von WAV-Audiodaten durch ihre Konvertierung in den Opus-Codec enthält der Abschnitt Mit Opus-Codec in 'audio/ogg' konvertieren.

Format 'audio/webm'

Web Media (WebM) (audio/webm) ist ein offenes Containerformat, das vom WebMwebmproject.org) gepflegt wird. Sie können komprimierte Audiodatenströme zusammen mit den folgenden verlustbehafteten Codecs verwenden:

Opus (audio/webm;codecs=opus). Weitere Informationen finden Sie unter opus-codec.org.
Vorbis (audio/webm;codecs=vorbis). Weitere Informationen finden Sie unter xiph.org/vorbis.

Falls Sie den Codec nicht angeben, erkennt der Service ihn automatisch anhand der Eingabeaudiodaten.

JavaScript, der zeigt, wie man Audio von einem Mikrofon in einem Chrome-Browser erfasst und in einen WebM kodiert, finden Sie unter jsbin.com/hedujihuqo/edit?js,console. Der Code übergibt nicht die aufgezeichneten Audiodaten an den Service.

Audioformat angeben

Sie verwenden den Anforderungsheader Content-Type oder einen entsprechenden Parameter, um das Format (MIME-Typ) der Audiodaten anzugeben, die Sie an den Service senden. Sie können zwar das Audioformat für jede Anforderung angeben, aber dies ist nicht immer nötig:

Bei den meisten Formaten ist der Inhaltstyp optional. Sie können den Inhaltstyp weglassen oder application/octet-stream angeben, damit der Service das Format automatisch erkennt.
Für andere Formate ist der Inhaltstyp erforderlich. Diese Formate stellen die Informationen, die der Service zur automatischen Erkennung Ihres Formats benötigt (z. B. die Abtastrate), nicht zur Verfügung. Für die Formate audio/alaw, audio/basic, audio/l16 und audio/mulaw müssen Sie einen Inhaltsyp angeben.

Weitere Informationen zu den Formaten, für die ein Inhaltstyp angegeben werden muss, finden Sie in Tabelle 1 unter Audioformate. Die Spalte Spezifikation des Inhaltstyps der Tabelle gibt an, ob Sie den Inhaltstyp angeben müssen.

Beispiele zum Angeben eines Inhaltstyps für die einzelnen Schnittstellen des Service finden Sie in Anforderung für Spracherkennung erstellen. In allen Beispielen in diesem Abschnitt wird ein Inhaltstyp angegeben.

Wenn Sie mit dem Befehl curl eine Spracherkennungsanforderung über die HTTP-Schnittstellen absetzen möchten, müssen Sie entweder das Audioformat im Header Content-Type oder "Content-Type: application/octet-stream" oder nur "Content-Type:" angeben. Falls Sie den Header komplett weglassen, verwendet curl den Standardwert application/x-www-form-urlencoded.

Datengrenzwerte und Komprimierung

Der Service akzeptiert maximal 100 MB Audiodaten für die Transkription für eine synchrone HTTP- oder WebSocket-Anforderung und 1 GB Audiodaten für eine asynchronen HTTP-Anforderung. Wenn Sie mit langen kontinuierlichen Audiodatenströme oder umfangreichen Audiodateien arbeiten, sind die folgenden Datengrenzwerte zu berücksichtigen.

Eine Methode zum Maximieren der Audiodatenmenge, die in einer Spracherkennungsanforderung übergeben werden können, ist die Verwendung eines Formats, das Komprimierung unterstützt. Es gibt zwei grundlegende Komprimierungstypen: verlustbehaftete und verlustfreie Komprimierung. Das Audioformat und der Komprimierungsalgorithmus, die Sie auswählen, können sich unmittelbar auf die Genauigkeit der Spracherkennung auswirken.

Audioformate mit verlustbehafteter Komprimierung, reduzieren das Datenvolumen Ihres Audiodatenstroms erheblich. Die starke Komprimierung der Audiodaten kann jedoch zu einer geringeren Genauigkeit der Transkription führen. Der Unterschied für die Ohren zwar kaum wahrnehmbar ist, aber der Service reagiert viel sensibler auf diesen Datenverlust.

Vergleich der ungefähren Größen von Audiodaten

Ein Datenstrom, der aus einer Übertragung von zweistündiger zusammenhängender Sprache mit einer Abtastrate von 16 kHz und 16 Bit pro Abtastung resultiert, hat ungefähr die folgende Größe:

Falls die Daten mit dem Format audio/wav codiert sind, hat der zweistündige Datenstrom eine Größe von 230 MB und liegt somit deutlich über dem Grenzwert von 100 MB.
Falls die Daten im Format audio/ogg codiert sind, beträgt die Größe des zweistündigen Datenstroms lediglich 23 MB und liegt damit deutlich unter dem Grenzwert des Service.

In der folgenden Tabelle ist die ungefähre maximale Dauer von Audiodaten aufgeführt, die mit einer synchronen HTTP-Anforderung oder einer WebSocket-Anforderung für die Spracherkennung in unterschiedlichen Formaten gesendet werden können. Die Dauer berücksichtigt den Grenzwert des Service von 100 MB. Die tatsächlichen Werte können je nach Komplexität der Audiodaten und der erzielten Komprimierungsrate variieren.

Maximale Dauer von Audio in verschiedenen Formaten
Audioformat	Maximale Dauer der Audiodaten (ungefähr)
`audio/wav`	55 Minuten
`audio/flac`	1 Stunde und 40 Minuten
`audio/mp3`	3 Stunden und 20 Minuten
`audio/ogg`	8 Stunden und 40 Minuten

Beim Vergleichen der verschiedenen Audioformate zu Testzwecken wurde von IBM® festgestellt, dass die Formate WAV und FLAC die beste Wortfehlerrate (Word Error Rate, WER) lieferten. Diese Formate können als Referenzwert für die Transkriptionsgenauigkeit dienen, da die Audiodaten ohne Datenverlust intakt bleiben. Das Ogg-Format mit Opus-Codec zeigte geringe Verluste von 2 % bei der WER im Vergleich zum Referenzwert. Das Format MP3 lieferte die schlechtesten Ergebnisse mit Verlusten von 10 % bei der WER gegenüber dem Referenzwert.

Die Formate audio/ogg;codecs=opus und audio/webm;codecs=opus sind im Allgemeinen funktional entsprechend und ihre Größenwerte sind fast identisch. Sie verwenden intern denselben Codec; nur das Containerformat ist unterschiedlich.

Transkriptionsgenauigkeit maximieren

Berücksichtigen Sie beim Auswählen des Audioformats und des Komprimierungsalgorithmus die folgenden Empfehlungen zum Maximieren der Transkriptionsgenauigkeit:

Verwenden Sie ein unkomprimiertes und verlustfreies Audioformat. Wenn die Dauer Ihrer Audiodaten weniger als 55 Minuten (unter 100 MB) beträgt, ziehen Sie die Verwendung des Formats audio/wav in Betracht. Das Format WAV kann zwar nur 55 Minuten an Audiodaten aufnehmen, dies reicht jedoch für die meisten Transkriptionsanwendungen aus (z. B. Anrufe beim Kundensupport). Außerdem kann aus unkomprimierten WAV-Audiodaten eine genauere Transkription erstellt werden.
Verwenden Sie die asynchrone HTTP-Schnittstelle. Wenn Sie das Format WAV verwenden möchten, obwohl die Audiodaten den Grenzwert von 100 MB überschreiten, können Sie mithilfe der asynchronen Schnittstelle bis zu 1 GB Daten senden.
Verwenden Sie ein komprimiertes und verlustfreies Audioformat. Wenn Ihre Audiodatei komprimiert werden muss, verwenden Sie das Format audio/flac, das eine verlustfreie Komprimierung ermöglicht. Die verlustfreie Komprimierung reduziert das Volumen der Audiodaten, ohne die Datenqualität zu beeinträchtigen. Das Format FLAC ist ein aussichtsreicher Kandidat für die Maximierung der Transkriptionsgenauigkeit.
Verwenden Sie die verlustbehaftete Komprimierung als letzte Option. Wenn eine noch stärkere Komprimierung erforderlich ist, verwenden Sie das Format audio/ogg mit dem Opus-Codec. Obwohl das Format Ogg mit verlustbehafteter Komprimierung arbeitet, zeigte die Kombination des Formats Ogg mit dem Opus-Codec die geringste Verschlechterung der Sprachgenauigkeit unter den verlustbehafteten Komprimierungsalgorithmen.

Durch die Verwendung anderer Formate mit höheren Komprimierungsstufen kann die Genauigkeit der Transkription beeinträchtigt werden. Ermitteln Sie durch Experimentieren mit dem Service, welches Format für Ihre Audiodaten und Ihre Anwendung am besten geeignet ist. Weitere Möglichkeiten zur Verbesserung der Spracherkennung finden Sie unter Tipps zur Verbesserung der Spracherkennung.

Konvertierung von Audiodaten

Es gibt verschiedene Tools, mit denen Sie Ihre Audiodaten in ein anderes Format konvertieren können. Die Tools können von Nutzen sein, wenn Ihre Audiodaten in einem vom Service nicht unterstützten Format, einem nicht komprimierten Format oder einem verlustfreien Format vorliegen. Im letzteren Fall können Sie die Audiodaten in ein verlustbehaftetes Format konvertieren, um ihre Größe zu verringern.

Zum Konvertieren Ihrer Audiodaten aus einem Format in ein anderes Format sind die folgenden Freeware-Tools verfügbar:

Sound eXchangeSoX)sox.sourceforge.net).
FFmpeg ffmpeg.org). Sie können auch FFmpeg verwenden, um Audiodaten aus einer Multimedia-Datei zu trennen, die sowohl Audio- als auch Videodaten enthält. Weitere Informationen finden Sie unter Transkriptionen von Sprache aus Videodateien.
Audacity® audacityteam.org).
Für das Ogg-Format mit dem Opus-Codec, opus-tools.

Diese Tools bieten eine plattformübergreifende Unterstützung für viele Audioformate. Darüber hinaus können Sie mit vielen dieser Tools Ihre Audiodaten wiedergeben. Achten Sie bei der Nutzung der Tools darauf, keine geltenden Urheberrechtsgesetze zu verletzen.

In Format 'audio/ogg' mit Opus-Codec konvertieren

Die opus-tools enthalten drei Kommandozeilenprogramme für die Arbeit mit Ogg-Audio im Opus-Codec:

Das Dienstprogramm opusenc kodiert Audio aus WAV, FLAC und anderen Formaten in Ogg mit dem Opus-Codec. Auf der Seite wird gezeigt, wie Audiodatenströme komprimiert werden. Die Komprimierung ist zur Übergabe von echtzeitorientierten Audiodaten an den Service von Nutzen.
Das Dienstprogramm opusdec dekodiert Audio vom Opus-Codec in unkomprimierte PCM-WAV-Dateien.
Das Dienstprogramm opusinfo liefert Informationen über Opus-Dateien und prüft deren Gültigkeit.

Viele Benutzer senden für die Spracherkennung WAV-Dateien. Angesichts des 100 MB betragenden Datengrenzwerts des Service für WebSocket- und synchrone HTTP-Anforderungen verringert das WAV-Format die Menge der Audiodaten, die mit einer einzigen Anforderung erkannt werden können. Die Konvertierung der Audiodaten mit dem Befehl opusenc in das bevorzugte Format audio/ogg:codecs=opus kann die Menge der mit einer Erkennungsanforderung sendbaren Audiodaten beträchtlich erhöhen.

Beispiel: Eine nicht komprimierte WAV-Breitbanddatei (16 kHz) namens input.wav verwendet 16 Bit pro Abtastung für eine Bitübertragungsrate von 256 Kb/s. Der folgende Befehl konvertiert die Audiodaten in eine Datei namens output.opus, die den Opus-Code verwendet:

opusenc input.wav output.opus

Die Konvertierung komprimiert die Audiodaten um den Faktor 4 und erzeugt eine Ausgabedatei mit einer Bitübertragungsrate von 64 Kb/s. Gemäß den empfohlenen Einstellungen von Opus können Sie die Bitrate jedoch auf 24 kbit/s reduzieren und trotzdem ein volles Band für Sprachton beibehalten. Diese Verringerung komprimiert die Audiodaten um den Faktor 10. Der folgende Befehl verwendet die Option --bitrate, um eine Ausgabedatei mit einer Bitübertragungsrate von 24 Kb/s zu erzeugen:

opusenc --bitrate 24 input.wav output.opus

Die Komprimierung mit dem Dienstprogramm opusenc wird zügig ausgeführt. Die Komprimierung findet mit einer Geschwindigkeit statt, die ungefähr 100 Mal schneller als Echtzeit ist. Nach dem Abschluss der Komprimierung schreibt der Befehl Ausgabe in die Konsole, die vollständige Details über die Ausführungsdauer und die resultierenden Audiodaten enthält.

Transkriptionen von Sprache aus Videodateien

Sie können keine Sprache aus einer Multimedia-Datei transkribieren, die sowohl Audio- als auch Videodateien enthält. Der Service akzeptiert für eine Spracherkennung nur Audiodaten.

Um Sprache aus einer Multimedia-Datei zu transkribieren, die Audio und Video enthält, müssen Sie die Audiodaten von den Videodaten trennen. Sie können das FFmpeg-Dienstprogramm verwenden, um die Audiodaten von der Videoquelle zu trennen. Weitere Informationen finden Sie unter ffmpeg.org.

Tipps für die Verbesserung der Spracherkennung

Die folgenden Tipps können Ihnen dabei helfen, die Qualität der Spracherkennung zu verbessern:

Die Art der Aufzeichnung von Audiodaten kann einen großen Unterschied bei den Ergebnissen des Service ausmachen. Die Spracherkennung kann sehr sensibel auf die Tonqualität der Eingabe reagieren. Stellen Sie zur Erzielung der größtmöglichen Genauigkeit sicher, dass die Tonqualität der Eingabe so gut wie möglich ist.
- Verwenden Sie nach Möglichkeit ein nahes und sprachorientiertes Mikrofon (z. B. ein Headset) und passen Sie Mikrofoneinstellungen bei Bedarf an. Die Leistung des Service ist am besten, wenn Audiodaten mithilfe von Profi-Mikrofonen aufgezeichnet werden.
- Vermeiden Sie die Verwendung des integrierten Mikrofons eines Systems. Die normalerweise in Mobilgeräten und Tablets installierten Mikrofone sind häufig unzulänglich.
- Achten Sie darauf, dass sich die Sprecher nahe am Mikrofon befinden. Die Genauigkeit nimmt ab, je mehr sich ein Sprecher von einem Mikrofon entfernt. Beispielsweise hat der Service bei einer Entfernung von 3 Metern Schwierigkeiten, angemessene Ergebnisse zu erzeugen.
Verwenden Sie eine Abtastrate von maximal 16 kHz (bei Breitbandmodellen) bzw. 8 kHz (bei Schmalbandmodellen) und verwenden Sie 16 Bit pro Abtastung. Der Service konvertiert Audiodaten, die mit einer höheren Abtastrate als der des Zielmodells (16 kHz bzw. 8 kHz) aufgezeichnet wurden, in die Frequenz des Modells. Höhere Frequenzen führen somit nicht zu einer verbesserten Genauigkeit der Erkennung, erhöhen jedoch die Größe des Audiodatenstroms.
Codieren Sie Ihre Audiodaten in einem Format, das Datenkomprimierung bietet. Wenn Sie Ihre Daten effizienter codieren, können Sie weitaus mehr Audiodaten senden, ohne den Grenzwert von 100 MB zu überschreiten. Da der Frequenzbereich der menschlichen Stimme enger begrenzt ist als z. B. in der Musik, können Sprechdaten mit einer niedrigeren Bitrate auskommen als andere Audiodatentypen. Dennoch empfiehlt IBM®, das Audioformat und den Komprimierungsalgorithmus mit besonderer Sorgfalt auszuwählen. Weitere Informationen finden Sie unter Transkriptionsgenauigkeit maximieren.
Die Spracherkennung reagiert empfindlich auf Hintergrundgeräusche und Nuancen der menschlichen Sprache.
- Motorgeräusche, Arbeitsgeräte, Straßenlärm und Hintergrundgespräche können die Erkennungsgenauigkeit erheblich verringern.
- Regionale Akzente und Unterschiede bei der Aussprache können die Genauigkeit ebenfalls reduzieren.
Falls Ihre Audiodaten diese Merkmale aufweisen, kann die Verwendung eines angepassten Akustikmodells sinnvoll sein, um die Genauigkeit der Spracherkennung zu verbessern. Weitere Informationen enthält der Abschnitt Wissenswertes über die Anpassung.
Wenn Sie tiefere Einblicke in die Merkmale Ihrer Audiodaten gewinnen möchten, ziehen Sie die Verwendung von Audiometriken für Ihre Spracherkennungsanforderung in Betracht. Wenn Sie mit der Verarbeitung von Audiosignalen vertraut sind, können die Metriken aussagefähige und detaillierte Einblicke in die Merkmale Ihrer Audiodaten bieten. Weitere Informationen finden Sie unter Audiometriken.