Audioterminologie und -merkmale

Die folgende Terminologie wird verwendet, um die Merkmale von Audiodaten und ihrer Verarbeitung zu beschreiben. Diese Informationen sind hilfreich für die Verwendung Ihrer Audiodaten mit dem Service IBM Watson® Speech to Text.

Falls Sie mit dem Beschreiben und Angeben von Audiodaten nicht vertraut sind, lesen Sie als Einführung zunächst diesen Abschnitt.
Wenn Sie bereits mit Audiodaten gearbeitet haben, beginnen Sie mit Unterstützte Audioformate.

Abtastrate

Die Abtastrate (oder Abtastrate) gibt die Anzahl der pro Sekunde durchgeführten Abtastungen an. Die Abtastrate wird in Hertz (Hz) oder Kilohertz (kHz) gemessen. Beispielsweise entspricht eine Rate von 16.000 Abtastungen pro Sekunde der Frequenz 16.000 Hz (bzw. 16 kHz). Beim Speech to Text-Service geben Sie die Abtastfrequenz Ihrer Audiodaten mithilfe eines Modells an:

Breitband- und Multimediamodelle werden für Audiodaten mit einer Abtastrate von mindestens 16 kHz verwendet. IBM® empfiehlt dies für reaktionsfähige Echtzeitanwendungen (z. B. Anwendungen für Live-Sprachverarbeitung).
Schmalband- und Telefoniemodelle werden für Audiodaten mit einer Abtastrate von mindestens 8 kHz verwendet. Diese Abtastrate wird in der Regel für telefonische Audiodaten verwendet.

Der Service unterstützt beide Abtastraten für die meisten Sprachen und Formate. Die Abtastrate Ihrer Audiodaten wird vom Service automatisch an das von Ihnen angegebene Modell angepasst, bevor der Service die Spracherkennung durchführt.

Bei Breitband- und Multimediamodellen führt der Service für Audiodaten, die mit höheren Abtastraten aufgezeichnet wurden, eine Umwandlung in 16 kHz durch.
Bei Schmalband- und Telefoniemodellen führt der Service für Audiodaten, die mit höheren Abtastraten aufgezeichnet wurden, eine Umwandlung in 8 kHz durch.

Sie können zum Beispiel in jedem Modell Audiodaten mit 44 kHz senden. Dies würde jedoch das Volumen der Audiodaten unnötig vergrößern. Um so viele Audiodaten wie möglich senden zu können, sollten Sie die Abtastrate Ihrer Audiodaten an das verwendete Modell angleichen.

Der Service akzeptiert keine Audiodaten mit einer Abtastrate, die kleiner als die Abtastrate des Modells ist. Beispiel: In einem Breitband- oder Multimediamodell können Sie keine Audiodaten verarbeiten, die mit einer Abtastrate von 8 kHz aufgezeichnet werden.

Hinweise zu Audioformaten

Bei den Formaten audio/alaw, audio/l16 und audio/mulaw müssen Sie die Frequenz Ihrer Audiodaten angeben.
Bei den Formaten audio/basic und audio/g729 unterstützt der Service ausschließlich Schmalbandaudiodaten.

Weitere Informationen

Weitere Informationen zu den Modellen, die der Service für jede unterstützte Sprache anbietet, finden Sie unter Large speech languages and models, Previous-generation languages and models und Next-generation languages and models.

Bitrate

Die Bitübertragungsrate gibt die Anzahl der pro Sekunde gesendeten Datenbit an. Die Bitübertragungsrate für einen Audiodatenstrom wird in Kilobit pro Sekunde (Kb/s) gemessen. Die Bitübertragungsrate wird aus der Abtastrate und der Anzahl der pro Abtastung gespeicherten Bit berechnet. Für die Spracherkennung empfiehlt IBM® die Aufzeichnung von 16 Bit pro Abtastung für die Audiodaten.

Beispiel: Audiodaten, die eine Breitbandabtastrate von 16 kHz und 16 Bit pro Abtastung verwenden, besitzen eine Bitübertragungsrate von 256 Kb/s: (16,000 * 16) / 1000.

Weitere Informationen

Eine allgemeine Diskussion über Abtastraten und Bitraten finden Sie unter Was sind Bitraten? und Auswahl von Bitraten für Podcasts.

Komprimierung

Komprimierung wird von vielen Audioformaten verwendet, um die Größe der Audiodaten zu reduzieren. Durch die Komprimierung wird die Anzahl der pro Abtastung gespeicherten Bit und somit die Bitübertragungsrate verringert. Manche Formate verwenden keine Komprimierung, doch die meisten Formate stellen einen der beiden folgenden Basistypen bereit:

Die verlustfreie Komprimierung reduziert die Größe der Audiodaten ohne Qualitätsverlust, allerdings mit einem normalerweise geringen Komprimierungsverhältnis.
Die verlustbehaftete Komprimierung verringert die Größe der Audiodaten um das bis zu Zehnfache, hierbei gehen jedoch einige Daten und ein bestimmter Anteil der Qualität unwiederbringlich verloren.

Sie können die Komprimierung verwenden, um mit Ihrer Spracherkennungsanforderung mehr Audiodaten zu übermitteln. Der verwendete Komprimierungstyp hat jedoch Auswirkungen auf die Qualität der Transkription.

Hinweise zu Audioformaten

Die Formate audio/ogg und audio/webm sind Container, deren Komprimierung sich nach dem Codec richtet, mit dem die Daten codiert werden (Opus oder Vorbis).
Das Format audio/wav ist ein Container, der nicht komprimierte, verlustfreie oder verlustbehaftete Daten enthalten kann.

Weitere Informationen

Weitere Informationen zur verfügbaren Komprimierung für die vom Service unterstützten Audioformate finden Sie unter Audioformate.
Zusätzliche Angaben darüber, wie Sie die Menge der mit einer Anforderung gesendeten Daten durch den Einsatz der Datenkomprimierung erhöhen können, enthält der Abschnitt Datengrenzwerte und Komprimierung.

Kanäle

Kanäle geben die Anzahl der Datenströme in der Tonaufzeichnung an.

Audiodaten des Typs Monaural (kurz 'Mono') besitzen nur einen einzigen Kanal.
Audiodaten des Typs Stereophonisch (kurz 'Stereo') besitzen in der Regel zwei Kanäle.

Der Speech to Text-Service akzeptiert Audiodaten mit maximal 16 Kanälen. Da für die Spracherkennung nur ein einziger Kanal genutzt wird, setzt der Service während der Transcodierung Audiodaten mit mehreren Kanälen auf Einkanalmono herunter.

Hinweise zu Audioformaten

Beim Format audio/l16 müssen Sie die Anzahl der Kanäle angeben, falls die Audiodaten mehr als einen Kanal enthalten.
Beim Format audio/wav akzeptiert der Service Audiodaten mit maximal neun Kanälen.

Endianness

Die Endianness gibt an, wie Datenbyte durch die zugrundeliegende Computerarchitektur organisiert werden:

Bei Verwendung von Big Endian werden Daten anhand des höchstwertigen Bit angeordnet.
Bei Verwendung von Little Endian werden Daten anhand des niedrigstwertigen Bit angeordnet.

Der Speech to Text-Service erkennt die Endianess der eingehenden Audiodaten automatisch.

Hinweise zu Audioformaten

Beim Format audio/l16 können Sie bei Bedarf die Endianess angeben und die automatische Erkennung inaktivieren.

Tonfrequenz

Die Tonfrequenz bezeichnet den Bereich der hörbaren Frequenzen in den Audiodaten. Als für Menschen hörbare Standardfrequenz wird allgemein 20 bis 20.000 Hertz akzeptiert. Mithilfe einer spektrografischen Analyse können Sie ein Spektrogramm erzeugen, das die enthaltenen Frequenzen Ihrer Audiodaten sichtbar macht.

Die Abtastrate, die auf Audiodaten angewendet wird, ist normalerweise doppelt so hoch wie die höchste Frequenz der Audiodaten. Eine Abtastrate von 16 kHz bedeutet beispielsweise, dass die höchste Frequenz des abgetasteten Tonsignals 8 kHz beträgt. Dies wurde bei der Erstellung der Modelle für den Service berücksichtigt.

Die Schmalbandmodelle wurden mit Audiodaten erstellt, die mit 8 kHz abgetastet werden. Schmalbandmodelle erwarten Informationen in einem Bereich, der kleiner-gleich 4 kHz ist.
Die Breitbandmodelle wurden mit Audiodaten erstellt, die mit 16 kHz abgetastet werden. Breitbandmodelle erwarten Informationen im Bereich von 4 bis 8 kHz.

Die Trainingsdaten für die Modelle werden aus unterschiedlichen Kanälen (bei Schmalbandmodellen der Telefonie) abgeleitet. Die Modelle bilden die Merkmale der Kanäle ab, mit denen sie trainiert wurden.

Abtastrate erhöhen

Bei der auch Upsampling genannten Erhöhung der Abtastrate wird zwar die Abtastrate der Audiodaten heraufgesetzt, aber es werden keine neuen Informationen in die Audiodaten aufgenommen. Es entsteht ein Näherungswert für das Tonsignal, das durch eine Abtastung der Audiodaten mit einer höheren Frequenz erhalten werden würde. Die Größe der Audiodaten nimmt hierbei zu.

Die Informationen in Audiodaten, die ursprünglich mit einer Schmalbandfrequenz erstellt wurden, ist auf den Bereich von 0 bis 4 kHz beschränkt. Bei einer Erhöhung der Abtastrate für Schmalbandaudiodaten ist es unwahrscheinlich, dass sich die Genauigkeit der Spracherkennung verbessert. Falls Sie die Abtastrate für Schmalbandaudiodaten erhöhen, fehlen Informationen in dem Bereich, den die Breitbandmodelle erwarten. Darüber hinaus weichen die im erwarteten Bereich einer Schmalbandabtastung gefundenen Daten qualitativ von den Informationen ab, die in demselben Bereich einer Breitbandabtastung gefunden werden. Die Erhöhung der Abtastrate führt somit eigentlich zu einer verminderten Genauigkeit bei der Erkennung.

Bei einer Breitbandabtastrate von 16 kHz liegt die erwartete Höchstfrequenz im abgetasteten Tonsignal bei 8 kHz. Sie müssen daher das ursprüngliche Signal bei 8 kHz filtern, bevor Sie es mit einer Frequenz von 16 kHz abtasten. Andernfalls findet aufgrund eines Phänomens, das als Aliasing bezeichnet wird, eine Verschlechterung statt.

In diesem Zusammenhang kann es sinnvoll sein, sich zum Vergleich die Wiedergabe eines VHS-Bandes auf einem großen Flachbildschirm mit HDTV vorzustellen. Das Bild ist unscharf, weil die Wiedergabe eines Bandes auf einem hochauflösenden Gerät keine neuen Informationen zum Datenstrom hinzufügen kann. Sie macht lediglich das Format mit dem besseren Gerät kompatibel. Gleiches gilt für die Erhöhung der Abtastrate von Audiodaten.

Abtastrate verringern

Bei diesem Vorgang, der auch als Downsampling bezeichnet wird, wird die Abtastrate der Audiodaten verringert. Es entsteht ein Näherungswert für das Tonsignal, das durch eine Abtastung der Audiodaten mit einer niedrigeren Frequenz erhalten werden würde. Durch die Verringerung der Abtastrate werden zwar keine Informationen aus dem Tonsignal entfernt, aber die Größe der Audiodaten verringert sich.

Das Downsampling von Audiodaten kann in einigen Fällen wirkungsvoll sein. Falls beispielsweise die Abtastrate Ihrer Audiodaten größer als 8 kHz ist und eine spektrografische Überprüfung ergibt, dass kein Frequenzinhalt größer als 4 kHz ist, kann die Verringerung der Abtastrate für die Audiodaten auf 8 kHz sinnvoll sein.