IBM Cloud Docs
Antwortmetadaten

Antwortmetadaten

Der IBM Watson® Speech to Text-Service kann drei Typen von Metadaten zu Transkriptionsergebnissen zurückgeben. Sie können die maximale Anzahl von Alternativen anfordern, um mehrere mögliche Endergebnisse der Transkription anzuzeigen. Darüber hinaus können Sie die Wortkonfidenz und Wortzeitmarken anfordern, um Konfidenzwerte und Zeitmarken für jedes Wort der Audiodaten zu erhalten

Maximale Anzahl Alternativen

Der Parameter max_alternatives akzeptiert einen ganzzahligen Wert, der den Service anweist, die n besten alternativen Kandidaten für die Ergebnisse zurückzugeben. Standardmäßig gibt der Service nur ein einziges Transkriptionsergebnis zurück. Dies entspricht der Parametereinstellung 1. Wenn Sie max_alternatives auf eine Zahl größer als 1 setzen, gibt der Service die angegebene Anzahl der besten alternativen Transkriptionen zurück. (Wenn Sie 0 angeben, verwendet der Service den Standardwert 1.)

Der Service gibt nur für die beste zurückgegebene Alternative einen Konfidenzwert an. In den meisten Fällen wird diese Alternativ ausgewählt.

Interne Änderungen und Verbesserungen des Dienstes können sich auf die Transkripte und die Konfidenzwerte auswirken. Zum Beispiel kann die Spracherkennung verbessert werden, um präzisere Transkriptionsergebnisse zu erzielen. Ebenso könnten sich die Transkriptions- und Wortvertrauenswerte aufgrund einer verbesserten Spracherkennung geringfügig ändern. Solche Veränderungen werden voraussichtlich nur geringfügig sein, aber erwarten Sie nicht, dass Transkripte und Konfidenzwerte im Laufe der Zeit unverändert bleiben.

Beispiel für maximale Anzahl Alternativen

Die folgende Beispielanforderung setzt den Parameter max_alternatives auf 3:

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?max_alternatives=3"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?max_alternatives=3"

Der Service gibt nur die Konfidenz für die drei wahrscheinlichsten Alternativen an:

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.96,
          "transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touched down as a line of
severe thunderstorms swept through Colorado on Sunday "
        },
        {
          "transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado and Sunday "
        }
      ],
      "final": true
    }
  ]
}

Wortkonfidenz

Der Parameter word_confidence gibt an, ob der Service Konfidenzwerte für die Wörter der Transkription bereitstellen soll. Standardmäßig liefert der Service nur zusammenfassende Konfidenzwerte für das endgültige Transkript. Wenn der Parameter word_confidence auf true gesetzt ist, liefert der Service für jedes Wort in der Transkription einen Konfidenzwert.

Ein Konfidenzwert gibt an, wie hoch der Service anhand der akustischen Indikatoren die Korrektheit des transkribierten Wortes einschätzt. Konfidenzwerte liegen im Bereich von 0,0 bis 1,0.

  • Der Wert 1,0 gibt an, dass die aktuelle Transkription des Wortes mit sehr hoher Wahrscheinlichkeit das beste Ergebnis darstellt.
  • Der Wert 0,5 bedeutet, dass das Wort mit einer Wahrscheinlichkeit von 50 Prozent korrekt ist.

Interne Änderungen und Verbesserungen des Dienstes können sich auf die Transkripte und die Konfidenzwerte auswirken. Zum Beispiel kann die Spracherkennung verbessert werden, um präzisere Transkriptionsergebnisse zu erzielen. Ebenso könnten sich die Transkriptions- und Wortvertrauenswerte aufgrund einer verbesserten Spracherkennung geringfügig ändern. Solche Veränderungen werden voraussichtlich nur geringfügig sein, aber erwarten Sie nicht, dass Transkripte und Konfidenzwerte im Laufe der Zeit unverändert bleiben.

Beispiel für Wortkonfidenz

Im folgenden Beispiel werden Konfidenzbewertungen für die Wörter der Transkription angefordert:

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_confidence=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_confidence=true"

Der Service gibt eine Konfidenzbewertung für jedes Wort der Audiodaten zurück:

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "confidence": 0.96,
          "transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday ",
          "word_confidence": [
            [
              "several",
              1.0
            ],
            [
              "tornadoes",
              1.0
            ],
            [
              "touch",
              0.52
            ],
            [
              "down",
              0.90
            ],
            . . .
            [
              "on",
              0.31
            ],
            [
              "Sunday",
              0.99
            ]
          ]
        }
      ],
      "final": true
    }
  ]
}

Wortzeitmarken

Der Parameter timestamps gibt an, ob der Service Zeitmarken für die transkribierten Wörter erstellen soll. In der Standardeinstellung erzeugt der Service keine Zeitmarken. Wenn Sie timestamps auf true setzen, wird der Service angewiesen, die Start- und Endzeitpunkte in Sekunden (in Relation zum Start der Audiodaten) für jedes Wort zu erfassen.

Wenn Sie Sprecherbezeichnungen anfordern, werden die Zeitmarken automatisch aktiviert. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.

Beispiel für Wortzeitmarken

Im folgenden Beispiel werden Zeitmarken für die Wörter der Transkription angefordert:

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?timestamps=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?timestamps=true"

Der Service gibt für jedes Wort der Audiodaten eine Zeitmarke zurück:

{
  "result_index": 0,
  "results": [
    {
      "alternatives": [
        {
          "timestamps": [
            [
              "several",
              1.01,
              1.52
            ],
            [
              "tornadoes",
              1.52,
              2.15
            ],
            [
              "touch",
              2.15,
              2.5
            ],
            [
              "down",
              2.5,
              2.81
            ],
            . . .
            [
              "on",
              5.62,
              5.74
            ],
            [
              "Sunday",
              5.74,
              6.34
            ]
          ],
          "confidence": 0.96,
          "transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday "
        }
      ],
      "final": true
    }
  ]
}