Antwortmetadaten
Der IBM Watson® Speech to Text-Service kann drei Typen von Metadaten zu Transkriptionsergebnissen zurückgeben. Sie können die maximale Anzahl von Alternativen anfordern, um mehrere mögliche Endergebnisse der Transkription anzuzeigen. Darüber hinaus können Sie die Wortkonfidenz und Wortzeitmarken anfordern, um Konfidenzwerte und Zeitmarken für jedes Wort der Audiodaten zu erhalten
Maximale Anzahl Alternativen
Der Parameter max_alternatives
akzeptiert einen ganzzahligen Wert, der den Service anweist, die n besten alternativen Kandidaten für die Ergebnisse zurückzugeben. Standardmäßig gibt der Service nur ein einziges Transkriptionsergebnis
zurück. Dies entspricht der Parametereinstellung 1
. Wenn Sie max_alternatives
auf eine Zahl größer als 1 setzen, gibt der Service die angegebene Anzahl der besten alternativen Transkriptionen zurück. (Wenn Sie 0
angeben, verwendet der Service den Standardwert 1
.)
Der Service gibt nur für die beste zurückgegebene Alternative einen Konfidenzwert an. In den meisten Fällen wird diese Alternativ ausgewählt.
Interne Änderungen und Verbesserungen des Dienstes können sich auf die Transkripte und die Konfidenzwerte auswirken. Zum Beispiel kann die Spracherkennung verbessert werden, um präzisere Transkriptionsergebnisse zu erzielen. Ebenso könnten sich die Transkriptions- und Wortvertrauenswerte aufgrund einer verbesserten Spracherkennung geringfügig ändern. Solche Veränderungen werden voraussichtlich nur geringfügig sein, aber erwarten Sie nicht, dass Transkripte und Konfidenzwerte im Laufe der Zeit unverändert bleiben.
Beispiel für maximale Anzahl Alternativen
Die folgende Beispielanforderung setzt den Parameter max_alternatives
auf 3
:
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?max_alternatives=3"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?max_alternatives=3"
Der Service gibt nur die Konfidenz für die drei wahrscheinlichsten Alternativen an:
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"confidence": 0.96,
"transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touched down as a line of
severe thunderstorms swept through Colorado on Sunday "
},
{
"transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado and Sunday "
}
],
"final": true
}
]
}
Wortkonfidenz
Der Parameter word_confidence
gibt an, ob der Service Konfidenzwerte für die Wörter der Transkription bereitstellen soll. Standardmäßig liefert der Service nur zusammenfassende Konfidenzwerte für das endgültige Transkript. Wenn
der Parameter word_confidence
auf true
gesetzt ist, liefert der Service für jedes Wort in der Transkription einen Konfidenzwert.
Ein Konfidenzwert gibt an, wie hoch der Service anhand der akustischen Indikatoren die Korrektheit des transkribierten Wortes einschätzt. Konfidenzwerte liegen im Bereich von 0,0 bis 1,0.
- Der Wert 1,0 gibt an, dass die aktuelle Transkription des Wortes mit sehr hoher Wahrscheinlichkeit das beste Ergebnis darstellt.
- Der Wert 0,5 bedeutet, dass das Wort mit einer Wahrscheinlichkeit von 50 Prozent korrekt ist.
Interne Änderungen und Verbesserungen des Dienstes können sich auf die Transkripte und die Konfidenzwerte auswirken. Zum Beispiel kann die Spracherkennung verbessert werden, um präzisere Transkriptionsergebnisse zu erzielen. Ebenso könnten sich die Transkriptions- und Wortvertrauenswerte aufgrund einer verbesserten Spracherkennung geringfügig ändern. Solche Veränderungen werden voraussichtlich nur geringfügig sein, aber erwarten Sie nicht, dass Transkripte und Konfidenzwerte im Laufe der Zeit unverändert bleiben.
Beispiel für Wortkonfidenz
Im folgenden Beispiel werden Konfidenzbewertungen für die Wörter der Transkription angefordert:
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_confidence=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_confidence=true"
Der Service gibt eine Konfidenzbewertung für jedes Wort der Audiodaten zurück:
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"confidence": 0.96,
"transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday ",
"word_confidence": [
[
"several",
1.0
],
[
"tornadoes",
1.0
],
[
"touch",
0.52
],
[
"down",
0.90
],
. . .
[
"on",
0.31
],
[
"Sunday",
0.99
]
]
}
],
"final": true
}
]
}
Wortzeitmarken
Der Parameter timestamps
gibt an, ob der Service Zeitmarken für die transkribierten Wörter erstellen soll. In der Standardeinstellung erzeugt der Service keine Zeitmarken. Wenn Sie timestamps
auf true
setzen,
wird der Service angewiesen, die Start- und Endzeitpunkte in Sekunden (in Relation zum Start der Audiodaten) für jedes Wort zu erfassen.
Wenn Sie Sprecherbezeichnungen anfordern, werden die Zeitmarken automatisch aktiviert. Weitere Informationen finden Sie im Abschnitt Sprecherbezeichnungen.
Beispiel für Wortzeitmarken
Im folgenden Beispiel werden Zeitmarken für die Wörter der Transkription angefordert:
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?timestamps=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?timestamps=true"
Der Service gibt für jedes Wort der Audiodaten eine Zeitmarke zurück:
{
"result_index": 0,
"results": [
{
"alternatives": [
{
"timestamps": [
[
"several",
1.01,
1.52
],
[
"tornadoes",
1.52,
2.15
],
[
"touch",
2.15,
2.5
],
[
"down",
2.5,
2.81
],
. . .
[
"on",
5.62,
5.74
],
[
"Sunday",
5.74,
6.34
]
],
"confidence": 0.96,
"transcript": "several tornadoes touch down as a line of
severe thunderstorms swept through Colorado on Sunday "
}
],
"final": true
}
]
}