IBM Cloud Docs
Antworten formatieren und filtern

Antworten formatieren und filtern

Der IBM Watson® Speech to Text-Service bietet drei Funktionen zum Analysieren von Transkriptionsergebnisse. Sie können ein endgültiges Transkript formatieren, um gängige Darstellungen für bestimmte Zeichenfolgen und Interpunktion einzufügen. Sie können sensible Zahlenwerte in einem endgültigen Transkript schwärzen und Vulgärsprache aus den meisten Transkriptionsergebnissen herausfiltern. Die genannten Funktionen sind Betaversionen und auf bestimmte Sprachen beschränkt.

Intelligente Formatierung Version 2

Die neue Version der intelligenten Formatierungsfunktion ist für US-Englisch, brasilianisches Portugiesisch, Französisch, Deutsch, kastilisches Spanisch, lateinamerikanisches Spanisch und kanadisches Französisch verfügbar. Es ist auch für das Modell en-WW_Medical_Telephony verfügbar, wenn US-englische Audiodaten erkannt werden.

Die neue Version:

  • bietet mehr Flexibilität beim Hinzufügen neuer Sprachen und Muster im Vergleich zur älteren intelligenten Formatierung.
  • verwendet eine ausgefeiltere Technik des maschinellen Lernens (Weighted Finite State Transducers), um Entitäten in Texten zu identifizieren, im Vergleich zur älteren Version, die einen regelbasierten Ansatz verfolgte.
  • bietet eine genauere Klassifizierung und Formatierung von Entitäten und fügt außerdem die Möglichkeit hinzu, Hierarchien mithilfe von Gewichtungen zu definieren, wenn derselbe Text als zwei verschiedene Entitätstypen identifiziert werden kann.

Die Funktion smart_formatting weist den Dienst an, die folgenden Zeichenfolgen in konventionellere Darstellungen umzuwandeln:

  • Datums- und Uhrzeitangaben
  • Ganze Zahlen, Dezimalstellen, Ordinalzahlen
  • Alphanumerische Sequenzen (mit Länge > 2)
  • Telefonnummern
  • Währungswerte
  • Maßnahmen ( /km², kg, mph, usw.)
  • E-Mails, URLs und IP-Adressen
  • Kreditkartennummern (als Gruppen mit 4 Ziffern formatiert)
  • Punktuationen (wie in Diktationen gesprochen)

Um die neue intelligente Formatierungsfunktion für US-Englisch, brasilianisches Portugiesisch, Französisch, Deutsch, kastilisches Spanisch, lateinamerikanisches Spanisch und kanadisches Französisch zu verwenden, setzen Sie die Parameter smart_formatting=true und smart_formatting_version=2

Entitätsmuster und Beispiele

Englisch (Vereinigte Staaten)

  • Es werden verschiedene gesprochene Formen von Datumsangaben akzeptiert, einschließlich Datumsangaben wie Zahlen oder Namen von Monaten und die Verwendung von the und of (the twenty fifth of july twenty twelve). Die Datumsangaben werden als m/d/yyyy formatiert.
  • Zeiten werden durch Schlüsselwörter oder Suffixe identifiziert, z. B. Zeitzonen (z. B. est, eastern ), am, pm, hours, o'clock, minutes past hour.
  • Telefonnummern müssen entweder 911 oder eine Nummer sein, die 10 Ziffern enthält und/oder mit der Nummer [+]1 beginnt.
  • Währungssymbole werden in entsprechenden Kontexten durch Zeichenketten ersetzt, z. B. dollar, cent, euro, yen. cent ist optional nach dollar, z. B. twelve dollars twenty five und twelve dollars twenty five cents, die als $12.25 formatiert sind.
  • Internet-E-Mail-Adressen mit gemeinsamem Format (z. B. [alphanumeric+symbols]+ at [alphanumeric dot]+ domainname ) sind intelligent formatiert.
  • Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll ( http/s ), Subdomain ( www ), Ports ( 443, 80 ) und Pfade ( /help/abc ).
  • Die meisten großen Ganzzahlen werden als numerische Sequenzen formatiert. Wenn große Zahlen (Millionen, Milliarden) als ganze Zahlen einer Gruppe gesprochen werden, wird das Mengenwort million/billion nicht aus Gründen der Lesbarkeit umgewandelt, z. B. fifty nine million-> 59 million. Wenn die Zahl jedoch komplexer ist, wird sie als numerische Ziffern formatiert, z. B. fifty nine million and one-> 59000001.
  • Zahlen unter 10 werden nicht in Ziffern umgewandelt, um eine ungerade Formatierung zu vermeiden, z. B. You are one of them-> You are 1 of them. In anderen Zusammenhängen, wie z. B. bei der Angabe von Währungen, werden sie jedoch umgewandelt, z. B. Give me one dollar-> Give me $1.
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene oder diktierte Interpunktionssymbole.
    • comma (,), period (.), question mark (?), exclamation point (!), semicolon (;), hyphen (-).

Beispiele für die intelligente Formatierung

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Transkriptionen basieren auf Audiodaten in der Sprache amerikanisches Englisch.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten Juli fünfundzwanzigzweitausend zwölf 25.7.2012
das fünfundzwanzigste von zwölfundzwanzig Juli 25.7.2012
Januar die dreißig ersten zweitausend 31.01.2000
null fünf null fünf neunzehn achtzig drei 5.5.1983
zweites Quartal von zweiundzwanzig zweiundzwanzig Q2 2022
Zeitangaben Es ist zwei elf östlichen es ist 02:11 est
wir beginnen um 7:00 Uhr Wir beginnen um 07:00 Uhr
Quartal nach einem 01:15
drei Uhr 03:00
Zahlen The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
Es würde fünf Punkte zwei Millionen kosten Dies würde 5.2 Millionen kosten.
Einhunderteinundzwanzig erste Studie 121st Testversion
Telefonnummern neun eine vier fünf fünf fünf sechs acht drei drei ein 914-556-8331
Plus eine neun zwei drei drei zwei drei fünf sechs sieben acht
  • 1 923-123-5678
Währungswerte Du schuldest mir vier US-Dollar und sechzig neun Cent. Du schuldest mir 500 Euro 4.69
Fünfundsiebzig Dollar sechzig drei $75.63
Dollar stieg auf hundert und neun Punkt sieben neun Yen Dollar stieg auf ¥109.79
E-Mail, URL, IP Ich sah die Geschichte auf w w w dot yahoo dot com Ich habe die Geschichte gesehen auf www.yahoo.com
a b drei Bindestriche s d d d Bindestrich drei bei g mail dot com ab3-sdd-3@gmail.com
h t t p Doppelpunkt Schrägstrich Schrägstrich w w w Punkt c o m d a i l y n w s Punkt a b Schrägstrich s m http://www.comdailynews.ab/sm
zwei zwei fünf Punkte doppelt fünf Punkt o Punkt fünfundvierzig 225.55.0.45
Messungen zweihundert Kilometer pro Stunde 200 km/h
zwei Kilo Wattstunden 2 kWh
Sequenzen H F H neun neun drei Punkt sieben B HFH993.7B
ein zehn achtzig p Display 1080p-Anzeige

Brasilianisches Portugiesisch

  • Für Datumsangaben werden do und de in der Abschrift als Trennzeichen für Tag, Monat und Jahr verwendet. primeiro gilt als 1st des Monats. Die Datumsangaben werden als DD/MM/YYYY formatiert.
  • Zeiten werden durch Schlüsselwörter und Präfixe identifiziert, z. B. às ao, à, da tarde ( p.m. ), da madrugada ( a.m. ), meia noite, meio dia. Die Präfixe às ao, à sind optional.
  • Festnetznummern müssen 10 Ziffern haben (2 Ziffern Landescode und 8 Ziffern Nummer), Mobiltelefonnummern sind 9 Ziffern mit der ersten Ziffer als 9 mit optionalem Landescode. Vorwahlen sind optional. Die Zahlen werden als " +NN (NN) NNNN-NNNN und " +NN (NN) 9NNNN-NNNN formatiert.
  • Das Symbol für die reale Währung in Brasilien ist R$. Other Currency symbols are substituted for strings in appropriate contexts, for example, dollar, cent, euro, yen. centavos is optional after reais for example, setenta e cinco dólares e sessenta e três and setenta e cinco dólares e sessenta e três centavos formatted as R$75,63
  • Internet-E-Mail-Adressen mit gemeinsamem Format (z. B. [alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname ) sind intelligent formatiert.
  • Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll ( http/s ), Subdomain ( www ), Ports ( 443, 80 ) und Pfade ( /help/abc ).
  • Die meisten großen Ganzzahlen werden als numerische Sequenzen formatiert. Wenn große Zahlen (Millionen, Milliarden usw.) als einzelne Gruppen von ganzen Zahlen gesprochen werden, wird das Mengenwort milhões/bilhões nicht aus Gründen der Lesbarkeit umgewandelt, z. B. doze milhões-> 12 milhões. Wenn die Zahl jedoch komplexer ist, wird sie als numerische Ziffern formatiert, z. B. doze milhões e um-> 12000001.
  • Zahlen unter 10 werden nicht als Ziffern formatiert, um ungerade Konvertierungen zu vermeiden, z. B. vivo em uma casa-- > vivo em 1 casa.
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene oder diktierte Interpunktionssymbole.
    • vírgula (,), ponto (.), ponto de interrogação (?), ponto de exclamação (!), ponto e vírgula (;), hífen (-).

Intelligente Formatierungsbeispiele für Brasilianisch-Portugiesisch

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf brasilianischem Portugiesisch.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten trinta e um de dezembro de mil novecentos e oitenta e oito 31.12.1988
um do um de mil novecentos e oitenta e sete 01.01.1987
Zeitangaben Quinze pro meio dia 11:45
Meio dia e meia hora Wiederholung
ao meio dia e meio 12:30 Uhr
às dez pras duas da madrugada às 1:50 a.m.
às quinze para a meia noite Às 23:45
Zahlen cento e quarenta e sete mil quatrocentos e cinquenta e um 147451
um vírgula vinte e seis 1,26
Décimo primeiro 11º
Telefonnummern quatro cinco um dois três quatro cinco seis sete oito (45) 1234-5678
onze nove nove oito meia cinco quinze zero dois (11) 99865-1502
nove vinte e sete vinte e oito trinta e sete trinta e oito 92728-3738
mais cinco cinco onze nove meia nove zero meia zero um quatro meia +55 (11) 96906-0146
Währungswerte vinte e cinco centavos 0,25 USD
vinte e nove dólares e cinquenta centavos 29,50 USD
vinte e cinco centavos 0,25 USD
E-Mail, URL, IP a ponto b c arroba g mail ponto com a.bc@gmail.com
dáblio dáblio dáblio ponto a b c ponto es barra e f g www.abc.es/efg
nvidia www.nvidia.com
noventa e oito ponto setenta e seis ponto noventa e oito ponto dezesseis 98.76.98.16
Messungen duzentos e quarenta e cinco quilômetros por hora 245 km/h
duzentos e quarenta e cinco metros por segundo 245 m/s
Sequenzen d dezesseis três nove c hífen f noventa e oito d1639c-f98
Modelo f t doze x Modell ft12x

Französisch

  • In Datumsangaben wird die Ordnungszahl premier als 1st des Monats betrachtet. Die Datumsangaben werden als DD/MM/YYYY formatiert.
  • Zeiten werden durch Schlüsselwörter und Präfix angegeben, z. B. heures, de l'après-midi oder du soir, du matin, midi. Zeiten werden als 24H-Uhr formatiert: HH h MM
  • Telefonnummern müssen 9 oder 10 Ziffern haben (5 zweistellige Paare). In Fällen, in denen nur eine Ziffer der ersten Paarung zugelassen wird, wird angenommen, dass die 0 übersprungen wurde. Zahlen werden als NN NN NN NN NN formatiert.
  • Wenn die Präposition de oder d' verwendet wird, um die Währung auszudrücken, wird das Währungszeichen nicht zum Formatieren verwendet. This usually occurs with large round numbers, for example, un milliard d'euro formatted as 1 milliard d'euro.
  • Internet-E-Mail-Adressen mit gängigem Format (z. B. [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) sind intelligent formatiert. @ kann durch eine der folgenden Adressen dargestellt werden: arobase, chez, at, à.
  • Kardinäle mit weniger als neun werden nicht umgewandelt (um j'ai un pomme-> j'ai 1 pomme und andere ungerade Umwandlungen zu vermeiden)
  • Bei Ordinalzahlen werden "siècles" in römischen Ziffern dargestellt, wenn ein Ordinaladjektiv angegeben wird. dix-neuvième siècle-> XIXᵉ siècle.
  • Die Formatierung von Fraktionen wird unterstützt. Beispiel:un onzième-> 1/11.
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene oder diktierte Interpunktionssymbole.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-).

Intelligente Formatierungsbeispiele für Französisch

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf französischen Audioaufnahmen.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten vingt-quatre juillet deux-mille-treize 24/7/2013
dix-huit mai dix-neuf cent trente 18/5/1930
Zeitangaben Huit heures du matin 8 Stunden
onze heures cinquante-sept 11 Std. 57
deux heures de l' après-midi 14 Stunden
Zahlen Cent quarante-sept mille quatre cent cinquante et une 147451
moins vingt-cinq-mille-trente-sept 25037
Vingt-Troisièmes 23er
Quatre et Deux Quatrièmes 4 2/4
Telefonnummern double neuf douze trente-deux trente trente trente 99 12 32 30 30
deux douze trente-deux trente trente 02 12 32 30 30
Währungswerte Deux Dollar vingt 2,20 $
cinq euro und soixante 5,60 €
quatre virgule quatre-vingt milliards d' euros 4,80 Millionen Euro
E-Mail, URL, IP a b trois point s d d punkt trois arobase g mail point com ab3.sdd.3@gmail.com
W w w Punkt Bahnpunkt c o Punkt f r www.web.co.fr
Double neuf dot trente-deux dot trente dot trente dot trente 99.32.30.30
Messungen quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré 42 259 /m²
deux cents kilomètres heure 200 km/h
Sequenzen le document numéro zéro deux trente-sechs vingt-quatre le document numéro 023624
r t x dix-huit t i rtx18ti

Französisch-Kanada

  • In Datumsangaben wird die Ordinalzahl premier als 1st des Monats betrachtet. Die Datumsangaben werden als DD/MM/YYYY formatiert.
  • Zeitangaben werden durch Schlüsselwörter und Präfix angegeben, z. B. heures, de l'après-midi oder du soir, du matin, midi. Zeiten werden als 24H-Uhr formatiert: HH h MM
  • Telefonnummern müssen entweder 911 oder eine Nummer sein, die 10 Ziffern enthält und/oder mit der Nummer [+]1 beginnt.
  • Internet-E-Mail-Adressen mit gemeinsamem Format (z. B. [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) sind intelligent formatiert. @ kann durch Folgendes dargestellt werden: arobase, chez, at, à.
  • Kardinäle mit weniger als neun Punkten werden nicht umgewandelt, wenn sie inmitten von anderem Text vorkommen (um j'ai un pomme-> j'ai 1 pomme und andere seltsame Umwandlungen zu vermeiden). Sie werden weiterhin formatiert, wenn sie isoliert und ohne anderen Text auftreten.
  • Die Formatierung von Fraktionen wird unterstützt. Beispiel:un onzième-> 1/11
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene/diktierte Interpunktionssymbole.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-) usw.

Intelligente Formatierungsbeispiele für Französisch-Kanadier

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf französisch-kanadischem Audio.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten vingt-quatre juillet deux-mille-treize 24/7/2013
dix-huit mai dix-neuf cent trente 18/5/1930
Zeitangaben Huit heures du matin 8 Stunden
onze heures cinquante-sept 11 Std. 57
deux heures de l' après-midi 14 Stunden
Zahlen Cent quarante-sept mille quatre cent cinquante et une 147451
moins vingt-cinq-mille-trente-sept 25037
Vingt-Troisièmes 23es
Quatre et Deux Quatrièmes 4 2/4
Telefonnummern plus un cinq un quatre cinq cinq un deux trois quatre
  • 1 (514) 555-1234
cinq un quatre quatre sechs neuf deux un zéro zéro 02 12 32 30 30
Währungswerte Deux Dollar vingt 2,20 $
Vingt-Dollar Cinq 20,05 $
quatre virgule quatre-vingt milliards d' euros 4,80 Millionen Euro
E-Mail, URL, IP a b trois point s d d punkt trois arobase g mail point com ab3.sdd.3@gmail.com
W w w Punkt Bahnpunkt c o Punkt f r www.web.co.fr
Double neuf dot trente-deux dot trente dot trente dot trente (514) 469-210
Messungen quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré 42 259 /m²
deux cents kilomètres heure 200 km/h
Sequenzen le document numéro zéro deux trente-sechs vingt-quatre le document numéro 023624
r t x dix-huit t i rtx18ti

Spanisch

  • In Datumsangaben gilt die Ordnungszahl primero als 1st des Monats. Die Datumsangaben werden als DD/MM/YYYY formatiert.
  • Zeiten zur vollen Stunde oder Zeiten ohne Artikel, gefolgt von einem Suffix (das a.m oder p.m anzeigt), converted.e.g las dos pe eme. Die Zeiten sind 24H angegeben: HH h MM oder 12H mit a.m./p.m
  • Telefonnummern müssen 8, 9 oder 10 Ziffern haben. Zahlen werden als NNNN NNNN oder NNN NNN NNN oder NNN NNN NNNN formatiert.
  • Internet-E-Mail-Adressen mit gängigem Format (z. B. [alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname ) sind intelligent formatiert.
  • Kardinäle mit weniger als neun werden nicht umgewandelt, wenn sie inmitten von anderem Text vorkommen (um un gato en el camino-> 1 gato en el camino und andere seltsame Umwandlungen zu vermeiden). Sie werden weiterhin formatiert, wenn sie isoliert und ohne anderen Text auftreten.
  • Die Formatierung von Fraktionen wird unterstützt. For example, un décimo-> 1/10
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene oder diktierte Interpunktionssymbole.
    • punto ( . ), interrogación ( ? ), exclamación ( ! ), punto y coma ( ; ), guion medio ( - ) usw.

Intelligente Formatierungsbeispiele für Spanisch

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf spanischen Audiodateien.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten treinta y uno de diciembre de mil novecientos noventa y dos 31.12.1992
dieciséis de septiembre dos mil dieciocho 16.09.2018
Zeitangaben las dieciséis cincuenta las 16:50
las dos a eme las 2:00 a.m.
Zahlen mil novecientos cincuenta y ocho 1958
Einmal mil novecientos cincuenta y ocho 11958
Décima primera 11ª
un cuarentiunavo 1/41
Telefonnummern nueve uno cuatro cinco cinco seis ocho tres tres uno 914 556 8331
uno dos tres cuatro cinco seis siete ocho 1234 5678
Währungswerte Euro noventa centavos € 2,90
doce euros y cinco centavos € 12,05
nueve punto cinco millones de pesos 9.5 Millones
URL a b c arroba g mail punto a b c abc@gmail.abc
doppeltes Uve Doppeltes Uve Doppeltes Uve Punkt nvidia com www.nvidia.com
Messungen Metros cúbicos 3 m 3
dos kilómetros por hora 2 km/h
Sequenzen cero dos tres seis dos cuatro 023624
r t x cero dos tres w rtx023w

Deutsch

  • Die Datumsformatierung unterstützt sowohl Zahlen als auch Namen für Monate (z. B. ist zweiter dasselbe wie februar ). Die Datumsangaben werden als DD.MM.YYYY formatiert.
  • Zeiten werden durch Schlüsselwörter angegeben, z. B. nach uhr, vor, minuten. Die Zeit wird im 24-Stunden-Format angegeben: HH:MM:SS
  • Telefonnummern müssen eine 3- bis 4-stellige Vorwahl haben, die mit 0 beginnt, gefolgt von einer 8-stelligen Nummer. Ländercode (+ 49) ist optional. Die Vorwahl darf nicht mit 0 beginnen, wenn die Landesvorwahl verwendet wird. Die Zahlen werden als " +49 [N]NN NNNNNNNN oder " 0[N]NN NNNNNNNN formatiert.
  • Die meisten Währungssymbole werden in entsprechenden Kontexten durch Zeichenfolgen ersetzt, z. B. dollar, cent, euro, yen.
  • Internet-E-Mail-Adressen mit gängigem Format (z. B. [alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname ) werden formatiert.
  • Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll ( http/s ), Subdomain ( www ), Ports ( 443, 80 ) und Pfade ( /help/abc )
  • Kardinäle mit weniger als neun werden nicht umgewandelt, um ungerade oder mehrdeutige Umwandlungen zu vermeiden.
  • Die Formatierung von Ordnungszahlen und Brüchen wird unterstützt.
  • Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene oder diktierte Interpunktionssymbole.
    • komma (,), punkt (.), fragezeichen (?), ausrufezeichen (!), semikolon (;), bindestrich (-).

Intelligente Formatierungsbeispiele für Deutsch

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf deutschen Audiodateien.

Beispiel für intelligente Formatierung von Transkripten
Entitätstyp Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten vierundzwanzigster juli zwei tausend dreizehn 24.07.2013
dreizehnter zweiter zwei tausend zwanzig 13.02.2020
Zeitangaben vierundzwanziguhrzweiundzwanzig 24:22 Uhr
Acht uhr sieben 08:07 Uhr
ein uhr eine Minute eine sekunde 01:01:01 Uhr
Zahlen minus fünf und zwanzig tausend sieben und zwanzig -25037
acht hundert achtzehn komma drei null drei 818.303
Fünfundzwanzigtausendeinhundertelftem In: 25111.
Drei zwei ein hundertstel 3 2/100
Telefonnummern null vier eins eins eins zwei drei vier eins zwei drei vier 0411 12341234
plus vier neun vier eins eins eins zwei drei vier eins zwei drei vier Telefax: +49 411 12341234
Währungswerte zwei komma null null null null eins Dollar 2.0001 $
zweiundzwanzig cent 0,22 €
E-Mail, URL, IP a b drei bindestrich s d d bindestrich drei ät g mail punkt com ab3-sdd-3@gmail.com
h t t p s doppelpunkt slash slash w w w punkt a b c punkt com slash a b https://www.abc.com/ab
drei fünf punkt eins drei fünf punkt zwei vier punkt zwei vier 35.135.24.24
Messungen zwei Kilometer pro stunde 2 km/h
vier hundert vierzig milliliter 440 ml
Sequenzen c b vier drei bindestrich fünf drei fünf zwei vier zwei punkt vier drei fünf cb43-535242.435
teilenummer f t strich zwölf p Teilenummer ft-12p

Beispiele für intelligente Formatierung V2

Im folgenden Beispiel wird die intelligente Formatierung mit einer Erkennungsanforderung angefordert, indem der Parameter smart_formatting auf true gesetzt wird. Die folgenden Abschnitte veranschaulichen die Auswirkungen der intelligenten Formatierung auf die Ergebnisse einer Anforderung.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

Intelligente Formatierung

Die Funktion für intelligente Formatierung ist eine Betafunktion, die für amerikanisches Englisch, für Japanisch und für Spanisch (alle Dialekte) verfügbar ist. Es ist auch für das Modell en-WW_Medical_Telephony verfügbar, wenn US-englische Audiodaten erkannt werden.

Der Parameter smart_formatting weist den Service an, die folgenden Zeichenfolgen in konventionellere Darstellungen umzuwandeln:

  • Daten
  • Zeitangaben
  • Ziffern- und Zahlenreihen
  • Telefonnummern
  • Währungswerte (für amerikanisches Englisch und Spanisch)
  • Internet-E-Mail- und Webadressen (für amerikanisches Englisch und Spanisch)

Setzen Sie den Parameter smart_formatting auf true, um die Funktion für intelligente Formatierung zu aktivieren. Die Funktion für intelligente Formatierung ist im Service standardmäßig inaktiviert. Die intelligente Formatierung wird von dem Service unmittelbar vor der Rückgabe der Endergebnisse an den Client angewendet, nachdem die Textnormalisierung abgeschlossen ist. Diese Formatierung bzw. Umwandlung macht die Transkription besser lesbar und vereinfacht die Nachbearbeitung der Transkriptionsergebnisse, da diese Artefakte so dargestellt werden, wie sie normalerweise geschrieben würden.

Auf welche Ergebnisse wirkt sich die intelligente Formatierung aus?

Die intelligente Formatierung wirkt sich auf bestimmte Transkriptionsergebnisse aus, auf andere jedoch nicht:

  • Die intelligente Formatierung wirkt sich nur auf Wörter im Feld transcript der Endergebnisse aus, d. h. diejenigen Ergebnisse, bei denen das Feld final den Wert true hat. Sie wirkt sich nicht auf Zwischenergebnisse aus, bei denen final den Wert false hat.

  • Die intelligente Formatierung wirkt sich nicht auf Wörter in anderen Feldern der Antwort aus. Die intelligente Formatierung wird beispielsweise nicht auf Antwortdaten in den Feldern timestamps oder alternatives angewendet.

  • Sprachliche Unsicherheiten wie "ähm" und "äh" können sich bei intelligenter Formatierung für einige Sprachen negativ auf die Konvertierung von Phrasen und Zeichenketten auswirken. Modelle der vorherigen Generation erzeugen Stockungsmarkierungen, um solche Zögern in einem Transkript zu ersetzen. Die intelligente Formatierung wirkt sich auf Stockungsmarkierungen für Modelle der vorherigen Generation wie folgt aus:

    • Amerikanisches Englisch: Die intelligente Formatierung unterdrückt Verzögerungsmarkierungen aus dem Feld transcript für die Endergebnisse.
    • Japanisch: Verzögerungsmarkierungen bleiben in den Endergebnissen erhalten.
    • Amerikanisches Englisch und Japanisch: Verzögerungsmarkierungen bleiben in den Zwischenergebnissen erhalten.
    • Spanisch: Der Service erzeugt keine Verzögerungsmarkierungen für Ergebnisse.

    Modelle der nächsten Generation erzeugen keine Verzögerungsmarkierungen. Sie enthalten stattdessen die tatsächlichen Bedenken in den Transkriptionsergebnissen. Die intelligente Formatierung hat keine Auswirkung auf Zögern, die in Modellen der nächsten Generation enthalten sind. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.

Unterschiede in den unterstützten Sprachen

Die intelligente Formatierung basiert auf dem Vorhandensein erkennbarer Schlüsselwörter im Transkript. Aufgrund der Unterschiede zwischen den unterstützten Sprachen funktioniert die intelligente Formatierung für jede Sprache geringfügig anders. In den folgenden Abschnitten werden die Zeichenfolgen und Inhalte beschrieben, die Änderungen oder intelligenten Formatierung für amerikanisches Englisch und Spanisch sowie für Japanisch auslösen.

Amerikanisches Englisch und Spanisch

  • Zeitangaben werden durch Schlüsselwörter wie AM, PM oder EST gekennzeichnet.

  • Zeitangaben im militärischen Zeitformat werden umgewandelt, wenn Sie durch das Schlüsselwort hours (amerikanisches Englisch) oder horas (Spanisch) identifiziert werden.

  • Telefonnummern müssen entweder 911 oder eine Rufnummer mit 10 bzw. 11 Ziffern sein, die mit der Zahl 1 beginnt.

  • Währungssymbole werden in den entsprechenden Kontexten durch die folgenden Zeichenfolgen ersetzt:

    • Amerikanisches Englisch: dollar, cent und euro.
    • Spanisch: dolar, peso, peseta, libras esterlinas, libra und euro.
  • Internet-E-Mail-Adressen werden in einigen Fällen konvertiert. Der Service konvertiert insbesondere E-Mail-Adressen, wenn die Eingabeaudiodaten die Phrase email address ... {address} enthalten. Die folgenden Beispiele zeigen eine korrekte Konvertierung von gesprochenen Wortfolgen:

    • My email address is j dot d o e at i b m dot com wird zu My email address is j.doe@ibm.com.
    • Mi correo electronico es j punto d o e arroba i b m punto com wird zu Mi correo electronico es j.doe@ibm.com.
  • Internet-Webadressen werden in ihre Kurzform konvertiert. Vollständig qualifizierte Webadressen werden nicht konvertiert. Die folgenden Beispiele zeigen vollständige Konvertierungen:

    • I saw the story on yahoo dot com wird zu I saw the story on yahoo.com.
    • Vi la historia en yahoo punto com wird zu Vi la historia en yahoo.com.

    Die folgenden Beispiele zeigen unvollständige Konvertierungen:

    • I saw the story on w w w dot yahoo dot com wird zu I saw the story on w w w .yahoo.com.
    • Vi la historia en w w w punto yahoo punto com wird zu Vi la historia en w w w .yahoo.com.
  • Die Umrechnung großer Zahlen und Währungswerte kann eine Herausforderung darstellen. Der Service wandelt Ziffern und viele Zahlen gut um. Doch größere und komplexere Zahlen und Währungswerte funktionieren am besten bei präziserer Ausdrücken. Der Service konvertiert beispielsweise die folgenden Transkriptionen aufgrund ihrer genauen Formulierung korrekt:

    • sixty nine thousand five hundred sixty dollars and twenty five cents wird zu $69560.25
    • sixty nine thousand five hundred sixty dollars point twenty five wird zu $69560.25.

    Der Service kann jedoch die folgenden Transkriptionen aufgrund ihrer ungenaueren Ausdrücke nicht korrekt konvertieren:

    • sixty nine thousand five sixty dollars and twenty five cents wird zu 60 9000 $560.25.
    • sixty nine thousand five sixty dollars point twenty five wird zu 60 9000 $560.25.

    Um eine größere Vielfalt von komplexen Zahlen korrekt zu konvertieren, müssen Sie mit den Ergebnissen der intelligenten Formatierung experimentieren und Ihre eigenen Dienstprogramme zur Nachverarbeitung anpassen.

  • Für amerikanisches Englisch werden bestimmte Interpunktionssymbole für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Bei Verwendung der intelligenten Formatierung ersetzt der Service die folgenden Schlüsselwortzeichenfolgen durch Interpunktionszeichen, abhängig von ihrem Vorkommen im Transkript:

    • Comma (,)
    • Period (.)
    • Question mark (?)
    • Exclamation point (!)

    Der Dienst wandelt diese Schlüsselwortfolgen nur an den entsprechenden Positionen eines Transkripts in Symbole um. Im folgenden Beispiel sagt der Sprecher das Wort period am Ende des Satzes:

    • the warranty period is short period wird zu the warranty period is short.

    Der Service unterscheidet richtigerweise zwischen dem Substantiv, das weiter vorn im Satz vorkommt, und der abschließenden Interpunktion.

Japanisch

  • Telefonnummern müssen aus 10 bzw. 11 Ziffern bestehen und mit den gültigen Präfixen für japanische Telefonnummern beginnen. Zu den gültigen Präfixen gehören zum Beispiel 03 und 090.

  • Englische Wörter werden in ASCII-Zeichen (hankaku) umgewandelt. Zum Beispiel wird IBM in IBM umgewandelt.

  • Mehrdeutige Begriffe werden möglicherweise nicht umgewandelt, wenn nicht genügend Kontext verfügbar ist. Zum Beispiel ist unklar, ob 一時 und 十分 sich auf Uhrzeiten beziehen.

  • Die Interpunktion wird mit und ohne intelligente Formatierung gleich behandelt. Zum Beispiel wird basierend auf Wahrscheinlichkeitsberechnungen eine von カンマ oder , ausgewählt.

  • Zeichenfolgen, die Yen-Werte beschreiben, werden nicht durch das Yen-Währungssymbol ersetzt.

  • Internet-E-Mail- und Webadressen in jeglicher Form werden nicht umgewandelt.

  • Das Schmalbandmodell für Japanisch (ja-JP_NarrowbandModel) umfasst einige Multigram-Worteinheiten für Ziffern und Dezimalbrüche. Der Service gibt diese Multigram-Einheiten unabhängig davon zurück, ob Sie intelligente Formatierung aktiviert oder inaktiviert haben. Die folgenden Beispiele zeigen die Einheiten, die der Service zurückgibt. Die Anzahl in Klammern zeigt den entsprechenden numerischen Ausdruck mit arabischen Zahlen für jede Einheit an.

    • Ziffern: 〇一 (01), ..., 〇九 (09), 一〇 (10), ..., 九〇 (90)
    • Dezimalstellen: 〇・ (0.), 一・ (1.), ..., 十・ (10.)

    Die Funktion 'Intelligente Formatierung' versteht Multigram-Einheiten, die das Modell generiert, und gibt diese zurück. Wenn Sie Ihre eigene Nachbearbeitung auf die Transkriptionsergebnisse anwenden, müssen Sie diese Einheiten entsprechend handhaben.

Ergebnisse der intelligenten Formatierung

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Transkriptionen basieren auf Audiodaten in der Sprache amerikanisches Englisch.

Informationen Ohne intelligente Formatierung Mit intelligenter Formatierung
Daten I was born on ten oh six nineteen seventy I was born on 10/6/1970
I was born on the ninth of December nineteen hundred I was born on 12/9/1900
Today is June sixth Today is June 6
Zeitangaben The meeting starts at nine thirty AM The meeting starts at 9:30 AM
I am available at seven EST I am available at 7:00 EST
We meet at oh seven hundred hours We meet at 0700 hours
Zahlen The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
Telefonnummern Call me at nine one four two three seven one thousand Call me at 914-237-1000
Call me at one nine one four nine oh nine twenty six forty five Call me at 1-914-909-2645
Währungswerte You owe me three thousand two hundred two dollars and sixty six You owe me $3202.66
The dollar rose to one hundred and nine point seven nine yen from
  one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen |

| Internet-E-Mail- und Webadressen | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com | | | I saw the story on yahoo dot com | I saw the story on yahoo.com | | Kombinationen | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 | | | There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |

Ergebnisse der intelligenten Formatierung bei langen Pausen

Wenn eine Äußerung Sprechpausen enthält, die lang genug sind, kann der Service die Transkription in zwei oder mehr Endergebnisse aufteilen. Dies wirkt sich auf den Inhalt der Antwort aus, wie in den folgenden Beispielen gezeigt wird.

Gesprochene Audiodaten Formatierte Transkriptionsergebnisse
Meine Telefonnummer ist neun eins vier fünf fünf sieben drei
  drei neun zwei | "Meine Telefonnummer ist 914-557-3392" |

| My phone number is nine one four ...pause... five five seven three three nine two | "My phone number is 914" \n "5573392" |

Weitere Informationen zum Angeben eines Pausenintervalls, das sich auf die Antwort des Service auswirkt, finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.

Beispiel für intelligente Formatierung

Im folgenden Beispiel wird die intelligente Formatierung mit einer Erkennungsanforderung angefordert, indem der Parameter smart_formatting auf true gesetzt wird. Die folgenden Abschnitte veranschaulichen die Auswirkungen der intelligenten Formatierung auf die Ergebnisse einer Anforderung.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

Zahlenschwärzung

Die Funktion für Zahlenschwärzung wird als Betafunktionalität bereitgestellt und ist für amerikanisches Englisch, Japanisch und Koreanisch verfügbar.

Der Parameter redaction weist den Service an, Zahlenangaben in endgültigen Transkriptionenn zu schwärzen bzw. zu maskieren. Die Funktion maskiert jede Zahl, die aus drei ober mehr aufeinanderfolgenden Ziffern besteht, indem jede Ziffer durch das Zeichen X ersetzt wird. Auf diese Weise sollen sensible Zahlenangaben (z. B. Kreditkartennummern) unkenntlich gemacht werden.

Die Funktion für Zahlenschwärzung ist im Service standardmäßig inaktiviert. Setzen Sie den Parameter redaction auf true, um die Zahlenschwärzung zu aktivieren. Wenn Sie die Schwärzung aktivieren, aktiviert der Service automatisch die intelligente Formatierung, indem der Parameter smart_formatting auf true gesetzt wird, unabhängig davon, ob Sie diese Funktion explizit inaktivieren. Zum Optimieren der Sicherheit inaktiviert der Service außerdem die folgenden Parameter, wenn Sie die Schwärzung aktivieren:

  • Der Service inaktiviert die Schlüsselworterkennung unabhängig davon, ob Sie Werte für die Parameter keywords und keywords_threshold angeben.
  • Der Service inaktiviert die maximale Anzahl der Alternativen, unabhängig davon, ob Sie für den Parameter max_alternatives einen Wert angeben, der größer als 1 ist. Der Service gibt nur ein einziges endgültiges Transkript zurück.
  • Der Service inaktiviert Zwischenergebnisse für die WebSocket-Schnittstelle unabhängig davon, ob Sie den Parameter interim_results auf true setzen.

Das Design der Funktion ist der Funktion für intelligente Formatierung nachempfunden. Der Service wendet die Schwärzung nur auf die endgültige Transkription einer Erkennungsanforderung an, unmittelbar vor der Rückgabe der Ergebnisse an den Client und nach Abschluss der Textnormalisierung.

Unterschiede in den unterstützten Sprachen

Die Funktion arbeitet genau wie für Modelle für amerikanisches Englisch beschrieben, weist jedoch bei Modellen für Japanisch und Koreanisch die folgenden Unterschiede auf.

Japanisch

Bei der Zahlenschwärzung für Japanisch gelten die folgenden Unterschiede:

  • Neben dem Maskieren von Zeichenfolgen mit drei oder mehr aufeinanderfolgenden Ziffern werden auch Straßenadressen und Zahlen unkenntlich gemacht, selbst wenn sie weniger als drei Ziffern enthalten.

  • Ebenso maskiert die Funktion für Schwärzung Datumsangaben aus Geburtsdaten im japanischen Format. Japanische Datumsangaben werden normalerweise im Format der christlichen Zeitrechnung angegeben, in manchen Fällen (insbesondere beim Geburtsdatum) jedoch im japanischen Format. In diesem Fall werden Jahres- und Monatsangaben maskiert, obwohl sie nur eine oder zwei Ziffern enthalten.

    Beispiel: Ein Geburtsdatum im japanischen Stil ohne Neubearbeitung ist 平成 30年 2月. Bei der Neubearbeitung wird das Datum in 平成 XX年 X月 geändert.

Koreanisch

Bei der Zahlenschwärzung für Koreanisch gelten die folgenden Unterschiede:

  • Die Funktion für intelligente Formatierung wird nicht unterstützt. Außer der Zahlenschwärzung führt der Service für Koreanisch keine weitere intelligente Formatierung durch.

  • Isolierte Ziffernzeichen werden reduziert, aber Ziffernzeichen, die möglicherweise als Bestandteile in koreanischen Ausdrücken enthalten sind, werden nicht reduziert. Zum Beispiel wird das Zeichen im folgenden Satz nicht durch X ersetzt, weil es sich neben dem folgenden Zeichen befindet:

    이입니다

    Wenn das Zeichen " " durch ein Leerzeichen vom folgenden Zeichen getrennt wäre, würde es durch " X" ersetzt werden, wie in "Ergebnisse der numerischen Schwärzung " beschrieben.

Ergebnisse der Zahlenschwärzung

Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne Zahlenschwärzung für jede unterstützte Sprache.

Beispiel für die Schwärzung von Zahlen in Transkripten
Sprache Ohne Schwärzung Mit Schwärzung
Englisch (Vereinigte Staaten) my credit card number is four one four seven two my credit card number is XXXXX
Japanisch Wird verwendet, um die Informationen zu verwenden, die Sie verwenden müssen, um die Informationen zu verwenden, die Sie in der folgenden Informationen zu verwenden: Wird verwendet, um die Videos und die Informationen zu verwenden, die in der Formel verwendet werden.
Koreanisch ● Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zu

Beispiel für Zahlenschwärzung

Im folgenden Beispiel wird die Zahlenschwärzung mit einer Erkennungsanforderung angefordert, indem der Parameter redaction auf true gesetzt wird. Da die Anforderung die Schwärzung aktiviert, wird vom Service implizit auch die intelligente Formatierung aktiviert. Der Service inaktiviert damit die übrigen Parameter der Anforderung, d. h. sie bleiben wirkungslos. Der Service gibt eine einzige endgültige Transkription zurück und erkennt keine Schlüsselwörter.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

Vulgäre Ausdrücke filtern

Die Filterfunktion für Vulgärsprache ist nur für amerikanisches Englisch und für Japanisch allgemein verfügbar.

Der Parameter profanity_filter gibt an, ob der Service vulgäre Ausdrücke in den Ergebnissen zensieren soll. Standardmäßig maskiert der Service in der Transkription alle vulgären Ausdrücke durch eine Reihe von Sternen. Wenn dieser Parameter auf false gesetzt ist, werden alle Wörter in der Ausgabe in ihrer transkribierten Form angezeigt.

Der Service maskiert vulgäre Ausdrücke in allen endgültigen Transkriptionenn und in allen alternativen Transkriptionenn. Außerdem werden vulgäre Ausdrücke in Ergebnissen zensiert, die Wortalternativen, Wortkonfidenz und Wortzeitmarken zugeordnet sind. Ausgenommen ist allein die Schlüsselworterkennung. Für diese Funktion gibt der Service alle Wörter wie vom Benutzer angegeben zurück, unabhängig davon, ob profanity_filter auf true gesetzt ist.

Beispiel für die Filterfunktion für vulgäre Ausdrücke

Das folgende Beispiel zeigt die Ergebnisse für eine kurze Audiodatei, die unter Verwendung des Standardwerts true für den Parameter profanity_filter transkribiert wird. Außerdem legt die Anforderung für den Parameter word_alternatives_threshold den relativ hohen Wert 0.99 fest und setzt die Parameter word_confidence und timestamps auf true.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

Der Service maskiert Vulgärsprache in der Antwort, indem sie durch eine Reihe von Sternen ersetzt wird:

{
  "result_index": 0,
  "results": [
    {
      "word_alternatives": [
        {
          "start_time": 0.03,
          "alternatives": [
            {
              "confidence": 1.0,
              "word": "****"
            }
          ],
          "end_time": 0.25
        },
        {
          "start_time": 0.25,
          "alternatives": [
            {
              "confidence": 0.99,
              "word": "you"
            }
          ],
          "end_time": 0.56
        }
      ],
      "alternatives": [
        {
          "transcript": "**** you",
          "confidence": 0.99,
          "word_confidence": [
            ["****", 1.0],
            ["you", 0.99]
          ],
          "timestamps": [
            ["****", 0.03, 0.25],
            ["you", 0.25, 0.56]
          ]
        }
      ],
      "final": true
    }
  ]
}