Antworten formatieren und filtern
Der IBM Watson® Speech to Text-Service bietet drei Funktionen zum Analysieren von Transkriptionsergebnisse. Sie können ein endgültiges Transkript formatieren, um gängige Darstellungen für bestimmte Zeichenfolgen und Interpunktion einzufügen. Sie können sensible Zahlenwerte in einem endgültigen Transkript schwärzen und Vulgärsprache aus den meisten Transkriptionsergebnissen herausfiltern. Die genannten Funktionen sind Betaversionen und auf bestimmte Sprachen beschränkt.
Intelligente Formatierung Version 2
Die neue Version der intelligenten Formatierungsfunktion ist für US-Englisch, brasilianisches Portugiesisch, Französisch, Deutsch, kastilisches Spanisch, lateinamerikanisches Spanisch und kanadisches Französisch verfügbar. Es ist auch für das Modell en-WW_Medical_Telephony verfügbar, wenn US-englische Audiodaten erkannt werden.
Die neue Version:
- bietet mehr Flexibilität beim Hinzufügen neuer Sprachen und Muster im Vergleich zur älteren intelligenten Formatierung.
- verwendet eine ausgefeiltere Technik des maschinellen Lernens (Weighted Finite State Transducers), um Entitäten in Texten zu identifizieren, im Vergleich zur älteren Version, die einen regelbasierten Ansatz verfolgte.
- bietet eine genauere Klassifizierung und Formatierung von Entitäten und fügt außerdem die Möglichkeit hinzu, Hierarchien mithilfe von Gewichtungen zu definieren, wenn derselbe Text als zwei verschiedene Entitätstypen identifiziert werden kann.
Die Funktion smart_formatting
weist den Dienst an, die folgenden Zeichenfolgen in konventionellere Darstellungen umzuwandeln:
- Datums- und Uhrzeitangaben
- Ganze Zahlen, Dezimalstellen, Ordinalzahlen
- Alphanumerische Sequenzen (mit Länge > 2)
- Telefonnummern
- Währungswerte
- Maßnahmen (
/km²
,kg
,mph
,m³
usw.) - E-Mails, URLs und IP-Adressen
- Kreditkartennummern (als Gruppen mit 4 Ziffern formatiert)
- Punktuationen (wie in Diktationen gesprochen)
Um die neue intelligente Formatierungsfunktion für US-Englisch, brasilianisches Portugiesisch, Französisch, Deutsch, kastilisches Spanisch, lateinamerikanisches Spanisch und kanadisches Französisch zu verwenden, setzen Sie die Parameter smart_formatting=true und smart_formatting_version=2
Entitätsmuster und Beispiele
Englisch (Vereinigte Staaten)
- Es werden verschiedene gesprochene Formen von Datumsangaben akzeptiert, einschließlich Datumsangaben wie Zahlen oder Namen von Monaten und die Verwendung von
the
undof
(the twenty fifth of july twenty twelve
). Die Datumsangaben werden alsm/d/yyyy
formatiert. - Zeiten werden durch Schlüsselwörter oder Suffixe identifiziert, z. B. Zeitzonen (z. B.
est
,eastern
),am
,pm
,hours
,o'clock
,minutes past hour
. - Telefonnummern müssen entweder
911
oder eine Nummer sein, die 10 Ziffern enthält und/oder mit der Nummer[+]1
beginnt. - Währungssymbole werden in entsprechenden Kontexten durch Zeichenketten ersetzt, z. B.
dollar
,cent
,euro
,yen
.cent
ist optional nachdollar
, z. B.twelve dollars twenty five
undtwelve dollars twenty five cents
, die als$12.25
formatiert sind. - Internet-E-Mail-Adressen mit gemeinsamem Format (z. B.
[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname
) sind intelligent formatiert. - Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll (
http/s
), Subdomain (www
), Ports (443
,80
) und Pfade (/help/abc
). - Die meisten großen Ganzzahlen werden als numerische Sequenzen formatiert. Wenn große Zahlen (Millionen, Milliarden) als ganze Zahlen einer Gruppe gesprochen werden, wird das Mengenwort
million/billion
nicht aus Gründen der Lesbarkeit umgewandelt, z. B.fifty nine million
->59 million
. Wenn die Zahl jedoch komplexer ist, wird sie als numerische Ziffern formatiert, z. B.fifty nine million and one
->59000001
. - Zahlen unter 10 werden nicht in Ziffern umgewandelt, um eine ungerade Formatierung zu vermeiden, z. B.
You are one of them
->You are 1 of them
. In anderen Zusammenhängen, wie z. B. bei der Angabe von Währungen, werden sie jedoch umgewandelt, z. B.Give me one dollar
->Give me $1
. - Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene
oder diktierte Interpunktionssymbole.
comma
(,
),period
(.
),question mark
(?
),exclamation point
(!
),semicolon
(;
),hyphen
(-
).
Beispiele für die intelligente Formatierung
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Transkriptionen basieren auf Audiodaten in der Sprache amerikanisches Englisch.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | Juli fünfundzwanzigzweitausend zwölf | 25.7.2012 |
das fünfundzwanzigste von zwölfundzwanzig Juli | 25.7.2012 | |
Januar die dreißig ersten zweitausend | 31.01.2000 | |
null fünf null fünf neunzehn achtzig drei | 5.5.1983 | |
zweites Quartal von zweiundzwanzig zweiundzwanzig | Q2 2022 | |
Zeitangaben | Es ist zwei elf östlichen | es ist 02:11 est |
wir beginnen um 7:00 Uhr | Wir beginnen um 07:00 Uhr | |
Quartal nach einem | 01:15 | |
drei Uhr | 03:00 | |
Zahlen | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
Es würde fünf Punkte zwei Millionen kosten | Dies würde 5.2 Millionen kosten. | |
Einhunderteinundzwanzig erste Studie | 121st Testversion | |
Telefonnummern | neun eine vier fünf fünf fünf sechs acht drei drei ein | 914-556-8331 |
Plus eine neun zwei drei drei zwei drei fünf sechs sieben acht |
|
|
Währungswerte | Du schuldest mir vier US-Dollar und sechzig neun Cent. | Du schuldest mir 500 Euro 4.69 |
Fünfundsiebzig Dollar sechzig drei | $75.63 | |
Dollar stieg auf hundert und neun Punkt sieben neun Yen | Dollar stieg auf ¥109.79 | |
E-Mail, URL, IP | Ich sah die Geschichte auf w w w dot yahoo dot com | Ich habe die Geschichte gesehen auf www.yahoo.com |
a b drei Bindestriche s d d d Bindestrich drei bei g mail dot com | ab3-sdd-3@gmail.com | |
h t t p Doppelpunkt Schrägstrich Schrägstrich w w w Punkt c o m d a i l y n w s Punkt a b Schrägstrich s m | http://www.comdailynews.ab/sm | |
zwei zwei fünf Punkte doppelt fünf Punkt o Punkt fünfundvierzig | 225.55.0.45 | |
Messungen | zweihundert Kilometer pro Stunde | 200 km/h |
zwei Kilo Wattstunden | 2 kWh | |
Sequenzen | H F H neun neun drei Punkt sieben B | HFH993.7B |
ein zehn achtzig p Display | 1080p-Anzeige |
Brasilianisches Portugiesisch
- Für Datumsangaben werden
do
undde
in der Abschrift als Trennzeichen für Tag, Monat und Jahr verwendet.primeiro
gilt als 1st des Monats. Die Datumsangaben werden alsDD/MM/YYYY
formatiert. - Zeiten werden durch Schlüsselwörter und Präfixe identifiziert, z. B.
às
ao
,à
,da tarde
(p.m.
),da madrugada
(a.m.
),meia noite
,meio dia
. Die Präfixeàs
ao
,à
sind optional. - Festnetznummern müssen 10 Ziffern haben (2 Ziffern Landescode und 8 Ziffern Nummer), Mobiltelefonnummern sind 9 Ziffern mit der ersten Ziffer als
9
mit optionalem Landescode. Vorwahlen sind optional. Die Zahlen werden als "+NN (NN) NNNN-NNNN
und "+NN (NN) 9NNNN-NNNN
formatiert. - Das Symbol für die reale Währung in Brasilien ist
R$
. Other Currency symbols are substituted for strings in appropriate contexts, for example,dollar
,cent
,euro
,yen
.centavos
is optional afterreais
for example,setenta e cinco dólares e sessenta e três
andsetenta e cinco dólares e sessenta e três centavos
formatted asR$75,63
- Internet-E-Mail-Adressen mit gemeinsamem Format (z. B.
[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname
) sind intelligent formatiert. - Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll (
http/s
), Subdomain (www
), Ports (443
,80
) und Pfade (/help/abc
). - Die meisten großen Ganzzahlen werden als numerische Sequenzen formatiert. Wenn große Zahlen (Millionen, Milliarden usw.) als einzelne Gruppen von ganzen Zahlen gesprochen werden, wird das Mengenwort
milhões/bilhões
nicht aus Gründen der Lesbarkeit umgewandelt, z. B.doze milhões
->12 milhões
. Wenn die Zahl jedoch komplexer ist, wird sie als numerische Ziffern formatiert, z. B.doze milhões e um
->12000001
. - Zahlen unter 10 werden nicht als Ziffern formatiert, um ungerade Konvertierungen zu vermeiden, z. B.
vivo em uma casa
-- >vivo em 1 casa
. - Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene
oder diktierte Interpunktionssymbole.
vírgula
(,
),ponto
(.
),ponto de interrogação
(?
),ponto de exclamação
(!
),ponto e vírgula
(;
),hífen
(-
).
Intelligente Formatierungsbeispiele für Brasilianisch-Portugiesisch
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf brasilianischem Portugiesisch.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | trinta e um de dezembro de mil novecentos e oitenta e oito | 31.12.1988 |
um do um de mil novecentos e oitenta e sete | 01.01.1987 | |
Zeitangaben | Quinze pro meio dia | 11:45 |
Meio dia e meia hora | Wiederholung | |
ao meio dia e meio | 12:30 Uhr | |
às dez pras duas da madrugada | às 1:50 a.m. | |
às quinze para a meia noite | Às 23:45 | |
Zahlen | cento e quarenta e sete mil quatrocentos e cinquenta e um | 147451 |
um vírgula vinte e seis | 1,26 | |
Décimo primeiro | 11º | |
Telefonnummern | quatro cinco um dois três quatro cinco seis sete oito | (45) 1234-5678 |
onze nove nove oito meia cinco quinze zero dois | (11) 99865-1502 | |
nove vinte e sete vinte e oito trinta e sete trinta e oito | 92728-3738 | |
mais cinco cinco onze nove meia nove zero meia zero um quatro meia | +55 (11) 96906-0146 | |
Währungswerte | vinte e cinco centavos | 0,25 USD |
vinte e nove dólares e cinquenta centavos | 29,50 USD | |
vinte e cinco centavos | 0,25 USD | |
E-Mail, URL, IP | a ponto b c arroba g mail ponto com | a.bc@gmail.com |
dáblio dáblio dáblio ponto a b c ponto es barra e f g | www.abc.es/efg | |
nvidia | www.nvidia.com | |
noventa e oito ponto setenta e seis ponto noventa e oito ponto dezesseis | 98.76.98.16 | |
Messungen | duzentos e quarenta e cinco quilômetros por hora | 245 km/h |
duzentos e quarenta e cinco metros por segundo | 245 m/s | |
Sequenzen | d dezesseis três nove c hífen f noventa e oito | d1639c-f98 |
Modelo f t doze x | Modell ft12x |
Französisch
- In Datumsangaben wird die Ordnungszahl
premier
als 1st des Monats betrachtet. Die Datumsangaben werden alsDD/MM/YYYY
formatiert. - Zeiten werden durch Schlüsselwörter und Präfix angegeben, z. B.
heures
,de l'après-midi
oderdu soir
,du matin
,midi
. Zeiten werden als 24H-Uhr formatiert:HH h MM
- Telefonnummern müssen 9 oder 10 Ziffern haben (5 zweistellige Paare). In Fällen, in denen nur eine Ziffer der ersten Paarung zugelassen wird, wird angenommen, dass die 0 übersprungen wurde. Zahlen werden als
NN NN NN NN NN
formatiert. - Wenn die Präposition
de
oderd'
verwendet wird, um die Währung auszudrücken, wird das Währungszeichen nicht zum Formatieren verwendet. This usually occurs with large round numbers, for example,un milliard d'euro
formatted as1 milliard d'euro
. - Internet-E-Mail-Adressen mit gängigem Format (z. B.
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) sind intelligent formatiert.@
kann durch eine der folgenden Adressen dargestellt werden:arobase
,chez
,at
,à
. - Kardinäle mit weniger als neun werden nicht umgewandelt (um
j'ai un pomme
->j'ai 1 pomme
und andere ungerade Umwandlungen zu vermeiden) - Bei Ordinalzahlen werden "siècles" in römischen Ziffern dargestellt, wenn ein Ordinaladjektiv angegeben wird.
dix-neuvième siècle
->XIXᵉ siècle
. - Die Formatierung von Fraktionen wird unterstützt. Beispiel:
un onzième
->1/11
. - Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene
oder diktierte Interpunktionssymbole.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
).
Intelligente Formatierungsbeispiele für Französisch
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf französischen Audioaufnahmen.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | vingt-quatre juillet deux-mille-treize | 24/7/2013 |
dix-huit mai dix-neuf cent trente | 18/5/1930 | |
Zeitangaben | Huit heures du matin | 8 Stunden |
onze heures cinquante-sept | 11 Std. 57 | |
deux heures de l' après-midi | 14 Stunden | |
Zahlen | Cent quarante-sept mille quatre cent cinquante et une | 147451 |
moins vingt-cinq-mille-trente-sept | 25037 | |
Vingt-Troisièmes | 23er | |
Quatre et Deux Quatrièmes | 4 2/4 | |
Telefonnummern | double neuf douze trente-deux trente trente trente | 99 12 32 30 30 |
deux douze trente-deux trente trente | 02 12 32 30 30 | |
Währungswerte | Deux Dollar vingt | 2,20 $ |
cinq euro und soixante | 5,60 € | |
quatre virgule quatre-vingt milliards d' euros | 4,80 Millionen Euro | |
E-Mail, URL, IP | a b trois point s d d punkt trois arobase g mail point com | ab3.sdd.3@gmail.com |
W w w Punkt Bahnpunkt c o Punkt f r | www.web.co.fr | |
Double neuf dot trente-deux dot trente dot trente dot trente | 99.32.30.30 | |
Messungen | quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré | 42 259 /m² |
deux cents kilomètres heure | 200 km/h | |
Sequenzen | le document numéro zéro deux trente-sechs vingt-quatre | le document numéro 023624 |
r t x dix-huit t i | rtx18ti |
Französisch-Kanada
- In Datumsangaben wird die Ordinalzahl
premier
als 1st des Monats betrachtet. Die Datumsangaben werden alsDD/MM/YYYY
formatiert. - Zeitangaben werden durch Schlüsselwörter und Präfix angegeben, z. B.
heures
,de l'après-midi
oderdu soir
,du matin
,midi
. Zeiten werden als 24H-Uhr formatiert:HH h MM
- Telefonnummern müssen entweder
911
oder eine Nummer sein, die 10 Ziffern enthält und/oder mit der Nummer[+]1
beginnt. - Internet-E-Mail-Adressen mit gemeinsamem Format (z. B.
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) sind intelligent formatiert.@
kann durch Folgendes dargestellt werden:arobase
,chez
,at
,à
. - Kardinäle mit weniger als neun Punkten werden nicht umgewandelt, wenn sie inmitten von anderem Text vorkommen (um
j'ai un pomme
->j'ai 1 pomme
und andere seltsame Umwandlungen zu vermeiden). Sie werden weiterhin formatiert, wenn sie isoliert und ohne anderen Text auftreten. - Die Formatierung von Fraktionen wird unterstützt. Beispiel:
un onzième
->1/11
- Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene/diktierte
Interpunktionssymbole.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
) usw.
Intelligente Formatierungsbeispiele für Französisch-Kanadier
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf französisch-kanadischem Audio.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | vingt-quatre juillet deux-mille-treize | 24/7/2013 |
dix-huit mai dix-neuf cent trente | 18/5/1930 | |
Zeitangaben | Huit heures du matin | 8 Stunden |
onze heures cinquante-sept | 11 Std. 57 | |
deux heures de l' après-midi | 14 Stunden | |
Zahlen | Cent quarante-sept mille quatre cent cinquante et une | 147451 |
moins vingt-cinq-mille-trente-sept | 25037 | |
Vingt-Troisièmes | 23es | |
Quatre et Deux Quatrièmes | 4 2/4 | |
Telefonnummern | plus un cinq un quatre cinq cinq un deux trois quatre |
|
cinq un quatre quatre sechs neuf deux un zéro zéro | 02 12 32 30 30 | |
Währungswerte | Deux Dollar vingt | 2,20 $ |
Vingt-Dollar Cinq | 20,05 $ | |
quatre virgule quatre-vingt milliards d' euros | 4,80 Millionen Euro | |
E-Mail, URL, IP | a b trois point s d d punkt trois arobase g mail point com | ab3.sdd.3@gmail.com |
W w w Punkt Bahnpunkt c o Punkt f r | www.web.co.fr | |
Double neuf dot trente-deux dot trente dot trente dot trente | (514) 469-210 | |
Messungen | quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré | 42 259 /m² |
deux cents kilomètres heure | 200 km/h | |
Sequenzen | le document numéro zéro deux trente-sechs vingt-quatre | le document numéro 023624 |
r t x dix-huit t i | rtx18ti |
Spanisch
- In Datumsangaben gilt die Ordnungszahl
primero
als 1st des Monats. Die Datumsangaben werden alsDD/MM/YYYY
formatiert. - Zeiten zur vollen Stunde oder Zeiten ohne Artikel, gefolgt von einem Suffix (das a.m oder p.m anzeigt), converted.e.g
las dos pe eme
. Die Zeiten sind 24H angegeben:HH h MM
oder 12H mit a.m./p.m - Telefonnummern müssen 8, 9 oder 10 Ziffern haben. Zahlen werden als
NNNN NNNN
oderNNN NNN NNN
oderNNN NNN NNNN
formatiert. - Internet-E-Mail-Adressen mit gängigem Format (z. B.
[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname
) sind intelligent formatiert. - Kardinäle mit weniger als neun werden nicht umgewandelt, wenn sie inmitten von anderem Text vorkommen (um
un gato en el camino
->1 gato en el camino
und andere seltsame Umwandlungen zu vermeiden). Sie werden weiterhin formatiert, wenn sie isoliert und ohne anderen Text auftreten. - Die Formatierung von Fraktionen wird unterstützt. For example,
un décimo
->1/10
- Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene
oder diktierte Interpunktionssymbole.
punto
(.
),interrogación
(?
),exclamación
(!
),punto y coma
(;
),guion medio
(-
) usw.
Intelligente Formatierungsbeispiele für Spanisch
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf spanischen Audiodateien.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | treinta y uno de diciembre de mil novecientos noventa y dos | 31.12.1992 |
dieciséis de septiembre dos mil dieciocho | 16.09.2018 | |
Zeitangaben | las dieciséis cincuenta | las 16:50 |
las dos a eme | las 2:00 a.m. | |
Zahlen | mil novecientos cincuenta y ocho | 1958 |
Einmal mil novecientos cincuenta y ocho | 11958 | |
Décima primera | 11ª | |
un cuarentiunavo | 1/41 | |
Telefonnummern | nueve uno cuatro cinco cinco seis ocho tres tres uno | 914 556 8331 |
uno dos tres cuatro cinco seis siete ocho | 1234 5678 | |
Währungswerte | Euro noventa centavos | € 2,90 |
doce euros y cinco centavos | € 12,05 | |
nueve punto cinco millones de pesos | 9.5 Millones | |
URL | a b c arroba g mail punto a b c | abc@gmail.abc |
doppeltes Uve Doppeltes Uve Doppeltes Uve Punkt nvidia com | www.nvidia.com | |
Messungen | Metros cúbicos | 3 m 3 |
dos kilómetros por hora | 2 km/h | |
Sequenzen | cero dos tres seis dos cuatro | 023624 |
r t x cero dos tres w | rtx023w |
Deutsch
- Die Datumsformatierung unterstützt sowohl Zahlen als auch Namen für Monate (z. B. ist
zweiter
dasselbe wiefebruar
). Die Datumsangaben werden alsDD.MM.YYYY
formatiert. - Zeiten werden durch Schlüsselwörter angegeben, z. B.
nach
uhr
,vor
,minuten
. Die Zeit wird im 24-Stunden-Format angegeben:HH:MM:SS
- Telefonnummern müssen eine 3- bis 4-stellige Vorwahl haben, die mit
0
beginnt, gefolgt von einer 8-stelligen Nummer. Ländercode (+ 49) ist optional. Die Vorwahl darf nicht mit0
beginnen, wenn die Landesvorwahl verwendet wird. Die Zahlen werden als "+49 [N]NN NNNNNNNN
oder "0[N]NN NNNNNNNN
formatiert. - Die meisten Währungssymbole werden in entsprechenden Kontexten durch Zeichenfolgen ersetzt, z. B.
dollar
,cent
,euro
,yen
. - Internet-E-Mail-Adressen mit gängigem Format (z. B.
[alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname
) werden formatiert. - Web-URLs, sowohl Kurz-als auch Langform, werden formatiert. Es umfasst Protokoll (
http/s
), Subdomain (www
), Ports (443
,80
) und Pfade (/help/abc
) - Kardinäle mit weniger als neun werden nicht umgewandelt, um ungerade oder mehrdeutige Umwandlungen zu vermeiden.
- Die Formatierung von Ordnungszahlen und Brüchen wird unterstützt.
- Die meisten Satzzeichen werden für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Wenn Sie die intelligente Formatierung verwenden, ersetzt der Service die Schlüsselwortzeichenfolgen durch gesprochene
oder diktierte Interpunktionssymbole.
komma
(,
),punkt
(.
),fragezeichen
(?
),ausrufezeichen
(!
),semikolon
(;
),bindestrich
(-
).
Intelligente Formatierungsbeispiele für Deutsch
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Die Transkripte basieren auf deutschen Audiodateien.
Entitätstyp | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | vierundzwanzigster juli zwei tausend dreizehn | 24.07.2013 |
dreizehnter zweiter zwei tausend zwanzig | 13.02.2020 | |
Zeitangaben | vierundzwanziguhrzweiundzwanzig | 24:22 Uhr |
Acht uhr sieben | 08:07 Uhr | |
ein uhr eine Minute eine sekunde | 01:01:01 Uhr | |
Zahlen | minus fünf und zwanzig tausend sieben und zwanzig | -25037 |
acht hundert achtzehn komma drei null drei | 818.303 | |
Fünfundzwanzigtausendeinhundertelftem | In: 25111. | |
Drei zwei ein hundertstel | 3 2/100 | |
Telefonnummern | null vier eins eins eins zwei drei vier eins zwei drei vier | 0411 12341234 |
plus vier neun vier eins eins eins zwei drei vier eins zwei drei vier | Telefax: +49 411 12341234 | |
Währungswerte | zwei komma null null null null eins Dollar | 2.0001 $ |
zweiundzwanzig cent | 0,22 € | |
E-Mail, URL, IP | a b drei bindestrich s d d bindestrich drei ät g mail punkt com | ab3-sdd-3@gmail.com |
h t t p s doppelpunkt slash slash w w w punkt a b c punkt com slash a b | https://www.abc.com/ab | |
drei fünf punkt eins drei fünf punkt zwei vier punkt zwei vier | 35.135.24.24 | |
Messungen | zwei Kilometer pro stunde | 2 km/h |
vier hundert vierzig milliliter | 440 ml | |
Sequenzen | c b vier drei bindestrich fünf drei fünf zwei vier zwei punkt vier drei fünf | cb43-535242.435 |
teilenummer f t strich zwölf p | Teilenummer ft-12p |
Beispiele für intelligente Formatierung V2
Im folgenden Beispiel wird die intelligente Formatierung mit einer Erkennungsanforderung angefordert, indem der Parameter smart_formatting
auf true
gesetzt wird. Die folgenden Abschnitte veranschaulichen die Auswirkungen
der intelligenten Formatierung auf die Ergebnisse einer Anforderung.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
Intelligente Formatierung
Die Funktion für intelligente Formatierung ist eine Betafunktion, die für amerikanisches Englisch, für Japanisch und für Spanisch (alle Dialekte) verfügbar ist. Es ist auch für das Modell en-WW_Medical_Telephony
verfügbar, wenn
US-englische Audiodaten erkannt werden.
Der Parameter smart_formatting
weist den Service an, die folgenden Zeichenfolgen in konventionellere Darstellungen umzuwandeln:
- Daten
- Zeitangaben
- Ziffern- und Zahlenreihen
- Telefonnummern
- Währungswerte (für amerikanisches Englisch und Spanisch)
- Internet-E-Mail- und Webadressen (für amerikanisches Englisch und Spanisch)
Setzen Sie den Parameter smart_formatting
auf true
, um die Funktion für intelligente Formatierung zu aktivieren. Die Funktion für intelligente Formatierung ist im Service standardmäßig inaktiviert. Die intelligente
Formatierung wird von dem Service unmittelbar vor der Rückgabe der Endergebnisse an den Client angewendet, nachdem die Textnormalisierung abgeschlossen ist. Diese Formatierung bzw. Umwandlung macht die Transkription besser lesbar und vereinfacht
die Nachbearbeitung der Transkriptionsergebnisse, da diese Artefakte so dargestellt werden, wie sie normalerweise geschrieben würden.
Auf welche Ergebnisse wirkt sich die intelligente Formatierung aus?
Die intelligente Formatierung wirkt sich auf bestimmte Transkriptionsergebnisse aus, auf andere jedoch nicht:
-
Die intelligente Formatierung wirkt sich nur auf Wörter im Feld
transcript
der Endergebnisse aus, d. h. diejenigen Ergebnisse, bei denen das Feldfinal
den Werttrue
hat. Sie wirkt sich nicht auf Zwischenergebnisse aus, bei denenfinal
den Wertfalse
hat. -
Die intelligente Formatierung wirkt sich nicht auf Wörter in anderen Feldern der Antwort aus. Die intelligente Formatierung wird beispielsweise nicht auf Antwortdaten in den Feldern
timestamps
oderalternatives
angewendet. -
Sprachliche Unsicherheiten wie "ähm" und "äh" können sich bei intelligenter Formatierung für einige Sprachen negativ auf die Konvertierung von Phrasen und Zeichenketten auswirken. Modelle der vorherigen Generation erzeugen Stockungsmarkierungen, um solche Zögern in einem Transkript zu ersetzen. Die intelligente Formatierung wirkt sich auf Stockungsmarkierungen für Modelle der vorherigen Generation wie folgt aus:
- Amerikanisches Englisch: Die intelligente Formatierung unterdrückt Verzögerungsmarkierungen aus dem Feld
transcript
für die Endergebnisse. - Japanisch: Verzögerungsmarkierungen bleiben in den Endergebnissen erhalten.
- Amerikanisches Englisch und Japanisch: Verzögerungsmarkierungen bleiben in den Zwischenergebnissen erhalten.
- Spanisch: Der Service erzeugt keine Verzögerungsmarkierungen für Ergebnisse.
Modelle der nächsten Generation erzeugen keine Verzögerungsmarkierungen. Sie enthalten stattdessen die tatsächlichen Bedenken in den Transkriptionsergebnissen. Die intelligente Formatierung hat keine Auswirkung auf Zögern, die in Modellen der nächsten Generation enthalten sind. Weitere Informationen finden Sie unter Sprachzögerungen und Stockungsmarkierungen.
- Amerikanisches Englisch: Die intelligente Formatierung unterdrückt Verzögerungsmarkierungen aus dem Feld
Unterschiede in den unterstützten Sprachen
Die intelligente Formatierung basiert auf dem Vorhandensein erkennbarer Schlüsselwörter im Transkript. Aufgrund der Unterschiede zwischen den unterstützten Sprachen funktioniert die intelligente Formatierung für jede Sprache geringfügig anders. In den folgenden Abschnitten werden die Zeichenfolgen und Inhalte beschrieben, die Änderungen oder intelligenten Formatierung für amerikanisches Englisch und Spanisch sowie für Japanisch auslösen.
Amerikanisches Englisch und Spanisch
-
Zeitangaben werden durch Schlüsselwörter wie
AM
,PM
oderEST
gekennzeichnet. -
Zeitangaben im militärischen Zeitformat werden umgewandelt, wenn Sie durch das Schlüsselwort
hours
(amerikanisches Englisch) oderhoras
(Spanisch) identifiziert werden. -
Telefonnummern müssen entweder
911
oder eine Rufnummer mit 10 bzw. 11 Ziffern sein, die mit der Zahl1
beginnt. -
Währungssymbole werden in den entsprechenden Kontexten durch die folgenden Zeichenfolgen ersetzt:
- Amerikanisches Englisch: dollar, cent und euro.
- Spanisch: dolar, peso, peseta, libras esterlinas, libra und euro.
-
Internet-E-Mail-Adressen werden in einigen Fällen konvertiert. Der Service konvertiert insbesondere E-Mail-Adressen, wenn die Eingabeaudiodaten die Phrase
email address ... {address}
enthalten. Die folgenden Beispiele zeigen eine korrekte Konvertierung von gesprochenen Wortfolgen:My email address is j dot d o e at i b m dot com
wird zuMy email address is j.doe@ibm.com
.Mi correo electronico es j punto d o e arroba i b m punto com
wird zuMi correo electronico es j.doe@ibm.com
.
-
Internet-Webadressen werden in ihre Kurzform konvertiert. Vollständig qualifizierte Webadressen werden nicht konvertiert. Die folgenden Beispiele zeigen vollständige Konvertierungen:
I saw the story on yahoo dot com
wird zuI saw the story on yahoo.com
.Vi la historia en yahoo punto com
wird zuVi la historia en yahoo.com
.
Die folgenden Beispiele zeigen unvollständige Konvertierungen:
I saw the story on w w w dot yahoo dot com
wird zuI saw the story on w w w .yahoo.com
.Vi la historia en w w w punto yahoo punto com
wird zuVi la historia en w w w .yahoo.com
.
-
Die Umrechnung großer Zahlen und Währungswerte kann eine Herausforderung darstellen. Der Service wandelt Ziffern und viele Zahlen gut um. Doch größere und komplexere Zahlen und Währungswerte funktionieren am besten bei präziserer Ausdrücken. Der Service konvertiert beispielsweise die folgenden Transkriptionen aufgrund ihrer genauen Formulierung korrekt:
sixty nine thousand five hundred sixty dollars and twenty five cents
wird zu$69560.25
sixty nine thousand five hundred sixty dollars point twenty five
wird zu$69560.25
.
Der Service kann jedoch die folgenden Transkriptionen aufgrund ihrer ungenaueren Ausdrücke nicht korrekt konvertieren:
sixty nine thousand five sixty dollars and twenty five cents
wird zu60 9000 $560.25
.sixty nine thousand five sixty dollars point twenty five
wird zu60 9000 $560.25
.
Um eine größere Vielfalt von komplexen Zahlen korrekt zu konvertieren, müssen Sie mit den Ergebnissen der intelligenten Formatierung experimentieren und Ihre eigenen Dienstprogramme zur Nachverarbeitung anpassen.
-
Für amerikanisches Englisch werden bestimmte Interpunktionssymbole für spezielle Schlüsselwörter hinzugefügt, die an den entsprechenden Stellen vorkommen. Bei Verwendung der intelligenten Formatierung ersetzt der Service die folgenden Schlüsselwortzeichenfolgen durch Interpunktionszeichen, abhängig von ihrem Vorkommen im Transkript:
Comma
(,
)Period
(.
)Question mark
(?
)Exclamation point
(!
)
Der Dienst wandelt diese Schlüsselwortfolgen nur an den entsprechenden Positionen eines Transkripts in Symbole um. Im folgenden Beispiel sagt der Sprecher das Wort
period
am Ende des Satzes:the warranty period is short period
wird zuthe warranty period is short.
Der Service unterscheidet richtigerweise zwischen dem Substantiv, das weiter vorn im Satz vorkommt, und der abschließenden Interpunktion.
Japanisch
-
Telefonnummern müssen aus 10 bzw. 11 Ziffern bestehen und mit den gültigen Präfixen für japanische Telefonnummern beginnen. Zu den gültigen Präfixen gehören zum Beispiel
03
und090
. -
Englische Wörter werden in ASCII-Zeichen (hankaku) umgewandelt. Zum Beispiel wird
IBM
inIBM
umgewandelt. -
Mehrdeutige Begriffe werden möglicherweise nicht umgewandelt, wenn nicht genügend Kontext verfügbar ist. Zum Beispiel ist unklar, ob
一時
und十分
sich auf Uhrzeiten beziehen. -
Die Interpunktion wird mit und ohne intelligente Formatierung gleich behandelt. Zum Beispiel wird basierend auf Wahrscheinlichkeitsberechnungen eine von
カンマ
oder,
ausgewählt. -
Zeichenfolgen, die Yen-Werte beschreiben, werden nicht durch das Yen-Währungssymbol ersetzt.
-
Internet-E-Mail- und Webadressen in jeglicher Form werden nicht umgewandelt.
-
Das Schmalbandmodell für Japanisch (
ja-JP_NarrowbandModel
) umfasst einige Multigram-Worteinheiten für Ziffern und Dezimalbrüche. Der Service gibt diese Multigram-Einheiten unabhängig davon zurück, ob Sie intelligente Formatierung aktiviert oder inaktiviert haben. Die folgenden Beispiele zeigen die Einheiten, die der Service zurückgibt. Die Anzahl in Klammern zeigt den entsprechenden numerischen Ausdruck mit arabischen Zahlen für jede Einheit an.- Ziffern:
〇一
(01), ...,〇九
(09),一〇
(10), ...,九〇
(90) - Dezimalstellen:
〇・
(0.),一・
(1.), ...,十・
(10.)
Die Funktion 'Intelligente Formatierung' versteht Multigram-Einheiten, die das Modell generiert, und gibt diese zurück. Wenn Sie Ihre eigene Nachbearbeitung auf die Transkriptionsergebnisse anwenden, müssen Sie diese Einheiten entsprechend handhaben.
- Ziffern:
Ergebnisse der intelligenten Formatierung
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne intelligente Formatierung. Transkriptionen basieren auf Audiodaten in der Sprache amerikanisches Englisch.
Informationen | Ohne intelligente Formatierung | Mit intelligenter Formatierung |
---|---|---|
Daten | I was born on ten oh six nineteen seventy | I was born on 10/6/1970 |
I was born on the ninth of December nineteen hundred | I was born on 12/9/1900 | |
Today is June sixth | Today is June 6 | |
Zeitangaben | The meeting starts at nine thirty AM | The meeting starts at 9:30 AM |
I am available at seven EST | I am available at 7:00 EST | |
We meet at oh seven hundred hours | We meet at 0700 hours | |
Zahlen | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
Telefonnummern | Call me at nine one four two three seven one thousand | Call me at 914-237-1000 |
Call me at one nine one four nine oh nine twenty six forty five | Call me at 1-914-909-2645 | |
Währungswerte | You owe me three thousand two hundred two dollars and sixty six | You owe me $3202.66 |
The dollar rose to one hundred and nine point seven nine yen from |
one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen |
| Internet-E-Mail- und Webadressen | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com | | | I saw the story on yahoo dot com | I saw the story on yahoo.com | | Kombinationen | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 | | | There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |
Ergebnisse der intelligenten Formatierung bei langen Pausen
Wenn eine Äußerung Sprechpausen enthält, die lang genug sind, kann der Service die Transkription in zwei oder mehr Endergebnisse aufteilen. Dies wirkt sich auf den Inhalt der Antwort aus, wie in den folgenden Beispielen gezeigt wird.
Gesprochene Audiodaten | Formatierte Transkriptionsergebnisse |
---|---|
Meine Telefonnummer ist neun eins vier fünf fünf sieben drei |
drei neun zwei | "Meine Telefonnummer ist 914-557-3392" |
| My phone number is nine one four ...pause... five five seven three three nine two | "My phone number is 914" \n "5573392" |
Weitere Informationen zum Angeben eines Pausenintervalls, das sich auf die Antwort des Service auswirkt, finden Sie im Abschnitt Sprechpausenzeit nach Ausdrucksende.
Beispiel für intelligente Formatierung
Im folgenden Beispiel wird die intelligente Formatierung mit einer Erkennungsanforderung angefordert, indem der Parameter smart_formatting
auf true
gesetzt wird. Die folgenden Abschnitte veranschaulichen die Auswirkungen
der intelligenten Formatierung auf die Ergebnisse einer Anforderung.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
Zahlenschwärzung
Die Funktion für Zahlenschwärzung wird als Betafunktionalität bereitgestellt und ist für amerikanisches Englisch, Japanisch und Koreanisch verfügbar.
Der Parameter redaction
weist den Service an, Zahlenangaben in endgültigen Transkriptionenn zu schwärzen bzw. zu maskieren. Die Funktion maskiert jede Zahl, die aus drei ober mehr aufeinanderfolgenden Ziffern besteht, indem jede
Ziffer durch das Zeichen X
ersetzt wird. Auf diese Weise sollen sensible Zahlenangaben (z. B. Kreditkartennummern) unkenntlich gemacht werden.
Die Funktion für Zahlenschwärzung ist im Service standardmäßig inaktiviert. Setzen Sie den Parameter redaction
auf true
, um die Zahlenschwärzung zu aktivieren. Wenn Sie die Schwärzung aktivieren, aktiviert der Service
automatisch die intelligente Formatierung, indem der Parameter smart_formatting
auf true
gesetzt wird, unabhängig davon, ob Sie diese Funktion explizit inaktivieren. Zum Optimieren der Sicherheit inaktiviert der Service
außerdem die folgenden Parameter, wenn Sie die Schwärzung aktivieren:
- Der Service inaktiviert die Schlüsselworterkennung unabhängig davon, ob Sie Werte für die Parameter
keywords
undkeywords_threshold
angeben. - Der Service inaktiviert die maximale Anzahl der Alternativen, unabhängig davon, ob Sie für den Parameter
max_alternatives
einen Wert angeben, der größer als 1 ist. Der Service gibt nur ein einziges endgültiges Transkript zurück. - Der Service inaktiviert Zwischenergebnisse für die WebSocket-Schnittstelle unabhängig davon, ob Sie den Parameter
interim_results
auftrue
setzen.
Das Design der Funktion ist der Funktion für intelligente Formatierung nachempfunden. Der Service wendet die Schwärzung nur auf die endgültige Transkription einer Erkennungsanforderung an, unmittelbar vor der Rückgabe der Ergebnisse an den Client und nach Abschluss der Textnormalisierung.
Unterschiede in den unterstützten Sprachen
Die Funktion arbeitet genau wie für Modelle für amerikanisches Englisch beschrieben, weist jedoch bei Modellen für Japanisch und Koreanisch die folgenden Unterschiede auf.
Japanisch
Bei der Zahlenschwärzung für Japanisch gelten die folgenden Unterschiede:
-
Neben dem Maskieren von Zeichenfolgen mit drei oder mehr aufeinanderfolgenden Ziffern werden auch Straßenadressen und Zahlen unkenntlich gemacht, selbst wenn sie weniger als drei Ziffern enthalten.
-
Ebenso maskiert die Funktion für Schwärzung Datumsangaben aus Geburtsdaten im japanischen Format. Japanische Datumsangaben werden normalerweise im Format der christlichen Zeitrechnung angegeben, in manchen Fällen (insbesondere beim Geburtsdatum) jedoch im japanischen Format. In diesem Fall werden Jahres- und Monatsangaben maskiert, obwohl sie nur eine oder zwei Ziffern enthalten.
Beispiel: Ein Geburtsdatum im japanischen Stil ohne Neubearbeitung ist
平成 30年 2月
. Bei der Neubearbeitung wird das Datum in平成 XX年 X月
geändert.
Koreanisch
Bei der Zahlenschwärzung für Koreanisch gelten die folgenden Unterschiede:
-
Die Funktion für intelligente Formatierung wird nicht unterstützt. Außer der Zahlenschwärzung führt der Service für Koreanisch keine weitere intelligente Formatierung durch.
-
Isolierte Ziffernzeichen werden reduziert, aber Ziffernzeichen, die möglicherweise als Bestandteile in koreanischen Ausdrücken enthalten sind, werden nicht reduziert. Zum Beispiel wird das Zeichen
이
im folgenden Satz nicht durchX
ersetzt, weil es sich neben dem folgenden Zeichen befindet:이입니다
Wenn das Zeichen "
이
" durch ein Leerzeichen vom folgenden Zeichen getrennt wäre, würde es durch "X
" ersetzt werden, wie in "Ergebnisse der numerischen Schwärzung " beschrieben.
Ergebnisse der Zahlenschwärzung
Die folgende Tabelle enthält Beispiele für endgültige Transkriptionen mit und ohne Zahlenschwärzung für jede unterstützte Sprache.
Sprache | Ohne Schwärzung | Mit Schwärzung |
---|---|---|
Englisch (Vereinigte Staaten) | my credit card number is four one four seven two | my credit card number is XXXXX |
Japanisch | Wird verwendet, um die Informationen zu verwenden, die Sie verwenden müssen, um die Informationen zu verwenden, die Sie in der folgenden Informationen zu verwenden: | Wird verwendet, um die Videos und die Informationen zu verwenden, die in der Formel verwendet werden. |
Koreanisch | ● Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer Macer | Zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zuzüglich zu |
Beispiel für Zahlenschwärzung
Im folgenden Beispiel wird die Zahlenschwärzung mit einer Erkennungsanforderung angefordert, indem der Parameter redaction
auf true
gesetzt wird. Da die Anforderung die Schwärzung aktiviert, wird vom Service implizit
auch die intelligente Formatierung aktiviert. Der Service inaktiviert damit die übrigen Parameter der Anforderung, d. h. sie bleiben wirkungslos. Der Service gibt eine einzige endgültige Transkription zurück und erkennt keine Schlüsselwörter.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
Vulgäre Ausdrücke filtern
Die Filterfunktion für Vulgärsprache ist nur für amerikanisches Englisch und für Japanisch allgemein verfügbar.
Der Parameter profanity_filter
gibt an, ob der Service vulgäre Ausdrücke in den Ergebnissen zensieren soll. Standardmäßig maskiert der Service in der Transkription alle vulgären Ausdrücke durch eine Reihe von Sternen. Wenn dieser
Parameter auf false
gesetzt ist, werden alle Wörter in der Ausgabe in ihrer transkribierten Form angezeigt.
Der Service maskiert vulgäre Ausdrücke in allen endgültigen Transkriptionenn und in allen alternativen Transkriptionenn. Außerdem werden vulgäre Ausdrücke in Ergebnissen zensiert, die Wortalternativen, Wortkonfidenz und Wortzeitmarken zugeordnet
sind. Ausgenommen ist allein die Schlüsselworterkennung. Für diese Funktion gibt der Service alle Wörter wie vom Benutzer angegeben zurück, unabhängig davon, ob profanity_filter
auf true
gesetzt ist.
Beispiel für die Filterfunktion für vulgäre Ausdrücke
Das folgende Beispiel zeigt die Ergebnisse für eine kurze Audiodatei, die unter Verwendung des Standardwerts true
für den Parameter profanity_filter
transkribiert wird. Außerdem legt die Anforderung für den Parameter
word_alternatives_threshold
den relativ hohen Wert 0.99
fest und setzt die Parameter word_confidence
und timestamps
auf true
.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
Der Service maskiert Vulgärsprache in der Antwort, indem sie durch eine Reihe von Sternen ersetzt wird:
{
"result_index": 0,
"results": [
{
"word_alternatives": [
{
"start_time": 0.03,
"alternatives": [
{
"confidence": 1.0,
"word": "****"
}
],
"end_time": 0.25
},
{
"start_time": 0.25,
"alternatives": [
{
"confidence": 0.99,
"word": "you"
}
],
"end_time": 0.56
}
],
"alternatives": [
{
"transcript": "**** you",
"confidence": 0.99,
"word_confidence": [
["****", 1.0],
["you", 0.99]
],
"timestamps": [
["****", 0.03, 0.25],
["you", 0.25, 0.56]
]
}
],
"final": true
}
]
}