Formato y filtrado de la respuesta
El servicio IBM Watson® Speech to Text proporciona tres características que puede utilizar para analizar los resultados de la transcripción. Puede dar formato a una transcripción final para incluir representaciones más convencionales de ciertas series y para incluir la puntuación. Puede redactar información numérica sensible a partir de una transcripción final y puede filtrar el lenguaje obsceno de la mayoría de los resultados de la transcripción. Todas estas características son de funcionalidad beta y están restringidas a ciertos idiomas.
Formato inteligente Versión 2
La nueva versión de la función de formato inteligente está disponible para inglés estadounidense, portugués brasileño, francés, alemán, castellano, español latinoamericano y francés canadiense. También está disponible para el modelo en-WW_Medical_Telephony cuando se reconoce el audio en inglés estadounidense.
La nueva versión:
- Proporciona más flexibilidad en la adición de nuevos lenguajes y patrones en comparación con el formato inteligente más antiguo.
- utiliza una técnica de aprendizaje automático más sofisticada (transductores de estados finitos ponderados) para identificar entidades en los textos, en comparación con la versión anterior, que se basaba en reglas.
- proporciona una clasificación y un formato más precisos de las entidades y también añade la capacidad de definir jerarquías mediante el uso de ponderaciones cuando un mismo texto puede identificarse como dos tipos de entidad diferentes.
La función " smart_formatting
" (convertir texto) hace que el servicio convierta las siguientes cadenas de texto en representaciones más convencionales:
- Fechas y horas
- Enteros, decimales, ordinales
- Secuencias alfanuméricas (de longitud > 2)
- Números de teléfono
- Valores de moneda
- Medidas (
/km²
,kg
,mph
,m³
, etc.) - Correos electrónicos, URL y direcciones IP
- Números de tarjeta de crédito (formateados como grupos de 4 dígitos)
- Puntuaciones (como se dice en los dictados)
Para utilizar la nueva función de formato inteligente en inglés de EE.UU., portugués de Brasil, francés, alemán, castellano, español de América Latina y francés de Canadá, establezca el parámetro smart_formatting=true y smart_formatting_version=2.
Patrones de entidad y ejemplos
Inglés norteamericano
- Se aceptan diferentes formas habladas de fechas, incluidas las fechas como números o nombres de meses y el uso de
the
yof
(the twenty fifth of july twenty twelve
). Las fechas se formatean comom/d/yyyy
. - Las horas se identifican mediante palabras clave o sufijos, por ejemplo, zonas horarias (por ejemplo,
est
,eastern
),am
,pm
,hours
,o'clock
,minutes past hour
. - Los números de teléfono deben ser o bien
911
o un número que contenga 10 dígitos y/o comience con el número[+]1
. - Los símbolos de moneda se sustituyen por cadenas en los contextos apropiados para, por ejemplo,
dollar
,cent
,euro
,yen
.cent
es opcional después dedollar
, por ejemplo,twelve dollars twenty five
ytwelve dollars twenty five cents
formateados como$12.25
. - Direcciones de correo electrónico de Internet con formato común (por ejemplo,
[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname
) tienen un formato inteligente. - Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo (
http/s
), subdominio (www
), puertos (443
,80
) y rutas (/help/abc
). - La mayoría de los enteros grandes se formatean como secuencias numéricas. Cuando los números grandes (millones, billones) se pronuncian como números enteros de un solo grupo, la palabra de cantidad
million/billion
no se convierte para facilitar la lectura, por ejemplo,fifty nine million
->59 million
pero cuando el número es más complejo, se formatea como dígitos numéricos, por ejemplo,fifty nine million and one
->59000001
. - Los números inferiores a 10 no se convierten en dígitos para evitar formatos extraños, por ejemplo,
You are one of them
->You are 1 of them
. Pero en otros contextos, como la expresión de divisas, sí se convierten, por ejemplo,Give me one dollar
->Give me $1
. - La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las
series de palabras clave.
comma
(,
),period
(.
),question mark
(?
),exclamation point
(!
),semicolon
(;
),hyphen
(-
).
Ejemplos de formato inteligente
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en un audio en inglés de Estados Unidos.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | julio veinticinco veinticinco dos mil doce | 25/7/2012 |
el veinticinco quinto de julio de veinte doce | 25/7/2012 | |
enero de los treinta primeros dos mil | 1/31/2000 | |
cero cinco cero cinco diecinueve ochenta tres | 5/5/1983 | |
segundo trimestre de veintidós | Q2 2022 | |
Horas | es dos once este | es 02:11 est |
comenzamos a las sietecientas horas | empezamos a las 07:00 | |
trimestre pasado uno | 01:15 | |
tres en punto | 03:00 | |
Números | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
Costaría cinco puntos dos millones | Costaría 5.2 millones | |
Su ciento veintidós primeros ensayos | Su 121st versión de prueba | |
Números de teléfono | nueve uno cuatro cinco seis ocho tres tres uno | 914-556-8331 |
más uno nueve dos tres uno dos tres cinco seis siete ocho |
|
|
Valores de moneda | Usted me debe cuatro dólares de los Estados Unidos y sesenta y nueve centavos | Me debes $ 4.69 |
setenta y cinco dólares sesenta y tres | $75.63 | |
Dólar subió a ciento nueve puntos siete nueve yenes | El dólar subió a ¥109.79 | |
Correo electrónico, URL, IP | Vi la historia en w w w punto yahoo punto com | Vi la historia en www.yahoo.com |
a b tres guiones s d d dash tres a g mail punto com | ab3-sdd-3@gmail.com | |
h t t p dos puntos barra inclinada w w w dot c o m d a i l y n e w s punto a b barra s m | http://www.comdailynews.ab/sm | |
dos dos cinco dot doble cinco dot o dot cuarenta y cinco | 225.55.0.45 | |
Medidas | doscientos kilómetros por hora | 200 km/h |
dos kilo vatios por hora | 2 kWh | |
Secuencias | H F H nueve nueve tres puntos siete B | HFH993.7B |
una pantalla de diez ochenta p | una pantalla 1080p |
Brasileño-Portugués
- Para las fechas,
do
yde
en la transcripción se utilizan como separadores para el día, el mes y el año.primeiro
se considera el 1st del mes. Las fechas se formatean comoDD/MM/YYYY
. - Las horas se identifican por palabras clave y prefijo, por ejemplo,
às
ao
,à
,da tarde
(p.m.
),da madrugada
(a.m.
),meia noite
,meio dia
. Los prefijosàs
ao
,à
son opcionales. - Los números de línea fija deben tener 10 dígitos (código de país de 2 dígitos y número de 8 dígitos), los números móviles son de 9 dígitos con el primer dígito como
9
con el código de país opcional. Los códigos de área son opcionales. Los números se formatean como "+NN (NN) NNNN-NNNN
y "+NN (NN) 9NNNN-NNNN
. - El símbolo de moneda real de Brasil es
R$
. Otros símbolos de moneda se sustituyen por series en contextos adecuados, por ejemplo,dollar
,cent
,euro
,yen
.centavos
es opcional después dereais
por ejemplo,setenta e cinco dólares e sessenta e três
ysetenta e cinco dólares e sessenta e três centavos
formateado comoR$75,63
- Direcciones de correo electrónico de Internet con formato común (por ejemplo,
[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname
) tienen un formato inteligente. - Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo (
http/s
), subdominio (www
), puertos (443
,80
) y rutas (/help/abc
). - La mayoría de los enteros grandes se formatean como secuencias numéricas. Cuando los números grandes (milhões, bilhões, etc.) se pronuncian como números enteros de un solo grupo, la palabra de cantidad
milhões/bilhões
no se convierte para facilitar la lectura, por ejemplo,doze milhões
->12 milhões
, pero cuando el número es más complejo, se formatea como dígitos numéricos, por ejemplo,doze milhões e um
->12000001
. - Los números menores de 10 no se formatean a dígitos para evitar conversiones impares, por ejemplo,
vivo em uma casa
-- >vivo em 1 casa
. - La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las
series de palabras clave.
vírgula
(,
),ponto
(.
),ponto de interrogação
(?
),ponto de exclamação
(!
),ponto e vírgula
(;
),hífen
(-
).
Ejemplos de formato inteligente para brasileño-portugués
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en audio en portugués de Brasil.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | trinta e um de dezembro de mil novecentos e oitenta e oito | 31/12/1988 |
um do um de mil novecentos e oitenta e sete | 01/01/1987 | |
Horas | quinze pro meio dia | 11:45 |
meio dia e meia hora | 12:30 | |
ao meio dia e meio | ao 12:30 | |
às dez pras duas da madrugada | às 1:50 a.m. | |
às quinze para a meia noite | às 23:45 | |
Números | cento e quarenta e sete mil quatrocentos e cinquenta e um | 147451 |
um vírgula vinte e seis | 1,26 | |
Décimo primeiro | 11º | |
Números de teléfono | quatro cinco um dois três quatro cinco seis sete oito | (45) 1234-5678 |
onze nove nove oito meia cinco quinze zero dois | (11) 99865-1502 | |
nove vinte e sete vinte e oito trinta e sete trinta e oito | 92728-3738 | |
mais cinco cinco onze nove meia nove zero meia zero um quatro meia | +55 (11) 96906-0146 | |
Valores de moneda | vinte e cinco centavos | R$ 0,25 |
vinte e nove dólares e cinquenta centavos | 29.50 $ | |
vinte e cinco centavos | R$ 0,25 | |
Correo electrónico, URL, IP | a ponto b c arroba g mail ponto com | a.bc@gmail.com |
dáblio dáblio dáblio ponto a b c ponto es barra e f g | www.abc.es/efg | |
w w w ponto nvidia ponto com | www.nvidia.com | |
noventa e oito ponto setenta e seis ponto noventa e oito ponto dezesseis | 98.76.98.16 | |
Medidas | duzentos e quarenta e cinco quilômetros por hora | 245 kph |
duzentos e quarenta e cinco metros por segundo | 245 m/s | |
Secuencias | d dezesseis três nove c hífen f noventa e oito | d1639c-f98 |
Modelo f t doze x | Modelo ft12x |
Francés
- En las fechas, el ordinal
premier
se considera el 1st del mes. Las fechas se formatean comoDD/MM/YYYY
. - Las horas se identifican mediante palabras clave y prefijo, por ejemplo,
heures
,de l'après-midi
odu soir
,du matin
,midi
. Las horas se formatean como reloj 24H:HH h MM
- Los números de teléfono deben tener 9 o 10 dígitos (5 pares de dos dígitos). En los casos en los que sólo se admite un dígito del primer emparejamiento, se presupone que se ha omitido el 0. Los números se formatean como
NN NN NN NN NN
. - Cuando se utiliza la preposición
de
od'
para expresar la moneda, el símbolo de moneda no se utiliza para formatear. Esto suele ocurrir con números redondos grandes, por ejemplo,un milliard d'euro
formateados como1 milliard d'euro
. - Las direcciones de correo electrónico de Internet con formato común (por ejemplo,
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) tienen un formato inteligente.@
puede representarse por cualquiera de estos:arobase
,chez
,at
,à
. - Los cardenales menores de nueve no se convierten (para evitar
j'ai un pomme
->j'ai 1 pomme
y cualquier otra conversión extraña) - Para los ordinales, los "siècles" se expresan en números romanos cuando reciben un adjetivo ordinal.
dix-neuvième siècle
->XIXᵉ siècle
. - Se da soporte al formateo de fracciones. Por ejemplo,
un onzième
->1/11
. - La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las
series de palabras clave.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
).
Ejemplos de formato inteligente para francés
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en francés.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | jillet vingt-quatre deux-mille-treize | 24/7/2013 |
dix-huit mai dix-neuf cent trente | 18/5/1930 | |
Horas | huit heures du matin | 8 h |
onze heures cinquante-sept | 11 h 57 | |
deux heures de l' après-midi | 14 h | |
Números | cent quarante-sept mille quatre cent cinquante et une | 147451 |
moins vingt-cinq-mille-trente-sept | 25037 | |
vingt-troisièmes | 23es | |
quatre et deux quatrièmes | 4 2/4 | |
Números de teléfono | doble neuf douze trente-deux trente trente trente | 99 12 32 30 30 |
deux douze trente-deux trente trente | 02 12 32 30 30 | |
Valores de moneda | deux dólares vingt | 2,20 $ |
cinq euro et soixante | 5,60 € | |
quatre virgule quatre-vingt milliards d' euro | 4,80 millones de euros | |
Correo electrónico, URL, IP | a b trois point s d d punto trois arobase g mail point com | ab3.sdd.3@gmail.com |
w w w punto web point c o punto f r | www.web.co.fr | |
doble neuf punto trente-deux punto trente punto trente | 99.32.30.30 | |
Medidas | quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré | 42 259 /m² |
deux céntimos kilómetro heure | 200 km/h | |
Secuencias | le document numéro zéro deux trente-six vingt-quatre | le document numéro 023624 |
r t x dix-huit t i | rtx18ti |
Francocanadiense
- En fechas, el ordinal
premier
se considera 1st del mes. Las fechas se formatean comoDD/MM/YYYY
. - Las horas se identifican mediante palabras clave y prefijo, por ejemplo,
heures
,de l'après-midi
odu soir
,du matin
,midi
. Las horas se formatean como reloj 24H:HH h MM
- Los números de teléfono deben ser o bien
911
o un número que contenga 10 dígitos y/o comience con el número[+]1
. - Direcciones de correo electrónico de Internet con formato común (por ejemplo,
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) tienen un formato inteligente.@
puede estar representado por cualquiera de estos:arobase
,chez
,at
,à
. - Los cardenales menores de nueve no se convierten si aparecen en medio de otro texto (para evitar
j'ai un pomme
->j'ai 1 pomme
y otras conversiones extrañas). Se siguen formateando si se producen de forma aislada sin ningún otro texto. - Se da soporte al formateo de fracciones. p.ej.
un onzième
->1/11
- La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados/dictados para las
series de palabras clave.
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
), etc.
Ejemplos de formateo inteligente para franco-canadienses
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en audio franco-canadiense.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | jillet vingt-quatre deux-mille-treize | 24/7/2013 |
dix-huit mai dix-neuf cent trente | 18/5/1930 | |
Horas | huit heures du matin | 8 h |
onze heures cinquante-sept | 11 h 57 | |
deux heures de l' après-midi | 14 h | |
Números | cent quarante-sept mille quatre cent cinquante et une | 147451 |
moins vingt-cinq-mille-trente-sept | 25037 | |
vingt-troisièmes | 23es | |
quatre et deux quatrièmes | 4 2/4 | |
Números de teléfono | más un cinq un quatre cinq cinq cinq un deux trois quatre |
|
cinq un quatre quatre six neuf deux un zéro zéro zéro | 02 12 32 30 30 | |
Valores de moneda | deux dólares vingt | 2,20 $ |
Vingt dólares cinq | 20,05 $ | |
quatre virgule quatre-vingt milliards d' euro | 4,80 millones de euros | |
Correo electrónico, URL, IP | a b trois point s d d punto trois arobase g mail point com | ab3.sdd.3@gmail.com |
w w w punto web point c o punto f r | www.web.co.fr | |
doble neuf punto trente-deux punto trente punto trente | (514) 469-210 | |
Medidas | quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré | 42 259 /m² |
deux céntimos kilómetro heure | 200 km/h | |
Secuencias | le document numéro zéro deux trente-six vingt-quatre | le document numéro 023624 |
r t x dix-huit t i | rtx18ti |
Español
- En fechas, el ordinal
primero
se considera el 1st del mes. Las fechas se formatean comoDD/MM/YYYY
. - Las horas en punto o la hora sin artículo seguida de un sufijo (que indica a.m " o p.m "), se converted.e.g
las dos pe eme
. Las horas están formateadas como reloj de 24H:HH h MM
o como reloj de 12H con a.m./p.m - Los números de teléfono deben tener 8, 9 o 10 dígitos. Los números se formatean como
NNNN NNNN
oNNN NNN NNN
oNNN NNN NNNN
- Las direcciones de correo electrónico de Internet con formato común (Por ejemplo,
[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname
) tienen un formato inteligente. - Los cardenales menores de nueve no se convierten si aparecen en medio de otro texto (para evitar
un gato en el camino
->1 gato en el camino
y otras conversiones extrañas). Se siguen formateando si se producen de forma aislada sin ningún otro texto. - Se da soporte al formateo de fracciones. For example,
un décimo
->1/10
- La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las
series de palabras clave.
punto
(.
),interrogación
(?
),exclamación
(!
),punto y coma
(;
),guion medio
(-
), etc.
Ejemplos de formato inteligente para español
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en español.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | treinta y uno de diciembre de mil novecientos noventa y dos | 31/12/1992 |
dieciséis de septiembre dos mil dieciocho | 16/09/2018 | |
Horas | las dieciséis cincuenta | las 16:50 |
las dos a eme | las 2:00 a.m. | |
Números | mil novecientos cincuenta y ocho | 1958 |
una vez mil novecientos cincuenta y ocho | 11958 | |
décima primera | 11ª | |
un cuarentiunavo | 1/41 | |
Números de teléfono | nueve uno cinco cinco seis ocho tres uno | 914 556 8331 |
uno dos tres cuatro cinco seis siete ocho | 1234 5678 | |
Valores de moneda | dos euros noventa centavos | 2,90 € |
doce euros y cinco centavos | 12,05 € | |
nueve punto cinco millones de pesos | 9.5 millones de $ | |
Correo electrónico, URL | a b c arroba g mail punto a b c | abc@gmail.abc |
doble uve doble uve doble uve punto nvidia punto com | www.nvidia.com | |
Medidas | tres metros cúbicos | 3 m³ |
dos kilómetros por hora | 2 kph | |
Secuencias | cero dos tres seis dos cuatro | 023624 |
r t x cero dos tres w | rtx023w |
Alemán
- El formato de fecha admite tanto números como nombres de meses (por ejemplo,
zweiter
es lo mismo quefebruar
). Las fechas se formatean comoDD.MM.YYYY
. - Las horas se identifican mediante palabras clave, por ejemplo,
nach
uhr
,vor
,minuten
. La hora tiene el formato de reloj de 24 horas:HH:MM:SS
. - Los números de teléfono deben tener un prefijo de 3-4 dígitos que empiece por
0
seguido de un número de 8 dígitos. El código de país (+ 49) es opcional. El prefijo no debe empezar por0
si se utiliza el prefijo de país. Los números se formatean como "+49 [N]NN NNNNNNNN
o "0[N]NN NNNNNNNN
. - La mayoría de los símbolos de moneda se sustituyen por series en contextos adecuados, por ejemplo,
dollar
,cent
,euro
,yen
. - Se formatean las direcciones de correo electrónico de Internet con formato común (por ejemplo,
[alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname
). - Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo (
http/s
), subdominio (www
), puertos (443
,80
) y rutas (/help/abc
) - Los cardenales menores de nueve no se convierten para evitar conversiones impares o ambiguas.
- Se admite el formato de ordinales y fracciones.
- La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las
series de palabras clave.
komma
(,
),punkt
(.
),fragezeichen
(?
),ausrufezeichen
(!
),semikolon
(;
),bindestrich
(-
).
Ejemplos de formato inteligente para alemán
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en alemán.
Tipo de entidad | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | vierundzwanzigster juli zwei tausend dreizehn | 24.07.2013 |
dreizehnter zweiter zwei tausend zwanzig | 13.02.2020 | |
Horas | vierundzwanziguhrzweiundzwanzig | 24:22 Uhr |
sieben acht uhr | 08:07 Uhr | |
ein uhr eine minute eine sekunde | 01:01:01 Uhr | |
Números | menos fünf und zwanzig tausend sieben und dreißig | -25037 |
acht hundert achtzehn komma drei null drei | 818.303 | |
fünfundzwanzigtausendeinhundertelftem |
|
|
drei zwei ein hundertstel | 3 2/100 | |
Números de teléfono | Null vier eins eins eins eins zwei drei vier eins zwei drei vier | 0411 12341234 |
más vier neun vier eins eins eins zwei drei vier eins zwei drei vier | +49 411 12341234 | |
Valores de moneda | zwei komma null null eins null dólar | 2.0001 $ |
Centavo zweiundzwanzig | 0,22 € | |
Correo electrónico, URL, IP | a b drei bindestrich s d d bindestrich drei ät g mail punkt com | ab3-sdd-3@gmail.com |
h t t p s doppelpunkt slash slash w w w w punkt a b c punkt com slash a b | https://www.abc.com/ab | |
drei fünf punkt eins drei fünf punkt zwei vier punkt zwei vier | 35.135.24.24 | |
Medidas | zwei kilómetro pro stunde | 2 km/h |
vier hundert vierzig mililitro | 440 ml | |
Secuencias | c b vier drei bindestrich fünf drei fünf zwei vier zwei punkt vier drei fünf | cb43-535242.435 |
teilenummer f t strich zwölf p | teilenummer ft-12p |
Ejemplos de formato inteligente V2
En el ejemplo siguiente se solicita el formateo inteligente con una solicitud de reconocimiento estableciendo el parámetro smart_formatting
en true
. En las secciones siguientes se muestran los efectos del formateo
inteligente en los resultados de una solicitud.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
Formateo inteligente
La característica de formato inteligente es la funcionalidad beta que está disponible para inglés de EE.UU., japonés y español (todos los dialectos). También está disponible para el modelo " en-WW_Medical_Telephony
" cuando
se reconoce el audio en inglés de EE. UU.
El parámetro smart_formatting
indica al servicio que convierta las series siguientes en representaciones más convencionales:
- Fechas
- Horas
- Serie de dígitos y números
- Números de teléfono
- Valores de moneda (para inglés de EE. UU. y español)
- Direcciones web y de correo electrónico de Internet (para inglés de EE. UU. y español)
Para habilitar el formateo inteligente, establezca el parámetro smart_formatting
en true
. De forma predeterminada, el servicio no realiza el formateo inteligente. El servicio aplica el formateo inteligente justo antes
de devolver los resultados finales al cliente, cuando la normalización del texto se ha completado. La conversión consigue que la transcripción sea más legible y promueva un mejor proceso posterior de los resultados de la transcripción representando
estos artefactos como se escribirían normalmente.
¿A qué resultados afecta el formateo inteligente?
El formateo inteligente afecta a algunos resultados de transcripción y a otros no:
-
El formateo inteligente solo afecta a las palabras del campo
transcript
de los resultados finales, aquellos resultados para los que el campofinal
estrue
. No afecta a los resultados provisionales, para los que el valor definal
esfalse
. -
El formateo inteligente no afecta a las palabras de otros campos de la respuesta. Por ejemplo, el formateo inteligente no se aplica a los datos de respuesta de los campos
timestamps
oalternatives
. -
Las vacilaciones al hablar, como «uhm» y «uh», pueden afectar negativamente a la conversión de frases y cadenas mediante el formato inteligente para algunos idiomas. Los modelos de generación anterior producen marcadores de duda para sustituir tales vacilaciones en una transcripción. El formato inteligente tiene el siguiente efecto en los marcadores de duda para los modelos de generación anterior:
- Para el inglés de Estados Unidos, el formato inteligente suprime los marcadores de duda del campo
transcript
para obtener los resultados finales. - *Pare el japonés, * los marcadores de duda siguen apareciendo en los resultados finales.
- *Para el inglés de EE.UU. y también para el japonés, * los marcados de duda siguen apareciendo en los resultados provisionales.
- Para el español, el servicio no produce marcadores de duda para ningún resultado.
Los modelos de próxima generación no producen marcadores de duda. En su lugar, incluyen las vacilaciones reales en los resultados de la transcripción. El formateo inteligente no tiene ningún efecto en las vacilaciones que incluyen los modelos de próxima generación. Para obtener más información, consulte Titubeos y marcadores de duda.
- Para el inglés de Estados Unidos, el formato inteligente suprime los marcadores de duda del campo
Diferencias entre idiomas
El formateo inteligente se basa en la presencia de palabras clave obvias en la transcripción. Debido a las diferencias entre los idiomas soportados, el formateo inteligente funciona de forma ligeramente diferente para cada idioma. En las siguientes secciones se describen las series y el contenido que activan cambios en el formateo inteligente para inglés de EE. UU. y español y para japonés.
Inglés de EE. UU. y español
-
Las horas se identifican mediante palabras clave como, por ejemplo,
AM
,PM
oEST
. -
Las horas en formato de 24 horas se convierten si se identifican mediante la palabra clave
hours
(inglés de EE. UU.) uhoras
(español). -
Los números de teléfono deben ser
911
o un número de 10 u 11 dígitos que comience por el número1
. -
Los símbolos de moneda se sustituyen por las series siguientes en los contextos adecuados:
- Para inglés de EE. UU., dólar, centavo y euro.
- Para español, dólar, peso, peseta, libras esterlinas, libra y euro.
-
Las direcciones de correo electrónico de Internet se convierten en algunos casos. Específicamente, el servicio convierte direcciones de correo electrónico si el audio de entrada utiliza el fraseo
email address ... {address}
. En los ejemplos siguientes se muestra una conversión correcta de frases habladas:My email address is j dot d o e at i b m dot com
se convierte enMy email address is j.doe@ibm.com
.Mi correo electronico es j punto d o e arroba i b m punto com
se convierte enMi correo electronico es j.doe@ibm.com
.
-
Las direcciones web de Internet se convierten en sus formas abreviadas. Las direcciones web totalmente calificadas no se convierten. En los ejemplos siguientes se muestran conversiones completas:
I saw the story on yahoo dot com
se convierte enI saw the story on yahoo.com
.Vi la historia en yahoo punto com
se convierte enVi la historia en yahoo.com
.
En los siguientes ejemplos se muestran conversaciones incompletas:
I saw the story on w w w dot yahoo dot com
se convierte enI saw the story on w w w .yahoo.com
.Vi la historia en w w w punto yahoo punto com
se convierte enVi la historia en w w w .yahoo.com
.
-
Una conversión con números grandes y valores de moneda puede resultar un desafío. El servicio convierte correctamente dígitos y muchos números. Pero los mayores y más complejos y los valores de moneda funcionan mejor con frases más precisas. Por ejemplo, el servicio convierte correctamente las siguientes transcripciones porque las palabras son precisas:
sixty nine thousand five hundred sixty dollars and twenty five cents
se convierte en$69560.25
,sixty nine thousand five hundred sixty dollars point twenty five
se convierte en$69560.25
.
Pero el servicio no puede convertir correctamente las siguientes transcripciones menos precisas:
sixty nine thousand five sixty dollars and twenty five cents
se convierte en60 9000 $560.25
.sixty nine thousand five sixty dollars point twenty five
se convierte en60 9000 $560.25
.
Para convertir correctamente la mayor variedad posible de números complejos, debe experimentar con los resultados del formateo inteligente y personalizar sus propios programas de utilidad posteriores al proceso.
-
Para inglés de EE. UU., se añaden determinados signos de puntuación para palabras clave especiales que aparecen en lugares adecuados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación para las siguientes series de palabras clave basándose en el lugar en el que los encuentra en una transcripción:
Comma
(,
)Period
(.
)Question mark
(?
)Exclamation point
(!
)
El servicio convierte estas cadenas de palabras clave en símbolos solo en las posiciones adecuadas de una transcripción. En el siguiente ejemplo, el orador dice la palabra
period
al final de la frase:the warranty period is short period
pasa athe warranty period is short.
El servicio diferencia correctamente entre el nombre que aparece antes en la frase y el punto final.
Japonés
-
Los números de teléfono deben tener 10 u 11 dígitos y deben comenzar por prefijos válidos para números de teléfono en Japón. Por ejemplo, algunos de los prefijos válidos son
03
y090
. -
Las palabras en inglés se convierten en caracteres ASCII (hankaku). Por ejemplo,
IBM
se convierte enIBM
. -
Es posible que los términos ambiguos no se conviertan si no hay suficiente contexto disponible. Por ejemplo, no está claro si
一時
y十分
se refieren a horas. -
La puntuación se gestiona del mismo modo con o sin formateo inteligente. Por ejemplo, en función de cálculos de probabilidad, se selecciona uno de
カンマ
o,
. -
Las series que describen los valores de yen no se sustituyen por el símbolo de moneda del yen.
-
Las direcciones web y de correo electrónico de internet de cualquier formato no se convierten.
-
El modelo de banda estrecha japonés (
ja-JP_NarrowbandModel
) incluye algunas unidades de palabras multigramo para dígitos y fracciones decimales. El servicio devuelve estas unidades multigramo independientemente de si ha habilitado el formateo inteligente. En los ejemplos siguientes se muestran las unidades que devuelve el servicio. Los números entre paréntesis muestran la expresión numérica en árabe equivalente para cada unidad.- Dígitos:
〇一
(01), ...,〇九
(09),一〇
(10), ...,九〇
(90) - Fracciones decimales:
〇・
(0.),一・
(1.), ...,十・
(10.)
La característica de formateo inteligente entiende y devuelve las unidades multigramo que genera el modelo. Si aplica su propio postproceso a los resultados de la transcripción, deberá manejar estas unidades adecuadamente.
- Dígitos:
Resultados del formateo inteligente
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en un audio en inglés de Estados Unidos.
Información | Sin formateo inteligente | Con formateo inteligente |
---|---|---|
Fechas | I was born on ten oh six nineteen seventy | I was born on 10/6/1970 |
I was born on the ninth of December nineteen hundred | I was born on 12/9/1900 | |
Today is June sixth | Today is June 6 | |
Horas | The meeting starts at nine thirty AM | The meeting starts at 9:30 AM |
I am available at seven EST | I am available at 7:00 EST | |
We meet at oh seven hundred hours | We meet at 0700 hours | |
Números | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
Números de teléfono | Call me at nine one four two three seven one thousand | Call me at 914-237-1000 |
Call me at one nine one four nine oh nine twenty six forty five | Call me at 1-914-909-2645 | |
Valores de moneda | You owe me three thousand two hundred two dollars and sixty six | You owe me $3202.66 |
The dollar rose to one hundred and nine point seven nine yen from |
one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen |
| Direcciones web y direcciones de correo electrónico de internet | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com | | | I saw the story on yahoo dot com | I saw the story on yahoo.com | | Combinaciones | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 | | | There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |
Resultados del formateo inteligente para pausas largas
En los casos en los que una expresión contiene pausas de silencio suficientemente largos, el servicio puede dividir la transcripción en dos o más resultados finales. Esto afecta al contenido de la respuesta, como se muestra en los siguientes ejemplos.
Conversación de audio | Resultados de la transcripción formateada |
---|---|
My phone number is nine one four five five seven three |
three nine two | "My phone number is 914-557-3392" |
| My phone number is nine one four ...pause... five five seven three three nine two | "My phone number is 914" \n "5573392" |
Para obtener más información sobre cómo especificar un intervalo de pausa que afecte a la respuesta del servicio, consulte Tiempo de silencio de fin de frase.
Ejemplo de formateo inteligente
En el ejemplo siguiente se solicita el formateo inteligente con una solicitud de reconocimiento estableciendo el parámetro smart_formatting
en true
. En las secciones siguientes se muestran los efectos del formateo
inteligente en los resultados de una solicitud.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
Ocultación numérica
La característica de ocultación numérica es una funcionalidad beta que está disponible en inglés de EE. UU., japonés y coreano.
El parámetro redaction
indica al servicio que oculte, o enmascare, datos numéricos de las transcripciones finales. La característica oculta cualquier número que tenga tres o más dígitos consecutivos sustituyendo cada dígito por
el carácter X
. Está característica está pensada para ocultar datos numéricos confidenciales, como números de tarjetas de crédito.
De forma predeterminada, el servicio no oculta los datos numéricos. Establezca el parámetro redaction
en true
para habilitar la ocultación numérica. Cuando habilita la redacción, el servicio habilita automáticamente
el formato inteligente estableciendo el parámetro smart_formatting
en true
, independientemente de si inhabilita explícitamente esa característica. Para garantizar la máxima seguridad, el servicio también inhabilita
los parámetros siguientes cuando habilita la redacción:
- El servicio desactiva la detección de palabras clave, independientemente de si especifica valores para los parámetros
keywords
ykeywords_threshold
. - El servicio inhabilita las alternativas máximas, independientemente de si especifica un valor mayor que 1 para el parámetro
max_alternatives
. El servicio sólo devuelve una única transcripción final. - El servicio inhabilita los resultados provisionales para la interfaz WebSocket, independientemente de si establece el parámetro
interim_results
entrue
.
El diseño de la característica iguala la característica de formateo inteligente existente. El servicio solo aplica la ocultación a la transcripción final de una solicitud de reconocimiento, justo antes de devolver los resultados al cliente y después de que se complete la normalización del texto.
Diferencias entre idiomas
La característica funciona exactamente tal como se describe para los modelos en inglés de EE. UU., pero tiene las siguientes diferencias para los modelos en japonés y en coreano.
Japonés
La ocultación en japonés tiene las siguientes diferencias:
-
Además de enmascarar series de tres o más dígitos consecutivos, la ocultación también enmascara direcciones y números, aunque contengan menos de tres dígitos.
-
Del mismo modo, la ocultación también enmascara información de fechas en fechas de nacimiento de estilo japonés. En japonés, la información de fecha se suele presentar en formato de era común, pero a veces sigue el estilo japonés, especialmente para las fechas de nacimiento. En este caso, el año y el mes se enmascaran, aunque solo contienen uno o dos dígitos.
Por ejemplo, una fecha de nacimiento de estilo japonés sin redacción es
平成 30年 2月
. Con la redacción, la fecha pasa a ser平成 XX年 X月
.
Coreano
La ocultación en coreano tiene las siguientes diferencias:
-
La característica de formateo inteligente no recibe soporte. El servicio sigue efectuando ocultaciones numéricas para coreano, pero no realiza ningún otro formateo inteligente.
-
Los caracteres digitales aislados se ocultan, pero los posibles caracteres digitales incluidos como parte de frases en coreano no se ocultan. Por ejemplo, el carácter
이
en la siguiente frase no se sustituye por unX
porque está junto al siguiente carácter:이입니다
Si el carácter
이
estuviera separado del siguiente carácter por un espacio, sería reemplazado por unX
, como se describe en Resultados de la censura numérica.
Resultados de la ocultación numérica
En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin ocultación numérica en cada idioma soportado.
Idioma | Sin redacción | Con redacción |
---|---|---|
Inglés norteamericano | my credit card number is four one four seven two | my credit card number is XXXXX |
Japonés | {\cs6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\ | No obstante, no se ha de |
Coreano | Por su parte, la Comisión se ha | No obstante, no se han de reaLar los datos de la |
Ejemplo de ocultación numérica
En el ejemplo siguiente se solicita la ocultación numérica con una solicitud de reconocimiento estableciendo el parámetro redaction
en true
. Debido a que la solicitud habilita la ocultación, el servicio habilita implícitamente
el formateo inteligente con la solicitud. El servicio inhabilita de forma efectiva los otros parámetros de la solicitud para que no tengan ningún efecto: el servicio devuelve una sola transcripción final y no reconoce ninguna palabra clave.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
Filtrado de lenguaje obsceno
La característica de filtrado de lenguaje obsceno generalmente está disponible sólo para inglés de EE.UU. y japonés.
El parámetro profanity_filter
indica si el servicio va a censurar el lenguaje obsceno en sus resultados. De forma predeterminada, el servicio oculta el lenguaje obsceno y lo sustituye por una serie de asteriscos en la transcripción.
Si se establece el parámetro en false
, se visualizan las palabras en la salida exactamente tal y como se transcriben.
El servicio censura el lenguaje obsceno de todas las transcripciones finales y de todas las transcripciones alternativas. También censura el lenguaje obsceno de los resultados asociados con alternativas a palabras, con niveles de confianza de
las palabras y con indicaciones de fecha y hora. La única excepción es la detección de palabras clave, para la que el servicio devuelve todas las palabras tal como las especifica el usuario, independientemente de si el valor de profanity_filter
es true
.
Ejemplo de filtrado de lenguaje obsceno
En el ejemplo siguiente se muestran los resultados de un breve archivo de audio que se transcribe con el valor true
predeterminado para el parámetro profanity_filter
. La solicitud también establece el parámetro word_alternatives_threshold
en un valor relativamente alto, 0.99
, y los parámetros word_confidence
y timestamps
en true
.
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
El servicio enmascara el lenguaje obsceno de la respuesta sustituyéndolo por una serie de asteriscos:
{
"result_index": 0,
"results": [
{
"word_alternatives": [
{
"start_time": 0.03,
"alternatives": [
{
"confidence": 1.0,
"word": "****"
}
],
"end_time": 0.25
},
{
"start_time": 0.25,
"alternatives": [
{
"confidence": 0.99,
"word": "you"
}
],
"end_time": 0.56
}
],
"alternatives": [
{
"transcript": "**** you",
"confidence": 0.99,
"word_confidence": [
["****", 1.0],
["you", 0.99]
],
"timestamps": [
["****", 0.03, 0.25],
["you", 0.25, 0.56]
]
}
],
"final": true
}
]
}