IBM Cloud Docs
Formato y filtrado de la respuesta

Formato y filtrado de la respuesta

El servicio IBM Watson® Speech to Text proporciona tres características que puede utilizar para analizar los resultados de la transcripción. Puede dar formato a una transcripción final para incluir representaciones más convencionales de ciertas series y para incluir la puntuación. Puede redactar información numérica sensible a partir de una transcripción final y puede filtrar el lenguaje obsceno de la mayoría de los resultados de la transcripción. Todas estas características son de funcionalidad beta y están restringidas a ciertos idiomas.

Formato inteligente Versión 2

La nueva versión de la función de formato inteligente está disponible para inglés estadounidense, portugués brasileño, francés, alemán, castellano, español latinoamericano y francés canadiense. También está disponible para el modelo en-WW_Medical_Telephony cuando se reconoce el audio en inglés estadounidense.

La nueva versión:

  • Proporciona más flexibilidad en la adición de nuevos lenguajes y patrones en comparación con el formato inteligente más antiguo.
  • utiliza una técnica de aprendizaje automático más sofisticada (transductores de estados finitos ponderados) para identificar entidades en los textos, en comparación con la versión anterior, que se basaba en reglas.
  • proporciona una clasificación y un formato más precisos de las entidades y también añade la capacidad de definir jerarquías mediante el uso de ponderaciones cuando un mismo texto puede identificarse como dos tipos de entidad diferentes.

La función " smart_formatting " (convertir texto) hace que el servicio convierta las siguientes cadenas de texto en representaciones más convencionales:

  • Fechas y horas
  • Enteros, decimales, ordinales
  • Secuencias alfanuméricas (de longitud > 2)
  • Números de teléfono
  • Valores de moneda
  • Medidas ( /km², kg, mph, , etc.)
  • Correos electrónicos, URL y direcciones IP
  • Números de tarjeta de crédito (formateados como grupos de 4 dígitos)
  • Puntuaciones (como se dice en los dictados)

Para utilizar la nueva función de formato inteligente en inglés de EE.UU., portugués de Brasil, francés, alemán, castellano, español de América Latina y francés de Canadá, establezca el parámetro smart_formatting=true y smart_formatting_version=2.

Patrones de entidad y ejemplos

Inglés norteamericano

  • Se aceptan diferentes formas habladas de fechas, incluidas las fechas como números o nombres de meses y el uso de the y of (the twenty fifth of july twenty twelve). Las fechas se formatean como m/d/yyyy.
  • Las horas se identifican mediante palabras clave o sufijos, por ejemplo, zonas horarias (por ejemplo, est, eastern ), am, pm, hours, o'clock, minutes past hour.
  • Los números de teléfono deben ser o bien 911 o un número que contenga 10 dígitos y/o comience con el número [+]1.
  • Los símbolos de moneda se sustituyen por cadenas en los contextos apropiados para, por ejemplo, dollar, cent, euro, yen. cent es opcional después de dollar, por ejemplo, twelve dollars twenty five y twelve dollars twenty five cents formateados como $12.25.
  • Direcciones de correo electrónico de Internet con formato común (por ejemplo, [alphanumeric+symbols]+ at [alphanumeric dot]+ domainname ) tienen un formato inteligente.
  • Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo ( http/s ), subdominio ( www ), puertos ( 443, 80 ) y rutas ( /help/abc ).
  • La mayoría de los enteros grandes se formatean como secuencias numéricas. Cuando los números grandes (millones, billones) se pronuncian como números enteros de un solo grupo, la palabra de cantidad million/billion no se convierte para facilitar la lectura, por ejemplo, fifty nine million-> 59 million pero cuando el número es más complejo, se formatea como dígitos numéricos, por ejemplo, fifty nine million and one-> 59000001.
  • Los números inferiores a 10 no se convierten en dígitos para evitar formatos extraños, por ejemplo, You are one of them-> You are 1 of them. Pero en otros contextos, como la expresión de divisas, sí se convierten, por ejemplo, Give me one dollar-> Give me $1.
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las series de palabras clave.
    • comma (,), period (.), question mark (?), exclamation point (!), semicolon (;), hyphen (-).

Ejemplos de formato inteligente

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en un audio en inglés de Estados Unidos.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas julio veinticinco veinticinco dos mil doce 25/7/2012
el veinticinco quinto de julio de veinte doce 25/7/2012
enero de los treinta primeros dos mil 1/31/2000
cero cinco cero cinco diecinueve ochenta tres 5/5/1983
segundo trimestre de veintidós Q2 2022
Horas es dos once este es 02:11 est
comenzamos a las sietecientas horas empezamos a las 07:00
trimestre pasado uno 01:15
tres en punto 03:00
Números The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
Costaría cinco puntos dos millones Costaría 5.2 millones
Su ciento veintidós primeros ensayos Su 121st versión de prueba
Números de teléfono nueve uno cuatro cinco seis ocho tres tres uno 914-556-8331
más uno nueve dos tres uno dos tres cinco seis siete ocho
  • 1 923-123-5678
Valores de moneda Usted me debe cuatro dólares de los Estados Unidos y sesenta y nueve centavos Me debes $ 4.69
setenta y cinco dólares sesenta y tres $75.63
Dólar subió a ciento nueve puntos siete nueve yenes El dólar subió a ¥109.79
Correo electrónico, URL, IP Vi la historia en w w w punto yahoo punto com Vi la historia en www.yahoo.com
a b tres guiones s d d dash tres a g mail punto com ab3-sdd-3@gmail.com
h t t p dos puntos barra inclinada w w w dot c o m d a i l y n e w s punto a b barra s m http://www.comdailynews.ab/sm
dos dos cinco dot doble cinco dot o dot cuarenta y cinco 225.55.0.45
Medidas doscientos kilómetros por hora 200 km/h
dos kilo vatios por hora 2 kWh
Secuencias H F H nueve nueve tres puntos siete B HFH993.7B
una pantalla de diez ochenta p una pantalla 1080p

Brasileño-Portugués

  • Para las fechas, do y de en la transcripción se utilizan como separadores para el día, el mes y el año. primeiro se considera el 1st del mes. Las fechas se formatean como DD/MM/YYYY.
  • Las horas se identifican por palabras clave y prefijo, por ejemplo, às ao, à, da tarde ( p.m. ), da madrugada ( a.m. ), meia noite, meio dia. Los prefijos às ao, à son opcionales.
  • Los números de línea fija deben tener 10 dígitos (código de país de 2 dígitos y número de 8 dígitos), los números móviles son de 9 dígitos con el primer dígito como 9 con el código de país opcional. Los códigos de área son opcionales. Los números se formatean como " +NN (NN) NNNN-NNNN y " +NN (NN) 9NNNN-NNNN.
  • El símbolo de moneda real de Brasil es R$. Otros símbolos de moneda se sustituyen por series en contextos adecuados, por ejemplo, dollar, cent, euro, yen. centavos es opcional después de reais por ejemplo, setenta e cinco dólares e sessenta e três y setenta e cinco dólares e sessenta e três centavos formateado como R$75,63
  • Direcciones de correo electrónico de Internet con formato común (por ejemplo, [alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname ) tienen un formato inteligente.
  • Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo ( http/s ), subdominio ( www ), puertos ( 443, 80 ) y rutas ( /help/abc ).
  • La mayoría de los enteros grandes se formatean como secuencias numéricas. Cuando los números grandes (milhões, bilhões, etc.) se pronuncian como números enteros de un solo grupo, la palabra de cantidad milhões/bilhões no se convierte para facilitar la lectura, por ejemplo, doze milhões-> 12 milhões, pero cuando el número es más complejo, se formatea como dígitos numéricos, por ejemplo, doze milhões e um-> 12000001.
  • Los números menores de 10 no se formatean a dígitos para evitar conversiones impares, por ejemplo, vivo em uma casa-- > vivo em 1 casa.
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las series de palabras clave.
    • vírgula (,), ponto (.), ponto de interrogação (?), ponto de exclamação (!), ponto e vírgula (;), hífen (-).

Ejemplos de formato inteligente para brasileño-portugués

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en audio en portugués de Brasil.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas trinta e um de dezembro de mil novecentos e oitenta e oito 31/12/1988
um do um de mil novecentos e oitenta e sete 01/01/1987
Horas quinze pro meio dia 11:45
meio dia e meia hora 12:30
ao meio dia e meio ao 12:30
às dez pras duas da madrugada às 1:50 a.m.
às quinze para a meia noite às 23:45
Números cento e quarenta e sete mil quatrocentos e cinquenta e um 147451
um vírgula vinte e seis 1,26
Décimo primeiro 11º
Números de teléfono quatro cinco um dois três quatro cinco seis sete oito (45) 1234-5678
onze nove nove oito meia cinco quinze zero dois (11) 99865-1502
nove vinte e sete vinte e oito trinta e sete trinta e oito 92728-3738
mais cinco cinco onze nove meia nove zero meia zero um quatro meia +55 (11) 96906-0146
Valores de moneda vinte e cinco centavos R$ 0,25
vinte e nove dólares e cinquenta centavos 29.50 $
vinte e cinco centavos R$ 0,25
Correo electrónico, URL, IP a ponto b c arroba g mail ponto com a.bc@gmail.com
dáblio dáblio dáblio ponto a b c ponto es barra e f g www.abc.es/efg
w w w ponto nvidia ponto com www.nvidia.com
noventa e oito ponto setenta e seis ponto noventa e oito ponto dezesseis 98.76.98.16
Medidas duzentos e quarenta e cinco quilômetros por hora 245 kph
duzentos e quarenta e cinco metros por segundo 245 m/s
Secuencias d dezesseis três nove c hífen f noventa e oito d1639c-f98
Modelo f t doze x Modelo ft12x

Francés

  • En las fechas, el ordinal premier se considera el 1st del mes. Las fechas se formatean como DD/MM/YYYY.
  • Las horas se identifican mediante palabras clave y prefijo, por ejemplo, heures, de l'après-midi o du soir, du matin, midi. Las horas se formatean como reloj 24H: HH h MM
  • Los números de teléfono deben tener 9 o 10 dígitos (5 pares de dos dígitos). En los casos en los que sólo se admite un dígito del primer emparejamiento, se presupone que se ha omitido el 0. Los números se formatean como NN NN NN NN NN.
  • Cuando se utiliza la preposición de o d' para expresar la moneda, el símbolo de moneda no se utiliza para formatear. Esto suele ocurrir con números redondos grandes, por ejemplo, un milliard d'euro formateados como 1 milliard d'euro.
  • Las direcciones de correo electrónico de Internet con formato común (por ejemplo, [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) tienen un formato inteligente. @ puede representarse por cualquiera de estos: arobase, chez, at, à.
  • Los cardenales menores de nueve no se convierten (para evitar j'ai un pomme-> j'ai 1 pomme y cualquier otra conversión extraña)
  • Para los ordinales, los "siècles" se expresan en números romanos cuando reciben un adjetivo ordinal. dix-neuvième siècle-> XIXᵉ siècle.
  • Se da soporte al formateo de fracciones. Por ejemplo,un onzième-> 1/11.
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las series de palabras clave.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-).

Ejemplos de formato inteligente para francés

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en francés.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas jillet vingt-quatre deux-mille-treize 24/7/2013
dix-huit mai dix-neuf cent trente 18/5/1930
Horas huit heures du matin 8 h
onze heures cinquante-sept 11 h 57
deux heures de l' après-midi 14 h
Números cent quarante-sept mille quatre cent cinquante et une 147451
moins vingt-cinq-mille-trente-sept 25037
vingt-troisièmes 23es
quatre et deux quatrièmes 4 2/4
Números de teléfono doble neuf douze trente-deux trente trente trente 99 12 32 30 30
deux douze trente-deux trente trente 02 12 32 30 30
Valores de moneda deux dólares vingt 2,20 $
cinq euro et soixante 5,60 €
quatre virgule quatre-vingt milliards d' euro 4,80 millones de euros
Correo electrónico, URL, IP a b trois point s d d punto trois arobase g mail point com ab3.sdd.3@gmail.com
w w w punto web point c o punto f r www.web.co.fr
doble neuf punto trente-deux punto trente punto trente 99.32.30.30
Medidas quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré 42 259 /m²
deux céntimos kilómetro heure 200 km/h
Secuencias le document numéro zéro deux trente-six vingt-quatre le document numéro 023624
r t x dix-huit t i rtx18ti

Francocanadiense

  • En fechas, el ordinal premier se considera 1st del mes. Las fechas se formatean como DD/MM/YYYY.
  • Las horas se identifican mediante palabras clave y prefijo, por ejemplo, heures, de l'après-midi o du soir, du matin, midi. Las horas se formatean como reloj 24H: HH h MM
  • Los números de teléfono deben ser o bien 911 o un número que contenga 10 dígitos y/o comience con el número [+]1.
  • Direcciones de correo electrónico de Internet con formato común (por ejemplo, [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) tienen un formato inteligente. @ puede estar representado por cualquiera de estos: arobase, chez, at, à.
  • Los cardenales menores de nueve no se convierten si aparecen en medio de otro texto (para evitar j'ai un pomme-> j'ai 1 pomme y otras conversiones extrañas). Se siguen formateando si se producen de forma aislada sin ningún otro texto.
  • Se da soporte al formateo de fracciones. p.ej.un onzième-> 1/11
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados/dictados para las series de palabras clave.
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-), etc.

Ejemplos de formateo inteligente para franco-canadienses

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en audio franco-canadiense.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas jillet vingt-quatre deux-mille-treize 24/7/2013
dix-huit mai dix-neuf cent trente 18/5/1930
Horas huit heures du matin 8 h
onze heures cinquante-sept 11 h 57
deux heures de l' après-midi 14 h
Números cent quarante-sept mille quatre cent cinquante et une 147451
moins vingt-cinq-mille-trente-sept 25037
vingt-troisièmes 23es
quatre et deux quatrièmes 4 2/4
Números de teléfono más un cinq un quatre cinq cinq cinq un deux trois quatre
  • 1 (514) 555-1234
cinq un quatre quatre six neuf deux un zéro zéro zéro 02 12 32 30 30
Valores de moneda deux dólares vingt 2,20 $
Vingt dólares cinq 20,05 $
quatre virgule quatre-vingt milliards d' euro 4,80 millones de euros
Correo electrónico, URL, IP a b trois point s d d punto trois arobase g mail point com ab3.sdd.3@gmail.com
w w w punto web point c o punto f r www.web.co.fr
doble neuf punto trente-deux punto trente punto trente (514) 469-210
Medidas quarante-deux-mille-deux-cent-cinquante-neuf par mètre carré 42 259 /m²
deux céntimos kilómetro heure 200 km/h
Secuencias le document numéro zéro deux trente-six vingt-quatre le document numéro 023624
r t x dix-huit t i rtx18ti

Español

  • En fechas, el ordinal primero se considera el 1st del mes. Las fechas se formatean como DD/MM/YYYY.
  • Las horas en punto o la hora sin artículo seguida de un sufijo (que indica a.m " o p.m "), se converted.e.g las dos pe eme. Las horas están formateadas como reloj de 24H: HH h MM o como reloj de 12H con a.m./p.m
  • Los números de teléfono deben tener 8, 9 o 10 dígitos. Los números se formatean como NNNN NNNN o NNN NNN NNN o NNN NNN NNNN
  • Las direcciones de correo electrónico de Internet con formato común (Por ejemplo, [alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname ) tienen un formato inteligente.
  • Los cardenales menores de nueve no se convierten si aparecen en medio de otro texto (para evitar un gato en el camino-> 1 gato en el camino y otras conversiones extrañas). Se siguen formateando si se producen de forma aislada sin ningún otro texto.
  • Se da soporte al formateo de fracciones. For example, un décimo-> 1/10
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las series de palabras clave.
    • punto ( . ), interrogación ( ? ), exclamación ( ! ), punto y coma ( ; ), guion medio ( - ), etc.

Ejemplos de formato inteligente para español

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en español.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas treinta y uno de diciembre de mil novecientos noventa y dos 31/12/1992
dieciséis de septiembre dos mil dieciocho 16/09/2018
Horas las dieciséis cincuenta las 16:50
las dos a eme las 2:00 a.m.
Números mil novecientos cincuenta y ocho 1958
una vez mil novecientos cincuenta y ocho 11958
décima primera 11ª
un cuarentiunavo 1/41
Números de teléfono nueve uno cinco cinco seis ocho tres uno 914 556 8331
uno dos tres cuatro cinco seis siete ocho 1234 5678
Valores de moneda dos euros noventa centavos 2,90 €
doce euros y cinco centavos 12,05 €
nueve punto cinco millones de pesos 9.5 millones de $
Correo electrónico, URL a b c arroba g mail punto a b c abc@gmail.abc
doble uve doble uve doble uve punto nvidia punto com www.nvidia.com
Medidas tres metros cúbicos 3 m³
dos kilómetros por hora 2 kph
Secuencias cero dos tres seis dos cuatro 023624
r t x cero dos tres w rtx023w

Alemán

  • El formato de fecha admite tanto números como nombres de meses (por ejemplo, zweiter es lo mismo que februar ). Las fechas se formatean como DD.MM.YYYY.
  • Las horas se identifican mediante palabras clave, por ejemplo, nach uhr, vor, minuten. La hora tiene el formato de reloj de 24 horas: HH:MM:SS.
  • Los números de teléfono deben tener un prefijo de 3-4 dígitos que empiece por 0 seguido de un número de 8 dígitos. El código de país (+ 49) es opcional. El prefijo no debe empezar por 0 si se utiliza el prefijo de país. Los números se formatean como " +49 [N]NN NNNNNNNN o " 0[N]NN NNNNNNNN.
  • La mayoría de los símbolos de moneda se sustituyen por series en contextos adecuados, por ejemplo, dollar, cent, euro, yen.
  • Se formatean las direcciones de correo electrónico de Internet con formato común (por ejemplo, [alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname ).
  • Los URL web, tanto de formato corto como largo, están formateados. Incluye protocolo ( http/s ), subdominio ( www ), puertos ( 443, 80 ) y rutas ( /help/abc )
  • Los cardenales menores de nueve no se convierten para evitar conversiones impares o ambiguas.
  • Se admite el formato de ordinales y fracciones.
  • La mayoría de los símbolos de puntuación se añaden para palabras clave especiales que aparecen en lugares apropiados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación hablados o dictados para las series de palabras clave.
    • komma (,), punkt (.), fragezeichen (?), ausrufezeichen (!), semikolon (;), bindestrich (-).

Ejemplos de formato inteligente para alemán

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en el audio en alemán.

Formato inteligente de transcripciones de ejemplo
Tipo de entidad Sin formateo inteligente Con formateo inteligente
Fechas vierundzwanzigster juli zwei tausend dreizehn 24.07.2013
dreizehnter zweiter zwei tausend zwanzig 13.02.2020
Horas vierundzwanziguhrzweiundzwanzig 24:22 Uhr
sieben acht uhr 08:07 Uhr
ein uhr eine minute eine sekunde 01:01:01 Uhr
Números menos fünf und zwanzig tausend sieben und dreißig -25037
acht hundert achtzehn komma drei null drei 818.303
fünfundzwanzigtausendeinhundertelftem
drei zwei ein hundertstel 3 2/100
Números de teléfono Null vier eins eins eins eins zwei drei vier eins zwei drei vier 0411 12341234
más vier neun vier eins eins eins zwei drei vier eins zwei drei vier +49 411 12341234
Valores de moneda zwei komma null null eins null dólar 2.0001 $
Centavo zweiundzwanzig 0,22 €
Correo electrónico, URL, IP a b drei bindestrich s d d bindestrich drei ät g mail punkt com ab3-sdd-3@gmail.com
h t t p s doppelpunkt slash slash w w w w punkt a b c punkt com slash a b https://www.abc.com/ab
drei fünf punkt eins drei fünf punkt zwei vier punkt zwei vier 35.135.24.24
Medidas zwei kilómetro pro stunde 2 km/h
vier hundert vierzig mililitro 440 ml
Secuencias c b vier drei bindestrich fünf drei fünf zwei vier zwei punkt vier drei fünf cb43-535242.435
teilenummer f t strich zwölf p teilenummer ft-12p

Ejemplos de formato inteligente V2

En el ejemplo siguiente se solicita el formateo inteligente con una solicitud de reconocimiento estableciendo el parámetro smart_formatting en true. En las secciones siguientes se muestran los efectos del formateo inteligente en los resultados de una solicitud.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

Formateo inteligente

La característica de formato inteligente es la funcionalidad beta que está disponible para inglés de EE.UU., japonés y español (todos los dialectos). También está disponible para el modelo " en-WW_Medical_Telephony " cuando se reconoce el audio en inglés de EE. UU.

El parámetro smart_formatting indica al servicio que convierta las series siguientes en representaciones más convencionales:

  • Fechas
  • Horas
  • Serie de dígitos y números
  • Números de teléfono
  • Valores de moneda (para inglés de EE. UU. y español)
  • Direcciones web y de correo electrónico de Internet (para inglés de EE. UU. y español)

Para habilitar el formateo inteligente, establezca el parámetro smart_formatting en true. De forma predeterminada, el servicio no realiza el formateo inteligente. El servicio aplica el formateo inteligente justo antes de devolver los resultados finales al cliente, cuando la normalización del texto se ha completado. La conversión consigue que la transcripción sea más legible y promueva un mejor proceso posterior de los resultados de la transcripción representando estos artefactos como se escribirían normalmente.

¿A qué resultados afecta el formateo inteligente?

El formateo inteligente afecta a algunos resultados de transcripción y a otros no:

  • El formateo inteligente solo afecta a las palabras del campo transcript de los resultados finales, aquellos resultados para los que el campo final es true. No afecta a los resultados provisionales, para los que el valor de final es false.

  • El formateo inteligente no afecta a las palabras de otros campos de la respuesta. Por ejemplo, el formateo inteligente no se aplica a los datos de respuesta de los campos timestamps o alternatives.

  • Las vacilaciones al hablar, como «uhm» y «uh», pueden afectar negativamente a la conversión de frases y cadenas mediante el formato inteligente para algunos idiomas. Los modelos de generación anterior producen marcadores de duda para sustituir tales vacilaciones en una transcripción. El formato inteligente tiene el siguiente efecto en los marcadores de duda para los modelos de generación anterior:

    • Para el inglés de Estados Unidos, el formato inteligente suprime los marcadores de duda del campo transcript para obtener los resultados finales.
    • *Pare el japonés, * los marcadores de duda siguen apareciendo en los resultados finales.
    • *Para el inglés de EE.UU. y también para el japonés, * los marcados de duda siguen apareciendo en los resultados provisionales.
    • Para el español, el servicio no produce marcadores de duda para ningún resultado.

    Los modelos de próxima generación no producen marcadores de duda. En su lugar, incluyen las vacilaciones reales en los resultados de la transcripción. El formateo inteligente no tiene ningún efecto en las vacilaciones que incluyen los modelos de próxima generación. Para obtener más información, consulte Titubeos y marcadores de duda.

Diferencias entre idiomas

El formateo inteligente se basa en la presencia de palabras clave obvias en la transcripción. Debido a las diferencias entre los idiomas soportados, el formateo inteligente funciona de forma ligeramente diferente para cada idioma. En las siguientes secciones se describen las series y el contenido que activan cambios en el formateo inteligente para inglés de EE. UU. y español y para japonés.

Inglés de EE. UU. y español

  • Las horas se identifican mediante palabras clave como, por ejemplo, AM, PM o EST.

  • Las horas en formato de 24 horas se convierten si se identifican mediante la palabra clave hours (inglés de EE. UU.) u horas (español).

  • Los números de teléfono deben ser 911 o un número de 10 u 11 dígitos que comience por el número 1.

  • Los símbolos de moneda se sustituyen por las series siguientes en los contextos adecuados:

    • Para inglés de EE. UU., dólar, centavo y euro.
    • Para español, dólar, peso, peseta, libras esterlinas, libra y euro.
  • Las direcciones de correo electrónico de Internet se convierten en algunos casos. Específicamente, el servicio convierte direcciones de correo electrónico si el audio de entrada utiliza el fraseo email address ... {address}. En los ejemplos siguientes se muestra una conversión correcta de frases habladas:

    • My email address is j dot d o e at i b m dot com se convierte en My email address is j.doe@ibm.com.
    • Mi correo electronico es j punto d o e arroba i b m punto com se convierte en Mi correo electronico es j.doe@ibm.com.
  • Las direcciones web de Internet se convierten en sus formas abreviadas. Las direcciones web totalmente calificadas no se convierten. En los ejemplos siguientes se muestran conversiones completas:

    • I saw the story on yahoo dot com se convierte en I saw the story on yahoo.com.
    • Vi la historia en yahoo punto com se convierte en Vi la historia en yahoo.com.

    En los siguientes ejemplos se muestran conversaciones incompletas:

    • I saw the story on w w w dot yahoo dot com se convierte en I saw the story on w w w .yahoo.com.
    • Vi la historia en w w w punto yahoo punto com se convierte en Vi la historia en w w w .yahoo.com.
  • Una conversión con números grandes y valores de moneda puede resultar un desafío. El servicio convierte correctamente dígitos y muchos números. Pero los mayores y más complejos y los valores de moneda funcionan mejor con frases más precisas. Por ejemplo, el servicio convierte correctamente las siguientes transcripciones porque las palabras son precisas:

    • sixty nine thousand five hundred sixty dollars and twenty five cents se convierte en $69560.25,
    • sixty nine thousand five hundred sixty dollars point twenty five se convierte en $69560.25.

    Pero el servicio no puede convertir correctamente las siguientes transcripciones menos precisas:

    • sixty nine thousand five sixty dollars and twenty five cents se convierte en 60 9000 $560.25.
    • sixty nine thousand five sixty dollars point twenty five se convierte en 60 9000 $560.25.

    Para convertir correctamente la mayor variedad posible de números complejos, debe experimentar con los resultados del formateo inteligente y personalizar sus propios programas de utilidad posteriores al proceso.

  • Para inglés de EE. UU., se añaden determinados signos de puntuación para palabras clave especiales que aparecen en lugares adecuados. Cuando se utiliza el formato inteligente, el servicio sustituye los símbolos de puntuación para las siguientes series de palabras clave basándose en el lugar en el que los encuentra en una transcripción:

    • Comma (,)
    • Period (.)
    • Question mark (?)
    • Exclamation point (!)

    El servicio convierte estas cadenas de palabras clave en símbolos solo en las posiciones adecuadas de una transcripción. En el siguiente ejemplo, el orador dice la palabra period al final de la frase:

    • the warranty period is short period pasa a the warranty period is short.

    El servicio diferencia correctamente entre el nombre que aparece antes en la frase y el punto final.

Japonés

  • Los números de teléfono deben tener 10 u 11 dígitos y deben comenzar por prefijos válidos para números de teléfono en Japón. Por ejemplo, algunos de los prefijos válidos son 03 y 090.

  • Las palabras en inglés se convierten en caracteres ASCII (hankaku). Por ejemplo, IBM se convierte en IBM.

  • Es posible que los términos ambiguos no se conviertan si no hay suficiente contexto disponible. Por ejemplo, no está claro si 一時 y 十分 se refieren a horas.

  • La puntuación se gestiona del mismo modo con o sin formateo inteligente. Por ejemplo, en función de cálculos de probabilidad, se selecciona uno de カンマ o ,.

  • Las series que describen los valores de yen no se sustituyen por el símbolo de moneda del yen.

  • Las direcciones web y de correo electrónico de internet de cualquier formato no se convierten.

  • El modelo de banda estrecha japonés (ja-JP_NarrowbandModel) incluye algunas unidades de palabras multigramo para dígitos y fracciones decimales. El servicio devuelve estas unidades multigramo independientemente de si ha habilitado el formateo inteligente. En los ejemplos siguientes se muestran las unidades que devuelve el servicio. Los números entre paréntesis muestran la expresión numérica en árabe equivalente para cada unidad.

    • Dígitos: 〇一 (01), ..., 〇九 (09), 一〇 (10), ..., 九〇 (90)
    • Fracciones decimales: 〇・ (0.), 一・ (1.), ..., 十・ (10.)

    La característica de formateo inteligente entiende y devuelve las unidades multigramo que genera el modelo. Si aplica su propio postproceso a los resultados de la transcripción, deberá manejar estas unidades adecuadamente.

Resultados del formateo inteligente

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin formateo inteligente. Las transcripciones se basan en un audio en inglés de Estados Unidos.

Información Sin formateo inteligente Con formateo inteligente
Fechas I was born on ten oh six nineteen seventy I was born on 10/6/1970
I was born on the ninth of December nineteen hundred I was born on 12/9/1900
Today is June sixth Today is June 6
Horas The meeting starts at nine thirty AM The meeting starts at 9:30 AM
I am available at seven EST I am available at 7:00 EST
We meet at oh seven hundred hours We meet at 0700 hours
Números The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
Números de teléfono Call me at nine one four two three seven one thousand Call me at 914-237-1000
Call me at one nine one four nine oh nine twenty six forty five Call me at 1-914-909-2645
Valores de moneda You owe me three thousand two hundred two dollars and sixty six You owe me $3202.66
The dollar rose to one hundred and nine point seven nine yen from
  one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen |

| Direcciones web y direcciones de correo electrónico de internet | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com | | | I saw the story on yahoo dot com | I saw the story on yahoo.com | | Combinaciones | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 | | | There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |

Resultados del formateo inteligente para pausas largas

En los casos en los que una expresión contiene pausas de silencio suficientemente largos, el servicio puede dividir la transcripción en dos o más resultados finales. Esto afecta al contenido de la respuesta, como se muestra en los siguientes ejemplos.

Conversación de audio Resultados de la transcripción formateada
My phone number is nine one four five five seven three
  three nine two | "My phone number is 914-557-3392" |

| My phone number is nine one four ...pause... five five seven three three nine two | "My phone number is 914" \n "5573392" |

Para obtener más información sobre cómo especificar un intervalo de pausa que afecte a la respuesta del servicio, consulte Tiempo de silencio de fin de frase.

Ejemplo de formateo inteligente

En el ejemplo siguiente se solicita el formateo inteligente con una solicitud de reconocimiento estableciendo el parámetro smart_formatting en true. En las secciones siguientes se muestran los efectos del formateo inteligente en los resultados de una solicitud.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

Ocultación numérica

La característica de ocultación numérica es una funcionalidad beta que está disponible en inglés de EE. UU., japonés y coreano.

El parámetro redaction indica al servicio que oculte, o enmascare, datos numéricos de las transcripciones finales. La característica oculta cualquier número que tenga tres o más dígitos consecutivos sustituyendo cada dígito por el carácter X. Está característica está pensada para ocultar datos numéricos confidenciales, como números de tarjetas de crédito.

De forma predeterminada, el servicio no oculta los datos numéricos. Establezca el parámetro redaction en true para habilitar la ocultación numérica. Cuando habilita la redacción, el servicio habilita automáticamente el formato inteligente estableciendo el parámetro smart_formatting en true, independientemente de si inhabilita explícitamente esa característica. Para garantizar la máxima seguridad, el servicio también inhabilita los parámetros siguientes cuando habilita la redacción:

  • El servicio desactiva la detección de palabras clave, independientemente de si especifica valores para los parámetros keywords y keywords_threshold.
  • El servicio inhabilita las alternativas máximas, independientemente de si especifica un valor mayor que 1 para el parámetro max_alternatives. El servicio sólo devuelve una única transcripción final.
  • El servicio inhabilita los resultados provisionales para la interfaz WebSocket, independientemente de si establece el parámetro interim_results en true.

El diseño de la característica iguala la característica de formateo inteligente existente. El servicio solo aplica la ocultación a la transcripción final de una solicitud de reconocimiento, justo antes de devolver los resultados al cliente y después de que se complete la normalización del texto.

Diferencias entre idiomas

La característica funciona exactamente tal como se describe para los modelos en inglés de EE. UU., pero tiene las siguientes diferencias para los modelos en japonés y en coreano.

Japonés

La ocultación en japonés tiene las siguientes diferencias:

  • Además de enmascarar series de tres o más dígitos consecutivos, la ocultación también enmascara direcciones y números, aunque contengan menos de tres dígitos.

  • Del mismo modo, la ocultación también enmascara información de fechas en fechas de nacimiento de estilo japonés. En japonés, la información de fecha se suele presentar en formato de era común, pero a veces sigue el estilo japonés, especialmente para las fechas de nacimiento. En este caso, el año y el mes se enmascaran, aunque solo contienen uno o dos dígitos.

    Por ejemplo, una fecha de nacimiento de estilo japonés sin redacción es 平成 30年 2月. Con la redacción, la fecha pasa a ser 平成 XX年 X月.

Coreano

La ocultación en coreano tiene las siguientes diferencias:

  • La característica de formateo inteligente no recibe soporte. El servicio sigue efectuando ocultaciones numéricas para coreano, pero no realiza ningún otro formateo inteligente.

  • Los caracteres digitales aislados se ocultan, pero los posibles caracteres digitales incluidos como parte de frases en coreano no se ocultan. Por ejemplo, el carácter en la siguiente frase no se sustituye por un X porque está junto al siguiente carácter:

    이입니다

    Si el carácter estuviera separado del siguiente carácter por un espacio, sería reemplazado por un X, como se describe en Resultados de la censura numérica.

Resultados de la ocultación numérica

En la tabla siguiente se muestran ejemplos de transcripciones finales con y sin ocultación numérica en cada idioma soportado.

Transcripciones de ejemplo de censura numérica
Idioma Sin redacción Con redacción
Inglés norteamericano my credit card number is four one four seven two my credit card number is XXXXX
Japonés {\cs6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\f1\cf6\ No obstante, no se ha de
Coreano Por su parte, la Comisión se ha No obstante, no se han de reaLar los datos de la

Ejemplo de ocultación numérica

En el ejemplo siguiente se solicita la ocultación numérica con una solicitud de reconocimiento estableciendo el parámetro redaction en true. Debido a que la solicitud habilita la ocultación, el servicio habilita implícitamente el formateo inteligente con la solicitud. El servicio inhabilita de forma efectiva los otros parámetros de la solicitud para que no tengan ningún efecto: el servicio devuelve una sola transcripción final y no reconoce ninguna palabra clave.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

Filtrado de lenguaje obsceno

La característica de filtrado de lenguaje obsceno generalmente está disponible sólo para inglés de EE.UU. y japonés.

El parámetro profanity_filter indica si el servicio va a censurar el lenguaje obsceno en sus resultados. De forma predeterminada, el servicio oculta el lenguaje obsceno y lo sustituye por una serie de asteriscos en la transcripción. Si se establece el parámetro en false, se visualizan las palabras en la salida exactamente tal y como se transcriben.

El servicio censura el lenguaje obsceno de todas las transcripciones finales y de todas las transcripciones alternativas. También censura el lenguaje obsceno de los resultados asociados con alternativas a palabras, con niveles de confianza de las palabras y con indicaciones de fecha y hora. La única excepción es la detección de palabras clave, para la que el servicio devuelve todas las palabras tal como las especifica el usuario, independientemente de si el valor de profanity_filter es true.

Ejemplo de filtrado de lenguaje obsceno

En el ejemplo siguiente se muestran los resultados de un breve archivo de audio que se transcribe con el valor true predeterminado para el parámetro profanity_filter. La solicitud también establece el parámetro word_alternatives_threshold en un valor relativamente alto, 0.99, y los parámetros word_confidence y timestamps en true.

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

El servicio enmascara el lenguaje obsceno de la respuesta sustituyéndolo por una serie de asteriscos:

{
  "result_index": 0,
  "results": [
    {
      "word_alternatives": [
        {
          "start_time": 0.03,
          "alternatives": [
            {
              "confidence": 1.0,
              "word": "****"
            }
          ],
          "end_time": 0.25
        },
        {
          "start_time": 0.25,
          "alternatives": [
            {
              "confidence": 0.99,
              "word": "you"
            }
          ],
          "end_time": 0.56
        }
      ],
      "alternatives": [
        {
          "transcript": "**** you",
          "confidence": 0.99,
          "word_confidence": [
            ["****", 1.0],
            ["you", 0.99]
          ],
          "timestamps": [
            ["****", 0.03, 0.25],
            ["you", 0.25, 0.56]
          ]
        }
      ],
      "final": true
    }
  ]
}