响应格式化和过滤
IBM Watson® Speech to Text 服务提供了可用于解析转录结果的三个功能。 您可以格式化最终文字记录以包含某些字符串的更常规表示,并包含标点符号。 您可以编辑最终抄本中的敏感数字信息,并且可以过滤大多数转录结果中的脏话。 所有这些功能都是 Beta 功能,并且仅限于某些语言。
智能格式化版本 2
新版智能格式化功能支持美国英语、巴西葡萄牙语、法语、德语、卡斯蒂利亚西班牙语、拉丁美洲西班牙语和加拿大法语。 当识别美国英语音频时,它也可用于 en-WW_Medical_Telephony 模型。
新版本:
- 与较旧的智能格式化相比,在添加新语言和模式方面提供了更大的灵活性。
- 与旧版本基于规则的方法相比,新版本使用更复杂的机器学习技术(加权有限状态变换器)来识别文本中的实体。
- 它提供了更准确的实体分类和格式,还增加了在相同文本可被识别为两种不同实体类型时使用权重定义层次结构的功能。
smart_formatting
功能可将以下字符串转换为更常规的表示形式:
- 日期和时间
- 整数,小数,序数
- 字母数字序列 (长度> 2)
- 电话号码
- 货币值
- 措施(
/km²
、kg
、mph
、m³
等) - 电子邮件、URL和IP地址
- 信用卡号 (格式化为 4 个数字组)
- 标点符号 (如词句中所述)
要使用新的智能格式化功能,请设置参数smart_formatting=true和 smart_formatting_version=2,以支持美式英语、巴西葡萄牙语、法语、德语、卡斯蒂利亚西班牙语、拉丁美洲西班牙语和加拿大法语。
实体模式和示例
美国英语
- 接受不同形式的日期,包括仅作为月份的数字或名称的日期以及使用
the
和of
(the twenty fifth of july twenty twelve
) 的日期。日期的格式为m/d/yyyy
。 - 时间由关键词或后缀标识,例如时区(例如
est
、eastern
)、am
、pm
、hours
、o'clock
、minutes past hour
。 - 电话号码必须是
911
或包含10位数字和/或以数字[+]1
开头的号码。 - 在适当的情况下,货币符号会被字符串代替,例如,
dollar
、cent
、euro
、yen
。在dollar
之后,cent
是可选的,例如,twelve dollars twenty five
和twelve dollars twenty five cents
格式为$12.25
。 - 具有通用格式的因特网电子邮件地址 (例如,
[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname
) 是智能格式化的。 - 将格式化短格式和长格式的 Web URL。 它包括协议(
http/s
)、子域(www
)、端口(443
、80
)和路径(/help/abc
)。 - 大多数大整数被格式化为数字序列。 当大量(百万、亿)数字作为整数组出现时,为便于阅读,数量词
million/billion
不会进行转换,例如,fifty nine million
->59 million
,但当数字更为复杂时,则会将其转换为数字格式,例如,fifty nine million and one
->59000001
。 - 为了避免格式不统一,小于10的数字不会转换为数字,例如,
You are one of them
->You are 1 of them
。但在其他情况下,例如表示货币,则会进行转换,例如,Give me one dollar
->Give me $1
。 - 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会替换关键字字符串的口语或指定的标点符号。
comma
(,
),period
(.
),question mark
(?
),exclamation point
(!
),semicolon
(;
),hyphen
(-
).
智能格式化示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于美国英语音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 朱利二十五两千十二 | 2012 年 7 月 25 日 |
十二年前的二十五年 | 2012 年 7 月 25 日 | |
一月三十一两千 | 2000 年 1 月 31 日 | |
零五零五十九三 | 1983年5月5日 | |
二十二年第二季 | 2022 年第二季度 | |
次数 | 是双十一东部 | 它是 02:11 est |
我们从七点开始 | 我们从 07:00 开始 | |
季度过去 1 | 01:15 | |
三点钟 | 03:00 | |
数字 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
要花 5 个点 200 万 | 将花费 5.2 万 | |
它的一百二十一审 | 其 121st 试用版 | |
电话号码 | 九一四五五六八三三一 | 914-556-8331 |
加一九二三一二三五六七八 |
|
|
货币值 | 你欠我四美元六十九美分 | 你欠我钱 4.69 |
七十五美元六十三 | $75.63 | |
美元兑日圆升至一百零九点七九日圆 | 美元兑日元升至109.79 | |
电子邮件 URL、IP | 我在 w w w 点 yahoo dot com 上看到了这个故事 | 我在 www.yahoo.com |
A b 3 连字符 s d d dash 3 at g mail dot com | ab3-sdd-3@gmail.com | |
h t t t p 冒号斜杠 w w w 点 c o m d a i l y n e w s 点 a b 斜杠 s m | http://www.comdailynews.ab/sm | |
两个五点双五点 o 四五点 | 225.55.0.45 | |
度量 | 每小时两百公里 | 每小时 200 公里 |
两千瓦时 | 2 kWh | |
序列 | H F H 九九三点七 B | HFH993.7B |
十八大显示器 | 1080p 屏幕 |
巴西-葡萄牙语
- 在成绩单中,日期、
do
和de
分别代表日、月和年。primeiro
代表1st。 日期的格式为DD/MM/YYYY
。 - 时间由关键字和前缀标识,例如,
às
ao
、à
、da tarde
(p.m.
)、da madrugada
(a.m.
)、meia noite
、meio dia
。前缀às
ao
、à
是可选的。 - 固定电话号码必须有 10 位数字 (2 位数字国家或地区代码和 8 位数字),手机号码是 9 位数字,第一位数字为
9
(可选国家或地区代码)。 区域代码是可选的。 数字格式为 "+NN (NN) NNNN-NNNN
和 "+NN (NN) 9NNNN-NNNN
"。 - 巴西实际货币符号为
R$
。 其他“货币”符号在相应的上下文中替代字符串,例如,dollar
,cent
,euro
,yen
。centavos
在reais
之后是可选的,例如,setenta e cinco dólares e sessenta e três
和setenta e cinco dólares e sessenta e três centavos
格式化为R$75,63
- 具有通用格式的因特网电子邮件地址 (例如,
[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname
) 是智能格式化的。 - 将格式化短格式和长格式的 Web URL。 它包括协议(
http/s
)、子域(www
)、端口(443
、80
)和路径(/help/abc
)。 - 大多数大整数被格式化为数字序列。 当大量(百万、亿等)数字作为整数组出现时,
milhões/bilhões
不会为了可读性而进行转换,例如,doze milhões
->12 milhões
,但当数字比较复杂时,会将其格式化为数字,例如,doze milhões e um
->12000001
。 - 小于 10 的数字不会格式化为数字以避免奇数转换,例如,
vivo em uma casa
-->vivo em 1 casa
。 - 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会替换关键字字符串的口语或指定的标点符号。
vírgula
(,
),ponto
(.
),ponto de interrogação
(?
),ponto de exclamação
(!
),ponto e vírgula
(;
),hífen
(-
).
巴西-葡萄牙语智能格式示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于巴西葡萄牙语音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 特林塔-德赞布罗-德米勒-诺韦森托斯-奥伊滕塔-奥伊托 | 1988 年 12 月 31 日 |
我们的工作 | 1987 年 1 月 1 日 | |
次数 | 金泽-普罗梅奥迪亚 | 11:45 |
梅奥迪亚 /meia hora,meio dia e | 12:30 | |
奥梅奥迪亚-梅奥 | 澳 12:30 | |
达马德鲁加达省 /madrugada,à s dez pras duas | à s 1:50 a.m。 | |
我们的小小小小的小小的小小的 | 电话: 23:45 | |
数字 | 塞纳托-奎伦塔-梅塞特-奎特森托斯-辛昆塔-乌姆 | 147451 |
维古拉・温特・塞斯 /vinte e seis,um | 1,26 | |
代西莫-普里梅罗 | 第 11 号 | |
电话号码 | 卡特罗-辛科-姆多伊斯特雷斯-夸特罗-辛科-塞伊斯-塞特奥伊托 | (45) 1234-5678 |
奥恩泽诺夫诺夫・奥伊托・梅亚・辛科・奎泽・零多伊斯 | (11) 99865-1502 | |
新文特-塞特文特-奥伊托-特林塔-塞特-特林塔-奥伊托 | 92728-3738 | |
梅斯・辛科・辛科・恩泽・诺梅亚・诺梅亚・零米亚・夸特罗・梅亚 | +55 (11) 96906-0146 | |
货币值 | 温特-钦科-琴塔沃斯 | 0.25 雷亚尔 |
温特-诺夫-多拉雷斯-辛昆塔-琴塔沃斯 | 29 50 美元 | |
温特-钦科-琴塔沃斯 | 0.25 雷亚尔 | |
电子邮件 URL、IP | A ponto b c arroba g mail ponto com | a.bc@gmail.com |
D á b l i o d á b l i o d á b l i o ponto a b c ponto es barra e f g | www.abc.es/efg | |
w w w nvidia | www.nvidia.com | |
Noventa e oito ponto setenta e seis ponto noventa e oito ponto dezesseis | 98.76.98.16 | |
度量 | 杜森托斯省 /duzentos e quarenta e cinco i l ô t a r s por hora | 245 千夫 |
杜森托斯省 /duzentos e quarenta e cinco metros por segundo | 245 米/秒 | |
序列 | d dezesseis t r ê s nove c h í f e n f noventa e oito | d1639c-f98 |
模特 f t doze x | Modelo ft12x |
法语
- 在日期中,序数词
premier
表示1st。 日期的格式为DD/MM/YYYY
。 - 时间由关键字和前缀标识,例如
heures
,de l'après-midi
或du soir
,du matin
,midi
。时间格式为 24H 时钟:HH h MM
- 电话号码必须具有 9 或 10 位数字 (5 对两位数)。 在仅允许第一个配对的一个数字的情况下,假定已跳过 0。 数字的格式为
NN NN NN NN NN
。 - 当
de
或d'
前置用于表示货币时,货币符号不用于格式化。 这通常发生在较大的舍入数中,例如,un milliard d'euro
格式化为1 milliard d'euro
。 - 具有通用格式的互联网电子邮件地址(例如,
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
)采用智能格式。@
可以用以下任意一种形式表示:arobase
、chez
、at
、à
。 - 少于9的基数不进行转换(以避免
j'ai un pomme
->j'ai 1 pomme
和其他奇怪的转换) - 对于序数词,当有序数形容词时,'siècles'用罗马数字表示。
dix-neuvième siècle
->XIXᵉ siècle
。 - 支持对分段进行格式化。 例如,
un onzième
->1/11
。 - 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会替换关键字字符串的口语或指定的标点符号。
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
).
法语智能格式示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于法语音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 温特-卡特尔榨汁机 | 2013 年 7 月 24 日 |
迪克-胡伊特-迈迪克-诺伊夫-塞伦特 | 1930 年 5 月 18 日 | |
次数 | 马廷河 /matin,huit heures | 8 小时 |
翁泽-赫里斯-辛特-塞特 | 11 小时 57 | |
阿普雷斯-米迪河 /apres-midi,deux heures de l' | 14 小时 | |
数字 | 米莱・奎尔特・辛库特等人 /cinquante et une,师父 | 147451 |
莫因斯温特-辛克-米勒-特伦特-塞普特 | 25037 | |
温特-特罗西埃梅斯 | 23 | |
卡特雷和德克特里耶梅斯 | 4 2/4 | |
电话号码 | 双诺伊夫-杜兹特伦特特伦特 | 99 12 32 30 30 |
德鲁道兹特-德鲁特特特伦特 | 02 12 32 30 30 | |
货币值 | 德约金温特 | 2,20 美元 |
辛克-欧元和索伊坎特 | 5,60 欧元 | |
夸特维尔古勒・夸特-弗林特・米拉兹・德欧元公司 | 4,80 万欧元 | |
电子邮件 URL、IP | a b trois point s d d point trois arobase g mail point com | ab3.sdd.3@gmail.com |
W w w 点 Web 点 c o 点 f r | www.web.co.fr | |
双中性点趋势-deux 点趋势点趋势 | 99.32.30.30 | |
度量 | 克伦特-德勒-米勒-德奥姆-辛坎特-诺伊夫帕尔马特雷-卡雷 | 42 259/平方米 |
基洛梅特河 /kilomere heure,deux 美分 | 每小时 200 公里 | |
序列 | le document n o m é r o z é r o deux Trente-six vingt-qutre | le document n o m é r o 023624 |
r t x dix-huit t i | rtx18ti |
加拿大法语
- 在日期中,顺序
premier
被视为月份的 1st。 日期的格式为DD/MM/YYYY
。 - 时间由关键字和前缀标识,例如
heures
,de l'après-midi
或du soir
,du matin
,midi
。时间格式为 24H 时钟:HH h MM
- 电话号码必须是
911
或包含10位数字和/或以数字[+]1
开头的号码。 - 通用格式的因特网电子邮件地址 (例如
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) 是智能格式化的。@
可以由下列任何一项表示:arobase
,chez
,at
和à
。 - 少于9个的红衣主教如果在其他文本中出现时不会被转换(以避免
j'ai un pomme
->j'ai 1 pomme
和其他奇怪的转换)。 如果它们单独出现而没有其他文本,那么仍会对它们进行格式化。 - 支持对分段进行格式化。例如,
un onzième
->1/11
- 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会将口语/口语标点符号替换为关键字字符串。
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
) 等。
法裔加拿大人的智能格式示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于法语加拿大人的音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 温特-卡特尔榨汁机 | 2013 年 7 月 24 日 |
迪克-胡伊特-迈迪克-诺伊夫-塞伦特 | 1930 年 5 月 18 日 | |
次数 | 马廷河 /matin,huit heures | 8 小时 |
翁泽-赫里斯-辛特-塞特 | 11 小时 57 | |
阿普雷斯-米迪河 /apres-midi,deux heures de l' | 14 小时 | |
数字 | 米莱・奎尔特・辛库特等人 /cinquante et une,师父 | 147451 |
莫因斯温特-辛克-米勒-特伦特-塞普特 | 25037 | |
温特-特罗西埃梅斯 | 23es | |
卡特雷和德克特里耶梅斯 | 4 2/4 | |
电话号码 | 再加上 cinq un qu那么 cinq cinq cinq un deux trois qu情 |
|
辛克恩-卡特勒六世新泽罗 | 02 12 32 30 30 | |
货币值 | 德约金温特 | 2,20 美元 |
温特・辛克公司 | 20,05 美元 | |
夸特维尔古勒・夸特-弗林特・米拉兹・德欧元公司 | 4,80 万欧元 | |
电子邮件 URL、IP | a b trois point s d d point trois arobase g mail point com | ab3.sdd.3@gmail.com |
W w w 点 Web 点 c o 点 f r | www.web.co.fr | |
双中性点趋势-deux 点趋势点趋势 | (514) 469-210 | |
度量 | 克伦特-德勒-米勒-德奥姆-辛坎特-诺伊夫帕尔马特雷-卡雷 | 42 259/平方米 |
基洛梅特河 /kilomere heure,deux 美分 | 每小时 200 公里 | |
序列 | le document n o m é r o z é r o deux Trente-six vingt-qutre | le document n o m é r o 023624 |
r t x dix-huit t i | rtx18ti |
西班牙语
- 在日期中,序数
primero
表示1st。 日期的格式为DD/MM/YYYY
。 - 整点时间或无冠词的时间后跟后缀(表示 a.m 或 p.m ) converted.e.g
las dos pe eme
。 时间格式为 24H:HH h MM
,或 12H,带a.m./p.m。 - 电话号码必须具有 8,9 或 10 位数字。 数字的格式为
NNNN NNNN
,NNN NNN NNN
或NNN NNN NNNN
- 具有通用格式的互联网电子邮件地址(例如,
[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname
)会自动进行智能格式化。 - 少于9个的红衣主教如果在其他文本中出现时不会被转换(以避免
un gato en el camino
->1 gato en el camino
和其他奇怪的转换)。 如果它们单独出现而没有其他文本,那么仍会对它们进行格式化。 - 支持对分段进行格式化。 例如,
un décimo
->1/10
- 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会替换关键字字符串的口语或指定的标点符号。
punto
( ), ( ), ( ), ( ), ( ),以此类推。.
interrogación``?
exclamación``!
punto y coma``;
guion medio``-
西班牙语智能格式示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于西班牙语音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 特雷因塔-乌诺-德迪切姆布雷德米勒诺韦西恩托斯诺文塔和杜斯 | 1992 年 12 月 31 日 |
迪埃西塞伊斯-德塞普蒂埃姆布尔-杜斯米勒迪埃西奥乔 | 2018 年 9 月 16 日 | |
次数 | 拉斯迪埃西塞伊斯金库恩塔 | 拉斯 16:50 |
拉斯多斯・埃梅 | las 2:00 a.m。 | |
数字 | 辛库恩塔和奥乔山 /novecientos cincuenta y ocho,mil | 1958 |
曾经的诺维琴托斯-辛库恩塔和奥乔 | 11958 | |
代奇马普里马拉 | 11 a/ | |
昆夸伦蒂乌纳沃 | 1/41 | |
电话号码 | 努伊夫-乌诺-库特罗-辛科-辛科-塞伊斯-奥乔-特雷斯-乌诺 | 914 556 8331 |
乌诺-多斯特雷斯-库特罗-辛科塞斯-西特-奥乔 | 1234 5678 | |
货币值 | 多斯欧元公司 /noventa centavos,dos | 2,90 欧元 |
多斯-欧元和辛科-琴塔沃斯 | 12,05 欧元 | |
佩索斯省 /cinco millones de pesos,nueve punto | $9.5 毫升 | |
电子URL | a b c a arroba g mail punto a b c | abc@gmail.abc |
双倍积分 双倍积分 双倍积分 nvidia | www.nvidia.com | |
度量 | 特雷斯大都会 | 3 m ³ |
多斯基洛巴特斯波尔霍拉 | 2 kph | |
序列 | 库阿特罗山 /cuatro,cero dos tres seis dos | 023624 |
r t x cero dos tos w | rtx023w |
德语
- 日期格式支持数字和月份名称(例如,
zweiter
与februar
相同)。 日期的格式为DD.MM.YYYY
。 - 时间由关键字标识,例如
nach
uhr
,vor
和minuten
。时间格式为 24 小时制:HH:MM:SS
。 - 电话号码必须包含3-4位以
0
开头的区号,后跟8位数字。 国家或地区代码 (+ 49) 是可选的。 如果使用国家代码,区号不能以0
开头。 数字格式为“+49 [N]NN NNNNNNNN
或”0[N]NN NNNNNNNN
。 - 大多数货币符号在适当的上下文中替代字符串,例如,
dollar
,cent
,euro
和yen
。 - 格式化常见格式的互联网电子邮件地址(例如,
[alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname
)。 - 将格式化短格式和长格式的 Web URL。 它包括协议(
http/s
)、子域(www
)、端口(443
、80
)和路径(/help/abc
) - 不足九的基数不进行四舍五入,以避免出现奇数或模棱两可的转换。
- 支持序数和分数的格式化。
- 大多数标点符号是为出现在适当位置的特殊关键词添加的。 使用智能格式化时,服务会替换关键字字符串的口语或指定的标点符号。
komma
(,
),punkt
(.
),fragezeichen
(?
),ausrufezeichen
(!
),semikolon
(;
),bindestrich
(-
).
德语智能格式示例
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于德语音频。
实体类型 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | 维伦茨万齐格斯特山 /juli zwei tausend dreizehn | 24.07.2013 |
德赖泽恩特茨韦特茨韦塔乌斯特茨万齐格 | 13.02.2020 | |
次数 | 维伦茨万齐格尔茨韦恩茨万齐格 | 24:22 乌尔 |
西本河 /sieben,acht uhr | 08:07 乌尔 | |
艾因・艾因・塞昆德 /ein uhr eine minute | 01:01:01 乌尔 | |
数字 |
|
-25037 |
阿赫特・汉德特・阿赫策恩・科马・德雷空德雷 | 818,303 | |
芬丰兹万齐格塔乌森代因泰尔费特姆 | 25111。 | |
德雷兹韦艾因黑德斯泰尔 | 3 2/100 | |
电话号码 | 原生素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素素 | 0411 12341234 |
再加上维客新维客新维客新维客新维客新维客新维客新维客新维客新维客新维客新维客新维客 | +49 411 12341234 | |
货币值 | zwei komma null null null eins 美元 | 2,0001 美元 |
茨韦恩茨万齐格角 | 0,22 欧元 | |
电子邮件 URL、IP | a b drei bindestrich s d d bindestrich drei ä t g mail punkt com | ab3-sdd-3@gmail.com |
h t t p s doppelpunkt 斜杠 w w w w punkt a b c punkt com 斜杠 a b | https://www.abc.com/ab | |
Drei f ü n f punkt eins drei f ü n f punkt zwei vier punkt zwei vier | 35.135.24.24 | |
度量 | Zwei 千米公路 | 2 公里/小时 |
维尔山 /vierzig milliliter,vier hundert | 440 毫升 | |
序列 | c b vier drei bindestrich f ü n f drei f ü n f zwei vier zwei punkt vier drei f ü n f | cb43-535242.435 |
斯特里希-兹沃尔夫山 /strich z w ö l f p | teilenummer ft-12p |
智能格式化 V2 示例
以下示例在识别请求中通过将 smart_formatting
参数设置为 true
来请求智能格式设置。 以下各部分说明了智能格式设置对请求结果的影响。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
智能格式设置
智能格式化功能是测试版功能,适用于美国英语、日语和西班牙语(所有方言)。 当识别出美式英语音频时,en-WW_Medical_Telephony
车型也可使用。
smart_formatting
参数指示服务将以下字符串转换为更常规的表示法:
- 日期
- 次数
- 数字串和号码
- 电话号码
- 货币值(适用于美国英语和西班牙语)
- 因特网电子邮件和 Web 地址(适用于美国英语和西班牙语)
将 smart_formatting
参数设置为 true
可启用智能格式设置。 缺省情况下,服务不会执行智能格式设置。 文本规范化完成后,服务会在应用智能格式设置之后立即将最终结果返回给客户机。 该转换通过表示通常会写入的这些工件,使文字记录更容易阅读,并能对转录结果进行更好的后处理。
智能格式设置会影响哪些结果?
智能格式设置会影响一些转录结果,但其他转录结果不受影响:
-
智能格式设置仅影响最终结果(即,其
transcript
字段为final
的结果)的true
字段中的词。 它不会影响中间结果,即,其final
为false
的结果。 -
智能格式设置不会影响响应的其他字段中的词。 例如,智能格式设置不会应用于
timestamps
或alternatives
字段中的响应数据。 -
言语犹豫,如 "uhm" 和“呃”,会通过某些语言的智能格式化,对短语和字符串的转换产生不利影响。 上一代模型会生成犹豫标记,以替换抄本中的此类犹豫。 智能格式化对前代模型的犹豫标记有以下影响:
- 对于美式英语,智能格式化功能会从
transcript
字段中删除犹豫标记,以得出最终结果。 - 对于日语, 犹豫标记将继续显示在最终结果中。
- 对于美国英语和日语, 犹豫标记将继续显示在中间结果中。
- 对于西班牙语, 服务不会为任何结果生成犹豫标记。
下一代模型不会产生犹豫标记。 而是在转录结果中包含实际的犹豫。 智能格式化不会影响下一代模型所包含的迟疑。 有关更多信息,请参阅 语音迟疑和迟疑标记。
- 对于美式英语,智能格式化功能会从
语言差异
智能格式设置的应用将基于文字记录中存在的明显关键字。 由于受支持语言之间存在差异,因此对于每种语言,智能格式设置略有不同。 以下各部分描述了对于美国英语和西班牙语以及日语,触发智能格式设置更改的字符串和内容。
美国英语和西班牙语
-
时间通过关键字(例如,
AM
、PM
或EST
)进行标识。 -
如果军用时间通过关键字
hours
(美国英语)或horas
(西班牙语)进行标识,那么会对其进行转换。 -
电话号码必须为
911
或者包含 10 位或 11 位数且以数字1
开头的数字。 -
在适当上下文中货币符号会替代以下字符串:
- 对于美国英语:dollar、cent 和 euro。
- 对于西班牙语:dolar、peso、peseta、libras esterlinas、libra 和 euro。
-
在某些情况下,会转换因特网电子邮件地址。 具体来说,如果输入的音频使用了
email address ... {address}
这样的短语,那么服务会转换电子邮件地址。 以下示例显示了所说表达的正确转换:My email address is j dot d o e at i b m dot com
变为My email address is j.doe@ibm.com
。Mi correo electronico es j punto d o e arroba i b m punto com
变为Mi correo electronico es j.doe@ibm.com
。
-
只会转换简短形式的因特网 Web 地址。 不会转换标准 Web 地址。 以下示例显示了完整转换:
I saw the story on yahoo dot com
变为I saw the story on yahoo.com
。Vi la historia en yahoo punto com
变为Vi la historia en yahoo.com
。
以下示例显示了不完整的转换:
I saw the story on w w w dot yahoo dot com
变为I saw the story on w w w .yahoo.com
。Vi la historia en w w w punto yahoo punto com
变为Vi la historia en w w w .yahoo.com
。
-
转换很大的数字和货币值可能很难。 服务能正确地转换数字和大量号码。 但对于更大、更复杂的数字和货币值,表达更精确时,转换效果最好。 例如,以下文字记录措辞精确,因此服务可对其正确转换:
sixty nine thousand five hundred sixty dollars and twenty five cents
变为$69560.25
。sixty nine thousand five hundred sixty dollars point twenty five
变为$69560.25
。
但是,以下文字记录表达不够严密,因此服务无法对其正确转换:
sixty nine thousand five sixty dollars and twenty five cents
变为60 9000 $560.25
。sixty nine thousand five sixty dollars point twenty five
变为60 9000 $560.25
。
要正确转换更多可能种类的复杂数字,您需要试验智能格式设置的结果,并定制您自己的后处理实用程序。
-
对于美国英语,将对出现在适当位置的特殊关键字添加特定标点符号。 当您使用智能格式化功能时,该服务会根据在文本中找到的位置,用标点符号替换以下关键词串:
Comma
(,
)Period
(.
)Question mark
(?
)Exclamation point
(!
)
该服务仅将关键词串转换为誊本中适当位置的符号。 在下面的例子中,说话者在句子末尾说出了
period
这个词:the warranty period is short period
变为the warranty period is short.
服务正确区分了句子中先前出现的名词 period 和结束标点 period。
日语
-
电话号码必须是 10 位或 11 位数字,并以日本电话号码的有效前缀开头。 例如,有效前缀包括
03
和090
。 -
英语词会转换为 ASCII (hankaku) 字符。 例如,
IBM
转换为IBM
。 -
如果没有充分的上下文可用,那么可能不会转换歧义词。 例如,目前尚不清楚
一時
和十分
是否指时间。 -
不管是否使用智能格式设置,对标点的处理方式都相同。 例如,根据概率计算,
カンマ
或,
中的一个被选中。 -
描述 yen 值的字符串不会替换为日元货币符号。
-
不会转换任何格式的因特网电子邮件和 Web 地址。
-
日语窄带模型 (
ja-JP_NarrowbandModel
) 包含一些多重语法词单元来表示数字和十进制小数。 不管是否启用智能格式设置,服务都会返回这些多重语法单元。 以下示例显示了服务返回的单元。 括号中的数字显示每个单元的等效阿拉伯数字表达式。- 数字:
〇一
(01),...,〇九
(09),一〇
(10),...,九〇
(90) - 小数:
〇・
(0.),一・
(1.),...,十・
(10.)
智能格式设置功能可理解并返回模型生成的多重语法单元。 如果是将您自己的后处理应用于转录结果,那么需要相应地处理这些单元。
- 数字:
智能格式设置结果
下表显示了使用和不使用智能格式设置的最终文字记录的示例。 文字记录基于美国英语音频。
信息 | 不使用智能格式设置 | 使用智能格式设置 |
---|---|---|
日期 | I was born on ten oh six nineteen seventy | I was born on 10/6/1970 |
I was born on the ninth of December nineteen hundred | I was born on 12/9/1900 | |
Today is June sixth | Today is June 6 | |
次数 | The meeting starts at nine thirty AM | The meeting starts at 9:30 AM |
I am available at seven EST | I am available at 7:00 EST | |
We meet at oh seven hundred hours | We meet at 0700 hours | |
数字 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
电话号码 | Call me at nine one four two three seven one thousand | Call me at 914-237-1000 |
Call me at one nine one four nine oh nine twenty six forty five | Call me at 1-914-909-2645 | |
货币值 | You owe me three thousand two hundred two dollars and sixty six | You owe me $3202.66 |
The dollar rose to one hundred and nine point seven nine yen from one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen | |
因特网电子邮件和 Web 地址 | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com |
I saw the story on yahoo dot com | I saw the story on yahoo.com | |
组合 | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 |
There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |
长时间停顿的智能格式设置结果
如果话语包含足够长的静默停顿,那么服务会将文字记录拆分为两个或更多最终结果。 这会影响回复的内容,如下例所示。
音频语音 | 设置格式后的转录结果 |
---|---|
My phone number is nine one four five five seven three three nine two | "My phone number is 914-557-3392" |
我的电话号码是914 ……暂停…… 5573392 | “我的电话号码是914” “5573392” |
有关指定影响服务响应的停顿时间间隔的更多信息,请参阅短语结束静默时间。
智能格式设置示例
以下示例在识别请求中通过将 smart_formatting
参数设置为 true
来请求智能格式设置。 以下各部分说明了智能格式设置对请求结果的影响。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
数字编辑
数字编辑是 Beta 功能,可用于美国英语、日语和韩语。
redaction
参数指示服务对最终文字记录中的数字数据执行编辑(或掩蔽)。 此功能对具有三位或更多连续位数的任何数字,通过将每位数替换为 X
字符来进行编辑。 此功能旨在编辑敏感数字信息,例如信用卡号。
缺省情况下,服务不会编辑数字数据。 将 redaction
参数设置为 true
可启用数字编辑。 当您启用编辑时,服务会通过将 smart_formatting
参数设置为 true
来自动启用智能格式化,而不管您是否显式禁用该功能。 为了确保最大的安全性,当您启用编辑功能时,该服务也会禁用以下参数:
- 服务会禁用关键字识别,不管是否为
keywords
和keywords_threshold
参数指定了值。 - 无论您是否为
max_alternatives
参数指定大于 1 的值,服务都将禁用最大替代项。 此服务仅返回单个最终抄本。 - 无论您是否将
interim_results
参数设置为true
,服务都将禁用 WebSocket 接口的临时结果。
此功能的设计与现有智能格式设置功能类似。 在将结果返回给客户机之前,且在文本规范化完成之后,服务才会将编辑功能应用于识别请求的最终文字记录。
语言差异
此功能对于美国英语模型,工作方式与所述内容完全一样,但对日语和韩语模型有以下差异。
日语
日语编辑具有以下差异:
-
除了掩蔽由三个或更多连续数字组成的字符串外,编辑功能还会掩蔽街道地址和编号,而不管它们包含的数字是否少于三位。
-
与此类似,编辑功能还会掩蔽日语样式出生日期中的日期信息。 在日语中,日期信息通常以公历纪年格式呈现,但有时也会采用日语样式,尤其是表示出生日期时。 在这种情况下,会掩蔽年份和月份,即使它们只包含一位或两位数字。
例如,没有编辑的日式出生日期为
平成 30年 2月
。 通过编辑,日期将变为平成 XX年 X月
。
韩语
韩语编辑具有以下差异:
-
不支持智能格式设置功能。 服务仍会对韩语执行数字编辑,但不会执行其他智能格式设置。
-
编辑孤立的数字字符,但不会编辑韩语短语中包含的可能数字字符。 例如,以下短语中的字符
이
不会被替换为X
,因为它紧挨着以下字符:이입니다
如果
이
字符与下一个字符之间以空格分隔,则会被替换为X
,如 数字编辑结果 中所述。
数字编辑结果
下表显示了在每种支持的语言中使用和不使用数字编辑的最终文字记录的示例。
语言 | 不使用编辑 | 使用编辑 |
---|---|---|
美国英语 | my credit card number is four one four seven two | my credit card number is XXXXX |
日语 | 私 のクレジット カード 番号 は 四 一 四 七 二です | 我是说我是说我是说我是说我是说我是说我是说我是说我是说我是说我 |
韩语 | 慈运会,慈运会,慈运会,慈运会,慈运会,慈运会,慈运会,慈运会 | 在我的工作中,我的工作是在我的工作中。 |
数字编辑示例
以下示例在识别请求中通过将 redaction
参数设置为 true
来请求数字编辑。 由于请求启用了编辑,因此服务会通过请求隐式启用智能格式设置。 服务实际上会禁用请求的其他参数,使这些参数无效:服务会返回单个最终文字记录,并且不识别任何关键字。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
不雅言辞过滤
亵渎过滤功能通常仅适用于美式英语和日语。
profanity_filter
参数指示服务是否要从其结果中检剔不雅言辞。 缺省情况下,服务会通过将文字记录中的所有不雅言辞替换为一系列星号,从而隐藏这些不雅言辞。 将此参数设置为 false
时,输出中显示的词与转录的内容完全相同。
服务会从所有最终文字记录和任何替代文字记录中检剔不雅言辞。 此外,服务还会从与词替代项、词置信度和词时间戳记关联的结果中检剔不雅言辞。 唯一的例外是关键字识别,对于此功能,服务会返回用户指定的所有词,而不管 profanity_filter
是否为 true
。
不雅言辞过滤示例
以下示例显示了使用 true
参数的缺省值 profanity_filter
值时,转录的简短音频文件的结果。 请求还将 word_alternatives_threshold
参数设置为相对高的值 0.99
,并将 word_confidence
和 timestamps
参数设置为 true
。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
IBM Cloud Pak for Data IBM Software Hub
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
服务通过将其替换为一系列星号来屏蔽响应中的脏话:
{
"result_index": 0,
"results": [
{
"word_alternatives": [
{
"start_time": 0.03,
"alternatives": [
{
"confidence": 1.0,
"word": "****"
}
],
"end_time": 0.25
},
{
"start_time": 0.25,
"alternatives": [
{
"confidence": 0.99,
"word": "you"
}
],
"end_time": 0.56
}
],
"alternatives": [
{
"transcript": "**** you",
"confidence": 0.99,
"word_confidence": [
["****", 1.0],
["you", 0.99]
],
"timestamps": [
["****", 0.03, 0.25],
["you", 0.25, 0.56]
]
}
],
"final": true
}
]
}