回應格式化和過濾
IBM Watson® Speech to Text 服務提供三個特性,可用來剖析轉錄結果。 您可以格式化最終文字記錄,以包括特定字串的慣用表示法,以及包括標點符號。 您可以從最終文字記錄中編寫機密數值資訊,並且可以從大部分轉錄結果中過濾褻瀆。 所有這些特性都是測試版功能,且僅限於特定語言。
智慧型格式化第 2 版
新版本的智慧型格式化功能適用於美國英文、巴西葡萄牙文、法文、德文、卡斯蒂利亞西班牙文、拉丁美洲西班牙文和加拿大法文。 當辨識美式英文音訊時,它也適用於 en-WW_Medical_Telephony 模型。
新版本:
- 相較於較舊的智慧型格式化,在新增語言和型樣方面提供更大的彈性。
- 使用更精密的機器學習技術 (Weighted Finite State Transducers) 來識別文字中的實體,而舊版本則採用基於規則的方法。
- 提供更精確的實體分類和格式化,也增加了在相同文字可辨識為兩種不同實體類型時使用權重定義層級的功能。
smart_formatting
功能會指示服務將下列字串轉換為較傳統的表示法:
- 日期和時間
- 整數、小數、序數
- 英數序列 (長度> 2)
- 電話號碼
- 貨幣值
- 措施 (
/km²
,kg
,mph
,m³
, 等等) - 電子郵件、URL 和 IP 位址
- 信用卡號碼 (格式為 4 位數的群組)
- 標點符號 (以書寫方式說出)
若要在美國英語、巴西葡萄牙語、法語、德語、卡斯蒂利亞西班牙語、拉丁美洲西班牙語和加拿大法語中使用新的智慧格式化功能;請設定參數 smart_formatting=true 並 smart_formatting_version=2。
實體型樣和範例
美式英文
- 接受不同的口語形式的日期,包括與數字或月份名稱一樣的日期,以及使用
the
和of
(the twenty fifth of july twenty twelve
)。日期會格式化為m/d/yyyy
。 - 時間以關鍵字或後綴來識別,例如時區 (例如
est
,eastern
)、am
,pm
,hours
,o'clock
,minutes past hour
。 - 電話號碼必須是
911
或包含 10 位數字和/或以[+]1
開頭的號碼。 - 貨幣符號在適當的上下文中會被字串取代,例如
dollar
,cent
,euro
,yen
。cent
在dollar
之後是可選的,例如twelve dollars twenty five
和twelve dollars twenty five cents
格式化為$12.25
。 - 一般格式的網際網路電子郵件位址 (例如,
[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname
) 是智慧型格式化。 - Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 (
http/s
)、子網域 (www
)、埠 (443
,80
) 和路徑 (/help/abc
)。 - 大部分大型整數都會格式化為數字序列。 當大數字 (百萬、十億) 說成單組整數時,為了可讀性,數量字
million/billion
不會轉換,例如fifty nine million
->59 million
,但當數字較複雜時,會格式化為數字位數,例如fifty nine million and one
->59000001
。 - 小於 10 的數字不會轉換為位數,以避免奇怪的格式,例如
You are one of them
->You are 1 of them
。但在其他情況下,例如表示貨幣,它們會被轉換,例如Give me one dollar
->Give me $1
。 - 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
comma
(,
),period
(.
),question mark
(?
),exclamation point
(!
),semicolon
(;
),hyphen
(-
).
智慧型格式化範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 文字記錄是以美式英文音訊為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 七月二十五日二千一十二 | 7/25/2012 |
七月二十十二號二十五 | 7/25/2012 | |
一月三十到兩千 | 1/31/2000 | |
零五零五一九八三 | 5/5/1983 | |
二十二的第二季 | Q2 2022 | |
時間 | 是東二十一 | 它是 02:11 est |
我們從 700 小時開始 | 我們從 07:00 開始 | |
四分之一 | 01:15 | |
三點 | 03:00 | |
數字 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
五百萬兩百萬 | 它將花費 5.2 | |
第 120 次審判 | 其 121st 試用 | |
電話號碼 | 九一四五六八三三一 | 914-556-8331 |
加一九二三二三五六七八 |
|
|
貨幣值 | 你欠我 4 美元和 69 美分 | 你欠我 4 4.69 美元 |
七十五美元六三 | $75.63 | |
1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換 | 美元兌日圓漲至109.79 | |
電子郵件、URL、IP | 我看了 ww w w 點 yhoo dot com 的故事 | 我在 www.yahoo.com 上看到這個故事 |
a b 3 個連字號 s d d dash 3 at g mail dot com | ab3-sdd-3@gmail.com | |
h t t p 冒號斜線 w w w dot c o m m d a i l y n e w s dot a b slash s m | http://www.comdailynews.ab/sm | |
2 2 5 點 2 5 點 4 5 點 | 225.55.0.45 | |
測量 | 每小時兩百公里 | 200 km/h |
兩千瓦時 | 2 kWh | |
序列 | H F H 九九三點七 B | HFH993.7B |
10 個 80 p 顯示畫面 | 1080p 顯示畫面 |
巴西-葡萄牙文
- 對於日期,
do
和de
用來分隔日、月和年。primeiro
被視為每月 1st。 日期會格式化為DD/MM/YYYY
。 - 時間以關鍵字和前綴來識別,例如
às
ao
,à
,da tarde
(p.m.
),da madrugada
(a.m.
),meia noite
,meio dia
。às
ao
,à
是可選的前綴。 - 座車號碼必須有 10 位數 (2 位數國碼和 8 位數),行動電話號碼是 9 位數,第一個數字是
9
,具有選用國碼。 區域碼是選用的。 數字的格式為+NN (NN) NNNN-NNNN
和+NN (NN) 9NNNN-NNNN
。 - 巴西實際貨幣符號為
R$
。 其他貨幣符號會替代適當環境定義中的字串,例如dollar
、cent
、euro
、yen
。centavos
在reais
之後是選用的,例如setenta e cinco dólares e sessenta e três
和setenta e cinco dólares e sessenta e três centavos
格式化為R$75,63
- 一般格式的網際網路電子郵件位址 (例如,
[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname
) 是智慧型格式化。 - Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 (
http/s
)、子網域 (www
)、埠 (443
,80
) 和路徑 (/help/abc
)。 - 大部分大型整數都會格式化為數字序列。 當大數字 (millhões、bilhões 等) 以單一組整數形式說出時,為了易讀性,數量字
milhões/bilhões
不會轉換,例如doze milhões
->12 milhões
,但當數字較複雜時,則會以數字位數格式化,例如doze milhões e um
->12000001
。 - 小於 10 的數字不會格式化為數字,以避免奇數轉換,例如
vivo em uma casa
-->vivo em 1 casa
。 - 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
vírgula
(,
),ponto
(.
),ponto de interrogação
(?
),ponto de exclamação
(!
),ponto e vírgula
(;
),hífen
(-
).
巴西葡萄牙語的智慧格式範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以巴西葡萄牙語音訊為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 三部曲和三部曲 | 1988 年 12 月 31 日 |
嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯 | 01/01/1987 | |
時間 | 金澤-普羅米奧迪亞 | 11:45 |
米奧迪亞和米亞霍拉 | 12:30 | |
梅奧迪亞-梅奧 | 奧 12:30 | |
杜阿斯-達馬德魯加達 | À s 1:50 a.m. | |
這里是我的家 | À s 23:45 | |
數字 | 五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五 | 147451 |
烏姆維爾古拉文特和塞斯 | 1,26 | |
德西莫-普里梅魯 | 11 º | |
電話號碼 | 卡特羅-辛科-特里斯-卡特羅-辛科-塞西斯-伊託 | (45) 1234-5678 |
不去任何地方 | (11) 99865-1502 | |
新酒和酒和酒 | 92728-3738 | |
但辛科-辛科-翁澤-諾韋梅亞-諾韋梅亞-零梅亞-um quatro meia | +55 (11) 96906-0146 | |
貨幣值 | 溫特-辛科半塔沃斯 | 0,25 加元 |
半人半人半人半人半人半人半人半人半人半人半人半人半人半人半人半人半 | 29 50 美元 | |
溫特-辛科半塔沃斯 | 0,25 加元 | |
電子郵件、URL、IP | a ponto b c arroba g mail pon com | a.bc@gmail.com |
達布利奧-達布利奧-達布利奧-龐託 a b c ponto es barra e f g | www.abc.es/efg | |
w w w ponto nvidia ponto com | www.nvidia.com | |
新和伊託潘託-塞滕塔和新和伊託潘託-德澤塞 | 98.76.98.16 | |
測量 | 在現在的幾個小時裡 | 245 kph |
兩座城市和廣場 | 245 m/s | |
序列 | 我們的新生活和新生活 | d1639c-f98 |
Modelo f t doze x | Modelo ft12x |
法文
- 在日期中,序數
premier
被視為每月的 1st。 日期會格式化為DD/MM/YYYY
。 - 時間由關鍵字及字首識別,例如
heures
、de l'après-midi
或du soir
、du matin
、midi
。時間格式化為 24H 時鐘:HH h MM
- 電話號碼必須有 9 或 10 位數 (5 對 2 位數)。 在只允許第一個配對的一個數字的情況下,假設已跳過 0。 數字會格式化為
NN NN NN NN NN
。 - 當使用
de
或d'
前置位置來表示貨幣時,不會使用貨幣符號來格式化。 這通常發生在大整數時,例如,un milliard d'euro
格式化為1 milliard d'euro
。 - 具有常見格式的網際網路電子郵件位址 (例如
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) 是智慧型格式。@
可以用其中任何一個來表示:arobase
,chez
,at
,à
。 - 小於 9 的紅雀不進行轉換(以避免
j'ai un pomme
->j'ai 1 pomme
及其他奇異的轉換) - 對於序數,當給予序數形容詞時,'siècles' 用羅馬數字表示。
dix-neuvième siècle
->XIXᵉ siècle
. - 支援 Fractions 格式化。 例如,
un onzième
->1/11
。 - 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
virgule
(,
),point
(.
),point d'interrogation
(?
),point d'exclamation
(!
),point-virgule
(;
),trait d'union
(-
).
法語智能格式範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以法文語音為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 溫特-卡特勒-德米萊-特雷澤 | 2013 年 7 月 24 日 |
迪克斯-胡特-邁迪克斯-訥夫-特倫特 | 1930 年 5 月 18 日 | |
時間 | 晨報 | 8 小時 |
昂熱桑特-塞普 | 11 小時 57 | |
中阿普雷斯-米迪山 /apra/midi,deux heures de l' | 14 小時 | |
數字 | 四、四、五、五 | 147451 |
莫因溫特-辛克-米勒-特倫特-塞普特 | 25037 | |
溫特-特羅伊謝姆 | 23 es | |
卡特爾-杜卡特里梅斯公司 | 4 2/4 | |
電話號碼 | 雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙 | 99 12 32 30 30 |
雙雙排排排排排排排排排排排排排排排排排排排排排 | 02 12 32 30 30 | |
貨幣值 | 雙美元 vingt | 2,20 美元 |
歐洲和索伊桑特公司 | 5,60 歐元 | |
四百萬歐元 | 480 萬歐元 | |
電子郵件、URL、IP | a b trois point s d point trois arobase g mail point com | ab3.sdd.3@gmail.com |
w w w point web point c o point f r | www.web.co.fr | |
雙 neuf dot trente-deux dot trente dot trente | 99.32.30.30 | |
測量 | 誇蘭特-迪米萊-迪昂-辛坎特-諾伊夫-米特雷-卡雷 | 42 259 /m² |
兩德錢基洛梅特爾斯厄爾 | 200 km/h | |
序列 | 文件 numro z é r o deux trendte-六 vingt-quatre | Le document numero 023624 |
r t x dix-huit t i | rtx18ti |
加拿大法語區
- 在日期中,序數
premier
被視為該月的 1st。 日期會格式化為DD/MM/YYYY
。 - 時間由關鍵字及字首識別,例如
heures
、de l'après-midi
或du soir
、du matin
、midi
。時間格式化為 24H 時鐘:HH h MM
- 電話號碼必須是
911
或包含 10 位數字和/或以[+]1
開頭的號碼。 - 一般格式的網際網路電子郵件位址 (例如
[alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname
) 是智慧型格式化。@
可以由下列任何一項代表:arobase
、chez
、at
、à
。 - 小於 9 個的卡片如果出現在其他文字中間,則不會轉換(以避免
j'ai un pomme
->j'ai 1 pomme
及其他奇怪的轉換)。 如果它們在沒有其他文字的情況下單獨出現,則仍會格式化。 - 支援 Fractions 格式化。例如
un onzième
->1/11
- 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出/指定標點符號來替代關鍵字字串。
virgule
(,
)、point
(.
)、point d'interrogation
(?
)、point d'exclamation
(!
)、point-virgule
(;
)、trait d'union
(-
) 等。
法語-加拿大語的智慧格式範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以法國-加拿大語音為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 溫特-卡特勒-德米萊-特雷澤 | 2013 年 7 月 24 日 |
迪克斯-胡特-邁迪克斯-訥夫-特倫特 | 1930 年 5 月 18 日 | |
時間 | 晨報 | 8 小時 |
昂熱桑特-塞普 | 11 小時 57 | |
中阿普雷斯-米迪山 /apra/midi,deux heures de l' | 14 小時 | |
數字 | 四、四、五、五 | 147451 |
莫因溫特-辛克-米勒-特倫特-塞普特 | 25037 | |
溫特-特羅伊謝姆 | 23es | |
卡特爾-杜卡特里梅斯公司 | 4 2/4 | |
電話號碼 | 一個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個 |
|
五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五 | 02 12 32 30 30 | |
貨幣值 | 雙美元 vingt | 2,20 美元 |
金元 | 20,05 美元 | |
四百萬歐元 | 480 萬歐元 | |
電子郵件、URL、IP | a b trois point s d point trois arobase g mail point com | ab3.sdd.3@gmail.com |
w w w point web point c o point f r | www.web.co.fr | |
雙 neuf dot trente-deux dot trente dot trente | (514) 469-210 | |
測量 | 誇蘭特-迪米萊-迪昂-辛坎特-諾伊夫-米特雷-卡雷 | 42 259 /m² |
兩德錢基洛梅特爾斯厄爾 | 200 km/h | |
序列 | 文件 numro z é r o deux trendte-六 vingt-quatre | Le document numero 023624 |
r t x dix-huit t i | rtx18ti |
西班牙文
- 在日期中,序數
primero
被認為是每月的 1st。 日期會格式化為DD/MM/YYYY
。 - 以小時為單位的時間或沒有冠词後綴的時間(表示 a.m.「或 p.m '),會被converted.e.g
las dos pe eme
。 時間格式為 24H時鐘:HH h MM
或 12H時鐘a.m./p.m。 - 電話號碼必須有 8、9 或 10 位數。 數字格式化為
NNNN NNNN
或NNN NNN NNN
或NNN NNN NNNN
- 通用格式的網際網路電子郵件地址 (例如:
[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname
)為智慧型格式。 - 小於 9 的紅心字如果出現在其他文字中間,則不會轉換(以避免
un gato en el camino
->1 gato en el camino
及其他奇怪的轉換)。 如果它們在沒有其他文字的情況下單獨出現,則仍會格式化。 - 支援 Fractions 格式化。 例如,
un décimo
->1/10
- 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
punto
( ), ( ), ( ), ( ), ( ),等等。.
interrogación``?
exclamación``!
punto y coma``;
guion medio``-
西班牙語的智慧格式範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以西班牙語音訊為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 特林塔和另一個關於軍事和軍事的 | 1992 年 12 月 31 日 |
二、七、七、七、七、七、七、七、七、七、七、七、七、七、七、七 | 2018 年 9 月 16 日 | |
時間 | 拉斯迪塞塞斯辛昆塔 | las 16:50 |
拉斯-杜斯阿埃姆 | las 2:00 a.m。 | |
數字 | 米爾-諾韋琴託斯-辛庫恩塔和奧喬 | 1958 |
一米爾-諾韋辛託斯-辛昆塔和奧喬 | 11958 | |
德西馬-普里梅拉 | 11 a | |
溫誇倫蒂烏納沃 | 1/41 | |
電話號碼 | 新卡特羅辛科公司 | 914 556 8331 |
一座兩座座座的聖座 | 1234 5678 | |
貨幣值 | 新半人馬座歐元 | 歐元 2,90 |
杜斯歐元和辛科塔沃斯 | 12,05 歐元 | |
新昆科米約內斯-德比索 | $9.5 毫升 | |
電子郵件、URL | a b c arroba g mail punto a b c | abc@gmail.abc |
doble uve doble uve doble uve punto nvidia punto com | www.nvidia.com | |
測量 | 特雷斯梅特羅斯-庫比科斯 | 3 立方米 |
現在的兩個基洛梅特羅斯 | 2 kph | |
序列 | 塞羅-杜斯特雷斯-杜斯-杜斯夸特羅 | 023624 |
r t x cero dos tres w | rtx023w |
德文
- 日期格式化支援數字和月份名稱 (例如
zweiter
與februar
相同 )。 日期會格式化為DD.MM.YYYY
。 - 時間由關鍵字識別,例如
nach
uhr
、vor
、minuten
。時間格式化為 24 小時制:HH:MM:SS
。 - 電話號碼必須有 3-4 位數的區域代碼,以
0
開頭,接著是 8 位數的號碼。 國碼 (+ 49) 是選用項目。 如果使用國家代碼,區域代碼不得以0
開頭。 數字的格式為+49 [N]NN NNNNNNNN
或0[N]NN NNNNNNNN
。 - 在適當的環境定義中,大部分貨幣符號會替代字串,例如
dollar
、cent
、euro
、yen
。 - 具有常見格式 (例如
[alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname
)的網際網路電子郵件地址格式化。 - Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 (
http/s
)、子網域 (www
)、埠 (443
,80
) 和路徑 (/help/abc
) - 小於 9 的紅雀不進行轉換,以避免奇數或含糊不清的轉換。
- 支援序數和小數的格式化。
- 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
komma
(,
),punkt
(.
),fragezeichen
(?
),ausrufezeichen
(!
),semikolon
(;
),bindestrich
(-
).
德語智能格式範例
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以德語音訊為基礎。
實體類型 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | 維倫茨萬齊格斯特朱利・朱利・茨維陶森德雷澤恩 | 24.07.2013 |
德賴茲恩特-茲魏特-陶森德-茲萬齊希 | 13.02.2020 | |
時間 | 維倫茲萬茲古爾茨魏恩茲萬齊齊希 | 24:22 Uhr |
西本河 /acht uhr sieben | 08:07 Uhr | |
艾因烏赫爾彙報 | 01:01:01 Uhr | |
數字 | 下費恩夫和茲萬齊齊格 | -25037 |
國營鐵路公司 | 818,303 | |
豐豐茨萬齊格陶公司 | 25111 | |
德雷茲韋因亨德斯特爾 | 3 2/100 | |
電話號碼 | 我愛你我愛你我愛你 | 0411 12341234 |
{\p} {p\p} {p\p\p} {p\p\p} {p\p\p\p} {p\p\p} {p\p\p |
|
|
貨幣值 | zwei komma null null null eins 美元 | 2,0001 美元 |
茨魏恩茨萬齊希公司 | 0,22 歐元 | |
電子郵件、URL、IP | 我是賓得斯特里奇的人我是賓得斯特里奇-德-德-利特 | ab3-sdd-3@gmail.com |
h t t p dops pelpunkt slash w w w w punkt a b c punkt com slash a b | https://www.abc.com/ab | |
德賴-豐特恩斯-德雷伊-豐特茨韋山 | 35.135.24.24 | |
測量 | zwei pro stunde zwei 公里 | 每小時 2 公里 |
維澤米勒特河 | 440 毫升 | |
序列 | c b vier drei bindestrich f f ü n f drei f ü n f zwei vier zwei punkt vier drei f ü n f | cb43-535242.435 |
特倫默-斯特里希-茲沃勒普 | teilenummer ft-12p |
智慧型格式化 V2 範例
下列範例會要求針對辨識要求使用智慧型格式化,方法是將 smart_formatting
參數設定為 true
。 下列幾節顯示智慧型格式化對要求結果的效果。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
IBM Cloud Pak for Data
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"
智慧型格式化
智慧型格式化功能是測試版功能,適用於美國英文、日文和西班牙文 (所有方言)。 當美國英語音訊被辨識時,en-WW_Medical_Telephony
機型也可使用。
smart_formatting
參數指示服務將下列字串轉換為更為慣用的表示法:
- 日期
- 時間
- 數字的系列
- 電話號碼
- 貨幣值(適用於美式英文及西班牙文)
- 網際網路電子郵件及網址(適用於美式英文及西班牙文)
請將 smart_formatting
參數設定為 true
,以啟用智慧型格式化。 依預設,服務不會執行智慧型格式化。 服務會在將最終結果傳回給用戶端之前、文字正規化完成之時,套用智慧型格式化。 轉換會藉由以這些構件的正常書寫方式來呈現這些構件,讓文字記錄更容易閱讀,並且可以更妥善地進行轉錄結果的後處理。
智慧型格式化會影響哪些結果?
智慧型格式化會影響部分轉錄結果,而不會影響其他結果:
-
智慧型格式化只會影響最終結果之
transcript
欄位中的字組;在最終結果中final
欄位為true
。 它不會影響過渡期間結果;過渡期間結果的final
為false
。 -
智慧型格式化不會影響回應中其他欄位的字組。 例如,智慧型格式化不會套用至
timestamps
或alternatives
欄位中的回應資料。 -
語音猶豫 (例如 "uhm" 和 "uh") 可能會透過某些語言的智慧型格式化,對詞組和字串的轉換產生不利影響。 前一代模型會產生猶豫標記,以取代文字記錄中的此類猶豫。 智慧型格式化對前一個產生模型的猶豫標記具有下列效果:
- 對於美國英語, 智慧格式化會抑制
transcript
欄位中的遲疑標記,以獲得最終結果。 - 對於日文, 猶豫標記會繼續出現在最終結果中。
- 對於美式英文和日文, 猶豫標記會繼續出現在過渡期間結果中。
- 若為西班牙文,服務不會針對任何結果產生猶豫標記。
下一代模型不會產生猶豫標記。 相反地,它們包含轉錄結果中的實際猶豫。 智慧型格式化對下一代模型所包含的猶豫沒有影響。 如需相關資訊,請參閱 語音猶豫和猶豫標記。
- 對於美國英語, 智慧格式化會抑制
語言差異
智慧型格式化是根據文字記錄中出現的明顯關鍵字。 由於支援的語言之間的差異,智慧型格式化對每種語言的運作略有不同。 下列各節說明觸發美式英文和西班牙文以及日文之智慧型格式化變更的字串和內容。
美式英文及西班牙文
-
時間是以關鍵字例如
AM
、PM
或EST
識別。 -
軍用時間如果以關鍵字
hours
(美式英文)或horas
(西班牙文)識別時會予以轉換。 -
電話號碼必須是
911
或包含 10 或 11 位數、開頭號碼為1
的號碼。 -
在適當的上下文中,貨幣符號會替換為下列字串:
- 美式英文:dollar、cent、euro。
- 西班牙文:dolar、peso、peseta、libras esterlinas、libra、euro。
-
在某些情況下,會轉換網際網路電子郵件位址。 明確地說,如果輸入音訊使用詞組
email address ... {address}
,則服務會轉換電子郵件位址。 下列範例顯示口說詞組的正確轉換:My email address is j dot d o e at i b m dot com
變成My email address is j.doe@ibm.com
。Mi correo electronico es j punto d o e arroba i b m punto com
變成Mi correo electronico es j.doe@ibm.com
。
-
網際網路網址會以短格式轉換。 完整的網址不會轉換。 下列範例顯示完整的轉換:
I saw the story on yahoo dot com
變成I saw the story on yahoo.com
。Vi la historia en yahoo punto com
變成Vi la historia en yahoo.com
。
下列範例顯示不完整的轉換:
I saw the story on w w w dot yahoo dot com
變成I saw the story on w w w .yahoo.com
。Vi la historia en w w w punto yahoo punto com
變成Vi la historia en w w w .yahoo.com
。
-
要轉換數字大的號碼和貨幣值可能具有挑戰性。 服務能順利轉換數字及許多號碼。 但較大且較複雜的號碼及貨幣值,需要使用更精確的詞組才能運作得最好。 例如,服務會正確地轉換下列文字記錄,因為它們用字精確:
sixty nine thousand five hundred sixty dollars and twenty five cents
變成$69560.25
。sixty nine thousand five hundred sixty dollars point twenty five
變成$69560.25
。
但服務無法正確地轉換下列文字記錄,因為它們的用字較鬆散:
sixty nine thousand five sixty dollars and twenty five cents
變成60 9000 $560.25
。sixty nine thousand five sixty dollars point twenty five
變成60 9000 $560.25
。
若要正確轉換更多的複雜號碼可能變化,您需要實驗智慧型格式化的結果,然後自訂您自己的後處理公用程式。
-
*針對美式英文,*會為在適當位置發生的特殊關鍵字,新增特定標點符號。 當您使用智慧型格式化時,服務會根據在謄本中找到的位置,將標點符號取代下列關鍵字字串:
Comma
(,
)Period
(.
)Question mark
(?
)Exclamation point
(!
)
該服務僅在謄本的適當位置將這些關鍵字串轉換為符號。 在下面的例子中,講話者在句子末尾說出
period
這個詞:the warranty period is short period
變成the warranty period is short.
服務會正確地區分稍早出現在句子中的名詞與結束的標點符號。
日文
-
電話號碼必須是 10 或 11 位數,且開頭為日本電話號碼的有效字首。 例如,有效的字首包含
03
及090
。 -
英文字組會轉換為 ASCII(半角)字元。 例如,
IBM
轉換為IBM
。 -
如果沒有足夠的上下文,可能不會轉換語義不明確的術語。 例如,不清楚
一時
和十分
是否指時間。 -
標點符號的處理方式不論是否有智慧型格式化都相同。 例如,根據概率計算,選擇
カンマ
或,
之一。 -
說明日圓值的字串不會取代為日圓貨幣符號。
-
不會轉換任何形式的網際網路電子郵件及網址。
-
日文窄頻模型 (
ja-JP_NarrowbandModel
) 包含數字和小數位數的一些多元字組單位。 不論您是否啟用智慧型格式化,服務都會傳回這些多元單位。 下列範例顯示服務傳回的單位。 括弧中的數字顯示每一個單位的相等阿拉伯文數字表示式。- 數字:
〇一
(01)、...、〇九
(09)、一〇
(10)、...、九〇
(90) - 小數分數:
〇・
(0.)、一・
(1.)、...、十・
(10.)
智慧型格式化特性會瞭解並傳回模型產生的多元單位。 如果您自行對轉錄結果套用後處理,則需要適當處理這些單位。
- 數字:
智慧型格式化結果
下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 文字記錄是以美式英文音訊為基礎。
資訊 | 不使用智慧型格式化 | 使用智慧型格式化 |
---|---|---|
日期 | I was born on ten oh six nineteen seventy | I was born on 10/6/1970 |
I was born on the ninth of December nineteen hundred | I was born on 12/9/1900 | |
Today is June sixth | Today is June 6 | |
時間 | The meeting starts at nine thirty AM | The meeting starts at 9:30 AM |
I am available at seven EST | I am available at 7:00 EST | |
We meet at oh seven hundred hours | We meet at 0700 hours | |
數字 | The quantity is one million one hundred and one | The quantity is 1000101 |
One point five is between one and two | 1.5 is between 1 and 2 | |
電話號碼 | Call me at nine one four two three seven one thousand | Call me at 914-237-1000 |
Call me at one nine one four nine oh nine twenty six forty five | Call me at 1-914-909-2645 | |
貨幣值 | You owe me three thousand two hundred two dollars and sixty six | You owe me $3202.66 |
The dollar rose to one hundred and nine point seven nine yen from one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen | |
網際網路電子郵件及網址 | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com |
I saw the story on yahoo dot com | I saw the story on yahoo.com | |
組合 | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 |
There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |
長暫停的智慧型格式化結果
當話語包含足夠長的靜音暫停時,服務可能將文字記錄分割為兩個以上的最終結果。 這會影響回應的內容,如以下範例所示。
音訊語音 | 格式化的轉錄結果 |
---|---|
My phone number is nine one four five five seven three three nine two | "My phone number is 914-557-3392" |
我的電話號碼是九一四..... .暫停......五五七三三九二 | 「我的電話號碼是 914」 "5573392" |
如需指定影響服務回應之暫停間隔的相關資訊,請參閱詞組結尾的靜音時間。
智慧型格式化範例
下列範例會要求針對辨識要求使用智慧型格式化,方法是將 smart_formatting
參數設定為 true
。 下列幾節顯示智慧型格式化對要求結果的效果。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
IBM Cloud Pak for Data
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"
數字編寫
數字編寫特性是適用於美式英文、日文及韓文的測試版功能。
redaction
參數會指示服務編寫(或遮蔽)最終文字記錄中的數字資料。 此特性會編寫連續三位數以上的任何數字,並將每位數取代為一個 X
字元。 其目的是要編寫機密數字資料,例如信用卡號碼。
依預設,服務不會編寫數字資料。 請將 redaction
參數設定為 true
,以啟用數字編寫。 當您啟用編寫時,服務會透過將 smart_formatting
參數設為 true
來自動啟用智慧型格式化,而不論您是否明確停用該特性。 為了確保最大的安全性,當您啟用刪除功能時,服務也會停用下列參數:
- 服務會停用關鍵字辨識,而不論您是否指定
keywords
及keywords_threshold
參數的值。 - 不論您是否為
max_alternatives
參數指定大於 1 的值,服務都會停用替代上限。 服務只會傳回單一最終文字記錄。 - 不論您是否將
interim_results
參數設為true
,該服務都會停用 WebSocket 介面的過渡期間結果。
特性的設計與現有的智慧型格式化特性相似。 服務只會在將結果傳回給用戶端之前、文字正規化完成之後,對最終文字記錄套用編寫。
語言差異
此特性針對美式英文模型的運作完全如此處所述,但針對日文與韓文模型有下列差異。
日文
日文編寫有下列差異:
-
除了遮蔽連續三位數的字串,編寫也會遮蔽街道地址和數字,不論它們是否包含少於三位數。
-
同樣地,編寫也會遮蔽日文樣式出生日期中的日期資訊。 在日文,日期資訊通常以「公元 (Common Era)」格式呈現,但有時會遵循日文樣式,特別是出生日期。 在此情況下,年份和月份會經過遮蔽,即使它們只包含一位數或兩位數也一樣。
例如,沒有編寫的日式出生日期是
平成 30年 2月
。 當使用校訂時,日期會變成平成 XX年 X月
。
韓文
韓文編寫有下列差異:
-
不支援智慧型格式化特性。 服務仍會針對韓文執行數字編寫,但它不會執行其他智慧型格式化。
-
隔離的數字字元會減少,但包含在韓文詞組當中的可能數字字元則否。 例如,以下短語中的
이
字元不會被X
取代,因為該字元與以下字元相鄰:이입니다
如果
이
字元與後面的字元之間以空格隔開,則會以X
,取代,如數字節錄結果 所述。
數字編寫結果
下表顯示每個支援語言中,使用及不使用數字編寫的最終文字記錄範例。
語言 | 不使用編寫 | 使用編寫 |
---|---|---|
美式英文 | my credit card number is four one four seven two | my credit card number is XXXXX |
日文 | 在第二個問題上,請讓我們從第二個問題上 | 在這個會議上 |
韓文 | 對從從從從從從從從從從從從從從從從從從從從從到從從從從從從從從從從從從 | 以 "" "" "" "" "" "" "" "" "" "" "" "" "" "" |
數字編寫範例
下列範例會要求針對辨識要求使用數字編寫,方法是將 redaction
參數設定為 true
。 因為要求會啟用編寫,所以服務會隱含地啟用要求的智慧型格式化。 服務實際上會停用要求的其他參數,讓它們沒有效果:服務傳回單一最終文字記錄,並且未辨識任何關鍵字。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
IBM Cloud Pak for Data
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"
褻瀆過濾
髒話過濾功能一般僅適用於美式英語和日語。
profanity_filter
參數指出服務是否要審查其結果的褻瀆。 依預設,服務會在文字記錄中將所有褻瀆取代為一系列的星號,以遮蔽所有褻瀆。 將參數設定為 false
會完全依照轉錄顯示輸出裡的字組。
服務會審查所有最終文字記錄以及任何替代文字記錄的褻瀆。 它也會審查與替代字組、字組信賴度及字組時間戳記相關聯之結果的褻瀆。 唯一的例外是關鍵字辨識,針對關鍵字辨識,服務會如使用者所指定地傳回所有字組,而不論 profanity_filter
是否為 true
。
褻瀆過濾範例
下列範例顯示簡短音訊檔的結果,該音訊檔在轉錄時使用了 true
參數的預設 profanity_filter
值。 要求也將 word_alternatives_threshold
參數設定為相當高的值 0.99
,並將 word_confidence
及 timestamps
參數設定為 true
。
IBM Cloud
curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
IBM Cloud Pak for Data
curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true×tamps=true"
服務會以一系列星號取代回應,以遮罩回應中的褻瀆:
{
"result_index": 0,
"results": [
{
"word_alternatives": [
{
"start_time": 0.03,
"alternatives": [
{
"confidence": 1.0,
"word": "****"
}
],
"end_time": 0.25
},
{
"start_time": 0.25,
"alternatives": [
{
"confidence": 0.99,
"word": "you"
}
],
"end_time": 0.56
}
],
"alternatives": [
{
"transcript": "**** you",
"confidence": 0.99,
"word_confidence": [
["****", 1.0],
["you", 0.99]
],
"timestamps": [
["****", 0.03, 0.25],
["you", 0.25, 0.56]
]
}
],
"final": true
}
]
}