IBM Cloud Docs
回應格式化和過濾

回應格式化和過濾

IBM Watson® Speech to Text 服務提供三個特性,可用來剖析轉錄結果。 您可以格式化最終文字記錄,以包括特定字串的慣用表示法,以及包括標點符號。 您可以從最終文字記錄中編寫機密數值資訊,並且可以從大部分轉錄結果中過濾褻瀆。 所有這些特性都是測試版功能,且僅限於特定語言。

智慧型格式化第 2 版

新版本的智慧型格式化功能適用於美國英文、巴西葡萄牙文、法文、德文、卡斯蒂利亞西班牙文、拉丁美洲西班牙文和加拿大法文。 當辨識美式英文音訊時,它也適用於 en-WW_Medical_Telephony 模型。

新版本:

  • 相較於較舊的智慧型格式化,在新增語言和型樣方面提供更大的彈性。
  • 使用更精密的機器學習技術 (Weighted Finite State Transducers) 來識別文字中的實體,而舊版本則採用基於規則的方法。
  • 提供更精確的實體分類和格式化,也增加了在相同文字可辨識為兩種不同實體類型時使用權重定義層級的功能。

smart_formatting 功能會指示服務將下列字串轉換為較傳統的表示法:

  • 日期和時間
  • 整數、小數、序數
  • 英數序列 (長度> 2)
  • 電話號碼
  • 貨幣值
  • 措施 ( /km², kg, mph, , 等等)
  • 電子郵件、URL 和 IP 位址
  • 信用卡號碼 (格式為 4 位數的群組)
  • 標點符號 (以書寫方式說出)

若要在美國英語、巴西葡萄牙語、法語、德語、卡斯蒂利亞西班牙語、拉丁美洲西班牙語和加拿大法語中使用新的智慧格式化功能;請設定參數 smart_formatting=true 並 smart_formatting_version=2。

實體型樣和範例

美式英文

  • 接受不同的口語形式的日期,包括與數字或月份名稱一樣的日期,以及使用 theof (the twenty fifth of july twenty twelve)。日期會格式化為 m/d/yyyy
  • 時間以關鍵字或後綴來識別,例如時區 (例如 est, eastern )、am, pm, hours, o'clock, minutes past hour
  • 電話號碼必須是 911 或包含 10 位數字和/或以 [+]1 開頭的號碼。
  • 貨幣符號在適當的上下文中會被字串取代,例如 dollar, cent, euro, yencentdollar 之後是可選的,例如 twelve dollars twenty fivetwelve dollars twenty five cents 格式化為 $12.25
  • 一般格式的網際網路電子郵件位址 (例如,[alphanumeric+symbols]+ at [alphanumeric dot]+ domainname ) 是智慧型格式化。
  • Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 ( http/s )、子網域 ( www )、埠 ( 443, 80 ) 和路徑 ( /help/abc )。
  • 大部分大型整數都會格式化為數字序列。 當大數字 (百萬、十億) 說成單組整數時,為了可讀性,數量字 million/billion 不會轉換,例如 fifty nine million-> 59 million,但當數字較複雜時,會格式化為數字位數,例如 fifty nine million and one-> 59000001
  • 小於 10 的數字不會轉換為位數,以避免奇怪的格式,例如 You are one of them-> You are 1 of them。但在其他情況下,例如表示貨幣,它們會被轉換,例如 Give me one dollar-> Give me $1
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
    • comma (,), period (.), question mark (?), exclamation point (!), semicolon (;), hyphen (-).

智慧型格式化範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 文字記錄是以美式英文音訊為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 七月二十五日二千一十二 7/25/2012
七月二十十二號二十五 7/25/2012
一月三十到兩千 1/31/2000
零五零五一九八三 5/5/1983
二十二的第二季 Q2 2022
時間 是東二十一 它是 02:11 est
我們從 700 小時開始 我們從 07:00 開始
四分之一 01:15
三點 03:00
數字 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
五百萬兩百萬 它將花費 5.2
第 120 次審判 其 121st 試用
電話號碼 九一四五六八三三一 914-556-8331
加一九二三二三五六七八
  • 1 923-123-5678
貨幣值 你欠我 4 美元和 69 美分 你欠我 4 4.69 美元
七十五美元六三 $75.63
1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換: 1 美元兌換 美元兌日圓漲至109.79
電子郵件、URL、IP 我看了 ww w w 點 yhoo dot com 的故事 我在 www.yahoo.com 上看到這個故事
a b 3 個連字號 s d d dash 3 at g mail dot com ab3-sdd-3@gmail.com
h t t p 冒號斜線 w w w dot c o m m d a i l y n e w s dot a b slash s m http://www.comdailynews.ab/sm
2 2 5 點 2 5 點 4 5 點 225.55.0.45
測量 每小時兩百公里 200 km/h
兩千瓦時 2 kWh
序列 H F H 九九三點七 B HFH993.7B
10 個 80 p 顯示畫面 1080p 顯示畫面

巴西-葡萄牙文

  • 對於日期,dode 用來分隔日、月和年。primeiro 被視為每月 1st。 日期會格式化為 DD/MM/YYYY
  • 時間以關鍵字和前綴來識別,例如 às ao, à, da tarde ( p.m. ), da madrugada ( a.m. ), meia noite, meio diaàs ao, à 是可選的前綴。
  • 座車號碼必須有 10 位數 (2 位數國碼和 8 位數),行動電話號碼是 9 位數,第一個數字是 9,具有選用國碼。 區域碼是選用的。 數字的格式為 +NN (NN) NNNN-NNNN+NN (NN) 9NNNN-NNNN
  • 巴西實際貨幣符號為 R$。 其他貨幣符號會替代適當環境定義中的字串,例如 dollarcenteuroyencentavosreais 之後是選用的,例如 setenta e cinco dólares e sessenta e trêssetenta e cinco dólares e sessenta e três centavos 格式化為 R$75,63
  • 一般格式的網際網路電子郵件位址 (例如,[alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname ) 是智慧型格式化。
  • Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 ( http/s )、子網域 ( www )、埠 ( 443, 80 ) 和路徑 ( /help/abc )。
  • 大部分大型整數都會格式化為數字序列。 當大數字 (millhões、bilhões 等) 以單一組整數形式說出時,為了易讀性,數量字 milhões/bilhões 不會轉換,例如 doze milhões-> 12 milhões,但當數字較複雜時,則會以數字位數格式化,例如 doze milhões e um-> 12000001
  • 小於 10 的數字不會格式化為數字,以避免奇數轉換,例如 vivo em uma casa--> vivo em 1 casa
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
    • vírgula (,), ponto (.), ponto de interrogação (?), ponto de exclamação (!), ponto e vírgula (;), hífen (-).

巴西葡萄牙語的智慧格式範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以巴西葡萄牙語音訊為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 三部曲和三部曲 1988 年 12 月 31 日
嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯嗯 01/01/1987
時間 金澤-普羅米奧迪亞 11:45
米奧迪亞和米亞霍拉 12:30
梅奧迪亞-梅奧 奧 12:30
杜阿斯-達馬德魯加達 À s 1:50 a.m.
這里是我的家 À s 23:45
數字 五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五 147451
烏姆維爾古拉文特和塞斯 1,26
德西莫-普里梅魯 11 º
電話號碼 卡特羅-辛科-特里斯-卡特羅-辛科-塞西斯-伊託 (45) 1234-5678
不去任何地方 (11) 99865-1502
新酒和酒和酒 92728-3738
但辛科-辛科-翁澤-諾韋梅亞-諾韋梅亞-零梅亞-um quatro meia +55 (11) 96906-0146
貨幣值 溫特-辛科半塔沃斯 0,25 加元
半人半人半人半人半人半人半人半人半人半人半人半人半人半人半人半人半 29 50 美元
溫特-辛科半塔沃斯 0,25 加元
電子郵件、URL、IP a ponto b c arroba g mail pon com a.bc@gmail.com
達布利奧-達布利奧-達布利奧-龐託 a b c ponto es barra e f g www.abc.es/efg
w w w ponto nvidia ponto com www.nvidia.com
新和伊託潘託-塞滕塔和新和伊託潘託-德澤塞 98.76.98.16
測量 在現在的幾個小時裡 245 kph
兩座城市和廣場 245 m/s
序列 我們的新生活和新生活 d1639c-f98
Modelo f t doze x Modelo ft12x

法文

  • 在日期中,序數 premier 被視為每月的 1st。 日期會格式化為 DD/MM/YYYY
  • 時間由關鍵字及字首識別,例如 heuresde l'après-mididu soirdu matinmidi。時間格式化為 24H 時鐘: HH h MM
  • 電話號碼必須有 9 或 10 位數 (5 對 2 位數)。 在只允許第一個配對的一個數字的情況下,假設已跳過 0。 數字會格式化為 NN NN NN NN NN
  • 當使用 ded' 前置位置來表示貨幣時,不會使用貨幣符號來格式化。 這通常發生在大整數時,例如,un milliard d'euro 格式化為 1 milliard d'euro
  • 具有常見格式的網際網路電子郵件位址 (例如 [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) 是智慧型格式。@ 可以用其中任何一個來表示:arobase, chez, at, à
  • 小於 9 的紅雀不進行轉換(以避免 j'ai un pomme-> j'ai 1 pomme 及其他奇異的轉換)
  • 對於序數,當給予序數形容詞時,'siècles' 用羅馬數字表示。dix-neuvième siècle-> XIXᵉ siècle.
  • 支援 Fractions 格式化。 例如,un onzième-> 1/11
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-).

法語智能格式範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以法文語音為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 溫特-卡特勒-德米萊-特雷澤 2013 年 7 月 24 日
迪克斯-胡特-邁迪克斯-訥夫-特倫特 1930 年 5 月 18 日
時間 晨報 8 小時
昂熱桑特-塞普 11 小時 57
中阿普雷斯-米迪山 /apra/midi,deux heures de l' 14 小時
數字 四、四、五、五 147451
莫因溫特-辛克-米勒-特倫特-塞普特 25037
溫特-特羅伊謝姆 23 es
卡特爾-杜卡特里梅斯公司 4 2/4
電話號碼 雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙生雙 99 12 32 30 30
雙雙排排排排排排排排排排排排排排排排排排排排排 02 12 32 30 30
貨幣值 雙美元 vingt 2,20 美元
歐洲和索伊桑特公司 5,60 歐元
四百萬歐元 480 萬歐元
電子郵件、URL、IP a b trois point s d point trois arobase g mail point com ab3.sdd.3@gmail.com
w w w point web point c o point f r www.web.co.fr
雙 neuf dot trente-deux dot trente dot trente 99.32.30.30
測量 誇蘭特-迪米萊-迪昂-辛坎特-諾伊夫-米特雷-卡雷 42 259 /m²
兩德錢基洛梅特爾斯厄爾 200 km/h
序列 文件 numro z é r o deux trendte-六 vingt-quatre Le document numero 023624
r t x dix-huit t i rtx18ti

加拿大法語區

  • 在日期中,序數 premier 被視為該月的 1st。 日期會格式化為 DD/MM/YYYY
  • 時間由關鍵字及字首識別,例如 heuresde l'après-mididu soirdu matinmidi。時間格式化為 24H 時鐘: HH h MM
  • 電話號碼必須是 911 或包含 10 位數字和/或以 [+]1 開頭的號碼。
  • 一般格式的網際網路電子郵件位址 (例如 [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) 是智慧型格式化。@ 可以由下列任何一項代表: arobasechezatà
  • 小於 9 個的卡片如果出現在其他文字中間,則不會轉換(以避免 j'ai un pomme-> j'ai 1 pomme 及其他奇怪的轉換)。 如果它們在沒有其他文字的情況下單獨出現,則仍會格式化。
  • 支援 Fractions 格式化。例如 un onzième-> 1/11
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出/指定標點符號來替代關鍵字字串。
    • virgule (,)、point (.)、point d'interrogation (?)、point d'exclamation (!)、point-virgule (;)、trait d'union (-) 等。

法語-加拿大語的智慧格式範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以法國-加拿大語音為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 溫特-卡特勒-德米萊-特雷澤 2013 年 7 月 24 日
迪克斯-胡特-邁迪克斯-訥夫-特倫特 1930 年 5 月 18 日
時間 晨報 8 小時
昂熱桑特-塞普 11 小時 57
中阿普雷斯-米迪山 /apra/midi,deux heures de l' 14 小時
數字 四、四、五、五 147451
莫因溫特-辛克-米勒-特倫特-塞普特 25037
溫特-特羅伊謝姆 23es
卡特爾-杜卡特里梅斯公司 4 2/4
電話號碼 一個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個
  • 1 (514) 555-1234
五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五個五 02 12 32 30 30
貨幣值 雙美元 vingt 2,20 美元
金元 20,05 美元
四百萬歐元 480 萬歐元
電子郵件、URL、IP a b trois point s d point trois arobase g mail point com ab3.sdd.3@gmail.com
w w w point web point c o point f r www.web.co.fr
雙 neuf dot trente-deux dot trente dot trente (514) 469-210
測量 誇蘭特-迪米萊-迪昂-辛坎特-諾伊夫-米特雷-卡雷 42 259 /m²
兩德錢基洛梅特爾斯厄爾 200 km/h
序列 文件 numro z é r o deux trendte-六 vingt-quatre Le document numero 023624
r t x dix-huit t i rtx18ti

西班牙文

  • 在日期中,序數 primero 被認為是每月的 1st。 日期會格式化為 DD/MM/YYYY
  • 以小時為單位的時間或沒有冠词後綴的時間(表示 a.m.「或 p.m '),會被converted.e.g las dos pe eme。 時間格式為 24H時鐘:HH h MM 或 12H時鐘a.m./p.m。
  • 電話號碼必須有 8、9 或 10 位數。 數字格式化為 NNNN NNNNNNN NNN NNNNNN NNN NNNN
  • 通用格式的網際網路電子郵件地址 (例如:[alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname )為智慧型格式。
  • 小於 9 的紅心字如果出現在其他文字中間,則不會轉換(以避免 un gato en el camino-> 1 gato en el camino 及其他奇怪的轉換)。 如果它們在沒有其他文字的情況下單獨出現,則仍會格式化。
  • 支援 Fractions 格式化。 例如,un décimo-> 1/10
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
    • punto ( ), ( ), ( ), ( ), ( ),等等。. interrogación``? exclamación``! punto y coma``; guion medio``-

西班牙語的智慧格式範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以西班牙語音訊為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 特林塔和另一個關於軍事和軍事的 1992 年 12 月 31 日
二、七、七、七、七、七、七、七、七、七、七、七、七、七、七、七 2018 年 9 月 16 日
時間 拉斯迪塞塞斯辛昆塔 las 16:50
拉斯-杜斯阿埃姆 las 2:00 a.m。
數字 米爾-諾韋琴託斯-辛庫恩塔和奧喬 1958
一米爾-諾韋辛託斯-辛昆塔和奧喬 11958
德西馬-普里梅拉 11 a
溫誇倫蒂烏納沃 1/41
電話號碼 新卡特羅辛科公司 914 556 8331
一座兩座座座的聖座 1234 5678
貨幣值 新半人馬座歐元 歐元 2,90
杜斯歐元和辛科塔沃斯 12,05 歐元
新昆科米約內斯-德比索 $9.5 毫升
電子郵件、URL a b c arroba g mail punto a b c abc@gmail.abc
doble uve doble uve doble uve punto nvidia punto com www.nvidia.com
測量 特雷斯梅特羅斯-庫比科斯 3 立方米
現在的兩個基洛梅特羅斯 2 kph
序列 塞羅-杜斯特雷斯-杜斯-杜斯夸特羅 023624
r t x cero dos tres w rtx023w

德文

  • 日期格式化支援數字和月份名稱 (例如 zweiterfebruar 相同 )。 日期會格式化為 DD.MM.YYYY
  • 時間由關鍵字識別,例如 nach uhrvorminuten。時間格式化為 24 小時制: HH:MM:SS
  • 電話號碼必須有 3-4 位數的區域代碼,以 0 開頭,接著是 8 位數的號碼。 國碼 (+ 49) 是選用項目。 如果使用國家代碼,區域代碼不得以 0 開頭。 數字的格式為 +49 [N]NN NNNNNNNN0[N]NN NNNNNNNN
  • 在適當的環境定義中,大部分貨幣符號會替代字串,例如 dollarcenteuroyen
  • 具有常見格式 (例如 [alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname )的網際網路電子郵件地址格式化。
  • Web URL (短格式和長格式) 都已格式化。 它包括通訊協定 ( http/s )、子網域 ( www )、埠 ( 443, 80 ) 和路徑 ( /help/abc )
  • 小於 9 的紅雀不進行轉換,以避免奇數或含糊不清的轉換。
  • 支援序數和小數的格式化。
  • 大部分的標點符號都是為了在適當的地方出現的特殊關鍵字而加上的。 當您使用智慧型格式化時,服務會以說出或指定標點符號來取代關鍵字字串。
    • komma (,), punkt (.), fragezeichen (?), ausrufezeichen (!), semikolon (;), bindestrich (-).

德語智能格式範例

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 謄本以德語音訊為基礎。

智慧格式化範例成績單
實體類型 不使用智慧型格式化 使用智慧型格式化
日期 維倫茨萬齊格斯特朱利・朱利・茨維陶森德雷澤恩 24.07.2013
德賴茲恩特-茲魏特-陶森德-茲萬齊希 13.02.2020
時間 維倫茲萬茲古爾茨魏恩茲萬齊齊希 24:22 Uhr
西本河 /acht uhr sieben 08:07 Uhr
艾因烏赫爾彙報 01:01:01 Uhr
數字 下費恩夫和茲萬齊齊格 -25037
國營鐵路公司 818,303
豐豐茨萬齊格陶公司 25111
德雷茲韋因亨德斯特爾 3 2/100
電話號碼 我愛你我愛你我愛你 0411 12341234
{\p} {p\p} {p\p\p} {p\p\p} {p\p\p\p} {p\p\p} {p\p\p
  • 49 411 12341234
貨幣值 zwei komma null null null eins 美元 2,0001 美元
茨魏恩茨萬齊希公司 0,22 歐元
電子郵件、URL、IP 我是賓得斯特里奇的人我是賓得斯特里奇-德-德-利特 ab3-sdd-3@gmail.com
h t t p dops pelpunkt slash w w w w punkt a b c punkt com slash a b https://www.abc.com/ab
德賴-豐特恩斯-德雷伊-豐特茨韋山 35.135.24.24
測量 zwei pro stunde zwei 公里 每小時 2 公里
維澤米勒特河 440 毫升
序列 c b vier drei bindestrich f f ü n f drei f ü n f zwei vier zwei punkt vier drei f ü n f cb43-535242.435
特倫默-斯特里希-茲沃勒普 teilenummer ft-12p

智慧型格式化 V2 範例

下列範例會要求針對辨識要求使用智慧型格式化,方法是將 smart_formatting 參數設定為 true。 下列幾節顯示智慧型格式化對要求結果的效果。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

IBM Cloud Pak for Data

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

智慧型格式化

智慧型格式化功能是測試版功能,適用於美國英文、日文和西班牙文 (所有方言)。 當美國英語音訊被辨識時,en-WW_Medical_Telephony 機型也可使用。

smart_formatting 參數指示服務將下列字串轉換為更為慣用的表示法:

  • 日期
  • 時間
  • 數字的系列
  • 電話號碼
  • 貨幣值(適用於美式英文及西班牙文)
  • 網際網路電子郵件及網址(適用於美式英文及西班牙文)

請將 smart_formatting 參數設定為 true,以啟用智慧型格式化。 依預設,服務不會執行智慧型格式化。 服務會在將最終結果傳回給用戶端之前、文字正規化完成之時,套用智慧型格式化。 轉換會藉由以這些構件的正常書寫方式來呈現這些構件,讓文字記錄更容易閱讀,並且可以更妥善地進行轉錄結果的後處理。

智慧型格式化會影響哪些結果?

智慧型格式化會影響部分轉錄結果,而不會影響其他結果:

  • 智慧型格式化只會影響最終結果之 transcript 欄位中的字組;在最終結果中 final 欄位為 true。 它不會影響過渡期間結果;過渡期間結果的 finalfalse

  • 智慧型格式化不會影響回應中其他欄位的字組。 例如,智慧型格式化不會套用至 timestampsalternatives 欄位中的回應資料。

  • 語音猶豫 (例如 "uhm" 和 "uh") 可能會透過某些語言的智慧型格式化,對詞組和字串的轉換產生不利影響。 前一代模型會產生猶豫標記,以取代文字記錄中的此類猶豫。 智慧型格式化對前一個產生模型的猶豫標記具有下列效果:

    • 對於美國英語, 智慧格式化會抑制 transcript 欄位中的遲疑標記,以獲得最終結果。
    • 對於日文, 猶豫標記會繼續出現在最終結果中。
    • 對於美式英文和日文, 猶豫標記會繼續出現在過渡期間結果中。
    • 若為西班牙文,服務不會針對任何結果產生猶豫標記。

    下一代模型不會產生猶豫標記。 相反地,它們包含轉錄結果中的實際猶豫。 智慧型格式化對下一代模型所包含的猶豫沒有影響。 如需相關資訊,請參閱 語音猶豫和猶豫標記

語言差異

智慧型格式化是根據文字記錄中出現的明顯關鍵字。 由於支援的語言之間的差異,智慧型格式化對每種語言的運作略有不同。 下列各節說明觸發美式英文和西班牙文以及日文之智慧型格式化變更的字串和內容。

美式英文及西班牙文

  • 時間是以關鍵字例如 AMPMEST 識別。

  • 軍用時間如果以關鍵字 hours美式英文)或 horas西班牙文)識別時會予以轉換。

  • 電話號碼必須是 911 或包含 10 或 11 位數、開頭號碼為 1 的號碼。

  • 在適當的上下文中,貨幣符號會替換為下列字串:

    • 美式英文:dollar、cent、euro。
    • 西班牙文:dolar、peso、peseta、libras esterlinas、libra、euro。
  • 在某些情況下,會轉換網際網路電子郵件位址。 明確地說,如果輸入音訊使用詞組 email address ... {address},則服務會轉換電子郵件位址。 下列範例顯示口說詞組的正確轉換:

    • My email address is j dot d o e at i b m dot com 變成 My email address is j.doe@ibm.com
    • Mi correo electronico es j punto d o e arroba i b m punto com 變成 Mi correo electronico es j.doe@ibm.com
  • 網際網路網址會以短格式轉換。 完整的網址不會轉換。 下列範例顯示完整的轉換:

    • I saw the story on yahoo dot com 變成 I saw the story on yahoo.com
    • Vi la historia en yahoo punto com 變成 Vi la historia en yahoo.com

    下列範例顯示不完整的轉換:

    • I saw the story on w w w dot yahoo dot com 變成 I saw the story on w w w .yahoo.com
    • Vi la historia en w w w punto yahoo punto com 變成 Vi la historia en w w w .yahoo.com
  • 要轉換數字大的號碼和貨幣值可能具有挑戰性。 服務能順利轉換數字及許多號碼。 但較大且較複雜的號碼及貨幣值,需要使用更精確的詞組才能運作得最好。 例如,服務會正確地轉換下列文字記錄,因為它們用字精確:

    • sixty nine thousand five hundred sixty dollars and twenty five cents 變成 $69560.25
    • sixty nine thousand five hundred sixty dollars point twenty five 變成 $69560.25

    但服務無法正確地轉換下列文字記錄,因為它們的用字較鬆散:

    • sixty nine thousand five sixty dollars and twenty five cents 變成 60 9000 $560.25
    • sixty nine thousand five sixty dollars point twenty five 變成 60 9000 $560.25

    若要正確轉換更多的複雜號碼可能變化,您需要實驗智慧型格式化的結果,然後自訂您自己的後處理公用程式。

  • *針對美式英文,*會為在適當位置發生的特殊關鍵字,新增特定標點符號。 當您使用智慧型格式化時,服務會根據在謄本中找到的位置,將標點符號取代下列關鍵字字串:

    • Comma (,)
    • Period (.)
    • Question mark (?)
    • Exclamation point (!)

    該服務僅在謄本的適當位置將這些關鍵字串轉換為符號。 在下面的例子中,講話者在句子末尾說出 period 這個詞:

    • the warranty period is short period 變成 the warranty period is short.

    服務會正確地區分稍早出現在句子中的名詞與結束的標點符號。

日文

  • 電話號碼必須是 10 或 11 位數,且開頭為日本電話號碼的有效字首。 例如,有效的字首包含 03090

  • 英文字組會轉換為 ASCII(半角)字元。 例如,IBM 轉換為 IBM

  • 如果沒有足夠的上下文,可能不會轉換語義不明確的術語。 例如,不清楚 一時十分 是否指時間。

  • 標點符號的處理方式不論是否有智慧型格式化都相同。 例如,根據概率計算,選擇 カンマ, 之一。

  • 說明日圓值的字串不會取代為日圓貨幣符號。

  • 不會轉換任何形式的網際網路電子郵件及網址。

  • 日文窄頻模型 (ja-JP_NarrowbandModel) 包含數字和小數位數的一些多元字組單位。 不論您是否啟用智慧型格式化,服務都會傳回這些多元單位。 下列範例顯示服務傳回的單位。 括弧中的數字顯示每一個單位的相等阿拉伯文數字表示式。

    • 數字: 〇一 (01)、...、〇九 (09)、一〇 (10)、...、九〇 (90)
    • 小數分數: 〇・ (0.)、一・ (1.)、...、十・ (10.)

    智慧型格式化特性會瞭解並傳回模型產生的多元單位。 如果您自行對轉錄結果套用後處理,則需要適當處理這些單位。

智慧型格式化結果

下表顯示使用及不使用智慧型格式化的最終文字記錄範例。 文字記錄是以美式英文音訊為基礎。

智慧格式化範例成績單
資訊 不使用智慧型格式化 使用智慧型格式化
日期 I was born on ten oh six nineteen seventy I was born on 10/6/1970
I was born on the ninth of December nineteen hundred I was born on 12/9/1900
Today is June sixth Today is June 6
時間 The meeting starts at nine thirty AM The meeting starts at 9:30 AM
I am available at seven EST I am available at 7:00 EST
We meet at oh seven hundred hours We meet at 0700 hours
數字 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
電話號碼 Call me at nine one four two three seven one thousand Call me at 914-237-1000
Call me at one nine one four nine oh nine twenty six forty five Call me at 1-914-909-2645
貨幣值 You owe me three thousand two hundred two dollars and sixty six You owe me $3202.66
The dollar rose to one hundred and nine point seven nine yen from one hundred and nine point seven two yen The dollar rose to 109.79 yen from 109.72 yen
網際網路電子郵件及網址 My email address is john dot doe at foo dot com My email address is john.doe@foo.com
I saw the story on yahoo dot com I saw the story on yahoo.com
組合 The code is zero two four eight one and the date of service is May fifth two thousand and one The code is 02481 and the date of service is 5/5/2001
There are forty seven links on Yahoo dot com now There are 47 links on Yahoo.com now

長暫停的智慧型格式化結果

當話語包含足夠長的靜音暫停時,服務可能將文字記錄分割為兩個以上的最終結果。 這會影響回應的內容,如以下範例所示。

長停頓的智慧型格式化謄本範例
音訊語音 格式化的轉錄結果
My phone number is nine one four five five seven three three nine two "My phone number is 914-557-3392"
我的電話號碼是九一四..... .暫停......五五七三三九二 「我的電話號碼是 914」
"5573392"

如需指定影響服務回應之暫停間隔的相關資訊,請參閱詞組結尾的靜音時間

智慧型格式化範例

下列範例會要求針對辨識要求使用智慧型格式化,方法是將 smart_formatting 參數設定為 true。 下列幾節顯示智慧型格式化對要求結果的效果。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

IBM Cloud Pak for Data

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

數字編寫

數字編寫特性是適用於美式英文、日文及韓文的測試版功能。

redaction 參數會指示服務編寫(或遮蔽)最終文字記錄中的數字資料。 此特性會編寫連續三位數以上的任何數字,並將每位數取代為一個 X 字元。 其目的是要編寫機密數字資料,例如信用卡號碼。

依預設,服務不會編寫數字資料。 請將 redaction 參數設定為 true,以啟用數字編寫。 當您啟用編寫時,服務會透過將 smart_formatting 參數設為 true 來自動啟用智慧型格式化,而不論您是否明確停用該特性。 為了確保最大的安全性,當您啟用刪除功能時,服務也會停用下列參數:

  • 服務會停用關鍵字辨識,而不論您是否指定 keywordskeywords_threshold 參數的值。
  • 不論您是否為 max_alternatives 參數指定大於 1 的值,服務都會停用替代上限。 服務只會傳回單一最終文字記錄。
  • 不論您是否將 interim_results 參數設為 true,該服務都會停用 WebSocket 介面的過渡期間結果。

特性的設計與現有的智慧型格式化特性相似。 服務只會在將結果傳回給用戶端之前、文字正規化完成之後,對最終文字記錄套用編寫。

語言差異

此特性針對美式英文模型的運作完全如此處所述,但針對日文與韓文模型有下列差異。

日文

日文編寫有下列差異:

  • 除了遮蔽連續三位數的字串,編寫也會遮蔽街道地址和數字,不論它們是否包含少於三位數。

  • 同樣地,編寫也會遮蔽日文樣式出生日期中的日期資訊。 在日文,日期資訊通常以「公元 (Common Era)」格式呈現,但有時會遵循日文樣式,特別是出生日期。 在此情況下,年份和月份會經過遮蔽,即使它們只包含一位數或兩位數也一樣。

    例如,沒有編寫的日式出生日期是 平成 30年 2月。 當使用校訂時,日期會變成 平成 XX年 X月

韓文

韓文編寫有下列差異:

  • 不支援智慧型格式化特性。 服務仍會針對韓文執行數字編寫,但它不會執行其他智慧型格式化。

  • 隔離的數字字元會減少,但包含在韓文詞組當中的可能數字字元則否。 例如,以下短語中的 字元不會被 X 取代,因為該字元與以下字元相鄰:

    이입니다

    如果 字元與後面的字元之間以空格隔開,則會以 X,取代,如數字節錄結果 所述。

數字編寫結果

下表顯示每個支援語言中,使用及不使用數字編寫的最終文字記錄範例。

數位編輯範例轉錄本
語言 不使用編寫 使用編寫
美式英文 my credit card number is four one four seven two my credit card number is XXXXX
日文 在第二個問題上,請讓我們從第二個問題上 在這個會議上
韓文 對從從從從從從從從從從從從從從從從從從從從從到從從從從從從從從從從從從 以 "" "" "" "" "" "" "" "" "" "" "" "" "" ""

數字編寫範例

下列範例會要求針對辨識要求使用數字編寫,方法是將 redaction 參數設定為 true。 因為要求會啟用編寫,所以服務會隱含地啟用要求的智慧型格式化。 服務實際上會停用要求的其他參數,讓它們沒有效果:服務傳回單一最終文字記錄,並且未辨識任何關鍵字。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

IBM Cloud Pak for Data

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

褻瀆過濾

髒話過濾功能一般僅適用於美式英語和日語。

profanity_filter 參數指出服務是否要審查其結果的褻瀆。 依預設,服務會在文字記錄中將所有褻瀆取代為一系列的星號,以遮蔽所有褻瀆。 將參數設定為 false 會完全依照轉錄顯示輸出裡的字組。

服務會審查所有最終文字記錄以及任何替代文字記錄的褻瀆。 它也會審查與替代字組、字組信賴度及字組時間戳記相關聯之結果的褻瀆。 唯一的例外是關鍵字辨識,針對關鍵字辨識,服務會如使用者所指定地傳回所有字組,而不論 profanity_filter 是否為 true

褻瀆過濾範例

下列範例顯示簡短音訊檔的結果,該音訊檔在轉錄時使用了 true 參數的預設 profanity_filter 值。 要求也將 word_alternatives_threshold 參數設定為相當高的值 0.99,並將 word_confidencetimestamps 參數設定為 true

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

IBM Cloud Pak for Data

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

服務會以一系列星號取代回應,以遮罩回應中的褻瀆:

{
  "result_index": 0,
  "results": [
    {
      "word_alternatives": [
        {
          "start_time": 0.03,
          "alternatives": [
            {
              "confidence": 1.0,
              "word": "****"
            }
          ],
          "end_time": 0.25
        },
        {
          "start_time": 0.25,
          "alternatives": [
            {
              "confidence": 0.99,
              "word": "you"
            }
          ],
          "end_time": 0.56
        }
      ],
      "alternatives": [
        {
          "transcript": "**** you",
          "confidence": 0.99,
          "word_confidence": [
            ["****", 1.0],
            ["you", 0.99]
          ],
          "timestamps": [
            ["****", 0.03, 0.25],
            ["you", 0.25, 0.56]
          ]
        }
      ],
      "final": true
    }
  ]
}