IBM Cloud Docs
応答のフォーマット設定とフィルタリング

応答のフォーマット設定とフィルタリング

IBM Watson® Speech to Text サービスは、書き起こし結果を解析するために使用できる 3 つの機能が提供されています。 最終書き起こしをフォーマット設定して、特定のストリングのより標準的な表現を含めたり、句読点を含めたりすることができます。 最終書き起こしから機密数値情報を編集したり、ほとんどの書き起こし結果から禁止用語をフィルターに掛けたりすることができます。 これらの機能はすべてベータ機能であり、特定の言語に制限されています。

スマート・フォーマット設定バージョン 2

スマートフォーマット機能の新バージョンは、米国英語、ブラジルポルトガル語、フランス語、ドイツ語、スペイン語(カスティーリャ)、スペイン語(ラテンアメリカ)、フランス語(カナダ)でご利用いただけます。 また、米国英語の音声を認識する場合、en-WW_Medical_Telephonyモデルでも利用可能です。

新規バージョン:

  • 古いスマート・フォーマット設定と比較して、新しい言語とパターンを追加する際の柔軟性が向上します。
  • 旧バージョンがルールベースのアプローチであったのに対し、テキスト内のエンティティを識別するために、より洗練された機械学習技術(Weighted Finite State Transducers)を使用しています。
  • より正確なエンティティの分類とフォーマットを提供し、また、同じテキストが2つの異なるエンティティタイプとして識別できる場合、重み付けを使用して階層を定義する機能も追加します。

smart_formatting 機能は、以下の文字列をより一般的な表現に変換するようにサービスを指示します

  • 日付と時刻
  • 整数、小数部、序数
  • 英数字シーケンス (長さ> 2)
  • 電話番号
  • 通貨値
  • 対策( /km²kgmph など)
  • 電子メール、URL、IPアドレス
  • クレジット・カード番号 (4 桁のグループとしてフォーマット設定)
  • 句読法 (口述で話されるもの)

米国英語、ブラジルポルトガル語、フランス語、ドイツ語、スペイン語(カスティーリャ)、スペイン語(ラテンアメリカ)、フランス語(カナダ)で新しいスマートフォーマット機能を使用するには、パラメータ smart_formatting=true および smart_formatting_version=2 を設定します。

エンティティー・パターンと例

米国英語

  • さまざまな発話形式の日付が受け入れられます。これには、月の数値または名前としての日付や、 the および of (the twenty fifth of july twenty twelve) の使用が含まれます。 日付は m/d/yyyy としてフォーマット設定されます。
  • タイムゾーン(例えば、 esteastern )、 ampmhourso'clockminutes past hour など)は、キーワードまたは接尾辞によって識別されます。
  • 電話番号は、 911 または10桁の数字、または [+]1 で始まる番号でなければなりません。
  • 通貨記号は、適切な文脈において文字列に置き換えられます。例えば、 dollarcenteuroyen などです。 cent は、 dollar の後では省略可能であり、例えば、 twelve dollars twenty fivetwelve dollars twenty five cents$12.25 としてフォーマットされます。
  • 共通形式のインターネット E メール・アドレス (例: [alphanumeric+symbols]+ at [alphanumeric dot]+ domainname ) スマートにフォーマットされている。
  • Web URL (短形式と長形式の両方) がフォーマット設定されます。 プロトコル( http/s )、サブドメイン( www )、ポート( 44380 )、パス( /help/abc )が含まれます。
  • ほとんどの長精度整数は、数値シーケンスとしてフォーマット設定されます。 数百万、数十億といった大きな数字が単一の整数として話される場合、 million/billion のような数量語は読みやすさを考慮して変換されません。例えば、 fifty nine million-> 59 million ですが、数字がより複雑な場合、数値の数字としてフォーマットされます。例えば、 fifty nine million and one-> 59000001
  • 10未満の数字は、奇数のフォーマットを避けるために、数字に変換されません。例えば、 You are one of them-> You are 1 of them。しかし、通貨の表現など、他の文脈では変換されます。例えば、 Give me one dollar-> Give me $1
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話された句読点記号または指示された句読点記号を使用します。
    • comma (,), period (.), question mark (?), exclamation point (!), semicolon (;), hyphen (-).

スマート・フォーマット設定の例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 書き起こしは、米国英語の音声に基づいています。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 二五、二万二千十二 2012 年 7 月 25 日
ジュリーの 20 の 25 分の 1 2012 年 7 月 25 日
最初の 2 千人の 30 万人をジャヌアリーにする 2000 年 1 月 31 日
ゼロ 5、ゼロ 5、19、83 1983年5月5日
22 の第 2 四半期 Q2 2022
時刻 それは 2 つの 11 の東部である 02:11 est です
私たちは午前7時00分に開始します 私たちは 07:00 に始まる
1 つ前の四半期 01:15
3 時 03:00
数値 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
これには 5 ポイントの 200 万の費用がかかります これには 5.2 の費用がかかります。
第百二十回公判 121st 回目の評価版
電話番号 9、1、4、5、6、8、3、3、3、1 914-556-8331
プラス 1 9 2 3 1 2 3 5 6 7 8
  • 1 923-123-5678
通貨値 あなたは私に 4 つのアメリカ合衆国のドルと 69 セントの借りがある あなたは私に借りがある 4.69
75 ドル 65 ドル 63 円 $75.63
ドル/円は 109 円台に上昇した。 ドル/円109.79
電子メール URL、IP I saw the story on w w w dot yahoo dot com その記事を見ました。 www.yahoo.com
g mail dot com での a b three hyphen s d d ddash three ab3-sdd-3@gmail.com
h t t p コロン・スラッシュ w w w ドット c o m d a i l y n e s ドット a b スラッシュ s m http://www.comdailynews.ab/sm
2 つの 5 つの 2 つの 2 つの 2 つの 5 つの 2 つのドットを 225.55.0.45
測定 時速 200 キロメートル 200km/h
2 キロワット時 2 kWh
シーケンス H F H 9 9 9 3 ドット 7 B HFH993.7B
10 個の 80 分の 1 のディスプレイ 1080p ディスプレイ

ブラジル・ポルトガル語

  • 日付については、 dode が、日、月、年の区切りとして使用されます。 primeiro は、 1stとみなされます。 日付は DD/MM/YYYY としてフォーマット設定されます。
  • タイムはキーワードと接頭辞によって識別され、例えば、 às aoàda tardep.m. )、 da madrugadaa.m. )、 meia noitemeio dia となります。 às aoà の接頭辞は任意です。
  • 固定電話番号は 10 桁 (2 桁の国別コードと 8 桁の番号) でなければなりません。携帯電話番号は 9 桁で、最初の桁は 9 、オプションの国別コードです。 市外局番はオプションです。 数字は '+NN (NN) NNNN-NNNN と '+NN (NN) 9NNNN-NNNN ようにフォーマットされる。
  • ブラジルの実際の通貨記号は R$ です。 その他の通貨記号は、適切なコンテキスト (例えば、 dollarcenteuroyen) のストリングに置換されます。 centavos は、 reais の後のオプションです。例えば、 setenta e cinco dólares e sessenta e três および setenta e cinco dólares e sessenta e três centavos は、 R$75,63 としてフォーマット設定されます。
  • 共通形式のインターネット E メール・アドレス (例: [alphanumeric+symbols]+ arroba [alphanumeric ponto]+ domainname ) スマートにフォーマットされている。
  • Web URL (短形式と長形式の両方) がフォーマット設定されます。 プロトコル( http/s )、サブドメイン( www )、ポート( 44380 )、パス( /help/abc )が含まれます。
  • ほとんどの長精度整数は、数値シーケンスとしてフォーマット設定されます。 数百万、数十億など、大きな数字が単一の整数として話される場合、 milhões/bilhões のような数量語は、読みやすさを考慮して変換されません。例えば、 doze milhões-> 12 milhões ですが、数字が複雑な場合、 doze milhões e um-> 12000001 のように数字としてフォーマットされます。
  • 10 未満の数値は、例えば vivo em uma casa--> vivo em 1 casa のように、奇数変換を避けるために数字にフォーマット設定されません。
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話された句読点記号または指示された句読点記号を使用します。
    • vírgula (,), ponto (.), ponto de interrogação (?), ponto de exclamação (!), ponto e vírgula (;), hífen (-).

ブラジル語-ポルトガル語のスマートな書式設定例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 書き起こしは、ブラジルポルトガル語の音声を基にしています。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 トリンタ・エ・アム・デ・デズブロ・デ・ミル・ノベセント・エ・オイテンタ・エ・オイト 1988 年 12 月 31 日
um do um de mil novecentos e oitenta e sete 1987 年 1 月 1 日
時刻 Quinze Pro Meio dia 11 時 45 分
ミーオ・ディア・エ・ミーア・ホラ 12:30
アオ・ミーオ・ディア・エ・ミーオ オ・ 1230
プラス・デュアス・ダ・マドラガダ 1:50 a.m。
アンズ・キンゼ・パラ・ア・ミーア・ノイト 23 時 45 分
数値 cento e quarenta e sete mil quatrocentos e cinquenta e um 147451
ウム・ビールグラ・ビンテ・エ・セイス 1,26 年
デシモ・プリメイロ 11 度
電話番号 クアトロ・シンコ・アム・ドリス・トレス・クアトロ・シンコ・セテ・オイト (45) 1234-5678
onze nove nove o伊藤 meia cinco quinze zero dois (11) 99865 から 1502
ノヴェ・ヴィンテ・エ・ヴィンテ・エ・オイト・トリンタ・エ・セテ・トリンタ・エ・オイト 92728 から 3738
マis cinco cinco onze nove meia nove zero meia zero um quatro meia +55 (11) 96906-0146
通貨値 ヴィンテ・エ・シンコ・センタボ R$ 0、25
ビンテ・エ・ノヴ・ドレス・エ・チンケンタ・センタボ 2 万 9,50 ドル
ヴィンテ・エ・シンコ・センタボ R$ 0、25
電子メール URL、IP ポント b c arroba g mail ponto com a.bc@gmail.com
Dáblio dáblio dáblio ponto a b c ponto es barra e f g www.abc.es/efg
nvidia www.nvidia.com
ノヴェンタ・エ・オイト・ポント・セテンタ・エ・ポネヴェンタ・エ・オイト・ポント・デゼセワ 98.76.98.16
測定 ドゥゼントス・エ・クォレンタ・エ・キンコ・キロメトロス・ポル・ホラ 245 kph (Kph)
ドゥツェントス・エ・クォレンタ・エ・チンコ・メトロス・ポール・セグンド 245 m/ 秒
シーケンス d dezesseis tre s nove c hífen f noventa e oit d1639c-f98
モデル f t ドーズ x モデル ft12x

フランス語

  • 日付では、序数 premier は1stとみなされます。 日付は DD/MM/YYYY としてフォーマット設定されます。
  • 時刻は、キーワードと接頭部 (例えば、 heuresde l'après-midi または du soirdu matinmidi) によって識別されます。 時刻は 24H クロックとしてフォーマット設定されます。 HH h MM
  • 電話番号は 9 桁または 10 桁 (2 桁の 5 対) でなければなりません。 最初のペアの 1 桁のみが受け入れられる場合は、0 がスキップされたと想定します。 数値は NN NN NN NN NN としてフォーマット設定されます。
  • de または d' 前置詞を使用して通貨を表す場合、通貨記号はフォーマットには使用されません。 これは通常、大きな丸め数値 (例えば、 1 milliard d'euro としてフォーマット設定された un milliard d'euro ) で発生します。
  • 一般的な形式のインターネットメールアドレス(例えば、 [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname )は、スマートフォーマットで表示されます。 @ は、 arobasechezatà のいずれかで表すことができます。
  • 9未満の数字は変換しない( j'ai un pomme-> j'ai 1 pomme やその他の不自然な変換を避けるため)
  • 序数の場合、「siècles」は序数形容詞が与えられるとローマ数字で表示されます。 dix-neuvième siècle-> XIXᵉ siècle
  • 小数部の書式設定がサポートされています。 例えば、un onzième-> 1/11 です。
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話された句読点記号または指示された句読点記号を使用します。
    • virgule (,), point (.), point d'interrogation (?), point d'exclamation (!), point-virgule (;), trait d'union (-).

フランス語のスマートな書式例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 書き起こしはフランス語の音声を基にしています。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 ヴィング・クアトル・ジュイルレット・デュミレ・トレイゼ 2013 年 7 月 24 日
ディックス・フイト・マイ・ディックス・ノイフ・セント・トレンテ 18/5/1930 年
時刻 ハイト・ヒール・デュ・マチン 8 時間
onze heures cinquante-sept 11 時間 57 分
ドゥー・ヒール・ド・ラプロレス = ミディ 14 時間
数値 セント・クォーター・セプト・ミル・カトル・セント・シンカンテ・エ・ヌ 147451
Moins vingt-cinq-mille-trente-sept 25037
Vingt-troisimes 23
クヴァトル・エ・ドゥ・クワトリエール 4 2/4 (4)
電話番号 二重中性ドーゼ trente-deux trente trente 99 12 32 30 30
deux は trente-deux trente trente をドゥーズする 02 12 32 30 30
通貨値 Deux ドル vingt 2,20 ドル
シーク・ユーロとソイクサンテ 5,60 ユーロ
クトル・ヴィルグル・ヴィルト・ミヤーズ・ユーロ 4,80 億万ユーロ
電子メール URL、IP a b trois point s d d point trois arobase g mail point com ab3.sdd.3@gmail.com
w w w w point web point c o point f r www.web.co.fr
ダブルノイフ・ドット・トレント・ドゥ・ドット・トレンテ・ドット・トレンテ 99.32.30.30
測定 quarante-deux-mille-deux-cent-cinquante-nef par mètre carré 42 259/平方メートル
デュックス・セント・キロ・メトル・フール 200km/h
シーケンス 文書 numéro zéro deux trente-6 vingt-quTheatre ル文書番号 023624
r t x dix-huit t i (x dix-huit t i) rtx18ti

フランス系カナダ人

  • 日付では、序数 premier は月の 1st と見なされます。 日付は DD/MM/YYYY としてフォーマット設定されます。
  • 時刻は、キーワードと接頭部 (例: heuresde l'après-midi または du soirdu matinmidi) によって識別されます。 時刻は 24H クロックとしてフォーマット設定されます。 HH h MM
  • 電話番号は、 911 または10桁の数字、または [+]1 で始まる番号でなければなりません。
  • 共通形式のインターネット E メール・アドレス (例: [alphanumeric+symbols]+ arobase [alphanumeric point]+ domainname ) スマートにフォーマットされている。 @ は、 arobasechezatà のいずれかで表すことができます。
  • 9未満の数字は、他のテキストの途中に発生した場合、変換されません( j'ai un pomme-> j'ai 1 pomme やその他の不適切な変換を回避するため)。 他のテキストを使用せずに単独で発生した場合、それらはフォーマットされたままになります。
  • 小数部の書式設定がサポートされています。 例:un onzième-> 1/11
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話/指示された句読点記号を使用します。
    • virgule (,)、 point (.)、 point d'interrogation (?)、 point d'exclamation (!)、 point-virgule (;)、 trait d'union (-) など。

フランス系カナダ人のスマートな書式例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 フランス語カナダ語の音声を基に作成された書き起こしです。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 ヴィング・クアトル・ジュイルレット・デュミレ・トレイゼ 2013 年 7 月 24 日
ディックス・フイト・マイ・ディックス・ノイフ・セント・トレンテ 18/5/1930 年
時刻 ハイト・ヒール・デュ・マチン 8 時間
onze heures cinquante-sept 11 時間 57 分
ドゥー・ヒール・ド・ラプロレス = ミディ 14 時間
数値 セント・クォーター・セプト・ミル・カトル・セント・シンカンテ・エ・ヌ 147451
Moins vingt-cinq-mille-trente-sept 25037
Vingt-troisimes 23es
クヴァトル・エ・ドゥ・クワトリエール 4 2/4 (4)
電話番号 プラス・アン・シンク・アン・シアター・シンク・シンク・アン・ドゥ・トロワ・シアター
  • 1 (514) 555 から 1234
6 つの中性の劇場、6 つの中性の劇場、6 つの中性の劇場 02 12 32 30 30
通貨値 Deux ドル vingt 2,20 ドル
Vingt ドル・シーク 20,05 ドル
クトル・ヴィルグル・ヴィルト・ミヤーズ・ユーロ 4,80 億万ユーロ
電子メール URL、IP a b trois point s d d point trois arobase g mail point com ab3.sdd.3@gmail.com
w w w w point web point c o point f r www.web.co.fr
ダブルノイフ・ドット・トレント・ドゥ・ドット・トレンテ・ドット・トレンテ (514) 469-210
測定 quarante-deux-mille-deux-cent-cinquante-nef par mètre carré 42 259/平方メートル
デュックス・セント・キロ・メトル・フール 200km/h
シーケンス 文書 numéro zéro deux trente-6 vingt-quTheatre ル文書番号 023624
r t x dix-huit t i (x dix-huit t i) rtx18ti

スペイン語

  • 日付では、序数 primero は1stとみなされます。 日付は DD/MM/YYYY としてフォーマット設定されます。
  • 時刻の「時」や、冠詞なしの「時」に後続する接尾辞 a.m または p.m を示す) converted.e.g las dos pe eme。 時刻は 24H ( HH h MM )または 12H a.m./p.m で表示されます。
  • 電話番号は 8 桁、9 桁、または 10 桁でなければなりません。 数値は、 NNNN NNNN または NNN NNN NNN または NNN NNN NNNN としてフォーマット設定されます。
  • 一般的な形式のインターネットメールアドレス(例: [alphanumeric+symbols]+ arroba [alphanumeric punto]+ domainname )は、スマートフォーマットされています。
  • 9未満の数字は、他のテキストの途中に表示されている場合は変換されません( un gato en el camino-> 1 gato en el camino やその他の不適切な変換を回避するため)。 他のテキストを使用せずに単独で発生した場合、それらはフォーマットされたままになります。
  • 小数部の書式設定がサポートされています。 例えば、 un décimo-> 1/10
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話された句読点記号または指示された句読点記号を使用します。
    • punto ( ), ( ), ( ), ( ), ( ), など。 . interrogación``? exclamación``! punto y coma``; guion medio``-

スペイン語のスマートな書式例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 スペイン語の音声を書き起こしたものです。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 トレインタ・イ・ウノ・デ・ディキエンブレ・デ・ミル・ノヴェンタ・イ・ドス 1992 年 12 月 31 日
ディエクセア・ド・セプティエンブレ・ドス・ミル・ディエシオチョ 2018 年 9 月 16 日
時刻 las dieciséis cincuenta ラス 16:50
Las は、1 つのテーマを実行する las 2:00 a.m。
数値 mil novecientos cincuenta y ocho 1958
かつてミル・ノベシエントス・シンケンタ・イ・オチョ 11958
デシマ・プリメーラ 11
キュアレンティナボ 1/41
電話番号 ヌイヴ・ウノ・クアトロ・チンコ・セインコ・オチョレス・トレス・ウノ 914 556 8331
ウノ・ドス・トレス・クアトロ・シンコ・サイエテ・オチョ 1234 5678 年
通貨値 dos ユーロ・ノヴェンタ・センタボ 2,90 ユーロ
doce ユーロ y cinco centavos 12,05 ユーロ
ヌーブ・プント・シンコ・ミロンズ・デ・ペソス $9.5 ミリ秒
URL a b c arroba g mail punto a b c abc@gmail.abc
doble uve doble uve doble uve punto nvidia punto com www.nvidia.com
測定 TRES Metros Cúbicos 3 立方メートル
ドーシュ・キロメトロス・ポーラ 2 kph (Kph)
シーケンス Cero Dos tres dos Cuatro 023624
r t x cero dos tres w rtx023w

ドイツ語

  • 日付のフォーマットは、数字と月名の両方に対応しています(例えば、 zweiterfebruar と同じです)。 日付は DD.MM.YYYY としてフォーマット設定されます。
  • 時刻は、 nach uhrvorminuten などのキーワードによって識別されます。 時刻は、24 時間クロック ( HH:MM:SS) としてフォーマット設定されます。
  • 電話番号は、 0 で始まる3~4桁の地域番号と、それに続く8桁の番号で構成されていなければなりません。 国別コード (+ 49) はオプションです。 国番号を使用する場合は、市外局番が 0 で始まってはなりません。 数字の書式は '+49 [N]NN NNNNNNNN または '0[N]NN NNNNNNNN です。
  • ほとんどの通貨記号は、適切なコンテキスト ( dollarcenteuroyen など) でストリングを置換します。
  • 一般的な形式のインターネットメールアドレス(例えば、 [alphanumeric+symbols]+ ät [alphanumeric punkt]+ domainname )はフォーマットされます。
  • Web URL (短形式と長形式の両方) がフォーマット設定されます。 プロトコル( http/s )、サブドメイン( www )、ポート( 44380 )、パス( /help/abc )が含まれます
  • 9未満のカードは、奇数または曖昧な変換を避けるために変換されません。
  • 序数および分数の書式設定がサポートされています。
  • 句読点記号のほとんどは、適切な場所に現れる特別なキーワードに対して追加されます。 スマート・フォーマット設定を使用する場合、サービスは、キーワード・ストリングの代わりに、発話された句読点記号または指示された句読点記号を使用します。
    • komma (,), punkt (.), fragezeichen (?), ausrufezeichen (!), semikolon (;), bindestrich (-).

ドイツ語のスマートな書式設定例

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 書き起こしはドイツ語の音声を基にしています。

スマートフォーマットの例 議事録
エンティティー・タイプ スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 Vierundzwanzigster juli zwei tausend dreizehn 氏 24.07.2013
ドレイツェンター zweiter zwei tausend zwanzig 13.02.2020
時刻 ヴィエルンツヴァンジグアルツヴァインズヴァンツィヒ 24 時間 22 分
アヒト・ウール・シーベン 08:07 Uhr
Ein uhr eine minute eine セクンデ 01:01:01 Uhr
数値 -fünf und zwanzig tausend sieben und dreisisig 25037 年
acht hundert achtzehn komma drei ヌル・ドレイ 818、303
Fünfundzwanzigtausnhundertelftem 社 25111。
ドレイ・ツウェイ・イン・ヒンダーティステル 100 分の 3
電話番号 ヌルの vier eins eins eins zwei drei vier eins zwei drei vier 0411 12341234
さらに、新鮮な新鮮な eins eins eins zwei drei vier eins zwei drei vier +49 411 12341234
通貨値 zwei komma null null eins ドル 2,0001 ドル
zweiundzwanzig セント 0,22 ユーロ
電子メール URL、IP B ドレイ・ビント・ s d d bindestrich drei ät g mail punkt com ab3-sdd-3@gmail.com
h t t p s doppelpunkt スラッシュ w w w punkt a b c punkt com スラッシュ a b https://www.abc.com/ab
Drei fünf punkt eins drei fünf punkt zwei vier punkt zwei vier 35.135.24.24
測定 ズウェイ・キロ・プロスタンデ 2km/h
ヴィアー・ハント・ヴィエルツィヒ・ミリリター 440 ml
シーケンス c b vier drei bindestrich fünf drei fünf zwei vier zwei punkt vier drei fünf cb43-535242.435
テイレテンマー f t strich zwölf p teilenummer ft-12p

スマート・フォーマット設定の V2 の例

以下の例では、認識要求で smart_formatting パラメーターを true に設定して、スマート・フォーマット設定を要求しています。 以降のセクションでは、要求の結果におけるスマート・フォーマット設定の効果を示しています。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?model=en-US_Telephony&smart_formatting=true&smart_formatting_version=2"

スマート・フォーマット設定

スマート・フォーマット設定機能は、米国英語、日本語、およびスペイン語 (すべての方言) で使用可能なベータ機能です。 また、米国英語の音声が認識された場合、 en-WW_Medical_Telephony モデルでも利用可能です。

smart_formatting パラメーターは、以下のストリングを標準的表現に変換するようサービスに指示します。

  • 日付
  • 時刻
  • 一連の数字および数値
  • 電話番号
  • 通貨の値 (米国英語とスペイン語)
  • インターネットの E メールおよび Web アドレス (米国英語とスペイン語)

スマート・フォーマット設定を有効にするには、smart_formatting パラメーターを true に設定します。 デフォルトでは、サービスはスマート・フォーマット設定を実行しません。 サービスは、テキスト正規化が完了したときに、結果がクライアントに返される直前に、スマート・フォーマット設定を適用します。 この変換では、成果物を通常筆記どおりに表記することにより、書き起こしが読みやすくなり、書き起こしの結果をより効果的に後処理できるようになります。

スマート・フォーマット設定が結果に与える影響

スマート・フォーマット設定は一部の書き起こしの結果に影響し、その他の結果には影響しません。

  • スマート・フォーマット設定は、最終結果 (transcript フィールドが final である) の true フィールドの単語にのみ影響します。 中間結果 (finalfalse である) には影響しません。

  • スマート・フォーマット設定は、応答の他のフィールドの単語には影響しません。 例えば、スマート・フォーマット設定は、timestamps フィールドまたは alternatives フィールドの応答データには適用されません。

  • 「ええと」や「あの」といった話し言葉の口ごもりは、一部の言語のスマートフォーマットによるフレーズや文字列の変換に悪影響を及ぼす可能性があります。 以前の世代のモデルでは、書き起こし内のそのような躊躇を置き換えるための言い淀みマーカーが作成されます。 スマート・フォーマット設定は、前世代モデルの言い淀みマーカーに以下の影響を与えます。

    • *米国英語の場合、*スマート・フォーマット設定は、最終結果の transcript フィールドから言い淀みマーカーを抑制します。
    • *日本語の場合、*言い淀みマーカーは、最終結果に引き続き表示されます。
    • *米国英語と日本語の両方の場合、*言い淀みマーカーは、中間結果に引き続き表示されます。
    • *スペイン語の場合、*サービスは、任意の結果に対して言い淀みマーカーを生成しません。

    次世代モデルでは、言い淀みマーカーは生成されません。 代わりに、書き起こし結果に実際の躊躇を含めます。 スマート・フォーマット設定は、次世代モデルに含まれる躊躇 (ちゅうちょ) には影響しません。 詳しくは、 Speech hesitations and hesitation marker を参照してください。

言語の相違

スマート・フォーマット設定は、書き起こしに明確なキーワードが含まれるかどうかに基づいて行われます。 サポートされる言語によって違いがあるため、スマート・フォーマット設定は言語ごとに若干異なる方法で機能します。 以下のセクションでは、米国英語とスペイン語および日本語を例にして、ストリングおよび内容に対応して生じるスマート・フォーマットの変化について説明します。

米国英語およびスペイン語

  • 時刻は、AMPMEST などのキーワードで識別されます。

  • 24 時間表記は、キーワード hours (米国英語) または horas (スペイン語) で識別される場合に変換されます。

  • 電話番号は、911 であるか、または数字 1 で始まる 10 桁または 11 桁の番号である必要があります。

  • 通貨記号は、適切なコンテキストで以下のストリングに置き換えられます。

    • *米国英語の場合、*ドル (dollar)、セント (cent)、およびユーロ (euro)。
    • *スペイン語の場合、*ドル (dolar)、ペソ (peso)、ペセタ (peseta)、スターリング・ポンド (libras esterlinas)、リブラ (libra)、およびユーロ (euro)。
  • 一部の状況では、インターネットの E メール・アドレスが変換されます。 具体的には、入力音声で「email address ... {address}」という表現が使用された場合に、サービスは E メール・アドレスを変換します。 以下は、発話された語句が正しく変換される例を示しています。

    • My email address is j dot d o e at i b m dot comMy email address is j.doe@ibm.com となります。
    • Mi correo electronico es j punto d o e arroba i b m punto comMi correo electronico es j.doe@ibm.com となります。
  • インターネットの Web アドレスは、簡易書式で変換されます。 完全修飾の Web アドレスは変換されません。 以下は、完全に変換される例です。

    • I saw the story on yahoo dot comI saw the story on yahoo.com となります。
    • Vi la historia en yahoo punto comVi la historia en yahoo.com となります。

    以下は、不完全な変換の例です。

    • I saw the story on w w w dot yahoo dot comI saw the story on w w w .yahoo.com となります。
    • Vi la historia en w w w punto yahoo punto comVi la historia en w w w .yahoo.com となります。
  • 大きな数値および通貨の値を変換することは容易でない場合があります。 このサービスは数字とたくさんの数値を首尾良く変換します。 しかし、数値や通貨の値が大きかったりより複雑であったりするときは、より正確な表現にすることで良好な結果が得られます。 例えば、次の書き起こしの表現は正確なので、サービスはこれを正しく変換します。

    • sixty nine thousand five hundred sixty dollars and twenty five cents$69560.25 となります。
    • sixty nine thousand five hundred sixty dollars point twenty five$69560.25 となります。

    しかし、次の書き起こしの表現は正確性に欠けるため、サービスはこれを正しく変換できません。

    • sixty nine thousand five sixty dollars and twenty five cents60 9000 $560.25 となります。
    • sixty nine thousand five sixty dollars point twenty five60 9000 $560.25 となります。

    できるだけ多くの複雑な数値を正しく変換するには、スマート・フォーマット設定の結果を試して、ポストプロセッシング・ユーティリティーを独自にカスタマイズする必要があります。

  • *米国英語の場合、*該当する場所にある特殊なキーワードに句読点記号が追加されます。 スマート・フォーマット設定を使用する場合、サービスは、書き起こし内で見つかった場所に基づいて、以下のキーワード・ストリングを句読点記号に置き換えます。

    • Comma (,)
    • Period (.)
    • Question mark (?)
    • Exclamation point (!)

    このサービスでは、これらのキーワードの文字列は、議事録の該当する位置のみで記号に変換されます。 以下の例では、話者が文の末尾に period という単語を話します。

    • the warranty period is short periodthe warranty period is short. になります

    サービスは、文の前の方に出現する名詞の period と文末の句読点を正しく区別します。

日本語

  • 電話番号は、日本の電話番号の有効な接頭部で始まる 10 桁または 11 桁の番号である必要があります。 例えば、有効な接頭部には 03090 などがあります。

  • 英単語は ASCII (半角) 文字に変換されます。 例えば、 IBMIBM に変換されます。

  • あいまいな用語はコンテキストが十分ではない場合、変換されません。 例えば、 一時十分 が時間を指しているのかどうかは不明です。

  • 句読点はスマート・フォーマット設定の有無に関わらず、同様に処理されます。 例えば、確率計算に基づいて、 カンマ または , のいずれかが選択されます。

  • 円の値を表すストリングは、円の通貨記号に置き換えられません。

  • どんな形式のインターネットの E メール・アドレスおよび Web アドレスも変換されません。

  • 日本語の狭帯域モデル (ja-JP_NarrowbandModel) には、数字と小数を表すマルチグラムの単語単位がいくつか含まれています。 スマート・フォーマット設定を有効にするかどうかに関係なく、サービスはこれらのマルチグラム単位を返します。 以下の例は、サービスが返す単位を示しています。 括弧内の数字は、各単位に相当するアラビア数字表現を示しています。

    • 数字: 〇一 (01)、...、 〇九 (09)、 一〇 (10)、...、 九〇 (90)
    • 10 進小数: 〇・ (0.)、 一・ (1.)、...、 十・ (10.)

    スマート・フォーマット設定機能は、モデルが生成したマルチグラム単位を理解して返します。 独自の後処理を書き起こしの結果に適用する場合は、このような単位を適切に処理する必要があります。

スマート・フォーマット設定の結果

以下の表は、スマート・フォーマット設定を使用した場合と使用しない場合の最終書き起こしの例を示しています。 書き起こしは、米国英語の音声に基づいています。

情報 スマート・フォーマット設定を使用しない場合 スマート・フォーマット設定を使用した場合
日付 I was born on ten oh six nineteen seventy I was born on 10/6/1970
I was born on the ninth of December nineteen hundred I was born on 12/9/1900
Today is June sixth Today is June 6
時刻 The meeting starts at nine thirty AM The meeting starts at 9:30 AM
I am available at seven EST I am available at 7:00 EST
We meet at oh seven hundred hours We meet at 0700 hours
数値 The quantity is one million one hundred and one The quantity is 1000101
One point five is between one and two 1.5 is between 1 and 2
電話番号 Call me at nine one four two three seven one thousand Call me at 914-237-1000
Call me at one nine one four nine oh nine twenty six forty five Call me at 1-914-909-2645
通貨値 You owe me three thousand two hundred two dollars and sixty six You owe me $3202.66
The dollar rose to one hundred and nine point seven nine yen from
    one hundred and nine point seven two yen | The dollar rose to 109.79 yen from 109.72 yen |

| インターネットの E メール・アドレスおよび Web アドレス | My email address is john dot doe at foo dot com | My email address is john.doe@foo.com | | | I saw the story on yahoo dot com | I saw the story on yahoo.com | | 組み合わせ | The code is zero two four eight one and the date of service is May fifth two thousand and one | The code is 02481 and the date of service is 5/5/2001 | | | There are forty seven links on Yahoo dot com now | There are 47 links on Yahoo.com now |

長い休止が含まれている場合のスマート・フォーマット設定の結果

発話に長時間の休止が含まれていると、書き起こしが分割されて 2 つ以上の最終結果が生成される可能性があります。 これは、次の例で示すように、応答の内容に影響します。

発話音声 フォーマット設定された書き起こしの結果
My phone number is nine one four five five seven three
    three nine two | "My phone number is 914-557-3392" |

| My phone number is nine one four ...休止... five five seven three three nine two | "My phone number is 914" \n "5573392" |

サービスの応答に影響する休止間隔を指定する方法について詳しくは、句の終わりの無音時間を参照してください。

スマート・フォーマット設定の例

以下の例では、認識要求で smart_formatting パラメーターを true に設定して、スマート・フォーマット設定を要求しています。 以降のセクションでは、要求の結果におけるスマート・フォーマット設定の効果を示しています。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?smart_formatting=true"

数値編集

数値編集機能はベータ版の機能であり、米国英語、日本語、および韓国語で使用できます。

redaction パラメーターは、最終書き起こしの数値データを編集またはマスクするようサービスに指示します。 この機能では、連続する 3 桁以上の数値の各桁を X 文字で置き換えて編集します。 これは、クレジット・カード番号などの機密数値データを編集することを目的としています。

デフォルトでは、サービスは数値データを編集しません。 数値編集を有効にするには、redaction パラメーターを true に設定します。 編集を有効にすると、その機能を明示的に無効にするかどうかに関わらず、smart_formatting パラメーターを true に設定することで、サービスによってスマート・フォーマット設定が自動的に有効になります。 最大限のセキュリティーを確保するために、編集を有効にすると、サービスは以下のパラメーターも無効にします。

  • keywords パラメーターおよび keywords_threshold パラメーターの値を指定しているかどうかに関わらず、サービスではキーワード検出が無効になります。
  • max_alternatives パラメーターに 1 より大きい値を指定するかどうかに関わらず、サービスは最大数の代替方法を無効にします。 サービスは、単一の最終書き起こしのみを返します。
  • このサービスは、interim_results パラメーターを true に設定するかどうかに関わらず、WebSocket インターフェースの中間結果を無効にします。

この機能の設計は、既存のスマート・フォーマット設定機能と類似しています。 サービスでは、編集がテキスト正規化が完了し、結果がクライアントに返される直前に認識要求の最終書き起こしにのみ適用されます。

言語の相違

この機能は米国英語モデルで説明されているとおりに機能しますが、日本語モデルと韓国語モデルでは以下の相違点があります。

日本語

日本語の編集には以下の相違点があります。

  • 連続する 3 桁以上のストリングをマスクする以外に、編集によって、3 桁未満であっても番地がマスクされます。

  • 同様に、日本語スタイルの生年月日の日付情報も編集によってマスクされます。 日本語では、日付情報は通常、西暦フォーマットで表されますが、特に生年月日の場合は日本語スタイルに従うことがあります。 この場合、年と月が 1 桁または 2 桁であってもマスクされます。

    例えば、改訂のない日本語スタイルの生年月日は 平成 30年 2月 です。 リダクションを使用すると、日付は 平成 XX年 X月 になります。

韓国語

韓国語の編集には以下の相違点があります。

  • スマート・フォーマット設定機能はサポートされません。 サービスでは韓国語の数値編集が行われますが、その他のスマート・フォーマット設定は行われません。

  • 切り離された数字は削減されますが、韓国語の句に含まれる可能性のある数字は削減されません。 例えば、次のフレーズの という文字は、次の文字の隣にあるため、 X に置き換えられません

    이입니다

    文字が次の文字とスペースで区切られていた場合、 数値の墨消し結果 で説明されているように、 X に置き換えられます。

数値編集の結果

以下の表は、各サポート対象言語で数値編集を使用した場合と使用しない場合の最終書き起こしの例を示しています。

数値による黒塗り処理の例 トランスクリプト
言語 編集しない場合 編集した場合
米国英語 my credit card number is four one four seven two my credit card number is XXXXX
日本語 「私の en」の「en」-「私の」-「私の」-「二」- 「私の「そのための」とは、「XXXXX」を必要とする。
韓国語 「シンイ・オイ・オイ・オイ・オイ・オシオイ・オシオイ・オシオイオイ」 [オシオイ・オシオイ・オシオイ・オシオイ・オシオシオイエイ

数値編集の例

以下の例では、認識要求で redaction パラメーターを true に設定して、数値編集を要求しています。 要求によって編集が有効になるため、この要求によってサービスでは暗黙的にスマート・フォーマット設定が有効になります。 サービスでは、要求のパラメーターが影響を与えないように効率的に無効になります。単一の最終書き起こしが返され、キーワードは認識されません。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/wav" \
--data-binary @{path}audio-file.wav \
"{url}/v1/recognize?&redaction=true&max_alternatives=3&keywords=birth%2Cbirthday&keywords_threshold=0.5"

禁止用語フィルター

禁止用語フィルター機能は、米国英語および日本語でのみ一般出荷可能です。

profanity_filter パラメーターは、サービスの結果に含まれる禁止用語を検閲するかどうかを指定します。 デフォルトでは、書き起こし内の禁止用語を一連のアスタリスクで置き換えることにより、すべての禁止用語が覆い隠されます。 このパラメーターを false に設定すると、出力で、書き起こされたとおりに単語が表示されます。

サービスはすべての最終書き起こしおよび書き起こし候補で禁止用語を校閲します。 また、単語候補、単語の信頼度、単語のタイム・スタンプに関連付けられている結果でも、禁止用語を検閲します。 唯一の例外はキーワード検出であり、profanity_filtertrue かどうかに関係なく、サービスはユーザーによって指定されたすべての単語を返します。

禁止用語フィルターの例

以下の例では、true パラメーターにデフォルトの profanity_filter 値を指定して書き起こされた短い音声ファイルの結果を示します。 この要求では、word_alternatives_threshold パラメーターを比較的大きい値の 0.99 に、そして word_confidence パラメーターと timestamps パラメーターを true にも設定しています。

IBM Cloud

curl -X POST -u "apikey:{apikey}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

IBM Cloud Pak for Data IBM Software Hub

curl -X POST \
--header "Authorization: Bearer {token}" \
--header "Content-Type: audio/flac" \
--data-binary @{path}audio-file.flac \
"{url}/v1/recognize?word_alternatives_threshold=0.99&word_confidence=true&timestamps=true"

このサービスは、禁止用語を一連のアスタリスクに置き換えることによって、応答からの禁止用語をマスクします。

{
  "result_index": 0,
  "results": [
    {
      "word_alternatives": [
        {
          "start_time": 0.03,
          "alternatives": [
            {
              "confidence": 1.0,
              "word": "****"
            }
          ],
          "end_time": 0.25
        },
        {
          "start_time": 0.25,
          "alternatives": [
            {
              "confidence": 0.99,
              "word": "you"
            }
          ],
          "end_time": 0.56
        }
      ],
      "alternatives": [
        {
          "transcript": "**** you",
          "confidence": 0.99,
          "word_confidence": [
            ["****", 1.0],
            ["you", 0.99]
          ],
          "timestamps": [
            ["****", 0.03, 0.25],
            ["you", 0.25, 0.56]
          ]
        }
      ],
      "final": true
    }
  ]
}