Speech to Text for IBM Cloud のリリース・ノート

IBM Cloud

IBM Cloud 上でホストされている IBM Watson® Speech to Text のマネージドインスタンス、または IBM Cloud Pak for Data as a Service 上でホストされているインスタンスの各リリースおよびアップデートには、以下の機能と変更が含まれています。特に断りのない限り、変更はすべて前のリリースと互換性があり、すべての新規および既存のアプリケーションで自動的かつ透過的に使用可能になっています。

サービスの既知の制限事項については、既知の制限事項を参照してください。

IBM Cloud Pak for Dataのサービスのリリースおよび更新については、Speech to Text for IBM Cloud Pak for Data のリリース・ノートを参照してください。

03 2025年11月

音声アクティビティ検出の改善により、応答が速くなり、精度が向上し、ノイズの多い環境でのパフォーマンスが向上しました。

Speech Activity Detection (SAD) は、Speech To Text recognize API の既存のメソッドに加え、新たに改良されたメソッドを含むようにアップグレードされました。

新しい方法は、音声ストリーム内の音声境界を検出する精度と性能を向上させる。 sad_module:2 を設定することで使用できる。詳しくは、 SAD（Speech Activity Detection ）を参照。

音声言語の識別が一般的に

音声言語の識別は現在、一般的に利用可能である。

言語識別（LID）は、音声ストリーム中の話し言葉を自動的に検出する。このモデルは、入力された音声を継続的に処理し、指定されたしきい値（デフォルトでは 0.99 ）より高い信頼度に達すると、識別された言語を返します。詳しくは、音声言語の識別を参照。

07 2025年10月

hints パラメータが一般に利用可能になった

hints。

hints パラメータは、Smart Formatterによる後処理を改善します。このパラメータは、フォーマッタがユーザーの意図をより正確に解釈し、より期待に沿った結果を返すのに役立ちます。詳細については、ヒントパラメータを参照。

2025年9月26日

スピーチ原稿のエンリッチメントが一般的に利用可能に

スピーチ原稿のエンリッチメントが一般に利用可能になった。

音声トランスクリプト・エンリッチメント機能は、生の自動音声認識（ASR）トランスクリプトの読みやすさと使いやすさを向上させます。この後処理サービスは、自動的に句読点を追加し、インテリジェントな大文字小文字変換を適用して、音声コンテンツの構造と明瞭さを向上させます。詳しくは、スピーチ原稿の充実をご覧ください。

09 2025年9月

不具合を修正しました： Fr-CA 言語モデルのスマートフォーマッターで、8 桁の数字が余分なゼロで正しくフォーマットされない問題を修正しました。 Smart Formatterが正しい文字起こしを返すようになりました。

2025年8月19日

不具合を修正しました： スマートフォーマッターで、トランザクションの話し言葉の数値が正しく転記されない問題を修正しました。例えば、 one hundred and ninety-nine and twelve cents は $199.12 と転写されるべきであるが、誤って 199 e R$ 0,12 と表示されていた。 Smart Formatterが正しい文字起こしを返すようになりました。

不具合を修正しました： フランス語モデルのスマートフォーマッターで、"cent "という単語が正しくフォーマットされていなかった問題を修正しました。例えば、 quatre-vingt-neuf quarante-cinq zéro trois deux huit cent seize soixante-dix-huit は、期待された 8945032811678 ではなく、 89450328 100 1678 と転写された。 Smart Formatterが正しい文字起こしを返すようになりました。

2025年7月22日

不具合を修正しました： 全角スペース文字 ( U+3000 ) が原因で発生していた ja-JP カスタムモデルエラーが修正されました。

不具合を修正しました： Smart Formatter PortugueseのEメールフォーマットで、Eメールアドレスに余分なスペースが入っていた問題を修正しました。詳しくは、 Smart Formatter for Portugueseをご覧ください。

08 2025年7月

英語大規模音声モデルにおける固有表現認識の改善

都市、住所、通り名、英数字、日付、姓と名の認識改善を含む。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

不具合を修正しました：Smart Formatter スペイン語ラージスピーチモデル (es-ES) 日付フォーマット

不具合修正： el primero de enero de dos mil-> el 01/01/2000 は 01/01/2000 のようにフォーマットしなければならない。この問題は修正された。詳しくは Smart Formatter for Spanishをご覧ください。

17 2025年6月

不具合を修正しました： Smart Formatter Versionの値の割り当てで挿入エラーが発生し、特定のリクエストの処理に失敗していた問題を修正しました。この問題は修正された。スマートフォーマッターのリクエストが期待通りに応答するようになりました。

不具合を修正しました： スマートフォーマッターで、英数字に不要なスペースが入る不具合を修正しました。例えば、 l k k one one five zero zero four two l e-> lkk1 150042le。この問題は修正された。スマートフォーマッターのリクエストが期待通りに応答するようになりました。

28 2025年5月

日本語の新しい大型音声モデルが一般に利用可能に

日本語の大型音声モデルが一般に利用可能になった。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

改善： 話し言葉のフレーズに対して、より優れたスマートフォーマッターの取り扱いが追加されました - a as in alpha-> a.

29 2025年4月

不具合を修正しました：スマートフォーマッターにおいて、文字や数字、記号の曖昧性解消に関するさまざまな問題が修正されました

不具合の修正以下の問題が修正されました：

'O'は数字の0としてフォーマットされた
'a real' は ' r1 ' としてフォーマットされた
colonoscopy' は ':oscopy' とフォーマットされた

07 2025年4月

不具合を修正しました：OOVで予期せぬソースが検出された: 不具合を修正しました： コーパスがカスタムモデルに追加されると、以前に削除されたOOV単語が意図せず以前のソースから復元されてしまう問題を修正しました。この問題は修正された。

18 2025年3月

不具合を修正しました： en-us モデルにおける日付と追加番号に関する Smart Formatter の問題を修正しました。: 不具合を修正しました： 日付の桁数の合計が書式設定に必要な桁数を超えている場合、書式設定が無効になる。例えば、 five twelve fifteen eleven-> 5 1/2/1511 は、 5121511 となる。

11 2025年2月

不具合の修正： 多数の 503’s が観測された。特に ja-JP_NarrowbandModel。このモデルの可用性を高めるため、サービス改善が行われた。

不具合を修正しました： en-US_Telephony モデルで、STT カスタマイズのメモリ割り当てエラーが見つかりました。この問題は修正された。

不具合を修正しました： en-us モデルの省略形に関する Smart Formatter の不具合が確認されました (Dr. は Doctor に修正されました )。この問題は修正された。

2025年1月14日

改善： インスタンスの英数字が更新され、 Smart Formatterが、 1 Z. 3 7 8 9 A. Y. 0 1 0 0 0 0 0 2 0 3-> 1 z 3789 a y 0100000203 のように、個別に話された数字の組み合わせを組み合わせていた。この問題は修正されました。

不具合修正：すべての仮説の送信に失敗するランタイム: 不具合を修正しました： キーワードの信頼度スコアが仮説と異なる場合、転記のタイムスタンプの問題により、転記に欠落が生じる単語がありました。その結果、音声に2つの単語（ yes ）が含まれていても、トランスクリプションは1つの単語（ yes ）を返すことになった。この問題を修正するため、タイムスタンプ削除ロジックが改良された。

2024年11月19日

ドイツ語の新しい大型音声モデルが一般に利用可能に

ドイツ語の大規模なスピーチモデルが一般に利用可能になった。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

不具合修正：マルチバンド英語ラージスピーチモデルのアップサンプリングロジック( 8khz to 16khz )の改善

不具合の修正： モデルが 8khz と 16khz の両方を処理するためには、サービスにおけるアップサンプリングロジックが必要である。

05 2024年11月

不具合修正：スピーカーラベルがLSMとRNNTの中間結果を無効にする: 不具合を修正しました： スピーカー・ラベルを有効にすると中間結果が届かなくなる問題が見つかりました。この問題は修正され、スピーカー・ラベルが使用された場合、サービスは直ちに中間結果を返すようになった。

2024年8月23日

すべてのラージスピーチモデルが一般発売開始

すべての言語の大規模な音声モデルが一般に利用可能になった（GA）。これらは、実稼働環境およびアプリケーションでの使用がサポートされています。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

2024 年 6 月 18 日

ブラジル・ポルトガル語とスペイン語の新しい大規模な音声モデルがオープン・ベータに

ブラジル・ポルトガル語とスペイン語の大規模な音声モデルがオープン・ベータになりました。スペイン語には、カスティーリャ方言、アルゼンチン方言、チリ方言、コロンビア方言、メキシコ方言、ペルー方言がある。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

2024 年 5 月 15 日

Large Speech Model for English の一般出荷可能

米国、オーストラリア、インド、および英国の方言を含む英語の大規模な音声モデルは、一般出荷可能 (GA) になりました。本番環境やアプリケーションでの使用がサポートされている。

大規模な音声モデルについて詳しくは、 Large speech languages and models を参照してください。
大規模音声モデルでサポートされる機能について詳しくは、大規模音声モデルでサポートされる機能を参照してください。

2024年3月7日

Open Beta での米国英語用 Large Speech Model: 米国英語の新しいラージ・スピーチ・モデルがオープン・ベータになりました。サポートされる機能 (ベータ) について詳しくは、 Large speech languages and models を参照してください。

2023 年 11 月 30 日

Speech to Text パラメーターの speech _begin_event: このパラメータによって、クライアントアプリケーションは、いくつかの単語や音声が検出され、Speech to Textがデコード中であることを知ることができます。詳しくは、音声認識パラメーターの使用を参照してください。
カスタム単語のパラメーター「mapping_only」: mapping_only'パラメータを使用すると、トレーニングの代わりに後処理として、'sounds_like'(または単語)を'display_as'値にマッピングするためにカスタム単語を直接使用することができます。詳しくは、 The words resource を参照してください。; 日本語以外と日本語のガイドラインを参照してください。
次世代言語モデルのカスタマイズの改善によるブラジル・ポルトガル語とフランス・カナダ語のサポート: ブラジル・ポルトガル語とフランス・カナダ語の次世代モデルの言語モデル・カスタマイズが最近追加されました。このサービス更新には、さらに内部的な改善が含まれます。
新しいスマート・フォーマット設定機能: 次世代モデル用の新しいスマート・フォーマット設定機能が、米国英語、ブラジル・ポルトガル語、フランス語、およびドイツ語でサポートされています。詳しくは、スマート・フォーマット設定のバージョンを参照してください。
次世代言語モデルのカスタマイズの改善によるカスティリャ・スペイン語と LATAM スペイン語のサポート: カスティリャ・スペイン語および LATAM スペイン語の次世代モデルの言語モデル・カスタマイズが追加されました。このサービス更新には、さらに内部的な改善が含まれます。
英語、日本語、フランス語の大型音声モデル - 早期アクセス用: 早期アクセス機能については、 IBM Watson Speech-to-Text および IBM watsonx Assistantで、英語、日本語、およびフランス語の Large Speech Models を使用できます。これらの Large Speech モデルのフィーチャー・セットは制限されていますが、次世代モデルよりも正確であり、サイズが小さく、ストリーミング・モード機能が優れているため、実行が迅速かつ安価です。

これらの基本モデルのテスト、および結果とフィードバックの共有に関心がある場合は、このフォームに入力して製品管理チームにお問い合わせください。

2023 年 7 月 28 日

重要: 2023 年 8 月 1 日から、すべての旧世代モデルが廃止されます。: 重要: 以前の世代のモデルはすべて、サービスから廃止されました。新しいお客様は、次世代モデルのみを使用する必要があります。既存のすべてのお客様は、同等の次世代モデルに移行する必要があります。すべての次世代モデルについて詳しくは、次世代言語とモデルを参照してください。次世代モデルへのマイグレーション方法について詳しくは、次世代モデルへのマイグレーションを参照してください。

2023 年 6 月 9 日

問題点の修正: カスタム言語モデルの作成とトレーニングが、標準および低遅延の両方の次世代モデルに最適になりました。: 問題点の修正: 次世代の低遅延モデルを使用してコーパス・テキスト・ファイルまたはカスタム単語 (あるいはその両方) でカスタム言語モデルを作成およびトレーニングする際に、標準モデルと同じように動作するようになりました。以前は、次世代低遅延モデルを使用する場合にのみ最適ではありませんでした。
問題の修正: テンソル・エラー・メッセージが原因で STT Websocket セッションが失敗しなくなる: 問題点の修正: STT Web ソケットを使用しているときに、エラー・メッセージ「STT がエラーを返す: ディメンション 0 の場合を除き、テンソルのサイズが一致する必要があります」が原因でセッションが失敗することがなくなりました。

2023 年 5 月 18 日

英語の次世代医療テレフォニー・モデルの更新

英語版次世代医療電話モデルがアップデートされ、音声認識が向上しました：

en-WW_Medical_Telephony

新しい改善された次世代言語モデルのカスタマイズについて、フランス語とドイツ語のサポートが追加されました。

フランス語とドイツ語の次世代モデルの言語モデル・カスタマイズが最近追加されました。このサービス更新には、さらに内部的な改善が含まれます。

改善された次世代カスタマイズの詳細については、以下を参照のこと

問題点の修正: 半角カタカナ文字を含むカスタム単語が日本語テレフォニー・モデルで明確なエラー・メッセージを返すようになりました。

問題点の修正: 資料によると、全角カタカナ文字のみがカスタム単語で受け入れられ、次世代モデルでは、サポートされていないことを説明するエラー・メッセージが表示されるようになりました。以前は、半角カタカナ文字を含むカスタム単語を作成する場合、エラー・メッセージは提供されていませんでした。

問題点の修正: トレーニング時間が長いために日本語テレフォニー言語モデルが失敗しなくなる

問題点の修正: 日本語テレフォニーを使用してカスタム言語モデルをトレーニングする際に、このサービスは失敗することなく、多数のカスタム単語を効果的に処理するようになりました。

2023 年 5 月 2 日

改善された次世代モデルに基づくカスタム・モデルをアップグレードするための新しい手順

カスタム言語モデルを改善された次世代ベース・モデルにアップグレードするために、2 つのアプローチを使用できるようになりました。既に文書化されているように、引き続きカスタム・モデルを変更してリトレーニングすることができます。ただし、 POST /v1/customizations/{customization_id}/train 要求に照会パラメーター force=true を含めることで、カスタム・モデルをアップグレードすることもできます。 force パラメーターは、変更が含まれている ( ready または available 状態である) かどうかに関係なく、カスタム・モデルをアップグレードします。

詳しくは、改善された次世代モデルに基づくカスタム言語モデルのアップグレードを参照してください。

改善された次世代モデルに基づくカスタム・モデルに単語を追加するためのガイダンス

この資料では、改善された次世代モデルに基づくカスタム・モデルへの単語の追加について、より多くのガイダンスが提供されるようになりました。トレーニング中のパフォーマンス上の理由から、ガイダンスでは、可能な限りカスタム単語を直接追加するのではなく、コーパスの使用を推奨しています。

詳しくは、改善された次世代モデルに基づいてカスタム・モデルに単語を追加するためのガイドラインを参照してください。

改良された次世代モデルに基づくカスタム・モデルの日本語のカスタム・ワードは、異なる方法で処理されます。

次世代モデルをベースとする日本語カスタム・モデルの場合、カスタム・ワードは他の言語とは異なる方法で処理されます。日本語の場合、長さが 25 文字を超えないカスタム単語または同音異字を追加できます。カスタム単語または同音異字がこの制限を超えると、サービスは、単語がコーパスによって追加されたかのように、その単語をカスタム・モデルに追加します。この単語は、モデルのカスタム単語として表示されません。

詳しくは、改善された次世代モデルに基づいて日本語モデルに単語を追加するためのガイドラインを参照してください。

2023 年 4 月 12 日

問題点の修正: 次世代モデルを使用すると、 WebSocket インターフェースが予期したとおりにタイムアウトになるようになりました。: 問題点の修正: 次世代モデルで音声認識に使用すると、 WebSocket インターフェースが長時間の無音の後に予期したとおりにタイムアウトになるようになりました。以前は、短い音声ファイルの音声認識に使用すると、 WebSocket セッションがタイムアウトにならないことがありました。セッションがタイムアウトにならなかった場合、サービスは待機中のクライアント・アプリケーションに最終仮説を返しませんでした。代わりに、クライアントは結果を待機している間に時間を計測しました。

2023 年 4 月 6 日

問題点の修正: 次世代の日本語カスタム・モデルのトレーニングを完了できるようにするための制限: 問題点の修正: 次世代の日本語カスタム言語モデルのトレーニングを成功させるには、モデルに追加されたカスタムの単語および同音異字がそれぞれ 25 文字を超えないようにする必要があります。最も効果的なトレーニングのために、カスタムの単語および同音異字には 20 文字を超えないようにすることをお勧めします。長いカスタム単語や「いいね」を使用した日本語カスタム・モデルのトレーニングは、数時間のトレーニング後に完了しません。

次世代の日本語カスタム・モデルに長い単語または同音異字を追加する必要がある場合は、以下の手順を実行します。

カスタム・モデルに、長い単語または同音異字の本質を取り込む短い単語または同音異字を追加します。
長い単語または同音異字を使用する 1 つ以上の文をコーパスに追加します。
単語または同音異字のコンテキストをより多く提供する文をコーパスに追加することを検討してください。より大きなコンテキストでは、単語を認識して正しい同音異字を適用するための詳細情報がサービスに提供されます。
コーパスをカスタムモデルに追加する。
短い方の単語または同音異字と、長い方のストリングを含むコーパスの組み合わせでカスタム・モデルをリトレーニングします。

前述の限界とステップにより、次世代の日本語カスタム・モデルでトレーニングを完了できます。カスタム言語モデルに多数の新規カスタム単語を追加すると、モデルのトレーニング時間が長くなることに注意してください。ただし、トレーニング時間の増加は、カスタム・モデルが最初に新しい単語についてトレーニングされたときにのみ発生します。カスタム・モデルが新しい単語でトレーニングされると、トレーニング時間は通常に戻ります。

For more information, see
-   [Add a corpus to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addCorpus)
-   [Add words to the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#addWords)
-   [Train the custom language model](/docs/speech-to-text?topic=speech-to-text-languageCreate#trainModel-language)
-   [Working with corpora and custom words for next-generation models](/docs/speech-to-text?topic=speech-to-text-corporaWords-ng)

更新された次世代言語モデルのカスタマイズのさらなる改善

英語と日本語の次世代モデルの言語モデル・カスタマイズが最近改善されました。このサービス更新には、さらに内部的な改善が含まれます。改善された次世代カスタマイズの詳細については、以下を参照のこと

2023 年 3 月 13 日

問題点の修正: 米国英語の日付のスマート・フォーマット設定が正しくなりました: 問題の修正: スマート・フォーマット設定で、発話音声に曜日と日付の両方が含まれるようになりました (例: Tuesday February 28)。以前は、曜日が省略され、日付が正しく表示されない場合がありました。スマート・フォーマット設定はベータ機能であることに注意してください。
問題点の修正: 次世代モデルの音声言い淀み単語に関する資料の更新: 問題点の修正: 次世代モデルの発話躊躇に関する文書が更新されました。米国英語と日本語の躊躇語について詳しく説明します。次世代モデルでは、ためらうマーカーのみを含む前世代モデルとは異なり、書き起こし結果に実際のためらいの単語が含まれます。詳しくは、 Speech hesitations and hesitation marker を参照してください。

2023 年 2 月 27 日

日本の次世代電話新モデル

同サービスは現在、日本人向けに次世代テレフォニー・モデルを提供している。 ja-JP_Telephony。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

次世代の英語モデルと日本語モデルの言語モデル・カスタマイズの向上

本サービスでは、次世代の英語モデルおよび日本語モデルの言語モデル・カスタマイズが改善されました。

en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony

モデルに対する可視の改善: 新しいテクノロジーにより、新しい英語モデルと日本語モデルのデフォルトの動作が改善されます。特に、新しいテクノロジーは、以下のパラメーターのデフォルトの動作を最適化します。

これらのモデルの新規バージョンに基づくカスタム・モデルのデフォルトの customization_weight は、 0.2 から 0.1 に変更されました。
これらのモデルの新しいバージョンに基づくカスタム・モデルのデフォルトの character_insertion_bias は 0.0 のままですが、モデルは、音声認識のためのパラメーターをあまり必要としない方法で変更されています。

新しいモデルへのアップグレード: 改善されたテクノロジーを利用するには、新しいモデルに基づくすべてのカスタム言語モデルをアップグレードする必要があります。これらの基本モデルのいずれかの新規バージョンにアップグレードするには、以下を実行します。

モデルに含まれるカスタムの単語、コーパス、または文法を追加または変更して、カスタム・モデルを変更します。変更を加えると、モデルは ready 状態に移行します。
POST /v1/customizations/{customization_id}/train メソッドを使用して、モデルをリトレーニングします。リトレーニングにより、カスタム・モデルが新しいテクノロジーにアップグレードされ、モデルが available 状態に移行します。

既知の問題: 現時点では、 POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用してカスタム・モデルを新しい基本モデルの 1 つにアップグレードすることはできません。この問題は将来のリリースで対処される。

新しいモデルの使用: 新しい基本モデルにアップグレードした後、音声認識の customization_weight パラメーターと character_insertion_bias パラメーターに特に注意して、アップグレードしたカスタム・モデルのパフォーマンスを評価することをお勧めします。カスタム・モデルをリトレーニングする場合は、以下のようにします。

カスタム・モデルは、カスタム・モデルに対して新しいデフォルトの customization_weight である 0.1 を使用します。カスタム・モデルに関連付けたデフォルト以外の customization_weight は削除されます。
カスタム・モデルでは、最適な音声認識のために character_insertion_bias パラメーターを使用する必要がなくなった可能性があります。

言語モデルのカスタマイズの改善により、高品質の音声認識においてこれらのパラメーターの重要性が低くなります。

これらのパラメーターにデフォルト値を使用する場合は、アップグレード後もデフォルト値を使用し続けます。デフォルト値は、音声認識に最適な結果を提供し続ける可能性があります。
これらのパラメーターにデフォルト以外の値を指定する場合は、アップグレード後にデフォルト値を試してください。カスタム・モデルは、デフォルト値を使用した音声認識に適している場合があります。

これらのパラメーターに異なる値を使用すると、カスタム・モデルでの音声認識が改善される可能性があると考えられる場合は、音声認識を改善するためにパラメーターが必要かどうかを段階的に変更してみてください。

注: 現時点では、言語モデルのカスタマイズの改善は、前述の次世代の英語または日本語の基本言語モデルに基づくカスタム・モデルにのみ適用されます。時間の経過とともに、他の次世代言語モデルにも改善が提供されます。

詳細情報: アップグレードおよびこれらのパラメーターを使用した音声認識について詳しくは、以下を参照してください。

問題の修正: 文法ファイルで数字のストリングが正しく処理されるようになりました。

問題点の修正: 文法を使用すると、より長い数字ストリングが正しく処理されるようになりました。以前は、認識を完了できなかったか、誤った結果が返されていました。

2023 年 2 月 15 日

重要: 前世代モデルはすべて非推奨になり、2023 年 7 月 31 日にサービスを終了します。

重要: すべての前世代モデルは非推奨になり、 2023 年 7 月 31 日にサービス終了になります。その日に、すべての前世代モデルがサービスおよび資料から削除されます。前回の非推奨日は 2023 年 3 月 3 日でした。この新しい日付により、ユーザーは適切な次世代モデルに移行する時間を増やすことができます。しかし、2023 年 7 月 31 日までに同等の次世代モデルに移行する必要があります。

ほとんどの前世代モデルは、2022 年 3 月 15 日に非推奨になりました。以前は、アラビア語と日本語のモデルは非推奨ではありませんでした。非推奨は、 すべての 前世代モデルに適用されるようになりました。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。
すべての次世代モデルについて詳しくは、次世代言語とモデルを参照してください。

注：前世代の en-US_BroadbandModel がサービスを終了すると、次世代モデル en-US_Multimedia が音声認識リクエストのデフォルトモデルとなる。

問題点の修正: 次世代のカスタム言語モデルのトレーニング時間の短縮

問題点の修正: 次世代のカスタム言語モデルのトレーニング時間が大幅に改善されました。以前は、日本語のカスタム言語モデルのトレーニングについて報告されているように、トレーニング時間は必要以上に長くかかりました。問題は内部修正によって訂正されました。

問題点の修正: 動的に生成された文法ファイルが正しく機能するようになりました

問題点の修正: 動的に生成された文法ファイルが正しく機能するようになりました。以前は、 Speech to Text と IBM® watsonx™ Assistantとの統合について報告されていたように、動的な文法ファイルが原因で内部障害が発生する可能性がありました。問題は内部修正によって訂正されました。

2023 年 1 月 20 日

非推奨のアラビア語および英国のモデル名は使用できなくなりました

以下のアラビア語および英国のモデル名は、サービスで受け入れられなくなりました。

ar-AR_BroadbandModel-代わりに ar-MS_BroadbandModel を使用してください。
en-UK_NarrowbandModel-代わりに en-GB_NarrowbandModel を使用してください。
en-UK_BroadbandModel-代わりに en-GB_BroadbandModel を使用してください。

アラビア語のモデル名は 2020 年 12 月 2 日に非推奨になりました。英国英語のモデル名は、2017 年 7 月 14 日に非推奨になりました。

Cloud Foundry の非推奨およびリソース・グループへのマイグレーション

IBMは、2022年5月31日にIBM Cloud Foundryを廃止すると発表した。 2022年11月30日をもって、'IBM'Cloud Foundry新規アプリケーションは作成できなくなり、既存ユーザーのみがアプリケーションをデプロイできるようになります。 IBM'Cloud Foundryは2023年6月1日にサポート終了となります。その時点で、「IBM「Cloud Foundryアプリケーションを実行している「IBM「Cloud Foundryアプリケーションのランタイムインスタンスは、永久に無効化され、デプロビジョニングされ、削除される。

2023年6月1日以降もIBM Cloudアプリケーションを使用するには、その日までにリソースグループに移行する必要があります。リソース・グループはCloud Foundryのスペースと概念的に似ている。例えば、 IBM Cloud Identity and Access Management (IAM)を使用したよりきめ細かいアクセス制御、異なるリージョンにまたがるアプリやサービスにサービスインスタンスを接続する機能、グループごとの使用状況を簡単に確認する方法などです。

次世代モデルで max_alternatives パラメーターを使用できるようになりました。

max_alternatives パラメーターは、すべての次世代モデルで使用できるようになりました。このパラメータは、すべての次世代モデルで一般的に利用可能である。詳しくは、最大候補を参照してください。

問題点の修正: 次世代モデルで max_alternatives パラメーターと end_of_phrase_silence_time パラメーターの両方を使用できるようにする

問題点の修正: 次世代モデルで同じ要求に max_alternatives パラメーターと end_of_phrase_silence_time パラメーターの両方を使用すると、サービスは、指定された一時停止間隔を尊重しながら、複数の代替トランスクリプトを返すようになりました。以前は、1 つの要求で 2 つのパラメーターを使用すると、障害が発生していました。 (次世代モデルでの max_alternatives パラメーターの使用は、以前は限られた数のお客様に試験的機能として提供されていました。)

問題点の修正: フランス語のカナダの次世代テレフォニー・モデルの更新 (アップグレードが必要)

問題点の修正: フランス語のカナダの次世代テレフォニー・モデル fr-CA_Telephony が更新され、音声認識中にエラーを引き起こす可能性がある内部の不整合に対処するようになりました。 * fr-CA_Telephony モデルに基づくすべてのカスタム・モデルをアップグレードする必要があります。* カスタムモデルのアップグレードの詳細については

問題点の修正: 次世代モデルに基づいて日本語の同音異字を作成するための文書ガイドラインを追加

問題点の修正: 次世代モデルに基づく日本語のカスタム言語モデルでは、文字シーケンス ウー が一部の左側のコンテキストであいまいです。 ロ や ト のように、音素 /o/ で終わる文字 (音節) は使用しないでください。このような場合は、 ウー の代わりに ウウ または単に ウ を使用してください。例えば、 ロウーマン の代わりに ロウウマン または ロウマン を使用します。詳しくは、日本語のガイドラインを参照してください。

次世代モデルに基づくカスタム・モデルに単語を直接追加すると、トレーニング時間が長くなります。

次世代モデルに基づくカスタム・モデルにカスタム単語を直接追加すると、モデルのトレーニングにかかる時間が、それ以外の場合よりも数分長くなります。 POST /v1/customizations/{customization_id}/words または PUT /v1/customizations/{customization_id}/words/{word_name} メソッドを使用して追加したカスタム単語を使用してモデルをトレーニングする場合は、モデルの追加のトレーニング時間を数分間考慮してください。詳しくは、以下を参照してください

東京都内のカスタム音響モデルの音声リソースの最大時間数が増加しました

東京の場所でカスタム音響モデルに追加できる音声リソースの最大時間は、再び 200 時間になります。これまでは、東京地域の最大時間を 50 時間に短縮していました。この削減は取り消され、来年に延期されました。詳しくは、音声の最大時間を参照してください。

2022 年 12 月 5 日

オランダの次世代マルチメディア・モデル

同サービスは現在、オランダ・オランダ語の次世代マルチメディア・モデルを提供している。 nl-NL_Multimedia。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

問題点の修正: 次世代モデルの書き起こし結果におけるカスタム単語認識の修正

問題点の修正: 次世代モデルでの言語モデルのカスタマイズで、カスタム単語が認識され、すべての書き起こしで使用されるようになりました。以前は、カスタム単語が認識されず、書き起こし結果で使用されないことがありました。

問題点の修正: 次世代モデルの書き起こし結果での display_as フィールドの正しい使用法

問題点の修正: 次世代モデルで言語モデルをカスタマイズする場合、カスタム単語の display_as フィールドの値がすべての書き起こし結果に表示されるようになりました。以前は、 word フィールドの値が書き起こし結果に表示されることがありました。

問題点の修正: カスタム・モデル命名文書の更新

問題点の修正: この資料では、カスタム言語モデルおよびカスタム音響モデルの命名に関する詳細な規則が提供されるようになりました。詳しくは、以下を参照してください

2022 年 10 月 20 日

英語の次世代テレフォニー・モデルの更新

英語の次世代電話機は、音声認識を改善するために更新されました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

これらのモデルはすべて、低遅延を引き続きサポートします。これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

問題点の修正: 日本語の次世代マルチメディア・モデルの更新 (アップグレードが必要)

問題点の修正: 日本の次世代マルチメディア・モデル ja-JP_Multimedia が更新され、低遅延で音声認識中にエラーを引き起こす可能性がある内部の不整合に対処できるようになりました。 * ja-JP_Multimedia モデルに基づくすべてのカスタム・モデルをアップグレードする必要があります。* カスタムモデルのアップグレードの詳細については

2022 年 10 月 7 日

スウェーデンの次世代テレフォニー新モデル

同サービスは現在、スウェーデン語の次世代電話通信モデルを提供している。 sv-SE_Telephony。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

英語の次世代テレフォニー・モデルの更新

英語の次世代電話機は、音声認識を改善するために更新されました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

2022 年 9 月 21 日

ユーザー情報の GDPR 削除に関する新しい Activity Tracker イベント

DELETE /v1/user_data メソッドを使用してユーザーに関するすべての情報を削除すると、サービスから Activity Tracker イベントが返されるようになりました。イベントの名前は speech-to-text.gdpr-user-data.delete です。詳しくは、Activity Tracker イベントを参照してください。

問題点の修正: 低遅延の応答時間を改善するための次世代モデルの更新

問題点の修正: low_latency パラメーターを使用した場合の応答時間を改善するために、以下の次世代モデルが更新されました。

en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony

以前は、これらのモデルは、 low_latency パラメーターが使用されたときに、予期されるほど迅速に認識結果を返しませんでした。これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

2022 年 8 月 19 日

重要: ほとんどの前世代モデルの非推奨日は、2023 年 3 月 3 日になりました。

置き換え済み: この非推奨の通知は、 2023 年 2 月 15 日のサービス更新に置き換えられました。 すべての 前世代モデルのサービス終了日が 2023 年 7 月 31 日になりました。

2022年3月15日、アラビア語と日本語を除くすべての言語の旧世代モデルは非推奨となった。その時点で、非推奨のモデルは 2022 年 9 月 15 日まで使用可能でした。ユーザーが適切な次世代モデルに移行する時間を増やすために、非推奨モデルは 2023 年 3 月 3 日まで使用可能になります。最初の非推奨通知と同様に、アラビア語および日本語のプレビュー世代モデルは非推奨では ありません。すべての非推奨モデルの完全なリストについては、 2022 年 3 月 15 日のサービス更新を参照してください。

2023 年 3 月 3 日に、非推奨のモデルはサービスおよび資料から削除されます。非推奨モデルのいずれかを使用している場合は、2023年3月3日までに同等の次世代モデルに移行しなければならない。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
次世代モデルについて詳しくは、次世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。

注：前世代の en-US_BroadbandModel がサービスを終了すると、次世代モデル en-US_Multimedia が音声認識リクエストのデフォルトモデルとなる。

2022 年 8 月 15 日

フランス系カナダ人の次世代マルチメディア・モデル

同サービスは現在、フレンチ・カナディアン向けに次世代マルチメディア・モデルを提供している。 fr-CA_Multimedia。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

英語の次世代テレフォニー・モデルの更新

英語の次世代電話機は、音声認識を改善するために更新されました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

イタリアの次世代マルチメディアモデルが低遅延に対応

イタリアの次世代マルチメディア・モデル it-IT_Multimedia は、低遅延をサポートするようになりました。次世代モデルと低遅延の詳細については、以下を参照のこと

重要: カスタム音響モデルの場合、音声データの最大時間が削減されます

重要: カスタム音響モデルに追加できる音声データの最大量は、200 時間から 50 時間に削減されています。この変更は、2022 年 8 月から 9 月まで別の場所に段階的に適用されます。制限削減のスケジュール、および 50 時間を超える音声を含む既存のカスタム音響モデルの場合の意味については、音声の最大時間を参照してください。

2022 年 8 月 3 日

問題点の修正: 音声表現と言い淀みマーカーの資料の更新

問題点の修正: 音声の言い淀みや言い淀みマーカーに関する資料が更新されました。前世代のモデルには、ほとんどの言語の書き起こし結果において、言い淀みマーカーの代わりに言い淀みマーカーが含まれています。スマート・フォーマット設定により、米国英語の最終書き起こしから言い淀みマーカーが削除されます。次世代モデルでは、書き起こし結果に実際の発話の躊躇が含まれます。スマート・フォーマット設定は、最終的な書き起こし結果への組み込みには影響しません。

詳しくは、以下を参照してください。

2022 年 6 月 1 日

複数の次世代テレフォニー・モデルの更新

音声認識を向上させるために、以下の次世代テレフォニー・モデルが更新されました。

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
ko-KR_Telephony

これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

2022 年 5 月 25 日

次世代モデル用の新しいベータcharacter_insertion_biasパラメーター

すべての次世代モデルで、新しいベータ・パラメーターcharacter_insertion_biasがサポートされるようになりました。このパラメーターは、すべての音声認識インターフェースで使用できます。デフォルトでは、長さが異なる候補ストリングの認識のバランスを取るために、サービスは個々のモデルごとに最適化されます。モデル固有のバイアスは 0.0 と同等です。ほとんどの音声認識要求では、各モデルのデフォルト・バイアスで十分です。

ただし、一部のユース・ケースでは、より短い文字列またはより長い文字列を持つ仮説を優先することによって利点が得られる場合があります。このパラメーターは、モデルのデフォルトからの変更を表す -1.0 から 1.0 までの値を受け入れます。負の値は、より短い文字ストリングを優先するようにサービスに指示します。正の値は、より長い文字列を優先するようにサービスに指示します。詳しくは、文字挿入バイアスを参照してください。

2022 年 5 月 19 日

新しいイタリア語it-IT_Multimedia次世代モデル

このサービスは、イタリア語用の次世代マルチメディア・モデル (it-IT_Multimedia) を提供するようになりました。新しいモデルは一般出荷可能です。低遅延はサポートしませんが、言語モデルのカスタマイズと文法はサポートします。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

韓国語のテレフォニーおよびマルチメディアの次世代モデルの更新

既存の韓国語の次世代モデルが更新されました。

ko-KR_Telephonyモデルが更新され、音声認識の低遅延サポートが改善されました。
ko-KR_Multimedia モデルが更新され、音声認識が改善されました。このモデルでは、低遅延もサポートされるようになりました。

どちらのモデルも一般出荷可能であり、両方とも言語モデルのカスタマイズと文法をサポートします。これらのモデルに基づくカスタム言語モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

障害修正: すべての書き起こし結果について信頼性スコアが報告されるようになりました

障害修正: すべての書き起こし結果について信頼度スコアが報告されるようになりました。以前は、サービスが単一の音声認識要求に対して複数の書き起こしを返した場合、すべての書き起こしに対して信頼度スコアが返されるとは限りませんでした。

2022 年 4 月 11 日

新しいブラジル・ポルトガル語pt-BR_Multimedia次世代モデル

このサービスは、ブラジル・ポルトガル語用の次世代マルチメディア・モデル (pt-BR_Multimedia) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

低遅延をサポートするためのドイツ語de-DE_Multimedia次世代モデルの更新

次世代ドイツ語モデルde-DE_Multimediaは、低遅延をサポートするようになりました。更新されたドイツ語の基本モデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

次世代モデルに基づくカスタム・モデルについて、同音異字のサポートが文書化されました。

次世代モデルに基づくカスタム言語モデルの場合、カスタム単語の同音異字仕様のサポートが文書化されました。同音異字に対するサポートは、2021 年後半から提供されています。

次世代モデルと前世代モデルに基づくカスタム・モデルでは、sounds_likeフィールドの使用に違いがあります。次世代モデルに基づくカスタム・モデルでsounds_likeフィールドを使用する方法について詳しくは、次世代モデルのカスタム単語の処理を参照してください。

重要: 資料から削除された非推奨のcustomization_idパラメーター

重要: 2018 年 10 月 9 日に、すべての音声認識要求のcustomization_idパラメーターが非推奨になり、language_customization_idパラメーターに置き換えられました。 customization_idパラメーターは、音声認識メソッドの資料から削除されました。

WebSocket 要求の /v1/recognize
同期 HTTP 要求の POST /v1/recognize (マルチパートの要求を含む)
非同期 HTTP 要求の POST /v1/recognitions

注: Watson SDK を使用する場合は、customization_idパラメーターの代わりにlanguage_customization_idパラメーターを使用するようにアプリケーション・コードを更新したことを確認してください。 customization_idパラメーターは、次のメジャー・リリースの時点で SDK の同等のメソッドから使用できなくなります。音声認識メソッドについて詳しくは、 API & SDK リファレンスを参照してください。

2022 年 3 月 17 日

次世代モデルの文法サポートが一般出荷可能になりました

文法サポートは、以下の条件を満たす次世代モデルで一般出荷可能 (GA) になりました。

モデルは一般出荷可能です。
モデルは言語モデル・カスタマイズをサポートします。

詳しくは、以下のトピックを参照してください。

次世代モデルの文法サポートの状況について詳しくは、次世代モデルのカスタマイズ・サポートを参照してください。
文法について詳しくは、文法を参照してください。

新しいドイツ語の次世代マルチメディア・モデル

このサービスは、ドイツ語用の次世代マルチメディア・モデル (de-DE_Multimedia) を提供するようになりました。新しいモデルは一般出荷可能です。低遅延はサポートされません。言語モデル・カスタマイズ (一般出荷可能) および文法 (ベータ版) をサポートします。

使用可能なすべての次世代モデルとそのカスタマイズ・サポートについて詳しくは、以下を参照してください。

ベータ版の次世代 en-WW_Medical_Telephony モデルは低遅延をサポートするようになりました

ベータ版の次世代 en-WW_Medical_Telephony モデルは低遅延をサポートするようになりました。すべての次世代モデルと低遅延について詳しくは、以下を参照してください。

2022 年 3 月 15 日

重要: ほとんどの前世代モデルは非推奨です

2022 年 3 月 15 日より、アラビア語および日本語以外のすべての言語の前世代モデルは非推奨になりました。非推奨のモデルは、2022 年 9 月 15 日まで使用可能であり、その時点でサービスおよび資料から削除されます。アラビア語と日本語の旧世代モデルは非推奨ではない。

以下の前世代モデルは非推奨になりました。

中国語 (北京語): zh-CN_NarrowbandModel および zh-CN_BroadbandModel
オランダ語 (オランダ): nl-NL_NarrowbandModel および nl-NL_BroadbandModel
英語 (オーストラリア): en-AU_NarrowbandModel および en-AU_BroadbandModel
英語 (英国): en-GB_NarrowbandModel および en-GB_BroadbandModel
英語 (米国): en-US_NarrowbandModel、en-US_BroadbandModel、および en-US_ShortForm_NarrowbandModel
フランス語 (カナダ): fr-CA_NarrowbandModel および fr-CA_BroadbandModel
フランス語 (フランス): fr-FR_NarrowbandModel および fr-FR_BroadbandModel
ドイツ語: de-DE_NarrowbandModel および de-DE_BroadbandModel
イタリア語: it-IT_NarrowbandModel および it_IT_BroadbandModel
韓国語: ko-KR_NarrowbandModel および ko-KR_BroadbandModel
ポルトガル語 (ブラジル): pt-BR_NarrowbandModel および pt-BR_BroadbandModel
スペイン語 (アルゼンチン): es-AR_NarrowbandModel および es-AR_BroadbandModel
スペイン語 (カスティリャ): es-ES_NarrowbandModel および es-ES_BroadbandModel
スペイン語 (チリ): es-CL_NarrowbandModel および es-CL_BroadbandModel
スペイン語 (コロンビア): es-CO_NarrowbandModel および es-CO_BroadbandModel
スペイン語 (メキシコ): es-MX_NarrowbandModel および es-MX_BroadbandModel
スペイン語 (ペルー): es-PE_NarrowbandModel および es-PE_BroadbandModel

これらの非推奨モデルのいずれかを使用する場合は、サービス終了日までに同等の次世代モデルにマイグレーションする必要があります。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
次世代モデルについて詳しくは、次世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。

注: 9 月 15 日に前世代 en-US_BroadbandModel がサービスから削除されると、次世代 en-US_Multimedia モデルが音声認識要求のデフォルト・モデルになります。

次世代モデルが音声解析パラメーターをサポートするようになりました

すべての次世代モデルが、一般出荷可能な機能として以下の音声解析パラメーターをサポートするようになりました。

end_of_phrase_silence_time は、サービスが書き起こしを複数の最終結果に分割する一時停止間隔の期間を指定します。詳しくは、句の終わりの無音時間を参照してください。
split_transcript_at_phrase_end は、入力のセマンティック機能に基づいて書き起こしを複数の最終結果に分割するようにサービスに指示します。詳しくは、句の終わりでの書き起こしの分割を参照してください。

不具合修正：スピーカーラベルのドキュメントを修正

問題点の修正: 話者ラベルの資料には、複数の場所にある以下の誤ったステートメントが含まれています。次世代モデルでは、話者ラベルは、中間結果または低遅延での使用がサポートされていません。 話者ラベルは、次世代モデルの中間結果および低遅延での使用がサポートされています。詳しくは、話者ラベルを参照してください。

2022 年 2 月 28 日

低遅延をサポートするための英語およびフランス語の次世代マルチメディア・モデルの更新

以下のマルチメディア・モデルが、低遅延をサポートするように更新されました。

オーストラリア英語: en-AU_Multimedia
英国英語: en-GB_Multimedia
米国英語: en-US_Multimedia
フランス語: fr-FR_Multimedia

これらの基本モデルに基づいて作成されたカスタム言語モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

新しいカスティーリャ・スペイン語の次世代マルチメディア・モデル

このサービスは、カスティーリャ・スペイン語用の次世代マルチメディア・モデル (es-ES_Multimedia) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデル・カスタマイズ (一般出荷可能) および文法 (ベータ版) もサポートします。

使用可能なすべての次世代モデルとそのカスタマイズ・サポートについて詳しくは、以下を参照してください。

2022 年 2 月 11 日

不具合の修正：カスタムモデルのアップグレードとベースモデルのバージョンに関するドキュメントの修正

問題点の修正: カスタム・モデルのアップグレード、およびさまざまなバージョンの基本モデルに使用されるバージョン・ストリングについて説明する資料が更新されました。資料には、言語モデル・カスタマイズのアップグレードが次世代モデルにも適用されることが記載されています。また、さまざまなバージョンの基本モデルを表すバージョン・ストリングが更新されました。また、base_model_version パラメーターは、アップグレードされた次世代モデルでも使用できます。

カスタム・モデルのアップグレード、アップグレードが必要な場合、および古いバージョンのカスタム・モデルを使用する方法について詳しくは、以下を参照してください。

不具合を修正しました：大文字小文字の表記を更新

問題点の修正: サービスの書き起こしの自動大文字化について説明する資料が更新されました。サービスは、以下の言語およびモデルに対してのみ適切な名詞を大文字にします。

すべての前世代の米国英語モデル
次世代のドイツ語モデル

詳しくは、大文字化を参照してください。

2022 年 2 月 2 日

新しいベータ版の en-WW_Medical_Telephony モデルが使用可能になりました

新しいベータ版の次世代 en-WW_Medical_Telephony が使用可能になりました。新しいモデルは、医学分野と薬理学分野の用語を理解しています。このモデルは、薬名、製品ブランド、医療処置、病気、医師のタイプ、または COVID-19 関連の用語などの一般的な医学用語を書き起こす必要がある状況で使用します。一般的な使用例には、患者と医療提供者 (例えば、医師、看護師、または薬剤師) の間の会話が含まれます。

新しいモデルは、サポートされるすべての英語方言 (オーストラリア、インド、英国、および米国) で使用できます。新しいモデルは、ベータ機能として言語モデル・カスタマイズと文法をサポートします。米国英語音声用の smart_formatting を含む、en-US_Telephony モデルと同じパラメーターの大部分をサポートします。パラメーター low_latency、profanity_filter、redaction、および speaker_labels はサポートされません。

詳しくは、英語の医療テレフォニー・モデルを参照してください。

中国語 zh-CN_Telephony モデルの更新

次世代の中国語モデル zh-CN_Telephony が更新され、音声認識が改善されました。モデルは、低遅延を引き続きサポートします。デフォルトでは、サービスはすべての音声認識要求に対して更新されたモデルを自動的に使用します。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

更新されたモデルに基づくカスタム言語モデルがある場合は、POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用して更新を利用するために、既存のカスタム・モデルをアップグレードする必要があります。詳しくは、カスタム・モデルのアップグレードを参照してください。

低遅延をサポートするための日本語ja-JP_Multimedia次世代モデルの更新

次世代の日本語モデル ja-JP_Multimedia は低遅延をサポートするようになりました。 low_latency パラメーターは、モデルを使用する音声認識要求で使用できます。更新された日本語の基本モデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

2021 年 12 月 3 日

新しいラテンアメリカ・スペイン語の次世代テレフォニー・モデル

このサービスは、ラテンアメリカ・スペイン語の次世代テレフォニー・モデル (es-LA_Telephony) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。

es-LA_Telephony モデルは、すべてのラテンアメリカ方言に適用されます。これは、アルゼンチン、チリ、コロンビア、メキシコ、およびペルーの方言で使用可能な、前世代モデルに相当します。これらの特定の方言のいずれかに対して前世代モデルを使用した場合は、es-LA_Telephony モデルを使用して、同等の次世代モデルにマイグレーションします。

次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

重要: 特定の次世代モデルに基づくカスタム言語モデルを再作成する必要があります

重要: 特定の次世代モデルに基づくカスタム言語モデルを作成した場合は、カスタム・モデルを再作成する必要があります。カスタム言語モデルを再作成するまで、カスタム・モデルを使用しようとする音声認識要求は HTTP エラー・コード 400 で失敗します。

以下のバージョンの次世代モデルに基づいて作成したカスタム言語モデルを再作成する必要があります。

en-AU_Telephony モデルの場合、en-AU_Telephony.v2021-03-03 から en-AU_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-GB_Telephony モデルの場合、en-GB_Telephony.v2021-03-03 から en-GB_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-US_Telephony モデルの場合、en-US_Telephony.v2021-06-17 から en-US_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-US_Multimedia モデルの場合、en-US_Multimedia.v2021-03-03 から en-US_Multimedia.v2021-10-04 に作成したカスタム・モデル。

カスタム言語モデルのベースとなるモデルのバージョンを識別するには、GET /v1/customizations メソッドを使用してすべてのカスタム言語モデルをリストするか、GET /v1/customizations/{customization_id} メソッドを使用して特定のカスタム言語モデルをリストします。出力の versions フィールドには、カスタム言語モデルの基本モデルが表示されます。詳しくは、カスタム言語モデルのリストを参照してください。

**カスタム言語モデルを再作成するには、**最初に新しいカスタム・モデルを作成します。次に、以前のカスタム・モデルのコーパスとカスタム単語をすべて新しいモデルに追加します。その後、以前のカスタム・モデルを削除できます。詳しくは、カスタム言語モデルの作成を参照してください。

2021 年 10 月 28 日

新しい中国語の次世代テレフォニー・モデル

このサービスは、中国語 (北京語) の次世代テレフォニー・モデル (zh-CN_Telephony) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

新しいオーストラリア英語および英国英語の次世代マルチメディア・モデル

このサービスは、以下の次世代マルチメディア・モデルを提供するようになりました。新しいモデルは一般出荷可能であり、どちらのモデルも低遅延をサポートしていません。

オーストラリア英語: en-AU_Multimedia
英国英語: en-GB_Multimedia

次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

音声認識を改善するための複数の次世代モデルの更新

以下の次世代モデルが更新され、音声認識が改善されました。

オーストラリア英語テレフォニー・モデル (en-AU_Telephony)
英国英語テレフォニー・モデル (en-GB_Telephony)
米国英語マルチメディア・モデル (en-US_Multimedia)
米国英語テレフォニー・モデル (en-US_Telephony)
カスティーリャ・スペイン語テレフォニー・モデル (es-ES_Telephony)

次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

前世代モデルの文法サポートが一般出荷可能になりました

文法サポートは、以下の条件を満たす前世代モデルで一般出荷可能 (GA) になりました。

モデルは一般出荷可能です。
モデルは言語モデル・カスタマイズをサポートします。

詳しくは、以下のトピックを参照してください。

前世代モデルの文法サポートの状況について詳しくは、前世代モデルのカスタマイズ・サポートを参照してください。
文法について詳しくは、文法を参照してください。

次世代モデルのための新しいベータ版の文法サポート

文法サポートは、すべての次世代モデルに対してベータ機能として使用可能になりました。すべての次世代モデルは一般出荷可能 (GA) であり、言語モデル・カスタマイズをサポートします。詳しくは、以下のトピックを参照してください。

次世代モデルの文法サポートの状況について詳しくは、次世代モデルのカスタマイズ・サポートを参照してください。
文法について詳しくは、文法を参照してください。

注: 次世代モデルによる文法のベータ・サポートは、IBM Cloud の Speech to Text サービスでのみ使用可能です。文法は、IBM Cloud Pak for Data の次世代モデルではまだサポートされていません。

サポートされる機能用の新しい custom_acoustic_model フィールド

GET /v1/models メソッドおよび GET /v1/models/{model_id} メソッドは、モデルが音響モデル・カスタマイズをサポートするかどうかを報告するようになりました。 SupportedFeatures オブジェクトには、追加のフィールド custom_acoustic_model が含まれるようになりました。これは、音響モデル・カスタマイズをサポートするモデルの場合は true、それ以外の場合は false のブール値です。現在、このフィールドは、すべての前世代モデルの場合は true、すべての次世代モデルの場合は false です。

これらのメソッドについて詳しくは、モデルに関する情報のリスト表示を参照してください。
音響モデル・カスタマイズのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

2021 年 10 月 22 日

不具合修正：非同期 HTTP の失敗に対処: 問題点の修正: 非同期 HTTP インターフェースが一部の音声の書き起こしに失敗しました。さらに、要求のコールバックにより、recognitions.failed ではなく recognitions.completed_with_results という状況が返されました。このエラーは解決されました。

2021 年 10 月 6 日

チェコ語およびオランダ語の次世代モデルの更新

以下の次世代言語モデルが、示されているとおりに変更されました。

チェコ語テレフォニー・モデル (cs-CZ_Telephony) が一般出荷可能 (GA) になりました。モデルは、低遅延を引き続きサポートします。
ベルギー・オランダ語テレフォニー・モデル (nl-BE_Telephony) が更新され、音声認識が改善されました。モデルは、低遅延を引き続きサポートします。
オランダ・オランダ語テレフォニー・モデル (nl-NL_Telephony) は GA になりました。さらに、モデルは低遅延をサポートするようになりました。

使用可能なすべての次世代言語モデルについて詳しくは、次世代の言語とモデルを参照してください。

ダラス・ロケーションでのプレミアム・プランの新しい米国 HIPAA サポート

米国の医療保険の積算と責任に関する法律 (HIPAA) のサポートは、ダラス (us-south) のロケーションでホストされているプレミアム・プランで利用できるようになりました。詳しくは、医療保険の積算と責任に関する法律 (HIPAA)を参照してください。

2021 年 9 月 16 日

新しいベータ版のチェコ語およびオランダ・オランダ語の次世代モデル

このサービスは、以下の新しい次世代言語モデルをサポートするようになりました。どちらの新しいモデルもベータ機能です。

チェコ語: cs-CZ_Telephony。新しいモデルは低遅延をサポートします。
オランダ・オランダ語: nl-NL_Telephony。新しいモデルは低遅延をサポートしません。

使用可能なすべての次世代言語モデルについて詳しくは、次世代の言語とモデルを参照してください。

韓国語およびブラジル・ポルトガル語の次世代モデルの更新

以下の次世代モデルが更新されました。

韓国語モデル ko-KR_Telephony は低遅延をサポートするようになりました。
ブラジル・ポルトガル語モデル pt-BR_Telephony が更新され、音声認識が改善されました。

不具合修正：中間結果および低遅延に関する文書の修正

問題点の修正: 次世代モデルでの中間結果および低遅延機能について説明する資料が、明確さと正確さを考慮して書き直されました。詳しくは、以下のトピックを参照してください。

問題の修正: 話者ラベルの結果の改善

問題点の修正: 次世代モデルで話者ラベルを使用する場合、サービスは、同じ開始タイム・スタンプと終了タイム・スタンプを持つ非常に短い単語を含む、入力音声のすべての単語に対して話者を識別するようになりました。

2021 年 8 月 31 日

すべての次世代モデルが一般出荷可能になりました

既存のすべての次世代言語モデルが一般出荷可能 (GA) になりました。これらは、実稼働環境およびアプリケーションでの使用がサポートされています。

使用可能なすべての次世代言語モデルについて詳しくは、次世代の言語とモデルを参照してください。
各次世代モデルでサポートされる機能について詳しくは、次世代モデルでサポートされる機能を参照してください。

次世代モデルの言語モデル・カスタマイズが一般出荷可能になりました

言語モデル・カスタマイズは、使用可能なすべての次世代の言語とモデルに対して一般出荷可能 (GA) になりました。次世代モデルの言語モデル・カスタマイズは、実稼働環境およびアプリケーションでの使用がサポートされています。

前世代モデルの場合と同じコマンドを使用して、次世代モデルのカスタム言語モデル、コーパス、およびカスタム単語を作成、管理、および使用します。しかし、次世代モデルのカスタマイズは、前世代モデルのカスタマイズとは異なります。次世代モデルに基づくカスタム・モデルの場合、以下のようにしてください。

カスタム・モデルには、語彙外 (OOV) の単語の概念はありません。
コーパスからの単語は単語リソースに追加されません。
現在、カスタム単語に同音異字機能を使用することはできません。
基本言語モデルの更新時にカスタム・モデルをアップグレードする必要はありません。
文法は現在サポートされていません。

次世代モデルの言語モデル・カスタマイズの使用について詳しくは、以下を参照してください。

追加のトピックでは、カスタム言語モデル、コーパス、およびカスタム単語の管理について説明します。これらの操作は、前世代モデルと次世代モデルに基づくカスタム・モデルの場合と同じです。

2021 年 8 月 16 日

新しいベータ版のインド英語、インド・ヒンディ語、日本語、韓国語の次世代モデル

このサービスは、以下の新しい次世代言語モデルをサポートするようになりました。新しいモデルはすべてベータ機能です。

インド英語: en-IN_Telephony。モデルは低遅延をサポートします。
インド・ヒンディ語: hi-IN_Telephony。モデルは低遅延をサポートします。
日本語: ja-JP_Multimedia。モデルは低遅延をサポートしません。
韓国語: ko-KR_Multimedia および ko-KR_Telephony。モデルは低遅延をサポートしません。

次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

2021 年 7 月 16 日

新しいベータ版のフランス語の次世代モデル: フランス語の次世代言語モデル fr-FR_Multimedia が使用可能になりました。新しいモデルは低遅延をサポートしません。このモデルはベータ機能です。
音声認識を改善するためのベータ版の米国英語の次世代モデルの更新: 次世代の米国英語 en-US_Telephony モデルが更新され、音声認識が改善されました。更新されたモデルは引き続きベータ機能です。
問題点の修正: 言い淀みマーカーの資料の更新: 問題点の修正: 資料では、次世代モデルで言い淀みマーカーが生成されないことを記述できませんでした。資料が更新され、前世代モデルのみが言い淀みマーカーを生成することに注意しています。次世代モデルでは、書き起こし結果に実際の躊躇が含まれます。詳しくは、 Speech hesitations and hesitation marker を参照してください。

2021 年 6 月 15 日

新しいベータ版のベルギー・オランダ語の次世代モデル

ベルギー・オランダ語 (フラマン語) の次世代言語モデル nl-BE_Telephony が使用可能になりました。新しいモデルは低遅延をサポートします。このモデルはベータ機能です。次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

アラビア語、カナダ・フランス語、およびイタリア語の次世代モデルに対する新しいベータ版の低遅延サポート

以下の既存のベータ版の次世代言語モデルは、低遅延をサポートするようになりました。

アラビア語 ar-MS_Telephony モデル
カナダ・フランス語 fr-CA_Telephony モデル
イタリア語 it-IT_Telephony モデル

次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

音声認識を改善するためのベータ版のアラビア語とブラジル・ポルトガル語の次世代モデルの更新

以下の既存のベータ版の次世代言語モデルが更新され、音声認識が改善されました。

アラビア語 ar-MS_Telephony モデル
ブラジル・ポルトガル語 pt-BR_Telephony モデル

次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

2021 年 5 月 26 日

次世代モデルの audio_metrics パラメーターの新しいベータ版のサポート

audio_metrics パラメーターは、すべての次世代の言語とモデルで使用するためのベータ機能としてサポートされるようになりました。詳しくは、音声メトリックを参照してください。

次世代モデルの word_confidence パラメーターの新しいベータ版のサポート

word_confidence パラメーターは、すべての次世代の言語とモデルで使用するためのベータ機能としてサポートされるようになりました。詳しくは、単語の信頼度を参照してください。

問題点の修正: 次世代モデルの資料の更新

不具合を修正しました： ドキュメントが更新され、以下の情報が修正されました：

音声認識に次世代モデルを使用する場合、最終書き起こし結果に confidence フィールドが含まれるようになりました。前世代モデルを使用する場合、このフィールドは常に最終書き起こし結果に含まれていました。この修正は、次世代モデルの 2021 年 4 月 12 日のリリースで報告された制限に対応しています。
この資料では、smart_formatting パラメーターを使用すると、サービスが日本語の最終書き起こし結果から言い淀みマーカーが削除されることが誤って記述されています。スマート・フォーマット設定では、日本語の最終結果から言い淀みマーカーは削除されません。米国英語の場合のみです。詳しくは、スマート・フォーマット設定はどのような結果に影響しますか。を参照してください。

2021 年 4 月 27 日

新しいベータ版のアラビア語およびブラジル・ポルトガル語の次世代モデル

このサービスは、以下の 2 つの新しいベータ版の次世代モデルをサポートします。

低遅延をサポートするブラジル・ポルトガル語 pt-BR_Telephony モデル。
低遅延をサポートしないアラビア語 (現代標準) ar-MS_Telephony モデル。

詳しくは、次世代の言語とモデルを参照してください。

音声認識を改善するためのベータ版のカスティーリャ・スペイン語の次世代モデルの更新

ベータ版の次世代カスティリャ・スペイン語 es-ES_Telephony モデルは、low_latency パラメーターをサポートするようになりました。詳しくは、低遅延を参照してください。

次世代モデルによる話者ラベルの新しいベータ版のサポート

speaker_labels パラメーターは、以下の次世代モデルで使用するためのベータ機能としてサポートされるようになりました。

オーストラリア英語 en-AU_Telephony モデル
英国英語 en-GB_Telephony モデル
米国英語 en-US_Multimedia および en-US_Telephony モデル
ドイツ語 de-DE_Telephony モデル
カスティーリャ・スペイン語 es-ES_Telephony モデル

次世代モデルでは、現時点で speaker_labels パラメーターを interim_results パラメーターまたは low_latency パラメーターと一緒に使用することはサポートされていません。詳しくは、話者ラベルを参照してください。

次世代モデルで word_confidence を使用するための新規 HTTP エラー・コード

word_confidence パラメーターは、次世代モデルでの使用はサポートされていません。音声認識用の次世代モデルで word_confidence パラメーターを使用すると、サービスから以下の 400 エラー・コードが返されるようになりました。

{
  "error": "word_confidence is not a supported feature for model {model}",
  "code": 400,
  "code_description": "Bad Request"
}

2021 年 4 月 12 日

新しいベータ版の次世代言語モデルと low_latency パラメーター

このサービスは、ますます多くの次世代言語モデルをサポートしています。次世代のマルチメディア・モデルおよびテレフォニー・モデルは、サービスの前世代の広帯域モデルと狭帯域モデルの音声認識機能を向上させます。新しいモデルは、深いニューラル・ネットワークと双方向分析を活用して、スループットと書き起こしの正確度の両方を向上させます。現時点では、次世代モデルは限られた数の言語と音声認識機能のみをサポートします。サポートされる言語、モデル、および機能は、将来のリリースで増加します。次世代モデルはベータ機能です。

次世代モデルの多くは、新しい low_latency パラメーターもサポートしています。このパラメーターを使用すると、書き起こしの品質が低下する可能性がありますが、より迅速な結果を要求することができます。低遅延が有効になっている場合、サービスは音声の分析を削減します。これにより、書き起こしの正確度を低下させることができます。このトレードオフは、アプリケーションが必要とする応答時間が、可能な限り高い正確度よりも短い場合に許容される可能性があります。low_latency パラメーターはベータ機能です。

low_latency パラメーターは、WebSocket インターフェースでの interim_results パラメーターの使用に影響します。中間結果は、interim_results と low_latency パラメーターの両方が true に設定されている場合に限り、低遅延をサポートする次世代モデルでのみ使用可能です。

次世代モデルとその機能について詳しくは、次世代の言語とモデルを参照してください。
次世代モデルの言語サポートについて、およびどの次世代モデルが低遅延をサポートするかについて詳しくは、サポートされる次世代言語モデルを参照してください。
次世代モデルの機能サポートの詳細については、次世代モデルのサポート機能を参照してください。
low_latency パラメーターについて詳しくは、低遅延を参照してください。
次世代モデルの low_latency と interim_results パラメーターの相互作用について詳しくは、中間結果および低遅延の要求を参照してください。

2021 年 3 月 17 日

不具合修正：非同期 HTTP インターフェイスの制限を修正しました: 問題点の修正: 2020 年 12 月 16 日にダラス (us-south) のロケーションで非同期 HTTP インターフェースに関して報告された制限について説明しました。以前は、ジョブのごく一部が、実行を防止する無限ループに入りました。ダラス・データ・センターの非同期 HTTP 要求では、この制限がなくなりました。

2020 年 12 月 2 日

アラビア語モデルの名前を ar-MS_BroadbandModel に変更する: アラビア語広帯域モデルの名前が ar-MS_BroadbandModel になりました。以前の名前ar-AR_BroadbandModelは推奨されません。少なくとも 1 年間は機能し続けますが、将来の日付で削除される可能性があります。できるだけ早く新しい名前に移行することをお勧めします。

2020 年 11 月 2 日

カナダ・フランス語モデルが一般出荷可能になりました

カナダ・フランス語モデル (fr-CA_BroadbandModel および fr-CA_NarrowbandModel) が一般出荷可能 (GA) になりました。以前はベータ版でした。また、言語モデル・カスタマイズと音響モデル・カスタマイズもサポートするようになりました。

サポートされる言語およびモデルについて詳しくは、前世代の言語とモデルを参照してください。
各言語でのカスタマイズのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

2020 年 10 月 22 日

オーストラリア英語モデルが一般出荷可能になりました

オーストラリア英語モデル (en-AU_BroadbandModel および en-AU_NarrowbandModel) が一般出荷可能 (GA) になりました。以前はベータ版でした。また、言語モデル・カスタマイズと音響モデル・カスタマイズもサポートするようになりました。

サポートされる言語およびモデルについて詳しくは、前世代の言語とモデルを参照してください。
各言語でのカスタマイズのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

音声認識を改善するためのブラジル・ポルトガル語モデルの更新

ブラジル・ポルトガル語のモデル (pt-BR_BroadbandModel および pt-BR_NarrowbandModel) が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての音声認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

split_transcript_at_phrase_end パラメーターは、すべての言語で一般出荷可能になりました

音声認識パラメーター split_transcript_at_phrase_end が、すべての言語で一般出荷可能 (GA) になりました。以前は、米国英語と英国英語でのみ一般出荷可能でした。詳しくは、句の終わりでの書き起こしの分割を参照してください。

2020 年 10 月 7 日

音声認識を改善するための日本語広帯域モデルの更新

ja-JP_BroadbandModel モデルが更新され、音声認識が改善されました。デフォルトでは、サービスはすべての音声認識要求に対して更新されたモデルを自動的に使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

2020 年 9 月 30 日

サービスの料金プランの更新

サービスの料金プランが変更されました。

このサービスでは、月ごとに限定された分数の音声認識への基本的な無料アクセスを提供するライト・プランが引き続き提供されます。
このサービスは、単純な段階的な価格設定モデルと、サービスのカスタマイズ機能へのアクセスを提供する新しいプラス・プランを提供します。
このサービスは、非常に大きな容量と拡張機能を提供する新しいプレミアム・プランを提供します。

標準プランの代わりにプラス・プランが使用されます。標準プランは、短期間で引き続き購入できます。また、プランの既存のユーザーは、価格設定を変更することなく、引き続き無期限に使用可能です。既存のユーザーはいつでもプラス・プランにアップグレードできます。

使用可能な料金プランについて詳しくは、以下のリソースを参照してください。

料金プランの一般情報と一般質問への回答については、料金設定に関する FAQ を参照してください。
料金プランの詳細、またはプランの購入については、 IBM Cloud® カタログの Speech to Text サービスをご覧ください。

2020 年 8 月 20 日

新しいカナダ・フランス語モデル

カナダ・フランス語の広帯域モデルと狭帯域モデルのベータ版の提供が開始されました。

fr-CA_BroadbandModel
fr-CA_NarrowbandModel

新しいモデルでは、言語モデルまたは音響モデルのカスタマイズ、話者ラベル、スマート・フォーマット設定をサポートしていません。これらのモデルおよびサポートされるすべてのモデルについて詳しくは、サポートされる前世代言語モデルを参照してください。

2020 年 8 月 5 日

新しいオーストラリア英語モデル

オーストラリア英語の広帯域モデルと狭帯域モデルのベータ版の提供が開始されました。

en-AU_BroadbandModel
en-AU_NarrowbandModel

新しいモデルでは、言語モデルまたは音響モデルのカスタマイズとスマート・フォーマット設定をサポートしていません。話者ラベルは新しいモデルでサポートされています。詳しくは、以下を参照してください

音声認識を改善するための複数のモデルの更新

以下のモデルが更新され、音声認識が改善されました。

フランス語広帯域モデル (fr-FR_BroadbandModel)
ドイツ語の広帯域 (de-DE_BroadbandModel) モデルと狭帯域 (de-DE_NarrowbandModel) モデル
英国英語の広帯域 (en-GB_BroadbandModel) モデルと狭帯域 (en-GB_NarrowbandModel) モデル
米国英語の短形式狭帯域 (en-US_ShortForm_NarrowbandModel) モデル

デフォルトでは、サービスはすべての音声認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

ドイツ語の言い淀みマーカーが変更されました

更新されたドイツ語の広帯域モデルと狭帯域モデルに使用される言い淀みマーカーが、[hesitation] から %HESITATION に変更されました。詳しくは、 Speech hesitations and hesitation marker を参照してください。

2020 年 6 月 4 日

不具合修正：多数の文法を持つカスタム言語モデルの待ち時間を改善: 問題点の修正: 多数の文法が含まれているカスタム言語モデルの待ち時間の問題が解決されました。このようなカスタム・モデルが音声認識に最初に使用されるときに、読み込みに数秒かかることがありました。カスタム・モデルの読み込みが大幅に速くなり、認識に使用される際の待ち時間が大きく短縮されました。

2020 年 4 月 28 日

音声認識を改善するためのイタリア語モデルの更新

イタリア語の広帯域 (it-IT_BroadbandModel) と狭帯域 (it-IT_NarrowbandModel) のモデルが更新され、音声認識が改善されました。デフォルトでは、サービスはすべての音声認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

オランダ語とイタリア語のモデルが一般出荷可能になりました

オランダ語とイタリア語のモデルで、音声認識および言語モデルと音響モデルのカスタマイズの一般提供 (GA) が開始されました。

オランダ語広帯域モデル (nl-NL_BroadbandModel)
オランダ語狭帯域モデル (nl-NL_NarrowbandModel)
イタリア語広帯域モデル (it-IT_BroadbandModel)
イタリア語狭帯域モデル (it-IT_NarrowbandModel)

提供されているすべての言語モデルについて詳しくは、以下を参照してください。

2020 年 4 月 1 日

音響モデル・カスタマイズが一般出荷可能になりました

サポートされているすべての言語で、音響モデルのカスタマイズの一般提供 (GA) が開始されました。カスタム言語モデルと同様に、IBM は、カスタム音響モデルの作成やホスティングについては料金を請求しません。音声認識要求でカスタム・モデルが使用された場合にのみ、料金を請求します。

カスタム言語モデル、カスタム音響モデル、またはその両方のタイプのモデルを書き起こしで使用すると、1 分あたり $0.03 (米ドル) の追加料金が発生します。この料金は、1 分あたり $0.02 (米ドル) という標準使用料とは別に請求されます。また、カスタマイズ・インターフェースでサポートされているすべての言語に適用されます。したがって、1 つ以上のカスタム・モデルを音声認識で使用した場合の料金の総額は、1 分あたり $0.05 (米ドル) になります。

個々の言語モデルのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。
価格設定について詳しくは、 Speech to Text サービスの価格設定ページ、または価格設定の FAQ を参照してください。

2020 年 3 月 16 日

ドイツ語と韓国語で話者ラベルがサポートされるようになりました: ドイツ語および韓国語の言語モデルの話者ラベル (speaker_labels パラメーター) がサポートされるようになりました。話者ラベルは、どの個人が多重参加者交換でどの単語を話したかを識別します。詳しくは、話者ラベルを参照してください。
非同期 HTTP インターフェースで Activity Tracker がサポートされるようになりました: サービスで、非同期 HTTP インターフェースのすべての操作に対する Activity Tracker イベントの使用がサポートされるようになりました。IBM Cloud Activity Tracker は、IBM Cloud® 内のサービスの状態を変更するユーザー開始アクティビティーを記録します。詳しくは、Activity Tracker イベントを参照してください。

2020 年 2 月 24 日

音声認識を改善するための複数のモデルの更新

以下のモデルが更新され、音声認識が改善されました。

オランダ語広帯域モデル (nl-NL_BroadbandModel)
オランダ語狭帯域モデル (nl-NL_NarrowbandModel)
イタリア語広帯域モデル (it-IT_BroadbandModel)
イタリア語狭帯域モデル (it-IT_NarrowbandModel)
日本語狭帯域モデル (ja-JP_NarrowbandModel)
米国英語広帯域モデル (en-US_BroadbandModel)

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

言語モデル・カスタマイズがオランダ語とイタリア語で使用可能になりました

以下のモデルの新規バージョンで、言語モデル・カスタマイズがオランダ語およびイタリア語でサポートされるようになりました。

オランダ語広帯域モデル (nl-NL_BroadbandModel)
オランダ語狭帯域モデル (nl-NL_NarrowbandModel)
イタリア語広帯域モデル (it-IT_BroadbandModel)
イタリア語狭帯域モデル (it-IT_NarrowbandModel)

詳しくは、以下を参照してください

オランダ語とイタリア語のモデルはベータ版であるため、言語モデルのカスタマイズのサポートもベータ版です。

日本語の狭帯域モデルにいくつかのマルチグラム単語単位が含まれるようになりました

日本語の狭帯域モデル (ja-JP_NarrowbandModel) に、数字と小数を表すマルチグラムの単語単位がいくつか含められました。スマート・フォーマット設定を有効にするかどうかに関係なく、サービスはこれらのマルチグラム単位を返します。スマート・フォーマット設定機能は、モデルが生成したマルチグラム単位を理解して返します。独自の後処理を書き起こしの結果に適用する場合は、このような単位を適切に処理する必要があります。詳しくは、スマート・フォーマット設定の資料の日本語を参照してください。

音声認識用の新しい発話区間検出パラメーターとバックグラウンド音声抑止パラメーター

発話区間検出のレベルを制御するために 2 つの新しいオプション・パラメーターが追加されました。これらのパラメーターにより、目的の音声のみを音声認識の対象として処理できるようになります。

speech_detector_sensitivity パラメーターは、発話区間検出の感度を調整します。このパラメーターを使用して、音楽や咳などの発話以外のイベントによる単語の挿入を抑制できます。
background_audio_suppression パラメーターは、背景音声を音量に応じて除去することで、背景音声が書き起こされたり音声認識を阻害したりしないようにします。このパラメーターを使用して、周囲の会話や背景ノイズを抑制できます。

これらのパラメーターは、個別に使用することも一緒に使用することもできます。これらは、すべてのインターフェース、およびほとんどの言語モデルで使用できます。各パラメーター、指定可能な値、およびパラメーターが音声認識の品質と待ち時間に与える影響について詳しくは、発話区間検出を参照してください。

カスタマイズ・インターフェースで Activity Tracker がサポートされるようになりました

サービスで、すべてのカスタマイズ操作の Activity Tracker イベントの使用がサポートされるようになりました。IBM Cloud Activity Tracker は、IBM Cloud 内のサービスの状態を変更するユーザー開始アクティビティーを記録します。このサービスを使用して、異常なアクティビティーや重大なアクションを調査し、法規上の監査要件に準拠することができます。さらに、アクションが発生した際にそれに関するアラートを通知させるようにできます。詳しくは、 Activity Tracker イベントを参照してください。

問題点の修正: WebSocket インターフェースを使用した処理メトリックの正しい生成

問題点の修正: WebSocket インターフェースは、処理メトリックの生成時にシームレスに機能するようになりました。以前は、クライアントがサービスに stop メッセージを送信した後も、処理メトリックの送信が続けられる場合がありました。

2019 年 12 月 18 日

新しいベータ版のイタリア語モデルが使用可能

イタリア語の広帯域モデルと狭帯域モデルのベータ版の提供が開始されました。

it-IT_BroadbandModel
it-IT_NarrowbandModel

これらの言語モデルでは音響モデルのカスタマイズがサポートされます。言語モデルのカスタマイズはサポートされません。これらのモデルはベータ版であるため、実動使用向けに対応しておらず、変更される可能性があります。これらは初回オファリングであり、今後の時間の経過と使用に伴い品質が向上することが期待されています。

詳しくは、以下のセクションを参照してください。

音声認識用の新しい end_of_phrase_silence_time パラメーター

音声認識で end_of_phrase_silence_time パラメーターがサポートされるようになりました。このパラメーターで指定した休止間隔の時間を過ぎると、サービスは書き起こしを複数の最終結果に分割します。最終結果ごとに、休止間隔を超えた休止または長い無音が示されます。ほとんどの言語では、デフォルトの休止間隔は 0.8 秒です。中国語の場合、デフォルトの間隔は 0.6 秒です。

このパラメーターを使用して、最終結果の生成頻度と書き起こしの正確度のトレードオフを制御できます。待ち時間よりも正確度が重要な場合は、間隔を長くしてください。話者が短い句または単一語を発話することが予想される場合は、間隔を短くしてください。

詳しくは、句の終わりの無音時間を参照してください。

音声認識用の新しい split_transcript_at_phrase_end パラメーター

音声認識で split_transcript_at_phrase_end パラメーターがサポートされるようになりました。このパラメーターは、入力の意味素性に基づいて、文の終わりなどで書き起こしを複数の最終結果に分割するようにサービスに指示します。サービスの意味素性の理解性能は、要求で使用する基本言語モデルがベースになります。カスタム言語モデルおよび文法も、書き起こしを分割する方法と場所に影響を与えることがあります。

このパラメーターを指定すると、最終結果ごとに、分割した理由 (end_of_utterance、full_stop、silence 、または end_of_data) を示す reset フィールドが追加されます。

詳しくは、句の終わりでの書き起こしの分割を参照してください。

2019 年 12 月 12 日

IBM Cloud IAM の完全サポート

Speech to Text サービスで、IBM Cloud の ID およびアクセス管理 (IAM) の完全実装がサポートされるようになりました。 IBM Watson® サービスの API キーは、単一のサービス・インスタンスに制限されなくなりました。複数のサービスに適用されるアクセス・ポリシーと API キーを作成でき、ユーザーはサービス間のアクセス権限を付与することができます。 IAM について詳しくは、Watson サービスに対する認証を参照してください。

この変更をサポートするために、API サービス・エンドポイントには、それぞれに別のドメインが使用され、サービス・インスタンス ID が含まれるようになりました。パターンは api.{location}.speech-to-text.watson.cloud.ibm.com/instances/{instance_id} です。

ダラス・ロケーションでホストされるインスタンスの HTTP URL の例:

https://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2
ダラス・ロケーションでホストされるインスタンスの WebSocket URL の例:

wss://api.us-south.speech-to-text.watson.cloud.ibm.com/instances/6bbda3b3-d572-45e1-8c54-22d6ed9e52c2

URLの詳細については、 API & SDKリファレンスを参照してください。

これらの URL を使用しても破壊的な変更にはなりません。新規 URL は、既存のサービス・インスタンスにも新規インスタンスにも使用できます。元の URL は、少なくとも 1 年間 (2020 年 12 月まで)、既存のサービス・インスタンスに使用できます。

使用可能な新しいネットワーク機能とデータ・セキュリティー機能

以下の新しいネットワークおよびデータ・セキュリティ機能がサポートされました：

プライベート・ネットワーク・エンドポイントのサポート

プレミアム・プランのユーザーは、プライベート・ネットワーク・エンドポイントを作成して、プライベート・ネットワークを介して Speech to Text サービスに接続できます。プライベート・ネットワーク・エンドポイントへの接続は、パブリック・インターネット・アクセスを必要としません。詳しくは、パブリック・ネットワークおよびプライベート・ネットワークのエンドポイントを参照してください。

2019 年 12 月 10 日

新しいベータ版のオランダ・オランダ語モデルが使用可能

このサービスは、オランダ・オランダ語用のベータ版の広帯域モデルと狭帯域モデルを提供するようになりました。

nl-NL_BroadbandModel
nl-NL_NarrowbandModel

詳しくは、以下のセクションを参照してください。

2019 年 11 月 25 日

個々の話者の識別を改善するための話者ラベルの更新: 話者ラベルが更新されて個々の話者を識別しやすくなり、音声サンプルをより詳しく分析できるようになりました。話者ラベルの機能について詳しくは、話者ラベルを参照してください。機能の改善に関する詳細は、 IBM Research AI Advances Speaker Diarization in Real Use Casesを参照。

2019 年 11 月 12 日

新しいソウル・ロケーションが使用可能になりました: Speech to Text サービスが IBM Cloud ソウル・ロケーション (kr-seo) で使用可能になりました。他のロケーションと同様に、IBM Cloud ロケーションでも、トークン・ベースの IAM 認証が使用されます。このロケーションで作成するすべての新規サービス・インスタンスで、IAM 認証が使用されます。

2019 年 11 月 1 日

カスタム・モデルの最大数に関する新しい制限: 所有する資格情報ごとに、作成できるカスタム言語モデルの最大数は 1024 で、カスタム音響モデルの最大数は 1024 です。詳しくは、カスタム・モデルの最大数を参照してください。

2019 年 10 月 1 日

ワシントン DC ロケーションでのプレミアム・プランに対する新しい米国 HIPAA サポート: US HIPAA サポートは、ワシントン DC (us-east) ロケーションでホストされ、2019 年 4 月 1 日以降に作成されるプレミアム・プランで使用可能です。詳しくは、米国における医療保険の積算と責任に関する法律 (HIPAA) を参照してください。

2019年 8 月 22 日

問題点の修正: 複数の小さな改善点: 細かい不良修正と改善のための更新が行われました。

2019 年 7 月 30 日

スペイン語方言の新しいモデルが使用可能になりました

このサービスは、6 種類のスペイン語方言で広帯域言語モデルと狭帯域言語モデルを提供するようになりました。

スペイン語 (アルゼンチン) (es-AR_BroadbandModel および es-AR_NarrowbandModel)
スペイン語 (カスティリャ語) (es-ES_BroadbandModel および es-ES_NarrowbandModel)
スペイン語 (チリ) (es-CL_BroadbandModel および es-CL_NarrowbandModel)
スペイン語 (コロンビア) (es-CO_BroadbandModel および es-CO_NarrowbandModel)
スペイン語 (メキシコ) (es-MX_BroadbandModel および es-MX_NarrowbandModel)
スペイン語 (ペルー) (es-PE_BroadbandModel および es-PE_NarrowbandModel)

カスティリャ・スペイン語モデルは新機能ではありません。それらは、音声認識および言語モデル・カスタマイズの場合は一般出荷可能 (GA) であり、音響モデル・カスタマイズの場合はベータ版です。

その他の 5 つの方言は新機能であり、すべての用途でベータ版です。これらの追加方言はベータ版であるため、実動使用向けに対応しておらず、変更される可能性があります。これらは初回オファリングであり、今後の時間の経過と使用に伴い品質が向上することが期待されています。

詳しくは、以下のセクションを参照してください。

2019 年 6 月 24 日

音声認識を改善するためのブラジル・ポルトガル語および米国英語モデルの更新

以下の狭帯域モデルが更新され、音声認識が改善されました。

ブラジル・ポルトガル語狭帯域モデル (pt-BR_NarrowbandModel)
米国英語狭帯域モデル (en-US_NarrowbandModel)

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

異なるカスタム音響モデルを更新するための同時要求の新規サポート

このサービスでは、1 つのカスタム音響モデルに異なる音声リソースを追加する複数の同時要求を送信できるようになりました。以前は、音声をカスタム・モデルに追加する要求は一度に 1 つのみ送信できました。

カスタム・モデルをリストするメソッド用の新しい updated フィールド

カスタム言語とカスタム音響モデルに関する情報をリストする HTTP GET メソッドの出力に、updated フィールドが追加されました。このフィールドは、カスタム・モデルの最終変更日時 (協定世界時、UTC) を示します。

カスタム・モデル・トレーニングに関連する警告のスキーマの変更

strict パラメーターが false に設定されている場合にカスタム・モデル・トレーニング要求により生成される警告について、スキーマが変更されました。フィールド名 warning_id が description に、code が message にそれぞれ変更されました。詳しくは、 API & SDK リファレンスを参照してください。

2019 年 6 月 10 日

同期 HTTP インターフェースでは使用できない処理メトリック: 処理メトリックは、WebSocket インターフェースおよび非同期 HTTP インターフェースでのみ使用可能です。同期 HTTP インターフェースではサポートされていません。詳しくは、処理メトリックを参照してください。

2019 年 5 月 17 日

音声認識のための新しい処理メトリック機能と音声メトリック機能

サービスは、音声認識要求の 2 つのオプション・メトリックを提供するようになりました。

処理メトリックは、このサービスによる入力音声分析に関する詳細なタイミング情報を提供します。サービスは、指定された間隔で、中間結果や最終結果などの書き起こしイベントと一緒にメトリックを返します。このメトリックを使用して、サービスによる音声書き起こしの進行状況を測定します。
音声メトリックは、入力音声の信号特性に関する詳細情報を提供します。音声処理終了時に入力音声全体の集約メトリックが結果で示されます。このメトリックを使用して、音声の特性と品質を判別します。

音声認識要求でこの両方のメトリックを要求できます。デフォルトでは、サービスは要求に対しメトリックを返しません。

音声認識を改善するための日本語広帯域モデルの更新

日本語広帯域モデル (ja-JP_BroadbandModel) が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての音声認識要求に対して更新されたモデルを自動的に使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

2019 年 5 月 10 日

音声認識を改善するためのスペイン語モデルの更新

スペイン語の言語モデルが更新され、音声認識が改善されました。

es-ES_BroadbandModel
es-ES_NarrowbandModel

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

2019 年 4 月 19 日

カスタム・モデル・トレーニング用の新しい strict パラメーターが使用可能になりました

カスタマイズ・インターフェースのトレーニング・メソッドに strict 照会パラメーターが追加されました。このパラメーターは、カスタム・モデルに有効なリソースと無効なリソースが混在している場合にトレーニングを続行するかどうかを指定します。デフォルトでは、カスタム・モデルに 1 つ以上の無効なリソースが含まれている場合、トレーニングは失敗します。モデルに少なくとも 1 つの有効なリソースが含まれている場合にトレーニングを続行できるようにするには、このパラメーターを false に設定します。サービスにより無効なリソースはトレーニングから除外されます。

strict メソッドで POST /v1/customizations/{customization_id}/train パラメーターを使用する方法について詳しくは、カスタム言語モデルのトレーニングとトレーニングの失敗を参照してください。
strict メソッドで POST /v1/acoustic_customizations/{customization_id}/train パラメーターを使用する方法について詳しくは、カスタム音響モデルのトレーニングとトレーニングの失敗を参照してください。

カスタム言語モデルの語彙外単語の最大数に関する新しい制限

カスタム言語モデルの単語リソースに、最大で 9 万語の未知 (OOV) 語を追加できるようになりました。以前の最大 OOV 語数は 3 万語でした。この数には、すべてのソース (コーパス、文法、および直接追加した個々のカスタム単語) からの OOV 語が含まれます。カスタム・モデルには、すべてのソースから最大で合計 1,000 万の単語を追加できます。詳しくは、必要なデータ量を参照してください。

2019 年 4 月 3 日

カスタム音響モデルの音声の最大量に関する新しい制限: カスタム音響モデルで最大 200 時間の音声が受け入れられるようになりました。以前の最大限度は 100 時間の音声でした。

2019 年 3 月 21 日

サービス資格情報の可視性が役割によって制限されるようになりました

ユーザーが、IBM Cloud アカウントに割り当てられている役割に関連付けられているサービス資格情報のみを表示できるようになりました。例えば、reader 役割が割り当てられている場合、writer 以上のレベルのサービス資格情報は表示されなくなりました。

この変更は、既存のサービス資格情報を使用したユーザーまたはアプリケーションの API アクセスには影響を与えません。この変更は IBM Cloud 内での資格情報の表示にのみ影響を与えます。

2019 年 3 月 15 日

A-law 音声フォーマットの新規サポート: サービスで A-law (audio/alaw) フォーマットの音声がサポートされるようになりました。詳しくは、audio/alaw フォーマットを参照してください。

2019 年 3 月 11 日

max_alternatives パラメーターの 0 の引き渡し値への変更: max_alternatives パラメーターの場合、サービスは再度 0 の値を受け入れます。 0を指定すると、サービスは自動的にデフォルト値 1 を使用します。 3 月 4 日のサービス更新での変更によって、値 0 に対してエラーが返されるようになりました。 (負の値を指定すると、エラーが返されます。)
word_alternatives_threshold パラメーターの 0 の引き渡し値への変更: サービスで word_alternatives_threshold パラメーターの値 0 が再び受け入れられます。 3 月 4 日のサービス更新での変更によって、値 0 に対してエラーが返されるようになりました。 (負の値を指定すると、エラーが返されます。)
信頼度スコアの最大精度に関する新しい制限: サービスによって、小数点以下が 2 桁の最大精度ですべての信頼度スコアが返されるようになりました。この変更には、書き起こし、単語の信頼度、単語候補、キーワードの結果、および話者ラベルの信頼度スコアが含まれます。

2019 年 3 月 4 日

音声認識を改善するためのブラジル・ポルトガル語、フランス語、およびスペイン語の狭帯域モデルの更新

以下の狭帯域言語モデルが更新され、音声認識が改善されました。

ブラジル・ポルトガル語狭帯域モデル (pt-BR_NarrowbandModel)
フランス語モデル (fr-FR_NarrowbandModel)
スペイン語狭帯域モデル (es-ES_NarrowbandModel)

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

2019 年 1 月 28 日

WebSocket インターフェースによる IBM Cloud IAM の新規サポート

WebSocket インターフェースで、ブラウザー・ベースの JavaScript コードからのトークン・ベースの Identity and Access Management (IAM) 認証がサポートされるようになりました。反対の制限事項は除去されました。 WebSocket /v1/recognize メソッドを使用して、認証済み接続を確立するには、以下のようにします。

IAM 認証を使用する場合は、access_token クエリー・パラメーターを含めます。
Cloud Foundry サービス資格情報を使用する場合は、watson-token クエリー・パラメーターを含めます。

詳しくは、接続のオープンを参照してください。

2018 年 12 月 20 日

カスタム言語モデル用の新しいベータ版の文法機能が使用可能になりました

サービスで音声認識の文法がサポートされるようになりました。文法は、言語モデルのカスタマイズをサポートするすべての言語について、ベータ版の機能として使用できます。カスタム言語モデルに文法を追加し、音声からサービスが認識できる一連の句に限定するためにて使用できます。文法は、Augmented Backus-Naur Form (ABNF) または XML Form で定義できます。

文法の処理には、以下の 4 つのメソッドを使用できます。

POST /v1/customizations/{customization_id}/grammars/{grammar_name}。文法ファイルをカスタム言語モデルに追加します。
GET /v1/customizations/{customization_id}/grammars。カスタム・モデルのすべての文法に関する情報をリストします。
GET /v1/customizations/{customization_id}/grammars/{grammar_name}。カスタム・モデルの指定された文法に関する情報を返します。
DELETE /v1/customizations/{customization_id}/grammars/{grammar_name}。カスタム・モデルから既存の文法を削除します。

WebSocket インターフェースおよび HTTP インターフェースでの音声認識に文法を使用できます。 language_customization_id パラメーターおよび grammar_name パラメーターを使用して、使用するカスタム・モデルおよび文法を識別します。現在、音声認識要求には単一の文法のみを使用できます。

文法について詳しくは、以下の資料を参照してください。

インターフェースの全メソッドについては、 API & SDKリファレンスを参照のこと。

米国英語、日本語、および韓国語の新しい数値編集機能が使用可能になりました

新しい数値編集機能を使用して、連続する 3 桁以上の数値をマスクできるようになりました。編集機能の目的は、クレジット・カード番号などの機密性の高い個人情報を書き起こし結果から削除することです。この機能を有効にするには、認識要求で redaction パラメーターを true に設定します。この機能はベータ版の機能であり、米国英語、日本語、および韓国語のみで使用できます。詳しくは、数値の編集を参照してください。

新しいフランス語とドイツ語の狭帯域モデルが使用可能になりました

サービスで以下の新しいドイツ語およびフランス語の言語モデルを使用できるようになりました。

フランス語狭帯域モデル (fr-FR_NarrowbandModel)
ドイツ語狭帯域モデル (de-DE_NarrowbandModel)

新しいモデルは、両方とも言語モデル・カスタマイズ (GA) および音響モデル・カスタマイズ (ベータ版) をサポートします。詳しくは、各言語でのカスタマイズのサポートを参照してください。

新しい米国英語 en-US_ShortForm_NarrowbandModel が使用可能になりました

新しい米国英語の言語モデル en-US_ShortForm_NarrowbandModel を使用できるようになりました。この新しいモデルは、Interactive Voice Response ソリューションおよび Automated Customer Support ソリューションでの使用を目的としています。このモデルは、言語モデル・カスタマイズ (GA) および音響モデル・カスタマイズ (ベータ版) をサポートします。詳しくは、米国英語の短文式モデルを参照してください。

音声認識を改善するための英国英語とスペイン語の狭帯域モデルの更新

以下の言語モデルが更新され、音声認識が改善されました。

英国英語狭帯域モデル (en-GB_NarrowbandModel)
スペイン語狭帯域モデル (es-ES_NarrowbandModel)

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

G.279 音声フォーマットの新規サポート

サービスで G.729 (audio/g729) フォーマットの音声がサポートされるようになりました。サービスでは狭帯域音声の G.729 Annex D のみがサポートされます。詳しくは、audio/g729 フォーマットを参照してください。

英国英語狭帯域モデルで話者ラベル機能が使用可能になりました

話者ラベル機能は、英国英語 (en-GB_NarrowbandModel) 狭帯域モデルで使用できるようになりました。この機能は、サポートされるすべての言語のベータ機能です。詳しくは、話者ラベルを参照してください。

カスタム音響モデルの音声の最大量に関する新しい制限

カスタム音響モデルに追加できる音声の最大量が 50 時間から 100 時間に増加されました。

2018 年 12 月 13 日

新しいロンドン・ロケーションが使用可能になりました: Speech to Text サービスが IBM Cloud ロンドン・ロケーション (eu-gb) で使用可能になりました。すべてのロケーションと同様に、ロンドンでもトークンベースの IAM 認証を使用します。このロケーションで作成するすべての新規サービス・インスタンスで、IAM 認証が使用されます。

2018 年 11 月 12 日

日本語音声認識のスマート・フォーマット設定の新規サポート: サービスで日本語音声認識のスマート・フォーマット設定がサポートされるようになりました。以前は、米国英語とスペイン語に対するスマート・フォーマット設定のみがサポートされていました。この機能は、すべてのサポート対象言語でベータ版機能です。詳しくは、スマート・フォーマット設定を参照してください。

2018 年 11 月 7 日

新しい東京ロケーションが使用可能になりました: Speech to Text サービスが IBM Cloud 東京ロケーション (jp-tok) で使用可能になりました。すべてのロケーションと同様に、東京でもトークンベースの IAM 認証を使用します。このロケーションで作成するすべての新規サービス・インスタンスで、IAM 認証が使用されます。

2018 年 10 月 30 日

トークン・ベースの IBM Cloud IAM の新規サポート

Speech to Text サービスでは、すべてのロケーションでトークン・ベースの IAM 認証に移行しました。すべての IBM Cloud サービスが、IAM 認証を使用するようになりました。各ロケーションで Speech to Text サービスが以下の日付にマイグレーションされました。

ダラス (us-south): 2018 年 10 月 30 日
フランクフルト (eu-de): 2018 年 10 月 30 日
ワシントン DC (us-east): 2018 年 6 月 12 日
シドニー (au-syd): 2018 年 5 月 15 日

IAM 認証への移行による影響は、新規のサービス・インスタンスと既存のサービス・インスタンスとで異なります。

任意のロケーションで作成したすべての新規サービス・インスタンスが、IAM 認証を使用してサービスにアクセスするようになりました。ベアラー・トークンまたは API キーのいずれかを渡すことができます。トークンでは、認証済み要求がサポートされるので、呼び出すたびにサービス資格情報を埋め込む必要がありません。また、API キーでは HTTP 基本認証が使用されま用します。 Watson SDK を使用する場合は、API キーを渡して SDK にトークンのライフサイクルを管理させることができます。
示されているマイグレーション日付よりも前にロケーションで作成した既存のサービス・インスタンス では、IAM 認証を使用するようにマイグレーションするまで、引き続き以前の Cloud Foundry サービス資格情報からの {username} および {password} が認証に使用されます。

詳しくは、以下の資料を参照してください。

サービス・インスタンスが使用する認証メカニズムを知るには、 IBM Cloud ダッシュボードでインスタンスをクリックして、サービスの認証情報を表示します。
Watson サービスでの IAM トークンの使用について詳しくは、Watson サービスに対する認証を参照してください。
IAM 認証を使用する例については、 API & SDK リファレンスを参照してください。

2018 年 10 月 9 日

音声認識要求の料金設定の重要な更新

2018 年 10 月 1 日以降、音声認識のためにサービスに渡すすべての音声に対して課金されるようになりました。毎月送信する音声の最初の 1,000 分は無料ではなくなりました。サービスの料金プランの詳細については、 IBM Cloud カタログの Speech to Text サービスをご覧ください。

Content-Type ヘッダーは、ほとんどの音声認識要求でオプションになりました

Content-Type ヘッダーは、ほとんどの音声認識要求でオプションになりました。サービスでは、ほとんどの音声の音声フォーマット (MIME タイプ) が自動的に検出されるようになりました。引き続き以下のフォーマットのコンテンツ・タイプを指定する必要があります。

audio/basic
audio/l16
audio/mulaw

記載がある場合は、フォーマットに対して指定したコンテンツ・タイプにサンプリング・レートを含める必要があり、オプションでチャネル数および音声のエンディアンを含めることができます。その他すべての音声フォーマットの場合、コンテンツ・タイプを省略するか、または、コンテンツ・タイプ application/octet-stream を指定して、サービスによってフォーマットが自動検出されるようにすることができます。

curl コマンドを使用して HTTP インターフェースで音声認識要求を行う場合、Content-Type ヘッダーで音声フォーマットを指定するか、"Content-Type: application/octet-stream" または "Content-Type:" を指定する必要があります。ヘッダー全体を省略すると、curl はデフォルト値 application/x-www-form-urlencoded を使用します。この資料のほとんどの例では、必要かどうかに関係なく、引き続き、音声認識要求に対するフォーマットが指定されています。

この変更は以下のメソッドに適用されます。

WebSocket 要求の /v1/recognize。 WebSocket オープン接続を介して要求を開始するために送信するテキスト・メッセージの content-type フィールドがオプションになりました。
同期 HTTP 要求の POST /v1/recognize。 Content-Type ヘッダーがオプションになりました。 (マルチパートの要求の場合は、JSON メタデータの part_content_type フィールドもオプションになりました。)
非同期 HTTP 要求の POST /v1/recognitions。 Content-Type ヘッダーがオプションになりました。

詳しくは、音声フォーマットを参照してください。

音声認識を改善するためのブラジル・ポルトガル語の広帯域モデルの更新

ブラジル・ポルトガル語の広帯域モデル pt-BR_BroadbandModel が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

customization_id パラメーターの名前を language_customization_id に変更する

音声認識メソッドの customization_id パラメーターが非推奨となり、将来のリリースから削除されます。音声認識要求のカスタム言語モデルを指定するには、代わりに language_customization_id パラメーターを使用します。この変更は以下のメソッドに適用されます。

WebSocket 要求の /v1/recognize
同期 HTTP 要求の POST /v1/recognize (マルチパートの要求を含む)
非同期 HTTP 要求の POST /v1/recognitions

2018 年 9 月 10 日

新しいドイツ語の広帯域モデル

サービスでドイツ語の広帯域モデル de-DE_BroadbandModel がサポートされるようになりました。この新しいドイツ語モデルは、言語モデル・カスタマイズ (一般出荷可能) および音響モデル・カスタマイズ (ベータ版) をサポートします。

サービスによるドイツ語のコーパスの解析方法について詳しくは、オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語の解析を参照してください。
ドイツ語でのカスタム単語の同音異字発音の作成について詳しくは、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語のガイドラインを参照してください。

ブラジル・ポルトガル語で言語モデル・カスタマイズが使用可能になりました

既存のブラジル・ポルトガル語モデル pt-BR_BroadbandModel および pt-BR_NarrowbandModel で言語モデル・カスタマイズ (一般出荷可能) がサポートされるようになりました。このモデルはこのサポートを有効にするために更新されていないため、既存のカスタム音響モデルをアップグレードする必要がありません。

サービスによるブラジル・ポルトガル語のコーパスの解析方法について詳しくは、オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語の解析を参照してください。
ブラジル・ポルトガル語でのカスタム単語の同音異字発音の作成について詳しくは、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語のガイドラインを参照してください。

音声認識を改善するための米国英語および日本語モデルの更新

米国英語と日本語の広帯域モデルおよび狭帯域モデルの新しいバージョンを使用できます。

米国英語広帯域モデル (en-US_BroadbandModel)
米国英語狭帯域モデル (en-US_NarrowbandModel)
日本語広帯域モデル (ja-JP_BroadbandModel)
日本語狭帯域モデル (ja-JP_NarrowbandModel)

新しいモデルでは、音声認識が改善されました。デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

キーワード検出機能と単語候補機能が一般出荷可能になりました

キーワード検出機能と単語候補機能は、すべての言語についてベータ版機能ではなく一般出荷可能 (GA) になりました。詳しくは、以下を参照してください

問題点の修正: カスタマイズ・インターフェースの資料の改善

不具合の修正カスタマイズ・インターフェースに関連する以下の既知の問題は解決され、本番環境では修正されています。以下の情報は、過去に問題が発生した可能性があるユーザーのために保持されます。

カスタム言語モデルまたはカスタム音響モデルにデータを追加する場合は、モデルをリトレーニングしてから音声認識に使用する必要があります。問題は、以下のシナリオで発生します。
1. ユーザーが新しいカスタム・モデル (言語または音響) を作成し、そのモデルをトレーニングします。
2. ユーザーが追加のリソース (単語、コーパス、または音声) をカスタム・モデルに追加しますが、そのモデルをリトレーニングしません。
3. ユーザーが音声認識にカスタム・モデルを使用できません。音声認識要求で使用された場合にサービスが以下のフォームのエラーを返します。
```
{
  "code_description": "Bad Request",
  "code": 400,
  "error": "Requested custom language model is not available.
            Please make sure the custom model is trained."
}
```
この問題を回避するには、ユーザーがカスタム・モデルをその最新データでリトレーニングする必要があります。これにより、ユーザーは音声認識にカスタム・モデルを使用できます。
既存のカスタム言語モデルまたはカスタム音響モデルをトレーニングする前に、モデルをその基本モデルの最新バージョンにアップグレードする必要があります。問題は、以下のシナリオで発生します。
1. ユーザーが、更新されたモデルに基づく既存のカスタム・モデル (言語または音響) を持っています。
2. ユーザーが、最初に基本モデルの最新バージョンにアップグレードすることなく、基本モデルの古いバージョンに対して既存のカスタム・モデルをトレーニングします。
3. ユーザーが音声認識にカスタム・モデルを使用できません。
この問題を回避するには、ユーザーが POST /v1/customizations/{customization_id}/upgrade_model メソッドまたは POST /v1/acoustic_customizations/{customization_id}/upgrade_model メソッドを使用して、カスタム・モデルをその基本モデルの最新バージョンにアップグレードする必要があります。これにより、ユーザーは音声認識にカスタム・モデルを使用できます。

2018 年 9 月 7 日

セッション・ベースのインターフェースが使用できなくなりました

セッション・ベースの HTTP REST インターフェースがサポートされなくなりました。セッションに関連するすべての情報が資料から削除されました。以下のメソッドは使用できなくなりました。

POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}

アプリケーションでセッション・インターフェースが使用されている場合は、残りの HTTP REST インターフェースの 1 つまたは WebSocket インターフェースにマイグレーションする必要があります。詳しくは、2018 年 8 月 8 日のサービス更新を参照してください。

2018 年 8 月 8 日

セッション・ベースの音声認識インターフェースの非推奨通知

2018 年 8 月 8 日の時点でセッション・ベースの HTTP REST インターフェースが非推奨になります。 2018 年 9 月 7 日の時点でセッション API のすべてのメソッドがサービスから削除されます。その後、セッション・ベースのインターフェースは使用できなくなります。この即時非推奨化と 30 日後の削除の通知は、以下のメソッドに適用されます。

POST /v1/sessions
POST /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/recognize
GET /v1/sessions/{session_id}/observe_result
DELETE /v1/sessions/{session_id}

アプリケーションでセッション・インターフェースが使用されている場合は、9 月 7 日までに以下のいずれかのインターフェースにマイグレーションする必要があります。

ストリーム・ベースの音声認識 (ライブ使用の場合を含む) の場合は、中間結果にアクセスでき、待ち時間が最も短い WebSocket インターフェースを使用します。
ファイル・ベースの音声認識の場合は、以下のいずれかのインターフェースを使用します。
- 音声が数分以下の短いファイルの場合は、同期 HTTP インターフェース (POST /v1/recognize) または非同期 HTTP インターフェース (POST /v1/recognitions) を使用します。
- 音声が数分を超える長いファイルの場合は、非同期 HTTP インターフェースを使用します。非同期 HTTP インターフェースは、単一の要求で 1 GB までの音声データを受け入れます。

WebSocket インターフェースおよび HTTP インターフェースでは、セッション・インターフェースと同じ結果が提供されます (WebSocket インターフェースのみで中間結果が提供されます)。また、Watson SDK の 1 つを使用することもできます。これにより、任意のインターフェースでアプリケーション開発が簡素化されます。詳しくは、 API & SDK リファレンスを参照してください。

2018 年 7 月 13 日

音声認識を改善するためのスペイン語の狭帯域モデルの更新

スペイン語の狭帯域モデル es-ES_NarrowbandModel が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用してご使用のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

この更新の時点で、以下の 2 つのバージョンのスペイン語の狭帯域モデルを使用できます。

es_ES.8kHz.general.lm20180522235959.am20180522235959 (現在)
es_ES.8kHz.general.lm20180308235959.am20180308235959 (前へ)

以下のバージョンのモデルは使用できなくなりました。

es_ES.8kHz.general.lm20171031235959.am20171031235959

現在使用不可能な基本モデルに基づくカスタム・モデルの使用を試行する認識要求では、最新の基本モデルをカスタマイズせずに使用します。サービスから次の警告メッセージ (Using non-customized default base model, because your custom {type} model has been built with a version of the base model that is no longer supported.) が返されます。使用不可のモデルに基づくカスタム・モデルの使用を再開するには、前述の該当する upgrade_model メソッドを使用して、まずモデルをアップグレードする必要があります。

2018 年 6 月 12 日

ワシントン DC ロケーションでホストされるアプリケーションの新機能

ワシントン DC (us-east) でホストされているアプリケーションで以下の機能が有効になっています。

サービスでは、新しい API 認証プロセスがサポートされるようになりました。詳しくは、2018 年 10 月 30 日のサービス更新を参照してください。
サービスでは、X-Watson-Metadata ヘッダーおよび DELETE /v1/user_data メソッドがサポートされるようになりました。詳しくは、機密保護を参照してください。

2018 年 5 月 15 日

シドニー・ロケーションでホストされるアプリケーションの新機能

シドニー (au-syd) でホストされているアプリケーションで以下の機能が有効になっています。

サービスでは、新しい API 認証プロセスがサポートされるようになりました。詳しくは、2018 年 10 月 30 日のサービス更新を参照してください。
サービスでは、X-Watson-Metadata ヘッダーおよび DELETE /v1/user_data メソッドがサポートされるようになりました。詳しくは、機密保護を参照してください。

2018 年 3 月 26 日

フランス語広帯域モデルで言語モデル・カスタマイズが使用可能になりました

サービスでフランス語広帯域言語モデル fr-FR_BroadbandModel の言語モデル・カスタマイズがサポートされるようになりました。フランス語モデルは、言語モデル・カスタマイズによる実動使用のために一般出荷可能 (GA) です。

サービスによるフランス語のコーパスの解析方法について詳しくは、オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語の解析を参照してください。
フランス語でのカスタム単語の同音異字発音の作成について詳しくは、オランダ語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語のガイドラインを参照してください。

音声認識を改善するためのフランス語、韓国語、およびスペイン語モデルの更新

以下のモデルが更新され、音声認識が改善されました。

韓国語狭帯域モデル (ko-KR_NarrowbandModel)
スペイン語狭帯域モデル (es-ES_NarrowbandModel)
フランス語広帯域モデル (fr-FR_BroadbandModel)

デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。これらのモデルのいずれかに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用してご使用のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

version パラメーターの名前を base_model_version に変更する

以下のメソッドの version パラメーターの名前が base_model_version になりました。

WebSocket 要求の /v1/recognize
セッションなしの HTTP 要求の POST /v1/recognize
セッション・ベースの HTTP 要求の POST /v1/sessions
非同期 HTTP 要求の POST /v1/recognitions

base_model_version パラメーターは音声認識に使用される基本モデルのバージョンを指定します。詳しくは、音声認識のためのアップグレードされたカスタム・モデルの使用およびアップグレードされたカスタム・モデルを使用した音声認識要求の実行を参照してください。

スペイン語音声認識のスマート・フォーマット設定の新規サポート

スマート・フォーマット設定がスペイン語および米国英語でサポートされるようになりました。米国英語では、この機能によってキーワード・ストリングが句読点記号 (ピリオド、コンマ、疑問符、および感嘆符) に変換されるようにもなりました。詳しくは、スマート・フォーマット設定を参照してください。

2018 年 3 月 1 日

音声認識を改善するためのフランス語およびスペイン語広帯域モデルの更新

フランス語およびスペイン語の広帯域モデル (fr-FR_BroadbandModel および es-ES_BroadbandModel) が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。これらのモデルのいずれかに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用してご使用のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。このセクションでは、カスタム・モデルのアップグレードのルール、アップグレードの影響、およびアップグレードされたモデルの使用方法が示されます。

2018 年 2 月 1 日

新しい韓国語モデル

このサービスでは、韓国語の言語モデルが提供されるようになりました。最小 16 kHz でサンプリングされた音声の場合は ko-KR_BroadbandModel、最小 8 kHz でサンプリングされた音声の場合は ko-KR_NarrowbandModel です。詳しくは、前世代の言語とモデルを参照してください。

言語モデル・カスタマイズの場合、韓国語モデルは実動使用のために一般出荷可能 (GA) です。音響モデル・カスタマイズの場合、韓国語モデルはベータ機能です。詳しくは、各言語でのカスタマイズのサポートを参照してください。

サービスによる韓国語のコーパスの解析方法について詳しくは、韓国語の解析を参照してください。
韓国語でのカスタム単語の同音異字発音の作成について詳しくは、韓国語のガイドラインを参照してください。

2017 年 12 月 14 日

言語モデル・カスタマイズが一般出荷可能になりました

言語モデル・カスタマイズおよびすべての関連パラメーターが、すべてのサポート対象言語 (日本語、スペイン語、英国英語、米国英語) で一般出荷可能 (GA) になりました。

すべての言語でベータ版の音響モデル・カスタマイズが使用可能になりました

サービスでは、すべての使用可能な言語で音響モデル・カスタマイズがベータ版機能としてサポートされるようになりました。すべての言語の広帯域モデルおよび狭帯域モデルのカスタム音響モデルを作成できます。音響モデル・カスタマイズを含むカスタマイズの概要については、カスタマイズについてを参照してください。

音声認識用の新しい version パラメーター

認識要求を行うためのさまざまなメソッドに、基本モデルとカスタム・モデルの古いバージョンまたはアップグレードされたバージョンのいずれかを使用する要求を開始するために使用できる新しい version パラメーターが含まれるようになりました。これは主にアップグレードされたカスタム・モデルで使用するためのものですが、version パラメーターはカスタム・モデルなしでも使用できます。詳しくは、アップグレードされたカスタム・モデルを使用した音声認識要求の実行を参照してください。

音声認識を改善するための米国英語モデルの更新

米国英語モデル en-US_BroadbandModel および en-US_NarrowbandModel が更新され、音声認識が改善されました。デフォルトでは、サービスはすべての認識要求に対して自動的に更新されたモデルを使用します。米国英語モデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用してご使用のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

手順について詳しくは、カスタム・モデルのアップグレードを参照してください。このセクションでは、カスタム・モデルのアップグレードのルール、アップグレードの影響、およびアップグレードされたモデルの使用方法が示されます。現在、このメソッドは新しい米国英語基本モデルにのみ適用されます。ただし、他の基本モデルのアップグレードが使用可能になったときにも、同じ情報が適用されます。

英国英語で言語モデル・カスタマイズが使用可能になりました

サービスでは、英国英語モデル en-GB_BroadbandModel および en-GB_NarrowbandModel の言語モデル・カスタマイズがサポートされるようになりました。サービスでは、英国英語と米国英語のコーパスおよびカスタム単語が概ね類似した方法で処理されますが、重要な相違点がいくつかあります。

サービスによる英国英語のコーパスの解析方法について詳しくは、オランダ語、英語、フランス語、ドイツ語、イタリア語、ポルトガル語、およびスペイン語の解析を参照してください。
英国英語でのカスタム単語の同音異字発音の作成について詳しくは、英語のガイドラインを参照してください。特に、英国英語では同音異字発音にピリオドやダッシュを使用することはできません。

2017 年 10 月 2 日

米国英語、日本語、およびスペイン語用の新しいベータ版の音響モデル・カスタマイズ・インターフェース

カスタマイズ・インターフェースで、音響モデル・カスタマイズが提供されるようになりました。サービスの基本モデルをサービス環境および話者に適合させるカスタム音響モデルを作成できます。書き起こそうとする音声の音響的特性に対する一致度がより高い音声のカスタム音響モデルを取り込み、トレーニングします。その後、認証要求でカスタム音響モデルを使用して、音声認識の正確度を高めます。

カスタム音響モデルはカスタム言語モデルを補完します。カスタム言語モデルでカスタム音響モデルをトレーニングし、音声認識中に両方のタイプのモデルを使用できます。音響モデル・カスタマイズは、米国英語、日本語、およびスペイン語でのみ使用可能なベータ版のインターフェースです。

カスタマイズ・インターフェースでサポートされる言語および各言語に使用可能なサポートのレベルについて詳しくは、各言語でのカスタマイズのサポートを参照してください。
サービスのカスタマイズ・インターフェースについて詳しくは、カスタマイズについてを参照してください。
カスタム音響モデルの作成について詳しくは、カスタム音響モデルの作成を参照してください。
カスタム音響モデルの使用について詳しくは、音声認識にカスタム音響モデルの使用を参照してください。
カスタマイズ・インターフェースのすべてのメソッドの詳細については、 API & SDKリファレンスを参照してください。

カスタム言語モデル用の新しいベータ版の customization_weight パラメーター

言語モデル・カスタマイズについて、サービスに、カスタム言語モデルにオプションのカスタマイズの重み付けを設定するベータ版機能が含まれるようになりました。カスタマイズの重み付けは、カスタム言語モデルの単語とサービスの基本語彙の単語に付与される相対的重み付けを指定します。トレーニング中および音声認識中の両方でカスタマイズの重み付けを設定できます。詳しくは、カスタマイズの重み付けの使用を参照してください。

音声認識を改善するための日本語広帯域モデルの更新

ja-JP_BroadbandModel 言語モデルが基本モデルの改善を反映してアップグレードされました。このアップグレードは、このモデルに基づく既存のカスタム・モデルには影響を与えません。

audio/l16 音声フォーマット用の新しい endianness パラメーター

サービスに、audio/l16 (16 ビットのリニア PCM (Pulse-Code Modulation)) フォーマットで送信された音声のエンディアンを指定するパラメーターが含まれるようになりました。このフォーマットで rate パラメーターおよび channels パラメーターを指定する以外に、big-endian パラメーターで little-endian または endianness を指定できるようになりました。詳しくは、audio/l16 フォーマットを参照してください。

2017 年 7 月 14 日

MP3 (MPEG) 音声フォーマットの新規サポート

サービスで、MP3 フォーマットや Motion Picture Experts Group (MPEG) フォーマットの音声の書き起こしがサポートされるようになりました。詳しくは、audio/mp3 および audio/mpeg フォーマットを参照してください。

スペイン語でベータ版の言語モデル・カスタマイズが使用可能になりました

言語モデル・カスタマイズ・インターフェースで、ベータ機能としてスペイン語がサポートされるようになりました。スペイン語の基本言語モデル es-ES_BroadbandModel または es-ES_NarrowbandModel に基づくカスタム・モデルを作成できます。詳しくは、カスタム言語モデルの作成を参照してください。スペイン語のカスタム言語モデルを使用する認識要求の価格設定は、米国英語モデルおよび日本語モデルを使用する要求と同じです。

カスタム言語モデルを作成するメソッド用の新しい dialect フィールド

新しいカスタム言語モデルを作成するために CreateLanguageModel メソッドに渡す JSON POST /v1/customizations オブジェクトに、dialect フィールドが含まれるようになりました。このフィールドは、カスタム・モデルで使用される言語の方言を指定します。デフォルトでは、方言は基本モデルの言語と一致します。このパラメーターは、スペイン語モデルの場合にのみ意味があります。サービスでは、スペイン語モデルに対して、以下に示されたいずれかの方言での音声に適合するカスタム・モデルが作成されます。

カスティリャ・スペイン語の場合は es-ES (デフォルト)
ラテンアメリカ・スペイン語の場合は es-LA
北米 (メキシコ) スペイン語の場合は es-US

カスタマイズ・インターフェースの GET /v1/customizations メソッドと GET /v1/customizations/{customization_id} メソッドでは、出力にカスタム・モデルの方言が含まれます。詳しくは、カスタム言語モデルの作成およびカスタム言語モデルのリストを参照してください。

英国英語モデルの新しい名前

言語モデル en-UK_BroadbandModel および en-UK_NarrowbandModel の名前が非推奨となりました。これらのモデルは、en-GB_BroadbandModel および en-GB_NarrowbandModel という名前で使用できるようになりました。

非推奨となった en-UK_{model} という名前は引き続き機能しますが、GET /v1/models メソッドによって、使用可能なモデルのリストでこの名前が返されなくなりました。 GET /v1/models/{model_id} メソッドを使用して直接この名前を照会することはできます。

2017 年 7 月 1 日

米国英語および日本語で言語モデル・カスタムが一般出荷可能になりました

サービスの言語モデル・カスタマイズ・インターフェースが、サポートされる言語 (米国英語と日本語) の両方で一般出荷可能 (GA) になりました。IBM は、カスタム言語モデルの作成、ホスティング、または管理については料金を請求しません。次の黒丸の項目で説明されているように、IBM はカスタム・モデルを使用する認識要求の音声の 1 分あたり、$0.03 (USD) を追加で課金するようになりました。

サービスの料金プランの更新

IBM は、以下のようにサービスの価格設定を更新しました

狭帯域モデルの使用に対する追加料金の廃止
高ボリューム顧客への段階的階層型価格設定の提供
米国英語または日本語のカスタム言語モデルを使用する認識要求の音声の 1 分あたり、$0.03 (USD) の追加課金

価格設定の更新について詳しくは、以下を参照してください

IBM Cloud カタログ内の Speech to Text サービス
料金設定に関する FAQ

HTTP POST 要求には空の本体は必要なくなりました

以下の POST 要求の本体として空のデータ・オブジェクトを渡す必要がなくなりました。

POST /v1/sessions
POST /v1/register_callback
POST /v1/customizations/{customization_id}/train
POST /v1/customizations/{customization_id}/reset
POST /v1/customizations/{customization_id}/upgrade_model

例えば、以下のように POST /v1/sessions を使用して curl メソッドを呼び出します。

curl -X POST -u "{username}:{password}" \
--cookie-jar cookies.txt \
"{url}/v1/sessions"

要求で curl オプションの --data "{}" を渡す必要がなくなりました。これらの POST 要求のいずれかで問題が発生した場合は、要求の本体で空のデータ・オブジェクトを渡します。空のオブジェクトを渡しても、要求の性質や意味は変更されません。

2017 年 5 月 22 日

すべてのメソッドから削除された continuous パラメーター

continuous パラメーターが、認識要求を開始するすべてのメソッドから削除されます。サービスでは、音声が終了するか、タイムアウトになるまで音声ストリーム全体が書き起こされるようになりました。この動作は、以前の continuous パラメーターを true に設定した場合と同じです。このパラメーターが省略されたり、false に設定されたりした場合、デフォルトでは、サービスは最初の 0.5 秒の発話なし (通常、無音) で書き起こしを停止します。

このパラメーターを true に設定する既存のアプリケーションの動作は変更されません。このパラメーターを false に設定するアプリケーションまたはデフォルトの動作に依存するアプリケーションは、変更される可能性があります。要求にこのパラメーターが指定されている場合に、サービスでは未知のパラメーターの警告メッセージを返して応答するようになりました。

"warnings": [
  "Unknown arguments: continuous."
]

警告にも関わらず要求は成功し、既存のセッションまたは WebSocket 接続は影響を受けません。

continuous=false を指定することにはほとんどメリットがなく、書き起こし全体の正確度が低下する可能性があるという、開発者コミュニティーからの多くのフィードバックを反映し、IBM はこのパラメーターを削除しました。

セッションのタイムアウトを回避するために必要な音声の送信

音声を送信せずにセッションのタイムアウトを回避することができなくなりました。

WebSocket インターフェースを使用する場合、クライアントが、action パラメーターを no-op に設定した JSON テキスト・メッセージを送信することによって接続存続を維持することができなくなりました。 no-op メッセージを送信してもエラーは生成されませんが、効果もありません。
HTTP インターフェースでセッションを使用する場合、クライアントが GET /v1/sessions/{session_id}/recognize 要求を送信してセッションを延長することができなくなりました。このメソッドによって、引き続きアクティブ・セッションのステータスが返されますが、セッションがアクティブのままにはなりません。

以下を行って、セッション存続を維持できるようになりました。

inactivity_timeout パラメーターを -1 に設定して、30 秒間の非アクティブ・タイムアウトを回避します。
無音のみが含まれた任意の音声データをサービスに送信して、30 秒間のセッション・タイムアウトを回避します。セッションを延長するために送信した無音を含め、サービスにデータを送信した期間に対して課金されます。

詳しくは、タイムアウトを参照してください。理想的には、書き起こし用の音声を取得する直前にセッションを確立し、リアルタイムに近いレートで音声を送信して、セッションを保持します。また、アプリケーションがクローズされたセッションまたは接続から滑らかに復旧することを確認します。

IBM は、すべてのユーザーに最高クラスで低待ち時間の音声認識サービスを引き続き提供できるように、この機能を削除しました。

2017 年 4 月 10 日

米国英語、スペイン語、および日本語で話者ラベルがサポートされるようになりました

サービスで、以下の広帯域モデルの話者ラベル機能がサポートされるようになりました。

米国英語広帯域モデル (en-US-BroadbandModel)
スペイン語広帯域モデル (es-ES-BroadbandModel)
日本語広帯域モデル (ja-JP_BroadbandModel)

詳しくは、話者ラベルを参照してください。

Web メディア (WebM) 音声フォーマットの新規サポート

サービスで、Opus コーデックまたは Vorbis コーデックを使用した Web Media (WebM) 音声フォーマットがサポートされるようになりました。また、Opus コーデック以外に Vorbis コーデックを使用した Ogg 音声フォーマットもサポートされるようになりました。サポートされる音声フォーマットについて詳しくは、audio/webm フォーマットを参照してください。

Cross-Origin Resource Sharing の新規サポート

サービスは、Cross-Origin Resource Sharing (CORS) をサポートして、ブラウザー・ベースのクライアントが直接サービスを呼び出すことを許可するようになりました。詳しくは、『CORS サポート』を参照してください。

非同期 HTTP インターフェースを使用してコールバック URL を登録解除する新規メソッド

非同期 HTTP インターフェースで、許可リストに登録されたコールバック URL の登録を削除する POST /v1/unregister_callback メソッドが提供されるようになりました。詳しくは、コールバック URL の登録解除を参照してください。

不具合を修正しました： WebSocket インターフェースでの長いオーディオのタイムアウトをなくしました

問題点の修正: WebSocket インターフェースは、特に長い音声ファイルの認識要求に対してタイムアウトにならなくなりました。タイムアウトを回避するために JSON start メッセージで中間結果を要求する必要がなくなりました。 (この問題については、2016 年 3 月 10 日の更新で説明しました。)

新規 HTTP エラー・コード

以下の言語モデル・カスタマイズ・メソッドは、以下の HTTP エラー・コードを返すことができるようになりました。

存在しないカスタム・モデルを削除しようとすると、DELETE /v1/customizations/{customization_id} メソッドによって、HTTP 応答コード 401 が返されるようになりました。
存在しないコーパスを削除しようとすると、DELETE /v1/customizations/{customization_id}/corpora/{corpus_name} メソッドによって、HTTP 応答コード 400 が返されるようになりました。

2017 年 3 月 8 日

非同期 HTTP インターフェースが一般出荷可能になりました: 非同期 HTTP インターフェースが一般出荷可能 (GA) になりました。この日付の前までは、ベータ機能でした。

2016 年 12 月 1 日

新しいベータ版の話者ラベル機能

サービスで、米国英語、スペイン語、または日本語の狭帯域音声のベータ版話者ラベル機能が提供されるようになりました。この機能では、複数人のやり取りで、どの単語をどの話者が発話したかを識別します。セッションなし、セッション・ベース、非同期、および WebSocket 認識メソッドには、それぞれ応答に話者ラベルが含まれるかどうかを示すブール値を受け入れる speaker_labels パラメーターが含まれています。この機能について詳しくは、話者ラベルを参照してください。

日本語でベータ版の言語モデル・カスタマイズが使用可能になりました

ベータ版の言語モデル・カスタマイズ・インターフェースが、米国英語以外に日本語でもサポートされるようになりました。このインターフェースのすべてのメソッドで日本語がサポートされます。詳しくは、以下のセクションを参照してください。

詳しくは、カスタム言語モデルの作成および音声認識にカスタム言語モデルの使用を参照してください。
コーパス・テキスト・ファイルの追加に関する一般的な考慮事項および日本語に固有の考慮事項は、コーパス・テキスト・ファイルの準備およびコーパス・ファイル追加時の動作を参照してください
カスタム単語の sounds_like フィールドの指定時の日本語に固有の考慮事項は、日本語のガイドラインを参照してください。
カスタマイズ・インターフェースのすべてのメソッドの詳細については、 API & SDKリファレンスを参照してください。

コーパスに関する情報をリストするための新規メソッド

言語モデル・カスタマイズ・インターフェースに、指定されたコーパスに関する情報をリストする GET /v1/customizations/{customization_id}/corpora/{corpus_name} メソッドが含まれるようになりました。このメソッドは、コーパスをカスタム・モデルに追加する要求のステータスのモニターに役立ちます。詳しくは、カスタム言語モデルのコーパスのリストを参照してください。

カスタム言語モデルの単語をリストするメソッド用の新しい count フィールド

GET /v1/customizations/{customization_id}/words メソッドおよび GET /v1/customizations/{customization_id}/words/{word_name} メソッドによって返される JSON 応答に、各単語の count フィールドが含まれるようになりました。このフィールドは、すべてのコーパスでその単語が見つかった回数を示します。コーパスによって追加される前にカスタム単語をモデルに追加すると、カウントは 1 から始まります。最初にコーパスから単語が追加され、後で変更された場合、カウントはコーパスで検出された回数のみを反映します。詳しくは、カスタム言語モデルからのカスタム単語のリストを参照してください。

count フィールドが存在する前に作成されたカスタム・モデルの場合、フィールドは常に 0のままです。そのようなモデルのフィールドを更新するには、モデルのコーパスを再度追加し、POST /v1/customizations/{customization_id}/corpora/{corpus_name} メソッドに allow_overwrite パラメーターを含めます。

カスタム言語モデルの単語をリストするメソッド用の新しい sort パラメーター

GET /v1/customizations/{customization_id}/words メソッドに、単語がリストされる順序を制御する sort クエリー・パラメーターが含まれるようになりました。このパラメーターは、単語のソート方法を示す 2 つの引数 alphabetical または count を受け入れます。オプションの + または - を引数の前に付加して、結果を昇順または降順のいずれでソートするかを示すことができます。デフォルトでは、このメソッドによって単語が昇順のアルファベット順で表示されます。詳しくは、カスタム言語モデルからのカスタム単語のリストを参照してください。

count フィールドが導入される前に作成されたカスタム・モデルの場合、count パラメーターで sort 引数を使用しても無意味です。このようなモデルでは、デフォルトの alphabetical 引数を使用します。

カスタム言語モデルの単語をリストするメソッド用の新しい error フィールド形式

error メソッドおよび GET /v1/customizations/{customization_id}/words メソッドからの JSON 応答の一部として返されることがある GET /v1/customizations/{customization_id}/words/{word_name} フィールドが配列になりました。サービスによってカスタム単語定義で 1 つ以上の問題が検出された場合、このフィールドには定義の各問題要素がリストされ、問題を説明するメッセージが提供されます。詳しくは、カスタム言語モデルからのカスタム単語のリストを参照してください。

keywords_threshold パラメーターと word_alternatives_threshold パラメーターでは、ヌル値が受け入れられなくなりました

認識メソッドの keywords_threshold パラメーターおよび word_alternatives_threshold パラメーターでは、ヌル値が受け入れられなくなりました。応答からキーワードと単語候補を省略するには、これらのパラメーターを省略します。指定される値は、浮動小数点である必要があります。

2016 年 9 月 22 日

新しいベータ版の言語モデル・カスタマイズ・インターフェース

このサービスで、新しいベータ版の米国英語用言語モデル・カスタマイズ・インターフェースが提供されるようになりました。このインターフェースを使用して、分野固有の用語を含むカスタム言語モデルを作成することによって、サービスの基本語彙および言語モデルを調整できます。カスタム単語は、ユーザーが個々に追加することも、このサービスにコーパスから抽出させることもできます。このサービスのいずれのインターフェースで提供されている音声認識メソッドでカスタム・モデルを使用するには、customization_id クエリー・パラメーターを渡します。詳しくは、以下を参照してください

audio/mulaw音声フォーマットの新規サポート

サポートされる音声フォーマットのリストに、u-law (または mu-law) データ・アルゴリズムを使用してエンコードされた単一チャネルの音声を提供する audio/mulaw が追加されました。このフォーマットを使用する場合は、音声取り込みのサンプリング・レートも指定する必要があります。詳しくは、audio/mulaw フォーマットを参照してください。

モデルをリストするときに識別される新しい supported_features

GET /v1/models メソッドおよび GET /v1/models/{model_id} メソッドが、各言語モデルに対する出力の一部として supported_features フィールドを返すようになりました。この追加情報により、そのモデルがカスタマイズをサポートするかどうかが示されます。詳しくは、 API & SDK リファレンスを参照してください。

2016 年 6 月 30 日

ベータ版の非同期 HTTP インターフェースで、使用可能なすべての言語がサポートされるようになりました: ベータ版の非同期 HTTP インターフェースが、サービスでサポートされるすべての言語をサポートするようになりました。このインターフェースは、以前は米国英語でのみ使用できました。詳細については、「非同期 HTTP インターフェースおよび API & SDKリファレンス」を参照してください。

2016 年 6 月 23 日

新しいベータ版の非同期 HTTP インターフェースが使用可能になりました: ベータ版の非同期 HTTP インターフェースが使用可能になりました。このインターフェースは、ノンブロッキング HTTP 呼び出しを使用することで、米国英語の書き起こしに完全な認識機能を提供します。コールバック URL を登録し、ユーザー指定の秘密ストリングを指定することで、デジタル署名による認証とデータ保全性を実現できます。詳細については、「非同期 HTTP インターフェースおよび API & SDKリファレンス」を参照してください。
音声認識用の新しいベータ版の smart_formatting パラメーター: ベータ版のスマート・フォーマット設定機能により、最終書き起こしで、日付、時刻、一連の数字および数値、電話番号、通貨価値、およびインターネット・アドレスを、より標準的な表現に変換されます。この機能を有効にするには、認識要求で smart_formatting パラメーターを true に設定します。この機能は、ベータ版であり、米国英語でのみ使用可能です。詳しくは、スマート・フォーマット設定を参照してください。
新しいフランス語広帯域モデル: 音声認識でサポートされるモデルのリストに、フランス語の音声に対応する、最小 16 kHz のサンプリング・レートの fr-FR_BroadbandModel が含まれるようになりました。詳しくは、前世代の言語とモデルを参照してください。
audio/basic音声フォーマットの新規サポート: サポートされる音声フォーマットのリストにaudio/basicが含まれるようになりました。このフォーマットは、サンプリング・レート 8 kHz で、8 ビットの u-law (mu-law) データを使用してエンコードされた単一チャネル音声を提供します。詳しくは、audio/basic フォーマットを参照してください。
音声認識メソッドが無効なパラメーターの警告を返すようになりました: 各種の認識メソッドで、要求に含まれる無効なクエリー・パラメーターまたは JSON フィールドに関するメッセージが含まれる warnings 応答を返すことができるようになりました。この警告のフォーマットが変更されました。例えば、"warnings": "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." は、"warnings": "Unknown arguments: {invalid_arg_1}, {invalid_arg_2}." になりました
データを渡さない HTTP POST メソッドには空の本体が必要です: HTTP POST 要求では、{} の形で空の要求本体を含めなければ、サービスにデータが渡されません。 curl コマンドでは、--data オプションを使用して空のデータを渡します。

2016 年 3 月 10 日

音声認識のために送信される音声の新しい最大制限: データ伝送の両方の形式 (1 回限りの送信とストリーミング) で、WebSocket インターフェースと同様に、音声データには 100 MB のサイズ制限が課されるようになりました。以前は、1 回限りの方法では、最大 4 MB のデータ制限が課されていました。詳しくは、音声の伝送 (すべてのインターフェース) および音声の送信および認識結果の受信 (WebSocket インターフェース) を参照してください。 WebSocket のセクションでは、WebSocket インターフェースによって適用される 4 MB の最大フレーム (メッセージ) サイズについても説明しています。
HTTP および WebSocket インターフェースが警告を返すことができるようになりました。: 認識要求の JSON 応答に、要求に含まれる無効なクエリー・パラメーターまたは JSON フィールドに関する警告メッセージの配列を含めることができるようになりました。配列の各要素は警告の性質を記述するストリングであり、無効な引数ストリングの配列が続きます。例えば、"warnings": [ "Unknown arguments: [u'{invalid_arg_1}', u'{invalid_arg_2}']." ] です。詳しくは、 API & SDK リファレンスを参照してください。
ベータ版 Apple iOS SDK は非推奨: ベータ版の Watson Speech Software Development Kit (SDK) (Apple ® iOS オペレーティング・システム用) は非推奨になりました。代わりに Watson SDK (Apple ® iOS オペレーティング・システム用) を使用してください。新しいSDKは、 GitHub の watson-developer-cloud 名前空間の ios-sdk リポジトリから入手できる。
WebSocket インターフェースは遅延結果を生成する可能性があります: WebSocket インターフェースは、特に長い音声ファイルに対する認識要求の最終結果を生成するのに数分かかる場合があります。 WebSocket インターフェースでは、サービスによる応答の準備中に基盤の TCP 接続がアイドル状態のままになります。このため、タイムアウトのために接続がクローズする可能性があります。 WebSocket インターフェースでタイムアウトを回避するには、要求を開始するための \"interim_results\": \"true\" メッセージの JSON で中間結果を要求します (start)。中間結果は、不要であれば破棄できます。この問題は、今後の更新で解決される予定です。

2016 年 1 月 19 日

新しい禁止用語フィルター機能: サービスは、2016 年 1 月 19 日に更新され、新しい用語禁止フィルター機能が組み込まれました。デフォルトでは、サービスは米国英語音声の書き起こし結果で禁止用語を校閲します。詳しくは、禁止用語フィルターを参照してください。

2015 年 12 月 17 日

新しいキーワード検出機能: サービスでキーワード検出機能が提供されるようになりました。入力音声で突き合わせるキーワード・ストリングの配列を指定できます。また、キーワードに対する一致と見なされるために単語が満たす必要があるユーザー定義の信頼度レベルを指定する必要があります。詳しくは、キーワード検出を参照してください。キーワード検出機能はベータ機能です。
新しい単語候補機能: サービスで単語候補機能が提供されるようになりました。この機能は、ユーザー定義の信頼度レベルを満たした、入力音声内の単語に対する仮説候補を返します。詳しくは、単語候補を参照してください。単語候補機能はベータ機能です。
新しい英国英語およびアラビア語モデル: サービスで、書き起こしモデルでの追加の言語がサポートされるようになりました (英国英語の en-UK_BroadbandModel と en-UK_NarrowbandModel、現代標準アラビア語の ar-AR_BroadbandModel)。詳しくは、前世代の言語とモデルを参照してください。
セッション・ベースのメソッド用の新しい session_closed フィールド: サービスでは、セッション・ベースのメソッドでのエラーに対して返される JSON 応答に、新しい session_closed フィールドも含まれるようになりました。セッションがエラーの結果としてクローズされた場合、このフィールドが true に設定されます。各メソッドで使用可能なリターンコードの詳細については、 API & SDKリファレンスを参照してください。
HTTP プラットフォーム・タイムアウトは適用されなくなりました: HTTP 認識要求で、10 分のプラットフォーム・タイムアウトが適用されなくなりました。このサービスでは、認識中、20秒ごとに応答JSONオブジェクトにスペース文字を送信することで、接続を維持するようになった。詳しくは、タイムアウトを参照してください。
curlコマンドによるレート制限が不要になりました: curl コマンドを使用してサービスで音声を書き起こす際に、1 秒あたり 40,000 バイトより速い速度でデータを転送しないように --limit-rate オプションを使用する必要がなくなりました。
HTTP エラー・コードの変更: サービスで、セッション・ベースの HTTP メソッド GET /v1/sessions/{session_id}/observe_result および POST /v1/sessions/{session_id}/recognize に対して HTTP ステータス・コード 490 が返されなくなりました。代わりに、サービスは HTTP ステータス・コード 400 で応答するようになりました。

2015 年 9 月 21 日

新しいモバイル SDKs が使用可能

2 つの新しいベータ・モバイル SDK が音声サービスで使用可能になりました。 SDK を使用して、モバイル・アプリケーションは Speech to Text サービスと Text to Speech サービスの両方と対話できます。

Watson Speech SDK (Google Android™ プラットフォーム用) は、音声を Speech to Text サービスにリアルタイムでストリーミングし、話すときに音声の書き起こしを受信することをサポートしています。このプロジェクトには、両音声サービスとの対話を示すサンプル・アプリケーションが含まれています。 SDKは、 GitHub の watson-developer-cloud 名前空間の speech-android-sdk リポジトリから入手できます。
Watson Speech SDK (Apple ® iOS オペレーティング・システム用) は、音声を Speech to Text サービスにストリーミングし、応答としての音声の書き起こしを受信することをサポートしています。 SDKは、 GitHub の watson-developer-cloud 名前空間の speech-ios-sdk リポジトリから入手できます。

いずれの SDK でも、IBM Cloud サービス資格情報または認証トークンを使用した音声サービスへの認証のサポートが提供されます。 SDK はベータ版であるため、今後変更されることがあります。

新しいブラジル・ポルトガル語と中国語 (北京語) モデル

このサービスは、以下のモデルを使用して、ブラジル・ポルトガル語と中国語 (北京語) の 2 つの新しい言語をサポートします。

ブラジル・ポルトガル語広帯域モデル (pt-BR_BroadbandModel)
ブラジル・ポルトガル語狭帯域モデル (pt-BR_NarrowbandModel)
中国語 (北京語) 広帯域モデル (zh-CN_BroadbandModel)
中国語 (北京語) 狭帯域モデル (zh-CN_NarrowbandModel)

詳しくは、前世代の言語とモデルを参照してください。

audio/ogg;codecs=opus音声フォーマットの新規サポート

HTTP POST 要求の /v1/sessions/{session_id}/recognize と /v1/recognize、および WebSocket /v1/recognize 要求で新しいメディア・タイプ (Opus コーデックを使用している Ogg フォーマットのファイル用の audio/ogg;codecs=opus) の書き起こしがサポートされます。また、各メソッドの audio/wav フォーマットで任意のエンコードがサポートされるようになりました。リニア PCM エンコードの使用に関する制限事項が削除されました。詳しくは、audio/ogg フォーマットを参照してください。

セッションの長いポーリングのための新しい sequence_id パラメーター

HTTP インターフェースを使用して長い音声ファイルを書き起こす際にタイムアウトを克服するためのサポートがサービスで提供されるようになりました。セッションを使用している場合、長期間実行される認識タスクに対して GET /v1/sessions/{session_id}/observe_result および POST /v1/sessions/{session_id}/recognize メソッドを使用してシーケンス ID を指定することで、長いポーリング・パターンを利用できます。これらのメソッドの新しい sequence_id パラメーターを使用すると、認識要求の送信前、送信時、または送信後に結果を要求できます。

米国英語の書き起こしの新しい大文字化機能

米国英語モデル en_US_BroadbandModel および en_US_NarrowbandModel について、サービスで多くの代名詞の語頭が正しく大文字化されるようになりました。例えば、このサービスは「バラク・オバマはコロンビア大学を卒業しました」ではなく、「バラク・オバマはコロンビア大学を卒業しました」という新しいテキストを返すだろう。この変更は、ご使用のアプリケーションが代名詞の大/小文字に何らかの形で依存している場合に役立つ可能性があります。

新規 HTTP エラー・コード

HTTP DELETE /v1/sessions/{session_id} リクエストはステータスコード415「Unsupported Media Type」を返さない。メソッドの資料からこの戻りコードが削除されました。

2015 年 7 月 1 日

Speech to Text サービスが一般出荷可能になりました

サービスは、2015 年 7 月 1 日に、ベータ版から一般出荷版 (GA) に移行しました。 Speech to Text API のベータ版と GA 版には以下のような違いがあります。 GA リリースにより、ユーザーはサービスの新しいバージョンにアップグレードする必要があります。

HTTP API の GA 版には、ベータ版との互換性があります。既存のアプリケーション・コードを変更する必要が生じるのは、モデル名を明示的に指定していた場合のみです。例えば、GitHub からサービス用に入手可能なサンプル・コードでは、ファイル demo.js に以下のコード行が含まれていました。

model: 'WatsonModel'

この行では、ベータ版サービスのデフォルト・モデル WatsonModel を指定した。ご使用のアプリケーションでもこのモデルを指定している場合は、GA 版でサポートされる新規モデルのいずれかを使用するように変更する必要があります。詳しくは、次の黒丸の項目を参照してください。

新しいトークン・ベースのプログラミング・モデル

サービスで、WebSocket 接続を介したクライアントとサービス間の直接対話用の新規プログラミング・モデルがサポートされるようになりました。クライアントは、このモデルを使用して、サービスと直接通信するための認証トークンを取得できます。このトークンによって、クライアントの代わりにサービスを呼び出す IBM Cloud 内のサーバー・サイド・プロキシー・アプリケーションを使用せずに済むようになります。トークンは、クライアントがサービスと対話する優先手段です。

サービスでは引き続き、クライアントとサービス間での音声およびメッセージの中継についてサーバー・サイドのプロキシーに依拠していた古いプログラミング・モデルがサポートされます。ただし、新しいモデルの方が効率的であり、スループットも高くなります。

音声認識用の新しい model パラメーター

POST /v1/sessions メソッドおよび POST /v1/recognize メソッドと WebSocket /v1/recognize メソッドで、model クエリー・パラメーターがサポートされるようになりました。このパラメーターを使用して、音声に関する情報を指定します。

言語: 英語、日本語、またはスペイン語
最小サンプリング・レート: 広帯域モデル (16 kHz) または狭帯域モデル (8 kHz)

詳しくは、前世代の言語とモデルを参照してください。

音声認識用の新しい inactivity_timeout パラメーター

inactivity_timeout パラメーター。サービスがストリーミング・モードで無音 (発話なし) を検出した場合に接続をクローズするまでのタイムアウト値 (秒) を設定します。デフォルトでは、サービスは 30 秒無音が続くと、セッションを終了します。 POST /v1/recognize および WebSocket /v1/recognize メソッドはパラメーターをサポートします。詳しくは、タイムアウトを参照してください。

音声認識用の新しい max_alternatives パラメーター

max_alternatives パラメーターは、音声書き起こしで N 個の最適仮説候補を返すようにサービスに指示します。 POST /v1/recognize および WebSocket /v1/recognize メソッドはパラメーターをサポートします。詳しくは、最大候補を参照してください。

音声認識用の新しい word_confidence パラメーター

word_confidence パラメーターは、書き起こしの各単語の信頼度スコアを返すようにサービスに指示します。 POST /v1/recognize および WebSocket /v1/recognize メソッドはパラメーターをサポートします。詳しくは、単語の信頼度を参照してください。

音声認識用の新しい timestamps パラメーター

timestamps パラメーターは、音声の先頭を基準とした相対時間で、書き起こしの各単語の開始時間と終了時間を返すようにサービスに指示します。 POST /v1/recognize および WebSocket /v1/recognize メソッドはパラメーターをサポートします。詳しくは、単語のタイム・スタンプを参照してください。

結果を監視するためのセッション・メソッドの名前変更

GET /v1/sessions/{session_id}/observeResult メソッドが、GET /v1/sessions/{session_id}/observe_resultという名前になりました。後方互換性のため、名前 observeResult は引き続きサポートされます。

Waveform Audio File (WAV) 音声フォーマットの新規サポート

recognize メソッドの Content-Type ヘッダーで、audio/flac および audio/l16 に加えて、Waveform Audio File (WAV) ファイルの audio/wav がサポートされるようになりました。詳しくは、audio/wav フォーマットを参照してください。

音声認識の音声の最大量に関する制限

サービスで、ストリーミング・モードにおけるセッション当たりのデータに 100 MB の制限が課されるようになりました。ストリーミングモードを指定するには、ヘッダー Transfer-Encoding で値 chunked を指定します。音声ファイルの 1 回限りの送信では引き続き、送信されるデータに対して 4 MB のサイズ制限が課されます。詳しくは、音声の伝送を参照してください。

サービス改善への寄与をオプトアウトする新規ヘッダー

GET /v1/sessions/{session_id}/observe_result、POST /v1/sessions/{session_id}/recognize、および POST /v1/recognize の各メソッドに、ヘッダー・パラメーター X-WDC-PL-OPT-OUT が含まれるようになりました。このパラメーター、サービスが要求の音声および書き起こしデータを使用して将来の結果を改善するかどうかを制御します。 WebSocket インターフェースには、これに相当するクエリー・パラメーターが含まれています。サービスが音声および書き起こしの結果を使用しないようにするには、値 1 を指定します。このパラメーターは、現在の要求にのみ適用されます。ベータ API の X-logging ヘッダーは新しいヘッダーによって置き換えられています。 Watson サービスの要求ロギングの制御を参照してください。

HTTP エラー・コードの変更

サービスは、以下の HTTP エラー・コードで応答できるようになりました。

/v1/models、/v1/models/{model_id}、/v1/sessions、/v1/sessions/{session_id}、/v1/sessions/{session_id}/observe_result、/v1/sessions/{session_id}/recognize、および /v1/recognize の各メソッドにエラー・コード 415 (「サポートしていないメディア・タイプです」) が追加されました。
/v1/sessions/{session_id}/recognize メソッドへの POST 、 GET リクエストについては、以下のエラーコードが修正される：
- エラー・コード 404 (「Session_id が見つかりません」) のメッセージの説明が詳細になりました (POST および GET)。
- エラー・コード 503 (「セッションは既に要求を処理しています。同時リクエストは同じセッションで許されていません。このエラーの後もセッションは存続します。") には、より説明的なメッセージがあります (POST のみ)。
- POST メソッドおよび /v1/sessions メソッドへの HTTP /v1/recognize 要求で、エラー・コード 503 (「サービスが利用できません」) が返されることがあります。エラーコードは、 /v1/recognize メソッドで WebSocket 接続を作成したときにも返されることがある。