Speech to Text for IBM Cloud Pak for Data のリリース・ノート

IBM Cloud Pak for Data

IBM Watson® Speech to Text for IBM Cloud Pak for Data のインストール済みまたはオンプレミスのインスタンスの各リリースおよび更新には、以下の機能および変更が含まれています。特に断りのない限り、変更はすべて前のリリースと互換性があり、すべての新規および既存のアプリケーションで自動的かつ透過的に使用可能になっています。

サービスの既知の制限事項については、既知の制限事項を参照してください。

IBM Cloud のサービスのリリースおよび更新については、Speech to Text for IBM Cloud のリリース・ノートを参照してください。

2024年10月30日（バージョン 4.8.7 ）

バージョン 4.8.7: Speech to Text for IBM Cloud Pak for Data version 4.8.7 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年9月25日（バージョン 5.0.3 ）

バージョン 5.0.3: Speech to Text for IBM Cloud Pak for Data version 5.0.3 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年8月28日（バージョン 4.8.6 ）

バージョン 4.8.6: Speech to Text for IBM Cloud Pak for Data version 4.8.6 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年8月28日（ 5.0.2 ）

バージョン 5.0.2: Speech to Text for IBM Cloud Pak for Data version 5.0.2 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年7月31日（ 5.0.1 ）

バージョン 5.0.1: Speech to Text for IBM Cloud Pak for Data version 5.0.1 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年6月19日（ 5.0.0 ）

バージョン 5.0.0: Speech to Text for IBM Cloud Pak for Data version 5.0.0 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年4月24日（バージョン 4.8.5 ）

バージョン 4.8.5: Speech to Text for IBM Cloud Pak for Data version 4.8.5 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年3月27日（バージョン 4.8.4 ）

バージョン 4.8.4: Speech to Text for IBM Cloud Pak for Data version 4.8.4 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年2月28日（バージョン 4.8.3 ）

バージョン 4.8.3: Speech to Text for IBM Cloud Pak for Data version 4.8.3 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2024年1月31日（ 4.8.2 ）

バージョン 4.8.2: Speech to Text for IBM Cloud Pak for Data version 4.8.2 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2023年11月30日（ 4.8.0 ）

バージョン 4.8.0: Speech to Text for IBM Cloud Pak for Data version 4.8.0 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2023年9月27日（バージョン 4.7.3 ）

バージョン 4.7.3: Speech to Text for IBM Cloud Pak for Data version 4.7.3 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2023年7月28日（バージョン 4.7.1 ）

バージョン 4.7.1: Speech to Text for IBM Cloud Pak for Data version 4.7.1 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2023年6月9日（ 4.7.0 ）

バージョン 4.7.0: Speech to Text for IBM Cloud Pak for Data version 4.7.0 が利用可能になった。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

2023 年 5 月 2 日 (バージョン 4.6.5)

バージョン 4.6.5

Speech to Text for IBM Cloud Pak for Data version 4.6.5 が利用可能になった。このバージョンは IBM Cloud Pak for Data バージョン 4.6.x と Red Hat OpenShift バージョン 4.10 と 4.12 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

日本の次世代電話新モデル

同サービスは現在、日本人向けに次世代電話通信モデルを提供している。 ja-JP_Telephony。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、こちらをご覧ください：

次世代の英語モデルと日本語モデルの言語モデル・カスタマイズの向上

本サービスでは、次世代の英語モデルおよび日本語モデルの言語モデル・カスタマイズが改善されました。

en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony

モデルに対する可視の改善: 新しいテクノロジーにより、新しい英語モデルと日本語モデルのデフォルトの動作が改善されます。特に、新しいテクノロジーは、以下のパラメーターのデフォルトの動作を最適化します。

これらのモデルの新規バージョンに基づくカスタム・モデルのデフォルトの customization_weight は、 0.2 から 0.1 に変更されました。
これらのモデルの新しいバージョンをベースにしたカスタムモデルのデフォルトの character_insertion_bias は 0.0 のままですが、モデルが変更されたことで、音声認識用のパラメータはそれほど必要ではなくなりました。

新しいモデルへのアップグレード: 改善されたテクノロジーを利用するには、新しいモデルに基づくすべてのカスタム言語モデルをアップグレードする必要があります。これらのベースモデルのいずれかを新バージョンにアップグレードするには：

モデルに含まれるカスタムの単語、コーパス、または文法を追加または変更して、カスタム・モデルを変更します。変更を加えると、モデルは ready 状態に移行します。
POST /v1/customizations/{customization_id}/train メソッドを使用して、モデルをリトレーニングします。リトレーニングにより、カスタム・モデルが新しいテクノロジーにアップグレードされ、モデルが available 状態に移行します。

既知の問題 ：現在、 POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用してカスタムモデルを新しいベースモデルのいずれかにアップグレードすることはできません。この問題は将来のリリースで対処される。

新しいモデルの使用: 新しい基本モデルにアップグレードした後、音声認識の customization_weight パラメーターと character_insertion_bias パラメーターに特に注意して、アップグレードしたカスタム・モデルのパフォーマンスを評価することをお勧めします。カスタム・モデルをリトレーニングする場合は、以下のようにします。

カスタム・モデルは、カスタム・モデルに対して新しいデフォルトの customization_weight である 0.1 を使用します。カスタムモデルに関連付けられていたデフォルト以外の customization_weight が削除されました。
カスタムモデルでは、最適な音声認識を行うために character_insertion_bias パラメータを使用する必要がなくなるかもしれません。

言語モデルのカスタマイズの改善により、高品質の音声認識においてこれらのパラメーターの重要性が低くなります。

これらのパラメーターにデフォルト値を使用する場合は、アップグレード後もデフォルト値を使用し続けます。デフォルト値は、音声認識に最適な結果を提供し続けます。
これらのパラメータにデフォルト以外の値を指定した場合は、アップグレード後にデフォルト値で試してみましょう。カスタム・モデルは、デフォルト値を使用した音声認識に適している場合があります。

これらのパラメーターに異なる値を使用すると、カスタム・モデルでの音声認識が改善される可能性があると考えられる場合は、音声認識を改善するためにパラメーターが必要かどうかを段階的に変更してみてください。

注：現時点では、言語モデルのカスタマイズの改善は、前述の次世代英語または日本語ベース言語モデルをベースとするカスタムモデルのみに適用されます。時間の経過とともに、他の次世代言語モデルにも改善が提供されます。

詳細情報: アップグレードおよびこれらのパラメータを使用した音声認識の詳細については、以下を参照してください。

Speech サービス・カスタム・リソースの新しい環境変数

この資料には、 ${CUSTOM_RESOURCE_SPEECH} という名前の環境変数を作成する手順が記載されています。新しい変数を cpd_vars.sh スクリプトに追加し、ご使用の環境でその変数を使用するためのソースをスクリプトに設定します。詳しくは、 Watson Speech サービスのインストールの「 このタスクを実行するために必要な情報 」を参照するか、Speech サービスのいずれかのアップグレード・トピックを参照してください。

問題点の修正: スウェーデン語のテレフォニーおよびイタリア語のマルチメディア・モデルが使用可能になりました。

問題点の修正: スウェーデン語のテレフォニー (sv-SE_Telephony) モデルおよびイタリア語のマルチメディア (it-IT_Multimedia) モデルをインストールできるようになりました。以前は、これらは使用できませんでした。

問題点の修正: 次世代のカスタム言語モデルのトレーニング時間の短縮

問題点の修正: 次世代のカスタム言語モデルのトレーニング時間が大幅に改善されました。以前は、日本語のカスタム言語モデルのトレーニングについて報告されているように、トレーニング時間は必要以上に長くかかりました。問題は内部修正によって訂正されました。

問題の修正: 文法ファイルで数字のストリングが正しく処理されるようになりました。

問題点の修正: 文法を使用すると、より長い数字ストリングが正しく処理されるようになりました。以前は、認識を完了できなかったか、誤った結果が返されていました。

問題点の修正: 動的に生成された文法ファイルが正しく機能するようになりました

問題点の修正: 動的に生成された文法ファイルが正しく機能するようになりました。以前は、 Speech to Text と IBM® watsonx™ Assistantとの統合について報告されていたように、動的な文法ファイルが原因で内部障害が発生する可能性がありました。問題は内部修正によって訂正されました。

問題点の修正: 米国英語の日付のスマート・フォーマット設定が正しくなりました

問題の修正: スマート・フォーマット設定で、発話音声に曜日と日付の両方が含まれるようになりました (例: Tuesday February 28)。以前は、曜日が省略され、日付が正しく表示されない場合がありました。スマート・フォーマット設定はベータ機能です。

問題点の修正: 次世代モデルの音声言い淀み単語に関する資料の更新

不具合修正 ：次世代機種の音声読み上げの言いよどみ単語の資料を更新しました。米国英語と日本語の躊躇語について詳しく説明します。次世代モデルでは、ためらうマーカーのみを含む前世代モデルとは異なり、書き起こし結果に実際のためらいの単語が含まれます。詳しくは、 Speech hesitations and hesitation marker を参照してください。

対処されたセキュリティー脆弱性

以下のセキュリティ脆弱性が修正されました

2023 年 3 月 29 日 (バージョン 4.6.4)

バージョン 4.6.4

Speech to Text for IBM Cloud Pak for Data version 4.6.4 が利用可能になった。このバージョンは IBM Cloud Pak for Data バージョン 4.6.x と Red Hat OpenShift バージョン 4.10 と 4.12 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

重要： 4.6.3 または 4.6.4 にアップグレードする前に、データをバックアップしてください

重要： Watson サービスバージョン 4.6.3 または 4.6.4 にアップグレードする前に、データのバックアップを作成してください。バックアップを安全な場所に保存します。 Watson サービスデータのバックアップに関する詳細は Watsonの管理における Watson Speech Watsonデータのバックアップと復元 」を参照してください。このトピックには、必要になった場合のデータのリストアに関する情報も含まれています。

既知の問題: スウェーデン語のテレフォニーおよびイタリア語のマルチメディア・モデルはまだ使用できません

既知の問題 ：スウェーデン語のテレフォニー（ sv-SE_Telephony ）とイタリア語のマルチメディア（ it-IT_Multimedia ）モデルは、まだご利用いただけません。 4.6.5 で利用可能になりました。

問題点の修正: 拡張インストール・オプションを使用して、インストール済みのモデルと音声を変更できるようになりました。

問題の修正: インストール中に、コマンド・ライン・インターフェースの拡張インストール・オプションを使用して、さまざまなモデルまたは音声を指定できるようになりました。以前は、サービスは常にデフォルトのモデルと音声をインストールしていました。この制限は、 Watson Speech サービスのバージョン 4.6.0、 4.6.2、および 4.6.3に引き続き適用されます。モデルおよび音声のインストールについては、 Watson Speech サービスのインストールの「 追加インストール・オプションの指定 」を参照してください。

ロード・バランサーのタイムアウトの設定

Watson Speech サービスでは、サーバーとクライアントの両方のロード・バランサー・タイムアウト設定を 300 秒に変更する必要があります。これらの設定により、長い音声を持つ、または難しい音声を持つ、長時間実行される音声認識要求を完了するための十分な時間が確保されます。詳しくは、 Watson Speech サービスのインストールの「 このタスクを実行するために必要な情報 」を参照してください。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2023 年 2 月 23 日 (バージョン 4.6.3)

バージョン 4.6.3

Speech to Text for IBM Cloud Pak for Data version 4.6.3 が利用可能になった。このバージョンは IBM Cloud Pak for Data バージョン 4.6.x と Red Hat OpenShift バージョン 4.10 をサポートしています。 Red Hat OpenShift バージョン 4.8 はサポートされなくなりました。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

重要: 前世代モデルはすべて非推奨になり、2023 年 7 月 31 日にサービスを終了します。

重要: すべての前世代モデルは非推奨になり、 2023 年 7 月 31 日にサービス終了になります。その日に、すべての前世代モデルがサービスおよび資料から削除されます。前回の非推奨日は 2023 年 3 月 3 日でした。この新しい日付により、ユーザーは適切な次世代モデルに移行する時間を増やすことができます。しかし、2023 年 7 月 31 日までに同等の次世代モデルに移行する必要があります。

ほとんどの前世代モデルは、2022 年 3 月 15 日に非推奨になりました。以前は、アラビア語と日本語のモデルは非推奨ではありませんでした。非推奨は、 すべての 前世代モデルに適用されるようになりました。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。
すべての次世代モデルについて詳しくは、次世代言語とモデルを参照してください。

注：前世代の en-US_BroadbandModel がサービスを終了すると、次世代モデル en-US_Multimedia が音声認識リクエストのデフォルトモデルとなる。

既知の問題: 拡張インストール・オプションを使用して、インストール済みのモデルおよび音声を変更することはできません。

既知の問題: 現在、拡張インストール・オプションで別のモデルや音声を指定することはできません。サービスは常にデフォルトのモデルと音声をインストールします。インストール後のモデルの変更については、 Watson Speech services on IBM Cloud Pak for Dataの 「管理」 トピックの 「 Watson Speech サービスの更新」 を参照してください。

既知の問題: バージョン 4.6.3 へのアップグレードが完了しないことがある

既知の問題: バージョン 4.6.3にアップグレードすると、 MinIO バックアップ・ジョブが完了時に削除されないことがあります。これが発生した場合、解決策はジョブを削除することです。その後、アップグレードは正常に続行されます。以下の手順で問題を解決してください。

MinIO バックアップ・ジョブが削除されないままになっているかどうかを判別するには、次のコマンドを発行します。
```
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
```
削除されない MinIO ジョブは、以下の形式のエントリーによって識別されます。
```
speech-cr-ibm-minio-backup   1/1   3m25s   1d
```
MinIO バックアップ・ジョブを削除するには、次のコマンドを発行します。
```
oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}
```

バックアップ・ジョブが削除されると、アップグレードが続行され、完了します。

問題点の修正: フランス語のカナダの次世代テレフォニー・モデルの更新 (アップグレードが必要)

問題点の修正: フランス語のカナダの次世代テレフォニー・モデル fr-CA_Telephony が更新され、音声認識中にエラーを引き起こす可能性がある内部の不整合に対処するようになりました。 * fr-CA_Telephony モデルに基づくすべてのカスタム・モデルをアップグレードする必要があります。* カスタムモデルのアップグレードの詳細については

問題点の修正: 次世代のブラジル・ポルトガル語マルチメディア・モデルを使用できるようになりました。

障害修正: 次世代のブラジル・ポルトガル語マルチメディア・モデルが Speech to Text for IBM Cloud Pak for Dataで使用可能になりました。以前は、モデルは使用できませんでした。

次世代モデルに基づくカスタム・モデルに単語を直接追加すると、トレーニング時間が長くなります。

次世代モデルに基づくカスタム・モデルにカスタム単語を直接追加すると、モデルのトレーニングにかかる時間が、それ以外の場合よりも数分長くなります。 POST /v1/customizations/{customization_id}/words または PUT /v1/customizations/{customization_id}/words/{word_name} メソッドを使用して追加したカスタム単語を使用してモデルをトレーニングする場合は、モデルの追加のトレーニング時間を数分間考慮してください。詳しくは、以下を参照してください

サービス・インスタンスの処理に関する追加情報

この資料には、コマンド・ライン・インターフェース (cpl-cli) を使用したサービス・インスタンスの作成、およびサービス・インスタンスの管理に関する情報が含まれるようになりました。詳しくは、 Watson Speech services on IBM Cloud Pak for Dataの以下のトピックを参照してください。

インストール後のセットアップ の下の Watson Speech サービス・インスタンスの作成
「管理」の「 * Watson Speech サービス・インスタンスの管理* 」

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

セキュリティー情報: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data は、Pypa Setuptools(CVE-2022-40897)のサービス妨害に対して脆弱です。

2023 年 1 月 30 日 (バージョン 4.6.2)

バージョン 4.6.2

Speech to Text for IBM Cloud Pak for Data version 4.6.2 が利用可能になった。このバージョンは IBM Cloud Pak for Data バージョン 4.6.x と Red Hat OpenShift バージョン 4.8 と 4.10 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

カスタム・リソースに新しい fileStorageClass プロパティーが含まれるようになりました。

Watson Speech サービスのカスタム・リソースに、既存の blockStorageClass プロパティーに加えて fileStorageClass プロパティーが含まれるようになりました。サービスをインストールまたはアップグレードするときに、ブロック・ストレージ・クラスとファイル・ストレージ・クラスの両方を指定します。前のバージョンからのアップグレード中に、 cli manage apply-cr コマンドの --file_storage_class オプションによって、新しいプロパティーがカスタム・リソースに自動的に追加されます。

サポートされる各ストレージ・ソリューションで使用できるブロック・ストレージ・クラスおよびファイル・ストレージ・クラスについて詳しくは、 Watson Speech services on(音声サービス)IBM Cloud Pak for Dataの「 Watson Speech サービスのインストール」ページの このタスクを完了するために必要な情報 にある ストレージ要件 の表を参照してください。

サービス・インスタンスのプロビジョニングに関する追加情報

この資料には、サービス・インスタンスのプログラマチックな作成に関する情報が含まれるようになりました。また、サービス・インスタンスのリストおよびサービス・インスタンスの削除の例も含まれています。詳しくは、 Watson Speech services on IBM Cloud Pak for Dataの「 インストール後のセットアップ 」資料の「 * Watson Speech サービス・インスタンスの作成* 」を参照してください。

MinIO データ・ストアに対してサーバー・サイドの暗号化が有効になっている

これで、Speech サービスは、 MinIO データ・ストア内のオブジェクト・ストレージのサーバー・サイド暗号化を有効にしました。アクションは必要ありません。

監査 Webhook の変更

これで、Speech サービスは監査 Webhook 依存関係を削除しました。サービスは、監査イベントをサーバーに直接書き込むようになりました。バージョン 4.6.2にアップグレードした後、すべてのサービスが依存関係を削除できるようになるまで、一部の Webhook リソースが残っている場合があります。残りのリソースは、将来のリリースで除去されます。アクションは必要ありません。

オランダの次世代マルチメディア・モデル

同サービスは現在、オランダ・オランダ語の次世代マルチメディア・モデルを提供している。 nl-NL_Multimedia。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

スウェーデンの次世代テレフォニー新モデル

同サービスは現在、スウェーデン語の次世代電話通信モデルを提供している。 sv-SE_Telephony。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

英語の次世代テレフォニー・モデルの更新

英語の次世代電話機は、音声認識を改善するために更新されました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

これらのモデルはすべて、低遅延を引き続きサポートします。これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

次世代モデルで max_alternatives パラメーターを使用できるようになりました。

max_alternatives パラメーターは、すべての次世代モデルで使用できるようになりました。このパラメータは、すべての次世代モデルで一般的に利用可能である。詳しくは、最大候補を参照してください。

問題点の修正: 次世代モデルで max_alternatives パラメーターと end_of_phrase_silence_time パラメーターの両方を使用できるようにする

問題点の修正: 次世代モデルで同じ要求に max_alternatives パラメーターと end_of_phrase_silence_time パラメーターの両方を使用すると、サービスは、指定された一時停止間隔を尊重しながら、複数の代替トランスクリプトを返すようになりました。以前は、1 つの要求で 2 つのパラメーターを使用すると、障害が発生していました。 (次世代モデルでの max_alternatives パラメーターの使用は、以前は限られた数のお客様に試験的機能として提供されていました。)

問題点の修正: 次世代マルチメディア・モデルの更新 (アップグレードが必要)

問題点の修正: 日本の次世代マルチメディア・モデル ja-JP_Multimedia が更新され、低遅延で音声認識中にエラーを引き起こす可能性がある内部の不整合に対処できるようになりました。 * ja-JP_Multimedia モデルに基づくすべてのカスタム・モデルをアップグレードする必要があります。* カスタムモデルのアップグレードの詳細については

問題点の修正: 次世代モデルに基づいて日本語の同音異字を作成するための文書ガイドラインを追加

問題点の修正: 次世代モデルに基づく日本語のカスタム言語モデルでは、文字シーケンス ウー が一部の左側のコンテキストであいまいです。 ロ や ト のように、音素 /o/ で終わる文字 (音節) は使用しないでください。このような場合は、 ウー の代わりに ウウ または単に ウ を使用してください。例えば、 ロウーマン の代わりに ロウウマン または ロウマン を使用します。詳しくは、日本語のガイドラインを参照してください。

問題点の修正: 書き起こし結果での display_as フィールドの使用法を修正する

問題点の修正: 次世代モデルで言語モデルをカスタマイズする場合、カスタム単語の display_as フィールドの値がすべての書き起こし結果に表示されるようになりました。以前は、 word フィールドの値が書き起こし結果に表示されることがありました。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 11 月 30 日 (バージョン 4.6.0)

バージョン 4.6.0

Speech to Text for IBM Cloud Pak for Data version 4.6.0 が利用可能になった。このバージョンは IBM Cloud Pak for Data バージョン 4.6.x と Red Hat OpenShift バージョン 4.8 と 4.10 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

Amazon Web Services (AWS) がサポートされるようになりました。

Watson Speech services for IBM Cloud Pak for Data は、 Amazon Web Services™ (AWS™) でサポートされるようになりました。サービスは Amazon Elastic Block Storeをサポートします。これは、Speech サービス・カスタム・リソースの blockStorageClass プロパティーを gp2-csi または gp3-csi に設定することで指定します。

新しいストレージ・クラスがサポートされるようになりました。

Watson IBM Cloud Pak for Data の Speech サービスは、以下の 2 つの追加ストレージ・クラスをサポートするようになりました。

IBM Cloud Block Storage (ibmc-block-gold)
NetApp Trident (ontap-nas)

ストレージ・クラスは、Speech サービス・カスタム・リソースの blockStorageClass プロパティーを使用して指定します。サポートされるすべてのストレージ・クラスについて詳しくは、 Watson Speech services on IBM Cloud Pak for Dataの以下のトピックを参照してください。

「 * Watson Speech サービスのインストール* 」の「 始める前に 」
「 * Watson Speech サービス・カスタム・リソースの使用* 」の「 ストレージ・クラスの指定 」

既知の問題: 一部の Watson Speech サービス・ポッドに、スケジューリングに使用されるアノテーションがない

既知の問題: 一部の Watson Speech サービス・ポッドで cloudpakInstanceId アノテーションが欠落しています。 IBM Cloud Pak for Data スケジューリング・サービスを使用する場合、 cloudpakInstanceId アノテーションのない Watson Speech サービス・ポッドはすべて、以下のようになります。

スケジューリング・サービスではなく、デフォルトの Kubernetes スケジューラーによってスケジュールされます。
割り当て量制約に含まれない

PostgreSQL データ・ストアのモニターが使用可能になりました

PostgreSQL データ・ストアのモニターを有効にして、 Watson Speech サービスによってその使用量と状況に関する更新を受け取ることができるようになりました。イベントは、 Prometheus モニター・ソフトウェアまたはモニターに使用する任意のアプリケーションによってコンシュームできます。デフォルトのプラットフォーム・モニターに加えてユーザー定義プロジェクトのモニターを有効にすることで、 Red Hat® OpenShift® Container Platform モニター・スタックを使用して独自のプロジェクトをモニターできます。この機能には、Speech サービス・カスタム・リソースに追加プロパティー spec.global.datastores.postgressql.enablePodMonitor が含まれています。

詳しくは、 Watson Speech services on IBM Cloud Pak for Dataの「管理」セクションにある「 * Watson Speech サービスの PostgreSQL データ・ストアのモニター* 」トピックを参照してください。

問題点の修正: ランタイム・マイクロサービスのみが有効になっている場合、 PostgreSQL データ・ストアはインストールされなくなりました。

問題点の修正: ランタイム・マイクロサービスのみが有効になっている場合、 PostgreSQL データ・ストアはインストールされなくなりました。これで、 sttAsync、 sttCustomization、または ttsCustomization マイクロサービスの少なくとも 1 つがインストールされている場合にのみ、データ・ストアがインストールされます。後日これらのマイクロサービスが無効になった場合、 PostgreSQL はアンインストールされません。

バージョン 4.6.0より前では、 PostgreSQL は常に Speech サービスとともにインストールされていました。バージョン 4.6.0より前の Speech サービスのランタイム・マイクロサービスのみを使用していた既存のお客様の場合、 PostgreSQL はインストールされたままですが、使用されません。この場合、 PostgreSQL のインストールはアップグレード後も保持されます。

ランタイム・マイクロサービスが依存するため、 MinIO データ・ストアは常にインストールされます。 RabbitMQ データ・ストアは、 sttAsync マイクロサービスがインストールされている場合にのみインストールされます。

詳しくは、「 Watson Speech services on IBM Cloud Pak for Data」の「 * Watson Speech サービス・カスタム・リソースの使用* 」の「 データ・ストア・プロパティー 」を参照してください。

問題の修正: PostgreSQL オペレーターがオペランドをモニターするためにネットワーク・ポリシーを作成する必要がなくなりました。

問題点の修正: バージョン 4.6.0の場合、「2022 年 11 月 10 日(バージョン 4.0.x および 4.5.x)」サービス更新で説明されているように、 PostgreSQL オペレーターがそのオペランドをモニターできるようにするためのネットワーク・ポリシーを作成する必要はありません。バージョン 4.6.0以降では、このシチュエーションはサービスによって自動的に処理されます。

問題点の修正: 低遅延の応答時間を改善するために一部の次世代モデルが更新されました。

問題点の修正: low_latency パラメーターを使用した場合の応答時間を改善するために、以下の次世代モデルが更新されました。

en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony

以前は、これらのモデルは、 low_latency パラメーターが使用されたときに、予期されるほど迅速に認識結果を返しませんでした。これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

問題点の修正: カスタム・モデル命名文書の改善

問題点の修正: この資料では、カスタム言語モデルおよびカスタム音響モデルの命名に関する詳細な規則が提供されるようになりました。詳しくは、以下を参照してください

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 11 月 10 日 (バージョン 4.0.x および 4.5.x)

既知の問題: PostgreSQL オペレーターに必要なネットワーク・ポリシーの更新

既知の問題: Speech サービスのバージョン 4.0.x (バージョン 4.0.0を含まない) および 4.5.xの場合、 PostgreSQL オペレーターと Speech サービスが異なる名前空間にインストールされていると、 PostgreSQL オペレーターは Speech サービスの PostgreSQL オペランドをモニターできません。オペレーターは、Speech サービス用に設定されているネットワーク・ポリシーによってオペランドをモニターできません。

この問題は、 PostgreSQL クラスターの正常な機能を妨げるものではありません。クラスターはアクティブのままで、完全に機能します。ただし、新しいバージョンの Speech サービスにアップグレードすると、オペレーターはオペランドを更新できません。

この問題の解決策は、以下のステップに示すように、 PostgreSQL オペレーター用の追加のネットワーク・ポリシーを作成することです。これらのステップは、 PostgreSQL オペレーターが Speech サービスと同じ名前空間にインストールされているか、別の名前空間にインストールされているかに関係なく実行できます。

Speech サービスがインストールされている Red Hat® OpenShift® プロジェクトの管理者としてログインします。
以下のコマンドを入力して、Speech サービスのネットワーク・ポリシーを更新します。
```
cat << EOF | oc apply -f -
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  labels:
    app.kubernetes.io/component: stt
    app.kubernetes.io/instance: {{ <custom-resource-name> }}
    app.kubernetes.io/name: speech-to-text
    release: {{ <custom-resource-name> }}
  name: <custom-resource-name>-postgres-network-policy
  namespace: {{ <cpd-instance-namespace> }}
spec:
  ingress:
  - from:
    - namespaceSelector: {}
      podSelector:
        matchLabels:
          app.kubernetes.io/name: cloud-native-postgresql
EOF
```
ここで
- <custom-resource-name> はスピーチサービスのカスタムリソース名です。バージョン 4.0.x の推奨名は speech-prod-cr です。バージョン 4.5.x の推奨名は speech-cr です。
- <cpd-instance-name> は、Speechサービスがインストールされているプロジェクト（名前空間）の名前です。資料では、環境変数 ${PROJECT_CPD_INSTANCE} を使用して名前空間を識別します。
更新されたネットワーク・ポリシーによってオペレーターがオペランドをモニターできること、および PostgreSQL クラスターが正常な状態であることを確認するには、以下のコマンドを入力します。ここで、 <custom-resource-name> および <cpd-instance-name> は前のステップで使用した値です。
```
oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
```
PostgreSQL クラスターが正常に機能している場合、このコマンドは以下のような出力を生成します。
```
NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
```

これらのステップによって、オペレーターがオペランドを最新バージョンに更新することはありません。ただし、次に Speech サービス・ソフトウェアをアップグレードするときに、予期したとおりにオペランドがアップグレードされます。

2022 年 10 月 13 日 (バージョン 4.5.3)

バージョン 4.5.3

Speech to Text for IBM Cloud Pak for Data version 4.5.3 が利用可能になった。このバージョンは、 IBM Cloud Pak for Data バージョン 4.5.x と Red Hat OpenShift バージョン 4.6、 4.8、 4.10 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

Speech サービスの監査イベントが使用可能です

IBM Cloud Pak for Data 監査ロギング・サービスは、 Speech to Text サービスと Text to Speech サービスの両方の監査イベントを生成および転送します。監査イベントは、 Activity Tracker で使用可能なイベントとパブリック・サービスで一致します。詳しくは、監査イベントを参照してください。

個別の Speech サービス・コンポーネントをアンインストールすることはできません。

この資料では、個々のサービス・コンポーネント (マイクロサービス) をいったんインストールするとアンインストールできないことが注記されるようになりました。以下のコンポーネントのいずれかを削除するには、 Watson全体をアンインストールし、必要なコンポーネントのみを再インストールする必要があります。 Speech to Text ランタイム、 Speech to Text 非同期 HTTP Speech to Text カスタマイズ、 Text to Speech ランタイム、および Text to Speech カスタマイズ。 Speechサービスのインストールに関する詳細は Watson Speech services on IBM Cloud Pak for Data を参照してください。

フランス系カナダ人の次世代マルチメディア・モデル

同サービスは現在、フレンチ・カナディアン向けに次世代マルチメディア・モデルを提供している。 fr-CA_Multimedia。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルと低遅延の詳細については、以下を参照のこと

英語の次世代テレフォニー・モデルの更新

英語の次世代電話機は、音声認識を改善するために更新されました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

イタリアの次世代マルチメディアモデルが低遅延に対応

イタリアの次世代マルチメディア・モデル it-IT_Multimedia は、低遅延をサポートするようになりました。次世代モデルと低遅延の詳細については、以下を参照のこと

バージョン 4.0.x からバージョン 4.5.x へのアップグレードのトラブルシューティング

Speech サービスをバージョン 4.0.x からバージョン 4.5.xにアップグレードすると、 PostgreSQL ポッドが Terminating 状態でスタックする問題が発生する可能性があります。アップグレード中にこの問題が発生した場合は、以下のステップを実行して問題を解決してください。この情報およびステップは、 Watson Speech services on(音声サービス)IBM Cloud Pak for Dataの アップグレード中 トピックの Watson Speech サービスのバージョン 4.0 からバージョン 4.5 へのアップグレード にも記載されています。

以下のコマンドを使用して、 Terminating 状態のままになっているポッドを識別します。

oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}

以下のコマンドを使用して、 Terminating 状態のままのポッドのリストを含めるように環境変数 pods を設定します。

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'})

以下のコマンドを使用してスタック・ポッドを削除し、アップグレード・プロセスを続行できるようにします。

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})

問題点の修正: カスタム・リソース・エントリーの資料の修正

問題点の修正: Speech サービスのカスタム・リソースの資料で、モデル koKrTelephony および nlNlTelephony の名前の後にコロンが含まれるようになりました。以前は、これらの 2 つの項目の資料ではコロンが省略されていました。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 8 月 19 日 (バージョン 4.5.1)

重要: ほとんどの前世代モデルの非推奨日は、2023 年 3 月 3 日になりました。

置き換え済み: この非推奨の通知は、 2023 年 2 月 23 日のサービス更新に置き換えられました。 すべての 前世代モデルのサービス終了日が 2023 年 7 月 31 日になりました。

2022年3月15日、アラビア語と日本語を除くすべての言語の旧世代モデルは非推奨となった。その時点で、非推奨のモデルは 2022 年 9 月 15 日まで使用可能でした。ユーザーが適切な次世代モデルに移行する時間を増やすために、非推奨モデルは 2023 年 3 月 3 日まで使用可能になります。最初の非推奨通知と同様に、アラビア語および日本語のプレビュー世代モデルは非推奨では ありません。すべての非推奨モデルの完全なリストについては、 2022 年 3 月 15 日(バージョン 4.0.6)のサービスの更新を参照してください。

2023 年 3 月 3 日に、非推奨のモデルはサービスおよび資料から削除されます。非推奨モデルのいずれかを使用している場合は、2023年3月3日までに同等の次世代モデルに移行しなければならない。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
次世代モデルについて詳しくは、次世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。

注：前世代の en-US_BroadbandModel がサービスを終了すると、次世代モデル en-US_Multimedia が音声認識リクエストのデフォルトモデルとなる。

2022 年 8 月 3 日 (バージョン 4.5.1)

バージョン 4.5.1

Speech to Text for IBM Cloud Pak for Data version 4.5.1 が利用可能になった。このバージョンは、 IBM Cloud Pak for Data バージョン 4.5.x と Red Hat OpenShift バージョン 4.6、 4.8、 4.10 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

FIPS 対応クラスターのサポート

Speech to Text for IBM Cloud Pak for Data と Text to Speech for IBM Cloud Pak for Data の両方が、連邦情報処理標準 (FIPS) 対応クラスターでの実行をサポートするようになりました。詳しくは、 FIPS をサポートするサービスを参照してください。

問題点の修正: ポッドの一時的除去を回避するための一時ストレージ計算の修正

障害修正: 問題が修正され、 Speech to Text for IBM Cloud Pak for Data ランタイムおよび Text to Speech for IBM Cloud Pak for Data ランタイムの一時ストレージ制限の計算がより正確になりました。これらの変更により、サービスのランタイムの負荷が高い場合にポッドの強制終了が不定期に発生しないようにします。

問題点の修正: 音声表現と言い淀みマーカーの資料の更新

不具合の修正: 発話のためらいとためらいマーカーに関するドキュメントが更新されました。前世代のモデルには、ほとんどの言語の書き起こし結果において、言い淀みマーカーの代わりに言い淀みマーカーが含まれています。スマート・フォーマット設定により、米国英語の最終書き起こしから言い淀みマーカーが削除されます。次世代モデルでは、書き起こし結果に実際の発話の躊躇が含まれます。スマート・フォーマット設定は、最終的な書き起こし結果への組み込みには影響しません。

詳しくは、以下を参照してください。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 6 月 29 日 (バージョン 4.5.0)

バージョン 4.5.0

Speech to Text for IBM Cloud Pak for Data version 4.5.0 が利用可能になった。このバージョンは、 IBM Cloud Pak for Data バージョン 4.5.x と Red Hat OpenShift バージョン 4.6、 4.8、 4.10 をサポートしています。詳細については、 Watson IBM Cloud Pak for Data site.data.keyword.watson}} 音声サービスを参照してください。

Unified Speech services for IBM Cloud Pak for Data の資料

Speech to Text と Text to Speech の両方のインストールと管理の資料が、 IBM Cloud Pak for Data 資料に結合されました。 Speech サービスのインストールと管理について詳しくは、 Watson Speech services on IBM Cloud Pak for Dataを参照してください。

Speech サービス・カスタム・リソースの変更

これで、Speech サービスを最初にインストールするときにカスタム・リソースが作成されます。このプロセスについては、 IBM Cloud Pak for Data のインストール資料で説明されています。カスタム・リソースの内容が変更されました:

カスタム・リソースの推奨名が speech-prod-cr から speech-cr に変更されました。
ストレージ・クラスへのすべての参照が、 storageClass のバリアントから blockStorageClass に変更されました。
Portworx ブロック・ストレージ・クラスの名前が portworx-shared-gp3 から portworx-db-gp3-sc に変更されました。
MinIO および PostgreSQl データ・ストアの createSecret プロパティーが削除されました。このプロパティーは内部でのみ使用されます。 Speech サービスは、シークレット・オブジェクトを作成すると常にそのシークレット・オブジェクトを使用します。シークレット・オブジェクトが指定されていない場合は、常にオブジェクトを自動的に作成します。

ユーザー提供の秘密オブジェクトが RabbitMQ データ・ストアでサポートされるようになりました

MinIO および PostgreSQL データ・ストアの場合と同様に、 RabbitMQ データ・ストアのセキュリティー資格情報を指定できるようになりました。文書化されたプロセスは、3 つのデータ・ストアすべてについて類似しています。

新しいイタリア語it-IT_Multimedia次世代モデル

このサービスは、イタリア語用の次世代マルチメディア・モデル (it-IT_Multimedia) を提供するようになりました。新しいモデルは一般出荷可能です。低遅延はサポートしませんが、言語モデルのカスタマイズと文法はサポートします。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

韓国語のテレフォニーおよびマルチメディアの次世代モデルの更新

既存の韓国語の次世代モデルが更新されました。

ko-KR_Telephonyモデルが更新され、音声認識の低遅延サポートが改善されました。
ko-KR_Multimedia モデルが更新され、音声認識が改善されました。このモデルでは、低遅延もサポートされるようになりました。

どちらのモデルも一般出荷可能であり、両方とも言語モデルのカスタマイズと文法をサポートします。これらのモデルに基づくカスタム言語モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

複数の次世代テレフォニー・モデルの更新

以下の次世代英語電話機は、音声認識の改良のためにアップデートされました：

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

これらのモデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

障害修正: すべての書き起こし結果について信頼性スコアが報告されるようになりました

障害修正: すべての書き起こし結果について信頼度スコアが報告されるようになりました。以前は、サービスが単一の音声認識要求に対して複数の書き起こしを返した場合、すべての書き起こしに対して信頼度スコアが返されるとは限りませんでした。

対処されたセキュリティー脆弱性

バージョン 4.5.0のセキュリティー脆弱性は修正されませんでした。

2022 年 5 月 25 日 (バージョン 4.0.9)

バージョン 4.0.9 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.9 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

新しいブラジル・ポルトガル語pt-BR_Multimedia次世代モデル

このサービスは、ブラジル・ポルトガル語用の次世代マルチメディア・モデル (pt-BR_Multimedia) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

低遅延をサポートするためのドイツ語de-DE_Multimedia次世代モデルの更新

次世代ドイツ語モデルde-DE_Multimediaは、低遅延をサポートするようになりました。更新されたドイツ語の基本モデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

次世代モデル用の新しいベータcharacter_insertion_biasパラメーター

すべての次世代モデルで、新しいベータ・パラメーターcharacter_insertion_biasがサポートされるようになりました。このパラメーターは、すべての音声認識インターフェースで使用できます。デフォルトでは、長さが異なる候補ストリングの認識のバランスを取るために、サービスは個々のモデルごとに最適化されます。モデル固有のバイアスは 0.0 と同等です。ほとんどの音声認識要求では、各モデルのデフォルト・バイアスで十分です。

ただし、一部のユース・ケースでは、より短い文字列またはより長い文字列を持つ仮説を優先することによって利点が得られる場合があります。このパラメーターは、モデルのデフォルトからの変更を表す -1.0 から 1.0 までの値を受け入れます。負の値は、より短い文字ストリングを優先するようにサービスに指示します。正の値は、より長い文字列を優先するようにサービスに指示します。詳しくは、文字挿入バイアスを参照してください。

Speech サービスは、OADP バックアップおよびリストア・ユーティリティーをサポートしません

Watson Speech サービスは、IBM Cloud Pak for Data OpenShift APIs for Data Protection (OADP) バックアップおよびリストア・ユーティリティーをサポートしません。 Speech サービスがクラスターにインストールされている場合、 IBM Cloud Pak for Data OADP バックアップおよびリストア・ユーティリティーを使用して、そのクラスターにインストールされている他のサービスをバックアップできない可能性があります。この制限は、バージョン 4.0.0 以降のバージョンの Speech サービスに適用されます。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 5 月 1 日 (バージョン 1.2.x)

重要: IBM Cloud Pak for Data バージョン 3.5 上の Speech to Text バージョン 1.2.x のサービス終了: 重要: IBM Cloud Pak for Data バージョン 3.5 上の Speech to Text バージョン 1.2.x は、2022 年 5 月 1 日時点でサービス休止中です。Speech to Text バージョン 1.2.x は、サポートされなくなり、使用できなくなり、文書化されなくなりました。 Watson API Kit の一部である Speech to Text のサービス終了について詳しくは、ソフトウェア・サポートの終了: IBM Watson API Kit for IBM Cloud Pak for Data 1.2.x を参照してください。

2022 年 4 月 27 日 (バージョン 4.0.8)

バージョン 4.0.8 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.8 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

IBM Cloud Pak for Data 資料で使用される新しい環境変数

Speech to Text for IBM Cloud Pak for Data 資料のほとんどのコマンドは、環境変数の共通セットを使用するように更新されました。この資料には、インストール・コマンド、アップグレード・コマンド、および管理コマンドを実行する前に環境変数を自動的にエクスポートするスクリプトが用意されています。スクリプトを読み込むと、ほとんどのコマンドを資料からコピーして、変更を加えずに実行することができます。

スクリプトが定義する環境変数には、以下のものがあります。

${PROJECT_CPD_INSTANCE}は、IBM Cloud Pak for Data および Speech サービスをインストールする予定のプロジェクトを識別します。
${PROJECT_CPD_OPS}は、 IBM Cloud Pak for Data プラットフォーム・オペレーターのプロジェクトを識別します。
${PROJECT_CPFS_OPS}は、IBM Cloud Pak for Data 基本サービスのプロジェクトを識別します。

環境変数の使用について詳しくは、ベスト・プラクティス: インストール変数のセットアップを参照してください。

ttsVoiceMarginalCPUプロパティーは文書化されなくなりました。

Speech サービス・カスタム・リソースの資料からttsVoiceMarginalCPUプロパティーが削除されました。このプロパティーは、並行性と音声合成速度のトレードオフを管理します。デフォルト値400は、ほとんどのお客様にとって妥当なバランスを確保し、リアルタイムの合成を維持します。

新しいドイツ語の次世代マルチメディア・モデル

このサービスは、ドイツ語用の次世代マルチメディア・モデル (de-DE_Multimedia) を提供するようになりました。新しいモデルは一般出荷可能です。低遅延はサポートされません。一般的に使用可能な機能として、言語モデルのカスタマイズと文法をサポートします。

使用可能なすべての次世代モデルとそのカスタマイズ・サポートについて詳しくは、以下を参照してください。

ベータ版の次世代 en-WW_Medical_Telephony モデルは低遅延をサポートするようになりました

ベータ版の次世代 en-WW_Medical_Telephony モデルは低遅延をサポートするようになりました。すべての次世代モデルと低遅延について詳しくは、以下を参照してください。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

2022 年 4 月 8 日 (バージョン 4.0.7)

次世代モデルに基づくカスタム・モデルについて、同音異字のサポートが文書化されました。

次世代モデルに基づくカスタム言語モデルの場合、カスタム単語の同音異字仕様のサポートが文書化されました。同音異字に対するサポートは、2021 年後半から提供されています。

次世代モデルと前世代モデルに基づくカスタム・モデルでは、sounds_likeフィールドの使用に違いがあります。次世代モデルに基づくカスタム・モデルでsounds_likeフィールドを使用する方法について詳しくは、次世代モデルのカスタム単語の処理を参照してください。

重要: 資料から削除された非推奨のcustomization_idパラメーター

重要: 2018 年 10 月 9 日に、すべての音声認識要求のcustomization_idパラメーターが非推奨になり、language_customization_idパラメーターに置き換えられました。 customization_idパラメーターは、音声認識メソッドの資料から削除されました。

WebSocket 要求の /v1/recognize
同期 HTTP 要求の POST /v1/recognize (マルチパートの要求を含む)
非同期 HTTP 要求の POST /v1/recognitions

注: Watson SDK を使用する場合は、customization_idパラメーターの代わりにlanguage_customization_idパラメーターを使用するようにアプリケーション・コードを更新したことを確認してください。 customization_idパラメーターは、次のメジャー・リリースの時点で SDK の同等のメソッドから使用できなくなります。音声認識メソッドについて詳しくは、 API & SDK リファレンスを参照してください。

2022 年 3 月 30 日 (バージョン 4.0.7)

バージョン 4.0.7 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.7 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

デフォルト・モデルを指定するためのカスタム・リソース・プロパティー

音声認識要求のデフォルト音声はen-US_BroadbandModelです。 en-US_BroadbandModelをインストールしない場合は、以下のいずれかを行う必要があります。

各要求で使用する音声を渡すには、modelパラメーターを使用します。
Speech サービス・カスタム・リソースのdefaultSTTModelプロパティーを使用して、Speech to Text for IBM Cloud Pak for Data のインストール済み環境に新しいデフォルト・モデルを指定します。詳しくは、 Watson Speech to Text およびデフォルト・モデルの使用を参照してください。

低遅延をサポートするための英語およびフランス語の次世代マルチメディア・モデルの更新

以下のマルチメディア・モデルが、低遅延をサポートするように更新されました。

オーストラリア英語: en-AU_Multimedia
英国英語: en-GB_Multimedia
米国英語: en-US_Multimedia
フランス語: fr-FR_Multimedia

これらの基本モデルに基づいて作成されたカスタム言語モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、以下を参照してください。

新しいカスティーリャ・スペイン語の次世代マルチメディア・モデル

このサービスは、カスティーリャ・スペイン語用の次世代マルチメディア・モデル (es-ES_Multimedia) を提供するようになりました。新しいモデルは、低遅延をサポートし、一般出荷可能です。また、言語モデルのカスタマイズと文法もサポートします。

使用可能なすべての次世代モデルとそのカスタマイズ・サポートについて詳しくは、以下を参照してください。

ベータ版の次世代en-WW_Medical_Telephonyモデルがスマート・フォーマット設定をサポート

ベータ版の次世代en-WW_Medical_Telephonyモデルでは、米国英語音声のsmart_formattingパラメーターがサポートされるようになりました。すべての次世代モデルについて詳しくは、次世代の言語とモデルを参照してください。

対処されたセキュリティー脆弱性

以下のセキュリティー脆弱性が修正されました。

Red Hat CVE-2022-24407: Cyrus SASL に同梱されている SQL プラグインに欠陥が見つかりました。この脆弱性は、SQL 入力を適切にエスケープできなかったために発生し、不適切な入力検証の脆弱性につながります。この欠陥により、攻撃者は任意の SQL コマンドを実行でき、他のアカウントのパスワードを変更できるため、特権のエスカレーションが可能になります。
セキュリティ情報jwt-go の脆弱性が IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)に影響します。
セキュリティ情報Golang Go の脆弱性が IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)に影響します。
セキュリティ情報: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data は、Spring Framework(CVE-2022-22965)におけるリモートコード実行の影響を受けるが、脆弱性には分類されない。
セキュリティ情報: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data は IBM WebSphere Application Server(CVE-2021-23450)と共に任意のコードを実行される脆弱性があります。

2022 年 3 月 17 日 (バージョン 4.0.6)

次世代モデルの文法サポートが一般出荷可能になりました

文法サポートは、以下の条件を満たす次世代モデルで一般出荷可能 (GA) になりました。

モデルは一般出荷可能です。
モデルは言語モデル・カスタマイズをサポートします。

詳しくは、以下のトピックを参照してください。

次世代モデルの文法サポートの状況について詳しくは、次世代モデルのカスタマイズ・サポートを参照してください。
文法について詳しくは、文法を参照してください。

2022 年 3 月 15 日 (バージョン 4.0.6)

重要: ほとんどの前世代モデルは非推奨です

2022 年 3 月 15 日より、アラビア語および日本語以外のすべての言語の前世代モデルは非推奨になりました。非推奨のモデルは、2022 年 9 月 15 日まで使用可能であり、その時点でサービスおよび資料から削除されます。アラビア語と日本語の旧世代モデルは非推奨ではない。

以下の前世代モデルは非推奨になりました。

中国語 (北京語): zh-CN_NarrowbandModel および zh-CN_BroadbandModel
オランダ語 (オランダ): nl-NL_NarrowbandModel および nl-NL_BroadbandModel
英語 (オーストラリア): en-AU_NarrowbandModel および en-AU_BroadbandModel
英語 (英国): en-UK_NarrowbandModel および en-UK_BroadbandModel
英語 (米国): en-US_NarrowbandModel、en-US_BroadbandModel、および en-US_ShortForm_NarrowbandModel
フランス語 (カナダ): fr-CA_NarrowbandModel および fr-CA_BroadbandModel
フランス語 (フランス): fr-FR_NarrowbandModel および fr-FR_BroadbandModel
ドイツ語: de-DE_NarrowbandModel および de-DE_BroadbandModel
イタリア語: it-IT_NarrowbandModel および it_IT_BroadbandModel
韓国語: ko-KR_NarrowbandModel および ko-KR_BroadbandModel
ポルトガル語 (ブラジル): pt-BR_NarrowbandModel および pt-BR_BroadbandModel
スペイン語 (アルゼンチン): es-AR_NarrowbandModel および es-AR_BroadbandModel
スペイン語 (カスティリャ): es-ES_NarrowbandModel および es-ES_BroadbandModel
スペイン語 (チリ): es-CL_NarrowbandModel および es-CL_BroadbandModel
スペイン語 (コロンビア): es-CO_NarrowbandModel および es-CO_BroadbandModel
スペイン語 (メキシコ): es-MX_NarrowbandModel および es-MX_BroadbandModel
スペイン語 (ペルー): es-PE_NarrowbandModel および es-PE_BroadbandModel

これらの非推奨モデルのいずれかを使用する場合は、サービス終了日までに同等の次世代モデルにマイグレーションする必要があります。

非推奨の各モデルからマイグレーションできる次世代モデルについて詳しくは、前世代の言語とモデルを参照してください。
次世代モデルについて詳しくは、次世代の言語とモデルを参照してください。
前世代モデルから次世代モデルへのマイグレーションについて詳しくは、次世代モデルへのマイグレーションを参照してください。

注: 9 月 15 日に前世代 en-US_BroadbandModel がサービスから削除されると、次世代 en-US_Multimedia モデルが音声認識要求のデフォルト・モデルになります。

次世代モデルが音声解析パラメーターをサポートするようになりました

すべての次世代モデルが、一般出荷可能な機能として以下の音声解析パラメーターをサポートするようになりました。

end_of_phrase_silence_time は、サービスが書き起こしを複数の最終結果に分割する一時停止間隔の期間を指定します。詳しくは、句の終わりの無音時間を参照してください。
split_transcript_at_phrase_end は、入力のセマンティック機能に基づいて書き起こしを複数の最終結果に分割するようにサービスに指示します。詳しくは、句の終わりでの書き起こしの分割を参照してください。

不具合修正：スピーカーラベルのドキュメントを修正

問題点の修正: 話者ラベルの資料には、複数の場所にある以下の誤ったステートメントが含まれています。次世代モデルでは、話者ラベルは、中間結果または低遅延での使用がサポートされていません。 話者ラベルは、次世代モデルの中間結果および低遅延での使用がサポートされています。詳しくは、話者ラベルを参照してください。

2022 年 2 月 23 日 (バージョン 4.0.6)

バージョン 4.0.6 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.6 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

インポート/エクスポート・スクリプトの更新

import_export.shスクリプトとtransfer_ownership.shスクリプトが更新されました。これらのスクリプトは、クラスター間でのデータのインポートとエクスポート、データのバックアップとリストア、およびバージョン 3.5 からバージョン 4.0.x へのデータのマイグレーションに使用されます。スクリプトは以下のように変更され、改善されました。

transfer_ownership.shスクリプトでは、コマンド行の-c引数の前に<custom_resource_name>オプションを含める必要があります。
transfer_ownership.shスクリプトには、リソースの所有権の転送先のバージョンを示す-v <version>オプションと引数が必要になりました。バージョン 3.5 の場合は35、バージョン 4.0.x の場合は40を指定します。
transfer_ownership.shスクリプトでは、コマンド行の-p引数の前に<postgres_auth_secret_name>オプションを含める必要があります。
<postgres_auth_secret_name>引数は、所有権の転送先の PostgreSQL データ・ストアに対する認証に使用される Kubernetes シークレットを提供します。デフォルト値 (バージョン 4.0.x の場合は<custom-resource-name>-postgres-auth-secret、バージョン 3.5 の場合は user-provided-postgressql) と同じ場合は、認証秘密鍵を省略できます。デフォルト値以外のシークレットの場合は、ここで指定する必要があります。
両方のスクリプトに、スクリプトとその使用法に関する情報を表示する-h (--help) オプションが含まれるようになりました。

詳しくは、以下を参照してください

管理 Watson Speech to Text、具体的には データのインポートとエクスポート 、および データのバックアップとリストア。
Watson Speech to Textのアップグレード。具体的には、 * IBM Cloud Pak for Data バージョン 3.5*からのデータのマイグレーション。

OpenShift Container Storage の推奨事項が更新されました

Speech サービス・バージョン 4.0.6 以降、OpenShift Container Storage の推奨ストレージ・クラスは ocs-storagecluster-ceph-rbdです。

Speech サービス 4.0.6 をインストールする場合、または IBM Cloud Pak for Data バージョン 3.5 から Speech サービス 4.0.6 にアップグレードする場合、インストールまたはアップグレード時に ocs-storagecluster-ceph-rbd ストレージ・クラスを指定します。
Cloud Pak for Data バージョン 4.0 の以前のリフレッシュから Speech サービス 4.0.6 にアップグレードする場合は、引き続きocs-storagecluster-cephfsを使用してください。既存のデプロイメントで使用されているストレージを変更することはできません。

この値は、Speech サービス・カスタム・リソースのstorageClassプロパティーで指定されます。

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Speech サービスは、どちらのバージョンの OpenShift Container Storage でも作業します。新しく推奨されたバージョンには、より制限的なアクセス許可があります。詳しくは、以下を参照してください

新しいベータ版の en-WW_Medical_Telephony モデルが使用可能になりました

新しいベータ版の次世代 en-WW_Medical_Telephony が使用可能になりました。新しいモデルは、医学分野と薬理学分野の用語を理解しています。このモデルは、薬名、製品ブランド、医療処置、病気、医師のタイプ、または COVID-19 関連の用語などの一般的な医学用語を書き起こす必要がある状況で使用します。一般的な使用例には、患者と医療提供者 (例えば、医師、看護師、または薬剤師) の間の会話が含まれます。

新しいモデルは、enWwMedicalTelephony を enabled: true に設定することで、Speech サービス・カスタム・リソースからインストールされます。このモデルは、サポートされているすべての英語方言 (オーストラリア、インド、英国、および米国) で使用できます。

このモデルは、ベータ機能として言語モデル・カスタマイズと文法をサポートします。
これは、en-US_Telephony モデルと同じパラメーターの大部分をサポートします。
それは、次のパラメーター low_latency、profanity_filter、redaction、および speaker_labels をサポートしません。
現時点では、smart_formatting for IBM Cloud Pak for Data がサポートされません。

詳しくは、英語の医療テレフォニー・モデルを参照してください。

中国語 zh-CN_Telephony モデルの更新

次世代の中国語モデル zh-CN_Telephony が更新され、音声認識が改善されました。モデルは、低遅延を引き続きサポートします。デフォルトでは、サービスはすべての音声認識要求に対して更新されたモデルを自動的に使用します。次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

更新されたモデルに基づくカスタム言語モデルがある場合は、POST /v1/customizations/{customization_id}/upgrade_model メソッドを使用して更新を利用するために、既存のカスタム・モデルをアップグレードする必要があります。詳しくは、カスタム・モデルのアップグレードを参照してください。

低遅延をサポートするための日本語 ja-JP_Multimedia モデルの更新

次世代の日本語モデル ja-JP_Multimedia は低遅延をサポートするようになりました。 low_latency パラメーターは、モデルを使用する音声認識要求で使用できます。更新された日本語の基本モデルに基づくカスタム・モデルをアップグレードする必要はありません。次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

2022 年 2 月 11 日 (バージョン 4.0.5)

不具合の修正：カスタムモデルのアップグレードとベースモデルのバージョンに関するドキュメントの改善

問題点の修正: カスタム・モデルのアップグレード、およびさまざまなバージョンの基本モデルに使用されるバージョン・ストリングについて説明する資料が更新されました。資料には、言語モデル・カスタマイズのアップグレードが次世代モデルにも適用されることが記載されています。また、さまざまなバージョンの基本モデルを表すバージョン・ストリングが更新されました。また、base_model_version パラメーターは、アップグレードされた次世代モデルでも使用できます。

カスタム・モデルのアップグレード、アップグレードが必要な場合、および古いバージョンのカスタム・モデルを使用する方法について詳しくは、以下を参照してください。

不具合を修正しました：大文字小文字の表記を更新

問題点の修正: サービスの書き起こしの自動大文字化について説明する資料が更新されました。サービスは、以下の言語およびモデルに対してのみ適切な名詞を大文字にします。

すべての前世代の米国英語モデル
次世代のドイツ語モデル

詳しくは、大文字化を参照してください。

2022 年 1 月 31 日 (バージョン 4.0.5)

バージョン 4.0.5 が更新されました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.5 が更新され、インストールの問題に対処できるようになりました。ケース・パッケージのバージョンが 4.0.6 になりました。バージョン 4.0.5 パッケージの代わりにこのパッケージを使用してください。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

重要: ミラーリングされたインストールの追加ステップは不要になりました

重要: 2022 年 1 月 26 日リリース・ノートには、以下のステップに関する重要な注意事項が記載されています。

Minio データ・ストアのミラーリングされたインストールを実行するための追加ステップ
新しい次世代モデルのミラーリングされたインストールを実行するための追加ステップ

これらの追加ステップは不要になりました。インストールの問題を修正するために、ケース・パッケージが更新されました。

2022 年 1 月 26 日 (バージョン 4.0.5)

バージョン 4.0.5 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.5 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

重要: Minio データ・ストアのミラーリングされたインストールを実行するための追加ステップ

重要: ケース・パッケージ 4.0.6 をインストールする場合、これらのステップは不要になりました。詳細については、2022 年 1 月 31 日（バージョン 4.0.5）を参照してください。

ミラーリングされたインストールを (例えば、エアギャップ環境で) 実行する場合は、以下のいずれかのステップを実行する前に、追加のステップを実行する必要があります。

ステップ 7 プライベート・レジストリーへのイメージのミラーリング / 要塞モデルを使用したイメージのミラーリング
ステップ 8 中間コンテナー・レジストリーへのイメージのミラーリング ( 中間コンテナー・レジストリーを使用したイメージのミラーリング の)

このステップは、Minio データ・ストアに必要なイメージをコピーするために必須です。

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

このステップを実行しないと、Speech to Text と Text to Speech の両方でインストール・エラーが発生します。

重要: 新しい次世代モデルのミラーリングされたインストールを実行するための追加ステップ

ミラーリングされたインストールを実行しており (例えば、エア・ギャップ環境で)、Speech to Text 用の新しい次世代モデルのいずれかをインストールする予定の場合 (詳しくは、後のリリース・ノートを参照してください)、以下のいずれかのステップを完了する前に、追加ステップを実行する必要があります。

ステップ 7 プライベート・コンテナー・レジストリーへのイメージのミラーリング / 要塞モデルを使用したイメージのミラーリング
ステップ 8 中間コンテナー・レジストリーへのイメージのミラーリング ( 中間コンテナー・レジストリーを使用したイメージのミラーリング の)

各追加ステップは、インストールされるモデルに固有です。新しいモデルを複数インストールする場合は、インストールする各モデルに示されているコマンドを発行します。

中国語テレフォニー・モデル (zh-CN_Telephony) の場合:

echo 'cp.icr.io,cp/watson-speech/zh-cn-telephony,2022-01-05-405models,sha256:52af6dfccd64ccd81b409936442a51a71f4ee96d980e1fc6a343a05bd4ed7fbc,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

ラテンアメリカ・スペイン語テレフォニー・モデル (es-LA_Telephony) の場合:

echo 'cp.icr.io,cp/watson-speech/es-la-telephony,2022-01-05-405models,sha256:58e8c04abe9659472e89bf0778b7dc66e0ddceb4ea18d9d3e048a08c72125ea2,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

オーストラリア英語マルチメディア・モデル (en-AU_Multimedia) の場合:

echo 'cp.icr.io,cp/watson-speech/en-au-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

英国英語マルチメディア・モデル (en-GB_Multimedia) の場合:

echo 'cp.icr.io,cp/watson-speech/en-gb-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

ライセンス・サーバーが自動的にインストールされるようになりました

Speech サービス・オペレーターは、Speech サービスのインストール時に、必要なライセンス・サーバーを自動的にインストールするようになりました。 IBM Cloud Pak for Data Foundational Services からライセンス・サーバーをインストールする必要がなくなり、必要なバインディングを使用して OperandRequest を作成するために追加の YAML コンテンツを使用する必要がなくなりました。

PostgreSQL EnterpriseDB サーバーに固有のステップの削除

以前のバージョンの資料には、Speech サービスに固有の PostgreSQL EnterpriseDB サーバー用のステップが含まれていました。これらのステップは、Watson Speech to Text のアップグレード (バージョン 4.0) および Watson Speech to Text のアンインストールのトピックに記載されています。これらの追加ステップは不要になり、資料から削除されました。

RabbitMQ データ・ストアは、sttAsync コンポーネントによってのみ使用されるようになりました

RabbitMQ データ・ストアは、以前は Speech サービスの Speech to Text と Text to Speechの両方のコンポーネントによって使用されていました。 Speech to Text 非同期 HTTP コンポーネント (sttAsync) の非永続メッセージ・キューイングのみを処理するようになりました。これは、sttAsync コンポーネントがインストールされて有効になっている場合にのみ使用されます。

新しい次世代モデル

このサービスは、Speech to Text for IBM Cloud Pak for Data で以下の次世代モデルをサポートするようになりました。

中国語 (北京語) テレフォニー・モデル (zh-CN_Telephony)。新しいモデルは低遅延をサポートします。
英語 (オーストラリア) マルチメディア・モデル (en-AU_Multimedia)。新しいモデルは低遅延をサポートしません。
英語 (英国) マルチメディア・モデル (en-GB_Multimedia)。新しいモデルは低遅延をサポートしません。
スペイン語 (ラテンアメリカ) テレフォニー・モデル (es-LA_Telephony)。新しいモデルは低遅延をサポートします。

注: ラテンアメリカ・スペイン語モデル es-LA_Telephony は、すべてのラテンアメリカ方言に適用されます。これは、アルゼンチン、チリ、コロンビア、メキシコ、およびペルーの方言で使用可能な、前世代モデルに相当します。これらの特定の方言のいずれかに対して前世代モデルを使用した場合は、es-LA_Telephony モデルを使用して、同等の次世代モデルにマイグレーションします。

新しいモデルは、音声認識用に一般出荷可能です。これらは、言語モデル・カスタマイズで一般出荷可能で、文法のベータ版です。音響モデル・カスタマイズではサポートされません。

重要: ミラーリングされたインストールを実行しており (例えば、エア・ギャップ環境で)、Speech to Text 用の新しい次世代モデルのいずれかをインストールする予定の場合、イメージをミラーリングする前に、追加ステップを実行する必要があります。詳しくは、以前のリリース・ノートを参照してください。
カスタム・リソースを使用したモデルのインストールについて詳しくは、 Installing Watson Speech to Textを参照してください。
次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。
次世代モデルのカスタマイズ・サポートについて詳しくは、次世代モデルのカスタマイズ・サポートを参照してください。

次世代の米国英語モデルがデフォルトでインストールされるようになりました

次世代の米国英語モデルである en-US_Multimedia および en-US_Telephony が、Speech to Text for IBM Cloud Pak for Data とともにデフォルトでインストールされるようになりました。これらのモデルは、デフォルトでインストールされるモデルとして en-US_BroadbandModel、en-US_NarrowbandModel、en-US_ShortForm_NarrowbandModel を結合します。モデルには Speech サービス・カスタム・リソースに以下の項目が含まれるようになりました。

########################################
# Speech to Text next-generation models
########################################
      enUsMultimedia:    # US English (en-US) Multimedia model
        enabled: true
      enUsTelephony:     # US English (en-US) Telephony model
        enabled: true

For more information about using the custom resource to install models, see Installing Watson Speech to Text.

対処されたセキュリティー脆弱性

Apache Log4j に関連する以下のセキュリティー脆弱性が修正されました。

2021 年 12 月 20 日 (バージョン 4.0.4)

バージョン 4.0.4 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.4 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

重要: ユーザー・データの保管とロギングを無効にするためのプロパティーの変更

重要: ユーザー・データを保管してログに記録するかどうかを指定する Speech サービス・カスタム・リソースのプロパティーの名前が変更されました。カスタム・リソースには、以前は以下のプロパティーが含まれていました。

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

これらのプロパティーの名前は、以下のようになりました。

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

falseのデフォルト値をtrueに変更するためにカスタム・リソースでこれらのプロパティーを既に設定している場合は、カスタム・リソースを編集する必要があります。プロパティーの名前を新しい値に手動で変更し、更新したカスタム・リソースを保存する必要があります。詳しくは、 Watson Speech to Textを参照してください。

重要: PostgreSQL 秘密オブジェクトのプロパティーの変更

重要: Speech サービスをインストールすると、PostgreSQL データ・ストア用にランダムに生成されたパスワードを含むオブジェクトがデフォルトで作成されます。代わりに、パスワードを手動で指定することもできます。これを行うと、秘密オブジェクトの YAML ファイルのプロパティーが変更されます。詳しくは、 Watson Speech to Textの管理でデータ・ストアの管理に関するトピックを参照してください。

重要: PostgreSQL ポッドが EnterpriseDB バージョン 1.10 オペレーターで開始しない

重要: Speech to Text for IBM Cloud Pak for Data バージョン 4.0.3 では、EnterpriseDB バージョン 1.10 オペレーターに基づく PostgreSQL ポッドの開始に失敗する可能性があります。これにより、Speech サービスが開始されなくなります。この問題には回避策があります。 Speechサービスが起動しない場合、問題の診断と解決方法については、 EnterpriseDB バージョン 1.10 オペレータで PostgreSQL ポッドが起動しないを参照してください。

この問題は、Speech to Text for IBM Cloud Pak for Data バージョン 4.0.4 で修正されました。

IBM Spectrum Scale Container Native ストレージ・クラスの新規サポート

バージョン 4.0.3 以降、Speech サービスは IBM Spectrum® Scale Container Native ストレージ・クラスをサポートします。 IBM Spectrum Scaleを使用するには、Speech サービス・カスタム・リソースの storageClass プロパティーに "ibm-spectrum-scale-sc" を指定します。詳しくは、 Watson Speech to Textを参照してください。

インストール時の Speech サービスと MinIO データ・ストアの相互作用

Speech サービスのランタイム・コンポーネント sttRuntime および ttsRuntimeは、サービスのモデルと音声が MinIO データ・ストアに完全にアップロードされるまで開始できません。インストール中に、サービスが失敗し、モデルと音声のアップロードが完了するまで 1 回以上自動的に再始動する場合があります。その後、正しく開始します。ユーザー・アクションは不要です。

不具合の修正：アップグレードドキュメントを修正

障害修正: Speech サービスを新規バージョンの IBM Cloud Pak for Data バージョン 4.0.x にアップグレードするための資料には、一部のコマンドに誤った参照が含まれていました。これで、以下の参照が正しくなりました。

どちらの場合も、ストリングwatsonSpeechToTextStatusおよびwatsonTextToSpeechStatusがspeechStatusに変更されました。
どちらの場合も、ストリングstatus.watsonSpeechToTextVersionおよびstatus.watsonTextToSpeechVersionが.spec.versionに変更されました。

詳しくは、 Upgrading Watson Speech to Textを参照してください。

重要: 特定の次世代モデルに基づくカスタム言語モデルを再作成する必要があります

重要: 特定の次世代モデルに基づくカスタム言語モデルを作成した場合は、カスタム・モデルを再作成する必要があります。カスタム言語モデルを再作成するまで、カスタム・モデルを使用しようとする音声認識要求は HTTP エラー・コード 400 で失敗します。

以下のバージョンの次世代モデルに基づいて作成したカスタム言語モデルを再作成する必要があります。

en-AU_Telephony モデルの場合、en-AU_Telephony.v2021-03-03 から en-AU_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-GB_Telephony モデルの場合、en-GB_Telephony.v2021-03-03 から en-GB_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-US_Telephony モデルの場合、en-US_Telephony.v2021-06-17 から en-US_Telephony.v2021-10-04 に作成したカスタム・モデル。
en-US_Multimedia モデルの場合、en-US_Multimedia.v2021-03-03 から en-US_Multimedia.v2021-10-04 に作成したカスタム・モデル。

カスタム言語モデルのベースとなるモデルのバージョンを識別するには、GET /v1/customizations メソッドを使用してすべてのカスタム言語モデルをリストするか、GET /v1/customizations/{customization_id} メソッドを使用して特定のカスタム言語モデルをリストします。出力の versions フィールドには、カスタム言語モデルの基本モデルが表示されます。詳しくは、カスタム言語モデルのリストを参照してください。

**カスタム言語モデルを再作成するには、**最初に新しいカスタム・モデルを作成します。次に、以前のカスタム・モデルのコーパスとカスタム単語をすべて新しいモデルに追加します。その後、以前のカスタム・モデルを削除できます。詳しくは、カスタム言語モデルの作成を参照してください。

音声認識を改善するための複数の次世代モデルの更新

以下の次世代モデルが更新され、音声認識が改善されました。

オーストラリア英語テレフォニー・モデル (en-AU_Telephony)
英国英語テレフォニー・モデル (en-GB_Telephony)
米国英語マルチメディア・モデル (en-US_Multimedia)
米国英語テレフォニー・モデル (en-US_Telephony)
カスティーリャ・スペイン語テレフォニー・モデル (es-ES_Telephony)

次世代のすべての使用可能なモデルの詳細については、次世代の言語とモデルを参照してください。

次世代モデルのための新しいベータ版の文法サポート

文法サポートは、使用可能なすべての次世代モデルに対してベータ機能として使用可能になりました。すべての次世代モデルは一般出荷可能 (GA) であり、言語モデル・カスタマイズをサポートします。詳しくは、以下のトピックを参照してください。

次世代モデルの文法サポートの状況について詳しくは、次世代モデルのカスタマイズ・サポートを参照してください。
文法について詳しくは、文法を参照してください。

サポートされる機能用の新しい custom_acoustic_model フィールド

GET /v1/models メソッドおよび GET /v1/models/{model_id} メソッドは、モデルが音響モデル・カスタマイズをサポートするかどうかを報告するようになりました。 SupportedFeatures オブジェクトには、追加のフィールド custom_acoustic_model が含まれるようになりました。これは、音響モデル・カスタマイズをサポートするモデルの場合は true、それ以外の場合は false のブール値です。現在、このフィールドは、すべての前世代モデルの場合は true、すべての次世代モデルの場合は false です。

これらのメソッドについて詳しくは、モデルに関する情報のリスト表示を参照してください。
音響モデル・カスタマイズのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

対処されたセキュリティー脆弱性

Apache Log4j に関連する以下のセキュリティー脆弱性が修正されました。

セキュリティ情報 Apache Log4j の脆弱性が IBM Watson の音声サービスカートリッジ IBM Cloud Pak for Data(CVE-2021-4428)に影響を及ぼす可能性があります。

2021 年 12 月 20 日 (バージョン 1.2.x)

重要: IBM Cloud Pak for Data バージョン 3.5 に Speech to Text バージョン 1.2.x をインストールできなくなりました

重要: IBM Cloud Pak for Data バージョン 3.5 で Speech to Text バージョン 1.2.x の新規インストールを実行できなくなりました。 IBM Cloud Pak for Data バージョン 4.x で Speech to Text バージョン 4.0.x のみをインストールできます。詳しくは、 Watson Speech to Textを参照してください。

IBM Cloud Pak for Data バージョン 3.5 の Speech サービスは、2022 年 4 月 30 日にサポート終了日に到達します。できるだけ早く、サービスの最新バージョンの 4.0.x リリースにアップグレードすることをお勧めします。詳しくは、 Upgrading Watson Speech to Textを参照してください。

2021 年 11 月 30 日 (バージョン 4.0.3)

バージョン 4.0.3 が使用可能になりました

Speech to Text for IBM Cloud Pak for Data バージョン 4.0.3 が使用可能になりました。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 と 4.8 をサポートします。サービスのインストールと管理について詳しくは、 Installing Watson Speech to Textを参照してください。

ライセンス・サーバーが必須前提条件になりました

ここで、IBM Cloud Pak for Data Foundational Services からライセンス・サーバーをインストールする必要があります。必要なバインディングを使用して OperandRequest を作成するために提供されている YAML コンテンツを使用して、ライセンス・サーバーをインストールする必要があります。また、IBM Cloud Pak for Data もインストールされているサービス (オペランド) と同じ名前空間にライセンス・サービスをインストールする必要があります。詳しくは、 Watson Speech to Textを参照してください。

インプレース・アップグレードの新規サポート

このサービスは、バージョン 4.0.0 からバージョン 4.0.3 へのインプレース・オペレーター・ベースのアップグレードをサポートするようになりました。 IBM Cloud Pak for Data バージョン 3.5 からバージョン 4.0.3 に移行するには、引き続きマイグレーション・ユーティリティーを使用する必要があります。詳しくは、 Upgrading Watson Speech to Textを参照してください。

EDB PostgreSQL オペレーターおよびライセンスのインストールの変更

Enterprise DB PostgreSQL オペレーターおよびライセンスのインストール、アップグレード、およびアンインストールが変更されました。

EDB PostgreSQL オペレーターおよびライセンスのインストール手順は、IBM Cloud Pak for Data Foundational Services に含まれるようになりました。 Speech サービスのインストール手順が適宜更新されました。詳しくは、 Watson Speech to Textを参照してください。
Speech to Text バージョン 4.0.0 から 4.0.3 へのアップグレード手順には、以前の EDB PostgreSQL オペレーターおよびライセンスをアンインストールし、IBM Cloud Pak for Data 基本サービスを使用してそれらを再インストールする手順が含まれています。詳しくは、 Upgrading Watson Speech to Textを参照してください。
Speech サービスをアンインストールする手順に、以前に Speech to Text でインストールされた EDB PostgreSQL オペレーターおよびライセンスを削除する手順が含まれるようになりました。詳しくは、 Watson Speech to Textのアンインストールを参照してください。

インストール済み環境をスケールアップするための新しいガイダンス

サービスは、インストール済み環境のスケールアップに関する更新されたガイダンスを提供するようになりました。この情報には、ポッドの数、ポッドごとに割り振られる CPU の数、および前世代モデルと次世代モデルとの並行セッションの最大数の指定が含まれます。詳しくは、 Watson Speech to Textの管理を参照してください。

インポート・ユーティリティーおよびエクスポート・ユーティリティーに対するコマンド行の更新

Speech サービスのインポート・ユーティリティーおよびエクスポート・ユーティリティーで使用されるコマンドには、新しいオプションと引数が含まれています。インポートおよびエクスポート・ユーティリティーは、サービスのバックアップとリストア、および IBM Cloud Pak for Data バージョン 3.5 からバージョン 4.0.3 へのマイグレーションのための基盤でもあります。ユーティリティーの詳細については、以下を参照してください

音響モデル・トレーニング用の CPU を指定するための新しいプロパティー

sttAMPatcher マイクロサービスは、サービスの音響モデル・カスタマイズを管理します。 AM パッチャーは、指定された数の専用 CPU を使用して要求を処理します。新しい sttAMPatcher.resources.requestsCPU プロパティーを使用して、AM パッチャーによる音響モデル・トレーニング要求の処理専用の CPU の数を増やすことができます。これは、音響モデル・トレーニング中にトレーニングの失敗が発生した場合に必要になることがあります。詳しくは、 Watson Speech to Textを参照してください。

新しい次世代モデル

このサービスは、以下の新しい次世代言語モデルをサポートするようになりました。新しいモデルはすべて一般出荷可能です。

チェコ語: cs-CZ_Telephony。モデルは低遅延をサポートします。
ベルギー・オランダ語 (フラマン語): nl-BE_Telephony。モデルは低遅延をサポートします。
フランス語: fr-FR_Multimedia。新しいモデルは低遅延をサポートしません。
インド英語: en-IN_Telephony。モデルは低遅延をサポートします。
インド・ヒンディ語: hi-IN_Telephony。モデルは低遅延をサポートします。
日本語: ja-JP_Multimedia。モデルは低遅延をサポートしません。
韓国語: ko-KR_Multimedia。モデルは低遅延をサポートしません。
韓国語: ko-KR_Telephony。モデルは低遅延をサポートします。
オランダ・オランダ語: nl-NL_Telephony。モデルは低遅延をサポートします。

すべての次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

次世代モデルの更新

以下の次世代モデルが更新され、音声認識が改善されました。すべてのモデルが一般出荷可能です。

アラビア語: ar-MS_Telephony。モデルは低遅延をサポートするようになりました。
ブラジル・ポルトガル語: pt-BR_Telephony。モデルは、低遅延を引き続きサポートします。
米国英語: en-US_Telephony。モデルは、低遅延を引き続きサポートします。
カナダ・フランス語: fr-CA_Telephony。モデルは低遅延をサポートするようになりました。
イタリア語: it-IT_Telephony。モデルは低遅延をサポートするようになりました。

すべての次世代モデルおよび低遅延について詳しくは、次世代の言語とモデルおよび低遅延を参照してください。

不具合修正：非同期 HTTP の失敗に対処

問題点の修正: 非同期 HTTP インターフェースが一部の音声の書き起こしに失敗しました。さらに、要求のコールバックにより、recognitions.failed ではなく recognitions.completed_with_results という状況が返されました。このエラーは解決されました。

問題の修正: 話者ラベルの結果の改善

問題点の修正: 次世代モデルで話者ラベルを使用する場合、サービスは、同じ開始タイム・スタンプと終了タイム・スタンプを持つ非常に短い単語を含む、入力音声のすべての単語に対して話者を識別するようになりました。

不具合修正：中間結果および低遅延に関する文書の更新

問題点の修正: 次世代モデルでの中間結果および低遅延機能について説明する資料が、明確さと正確さを考慮して書き直されました。詳しくは、以下のトピックを参照してください。

不具合の修正：マルチテナンシーに関する文書の修正

問題点の修正: IBM Cloud Pak for Data のトピック「マルチテナンシー・サポート」で、Speech サービスがマルチテナンシーをサポートしていないことが誤って示されています。トピックが更新され、Speech サービスが以下の操作をサポートすることが示されるようになりました。

別個のプロジェクトへのサービスのインストール
同じプロジェクトにサービスを複数回インストールする
サービスを 1 回インストールし、同じプロジェクトに複数のインスタンスをデプロイする

Speech サービスに固有の資料には、マルチテナンシー・サポートが正しく記載されています。

2021 年 10 月 1 日 (バージョン 1.1.x)

バージョン 1.1.x はサービス休止中です: Speech to Text および Text to Speech for IBM Cloud Pak for Data バージョン 1.1.x は、2021 年 9 月 30 日にサービス休止になりました。 2021 年 10 月 1 日以降、バージョン 1.1.x の資料は使用できなくなりました。詳しくは、ソフトウェアの営業活動終了およびサポート終了を参照してください。

2021 年 8 月 31 日 (バージョン 4.0.0)

すべての次世代モデルが一般出荷可能になりました

すべての次世代言語モデルが一般出荷可能 (GA) になりました。これらは、実稼働環境およびアプリケーションでの使用がサポートされています。

すべての次世代言語モデル、および IBM Cloud Pak for Data で現在使用可能なモデルについて詳しくは、次世代の言語とモデルを参照してください。
各次世代モデルでサポートされる機能について詳しくは、次世代モデルでサポートされる機能を参照してください。

次世代モデルの言語モデル・カスタマイズが一般出荷可能になりました

言語モデル・カスタマイズは、使用可能なすべての次世代の言語とモデルに対して一般出荷可能 (GA) になりました。次世代モデルの言語モデル・カスタマイズは、実稼働環境およびアプリケーションでの使用がサポートされています。

前世代モデルの場合と同じコマンドを使用して、次世代モデルのカスタム言語モデル、コーパス、およびカスタム単語を作成、管理、および使用します。しかし、次世代モデルのカスタマイズは、前世代モデルのカスタマイズとは異なります。次世代モデルに基づくカスタム・モデルの場合、以下のようにしてください。

カスタム・モデルには、語彙外 (OOV) の単語の概念はありません。
コーパスからの単語は単語リソースに追加されません。
現在、カスタム単語に同音異字機能を使用することはできません。
基本言語モデルの更新時にカスタム・モデルをアップグレードする必要はありません。
文法は現在サポートされていません。

次世代モデルの言語モデル・カスタマイズの使用について詳しくは、以下を参照してください。

追加のトピックでは、カスタム言語モデル、コーパス、およびカスタム単語の管理について説明します。

2021 年 7 月 29 日 (バージョン 4.0.0)

バージョン 4.0.0 が使用可能

IBM Watson® Speech to Text for IBM Cloud Pak® for Data バージョン 4.0.0 が使用可能になりました。サービスのインストールと管理には多くの変更点があります。このバージョンは、IBM Cloud Pak for Data バージョン 4.x および Red Hat OpenShift バージョン 4.6 をサポートします。サービスのインストールおよび管理について詳しくは、IBM Watson Speech to Text for IBM Cloud Pak for Data のインストールを参照してください。

新しい次世代言語モデル

このサービスは、ますます多くの次世代言語モデルをサポートしています。次世代のマルチメディア・モデルおよびテレフォニー・モデルは、サービスの前世代の広帯域モデルと狭帯域モデルの音声認識機能を向上させます。新しいモデルは、深いニューラル・ネットワークと双方向分析を活用して、スループットと書き起こしの正確度の両方を向上させます。

現時点では、次世代言語モデルと low_latency パラメーターはベータ機能です。次世代モデルは限られた数の言語と音声認識機能をサポートします。サポートされる言語、モデル、および機能は、将来のリリースで増加します。

次世代モデルの多くは、新しい low_latency パラメーターもサポートしています。このパラメーターを使用すると、書き起こしの品質が低下する可能性がありますが、より迅速な結果を要求することができます。低遅延が有効になっている場合、サービスは音声の分析を削減します。これにより、書き起こしの正確度を低下させることができます。このトレードオフは、アプリケーションが必要とする応答時間が、可能な限り高い正確度よりも短い場合に許容される可能性があります。

low_latency パラメーターは、WebSocket インターフェースでの interim_results パラメーターの使用に影響します。中間結果は、interim_results と low_latency パラメーターの両方が true に設定されている場合に限り、低遅延をサポートする次世代モデルでのみ使用可能です。

次世代モデルとその機能について詳しくは、次世代の言語とモデルを参照してください。
次世代モデルの言語サポートについて、およびどの次世代モデルが低遅延をサポートするかについて詳しくは、サポートされる次世代言語モデルを参照してください。
次世代モデルの機能サポートの詳細については、次世代モデルのサポート機能を参照してください。
low_latency パラメーターについて詳しくは、低遅延を参照してください。

アラビア語広帯域モデルの名前変更

アラビア語広帯域モデルの名前が ar-MS_BroadbandModel になりました。以前の名前ar-AR_BroadbandModelは推奨されません。少なくとも 1 年間は機能し続けますが、将来の日付で削除される可能性があります。できるだけ早く新しい名前に移行することをお勧めします。

統一された Speech to Text 資料

IBM Watson Speech to Text for IBM Cloud Pak for Data の資料は、IBM Cloud でホストされている Speech to Text サービスの管理対象インスタンスの資料と組み合わされました。これは、サービスの 2 つの形式のガイドと参照資料の両方に当てはまります。サービス用の以前の個別のバージョンの IBM Cloud Pak for Data 資料へのリンクは、統合された資料にリダイレクトされます。

1 つのバージョンの製品のみに関連する識別情報について詳しくは、Speech to Text についてを参照してください。

問題点の修正: 文書化の改善

不具合を修正しました： ドキュメントが更新され、以下の情報が修正されました：

資料では、次世代モデルで言い淀みマーカーが生成されないことを記述できませんでした。資料が更新され、前世代モデルのみが言い淀みマーカーを生成することに注意しています。次世代モデルでは、書き起こし結果に実際の躊躇が含まれます。詳しくは、 Speech hesitations and hesitation marker を参照してください。
この資料では、smart_formatting パラメーターを使用すると、サービスが日本語の最終書き起こし結果から言い淀みマーカーが削除されることが誤って記述されています。スマート・フォーマット設定では、日本語の最終結果から言い淀みマーカーは削除されません。米国英語の場合のみです。詳しくは、スマート・フォーマット設定はどのような結果に影響しますか。を参照してください。

バージョン 1.1.x はサービス休止になっています

Speech to Text および Text to Speech for IBM Cloud Pak for Data バージョン 1.1.x は、2021 年 9 月 30 日でサービス休止状態になります。その日付より前に、IBM Cloud Pak for Data で新しいバージョンのサービスにアップグレードする必要があります。 2021 年 10 月 1 日以降、バージョン 1.1.4 の資料は使用できなくなります。

2021 年 4 月 12 日 (バージョン 1.2.1)

speech-override.yamlファイルへの追加

最小限のspeech-override.yamlファイルには、追加の定義dockerRegistryPrefixが含まれています。

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry} は、内部 Docker レジストリーのパスです。これはimage-registry.openshift-image-registry.svc:5000/{namespace}でなければなりません。ここで、{namespace}は、IBM Cloud Pak® for Data がインストールされている名前空間 (通常はzen) です。

2021 年 4 月 9 日 (バージョン 1.2.1)

インストール済みモデルおよび音声の変更のサポート: Speech サービスを使用すると、バージョン 1.2 または 1.2.1 のサービスのインストール済みモデルと音声を追加または削除できます。

バージョン 1.2.1 (2021 年 3 月 26 日)

バージョン 1.2.1 が使用可能

Speech to Text for IBM Cloud Pak for Data バージョン 1.2.1 が使用可能になりました。バージョン 1.2 と 1.2.1 は、同じバージョン 1.2 の資料とインストール手順を使用します。バージョン 1.2.1 は、バージョン 4.5 および 3.11 に加えて、Red Hat OpenShift バージョン 4.6 へのインストールをサポートします。

新しいインストール手順

インターネットに接続されている両方のクラスターとエアギャップ・クラスターの場合、インストール手順には以下のステップが含まれます。

IBM Cloud Pak for Data がインストールされている名前空間に必要なラベルをセットアップするには、oc labelコマンドを使用します。
oc projectコマンドを使用して、正しい OpenShift プロジェクトを指定していることを確認します。
cpd-cli installコマンドを使用して、Speech サービスによって使用される Enterprise DB PostgreSQL サーバーをインストールします。

Speech サービスをインストールする前に以下のステップを実行します。

新しいアンインストール手順

インストール済み環境からすべてのリソースをクリーンアップするために、Speech サービスをアンインストールする手順にステップが追加されました。

PostgreSQL データ・ストアのライセンスがあるレジストリー

サービスが PostgreSQL データ・ストアのイメージをプルするためのライセンスが付与されているレジストリー・パスが変更されました。レジストリーの場所がcp.icr.io/cp/watson-speechからcp.icr.io/cp/cpdに変更されました。この変更はユーザーには認識されません。

Minio および PostgreSQL データ・ストアの秘密

Minio および PostgreSQL データ・ストアの秘密には、以下のハードコーディングされた値が必要です。

Minioの場合は、minioを使用します。
PostgreSQLの場合は、user-provided-postgressqlを使用します。

これらの秘密に独自の値を使用することはできません。これらの秘密は、Speech サービスをインストールする前に作成する必要があります。

speech-override.yamlファイルからの削除

以下の項目がspeech-override.yamlファイルから削除されました。これらは、修正された問題を回避するために追加されました。

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

簡略化されたspeech-override.yamlファイルは、通常、その内容を重要なエレメントに微調整することにより、さらに縮小されています。

バージョン 1.2 (2020 年 12 月 9 日)

バージョン 1.2 が使用可能

Speech to Text for IBM Cloud Pak for Data バージョン 1.2 の一般提供が開始されました。サービスのインストールと管理には多くの変更点があります。このバージョンでは IBM Cloud Pak for Data バージョン 3.5 と 3.0.1、および Red Hat OpenShift のバージョン 4.5 と 3.11 がサポートされています。

新しいオーストラリアとフランス・カナダのモデル

オーストラリア英語とカナダ・フランス語の広帯域モデルと狭帯域モデルの提供が開始されました。

オーストラリア英語: en-AU_BroadbandModel および en-AU_NarrowbandModel
カナダ・フランス語: fr-CA_BroadbandModel および fr-CA_NarrowbandModel

言語モデルと音響モデルの両方のカスタマイズをサポートする新しいモデルが一般出荷可能になりました。

サポートされる言語およびモデルについて詳しくは、前世代の言語とモデルを参照してください。
各言語でのカスタマイズのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

音声認識を改善するための更新されたモデル

以下の言語モデルが更新され、音声認識が改善されました。

ブラジル・ポルトガル語: pt-BR_BroadbandModel および pt-BR_NarrowbandModel
フランス語: fr-FR_BroadbandModel
ドイツ語: de-DE_BroadbandModel および de-DE_NarrowbandModel
日本語: ja-JP_BroadbandModel
英国英語: en-GB_BroadbandModel および en-GB_NarrowbandModel
米国英語: en-US_ShortForm_NarrowbandModel

デフォルトでは、サービスはすべての音声認識要求に対して自動的に更新されたモデルを使用します。このモデルに基づくカスタム言語モデルまたはカスタム音響モデルがある場合は、以下のメソッドを使用して既存のカスタム・モデルをアップグレードし、更新を活用する必要があります。

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

詳しくは、カスタム・モデルのアップグレードを参照してください。

split_transcript_at_phrase_end パラメーターは、すべての言語で一般出荷可能になりました

音声認識パラメーター split_transcript_at_phrase_end が、すべての言語で一般出荷可能になりました。以前は、米国英語と英国英語でのみ一般出荷可能でした。詳しくは、句の終わりでの書き起こしの分割を参照してください。

ドイツ語の言い淀みマーカーが変更されました

更新されたドイツ語の広帯域モデルと狭帯域モデルに使用される言い淀みマーカーが、[hesitation] から %HESITATION に変更されました。言い淀みマーカーについて詳しくは、言い淀みマーカーと言い淀みマーカーを参照してください。

不具合修正：文法数が多いモデルの待ち時間の問題に対処

問題点の修正: サービスで、多数の文法が含まれているカスタム言語モデルの待ち時間の問題が修正されています。このようなカスタム・モデルが音声認識に最初に使用されるときに、読み込みに数秒かかることがありました。カスタム・モデルの読み込みが大幅に速くなり、認識に使用される際の待ち時間が大きく短縮されました。

2020 年 7 月 15 日 (バージョン 1.1.4)

Red Hat OpenShift バージョン 4.3 はサービス休止になっています。: IBM Cloud Pak for Data 3.0.1 では、2020 年 9 月 1 日に Red Hat OpenShift 4.3 のサポートが非推奨になります。 Red Hat OpenShift 4.3 は 2020 年 10 月 22 日でサービス休止になっています。IBM Cloud Pak for Data では、Red Hat OpenShift 4.5 のサポートが導入されています。IBM Cloud Pak for Data では、2020 年 10 月 22 日より前に Red Hat OpenShift 4.5 にアップグレードすることをお勧めします。 IBM サポートは Red Hat OpenShift 4.3 に既に IBM Cloud Pak for Data 3.0.1 をインストールしているすべてのお客様への協力を行って参ります。 Red Hat OpenShift 4.x 上でのインストールを希望する新しいお客様は、Red Hat OpenShift 4.5 をインストールするように指示されています。

2020 年 6 月 19 日 (バージョン 1.1.4)

バージョン 1.1.4 が使用可能

Speech to Text for IBM Cloud Pak for Data バージョン 1.1.4 の一般提供が開始されました。サービスのインストールと管理には多くの変更点があります。このバージョンでは IBM Cloud Pak for Data バージョン 2.5 と 3.0.1、および Red Hat OpenShift のバージョン 3.11 と 4.3 がサポートされています。サービスのインストールと管理の詳細については、'Installing and managing Speech to Text for IBM Cloud Pak for Data を参照してください。

発話区間検出のレベルを制御する新しいパラメーター

発話区間検出のレベルを制御するために 2 つの新しいオプション・パラメーターが追加されました。これらのパラメーターにより、目的の音声のみを音声認識の対象として処理できるようになります。

speech_detector_sensitivity パラメーターは、発話区間検出の感度を調整します。このパラメーターを使用して、音楽や咳などの発話以外のイベントによる単語の挿入を抑制できます。
background_audio_suppression パラメーターは、背景音声を音量に応じて除去することで、背景音声が書き起こされたり音声認識を阻害したりしないようにします。このパラメーターを使用して、周囲の会話や背景ノイズを抑制できます。

これらのパラメーターは、個別に使用することも一緒に使用することもできます。これらは、すべてのインターフェース、およびほとんどの言語モデルで使用できます。各パラメーター、指定可能な値、およびパラメーターが音声認識の品質と待ち時間に与える影響について詳しくは、発話区間検出を参照してください。

オランダ語とイタリア語の新しい広帯域モデルと狭帯域モデル

オランダ語とイタリア語の広帯域モデルと狭帯域モデルがサポートされるようになりました。

オランダ語広帯域モデル (nl-NL_BroadbandModel)
オランダ語狭帯域モデル (nl-NL_NarrowbandModel)
イタリア語広帯域モデル (it-IT_BroadbandModel)
イタリア語狭帯域モデル (it-IT_NarrowbandModel)

オランダ語モデルとイタリア語モデルで、音声認識および言語モデルと音響モデルのカスタマイズの一般提供 (GA) が開始されました。提供されているすべての言語モデルについて詳しくは、以下を参照してください。

ドイツ語と韓国語の speaker_labels パラメーターのサポート

ドイツ語および韓国語の言語モデルの話者ラベル (speaker_labels パラメーター) がサポートされるようになりました。話者ラベルは、どの個人が多重参加者交換でどの単語を話したかを識別します。詳しくは、話者ラベルを参照してください。

日本語の狭帯域モデルの音声認識の改善

日本語の狭帯域モデル (ja-JP_NarrowbandModel) に、数字と小数を表すマルチグラムの単語単位がいくつか含められました。スマート・フォーマット設定を有効にするかどうかに関係なく、サービスはこれらのマルチグラム単位を返します。スマート・フォーマット設定機能は、モデルが生成したマルチグラム単位を理解して返します。独自の後処理を書き起こしの結果に適用する場合は、このような単位を適切に処理する必要があります。詳しくは、スマート・フォーマット設定の資料の日本語を参照してください。

バックアップとリストアの簡素化

サービスのバックアップとリストアの手順が大幅に向上しました。ユーティリティーを使用してデータ・ストアからデータをバックアップできるようになったので、災害時にデータをすべて再作成する必要がなくなりました。詳細については、'Watsonスピーチサービスデータのバックアップとリストア.

2020 年 4 月 1 日 (バージョン 1.1.3)

音響モデル・カスタマイズが一般出荷可能になりました: サポートされているすべての言語で、音響モデルのカスタマイズの一般提供 (GA) が開始されました。個々の言語モデルのサポートについて詳しくは、各言語でのカスタマイズのサポートを参照してください。

2020 年 2 月 28 日 (バージョン 1.1.3)

バージョン 1.1.3 が使用可能です

Speech to Text for IBM Cloud Pak for Data バージョン 1.1.3 の一般提供が開始されました。

新しい end_of_phrase_silence_time パラメーター

音声認識で end_of_phrase_silence_time パラメーターがサポートされるようになりました。このパラメーターで指定した休止間隔の時間を過ぎると、サービスは書き起こしを複数の最終結果に分割します。最終結果ごとに、休止間隔を超えた休止または長い無音が示されます。ほとんどの言語では、デフォルトの休止間隔は 0.8 秒です。中国語の場合、デフォルトの間隔は 0.6 秒です。

このパラメーターを使用して、最終結果の生成頻度と書き起こしの正確度のトレードオフを制御できます。待ち時間よりも正確度が重要な場合は、間隔を長くしてください。話者が短い句または単一語を発話することが予想される場合は、間隔を短くしてください。

詳しくは、句の終わりの無音時間を参照してください。

新しい split_transcript_at_phrase_end パラメーター

音声認識で split_transcript_at_phrase_end パラメーターがサポートされるようになりました。このパラメーターは、入力の意味素性に基づいて、文の終わりなどで書き起こしを複数の最終結果に分割するようにサービスに指示します。サービスの意味素性の理解性能は、要求で使用する基本言語モデルがベースになります。カスタム言語モデルおよび文法も、書き起こしを分割する方法と場所に影響を与えることがあります。

このパラメーターを指定すると、最終結果ごとに、分割した理由 (end_of_utterance、full_stop、silence 、または end_of_data) を示す reset フィールドが追加されます。

詳しくは、句の終わりでの書き起こしの分割を参照してください。

speaker_labels パラメーターの改善

音声認識の場合、speaker_labels パラメーターが更新され、音声サンプルをさらに分析するための個々の話者の識別が改善されました。話者ラベルの機能について詳しくは、話者ラベルを参照してください。機能の改善に関する詳細は、 IBM Research AI Advances Speaker Diarization in Real Use Casesを参照。

2019 年 11 月 27 日 (バージョン 1.1.2)

バージョン 1.1.2 が使用可能: Speech to Text for IBM Cloud Pak for Data バージョン 1.1.2 の一般提供が開始されました。
カスタム・モデルの最大数: 所有する資格情報ごとに、作成できるカスタム言語モデルの最大数は 1024 で、カスタム音響モデルの最大数は 1024 です。詳しくは、カスタム・モデルの最大数を参照してください。

2019 年 8 月 30 日 (バージョン 1.0.1)

バージョン 1.0.1 が使用可能です

Speech to Text for IBM Cloud Pak for Data バージョン 1.0.1 の提供が開始されました。サービスを IBM Cloud Pak for Data 2.1.0.1 で使用できるようになりました。 IBM Cloud Pak for Data を Red Hat OpenShift にインストールできるようになりました。

スペイン語方言の新しい広帯域モデルと狭帯域モデル

このサービスは、6 種類のスペイン語方言で広帯域言語モデルと狭帯域言語モデルを提供するようになりました。

スペイン語 (アルゼンチン) (es-AR_BroadbandModel および es-AR_NarrowbandModel)
スペイン語 (カスティリャ語) (es-ES_BroadbandModel および es-ES_NarrowbandModel)
スペイン語 (チリ) (es-CL_BroadbandModel および es-CL_NarrowbandModel)
スペイン語 (コロンビア) (es-CO_BroadbandModel および es-CO_NarrowbandModel)
スペイン語 (メキシコ) (es-MX_BroadbandModel および es-MX_NarrowbandModel)
スペイン語 (ペルー) (es-PE_BroadbandModel および es-PE_NarrowbandModel)

カスティリャ・スペイン語モデルは新機能ではありません。音声認識および言語モデルのカスタマイズでは一般出荷可能、音響モデルのカスタマイズではベータ版です。

その他の 5 つの方言のモデルは新機能であり、どの用途についてもベータ版です。これらの追加方言はベータ版であるため、実動使用向けに対応しておらず、変更される可能性があります。これらは初回オファリングであり、今後の時間の経過と使用に伴い品質が向上することが期待されています。

詳しくは、以下のセクションを参照してください。

FISMA サポート

Speech to Text for IBM Cloud Pak for Data で、連邦情報セキュリティー管理法 (FISMA) がサポートされるようになりました。このサービスは FISMA High に対応しています。

2019 年 6 月 28 日 (バージョン 1.0.0)

バージョン 1.0.0 が使用可能

サービスの初期リリースであるバージョン 1.0.0 が使用可能になりました。Speech to Text for IBM Cloud Pak for Data は、パブリック IBM Cloud 上の IBM Watson® Speech to Text サービスに基づいています。Speech to Text for IBM Cloud Pak for Data は、以下の点でパブリック Speech to Text サービスとは異なります。パブリック Speech to Text 上の IBM Cloud サービスを既によく知っている場合、この情報が役立つことがあります。

Speech to Text for IBM Cloud Pak for Data は認証のためにアクセス・トークンを使用します。詳しくは、 API & SDK リファレンスを参照してください。
Speech to Text for IBM Cloud Pak for Data のエンドポイントは、使用する IBM Cloud Pak for Data クラスターに固有のものです。詳しくは、 API & SDK リファレンスを参照してください。
Speech to Text for IBM Cloud Pak for Data は、要求ロギングを実行しません。 X-Watson-Learning-Opt-Out 要求ヘッダーを使用する必要はありません。
Speech to Text for IBM Cloud Pak for Data は Watson トークンをサポートしていません。 X-Watson-Authorization-Token 要求ヘッダーを使用してサービスで認証することはできません。