IBM Cloud Docs
Discovery のリリースノート IBM Cloud

Discovery のリリースノート IBM Cloud

各リリースに含まれていた機能と変更点、および製品ソフトウェアの更新について説明します。

IBM Cloud

この情報は、 IBM Cloud でホストされている、またはプロビジョニングされた IBM Watson® Discovery の管理対象インスタンスのみに適用されます。 IBM Cloud Pak for Data as a Service。 インストール済みのデプロイメントのリリースとアップデートに関する情報は 、 IBM Watson® Discovery Cartridge for IBM Cloud Pak® for Data のリリースノート をご覧ください。

2024 年 2 月 29 日

新規 Intelligent Document Processing (IDP) プロジェクト・タイプ
IDP プロジェクト・タイプは、 Discoveryの新しいデフォルト・プロジェクト・タイプです。 IDP プロジェクト・タイプを使用して、リッチ文書プレビューで文書から抽出されたデータを素早く理解し、エンリッチメントを適用することでデータを改善します。 詳しくは、 Intelligent Document Processing を参照してください。

2024 年 1 月 29 日

コレクションの作成時に正規化の見出し語化の代わりにステミングを有効にする
見出し語化の代わりにステミングを選択して、索引および照会内の単語を正規化できるようになりました。 詳しくは、 キュレーションされていないデータに対するステミングの有効化 を参照してください。

2023 年 11 月 16 日

IBM-Cloud 管理対象インスタンスのプレミアム・プランで、コレクション詳細の取得、文書のリスト表示、および文書詳細の取得のための API がサポートされるようになりました。
プレミアム・プランでは、2023 年 11 月 16 日以降に作成されたコレクションに対して API がサポートされます。 以前に作成されたコレクションに関する情報を取得したい場合は、ドキュメントに対して取り込みの変換ステップを実行するプロセスをトリガします。 例えば、 「フィールドの識別 (Identify fields)」「フィールドの管理 (Manage fields)」CSV 設定、または 「処理設定 (Processing settings)」 (OCR 設定など) ページで変更を行うか、古いコレクションに Smart Document Understanding モデルを適用することで、API を有効にすることができます。

新しい API について詳しくは、API リファレンス資料を参照してください。

2023 年 11 月 7 日

コレクションのデータのプレビュー
コレクション内の文書をプレビューできます。 拡張文書ビューでデータをプレビューするには、 「コレクションの管理」 ページにナビゲートし、コレクション・タイルで 「データのプレビュー」 をクリックします。 あるいは、プレビューするコレクションを開き、 「データのプレビュー」 をクリックすることもできます。

2023 年 10 月 4 日

イメージ内のヘブライ語テキストの光学式文字認識 (OCR) 機能は、 Discovery のベータ機能です。

OCR が有効になっている場合、テキスト抽出および OCR で識別されたテキスト抽出には、ヘブライ語の制限があります。 これらの制限には、以下のようなものがあります。

  • プレーン・テキスト抽出の単語の順序が不正確である
  • テキスト形式および HTML 形式で抽出されたコンテンツは、異なるワード順序でテキストを表示します。
  • 句読点と改行がテキスト内に正しく配置されていない
  • コレクション設定に応じて、単語内のテキストの順序が逆になります。
  • ページにプレーン・テキストとイメージ・テキストが含まれている場合、テキストが欠落しているか、テキストが誤って配列されているか、あるいはその両方が発生する可能性があります。
エンティティー抽出のラベル付きデータのエクスポート

LLM (Large Language Model) のトレーニングまたは構築のために、エンティティー抽出プログラムのラベル付きデータをエクスポートできます。 詳しくは、 エンティティー抽出のラベル付きデータのエクスポート を参照してください。

文書内でエンティティーの例としてラベル付けする用語を見つけます。

文書内のエンティティーの例としてラベル付けする用語を検索できるようになりました。 また、ラベル付きエンティティーとラベルなしエンティティーの例を見つけて、ラベルの不整合を修正することもできます。 詳しくは、 キーワードを使用した例の検索 を参照してください。

任意のモデルを使用して文書にアノテーションを付けるための外部エンリッチ機能。

Webhook インターフェースを介して、コレクション内の文書をエンリッチするために、カスタム・モデルまたは拡張ファウンデーション・モデル、およびその他のサード・パーティー・モデルを使用できます。 詳しくは、 外部エンリッチ API を参照してください。

「品詞 (Part of Speech)」 エンリッチメントは、コンテンツ・マイニング以外のプロジェクト・タイプでは使用できなくなりました。

辞書の提案には 「品詞 (Part of Speech)」 エンリッチメントが使用されていました。 ただし、辞書の提案が更新され、 「品詞 (Part of Speech)」 エンリッチメントを適用しなくても機能できるようになりました。 コンテンツ・マイニング・プロジェクトの場合、以前と同様に 「品詞 (Part of Speech)」 エンリッチメントを使用できます。

2023 年 9 月 21 日

すべての言語のトークナイザーが更新されました

更新されたトークナイザーは、特定の照会の結果のランキング順序に影響する可能性があります。 照会結果にランキングの違いがある場合は、コレクション内の文書を再索引付けできます。 ディスカバリーは、データを索引に取り込んで保管するときと、実行時にユーザーによって実行依頼された照会を分析するときの両方で、ワードをトークン化します。 コレクションを再索引付けすることにより、照会のマッチングに使用されるのと同じトークナイザーを使用して文書が索引付けされるようになります。

文書の再索引付けを行うには、 「コレクションの管理」 ページを開き、コレクションを選択して、 「エンリッチメント」 タブにナビゲートします。 エンリッチするフィールドを選択し、フィールドをクリアします。 次に、 「変更を適用して再処理 (Apply changes and reprocess)」 をクリックし、コレクション内の文書が再処理されるのを待ちます。

2023 年 8 月 15 日

クロール・スケジュールを適用または削除するオプション
このオプションは、クロール・スケジュールを簡単に適用または削除したり、クロールを停止したりする場合に役立ちます。 詳しくは、 クロール・スケジュール・オプション を参照してください。

2023 年 8 月 9 日

UI からデータを照会するときにコンテンツを抽出するフィールドを指定できるようになりました。
フィールドを指定する機能により、デフォルト・フィールドでコンテンツがインデックス付けされない場合の検索結果を向上させることができます。 構造化ファイルを取り込むとき、または Smart Document Understanding モデルを適用するときに、デフォルト・フィールドでコンテンツに索引が付けられない場合があります。 詳しくは、 Excerpt unavailable を参照してください。
PDF の拡張文書ビューのエンリッチメントは、異なる色で強調表示されます。
PDF の拡張文書ビューで複数のエンリッチメントを選択すると、文書内の各エンリッチメント・タイプが異なる色で強調表示されます。 重複するエンリッチメントも、別個の色で強調表示されます。

2023 年 7 月 26 日

クロール・スケジュールのカスタム日時を指定できるようになりました。
このオプションは、営業時間中にターゲット・システムに重い負荷がかからないようにする場合に役立ちます。 詳しくは、 クロール・スケジュール・オプション を参照してください。

2023 年 6 月 10 日

すべてのエンティティー・エンリッチメントは、エンティティー v2 タイプ・システムを使用します。
Natural Language Understanding エンティティー v1 はサポートされなくなりました。 2021 年 6 月 2 日より前に作成された IBM Cloud インスタンス、および Discovery for IBM Cloud Pak for Data 2.x デプロイメントでは、英語および韓国語のコレクションにバージョン 1 の Natural Language Understanding エンティティー・タイプ・システムが使用されました。 現在、すべてのコレクションは、 Natural Language Understanding エンティティー・タイプ・システムのバージョン 2 のみを使用します。
分類器はより明確に識別される
「エンリッチメント (Enrichments)」 ページには、分類器エンリッチメントが テキスト分類器 または 文書分類器 エンリッチメントのいずれかとしてリストされます。

2023 年 5 月 16 日

Smart Document Understanding (SDU) のユーザー・トレーニング・モデルを作成するための改善されたツール
ユーザーがトレーニングした SDU モデルの作成時に文書にアノテーションを付けるために使用する SDU ツールは、React UI フレームワークを使用するようになりました。 この更新によってツールの動作が変更されることはありませんが、ツールの即応性が向上します。
コレクション API を使用して JSON 正規化を定義できるようになりました。
「コレクションの作成 (Create a collection)」 メソッドおよび 「コレクションの更新 (Update a collection)」 メソッドで、コレクション内の文書に正規化操作を適用するために指定できる conversions オブジェクトおよび normalizations オブジェクトの追加がサポートされるようになりました。 例えば、文書の JSON 表現で 1 つのフィールドを別のフィールドにコピーまたはマージする操作を定義できます。 conversions オブジェクトは、取り込み中に行われる正規化操作を定義し、 normalizations オブジェクトは、エンリッチメントが適用された後に行われる正規化操作を定義します。 詳しくは、 Collections API referenceを参照してください。

2023年3月31日

API バージョンへの更新

現在の API バージョン (v2) は 2023-03-31 です。 このバージョンでは、1つの変更が加えられた。

document_id という名前のフィールドの処理方法が変更されました。

document_id という名前のフィールドを含む JSON ファイルをコレクションに追加すると、そのフィールドは無視されます。 文書が索引に追加されると、システムはその文書に新しい固有文書 ID を割り当てます。 ファイル・タイプに関係なく文書 ID を文書に割り当てるには、API から Update document メソッドを使用します。

Previously, when you uploaded a JSON file with a field named document_id from the product user interface or by using the Add document API method, the document ID from the file was shown as the document_id value in query results. However, a different document ID was assigned to the document, and the assigned ID had to be used for certain other tasks, such as deleting the document. If your application relies on the previous behavior, specify a version number earlier than 2023-03-31, such as 2020-08-30, in your API calls.

2023 年 3 月 2 日

コレクションに追加するファイルのタイプを指定できるようになりました。
外部データ・ソースに接続するときに、外部データ・ソースからコレクションに追加するファイルのタイプを制限できます。 例えば、Box データ・ソースから PDF ファイルのみを追加することを選択できます。

2023 年 2 月 21 日

光学式文字認識 v2 テクノロジーが使用されます。

すべての IBM Cloud サービス・プランで英語、ドイツ語、フランス語、スペイン語、オランダ語、ブラジル・ポルトガル語、およびヘブライ語のコレクションに対して OCR を有効にすると、最新バージョン (OCR v2) が自動的に使用されます。

新しい光学式文字認識モデルは、 IBM Research によって開発され、スキャンされた文書やその他の画像からテキストを抽出する際に以下の制限があります。

  • スキャナーの設定が正しくないこと、解像度が不十分であること、不適切な照明 (モバイル・キャプチャーなど)、フォーカスの喪失、位置合わせされていないページ、および正しく印刷されない文書による低品質の画像
  • 不規則フォントまたはさまざまな色、フォント・サイズ、および背景を持つ文書
エンティティー抽出の制限が変更されました

プラス・プランのトレーニング・データで許可される文書の数が 100 から 200 に増えました。

プランごとに作成できるエンティティー・タイプの数が減少しました。

  • プレミアム・プランの場合、制限が 75 から 18 に変更されました。
  • エンタープライズ・プランの場合、制限が 50 から 18 に変更されました。
  • プラス・プランの場合、制限は 20 から 12 に変更されました。
ストリング・バリエーション演算子が句を処理するようになりました。

句を含む照会入力にストリング・バリエーション演算子を組み込むと、そのバリエーションは句内の各単語に適用されます。 例えば、 "tom cat"~1 は、 tom cat に加えて top hat にも一致します。 Discovery 照会言語の演算子について詳しくは、 照会演算子 を参照してください。

2023 年 2 月 10 日

エンティティー抽出プログラムの一般提供

「エンティティーの抽出 (Extract entities)」 エンリッチメントは、カスタム・タイプ・システムを Discoveryにビルドする強力な機能を提供します。 このツールを使用して業界データ内のエンティティー例にラベルを付け、 Discovery がビジネスにとって意味のある用語を認識するために使用できる機械学習モデルを作成します。 Knowledge Studioにエンティティー・タイプ・システムが既に作成されていますか? Knowledge Studio からのコーパスを、 Discovery エンティティー抽出トレーニング・データの開始点として使用できます。 詳しくは、 エンティティー抽出 を参照してください。

機能がベータ版であったときにテスト目的でエンティティー抽出エンリッチメントを作成した場合、その機能は一般出荷可能になったため、カスタム・モデルの制限にカウントされます。 エンティティー抽出エンリッチメントは、コレクションに適用されているかどうかに関係なく課金されます。

2023 年 2 月 7 日

毎時クロールのサポートが削除されました

1 時間ごとにデータ・ソースをクロールすることを選択できなくなりました。 既存のコレクションが毎時クロールするように構成されている場合は、次にコネクター設定を編集するときに、スケジュールされたクロールを変更するように求めるプロンプトが出されます。

コレクションの FAQ 抽出を有効にできなくなりました

ベータ FAQ 抽出機能を有効または無効にするチェック・ボックスが削除されました。 FAQ 抽出は、クロール時にデータ・ソースから質問と回答のペアをキャプチャーするベータ機能でした。 FAQ 抽出では、ペアごとに新しいサブドキュメントが生成され、質問が title フィールドに保管され、回答が text フィールドに保管されます。

FAQ 抽出を新規コレクションに適用することはできません。

FAQ 抽出が有効になっている既存のコレクションは、コレクションが再処理されるまで索引内に FAQ 文書を保持します。 その時点で、質問と回答のペアのサブドキュメントのほとんどが削除されます。 ただし、HTML または TXT ソース・ファイルから生成された FAQ サブドキュメントは残ります。 これらのサブドキュメントを削除するには、 「データの管理」 ページに移動して削除します。 1 つの親文書から生成されるサブドキュメントは、すべて同じ metadata.parent_document_id 値を持ちます。

質問と回答の一貫性のあるスタイルとフォーマットを使用するソース文書から質問と回答のペアを抽出する方法が必要な場合は、Smart Document Understanding ツールを使用して、代わりにペアにアノテーションを付けることができます。 詳しくは、 Smart Document Understanding の使用 を参照してください。

2023 年 1 月 25 日

「読み取り」 権限を持つ Microsoft SharePoint Online データ・ストア・コネクターをセットアップします。

Open Authentication v2を使用して SharePoint データ・ソースをクロールするために Microsoft SharePoint Online コネクターを作成する場合、接続を行うために Discovery によって作成されるエンタープライズ・アプリケーションには 「読み取り」 権限のみが必要です。 以前に構成したエンタープライズ・アプリケーションには、 「書き込み」 権限が必要でした。

新しい読み取り権限構成を使用できるように既存のコネクターを更新する場合は、まず既存のエンタープライズ・アプリケーションを削除する必要があります。

詳しくは、 Microsoft SharePoint Online コネクター を参照してください。

FAQ 抽出の非推奨の発表

文書から質問と回答のペアを検出して抽出するベータ FAQ 抽出機能が削除されました。 この機能のサポートは、 1Q 2023 で終了します。

2022 年 12 月 6 日

データ・ソース・クロールを停止できるようになりました
進行中のクロール、または将来発生するようにスケジュールされているクロールを停止することができます。 詳しくは、 クロールの停止 を参照してください。

以下の項目は既知の問題です。

Box データ・ソースのスケジュール済みクロールで文書が更新されない
Box Events API の問題が原因で、Box に保管されている文書のクロール間に発生した変更は、スケジュールされた再クロール中に Discovery コレクションによって検出されず、取得されません。 コレクションが最新であることを確認するには、クロールを停止して再始動します。

2022 年 12 月 1 日

Plus プランでサポートされるエンティティー抽出の数が減少する
プラス・プランで作成できるエンティティー・エクストラクターの最大数が 6 から 3 に減少しました。

2022 年 11 月 12 日

ディスカバリー・ユーザーは、11 月 1 日から 11 月 11 日の間に追加または処理された OCR が有効になっているコレクション内の文書で問題が発生する可能性があります。

2022 年 11 月 1 日から 11 日の間に、契約プロジェクトの文書の取得など、光学式文字認識 (OCR) が有効になっている一部のプロジェクトで問題が発生しました。 これらの問題は、その時間フレーム中に英語、ドイツ語、フランス語、スペイン語、オランダ語、ブラジル・ポルトガル語、およびヘブライ語のコレクションに対して自動的に有効にされた、新しいバージョンの光学式文字認識 (OCR v2) 機能に関連していました。 新しいバージョンでは、契約の要素識別やエンティティー抽出ツールの文書ラベル付けビューなど、他の機能に悪影響を与える可能性がある方法で文の境界が変更されます。

この期間中に追加または処理されたドキュメントでこれらの問題が発生した場合は、ドキュメントに適用されている OCR のバージョンを元に戻します。 2022 年 11 月 12 日以降、OCR が有効になっているすべてのコレクションに OCR v1 が適用されます。 OCR v1の使用に戻るには、影響を受ける文書を再処理する変更を行います。 例えば、時間フレーム中に追加されたドキュメントを再追加して、再処理することができます。 あるいは、コレクション全体を再処理することもできます。

コレクションを再処理するには、 「コレクションの管理」 ページでコレクションを開き、 「処理設定」 タブに移動します。 「その他の処理設定」 セクションを展開し、OCR スイッチを 「オフ」 に設定してから、 「オン」 に戻します。 「変更を適用して再処理」 をクリックして、コレクションを再処理します。

2022 年 11 月 2 日

改善された新しい光学式文字認識テクノロジーを利用できます。

新しいバージョンの光学式文字認識テクノロジーが使用可能になりました。 すべての IBM Cloud サービス・プランで英語、ドイツ語、フランス語、スペイン語、オランダ語、ブラジル・ポルトガル語、およびヘブライ語のコレクションに対して OCR を有効にすると、この最新バージョン (OCR v2) が自動的に使用されます。 新しい光学式文字認識モデルは、 IBM Research によって開発され、スキャンされた文書やその他の画像からテキストを抽出する際に以下の制限があります。

  • スキャナーの設定が正しくないこと、解像度が不十分であること、不適切な照明 (モバイル・キャプチャーなど)、フォーカスの喪失、位置合わせされていないページ、および正しく印刷されない文書による低品質の画像
  • 不規則フォントまたはさまざまな色、フォント・サイズ、および背景を持つ文書

2022 年 11 月 1 日

エンティティー抽出プログラムは、トレーニング・データ文書から最初の 40,000 文字をロードします。
カスタム・エンティティーの例を定義するために使用するコレクションからの追加の長い文書も、ツールの文書ビューにロードされます。 ただし、最初の 40,000 文字 (約 15 から 20 ページ) のみが表示されます。 残りのファイル内容は切り捨てられます。 文書ビューに通知が表示されるため、文書が切り捨てられているかどうかが分かります。 詳しくは、 エンティティー抽出 を参照してください。
文書ごとのパッセージの設定を 1 より高くすることができます。
バグが修正され、製品のユーザー・インターフェースの検索バー設定を使用して、ドキュメントごとに返すパッセージの最大数を増やすことができなくなりました。 詳しくは、 パッセージの派生方法 を参照してください。
照会集約の資料の改善
照会集約パラメーターで指定できる集約タイプについて説明する資料が更新されました。 詳しくは、 照会の集約 を参照してください。

2022 年 9 月 30 日

ライト・プランはロンドンのデータ・センターから使用できなくなりました
ライト・プランは廃止されました。 ライト・プラン・タイプを使用する 新規 サービス・インスタンスは、ロンドンを含むどの場所にも作成できません。 新しいプラス・プランとそれに関連する 30 日間の無料試用版を使用して、新機能と、最新バージョンの製品で使用可能なより簡単なビルド方法を検討します。

2022 年 9 月 22 日

プラス・プランでは、より多くのエンティティー抽出プログラムがサポートされます
プラス・プランで作成できるエンティティー・エクストラクターの最大数が 3 から 6 に増えました。
Smart Document Understanding モデルを Microsoft Excel ファイルに適用できない
Excel ファイルに対して作成できる構造分析の品質は十分ではありません。 2022 年 9 月 22 日以降、Excel ファイルに SDU モデルを適用できなくなりました。 この変更は、SDU モデルが 2022 年 9 月 22 日より前に適用されたコレクション内の Excel ファイルには影響しません。

2022 年 9 月 16 日

クロールされた PDF ファイルに対してコンテキスト内文書プレビューを使用できるようになりました。
PDF 文書から抽出された検索結果からパッセージをクリックして表示すると、元の PDF ページのコンテキストで返されたパッセージを示す文書プレビュー・ページが表示されます。 コンテキスト内ビューは、Smart Document Understanding モデルが適用されている PDF ファイルで使用できます。

2022 年 8 月 15 日

SDK が更新され、最新の API 変更が反映されました。

以下の Discovery v2 API の変更が SDK に反映されるようになりました。

  • Use the new document classifier API to get, add, update, or delete a document classifier.

  • A new document status API is available. You can use it to get a list of the documents in a collection and to get details about a single document.

  • You can now get, add, and remove a stop words or expansion list for a collection.

  • A smart_document_understanding field is returned with the Get collection method. This new field specifies whether an SDU model is enabled for the collection and indicates the model type.

  • A similar parameter is available from the Query method. Use it to find documents that are similar to documents of interest to you.

  • The suggested_refinements parameter of the Query method is deprecated. The suggested_refinements parameter was used to identify dynamic facets from Premium plan data.

2022 年 8 月 8 日

より大きな文書をクロールできます。
プレミアム・プランでは、クロールされた文書に許可される最大ファイル・サイズが増やされました。 また、Box、 IBM Cloud Object Storage、 Salesforce のコネクタでも増加しました。 詳しくは、 ファイル・サイズの制限 を参照してください。

2022 年 8 月 2 日

IBM Cloud Object Storage コネクタにIAM認証サポートが追加されました
IBM Cloud Identity and Access Management (IAM)サービスで認証を行うことを選択できるようになりました。 詳細については、 IBM Cloud Object Storage

2022 年 7 月 28 日

API の更新

Discovery v2 APIに対して以下の変更が行われました。

以下の新規フィールドが使用可能です。

  • Get collection メソッドを使用して、 smart_document_understanding フィールドが返されます。 この新規フィールドは、SDU モデルがコレクションに対して有効かどうかを指定し、モデル・タイプを示します。
  • similar パラメーターは、 Query メソッドから使用できます。 これを使用して、関心のある文書に類似した文書を検索します。

Query メソッドの suggested_refinements パラメーターは推奨されません。 プレミアム・プラン・データから動的ファセットを識別するために、 suggested_refinements パラメーターが使用されました。

ディスカバリー v1 の非推奨の発表

Watson Discovery v1 は非推奨になります。 Watson Discovery v1 を使用している既存のお客様は、サポート終了日 2023 年 7 月 11 日より前に Watson Discovery v2 にマイグレーションするよう求められます。 サポート終了とは、2023 年 7 月 11 日以降は v1 インスタンスが機能しないことを意味します。 マイグレーションについて詳しくは、 Discovery を最大限に活用する を参照してください。

2022 年 7 月 11 日

拡張文書ビューでは、さらに多くのエンリッチメントが強調表示されます。

Watson 自然言語処理モデルによって認識される組み込みの エンティティー および キーワード ・エンリッチメントに加えて、拡張文書ビューでは、以下のタイプのエンリッチメントが強調表示されるようになりました。

  • カスタム辞書用語
  • 定義する正規表現パターンに一致する用語または数値
  • Watson Knowledge Studio の機械学習モデルおよびルール・ベース・モデルによって定義されるカスタム・エンティティーおよび関係
  • ベータ・フィーチャーとして使用可能なエンティティー抽出ツールを使用して定義されたカスタム・エンティティー

文書に追加できるエンリッチメントについて詳しくは、 ドメイン固有のリソースの追加 を参照してください。

2022 年 6 月 30 日

Watson SDK サポートの変更

以下の SDK のサポートは、 IBMではなく、開発者の Watson コミュニティーによって提供されます。

  • Go
  • Ruby
  • Swift
  • Unity

詳しくは、 Watson SDK を参照してください。

2022 年 6 月 1 日

エンティティー抽出ツールが使いやすくなりました。
ユーザー・インターフェースが再設計され、エンティティー・タイプの追加とそれらの例のラベル付けのワークフローのサポートが改善されました。 新しい設計の一部として、一括ラベル付け機能がデフォルトで有効になり、文書ビューの検索と使用が容易になり、提案ペインの応答性が向上し、複数のトレーニング実行にわたってメトリック・スコアを追跡できるようになりました。 エンティティー抽出について詳しくは、 Discovery で認識できる用語のカスタマイズ を参照してください。
エンティティー抽出は、より多くの計画および言語で使用できるようになりました。
エンティティー抽出ベータ機能は、プレミアム・プランに加えて、プラス・プランとエンタープライズ・プランのユーザーが使用できるようになりました。 抽出プログラムのエンリッチメントは、英語以外の言語のコレクションでサポートされます。
ウェブクロールコネクターから開始 URL を削除すると、関連付けられたドキュメントも削除されます
Web クロール・コネクターが更新されました。 2022年4月以降に作成するコレクションから、Web クローリング構成から開始 URL を削除すると、その URL のウェブページのコンテンツから派生したインデックス化されたドキュメントは、次のクロール時に削除されます。 詳しくは、 Web クロール を参照してください。

2022 年 5 月 16 日

ストップワードおよび拡張リストを処理するための API メソッドが追加されました。
コレクションのストップワードまたは拡張リストをプログラマチックに取得、追加、および削除できるようになりました。 詳しくは、 照会変更 メソッドを参照してください。

2022 年 5 月 13 日

改善された JSON ビューを使用できます
キーボード・キーを使用して、ビュー内の要素をタブで移動できるようになりました。 新しい JSON ビューでは、各 JSON オブジェクト内のエレメントの出現箇所にも番号が付けられます。これにより、情報の追跡や合計の一目での読み取りが容易になります。

2022 年 4 月 20 日

分析 API はエンタープライズ・プラン・デプロイメントでサポートされます

分析 API を使用して、コレクションの構成設定に従って JSON ファイルを処理し、そのファイルをコレクションに保管せずにリアルタイムで使用するために返します。 分析 API は、以前にインストールされたデプロイメントでのみサポートされていました。 詳しくは、分析 API を参照してください。

新しいドキュメント状況 API が使用可能になりました

新しいドキュメント状況 API を使用して、コレクション内のドキュメントのリストをプログラマチックに取得し、単一のドキュメントに関する詳細を取得します。 このリリースには以下の注意事項が適用される:

  • この API は、2022 年 3 月 23 日より後に作成されたコレクションでサポートされます。

    先に作成されたコレクションに関するステータス情報を取得したい場合は、ドキュメントに対して取り込みの変換ステップを実行するプロセスをトリガします。 例えば、 「フィールドの識別」「フィールドの管理」CSV 設定、または 「処理設定」 (OCR や FAQ 抽出設定など) ページで変更を行うか、Smart Document Understanding モデルを古いコレクションに適用することで、API を有効にすることができます。

  • この API は、プラス・プラン・インスタンスおよびエンタープライズ・プラン・インスタンスからのみ使用可能です。

新しい API について詳しくは、API リファレンス資料を参照してください。

追加のメッセージが表示され、文書処理の状況が通知されます。

取り込みプロセス中に、文書の変換と索引付けの状況に関する通知メッセージが表示されないという問題が修正されました。 問題が修正されたため、ドキュメントを追加または再処理するときに、通常より多くのメッセージが表示されることがあります。 この増加が予想されます。 メッセージの増加の原因となったものはありません。

2022 年 4 月 6 日

プロジェクト・タイルには、より直感的なメニューがあります。
プロジェクト・タイルが更新され、プロジェクトの削除や名前変更などのアクションを実行するために使用できるオーバーフロー・メニューが組み込まれました。

2022年3月30日

新しい文書分類器 API が使用可能になりました

新しい文書分類器を使用して、文書分類器をプログラマチックに取得、追加、更新、または削除します。 ドキュメント分類機能は、インストールされたインスタンス( IBM Cloud Pak for Data )または IBM Cloud が管理するプレミアムまたはエンタープライズプランのインスタンスでサポートされています。

新しい API について詳しくは、API リファレンス資料を参照してください。 製品のユーザー・インターフェースを使用して文書分類器を追加する方法について詳しくは、 文書の分類 を参照してください。

21 2022 年 3 月

文書内で検出されたエンリッチメントの視覚化

クリックして検索結果からパッセージを表示すると、検索結果が見つかった元の文書の表現を示す文書プレビュー・ページが表示されます。 ほとんどの文書タイプでは、文書の新しい 拡張ビュー を開いて、文書内で検出されたエンリッチメントの出現回数などの有用な要約情報を表示できます。 また、いずれかのエンリッチメントを選択して、文書テキスト内のエレメントのすべての出現箇所を強調表示することもできます。

現在は、 「エンティティー」 および 「キーワード」 エンリッチメントのみがリストされます。

PDF 文書からの検索結果のフォーマットの改善

PDF 文書から抽出された検索結果からパッセージをクリックして表示すると、元の PDF ページのコンテキストで返されたパッセージを示す文書プレビュー・ページが表示されます。

コンテキスト内ビューは、Smart Document Understanding モデルが適用されている PDF ファイルで使用できます。 リッチ・プレビューは画像では機能しません。つまり、スキャンされた PDF 文書では機能しません。 コンテキスト内ビューは、すべての言語の PDF で使用できます。ただし、エンリッチメントの強調表示は、一部の言語では正しく調整されていない場合があります。

ご意見・ご感想をお聞かせください。

製品のユーザー・インターフェースのページ・ヘッダーにある 「フィードバックの共有」 ボタンをクリックすることで、いつでも意見やアイデアをお寄せください。

2022年3月10日

新しい 「データの管理」 ページからコレクション内のデータを管理する
「コレクションの管理」 ナビゲーション・ペインから、コレクションの 「データの管理」 ページにアクセスできるようになりました。 そこに移動すると、コレクション内の文書のリストが表示され、文書に関する情報のクイック・ビューが表示されます。 数回クリックするだけで、コレクションから文書を削除することもできます。 詳しくは、 照会結果からのコンテンツの除外 を参照してください。

2022 年 2 月 15 日

Microsoft Sharepoint Online コネクターでは、代替の認証メカニズムを使用できます。
新しい IBM Cloud コネクターを構成するときに、Open Authentication を使用して Microsoft SharePoint に直接サインインできるようになりました。 外部データ・ソースでの認証にオープン認証を使用する 「Microsoft でサインイン (Sign in with Microsoft)」 オプションは、ベータ機能です。 詳しくは、 Microsoft SharePoint Online を参照してください。

2022 年 1 月 7 日

プラスからエンタープライズへのアップグレード (支援なし)
プラス・プランからエンタープライズ・プランへのインプレース・アップグレードを実行できます。 詳しくは、 アップグレード を参照してください。

2021 年 12 月 6 日

動的コンテンツを使用した Web ページのクロールが一般提供されるようになりました。
「クロール中に JavaScript を実行」 機能はベータ機能として導入されましたが、現在は一般提供されています。 詳しくは、 Web クロール を参照してください。
クロールされた文書からの SharePoint ACL 情報の取り込み
これで、 SharePoint Online コレクションに追加された文書に ACL 情報をメタデータとして保管するようにデータ・ソース・クロールを構成できます。 詳しくは、 Microsoft SharePoint Online を参照してください。
ベータ・エンティティー抽出モデルのトレーニング・データにさらに文書を追加できます。
モデルをトレーニングするために 20 個の文書を追加してラベルを付けた後で、引き続きモデルのパフォーマンスを向上させたい場合は、さらに文書を追加できます。 モデルのトレーニングに使用するコレクションに追加文書を追加します。 最初の 20 個の文書にラベルを付けた後、モデルが最新で変更があれば、文書のラベル付けを続行することを選択できます。 コレクションに追加した新規文書がロードされます。 それらにラベルを付けてトレーニング・データを拡張してから、モデルをリトレーニングすることができます。 詳しくは、 Discovery が認識できる用語のカスタマイズ を参照してください。
ログアウト Discovery
製品ユーザー・インターフェースのページ・ヘッダーから使用可能なユーザー・プロファイル・メニューから 「ログアウト」 をクリックすると、いつでも Discovery サービス・インスタンスからログアウトできます。

2021 年 11 月 18 日

エンタープライズ・プランがどこでも利用できるようになりました
エンタープライズ・プランは、すべてのデータ・センター・ロケーションから使用できます。 エンタープライズグレードのサポートとパフォーマンスで、 Discovery アプリケーションを拡張および保護し、契約分析や文書全体の洞察を探るコンテンツマイニングなど、より多くのユースケースに対応します。 詳しくは、Discovery の料金プランを参照してください。

2021 年 11 月 11 日

エンタープライズ・プランの新規ロケーションが使用可能になりました
エンタープライズ・プランは、ダラス・ロケーションに加えて、フランクフルト、ロンドン、シドニー、および東京の各ロケーションから使用できます。

2021 年 11 月 3 日

新規エンタープライズ・プラン
エンタープライズグレードのサポートとパフォーマンスで、 Discovery アプリケーションを拡張および保護し、契約分析や文書全体の洞察を探るコンテンツマイニングなど、より多くのユースケースに対応します。 現在、エンタープライズ・プランはダラス・ロケーションからのみ使用可能です。 詳しくは、Discovery の料金プランを参照してください。
新しいベータ・エンティティー抽出エンリッチメント
「エンティティーの抽出 (Extract entities)」 エンリッチメントは、カスタム・タイプ・システムを Discoveryにビルドする強力な機能を提供します。 このツールを使用して業界データ内のエンティティー例にラベルを付け、 Discovery がビジネスにとって意味のある用語を認識するために使用できる機械学習モデルを作成します。 現在、このベータ機能は、プレミアム・プランのサービス・インスタンスで作成された英語プロジェクトでのみ使用できます。 詳しくは、 Discovery が認識できる用語のカスタマイズ を参照してください。
新しい 「役立つリンク」 タブ
ホーム・ページには、資料、コミュニティー・サイト、およびその他のリソースへのクイック・リンクを含む 「役立つリンク」 タブがあります。
フィールド選択項目の改善
フィールドにエンリッチを適用する場合、またはファセットのソースとして使用するフィールドを選択する場合、ここで選択するために表示されるフィールドには、有効な選択項目であるフィールドのみが含まれます。 以前は、リストには有効な選択項目ではないフィールドが含まれていました。

2021 年 10 月 14 日

新規 Discovery ホーム・ページ
Discovery を開始すると、新しいホーム・ページが表示され、製品概要のビデオとツアーに素早くアクセスできます。 ホーム・ページのウェルカム・バナーを省略して、さらに多くのプロジェクトを表示することができます。
新規プラン使用セクション
「プランの制限と使用量 (Plan limits and usage)」 ページで、プランの使用量に関する通知を受け取り、プラン・タイプの制限に照らして使用量を確認します。 製品ページのヘッダーから、ユーザー・アイコン 「ユーザー」アイコン をクリックします。 「使用法」 セクションには、簡単な要約が表示されます。 すべてのプラン制限カテゴリーの使用量情報を表示するには、 「すべて表示」 をクリックします。
検索でのスペル設定の変更
スペル修正の設定が、新規プロジェクトで自動的に有効になる設定から、デフォルトで無効になる設定に変更されました。 照会で用語のつづりを誤ったときにユーザーに警告する場合は、 *「スペル提案」*をオンにします。 詳しくは、 検索バーのカスタマイズ を参照してください。
ガイド付きツアー の可用性の向上
ガイド付きツアー 」ボタンが製品ページ・ヘッダーから使用可能になり、どこからでもアクセスできるようになりました。 以前は、 「マイ・プロジェクト」 ページからのみ使用可能でした。

2021 年 10 月 1 日

すべてのロケーションのライト・プランと拡張プランに変更
ライト・プランと拡張プランは廃止されました。 ダラス、フランクフルト、ロンドン、シドニー、東京、およびワシントン DC の各ロケーションに、ライト・プラン・タイプまたは拡張プラン・タイプを使用する 新規 サービス・インスタンスを作成することはできません。 既存のライト・プランおよび拡張プランは引き続き正常に機能し、引き続きサポートされます。 ライトプランからアドバンスプランにアップグレードできます。 新しいプラス・プランとそれに関連する 30 日間の無料試用版を使用して、新機能と、最新バージョンの製品で使用可能なより簡単なビルド方法を検討します。

2021 年 9 月 24 日

NLU エンリッチメントの新規スコアリング
検索によって返される NLU エンリッチメントの関連性スコアと信頼性スコアが表示されます。 例えば、照会結果から文書プレビューの JSON ビューを開くと、エンティティー・メンションの信頼性スコアとキーワード・メンションの関連性スコアが表示されます。

2021 年 9 月 9 日

プラス・プランの新規ロケーション
プラス・プランがシドニー・ロケーションから使用可能になりました。 新しいプラス・プランとそれに関連する 30 日間の無料試用版を使用して、新機能と、最新バージョンの製品で使用可能なより簡単なビルド方法を検討します。 詳しくは、 Discovery を参照してください。
ほとんどのロケーションでのライト・プランと拡張プランへの変更
ライト・プランと拡張プランは廃止されました。 ダラス、フランクフルト、ロンドン、シドニー、東京、またはワシントン DC のロケーションに、ライト・プラン・タイプまたは拡張プラン・タイプを使用する 新規 サービス・インスタンスを作成することはできません。 既存のライト・プランおよび拡張プランは引き続き正常に機能し、引き続きサポートされます。 ライトプランからアドバンスプランにアップグレードできます。

2021 年 8 月 26 日

プラス・プランの新規ロケーション
プラス・プランは、ダラス、フランクフルト、東京に加え、ロンドンとワシントン DC のロケーションからも使用できるようになりました。
一部のロケーションでのライト・プランと拡張プランへの変更
ダラス、フランクフルト、ロンドン、東京、またはワシントン DC の各ロケーションで、ライト・プラン・タイプまたは拡張プラン・タイプを使用する 新規 サービス・インスタンスを作成することはできません。 既存のライト・プランおよび拡張プランは引き続き正常に機能し、引き続きサポートされます。 ライトプランからアドバンスプランにアップグレードできます。
新しい回答の検索機能
回答の検出結果は、管理対象デプロイメントで一般提供されるようになりました。 質問に対する簡潔な回答を返す場合は、回答の検出結果を使用します。 詳しくは、 回答の検索 を参照してください。

2021 年 8 月 16 日

プラス・プランの新規ロケーション
プラス・プランは、ダラスに加え、フランクフルトと東京のロケーションからも使用できるようになりました。
一部のロケーションでのライト・プランと拡張プランへの変更
ライト・プランと拡張プランは提供されなくなりました。 ダラス、フランクフルト、または東京のロケーションでは、ライト・プラン・タイプまたは拡張プラン・タイプを使用する 新規 サービス・インスタンスを作成できません。 既存のライト・プランおよび拡張プランは引き続き正常に機能し、引き続きサポートされます。 ライトプランからアドバンスプランにアップグレードできます。

2021 年 7 月 27 日

文書サイズ制限の改善
文書サイズの限界が増やされました。 プレミアム・プランのコレクションの場合、サイズが 32 MB ではなく 50 MB までのファイルをアップロードできるようになりました。 詳しくは、 文書の制限 を参照してください。

2021 年 7 月 23 日

SharePoint Online コネクターの改善
Microsoft SharePoint Online データ・ソース・コネクターは、有効なすべての Azure Active Directory ユーザー ID 構文を受け入れるようになりました。ユーザー ID の形式は、 <admin_user>@.onmicrosoft.com 構文と一致する必要はありません。 詳しくは、 Microsoft SharePoint Online を参照してください。

2021 年 7 月 16 日

新しいベータ動的 Web サイト Web クロール
ウェブクローラーは、 JavaScript を使用してコンテンツをレンダリングする動的なウェブサイトをクロールできるようになった。 このベータ機能を有効にすると、サイトのクロールにかかる時間が長くなります。 詳しくは、 Web クロール を参照してください。

2021 年 6 月 23 日

新規プラス・プラン
新しいプラス・プランとそれに関連する 30 日間の無料試用版を使用して、新機能と、最新バージョンの製品で使用可能なより簡単なビルド方法を検討します。 現在、プラス・プランはダラス・ロケーションから使用できます。 詳しくは、 Discovery を参照してください。
ライト・プランと拡張プランへの変更
ライト・プランと拡張プランは提供されなくなりました。 ダラス・ロケーションでは、ライト・プラン・タイプまたは拡張プラン・タイプを使用する 新規 サービス・インスタンスを作成できません。 既存のライト・プランおよび拡張プランは引き続き正常に機能し、引き続きサポートされます。 ライトプランからアドバンスプランにアップグレードできます。

エンドポイント非推奨リマインダー

Discovery API エンドポイントに変更します

Identity and Access Management (IAM) 認証を完全にサポートするために行われる作業の一環として、 Discovery サービスにプログラムでアクセスするために使用するエンドポイントが変更されます。 古いエンドポイントURLは非推奨であり、 2021年5月26日に廃止される。 新しい URL を使用するように API 呼び出しを更新します。

URL のエンドポイントのパターンが、 gateway-{location}.watsonplatform.net/discovery/api/ から api.{location}.discovery.watson.cloud.ibm.com/ に変更されました。 新しいエンドポイントでは、ドメイン、ロケーション、およびオファリング識別子は異なっています。 詳細については、 watsonplatform.net からエンドポイントURLを更新するを参照してください。

サービス・インスタンスAPIクレデンシャルが古いエンドポイントを使用している場合は、新しいクレデンシャルを作成し、今すぐ使用を開始してください。 新しい資格情報を使用するようにカスタム・アプリケーションを更新した後、古い資格情報を削除できます。

2021 年 3 月 19 日

Web クロール・コネクターの改善
Web クロール・コレクション・タイプを使用して、社内 Web サイトに保管されているコンテンツに接続できます。 詳しくは、 Web クロール を参照してください。

2021 年 3 月 4 日

アップロード時の新しいドラッグ・アンド・ドロップ機能
アップロード・コレクションで、文書のアップロード前とアップロード中の文書のドラッグ・アンド・ドロップがサポートされるようになりました。 詳しくは、「 データのアップロード」を参照してください。

2020 年 12 月 17 日

「アクティビティー」タブの日時表示の改善
各コレクションの**「コレクションの管理 (Manage collections)」ページの「アクティビティー (Activity)」タブに、「次回にスケジュールされている同期 (Next sync scheduled for)」**の日時が表示されるようになりました。
新しいFAQ抽出ベータ版
ベータ機能の FAQ 抽出がリリースされました。 FAQ 抽出を使用すると、FAQ (よくある質問) 文書や Web ページから質問と答えのペアが自動的に抽出され、アプリケーションからより正確な回答が返されるようになります。 詳しくは、FAQ 抽出を参照してください。 ベータ版機能の説明については、ベータ版機能を参照してください。

2020 年 12 月 3 日

新しい Content Intelligence
文書検索プロジェクトの作成時に、 契約エンリッチメントを適用できるようになりました。 「契約 (Contracts)」エンリッチメントは、文書内で契約期間、関係者、発効日などを分類するために使用することができます。 詳しくは、「 契約の文書の取得」を参照してください。

2020 年 11 月 10 日

新規 Box コネクター
Box システムをクロールします。 詳しくは、Box を参照してください。
新しい SharePoint 2016 On-Premises コネクター
SharePoint 2016 オンプレミス・システムをクロールします。 詳細については、 SharePoint 2016 On-Premisesを 参照してください。
BoxコネクタがSafari上で動作しない
詳しくは、 Box コネクター を参照してください。
メタデータ変換
インデックス内で metadata プロパティが配列に変換されている場合、 Delete labeled data API メソッドを使用してドキュメントを削除することはできません。 詳細については、API リファレンスを参照してください。

2020 年 10 月 30 日

ボスニア語、クロアチア語、ヒンディー語、セルビア語を新たにサポート
ボスニア語、クロアチア語、ヒンディ語、およびセルビア語の基本言語サポートが利用可能になりました。 詳しくは、言語サポートを参照してください。
新しいベータ・パターン・エンリッチメント
Patternsエンリッチメントのベータリリースでは、パターン誘導を使用して、 Discovery、データのパターンを認識するように教えることができます。 パターン帰納により、指定のサンプルから抽出パターンが生成されます。 ユーザーがいくつかの例を指定すると、パターンを完成させるためにユーザーが検証する追加のルールが Discovery によって提案されます。 パターン帰納は、エンリッチメントとして使用することも、ファセットを作成するために使用することもできます。 詳しくは、 パターン および パターンの識別によるファセットの作成 を参照してください。 ベータ版機能の説明については、ベータ版機能を参照してください。
文書の取得プロジェクトへの変更
新しい**「文書の取得 (Document Retrieval)」**プロジェクトのsuggested refinementsの照会設定がデフォルトで false に設定されるようになりました。 以前は、true に設定されていました。

2020 年 9 月 14 日

SDU 用の新しい事前トレーニング済みモデル
「文書の取得 (Document Retrieval)」プロジェクトで、Smart Document Understanding の新しい事前トレーニング・モデルを利用できるようになりました。 このモデルは、多数の表を含んだ文書からデータを抽出する必要がある場合に最適です。 詳しくは、フィールドの識別を参照してください。

2020 年 8 月 30 日

API バージョンへの更新
現在の API バージョン (v2) は 2020-08-30 です。 このバージョンに対して以下の変更が行われました。
'options' オブジェクトに変更
「エンリッチメントのリスト (List enrichments)」メソッドは、エンリッチメントごとに options オブジェクトを返さなくなりました。 単一のエンリッチメントの options オブジェクトを返すには、Get エンリッチメント方式を使用します。

2020 年 7 月 16 日

プレミアム・インスタンスの新規リリース
このリリースは、2020年 7 月 16 日以降に作成された Discovery 上の IBM Cloud のプレミアム・インスタンスでご利用いただけます。 それ以前に作成されたPremiumインスタンス、およびすべてのLiteプランとAdvancedプランについては、 Discovery を ご覧ください。
IBM Cloud Premium への変更
プレミアム・プランの一般提供が開始されました。
新規プロジェクト・ベース・インターフェース
プロジェクトベースのUIには、3つの一般的なユースケースに最適化された設定が含まれています:ドキュメント検索、会話型検索、コンテンツマイニング。 詳しくは、プロジェクトの作成を参照してください。
新規コンテンツ・マイニング・アプリケーション
Watson Discovery のこの全く新しい機能によって、質問することさえわからないようなデータから洞察を見出すことができる。 強力な相関ツールは、大規模な非構造化データ・セットから価値を引き出すのに役立ちます。 詳しくは、「 コンテンツ・マイニング・アプリケーションによるデータの分析」を参照してください。
回答としての新しい表
テキストのスニペットは、それらがテーブルで見つかった場合は役に立たないので、 Discovery、あなたの質問がテーブルによって最もよく答えられる場合は、代わりにフォーマットされたテーブルを答えとして返します。 詳しくは、表の検索を参照してください。
新しい動的ファセット検索機能
十分に指定されていない照会は一般的です。 動的ファセット検索は、文の中でどのように使用されているかを理解することにより、トレーニングなしで検索結果をインテリジェンス・ファセットに自動的に分類します。 詳しくは、文書の取得プロジェクトのファセットを参照してください。
新しい再使用可能コンポーネント
Discovery アプリケーションを最初から作成する必要がなくなりました。 再使用可能なオープン・ソースの React コンポーネントが、すぐに使用可能な状態で付属するようになりました。 Discovery アプリケーションを構成するとき、あなたは実際のコンポーネントを使用しています。 そこからデプロイするだけで、カスタム Discovery アプリケーションを取得できます。 コンポーネントの構築とデプロイを参照してください。
新規ドメイン語彙機能
ディクショナリがなくても、ユーザーのためにファセットを構築することができます。 ドメイン・ボキャブラリーを使用して、わずか5分でデータの使用方法を理解し、強力なファセットを構築します。 ファセットを参照してください。
新しい関連性トレーニング
プロジェクト・レベルでトレーニングできます。 Discovery は、データ・ソース/コレクションに関係なく、最適な回答をランク付けします。 トレーニングを使用した結果関連性の改善を参照してください。
新しい組み込みスペル修正プログラム
Discovery にスペル提案が組み込まれています。 パラメーターの説明 を参照してください。
オートコンプリートの向上
Discovery には、検索のオートコンプリート(タイプ・アヘッド)と、この機能をエンドユーザーに提供するための再利用可能なコンポーネントが含まれています。
12 言語の新規サポート
Discovery の言語サポートが 12 個の追加言語で使用可能になりました。 完全なリストについては、言語サポートを参照してください。
Cloud Object Storage コネクター制限
IBM Cloud® Object Storage データ・ソースに接続すると、特定の資格情報の最初の 75 バケットのみが表示されます。
現在の API バージョン
API バージョン (v2) は 2019-11-29 です。
このリリースの機能に対する変更
このリリースでは、重複排除は使用できません。
異常検出は提供されません。
IBM Watson® Discovery ニュースは含まれなくなりました。
いくつかの Watson Natural Language Understanding エンリッチメント (エンティティー抽出、関係抽出、キーワード抽出、カテゴリー分類、概念のタグ付け、意味役割抽出、センチメント分析、感情分析) は、現時点では利用できません。
SharePoint 2016 On-PremisesおよびBoxのデータソースは、現在ご利用いただけません。