はじめに Watson Discovery
このチュートリアルでは、 IBM Watson® Discovery を紹介し、 Discovery サンプル・プロジェクトについて説明します。 サンプル・プロジェクトを探索することは、製品のいくつかの機能をツアーで試すための優れた方法です。
開く Watson Discovery
IBM Cloud
以下の手順は、 IBM Cloud Pak for Data を含むすべての管理対象デプロイメントにサービス・インスタンスとして適用されます。
-
作成した Discovery のインスタンスをクリックして、サービスダッシュボードに移動します。
-
**「管理」ページで、「Watson Discovery の起動 (Launch Watson Discovery)」**をクリックします。
ログインを求めるプロンプトが出されたら、IBM Cloud の資格情報を入力します。
IBM Cloud Pak for Data IBM Software Hub
以下の手順は、 Discovery のデプロイメントに適用されます。
-
ウェブクライアントのメインメニューから 、「サービス」 を展開し 、「インスタンス」 をクリックします。
-
インスタンスを見つけてクリックし、サマリー・ページを開きます。
デプロイメントごとに最大10インスタンスを作成できます。 最大数に達すると、 IBM Cloud Pak for Data に 「新規インスタンス」 ボタンは表示されません。
-
**「Launch tool (ツールの起動)」**をクリックします。
サンプル・プロジェクトを開きます。
新しいブラウザのタブまたはウィンドウが開き、 マイプロジェクトページが表示されます。

製品をよく理解するには、製品のホーム・ページから 「ビデオを見る」 リンクをクリックして、3 分未満の概要ビデオをご覧ください。
このチュートリアルでは、サンプル・プロジェクトを検討します。
サンプル・プロジェクトは、製品を最初に探索するためのリソースとして提供されている組み込みプロジェクトです。 サンプル・プロジェクトは、 「文書の取得 (Document Retrieval)」 プロジェクト・タイプです。 ドキュメント検索プロジェクトは、お客様のデータの中から最も関連性の高い回答を検索し、見つけるために使用されます。
-
「サンプル・プロジェクト」 をクリックします。
「改善とカスタマイズ (Improve and customize)」 ページが表示されます。
Discovery をインストールしたばかりの場合は、サンプルプロジェクトのドキュメント処理が完了するまでしばらく時間がかかります。 処理が終了するのを待ってから、実験を開始してください。 データ処理の状況は、次のステップで説明する 「アクティビティー」 ページから確認できます。
Sample project Improve and customize page
サンプル・コレクションについて説明します。
サンプル・プロジェクトで使用可能なサンプル・コレクションを探索することにより、コレクションを管理および拡張する方法について説明します。 サンプル・コレクションは、アップロードされた一連の IBM サポート PDF 文書で構成されています。
-
ナビゲーションパネルのコレクションの管理アイコンをクリックします。
プロジェクト内のすべてのコレクションがここに表示されます。 このプロジェクトにはコレクションが 1 つしかありません。
Collections page in the Sample project -
「サンプル・コレクション」 をクリックします。
アクティビティページが表示されます。 このページでは、回収状況を表示しています。 例えば、ドキュメントの総数と、それが最後に更新された日時を示します。 文書のアップロード時またはデータ・ソースのクロール時にディスカバリーで問題が発生した場合は、関連するメッセージがここに表示されます。
Activities page in the Sample project コレクションを作成した後、このページに移動して、コレクション内のデータの処理状況に関する情報を見つけることができます。
-
**「エンリッチメント (Enrichments)」**タブをクリックします。
「エンリッチメント (Enrichments)」 ページには、使用可能なエンリッチメントのリストが表示されます。 エンリッチメントにより、意味のある情報を見つけやすくし、検索で返すことができます。 標準装備のエンリッチメントをコレクションに適用して、よく知られているキーワードなどの用語にタグを付ける強力な Natural Language Understanding モデルを活用できます。
Enrichments page of the Sample project 「エンティティー」 エンリッチメントがサンプル・コレクションに適用されます。
- エンティティー
- コンテンツに記載されている人、市区町村、組織などの固有名詞を認識します。
このエンリッチメントは、 「文書の取得 (Document Retrieval)」 タイプのプロジェクトに追加されたコレクションに自動的に適用されます。
-
「エンティティー (Entities)」 v2 エンリッチメントについては、 1x 「選択されたフィールド (Selected fields)」 をクリックします。
使用可能なフィールドのリストが表示され、
text
フィールドが選択されます。 この選択は、コレクションからの文書が処理されたときに、 Entities エンリッチメントが、索引付けされてtext
という名前のフィールドに追加されたコンテンツに適用されたことを意味します。Entities enrichment being applied to the text field このページから、新しいエンリッチメントをコレクションに適用したり、エンリッチメントが適用されるフィールドを変更したりすることができます。
Discovery の強力な機能は、辞書、パターン、機械学習モデルなど、独自のカスタム・エンリッチメントを追加できることです。 カスタム・エンリッチメントを作成すると、それらもこのページにリストされます。 ここから、それらが使用される場所を管理できます。
カスタム・エンリッチメントについて詳しくは、 ドメイン固有のリソースの追加 を参照してください。
-
コレクションに別のエンリッチメントを適用します。 リストで 「キーワード」 エンリッチメントを見つけて、 「フィールドの選択」 をクリックします。
キーワード・エンリッチメントは、コンテンツ内でよく知られている重要な用語を認識します。
-
text
フィールドが見つかるまで、フィールドのリストをスクロールして選択します。Fields to which you can apply the Keywords enrichment -
**「変更を適用して再処理 (Apply changes and reprocess)」**をクリックします。
キーワードを検索してタグ付けするために文書を再処理している間に、コレクションの管理に使用できるツールを引き続き探索できます。
-
「フィールドの識別」 をクリックします。
文書のほとんどのコンテンツは、
text
フィールドで自動的に索引付けされます。 異なるフィールドにある特定のタイプのコンテンツに索引を付けたり、text
フィールドに含まれる文書あたりのパッセージ数が少なくなるように大きな文書を分割したりすることができます。 これを行うには、コレクションに Smart Document Understanding モデルを適用することにより、文書内の重要なフィールドを認識するように Discovery に学習させることができます。Smart Document Understanding (SDU) は、文書の構造に基づいて文書の内容について学習するテクノロジーです。 事前作成された SDU モデルを適用することも、カスタム SDU モデルを作成することもできます。
Smart Document Understanding model options カスタム SDU モデルを作成するには、 「ユーザーがトレーニングしたモデル」 オプションを選択し、文書内のフィールドにアノテーションを付けます。 (このチュートリアルの一部として文書にアノテーションを付けることはありません。)
Smart Document Understanding annotation tool SDU について詳しくは、 Smart Document Understanding の使用 を参照してください。
-
「フィールドの管理」 をクリックします。
「フィールドの管理」 ページに、索引付きフィールドがリストされます。 ここから、索引にフィールドを含めたり、索引からフィールドを削除したりすることができます。 また、大きな文書を多数の小さな文書に分割することもできます。
Fields in the collection index 文書の分割について詳しくは、 照会結果を簡潔にするための文書の分割 を参照してください。
サンプル・プロジェクトの検索
-
ナビゲーションパネルから 「改善とカスタマイズ」アイコンをクリックします。
「改善とカスタマイズ」ページでは、クエリを試行し、プロジェクトのクエリ結果を改善するためにカスタマイズを追加し、テストすることができます。 テスト照会の実行依頼を開始する際に役立つサンプル照会のリストが表示されます。
-
IBM
の 「検索の実行」 ボタンをクリックします。照会結果が表示されます。
-
いずれかの照会結果から、 「文書内のパッセージを表示 (View passages in document)」 をクリックします。
結果が見つかった文書のプレビューが表示されます。
-
以下のいずれかを実行して、検索結果を探索します。
-
「詳細表示を開く 」をクリックします。
文書内で検出されたエンリッチメントの出現回数など、有用な要約情報が表示されます。
-
テキスト内の URL についての言及を強調表示するには、
URL
エンティティーを選択します。Advanced view that shows entities that were recognized -
文書の情報が JSON 形式で保管される方法を確認するには、ビュー・ヘッダーから 「表示形式」 メニューをクリックし、 「JSON」 を選択します。
文書の JSON 表現が表示されます。
JSON representation of the document JSON 表現を探索して、Discovery が文書から収集した情報を確認できます。 例えば、
enriched_text
セクションを展開してからentities
セクションを展開すると、Entities エンリッチメントによって認識されタグ付けされたエンティティーについての言及を表示できます。Shows the enrichment_text.entities section of the JSON representation
-
サンプル・プロジェクトのカスタマイズ
次に、ファセットを追加して、検索結果ビューを少しカスタマイズします。 ファセットは、類似したパターンまたはコンテンツを共有する文書を編成および分類する方法です。
-
「改善とカスタマイズ (Improve and customize)」 ページで、以下の自然言語照会を送信します。
How do I install Discovery?
-
表示される照会結果を確認します。
Top Entities facet results 「上位エンティティー (Top Entities)」 セクションが表示されることに注意してください。 エンティティーを展開し、そのうちの 1 つをクリックして、エンティティーが言及されている結果のみを表示するように照会結果をフィルターに掛けることができます。 「上位エンティティー」 セクションは、組み込みファセットです。 これは、Entities エンリッチメントによって文書に追加された情報を使用します。
前のステップでコレクションに適用したキーワード・エンリッチメントを使用する独自のファセットを追加します。
-
「改善ツール」パネルで 、「表示のカスタマイズ 」を展開し 、「ファセット」 をクリックします。
Customize display options -
新しいファセットをクリックし、次にコレクション内の既存のフィールドからボタンをクリックします。
-
enriched_text.keywords.mentions.text
を選択し、ラベルをKeywords
に変更して、 「適用」 をクリックします。Creating a Keywords-based facet 前に見た文書の JSON 表現を覚えていますか? これで、キーワード・エンリッチメントが
text
フィールドに適用され、文書が再処理されたため、text
フィールドで見つかったすべてのキーワード・メンションが文書の JSON 表現に組み込まれます。ファセットに使用するために選択したフィールド (
enriched_text.keywords.mentions.text
) は、キーワード・テキストが JSON で保管される場所を反映します。"enriched_{field_name}": [ "keywords" : [ "mentions" : [ "text": "Cloud Pak" ] ] ]
-
新しいファセットが表示されます。 キーワードをクリックして文書をフィルタリングし、そのキーワードに言及する結果のみを含めることができます。
Keywords facet
サンプル・コレクション文書内のキーワードを認識する組み込み NLU エンリッチメントが正常に追加されました。 次に、キーワードによる文書のフィルタリングを可能にするキーワード・エンリッチメントを使用するファセットを追加しました。
サンプル・プロジェクトの共有
-
ナビゲーション・パネルから 「統合とデプロイ」 をクリックします。
ここから、同僚とプロジェクトを共有し、展開することができます。
-
画面上の指示に従ってユーザーを追加し、ログイン情報と提供されたリンクを同僚に送信します。
Integrate and deploy page 独自の検索アプリケーションを作成し、それをデプロイする準備ができたら、事前作成されたユーザー・インターフェース・コンポーネントを使用することも、カスタム・アプリケーションを作成することもできます。
-
「API 情報」 をクリックします。 このページから、プロジェクトのプロジェクト ID を取得できます。 ディスカバリー API を使用するには、プロジェクト ID が必要です。 また、サービスインスタンス URL とAPIキーも必要です。 クレデンシャル詳細については、 IBM Cloud のサービスインスタンスの管理ページから入手できます。
-
「UI コンポーネント」 をクリックして、フル機能の検索アプリケーションを素早く作成するために使用できる、すぐに使用できるコードへのリンクを見つけます。
-
独自のコンテンツの追加
いくつかの製品機能について詳しく理解したので、検索するデータを評価する準備ができました。
これはデータに関するすべてです。 検索ソリューションで活用できるようにする、所有するコンテンツのタイプを確認します。
サポートされるデータ・ソース
以下の表に、各デプロイメント・タイプでサポートされるデータ・ソースを示します。
データ・ソース | IBM Cloud | IBM Cloud Pak for Data |
---|---|---|
Box | ||
データベース (IBM Data Virtualization、 IBM Db2、Microsoft SQL、 Oracle、 Postgres) | ||
FileNet P8 | ||
HCL Notes | ||
IBM Cloud Object Storage | ||
ローカル・ファイル・システム | ||
Salesforce | ||
Microsoft SharePoint Online | ||
Microsoft SharePoint オンプレミス (Microsoft SharePoint On Premises) | ||
Web サイト | ||
Microsoft Windows ファイルシステム |
何を作成できるかわからない場合は、
作成できる検索ソリューションのタイプについて詳しくは、 データからの価値の取得の開始 を参照してください。
製品ユーザー・インターフェースのページ・ヘッダーから「ヘルプ」アイコン を選択すると、いつでも製品資料にアクセスできます。 ヘルプ・コンテンツは、製品で行っていることに関連する情報を提供するようにカスタマイズされています。
何をビルドしても、ステップ 1 はプロジェクトを作成することです。 ニーズに最適なプロジェクト・タイプを決定します。
既存のタイプのいずれも正しくない場合は、代わりに 「上記のいずれでもない」 を選択してカスタム・プロジェクトを作成できます。
プロジェクトの説明
ニーズ | 目的 | プロジェクト・タイプ |
---|---|---|
反復的な文書処理タスクの自動化をサポートするためにデータを抽出したいと考えています。 | 文書から抽出されたデータを素早く理解し、エンリッチメントを適用することでデータを改善したいと考えています。 | インテリジェントな文書処理 |
どの文書に質問の回答が含まれていますか? | 構造化データと非構造化データが混在するソースで意味のある情報を見つけ、スタンドアロンのエンタープライズ・サーチ・アプリケーションまたはビジネス・アプリケーションの検索フィールドに表示します。 | 文書の取得 (Document Retrieval) |
タスクに必要な契約の一部はどこにありますか? | 契約から重要な情報を素早く抽出します。 | 契約の文書検索 |
自分が作成するチャットボットに自分が所有する知識を使用させたい。 | お客様の質問に答えるために、さまざまな外部データ・ソースや文書フォーマットに保管されている技術情報に仮想アシスタントが素早くアクセスできるようにします。 | 会話型検索 (Conversational Search) |
知らなかったことについての洞察を明らかにしたいと思います。 | パターン分析から洞察を得るか、根本原因分析を実行します。 | コンテンツ・マイニング |
詳しくは、プロジェクトの作成を参照してください。