IBM Cloud Docs
IBM Cloud Object Storage

IBM Cloud Object Storage

IBM Cloud® Object Storage データ・ソースに保管されている文書をクロールします。

IBM Cloud IBM Cloud ただただ

この情報は、管理対象デプロイメントにのみ適用されます。

クロールされる文書

コンテンツの初期クロール中に、ストレージ・エンドポイントからアクセスできるすべてのコンテンツの文書がクロールされ、コレクションに追加されます。 プライベートエンドポイントをクロールすることはできません。

後続のスケジュールされた再クロール時には、新規および変更された文書のみがクロールされ、変更はコレクションに反映されます。 外部データ・ソースから削除された文書は、コレクションから削除されません。

すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。

以下の表は、 Discovery がクロールできるオブジェクトを示しています。

データソースのクロールをサポート
データ・ソース クロールされるオブジェクト
IBM Cloud Object Storage バケット、ファイル

始める前に必要なもの

接続先の Web サイトのコンテンツに必要なサービス・ライセンスを取得します。 ライセンスについて詳しくは、データ・ソースのシステム管理者にお問い合わせください。

エンドポイント

IBM Cloud Object Storage のデータの endpoint。 例えば、s3.us-south.cloud-object-storage.appdomain.cloudです。

http:// または https:// をエンドポイント値に含めないでください。 詳しくは、 地域エンドポイントを参照してください。

エンドポイントに加えて、オブジェクト・ストアでの認証を有効にするための資格情報を指定する必要があります。 以下のいずれかの認証方式を使用することを選択できます。

HMAC
ハッシュ・ベースのメッセージ認証コードを使用して、ユーザーを認証します。 HMAC は、ハッシュ機能と秘密鍵を使用する暗号認証技法です。 データは、インターネット経由で送信される前にスクランブルされます。 次に、意図した受信者は秘密鍵を使用してデータのスクランブルを解除します。 詳しくは、 HMAC 認証 を参照してください。
IAM
IBM Cloud Identity and Access Management(IAM) サービスを使用してユーザーを認証します。 この認証タイプの利点は、ユーザーが同じプロセスを使用してIBM CloudPlatform のすべてのリソースにアクセスできることです。 詳しくは、 IAM 認証 を参照してください。

資格情報情報にアクセスするには、 IBM Cloud Object Storage サービス・インスタンスのサービス資格情報ページに移動します。 サービス資格情報を展開して、資格情報の詳細を表示します。

詳しくは、 Object Storage 製品資料の サービス資格情報 を参照してください。

HMAC 認証

HMAC 認証を使用する場合は、以下の情報を準備しておく必要があります。

アクセス・キー ID
IBM Cloud Object Storage インスタンスの作成時に生成された access_key_id。 例えば、347aa3a4b34344f8bc7c7cccdf856e4cです。
秘密アクセス・キー
要求に署名するために使用する secret_access_key。 このキーは、 IBM Cloud Object Storage インスタンスの作成時に生成されました。 例えば、gvurfb82712ad14W7a7915h763a6i87155d30a1234364f61です。

IAM 認証

IAM 認証を使用する場合は、以下の情報を準備しておく必要があります。

IAM API キー
例: 0viPHOY7LbLNa9eLftrtHPpTjoGv6hbLD1QalRXikliJ
リソース・インスタンス ID
例: cloud-object-storage:global:a/3ag0e9402tyfd5d29761c3e97696b71n:d6f74k03-6k4f-4a82-b165-697354o63903::

データ・ソースへの接続

Discovery プロジェクトから、以下の手順を完了してください

  1. ナビゲーション・ペインから、 「コレクションの管理」 を選択します。

  2. 新しいコレクションをクリックします。

  3. Need to connect to a data source?」フィールドの横にあるリンクをクリックし、「IBM Cloud Object Storage」をクリックしてから、「Next」をクリックします。

  4. 資格情報タイプを選択し、前に収集した情報をフィールドに入力します。

    • IAM
    • HMAC

    次へ をクリックします。

  5. コレクションに名前を付けます。

  6. ストレージ内の文書の言語が英語でない場合は、該当する言語を選択します。

    サポートされる言語のリストについては、言語サポートを参照してください。

  7. オプション: 同期スケジュールを変更します。

    詳しくは、 クロール・スケジュール・オプション を参照してください。

  8. クロールしたいバケットを選択します。

    選択するバケットが多いほど、文書の処理にかかる時間が長くなります。

  9. コレクションに追加するファイルのタイプを制限する場合は、包含または除外するファイル・タイプのファイル拡張子をリストすることができます。

    除外するファイル・タイプの拡張子をリストする場合は、少なくとも 1 つのファイル拡張子を追加する必要があります。

    サポートされるファイル・タイプのリストについては、 サポートされるファイル・タイプ を参照してください。

  10. クローラーがサイト上のイメージからテキストを抽出するようにするには、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」On に設定します。

    OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。

  11. 「完了 (Finish)」 をクリックします。

コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。

進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。