IBM Cloud Docs
Box

Box

Box データ・ソースに保管されている文書をクロールします。

IBM Cloud IBM Cloud ただただ

この情報は、管理対象デプロイメントにのみ適用されます。 インストール済みデプロイメントから Box に接続する方法について詳しくは、 Box を参照してください。

クロールされる文書

コンテンツの初期クロール中に、Box アプリケーションからアクセスできるすべてのフォルダーからの文書がクロールされ、コレクションに追加されます。 BoxのメモはJSON形式で保存されているため、 Discovery は指定されたフォルダ内のBoxのメモも取り込みます。

以下の表は、 Discovery がクロールできるオブジェクトを示しています。

データソースのクロールをサポート
データ・ソース スケジュールされた文書の更新をサポートしますか? クロールされるオブジェクト
Box (アプリ・アクセス) いいえ ファイル、明示的に共有するフォルダー
Box (エンタープライズアクセス はい (新規文書と変更された文書のみ) ファイル、フォルダー

アプリ・アクセスのみを使用して Box を構成する場合は、アプリ・ユーザーを作成し、クロールするファイルをこれらのユーザーと共有する必要があります。 サービス・アカウントによってのみ共有される Box ファイルをクロールすることはできません。

アクセスについて詳しくは、以下の Box 資料のヘルプ・トピックを参照してください。

Box から削除された文書は、コレクションから削除されません。

すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。

データ・ソース要件

すべての管理対象デプロイメントの データ・ソース要件 に加えて、Box データ・ソースは以下の要件を満たしている必要があります。

接続先のデータ・ソースに必要なサービス・ライセンスをすべて取得する必要があります。 ライセンスについて詳しくは、データ・ソースのシステム管理者にお問い合わせください。

前提条件ステップ

Discoveryから Box に接続するには、その前に Box でカスタム・アプリケーションを作成する必要があります。

  1. Box で、認証方式として 「JWT によるサーバー認証 (Server Authentication with JWT)」 を使用するカスタム・アプリケーションを作成します。

    詳しい手順については、Box Developer 資料の JWT を使用したセットアップ を参照してください。

アプリを作成する際には、以下のガイドラインに従ってください。

  • セットアップ手順で、 「JWT によるサーバー認証 (Server Authentication with JWT)」 方式を使用して、鍵ペアを使用してアプリケーション ID を検証することを選択します。

  • カスタム・アプリケーションを構成するときに、以下のいずれかのアプリケーション・アクセス・レベルを使用することを選択できます。

    • アプリ・アクセスのみ
    • アプリ・アクセスとエンタープライズ・アクセス

    スケジュールに基づく文書の更新は、 「アプリ・アクセスとエンタープライズ・アクセス」 を選択した場合にのみサポートされます。

    「アプリ・アクセス」 を使用して接続をセットアップする場合は、アプリ・ユーザーを作成し、定義するアプリ・ユーザーとクロールするファイルを共有する必要があります。 この構成では、リフレッシュ中に新規文書および変更された文書はクロールされません。

    • 管理者は、 アプリ・アクセス権限とエンタープライズ・アクセス権限を構成します。 そうでない場合は、 アプリ・アクセスを持つようにアプリを構成できます。 ただし、Box 管理者からアプリケーションの承認を得る必要があります。

    • 両方のアプリケーション・アクセス・レベルについて、以下の設定を指定します。

    • 以下のスコープを選択します。

      • Boxに保存されているすべてのフォルダを読む
      • Boxに保存されているすべてのフォルダを書き出す
      • ユーザーの管理

      エンタープライズ・アクセス権限を持つアプリの場合のみ: 以下のスコープを追加します。

      • 企業資産の管理
    • 以下の高度な機能を有効にします

      • as-user ヘッダーを使用して API コールを行う
      • ユーザーアクセストークンの生成
  • 管理者によって許可されたカスタム・アプリケーションを取得します。

    詳しくは、Box 開発者資料の アプリの承認 を参照してください。

  • アプリが作成され、許可され、認証が構成されたら、アプリ設定を JSON ファイルとして dev コンソールからダウンロードします。

    後で要求されたときに、このファイルから以下の情報を提供します。

    • client_id
    • enterprise_id
    • client_secret
    • public_key_id
    • private_key
    • passphrase

Box データ・ソースへの接続

Discovery プロジェクトから、以下の手順を完了してください

  1. ナビゲーション・ペインから、 「コレクションの管理」 を選択します。

  2. 新しいコレクションをクリックします。

  3. 「データ・ソースに接続する必要があります」 の横にあるリンクをクリックします。 フィールドで 「ボックス」 をクリックし、 「次へ」 をクリックします。

  4. 前の手順でダウンロードした Box アプリ設定 JSON ファイルの値を参照して、以下のフィールドに入力します。

    クライアント ID
    Boxアプリの設定時に指定する秘密鍵。
    クライアント秘密鍵
    Boxアプリの設定時に指定するクライアントシークレット。
    企業 ID
    Boxアカウントの企業ID。
    公開鍵 ID
    Box が生成する公開鍵 ID。
    秘密鍵
    Boxウェブサイトとのやり取りに使用するために生成されるキーペアの一部。
    パスフレーズ
    秘密鍵が暗号化されたファイルである場合、秘密鍵の復号に必要なパスフレーズ。
  5. 次へ をクリックします。

  6. コレクションに名前を付けます。

  7. Box 内のドキュメントの言語が英語以外の場合は、該当する言語を選択します。

    サポートされる言語のリストについては、言語サポートを参照してください。

  8. オプション: 同期スケジュールを変更します。

    詳しくは、 クロール・スケジュール・オプション を参照してください。

  9. クロールしたいフォルダを選択します。

  10. コレクションに追加するファイルのタイプを制限する場合は、包含または除外するファイル・タイプのファイル拡張子をリストすることができます。

    除外するファイル・タイプの拡張子をリストする場合は、少なくとも 1 つのファイル拡張子を追加する必要があります。

    サポートされるファイル・タイプのリストについては、 サポートされるファイル・タイプ を参照してください。

  11. Web クロールでサイト上のイメージからテキストを抽出する場合は、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」On に設定します。

    OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。

  12. 「完了 (Finish)」 をクリックします。

コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。

進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。

現在、スケジュールされた再クロール中にすべての文書が更新されるわけではありません。 詳しくは、 リリース・ノート を参照してください。