Box
Box データ・ソースに保管されている文書をクロールします。
IBM Cloud IBM Cloud ただただ
この情報は、管理対象デプロイメントにのみ適用されます。 インストール済みデプロイメントから Box に接続する方法について詳しくは、 Box を参照してください。
クロールされる文書
コンテンツの初期クロール中に、Box アプリケーションからアクセスできるすべてのフォルダーからの文書がクロールされ、コレクションに追加されます。 BoxのメモはJSON形式で保存されているため、 Discovery は指定されたフォルダ内のBoxのメモも取り込みます。
以下の表は、 Discovery がクロールできるオブジェクトを示しています。
データ・ソース | スケジュールされた文書の更新をサポートしますか? | クロールされるオブジェクト |
---|---|---|
Box (アプリ・アクセス) | いいえ | ファイル、明示的に共有するフォルダー |
Box (エンタープライズアクセス ) | はい (新規文書と変更された文書のみ) | ファイル、フォルダー |
アプリ・アクセスのみを使用して Box を構成する場合は、アプリ・ユーザーを作成し、クロールするファイルをこれらのユーザーと共有する必要があります。 サービス・アカウントによってのみ共有される Box ファイルをクロールすることはできません。
アクセスについて詳しくは、以下の Box 資料のヘルプ・トピックを参照してください。
Box から削除された文書は、コレクションから削除されません。
すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。
データ・ソース要件
すべての管理対象デプロイメントの データ・ソース要件 に加えて、Box データ・ソースは以下の要件を満たしている必要があります。
接続先のデータ・ソースに必要なサービス・ライセンスをすべて取得する必要があります。 ライセンスについて詳しくは、データ・ソースのシステム管理者にお問い合わせください。
前提条件ステップ
Discoveryから Box に接続するには、その前に Box でカスタム・アプリケーションを作成する必要があります。
-
Box で、認証方式として 「JWT によるサーバー認証 (Server Authentication with JWT)」 を使用するカスタム・アプリケーションを作成します。
詳しい手順については、Box Developer 資料の JWT を使用したセットアップ を参照してください。
アプリを作成する際には、以下のガイドラインに従ってください。
-
セットアップ手順で、 「JWT によるサーバー認証 (Server Authentication with JWT)」 方式を使用して、鍵ペアを使用してアプリケーション ID を検証することを選択します。
-
カスタム・アプリケーションを構成するときに、以下のいずれかのアプリケーション・アクセス・レベルを使用することを選択できます。
- アプリ・アクセスのみ
- アプリ・アクセスとエンタープライズ・アクセス
スケジュールに基づく文書の更新は、 「アプリ・アクセスとエンタープライズ・アクセス」 を選択した場合にのみサポートされます。
「アプリ・アクセス」 を使用して接続をセットアップする場合は、アプリ・ユーザーを作成し、定義するアプリ・ユーザーとクロールするファイルを共有する必要があります。 この構成では、リフレッシュ中に新規文書および変更された文書はクロールされません。
-
管理者は、 アプリ・アクセス権限とエンタープライズ・アクセス権限を構成します。 そうでない場合は、 アプリ・アクセスを持つようにアプリを構成できます。 ただし、Box 管理者からアプリケーションの承認を得る必要があります。
-
両方のアプリケーション・アクセス・レベルについて、以下の設定を指定します。
-
以下のスコープを選択します。
- Boxに保存されているすべてのフォルダを読む
- Boxに保存されているすべてのフォルダを書き出す
- ユーザーの管理
エンタープライズ・アクセス権限を持つアプリの場合のみ: 以下のスコープを追加します。
- 企業資産の管理
-
以下の高度な機能を有効にします
- as-user ヘッダーを使用して API コールを行う
- ユーザーアクセストークンの生成
-
管理者によって許可されたカスタム・アプリケーションを取得します。
詳しくは、Box 開発者資料の アプリの承認 を参照してください。
-
アプリが作成され、許可され、認証が構成されたら、アプリ設定を JSON ファイルとして dev コンソールからダウンロードします。
後で要求されたときに、このファイルから以下の情報を提供します。
client_id
enterprise_id
client_secret
public_key_id
private_key
passphrase
Box データ・ソースへの接続
Discovery プロジェクトから、以下の手順を完了してください
-
ナビゲーション・ペインから、 「コレクションの管理」 を選択します。
-
新しいコレクションをクリックします。
-
「データ・ソースに接続する必要があります」 の横にあるリンクをクリックします。 フィールドで 「ボックス」 をクリックし、 「次へ」 をクリックします。
-
前の手順でダウンロードした Box アプリ設定 JSON ファイルの値を参照して、以下のフィールドに入力します。
- クライアント ID
- Boxアプリの設定時に指定する秘密鍵。
- クライアント秘密鍵
- Boxアプリの設定時に指定するクライアントシークレット。
- 企業 ID
- Boxアカウントの企業ID。
- 公開鍵 ID
- Box が生成する公開鍵 ID。
- 秘密鍵
- Boxウェブサイトとのやり取りに使用するために生成されるキーペアの一部。
- パスフレーズ
- 秘密鍵が暗号化されたファイルである場合、秘密鍵の復号に必要なパスフレーズ。
-
次へ をクリックします。
-
コレクションに名前を付けます。
-
Box 内のドキュメントの言語が英語以外の場合は、該当する言語を選択します。
サポートされる言語のリストについては、言語サポートを参照してください。
-
オプション: 同期スケジュールを変更します。
詳しくは、 クロール・スケジュール・オプション を参照してください。
-
クロールしたいフォルダを選択します。
-
コレクションに追加するファイルのタイプを制限する場合は、包含または除外するファイル・タイプのファイル拡張子をリストすることができます。
除外するファイル・タイプの拡張子をリストする場合は、少なくとも 1 つのファイル拡張子を追加する必要があります。
サポートされるファイル・タイプのリストについては、 サポートされるファイル・タイプ を参照してください。
-
Web クロールでサイト上のイメージからテキストを抽出する場合は、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 を
On
に設定します。OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「完了 (Finish)」 をクリックします。
コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。
進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。
現在、スケジュールされた再クロール中にすべての文書が更新されるわけではありません。 詳しくは、 リリース・ノート を参照してください。