Box
Box データ・ソースに保管されている文書をクロールします。
IBM Cloud Pak for Data IBM Software Hub
この情報は、インストール済みデプロイメントにのみ適用されます。 管理対象デプロイメントから Box への接続について詳しくは、 Box を参照してください。
クロールされる文書
- Boxフォルダ内の Discovery でサポートされている文書のみがクロールされ、それ以外は無視されます。 詳しくは、 サポートされるファイル・タイプ を参照してください。
- 文書レベルのセキュリティーは、Box アプリケーションのアプリ・アクセス・レベルとして 「アプリ + エンタープライズ・アクセス (App + Enterprise Access)」 を使用するように構成されているコネクターに対してのみサポートされます。 このオプションを有効にすると、ユーザーはBoxにログインした際にアクセスできるのと同じコンテンツをクロールおよびクエリすることができます。 詳しくは、 文書レベルのセキュリティーのサポート を参照してください。
- ソースが再クロールされると、新しい文書が追加され、更新された文書は最新バージョンに変更され、削除された文書はコレクションのインデックスから削除されます。
- すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。
- BoxのメモはJSON形式で保存されているため、 Discovery は指定されたフォルダ内のBoxのメモも取り込みます。
データ・ソース要件
すべてのインストール済みデプロイメントの データ・ソース要件 に加えて、Box データ・ソースは以下の要件を満たしている必要があります。
- 接続先のデータ・ソースに必要なサービス・ライセンスをすべて取得する必要があります。 ライセンスについて詳しくは、データ・ソースのシステム管理者にお問い合わせください。
前提条件ステップ
文書レベルのセキュリティーを有効にする場合は、いくつかのステップを実行してセットアップする必要があります。 詳しくは、文書レベルのセキュリティーについてを参照してください。
Discoveryから Box に接続するには、その前に Box でカスタム・アプリケーションを作成する必要があります。 カスタム・アプリは誰でも作成できますが、許可できるのは Box 管理者のみです。
カスタムアプリケーションを作成するには、以下の手順に従います
-
Boxのアカウントをお持ちであることをご確認ください。 このプロセス中に、構成ファイルとクライアント ID を取得します。
-
次に、認証方式として 「JWT によるサーバー認証 (Server Authentication with JWT)」 を使用するカスタム・アプリケーションを作成します。
詳細な手順については、Box Developer Documentationの JWTによるセットアップを参照してください。
アプリを作成する際には、以下のガイドラインに従ってください。
-
セットアップ手順で、 「JWT によるサーバー認証 (Server Authentication with JWT)」 方式を使用して、鍵ペアを使用してアプリケーション ID を検証することを選択します。
-
クロールする Box コンテンツの適切なアクセス・レベルを選択します。
- 管理対象ユーザーと共有される Box ファイル: アプリ・アクセスとエンタープライズ・アクセス
- サービス・アカウントと共有される Box ファイル: アプリ・アクセスのみ
- サービス・アカウントとそのアプリ・ユーザーと共有される Box ファイル: アプリ・アクセスのみ
4.6 リリースでは、アプリ・アクセスのみで Box レベルのアクセスを構成するためのサポートが追加されました。
-
ご使用のアプリのアクセス・レベル・タイプに該当する手順に従って、アクセス・レベルを構成します。
-
アプリ・アクセスとエンタープライズ・アクセス
以下のアプリケーションスコープを選択してください
- Boxに保存されているすべてのフォルダを読む
- Boxに保存されているすべてのフォルダを書き出す
- ユーザーの管理
次の高度な機能を有効にしてください
- ユーザーアクセストークンの生成
-
アプリ・アクセスのみ
サービス・アカウントのみで共有されているファイルをクロールするには、以下の手順を実行します。
-
以下のアプリケーションスコープを選択してください
- Boxに保存されているすべてのフォルダを読む
- Boxに保存されているすべてのフォルダを書き出す
-
以下のステップを実行して、ターゲットの Box フォルダーとファイルをサービス・アカウントと共有します。
- 「一般設定」ページから、サービス・アカウント ID の E メールをコピーします。
- 管理対象ユーザーとしてログインする場合は、コネクターがクロールできるようにするフォルダーまたはファイルを共有します。
- ファイルを共有するために招待するユーザーとして、サービス・アカウント ID E メールを追加します。
詳しくは、 Box の資料を参照してください。
サービス・アカウントとそのアプリ・ユーザーと共有されているファイルをクロールするには、以下のステップを実行します。
-
以下のアプリケーションスコープを選択してください
- Boxに保存されているすべてのフォルダを読む
- Boxに保存されているすべてのフォルダを書き出す
- ユーザーの管理
-
次の高度な機能を有効にしてください
- ユーザーアクセストークンの生成
-
ターゲットの Box フォルダーとファイルを適切なアプリケーション・ユーザーと共有します。
詳しくは、 Box の資料を参照してください。
-
-
-
-
認証用の鍵を作成します。 以下の作業を実行してください。
- 「一般設定」 ページで、 「公開鍵の追加」 をクリックします。
- 秘密鍵用に生成された、ダウンロードした構成ファイルを保存します。
- **「変更を保存」**をクリックします。
- 「構成」 ページから、 「クライアント ID」 の値をコピーします。
-
次に、Box 管理者にアプリを許可するよう依頼する必要があります。 Box 管理コンソールで、以下の作業を実行します。
-
「アプリケーション」>「カスタム・アプリケーション・マネージャー」 ページで、 「アプリケーションの追加」 をクリックします。
-
クライアントIDを入力し 、「次へ」 をクリックします。
詳しくは、 カスタム・アプリケーションの承認を参照してください。
-
-
Box 管理者のステップ: Box 管理コンソールから、アプリ情報が正確であることを確認し、 「許可」 をクリックします。
Box データ・ソースへの接続
Discovery プロジェクトから、以下の手順を完了してください
-
ナビゲーション・ペインから、 「コレクションの管理」 を選択します。
-
新しいコレクションをクリックします。
-
クリックボックスをクリックし、次に 「次へ」 をクリックします。
-
コレクションに名前を付けます。
-
Box 内のドキュメントの言語が英語以外の場合は、該当する言語を選択します。
サポートされる言語のリストについては、言語サポートを参照してください。
-
オプション。 同期スケジュールを変更します。
詳しくは、 クロール・スケジュール・オプション を参照してください。
-
「資格情報を入力してください」 セクションで、 「ファイルの選択」 をクリックし、前提条件ステップの一部として公開鍵を追加したときに生成されてダウンロードされた構成ファイルを参照して見つけます。
構成ファイルは、 Box Developer サイトの構成ページから再度ダウンロードできます。
-
オプション。 「クロール対象を指定します」 セクションで、特定のユーザーのコンテンツを選択するか、クロールするコンテンツを含む特定のフォルダーを選択します。 何も指定しない場合、サービスは、カスタム・アプリで使用可能なすべてのコンテンツをクロールします。
-
全社レベルでクロールするには、
box://app.box.com/
を入力します。 -
特定のフォルダをクロールするには、
box://app.box.com/user/USER'S_ACCOUNT_ID/folder/FOLDER_ID/FolderName
と入力します。例:
box://example.app.box.com/user/460250779/folder/158001591642/My Folder
-
特定のユーザーをクロールするには、
box://app.box.com/user/USER'S_ACCOUNT_ID/
と入力します。
-
-
オプション: データ・ソース・サーバーへのアクセスにプロキシー・サーバーを使用している場合は、 「プロキシー設定」 セクションで、 「プロキシー設定を使用可能にする」 スイッチを
On
に設定します。 以下のフィールドに値を追加します。- ユーザー名
- オプション。 プロキシサーバーが認証を必要とする場合、認証に使用するユーザー名。 ユーザー名が不明な場合は、プロキシー・サーバーの管理者から入手できます。
- パスワード
- オプション。 プロキシサーバーが認証を必要とする場合、認証に使用するパスワード。 パスワードが不明な場合は、プロキシー・サーバーの管理者から入手できます。
- プロキシサーバーのホスト名またはIPアドレス
- プロキシサーバーのホスト名またはIPアドレス。
- プロキシー・サーバーのポート番号
- プロキシサーバー上で接続したいネットワークポート。
-
オプション。 文書レベルのセキュリティーをアクティブにする場合は、 「セキュリティー」 セクションで、 「文書レベルのセキュリティーを有効にする」 スイッチを
On
に設定します。このオプションを有効にすると、ユーザーはBoxにログインした際にアクセスできるのと同じコンテンツをクロールおよびクエリすることができます。 詳しくは、 文書レベルのセキュリティーのサポート を参照してください。
-
クローラーがサイト上のイメージからテキストを抽出するようにするには、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 を
On
に設定します。OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「完了 (Finish)」 をクリックします。
コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。
進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。