IBM Cloud Docs
Box

Box

搜寻存储在 Box 数据源中的文档。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。 有关从受管部署连接到 Box 的更多信息,请参阅 Box

要搜寻的文档

  • 只有 Discovery 在您的Box文件夹中支持的文档才会被抓取,其他所有文档都会被忽略。 有关更多信息,请参阅 支持的文件类型
  • 仅对于配置为使用 App + Enterprise Access 作为 Box 应用程序的应用程序访问级别的连接器,才支持文档级别安全性。 启用此选项后,您的用户可以抓取和查询与登录 Box 时相同的内容。 有关更多信息,请参阅 支持文档级安全性
  • 当重新抓取资源时,会添加新文档,将更新后的文档修改为当前版本,并将已删除的文档从集合索引中删除。
  • 所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
  • Box笔记以JSON格式存储,因此 Discovery 也会提取指定文件夹中的所有Box笔记。

数据源需求

除所有已安装部署的 数据源需求 外,Box 数据源还必须满足以下需求:

  • 您必须获取要连接到的数据源的任何必需服务许可证。 有关许可证的更多信息,请与数据源的系统管理员联系。

必备步骤

如果要启用文档级安全性,那么必须执行一些步骤来设置该安全性。 有关更多信息,请参阅关于文档级别安全性

必须先在 Box 中创建定制应用程序,然后才能从 Discovery连接到 Box。 任何人都可以创建定制应用程序,但只有 Box 管理员才能对其进行授权。

要创建自定义应用程序,请完成以下步骤:

  1. 请确保您已 注册Box账户。 在此过程中,您将获取配置文件和客户机标识。

  2. 接下来,创建使用 Server Authentication with JWT 作为其认证方法的定制应用程序。

    有关详细步骤,请参阅 Box Developer Documentation 中的 使用 JWT 设置

    创建应用程序时,请遵循以下准则:

    1. 在设置过程中,选择使用 Server Authentication with JWT 方法来验证具有密钥对的应用程序身份。

    2. 选择要搜寻的 Box 内容的相应访问级别:

      • 与受管用户共享的 Box 文件: App access plus Enterprise access
      • 与服务帐户共享的 Box 文件: 仅应用程序访问权
      • 与服务帐户及其应用程序用户共享的 Box 文件: 仅应用程序访问权

      在 4.6 发行版中添加了配置仅具有应用程序访问权的 Box 级别访问权的支持。

    3. 通过执行适用于应用程序访问级别类型的相应步骤来配置访问级别:

      • 应用程序访问权和企业访问权

        请选择以下应用范围:

        • 阅读Box中存储的所有文件夹
        • 将所有文件夹写入Box
        • 管理用户

        启用以下高级功能:

        • 生成用户访问令牌
      • 仅应用程序访问权

        要搜寻仅与服务帐户共享的文件,请完成以下步骤:

        1. 请选择以下应用范围:

          • 阅读Box中存储的所有文件夹
          • 将所有文件夹写入Box
        2. 通过完成以下步骤,与服务帐户共享目标 Box 文件夹和文件:

          1. 从“常规设置”页面,复制服务帐户标识的电子邮件。
          2. 以受管用户身份登录时,共享您希望连接器能够搜寻的一个或多个文件夹。
          3. 将服务帐户标识电子邮件添加为要邀请共享文件的人员。

          有关更多信息,请参阅 Box 文档

        要搜寻与服务帐户及其应用程序用户共享的文件,请完成以下步骤:

        1. 请选择以下应用范围:

          • 阅读Box中存储的所有文件夹
          • 将所有文件夹写入Box
          • 管理用户
        2. 启用以下高级功能:

          • 生成用户访问令牌
        3. 与相应的应用程序用户共享目标 Box 文件夹和文件。

          有关更多信息,请参阅 Box 文档

  3. 创建用于认证的密钥。 确保完成以下任务:

    1. 在“常规设置”页面中,单击 添加公用密钥
    2. 保存为专用密钥生成的已下载配置文件。
    3. 单击保存更改
    4. 从“配置”页面,复制 客户机标识 值。
  4. 接下来,您必须要求 Box 管理员对应用程序进行授权。 在 Box 管理控制台中,完成以下任务:

    1. 在“应用程序> 定制应用程序管理器”页面中,单击 添加应用程序

    2. 输入客户编号,然后点击 “下一步”。

      有关更多信息,请参阅 定制应用程序核准

  5. Box 管理员步骤: 从 Box 管理控制台中,检查应用程序信息是否准确,然后单击 授权

连接到 Box 数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 点击 “框”,然后点击 “下一步”。

  4. 命名集合。

  5. 如果 Box 中文档的语言不是英语,请选择相应的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选。 更改同步调度。

    有关更多信息,请参阅 搜寻调度选项

  7. 输入凭证 部分中,单击 选择文件,然后浏览以查找在先决条件步骤中添加公用密钥时生成并下载的配置文件。

    您可以从 Box Developer 站点上的配置页面再次下载配置文件。

  8. 可选。 在 指定要搜寻的内容 部分中,选择特定用户的内容或包含要搜寻的内容的特定文件夹。 如果未指定任何内容,那么服务将搜寻可供定制应用程序使用的所有内容。

    • 要搜寻整个企业,请输入 box://app.box.com/

    • 要浏览特定文件夹,请输入 box://app.box.com/user/USER'S_ACCOUNT_ID/folder/FOLDER_ID/FolderName

      例如, box://example.app.box.com/user/460250779/folder/158001591642/My Folder

    • 要搜索特定用户,请输入 box://app.box.com/user/USER'S_ACCOUNT_ID/

  9. 可选: 如果要使用代理服务器来访问数据源服务器,请在 代理设置 部分中,将 启用代理设置 开关设置为 On。 向以下字段添加值:

    用户名
    可选。 如果您使用代理服务器,请输入用于验证的用户名。 如果您不知道用户名,可以从代理服务器的管理员处获取。
    密码
    可选。 如果代理服务器需要验证,请输入用于验证的密码。 如果您不知道密码,可以从代理服务器的管理员处获取。
    代理服务器主机名或IP地址
    代理服务器的主机名或IP地址。
    代理服务器端口号
    您要在代理服务器上连接的网络端口。
  10. 可选。 如果要激活文档级安全性,请在 安全性 部分中,将 启用文档级安全性 开关设置为 On

    启用此选项后,您的用户可以抓取和查询与登录 Box 时相同的内容。 有关更多信息,请参阅 支持文档级安全性

  11. 如果希望搜寻器从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别

  12. 单击完成

将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。

如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。