IBM Cloud Docs
Box

Box

搜寻存储在 Box 数据源中的文档。

IBM Cloud 仅IBM Cloud

此信息仅适用于受管部署。 有关从已安装的部署连接到 Box 的更多信息,请参阅 Box

要搜寻的文档

在初始搜寻内容期间,将搜寻可从 Box 应用程序访问的所有文件夹中的文档并将其添加到集合中。 Box笔记以JSON格式存储,因此 Discovery 也会提取指定文件夹中的任何Box笔记。

下表说明了 Discovery 可搜寻的对象。

支持数据源抓取
数据源 支持调度的文档刷新吗? 已搜寻的对象
Box (应用程序访问权) False 文件,您显式共享的文件夹
企业访问权限 是 (仅限新建和修改的文档) 文件、文件夹

配置仅具有应用程序访问权的 Box 时,必须创建应用程序用户并与这些用户共享要搜寻的文件。 无法搜寻仅由服务帐户共享的 Box 文件。

有关访问权的更多信息,请参阅以下 Box 文档帮助主题:

从 Box 中删除的文档不会从集合中删除。

所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。

数据源需求

除所有受管部署的 数据源需求 外,Box 数据源还必须满足以下需求:

您必须获取要连接到的数据源的任何必需服务许可证。 有关许可证的更多信息,请与数据源的系统管理员联系。

先决条件步骤

必须先在 Box 中创建定制应用程序,然后才能从 Discovery连接到 Box。

  1. 在 Box 中,创建使用 Server Authentication with JWT 作为其认证方法的定制应用程序。

    有关详细步骤,请参阅 Box Developer 文档中的 Setup with JWT

创建应用程序时,请遵循以下准则:

  • 在设置过程中,选择使用 Server Authentication with JWT 方法来验证具有密钥对的应用程序身份。

  • 配置定制应用程序时,可以选择使用其中一个应用程序访问级别:

    • 仅应用程序访问权
    • 应用程序访问权和企业访问权

    仅当您选择 应用程序访问权和企业访问权时,才支持在调度上刷新文档。

    如果设置了与 应用程序访问权的连接,那么必须创建应用程序用户并与您定义的应用程序用户共享要搜寻的文件。 使用此配置时,不会在刷新期间搜寻新的和已修改的文档。

    • 如果您是管理员,请配置 应用程序访问权和企业访问权。 否则,您可以将应用程序配置为具有 应用程序访问权。 但是,您必须从 Box 管理员处获取应用程序核准。

    • 对于这两个应用程序访问级别,请指定以下设置:

    • 选择以下作用域:

      • 阅读Box中存储的所有文件夹
      • 将所有文件夹写入Box
      • 管理用户

      仅适用于具有“企业”访问权的应用程序: 添加以下额外作用域:

      • 管理企业财产
    • 启用以下高级功能:

      • 使用as-user标头进行API调用
      • 生成用户访问令牌
  • 获取管理员授权的定制应用程序。

    有关更多信息,请参阅 Box Developer 文档中的 应用程序核准

  • 在创建,授权和认证应用程序后,从开发控制台将应用程序设置作为 JSON 文件下载。

    稍后请求此文件时,请提供此文件中的以下信息:

    • client_id
    • enterprise_id
    • client_secret
    • public_key_id
    • private_key
    • passphrase

连接到 Box 数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 单击 需要连接到数据源旁边的链接? 字段,单击 Box,然后单击 下一步

  4. 请参阅在先前过程中下载的 Box 应用程序设置 JSON 文件中的值,以完成以下字段:

    客户机标识
    您在配置Box应用程序时指定的私钥。
    客户机私钥
    您在配置Box应用程序时指定的客户机密。
    企业标识
    Box账户的企业ID。
    公用密钥标识
    Box 生成的公用密钥标识。
    专用密钥
    用于与Box网站交互的密钥对的一部分。
    口令
    如果私钥是一个加密文件,则需要一个密码来解密私钥。
  5. 单击下一步

  6. 命名集合。

  7. 如果 Box 中文档的语言不是英语,请选择相应的语言。

    有关受支持语言的列表,请参阅语言支持

  8. 可选: 更改同步调度。

    有关更多信息,请参阅 搜寻调度选项

  9. 选择您想要抓取的文件夹。

  10. 如果要限制要添加到集合的文件类型,那么可以列出要包含或排除的文件类型的文件扩展名。

    选择列出要排除的文件类型的扩展名时,必须至少添加一个文件扩展名。

    有关受支持文件类型的列表,请参阅 受支持的文件类型

  11. 如果希望 Web 搜寻从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别

  12. 单击完成

将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。

如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。

当前,并非所有文档都在调度的重新搜寻期间刷新。 有关更多信息,请参阅 发行说明