IBM Cloud Docs
IBM Cloud Object Storage

IBM Cloud Object Storage

搜寻存储在 IBM Cloud® Object Storage 数据源中的文档。

IBM Cloud 仅IBM Cloud

此信息仅适用于受管部署。

要搜寻的文档

在初始搜寻内容期间,将搜寻可从存储端点访问的所有内容中的文档并将其添加到集合中。 无法搜寻专用端点。

在后续调度的重新搜寻期间,将仅搜寻新的和已修改的文档,并且会在集合中反映任何更改。 不会从集合中删除从外部数据源中删除的文档。

所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。

下表说明了 Discovery 可搜寻的对象。

支持数据源抓取
数据源 已搜寻的对象
IBM Cloud Object Storage 存储区、文件

开始之前需要的内容

获取要连接到的 Web 站点上内容的任何必需服务许可证。 有关许可证的更多信息,请与数据源的系统管理员联系。

端点

IBM Cloud Object Storage 数据的 endpoint。 例如,s3.us-south.cloud-object-storage.appdomain.cloud

请勿在端点值中包含 http://https://。 有关更多信息,请参阅 区域端点

除了端点外,您还必须提供凭证以启用对对象库的认证。 您可以选择使用下列其中一种认证方法:

HMAC
使用基于散列的消息认证代码来认证用户。 HMAC 是一种使用散列函数和密钥的加密认证技术。 在通过互联网发送之前,会对数据进行紧急处理。 然后,预期收件人使用密钥来解扰数据。 有关更多信息,请参阅 HMAC 认证
IAM
使用IBM Cloud Identity and Access Management(IAM) 服务对用户进行身份验证。 这种身份验证类型的优势在于,用户可以使用相同的流程访问IBM Cloud平台中的所有资源。 有关更多信息,请参阅 IAM 认证

要访问凭证信息,请转至 IBM Cloud Object Storage 服务实例的服务凭证页面。 展开服务凭证以查看凭证详细信息。

有关更多信息,请参阅 Object Storage 产品文档中的 服务凭证

HMAC 认证

如果要使用 HMAC 认证,那么必须准备好以下信息:

访问密钥标识
创建 IBM Cloud Object Storage 实例时生成的 access_key_id。 例如,347aa3a4b34344f8bc7c7cccdf856e4c
访问私钥
用于对请求进行签名的 secret_access_key。 此密钥是在创建 IBM Cloud Object Storage 实例时生成的。 例如,gvurfb82712ad14W7a7915h763a6i87155d30a1234364f61

IAM 认证

如果要使用 IAM 认证,必须准备好以下信息:

IAM API 密钥
例如, 0viPHOY7LbLNa9eLftrtHPpTjoGv6hbLD1QalRXikliJ
资源实例标识
例如, cloud-object-storage:global:a/3ag0e9402tyfd5d29761c3e97696b71n:d6f74k03-6k4f-4a82-b165-697354o63903::

连接到数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 单击 Need to connect to a data source? 字段旁边的链接,单击 IBM Cloud Object Storage,然后单击 Next

  4. 选择凭证类型,然后使用先前收集的信息填写字段。

    • IAM
    • HMAC

    单击下一步

  5. 命名集合。

  6. 如果存储中文档的语言不是英语,请选择相应的语言。

    有关受支持语言的列表,请参阅语言支持

  7. 可选: 更改同步调度。

    有关更多信息,请参阅 搜寻调度选项

  8. 选择您想爬的桶。

    选择的存储区越多,处理文档所需的时间越长。

  9. 如果要限制要添加到集合的文件类型,那么可以列出要包含或排除的文件类型的文件扩展名。

    选择列出要排除的文件类型的扩展名时,必须至少添加一个文件扩展名。

    有关受支持文件类型的列表,请参阅 受支持的文件类型

  10. 如果希望搜寻器从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别

  11. 单击完成

将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。

如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。