IBM Cloud Object Storage
搜寻存储在 IBM Cloud® Object Storage 数据源中的文档。
IBM Cloud 仅IBM Cloud
此信息仅适用于受管部署。
要搜寻的文档
在初始搜寻内容期间,将搜寻可从存储端点访问的所有内容中的文档并将其添加到集合中。 无法搜寻专用端点。
在后续调度的重新搜寻期间,将仅搜寻新的和已修改的文档,并且会在集合中反映任何更改。 不会从集合中删除从外部数据源中删除的文档。
所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
下表说明了 Discovery 可搜寻的对象。
| 数据源 | 已搜寻的对象 |
|---|---|
| IBM Cloud Object Storage | 存储区、文件 |
开始之前需要的内容
获取要连接到的 Web 站点上内容的任何必需服务许可证。 有关许可证的更多信息,请与数据源的系统管理员联系。
- 端点
-
IBM Cloud Object Storage 数据的
endpoint。 例如,s3.us-south.cloud-object-storage.appdomain.cloud。请勿在端点值中包含
http://或https://。 有关更多信息,请参阅 区域端点。
除了端点外,您还必须提供凭证以启用对对象库的认证。 您可以选择使用下列其中一种认证方法:
- HMAC
- 使用基于散列的消息认证代码来认证用户。 HMAC 是一种使用散列函数和密钥的加密认证技术。 在通过互联网发送之前,会对数据进行紧急处理。 然后,预期收件人使用密钥来解扰数据。 有关更多信息,请参阅 HMAC 认证。
- IAM
- 使用IBM Cloud Identity and Access Management(IAM) 服务对用户进行身份验证。 这种身份验证类型的优势在于,用户可以使用相同的流程访问IBM Cloud平台中的所有资源。 有关更多信息,请参阅 IAM 认证。
要访问凭证信息,请转至 IBM Cloud Object Storage 服务实例的服务凭证页面。 展开服务凭证以查看凭证详细信息。
有关更多信息,请参阅 Object Storage 产品文档中的 服务凭证。
HMAC 认证
如果要使用 HMAC 认证,那么必须准备好以下信息:
- 访问密钥标识
- 创建 IBM Cloud Object Storage 实例时生成的
access_key_id。 例如,347aa3a4b34344f8bc7c7cccdf856e4c。 - 访问私钥
- 用于对请求进行签名的
secret_access_key。 此密钥是在创建 IBM Cloud Object Storage 实例时生成的。 例如,gvurfb82712ad14W7a7915h763a6i87155d30a1234364f61。
IAM 认证
如果要使用 IAM 认证,必须准备好以下信息:
- IAM API 密钥
- 例如,
0viPHOY7LbLNa9eLftrtHPpTjoGv6hbLD1QalRXikliJ - 资源实例标识
- 例如,
cloud-object-storage:global:a/3ag0e9402tyfd5d29761c3e97696b71n:d6f74k03-6k4f-4a82-b165-697354o63903::
连接到数据源
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 Need to connect to a data source? 字段旁边的链接,单击 IBM Cloud Object Storage,然后单击 Next。
-
选择凭证类型,然后使用先前收集的信息填写字段。
- IAM
- HMAC
单击下一步。
-
命名集合。
-
如果存储中文档的语言不是英语,请选择相应的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选: 更改同步调度。
有关更多信息,请参阅 搜寻调度选项。
-
选择您想爬的桶。
选择的存储区越多,处理文档所需的时间越长。
-
如果要限制要添加到集合的文件类型,那么可以列出要包含或排除的文件类型的文件扩展名。
选择列出要排除的文件类型的扩展名时,必须至少添加一个文件扩展名。
有关受支持文件类型的列表,请参阅 受支持的文件类型。
-
如果希望搜寻器从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On。启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别。
-
单击完成。
将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。
如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。