IBM Cloud Docs
LDAP 目录

LDAP 目录

抓取支持轻量级目录访问协议(LDAP)的外部目录中的记录。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。

当目录数据添加到您的集合时,Discovery 会根据您指定的配置解释和存储每条记录的关键属性。 之后,您可以通过过滤您感兴趣的属性来查找相关记录。 例如,您可以采集部门和地点信息,然后按地点过滤记录。

有关轻量级目录访问协议的更多信息,请参阅 RFC 4511

抓取哪些文件

  • 每条 LDAP 记录都会被抓取并作为一个文档添加到集合中。
  • 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。

数据源需求

除了所有已安装部署的 数据源要求 之外,您的 Salesforce 数据源必须满足以下要求:

  • LDAP 目录数据源支持与以下类型目录的连接:

    • IBM Security Directory Server
    • Microsoft Active Directory(仅限内部场所)
    • Oracle 目录服务器
  • LDAP 目录数据源集合不支持以下功能:

    • 文档级别安全性
    • 相互认证。 支持验证服务器证书,但不支持验证客户端证书。
    • 代理服务器访问数据源

前提步骤

设置集合时,必须提供目录服务器类型的详细信息,如 LDAP 主机名和端口。 有关如何发现这些值的更多信息,请参阅供应商提供的文档:

连接到 LDAP 目录数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 单击 LDAP 目录,然后单击 下一步

  4. 为藏品命名。

  5. 如果 Salesforce 中的文档语言不是英语,请选择适当的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选:更改同步计划。

    对于 LDAP 目录,爬虫计划选项的工作原理如下:

    完全爬行
    抓取所有条目。
    抓取更新
    抓取所有条目,然后过滤掉自上次抓取后插入、更新或删除的任何条目。
    抓取新的和修改过的内容
    对数据源服务器进行 LDAP 查询,以获取只被插入或更新的条目。

    有关详细信息,请参阅 爬行计划选项

  7. 配置与目录的安全连接。

    服务器类型

    从以下选项中选择服务器类型:

    • IBM Security Directory Server
    • Microsoft Active Directory
    • Oracle 目录服务器
    LDAP 协议

    如果要通过传输层安全 (TLS) 加密数据和验证服务器证书,请选择 ldaps

    LDAP 主机名

    指定目录服务器的主机名。 例如:<ldap-hostname>.mydomain.com

    LDAP 主机端口

    默认情况下,LDAP 端口为 389,LDAP-S 端口为 636

    LDAP 绑定用户名

    如果目录服务器需要凭证,则指用于绑定到目录服务的用户名。

    在大多数情况下,此用户名是专有名称 (DN)。 用户名区分大小写。

    LDAP 绑定用户密码

    与用户名关联的密码。

  8. 指定要从目录中索引的信息。

    LDAP 基本 DN

    要开始爬行的对象。

    LDAP 目录具有对象的分层树形结构。 基本搜索区分名称指定了要限制抓取的子树。

    DN 是 区分名称,由一系列用逗号分隔的 相关区分名称定义。 每个相对区分名称都由 * 属性* 名值对组成,它代表目录中的一个对象。

    例如,在 Active Directory 中,属性可包括通用名称 (CN) (如 Jane Doe )和组织单位 (OU) (如 Research )。 大多数区分名称都包含一个或多个域组件 (DC) 属性,这些属性定义了托管 LDAP 目录的名称空间。

    下面是一个简的杰出名字示例:

    CN=Jane Doe,OU=Research,DC=IBM,DC=COM
    
    LDAP 用户过滤器

    应用于搜索的过滤器,用于查找要抓取的 LDAP 条目。

    如果未指定,则应用默认值,该值被认为是所选服务器类型的最佳过滤器。 您可以编辑预定义的筛选器值。

    • 展开高级配置部分,列出要从搜索中包括或排除的特定属性。

      例如,您可能需要知道某个员工工作的国家,因此您需要包含一个 c 属性,用于存储 ISO 国家代码。 或者,您可能永远不想返回员工的序列号,因此您排除了 serialnumber 属性。

    • 指定搜索范围。 您可以选择抓取与搜索基 DN 相隔一级的记录,或者抓取与搜索基 DN 相关的整个子树。

    • 如果 LDAP 目录数据源具有二进制属性,可以启用 Allow binary attributes 选项。

      启用后,爬虫会为指定的每个二进制属性创建单独的文档。 该文件还包含任何其他非二进制 LDAP 属性值。

      有关二元期权的更多信息,请参见 RTF 4522

      二进制属性字段中,指定要索引的二进制属性名称。

  9. 如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别

  10. 单击完成

该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。

如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。