LDAP 目录
抓取支持轻量级目录访问协议(LDAP)的外部目录中的记录。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。
当目录数据添加到您的集合时,Discovery 会根据您指定的配置解释和存储每条记录的关键属性。 之后,您可以通过过滤您感兴趣的属性来查找相关记录。 例如,您可以采集部门和地点信息,然后按地点过滤记录。
有关轻量级目录访问协议的更多信息,请参阅 RFC 4511。
抓取哪些文件
- 每条 LDAP 记录都会被抓取并作为一个文档添加到集合中。
- 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。
数据源需求
除了所有已安装部署的 数据源要求 之外,您的 Salesforce 数据源必须满足以下要求:
-
LDAP 目录数据源支持与以下类型目录的连接:
- IBM Security Directory Server
- Microsoft Active Directory(仅限内部场所)
- Oracle 目录服务器
-
LDAP 目录数据源集合不支持以下功能:
- 文档级别安全性
- 相互认证。 支持验证服务器证书,但不支持验证客户端证书。
- 代理服务器访问数据源
前提步骤
设置集合时,必须提供目录服务器类型的详细信息,如 LDAP 主机名和端口。 有关如何发现这些值的更多信息,请参阅供应商提供的文档:
连接到 LDAP 目录数据源
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 LDAP 目录,然后单击 下一步。
-
为藏品命名。
-
如果 Salesforce 中的文档语言不是英语,请选择适当的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选:更改同步计划。
对于 LDAP 目录,爬虫计划选项的工作原理如下:
- 完全爬行
- 抓取所有条目。
- 抓取更新
- 抓取所有条目,然后过滤掉自上次抓取后插入、更新或删除的任何条目。
- 抓取新的和修改过的内容
- 对数据源服务器进行 LDAP 查询,以获取只被插入或更新的条目。
有关详细信息,请参阅 爬行计划选项。
-
配置与目录的安全连接。
- 服务器类型
-
从以下选项中选择服务器类型:
- IBM Security Directory Server
- Microsoft Active Directory
- Oracle 目录服务器
- LDAP 协议
-
如果要通过传输层安全 (TLS) 加密数据和验证服务器证书,请选择
ldaps
。 - LDAP 主机名
-
指定目录服务器的主机名。 例如:
<ldap-hostname>.mydomain.com
。 - LDAP 主机端口
-
默认情况下,LDAP 端口为
389
,LDAP-S 端口为636
。 - LDAP 绑定用户名
-
如果目录服务器需要凭证,则指用于绑定到目录服务的用户名。
在大多数情况下,此用户名是专有名称 (DN)。 用户名区分大小写。
- LDAP 绑定用户密码
-
与用户名关联的密码。
-
指定要从目录中索引的信息。
- LDAP 基本 DN
-
要开始爬行的对象。
LDAP 目录具有对象的分层树形结构。 基本搜索区分名称指定了要限制抓取的子树。
DN 是 区分名称,由一系列用逗号分隔的 相关区分名称定义。 每个相对区分名称都由 * 属性* 名值对组成,它代表目录中的一个对象。
例如,在 Active Directory 中,属性可包括通用名称 (CN) (如
Jane Doe
)和组织单位 (OU) (如Research
)。 大多数区分名称都包含一个或多个域组件 (DC) 属性,这些属性定义了托管 LDAP 目录的名称空间。下面是一个简的杰出名字示例:
CN=Jane Doe,OU=Research,DC=IBM,DC=COM
- LDAP 用户过滤器
-
应用于搜索的过滤器,用于查找要抓取的 LDAP 条目。
如果未指定,则应用默认值,该值被认为是所选服务器类型的最佳过滤器。 您可以编辑预定义的筛选器值。
-
展开高级配置部分,列出要从搜索中包括或排除的特定属性。
例如,您可能需要知道某个员工工作的国家,因此您需要包含一个
c
属性,用于存储 ISO 国家代码。 或者,您可能永远不想返回员工的序列号,因此您排除了serialnumber
属性。 -
指定搜索范围。 您可以选择抓取与搜索基 DN 相隔一级的记录,或者抓取与搜索基 DN 相关的整个子树。
-
如果 LDAP 目录数据源具有二进制属性,可以启用 Allow binary attributes 选项。
启用后,爬虫会为指定的每个二进制属性创建单独的文档。 该文件还包含任何其他非二进制 LDAP 属性值。
有关二元期权的更多信息,请参见 RTF 4522。
在 二进制属性字段中,指定要索引的二进制属性名称。
-
-
如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别。
-
单击完成。
该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。
如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。