HCL Notes
抓取HCL Notes(以前为Lotus Notes)数据库。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。
抓取哪些文件
- HCL Notes 数据库中的每个文档都会被抓取并作为一个文档添加到集合中。
- 如果 HCL Notes 文档有文件附件,并且您选择处理文件附件,则只会抓取 Discovery 支持的文档;其他文档将被忽略。 有关详细信息,请参阅 支持的文件类型。
- 如果选择处理附件,爬虫会尝试抓取HCL Notes文档所附的文件并编制索引。 Discovery 支持的文件类型都会被索引。 有关详细信息,请参阅 支持的文件类型。
- 支持文件级安全。 启用此选项后,用户可以抓取和查询与登录 HCL Notes 时相同的内容。 有关详细信息,请参阅 支持文档级安全性。
- 当重新抓取资源时,会添加新文档,将更新后的文档修改为当前版本,并将已删除的文档从集合索引中删除。
- 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。
数据源需求
除了所有已安装部署的 数据源要求 之外,您的 HCL Notes 数据源必须满足以下要求:
- 数据源可以抓取 HCL Notes 9.0.1 数据库。
- HCL Notes 数据源仅支持Domino Internet Inter-ORB Protocol (DIIOP)协议。
- 要抓取文档(包括 ACL),您必须至少拥有
Reader
级访问 Domino 服务器、数据库和文档的权限。 - 要从 Domino 内部 LDAP 目录中提取组,必须有
Reader
访问names.nsf
目录数据库的权限。 - 要从外部 LDAP 目录中提取组,必须拥有外部 LDAP 服务器的证书。
必备步骤
-
如果要启用文档级安全性,必须采取一些步骤进行设置。 有关详细信息,请参阅 支持文档级安全性。
您可以使用 HCL Notes 使用的 LDAP 服务器(内部 Domino LDAP 或外部 LDAP 目录)作为远程 LDAP 目录来管理文档级安全性。 可在外部 LDAP 目录中列出搜索收藏集的用户。 不过,用于设置抓取的用户凭据必须属于 Domino 内部 LDAP 目录中列出的用户。
要配置文档级安全性,需要收集以下信息:
- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址。 例如,
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定到目录服务的用户名。 该用户必须具有管理访问权限,并列在 Domino 内部 LDAP 目录中。
- LDAP 绑定用户密码
- 与用户关联的密码。
- LDAP 基本 DN
- 在 LDAP 中搜索用户条目的起点。 例如,
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在 LDAP 中搜索用户条目的过滤器。 如果未指定,缺省值为
(userPrincipalName=\{0\})
。 - LDAP 组过滤器
- 用于在 LDAP 中搜索组条目时使用的过滤器。
-
在使用 Domino Internet Inter-ORB Protocol (DIIOP) 协议抓取服务器之前,必须配置 HCL Notes 服务器以使用该协议。 要搜寻的服务器必须在运行 DIIOP 和 HTTP 任务。
要配置 HCL Notes 服务器以使用 DIIOP,请完成以下步骤:
-
配置 HCL Notes 服务器文档。
-
在 HCL Notes 中,打开
server
服务器上要抓取的 HCL Notes 文档。 此文档存储在 Domino 目录中。 -
在配置页面上,展开服务器部分。
-
在“可编程性限制”部分的“安全”页面上,在以下三个字段中为您的环境指定适当的安全限制:
- 运行受限的 Lotus Script/Java 代理
- 运行受限 Java/JavaScript/COM
- 不受限制地运行 Java/JavaScript/COM
例如,您可以指定一个星号(
*
),允许 LotusScript/Java 代理无限制访问,并指定在Domino目录中注册的 Java/JavaScript/COM 限制的用户名。要搜寻使用 DIIOP 协议的服务器,所配置的搜寻器必须能够访问在以上字段中指定的用户名。
-
打开 Internet Protocol 页面,然后打开 HTTP 页面。 将允许 HTTP 客户端浏览数据库选项设置为是。
-
-
配置用户文档。
-
打开
user
文档,该用户的凭据将用于 LDAP 绑定。 此文档存储在 Domino 目录中。 -
在“基本”页面上的因特网密码字段中,指定密码。
您可以在设置数据源时指定这些用户和密码信息。
-
-
在 HCL Notes 服务器上重新启动DIIOP任务。
有关详细信息,请参阅 HCL Notes 文档中的 运行服务器任务。
连接到 HCL Notes 数据源
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
点击 “备注”,然后点击 “下一步”。
-
为藏品命名。
-
如果 HCL Notes 中的文件语言不是英语,请选择适当的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选:更改同步计划。
有关详细信息,请参阅 爬行计划选项。
-
在 Enter your credentials 部分,为以下字段添加值:
- 主机名
- HCL Notes 服务器的主机名。
- 用户名
- 用于抓取 HCL Notes 服务器的用户名。
- 密码
- 与用户关联的密码。
-
在抓取类型中,从以下选项中选择要抓取的内容:
- 如果要抓取特定的 HCL Notes 数据库,请选择 数据库,然后在 数据库文件名 字段中添加数据库的文件名。
- 如果要抓取多个数据库,请选择 Directory。 在 Directory name 字段中指定存储要抓取的数据库的目录。
-
可选:在安全性部分,指定是否要启用文档级安全性。
-
如果要启用文档级安全性,请将 Enable Document Level Security 开关设置为
On
。当设置为 “开启” 时,您的用户可以抓取他们在 HCL Notes 数据库或目录中有权访问的相同内容。
-
要使用 Domino LDAP 目录,请将 Use remote LDAP directory 开关设置为
On
。 提供有关 Domino LDAP 目录的详细信息。 您在执行前提步骤时收集了这些信息。- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址。 例如,
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定到目录服务的用户名。
- LDAP 绑定用户密码
- 与用户关联的密码。
- LDAP 基本 DN
- 在 LDAP 中搜索用户条目的起点。 例如,
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在 LDAP 中搜索用户条目的过滤器。 如果未指定,缺省值为
(userPrincipalName=\{0\})
。 - LDAP 组过滤器
- 用于在 LDAP 中搜索组条目时使用的过滤器。
-
-
可选:在高级选项部分,请选择以下配置设置:
- 爬行附件
-
如果要抓取附加到 HCL Notes 文档的文件,请将切换器设置为
On
。 - 自动检测代码页
-
如果希望编码转换器检测要抓取页面的代码,请将开关设置为
On
。 如果将切换器设置为Off
,请为以下字段指定值:- 要使用的代码页面
- 指定要抓取的页面的字符编码。 如果未指定,则使用
UTF-8
的默认值。 - 注释公式
- 指定一个 HCL Notes 公式,用于过滤要抓取的数据。 例如,
SELECT @IsAvailable(Year) & Year > 2003
。 有关详细信息,请参阅 HCL Notes 文档中的 公式语言。
-
指定筛选文档时要使用的日期。 日期存储在 HCL Notes 文档中名为
_ _$Date$_ _
的字段中。 默认情况下,字段存储文档的最后修改日期。 您可以选择一个不同的日期存储在该字段中。- 文件修改日期
- 使用文档最后修改的日期。 缺省情况下,该选项被选中。
- 文件抓取日期
- 使用最后抓取日期。
- 文件创建日期
- 使用文件的创建日期。
-
如果希望爬虫从文档中的图像提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设为
On
。启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别。
-
单击完成。
该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。
如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。