IBM Cloud Docs
HCL Notes

HCL Notes

抓取HCL Notes(以前为Lotus Notes)数据库。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。

抓取哪些文件

  • HCL Notes 数据库中的每个文档都会被抓取并作为一个文档添加到集合中。
  • 如果 HCL Notes 文档有文件附件,并且您选择处理文件附件,则只会抓取 Discovery 支持的文档;其他文档将被忽略。 有关详细信息,请参阅 支持的文件类型
  • 如果选择处理附件,爬虫会尝试抓取HCL Notes文档所附的文件并编制索引。 Discovery 支持的文件类型都会被索引。 有关详细信息,请参阅 支持的文件类型
  • 支持文件级安全。 启用此选项后,用户可以抓取和查询与登录 HCL Notes 时相同的内容。 有关详细信息,请参阅 支持文档级安全性
  • 当重新抓取资源时,会添加新文档,将更新后的文档修改为当前版本,并将已删除的文档从集合索引中删除。
  • 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。

数据源需求

除了所有已安装部署的 数据源要求 之外,您的 HCL Notes 数据源必须满足以下要求:

  • 数据源可以抓取 HCL Notes 9.0.1 数据库。
  • HCL Notes 数据源仅支持Domino Internet Inter-ORB Protocol (DIIOP)协议。
  • 要抓取文档(包括 ACL),您必须至少拥有 Reader 级访问 Domino 服务器、数据库和文档的权限。
  • 要从 Domino 内部 LDAP 目录中提取组,必须有 Reader 访问 names.nsf 目录数据库的权限。
  • 要从外部 LDAP 目录中提取组,必须拥有外部 LDAP 服务器的证书。

必备步骤

  • 如果要启用文档级安全性,必须采取一些步骤进行设置。 有关详细信息,请参阅 支持文档级安全性

    您可以使用 HCL Notes 使用的 LDAP 服务器(内部 Domino LDAP 或外部 LDAP 目录)作为远程 LDAP 目录来管理文档级安全性。 可在外部 LDAP 目录中列出搜索收藏集的用户。 不过,用于设置抓取的用户凭据必须属于 Domino 内部 LDAP 目录中列出的用户。

    要配置文档级安全性,需要收集以下信息:

    LDAP 服务器 URL
    LDAP服务器 URL 的连接地址。 例如,ldap://<ldap_server>:<port>
    LDAP 绑定用户名
    用于绑定到目录服务的用户名。 该用户必须具有管理访问权限,并列在 Domino 内部 LDAP 目录中。
    LDAP 绑定用户密码
    与用户关联的密码。
    LDAP 基本 DN
    在 LDAP 中搜索用户条目的起点。 例如,CN=Users,DC=example,DC=com
    LDAP 用户过滤器
    用于在 LDAP 中搜索用户条目的过滤器。 如果未指定,缺省值为 (userPrincipalName=\{0\})
    LDAP 组过滤器
    用于在 LDAP 中搜索组条目时使用的过滤器。
  • 在使用 Domino Internet Inter-ORB Protocol (DIIOP) 协议抓取服务器之前,必须配置 HCL Notes 服务器以使用该协议。 要搜寻的服务器必须在运行 DIIOP 和 HTTP 任务。

要配置 HCL Notes 服务器以使用 DIIOP,请完成以下步骤:

  1. 配置 HCL Notes 服务器文档。

    • 在 HCL Notes 中,打开 server 服务器上要抓取的 HCL Notes 文档。 此文档存储在 Domino 目录中。

    • 在配置页面上,展开服务器部分。

    • 在“可编程性限制”部分的“安全”页面上,在以下三个字段中为您的环境指定适当的安全限制:

      • 运行受限的 Lotus Script/Java 代理
      • 运行受限 Java/JavaScript/COM
      • 不受限制地运行 Java/JavaScript/COM

      例如,您可以指定一个星号( * ),允许 LotusScript/Java 代理无限制访问,并指定在Domino目录中注册的 Java/JavaScript/COM 限制的用户名。

      要搜寻使用 DIIOP 协议的服务器,所配置的搜寻器必须能够访问在以上字段中指定的用户名。

    • 打开 Internet Protocol 页面,然后打开 HTTP 页面。 将允许 HTTP 客户端浏览数据库选项设置为是

  2. 配置用户文档。

    • 打开 user 文档,该用户的凭据将用于 LDAP 绑定。 此文档存储在 Domino 目录中。

    • 在“基本”页面上的因特网密码字段中,指定密码。

      您可以在设置数据源时指定这些用户和密码信息。

  3. 在 HCL Notes 服务器上重新启动DIIOP任务。

有关详细信息,请参阅 HCL Notes 文档中的 运行服务器任务

连接到 HCL Notes 数据源

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 点击 “备注”,然后点击 “下一步”。

  4. 为藏品命名。

  5. 如果 HCL Notes 中的文件语言不是英语,请选择适当的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选:更改同步计划。

    有关详细信息,请参阅 爬行计划选项

  7. Enter your credentials 部分,为以下字段添加值:

    主机名
    HCL Notes 服务器的主机名。
    用户名
    用于抓取 HCL Notes 服务器的用户名。
    密码
    与用户关联的密码。
  8. 抓取类型中,从以下选项中选择要抓取的内容:

    • 如果要抓取特定的 HCL Notes 数据库,请选择 数据库,然后在 数据库文件名 字段中添加数据库的文件名。
    • 如果要抓取多个数据库,请选择 Directory。 在 Directory name 字段中指定存储要抓取的数据库的目录。
  9. 可选:在安全性部分,指定是否要启用文档级安全性。

    • 如果要启用文档级安全性,请将 Enable Document Level Security 开关设置为 On

      当设置为 “开启” 时,您的用户可以抓取他们在 HCL Notes 数据库或目录中有权访问的相同内容。

    • 要使用 Domino LDAP 目录,请将 Use remote LDAP directory 开关设置为 On。 提供有关 Domino LDAP 目录的详细信息。 您在执行前提步骤时收集了这些信息。

      LDAP 服务器 URL
      LDAP服务器 URL 的连接地址。 例如,ldap://<ldap_server>:<port>
      LDAP 绑定用户名
      用于绑定到目录服务的用户名。
      LDAP 绑定用户密码
      与用户关联的密码。
      LDAP 基本 DN
      在 LDAP 中搜索用户条目的起点。 例如,CN=Users,DC=example,DC=com
      LDAP 用户过滤器
      用于在 LDAP 中搜索用户条目的过滤器。 如果未指定,缺省值为 (userPrincipalName=\{0\})
      LDAP 组过滤器
      用于在 LDAP 中搜索组条目时使用的过滤器。
  10. 可选:在高级选项部分,请选择以下配置设置:

    爬行附件

    如果要抓取附加到 HCL Notes 文档的文件,请将切换器设置为 On

    自动检测代码页

    如果希望编码转换器检测要抓取页面的代码,请将开关设置为 On。 如果将切换器设置为 Off,请为以下字段指定值:

    要使用的代码页面
    指定要抓取的页面的字符编码。 如果未指定,则使用 UTF-8 的默认值。
    注释公式
    指定一个 HCL Notes 公式,用于过滤要抓取的数据。 例如,SELECT @IsAvailable(Year) & Year > 2003。 有关详细信息,请参阅 HCL Notes 文档中的 公式语言
  11. 指定筛选文档时要使用的日期。 日期存储在 HCL Notes 文档中名为 _ _$Date$_ _ 的字段中。 默认情况下,字段存储文档的最后修改日期。 您可以选择一个不同的日期存储在该字段中。

    文件修改日期
    使用文档最后修改的日期。 缺省情况下,该选项被选中。
    文件抓取日期
    使用最后抓取日期。
    文件创建日期
    使用文件的创建日期。
  12. 如果希望爬虫从文档中的图像提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设为 On

    启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别

  13. 单击完成

该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。

如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。