Windows 文件系统
搜寻存储在 Microsoft Windows 文件系统中的文档。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。
要搜寻的文档
- 仅搜寻文件路径中 Discovery 支持的文档; 将忽略所有其他文档。 有关更多信息,请参阅 支持的文件类型。
- 支持文档级别安全性。 启用此选项后,您的用户可以搜寻和查询他们直接访问文件系统时可以访问的内容。
- 当重新抓取资源时,会添加新文档,将更新后的文档修改为当前版本,并将已删除的文档从集合索引中删除。
- 所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
数据源需求
除了所有已安装部署的 数据源需求 之外,Windows 文件系统数据源还必须满足以下需求:
- 连接器支持 Microsoft Windows Server 2012 R2,2016,2019 和 2022。
- 要搜寻的远程代理程序服务器和文件服务器必须属于同一个 Windows 域。 爬虫只能从单个Windows域中收集访问控制列表(ACL)数据。
在 4.6 发行版中添加了对 Microsoft Windows Server 2022 的支持。 从 4.7 发行版开始,您可以通过启用对传输层安全性 (TLS) 协议的支持来保护 Windows 代理程序服务及其搜寻器之间发送的流量。
必备步骤
-
如果要启用文档级安全性,那么必须执行一些步骤来设置该安全性。 有关更多信息,请参阅 支持文档级安全性。
要配置文档级安全性,您需要收集以下信息:
- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址。 例如,
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定到目录服务的用户名。
在大多数情况下,此用户名是专有名称 (DN)。 Active Directory 用户名可能起作用,但与常规 Windows 登录不同,它区分大小写。
- LDAP 绑定用户密码
- 与绑定用户名关联的密码。
- LDAP 基本 DN
- 在 LDAP 中搜索用户条目的起始点。 例如,
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在LDAP中搜索用户条目的用户过滤器。 如果空白,缺省值为
(userPrincipalName={0})
。
-
在配置 Windows 文件系统集合之前,必须在远程 Windows 文件服务器或远程 Windows 服务器上安装 IBM Watson Discovery Agent for Windows File Systems。 代理是一个Windows服务,用于从数据源服务器检索数据并将其发送至 Discovery。 代理程序可以搜寻远程 Windows 文件系统,代理程序本地的驱动器以及共享网络文件夹。
如果您在远程 Windows 服务器上安装代理,则该远程 Windows 服务器必须能够挂载一个或多个文件服务器,以便代理能够抓取远程 Windows 文件系统。
要安装和配置代理,请完成以下任务:
导入代理程序
通过 4.6 发行版,IBM Watson Discovery Agent for Windows File Systems 已更新为使用 64 位版本的 Windows 运行。 如果使用 4.6之前的发行版安装了代理程序,那么必须卸载先前版本,将其删除,然后重新安装代理程序。
请执行下列其中一项任务:
- 您的先前安装版本低于 4.6: 替换 pre-4.6 代理程序
- 您是首次使用连接器: 安装代理程序
更换 pre-4.6 代理程序
对于安装了版本低于 4.6.0.0 的 IBM Watson Discovery Agent for Windows File Systems 的部署,此属性是必需的。
要替换先前版本的代理程序,请完成以下步骤:
-
将用于定义 Windows 文件系统代理程序可访问的共享网络目录的配置文件复制到代理程序的文件路径之外的目录 (即
C:\Program Files (x86)\IBM\es
)。例如,将
C:\Program Files (x86)\IBM\es\distributed\esadmin\config\esfsexport.txt
文件复制到C:\temp
目录之类的目录。 -
从 Microsoft Windows 应用和功能 实用程序中,找到 IBM Watson Discovery Agent for Windows 文件系统的较早版本,然后单击 卸载。
-
选择 完全删除 IBM Watson Discovery Agent for Windows File Systems,然后单击 卸载。
-
重新启动系统。
-
完成 安装代理程序 中的步骤以安装最新版本的代理程序。
-
将
C:\Program Files\IBM\es\distributed\esadmin\config\esfsexport.txt
文件的新版本替换为您在步骤 1 中复制的文件。此步骤将您为先前版本的代理程序设置的共享目录的配置添加到新安装。 复用文件共享时,可以跳过配置共享目录的步骤。
-
运行以下命令以验证目录是否与代理程序服务共享:
C:\Users\Administrator> esagent --lsshare
安装代理程序
要首次安装 IBM Watson Discovery Agent for Windows File Systems,请完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 Windows 文件系统,然后单击 下一步。
-
滚动到 下载并安装 Windows 代理程序 部分,然后单击 下载 Windows 代理程序安装程序。
下载一个ZIP文件。
-
解压
WindowsAgentServer.zip
文件。 -
可以选择下列其中一种方法来运行安装程序:
-
双击
install.exe
文件以启动安装向导。 -
要在控制台以文本模式运行安装程序,请完成以下步骤:
-
切换到代理程序目录。
-
输入以下命令:
install.exe -i console
屏幕以文本形式呈现,并会提示您输入与图形安装相同的信息。
输入命令后,后台会运行一个进程几秒钟,然后显示控制台安装程序。
-
-
要以静默方式安装代理程序服务器,请完成以下步骤:
-
切换到
Agent/responseFiles
目录。 -
编辑
DistributedFileSystemCrawler.properties
模板响应文件以提供有关环境的信息。 要运行安装程序,请切换到代理目录,然后指定您编辑的文件名称。请参阅以下示例:
install.exe -i silent -f responseFiles/DistributedFileSystemCrawler.properties
如果将模板文件复制到另一个位置以进行编辑,那么运行安装程序时,请指定该文件的标准路径。 如果响应文件路径中包含空格,请将路径用双引号括起来(
"
)。请参见以下示例:install.exe -i silent -f "c:\My Documents\DistributedFileSystemCrawler.properties"
-
-
-
在安装过程中,必须提供以下信息:
-
hostname
: 输入或验证要安装代理程序服务器的计算机的标准主机名。您不能将 IPv6 地址指定为服务器的主机名。
-
username
:输入可用于授权访问代理服务器的帐户的用户名。如果用户名不存在,请勾选复选框创建账户。
要在安全集合中搜寻域,用户名必须是具有要搜寻的 Windows 系统的管理特权的现有域用户。 要指定域用户,请使用格式
<username>@<domain name>
。 -
password
: 提供与用户名关联的密码。
-
-
可选: 如果要更改缺省路径和端口设置,请单击 高级选项。
- 可以更改安装目录和数据目录的路径。
- 代理程序服务器使用三个 TCP/IP 端口,分别用于认证与服务器的连接,在文件系统和 Discovery 之间传输数据,以及监视代理程序服务器。 缺省端口号为
8397
和8398
。 如果这些值与系统中指定的其他端口有冲突,请更改端口号。
-
在摘要页面上,复查您选择的选项,然后单击安装以开始安装软件。
-
可选: 如果要保护 Windows 代理程序服务与搜寻器之间的流量,请启用 TLS 支持。
将名为
tls.p12
的文件从解压缩的目录复制到代理程序安装所在的根目录。 例如,根目录可能是C:\Program Files\IBM\es\distributed\esadmin
。从 4.7 发行版开始提供 TLS 支持。
-
重新启动计算机。
在代理程序服务器上配置共享目录
安装软件后,必须设置 Windows 文件系统代理程序可以访问的共享网络目录。 要定义新的文件系统共享,请导出本地或远程网络目录。
如果要更换使用低于 4.6.0.0的发行版安装的代理程序,请跳过此过程。 替换指示信息说明如何复用先前定义的文件共享。
-
从安装了代理程序的服务器中导出本地目录:
esagent --addshare <d:><\example>
其中,
d:
表示要使用的盘符,\example
表示本地目录的路径。 -
导出可以从安装了代理程序的服务器访问的远程网络目录:
esagent --addshare <\\files.example.com\data>
其中,
\\files.example.com\data
代表远程服务器的主机名或IP地址,或远程目录的路径。 -
列出安装了代理程序的服务器上定义的共享目录:
esagent --lsshare
-
如果要删除在安装了代理程序的服务器上定义的共享,可以使用以下命令:
esagent --rmshare \\files.example.com\data
服务器状态命令
安装代理服务器后,您可以输入命令来启动、停止和检查服务器的状态。
停止代理程序服务器还会停止搜寻器。 例如,如果搜寻器意外停止,那么可以关闭该搜寻器的连接并释放其资源。
-
要启动服务器,请输入以下命令:
esagent start
-
要停止服务器,请输入以下命令:
esagent stop
-
要获取代理程序服务器的状态,请输入以下命令:
esagent getStatus
getStatus
命令的输出是一个XML文件,其输出如下:
<AgentStatus>
<SpaceStatus>
<SpaceId>012</SpaceId>
<RootFolder>E:\\Projects\Analytics\\data\test1</RootFolder>
<ConnectionNumber>9</ConnectionNumber>
<StartTime>1244709336093</StartTime>
<LastTime>1244709385843</LastTime>
<IdlePeriod>219</IdlePeriod>
</SpaceStatus>
<SpaceStatus>
<SpaceId>013</SpaceId>
<RootFolder>E:\\Projects\Analytics\\data\test2</RootFolder>
<ConnectionNumber>10</ConnectionNumber>
<StartTime>1244709336093</StartTime>
<LastTime>1244709385843</LastTime>
<IdlePeriod>219</IdlePeriod>
</SpaceStatus>
连接到 Windows 文件系统数据源
请按照您的 Discovery 项目,完成以下步骤。
如果完成了先决条件步骤,请返回到已开始创建的 Windows 文件系统数据源集合,然后跳至步骤 4。
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 Windows 文件系统,然后单击 下一步。
-
命名集合。
-
如果要搜寻的文档的语言不是英语,请选择相应的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选: 更改同步调度。
有关更多信息,请参阅 搜寻调度选项。
-
在 输入凭证 部分中,向以下字段添加值。 您在代理程序服务器安装期间提供了这些字段,如 先决条件步骤 部分中所述。
- 主机
- 远程 Microsoft Windows 服务器的主机名,例如
<hostname>.mydomain.com
。 - 用户名
- 用于连接代理程序服务器的用户名。 您可以使用用户名将 Discovery 连接到共享网络文件夹并抓取内容。
- 密码
- 与用户名关联的密码。
- 代理程序认证端口
- 用于认证的端口。 缺省端口值为
8397
。 - 端口
- 用于传输数据的端口。 缺省端口值为
8398
。
-
在 指定要搜寻的内容 部分中,在 路径 字段中输入要搜寻的文件路径,然后单击 添加。
文件路径区分大小写。
(可选) 添加更多文件路径。
-
可选: 定制已搜寻的文件类型。
搜寻器会自动配置为排除可能不安全搜寻的文件类型的文件扩展名列表。 可以向已排除的过滤器列表添加更多文件扩展名,或者仅列出要包含在搜寻中的文件类型的文件扩展名。 列出要包含的文件类型更安全。
要更改已搜寻的文件类型,请在 扩展过滤器 部分中选择是使用“已排除”还是“已包含”过滤器列表。 然后列出要排除或包含的文件类型的文件扩展名。
此配置选项在 4.0.3 版本中推出。
-
可选: 指定要搜寻的数据的字符集。
搜寻器使用的转换器会自动配置为在转换文件之前检测这些文件的字符集。 但是,您可以选择指定用于数据转换的其他字符编码。 要指定字符编码,请完成以下步骤:
- 将 自动代码页检测 开关设置为
Off
。 - 在 要使用的代码页 字段中,将字符编码指定为 Java 字符集 值。 例如,
UTF-8
或UTF-16
。 如果未指定字符集,那么将使用 ISO-8859-1。
此配置选项在 4.0.3 版本中推出。
- 将 自动代码页检测 开关设置为
-
可选: 如果要启用文档级安全性,请在 安全性 部分中,将 启用文档级安全性 开关设置为
On
。启用此选项后,用户可以搜寻和查询自己有权访问的内容。 您必须提供有关要使用的 LDAP 目录的详细信息。
- LDAP 服务器 URL
- LDAP服务器 URL 的连接地址。 例如,
ldap://<ldap_server>:<port>
。 - LDAP 绑定用户名
- 用于绑定到目录服务的用户名。
- LDAP 绑定用户密码
- 与绑定用户名关联的密码。
- LDAP 基本 DN
- 在 LDAP 中搜索用户条目的起始点。 例如,
CN=Users,DC=example,DC=com
。 - LDAP 用户过滤器
- 用于在LDAP中搜索用户条目的用户过滤器。 如果空白,缺省值为
(userPrincipalName={0})
。
-
如果希望搜寻器从文档中的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别。
-
单击完成。
将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。
如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。
对现有集合启用 TLS
要确保通过传输层安全性 (TLS) 协议发送 Windows 代理程序服务与搜寻器之间发送的所有流量,请启用 TLS 支持。
此功能从 V 4.7开始可用。 直到将服务软件升级到 4.7之后,才会完成此任务。
对 Windows 代理程序服务启用 TLS 后,具有较早版本的发现的部署中的任何现有集合都将无法连接到此 Windows 代理程序服务。
要向现有集合添加 TLS 支持,请完成以下步骤:
-
打开现有“窗口文件系统”集合的“处理设置”页面。
-
安装最新版本的代理。
完成 安装代理程序 过程中的步骤,从步骤 4 开始,包括用于启用 TLS 支持的可选步骤。
请勿完成要求您重新启动计算机的最后一步。
-
在文本编辑器中查找并打开
as.cfg
文件,然后将以下行添加到该文件中:agent_key_store=%ES_AGENT_NODE_ROOT%\tls.p12 agent_key_store_password=changeit
其中
%ES_AGENT_NODE_ROOT%
是 Windows 代理程序服务器的根目录。 例如:agent_key_store="C:\Program Files\IBM\es\distributed\esadmin\tls.p12" agent_key_store_password=changeit
-
使用以下命令重新启动 Windows 代理程序服务:
esagent stop esagent start