Web 搜寻
抓取网站 您可以抓取公共网站和需要验证的网站。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。 有关从托管部署抓取网站的更多信息,请参阅 Web crawl。
抓取哪些文件
- 网站内容以HTML文件的形式进行处理。
- Web 搜寻器不会搜寻使用 JavaScript 呈现内容的动态 Web 站点。 要确认是否使用了 JavaScript,可以在浏览器中查看 Web 站点的源代码。
- 当重新抓取资源时,新的文档会被添加,更新的文档会被修改为当前版本,而删除的文档会在刷新时从集合索引中删除。
- 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。
前提步骤
如果要连接到需要身份验证的网站,就需要知道访问该网站所需的身份验证凭据。
-
对于需要基本身份验证的网站,请获取以下信息:
- 用户名
- 可以访问您要连接的网站内容的用户的用户名。
- 密码
- 与用户名关联的密码。
-
对于需要 Windows NT LAN Manager (NTLM) 身份验证的网站,请获取以下信息:
- 用户名
- 可以访问您要连接的网站内容的用户的用户名。
- 密码
- 与用户名关联的密码。
- NTLM 域名
- 与网站进行身份验证的用户的 NTLM 域名。
- NTLM 主机名
- NTLM服务器的主机名。
-
对于需要基于表单身份验证的网站,请从以下选项中选择访问网站的方式:
-
直接访问:提交表单而不进入登录页面。
- 形成行为 URL
- URL,用于在提交表单时将表单数据发送至该邮箱。 例如,
/action_page.php
。 - 必填字段
- 查找表单中必须提供的字段值。
-
间接访问:获取登录页面并填写表格字段。 请记下以下信息,以便日后提供:
- 表单登录 URL
- URL 网站的登录页面。
- 表单名称
- 登录表单的名称。
- 必填字段
- 查找登录表单中必须提供的字段值。
-
连接网络抓取数据源
如果您想抓取一组包含需要认证和不需要认证的网站的URL,请考虑为每种认证类型创建一个不同的集合。
请从您的 Discovery 项目开始,完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 网络抓取,然后单击 下一步。
-
为藏品命名。
-
如果网站语言不是英语,请选择相应的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选:更改同步计划。
网络抓取数据源设计用于每周只更改一两次的网站。 为确保采集到所有网站更新,请安排每周进行一次抓取。
有关详细信息,请参阅 爬行计划选项。
-
在 “指定要抓取的位置” 部分,将网站 URL 添加到 “起始 URL”字段,然后点击 “添加”。 继续添加起始 URL。
爬虫开始抓取的URL。 默认情况下,网络爬虫可以抓取子树,并且只能从种子中提供的路径抓取URL。 请使用完整 URL,例如
http://www.example.com/
。 Web 搜寻中的起始 URL 对其搜寻的内容有两个限制:- 搜寻与起始 URL 相同的域名。
- 搜寻
/
起始 URL** 中截至并包括最后一个斜杠 () 的所有 URL 内容。 如果起始 URL 具有子树,那么 Web 搜寻不会搜寻该子树,除非您在起始 URL** 中指定了该子树的 URL。
-
如果 URL 以 HTTPS 开头:在高级配置部分,将忽略证书切换器 设置为开启,以忽略目标网站上的任何SSL证书。
-
可选:单击 身份验证设置,指定要应用于一个或多个起始 URL 的身份验证类型:
-
选择起始 URL。
-
从以下选项中选择身份验证类型:
- 基本认证
- NTLM 身份验证
- 表单认证
-
对于 基本身份验证,请提供以下详细信息:
- 用户名
- 可以访问您要连接的网站内容的用户的用户名。
- 密码
- 与用户关联的密码。
-
对于 NTLM 身份验证,请提供以下详细信息:
- 用户名
- 可以访问您要连接的网站内容的用户的用户名。
- 密码
- 与用户关联的密码。
- NTLM 域名
- 正在验证身份的用户所拥有的NTLM域名。
- NTLM 主机名
- NTLM服务器的主机名。
-
对于 FORM 身份验证,请提供以下详细信息:
-
在表单类型中,选择以下其中一个选项:
- 直接
- 如果您不想打开登录页面,请点击此选项。
- 间接
- 如果您想获取登录页面并填写登录表单中的参数,请点击此选项。
-
如果选择“直接”,请填写以下字段:
- 表单操作 url
- 提交表单所需的表单操作 URL。
- 形式方法
- 指定 GET。
-
如果选择间接,请填写以下字段:
- 表单登录网址
- 如果您选择 “间接”表单类型,则必须填写此字段。
- 表单名称
- 如果您选择 “间接”表单类型,则必须填写此字段。
- 形式方法
- 指定 POST.
-
在表单参数部分,表单参数的键值对列表。
填写 “键” 和 “值” 字段,然后点击 “+” 添加一个或多个表单参数。
-
-
-
可选:如果使用代理服务器访问数据源服务器,则在代理设置部分,将启用代理设置开关设置为
On
。 为以下字段添加值:- 用户名
- 如果代理服务器要求身份验证,则使用代理服务器用户名与代理服务器进行身份验证。
- 密码
- 代理服务器密码,用于在代理服务器要求验证时与代理服务器进行验证。
- 代理服务器域
- 主机所在的一个或多个域。 您可以在此字段中指定通配符,例如,星号 (
*
) 可搜寻所有域,或者前导星号 (*.server1.bar.com
) 可搜寻匹配模式的域。 - 代理服务器主机名或IP地址
- 主机名(如果您想通过局域网访问服务器)或您想用作代理服务器的IP地址。
- 代理服务器端口号
- 您要在代理服务器上连接的网络端口。
-
可选:在高级配置中填写以下信息:
- 要使用的代码页面
-
指定网站页面的字符编码。 如果未指定,则使用
UTF-8
的默认值。如果要抓取中文网站,请指定
UTF-8
。 - URL 路径深度
-
要抓取的网站路径级别。
例如,如果您指定了
https://www.example.com
的起始 URL 和路径深度4
,则爬虫程序将访问https://www.example.com/some/more/examples/index.html
页面,该页面位于距离根目录 URL 四层的路径中。只能输入正值。 如果未指定,则默认值为
5
。 允许的最大路径深度为20
。 - 最大跳数
-
从 URL 开始,需要连续点击的链接数量。
如果未指定,则默认值为
5
。 爬虫可跟踪的最大链接数为20
。 要不允许任何跳数,请输入0
。 - 忽略 robots.txt
-
如果希望爬虫忽略网站在其 robots.txt 文件中列出的允许和拒绝规则,请启用此设置。
请记住,网站通常使用该文件来改善抓取结果。 例如,他们可能会使用 robots.txt 文件来防止抓取重复信息,防止读取草稿内容,或延迟抓取,以免网站超载。
- 抓取域的规则
-
指定允许或禁止爬虫抓取的域名。
域名区分大小写,通配符 (*) 可以出现在域名的任何位置。
规则的顺序很重要。 爬虫程序应用第一条规则,匹配候选 URL。 默认规则(forbid domain *)禁止所有网络抓取,且必须出现在域规则列表的最后。
例如,您可以定义以下类型的规则:
-
要排除整个 ibm.com 域:
forbid domain www.ibm.com
-
抓取任何以
ibm.com
结尾的域:allow domain *.ibm.com
-
仅抓取以
server
开头的 IBM 域上的443
端口:allow domain server*.ibm.com:443
-
- 抓取 URL 前缀的规则
-
指定 HTTP 和 HTTPS 前缀,允许或禁止爬虫程序抓取。
在 URL 中,通配符(*)可以出现一次或多次。
规则的顺序很重要。 爬虫程序应用第一条规则,匹配候选 URL。
例如,您可以定义以下类型的规则:
-
抓取该域公共目录中的页面:
allow prefix http://*.ibm.com/public/*
-
排除此域中的所有其他目录:
forbid prefix http://*.ibm.com/*
-
- 高级爬虫属性
-
仅在 IBM 支持人员指示时使用。
-
可选:如果要忽略目标网站上的任何 SSL 证书,请将忽略证书开关设置为
On
。此选项仅适用于 HTTPS URL。
-
如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别。
-
单击完成。
该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。
如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。