Web 搜寻

抓取网站您可以抓取公共网站和需要验证的网站。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。有关从托管部署抓取网站的更多信息，请参阅 Web crawl。

抓取哪些文件

网站内容以HTML文件的形式进行处理。
Web 搜寻器不会搜寻使用 JavaScript 呈现内容的动态 Web 站点。要确认是否使用了 JavaScript，可以在浏览器中查看 Web 站点的源代码。
当重新抓取资源时，新的文档会被添加，更新的文档会被修改为当前版本，而删除的文档会在刷新时从集合索引中删除。
所有 Discovery 数据源连接器都是只读的。无论向抓取账户授予何种权限，Discovery 都不会写入、更新或删除原始数据源中的任何内容。

前提步骤

如果要连接到需要身份验证的网站，就需要知道访问该网站所需的身份验证凭据。

对于需要基本身份验证的网站，请获取以下信息：

用户名

可以访问您要连接的网站内容的用户的用户名。

密码

与用户名关联的密码。
对于需要 Windows NT LAN Manager (NTLM) 身份验证的网站，请获取以下信息：

用户名

可以访问您要连接的网站内容的用户的用户名。

密码

与用户名关联的密码。

NTLM 域名

与网站进行身份验证的用户的 NTLM 域名。

NTLM 主机名

NTLM服务器的主机名。
对于需要基于表单身份验证的网站，请从以下选项中选择访问网站的方式：
- 直接访问：提交表单而不进入登录页面。
  
  形成行为 URL
  
  URL，用于在提交表单时将表单数据发送至该邮箱。例如，/action_page.php。
  
  必填字段
  
  查找表单中必须提供的字段值。
- 间接访问：获取登录页面并填写表格字段。请记下以下信息，以便日后提供：
  
  表单登录 URL
  
  URL 网站的登录页面。
  
  表单名称
  
  登录表单的名称。
  
  必填字段
  
  查找登录表单中必须提供的字段值。

连接网络抓取数据源

如果您想抓取一组包含需要认证和不需要认证的网站的URL，请考虑为每种认证类型创建一个不同的集合。

请从您的 Discovery 项目开始，完成以下步骤：

从导航窗格中，选择 管理集合。
点击 “新收藏”。
单击 网络抓取，然后单击 下一步。
为藏品命名。
如果网站语言不是英语，请选择相应的语言。

有关受支持语言的列表，请参阅语言支持。
可选：更改同步计划。

网络抓取数据源设计用于每周只更改一两次的网站。为确保采集到所有网站更新，请安排每周进行一次抓取。

有关详细信息，请参阅爬行计划选项。
在 “指定要抓取的位置” 部分，将网站 URL 添加到 “起始 URL”字段，然后点击 “添加”。继续添加起始 URL。

爬虫开始抓取的URL。默认情况下，网络爬虫可以抓取子树，并且只能从种子中提供的路径抓取URL。请使用完整 URL，例如 http://www.example.com/。 Web 搜寻中的起始 URL 对其搜寻的内容有两个限制：
- 搜寻与起始 URL 相同的域名。
- 搜寻/起始 URL** 中截至并包括最后一个斜杠 () 的所有 URL 内容。如果起始 URL 具有子树，那么 Web 搜寻不会搜寻该子树，除非您在起始 URL** 中指定了该子树的 URL。
如果 URL 以 HTTPS 开头：在高级配置部分，将忽略证书切换器 设置为开启，以忽略目标网站上的任何SSL证书。
可选：单击 身份验证设置，指定要应用于一个或多个起始 URL 的身份验证类型：
- 选择起始 URL。
- 从以下选项中选择身份验证类型：
  - 基本认证
  - NTLM 身份验证
  - 表单认证
- 对于 基本身份验证，请提供以下详细信息：
  
  用户名
  
  可以访问您要连接的网站内容的用户的用户名。
  
  密码
  
  与用户关联的密码。
- 对于 NTLM 身份验证，请提供以下详细信息：
  
  用户名
  
  可以访问您要连接的网站内容的用户的用户名。
  
  密码
  
  与用户关联的密码。
  
  NTLM 域名
  
  正在验证身份的用户所拥有的NTLM域名。
  
  NTLM 主机名
  
  NTLM服务器的主机名。
- 对于 FORM 身份验证，请提供以下详细信息：
  - 在表单类型中，选择以下其中一个选项：
    
    直接
    
    如果您不想打开登录页面，请点击此选项。
    
    间接
    
    如果您想获取登录页面并填写登录表单中的参数，请点击此选项。
  - 如果选择“直接”，请填写以下字段：
    
    表单操作 url
    
    提交表单所需的表单操作 URL。
    
    形式方法
    
    指定 GET。
  - 如果选择间接，请填写以下字段：
    
    表单登录网址
    
    如果您选择 “间接”表单类型，则必须填写此字段。
    
    表单名称
    
    如果您选择 “间接”表单类型，则必须填写此字段。
    
    形式方法
    
    指定 POST.
  - 在表单参数部分，表单参数的键值对列表。
    
    填写 “键” 和 “值” 字段，然后点击 “+” 添加一个或多个表单参数。
可选：如果使用代理服务器访问数据源服务器，则在代理设置部分，将启用代理设置开关设置为 On。为以下字段添加值：

用户名

如果代理服务器要求身份验证，则使用代理服务器用户名与代理服务器进行身份验证。

密码

代理服务器密码，用于在代理服务器要求验证时与代理服务器进行验证。

代理服务器域

主机所在的一个或多个域。您可以在此字段中指定通配符，例如，星号 (*) 可搜寻所有域，或者前导星号 (*.server1.bar.com) 可搜寻匹配模式的域。

代理服务器主机名或IP地址

主机名（如果您想通过局域网访问服务器）或您想用作代理服务器的IP地址。

代理服务器端口号

您要在代理服务器上连接的网络端口。
可选：在高级配置中填写以下信息：
要使用的代码页面

指定网站页面的字符编码。如果未指定，则使用 UTF-8 的默认值。

如果要抓取中文网站，请指定 UTF-8。

URL 路径深度

要抓取的网站路径级别。

例如，如果您指定了 https://www.example.com 的起始 URL 和路径深度 4，则爬虫程序将访问 https://www.example.com/some/more/examples/index.html 页面，该页面位于距离根目录 URL 四层的路径中。

只能输入正值。如果未指定，则默认值为 5。允许的最大路径深度为 20。

最大跳数

从 URL 开始，需要连续点击的链接数量。

如果未指定，则默认值为 5。爬虫可跟踪的最大链接数为 20。要不允许任何跳数，请输入 0。

忽略 robots.txt

如果希望爬虫忽略网站在其 robots.txt 文件中列出的允许和拒绝规则，请启用此设置。

请记住，网站通常使用该文件来改善抓取结果。例如，他们可能会使用 robots.txt 文件来防止抓取重复信息，防止读取草稿内容，或延迟抓取，以免网站超载。

抓取域的规则
指定允许或禁止爬虫抓取的域名。

域名区分大小写，通配符 (*) 可以出现在域名的任何位置。

规则的顺序很重要。爬虫程序应用第一条规则，匹配候选 URL。默认规则（forbid domain *）禁止所有网络抓取，且必须出现在域规则列表的最后。

例如，您可以定义以下类型的规则：
- 要排除整个 ibm.com 域：
```
forbid domain www.ibm.com
```
- 抓取任何以 ibm.com 结尾的域：
```
allow domain *.ibm.com
```
- 仅抓取以 server 开头的 IBM 域上的 443 端口：
```
allow domain server*.ibm.com:443
```
抓取 URL 前缀的规则
指定 HTTP 和 HTTPS 前缀，允许或禁止爬虫程序抓取。

在 URL 中，通配符（*）可以出现一次或多次。

规则的顺序很重要。爬虫程序应用第一条规则，匹配候选 URL。

例如，您可以定义以下类型的规则：
- 抓取该域公共目录中的页面：
```
allow prefix http://*.ibm.com/public/*
```
- 排除此域中的所有其他目录：
```
forbid prefix http://*.ibm.com/*
```
高级爬虫属性

仅在 IBM 支持人员指示时使用。
可选：如果要忽略目标网站上的任何 SSL 证书，请将忽略证书开关设置为 On。

此选项仅适用于 HTTPS URL。
如果您希望爬虫从网站图片中提取文本，请展开 更多处理设置，并将 应用光学字符识别 (OCR) 设置为 On。

启用 OCR 且文档包含图像时，处理时间会更长。有关详细信息，请参阅光学字符识别。
单击完成。

该系列创建迅速。当数据被添加到数据集中时，需要更多的时间来处理数据。

如果想查看进度，请进入活动页面。在导航窗格中，单击 管理收藏，然后单击打开收藏。