IBM Cloud Docs
Web 搜寻

Web 搜寻

抓取网站 您可以抓取公共网站和需要验证的网站。

IBM Cloud Pak for Data IBM Software Hub

此信息仅适用于已安装的部署。 有关从托管部署抓取网站的更多信息,请参阅 Web crawl

抓取哪些文件

  • 网站内容以HTML文件的形式进行处理。
  • Web 搜寻器不会搜寻使用 JavaScript 呈现内容的动态 Web 站点。 要确认是否使用了 JavaScript,可以在浏览器中查看 Web 站点的源代码。
  • 当重新抓取资源时,新的文档会被添加,更新的文档会被修改为当前版本,而删除的文档会在刷新时从集合索引中删除。
  • 所有 Discovery 数据源连接器都是只读的。 无论向抓取账户授予何种权限,Discovery 都不会写入、更新或删除原始数据源中的任何内容。

前提步骤

如果要连接到需要身份验证的网站,就需要知道访问该网站所需的身份验证凭据。

  • 对于需要基本身份验证的网站,请获取以下信息:

    用户名
    可以访问您要连接的网站内容的用户的用户名。
    密码
    与用户名关联的密码。
  • 对于需要 Windows NT LAN Manager (NTLM) 身份验证的网站,请获取以下信息:

    用户名
    可以访问您要连接的网站内容的用户的用户名。
    密码
    与用户名关联的密码。
    NTLM 域名
    与网站进行身份验证的用户的 NTLM 域名。
    NTLM 主机名
    NTLM服务器的主机名。
  • 对于需要基于表单身份验证的网站,请从以下选项中选择访问网站的方式:

    • 直接访问:提交表单而不进入登录页面。

      形成行为 URL
      URL,用于在提交表单时将表单数据发送至该邮箱。 例如,/action_page.php
      必填字段
      查找表单中必须提供的字段值。
    • 间接访问:获取登录页面并填写表格字段。 请记下以下信息,以便日后提供:

      表单登录 URL
      URL 网站的登录页面。
      表单名称
      登录表单的名称。
      必填字段
      查找登录表单中必须提供的字段值。

连接网络抓取数据源

如果您想抓取一组包含需要认证和不需要认证的网站的URL,请考虑为每种认证类型创建一个不同的集合。

请从您的 Discovery 项目开始,完成以下步骤:

  1. 从导航窗格中,选择 管理集合

  2. 点击 “新收藏”。

  3. 单击 网络抓取,然后单击 下一步

  4. 为藏品命名。

  5. 如果网站语言不是英语,请选择相应的语言。

    有关受支持语言的列表,请参阅语言支持

  6. 可选:更改同步计划。

    网络抓取数据源设计用于每周只更改一两次的网站。 为确保采集到所有网站更新,请安排每周进行一次抓取。

    有关详细信息,请参阅 爬行计划选项

  7. “指定要抓取的位置” 部分,将网站 URL 添加到 “起始 URL”字段,然后点击 “添加”。 继续添加起始 URL。

    爬虫开始抓取的URL。 默认情况下,网络爬虫可以抓取子树,并且只能从种子中提供的路径抓取URL。 请使用完整 URL,例如 http://www.example.com/。 Web 搜寻中的起始 URL 对其搜寻的内容有两个限制:

    • 搜寻与起始 URL 相同的域名。
    • 搜寻/起始 URL** 中截至并包括最后一个斜杠 () 的所有 URL 内容。 如果起始 URL 具有子树,那么 Web 搜寻不会搜寻该子树,除非您在起始 URL** 中指定了该子树的 URL。
  8. 如果 URL 以 HTTPS 开头:在高级配置部分,将忽略证书切换器 设置为开启,以忽略目标网站上的任何SSL证书。

  9. 可选:单击 身份验证设置,指定要应用于一个或多个起始 URL 的身份验证类型:

    • 选择起始 URL。

    • 从以下选项中选择身份验证类型:

      • 基本认证
      • NTLM 身份验证
      • 表单认证
    • 对于 基本身份验证,请提供以下详细信息:

      用户名
      可以访问您要连接的网站内容的用户的用户名。
      密码
      与用户关联的密码。
    • 对于 NTLM 身份验证,请提供以下详细信息:

      用户名
      可以访问您要连接的网站内容的用户的用户名。
      密码
      与用户关联的密码。
      NTLM 域名
      正在验证身份的用户所拥有的NTLM域名。
      NTLM 主机名
      NTLM服务器的主机名。
    • 对于 FORM 身份验证,请提供以下详细信息:

      • 表单类型中,选择以下其中一个选项:

        直接
        如果您不想打开登录页面,请点击此选项。
        间接
        如果您想获取登录页面并填写登录表单中的参数,请点击此选项。
      • 如果选择“直接”,请填写以下字段:

        表单操作 url
        提交表单所需的表单操作 URL。
        形式方法
        指定 GET
      • 如果选择间接,请填写以下字段:

        表单登录网址
        如果您选择 “间接”表单类型,则必须填写此字段。
        表单名称
        如果您选择 “间接”表单类型,则必须填写此字段。
        形式方法
        指定 POST.
      • 表单参数部分,表单参数的键值对列表。

        填写 “键”“值” 字段,然后点击 “+” 添加一个或多个表单参数。

  10. 可选:如果使用代理服务器访问数据源服务器,则在代理设置部分,将启用代理设置开关设置为 On。 为以下字段添加值:

    用户名
    如果代理服务器要求身份验证,则使用代理服务器用户名与代理服务器进行身份验证。
    密码
    代理服务器密码,用于在代理服务器要求验证时与代理服务器进行验证。
    代理服务器域
    主机所在的一个或多个域。 您可以在此字段中指定通配符,例如,星号 (*) 可搜寻所有域,或者前导星号 (*.server1.bar.com) 可搜寻匹配模式的域。
    代理服务器主机名或IP地址
    主机名(如果您想通过局域网访问服务器)或您想用作代理服务器的IP地址。
    代理服务器端口号
    您要在代理服务器上连接的网络端口。
  11. 可选:在高级配置中填写以下信息:

    要使用的代码页面

    指定网站页面的字符编码。 如果未指定,则使用 UTF-8 的默认值。

    如果要抓取中文网站,请指定 UTF-8

    URL 路径深度

    要抓取的网站路径级别。

    例如,如果您指定了 https://www.example.com 的起始 URL 和路径深度 4,则爬虫程序将访问 https://www.example.com/some/more/examples/index.html 页面,该页面位于距离根目录 URL 四层的路径中。

    只能输入正值。 如果未指定,则默认值为 5。 允许的最大路径深度为 20

    最大跳数

    从 URL 开始,需要连续点击的链接数量。

    如果未指定,则默认值为 5。 爬虫可跟踪的最大链接数为 20。 要不允许任何跳数,请输入 0

    忽略 robots.txt

    如果希望爬虫忽略网站在其 robots.txt 文件中列出的允许和拒绝规则,请启用此设置。

    请记住,网站通常使用该文件来改善抓取结果。 例如,他们可能会使用 robots.txt 文件来防止抓取重复信息,防止读取草稿内容,或延迟抓取,以免网站超载。

    抓取域的规则

    指定允许或禁止爬虫抓取的域名。

    域名区分大小写,通配符 (*) 可以出现在域名的任何位置。

    规则的顺序很重要。 爬虫程序应用第一条规则,匹配候选 URL。 默认规则(forbid domain *)禁止所有网络抓取,且必须出现在域规则列表的最后。

    例如,您可以定义以下类型的规则:

    • 要排除整个 ibm.com 域:

      forbid domain www.ibm.com
      
    • 抓取任何以 ibm.com 结尾的域:

      allow domain *.ibm.com
      
    • 仅抓取以 server 开头的 IBM 域上的 443 端口:

      allow domain server*.ibm.com:443
      
    抓取 URL 前缀的规则

    指定 HTTP 和 HTTPS 前缀,允许或禁止爬虫程序抓取。

    在 URL 中,通配符(*)可以出现一次或多次。

    规则的顺序很重要。 爬虫程序应用第一条规则,匹配候选 URL。

    例如,您可以定义以下类型的规则:

    • 抓取该域公共目录中的页面:

      allow prefix http://*.ibm.com/public/*
      
    • 排除此域中的所有其他目录:

      forbid prefix http://*.ibm.com/*
      
    高级爬虫属性

    仅在 IBM 支持人员指示时使用。

  12. 可选:如果要忽略目标网站上的任何 SSL 证书,请将忽略证书开关设置为 On

    此选项仅适用于 HTTPS URL。

  13. 如果您希望爬虫从网站图片中提取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为 On

    启用 OCR 且文档包含图像时,处理时间会更长。 有关详细信息,请参阅 光学字符识别

  14. 单击完成

该系列创建迅速。 当数据被添加到数据集中时,需要更多的时间来处理数据。

如果想查看进度,请进入活动页面。 在导航窗格中,单击 管理收藏,然后单击打开收藏。