Web 搜寻
添加 Web 搜寻集合以搜寻 Web 站点,分析其页面内容并存储有意义的信息。 指定一个或多个基本 Web 页面 URL,并配置要遵循的 Web 搜寻链接页面数。 您可以配置与 Web 站点同步的频率,以便控制集合中的数据的最新程度。
在创建网络抓取集合之前,请联系网站所有者,获取抓取网站的权限。 目前,Discovery 的托管部署无法抓取 https://www.ibm.com。
IBM Cloud 仅IBM Cloud
此信息仅适用于受管部署。 有关从已安装的部署连接到 Web 站点的更多信息,请参阅 Web 搜寻。
要搜寻的文档
您可以连接到以下类型的 Web 内容:
- 公共 Web 站点
- 需要认证的私有公司 Web 站点或其他站点
- 位于企业防火墙后面的 Web 站点
在初始搜寻内容期间,将搜寻所有与搜索设置匹配的 Web 站点页面并将其添加到集合的文档索引中。 搜寻从您在 起始 URL 字段中指定的 Web 页面开始。 如果您的集合配置为遵循链接,那么搜寻将遵循起始页上的链接,这些链接与起始页共享同一子树。 例如,如果指定 https://www.example.com/banking/faqs.html
,那么将搜寻以 https://www.example.com/banking/
开头的 URL 的链接。 如果指定 https://www.example.com/banking
,那么将搜寻以 https://www.example.com/
开头的 URL 的链接。
搜寻无法访问安全子目录。 例如,如果您希望抓取程序访问的子目录(如 https://www.example.com/banking/pdfs
)没有被抓取,请检查您是否可以直接从网页浏览器访问子目录 URL。 如果无法访问它,那么搜寻无法访问它。
在后续调度的重新搜寻期间,将执行完全重新搜寻,并且任何更改都将反映在集合中。 以后从外部 Web 站点删除的 Web 站点页面中添加到集合的文档不会从集合中删除。 但是,从2022年4月之后创建的收藏开始,当您从网络抓取配置中删除起始 URL 时,任何关联的文档都会被删除。 删除的文件包括根据起始 URL 网页内容添加到收藏夹的索引文件,以及起始 URL 链接的网页衍生的文件。 您不能通过更改其他设置来限制索引文档的数量,例如更改现有的 URL,使其包含一个比之前更有限的路径,或将要遵循的最大链接数减少到0。 只有删除 URL,才能删除与其关联的索引文件。
Web 搜寻器可以搜寻使用 JavaScript 来呈现内容的 Web 页面,但搜寻器在个别页面 (而不是整个 Web 站点) 上最有效。 它无法搜寻使用动态 URL 的站点; 如果在浏览器中查看 Web 页面的源代码时看不到任何内容,那么服务将无法搜寻该内容。
如果您想抓取一组包含需要认证和不需要认证的网站的URL,请考虑为每种认证类型创建一个不同的集合。 连接器不支持基于 cookie 的搜寻。
所有 Discovery 数据源连接器都是只读的。 无论向搜寻帐户授予何种许可权,Discovery 从不写入,更新或删除原始数据源中的任何内容。
下表说明了 Discovery 可搜寻的对象。
已搜寻的对象 |
---|
Web 站点、Web 站点子目录 |
连接防火墙后托管网站的前提步骤
如果要连接托管在防火墙后面的网站,请先在 IBM Cloud Satellite® 连接器之外配置 Discovery 连接器。 有关详细信息,请参阅 Satellite连接器概述。
IBM® Secure Gateway for IBM Cloud® 正在被弃用。 使用 Secure Gateway 的现有集合可在支持终止日期前迁移到 IBM Cloud Satellite® 连接器。 有关详细信息,请参阅 Secure Gateway 过时日期和过时详细信息。
有价值的内容通常存储在贵公司的内部网站上。 通常,此类内部网 Web 站点只能从连接到办公室网络的计算机或通过 VPN 连接进行访问。 您可以使用 Satellite 连接器,在网络爬虫和此类内部网站之间建立持久、更安全的连接。
要配置 Satellite 连接器,请完成以下步骤:
- 创建一个 Satellite 连接器。 有关更多信息,请参阅 创建连接器。
- 运行连接器代理。 有关更多信息,请参阅 运行 Connector 代理。
- 创建和管理连接器端点。 有关详细信息,请参阅 创建和管理连接器端点。
限制
使用 Satellite 连接器时的限制如下:
- 您只能在创建新的网络抓取集合时配置 Satellite 连接器(创建集合后无法修改)。
- 如果在 More connection settings 中将 Connect to onremises network 设置为
On
,则所有种子 URL 必须位于同一域中。 - 如果种子 URL 使用SSL(
https://
),则可以使用基本认证和绝对URL。 - 如果种子 URL 使用 HTTP (
http://
),则适用以下限制:- 使用Satellite时,基本身份验证不可用。连接器。
- 如果抓取的网页有一个绝对 URL,例如
http://<seed_url_domain>/sample.html
,则不会抓取链接的页面。
连接到数据源
要配置 Web 搜寻集合,请完成以下步骤:
-
从导航窗格中,选择 管理集合。
-
点击 “新收藏”。
-
单击 需要连接到数据源旁边的链接? 字段,单击 Web 搜寻,然后单击 下一步。
-
命名集合。
-
如果网站上内容的语言不是英语,请选择相应的语言。
有关受支持语言的列表,请参阅语言支持。
-
可选: 您可以更改同步调度。
有关更多信息,请参阅 搜寻调度选项。
-
请指定您要抓取的网站的 URL。
-
如果您要抓取的网站需要登录,请将基本认证设置为
On
,将页面的 URL 添加到起始 URL 字段,然后点击添加。添加有权访问站点的用户名和密码,然后单击 保存凭证。 每个集合只能指定一组凭证。
例如,您可以将
https://cloud.ibm.com
指定为起始 URL,并将您的 IBMid 添加为凭据。如果要从站点的特定部分开始搜寻,请在 起始 URL 字段中指定。 子部分的域名必须与您之前指定的 URL 中的域名一致。
例如,您可以将起始 URL 更改为
https://cloud.ibm.com/unifiedsupport/supportcenter
。 -
对于您想要抓取的任何公共网页,请将网站的根页面 URL 添加到起始网址字段,然后点击添加。 您可以添加多个起始页。
URL 中的最后一个斜线(
/
)决定要抓取的子树。 例如,如果指定https://www.example.com/banking/faqs.html
,那么将搜寻以https://www.example.com/banking/
开头的所有 URL。 如果指定https://www.example.com/banking
,那么将搜寻以https://www.example.com/
开头的所有 URL。默认情况下,从起始 URL 开始的连续链接数量为
2
。 要更改中继段数或列出要从搜寻中排除的 Web 站点部分,请单击“编辑”图标。-
允许的最大跳数是
20
。 -
要指定要排除的 URL 路径,请添加网站路径。 例如,如果起始 URL 是
https://example.com
,则可以通过输入/pricing/
来排除https://example.com/pricing
。将排除包含您指定的站点路径的 Web 地址的任何部分。 例如,如果指定
/licenses/
,那么将排除页面https://example.com/products/licenses/europe
等。 -
如果您希望抓取仅限于单个页面,请将 URL 添加到起始 URL 字段中。 例如,
https://www.example.com/banking/faqs.html
。 单击“编辑”图标以将 要遵循的最大链接数 设置为0
。
-
-
如果要搜寻的 Web 站点在显示之前使用 JavaScript 来定制页面内容,那么必须执行额外的步骤。
输入起始 URL 并点击添加后,点击
编辑 URL。 将抓取切换器中的“执行 JavaScript” 设置为“开启”,然后点击 “保存”。
启用 JavaScript 处理后,搜寻页面需要 3 到 4 倍的时间。 仅在您知道需要使用它的个别 Web 页面上使用它,因为该页面会动态呈现其内容。 如果您看到超时消息或搜寻结束而未将内容添加到集合,请减少搜寻中包含的 Web 页面数。 例如,您可以在 起始 URL 字段中指定要搜寻的准确页面,并将 要遵循的最大链接数 设置为 0。
-
要连接到托管在防火墙后面的网站,首先设置 IBM Cloud Satellite 连接器。
指定 Satellite 连接器详细信息。
请完成以下步骤,详细说明:
- 展开 更多连接设置,然后将 连接到本地网络 设置为
On
。 - 选择 IBM Cloud Satellite® 连接器 作为连接类型。 缺省情况下已选择此选项。
- 请指定 Satellite 连接器端点 URL。
Satellite Connector details - 展开 更多连接设置,然后将 连接到本地网络 设置为
-
-
可选: 将另一个 Web 地址添加到 起始 URL 字段。
单个集合的起始 URL 数必须小于 100。 如果需要搜寻大量 Web 站点,请参阅 我需要搜寻大量站点。 我的限制是什么?。
搜寻的 Web 页面数限制为 250,000,因此 Web 搜寻器可能不会搜寻所有指定的 Web 站点。
每个 URL 的子URL数量限制为10,000个。 如果任何所搜寻 URL 中的子 URL 数超过 10,000 个,那么搜寻器将无法处理子 URL 中的任何内容。
-
如果要限制要添加到集合的文件类型,那么可以列出要包含或排除的文件类型的文件扩展名。
如果 Web 站点页面的 URL 未以 .html结尾,请使用排除过滤器而不是包含过滤器。 必须至少添加一个要排除的文件扩展名。
有关受支持文件类型的列表,请参阅 受支持的文件类型。
-
如果希望 Web 搜寻从站点上的图像中抽取文本,请展开 更多处理设置,并将 应用光学字符识别 (OCR) 设置为
On
。启用 OCR 并且您的文档包含图像时,处理需要更长时间。 有关更多信息,请参阅 光学字符识别。
-
单击完成。
将快速创建集合。 将数据添加到集合时,处理数据需要更多时间。
如果要检查进度,请转至“活动”页面。 在导航窗格中,单击 管理集合,然后单击以打开集合。
我需要搜寻大量站点。 我的限制是什么
该服务可以支持每个 Discovery 服务实例总共 500 个搜寻器连接。 除 Web 搜寻以外的所有数据源都使用一个搜寻器连接。 对于 Web 搜寻,每个 5 起始 URL 都需要一个连接。 例如,如果添加 10 个起始 URL,那么 Discovery 会生成支持额外 5 URL 所需的额外搜寻器连接。 因此,您可以使用的最大起始 URL 数取决于服务实例中配置的其他数据集合。 您可以自行计算限制。
要计算起始 URL 限制,请完成以下步骤:
-
计算服务实例中其他数据源集合的数量,这意味着此项目以及同一 Discovery 实例中的任何其他项目。
例如,您可能在一个项目中具有 2 IBM Cloud Object Store 集合,在另一个项目中具有 2 Salesforce 集合和 1 SharePoint 联机集合。 在此示例中,其他数据源集合的总数为 5。
-
从允许的最大搜寻器连接数 (500) 中减去其他数据源集合的数目。
例如,500-5 = 495。
-
将余数乘以 5 以确定可以使用的起始 URL 总数。
例如,495 x 5 = 2,475。
要使用示例中允许的最大起始 URL 数,您需要 25 个 Web 搜寻集合,因为每个集合最多允许配置 100 个起始 URL。 但是,请勿将实例配置为使用允许的绝对最大数量。 如果随后将一个或多个其他数据源添加到此服务实例中的项目,那么将影响该实例可成功搜寻的起始 URL 数。
对搜寻器问题进行故障诊断
- 返回 403 禁止错误
- 要搜寻的 Web 站点可能会阻止来自除一组特定指定实体以外的所有其他实体的请求。 如果可能,请将搜寻器添加到站点的允许列表中。 搜寻器的标识头为
User-Agent: IBM-AppConnect/V1
。