定制爬虫插件
Discovery 提供了使用 SDK创建自己的爬虫插件的选项。Java 现在,使用搜寻器插件,可以快速针对用例开发相关解决方案。 从安装的 Discovery 集群中可以下载 SDK。 有关更多信息,请参阅获取搜寻器插件 SDK 包。
IBM Cloud Pak for Data IBM Software Hub
此信息仅适用于已安装的部署。
与 IBM Watson® Discovery 配合使用的任何定制代码都由开发者负责;IBM 对开发者创建的任何定制代码不提供支持。
搜寻器插件支持以下功能:
- 更新所搜寻文档的元数据列表
- 更新所搜寻文档的内容
- 排除所搜寻文档
- 参考爬虫配置,屏蔽密码值
- 在 Discovery 用户界面中显示通知消息
- 将日志信息输出到
crawler
控制台
然而,crawler
插件不支持以下功能:
- 将一个所搜寻文档拆分成多个文档
- 将多个文档中的内容合并到一个文档中
- 修改访问控制表
搜寻器插件需求
确保在您计划用于使用此 SDK 开发 crawler
插件的开发服务器上安装了以下项:
- Java SE Development Kit (JDK) 1.8 或更高版本
- Gradle
- cURL
- sed (流编辑器)
获取搜寻器插件 SDK 包
-
登录到 Discovery 集群。
-
输入以下命令获取您的
crawler
播客名称:oc get pods | grep crawler
以下示例显示了样本输出。
wd-discovery-crawler-57985fc5cf-rxk89 1/1 Running 0 85m
-
输入以下命令获取SDK包名称,将
{crawler-pod-name}
替换为您在步骤2中获得的crawler
pod名称:oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
以下示例显示了样本输出。
-rw-r--r--. 1 dadmin dadmin 35575 Oct 1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
-
输入以下命令以将 SDK 包复制到主机服务器,需要将
{build-version}
替换为上一步中的构建版本号:oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
-
根据需要,将 SDK 包复制到开发服务器。
构建搜寻器插件包
- 解压SDK压缩文件。
- 在
src/
中实现插件逻辑。 确保依赖项写在build.gradle
中。 - 输入
gradle packageCrawlerPlugin
以创建插件包。 所生成的插件包为build/distributed/wd-crawler-plugin-sample.zip
。