Erstellung eines benutzerdefinierten Crawler-Plug-ins
Discovery bietet die Möglichkeit, mit einem Java SDK ein eigenes Crawler-Plug-in zu erstellen. Mithilfe von Crawler-Plug-ins können Sie jetzt schnell relevante Lösungen für Anwendungsfälle entwickeln. Sie können das SDK von einem installierten Discovery-Cluster herunterladen. Weitere Informationen hierzu finden Sie unter SDK-Paket für Crawler-Plug-in abrufen.
IBM Cloud Pak for Data IBM Software Hub
Diese Informationen gelten nur für installierte Implementierungen.
Für angepassten Code, den Sie mit IBM Watson® Discovery verwenden, ist der Entwickler verantwortlich; IBM Support ist nicht für angepassten Code verantwortlich, der vom Entwickler erstellt wird.
Von den Crawler-Plug-ins werden folgende Funktionen unterstützt:
- Aktualisieren der Metadatenliste eines durchsuchten Dokuments
- Aktualisieren des Inhalts eines durchsuchten Dokuments
- Ausschließen eines durchsuchten Dokuments
- Referenz-Crawler-Konfigurationen, Maskierung von Passwortwerten
- Hinweisnachrichten in der Benutzerschnittstelle Discovery anzeigen
- Protokollmeldungen an die Pod-Konsole
crawler
senden
Die crawler
-Plug-ins können jedoch die folgenden Funktionen nicht unterstützen:
- Aufteilen eines durchsuchten Dokuments in mehrere Dokumente
- Kombinieren von Inhalt aus mehreren Dokumenten in einem einzigen Dokument
- Ändern von Zugriffssteuerungslisten
Anforderungen des Crawler-Plug-ins
Stellen Sie sicher, dass die folgenden Elemente auf dem Entwicklungsserver installiert sind, den Sie für die Entwicklung eines crawler
-Plug-ins mit diesem SDK verwenden möchten:
- Java SE Development Kit (JDK) 1.8 oder höher
- Gradle
- cURL
- sed (Datenstromeditor)
SDK-Paket für Crawler-Plug-in abrufen
-
Melden Sie sich am Discovery-Cluster an.
-
Geben Sie den folgenden Befehl ein, um Ihren Pod-Namen
crawler
zu erhalten:oc get pods | grep crawler
Das folgende Beispiel zeigt die Beispielausgabe.
wd-discovery-crawler-57985fc5cf-rxk89 1/1 Running 0 85m
-
Geben Sie den folgenden Befehl ein, um den Namen des SDK-Pakets zu erhalten, und ersetzen Sie dabei
{crawler-pod-name}
durch den Pod-Namencrawler
, den Sie in Schritt 2 erhalten haben:oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
Das folgende Beispiel zeigt die Beispielausgabe.
-rw-r--r--. 1 dadmin dadmin 35575 Oct 1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
-
Geben Sie den folgenden Befehl ein, um das SDK-Paket auf den Host-Server zu kopieren; ersetzen Sie hierbei
{build-version}
durch die Nummer der Buildversion aus dem vorherigen Schritt:oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
-
Kopieren Sie das SDK-Paket bei Bedarf auf den Entwicklungsserver.
Crawler-Plug-in-Paket erstellen
- Entpacken Sie die komprimierte SDK-Datei.
- Implementieren Sie die Plug-in-Logik in
src/
. Stellen Sie sicher, dass die Abhängigkeit inbuild.gradle
geschrieben wird. - Geben Sie
gradle packageCrawlerPlugin
ein, um das Plug-in-Paket zu erstellen. Das Paket wird alsbuild/distributed/wd-crawler-plugin-sample.zip
generiert.