Erstellung eines benutzerdefinierten Crawler-Plug-ins

Discovery bietet die Möglichkeit, mit einem Java SDK ein eigenes Crawler-Plug-in zu erstellen. Mithilfe von Crawler-Plug-ins können Sie jetzt schnell relevante Lösungen für Anwendungsfälle entwickeln. Sie können das SDK von einem installierten Discovery-Cluster herunterladen. Weitere Informationen hierzu finden Sie unter SDK-Paket für Crawler-Plug-in abrufen.

IBM Cloud Pak for Data IBM Software Hub

Diese Informationen gelten nur für installierte Implementierungen.

Für angepassten Code, den Sie mit IBM Watson® Discovery verwenden, ist der Entwickler verantwortlich; IBM Support ist nicht für angepassten Code verantwortlich, der vom Entwickler erstellt wird.

Von den Crawler-Plug-ins werden folgende Funktionen unterstützt:

Aktualisieren der Metadatenliste eines durchsuchten Dokuments
Aktualisieren des Inhalts eines durchsuchten Dokuments
Ausschließen eines durchsuchten Dokuments
Referenz-Crawler-Konfigurationen, Maskierung von Passwortwerten
Hinweisnachrichten in der Benutzerschnittstelle Discovery anzeigen
Protokollmeldungen an die Pod-Konsole crawler senden

Die crawler-Plug-ins können jedoch die folgenden Funktionen nicht unterstützen:

Aufteilen eines durchsuchten Dokuments in mehrere Dokumente
Kombinieren von Inhalt aus mehreren Dokumenten in einem einzigen Dokument
Ändern von Zugriffssteuerungslisten

Anforderungen des Crawler-Plug-ins

Stellen Sie sicher, dass die folgenden Elemente auf dem Entwicklungsserver installiert sind, den Sie für die Entwicklung eines crawler-Plug-ins mit diesem SDK verwenden möchten:

Java SE Development Kit (JDK) 1.8 oder höher
Gradle
cURL
sed (Datenstromeditor)

SDK-Paket für Crawler-Plug-in abrufen

Melden Sie sich am Discovery-Cluster an.
Geben Sie den folgenden Befehl ein, um Ihren Pod-Namen crawler zu erhalten:
```
oc get pods | grep crawler
```
Das folgende Beispiel zeigt die Beispielausgabe.
```
wd-discovery-crawler-57985fc5cf-rxk89     1/1     Running     0          85m
```
Geben Sie den folgenden Befehl ein, um den Namen des SDK-Pakets zu erhalten, und ersetzen Sie dabei {crawler-pod-name} durch den Pod-Namen crawler, den Sie in Schritt 2 erhalten haben:
```
oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
```
Das folgende Beispiel zeigt die Beispielausgabe.
```
-rw-r--r--. 1 dadmin dadmin 35575 Oct  1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
```
Geben Sie den folgenden Befehl ein, um das SDK-Paket auf den Host-Server zu kopieren; ersetzen Sie hierbei {build-version} durch die Nummer der Buildversion aus dem vorherigen Schritt:
```
oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
```
Kopieren Sie das SDK-Paket bei Bedarf auf den Entwicklungsserver.

Crawler-Plug-in-Paket erstellen

Entpacken Sie die komprimierte SDK-Datei.
Implementieren Sie die Plug-in-Logik in src/. Stellen Sie sicher, dass die Abhängigkeit in build.gradle geschrieben wird.
Geben Sie gradle packageCrawlerPlugin ein, um das Plug-in-Paket zu erstellen. Das Paket wird als build/distributed/wd-crawler-plugin-sample.zip generiert.