IBM Cloud Docs
Erstellung eines benutzerdefinierten Crawler-Plug-ins

Erstellung eines benutzerdefinierten Crawler-Plug-ins

Discovery bietet die Möglichkeit, mit einem Java SDK ein eigenes Crawler-Plug-in zu erstellen. Mithilfe von Crawler-Plug-ins können Sie jetzt schnell relevante Lösungen für Anwendungsfälle entwickeln. Sie können das SDK von einem installierten Discovery-Cluster herunterladen. Weitere Informationen hierzu finden Sie unter SDK-Paket für Crawler-Plug-in abrufen.

IBM Cloud Pak for Data IBM Software Hub

Diese Informationen gelten nur für installierte Implementierungen.

Für angepassten Code, den Sie mit IBM Watson® Discovery verwenden, ist der Entwickler verantwortlich; IBM Support ist nicht für angepassten Code verantwortlich, der vom Entwickler erstellt wird.

Von den Crawler-Plug-ins werden folgende Funktionen unterstützt:

  • Aktualisieren der Metadatenliste eines durchsuchten Dokuments
  • Aktualisieren des Inhalts eines durchsuchten Dokuments
  • Ausschließen eines durchsuchten Dokuments
  • Referenz-Crawler-Konfigurationen, Maskierung von Passwortwerten
  • Hinweisnachrichten in der Benutzerschnittstelle Discovery anzeigen
  • Protokollmeldungen an die Pod-Konsole crawler senden

Die crawler-Plug-ins können jedoch die folgenden Funktionen nicht unterstützen:

  • Aufteilen eines durchsuchten Dokuments in mehrere Dokumente
  • Kombinieren von Inhalt aus mehreren Dokumenten in einem einzigen Dokument
  • Ändern von Zugriffssteuerungslisten

Anforderungen des Crawler-Plug-ins

Stellen Sie sicher, dass die folgenden Elemente auf dem Entwicklungsserver installiert sind, den Sie für die Entwicklung eines crawler-Plug-ins mit diesem SDK verwenden möchten:

  • Java SE Development Kit (JDK) 1.8 oder höher
  • Gradle
  • cURL
  • sed (Datenstromeditor)

SDK-Paket für Crawler-Plug-in abrufen

  1. Melden Sie sich am Discovery-Cluster an.

  2. Geben Sie den folgenden Befehl ein, um Ihren Pod-Namen crawler zu erhalten:

    oc get pods | grep crawler
    

    Das folgende Beispiel zeigt die Beispielausgabe.

    wd-discovery-crawler-57985fc5cf-rxk89     1/1     Running     0          85m
    
  3. Geben Sie den folgenden Befehl ein, um den Namen des SDK-Pakets zu erhalten, und ersetzen Sie dabei {crawler-pod-name} durch den Pod-Namen crawler, den Sie in Schritt 2 erhalten haben:

    oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
    

    Das folgende Beispiel zeigt die Beispielausgabe.

    -rw-r--r--. 1 dadmin dadmin 35575 Oct  1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
    
  4. Geben Sie den folgenden Befehl ein, um das SDK-Paket auf den Host-Server zu kopieren; ersetzen Sie hierbei {build-version} durch die Nummer der Buildversion aus dem vorherigen Schritt:

    oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
    
  5. Kopieren Sie das SDK-Paket bei Bedarf auf den Entwicklungsserver.

Crawler-Plug-in-Paket erstellen

  1. Entpacken Sie die komprimierte SDK-Datei.
  2. Implementieren Sie die Plug-in-Logik in src/. Stellen Sie sicher, dass die Abhängigkeit in build.gradle geschrieben wird.
  3. Geben Sie gradle packageCrawlerPlugin ein, um das Plug-in-Paket zu erstellen. Das Paket wird als build/distributed/wd-crawler-plugin-sample.zip generiert.