IBM Cloud Docs
Création d'un plug-in personnalisé pour crawler

Création d'un plug-in personnalisé pour crawler

Discovery offre la possibilité de créer votre propre plug-in crawler avec un SDK ( Java ). Grâce aux plug-ins de moteur d'exploration, vous pouvez désormais développer rapidement des solutions pertinentes pour vos cas d'utilisation. Vous pouvez télécharger le logiciel SDK à partir de votre cluster Discovery installé. Pour plus d'informations, voir Obtention du package SDK du plug-in de moteur d'exploration.

IBM Cloud Pak for Data IBM Software Hub

Ces informations s'appliquent uniquement aux déploiements installés.

Tout code personnalisé que vous utilisez avec IBM Watson® Discovery relève de la responsabilité du développeur. Le support IBM ne prend pas en charge le code personnalisé créé par le développeur.

Les plug-in de moteur d'exploration prennent en charge les fonctions suivantes :

  • Mettre à jour la liste de métadonnées d'un document exploré
  • Mettre à jour le contenu d'un document exploré
  • Exclure un document exploré
  • Configurations de la chenille de référence, masquage des valeurs de mot de passe
  • Afficher les messages d'avis dans l'interface utilisateur Discovery
  • Envoi de messages de journalisation à la console de l' crawler

Cependant, les plug-ins d' crawler s ne peuvent pas prendre en charge les fonctions suivantes :

  • Fractionner un document exploré en plusieurs documents
  • Combiner le contenu de plusieurs documents en un seul document
  • Modifier les listes de contrôle d'accès

Configuration requise pour le plug-in de moteur d'exploration

Assurez-vous que les éléments suivants sont installés sur le serveur de développement que vous prévoyez d'utiliser pour développer un plug-in crawler à l'aide de ce SDK:

  • Java SE Development Kit (JDK) 1.8 ou version ultérieure
  • Gradle
  • cURL
  • sed (éditeur de flux)

Obtention du package SDK du plug-in de moteur d'exploration

  1. Connectez-vous à votre cluster Discovery.

  2. Entrez la commande suivante pour obtenir votre nom de pod d' crawler :

    oc get pods | grep crawler
    

    L'exemple suivant montre un exemple de sortie.

    wd-discovery-crawler-57985fc5cf-rxk89     1/1     Running     0          85m
    
  3. Entrez la commande suivante pour obtenir le nom du package SDK, en remplaçant {crawler-pod-name} par le nom du pod d' crawler s que vous avez obtenu à l'étape 2 :

    oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
    

    L'exemple suivant montre un exemple de sortie.

    -rw-r--r--. 1 dadmin dadmin 35575 Oct  1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
    
  4. Entrez la commande suivante pour copier le package SDK sur le serveur hôte, en remplaçant {build-version} par le numéro de version obtenu à l'étape précédente :

    oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
    
  5. Si besoin, copiez le package SDK sur le serveur de développement.

Création d'un package de plug-in de moteur d'exploration

  1. Extraire le fichier compressé du SDK.
  2. Implémentez la logique de plug-in dans src/. Assurez-vous que la dépendance est écrite dans l' build.gradle.
  3. Entrez gradle packageCrawlerPlugin pour créer le package du plug-in. Le package est généré en tant que build/distributed/wd-crawler-plugin-sample.zip.