Création d'un plug-in personnalisé pour crawler
Discovery offre la possibilité de créer votre propre plug-in crawler avec un SDK ( Java ). Grâce aux plug-ins de moteur d'exploration, vous pouvez désormais développer rapidement des solutions pertinentes pour vos cas d'utilisation. Vous pouvez télécharger le logiciel SDK à partir de votre cluster Discovery installé. Pour plus d'informations, voir Obtention du package SDK du plug-in de moteur d'exploration.
IBM Cloud Pak for Data IBM Software Hub
Ces informations s'appliquent uniquement aux déploiements installés.
Tout code personnalisé que vous utilisez avec IBM Watson® Discovery relève de la responsabilité du développeur. Le support IBM ne prend pas en charge le code personnalisé créé par le développeur.
Les plug-in de moteur d'exploration prennent en charge les fonctions suivantes :
- Mettre à jour la liste de métadonnées d'un document exploré
- Mettre à jour le contenu d'un document exploré
- Exclure un document exploré
- Configurations de la chenille de référence, masquage des valeurs de mot de passe
- Afficher les messages d'avis dans l'interface utilisateur Discovery
- Envoi de messages de journalisation à la console de l'
crawler
Cependant, les plug-ins d' crawler
s ne peuvent pas prendre en charge les fonctions suivantes :
- Fractionner un document exploré en plusieurs documents
- Combiner le contenu de plusieurs documents en un seul document
- Modifier les listes de contrôle d'accès
Configuration requise pour le plug-in de moteur d'exploration
Assurez-vous que les éléments suivants sont installés sur le serveur de développement que vous prévoyez d'utiliser pour développer un plug-in crawler
à l'aide de ce SDK:
- Java SE Development Kit (JDK) 1.8 ou version ultérieure
- Gradle
- cURL
- sed (éditeur de flux)
Obtention du package SDK du plug-in de moteur d'exploration
-
Connectez-vous à votre cluster Discovery.
-
Entrez la commande suivante pour obtenir votre nom de pod d'
crawler
:oc get pods | grep crawler
L'exemple suivant montre un exemple de sortie.
wd-discovery-crawler-57985fc5cf-rxk89 1/1 Running 0 85m
-
Entrez la commande suivante pour obtenir le nom du package SDK, en remplaçant
{crawler-pod-name}
par le nom du pod d'crawler
s que vous avez obtenu à l'étape 2 :oc exec {crawler-pod-name} -- ls -l /opt/ibm/wex/zing/resources/ | grep wd-crawler-plugin-sdk
L'exemple suivant montre un exemple de sortie.
-rw-r--r--. 1 dadmin dadmin 35575 Oct 1 16:51 wd-crawler-plugin-sdk-${build-version}.zip
-
Entrez la commande suivante pour copier le package SDK sur le serveur hôte, en remplaçant
{build-version}
par le numéro de version obtenu à l'étape précédente :oc cp {crawler-pod-name}:/opt/ibm/wex/zing/resources/wd-crawler-plugin-sdk-${build-version}.zip wd-crawler-plugin-sdk.zip
-
Si besoin, copiez le package SDK sur le serveur de développement.
Création d'un package de plug-in de moteur d'exploration
- Extraire le fichier compressé du SDK.
- Implémentez la logique de plug-in dans
src/
. Assurez-vous que la dépendance est écrite dans l'build.gradle
. - Entrez
gradle packageCrawlerPlugin
pour créer le package du plug-in. Le package est généré en tant quebuild/distributed/wd-crawler-plugin-sample.zip
.