Création de collections

Une collection est un ensemble de documents que vous ajoutez à un projet afin de pouvoir l'analyser, l'enrichir et en extraire des informations utiles.

Vous pouvez ajouter des données à votre projet de la manière suivante :

  • Télécharger des fichiers accessibles localement en utilisant l'interface utilisateur du produit. Cette méthode est la meilleure façon de commencer et de tester votre cas d'utilisation.

  • Mise en place d'une extraction programmée des documents stockés sur une source de données externe.

    L'interface utilisateur du produit propose plusieurs connecteurs de sources de données intégrés. Les options varient en fonction de votre type de déploiement. Pour plus d'informations, voir Sources de données prises en charge.

  • Connexion à une source de données externe pour laquelle aucun support intégré n'est disponible :

    IBM Cloud
    Utilisez IBM App Connect pour mettre en place une exploration programmée des documents stockés sur d'autres sources de données externes.
    IBM Cloud Pak for Data IBM Software Hub
    Construire un connecteur pour explorer les documents stockés dans d'autres sources de données externes.
  • Pour automatiser le processus d'ajout de données à votre projet, utilisez les API Discovery pour créer une collection et y télécharger des documents.

Lorsque vous ajoutez des documents à Discovery, les documents originaux sont parcourus et les informations qu'ils contiennent sont stockées dans un index afin de pouvoir être enrichies et analysées ou récupérées ultérieurement. Tout le contenu riche du document original n'est pas conservé. Par exemple, les images des fichiers.ppt ou.doc ne sont pas stockées. Pour plus d'informations, voir Comment votre source de données est traitée.

IBM Cloud Après avoir créé une collection, vous pouvez cliquer sur Aperçu des données pour prévisualiser les données dans la vue avancée du document.

Choisir ce que l'on veut ajouter à une collection

Il y a quelques éléments à prendre en compte lorsque vous décidez de la manière dont vous allez diviser votre contenu source en collections.

  • Obtenir du contenu à partir de différentes sources de données

    Si vous stockez un contenu similaire dans plusieurs types de sources de données (un site web et Salesforce, par exemple), vous pouvez créer un projet avec deux collections distinctes. Chaque collection ajoute des documents provenant d'une seule source de données. Lorsqu'elles sont réunies dans un seul projet, l'utilisateur peut effectuer des recherches dans les deux sources en même temps.

  • Appliquer les enrichissements

    La création d'une collection est un bon moyen de regrouper les documents que vous souhaitez enrichir de manière similaire. Par exemple, un sous-ensemble de vos documents contient du jargon industriel et vous souhaitez ajouter un dictionnaire qui reconnaisse les termes. Vous pouvez créer une collection distincte et utiliser la fonction de suggestion de termes pour accélérer le processus de création du dictionnaire.

  • Création de modèles distincts de Smart Document Understanding (SDU)

    Vous pouvez utiliser l'outil Smart Document Understanding pour identifier le contenu en fonction de la structure d'un document. Si vous avez 20 fichiers PDF créés par votre service des ventes et utilisant un modèle et 20 fichiers PDF créés par votre service de recherche et utilisant un modèle différent, regroupez chaque ensemble dans sa propre collection. Vous pouvez ensuite utiliser l'outil SDU pour construire un modèle pour chaque structure séparément, un modèle qui comprend la structure unique. Vous pouvez également utiliser l'outil pour définir des champs personnalisés qui sont propres aux documents sources.

Création d'une collection

Avant de pouvoir créer une collection, vous devez créer un projet. Pour plus d'informations, voir Création de projets.

Ce qu'il faut garder à l'esprit

  • Une collection ne peut prendre en charge qu'une seule source de données externe.
  • Les documents de la collection doivent être rédigés dans une seule langue, celle que vous avez spécifiée pour la collection.

Pour créer une collection, exécutez la procédure suivante :

  1. Ouvrez un projet, accédez à la page Gérer les collections, puis cliquez sur Nouvelle collection.

    • Les types de projets Intelligent Document Processing, Conversational Search, Document Retrieval et Custom peuvent contenir jusqu'à 5 collections.
    • Un projet de Content Mining ne peut contenir qu'une seule collection.
  2. Téléchargez des données dans votre collection.

    IBM Cloud Pour vous connecter à une autre source de données au lieu de télécharger des données, cliquez sur le lien situé à côté du champ Need to connect to a data source?

    Vous pouvez choisir les méthodes suivantes pour vous connecter à une source de données au lieu de télécharger des données.

Pour plus d'informations sur la résolution des problèmes que vous pouvez rencontrer lorsque vous ajoutez des documents à une collection, voir Résolution des problèmes d'ingestion.

Pour plus d'informations sur la création programmatique d'une collection, voir la documentation de référence de l'API.

Reconnaissance optique des caractères

La reconnaissance optique de caractères est l'une des fonctions optionnelles que vous pouvez appliquer à une collection lorsque vous la créez. La fonction de reconnaissance optique de caractères (OCR) permet d'extraire le texte des images. Cette capacité est utile pour préserver les informations représentées dans des diagrammes ou des graphiques, ou dans du texte incorporé dans des fichiers tels que des PDF numérisés. En convertissant les informations visuelles en texte, il est possible d'effectuer des recherches ultérieures.

Une nouvelle version de la technologie a été introduite dans des instances gérées dans le nuage. OCR v2 a été développé par IBM Research pour mieux extraire le texte des documents scannés et autres images qui présentent les limitations suivantes :

  • Images de faible qualité en raison de paramètres de scanner incorrects, d'une résolution insuffisante, d'un mauvais éclairage (par exemple lors de la capture mobile), d'une perte de mise au point, de pages mal alignées et de documents mal imprimés
  • Documents avec des polices irrégulières ou des couleurs, tailles de police et arrière-plans variés

Les éléments à garder à l'esprit lorsque vous activez l'OCR :

  • Le temps nécessaire à l'ingestion d'un document contenant des images augmente lorsque l'OCR est activé.
  • Actuellement, l'OCR ne permet pas d'extraire du texte manuscrit de documents et d'images numérisées.
  • L'OCR peut lire aussi bien des images claires que des images bruitées. Il peut convertir des images bruitées en niveaux de gris, les lisser et les désaxer. Toutefois, la qualité de l'image doit répondre à l'exigence minimale de 80 DPI (points par pouce).
  • L'OCR peut reconnaître de nombreuses langues, mais la langue du texte de l'image doit être la même que la langue spécifiée pour la collection dans laquelle le fichier est ajouté.

Pour plus d'informations sur les langues pour lesquelles OCR v1 et OCR v2 sont prises en charge, voir Prise en charge des langues.

Pour une liste des types de fichiers dans lesquels vous pouvez appliquer l'OCR, voir le tableau Types de fichiers pris en charge.

Permettre le stemming pour les données non traitées

Vous pouvez configurer Discovery pour qu'il utilise le stemming au lieu de la lemmatisation pour la normalisation lorsque vous créez une collection. Cette configuration n'est qu'occasionnellement utile lorsque les collections, les requêtes ou les deux contiennent des données comportant de nombreuses fautes d'orthographe, des accents manquants et des erreurs grammaticales.

Discovery normalise les mots pour permettre une reconnaissance et une correspondance plus rapides des mots et de leurs différentes formes, telles que les pluriels ou les conjugaisons alternatives de verbes. Par défaut, Discovery utilise la lemmatisation pour normaliser les mots en fonction de leur sens. Le stemming normalise les mots en utilisant uniquement les tiges des mots.

La lemmatisation est plus précise, mais elle fonctionne mieux sur les données curatées. Si vos données ne sont pas bien répertoriées, le stemming peut s'avérer plus efficace. Le même radical est généralement détecté, que le mot soit correctement orthographié ou non. Cependant, la lemmatisation peut ne pas reconnaître un mot mal orthographié ou mal interpréter son sens. Par conséquent, le lemmatiseur peut ajouter le mauvais mot racine pour représenter le mot mal orthographié dans l'index. Une recherche sur une version abrégée d'un mot mal orthographié est susceptible de donner de meilleurs résultats qu'une recherche sur un mot incorrectement lemmatisé.

Le tableau suivant donne des exemples de la façon dont certains mots sont traités par le biais d'un tronc commun ou d'une lemmatisation.

Comparaison entre les sémaphores et les lemmatiseurs
forme de surface Forme lématisée Forme tigrée
En cours d'exécution exécution exécution
ran exécution ran
instructeur instructeur inviter à
instruction instruction inviter à

Comme vous pouvez le voir dans les exemples, le lemmatiseur capture mieux le sens des mots que le troncateur. Les termes " running " et " ran" sont tous deux considérés comme des formes différentes du même verbe racine " run". Et la différence de sens entre les deux substantifs instructeur et instruction est conservée. Toutefois, si les données contiennent des fautes d'orthographe telles que instructer et instructoin, la forme normalisée générée par le stemming (instruct ) produira de meilleures correspondances.

Discovery normalise les mots lors de l'ingestion et du stockage des données dans l'index et au moment de l'exécution lorsqu'il analyse les requêtes soumises par les utilisateurs. La même méthode de normalisation est utilisée pour les deux opérations, même si une opération se déroule au niveau de la collection et l'autre au niveau du projet. Lorsqu'une requête est soumise, elle est fédérée à chaque collection au sein du projet, où la requête est normalisée en fonction de la configuration de cette collection. Les collections qui sont configurées pour utiliser le tronc commun normalisent la requête en utilisant le tronc commun. Les collections qui ne le sont pas normalisent la requête en utilisant la lemmatisation.

Pour activer le troncatureur au lieu du lemmatiseur lorsque vous créez la collection, développez Plus d'options de traitement, puis réglez le commutateur Utiliser le troncatureur au lieu du lemmatiseur lors de l'indexation sur Activé.

Si vous configurez Discovery pour qu'il utilise le tronc commun, pensez également à concevoir les requêtes qui extraient les informations de la collection de manière à tenir compte des différences de caractères lors de la mise en correspondance. Pour plus d'informations, voir l'opérateur de variation de chaîne.

Pour plus d'informations sur les langues pour lesquelles le stemmer est pris en charge, voir Prise en charge des langues.

Limites de collecte

Le nombre de collections que vous pouvez créer par projet diffère selon le type de projet.

Recouvrement par limite de projet
Type de projet Collections par projet
Traitement intelligent des documents 5
Document Retrieval (Récupération de documents) 5
Recherche de documents pour les contrats 5
Conversational Search (Recherche conversationnelle) 5
Content Mining (Exploration de contenu) 1
Personnalisé 5

Le nombre de collections que vous pouvez créer par instance de service dépend de votre type de plan Discovery.

Détails du plan
Planifier Collections par instance de service
Cloud Pak for Data 300
Premium 300
Entreprise 300
Plus (inclut la version d'essai) 40

IBM Cloud Pak for DataIBM Software Hub Le nombre de collections que vous pouvez créer dépend de la configuration de votre matériel. Discovery prend en charge un maximum de 300 collections par instance et par installation, mais ce nombre dépend de nombreux facteurs, notamment de la mémoire.

Types de fichier pris en charge

Discovery peut ingérer des types de fichiers spécifiques. Pour tous les autres types de fichiers, un message d'avertissement s'affiche et le fichier n'est pas ingéré.

Le tableau suivant présente les types de fichiers pris en charge et des informations sur les fonctions prises en charge qui varient selon le type de fichier.

Type de fichier Aide à l'extraction de texte Prise en charge de la compréhension intelligente des documents (SDU) Prise en charge de la reconnaissance optique de caractères (OCR)
CSV Icône de coche
DOC, DOCX Icône de coche Icône de coche Icône de coche
format GIF Icône de coche
langage HTML Icône de coche
feuilles de route «Just Push Go» Icône de coche Icône de coche Icône de coche
JavaScript Object Notation Icône de coche
format PDF Icône de coche Icône de coche Icône de coche
Portable Network Graphics Icône de coche Icône de coche Icône de coche
PPT, PPTX Icône de coche Icône de coche Icône de coche
TIFF Icône de coche Icône de coche Icône de coche
TXT Icône de coche
XLS, XLSX Icône de coche Icône de coche

  • Vous pouvez générer des fichiers PDF à l'aide d'outils de génération de PDF tels qu'Adobe Acrobat, Microsoft Office, Preview sur Apple, etc.

Les objets vectoriels, les textes vectorisés et les images SVG sont ignorés lors du traitement des PDF. En outre, Discovery ne prend pas actuellement en charge l'extraction de texte à partir d'images avec des couches de transparence ou des groupes de transparence dans les PDF.

  • Seules les images des types de fichiers d'image pris en charge qui se trouvent dans le PDF sont rendues.
  • Pour les images numérisées, utilisez 300 dpi ou plus pour une OCR optimale. Le nombre minimum de ppp doit être de 80, conformément aux directives relatives à la reconnaissance optique des caractères
  • Seuls les fichiers images d'une seule page sont pris en charge.
  • Les fichiers contenus dans les archives compressées (ZIP, GZIP, TAR) sont extraits. Discovery ingère les types de fichiers pris en charge dans l'archive. Il ignore tous les autres types de fichiers. Les noms de fichiers doivent être encodés en UTF-8. Les fichiers dont le nom comporte des caractères japonais, par exemple, doivent être renommés avant d'être ajoutés au fichier ZIP.
  • Discovery prend en charge les fichiers zip MacOS uniquement s'ils sont générés à l'aide d'une commande telle que zip -r my-folder.zip my-folder -x "*.DS_Store". Les fichiers ZIP créés en cliquant avec le bouton droit de la souris sur un dossier et en cliquant sur Compresser ne sont pas pris en charge.
  • Les fichiers PDF que vous téléchargez en tant que partie d'un fichier d'archive ne sont pas affichés dans la vue avancée pour un résultat de requête que vous ouvrez à partir de la page Améliorer et personnaliser. Si vous souhaitez que le fichier puisse être visualisé à partir de la vue avancée, réimportez le fichier PDF séparément du fichier d'archive.

Lorsque vous ajoutez des fichiers à un projet de type Document Retrieval for Contracts, tous les types de fichiers qui prennent en charge le SDU et l'OCR sont traités automatiquement à l'aide d'un modèle de Smart Document Understanding et de reconnaissance optique de caractères préformé.

Limites du document

Le nombre de documents autorisés par instance de service dépend de votre type de plan Discovery.

La limite de documents s'applique au nombre de documents dans l'index. Téléchargez moins de documents au début si les enrichissements que vous prévoyez d'appliquer risquent d'augmenter le nombre de documents par la suite. Par exemple, les configurations suivantes génèrent plus de documents :

  • Lorsque vous fractionnez un document, celui-ci est segmenté en plusieurs documents
  • Les fichiers CSV que vous téléchargez génèrent un document par ligne
  • Les sources de données de la base de données que vous crawlez produisent un document par ligne de la base de données
  • Chaque objet défini dans un tableau dans un fichier JSON donne lieu à un document distinct
Nombre de documents par instance de service
Planifier Documents par instance de service
Cloud Pak for Data Illimité
Premium Illimité
Entreprise Illimité
Plus (inclut la version d'essai) 500 000

Pour le plan Entreprise, vous êtes facturé à partir de 100 000 documents par mois. Pour plus d'informations sur la tarification, voir Plans de tarification de la découverte.

Le nombre maximum autorisé peut varier légèrement en fonction de la taille des documents. Utilisez ces valeurs comme ligne directrice générale.

Limitation de la taille des fichiers

Documents consultés

La taille maximale de chaque fichier que vous pouvez extraire à l'aide d'un connecteur diffère selon le type de déploiement.

IBM Cloud Gestion des déploiements sur IBM Cloud

  • Plans Premium uniquement :

    • Boîte : 50 MB
    • IBM Cloud Magasin d'objets : 50 MO
    • Salesforce Files objets : 50 MO
    • Toutes les autres sources de données : 10 MO
  • Tous les autres plans : 10 MO

IBM Cloud Pak for DataIBM Software Hub Déploiements installés sur IBM Cloud Pak for Data

  • Toutes les sources de données : 32 MO

Documents téléchargés

La taille de chaque fichier que vous pouvez télécharger dépend de votre type de plan Discovery. Pour plus de détails, voir le tableau suivant sur la taille maximale des documents.

Taille maximale du document
Planifier Taille du fichier par document
Cloud Pak for Data 50 Mo
Premium 50 Mo
Entreprise 10 Mo
Plus (inclut la version d'essai) 10 Mo

Limites du champ

Lorsqu'un document est ajouté à une collection, son contenu est évalué et ajouté aux champs appropriés d'un index interne.

Pour les données structurées, telles que les fichiers CSV ou JSON téléchargés, ou les données provenant de bases de données explorées, chaque colonne ou objet est stocké en tant que champ au niveau de la racine. Par exemple, si vous ajoutez un fichier CSV à la collection, chaque colonne du fichier CSV est stockée comme un champ distinct dans l'index.

Un maximum de 1 000 champs peut être ajouté à l'index.

Vous ne pouvez pas attribuer le type de données d'un champ, tel que Date ou Chaîne. Le type de données est détecté automatiquement et attribué au champ lors de l'ingestion du document. L'affectation est basée sur le type de données détecté dans le premier document indexé. Des erreurs d'ingestion peuvent se produire dans les documents suivants si un type de données différent est détecté pour la valeur du même champ. Par conséquent, si vos documents contiennent un mélange de types de données dans un seul champ, commencez par ingérer le document qui contient une valeur avec le type de données le plus flexible, tel que String, dans le champ.

Lorsque vous parcourez un site web ou téléchargez un fichier HTML, le contenu HTML est ajouté à la collection et indexé dans un champ html.

Le tableau suivant indique la taille maximale des champs par document.

Taille maximale des champs
Type de zone Taille maximale autorisée par document
htmlZone 5 Mo
Somme de tous les autres champs 1 Mo

Si la taille maximale des champs du document dépasse les limites autorisées, ils sont traités comme suit :

  • Pour un document dont le champ html est surdimensionné, tous les champs du document sont indexés à l'exception du champ html.

    Pour IBM Cloud Pak for Data version 4.0 et antérieures, le document entier n'est pas indexé.

  • Pour un document avec des champs non-HTML surdimensionnés, le document n'est pas indexé.

Si vous téléchargez un fichier Microsoft Excel et qu'un message s'affiche indiquant que la limite de taille des champs non HTML est dépassée, envisagez de convertir le fichier XLS en fichier CSV. Lorsque vous téléchargez un fichier de valeurs séparées par des virgules (CSV), chaque ligne est indexée comme un document distinct. Par conséquent, aucune limite de taille de champ n'est dépassée.

Pour plus d'informations sur le traitement des champs dans les fichiers téléchargés, voir Comment les champs sont traités.

Sources de données prises en charge

Le tableau suivant présente les sources de données prises en charge pour chaque type de déploiement.

Sources de données prises en charge
Ce tableau comporte des en-têtes de ligne et de colonne. Les en-têtes de ligne identifient les sources de données prises en charge. Les en-têtes de colonne identifient les différentes options de type de déploiement de produit. Pour savoir quelles sources de données sont disponibles pour votre type de déploiement, accédez à la ligne qui décrit la source de données et recherchez les colonnes correspondant au type de déploiement qui vous intéresse.
Source de données IBM Cloud IBM Cloud Pak for Data
Box Icône de coche Icône de coche
Base de données (IBM Data Virtualization, IBM Db2, Microsoft SQL, Oracle, Postgres) Icône de coche
FileNet P8 Icône de coche
HCL Notes Icône de coche
IBM Cloud Object Storage Icône de coche
Système de fichiers local Icône de coche
Salesforce Icône de coche Icône de coche
Microsoft SharePoint Online Icône de coche Icône de coche
Microsoft SharePoint sur site Icône de coche Icône de coche
Site Web Icône de coche Icône de coche
Microsoft Windows système de fichiers Icône de coche

Options de planification de l'exploration

Lorsque vous créez une collection, l'exploration initiale démarre immédiatement. La fréquence que vous choisissez pour le calendrier d'exploration détermine le moment où l'exploration suivante commencera.

Pour créer un plan de ramassage, procédez comme suit :

  1. Dans la section Calendrier d'exploration, choisissez une fréquence.

    Vous pouvez programmer l'exécution du crawler à un jour et une heure spécifiques. Cette option est utile si vous souhaitez éviter une charge importante sur un système cible pendant les heures de bureau. Si vous spécifiez une heure comprise entre 1 et 9, ajoutez un zéro avant le chiffre de l'heure. Par exemple, vous pouvez programmer la recherche à l'adresse 01:00 AM le samedi.

    IBM Cloud Lorsque vous planifiez l'exécution mensuelle d'un crawl, les options de nombre de jours sont limitées à 1 à 28 car vous devez spécifier un jour qui survient chaque mois, y compris le mois de février qui compte 28 jours.

    IBM Cloud Pak for Data Les déploiements installés disposent de plus d'options de programmation :

    • Si vous souhaitez que l'exploration se fasse toutes les 12 heures ou tous les 10 jours, choisissez Intervalles personnalisés. Vous pouvez programmer l'exécution du crawler sur un nombre personnalisé de jours ou d'heures.
    • Par défaut, le crawl est programmé pour démarrer pendant les heures creuses.
    • Ne réglez pas l'intervalle sur une fréquence plus courte que le temps nécessaire à la fin de l'exploration.
    • Ne configurez pas plusieurs robots pour qu'ils s'exécutent à intervalles rapprochés.
    • Si vous ouvrez une collection dans un fuseau horaire différent de celui dans lequel la collection a été créée, les informations relatives au décalage du temps universel coordonné (UTC) s'affichent.
  2. IBM Cloud Pak for DataIBM Software Hub Les déploiements installés comportent une section Plus de paramètres de planification dans laquelle vous pouvez choisir le type de planification à utiliser pour explorer la source de données.

    Les choix pour tous les connecteurs (à l'exception du connecteur Web crawl ) sont les suivants :

    • Exploration complète: Reconvoque la source de données externe pour mettre à jour les documents de la collection.
    • Mise à jour par exploration (recherche de contenus nouveaux, modifiés et supprimés): Met à jour la collection uniquement si des données ont été ajoutées, modifiées ou supprimées dans la source de données externe depuis la dernière exploration.
    • Recherche de nouveaux contenus et de contenus modifiés: La collection n'est mise à jour que si des données de la source de données externe ont été ajoutées ou modifiées depuis la dernière exploration.

    Connecteur de recherche sur le web uniquement: Le connecteur d' exploration Web planifie les explorations différemment des autres types de connecteurs. Pour le connecteur Web crawl uniquement, choisissez l'une des options suivantes :

    • Pour contrôler vous-même la fréquence des recherches, choisissez cette option :

      Full crawling

      Lorsque vous choisissez un type de programme d'exploration complet, l'exploration a lieu à la fréquence que vous spécifiez dans la section Programme d'exploration de la page.

    • Pour permettre au système de gérer la fréquence des recherches à votre place, choisissez l'une des options suivantes :

      Recherche de mises à jour (recherche de contenus nouveaux, modifiés et supprimés) ou Recherche de contenus nouveaux et modifiés

      Lorsque vous choisissez un type de planification qui recherche des mises à jour ou des contenus nouveaux et modifiés, la fréquence que vous spécifiez pour la planification de l'exploration est ignorée. La fréquence à laquelle chaque document est exploré est variable et est entièrement gérée par le service. La fréquence varie en fonction de la fréquence des changements dans un document. Par exemple, si 5 des 10 documents d'une collection ont changé à la fin du premier intervalle d'exploration, la fréquence est automatiquement augmentée pour ces 5 documents. Actuellement, la fréquence la plus élevée à laquelle ces rafraîchissements autogérés peuvent être exécutés est quotidienne.

      Vous ne pouvez pas interrompre la gestion automatisée de la fréquence et vous ne pouvez pas déclencher un crawl unique lorsque ces types de crawls programmés sont configurés.

Si vous souhaitez modifier ultérieurement les paramètres du plan de ramassage flexible, vous pouvez accéder à la page Paramètres de traitement, modifier les paramètres, puis cliquer sur Appliquer les modifications et retraiter.

IBM Cloud Le prochain ramassage programmé s'affiche sur la page Activité.

Si vous modifiez la fréquence de la programmation, la prochaine heure d'extraction programmée risque de ne pas être celle que vous attendez. Les recherches sont paramétrées par défaut pour se dérouler à intervalles réguliers, à une heure ou un jour précis. Par exemple, si vous modifiez le calendrier d'exploration d'une semaine à un mois le 11 août, l'exploration suivante pourrait être programmée pour le 31 août au lieu du 11 septembre. Elle n'est pas programmée pour un mois exactement à compter du jour où vous avez effectué la modification. Au lieu de cela, il est programmé pour être exécuté le jour désigné comme jour d'exécution par défaut pour la fréquence de ramassage sélectionnée.

Arrêter un crawl

Vous pouvez arrêter une exploration sans modifier la fréquence du programme d'exploration. Cette action est utile si vous voulez effectuer une tâche qui prend du temps et que vous ne voulez pas que le crawl démarre ou s'exécute entre les deux tâches.

IBM Cloud Pour arrêter un crawl, procédez comme suit :

  1. Ouvrez la page Gérer les collections dans le panneau de navigation.

  2. Sélectionnez la collection pour laquelle vous voulez arrêter le crawl.

  3. Sur la page Activité, si l'exploration est en cours, cliquez sur Arrêter.

  4. Accédez à la page Paramètres de traitement.

  5. Attribuez la valeur No à Apply Schedule, puis cliquez sur Apply changes and reprocess.

    Le crawl est arrêté et ne recommencera pas tant que vous ne l'aurez pas redémarré.

IBM Cloud Pour redémarrer le crawl, procédez comme suit :

  1. Ouvrez la page Gérer les collections dans le panneau de navigation.

  2. Sélectionnez la collection pour laquelle vous souhaitez redémarrer le balayage.

  3. Accédez à la page Paramètres de traitement.

  4. Définissez Appliquer la planification sur Oui, puis cliquez sur Appliquer les modifications et retraiter.

    La marche à quatre pattes commence immédiatement.

    L'exploration suivante commencera en fonction de la fréquence sélectionnée dans les options de planification de l'exploration. Si vous souhaitez lancer l'exploration à tout moment avant la fréquence programmée, cliquez sur Reconduire dans la page Activité.

IBM Cloud Pak for Data IBM Software Hub

Vous pouvez arrêter temporairement une recherche en cours.

Pour arrêter temporairement un crawl, procédez comme suit :

  1. Ouvrez la page Gérer les collections dans le panneau de navigation.

  2. Sélectionnez la collection pour laquelle vous souhaitez arrêter temporairement le crawl.

  3. Sur la page Activité, cliquez sur Arrêter.

    L'exploration recommence à la fréquence spécifiée dans le calendrier d'exploration.