IBM Cloud Docs
Définition d'un modèle SDU entraîné par l'utilisateur

Définition d'un modèle SDU entraîné par l'utilisateur

Créez un modèle Smart Document Understanding (SDU) qui apprend le contenu d'un document en fonction de sa structure.

Utilisez l'outil Smart Document Understanding pour ajouter des zones personnalisées à une collection afin de pouvoir effectuer les opérations suivantes:

  • Ciblez les enrichissements prégénérés ou personnalisés dans des sections spécifiques d'un document.
  • Fractionner les documents volumineux en documents plus petits.

Pour savoir si SDU peut vous aider dans votre cas d'utilisation, lisez la rubrique Quand utiliser Smart Document Understanding.

Si la capture d'informations à partir de tables est essentielle pour votre cas d'utilisation, envisagez d'utiliser un modèle préentraîné. Pour plus d'informations sur la création d'un modèle SDU préentraîné, voir Application d'un modèle SDU préentraîné.

Quand utiliser Smart Document Understanding

L'outil Smart Document Understanding (SDU) fonctionne mieux avec certains types de projets.

  • L'outil est particulièrement utile lorsqu'il est utilisé avec des projets Document Retrieval. Utilisez cet outil pour fractionner vos documents en blocs d'informations plus petits et plus consommables. Lorsque vous aidez Discovery à indexer l'ensemble d'informations correct dans vos documents, vous améliorez les réponses que votre application peut trouver et renvoyer.

    Par exemple, vos documents peuvent contenir des conseils affichés dans des sections avec un en-tête H4. Si vous souhaitez extraire les informations de ces conseils séparément, vous pouvez ajouter un champ nommé tips et enseigner au modèle à le reconnaître. Après avoir appliqué le modèle à votre collection, vous pouvez appliquer un enrichissement à la zone tips uniquement. Par la suite, vous pouvez limiter la recherche pour renvoyer du contenu uniquement à partir de la zone tips.

    Ou peut-être que vous avez des documents très volumineux qui contiennent des sous-sections. Vous pouvez apprendre au modèle SDU à reconnaître ces sous-sections, puis scinder le document volumineux en plusieurs documents plus petits et plus faciles à gérer qui commencent par l'une de ces sous-sections.

  • La meilleure façon de préparer une collection à utiliser dans les projets de recherche conversationnelle consiste à identifier des paires de questions-réponses discrètes. Vous pouvez utiliser l'outil SDU pour les trouver et les annoter. Si vous configurez le projet pour qu'il contienne des réponses dans une zone de réponse, vous devez mettre à jour la configuration de recherche dans watsonx Assistant pour obtenir le corps de la réponse à partir de la zone de réponse personnalisée.

  • Un modèle SDU préformé est appliqué automatiquement aux projets Document Retrieval for Contracts. Le modèle SDU préformé sait reconnaître les termes et les concepts qui sont importants pour les contrats. Par conséquent, vous ne pouvez pas appliquer un modèle SDU entraîné par l'utilisateur à ce type de projet, mais vous n'avez pas besoin de le faire.

  • L'outil SDU est rarement utilisé avec les projets Content Mining.

Vous pouvez utiliser l'outil SDU pour annoter uniquement les types de fichier suivants:

  • Fichiers image (PNG, TIFF, JPG)
  • Microsoft PowerPoint
  • Microsoft Word
  • format PDF

Pour obtenir la liste complète des types de fichier pris en charge par Discovery, voir Types de fichier pris en charge.

L'outil Smart Document Understanding utilise la reconnaissance optique des caractères (OCR) pour extraire le texte des images dans les fichiers qu'il analyse. Les images doivent répondre aux exigences de qualité minimales prises en charge par la reconnaissance optique des caractères. Pour plus d'informations, voir Reconnaissance optique des caractères.

L'outil ne peut pas lire les documents présentant les caractéristiques suivantes ; supprimez-les de votre collection avant de commencer:

  • Les documents dont le texte semble se superposer à d'autres textes sont considérés comme doublement superposés et ne peuvent pas être annotés.
  • Les documents qui contiennent plusieurs colonnes de texte sur une seule page ne peuvent pas être annotés.

Lorsque vous créez un modèle personnalisé de compréhension des documents intelligents, le temps de conversion de votre collection peut augmenter en raison des ressources nécessaires pour appliquer le modèle d'IA à vos documents.

Commencer par les documents représentatifs

Les documents sont disponibles dans toutes les formes et toutes les tailles. Votre collection peut comporter une combinaison de différentes structures de document. Smart Document Understanding fonctionne mieux lorsque les documents d'une collection unique ont des caractéristiques de style similaires. Par exemple, les documents utilisent des tailles de police et des couleurs cohérentes pour les titres et les en-têtes, et les tableaux du document ont des présentations similaires. Pour créer le meilleur modèle pour votre collection, procédez comme suit:

  1. Examinez vos documents pour rechercher des modèles de style et de présentation, puis séparez les documents en groupes en fonction de leur style.

    Par exemple, si vos données contiennent des documents qui suivent quatre styles de formatage différents, fractionnez-les en quatre collections distinctes, une pour chaque style. Ajoutez des documents avec une présentation et un style uniformes à chaque collection. Une bonne taille cible par collection est de 40 documents.

  2. Utilisez l'outil SDU pour annoter cet ensemble de documents représentatif et entraîner Watson à reconnaître le contenu personnalisé dans vos données.

  3. Appliquez le modèle SDU personnalisé à la collection complète. Pour plus d'informations, voir Réutilisation des modèles SDU.

Création du modèle

Pour appliquer un modèle Smart Document Understanding entraîné par l'utilisateur à votre collection, procédez comme suit:

  1. Ouvrez la page Gestion des collections à partir du panneau de navigation.

  2. Si votre projet comporte plusieurs collections, sélectionnez-la avec les documents que vous souhaitez annoter.

  3. Ouvrez la page Identifier les champs.

  4. Choisissez Modèles entraînés par l'utilisateur.

    L'option Extraction de texte uniquement est utilisée par défaut. Avec ce modèle, tout texte reconnu dans les documents source est indexé dans la zone text.

  5. Cliquez sur Soumettre, puis sur Appliquer les modifications et retraiter.

Un sous-ensemble de documents est disponible pour que vous puissiez l'annoter. Un ensemble de 20 à 50 documents s'affiche dans une liste. Le nombre de documents disponibles varie en fonction de plusieurs facteurs, notamment le nombre total de documents de votre collection et le nombre de types de fichiers pris en charge.

Si l'un des documents d'apprentissage utilisés pour former un modèle SDU subit des modifications de mise en page ou de structure sur Discovery, les annotations précédentes ne sont plus valables. Pour mettre à jour le modèle SDU, vous devez annoter à nouveau les documents mis à jour après les avoir ingérés. Dans le cas contraire, les annotations précédentes sont incorrectement mises en correspondance avec le contenu du texte, et les pages d'annotation correspondantes dans l'interface utilisateur deviennent confuses.

Etiquetage de la vidéo

La vidéo suivante montre comment sélectionner un libellé, puis l'appliquer à une représentation du texte de votre document.

Dans la vidéo, l'utilisateur clique sur le libellé de la zone title, puis sur le bloc de texte qui représente le titre de la page Table des matières pour libeller le texte en tant que titre. Ensuite, l'utilisateur clique sur le libellé de la zone table_of_contents et sélectionne le bloc de texte de la table des matières pour le libeller. Ensuite, l'utilisateur clique sur le libellé de zone footer et clique sur le bloc de texte qui représente le pied de page de la page. Une fois le texte libellé, l'utilisateur clique sur le bouton Soumettre la page.

Etiquetage des documents

Avant de commencer, découvrez la structure du document que vous prévoyez d'annoter. Y a-t-il des sections sous-titrées que vous souhaitez que la reconnaissance renvoie par réponse? Si tel est le cas, identifiez tous les sous-titres. Par la suite, vous pouvez diviser le document en sous-documents distincts, chacun commençant par un sous-titre. Pour plus d'informations, voir Quand utiliser Smart Document Understanding.

Pour étiqueter des documents, procédez comme suit:

  1. Passez en revue l'aperçu du document.

    Une vue du document d'origine s'affiche avec une représentation du document, où le texte est remplacé par des blocs.

    Les blocs sont de toutes les couleurs du libellé de zone text car tout le texte en cours est considéré comme du texte standard et sera indexé dans la zone text.

    Blocs de libellés représentant des types d'informations spécifiques, tels que des titres ou des pieds de page, avec d'autres libellés de zone. Par exemple, lorsque vous appliquez le libellé de zone de titre à un titre de document qui serait autrement indexé en tant que texte, vous définissez une représentation plus précise du contenu du document.

    Le processus consistant à utiliser des libellés pour identifier les différentes parties de la structure du document est appelé annotation du document.

  2. Vérifiez les libellés de zone que vous pouvez utiliser pour annoter le document. Ils sont affichés dans le panneau Libellés de zone.

    Voir la table Libellés de zone par défaut pour obtenir la liste des zones et leurs descriptions.

  3. Pour créer un libellé de zone personnalisé, cliquez sur Créer une nouvelle.

    • Spécifiez un libellé de zone sans espace. Par exemple, complex_task est un libellé de zone valide.

      Evitez d'utiliser un nom de libellé de zone ou d'inclure des caractères, tels qu'un signe dièse (#) ou un point (.), dans le nom ayant une signification spéciale pour Discovery. Pour plus d'informations, voir Comment les zones sont traitées.

    • Si vous souhaitez modifier la couleur utilisée pour représenter la zone, cliquez à plusieurs reprises sur le bloc de couleur Bloc de couleur carré avec deux flèches pointant dans un cercle jusqu'à ce qu'il soit affiché dans la couleur que vous souhaitez utiliser.

      Vous ne pouvez pas modifier la couleur du libellé de zone ultérieurement.

    • Cliquez sur Créer.

  4. Cliquez d'abord sur un libellé de zone pour l'activer.

  5. Cliquez ensuite sur le bloc qui représente le contenu que vous souhaitez étiqueter comme type de zone.

    Le bloc change la couleur du libellé de zone. Vous avez correctement étiqueté la zone !

  6. Répétez ce processus pour annoter d'autres zones dans le document.

    Ne vous inquiétez pas. Vous n'avez pas besoin d'étiqueter chaque page. Lorsque vous appliquez des libellés et soumettez des pages, Watson apprend à partir de ce que vous annotez et commence à prévoir des annotations.

    Suivez les directives ci-après :

    • S'il n'y a rien de spécial dans une section, conservez le libellé text, qui est appliqué par défaut.
    • Un libellé ne peut pas s'étendre sur plusieurs pages.
    • Ne traitez pas les textes en gras, italique ou soulignés différemment. Le libellé dépend du contexte et non du style.
    • Utilisez des libellés cohérents sur tous les documents.
    • Travailler de la première page d'un document multipage à la dernière.
    • Pour supprimer une seule annotation, choisissez un autre libellé (tel que text) et appliquez-le à l'élément pour remplacer l'annotation précédente.
    • Pour supprimer des annotations que vous avez ajoutées à une page entière, cliquez sur l'icône Effacer les modifications dans la barre d'outils.
    • Pour annoter une table, cliquez sur le texte au début de la table, puis faites-le glisser pour sélectionner le texte dans la table entière.
    • Lorsque vous libellez une ou plusieurs tables, l'enrichissement Table Understanding est activé automatiquement pour l'ensemble de la collection. Pour plus d'informations, voir Présentation des tables.
    • Les images des documents source ne sont pas rendues dans l'aperçu. Si la reconnaissance optique des caractères (OCR) est activée, tout texte de l'image ou du diagramme est extrait et rendu dans l'aperçu.
    • Ne pas étiqueter les espaces blancs.
  7. Lorsque tout ce que vous souhaitez étiqueter est étiqueté, soumettez la page. Cliquez sur Submit page.

    Continuez à annoter les documents jusqu'à ce que Watson puisse mapper correctement et de manière cohérente différents types de contenu aux zones appropriées pour vous.

  8. Après avoir enseigné à Watson à identifier les zones, cliquez sur Appliquer les modifications et retraiter.

Les zones personnalisées que vous définissez à l'aide de l'outil SDU sont indexées en tant que zones de niveau racine.

Etape suivante

Lorsque vous générez un modèle entraîné par l'utilisateur, vous changez l'emplacement de stockage des informations dans vos documents. Ensuite, modifiez la configuration des résultats de la recherche. Par défaut, les résultats de la recherche sont extraits des passages ou de la zone de texte. Vous pouvez avoir une meilleure zone à utiliser comme source du corps du résultat. Pour plus d'informations, voir Modification du contenu des résultats.

Si votre projet est utilisé par un assistant virtuel, mettez à jour la configuration de la compétence de recherche pour extraire le corps de la réponse d'une autre zone. Pour plus d'informations, voir Configuration de la recherche.

Vous pouvez appliquer des enrichissements, personnalisés ou préconfigurés, aux nouvelles zones racine qui sont générées par le modèle SDU.

Si vous souhaitez renvoyer un fragment de texte plus court avec un résultat de recherche, vous pouvez fractionner vos documents en fonction de l'une des nouvelles zones que vous avez définies, comme un chapitre ou une section.

Champs disponibles

Les zones suivantes sont disponibles pour que vous puissiez les appliquer aux documents à l'aide de l'outil Smart Document Understanding.

Les zones sont arbitraires. Vous pouvez appliquer la zone image à chaque titre du document si vous le souhaitez. Cependant, il peut être difficile de savoir quelle zone rechercher ultérieurement pour obtenir les informations dont vous avez besoin si les noms de zone ne correspondent pas au contenu. L'ensemble par défaut correspond à des types de zone représentatifs destinés à vous aider à démarrer. Seuls les champs text et table ont une signification spéciale. Ne les utilisez pas pour identifier autre chose que du texte et des tableaux.

Libellés de zone par défaut
Zone Définition
answer Dans une paire question-réponse (souvent dans une FAQ), la réponse à la question.
author Nom de l'auteur ou des auteurs.
footer Utilisez cette balise pour indiquer les méta-informations sur le document (telles que le numéro de page ou les références), qui apparaissent à la fin de la page.
header Utilisez cette balise pour indiquer les méta-informations sur le document qui apparaissent au début de la page.
question Dans une paire de questions-réponses (souvent dans une FAQ), la question.
subtitle Le titre secondaire du document.
table_of_contents Utilisez cette balise pour les listes dans la table des matières du document.
text Par défaut, chaque bloc de texte du document est libellé en tant que texte. Appliquez des libellés différents uniquement aux blocs de texte ayant une signification spéciale.
title Le titre principal du document.
table Utilisez cette balise pour annoter les tables de votre document.
image Les images ne sont pas affichées dans l'aperçu du document. Si vous activez la reconnaissance optique des caractères, le texte d'une image ou d'un diagramme s'affiche dans l'aperçu. Si vous souhaitez empêcher le texte de certaines images d'être inclus dans les résultats de la recherche, balisez le texte de l'image en tant qu'image. Vous pouvez exclure la zone d'image de l'index ultérieurement.

Réutilisation de modèles SDU

Après avoir défini un modèle avec l'outil SDU, vous pouvez le sauvegarder et le réutiliser dans d'autres collections en l'exportant d'une collection et en l'important dans une autre.

L'importation d'un nouveau modèle écrase le modèle existant dans une collection. Si le modèle existant est déjà entraîné, par exemple via des libellés de champ personnalisé et des annotations, l'importation d'un nouveau modèle affecte la collection et peut entraîner une perte de données.

Pour réutiliser un modèle, suivez les étapes suivantes :

  1. Exportez le modèle que vous souhaitez réutiliser. Dans le menu de la barre d'outils SDU, sélectionnez Exporter le modèle.

    caption-side=bottom"
    Menu d'importation et d'
    'importation et d'exportation*

  2. Créez la collection dans laquelle vous souhaitez réutiliser le modèle. Ajoutez d'abord un seul document à la collection.

  3. Importez le modèle à partir de la barre d'outils SDU. Le modèle exporté possède l'extension de fichier .sdumodel.

  4. Ajoutez le reste des documents à la collection. Ouvrez l'onglet Activité de la page Gérer les collections, puis cliquez sur Télécharger des données pour ajouter d'autres fichiers à la collection.

Utilisez le modèle importé tel qu'il est. Ne faites plus d'annotations. Si vous effectuez des annotations après avoir importé le fichier .sdumodel, le modèle importé sera écrasé.

Limites de Smart Document Understanding

Le nombre de zones personnalisées que vous pouvez créer par modèle Smart Document Understanding dépend de votre type de plan Discovery.

Limites des zones personnalisées
Planifier Champs personnalisés par modèle SDU
Cloud Pak for Data Illimité
Premium 100
Entreprise 100
Plus (inclut la version d'essai) 40

Le nombre maximal de documents que vous pouvez annoter pour entraîner un modèle SDU par collection dépend de votre type de plan Discovery.

Limites de l'ensemble d'apprentissage
Planifier Documents par collection
Cloud Pak for Data 40
Premium 40
Entreprise 40
Plus (inclut la version d'essai) 40

Gestion des zones

L'onglet Manage fields contient plusieurs options :

Identifier les zones à indexer
Pour plus d'informations, voir Exclusion de contenu des résultats de requête.
Améliorez les résultats de vos requêtes en scindant vos documents
Pour plus d'informations, voir Fractionnement de documents pour rendre les résultats de requête plus succincts.
Paramètres de format de date
Pour plus d'informations, voir Paramètres de format de date.

Pour accéder à la page Gérer les champs, cliquez sur l'icône Gérer les collections dans le panneau de navigation et ouvrez une collection. Cliquez sur l'onglet Manage fields. Pour plus d'informations sur les collections, voir Création de collections.