Cette documentation concerne IBM Watson® Knowledge Studio on IBM Cloud®. Pour consulter la documentation de la version précédente de Knowledge Studio on IBM Marketplace, cliquez sur ce lien.
Amorcer le processus d'annotation
Simplifiez le travail de l'annotateur humain en pré-annotant les documents dans un espace de travail. Un pré-annotateur est un dictionnaire, modèle à base de règles ou modèle d'apprentissage automatique Knowledge Studio que vous pouvez exécuter pour trouver et annoter automatiquement les mentions.
La pré-annotation facilite le travail des annotateurs humains parce qu'elle couvre les annotations simples et permet de mettre en route le travail d'annotation des documents.
La méthode utilisée pour pré-annoter les documents ne restreint en aucune manière la façon dont vous pouvez utiliser le modèle résultant. Par exemple, ce n'est pas parce que vous utilisez le service Natural Language Understanding pour pré-annoter des documents que vous devez déployer le modèle final d'apprentissage automatique que vous construisez sur le service Natural Language Understanding.
Méthodes de pré-annotation
Les pré-annotateurs suivants sont disponibles :
-
Natural Language Understanding
Pré-annotateur que vous pouvez utiliser pour trouver automatiquement les mentions d'entités dans vos documents. C'est un bon choix de pré-annotateur si vos documents source contiennent des connaissances générales dans le domaine concerné. Si vous travaillez avec des documents hautement spécialisés qui se concentrent sur un domaine spécifique, tel que la recherche en droit des brevets, le pré-annotateur à base de dictionnaire ou un modèle à base de règles pourraient être de meilleurs choix.
-
Dictionnaire
Utilise un dictionnaire de termes que vous fournissez et associez à un type d'entité pour trouver les mentions de ce type d'entité dans les documents. C'est le meilleur choix de pré-annotateur pour les domaines utilisant une terminologie unique ou spécialisée, car contrairement au pré-annotateur à base de modèle d'apprentissage automatique, il n'analyse pas le contexte dans lequel le terme est utilisé. Il repose plutôt sur le fait que le terme est suffisamment distinct pour avoir un sens déchiffrable quel que soit le contexte dans lequel il apparaît. Par exemple, il est plus facile de reconnaître amiante comme un type d'entité minéral que de déterminer le type d'entité de voile, qui peut faire référence à l'étoffe servant à cacher, au moyen de propulsion d'un navire ou à la forme conjuguée du verbe voiler.
Les pré-annotateurs de dictionnaire ne reconnaissent pas les sous-types d'entité. Les annotateurs humains peuvent spécifier des sous-types d'entité pour chaque mention pré-annotée en travaillant sur une tâche d'annotation avec le document pré-annoté.
-
Apprentissage automatique
Utilise un modèle d'apprentissage automatique pour annoter automatiquement les documents. Cette option ne vous est proposée que dans la mesure où un modèle d'apprentissage automatique a déjà été créé avec Knowledge Studio. Dans ce cas, vous pouvez utiliser ce modèle existant pour pré-annoter un nouveau jeu de documents. Si le nouveau jeu de documents est similaire aux documents qui ont servi à entraîner le modèle, celui-ci est certainement votre meilleur choix de pré-annotateur.
-
Règle
Utilise un modèle à base de règles pour annoter automatiquement les documents. Cette option ne vous est proposée que dans la mesure où un modèle à base de règles a déjà été créé avec Knowledge Studio. Si vos documents contiennent des motifs communs d'unités lexicales à partir desquels il est possible de dériver un sens, ce modèle pourrait être un bon choix de pré-annotateur. Il peut incorporer une partie de la fonction du pré-annotateur à base de dictionnaire (si vous l'activez) en identifiant par leur type de classe les termes du dictionnaire qu'il trouve dans les documents.
Vous pouvez également transférer des documents déjà annotés et les utiliser pour démarrer l'entraînement du modèle d'apprentissage automatique. Vous ne pouvez pas exécuter un pré-annotateur sur des documents annotés que vous transférez, sous peine de supprimer toutes les annotations existantes de ces documents et de les remplacer exclusivement par celles du pré-annotateur.
Exécution de plusieurs pré-annotateurs
Knowledge Studio vous permet d'exécuter plusieurs pré-annotateurs en même temps. Tout d'abord, vous devez préparer les méthodes de pré-annotation que vous voulez utiliser. Pour plus d'informations, voir les sections suivantes :
- Natural Language Understanding
- Dictionnaires
- Modèle d'apprentissage automatique
- Modèle basé sur des règles
Configuration de l'ordre des pré-annotateurs
Lorsque plusieurs pré-annotateurs sont utilisés, la première annotation apportée à une étendue de texte est sauvegardée pour les résultats, même si d'autres pré-annotateurs tentent, à leur tour, d'annoter la même étendue de texte ultérieurement. Cela ne s'applique pas aux annotations humaines, qui sont conservées quelle que soit l'ordre de pré-annotation.
Par exemple, avec le texte IBM Watson. Si un dictionnaire qui figure en premier dans l'ordre d'annotation annote IBM en tant que type d'entité Organization, un modèle d'apprentissage automatique qui se
trouve en second dans l'ordre d'annotation ne peut pas annoter IBM Watson en tant que type d'entité Software Brand car cela remplacerait l'annotation antérieure effectuée sur IBM.
Vous pouvez afficher l'ordre actuel des pré-annotateurs dans la colonne Ordre de la page Modèle d'apprentissage automatique > Pré-annotation. Pour modifier l'ordre, procédez comme suit :
- Cliquez sur Order Settings.
- Cliquez sur les boutons fléchés Move up et Move down pour avancer ou reculer les méthodes de pré-annotation dans l'ordre.
- Cliquez sur Sauvegarder.
- Vérifiez dans la colonne Ordre de la page Pré-annotation que l'ordre défini correspond bien à celui que vous voulez.
Exécution des pré-annotateurs
- Une fois que vos méthodes de pré-annotation sont préparées et que vous avez configuré l'ordre de vos pré-annotateurs, cliquez sur Run Pre-annotators.
- Sélectionnez les pré-annotateurs que vous voulez utiliser, puis cliquez sur Next.
- Si vous voulez effacer les annotations existantes effectuées par des pré-annotateurs avant d'exécuter le pré-annotateur, sélectionnez Wipe previous pre-annotation results. Les annotations humaines sont conservées même si cette option est sélectionnée.
- Sélectionnez les jeux de documents à pré-annoter.
- Cliquez sur Exécuter.
Pré-annoter des documents avec Natural Language Understanding
Vous pouvez utiliser le service Natural Language Understanding pour pré-annoter les documents que vous ajoutez à votre corpus.
Avant de commencer
Déterminez si le pré-annotateur Natural Language Understanding est susceptible d'ajouter de la valeur à votre cas d'utilisation. Passez en revue la liste des types et sous-types d'entités du service Natural Language Understanding pris en charge afin de déterminer s'il existe un recoupement naturel entre eux et les types de votre système de types. Dans l'affirmative, continuez avec cette procédure. Sinon, choisissez un pré-annotateur différent.
A propos de cette tâche
Natural Language Understanding est un service d'analyse de texte utilisant le traitement automatique du langage naturel. Lorsque vous utilisez le pré-annotateur Natural Language Understanding, celui-ci appelle le service Natural Language Understanding pour trouver et annoter les entités dans vos documents.
Vous devez spécifier quels types d'entités le service doit rechercher en associant des types d'entités Natural Language Understanding aux types d'entités Knowledge Studio correspondants que vous avez ajoutés au système de types Knowledge Studio. Seules les mentions des types d'entités que vous associez de cette manière seront trouvées et annotées.
Procédure
Pour pré-annoter des documents à l'aide du service Natural Language Understanding, effectuez les étapes suivantes :
-
Connectez-vous en tant qu'administrateur Knowledge Studio et sélectionnez votre espace de travail.
-
Accédez à la page Modèle d'apprentissage automatique > Pré-annotation.
-
Cliquez sur le bouton du menu déroulant dynamique de la ligne Natural Language Understanding, puis sur Mapper les types d'entité.
- La liste déroulante des types d'entités Natural Language Understanding est préremplie avec les types d'entités reconnus par le service Natural Language Understanding.
- Vous devez associer au moins un type d'entité.
- Un type d'entité Natural Language Understanding ne peut être associé qu'à un ou plusieurs types d'entités Knowledge Studio, et non à un rôle d'entité Knowledge Studio.
- Il est possible d'associer plusieurs types d'entités Natural Language Understanding à un seul type d'entité Knowledge Studio, ou l'inverse. Par exemple, les association suivantes sont possibles :
Tableau 1. Exemple de mappage des types d'entités| Type d'entité Watson Knowledge Studio | Type d'entité Natural Language Understanding | | --- | --- | | ENGINEER
SCIENTIST | Person | | LOCATION | CityTown
Country | -
Après avoir créé toutes les associations de types d'entités voulues, accédez à la page Modèle d'apprentissage automatique > Pré-annotation. Cliquez sur Run Pre-annotators.
-
Sélectionnez Natural Language Understanding, puis cliquez sur Next.
L'annotateur Natural Language Understanding n'est pas disponible tant que vous n'avez pas associé au moins un type d'entité.
-
Avant d'exécuter le pré-annotateur, sélectionnez Effacer les résultats des pré-annotations précédentes. Les annotations humaines sont conservées même si cette option est sélectionnée.
-
Cochez la case de chaque jeu de documents que vous voulez pré-annoter.
Si vous exécutez ce pré-annotateur pour la première fois, vérifiez d'abord qu'il trouve comme prévu les mentions des entités associées. Créez un jeu de documents contenant un ou plusieurs documents représentatifs de chaque source de données distincte.
-
Cliquez sur Exécuter.
Si vous êtes en train de valider le fonctionnement du pré-annotateur, ouvrez les documents annotés et examinez les annotations qui viennent d'être ajoutées. Assurez-vous qu'un nombre suffisant d'annotations exactes ont été créées. Si c'est le cas, vous pouvez exécuter l'annotateur sur des jeux de documents à la fois plus gros et plus nombreux. Si un trop grand nombre d'annotations sont inexactes, il faut peut-être revoir les associations entre vos propres types d'entités et ceux de Natural Language Understanding. S'il n'y a pas de chevauchement naturel entre les types des deux environnements, c'est que le pré-annotateur Natural Language Understanding n'est pas le plus adapté à votre cas d'utilisation.
La pré-annotation est appliquée individuellement à chaque document, sans qu'il soit tenu compte des jeux de documents auxquels il appartient. Un document constituant un chevauchement entre un jeu sélectionné et un jeu non sélectionné sera pré-annoté dans les deux jeux.
Résultats
Les données de référence produites par les documents qui ont été pré-annotés par le service Natural Language Understanding ne peuvent pas être utilisées directement en dehors de Knowledge Studio. Vous pouvez les télécharger (sous une forme non lisible) pour les déplacer d'un espace de travail Knowledge Studio vers un autre. Vous pouvez aussi continuer à les développer et les utiliser pour construire un modèle d'apprentissage automatique ou un modèle à base de règles qui puisse être déployé pour être utilisé dans des services extérieurs à Knowledge Studio.
Les documents qui ont été pré-annotés avec Natural Language Understanding sont obscurcis de manière à être illisibles lorsqu'ils sont téléchargés. Toutes les annotations sont obscurcies, y compris celles qui ont été ajoutées aux documents par des annotateurs humains.
Informations associées :
Pré-annoter des documents avec un dictionnaire
Pour aider les annotateurs humains à commencer les tâches d'annotation qui leur sont attribuées, vous pouvez créer un dictionnaire et l'utiliser pour pré-annoter les documents que vous ajoutez au corpus.
A propos de cette tâche
Lorsqu'un annotateur humain commence à travailler sur des documents qui ont été pré-annotés, un certain nombre de mentions sont probablement déjà annotées avec des types d'entités fondés sur les entrées du ou des dictionnaires utilisés. L'annotateur humain est libre de changer ou de supprimer les types d'entités affectés aux mentions et d'en affecter aux mentions qui n'ont pas été annotées. La pré-annotation au moyen d'un dictionnaire n'annote pas les relations ni les coréférences. C'est donc aux annotateurs humains de les annoter.
Cette tâche vous montre comment créer un dictionnaire modifiable. Si vous voulez transférer et pré-annoter vos documents avec un dictionnaire en lecture seule, cliquez sur l'icône Menu en regard du bouton Créer un dictionnaire et sélectionnez Transférer un dictionnaire.
Procédure
Pour créer un dictionnaire modifiable et pré-annoter des documents, procédez comme suit :
-
Connectez-vous en tant qu'administrateur Knowledge Studio et sélectionnez votre espace de travail.
-
Sélectionnez la page Actifs > Dictionnaires.
-
Cliquez sur Créer un dictionnaire, entrez un nom, puis cliquez sur Sauvegarder.
-
Dans la liste Type d'entité, sélectionnez un type d'entité à associer au dictionnaire.
Vous pouvez également associer un type d'entité au dictionnaire à partir de la page Modèle d'apprentissage automatique > Pré-annotation. Cliquez sur le bouton du menu déroulant dynamique de la ligne Dictionnaires de la page, puis cliquez sur Mapper les types d'entité.
-
Ajoutez des entrées au dictionnaire ou transférez un fichier contenant les termes du dictionnaire.
-
Accédez à la page Modèle d'apprentissage automatique > Pré-annotation.
-
Cliquez sur Run Pre-annotators.
-
Sélectionnez Dictionaries, puis cliquez sur Next.
-
Si vous voulez effacer les annotations existantes effectuées par des pré-annotateurs avant d'exécuter le pré-annotateur, sélectionnez Wipe previous pre-annotation results. Les annotations humaines sont conservées même si cette option est sélectionnée.
-
Cochez la case de chaque jeu de documents que vous voulez pré-annoter, puis cliquez sur Exécuter.
La pré-annotation est appliquée individuellement à chaque document, sans qu'il soit tenu compte des jeux de documents auxquels il appartient. Un document constituant un chevauchement entre un jeu sélectionné et un jeu non sélectionné sera pré-annoté dans les deux jeux.
Informations associées :
Pré-annoter des documents avec le modèle d'apprentissage automatique
Vous pouvez utiliser un modèle d'apprentissage automatique existant pour pré-annoter les documents que vous ajoutez à votre corpus.
A propos de cette tâche
Lorsque de 10 à 30 documents ont été annotés, les données de référence correspondantes peuvent servir à entraîner un modèle d'apprentissage automatique. N'utilisez ce type de modèle peu entraîné en production. Cependant, vous pouvez utiliser le modèle pour pré-annoter des documents afin d'accélérer l'annotation humaine des documents suivants. Par exemple, si vous ajoutez des documents au corpus après avoir entraîné un modèle d'apprentissage automatique, vous pouvez utiliser celui-ci pour pré-annoter les nouveaux jeux de documents que vous ajoutez. N'exécutez jamais un pré-annotateur sur des documents qui ont été annotés par une personne. Les pré-annotateurs suppriment toutes les annotations humaines.
Procédure
Pour utiliser un modèle d'apprentissage automatique existant afin de pré-annoter des documents :
-
Connectez-vous en tant qu'administrateur Knowledge Studio et sélectionnez votre espace de travail.
-
Accédez à la page Modèle d'apprentissage automatique > Pré-annotation.
-
Cliquez sur Run Pre-annotators.
-
Sélectionnez Modèle d'apprentissage automatique, puis cliquez sur Next.
-
Si vous voulez effacer les annotations existantes effectuées par des pré-annotateurs avant d'exécuter le pré-annotateur, sélectionnez Wipe previous pre-annotation results. Les annotations humaines sont conservées même si cette option est sélectionnée.
-
Cochez la case de chaque jeu de documents que vous voulez pré-annoter, puis cliquez sur Exécuter.
La pré-annotation est appliquée individuellement à chaque document, sans qu'il soit tenu compte des jeux de documents auxquels il appartient. Un document constituant un chevauchement entre un jeu sélectionné et un jeu non sélectionné sera pré-annoté dans les deux jeux.
Pré-annoter des documents avec le modèle à base de règles
L'éditeur du règlement prendra fin le 30 juin 2025. Voir les notes de version pour plus de détails.
Vous pouvez utiliser un modèle à base de règles existant pour pré-annoter les documents que vous ajoutez à votre corpus.
Procédure
Pour pré-annoter des documents à l'aide du modèle à base de règles, effectuez les étapes suivantes :
-
Connectez-vous en tant qu'administrateur Knowledge Studio et sélectionnez votre espace de travail.
-
Accédez à la page Modèle d'apprentissage automatique > Pré-annotation.
-
Cliquez sur le bouton du menu déroulant dynamique de la ligne Modèle à base de règles, puis sur Mapper les types d'entité et les classes pour associer les types d'entités que vous avez définis dans le système de types Knowledge Studio à une ou plusieurs classes du modèle à base de règles.
Vous pouvez également ouvrir la page d'association en sélectionnant l'onglet Modèle à base de règles > Versions > Modèle à base de règles.
-
Cliquez sur Editer pour chaque type d'entité à associer.
- La liste déroulante de la colonne Nom de la classe est préremplie avec les noms des classes associées au modèle à base de règles.
- Vous devez associer au moins un type d'entité à une classe.
-
Sur la page Modèle d'apprentissage automatique > Pré-annotation, cliquez sur Run Pre-annotators.
L'option Modèle à base de règles n'est pas disponible tant que vous n'avez pas associé au moins un type d'entité à une classe.
-
Si vous voulez effacer les annotations existantes effectuées par des pré-annotateurs avant d'exécuter le pré-annotateur, sélectionnez Wipe previous pre-annotation results. Les annotations humaines sont conservées même si cette option est sélectionnée.
-
Sélectionnez les jeux de documents ou d'annotations à pré-annoter.
-
Cliquez sur Exécuter.
La pré-annotation est appliquée individuellement à chaque document, sans qu'il soit tenu compte des jeux de documents auxquels il appartient. Un document constituant un chevauchement entre un jeu sélectionné et un jeu non sélectionné apparaîtra pré-annoté dans les deux jeux.
Transférer des documents pré-annotés
Vous pouvez accélérer l'entraînement de votre modèle en transférant des documents ayant été pré-annotés par un moteur d'analyse UIMA (Unstructured Information Management Architecture).
Les documents ainsi pré-annotés doivent être dans la forme de sérialisation XMI de la structure CAS (Common Analysis Structure) UIMA. Le fichier .zip que vous transférez doit inclure le fichier descripteur du système de types UIMA ainsi qu'un fichier associant les types UIMA aux types d'entités de votre système de types Knowledge Studio.
UIMA CAS XMI est un format standard d'Apache UIMA. Des consignes sont fournies sur la manière de créer des fichiers dans le format correct à partir de collections analysées dans IBM Watson Explorer. Si vous utilisez une autre implémentation d'Apache UIMA, adaptez ces consignes à votre cas. Quelle que soit la façon dont vous créez les fichiers XMI, les conditions à remplir pour créer le fichier d'association des systèmes de types et le fichier .zip sont les mêmes pour tous.
Si vous affectez les documents importés à des annotateurs humains, ils apparaîtront pré-annotés dans l'éditeur de données de référence et un certain nombre de mentions seront peut-être déjà annotées. Les annotateurs humains peuvent ainsi consacrer plus de temps à appliquer les directives d'annotation aux mentions qui ne sont pas encore annotées. Vous pouvez aussi passer outre l'étape d'annotation humaine et utiliser les documents pré-annotés pour commencer immédiatement l'entraînement et l'évaluation d'un modèle d'apprentissage automatique.
Exporter des documents analysés de Watson Explorer Content Analytics
Vous pouvez exporter des documents qui ont été explorés et analysés dans IBM Watson Explorer Content Analytics et les transférer sous forme de fichiers XMI dans un espace de travail Knowledge Studio.
Procédure
Pour récupérer des documents analysés d'une collection Watson Explorer Content Analytics, procédez comme suit :
-
Ouvrez la console d'administration de Content Analytics dans un navigateur web.
-
Dans la vue Collections, développez la collection dont vous souhaitez exporter des documents. Dans le panneau Analyse syntaxique et index, vérifiez que le processus d'analyse syntaxique et d'indexation est en cours d'exécution, puis cliquez sur l'icône fléchée de l'option Exporter les métadonnées et les contenus des documents analysés.
-
Dans la section Options d'exportation des documents analysés, sélectionnez Exporter les documents en tant que fichiers XML, cochez la case Activer CAS comme exportation au format XMI, spécifiez le chemin de sortie, c'est-à-dire l'endroit où les données exportées devront être écrites, puis cliquez sur OK.
-
Arrêtez puis redémarrez les services d'analyse syntaxique et d'indexation, puis effectuez l'une des étapes suivantes :
- Si la collection contient déjà dans son cache des documents indexés que vous voulez utiliser pour entraîner le modèle d'apprentissage automatique, redémarrez une construction complète de l'index.
- Si la collection ne contient pas de documents indexés parmi ceux que vous voulez utiliser pour entraîner le modèle d'apprentissage automatique, transférez les documents, configurez au moins un moteur d'exploration (crawler) pour explorer les documents, puis démarrez-le.
-
Dans la section Exporter, vérifiez le statut de la demande d'exportation. Le nombre de documents exportés est indiqué.
-
Allez dans le dossier de sortie que vous avez spécifié lors de la configuration des options d'exportation. Lorsque les documents sont exportés comme fichiers XML, le nom du dossier de sortie contient l'horodatage du moment où a eu lieu l'exportation. Le dossier de sortie contient les fichiers XMI (
*.xmi) et le fichier descripteur du système de types UIMA (exported_typesystem.xml).
Etape suivante
Vous devez définir une association (mappage) entre les types UIMA et les types d'entités Knowledge Studio. Vous devez également créer un fichier .zip contenant tous les fichiers nécessaires au transfert des données analysées dans un espace de travail Knowledge Studio.
Informations associées :
Exporter une collection analysée de Content Analytics Studio
Vous pouvez exporter une collection de documents analysés de Watson Explorer Content Analytics Studio et transférer ces documents sous forme de fichiers XMI dans un projet Knowledge Studio.
Procédure
Pour récupérer des documents analysés d'une collection Content Analytics Studio, procédez comme suit :
- Lancez Content Analytics Studio et ouvrez le projet Studio.
- Faites un clic droit sur le dossier contenant les documents que vous voulez utiliser pour entraîner un modèle d'apprentissage automatique, puis choisissez Analyze Collection.
- Sélectionnez un fichier de configuration de pipeline UIMA.
- Allez dans la vue Collection Analysis et cliquez sur son icône Save. Spécifiez le dossier dans lequel doivent être écrits les résultats sauvegardés, ainsi que le nom de fichier.
- Ouvrez le dossier que vous avez spécifié. L'extension de fichier du fichier sauvegardé est
.annotations. - Copiez le fichier
.annotationsdans votre système de fichiers local en le renommant de.annotationsen.zip. - Extrayez tous les fichiers du fichier .zip. Le contenu extrait inclut les fichiers XMI (
*.xmi), le fichier descripteur du système de types UIMA (TypeSystem.xml) et d'autres fichiers.
Etape suivante
Vous devez définir une association (mappage) entre les types UIMA et les types d'entités Knowledge Studio. Vous devez également créer un fichier .zip contenant tous les fichiers nécessaires au transfert des données analysées dans un espace de travail Knowledge Studio.
Associer les types UIMA aux types d'entités
Avant de transférer des fichiers XMI dans un espace de travail Knowledge Studio, vous devez définir les associations (mappages) entre types UIMA types et types d'entités Knowledge Studio.
Avant de commencer
Dans votre espace de travail Knowledge Studio, le système de types doit inclure les types d'entités auxquels vous souhaitez associer les types UIMA.
Procédure
Pour associer des types UIMA aux types d'entités Knowledge Studio, procédez comme suit :
-
Créez un fichier nommé
cas2di.tsvdans le dossier qui contient le fichier descripteur du système de types UIMA, tel queexported_typesystem.xmlouTypeSystem.xml. -
Ouvrez le fichier
cas2di.tsvdans un éditeur de texte. Chaque ligne du fichier doit spécifier une unique association. Le format de l'association à créer dépend de la nature de l'annotateur dont vous souhaitez associer les types d'entités :-
Vous pouvez créer des associations en utilisant le format de base :
UIMA_Type_Name[TAB]WKS_Entity_TypeL'exemple suivant définit des associations entre certains types UIMA produits par l'annotateur Named Entity Recognition dans Watson Explorer Content Analytics et des types d'entités faisant partie d'un système de types Knowledge Studio :
com.ibm.langware.Organization ORGANIZATION com.ibm.langware.Person PERSON com.ibm.langware.Location LOCATIONVoici un autre exemple définissant cette fois l'association entre des types UIMA produits par l'annotateur personnalisé ayant été créé dans Watson Explorer Content Analytics Studio et des types d'entités Knowledge Studio :
com.ibm.Person PERSON com.ibm.Date DATE -
Les associations que vous créez peuvent être basées sur les facettes utilisées dans les annotateurs Pattern Matcher ou Dictionary Lookup de Watson Explorer Content Analytics. Dans les fichiers de règles d'analyse de texte (
*.pat), la facette est représentée par l'attribut 'category'. Pour définir un association, utilisez la syntaxe suivante :com.ibm.takmi.nlp.annotation_type.ContiguousContext:category={FACET_PATH}[TAB]{WKS_ENTITY_TYPE}Dans l'exemple suivant, valable pour les annotateurs Pattern Matcher et Dictionary Lookup, on définit une association entre la catégorie $.mykeyword.product et le type d'entité PRODUCT du système de types Knowledge Studio :
com.ibm.takmi.nlp.annotation_type.ContiguousContext:category=$.mykeyword.product PRODUCT
-
Etape suivante
Vous devez créer un fichier .zip contenant tous les fichiers nécessaires au transfert des données analysées dans un espace de travail Knowledge Studio.
Informations associées :
Transférer des fichiers XMI au format UIMA CAS dans un espace de travail
Pour utiliser les documents pré-annotés que vous avez téléchargés afin d'entraîner un modèle, vous devez créer un fichier .zip contenant tous les fichiers requis pour télécharger les fichiers XMI, puis transférer ce fichier .zip dans un espace de travail Knowledge Studio.
Avant de commencer
Avant de transférer le fichier zip, assurez-vous que le système de types dans votre espace de travail Knowledge Studio inclut bien les types d'entités auxquels vous avez associé les types UIMA.
Les moteurs d'analyse UIMA permettent aux annotations de s'étendre sur plusieurs phrases. Or, dans Knowledge Studio, chaque annotation doit être confinée dans une même phrase. Si les fichiers XMI que vous transférez incluent des annotations qui franchissent les limites d'une phrase, celles-ci n'apparaîtront pas dans l'éditeur de données de référence.
Procédure
Pour transférer des documents pré-annotés dans un espace de travail Knowledge Studio, procédez comme suit :
-
Créez un fichier .zip contenant tous les fichiers nécessaires à Knowledge Studio.
-
Sélectionnez le dossier contenant les fichiers XMI, le fichier descripteur du système de types UIMA et le fichier
cas2di.tsv, ou bien sélectionnez tous les fichiers de ce dossier. -
Créez un fichier .zip incluant tous les fichiers. Veillez à ce que le fichier
cas2di.tsvet le fichier descripteur du système de types UIMA soient stockés à la racine du fichier .zip. S'ils sont stockés dans un sous-dossier du fichier .zip, Knowledge Studio ne pourra pas les lire et rien ne sera importé.Sous Windows, vous pouvez faire un clic droit et sélectionner Envoyer vers > Dossier compressé.
-
-
Transférez le fichier .zip dans un espace de travail Knowledge Studio.
- Connectez-vous en tant qu'administrateur ou chef de projet Knowledge Studio, ouvrez l'espace de travail auquel vous souhaitez ajouter les documents, puis ouvrez la page Actifs > Documents.
- Cliquez sur Transférer des jeux de documents.
- Faites glisser le fichier .zip que vous avez créé ou cliquez pour le localiser et le sélectionner.
- Cochez la case pour indiquer que le fichier .zip contient des fichiers au format UIMA CAS XMI.
- Cliquez sur Transférer.