À propos des cookies sur ce site Pour fonctionner correctement, nos sites Internet nécessitent certains cookies (requis). En outre, d'autres cookies peuvent être utilisés avec votre consentement pour analyser l'utilisation d'un site, améliorer l'expérience des utilisateurs et à des fins publicitaires. Pour plus informations, passez en revue vos options de préférences en. En visitant notre site Web, vous acceptez que nous traitions les informations comme décrit dans ladéclaration de confidentialité d’IBM. Pour faciliter la navigation, vos préférences en matière de cookie seront partagées dans les domaines Web d'IBM énumérés ici.
Cette documentation concerne IBM Watson® Knowledge Studio on IBM Cloud®. Pour consulter la documentation de la version précédente de Knowledge Studio on IBM Marketplace, cliquez sur ce lien.
Créer un espace de travail
Lorsque vous construisez un modèle personnalisé, la première étape est de créer un espace de travail.
A propos de cette tâche
Vous devez créer un espace de travail pour chaque modèle que vous voulez construire et utiliser. Cet espace contiendra les artefacts et les ressources nécessaires à la construction du modèle. Vous pourrez ensuite entraîner le modèle afin d'obtenir un modèle personnalisé qui pourra être déployé sur un service externe afin d'y être exploité.
Avant de créer un espace de travail, répondez à ces questions :
-
Quel type de modèle voulez-vous créer ?
- Modèle d'apprentissage automatique : utilise une approche statistique pour trouver les entités et les relations dans les documents. Ce type de modèle peut s'adapter à mesure que la quantité de données croît.
- Modèle à base de règles : utilise une approche déclarative pour trouver les entités dans les documents. Ce type de modèle est plus prévisible et plus facile à comprendre et à tenir à jour. Il n'a cependant pas la capacité à apprendre de nouvelles données. Il peut seulement trouver des motifs qu'on lui a appris à rechercher.
- Modèle de règles avancées : offre davantage de possibilités de personnalisation pour l'analyse de texte que les modèles à base de règles. Voir Créer un modèle de règles avancées pour obtenir des instructions.
Vous pouvez aussi créer un seul espace de travail contenant un modèle à base de règles et un modèle d'apprentissage automatique.
-
Quels services utilisera le modèle ?
Voir Intégration de services Watson pour plus d'informations sur les autres services Watson avec lesquels les modèles personnalisés peuvent être utilisés.
Procédure
Pour créer un espace de travail, effectuez les étapes suivantes :
-
Connectez-vous en tant qu'administrateur Knowledge Studio et cliquez sur Créer un espace de travail.
Les personnes ayant le rôle de chef de projet peuvent effectuer toutes les tâches sauf créer un espace de travail. C'est à l'administrateur de créer l'espace de travail et d'y affecter des chefs de projet.
-
Donnez un nom à l'espace de travail. Choisissez un nom court, reflétant les contenus relatifs à votre domaine ou la finalité du modèle. Ce nom pourra être changé ultérieurement si nécessaire.
-
Identifiez la langue des documents que contiendra votre espace de travail. Les documents que vous ajoutez à l'espace de travail, ainsi que les dictionnaires que vous créez ou transférez, devront être dans cette langue.
-
Facultatif : le marqueur sémantique (tokenizer) utilisé par défaut par l'application est basé sur un modèle d'apprentissage automatique. Si vous voulez en changer, vous pouvez étendre la section Options avancées et choisir Marqueur sémantique basé sur un dictionnaire.
Le marqueur sémantique par défaut est plus avancé que la version basé sur un dictionnaire ; il utilise un modèle d'apprentissage automatique pour identifier les unités lexicales dans les documents source sur la base de l'apprentissage statistique qu'il a effectué dans la langue de ces documents. Il identifie les unités lexicales avec plus de précision, car il comprend les motifs plus naturels et nuancés du langage. Le marqueur sémantique basé sur un dictionnaire identifie les unités lexicales en fonction des règles de la langue. Pour plus de détails, consultez Marqueurs sémantiques.
-
Facultatif : si vous voulez ajouter des chefs de projet à l'espace de travail, développez la section Options avancées et, dans la liste, sélectionnez les noms des personnes à ajouter. Plus tard, l'administrateur pourra ajouter ou retirer des chefs de projet en éditant l'espace de travail.
Seuls sont affichés les noms des personnes auxquelles vous avez attribué le rôle de chef de projet dans la page User Account Management (gestion des comptes d'utilisateur) de l'instance. Pour plus d'informations sur l'ajout d'utilisateurs, consultez Constituer une équipe.
Si vous avez un abonnement à un plan Lite, sautez cette étape. Comme vous ne pouvez pas ajouter d'autres utilisateurs, vous ne pouvez attribuer le rôle de chef de projet à personne. Vous n'avez pas besoin d'un chef de projet distinct. En tant qu'administrateur, vous pouvez accomplir toutes les tâches qui reviendraient normalement à un chef de projet.
-
Cliquez sur Créer.
Etape suivante
Une fois l'espace de travail créé, vous pouvez commencer à configurer ses ressources.
Un administrateur peut éditer l'espace de travail pour changer sa description ou son nom, ou encore pour y ajouter ou en retirer des chefs de projet. A partir de la page d'accueil de Knowledge Studio, cliquez sur l'icône Afficher le menu de la vignette de l'espace de travail et choisissez l'option Editer.
Concepts connexes :
Transférer des ressources d'un autre espace de travail
Référence associée :
Marqueurs sémantiques
Un marqueur sémantique groupe les caractères en unités lexicales et les unités lexicales en phrases. Une unité lexicale est plus ou moins équivalente à un mot.
Les actions à entreprendre par le marqueur sémantique pour identifier les unités lexicales dans un document dépendent de la langue de ce dernier. Dans les langues telles que le français ou l'anglais, les unités lexicales sont souvent assimilées à des mots délimités par des espaces dans une phrase. La correspondance exacte entre unités lexicales et mots n'est cependant pas systématique. Il existe en effet des cas où d'autres éléments textuels ont valeur d'unités lexicales. Par exemple, la ponctuation à la fin d'une phrase compte pour une unité lexicale et les contractions sont souvent étendues en deux unités lexicales. Dans les langues qui n'utilisent pas d'espaces, comme le chinois, des algorithmes statistiques plus complexes sont utilisés pour identifier les unités lexicales.
Le processus de découpage en unités lexicales est important, car il détermine les groupes de caractères que les utilisateurs pourront surligner pour les annoter dans l'éditeur de données de référence. Les annotations des mentions d'entités et de relations sont généralement alignées avec les limites des unités lexicales concernées. Elles doivent obligatoirement figurer au sein d'une même phrase (elles ne peuvent pas s'étendre sur plusieurs phrases).
Types pris en charge
Knowledge Studio prévoit les marqueurs sémantiques suivants :
-
Marqueur sémantique basé sur l'apprentissage automatique (par défaut)
C'est le plus avancé des deux marqueurs sémantiques. Il identifie les unités lexicales dans les documents source sur la base de l'apprentissage statistique qu'il a effectué dans la langue de ces documents. Il est capable de trouver les unités lexicales capturant les motifs plus naturels et nuancés du langage. Vous ne pouvez pas le personnaliser.
-
Marqueur sémantique basé sur un dictionnaire
Ce marqueur sémantique est basé sur des dictionnaires linguistiques. Il trouve les unités lexicales qui obéissent aux règles de la langue du document source. Seuls des utilisateurs avancés peuvent personnaliser ce marqueur sémantique.
Le marqueur sémantique que vous prévoyez d'utiliser doit être choisi au moment où vous créez l'espace de travail, car après, vous ne pouvez plus en changer. Pour les meilleurs résultats, utilisez le marqueur sémantique par défaut. Seuls les utilisateurs avancés souhaitant infléchir le comportement du marqueur sémantique au moyen d'un mécanisme à dictionnaires déterministe peuvent choisir le marqueur sémantique basés sur un dictionnaire. Ils peuvent le personnaliser en ajoutant de nouvelles entrées aux dictionnaires. Cependant, la personnalisation doit être faite avec soin, car lorsque vous ajoutez de nouveaux mots à un dictionnaire, les changements peuvent avoir un impact non souhaité sur le modèle d'apprentissage automatique.
Synthèse des entrées, des sorties et des limites
Les différentes phases du développement d'un modèle requièrent différentes entrées et produisent différentes sorties.
Pour chaque phase du processus de développement, ce tableau résume les activités typiques à entreprendre, les formats de fichier d'entrée acceptés, les sorties qui peuvent être produites et les éventuelles limites de taille ou autres conditions à remplir.
Tous types de modèles
Tableau 1 : Tous les types de modèle| Tâche | Utilisation typique | Formats d'entrée pris en charge | Formats de sortie pris en charge | Limites et exigences | | --- | --- | --- | --- | --- | | Gestion des systèmes de types | Créer un système de types ou télécharger et modifier un système de types existant. Définir les types d'entités et les types de relations de votre domaine. Vous ne pouvez pas voir de visualisation du système de types. |
- Fichier JSON que vous avez téléchargé à partir d'un espace de travail Knowledge Studio.
- Fichier ZIP que vous avez téléchargé de Human Annotation Tool (HAT)
- Fichier CSV au format UTF-8
- Fichier ZIP de dictionnaires téléchargé d'un autre espace de travail
- Fichier CSV au format UTF-8
- Fichier CSV au format UTF-8
- Fichier ZIP de dictionnaires à utiliser dans un autre espace de travail
- 1 Mo par fichier CSV d'entrées de termes
- 16 Mo par fichier de dictionnaire CSV en lecture seule
- 15 000 entrées par dictionnaire, sauf si lecture seule
- 64 dictionnaires par espace de travail
Modèle d'apprentissage automatique
Tableau 2 : Modèle d'apprentissage automatique| Tâche | Utilisation typique | Formats d'entrée pris en charge | Formats de sortie pris en charge | Limites et exigences | | --- | --- | --- | --- | --- | | Gestion des documents | Télécharger un petit sous-ensemble représentatif de documents Télécharger des documents contenant des annotations précédemment ajoutées par un annotateur humain, un modèle d'apprentissage automatique ou un moteur d'analyse UIMA Vous ne pouvez pas ingérer tout le corpus depuis IBM Watson Explorer pour calculer des documents de haute valeur pour l'annotation. |
- Fichier CSV au format UTF-8
- Fichier texte au format UTF-8
- langage HTML
- Fichiers PDF (les fichiers scannés et protégés par mot de passe ne sont pas pris en charge)
- Fichiers Microsoft Word DOC ou DOCX (les fichiers protégés par mot de passe ne sont pas pris en charge)
- Fichier ZIP contenant des documents téléchargés à partir d'un espace de travail
- Fichier ZIP contenant des fichiers XMI au format UIMA CAS
- 40.000 caractères par document
- 10.000 documents par espace de travail
- 1.000 jeux de documents (jeux d'annotations compris) par espace de travail
- 5 Mo par fichier et 200 Mo par téléchargement (fichiers TXT, PDF, DOC, DOCX et HTML)
Vous ne pouvez pas réannoter un corpus à partir de IBM Watson Explorer. | Documents bruts.
Note: Ne pré-annotez pas les documents qu'un annotateur humain a déjà annotés, sinon vous perdrez le travail effectué par l'annotateur humain | Annotation de documents | Gérer l'annotation humaine. Annoter les entités, les relations et les chaînes de coréférence pour créer une vérité de terrain
- 256 tâches d'annotation actives par espace de travail
- 1 modèle d'apprentissage automatique par espace de travail
- 10 versions du modèle par espace de travail
- Le nombre maximal d'espaces de travail est déterminé par votre déploiement.
- Le nombre maximal d'actions d'entraînement que vous pouvez effectuer par mois est déterminé par votre déploiement.
- Fichier ZIP
Modèle à base de règles
Tableau 3 : Modèle à base de règles| Tâche | Utilisation typique | Formats d'entrée pris en charge | Formats de sortie pris en charge | Limites et exigences | | --- | --- | --- | --- | --- | | Editeur de règles | Créer ou télécharger des documents dans l'éditeur de règles pour y définir des classes, des expressions régulières et des règles. |
- Texte standard (ajouté dans l'éditeur)
- Fichier CSV au format UTF-8
- Copie à partir de tous les jeux de documents
- 1 modèle à base de règles par espace de travail
- 5.000 caractères par document
- 100 documents par espace de travail
- Titre de document limité à 256 caractères
- 200 règles par espace de travail
- 400 classes par espace de travail
- 100 groupes d'expressions régulières par espace de travail
- 100 entrées d'expression régulière par groupe d'expressions régulières
- 1.000 caractères par entrée d'expression régulière
- 5 versions du modèle à base de règles par espace de travail
- Fichier PEAR