Analyse de vos données à l'aide de l'application Content Mining

Utilisez l'application Discovery Content Mining pour analyser vos données. L'application affiche des sous-ensembles de vos informations dans des visualisations qui peuvent vous aider à trouver des modèles, des tendances et des anomalies.

Seuls les utilisateurs des déploiements installés ou des déploiements gérés des offres Enterprise et Premium peuvent utiliser l'application Content Mining.

Vidéo de présentation

Retranscription de la vidéo

Watson Discovery Content Mining Project présenté par Stuart Strolin. (Introduction à la musique) L'objectif de cette vidéo est de vous familiariser avec le projet d'exploration de contenu dans Watson Discovery.

L'exploration de contenu est l'un des principaux cas d'utilisation de Watson Discovery. Il est utilisé pour analyser et explorer des données structurées et non structurées afin de trouver des informations et d'extraire des significations masquées. Il est utilisé à la fois par l'analyste citoyen et par le spécialiste des données.

Le projet d'exploration de contenu peut être utilisé pour tous les types d'analyse car l'interface utilisateur n'est pas spécifique à un secteur d'activité ou à un ensemble de données particulier.

Dans ce scénario, vous êtes analyste pour une société automobile fictive. Des rapports opérationnels ont alerté l'entreprise d'un taux d'accidents inhabituel pour l'une de leurs voitures. Votre travail est de trouver pourquoi.

A l'aide du projet d'exploration de contenu, vous commencez votre analyse en examinant les données non structurées des rapports nationaux sur les incidents liés aux véhicules automobiles. Vous obtenez une interface qui vous permet de sélectionner le modèle de voiture et de commencer votre analyse (sur la page Collections). Dans ce cas, vous êtes intéressé par le Hill Walker. Vous pouvez entrer ces informations dans la section de recherche au début de la page. Mais il est plus facile de cliquer sur l'élément. Vous pouvez ajouter autant de termes et de conditions de recherche que vous le souhaitez. Mais en réalité, vous voulez laisser l'application guider votre analyse.

Vous voyez maintenant la vue de navigation (en mode guidé). Il assure le suivi de votre analyse et fournit des options pour les étapes suivantes. Il fournit également un comptage du nombre de documents correspondant à votre état d'analyse en cours. Dans cette petite collection, le nombre de documents relatifs à Hill Walker n'est que de 51. Dans un jeu de données de production, le nombre est généralement beaucoup plus grand. L'analyse des tendances et des anomalies est souvent un bon moyen de commencer car elle vous permet de voir si quelque chose semble hors de l'ordinaire.

Immédiatement, vous remarquez que le Walker Hill a des problèmes en décembre et janvier. Vous décidez d'enquêter plus en détail en limitant cette exploration initiale au mois de décembre seulement.

Remarquez comment la vue de navigation en haut vous tient toujours informé de l'endroit où vous vous trouvez dans votre analyse. Ensuite, vous sélectionnez Analyser la cause et les caractéristiques car vous êtes intéressé par la raison pour laquelle des événements se produisent.

Vous remarquez que des mots comme "neige" et "frein" sont mis en évidence ensemble (dans la section Partie du discours), donc vous les ajoutez à votre analyse.

Le projet Content Miner a limité votre investigation à un petit nombre de plaintes qui peuvent être facilement lues. (clics Afficher les documents)

Le thème commun ici est qu'il y a un problème inattendu avec la façon dont les freins fonctionnent dans des conditions de neige. Vous disposez maintenant des informations dont vous avez besoin pour demander au service technique d'effectuer une inspection détaillée du système de freinage et de déterminer pourquoi il ne fonctionne pas comme prévu dans des conditions de neige.

Dans cette démonstration, vous avez vu comment un analyste citoyen utilisant Watson Discovery et l'exploration de contenu peut facilement découvrir une signification cachée dans un texte non structuré. (liste des fonctions, fonctionnalités et cas d'utilisation)

Que ferez-vous avec Watson Discovery? (Musique outro)

Fonctionnement

Pour analyser vos données, vous utilisez des facettes. Les facettes vous permettent de découper vos données en tranches et de visualiser un sous-ensemble d'informations afin qu'il soit plus facile à comprendre.

Dans la page d'analyse des données de votre collection, vous pouvez choisir d'afficher les données dans l'une des vues suivantes:

Facettes: Affiche les facettes qui sont dérivées des annotations qui sont ajoutées à vos documents par les enrichissements qui sont appliqués à vos documents. Les enrichissements peuvent inclure des enrichissements Natural Language Processing intégrés, tels que Part of Speech ou Entities. Ils peuvent également inclure des enrichissements personnalisés que vous ajoutez, tels que des dictionnaires, des modèles d'expression régulière et des modèles d'apprentissage automatique.
Facettes de métadonnées: Affiche les facettes dérivées de vos données. Lorsque vous ajoutez des fichiers à une collection, Discovery analyse et indexe les données. Des annotations sont ajoutées pour identifier les types de contenu et sont affichées en tant que facettes de métadonnées. Les meilleures facettes de métadonnées sont générées lorsque vous ingérez des données structurées, telles que des enregistrements à partir d'un fichier CSV. La longueur maximale d'une facette de métadonnées est de 256 caractères.
Personnalisé: Affiche uniquement les facettes que vous choisissez d'ajouter à la vue. Vous pouvez ajouter une combinaison de facettes dérivées de l'enrichissement et de facettes dérivées du contenu à votre vue personnalisée.

Lorsque vous créez un type de projet Content Mining, la facette Part of Speech est appliquée automatiquement à vos données. Cette facette est un endroit idéal pour commencer car elle est valide pour toutes les données, quel que soit le sujet. La sortie vous donne un aperçu rapide de la terminologie la plus courante dans les données.

Watson Discovery content mining launch page — Watson Discovery Content Mining application home page

A partir de ce point de départ, vous pouvez déterminer d'autres façons de filtrer les données qui peuvent être utiles.

Si vos données sont constituées de rapports de trafic, par exemple, la facette Part of Speech peut indiquer que les mots clés de haute fréquence incluent des termes tels que engine, brake, fire, fumigèneet spark. Compte tenu de cette terminologie commune, vous pouvez créer des dictionnaires pour vous aider à catégoriser et à filtrer les données. Les mots clés de l'exemple peuvent vous conduire à créer les dictionnaires suivants:

Dictionnaire component pour les termes tels que moteur et frein
Dictionnaire phenomenon pour les termes tels que fire, fume et spark

Lorsque vous appliquez l'enrichissement de dictionnaire à vos données, il génère des annotations. Vous pouvez considérer les annotations comme des balises que vous ajoutez à des mots ou à des phrases, où la balise catégorise ou identifie la signification du mot ou de la phrase. Les annotations résultantes fonctionnent comme de nouvelles facettes que vous pouvez utiliser pour filtrer et disséquer davantage vos données.

Avec vos nouvelles facettes component et phenomenon, par exemple, vous pouvez rechercher des corrélations entre les composants et les phénomènes impliqués dans les incidents de trafic.

Découvrez comment vous pouvez analyser vos données.

Creuser plus profondément

Pour creuser encore plus dans vos données, appliquez ou créez des modèles d'IA qui peuvent trouver différents types d'informations dans vos documents. Vous pouvez appliquer des modèles de traitement du langage naturel intégrés, tels que l'enrichissement Entities, qui peut reconnaître les mentions d'objets connus, tels que les noms d'entreprise ou d'emplacement et d'autres types de noms propres. Vous pouvez également appliquer un modèle personnalisé qui reconnaît les termes et les catégories uniques à vos données.

Etendre votre analyse en ajoutant vos propres facettes.

Initiation

Avant de pouvoir utiliser l'application, vous devez créer un projet Content Mining Discovery. Une fois le projet créé et les données téléchargées, vous pouvez ouvrir l'application Content Mining.

Pour plus d'informations, voir Création de projets.

Bien sûr, vous ne pouvez pas obtenir des informations utiles si vous n'y mettez pas le bon type d'informations. Veillez à inclure des données cohérentes. Si vous souhaitez rechercher des tendances dans le temps, vos données doivent inclure des points de données qui spécifient une date.

Les données soumises au format de fichier CSV sont optimales. Pour un exemple de fichier CSV qui fournit des fonctions d'analyse intéressantes, voir Analyse de fichiers CSV.