Diese Dokumentation bezieht sich auf IBM Watson® Knowledge Studio on IBM Cloud®. Die Dokumentation für die Vorgängerversion von Knowledge Studio on IBM Marketplace kann über diesen Link aufgerufen werden.
Annotationsprozess beschleunigen
Sie können die Arbeit der Annotatorbenutzer vereinfachen, indem Sie die Dokumente in einem Arbeitsbereich vorannotieren. Ein Vorannotator ist ein Wörterverzeichnis, ein regelbasiertes Modell oder ein Machine Learning-Modell in Knowledge Studio, das Sie anwenden können, um Erwähnungen automatisch zu finden und zu annotieren.
Das Vorannotieren erleichtert die Arbeit der Annotatorbenutzer, indem die offensichtlichen Annotationen vorab verarbeitet und das Annotieren der Dokumente beschleunigt wird.
Die zum Vorannotieren der Dokumente verwendete Methode verursacht keinerlei Einschränkungen für die Verwendung des resultierenden Modells. Beispiel: Wenn Sie den Service Natural Language Understanding zum Vorannotieren von Dokumenten verwenden, bedeutet dies nicht, dass Sie das von Ihnen erstellte Machine Learning-Modell im Service Natural Language Understanding bereitstellen müssen.
Methoden für die Vorannotation
Die folgenden Vorannotatoren stehen zur Verfügung:
-
Natural Language Understanding
Ein Vorannotator zum automatischen Finden von Entitätserwähnungen in Ihren Dokumenten. Wenn Ihre Quellendokumente Allgemeinwissen enthalten, ist dieser Vorannotator eine gute Wahl. Wenn Sie mit hoch spezialisierten Dokumenten aus einem bestimmten Fachgebiet arbeiten (z. B. Patentrecht) ist der wörterverzeichnisbasierte Vorannotator oder ein regelbasiertes Modell möglicherweise die bessere Wahl.
-
Wörterbuch
Verwendet ein Wörterverzeichnis mit Begriffen, die Sie angeben und einem Entitätstyp zuordnen, um Erwähnungen dieses Entitätstyps in den Dokumenten zu finden. Dies ist die beste Wahl für Fachgebiete mit eindeutiger oder spezialisierter Terminologie, da dieser Vorannotator den Kontext, in dem ein Begriff verwendet wird, nicht auf die gleiche Weise analysiert, wie ein Machine Learning-Vorannotator. Stattdessen wird vorausgesetzt, dass der Begriff eine eigenständige und erkennbare Bedeutung hat, und zwar unabhängig von dem Kontext, in dem er verwendet wird. Beispiel: Asbest lässt sich leichter einem Entitätstyp (z. B. mineralisches Material) zuordnen als der Begriff Squash, der ein Saftgetränk, eine Sportart oder ein Verb mit der Bedeutung 'zerdrücken' bezeichnen kann.
Vorannotatoren für Wörterverzeichnisse erkennen keine Entitätssubtypen. Annotatorbenutzer können Entitätssubtypen für jede vorannotierte Erwähnung angeben, indem eine Annotationstask mit dem vorannotierten Dokument verarbeitet wird.
-
Maschinelles Lernen
Verwendet ein Machine Learning-Modell, um Dokumente automatisch zu annotieren. Diese Option ist nur verfügbar, wenn Sie bereits ein Machine Learning-Modell mit Knowledge Studio erstellt haben. Wenn Sie eine Dokumentgruppe hinzufügen, können Sie den bereits erstellten Machine Learning-Annotator verwenden, um die neuen Dokumente zu annotieren. Wenn die neue Dokumentgruppe Ähnlichkeiten mit den Dokumenten aufweist, die ursprünglich zum Trainieren des Machine Learning-Annotators verwendet wurden, eignet sich dieser Annotator vermutlich am besten zum Vorannotieren.
-
Regel
Verwendet ein regelbasiertes Modell zum automatischen Annotieren von Dokumenten. Diese Option ist nur verfügbar, wenn Sie bereits ein regelbasiertes Modell mit Knowledge Studio erstellt haben. Wenn Ihre Dokumente häufig vorkommende Tokenmuster enthalten, aus der die Bedeutung abgeleitet werden kann, dann ist dieses Modell wahrscheinlich eine gute Wahl. Es kann einen Teil der Funktionalität des wörterverzeichnisbasierten Vorannotators einschließen, wenn Sie diese Funktionalität aktivieren, indem Sie Klassentypen für Begriffe im Wörterverzeichnis angeben, die im Dokument erkannt werden sollen.
Alternativ können sie bereits annotierte Dokumente hochladen und als Ausgangspunkt zum Trainieren des Machine Learning-Modells verwenden. Ein Vorannotator darf nicht auf annotierte Dokumente angewendet werden, die Sie hochladen. Andernfalls werden die vorhandenen Annotationen in den Dokumenten entfernt und durch die Annotationen des Vorannotators ersetzt.
Mehrere Vorannotatoren ausführen
Knowledge Studio ermöglicht es Ihnen, mehrere Vorannotatoren gleichzeitig auszuführen. Zunächst müssen Sie die Methoden für die Vorannotierung vorbereiten, die Sie verwenden möchten. Weitere Informationen finden Sie in den folgenden Abschnitten:
Reihenfolge der Vorannotatoren konfigurieren
Wenn mehrere Vorannotatoren verwendet werden, wird die erste Annotation an einem Textbereich für die Ergebnisse gespeichert, und zwar selbst dann, wenn andere Vorannotatoren versuchen, denselben Textbereich später in der Reihenfolge zu annotieren. Dies gilt nicht für Annotationen von Annotatorbenutzern, die unabhängig von der Reihenfolge der Vorannotationen beibehalten werden.
Betrachten Sie zum Beispiel den Beispieltext IBM Watson
. Wenn ein Wörterverzeichnis, das in der Reihenfolge ganz vorne ist, IBM
als Entitätstyp Organization
bezeichnet, kann ein Machine Learning-Modell,
das sich an zweiter Stelle in der Reihenfolge befindet, IBM Watson
nicht als Entitätstyp Software Brand
annotieren, da dadurch die zuvor an IBM
vorgenommene Annotation überschrieben werden würde.
Sie können die aktuelle Reihenfolge der Vorannotatoren in der Spalte Reihenfolge auf der Seite Machine Learning-Modell > Vorannotation anzeigen. Führen Sie die folgenden Schritte aus, um die Reihenfolge zu ändern.
- Klicken Sie auf Einstellungen für Reihenfolge.
- Klicken Sie auf die Pfeilschaltflächen** Nach oben und Nach unten, um die Methoden für die Vorannotation in der Reihenfolge entsprechend zu verschieben.
- Klicken Sie auf Speichern.
- Überprüfen Sie die Spalte Reihenfolge auf der Seite Voranotation, um sicherzustellen, dass sie der gewünschten Reihenfolge entspricht.
Vorannotatoren ausführen
- Nachdem Sie die Methoden für die Vorannotation vorbereitet und die Reihenfolge der Vorannotatoren konfiguriert haben, klicken Sie auf Vorannotatoren ausführen.
- Wählen Sie die Vorannotatoren aus, die Sie verwenden möchten, und klicken Sie anschließend auf Weiter.
- Wenn Sie vorhandene Annotationen, die von Vorannotatoren vor der Ausführung des Vorannotators erstellt wurden, löschen möchten, wählen Sie die Option zum Bereinigen von früheren Ergebnisse von Vorannationen aus. Annotationen von Annotatorbenutzern werden beibehalten, auch wenn diese Option aktiviert ist.
- Wählen Sie die Dokumentgruppen aus, die Sie vorab annotieren möchten.
- Klicken Sie auf Run.
Dokumente mit Natural Language Understanding vorannotieren
Sie können mit dem Service Natural Language Understanding Dokumente vorannotieren, die Sie zu Ihrem Korpus hinzufügen.
Vorbereitende Schritte
Stellen Sie fest, ob der Vorannotator für Natural Language Understanding in Ihrem Anwendungsfall von Nutzen sein kann. Prüfen Sie die Liste der vom Natural Language Understanding-Service unterstützten Entitätstypen und -subtypen, um festzustellen, ob sich diese Typen mit den Typen in Ihrem Typsystem überschneiden. Wenn dies zutrifft, fahren Sie mit der hier beschriebenen Prozedur fort. Ist dies nicht der Fall, verwenden Sie einen anderen Vorannotator.
Informationen zu dieser Task
Der Service Natural Language Understanding ermöglicht die Textanalyse durch die Verarbeitung natürlicher Sprache. Wenn Sie den Vorannotator für Natural Language Understanding verwenden, wird der Service Natural Language Understanding aufgerufen, um Entitäten in Ihren Dokumenten zu finden und zu annotieren.
Sie müssen die Entitätstypen angeben, die der Service suchen soll, indem Sie die Natural Language Understanding-Entitätstypen den entsprechenden Knowledge Studio-Entitätstypen zuordnen, die Sie zum Knowledge Studio-Typsystem hinzugefügt haben. Nur Erwähnungen der von Ihnen zugeordneten Entitätstypen werden gefunden und annotiert.
Prozedur
Führen Sie die folgenden Schritte aus, um den Service Natural Language Understanding zum Vorannotieren von Dokumenten zu verwenden:
-
Melden Sie sich als Knowledge Studio-Administrator an und wählen Sie Ihren Arbeitsbereich aus.
-
Rufen Sie die Seite Machine Learning-Modell > Vorannotation auf.
-
Klicken Sie in der Spalte 'Natural Language Understanding' auf die Schaltfläche für das Kontextmenü und anschließend auf Entitätstypen zuordnen.
- Die Dropdown-Liste der Entitätstypen von Natural Language Understanding wird vorab mit Entitätstypen gefüllt, die von dem Service Natural Language Understanding erkannt werden.
- Sie müssen mindestens einen Entitätstyp zuordnen.
- Sie dürfen keinen Entitätstyp von Natural Language Understanding einer Knowledge Studio-Entitätsrolle zuordnen. Nur Knowledge Studio-Entitätstypen können zugeordnet werden.
- Sie können mehr als einen Entitätstyp von Natural Language Understanding einem einzelnen Knowledge Studio-Entitätstyp zuordnen und umgekehrt. Beispielsweise sind die folgenden Zuordnungen zulässig:
Tabelle 1. Beispielzuordnung von Entitätstypen| Watson Knowledge Studio-Entitätstyp | Natural Language Understanding-Entitätstyp | | --- | --- | | INGENIEUR
WISSENSCHAFTLER | Person | | ORT | Stadt/Ort
Land | -
Nachdem alle Entitätstypen zugeordnet wurden, die Sie anwenden möchten, rufen Sie die Seite Machine Learning-Modell > Vorannotation auf. Klicken Sie auf Vorannotatoren ausführen.
-
Wählen Sie Natural Language Understanding aus und klicken Sie anschließend auf Weiter.
Der Annotator für Natural Language Understanding ist erst verfügbar, wenn Sie mindestens einen Entitätstyp zugeordnet haben.
-
Wählen Sie Vorherige Vorannotationsergebnisse bereinigen aus, um den Vorannotator auszuführen. Annotationen von Annotatorbenutzern werden beibehalten, auch wenn diese Option aktiviert ist.
-
Wählen Sie das Kontrollkästchen für jede Dokumentgruppe aus, die Sie vorannotieren möchten.
Wenn Sie diesen Vorannotator zum ersten Mal ausführen, prüfen Sie zunächst, dass der Vorannotator die Erwähnungen der zugeordneten Entitäten wie erwartet finden kann. Erstellen Sie eine Dokumentgruppe mit mindestens einem repräsentativen Dokument aus jeder eigenständigen Datenquelle.
-
Klicken Sie auf Run.
Wenn Sie eine Validierungsprüfung für den Vorannotator ausführen möchten, öffnen Sie die annotierten Dokumente und überprüfen Sie die hinzugefügten Annotationen. Vergewissern Sie sich, dass eine ausreichende Anzahl zutreffender Annotationen erstellt wurde. Wenn die Annotationen zutreffend sind, können Sie den Annotator erneut auf eine größere Menge von Dokumentgruppen oder auf umfangreichere Dokumentgruppen anwenden. Wenn die Annotationen nicht zutreffend sind, ziehen Sie in Betracht, Ihren Entitäten andere Entitätstypen von Natural Language Understanding zuzuordnen. Wenn die Typen keine natürlichen Überschneidungen aufweisen, dann ist der Vorannotator für Natural Language Understanding nicht die beste Wahl für Ihren Anwendungsfall.
Die Vorannotierung wird auf einzelne Dokumente angewendet, und zwar unabhängig davon, welchen Dokumentgruppen ein Dokument angehört. Ein Dokument, das Überschneidungen mit einer ausgewählten Dokumentgruppe und einer nicht ausgewählten Dokumentgruppe aufweist, wird in beiden Dokumentgruppen vorannotiert.
Ergebnisse
Die aus Dokumenten, die durch den Service Natural Language Understanding vorannotiert wurden, erstellte Ground Truth kann nicht sofort außerhalb von Knowledge Studio verwendet werden. Sie können die Ground Truth (in nicht lesbarer Form) herunterladen und von einem Knowledge Studio-Arbeitsbereich in einen anderen versetzen. Außerdem können Sie die Ground Truth weiter entwickeln und zum Erstellen eines Machine Learning-Modells oder eines regelbasierten Modells verwenden, das für die Verwendung durch Services außerhalb von Knowledge Studio bereitgestellt werden kann.
Dokumente, die mit Natural Language Understanding vorannotiert wurden, werden unkenntlich gemacht und in einem nicht lesbaren Format heruntergeladen. Dabei werden alle Annotationen in diesen Dokumenten unkenntlich gemacht, einschließlich der Annotationen, die von Annotatorbenutzern hinzugefügt wurden.
Zugehörige Informationen:
Dokumente mit einem Wörterverzeichnis vorannotieren
Als Hilfsmittel für die Annotationstasks der Annotatorbenutzer können Sie ein Wörterverzeichnis erstellen und zum Vorannotieren von Dokumenten verwenden, die Sie zum Korpus hinzufügen.
Informationen zu dieser Task
Wenn ein Annotatorbenutzer mit dem Bearbeiten vorannotierter Dokumente beginnt, ist häufig bereits eine Reihe von Erwähnungen gemäß den Einträgen im Wörterverzeichnis mit Entitätstypen markiert. Der Annotatorbenutzer kann die vorannotierten Entitätstypen ändern oder entfernen und Entitätstypen für nicht annotierte Erwähnungen zuordnen. Beim Vorannotieren mithilfe eines Wörterverzeichnisses werden keine Beziehungen oder Koreferenzen annotiert. Beziehungen und Koreferenzen müssen von Annotatorbenutzern annotiert werden.
In dieser Task wird gezeigt, wie ein bearbeitbares Wörterverzeichnis erstellt wird. Wenn Sie Dokumente hochladen und mit einem schreibgeschützten Wörterverzeichnis vorannotieren möchten, klicken Sie auf das Menü-Symbol neben der Schaltfläche Wörterverzeichnis hochladen und wählen Sie dann Wörterverzeichnis hochladen aus.
Prozedur
Führen Sie die folgenden Schritte aus, um ein bearbeitbares Wörterverzeichnis zu erstellen und Dokumente vorab zu annotieren:
-
Melden Sie sich als Knowledge Studio-Administrator an und wählen Sie Ihren Arbeitsbereich aus.
-
Wählen Sie die Seite Assets > Wörterverzeichnisse aus.
-
Klicken Sie auf Wörterverzeichnis erstellen, geben Sie einen Namen ein und klicken Sie anschließend auf Speichern.
-
Wählen Sie in der Liste Entitätstyp einen Entitätstyp aus, der dem Wörterverzeichnis zugeordnet werden soll.
Sie können dem Wörterverzeichnis auch über die Seite Machine Learning-Modell > Vorannotation einen Entitätstyp zuordnen. Klicken Sie auf der Seite in der Zeile 'Wörterverzeichnisse' auf die Schaltfläche für das Kontextmenü und anschließend auf Entitätstypen zuordnen.
-
Fügen Sie Einträge im Wörterverzeichnis hinzu oder laden Sie eine Datei mit Wörterverzeichniseinträgen hoch.
-
Rufen Sie die Seite Machine Learning-Modell > Vorannotation auf.
-
Klicken Sie auf Vorannotatoren ausführen.
-
Wählen Sie Wörterverzeichnisse aus und klicken Sie anschließend auf Weiter.
-
Wenn Sie vorhandene Annotationen, die von Vorannotatoren vor der Ausführung des Vorannotators erstellt wurden, löschen möchten, wählen Sie die Option zum Bereinigen von früheren Ergebnisse von Vorannationen aus. Annotationen von Annotatorbenutzern werden beibehalten, auch wenn diese Option aktiviert ist.
-
Wählen Sie das Kontrollkästchen für jede Dokumentgruppe aus, die Sie vorannotieren möchten, und klicken Sie auf Ausführen.
Die Vorannotierung wird auf einzelne Dokumente angewendet, und zwar unabhängig davon, welchen Dokumentgruppen oder Annotationsgruppen ein Dokument angehört. Ein Dokument, das Überschneidungen mit einer ausgewählten Dokumentgruppe und einer nicht ausgewählten Dokumentgruppe aufweist, wird in beiden Dokumentgruppen vorannotiert.
Zugehörige Informationen:
Dokumente mit dem Machine Learning-Modell vorannotieren
Sie können ein bestehendes Machine Learning-Modell zum Vorannotieren von Dokumenten verwenden, die Sie zum Korpus hinzufügen.
Informationen zu dieser Task
Nachdem etwa 10 bis 30 Dokumente annotiert wurden, kann ein Machine Learning-Modell anhand der resultierenden Daten trainiert werden. Ein solches minimal trainiertes Modell sollte nicht in einer Produktionsumgebung verwendet werden. Es kann jedoch dazu verwendet werden, Dokumente vorab zu annotieren, um die Bearbeitung weiterer Dokumente durch die Annotatorbenutzer zu beschleunigen. Wenn Sie zum Beispiel nach dem Trainieren des Machine Learning-Modells Dokumente zum Korpus hinzufügen, können Sie das Modell zum Vorannotieren der neuen Dokumentgruppen verwenden. Wenden Sie einen Vorannotator nicht auf Dokumente an, die von einem Annotatorbenutzer annotiert wurden. Vorannotatoren löschen die von Annotatorbenutzern hinzugefügten Annotationen.
Prozedur
So können Sie ein bestehendes Machine Learning-Modell zum Vorannotieren von Dokumenten verwenden:
-
Melden Sie sich als Knowledge Studio-Administrator an und wählen Sie Ihren Arbeitsbereich aus.
-
Rufen Sie die Seite Machine Learning-Modell > Vorannotation auf.
-
Klicken Sie auf Vorannotatoren ausführen.
-
Wählen Sie Machine Learning-Modell aus und klicken Sie anschließend auf Weiter.
-
Wenn Sie vorhandene Annotationen, die von Vorannotatoren vor der Ausführung des Vorannotators erstellt wurden, löschen möchten, wählen Sie die Option zum Bereinigen von früheren Ergebnisse von Vorannationen aus. Annotationen von Annotatorbenutzern werden beibehalten, auch wenn diese Option aktiviert ist.
-
Wählen Sie das Kontrollkästchen für jede Dokumentgruppe aus, die Sie vorannotieren möchten, und klicken Sie auf Ausführen.
Die Vorannotierung wird auf einzelne Dokumente angewendet, und zwar unabhängig davon, welchen Dokumentgruppen oder Annotationsgruppen ein Dokument angehört. Ein Dokument, das Überschneidungen mit einer ausgewählten Dokumentgruppe und einer nicht ausgewählten Dokumentgruppe aufweist, wird in beiden Dokumentgruppen vorannotiert.
Dokumente mit dem regelbasierten Modell vorannotieren
Sie können ein bestehendes regelbasiertes Modell zum Vorannotieren von Dokumenten verwenden, die Sie zum Korpus hinzufügen.
Prozedur
Führen Sie die folgenden Schritte aus, um das regelbasierte Modell zum Vorannotieren von Dokumenten zu verwenden:
-
Melden Sie sich als Knowledge Studio-Administrator an und wählen Sie Ihren Arbeitsbereich aus.
-
Rufen Sie die Seite Machine Learning-Modell > Vorannotation auf.
-
Klicken Sie in der Zeile für regelbasierte Modelle auf dieser Seite auf die Schaltfläche für das Kontextmenü und dann auf Entitätstypen und -klassen zuordnen, um die im Knowledge Studio-Typsystem definierten Entitätstypen mindestens einer Klasse im regelbasierten Modell zuzuordnen.
Sie können die Zuordnungsseite auch öffnen, indem Sie auf Regelbasiertes Modell > Versionen > Registerkarte Regelbasiertes Modell klicken.
-
Klicken Sie für jeden Entitätstyp, den Sie zuordnen möchten, auf Bearbeiten.
- Die Dropdown-Liste in der Spalte Klassenname wird vorab mit Klassen gefüllt, die dem regelbasierten Modell zugeordnet sind.
- Sie müssen mindestens einen Entitätstyp einer Klasse zuordnen.
-
Klicken Sie auf der Seite Machine Learning-Modell > Vorannotation auf Vorannotatoren ausführen.
Die Option 'Regelbasierten Modell' ist erst verfügbar, wenn Sie mindestens einen Entitätstyp einer Klasse zugeordnet haben.
-
Wenn Sie vorhandene Annotationen, die von Vorannotatoren vor der Ausführung des Vorannotators erstellt wurden, löschen möchten, wählen Sie die Option zum Bereinigen von früheren Ergebnisse von Vorannationen aus. Annotationen von Annotatorbenutzern werden beibehalten, auch wenn diese Option aktiviert ist.
-
Wählen Sie die Dokumentgruppen oder Annotationsgruppen aus, die Sie vorab annotieren möchten.
-
Klicken Sie auf Run.
Die Vorannotierung wird auf einzelne Dokumente angewendet, und zwar unabhängig davon, welchen Dokumentgruppen ein Dokument angehört. Ein Dokument, das Überschneidungen mit einer ausgewählten Dokumentgruppe und einer nicht ausgewählten Dokumentgruppe aufweist, wird in beiden Dokumentgruppen annotiert.
Vorannotierte Dokumente hochladen
Sie können das Trainieren Ihres Modells durch Hochladen von Dokumenten beschleunigen, die durch eine UIMA-Analyseengine vorannotiert wurden (UIMA = Unstructured Information Management Architecture).
Die vorannotierten Dokumente müssen das XMI-Serialisierungsformat der UIMA Common Analysis Structure (UIMA CAS XMI) aufweisen. Die ZIP-Datei, die Sie hochladen, muss die Deskriptordatei des UIMA-Typsystems enthalten und eine Datei zum Zuordnen der UIMA-Typen zu Entitätstypen in Ihrem Knowledge Studio-Typsystem.
UIMA CAS XMI ist ein Standardformat von Apache UIMA. Anleitungen zum Erstellen von Dateien im korrekten Format aus analysierten Datensammlungen in IBM Watson Explorer werden bereitgestellt. Wenn Sie eine andere Implementierung von Apache UIMA verwenden, passen Sie diese Anleitungen für Ihre Zwecke an. Unabhängig von der Vorgehensweise beim Erstellen der XMI-Dateien sind die Voraussetzungen für die Erstellung der Typsystemzuordnungsdatei und der ZIP-Datei gleich.
Wenn Sie die importierten Dokumente Annotatorbenutzern zuweisen, werden die Dokumente im Ground Truth-Editor vorannotiert und eine Reihe von Erwähnungen ist möglicherweise bereits annotiert. Der Annotatorbenutzer kann sich daher verstärkt auf das Anwenden der Annotationsrichtlinien auf nicht markierte Erwähnungen konzentrieren. Alternativ können Sie die Bearbeitung durch Annotatorbenutzer überspringen und die vorannotierten Dokumente sofort zum Trainieren und Auswerten eines Machine Learning-Modells verwenden.
Analysierte Dokumente aus Watson Explorer Content Analytics exportieren
Sie können Dokumente, die in IBM Watson Explorer Content Analytics durchsucht und analysiert wurden, exportieren und die analysierten Dokumente als XMI-Dateien in einen Knowledge Studio-Arbeitsbereich hochladen.
Prozedur
Führen Sie die folgenden Schritte aus, um analysierte Dokumente aus einer Watson Explorer Content Analytics-Dokumentsammlung abzurufen:
-
Öffnen Sie die Content Analytics-Administrationskonsole in einem Web-Browser.
-
Erweitern Sie in der Ansicht 'Sammlungen' die Sammlung, aus der Sie Dokumente exportieren möchten. Stellen Sie im Teilfenster 'Analysieren und indexieren' sicher, dass der Parsing- und Indexprozess aktiv ist und klicken Sie anschließend auf das Pfeilsymbol für Analysierten Dokumentinhalt und Metadaten exportieren.
-
Wählen Sie im Bereich Exportoptionen für analysierte Dokumente die Option Dokumente als XML-Dateien exportieren aus, wählen Sie das Kontrollkästchen CAS im XMI-Format exportieren aus, geben Sie den Ausgabepfad an, in den exportierte Daten geschrieben werden sollen, und klicken Sie auf OK.
-
Stoppen Sie die Parsing- und Indexservices für die Sammlung und führen Sie anschließend einen der folgenden Schritte aus:
- Wenn die Sammlung bereits indexierte Dokumente enthält, die Sie zum Trainieren des Machine Learning-Modells im Dokumentcache verwenden möchten, starten Sie die komplette Indexerstellung erneut.
- Wenn die Sammlung keine indexierten Dokumente enthält, die Sie zum Trainieren des Machine Learning-Modells verwenden möchten, laden Sie Dokumente hoch, konfigurieren Sie mindestens einen Crawler zum Durchsuchen der Dokumente und starten Sie den Crawler.
-
Überprüfen Sie im Bereich Exportieren den Status der Exportanforderung. Im Verarbeitungsfortschritt wird angegeben, wie viele Dokumente exportiert werden.
-
Wechseln Sie in den Ausgabeordner, den Sie beim Konfigurieren der Exportoptionen angegeben haben. Beim Exportieren von Dokumenten als XML-Dateien basiert der Name des Ausgabeordners auf der Zeitmarke des Exportvorgangs. Der Ausgabeordner enthält XMI-Dateien (
*.xmi
) und die Deskriptordatei des UIMA-Typsystems (exported_typesystem.xml
).
Nächste Schritte
Sie müssen eine Zuordnung zwischen den UIMA-Typen und Knowledge Studio-Entitätstypen definieren. Außerdem müssen Sie eine ZIP-Datei erstellen, die alle erforderlichen Dateien zum Hochladen der analysierten Daten in einen Knowledge Studio-Arbeitsbereich enthält.
Zugehörige Informationen:
Analysierte Sammlung aus Content Analytics Studio exportieren
Sie können eine Sammlung analysierter Dokumente aus Watson Explorer Content Analytics Studio exportieren und die analysierten Dokumente als XMI-Dateien in ein Knowledge Studio-Projekt hochladen.
Prozedur
Führen Sie die folgenden Schritte aus, um analysierte Dokumente aus einer Content Analytics Studio-Dokumentsammlung abzurufen:
- Starten Sie Content Analytics Studio und öffnen Sie das Studio-Projekt.
- Klicken Sie mit der rechten Maustaste auf einen Ordner, der Dokumente enthält, die Sie zum Trainieren eines Machine Learning-Modells verwenden möchten, und wählen Sie Sammlung analysieren aus.
- Wählen Sie eine UIMA-Pipelinekonfigurationsdatei aus.
- Wechseln Sie in die Analyseansicht für Dokumentsammlungen und klicken Sie auf das Symbol Speichern. Geben Sie den Ordner an, in den die gespeicherten Ergebnisse geschrieben werden sollen, und geben Sie den Dateinamen an.
- Öffnen Sie den Ordner, den Sie angegeben haben. Die Dateierweiterung für gespeicherte Dateien lautet
.annotations
. - Kopieren Sie die Datei
.annotations
in Ihr lokales Dateisystem und ändern Sie die Dateierweiterung.annotations
in.zip
. - Extrahieren Sie alle Dateien aus der ZIP-Datei. Der extrahierte Inhalt umfasst XMI-Dateien (
*.xmi
), die Deskriptordatei des UIMA-Typsystems (TypeSystem.xml
) und weitere Dateien.
Nächste Schritte
Sie müssen eine Zuordnung zwischen den UIMA-Typen und Knowledge Studio-Entitätstypen definieren. Außerdem müssen Sie eine ZIP-Datei erstellen, die alle erforderlichen Dateien zum Hochladen der analysierten Daten in einen Knowledge Studio-Arbeitsbereich enthält.
Entitätstypen den UIMA-Typen zuordnen
Vor dem Hochladen von XMI-Dateien in einen Knowledge Studio-Arbeitsbereich müssen Sie Zuordnungen zwischen den UIMA-Typen und Knowledge Studio-Entitätstypen definieren.
Vorbereitende Schritte
Das Typsystem in Ihrem Knowledge Studio-Arbeitsbereich muss die Entitätstypen enthalten, denen Sie die UIMA-Typen zuordnen möchten.
Prozedur
Führen Sie zum Zuordnen von UIMA-Typen zu Knowledge Studio-Entitätstypen die folgenden Schritte aus:
-
Erstellen Sie eine Datei mit dem Namen
cas2di.tsv
in dem Ordner, der die Deskriptordatei des UIMA-Typsystems enthält (z. B.exported_typesystem.xml
oderTypeSystem.xml
. -
Öffnen Sie die Datei
cas2di.tsv
in einem Texteditor. Jede Zeile in der Datei gibt eine einzelne Zuordnung an. Das Format der Zuordnung hängt davon ab, welche Annotationen des Annotators zugeordnet werden sollen:-
Sie können Zuordnungen mit dem folgenden Basisformat erstellen:
UIMA_Type_Name[TAB]WKS_Entity_Type
Im folgenden Beispiel werden Zuordnungen zwischen den vom Annotator für die Erkennung benannter Entitäten in Watson Explorer Content Analytics erstellten UIMA-Typen und Entitätstypen definiert, die in einem Knowledge Studio-Typsystem definiert sind:
com.ibm.langware.Organization ORGANIZATION com.ibm.langware.Person PERSON com.ibm.langware.Location LOCATION
In einem weiteren Beispiel wird eine Zuordnung zwischen den UIMA-Typen, die von einem mit Watson Explorer Content Analytics Studio erstellten angepassten Annotator definiert wurden, und Knowledge Studio-Entitätstypen definiert:
com.ibm.Person PERSON com.ibm.Date DATE
-
Sie können Zuordnungen auf der Basis von Facetten erstellen, die im Annotator für Pattern Matcher oder im Annotator für Wörterverzeichnissuche in Watson Explorer Content Analytics verwendet werden. In den Regeldateien der Textanalyse (
*.pat
) wird die Facette als Kategorieattribut dargestellt. Verwenden Sie die folgende Syntax, um eine Zuordnung zu definieren:com.ibm.takmi.nlp.annotation_type.ContiguousContext:category={FACET_PATH}[TAB]{WKS_ENTITY_TYPE}
Im folgenden Beispiel werden der Annotator für Pattern Matcher und der Annotator für Wörterverzeichnissuche verwendet und es wird eine Zuordnung zwischen der Kategorie '$.mykeyword.product' und dem Knowledge Studio-Entitätstyp PRODUKT definiert:
com.ibm.takmi.nlp.annotation_type.ContiguousContext:category=$.mykeyword.product PRODUCT
-
Nächste Schritte
Sie müssen eine ZIP-Datei erstellen, die alle Dateien enthält, die zum Hochladen der analysierten Daten in einen Knowledge Studio-Arbeitsbereich erforderlich sind.
Zugehörige Informationen:
UIMA CAS XMI-Dateien in einen Arbeitsbereich hochladen
Wenn Sie die vorannotierten Dokumente, die Sie heruntergeladen haben, zum Trainieren eines Modells verwenden möchten, müssen Sie eine ZIP-Datei erstellen, die alle erforderlichen Dateien zum Hochladen der XMI-Dateien enthält, und diese ZIP-Datei in einen Knowledge Studio-Arbeitsbereich hochladen.
Vorbereitende Schritte
Vergewissern Sie sich vor dem Hochladen der ZIP-Datei, dass das Typsystem in Ihrem Knowledge Studio-Arbeitsbereich die Entitätstypen enthält, denen Sie die UIMA-Typen zugeordnet haben.
UIMA-Analyseengines ermöglichen Annotationen über Satzgrenzen hinweg. In Knowledge Studio müssen die Annotationen innerhalb der Grenzen eines einzigen Satzes liegen. Wenn die XMI-Dateien, die Sie hochladen, Annotationen enthalten, die sich über mehrere Sätze erstrecken, werden diese Annotationen nicht im Ground Truth-Editor angezeigt.
Prozedur
Führen Sie die folgenden Schritte aus, um vorannotierte Dokumente in einen Knowledge Studio-Arbeitsbereich hochzuladen:
-
Erstellen Sie eine ZIP-Datei, die alle von Knowledge Studio benötigten Dateien enthält.
-
Wählen Sie einen Ordner aus, der die XMI-Dateien, die Deskriptordatei des UIMA-Typsystems und die Datei
cas2di.tsv
enthält, oder wählen Sie alle Dateien in dem Ordner aus. -
Erstellen Sie eine ZIP-Datei, die alle Dateien enthält. Stellen Sie sicher, dass die Datei
cas2di.tsv
und die Deskriptordatei des UIMA-Typsystems im Stammverzeichnis der ZIP-Datei abgelegt sind. Wenn diese Dateien in einem Unterordner der ZIP-Datei enthalten sind, können Sie von Knowledge Studio nicht gelesen werden, d. h. es wird nichts importiert.Unter Windows können Sie mit der rechten Maustaste klicken und Senden an > ZIP-komprimierter Ordner auswählen.
-
-
Laden Sie die ZIP-Datei in einen Knowledge Studio-Arbeitsbereich hoch.
- Melden Sie sich als Knowledge Studio-Administrator oder -Projektleiter an, öffnen Sie den Arbeitsbereich, zu dem Sie die Dokumente hinzufügen möchten, und öffnen Sie die Seite Assets > Dokumente.
- Klicken Sie auf Dokumentgruppen hochladen.
- Ziehen Sie die ZIP-Datei, die Sie erstellt haben, oder klicken Sie, um die Datei zu suchen und auszuwählen.
- Wählen Sie das Kontrollkästchen aus, um anzugeben, dass die ZIP-Datei UIMA CAS XMI-Dateien enthält.
- Klicken Sie auf Hochladen.