Diese Dokumentation bezieht sich auf IBM Watson® Knowledge Studio on IBM Cloud®. Die Dokumentation für die Vorgängerversion von Knowledge Studio on IBM Marketplace kann über diesen Link aufgerufen werden.
Regelbasiertes Modell erstellen (experimentell)
In diesem Lernprogramm erfahren Sie, wie Sie ein regelbasiertes Modell erstellen können, mit dem Textmuster, die Sie definieren, in Dokumenten gefunden werden können.
Regelbasierte Modelle sind experimentell und nicht für die Verwendung in Bereitstellungen in Produktionsumgebungen vorgesehen. Die Unterstützung für die Modelle kann nach Ankündigung kurzfristig eingestellt werden.
Sie erstellen ein Modell, das in Dokumenten Text finden kann, der mit dem Muster month day, year
übereinstimmt. Das erstellte Modell kann zum Beispiel die Datumsangabe 1. Mai 2010 finden. Bevor Sie das eigentliche Regelmuster
definieren, erstellen Sie Artefakte zum Definieren des Musters. Dazu gehören eine Wörterverzeichnisklasse zum Erkennen der erwähnten Monate sowie eine Klasse für reguläre Ausdrücke zum Erkennen der erwähnten Jahre im Text.
Lernziele
Nach dem Durcharbeiten dieses Lernprogramms können Sie die folgenden Tasks ausführen:
- Klassen erstellen
- Dokumente zum Definieren von Regeln hinzufügen
- Klassen für Wörterverzeichnisse zuordnen
- Reguläre Ausdrücke zum Erfassen von Zeichenfolgen definieren
- Regeln definieren
Das Durcharbeiten dieses Lernprogramms dauert ungefähr 30 Minuten. Wenn Sie weitere Konzepte im Zusammenhang mit diesem Lernprogramm erkunden, kann das Durcharbeiten länger dauern.
Vorbereitende Schritte
- Vergewissern Sie sich, dass Sie einen unterstützten Browser verwenden. Weitere Informationen finden Sie unter Browseranforderungen.
- Sie haben die Einführung in Knowledge Studio erfolgreich abgeschlossen. Sie umfasst das Erstellen eines Arbeitsbereichs, das Erstellen eines Typsystems und das Hinzufügen eines Wörterverzeichnisses.
- Sie müssen über mindestens eine Benutzer-ID in der Rolle "Admin" oder "Projektleiter" verfügen. Informationen zu Benutzerrollen finden Sie in Benutzerrollen in Knowledge Studio.
Ergebnisse
Nachdem Sie das regelbasierte Modell erstellt haben, können Sie es auf eine der folgenden Arten verwenden, um Textmuster in Dokumenten zu finden:
- Sie können Ihre Dokumente vorab annotieren, bevor Sie ein Machine Learning-Modell erstellen.
- Sie können das Modell bereitstellen oder exportieren, um es in anderen Watson-Services oder -Produkten zu verwenden.
Lerneinheit 1: Wörterverzeichnis der Monate hinzufügen
In dieser Lerneinheit erfahren Sie, wie Sie ein Wörterbuch zu einem Arbeitsbereich in Knowledge Studio hinzufügen. Das Wörterbuch enthält Begriffe, die sich auf die Monate des Jahres beziehen.
Informationen zu diesem Vorgang
In einer späteren Lerneinheit definieren Sie eine Klasse auf der Basis dieses Wörterverzeichnisses. Nach dem Erstellen dieser Klasse werden alle Begriffe aus dem Wörterverzeichnis, die in den Dokumenten gefunden werden, automatisch als Erwähnungen des Klassentyps annotiert. Weitere Informationen zu Wörterverzeichnissen finden Sie unter Wörterverzeichnisse zu einem Arbeitsbereich hinzufügen.
Vorgehensweise
-
in herunterladen
dictionary-items-month.csv
-Datei auf Ihrem Computer. Diese Datei enthält Wörterverzeichnisbegriffe im CSV-Format, die in ein Knowledge Studio-Wörterverzeichnis hochgeladen werden können.
-
Klicken Sie auf Assets > Wörterverzeichnisse.
-
Klicken Sie auf die Schaltfläche Wörterverzeichnis erstellen, um ein Wörterverzeichnis hinzuzufügen.
-
Geben Sie in das Feld Name den Namen
Month dictionary
ein und klicken Sie auf Speichern, um das Wörterverzeichnis zu erstellen. Das neue Wörterverzeichnis wird erstellt und automatisch zum Bearbeiten geöffnet. -
Klicken Sie im Wörterverzeichnisfenster auf Hochladen.
-
Wählen Sie die Datei
dictionary-items-month.csv
auf Ihrem Computer aus und klicken Sie auf Hochladen.Die Begriffe aus der Datei werden in das Wörterverzeichnis importiert.
Lerneinheit 2: Beispieldokumente hinzufügen
In dieser Lerneinheit erfahren Sie, wie Sie Dokumente mit linguistischen Mustern hinzufügen, die Regeltypen veranschaulichen, die Sie definieren möchten.
Informationen zu diesem Vorgang
Weitere Informationen zum Hinzufügen von Dokumenten finden Sie unter Dokumente zum Definieren von Regeln hinzufügen.
Vorgehensweise
-
in herunterladen
documents-new.csv
-Datei auf Ihrem Computer. Diese Datei enthält Beispieldokumente, die hochgeladen werden können.
-
Klicken Sie auf Regelbasiertes Modell > Regeln.
-
Klicken Sie auf das Symbol Dokument hinzufügen, das sich neben der Überschrift Dokumente befindet.
-
Klicken Sie auf die Registerkarte CSV-Datei hochladen.
-
Klicken Sie, um die Datei
documents-new.csv
zu lokalisieren und auszuwählen, die Sie zuvor in Ihren Computer heruntergeladen haben, und klicken Sie anschließend auf Hochladen.Auf der Hauptseite für Dokumente wird eine Dokumentgruppe angezeigt.
Lerneinheit 3: Klassen erstellen
In dieser Lerneinheit erfahren Sie, wie Sie Klassen definieren, die Sie später zum Definieren einer Regel verwenden werden.
Informationen zu diesem Vorgang
Weitere Informationen zu Klassen finden Sie unter Regeln.
Vorgehensweise
-
Klicken Sie auf der Seite Regeln für Ihren Arbeitsbereich auf das Symbol Klasse hinzufügen neben der Überschrift Klasse in der rechten Seitenleiste.
-
Geben Sie
DictMonth
als Namen für die Klasse ein und klicken Sie anschließend auf Hinzufügen.Die neue Klasse wird in der Seitenleiste 'Klasse' angezeigt.
Lerneinheit 4: Klasse zu einem Wörterverzeichnis zuordnen
In dieser Lerneinheit erfahren Sie, wie ein Wörterverzeichnis im Regeleditor verwendet wird.
Vorgehensweise
-
Klicken Sie auf Regelbasiertes Modell > Regeln und klicken Sie dann auf die Registerkarte Wörterverzeichnisse .
-
Wählen Sie das Wörterverzeichnis der Monate aus, das Sie zuvor erstellt haben.
-
Wählen Sie in der Liste Klasse den Eintrag
DictMonth
aus und klicken Sie anschließend auf Speichern.Die Klasse wird dem Wörterverzeichnis zugeordnet.
Ergebnisse
In Dokumenten, die dem Regeleditor zugeordnet sind, werden alle Verweise auf Begriffe im Wörterverzeichnis als Erwähnungen der Klasse DictMonth
annotiert. In der nächsten Einheit wird nachgewiesen, dass diese Verweise annotiert
wurden.
Lerneinheit 5: Klassenannotationen in Dokumenten finden
In dieser Lerneinheit erfahren Sie, wie Klassenannotationen in Dokumenten im Regeleditor lokalisiert werden.
Vorgehensweise
-
Wählen Sie Regelbasiertes Modell > Regeln aus.
-
Lokalisieren Sie in der Ansicht 'Klasse' die Klasse
DictMonth
, die Sie zuvor definiert haben, und klicken Sie neben dieser Klasse auf Annotationen in Dokumenten suchen.Die Seite 'Annotationen suchen' wird angezeigt. Auf dieser Seite werden alle Dokumente angezeigt, die Textverweise auf Monate enthalten.
-
Klicken Sie auf das Dokument
Technology - computerworld.com
, um das vollständige Dokument anzuzeigen. Beachten Sie, dass der TextFebruary
hervorgehoben ist, d. h. er wurde als Erwähnung der KlasseDictMonth
annotiert.
Lerneinheit 6: Regulären Ausdruck definieren
In dieser Lerneinheit erfahren Sie, wie ein regulärer Ausdruck definiert wird.
Informationen zu diesem Vorgang
Sie definieren einen regulären Ausdruck, der Zeichenfolgemuster für Jahre (z. B. 2009
) findet.
Weitere Informationen zum Definieren regulärer Ausdrücke finden Sie unter Regel definieren.
Vorgehensweise
-
Klicken Sie auf der Seite Regeln auf das Symbol Klasse hinzufügen
neben Klasse in der rechten Anzeige.
-
Geben Sie
RegExpYear
als Namen für die Klasse ein und klicken Sie anschließend auf Hinzufügen. -
Klicken Sie auf die Registerkarte RegEx und klicken Sie dann auf das Symbol Regulären Ausdruck erstellen neben der Überschrift Reguläre Ausdrücke.
-
Klicken Sie auf Eintrag hinzufügen.
-
Geben Sie den folgenden Ausdruck in das Feld Regulärer Ausdruck ein, der Jahre zwischen
1900
und2099
findet:(?:(?:19|20)[0-9]{2})
-
Geben Sie für Minimum für Worttokens den Wert
1
und für Maximum für Worttokens den Wert1
an. -
Klicken Sie auf Hinzufügen, um den Eintrag mit dem regulären Ausdruck zu speichern.
-
Geben Sie
MyYearExp
als Namen für den regulären Ausdruck an und wählen Sie anschließend im Menü Klasse die KlasseRegExpYear
aus, die Sie zuvor definiert haben. -
Klicken Sie auf Speichern.
Nachdem Sie den regulären Ausdruck gespeichert haben, wird er automatisch auf die Beispieldokumente angewendet. Alle Textzeichenfolgen, die dem Muster entsprechen, das Sie im regulären Ausdruck definiert haben, werden als Erwähnungen der Klasse
RegExpYear
annotiert. -
Um zu prüfen, ob der von Ihnen definierte Ausdruck die Zeitangaben korrekt erfasst, können Sie nach Erwähnungen suchen. Klicken Sie auf das Symbol Annotationen in Dokumenten suchen neben der Klasse
RegExpYear
in der Leiste 'Klasse'.Die Seite 'Annotationen suchen' wird angezeigt. Vorkommen der Erwähnungen von Jahresangaben in den Beispieldokumenten sind hervorgehoben.
Lerneinheit 7: Regel definieren
In dieser Lerneinheit erfahren Sie, wie eine Regel definiert wird.
Informationen zu diesem Vorgang
Sie haben bereits einer wörterverzeichnisbasierte Klasse zum Annotieren der Erwähnungen von Monatsnamen erstellt. Außerdem haben Sie einen regulären Ausdruck definiert, um Zahlenwerte zu finden, die Jahreszahlen darstellen. Nun definieren Sie eine Regel, um eine Zeichenfolge mit Monat, Zahl, Komma und Jahr zu erfassen. Sie definieren eine Regel für Datumsausdrücke wie September 21, 2016.
Weitere Informationen zum Definieren von Regeln finden Sie unter Regel definieren.
Vorgehensweise
-
Wählen Sie Regelbasiertes Modell > Regeln aus und öffnen Sie das Dokument
Technology - computerworld.com
. -
Wählen Sie im Dokument den Text
February 3, 2009
aus. Stellen Sie sicher, dass auch das Komma ausgewählt ist. -
Klicken Sie auf das Symbol Regel hinzufügen.
Im Regeleditor wird eine Darstellung des von Ihnen angegebenen Regelmusters angezeigt.
Der Text
February 3, 2009
ist sichtbar. Eine durchgezogene Linie zwischen den Zellen zeigt an, welche Zellen momentan Teil des Musters sind.- Die Klasse
DictMonth
ist Teil des Regelmusters (anstelle des TextsFebruary
). Diese Auswahl sollte bevorzugt verwendet werden, da das Modell jeden Monat, der mit der KlasseDictMonth
annotiert ist, als erstes Token im Datumsmuster finden soll und nicht nur den TextFebruary
. - Am Ende der Regel ist das Jahr
2009
bereits als eine Erwähnung der KlasseRegExpYear
annotiert. Die KlasseRegExpYear
ist Teil des Regelmusters (anstelle der Zahl 2009). Diese Auswahl sollte ebenfalls bevorzugt werden, da das Modell jede Jahreszahl, die mit der KlasseRegExpYear
annotiert ist, als letztes Token im Datumsmuster finden soll, und nicht nur die Zahl2009
.
Die Zahl 3 und das darauf folgende Komma (,) werden als zweites und drittes Token im Muster angezeigt. Bei Verwendung des momentan definierten Musters findet das Modell nur Vorkommen von Datumsangaben, in denen der dritte Tag eines Monats angegeben ist. Das Modell soll jedoch Datumsangaben finden, die jeden beliebigen Tag des Monats enthalten.Im nächsten Schritt werden daher die Token-Einstellungen für den Tag geändert.
- Die Klasse
-
Klicken Sie über der Zelle für den Tag (
3
) auf das Symbol Text, um die Featureeinstellungen für das Token zu öffnen.Momentan ist die Regel so eingerichtet, dass der Text exakt mit der Zahl
3
übereinstimmen muss. Stattdessen soll jedoch eine beliebige Zahl als Übereinstimmung gefunden werden. -
Ändern Sie die Featureeinstellung, indem Sie Zeichentyp : Numerisch auswählen und anschließend Text : 3 abwählen.
Sie haben die Definition für die Zelle mit der Zahl
3
geändert.Das Symbol Zeichentyp gibt an, dass anstelle der Zahl 3 jede beliebige Nummer vorkommen kann.
-
Lassen Sie die Einstellungen für das Komma-Token unverändert.
Das dritte Token im Muster soll ein Komma sein, daher ist die aktuelle Featureeinstellung text : , korrekt. Neben der Featureeinstellung verfügt jedes Token über eine Wiederholungseinstellung. Die Wiederholungseinstellung gibt an, wie oft das Token im Text wiederholt werden darf, damit eine Übereinstimmung mit dem Muster erkannt wird. Die aktuelle Wiederholungseinstellung Erforderlich (genau 1) ist korrekt.
-
Ordnen Sie eine Klasse zu, die das Muster
DictMonth + numeric token + comma + RegExpYear
repräsentiert.Beachten Sie die vier leeren Zellen für die vier Token, die Sie im Dokument ausgewählt haben. Wenn Sie alle Zellen auswählen möchten, wählen Sie die erste Zelle aus, drücken und halten Sie die Umschalttaste und klicken Sie nacheinander auf alle weiteren Zellen. Geben Sie
RuleDate
als Namen für die Klasse ein und klicken Sie anschließend auf den Namen, damit die neue Klasse erstellt wird. -
Geben Sie in das Feld Regelname die Zeichenfolge
MyDateRule
ein und klicken Sie auf Speichern.Nach dem Speichern wird die Regel automatisch auf die Beispieldokumente angewendet. Wenn das Dokument
Technology - computerworld.com
im Regeleditor noch geöffnet ist, können Sie erkennen, dass der TextFebruary 3, 2009
im Dokument jetzt als Erwähnung der Klasse 'RegelDatum' annotiert ist.Sie können nach allen Vorkommen von
RuleDate
-Klassenerwähnungen in den Beispieldokumenten suchen, indem Sie in der Klassenanzeige auf das Symbol Anmerkung in Dokumenten suchenneben der Klasse
RuleDate
klicken. Es hat sich in der Praxis bewährt, zu überprüfen, ob alle Datumsangaben korrekt erfasst werden, um sicherzustellen, dass das Muster korrekt definiert wurde.
Lerneinheit 8: Regelbasiertes Modell erstellen
In dieser Lerneinheit erfahren Sie, wie ein regelbasiertes Modell erstellt wird.
Informationen zu diesem Vorgang
Weitere Informationen zum Erstellen eines regelbasierten Modells finden Sie unter Regelbasiertes Modell erstellen.
Vorgehensweise
-
Wählen Sie Regelbasiertes Modell > Versionen aus und klicken Sie auf die Registerkarte Typzuordnung für regelbasiertes Modell.
-
Ordnen Sie die Klasse
RuleDate
der EntitätDATE
aus dem Typsystem zu.-
Lokalisieren Sie die Entität
DATE
und klicken Sie auf Bearbeiten. -
Wählen Sie in der Liste die Klasse
RuleDate
aus und klicken Sie auf Speichern.
-
-
Gehen Sie wie folgt vor, um Dokumentgruppen oder Annotationsgruppen vorab mit dem regelbasierten Modell zu annotieren:
- Klicken Sie auf der Seite Machine Learning-Modell > Vorannotation auf Vorannotatoren ausführen.
- Wählen Sie Regelbasiertes Modell aus und klicken Sie anschließend auf Weiter.
- Wählen Sie die Dokumentgruppe aus, die Sie zum Korpus hinzugefügt haben (
documents-ml.csv
) und klicken Sie auf Ausführen.
Achtung: Wenden Sie das regelbasierte Modell nur als Vorannotator auf Dokumente an, die noch nicht von Annotatorbenutzern annotiert wurden.
Zusammenfassung des Lernprogramms
Beim Kennenlernen von Knowledge Studio haben Sie ein regelbasiertes Modell erstellt.
Absolvierte Lerneinheiten
Beim Durcharbeiten dieses Lernprogramms haben Sie die folgenden Konzepte kennengelernt:
- Klassen
- Reguläre Ausdrücke
- Regeln