IBM Cloud Docs
Regelbasiertes Modell erstellen (experimentell)

Diese Dokumentation bezieht sich auf IBM Watson® Knowledge Studio on IBM Cloud®. Die Dokumentation für die Vorgängerversion von Knowledge Studio on IBM Marketplace kann über diesen Link aufgerufen werden.

Regelbasiertes Modell erstellen (experimentell)

In diesem Lernprogramm erfahren Sie, wie Sie ein regelbasiertes Modell erstellen können, mit dem Textmuster, die Sie definieren, in Dokumenten gefunden werden können.

Regelbasierte Modelle sind experimentell und nicht für die Verwendung in Bereitstellungen in Produktionsumgebungen vorgesehen. Die Unterstützung für die Modelle kann nach Ankündigung kurzfristig eingestellt werden.

Sie erstellen ein Modell, das in Dokumenten Text finden kann, der mit dem Muster month day, year übereinstimmt. Das erstellte Modell kann zum Beispiel die Datumsangabe 1. Mai 2010 finden. Bevor Sie das eigentliche Regelmuster definieren, erstellen Sie Artefakte zum Definieren des Musters. Dazu gehören eine Wörterverzeichnisklasse zum Erkennen der erwähnten Monate sowie eine Klasse für reguläre Ausdrücke zum Erkennen der erwähnten Jahre im Text.

Lernziele

Nach dem Durcharbeiten dieses Lernprogramms können Sie die folgenden Tasks ausführen:

  • Klassen erstellen
  • Dokumente zum Definieren von Regeln hinzufügen
  • Klassen für Wörterverzeichnisse zuordnen
  • Reguläre Ausdrücke zum Erfassen von Zeichenfolgen definieren
  • Regeln definieren

Das Durcharbeiten dieses Lernprogramms dauert ungefähr 30 Minuten. Wenn Sie weitere Konzepte im Zusammenhang mit diesem Lernprogramm erkunden, kann das Durcharbeiten länger dauern.

Vorbereitende Schritte

  • Vergewissern Sie sich, dass Sie einen unterstützten Browser verwenden. Weitere Informationen finden Sie unter Browseranforderungen.
  • Sie haben die Einführung in Knowledge Studio erfolgreich abgeschlossen. Sie umfasst das Erstellen eines Arbeitsbereichs, das Erstellen eines Typsystems und das Hinzufügen eines Wörterverzeichnisses.
  • Sie müssen über mindestens eine Benutzer-ID in der Rolle "Admin" oder "Projektleiter" verfügen. Informationen zu Benutzerrollen finden Sie in Benutzerrollen in Knowledge Studio.

Ergebnisse

Nachdem Sie das regelbasierte Modell erstellt haben, können Sie es auf eine der folgenden Arten verwenden, um Textmuster in Dokumenten zu finden:

Lerneinheit 1: Wörterverzeichnis der Monate hinzufügen

In dieser Lerneinheit erfahren Sie, wie Sie ein Wörterbuch zu einem Arbeitsbereich in Knowledge Studio hinzufügen. Das Wörterbuch enthält Begriffe, die sich auf die Monate des Jahres beziehen.

Informationen zu diesem Vorgang

In einer späteren Lerneinheit definieren Sie eine Klasse auf der Basis dieses Wörterverzeichnisses. Nach dem Erstellen dieser Klasse werden alle Begriffe aus dem Wörterverzeichnis, die in den Dokumenten gefunden werden, automatisch als Erwähnungen des Klassentyps annotiert. Weitere Informationen zu Wörterverzeichnissen finden Sie unter Wörterverzeichnisse zu einem Arbeitsbereich hinzufügen.

Vorgehensweise

  1. in herunterladen dictionary-items-month.csv Symbol für externen Link-Datei auf Ihrem Computer. Diese Datei enthält Wörterverzeichnisbegriffe im CSV-Format, die in ein Knowledge Studio-Wörterverzeichnis hochgeladen werden können.

  2. Klicken Sie auf Assets > Wörterverzeichnisse.

  3. Klicken Sie auf die Schaltfläche Wörterverzeichnis erstellen, um ein Wörterverzeichnis hinzuzufügen.

  4. Geben Sie in das Feld Name den Namen Month dictionary ein und klicken Sie auf Speichern, um das Wörterverzeichnis zu erstellen. Das neue Wörterverzeichnis wird erstellt und automatisch zum Bearbeiten geöffnet.

  5. Klicken Sie im Wörterverzeichnisfenster auf Hochladen.

  6. Wählen Sie die Datei dictionary-items-month.csv auf Ihrem Computer aus und klicken Sie auf Hochladen.

    Die Begriffe aus der Datei werden in das Wörterverzeichnis importiert.

Lerneinheit 2: Beispieldokumente hinzufügen

In dieser Lerneinheit erfahren Sie, wie Sie Dokumente mit linguistischen Mustern hinzufügen, die Regeltypen veranschaulichen, die Sie definieren möchten.

Informationen zu diesem Vorgang

Weitere Informationen zum Hinzufügen von Dokumenten finden Sie unter Dokumente zum Definieren von Regeln hinzufügen.

Vorgehensweise

  1. in herunterladen documents-new.csvSymbol für externen Link-Datei auf Ihrem Computer. Diese Datei enthält Beispieldokumente, die hochgeladen werden können.

  2. Klicken Sie auf Regelbasiertes Modell > Regeln.

  3. Klicken Sie auf das Symbol Dokument hinzufügen, das sich neben der Überschrift Dokumente befindet.

  4. Klicken Sie auf die Registerkarte CSV-Datei hochladen.

  5. Klicken Sie, um die Datei documents-new.csv zu lokalisieren und auszuwählen, die Sie zuvor in Ihren Computer heruntergeladen haben, und klicken Sie anschließend auf Hochladen.

    Auf der Hauptseite für Dokumente wird eine Dokumentgruppe angezeigt.

    Zeigt drei der 14 Dokumente an, die dem Regeleditor hinzugefügt wurden. Zeigt den Dokumenttitel und einen Auszug vom Anfang jedes Dokuments an. Neben jedem Dokument, das Sie zum Löschen des Dokuments verwenden können, wird ein Löschsymbol angezeigt.

Lerneinheit 3: Klassen erstellen

In dieser Lerneinheit erfahren Sie, wie Sie Klassen definieren, die Sie später zum Definieren einer Regel verwenden werden.

Informationen zu diesem Vorgang

Weitere Informationen zu Klassen finden Sie unter Regeln.

Vorgehensweise

  1. Klicken Sie auf der Seite Regeln für Ihren Arbeitsbereich auf das Symbol Klasse hinzufügen neben der Überschrift Klasse in der rechten Seitenleiste.

  2. Geben Sie DictMonth als Namen für die Klasse ein und klicken Sie anschließend auf Hinzufügen.

    Die neue Klasse wird in der Seitenleiste 'Klasse' angezeigt.

Lerneinheit 4: Klasse zu einem Wörterverzeichnis zuordnen

In dieser Lerneinheit erfahren Sie, wie ein Wörterverzeichnis im Regeleditor verwendet wird.

Vorgehensweise

  1. Klicken Sie auf Regelbasiertes Modell > Regeln und klicken Sie dann auf die Registerkarte Wörterverzeichnisse .

  2. Wählen Sie das Wörterverzeichnis der Monate aus, das Sie zuvor erstellt haben.

  3. Wählen Sie in der Liste Klasse den Eintrag DictMonth aus und klicken Sie anschließend auf Speichern.

    Die Klasse wird dem Wörterverzeichnis zugeordnet.

    Zeigt an, dass die Klasse 'DictMonth' dem Wörterverzeichnis 'Month' im Fenster 'Wörterverzeichnisse' der Regelseite zugeordnet ist.

Ergebnisse

In Dokumenten, die dem Regeleditor zugeordnet sind, werden alle Verweise auf Begriffe im Wörterverzeichnis als Erwähnungen der Klasse DictMonth annotiert. In der nächsten Einheit wird nachgewiesen, dass diese Verweise annotiert wurden.

Lerneinheit 5: Klassenannotationen in Dokumenten finden

In dieser Lerneinheit erfahren Sie, wie Klassenannotationen in Dokumenten im Regeleditor lokalisiert werden.

Vorgehensweise

  1. Wählen Sie Regelbasiertes Modell > Regeln aus.

  2. Lokalisieren Sie in der Ansicht 'Klasse' die Klasse DictMonth, die Sie zuvor definiert haben, und klicken Sie neben dieser Klasse auf Annotationen in Dokumenten suchen.

    Die Seite 'Annotationen suchen' wird angezeigt. Auf dieser Seite werden alle Dokumente angezeigt, die Textverweise auf Monate enthalten.

  3. Klicken Sie auf das Dokument Technology - computerworld.com, um das vollständige Dokument anzuzeigen. Beachten Sie, dass der Text February hervorgehoben ist, d. h. er wurde als Erwähnung der Klasse DictMonth annotiert.

Lerneinheit 6: Regulären Ausdruck definieren

In dieser Lerneinheit erfahren Sie, wie ein regulärer Ausdruck definiert wird.

Informationen zu diesem Vorgang

Sie definieren einen regulären Ausdruck, der Zeichenfolgemuster für Jahre (z. B. 2009) findet.

Weitere Informationen zum Definieren regulärer Ausdrücke finden Sie unter Regel definieren.

Vorgehensweise

  1. Klicken Sie auf der Seite Regeln auf das Symbol Klasse hinzufügen The "Add a class" icon neben Klasse in der rechten Anzeige.

  2. Geben Sie RegExpYear als Namen für die Klasse ein und klicken Sie anschließend auf Hinzufügen.

  3. Klicken Sie auf die Registerkarte RegEx und klicken Sie dann auf das Symbol Regulären Ausdruck erstellen neben der Überschrift Reguläre Ausdrücke.

  4. Klicken Sie auf Eintrag hinzufügen.

  5. Geben Sie den folgenden Ausdruck in das Feld Regulärer Ausdruck ein, der Jahre zwischen 1900 und 2099 findet:

    (?:(?:19|20)[0-9]{2})
    
  6. Geben Sie für Minimum für Worttokens den Wert 1 und für Maximum für Worttokens den Wert 1 an.

  7. Klicken Sie auf Hinzufügen, um den Eintrag mit dem regulären Ausdruck zu speichern.

  8. Geben Sie MyYearExp als Namen für den regulären Ausdruck an und wählen Sie anschließend im Menü Klasse die Klasse RegExpYear aus, die Sie zuvor definiert haben.

  9. Klicken Sie auf Speichern.

    Nachdem Sie den regulären Ausdruck gespeichert haben, wird er automatisch auf die Beispieldokumente angewendet. Alle Textzeichenfolgen, die dem Muster entsprechen, das Sie im regulären Ausdruck definiert haben, werden als Erwähnungen der Klasse RegExpYear annotiert.

  10. Um zu prüfen, ob der von Ihnen definierte Ausdruck die Zeitangaben korrekt erfasst, können Sie nach Erwähnungen suchen. Klicken Sie auf das Symbol Annotationen in Dokumenten suchen neben der Klasse RegExpYear in der Leiste 'Klasse'.

    Shows the hovering over the magnifying glass icon next to the "RegExpYear" class in the Class panel of the Rules page.

    Die Seite 'Annotationen suchen' wird angezeigt. Vorkommen der Erwähnungen von Jahresangaben in den Beispieldokumenten sind hervorgehoben.

    Zeigt acht Anmerkungen von Jahren, die in Auszügen aus den Beispieldokumenten hervorgehoben sind.

Lerneinheit 7: Regel definieren

In dieser Lerneinheit erfahren Sie, wie eine Regel definiert wird.

Informationen zu diesem Vorgang

Sie haben bereits einer wörterverzeichnisbasierte Klasse zum Annotieren der Erwähnungen von Monatsnamen erstellt. Außerdem haben Sie einen regulären Ausdruck definiert, um Zahlenwerte zu finden, die Jahreszahlen darstellen. Nun definieren Sie eine Regel, um eine Zeichenfolge mit Monat, Zahl, Komma und Jahr zu erfassen. Sie definieren eine Regel für Datumsausdrücke wie September 21, 2016.

Weitere Informationen zum Definieren von Regeln finden Sie unter Regel definieren.

Vorgehensweise

  1. Wählen Sie Regelbasiertes Modell > Regeln aus und öffnen Sie das Dokument Technology - computerworld.com.

  2. Wählen Sie im Dokument den Text February 3, 2009 aus. Stellen Sie sicher, dass auch das Komma ausgewählt ist.

    Shows the text "February 3, 2009" selected in the document.

  3. Klicken Sie auf das Symbol Regel hinzufügen.

    Im Regeleditor wird eine Darstellung des von Ihnen angegebenen Regelmusters angezeigt.

    Der Text February 3, 2009 ist sichtbar. Eine durchgezogene Linie zwischen den Zellen zeigt an, welche Zellen momentan Teil des Musters sind.

    • Die Klasse DictMonth ist Teil des Regelmusters (anstelle des Texts February). Diese Auswahl sollte bevorzugt verwendet werden, da das Modell jeden Monat, der mit der Klasse DictMonth annotiert ist, als erstes Token im Datumsmuster finden soll und nicht nur den Text February.
    • Am Ende der Regel ist das Jahr 2009 bereits als eine Erwähnung der Klasse RegExpYear annotiert. Die Klasse RegExpYear ist Teil des Regelmusters (anstelle der Zahl 2009). Diese Auswahl sollte ebenfalls bevorzugt werden, da das Modell jede Jahreszahl, die mit der Klasse RegExpYear annotiert ist, als letztes Token im Datumsmuster finden soll, und nicht nur die Zahl 2009.

    Die Zahl 3 und das darauf folgende Komma (,) werden als zweites und drittes Token im Muster angezeigt. Bei Verwendung des momentan definierten Musters findet das Modell nur Vorkommen von Datumsangaben, in denen der dritte Tag eines Monats angegeben ist. Das Modell soll jedoch Datumsangaben finden, die jeden beliebigen Tag des Monats enthalten.Im nächsten Schritt werden daher die Token-Einstellungen für den Tag geändert.

  4. Klicken Sie über der Zelle für den Tag (3) auf das Symbol Text, um die Featureeinstellungen für das Token zu öffnen.

    Zeigt den Benutzer an, der auf das Symbol für Textkomponenteneinstellungen klickt.

    Momentan ist die Regel so eingerichtet, dass der Text exakt mit der Zahl 3 übereinstimmen muss. Stattdessen soll jedoch eine beliebige Zahl als Übereinstimmung gefunden werden.

  5. Ändern Sie die Featureeinstellung, indem Sie Zeichentyp : Numerisch auswählen und anschließend Text : 3 abwählen.

    Shows the user clicking the "Character Type : Number" option as the feature setting for the "3" token.

    Sie haben die Definition für die Zelle mit der Zahl 3 geändert.

    Shows the cell that represents the "3" token now has a "Character Type" icon above it to indicate that any numeric value can match that token in the pattern.

    Das Symbol Zeichentyp gibt an, dass anstelle der Zahl 3 jede beliebige Nummer vorkommen kann.

  6. Lassen Sie die Einstellungen für das Komma-Token unverändert.

    Das dritte Token im Muster soll ein Komma sein, daher ist die aktuelle Featureeinstellung text : , korrekt. Neben der Featureeinstellung verfügt jedes Token über eine Wiederholungseinstellung. Die Wiederholungseinstellung gibt an, wie oft das Token im Text wiederholt werden darf, damit eine Übereinstimmung mit dem Muster erkannt wird. Die aktuelle Wiederholungseinstellung Erforderlich (genau 1) ist korrekt.

    Shows the repeat setting for the comma token which is set to "Exactly 1".

  7. Ordnen Sie eine Klasse zu, die das Muster DictMonth + numeric token + comma + RegExpYear repräsentiert.

    Beachten Sie die vier leeren Zellen für die vier Token, die Sie im Dokument ausgewählt haben. Wenn Sie alle Zellen auswählen möchten, wählen Sie die erste Zelle aus, drücken und halten Sie die Umschalttaste und klicken Sie nacheinander auf alle weiteren Zellen. Geben Sie RuleDate als Namen für die Klasse ein und klicken Sie anschließend auf den Namen, damit die neue Klasse erstellt wird.

    Shows that all four cells in the top row have been selected and the span is being defined as the "RuleDate" class.

  8. Geben Sie in das Feld Regelname die Zeichenfolge MyDateRule ein und klicken Sie auf Speichern.

    Nach dem Speichern wird die Regel automatisch auf die Beispieldokumente angewendet. Wenn das Dokument Technology - computerworld.com im Regeleditor noch geöffnet ist, können Sie erkennen, dass der Text February 3, 2009 im Dokument jetzt als Erwähnung der Klasse 'RegelDatum' annotiert ist.

    Shows text from the "Technology - computerworld.com" document with only the text "February 3, 2009" annotated as a mention of the "RuleDate" class.

    Sie können nach allen Vorkommen von RuleDate-Klassenerwähnungen in den Beispieldokumenten suchen, indem Sie in der Klassenanzeige auf das Symbol Anmerkung in Dokumenten suchen Eine Lupe zur Darstellung einer Suche neben der Klasse RuleDate klicken. Es hat sich in der Praxis bewährt, zu überprüfen, ob alle Datumsangaben korrekt erfasst werden, um sicherzustellen, dass das Muster korrekt definiert wurde.

    Shows the "Find Annotations" page with two documents that contain dates that match the rule pattern you just defined.

Lerneinheit 8: Regelbasiertes Modell erstellen

In dieser Lerneinheit erfahren Sie, wie ein regelbasiertes Modell erstellt wird.

Informationen zu diesem Vorgang

Weitere Informationen zum Erstellen eines regelbasierten Modells finden Sie unter Regelbasiertes Modell erstellen.

Vorgehensweise

  1. Wählen Sie Regelbasiertes Modell > Versionen aus und klicken Sie auf die Registerkarte Typzuordnung für regelbasiertes Modell.

  2. Ordnen Sie die Klasse RuleDate der Entität DATE aus dem Typsystem zu.

    1. Lokalisieren Sie die Entität DATE und klicken Sie auf Bearbeiten.

      Shows the user clicking Edit for the "DATE" entity type in the "Rule-based model type mapping" tab.

    2. Wählen Sie in der Liste die Klasse RuleDate aus und klicken Sie auf Speichern.

      Shows the user choosing the "RuleDate" class from the list.

  3. Gehen Sie wie folgt vor, um Dokumentgruppen oder Annotationsgruppen vorab mit dem regelbasierten Modell zu annotieren:

    • Klicken Sie auf der Seite Machine Learning-Modell > Vorannotation auf Vorannotatoren ausführen.
    • Wählen Sie Regelbasiertes Modell aus und klicken Sie anschließend auf Weiter.
    • Wählen Sie die Dokumentgruppe aus, die Sie zum Korpus hinzugefügt haben (documents-ml.csv) und klicken Sie auf Ausführen.

    Achtung: Wenden Sie das regelbasierte Modell nur als Vorannotator auf Dokumente an, die noch nicht von Annotatorbenutzern annotiert wurden.

Zusammenfassung des Lernprogramms

Beim Kennenlernen von Knowledge Studio haben Sie ein regelbasiertes Modell erstellt.

Absolvierte Lerneinheiten

Beim Durcharbeiten dieses Lernprogramms haben Sie die folgenden Konzepte kennengelernt:

  • Klassen
  • Reguläre Ausdrücke
  • Regeln