Diese Dokumentation bezieht sich auf IBM Watson® Knowledge Studio on IBM Cloud®. Die Dokumentation für die Vorgängerversion von Knowledge Studio on IBM Marketplace kann über diesen Link aufgerufen werden.
Regel definieren
Verwenden Sie den Regeleditor, um Regeln zu definieren.
Informationen zu diesem Vorgang
Vermeiden Sie die gleichzeitige Bearbeitung von Regeln, Klassen und regulären Ausdrücken durch mehrere Benutzer, da dies zu unerwarteten Überschreibungen oder Duplizierung führen kann.
Vorgehensweise
Führen Sie die folgenden Schritte aus, um eine Regel zu definieren:
-
Melden Sie sich als Knowledge Studio-Administrator oder -Projektleiter an und klicken Sie auf Regelbasiertes Modell > Regeln.
-
Klicken Sie auf das Pluszeichen (+) neben der Dokumentüberschrift, um ein Dokument hinzuzufügen.
Weitere Informationen finden Sie in Dokumente zum Definieren von Regeln hinzufügen.
Sie können beispielsweise ein Dokument mit dem Namen
My Document
hinzufügen, das die folgende einzelne Textzeile enthält:A 50-year-old driver was driving the 2017 Example Horizon.
-
Wenn Sie einen regulären Ausdruck definieren oder ein Wörterverzeichnis hinzufügen möchten, erstellen Sie eine Klasse, die dem Ausdruck oder dem Wörterverzeichnis zugeordnet werden soll.
-
Klicken Sie in der Anzeige Klasse auf das Pluszeichen (+) neben 'Klasse'.
-
Fügen Sie einen Klassennamen hinzu.
Wenn Sie die Klasse einem regulären Ausdruck oder einem Wörterverzeichnis zuordnen möchten, wählen Sie einen Klassennamen, aus dem der Ursprung der Klasse hervorgeht. Beispiel: Wenn Sie einen regulären Ausdruck verwenden möchten, um ein Muster für das in dem Beispielsatz erwähnte Alter zu definieren, können Sie Klasse mit dem Namen
AGE_REGEX
erstellen. Falls Sie ein Wörterverzeichnis verwenden möchten, um den Automobilhersteller in dem Satz zu annotieren, können Sie eine Klasse mit dem NamenMANUFACTURER_DICT
hinzufügen.Beachten Sie die folgenden Namenskonventionen:
- Das erste Zeichen in einem Klassennamen muss ein Buchstabe sein.
- Verwenden Sie nur die folgenden alphanumerischen ASCII-Zeichen und das Unterstreichungszeichen in Werten, die Sie zu den Klassen hinzufügen:
A
bisZ
,a
bisz
,0
bis9
. - Namen dürfen keine Leerzeichen enthalten.
- Namen dürfen nicht länger als 64 Zeichen sein.
-
-
Optional: Um das Annotieren von Klassen in einem Dokument zu beschleunigen, können Sie dem Regeleditor ein Wörterverzeichnis zuordnen. Begriffe in einem Dokument, die den Einträgen im Wörterverzeichnis entsprechen, werden automatisch mit der entsprechenden Klasse annotiert, die Sie für das Wörterverzeichnis auswählen.
-
Klicken Sie auf die Registerkarte Wörterverzeichnisse.
Alle Wörterverzeichnisse, die Sie erstellt haben, werden angezeigt.
Wenn Sie noch kein Wörterverzeichnis hinzugefügt haben, öffnen Sie die Seite Assets > Wörterverzeichnisse über die Hauptnavigationsleiste, um ein Wörterverzeichnis hinzuzufügen. Siehe Wörterverzeichnisse erstellen.
-
Klicken Sie auf ein Wörterverzeichnis, ordnen Sie dem Wörterverzeichnis eine Klasse zu und klicken Sie anschließend auf Speichern.
Wenn Sie zum Beispiel ein Wörterverzeichnis haben, das Organisationsnamen enthält, können Sie eine Regelklasse mit dem Namen
ORGANIZATION
erstellen und die Klasse dem Wörterverzeichnis zuordnen. Alle Organisationsnamen, die in Ihrem Beispieldokument vorkommen, werden als Instanzen der KlasseORGANIZATION
annotiert.
Wenn Sie die Wörterverzeichniszuordnung im Regeleditor später rückgängig machen möchten, können Sie die Klassenzuordnung entfernen. Wählen Sie dazu die leere Option oben in der Dropdown-Liste aus.
-
-
Optional: Wenn Sie einen regulären Ausdruck definieren möchten, um das Erstellen einer Regel zu vereinfachen, klicken Sie auf die Registerkarte RegEx.
-
Klicken Sie auf das Pluszeichen (+) neben der Überschrift 'Reguläre Ausdrücke'.
-
Ordnen Sie einen Namen für den regulären Ausdruck zu Zum Beispiel
MyAgeRegex
.Der Name darf nicht länger als 64 Zeichen sein.
-
Ordnen Sie den Ausdruck einer Klasse zu Zum Beispiel
AGE_REGEX
. -
Klicken Sie auf Eintrag hinzufügen.
-
Fügen Sie den Ausdruck hinzu.
Wenn Sie beispielsweise eine Zahl erfassen möchten, die eine Altersangabe (bis 99 Jahre) ist, können Sie
[0-9]{1,2}
angeben. Um Ausdrücke mit Zeitangaben wie 12:30 AM zu erfassen, können Sie den folgenden regulären Ausdruck angeben:(1[0-2]|0?[1-9]):([0-5][0-9])(\s+[AaPp][Mm])?
Optional können Sie die minimale und die maximale Anzahl der Worttokens ändern. In der englischen Sprache entspricht ein Token meist einem Wort, das in einem Satz durch Leerzeichen begrenzt wird. Token stimmen jedoch nicht immer eins-zu-eins mit Wörtern überein. In manchen Fällen werden andere Textelemente als Token eingestuft. Beispiel: Die Bindestriche im Begriff 50-Jahr-Feier zählen jeweils als Token. Dies bedeutet, dass die Gesamtzahl der in diesem Begriff verwendeten Token 5 beträgt. Der Text 12:30 Uhr enthält 4 Token. (
12 | : | 30 | PM
)Klicken Sie auf Hinzufügen.
-
Wiederholen Sie die beiden vorherigen Schritte, wenn Sie weitere Ausdrücke hinzufügen möchten.
-
Klicken Sie auf Speichern.
Der Editor für reguläre Ausdrücke wird geschlossen und das Dokument wird angezeigt. Sie sollten nun die Klasse sehen, die Sie für den regulären Ausdruck definiert haben, der auf den entsprechenden Text angewendet werden soll. Wenn die Annotation nicht angezeigt wird, überprüfen Sie Ihren Ausdruck. Der Ausdruck muss gegebenenfalls so angepasst werden, dass er mit dem Text übereinstimmt, den Sie finden möchten.
-
-
Wenn Sie eine Regel definieren möchten, klicken Sie im Navigationsbereich auf Regeln.
-
Öffnen Sie das Dokument mit dem Muster, das Sie durch eine Regel erfassen möchten. Wenn Sie zum Beispiel ein Dokument namens
My Document
mit dem Beispieltext, der den Ausdruck50-year-old
enthält, erstellt haben, öffnen Sie das Dokument. -
Wählen Sie im Text des Dokuments die Zeichen aus, die das Muster darstellen, das Sie erfassen möchten. Sie können zum Beispiel die beiden folgenden Wörter mit dem Bindestrich dazwischen auswählen:
50-year-old
Nachdem Sie die gewünschten Zeichen ausgewählt haben, können Sie eine Regel hinzufügen.
-
Klicken Sie auf das Pluszeichen (+) in der Anzeige Regeln.
Der Regeleditor stellt den von Ihnen ausgewählten Text durch zwei Ebenen mit Zellen dar. In den Zellen der oberen Ebene können Sie die Klassen der zugrunde liegenden Tokens annotieren. In der unteren Ebene definieren Sie die Bedingungen für die Beteiligung der Tokens an dem Muster.
, "Jahr", "-" und "alt". Neben jeder durchgezogenen Zelle befinden sich zwei Symbole, mit denen Sie die Bedingung des Wortes oder der Anmerkung anpassen können.")
-
Definieren Sie die Bedingungen, die für die Beteiligung des Tokens an dem Muster gelten.
Klicken Sie in der unteren Zellenebene auf das erste Token, um die zugehörigen Bedingungen zu überprüfen. Wenn Sie angeben möchten, dass jedes Token an der aktuellen Position im Muster verwendet werden kann, klicken Sie auf Eigenschaften öffnen und wählen Sie Jedes Token zulassen aus. Klicken Sie auf Eigenschaften schließen. Wenn ein Token ein regulärer Ausdruck ist (wie AGE_REGEX
im vorliegenden Beispiel) steht die Option Jedes Token zulassen nicht zur Verfügung.
Die maximale Anzahl der Gruppenzellen, die an einem Muster beteiligt sein können, beträgt 15, wenn die Wiederholungseinstellung für jede Zelle kleiner-gleich 1 ist. Gruppenzellen schließen einzelne Tokens sowie Annotationen oder Tokens ein, für die jedes beliebige Token zulässig ist. Die maximale Anzahl der in einem Muster zulässigen Gesamtzahl von Token beträgt 20. Berücksichtigen Sie beim Definieren des Musters die Wiederholungseinstellung für jede Zelle. Sie können zum Beispiel ein Muster definieren, das 15 Tokens enthält, wenn die Wiederholungseinstellung für jede Zelle kleiner-gleich 1 ist. Sie können jedoch maximal 4 Tokens in dem Muster definieren, wenn die Wiederholungseinstellung für jede Zelle definieren, wenn die Wiederholungseinstellung jeweils größer-gleich 1 ist, da das Token für jede Zelle bis zu fünf Mal wiederholt werden kann. Vier Tokens, die fünfmal wiederholt werden, ergeben den zulässigen Maximalwert 20.
Um anzugeben, dass ein bestimmter Tokentyp erforderlich ist, können Sie die folgenden Typen von Bedingungseinstellungen definieren:
-
Wiederholungseinstellung: Gibt an, wie oft das aktuelle Token in dem Muster enthalten sein muss. Die Wiederholungseinstellung kann geändert werden; für jedes Token darf jedoch nur eine einzige Wiederholungseinstellung angegeben werden. Die Optionen sind in der folgenden Tabelle beschrieben.
Tabelle 1. Wiederkehrende Einstellungen | Einstellungsoption | Beschreibung | | --- | --- | | Erforderlich (Genau 1) | Dieses Token muss im Muster einmal vorhanden sein. Diese Option wird standardmäßig angewendet, kann aber geändert werden. | | Mindestens einmal wiederholen | Dieses Token muss mindestens einmal im Muster vorhanden sein und kann mehrmals wiederholt werden. | | 0 oder mehr Wiederholungen | Dieses Token kann im Muster optional mehrfach wiederholt werden, muss aber nicht wiederholt werden. | | Tritt 0 oder 1 Mal auf | Dieses Token ist optional. | | Erweitert: Benutzerdefiniert | Dieses Token muss im Muster so oft wie hier angegeben wiederholt werden. Klicken Sie zum Definieren einer benutzerdefinierten Wiederholungseinstellung auf Eigenschaften öffnen, wählen Sie Erweitert aus, und wählen Sie dann die genaue Anzahl der Wiederholungen oder den Bereich der Wiederholungen aus, die Sie definieren möchten. Die maximal zulässige Anzahl von Wiederholungen für ein Token ist 5. |
-
Featureeinstellung: Mindestens eine der Featureeinstellungen muss definiert werden. Sie können weitere Features hinzufügen, um die Anzahl der Bedingungen hinzuzufügen, die erfüllt werden müssen, damit Text mit diesem Muster übereinstimmt. Die Optionen sind in der folgenden Tabelle beschrieben.
Tabelle 2. Funktionseinstellungen| Einstellungsoption | Bedingung, die hinzugefügt wird | | --- | --- | | Text | Muss genau mit dem Text in diesem Token übereinstimmen. Diese Option wird standardmäßig angewendet. Sie können es entfernen, aber nur, wenn Sie eine andere Einstellung als Bedingung hinzufügen oder die Einstellung 'Beliebiges Token' anwenden. | Länge | Muss mit der Zeichenlänge dieses Tokens übereinstimmen. Die Länge wird ab 0 vor dem ersten Zeichen gezählt. |
Die übrigen Optionen variieren je nach Typ des Tokens.
-
Nicht annotiertes Token, das keinem regulären Ausdruck oder Wörterverzeichnisbegriff entspricht: Diese Einstellungen sind für Tokens verfügbar, die nicht annotiert sind und keinem Begriff aus einem regulären Ausdruck oder Wörterverzeichnis entsprechen.
Tabelle 3. Einstellungen für nicht annotierte Tokens| Einstellungsoption | Beschreibung | | --- | --- | | Part of Speech | Muss mit diesem Token identisch sein. Folgende Typen werden unterstützt:
- Adjektiv
- Adposition
- Adverb
- Konjunktion
- Determinator
- Interjektion
- Nomen
- Numeral
- Pronomen
- Residuum
- Verb
- Arabisch: Enthält eine Zeichenfolge mit arabischen Zeichen.
- ChinesischeZahl: Enthält nur chinesische Ziffern.
- Satzendezeichen: Interpunktionszeichen, die einen Teilsatz oder Satz vom nächsten trennen.
- Han: Enthält Han-Zeichen.
- Hangul: Enthält koreanische Hangul-Silbenzeichen.
- Hebräisch: Enthält eine Zeichenfolge mit hebräischen Zeichen.
- Hiragana: Enthält japanische Hiragana-Silbenzeichen.
- Ideografisch: Enthält ein Ideogramm oder Symbol, das eine Idee oder ein Ding darstellt.
- Katakana: Enthält japanische Katakana-Silbenzeichen.
- Kleinbuchstaben: Enthält nur alphabetische Zeichen in Kleinschreibung.
- Ziffern: Enthält nur numerische Zeichen.
- Interpunktion: Ein oder mehrere Interpunktionszeichen für Text.
- Silben: Enthält Silbenzeichen.
- Thailändisch: Enthält thailändische Zeichen
- Überschrift: Beginnt mit einem einzelnen Großbuchstaben, gefolgt von einem oder mehreren Kleinbuchstaben.
- Großschreibung: Ein Token, das nur Großbuchstaben enthält |
-
Regelabgleich:
Tabelle 4. Regelabgleich| Einstellungsoption | Beschreibung | | --- | --- | | Regelübereinstimmung | Muss der benannten Klasse entsprechen. Beachten Sie, dass eine Klasse aus einem regulären Ausdruck, einem Wörterverzeichnis oder einer Regel abgeleitet werden kann. Wenn die hier angegebene Klasse beispielsweise aus einem regulären Ausdruck abgeleitet wurde, muss dieses Token dem Suchmuster des Ausdrucks entsprechen. |
- Für Token mit Annotationen, die indirekt über eine Wörterverzeichnisannotation oder einen übereinstimmenden regulären Ausdruck hinzugefügt wurden, können Sie auswählen, ob das Muster ein Wort mit demselben Annotationstyp oder den konkreten zugrunde liegenden Wörtern erfordert, die stattdessen annotiert wurden.
In der unteren Zellenebene wird angezeigt, welche Zellen in das Muster einbezogen werden. Die betreffenden Zellen sind durch eine horizontale Linie verbunden. Wenn eine Annotation angewendet wurde, ist eine Teilung zu sehen. Zellen mit den ursprünglichen Wörtern werden unter eine Zelle mit der Annotationsbezeichnung angezeigt. Durch Klicken auf die eine oder die andere Zellengruppe können Sie den Linienverlauf ändern und damit auch die Zellen, die in das Muster einbezogen werden.
Sie können beispielsweise angeben, dass im Muster das Token '50' enthalten sein soll, anstatt einer Übereinstimmung mit dem regulären Ausdruck für das Alter.
- Nachdem Sie die Musterreihenfolge festgelegt haben, können Sie Token im Text annotieren.
Klicken Sie in der oberen Zellenebene auf die Zellen für die Token, die Sie annotieren möchten, und wenden Sie anschließend ein Klassenbezeichnung darauf an. Wenn Sie mehrere Zellen auswählen möchten, klicken Sie auf eine Zelle, drücken Sie die Umschalttaste und klicken Sie danach auf weitere Zellen.
Ordnen Sie der bzw. den ausgewählte(n) Zelle(n) eine Klasse zu. Wenn die gewünschte Klasse nicht vorhanden ist, können Sie sie hinzufügen. Geben Sie den Namen der Klasse in das Feld Klasse zuordnen ein und drücken Sie die Eingabetaste.
Es ist nicht möglich, mehr als 10 Klassen für die Regel hinzuzufügen.
- Ordnen Sie einen Namen für die Regel zu.
Der Regelname darf nicht länger als 64 Zeichen sein.
- Klicken Sie in der Anzeige 'Regeln' auf Speichern, um die Regel zu speichern.