IBM Cloud Docs
Benutzerdefinierte Annotatoren erstellen

Benutzerdefinierte Annotatoren erstellen

Sie können ein Wörterverzeichnis, einen regulären Ausdruck oder einen Annotator für maschinelles Lernen erstellen, um neue Facetten zu generieren, mit denen Sie Ihre Daten analysieren können.

Halten Sie die folgenden Daten bereit, bevor Sie beginnen.

Vorausgesetzte Daten für benutzerdefinierte Annotatoren
Annotatortyp Beschreibung Daten
Wörterverzeichnis Ordnet Begriffe, die mit Wörterverzeichniseinträgen übereinstimmen, die Sie definieren oder hochladen, Facetten zu Sie können optional eine Datei mit Wörterverzeichnisbegriffen hochladen.
Maschinelles Lernen Weist Erwähnungen, die von einem Modell für maschinelles Lernen erkannt werden, das Sie hochladen, Facetten zu. Eine komprimierte Datei eines Machine Learning-Modells ist erforderlich.
Regulärer Ausdruck Weist Text, der mit Java-Mustern für reguläre Ausdrücke übereinstimmt, die Sie definieren oder hochladen, Facetten zu. Sie können optional eine JSON-Datei hochladen, die Muster für reguläre Ausdrücke enthält.

Um einen benutzerdefinierten Annotator zu erstellen, führen Sie die folgenden Schritte aus:

  1. Klicken Sie in der Analyseansicht Ihrer Objektgruppe auf den Link Objektgruppen im Hauptlink, um die Seite Objektgruppe für Ihre Analyselösungen erstellen der Content-Mining-Anwendung zu öffnen.

  2. Klicken Sie zum Erstellen eines Annotators auf collection und wählen Sie dann custom annotator aus der Liste aus.

    Shows the collection menu
    Collection menu

  3. Klicken Sie auf "Benutzerdefinierten Annotator erstellen ".

  4. Geben Sie Ihrem Kommentator einen Namen und fügen Sie optional eine Beschreibung hinzu.

  5. Wählen Sie den Annotatortyp aus und klicken Sie anschließend auf Weiter.

  6. Befolgen Sie die Anweisungen auf dem Bildschirm.

    Weitere Informationen zum Konfigurieren der einzelnen Annotatortypen finden Sie in den folgenden Abschnitten:

Wörterbuchkonfiguration

Sie können ein vorhandenes Wörterverzeichnis importieren, indem Sie es hochladen, oder Sie können ein Wörterverzeichnis erstellen, indem Sie Begriffe nacheinander hinzufügen.

Wenn Sie ein Wörterverzeichnis importieren möchten, müssen die Wörterverzeichnisbegriffe in einer CSV-Datei definiert sein. Geben Sie jeden Begriff und seine Synonyme in einer separaten Zeile an. Verwenden Sie die folgende Syntax, um jeden Begriff anzugeben:

{term},{synonym},{synonym},...

Um ein Wörterbuch hinzuzufügen, führen Sie die folgenden Schritte aus:

  1. Führen Sie eine der folgenden Aktionen aus:

    • So importieren Sie die Wörterverzeichnisbegriffe:

      1. Klicken Sie auf Importieren und suchen Sie dann nach der Datei mit Ihren Wörterverzeichnisbegriffen.
      2. Klicken Sie auf Importieren.
    • So definieren Sie die Begriffe im Wörterverzeichnis:

      1. Klicken Sie auf Hinzufügen.
      2. Klicken Sie auf Wortliste, um die Wörterbuchbegriffe hinzuzufügen.
      3. Klicken Sie auf Hinzufügen und fügen Sie dann den Begriff im Feld Basiswort und alle Synonyme, die Sie für den Begriff definieren möchten, im Feld Andere Wörter hinzu. Mehrere Synonyme durch Kommas trennen. Klicken Sie auf OK.
      4. Wiederholen Sie den vorherigen Schritt, um weitere Wörterbuchbegriffe hinzuzufügen.
      5. Klicken Sie nach dem Hinzufügen von Wörterverzeichnisbegriffen auf Basiseinstellungen.
  2. Benennen Sie das Wörterverzeichnis.

  3. Wenn Sie Begriffe mit einer anderen Wortart als einem Nomen definieren möchten, geben Sie die Wortart an.

    Wenn die ausgewählte Sprache Chinesisch, Japanisch, Koreanisch oder Hebräisch ist, können Sie nur Nomen als Wortart angeben.

  4. Entscheiden Sie, wie der Fall behandelt werden soll.

    Wenn die Groß-/Kleinschreibung ignoriert wird, werden die Begriffe Sat, SAT und sat als Vorkommen des Wörterverzeichnisbegriffs Sat bezeichnet.

    Wenn Sie das Kontrollkästchen Groß-/Kleinschreibung ignorieren abwählen, um ein Wörterverzeichnis mit Beachtung der Groß-/Kleinschreibung zu erstellen, wird die Oberflächenform des Begriffs mit Übereinstimmung in Großbuchstaben verwendet. Anmerkungen werden für den Begriff genau wie geschrieben hinzugefügt und für Variationen des Begriffs, in dem die Buchstaben in Großbuchstaben geschrieben sind.

    Ein Eintrag sat im Wörterverzeichnis führt beispielsweise zu Annotationen für Erwähnungen sat, Sat oder SAT, wenn sie im Text vorkommen. Für einen Eintrag Sat im Wörterverzeichnis werden Annotationen für Vorkommen von Sat und SAT hinzugefügt, jedoch nicht für sat.

  5. Geben Sie den Facettennamen an, der für dieses Wörterverzeichnis verwendet wird.

    Der Facettenname, den Sie für den Annotator angeben, ist der Facettenname, der in der Sicht für die Objektgruppensuche angezeigt wird.

    Sie können eine hierarchische Facette erstellen, indem Sie einen Punkt (.) in den Facettennamen einschließen. Sie können beispielsweise ein Wörterverzeichnis mit dem Facettenpfad Food.Vegetables und andere mit den Facettenpfaden Food.Fruits und Food.Proteins erstellen. Fügen Sie weitere Facettengruppen mit mehr Zeiträumen hinzu. Sie können beispielsweise Food.Proteins.Nuts und Food.Proteins.Meats hinzufügen, um Proteine noch weiter zu kategorisieren.

    Zeigt, wie man ein Wörterbuch hinzufügt*
    eines

  6. Wenn Dokumente, die für eine Unterfacette zurückgegeben werden, eingeschlossen werden sollen, wenn ein Benutzer nach der Stammfacette filtert, wählen Sie Wörter anheben aus.

    Sie können beispielsweise Wörter nach oben heben für Food.Fruits und Food.Proteins aktivieren, aber nicht Food.Vegetables. Wenn ein Benutzer auf die Fassette 'Food 'klickt, enthalten die zurückgegebenen Dokumente Dokumente, in denen Begriffe erwähnt werden, die in den Wörterverzeichnissen' Fruits 'und 'Meats' enthalten sind, z. B. apples und beef.

    Zeigt, dass Dokumente mit allen Begriffen mit Ausnahme derjenigen im Vegetables-Wörterbuch zurückgegeben werden, wenn die Facette 'Essen ' ausgewählt ist.
    Dictionary enrichment application

    Ein Benutzer muss jedoch explizit auf die Facette Lebensmittel > Gemüse klicken, um Dokumente abzurufen, in denen Begriffe im Vegetables-Wörterbuch erwähnt werden (z. B. Salat), die zurückgegeben werden sollen.

    Zeigt an, dass nur Dokumente, die Gemüse erwähnen, zurückgegeben werden, wenn die Facette 'Gemüse ' ausgewählt ist.
    Subfacets

  7. Wiederholen Sie die vorherigen Schritte, um weitere Wörterverzeichnisse hinzuzufügen.

  8. Klicken Sie auf Speichern.

Auf der Seite für benutzerdefinierte Annotatoren werden Wörterverzeichnisse angezeigt, die in anderen Projekten erstellt wurden, einschließlich Projekten, die keine Content-Mining-Projekte sind. Wörterverzeichnisse aus anderen Projekttypen zeigen den Namen der Aufbereitung als Annotatornamen an. Die Einstellungen Groß-/Kleinschreibung ignorieren und Wörter anheben sind inaktiviert und das Wörterverzeichnis heißt custom dict.

Grenzwerte für Wörterbücher

Grenzwerte für Wörterbuchpläne
Planen Anzahl der Wörterverzeichnisse pro Serviceinstanz Anzahl der Basiswörter pro Wörterverzeichnis Anzahl der Begriffe, für die Vorschläge generiert werden können
Cloud Pak for Data Uneingeschränkt Uneingeschränkt 1000
Premium 200 10.000 1000
Enterprise 200 10.000 1000

Die Summen enthalten Aufbereitungen, die Sie in diesem Content-Mining-Projekt und in anderen Projekten in derselben Serviceinstanz erstellen.

Konfiguration für maschinelles Lernen

Sie können ein vorhandenes Modell für maschinelles Lernen importieren.

Informationen zur Verwendung von Discovery zum Erstellen eines Modells finden Sie unter Entitätsextraktionsprogramm.

Um ein Modell zu importieren, führen Sie die folgenden Schritte aus:

  1. Klicken Sie auf Datei auswählen und suchen Sie dann nach der Modelldatei für maschinelles Lernen.

  2. Geben Sie im Feld Facettenpfad den Namen der Stammfacette an, die für das Modell verwendet wird.

    Der Facettenname, den Sie für den Annotator angeben, ist der Facettenname, der in der Sicht für die Objektgruppensuche angezeigt wird.

  3. Klicken Sie auf Speichern.

Grenzwerte für Machine Learning-Modelle

Grenzwerte für ML-Modellpläne
Planen ML-Modelle pro Serviceinstanz
Cloud Pak for Data Uneingeschränkt
Premium 10
Enterprise 10

Die Summen enthalten Aufbereitungen, die Sie in diesem Content-Mining-Projekt und in anderen Projekten in derselben Serviceinstanz erstellen.

Konfiguration regulärer Ausdrücke

Sie können vorhandene Muster importieren, indem Sie sie in eine JSON-Datei hochladen, oder Muster hinzufügen.

Um Muster hinzuzufügen, führen Sie die folgenden Schritte aus:

  1. Fügen Sie das Muster für reguläre Ausdrücke zum Feld Neues Muster hinzu und klicken Sie anschließend auf Hinzufügen.

  2. Geben Sie einen Namen für das Muster an und geben Sie dann den für dieses Muster zu verwendenden Facettennamen an.

    Der Facettenname, den Sie für den Annotator angeben, ist der Facettenname, der in der Sicht für die Objektgruppensuche angezeigt wird.

  3. Optional: Geben Sie einen Facettenwert an. Sie können einen Wert aus den in der Tabelle beschriebenen Optionen angeben.

    Facettenwertoptionen für reguläre Ausdrücke
    Facettenwert Beschreibung
    $0 Zeigt den übereinstimmenden Text unverändert an.
    $n Wenn Ihr Muster für reguläre Ausdrücke Gruppen enthält, können Sie eine Gruppennummer angeben, um nur den übereinstimmenden Text aus der Mustergruppe zurückzugeben. Wenn Ihr regulärer Ausdruck beispielsweise aus drei Gruppen besteht, die ein US-Telefonnummernmuster wie (\d{3})-(\d{3})-(\d{4}) definieren, und Sie nur den Vorwahlbereich der Telefonnummer zurückgeben möchten, können Sie $1 angeben. Wenn der übereinstimmende Text 212-555-1234 ist, wird der Facettenwert als 212 angezeigt. Geben Sie nur eine Gruppe als Facettenwert für Muster an, von denen Sie wissen, dass Übereinstimmungen zurückgegeben werden.
    {prefix-text}:$0 Fügt fest codierten Text vor dem Facettennamen hinzu. Sie können diese Option verwenden, wenn Sie Facetten, die durch diesen regulären Ausdruck generiert werden, von Facetten unterscheiden wollen, die ähnlich sind, aber auf andere Weise generiert werden. Beispiel: MyRegex:$0 führt zu einer Facette namens MyRegex:212-555-1234.
  4. Klicken Sie auf Speichern.

Um Muster zu importieren, führen Sie die folgenden Schritte aus:

  1. Definieren Sie die Muster, die Sie hinzufügen möchten, in einer JSON-Datei.

    Die Musterdefinition muss die folgende Syntax verwenden:

    [
      {
        "name": "US Phone number",
        "description": "US mobile phone number",
        "pattern": "(\\d{3})-(\\d{3})-(\\d{4})",
        "facetPath": ".regex.usphonenumber",
        "facetValue": "$0"
      }
    ]
    

    Beachten Sie die folgenden Hinweise:

    • Die Muster müssen in einem Array definiert werden, auch wenn nur ein Muster definiert werden soll.
    • Versehen Sie alle Backslash-Zeichen (\) mit einem Backslash als Escapezeichen.
    • Weitere Informationen zu den Optionen für Facettenwerte finden Sie in der Tabelle Optionen für Facettenwerte mit regulären Ausdrücken.
  2. Klicken Sie auf Importieren und wählen Sie die JSON-Datei aus, in der die Muster definiert sind.

  3. Klicken Sie auf Speichern.

Grenzwerte für reguläre Ausdrücke

Planbegrenzungen für reguläre Ausdrücke
Planen Regex-Aufbereitungen pro Serviceinstanz Regex-Muster pro Serviceinstanz
Cloud Pak for Data Uneingeschränkt Uneingeschränkt
Premium 100 50
Enterprise 100 50

Die Summen enthalten Aufbereitungen, die Sie in diesem Content-Mining-Projekt und in anderen Projekten in derselben Serviceinstanz erstellen.

Annotator anwenden

Nachdem der Annotator erstellt wurde, müssen Sie ihn auf Ihre Objektgruppe anwenden.

  1. Klicken Sie auf der Seite Create a custom annotator for your analytics solutions der Content-Mining-Anwendung auf custom annotator und wählen Sie dann in der Liste collection aus.

  2. Klicken Sie in der Kachel für Ihre Sammlung auf das Symbol Optionen und wählen Sie Sammlung bearbeiten aus.

  3. Klicken Sie auf die Registerkarte "Anreicherung " und wählen Sie dann den von Ihnen erstellten Annotator aus.

    Möglicherweise müssen Sie nach unten scrollen, um es zu finden.

  4. Klicken Sie auf "Speichern" und bestätigen Sie dann die Aktion.

Geben Sie dem Index Zeit für die erneute Erstellung.

Dokumente mit Ihrer Facette filtern

  1. Klicken Sie auf die Sammlungskachel, um Ihre Sammlung auf der Datenanalyseseite zu öffnen.

  2. Führen Sie eine der folgenden Aktionen aus:

    • Ihre angepassten Facetten werden in der Sicht Facetten aufgelistet. Blättern Sie und klicken Sie wiederholt auf Mehr laden, bis Ihre Facetten angezeigt werden.

    • Übergeben Sie eine leere Suche, um alle Dokumente zurückzugeben. Wählen Sie im Teilfenster Facettenanalyse die von Ihnen erstellte Facette aus.

    • Um schneller auf Ihre angepassten Facetten zuzugreifen, fügen Sie sie zu einer angepassten Ansicht hinzu. Wählen Sie Benutzerdefiniert als Ansicht aus und klicken Sie dann auf Bearbeiten. Wählen Sie mindestens eine Facette aus, die der Sicht hinzugefügt werden soll, und klicken Sie anschließend auf Speichern.

      Custom view
      Collection menu