IBM Cloud Docs
Aufbereitungen auswählen

Aufbereitungen auswählen

Fügen Sie Ressourcen hinzu, die Discovery Informationen zu Begriffen oder Mustern beibringen können, die für Ihre Anwendung eine besondere Bedeutung haben.

In der folgenden Tabelle werden die besten Ressourcen beschrieben, die hinzugefügt werden können, um unterschiedliche Anforderungen zu erfüllen.

Übersicht über Domänentools
Ziel Ressource Anmerkungen
Definieren Sie Kategorien, nach denen Text in Ihren Dokumenten klassifiziert werden kann. Klassifikationsmerkmal Nicht zutreffend
Erkennen Sie Begriffe und Synonyme für Begriffe, die für Sie von Bedeutung sind, z. B. die Namen der Produkte, die Sie verkaufen. Wörterbuch Nicht zutreffend
Definieren Sie reguläre Ausdrücke, die Signifikanzmuster erfassen. Beispiel: AB10045 ist die Syntax, die für Ihre Bestellnummern verwendet wird. Reguläre Ausdrücke Nicht zutreffend
Erkennen und kennzeichnen Sie Entitäten und Beziehungen, die in einem angepassten Modell für maschinelles Lernen definiert sind. Modelle für maschinelles Lernen Erfordert ein Modell, das aus einem anderen IBM-Tool erstellt und exportiert wird
Wenden Sie Regeln auf Felder an, die auf Regeln basieren, die Sie durch Erstellen eines erweiterten Regelmodells in IBM Watson® Knowledge Studiodefiniert haben. Erweiterte Regelmodelle Erfordert ein erweitertes Regelmodell, das aus IBM Watson® Knowledge Studio erstellt und exportiert wird oder eine exportierte Musterressource verwendet.
IBM Cloud Erkennen Sie Begriffe, die in Sätzen erwähnt werden, die einem syntaktischen Muster entsprechen, das Sie Discovery beibringen zu erkennen. Muster(Beta) Verfügbar als Beta-Feature für Sammlungen in englischer Sprache nur in verwalteten Implementierungen. Die durch die Definition von Mustern abgeleitete Aufbereitung kann nicht auf Content-Mining-Projekte angewendet werden. Sie können die Ressource exportieren und als erweitertes Regelmodell verwenden.
Erkennt Entitäten, die Sie als signifikant identifizieren, durch Trainieren eines Machine Learning-Modells eines Entitätsextraktors. Entitätsextraktor Unterstützt das Starten von einem importierten Knowledge Studio-Korpus.
Klassifizieren Sie Sätze in Ihren Dokumenten in benutzerdefinierte Satzklassen. Satzklassifikationsmerkmal Unterstützt die intelligente Kennzeichnung, um den Bezeichnungsprozess zu beschleunigen.

Alternativ können Sie integrierte Watson-NLP-Aufbereitungen anwenden, die die folgenden Informationen in Ihrer Sammlung finden:

Sie können eine Bedeutung aus Dokumenten auf der Basis der Dokumentstruktur extrahieren, indem Sie ein SDU-Modell (Smart Document Understanding) definieren. Verwenden Sie das Smart Document Understanding-Tool, um neue Felder zu identifizieren, die als Ziel für Aufbereitungen verwendet werden sollen, oder um große Dokumente in besser verwaltbare Blöcke aufzuteilen. Weitere Informationen finden Sie unter Strukturelle Bedeutung mit SDU.

Wörterverzeichnisse und Klassifikationsmerkmale, die Sie einem Projekt hinzufügen, können von anderen Projekten verwendet werden.

Weitere Informationen dazu, wie Sie Aufbereitungen optimal nutzen können, finden Sie im Blogbeitrag Aufbereiten Ihrer Dokumente kann die Suche effektiver machen.

Richtigen Aufbereitungstyp auswählen

Das folgende Diagramm hilft Ihnen bei der Auswahl der richtigen Aufbereitung für Ihren Anwendungsfall.

Wenn Sie wichtige Informationen in Ihren Daten mit Tags versehen möchten, finden Sie die richtige Aufbereitung, indem Sie die folgenden Fragen beantworten: Möchten Sie Begriffe, Passagen oder Dokumente mit Tags versehen? Erstellen Sie bei Passagen oder Dokumenten eine Aufbereitung für Klassifikationsmerkmale. Wenn Begriffe, werden die Begriffe in einer endlichen Liste ausgedrückt? Wenn ja, erstellen Sie eine Aufbereitung für das Wörterverzeichnis. Wenn nicht, folgt der Begriff Syntax einem Muster? Wenn ja, passen alle Variationen des Begriffs zu einem einzigen Muster? Ist dies der Fall, erstellen Sie eine Aufbereitung für reguläre Ausdrücke. Ist dies nicht der Fall, erstellen Sie eine Musteraufbereitung, die Begriffsbeispiele verwendet, die Sie bereitstellen, um Muster in Begriffsvariationen zu finden. Wenn keine Gruppe von Mustern die Begriffe erfassen kann, erstellen Sie einen Entitätsextraktor, um Begriffe auf der Basis des Kontexts zu identifizieren, in dem sie verwendet werden.
Flow diagram for choosing the right enrichment

Aufbereitungen zusammen verwenden

Sie können viele Aufbereitungen zusammen verwenden, um verschiedene Herausforderungen zu bewältigen, die bei der Entwicklung einer Suchanwendung auftreten können.

Viele Teams beginnen mit der Erstellung einer Aufbereitung für Wörterverzeichnisse. Wörterverzeichnisse sind ein großartiges Tool, um wichtige Begriffe zu identifizieren und mit Tags zu versehen, damit sie später abgerufen werden können. Angenommen, Sie erstellen eine Suchanwendung, die Zutaten aus Rezepten extrahieren muss. Eine Wörterbuchanreicherung kann Erwähnungen der meisten Zutaten erkennen. Die Aufbereitung des Wörterverzeichnisses kann jedoch teilweise mit Begriffen aus zwei Wörtern übereinstimmen. Bei Begriffen wie olive oil oder mustard greens werden möglicherweise nur olive und mustard falsch erkannt. Um die Genauigkeit der Suche zu verbessern, können Sie die Aufbereitung des Wörterverzeichnisses mit einer Aufbereitung für Muster erweitern, die Erwähnungen aus zwei Wörtern erkennen kann. Vielleicht ein paar Rezepte erwähnen Lebensmittelfarbcodes im europäischen Format (E104). Sie können eine Aufbereitung für reguläre Ausdrücke hinzufügen, um Vorkommen von Codes mit der Syntax E1nn zu erkennen. Schließlich können Sie eine Aufbereitung für maschinelles Lernen verwenden, um Begriffe abzufangen, die von keiner anderen Aufbereitung erkannt werden können. Die Aufbereitung kann eine Aufbereitung sein, die Sie in einem externen Tool erstellen und in Discovery importieren, oder eine Aufbereitung, die Sie in Discovery erstellen, indem Sie eine Entitätsextraktionsfunktion erstellen.

Die Aufbereitung des Entitätsextraktors ist komplexer als die anderen Aufbereitungen. Beispielsweise erkennt eine Wörterverzeichnisaufbereitung nur exakte Übereinstimmungen von Wörterverzeichnisbegriffen und Synonymen, die in Ihren Dokumenten vorkommen. Eine Aufbereitung für reguläre Ausdrücke erkennt nur bestimmte Muster. Im Gegensatz dazu werden Vorkommen einer Entität anhand des Kontexts erkannt, in dem ein Entitätsbeispiel in einem Satz erwähnt wird.

Beispiel: Sie möchten Standorte erkennen und das Dokument, das Sie verarbeiten wollen, enthält die folgenden Typen von Sätzen:

  • Ich lebe in Massachusetts.
  • Wir reisen nächste Woche von New York City nach Paris.

Damit eine Wörterverzeichnisanreicherung zur erfolgreichen Erkennung von Positionsnamen verwendet werden kann, muss das Wörterverzeichnis alle möglichen Positionen auflisten. Wenn Sie jedoch eine Entitätsextraktoranreicherung verwenden, können Sie ermitteln, wann eine Position basierend darauf erwähnt wird, wie die Position in einem Satz referenziert wird. Mit Ausdrücken wie "Ich wohne in x" oder "Ich komme aus x" oder "Ich reise zu x" in den Trainingsdaten kann der Entitätsextraktor erkennen, dass x ein Verweis auf eine Position ist.

Wenn Sie zwischen der Verwendung eines Wörterverzeichnisses oder einer Entitätsextraktoraufbereitung wählen müssen, befolgen Sie die folgenden Richtlinien:

  • Wenn die Liste der möglichen Beispiele kurz ist, verwenden Sie ein Wörterverzeichnis.

    Es ist effizienter, einen Wörterbuchbegriff planet mit Synonymen wie Earth und Saturn zu definieren, als eine planet-Entität zu erstellen, da in unserem Sonnensystem nur 8 Planeten vorhanden sind. Es ist jedoch nicht möglich, eine Liste aller möglichen Orte auf der Erde zu definieren. Ein Entitätsextraktor kann weitere Positionserwähnungen erkennen.

  • Wenn die Liste der möglichen Beispiele statisch ist, verwenden Sie ein Wörterverzeichnis.

    Kontroverse über Pluto beiseite, die Kategorie planet ist auch hier ein gutes Beispiel, weil die Liste der Planeten in unserem Sonnensystem statisch ist. Oder Sie möchten die allgemeine Kundenstimmung zu Ihren Produkten überwachen. Sie müssen in der Lage sein, Erwähnungen von Produktnamen zu erkennen, benötigen jedoch möglicherweise keine Spezifikationen. Wenn Sie eine Vielzahl von Produktnamen haben, können Sie eine product name-Entität erstellen. Wenn neue Produkte zu Ihrem Portfolio hinzugefügt werden oder sich die Produktnamen im Laufe der Zeit ändern, müssen Sie keine Gesamtproduktliste verwalten. Der Entitätsextraktor kann weiterhin allgemeines Feedback zu Ihren Produkten erkennen, basierend auf dem Kontext der Sätze, in denen Produkte erwähnt werden.

Ressource hinzufügen

Wenn Sie einem Projekt eine angepasste Aufbereitung hinzufügen, ist sie für jede Sammlung im Projekt verfügbar.

Um eine Ressource hinzuzufügen, führen Sie die folgenden Schritte aus:

  1. Öffnen Sie Ihr Projekt und wechseln Sie zur Seite Verbessern und anpassen.

  2. Erweitern Sie in der Anzeige Improvement tools den Eintrag Teach domain concepts und wählen Sie dann die Ressource aus, die hinzugefügt werden soll.

    Nachdem Sie die Ressource erstellt haben, wird sie zu einem neuen Aufbereitungstyp, den Sie auf Ihre Daten anwenden können.

  3. Geben Sie die Objektgruppe und das Feld an, in denen die Aufbereitung angewendet werden soll.

    Sie können Aufbereitungen auf die Felder text und html sowie auf angepasste Felder anwenden, die aus hochgeladenen JSON-oder CSV-Dateien oder aus dem Tool Smart Document Understanding hinzugefügt wurden. Nur die ersten 50.000 Zeichen eines angepassten Felds aus einer JSON-Datei werden aufbereitet.

    Wenn Sie beispielsweise ein Wörterverzeichnis hinzufügen und es auf das Feld text einer Objektgruppe anwenden, werden die Dokumente in der Objektgruppe erneut verarbeitet. Wenn der Begriff vehicle als Synonym des Wörterverzeichniseintrags car angegeben wird und im Dokumenttext vorkommt, wird vehicle als Erwähnung des Wörterverzeichniseintragstyps car gekennzeichnet. Wenn ein Kunde später nach car sucht, wird die Passage, die die Erwähnung vehicle enthält, in die Suchergebnisse eingeschlossen.

    Wenn das von Ihnen ausgewählte Feld aus einer JSON-Datei stammt, wird der Felddatentyp nach dem Anwenden der Aufbereitung in ein Array konvertiert. Das Feld wird in ein Array konvertiert, auch wenn es einen einzelnen Wert enthält. Beispiel: "field1": "Discovery" wird zu "field1": ["Discovery"].

Sie können aus Ressourcen abgeleitete Aufbereitungen später auf Ihre Daten anwenden. Aufbereitungen, die Sie zu einem Projekt hinzufügen, können aus jeder Sammlung im Projekt verwendet werden. Wechseln Sie zur Seite Sammlungen verwalten, wählen Sie die Sammlung aus, auf die Sie die Aufbereitung anwenden möchten, und öffnen Sie dann die Registerkarte Aufbereitungen. Stellen Sie sicher, dass der Status der Aufbereitung Bereitlautet, und wenden Sie dann die Aufbereitung auf ein Feld in der Objektgruppe an. Aufbereitungen, die Sie aktivieren, werden in zufälliger Reihenfolge auf die Dokumente angewendet. Weitere Informationen finden Sie unter Aufbereitungen verwalten.

In der implementierten Content-Mining-Anwendung können Sie ein Klassifikationsmerkmal oder einen benutzerdefinierten Annotator aus einem Wörterverzeichnis, einem regulären Ausdruck, einem maschinellen Lernen oder einer PEAR-Datei erstellen und als Aufbereitung in Objektgruppen verwenden, die in anderen Projekttypen gespeichert sind. Weitere Informationen finden Sie unter Facetten hinzufügen.