Aufbereitungen auswählen
Fügen Sie Ressourcen hinzu, die Discovery Informationen zu Begriffen oder Mustern beibringen können, die für Ihre Anwendung eine besondere Bedeutung haben.
In der folgenden Tabelle werden die besten Ressourcen beschrieben, die hinzugefügt werden können, um unterschiedliche Anforderungen zu erfüllen.
Ziel | Ressource | Anmerkungen |
---|---|---|
Definieren Sie Kategorien, nach denen Text in Ihren Dokumenten klassifiziert werden kann. | Klassifikationsmerkmal | Nicht zutreffend |
Erkennen Sie Begriffe und Synonyme für Begriffe, die für Sie von Bedeutung sind, z. B. die Namen der Produkte, die Sie verkaufen. | Wörterbuch | Nicht zutreffend |
Definieren Sie reguläre Ausdrücke, die Signifikanzmuster erfassen. Beispiel: AB10045 ist die Syntax, die für Ihre Bestellnummern verwendet wird. |
Reguläre Ausdrücke | Nicht zutreffend |
Erkennen und kennzeichnen Sie Entitäten und Beziehungen, die in einem angepassten Modell für maschinelles Lernen definiert sind. | Modelle für maschinelles Lernen | Erfordert ein Modell, das aus einem anderen IBM-Tool erstellt und exportiert wird |
Wenden Sie Regeln auf Felder an, die auf Regeln basieren, die Sie durch Erstellen eines erweiterten Regelmodells in IBM Watson® Knowledge Studiodefiniert haben. | Erweiterte Regelmodelle | Erfordert ein erweitertes Regelmodell, das aus IBM Watson® Knowledge Studio erstellt und exportiert wird oder eine exportierte Musterressource verwendet. |
IBM Cloud Erkennen Sie Begriffe, die in Sätzen erwähnt werden, die einem syntaktischen Muster entsprechen, das Sie Discovery beibringen zu erkennen. | Muster(Beta) | Verfügbar als Beta-Feature für Sammlungen in englischer Sprache nur in verwalteten Implementierungen. Die durch die Definition von Mustern abgeleitete Aufbereitung kann nicht auf Content-Mining-Projekte angewendet werden. Sie können die Ressource exportieren und als erweitertes Regelmodell verwenden. |
Erkennt Entitäten, die Sie als signifikant identifizieren, durch Trainieren eines Machine Learning-Modells eines Entitätsextraktors. | Entitätsextraktor | Unterstützt das Starten von einem importierten Knowledge Studio-Korpus. |
Klassifizieren Sie Sätze in Ihren Dokumenten in benutzerdefinierte Satzklassen. | Satzklassifikationsmerkmal | Unterstützt die intelligente Kennzeichnung, um den Bezeichnungsprozess zu beschleunigen. |
Alternativ können Sie integrierte Watson-NLP-Aufbereitungen anwenden, die die folgenden Informationen in Ihrer Sammlung finden:
Sie können eine Bedeutung aus Dokumenten auf der Basis der Dokumentstruktur extrahieren, indem Sie ein SDU-Modell (Smart Document Understanding) definieren. Verwenden Sie das Smart Document Understanding-Tool, um neue Felder zu identifizieren, die als Ziel für Aufbereitungen verwendet werden sollen, oder um große Dokumente in besser verwaltbare Blöcke aufzuteilen. Weitere Informationen finden Sie unter Strukturelle Bedeutung mit SDU.
Wörterverzeichnisse und Klassifikationsmerkmale, die Sie einem Projekt hinzufügen, können von anderen Projekten verwendet werden.
Weitere Informationen dazu, wie Sie Aufbereitungen optimal nutzen können, finden Sie im Blogbeitrag Aufbereiten Ihrer Dokumente kann die Suche effektiver machen.
Richtigen Aufbereitungstyp auswählen
Das folgende Diagramm hilft Ihnen bei der Auswahl der richtigen Aufbereitung für Ihren Anwendungsfall.

Aufbereitungen zusammen verwenden
Sie können viele Aufbereitungen zusammen verwenden, um verschiedene Herausforderungen zu bewältigen, die bei der Entwicklung einer Suchanwendung auftreten können.
Viele Teams beginnen mit der Erstellung einer Aufbereitung für Wörterverzeichnisse. Wörterverzeichnisse sind ein großartiges Tool, um wichtige Begriffe zu identifizieren und mit Tags zu versehen, damit sie später abgerufen werden
können. Angenommen, Sie erstellen eine Suchanwendung, die Zutaten aus Rezepten extrahieren muss. Eine Wörterbuchanreicherung kann Erwähnungen der meisten Zutaten erkennen. Die Aufbereitung des Wörterverzeichnisses kann jedoch teilweise mit
Begriffen aus zwei Wörtern übereinstimmen. Bei Begriffen wie olive oil
oder mustard greens
werden möglicherweise nur olive
und mustard
falsch erkannt. Um die Genauigkeit der Suche zu verbessern,
können Sie die Aufbereitung des Wörterverzeichnisses mit einer Aufbereitung für Muster erweitern, die Erwähnungen aus zwei Wörtern erkennen kann. Vielleicht ein paar Rezepte erwähnen Lebensmittelfarbcodes im europäischen Format
(E104
). Sie können eine Aufbereitung für reguläre Ausdrücke hinzufügen, um Vorkommen von Codes mit der Syntax E1nn
zu erkennen. Schließlich können Sie eine Aufbereitung für maschinelles Lernen verwenden, um Begriffe abzufangen, die von keiner anderen Aufbereitung erkannt werden können. Die Aufbereitung kann eine Aufbereitung sein, die Sie in einem externen Tool erstellen und in Discovery importieren, oder eine Aufbereitung, die
Sie in Discovery erstellen, indem Sie eine Entitätsextraktionsfunktion erstellen.
Die Aufbereitung des Entitätsextraktors ist komplexer als die anderen Aufbereitungen. Beispielsweise erkennt eine Wörterverzeichnisaufbereitung nur exakte Übereinstimmungen von Wörterverzeichnisbegriffen und Synonymen, die in Ihren Dokumenten vorkommen. Eine Aufbereitung für reguläre Ausdrücke erkennt nur bestimmte Muster. Im Gegensatz dazu werden Vorkommen einer Entität anhand des Kontexts erkannt, in dem ein Entitätsbeispiel in einem Satz erwähnt wird.
Beispiel: Sie möchten Standorte erkennen und das Dokument, das Sie verarbeiten wollen, enthält die folgenden Typen von Sätzen:
- Ich lebe in
Massachusetts
. - Wir reisen nächste Woche von
New York City
nachParis
.
Damit eine Wörterverzeichnisanreicherung zur erfolgreichen Erkennung von Positionsnamen verwendet werden kann, muss das Wörterverzeichnis alle möglichen Positionen auflisten. Wenn Sie jedoch eine Entitätsextraktoranreicherung verwenden, können
Sie ermitteln, wann eine Position basierend darauf erwähnt wird, wie die Position in einem Satz referenziert wird. Mit Ausdrücken wie "Ich wohne in x
" oder "Ich komme aus x
" oder "Ich reise
zu x
" in den Trainingsdaten kann der Entitätsextraktor erkennen, dass x
ein Verweis auf eine Position ist.
Wenn Sie zwischen der Verwendung eines Wörterverzeichnisses oder einer Entitätsextraktoraufbereitung wählen müssen, befolgen Sie die folgenden Richtlinien:
-
Wenn die Liste der möglichen Beispiele kurz ist, verwenden Sie ein Wörterverzeichnis.
Es ist effizienter, einen Wörterbuchbegriff
planet
mit Synonymen wieEarth
undSaturn
zu definieren, als eineplanet
-Entität zu erstellen, da in unserem Sonnensystem nur 8 Planeten vorhanden sind. Es ist jedoch nicht möglich, eine Liste aller möglichen Orte auf der Erde zu definieren. Ein Entitätsextraktor kann weitere Positionserwähnungen erkennen. -
Wenn die Liste der möglichen Beispiele statisch ist, verwenden Sie ein Wörterverzeichnis.
Kontroverse über Pluto beiseite, die Kategorie
planet
ist auch hier ein gutes Beispiel, weil die Liste der Planeten in unserem Sonnensystem statisch ist. Oder Sie möchten die allgemeine Kundenstimmung zu Ihren Produkten überwachen. Sie müssen in der Lage sein, Erwähnungen von Produktnamen zu erkennen, benötigen jedoch möglicherweise keine Spezifikationen. Wenn Sie eine Vielzahl von Produktnamen haben, können Sie eineproduct name
-Entität erstellen. Wenn neue Produkte zu Ihrem Portfolio hinzugefügt werden oder sich die Produktnamen im Laufe der Zeit ändern, müssen Sie keine Gesamtproduktliste verwalten. Der Entitätsextraktor kann weiterhin allgemeines Feedback zu Ihren Produkten erkennen, basierend auf dem Kontext der Sätze, in denen Produkte erwähnt werden.
Ressource hinzufügen
Wenn Sie einem Projekt eine angepasste Aufbereitung hinzufügen, ist sie für jede Sammlung im Projekt verfügbar.
Um eine Ressource hinzuzufügen, führen Sie die folgenden Schritte aus:
-
Öffnen Sie Ihr Projekt und wechseln Sie zur Seite Verbessern und anpassen.
-
Erweitern Sie in der Anzeige Improvement tools den Eintrag Teach domain concepts und wählen Sie dann die Ressource aus, die hinzugefügt werden soll.
Nachdem Sie die Ressource erstellt haben, wird sie zu einem neuen Aufbereitungstyp, den Sie auf Ihre Daten anwenden können.
-
Geben Sie die Objektgruppe und das Feld an, in denen die Aufbereitung angewendet werden soll.
Sie können Aufbereitungen auf die Felder
text
undhtml
sowie auf angepasste Felder anwenden, die aus hochgeladenen JSON-oder CSV-Dateien oder aus dem Tool Smart Document Understanding hinzugefügt wurden. Nur die ersten 50.000 Zeichen eines angepassten Felds aus einer JSON-Datei werden aufbereitet.Wenn Sie beispielsweise ein Wörterverzeichnis hinzufügen und es auf das Feld
text
einer Objektgruppe anwenden, werden die Dokumente in der Objektgruppe erneut verarbeitet. Wenn der Begriffvehicle
als Synonym des Wörterverzeichniseintragscar
angegeben wird und im Dokumenttext vorkommt, wirdvehicle
als Erwähnung des Wörterverzeichniseintragstypscar
gekennzeichnet. Wenn ein Kunde später nachcar
sucht, wird die Passage, die die Erwähnungvehicle
enthält, in die Suchergebnisse eingeschlossen.Wenn das von Ihnen ausgewählte Feld aus einer JSON-Datei stammt, wird der Felddatentyp nach dem Anwenden der Aufbereitung in ein Array konvertiert. Das Feld wird in ein Array konvertiert, auch wenn es einen einzelnen Wert enthält. Beispiel:
"field1": "Discovery"
wird zu"field1": ["Discovery"]
.
Sie können aus Ressourcen abgeleitete Aufbereitungen später auf Ihre Daten anwenden. Aufbereitungen, die Sie zu einem Projekt hinzufügen, können aus jeder Sammlung im Projekt verwendet werden. Wechseln Sie zur Seite Sammlungen verwalten, wählen Sie die Sammlung aus, auf die Sie die Aufbereitung anwenden möchten, und öffnen Sie dann die Registerkarte Aufbereitungen. Stellen Sie sicher, dass der Status der Aufbereitung Bereitlautet, und wenden Sie dann die Aufbereitung auf ein Feld in der Objektgruppe an. Aufbereitungen, die Sie aktivieren, werden in zufälliger Reihenfolge auf die Dokumente angewendet. Weitere Informationen finden Sie unter Aufbereitungen verwalten.
In der implementierten Content-Mining-Anwendung können Sie ein Klassifikationsmerkmal oder einen benutzerdefinierten Annotator aus einem Wörterverzeichnis, einem regulären Ausdruck, einem maschinellen Lernen oder einer PEAR-Datei erstellen und als Aufbereitung in Objektgruppen verwenden, die in anderen Projekttypen gespeichert sind. Weitere Informationen finden Sie unter Facetten hinzufügen.