Dokumente klassifizieren
Ein Modell für maschinelles Lernen für Dokumentklassifikationsmerkmale analysiert Dokumente und kennzeichnet sie mit der entsprechenden Beschriftung aus einer Gruppe von Beschriftungen, die Sie definieren.
Das Klassifizieren von Dokumenten ist nützlich, wenn Sie viele Dokumente programmgesteuert in Gruppen sortieren wollen. Beispiel: Sie haben eine Sammlung, die Kundenkommentare zu Produkten enthält, die Sie verkaufen. Wenn Sie das Feedback automatisch in Klassen sortieren können, können Sie dringende Probleme, die Kunden erwähnen, eingrenzen und zuerst angehen. Auf der Basis des vorherigen Feedbacks können Sie Klassen wie die folgenden definieren:
- Funktioniert nicht ordnungsgemäß
- Features nicht wie angekündigt
- Schwierig zu verwenden
- Fehlende Teile
- Gelieferte Teile stimmen nicht mit der Teileliste in den Baugruppenanweisungen überein
Zur Erstellung eines Dokumentklassifikationsmerkmals erstellen Sie ein Modell für maschinelles Lernen, das erkennen kann, welche Klasse den Punkt des Kundenfeedbacks am besten erfasst, der in natürlicher Sprache angegeben ist. Sie koppeln sie mit Klassenbezeichnungen, die reale Szenarios darstellen, die für Ihr Unternehmen sinnvoll sind.
- Was ist der Unterschied zwischen einem Dokumentklassifikationsmerkmal und einem Textklassifikationsmerkmal?
- Ein Dokumentklassifikationsmerkmal kann Dokumente auf der Basis von Wörtern und Ausdrücken klassifizieren, die aus den Textfeldern des Hauptteils extrahiert wurden, mit Informationen aus ihrer Wortart und den anderen Aufbereitungen, die auf den Haupttext angewendet werden. Die Informationen aus den anderen Nicht-Hauptteilfeldern werden ebenfalls verwendet. Ein Textklassifikationsmerkmal kann Dokumente auf der Basis von Wörtern und Ausdrücken klassifizieren, die aus dem Haupttext extrahiert wurden, wobei die zugehörigen Wortartinformationen berücksichtigt werden. Weitere Informationen zum Erstellen eines Textklassifikationsmerkmals finden Sie unter Klassifikationsmerkmal.
Vorbereitende Schritte
Zum Trainieren des Dokumentklassifikationsmerkmalmodells müssen Sie Beispieldokumente bereitstellen, die entsprechend beschriftet sind. Bereiten Sie die folgenden Dateien vor:
- Trainingsdaten
-
Erforderlich. CSV-Datei, die zum Trainieren des Machine Learning-Modells für Dokumentklassifikationsmerkmale verwendet wird. Die Datei kann Schlüsseldatenpunkte pro Spalte enthalten. Die Datenpunkte können variieren, aber die Datei muss die folgenden Spalten enthalten:
- Text in natürlicher Sprache, den Sie klassifizieren oder beschriften wollen
- Bezeichnung oder Klassenname, der die Idee kategorisiert, die im Dokumenttext ausgedrückt wird. Sie können mehrere Beschriftungen auf ein Textbeispiel anwenden. Trennen Sie mehrere Bezeichnungswerte durch ein Semikolon.
- Testdaten
-
Optional. CSV-Datei, die zum Testen des Machine Learning-Modells für Dokumentklassifikationsmerkmale verwendet wird, nachdem es trainiert wurde. Wenn Sie keine separate Datei zum Testen angeben, wird ein Teil des Inhalts der Trainingsdaten zu Testzwecken verwendet.
- Zieldaten
-
Erforderlich. CSV-Datei mit den Daten, die Sie klassifizieren möchten.
Alle CSV-Dateien (Training, Test und Ziel) müssen dieselben Spaltennamen haben. Die Daten in den Spalten müssen dieselben Datentypen wie Zeichenfolge, Zahl usw. aufweisen.
Sie können eine CSV-Datei verwenden, die Sie beim Erstellen des Content-Mining-Projekts hochgeladen haben, oder eine neue Objektgruppe erstellen.
Weitere Informationen finden Sie unter den folgenden Themen:
Trainingsdatenbeispiel für Dokumentklassifikationsmerkmale
Die folgende Tabelle zeigt ein Beispiel für den Typ von Inhalt, der in CSV-Dateien gespeichert werden kann, die zum Trainieren eines Dokumentklassifikationsmerkmals verwendet werden.
Anspruch_id | Datum | Produktlinie | Produkt | Clientsegmente | Clientposition | Alter des Kunden | Feedback | Bezeichnung (Label) |
---|---|---|---|---|---|---|---|---|
0 | 2016/1/1 |
Tee | Zitronentee | Nicht Mitglied | Manhattan | 20 | Das Stroh wurde von der Saftpackung abgezogen. | Paketcontainer |
1 | 2016/1/2 |
Eis | Vanilleeis | Silber Mitglied | Queens | 20 | Ich habe Eis für meine Kinder, aber es war so etwas wie ein Stück Faden in der Tasse. | kontamination_tampering |
Beachten Sie, dass die beiden erforderlichen Felder im Beispiel enthalten sind. Die erforderlichen Felder haben die folgenden Namen:
Feedback
: Text in natürlicher Sprache, der beschriftet werden sollLabel
: Bezeichnung, die auf das Feedback angewendet werden soll
Öffnen der Content-Mining-Anwendung
Ist dies nicht der Fall, erstellen Sie das Projekt und fügen Sie ihm eine Sammlung hinzu. Wenn das Projekt und die Objektgruppe bereits erstellt wurden, können Sie diese Prozedur überspringen und das Dokumentklassifikationsmerkmal erstellen.
-
Erstellen Sie in Discoveryein Content-Miningprojekt.
-
Wählen Sie diese Option aus, um Daten zum Erstellen der Sammlung hochzuladen. Legen Sie für die Sammlung einen Namen fest und klicken Sie auf Weiter.
-
Laden Sie die CSV-Datei hoch, die Ihre Trainingsdaten enthält.
Die Trainingsdatendatei muss mindestens die folgenden Informationen enthalten:
- Eine Spalte mit Beispieltext, den Sie klassifizieren möchten. Der Beispieltext könnte beispielsweise eine Produktbewertung sein.
- Eine Spalte, die eine Klassen-oder Kategoriebezeichnung enthält, die dem Beispieltext zugeordnet ist.
-
Klicken Sie nach Abschluss der Sammlungsverarbeitung auf "Anwendung starten ", um die Content-Mining-Anwendung zu öffnen.
Die Facettendetails werden für die Objektgruppe angezeigt.
Dokumentklassifikationsmerkmal erstellen
Um einen Dokumentklassifikator zu erstellen, führen Sie die folgenden Schritte aus:
-
Klicken Sie in der Content-Mining-Anwendung auf den Link Sammlungen im Navigationspfad, um die Seite Sammlung erstellen zu öffnen.
Der Status der Indexerstellung wird angezeigt. Warten Sie, bis die Objektgruppe vollständig indexiert ist, bevor Sie mit dieser Prozedur fortfahren.
-
Klicken Sie zum Erstellen eines Klassifikationsmerkmals auf Objektgruppe und wählen Sie dann in der Liste Klassifikationsmerkmal aus.
Collection menu -
Klicken Sie auf Klassifikationsmerkmal erstellen.
-
Benennen Sie Ihr Klassifikationsmerkmal.
Wenn Sie das Modell später als Aufbereitung bereitstellen, erhält die Aufbereitung einen Namen im Format
{classifier name} - {model name}
. Beispiel: Wenn Ihr Klassifikationsmerkmal den NamenProduct reviews
und das Modell den Namenv0.1
hat, lautet der Name der AufbereitungProduct reviews - v0.1
.Fügen Sie optional eine Beschreibung hinzu und geben Sie die Sprache Ihrer Trainingsdaten an, indem Sie sie im Feld Sprache auswählen.
-
Klicken Sie auf Weiter
-
Wählen Sie auf der Seite Trainingsdaten die Datei aus, die Sie zuvor in der Liste hochgeladen haben, und klicken Sie anschließend auf Next.
Alternativ können Sie eine CSV-Datei hochladen, die Ihre Trainingsdaten enthält.
Die Seite "Felder " wird angezeigt. Es zeigt Details zu den Feldern an, die aus der von Ihnen hinzugefügten Datei generiert wurden. Normalerweise wird jede Spalte in einer CSV-Datei in ein Feld konvertiert und ihr wird ein Name zugeordnet, der aus der Spaltenüberschrift kopiert wird.
-
Wählen Sie alle Metadatenfelder ab, die Sie aus dem Dataset ausschließen möchten, aus dem Ihr Dokumentklassifikationsmerkmal lernen soll, und klicken Sie anschließend auf Next.
Alle Felder, die Sie einschließen, werden als zusätzliche Features in der Klassifikation verwendet. Standardmäßig sind alle Felder ausgewählt. Möglicherweise müssen Sie horizontal blättern, um alle Felder zu überprüfen.
-
Geben Sie auf der Seite Klassifikationsmerkmal die Felder an, die für das Training und die Vorhersage für maschinelles Lernen verwendet werden sollen.
- Antwortfeld
- Wählen Sie das Feld in Ihrer Trainingsdatendatei mit der Klassifikationsbezeichnung aus. Im vorherigen Beispiel ist das Feld
Label
die beste Wahl. - Vorhergesagtes Feld
- Der Name der Facette, die für die vorhergesagten Klassenwerte generiert wird Standardmäßig hat der Facettenname die Syntax
<Answer field value>
_predicted
. Zum BeispielLabel_predicted
. - Testdataset
- Gibt das Dataset an, das zum Testen des Klassifikationsmerkmalmodells verwendet wird. Standardmäßig wird die CSV-Datei mit Trainingsdaten, die Sie hochgeladen und konfiguriert haben, in drei Datasets aufgeteilt, die zum Trainieren, Validieren und Testen verwendet werden. Sie können jedoch optional ein separates Dataset angeben, das zum Testen des Modells verwendet wird.
- Föderiertes Modell trainieren
- Erstellt mehrere Modelle auf der Basis von Werten aus einem bestimmten Feld im Dataset. Wenn das Dokument beispielsweise ein Feld
Product
enthält, können Sie das Klassifikationsmerkmal so konfigurieren, dass ein separates Klassifikationsmerkmalmodell für jeden Produktnamenswert erstellt wird, der im Feld angegeben ist. Standardmäßig erstellt das Klassifikationsmerkmal ein Modell für Klassifikationsmerkmale für maschinelles Lernen.
Sie müssen kein Feld angeben, das den zu klassifizierenden Text enthält. Das System erkennt dieses Feld automatisch. Sie können prüfen, aus welchem Feld der analysierbare Text extrahiert wird, und ihn ändern oder erweitern, indem Sie den Indextyp eines anderen Felds ändern. Weitere Informationen finden Sie unter Textfeld identifizieren.
Klicken Sie auf Weiter.
-
Wenn Sie eine Aufbereitung auf den Text in Ihren Trainingsdaten anwenden möchten, wählen Sie mindestens ein Feld in der Liste Zielfelder aus, auf das Sie Aufbereitungen anwenden wollen.
Normalerweise möchten Sie das Feld auswählen, das den zu klassifizierenden Texthauptteil enthält. Im vorherigen Beispiel ist das Feld
Feedback
die beste Wahl.Wählen Sie als Nächstes alle Annotatoren aus, die Sie anwenden wollen, um den Text in den Zielfeldern aufzubereiten, und klicken Sie dann auf Next.
Der Part-of-Speech-Annotator ist standardmäßig ausgewählt.
-
Überprüfen Sie auf der Seite Bestätigen die Konfigurationseinstellungen Ihres Klassifikationsmerkmals. Verwenden Sie die Schaltfläche Zurück, um Änderungen vorzunehmen. Klicken Sie andernfalls auf Speichern.
Eine Übersichtsseite wird angezeigt.
-
Klicken Sie auf Neues Modell, um Ihr Modell für maschinelles Lernen zu erstellen und zu trainieren.
-
Sie können optional den Namen des Modells ändern und eine Beschreibung hinzufügen.
Sie können die für die folgenden Datasets angegebenen Standardverhältniswerte ändern:
- Trainingsdataset: Aktualisiert die Gewichtungen des Trainingsmodells.
- Validierungsgruppe: Überwacht die Genauigkeit des Trainingsmodells während des Trainings. Das Genauigkeitsergebnis wird zum Zeichnen eines Trainingsverlustdiagramms verwendet.
- Testdataset: Berechnet den Score des trainierten Modells.
-
Klicken Sie auf Erstellen.
Die Ausführung des Modelltrainings kann einige Minuten dauern.
Dokumentklassifikationsmerkmalmodell bereitstellen
Nachdem das Modell trainiert wurde, stellen Sie es als Aufbereitung bereit.
-
Klicken Sie auf das Überlaufmenüsymbol in der Spalte Aktionen und anschließend auf Modell bereitstellen. Geben Sie den Namen und weitere Details an und klicken Sie dann auf Implementieren.
-
Führen Sie eine der folgenden Aktionen aus:
-
Informationen zum Anwenden des Dokumentklassifikationsmerkmals auf eine Objektgruppe in Ihrem Content-Mining-Projekt finden Sie unter Objektgruppe aufbereiten.
-
Führen Sie die folgenden Schritte aus, um das Dokumentklassifikationsmerkmal auf eine Objektgruppe in einem anderen Projekt anzuwenden:
-
Erstellen oder öffnen Sie in Discoverydie Sammlung mit den Dokumenten, die Sie klassifizieren möchten.
Die Daten in der Objektgruppe, auf die die Aufbereitung angewendet wird, müssen dieselben Felder aufweisen wie die Objektgruppe, die Sie zum Trainieren des Modells verwendet haben.
-
Suchen Sie auf der Registerkarte Aufbereitungen Ihr Klassifikationsmerkmal in der Spalte Name. Wählen Sie im Feld Aufbereitungsfelder dasselbe Textfeld aus, das zum Trainieren des Modells verwendet wurde. (Dieses Feld wird vom System festgelegt und als Feld Analysierbarer Textinhalt indexiert. Weitere Informationen finden Sie unter Textfeld identifizieren.
-
Klicken Sie auf Änderungen anwenden und erneut verarbeiten.
-
-
Ergebnisse der Klassifizierung
Nachdem die Aufbereitung auf eine Objektgruppe angewendet wurde, wird eine Facette generiert, mit der Sie die vorhergesagten Klassen suchen können. In diesem Beispiel heißt das vorhergesagte Feld label_answer_predicted
.

Verwenden Sie die generierte Facette, um Dokumente nach Klassifikation zu filtern und Untergruppen von Dokumenten zu analysieren. Auf diese Weise können Sie Muster finden und andere Erkenntnisse gewinnen. Sie können diese Zieldokumente exportieren, um sie mit Teammitgliedern gemeinsam zu nutzen oder weiter zu analysieren. Weitere Informationen finden Sie unter Daten exportieren.
Wenn das Dokumentklassifikationsmerkmal ein Dokument klassifiziert, speichert es die Klassifikation im Feld document_level_enrichment.classes.class_name
.
Der folgende JSON-Auszug zeigt beispielsweise ein Dokument, das mit der Klasse package_container
klassifiziert wurde.

Grenzwerte für Dokumentklassifikationsmerkmale
Die Anzahl der Dokumentklassifikationsmerkmale und Beschriftungen, die Sie pro Serviceinstanz erstellen können, hängt vom Plantyp Discovery ab.
Begrenzung | Enterprise | Premium | Cloud Pak for Data |
---|---|---|---|
Anzahl der Dokumentklassifikationsmerkmale pro Serviceinstanz | 20 | 20 | Uneingeschränkt |
Anzahl beschrifteter Datenzeilen | 20.000 | 20.000 | 20.000 |
Maximale Größe in MB für Trainingsdaten nach Aufbereitung | 1.024 | 1.024 | 1.024 |
Anzahl der Beschriftungen | 1000 | 1000 | 1000 |
Anzahl der Zielfelder | 50 | 50 | 50 |