IBM Cloud Docs
Vorab trainiertes SDU-Modell anwenden

Vorab trainiertes SDU-Modell anwenden

Wenden Sie ein vorerstelltes SDU-Modell (Smart Document Understanding) an, das Text extrahieren kann und zum Identifizieren von Tabellen, Listen und Abschnitten in Dokumenten trainiert wird.

Verwenden Sie das vortrainierte Modell, wenn Ihre Dokumente Tabellen mit wertvollen Informationen enthalten, die Sie erfassen wollen. Das Modell kann auch die Bedeutung der Verschachtelungsstruktur von Tabellen, Listen und Abschnitten beibehalten. Die Verwendung des vortrainierten Modells beschleunigt den Prozess der Erfassung von Informationen aus der Struktur eines Dokuments.

Wenn Sie anpassen möchten, wie die Dokumentstruktur verwendet wird, um Bedeutung aus einem Dokument abzuleiten, oder wenn Sie Dokumente mit einem Feld aufteilen möchten, das von einem SDU-Modell generiert wird, erstellen Sie stattdessen ein vom Benutzer trainiertes Modell. Weitere Informationen finden Sie unter Benutzertrainiertes SDU-Modell definieren.

Ein vorab trainiertes Modell wird automatisch auf Dokumentabruf für Verträge-Projekte angewendet. Anstatt vertragsbezogene Inhalte in Ihren Dokumenten zu annotieren, wendet das Projekt ein Modell an, das bereits weiß, wie Begriffe und Konzepte zu erkennen sind, die für Verträge von Bedeutung sind.

Dokumente vorbereiten

Sie können ein vorab trainiertes SDU-Modell nur auf die folgenden Dateitypen anwenden:

  • Bilddateien (PNG, TIFF, JPG)
  • Microsoft PowerPoint
  • Microsoft Word
  • PDF

Eine vollständige Liste der Dateitypen, die Discovery unterstützt, finden Sie unter Unterstützte Dateitypen.

Das Smart Document Understanding-Tool verwendet optische Zeichenerkennung (OCR), um Text aus Bildern in den Dateien zu extrahieren, die es analysiert. Bilder müssen die Mindestqualitätsanforderungen erfüllen, die von OCR unterstützt werden. Weitere Informationen finden Sie unter Optische Zeichenerkennung.

Das Tool kann keine Dokumente mit den folgenden Merkmalen lesen. Entfernen Sie sie aus Ihrer Sammlung, bevor Sie beginnen:

  • Dokumente, bei denen der Eindruck entsteht, dass Text andere Texte überlagert, gelten als doppelt überlagert und können nicht mit Anmerkungen versehen werden.
  • Dokumente, die mehrere Spalten mit Text auf einer einzelnen Seite enthalten, können nicht annotiert werden.

Wenn Sie ein Smart Document Understanding-Modell anwenden, kann sich die Konvertierungszeit für Ihre Sammlung aufgrund der Ressourcen, die für die Anwendung des KI-Modells auf Ihre Dokumente erforderlich sind, erhöhen.

Anwenden eines vorab trainierten Modells

Führen Sie die folgenden Schritte aus, um ein vortrainiertes Smart Document Understanding-Modell auf Ihre Sammlung anzuwenden:

  1. Öffnen Sie die Seite Sammlungen verwalten im Navigationsfenster.

  2. Wählen Sie die Sammlung aus, auf die das Modell angewendet werden soll.

  3. Öffnen Sie die Seite "Felder identifizieren ".

  4. Wählen Sie Vortrainierte Modelle aus.

    Standardmäßig wird die Option Nur Textextraktion verwendet. Bei diesem Modell wird jeder Text, der in den Quellendokumenten erkannt wird, im Feld text indexiert.

  5. Klicken Sie auf Übergeben und anschließend auf Änderungen anwenden und erneut verarbeiten.

Informationen zur Ausgabe

Wenn das SDU-Modell eine Struktur, wie z. B. eine Tabelle, im Dokument findet und verarbeitet, speichert es eine Darstellung der Struktur in einem Feld namens enriched_{field}, wobei {field} das Feld ist, in dem die Struktur gespeichert wurde.

Der folgende Auszug zeigt die JSON-Darstellung einer Tabelle aus dem Feld enriched_html eines Dokuments, das vom vorab trainierten SDU-Modell verarbeitet wurde.

Zeigt ein JSON-Snippet, das ein Feld 'enriched_html' mit einem Tabellenobjekt enthält, das Abschnitte wie section_title, row_headers, table_headers, location usw. enthält.
JSON table representation

Wenn Sie Text aus der verarbeiteten Struktur extrahieren wollen, können Sie das Feld location verwenden, um die Indexwerte zu suchen, die angeben, wo die Textzeichenfolge beginnt und endet.

Weitere Informationen zur Struktur indexierter Tabellen finden Sie unter Tabellen verstehen.

Hinweise zur Fehlerbehebung

Befolgen Sie diese Fehlerumgehungen, wenn beim Arbeiten mit dem Smart Document Understanding-Tool Probleme auftreten.

Nicht genügend Ressourcen zum Verarbeiten des Dokuments

Fehler
Wenn Sie ein vorab trainiertes Modell auf Ihre Sammlung anwenden, wird die Dokumentverarbeitung nicht erfolgreich abgeschlossen und die Nachricht Insufficient resources to process document angezeigt.
Ursache
Der Fehler wird angezeigt, weil während der Parsing-, Strukturidentifikations-oder Assemblierungsphase des Prozesses, der das Modell für maschinelles Lernen erstellt, Fehler aufgrund abnormaler Speicherbedingungen auftreten. Die Ressourcen sind nicht ausreichend, wenn mindestens eines der Dokumente in Ihrer Sammlung zu groß ist oder zu viele komplexe Tabellen für das Tool enthält.
Lösung
Prüfen Sie Ihre Sammlung auf große Dokumente oder Dokumente mit vielen Tabellen und teilen Sie sie in kleinere Dokumente auf, bevor Sie das vortrainierte Modell auf die Sammlung anwenden. Die genauen Grenzwerte variieren je nach Komplexität Ihrer Dokumente. Im Allgemeinen werden Dokumente aufgeteilt, die mehr als 400 Seiten lang sind, und es wird vermieden, mehr als 20 komplexe Tabellen in ein einzelnes Dokument einzuschließen.