Definisci un modello SDU addestrato dall'utente
Creare un modello SDU (Smart Document Understanding) che acquisisca informazioni relative al contenuto di un documento basato sulla struttura del documento.
Utilizzare lo strumento Smart Document Understanding per aggiungere campi personalizzati a una raccolta in modo da poter effettuare le seguenti operazioni:
- Specifica gli arricchimenti precostruiti o personalizzati in sezioni specifiche di un documento.
- Suddividere documenti di grandi dimensioni in documenti più piccoli.
Per un aiuto nel decidere se SDU può aiutare il tuo caso d'uso, leggi Quando utilizzare Smart Document Understanding.
Se l'acquisizione delle informazioni dalle tabelle è fondamentale per il tuo caso di utilizzo, considera l'utilizzo di un modello preaddestrato. Per ulteriori informazioni sulla creazione di un modello SDU preaddestrato, vedi Applica un modello SDU preaddestrato.
Quando utilizzare Smart Document Understanding
Lo strumento SDU (Smart Document Understanding) funziona meglio con alcuni tipi di progetto.
-
Lo strumento è più utile quando viene utilizzato con i progetti Document Retrieval. Utilizzare lo strumento per suddividere i documenti in blocchi di informazioni più piccoli e più consumabili. Quando aiuti Discovery a indicizzare la serie corretta di informazioni nei tuoi documenti, migliori le risposte che la tua applicazione può trovare e restituire.
Ad esempio, i tuoi documenti potrebbero contenere suggerimenti mostrati nelle sezioni con un'intestazione H4. Se si desidera estrarre le informazioni da questi suggerimenti separatamente, è possibile aggiungere un campo denominato
tips
e insegnare al modello a riconoscerlo. Dopo aver applicato il modello alla tua raccolta, puoi applicare un arricchimento solo al campotips
. In seguito, è possibile limitare la ricerca per restituire il contenuto solo dal campotips
.Oppure si dispone di documenti di dimensioni maggiori che contengono sottosezioni. È possibile insegnare al modello SDU a riconoscere queste sottosezioni e quindi suddividere il documento di grandi dimensioni in più documenti, più piccoli e più facili da gestire che iniziano con una di queste sottosezioni.
-
Il modo migliore per preparare una raccolta da utilizzare nei progetti Ricerca conversazionale consiste nell'identificare coppie discrete di domande e risposte. È possibile utilizzare lo strumento SDU per trovarli e annotarli. Se configuri il progetto per contenere le risposte in un campo di risposta, devi aggiornare la configurazione di ricerca in watsonx Assistant per ottenere il corpo della risposta dal campo di risposta personalizzato.
-
Un modello SDU preaddestrato viene applicato automaticamente ai progetti Document Retrieval for Contracts. Il modello SDU preaddestrato sa riconoscere termini e concetti significativi per i contratti. Di conseguenza, non è possibile applicare un modello SDU con formazione utente a questo tipo di progetto, ma non è necessario.
-
Lo strumento SDU viene utilizzato raramente con progetti Content Mining.
È possibile utilizzare lo strumento SDU per annotare solo i seguenti tipi di file:
- File di immagine (PNG, TIFF, JPG)
- Microsoft PowerPoint
- Microsoft Word
Per un elenco completo dei tipi di file supportati da Discovery, vedi Tipi di file supportati.
Lo strumento Smart Document Understanding utilizza OCR (optical character recognition) per estrarre il testo dalle immagini nei file che analizza. Le immagini devono soddisfare i requisiti minimi di qualità supportati da OCR. Per ulteriori informazioni, consultare Riconoscimento dei caratteri ottici.
Lo strumento non può leggere documenti con le seguenti caratteristiche; rimuoverli dalla raccolta prima di iniziare:
- I documenti che sembrano avere un testo che si sovrappone ad altro testo sono considerati doppiamente sovrapposti e non possono essere annotati.
- I documenti che contengono più colonne di testo su una singola pagina non possono essere annotati.
Quando si costruisce un modello personalizzato di comprensione intelligente dei documenti, il tempo di conversione della raccolta può aumentare a causa delle risorse necessarie per applicare il modello AI ai documenti.
Inizia con i documenti rappresentativi
I documenti sono disponibili in tutte le forme e dimensioni. La raccolta potrebbe avere una combinazione di diverse strutture di documenti. Smart Document Understanding funziona meglio quando i documenti in una singola raccolta hanno caratteristiche di stile simili. Ad esempio, i documenti utilizzano colori e dimensioni dei caratteri congruenti per titoli e intestazioni e le tabelle nel documento hanno layout simili. Per creare il modello migliore per la tua raccolta, fai questo passo prerequisito:
-
Esaminare i documenti per ricercare i pattern di stile e layout, quindi separare i documenti in gruppi in base allo stile.
Ad esempio, se i dati contengono documenti che seguono quattro stili di formattazione differenti, suddividere i documenti in quattro raccolte separate, una per ogni stile. Aggiungi documenti con un layout e uno stile uniformi a ogni raccolta. Una buona dimensione di destinazione per raccolta è di 40 documenti.
-
Utilizza lo strumento SDU per annotare questa serie rappresentativa di documenti e formare Watson per riconoscere il contenuto personalizzato nei dati.
-
Applicare il modello SDU personalizzato alla collezione completa. Per ulteriori informazioni, consultare Riutilizzo dei modelli SDU.
Creazione del modello
Per applicare un modello Smart Document Understanding preparato dall'utente alla tua raccolta, completa la seguente procedura:
-
Aprire la pagina Gestisci raccolte dal pannello di navigazione.
-
Se il tuo progetto ha più di una raccolta, seleziona la raccolta con i documenti che vuoi annotare.
-
Aprire la pagina Identificare i campi.
-
Scegliere Modelli addestrati dall'utente.
L'opzione Solo estrazione testo viene utilizzata per impostazione predefinita. Con questo modello, qualsiasi testo riconosciuto nei documenti di origine viene indicizzato nel campo
text
. -
Fare clic su Inoltra, quindi fare clic su Applica modifiche e rielabora.
È disponibile un sottoinsieme di documenti da annotare. Una serie di 20-50 documenti viene visualizzata in un elenco. Il numero di documenti disponibili varia in base a diversi fattori, incluso il numero complessivo di documenti nella raccolta e il numero di tipi di file supportati.
Se un documento di addestramento, utilizzato per addestrare un modello SDU, subisce modifiche al layout o alla struttura in Discovery, le annotazioni precedenti non sono più valide. Per aggiornare il modello SDU, è necessario annotare nuovamente i documenti aggiornati dopo averli ingeriti. In caso contrario, le annotazioni precedenti vengono mappate in modo errato con il contenuto del testo e le pagine di annotazione corrispondenti nell'interfaccia utente diventano confuse.
Video di etichettatura
Il seguente video mostra come selezionare un'etichetta e quindi applicarla a una rappresentazione del testo nel documento.
Nel video, l'utente fa clic sull'etichetta del campo title
e quindi sul blocco di testo che rappresenta il titolo della pagina Sommario per etichettare il testo come titolo. Successivamente, l'utente fa clic sull'etichetta
del campo table_of_contents
e seleziona il blocco di testo dell'indice per etichettarlo. Quindi, l'utente fa clic sull'etichetta del campo footer
e sul blocco di testo che rappresenta il piè di pagina. Dopo che il
testo è etichettato, l'utente fa clic sul pulsante Inoltra pagina.
Etichettatura dei documenti
Prima di iniziare, ottieni un'idea della struttura del documento che intendi annotare. Esistono sezioni sottotitolate che si desidera vengano restituite dal rilevamento per risposta? In caso affermativo, identificare tutti i sottotitoli. Successivamente è possibile dividere il documento in documenti secondari discreti, ciascuno dei quali inizia con un sottotitolo. Per ulteriori informazioni, consultare Quando utilizzare Smart Document Understanding.
Per etichettare i documenti, completare la seguente procedura:
-
Rivedere l'anteprima del documento.
Viene visualizzata una vista del documento originale insieme a una rappresentazione del documento, in cui il testo viene sostituito da blocchi.
I blocchi sono tutti il colore dell'etichetta del campo
text
perché tutto il testo corrente è considerato testo standard e verrà indicizzato nel campotext
.Blocchi di etichette che rappresentano tipi specifici di informazioni, come titoli o piè di pagina, con altre etichette di campo. Ad esempio, quando si applica l'etichetta del campo del titolo a un titolo del documento che altrimenti verrebbe indicizzato come testo, si definisce una rappresentazione più precisa del contenuto del documento.
Il processo di utilizzo delle etichette per identificare parti differenti della struttura del documento è denominato annotazione del documento.
-
Esaminare le etichette del campo che è possibile utilizzare per annotare il documento. Vengono visualizzati nel riquadro Etichette campo.
Consultare la tabella Etichette campo predefinite per un elenco dei campi e le relative descrizioni.
-
Per creare un'etichetta di campo personalizzata, fare clic su Crea nuovo.
-
Specificare un'etichetta campo senza spazi. Ad esempio,
complex_task
è un'etichetta campo valida.Evitare di utilizzare un nome di etichetta del campo o caratteri di inclusione, come un cancelletto (#) o un punto (.), nel nome che hanno un significato speciale per Discovery. Per ulteriori informazioni, consultare Modalità di gestione dei campi.
-
Se si desidera modificare il colore utilizzato per rappresentare il campo, fare clic ripetutamente sul blocco di colori
finché non viene visualizzato nel colore che si desidera utilizzare.
Non è possibile modificare il colore dell'etichetta campo in un secondo momento.
-
Fai clic su Crea.
-
-
Innanzitutto, fare clic sull'etichetta di un campo per attivarla.
-
Successivamente, fare clic sul blocco che rappresenta il contenuto che si desidera etichettare come tipo di campo.
Il blocco cambia il colore dell'etichetta del campo. Il campo è stato etichettato correttamente.
-
Ripetere questo processo per annotare più campi nel documento.
Non preoccuparti. Non è necessario etichettare ogni pagina. Quando si applicano le etichette e si inoltrano le pagine, Watson impara da ciò che si annota e inizia a prevedere le annotazioni.
Seguire queste indicazioni:
- Se non c'è nulla di speciale in una sezione, lascialo etichettato come
text
, che viene applicato per impostazione predefinita. - Un'etichetta non può estendersi su più pagine.
- Non trattare in modo diverso il testo in grassetto, corsivo o sottolineato. L'etichetta è basata sul contesto, non sullo stile.
- Utilizzare un'etichettatura coerente su tutti i documenti.
- Lavorare dalla prima pagina di un documento multipagina all'ultima.
- Per rimuovere una sola annotazione, scegliere un'altra etichetta (come
text
) e applicarla all'elemento per sovrascrivere l'annotazione precedente. - Per rimuovere le annotazioni aggiunte a un'intera pagina, fare clic sull'icona Cancella modifiche nella barra degli strumenti.
- Per annotare una tabella, fare clic sul testo all'inizio della tabella e quindi trascinare per selezionare il testo nell'intera tabella.
- Quando etichetta una o più tabelle, l'arricchimento Table Understanding viene abilitato automaticamente per l'intera raccolta. Per ulteriori informazioni, vedi Descrizione delle tabelle.
- le immagini dei documenti di origine non sono rappresentate nell'anteprima. Se OCR (Optical Character Recognition) è abilitato, qualsiasi testo dell'immagine o del diagramma viene estratto e rappresentato nell'anteprima.
- Non etichettare spazi vuoti.
- Se non c'è nulla di speciale in una sezione, lascialo etichettato come
-
Quando tutto ciò che si desidera etichettare è etichettato, inviare la pagina. Fare clic su Inoltra pagina.
Continuare ad annotare i documenti fino a quando Watson non sarà in grado di associare in modo corretto e coerente diversi tipi di contenuto ai campi appropriati.
-
Dopo aver insegnato a Watson a identificare i campi, fare clic su Applica modifiche e rielabora.
I campi personalizzati definiti utilizzando lo strumento SDU vengono indicizzati come campi di livello root.
Cosa fare successivamente
Quando crei un modello con formazione utente, modifichi la posizione in cui vengono archiviate le informazioni nei documenti. Successivamente, modificare la procedura di configurazione dei risultati della ricerca. Per impostazione predefinita, i risultati della ricerca vengono richiamati dai passaggi o dal campo di testo. È possibile che si disponga di un campo migliore da utilizzare come origine del corpo del risultato. Per ulteriori informazioni, consultare Modifica del contenuto del risultato.
Se il tuo progetto viene utilizzato da un assistente virtuale, aggiorna la configurazione della capacità di ricerca per estrarre il corpo della risposta da un campo differente. Per ulteriori informazioni, consultare Configurazione della ricerca.
Puoi applicare gli arricchimenti, arricchimenti personalizzati o precostruiti, ai nuovi campi root generati dal modello SDU.
Se si desidera restituire un frammento di testo più breve con un risultato della ricerca, è possibile suddividere i documenti in base a uno dei nuovi campi definiti, ad esempio capitolo o sezione.
Campi disponibili
I seguenti campi sono disponibili per essere applicati ai documenti utilizzando lo strumento Smart Document Understanding.
I campi sono arbitrari. È possibile applicare il campo image
a ogni titolo del documento, se lo si desidera. Anche se, potrebbe essere difficile sapere in quale campo cercare in seguito le informazioni necessarie se i nomi dei
campi non corrispondono al contenuto. La serie predefinita è un tipo di campo rappresentativo che consente di iniziare. Solo i campi text
e table
hanno un significato speciale. Non utilizzarli per identificare elementi
diversi da testo e tabelle.
Campo | Definizione |
---|---|
answer |
In una coppia di domande e risposte (spesso in una FAQ), la risposta alla domanda. |
author |
Nome dell'autore o degli autori. |
footer |
Usare questo tag per indicare le meta-informazioni sul documento (come il numero di pagina o i riferimenti), che appaiono alla fine della pagina. |
header |
Utilizzare questo tag per indicare le meta-informazioni sul documento che appaiono all'inizio della pagina. |
question |
In una coppia di domande e risposte (spesso in una FAQ), la domanda. |
subtitle |
Il titolo secondario del documento. |
table_of_contents |
Utilizzare questo tag per gli elenchi nell'indice del documento. |
text |
Per impostazione predefinita, ogni blocco di testo nel documento è etichettato come testo. Applicare etichette diverse solo ai blocchi di testo con significato speciale. |
title |
Il titolo principale del documento. |
table |
Utilizza questa tag per annotare le tabelle nel tuo documento. |
image |
Le immagini non vengono visualizzate nell'anteprima del documento. Se si abilita OCR, nell'anteprima viene invece visualizzato il testo di un'immagine o di un diagramma. Se si desidera impedire che il testo di alcune immagini venga incluso nei risultati della ricerca, contrassegnare il testo dell'immagine come immagine. È possibile escludere il campo immagine dall'indice successivamente. |
Riutilizzo di modelli SDU
Dopo aver definito un modello con lo strumento SDU, è possibile salvarlo e riutilizzarlo in altre raccolte esportandolo da una raccolta e importandolo in un'altra.
L'importazione di un nuovo modello sovrascrive il modello esistente in una raccolta. Se il modello esistente è già stato addestrato, ad esempio tramite annotazioni ed etichette di campo personalizzate, l'importazione di un nuovo modello influisce sulla raccolta e può causare la perdita di dati.
Per riutilizzare un modello, completare i seguenti passaggi:
-
Esportare il modello che si desidera riutilizzare. Dal menu della barra degli strumenti SDU, selezionare Esporta modello.
caption-side=bottom" -
Creare la raccolta in cui si desidera riutilizzare il modello. Aggiungere solo un documento alla prima raccolta.
-
Importare il modello dalla barra degli strumenti SDU. Il modello esportato ha l'estensione file
.sdumodel
. -
Aggiungere il resto dei documenti alla raccolta. Aprire la scheda Attività della pagina Gestisci raccolte, quindi fare clic su Carica dati per aggiungere ulteriori file alla raccolta.
Utilizzare il modello importato così com' è. Non creare ulteriori annotazioni. Se si effettuano delle annotazioni dopo aver importato il file .sdumodel
, il modello importato verrà sovrascritto.
Limiti di Smart Document Understanding
Il numero di campi personalizzati che puoi creare per il modello Smart Document Understanding dipende dal tuo tipo di piano Discovery.
Pianifica | Campi personalizzati per modello SDU |
---|---|
Cloud Pak for Data | Illimitato |
Premium | 100 |
Enterprise | 100 |
Plus (include la versione di prova) | 40 |
Il numero massimo di documenti che puoi annotare per preparare un modello SDU per ogni raccolta dipende dal tipo di piano Discovery.
Pianifica | Documenti per raccolta |
---|---|
Cloud Pak for Data | 40 |
Premium | 40 |
Enterprise | 40 |
Plus (include la versione di prova) | 40 |
Gestione dei campi
La scheda Manage fields contiene diverse opzioni:
- Identifica campi da indicizzare
- Per ulteriori informazioni, consultare Esclusione del contenuto dai risultati della query.
- Migliorare i risultati delle query suddividendo i documenti
- Per ulteriori informazioni, consultare Suddividi documenti per rendere i risultati della query più succinti.
- Impostazioni formato data
- Per ulteriori informazioni, consultare Impostazioni formato data.
Per accedere alla pagina Gestisci campi, fare clic sull'icona Gestisci raccolte nel pannello di navigazione e aprire una raccolta. Fai clic sulla scheda Manage fields. Per ulteriori informazioni sulle raccolte, consultare Creazione di raccolte.