Classificazione dei documenti
Un modello di machine learning del classificatore di documenti analizza i documenti e li contrassegna con l'etichetta appropriata da una serie di etichette che definisci.
La classificazione dei documenti è utile quando si desidera ordinare molti documenti in gruppi in modo programmatico. Ad esempio, è possibile che si disponga di una raccolta che contiene i commenti del cliente sui prodotti che si vendono. Se è possibile ordinare automaticamente il feedback in classi, è possibile isolare i problemi urgenti che i clienti menzionano e affrontarli per primi. In base al feedback precedente, è possibile definire le classi come le seguenti etichette:
- Non funziona correttamente
- Funzioni non come pubblicizzato
- Difficile da usare
- Parti mancanti
- Le parti fornite non corrispondono all'elenco delle parti nelle istruzioni di assemblaggio
Per creare un classificatore di documenti, crei un modello di machine learning che può riconoscere quale classe meglio acquisisce il punto di feedback del cliente specificato in linguaggio naturale. Le si associa a etichette di classe che rappresentano scenari reali che hanno senso per la propria azienda.
- Qual è la differenza tra un classificatore di documenti e un classificatore di testo?
- Un classificatore di documenti può classificare i documenti in base alle parole e alle frasi estratte dai campi di testo del corpo con le informazioni dalla loro parte del discorso e gli altri arricchimenti applicati al testo del corpo presi in considerazione. Vengono utilizzate anche le informazioni provenienti da altri campi non - body. Un classificatore di testo può classificare i documenti in base alle parole e alle frasi estratte dal testo del corpo tenendo conto della loro parte di informazioni vocali. Per ulteriori informazioni su come creare un classificatore di testo, vedi Classificatore.
Prima di iniziare
Per addestrare il modello del classificatore di documenti, devi fornire documenti di esempio etichettati in modo appropriato. Preparare i seguenti file:
- Dati di addestramento
-
Obbligatorio. File CSV utilizzato per addestrare il modello di machine learning del classificatore di documenti. Il file può contenere punti di dati chiave per colonna. I punti di dati possono variare, ma il file deve contenere le seguenti colonne:
- Testo in lingua naturale che si desidera classificare o etichettare.
- Il nome dell'etichetta o della classe che categorizza l'idea espressa nel testo del documento. È possibile applicare più di un'etichetta a un esempio di testo. Separare più valori di etichetta con un punto e virgola.
- Dati di test
-
Facoltativo. Il file CSV utilizzato per testare il modello di machine learning del classificatore di documenti dopo che è stato addestrato. Se non si specifica un file separato per il test, un sottoinsieme del contenuto dei dati di addestramento viene utilizzato per scopi di test.
- Dati di destinazione
-
Obbligatorio. File CSV con i dati che si desidera classificare.
Tutti i file CSV (addestramento, test e destinazione) devono avere gli stessi nomi colonna. I dati nelle colonne devono avere gli stessi tipi di dati, ad esempio stringa, numero e così via.
È possibile utilizzare un file CSV caricato al momento della creazione del progetto Content Mining oppure è possibile creare una nuova raccolta.
Per ulteriori informazioni, fare riferimento ai seguenti argomenti:
Esempio di dati di addestramento del classificatore documenti
La seguente tabella mostra un esempio del tipo di contenuto che potrebbe essere memorizzato nei file CSV utilizzati per addestrare un classificatore di documenti.
Id_richiesta | Data | Linea_prodotto | Prodotto | Segmenti client | Ubicazione_client | Età cliente | Feedback | Etichetta |
---|---|---|---|---|---|---|---|---|
0 | 2016/1/1 |
tè | tè al limone | Non membro | Manhattan | 20 | La paglia è stata tolta dalla confezione del succo. | contenitore pacchetto |
1 | 2016/1/2 |
gelato | gelato alla vaniglia | Membro Silver | Queens | 20 | Ho preso un gelato per i miei figli, ma c'era qualcosa come un pezzo di filo dentro la tazza. | contaminazione_manomissione |
Si noti che i due campi obbligatori sono presenti nell'esempio. I campi obbligatori hanno i seguenti nomi:
Feedback
: testo lingua naturale da etichettare.Label
: etichetta da applicare al feedback.
Apertura dell'applicazione Content Mining
In caso contrario, creare il progetto e aggiungervi una raccolta. Se hai già creato il progetto e la raccolta, puoi ignorare questa procedura e creare il classificatore di documenti.
-
In Discovery, crea un progetto Content Mining.
-
Scegliere di caricare i dati per creare la raccolta. Denominare la raccolta e fare clic su Avanti.
-
Caricare il file CSV contenente i dati di allenamento.
Il file di dati di addestramento deve contenere almeno le seguenti informazioni:
- Una colonna che contiene testo di esempio che si desidera classificare. Ad esempio, il testo di esempio potrebbe essere una revisione del prodotto.
- Una colonna che contiene un'etichetta di classe o categoria assegnata al testo di esempio.
-
Una volta completata l'elaborazione della raccolta, fare clic su Avvia applicazione per aprire l'applicazione Content Mining.
i dettagli del facet vengono visualizzati per la raccolta.
Creazione di un classificatore di documenti
Per creare un classificatore di documenti, completare i seguenti passaggi:
-
Dall'applicazione Content Mining, fare clic sul collegamento Raccolte nel breadcrumb per aprire la pagina Crea una raccolta.
Viene visualizzato lo stato di creazione indice. Attendere che la raccolta sia completamente indicizzata prima di continuare con questa procedura.
-
Per creare un classificatore, fare clic su raccolta, quindi scegliere classificatore dall'elenco.
della -
Fai clic su Create classifier.
-
Denominare il classificatore.
Quando distribuisci il modello come un arricchimento in un secondo momento, all'arricchimento viene fornito un nome con formato
{classifier name} - {model name}
. Ad esempio, se il tuo classificatore è denominatoProduct reviews
e il modello è denominatov0.1
, il nome dell'arricchimento èProduct reviews - v0.1
.Facoltativamente, aggiungi una descrizione e identifica la lingua dei tuoi dati di formazione selezionandola dal campo Lingua.
-
Fai clic su Next
-
Nella pagina Dati di addestramento, seleziona il file che hai caricato precedentemente dall'elenco e fai clic su Avanti.
In alternativa, è possibile caricare un file CSV che contenga i propri dati di addestramento.
Viene visualizzata la pagina Campi. Mostra i dettagli relativi ai campi generati dal file aggiunto. Generalmente, ogni colonna in un file CSV viene convertita in un campo e viene assegnato un nome copiato dall'intestazione della colonna.
-
Deselezionare i campi di metadati che si desidera escludere dal dataset per il proprio classificatore di documenti e fare clic su Avanti.
Tutti i campi inclusi vengono utilizzati come funzioni aggiuntive nella classificazione. Tutti i campi sono selezionati per impostazione predefinita. Potrebbe essere necessario scorrere orizzontalmente per esaminare tutti i campi.
-
Nella pagina Classificatore, specificare i campi da utilizzare per la formazione e la previsione di machine learning.
- campo Risposta
- Selezionare il campo dal file di dati di addestramento con l'etichetta di classificazione. Dall'esempio precedente, il campo
Label
è la scelta migliore. - Campo previsto
- Il nome del facet generato per i valori di classe previsti. Per impostazione predefinita, il nome facet ha la sintassi
<Answer field value>
_predicted
. Ad esempio,Label_predicted
. - Dataset di test
- Specifica il data set da utilizzare per verificare il modello del classificatore. Per impostazione predefinita, il file CSV dei dati di training che hai caricato e configurato è suddiviso in tre dataset che vengono utilizzati rispettivamente per la formazione, la convalida e il test. Tuttavia, è possibile specificare facoltativamente un dataset separato da utilizzare per il test del modello.
- Addestra modello federato
- Crea più di un modello, in base ai valori da un campo specifico nell'insieme di dati. Ad esempio, se il documento ha un campo
Product
, è possibile configurare il classificatore per creare un modello di classificatore separato per ogni valore del nome prodotto specificato nel campo. Per impostazione predefinita, il classificatore crea un unico modello di classificatore di machine learning.
Non è necessario specificare il campo che contiene il testo da classificare. Il sistema rileva automaticamente questo campo. È possibile controllare da quale campo viene estratto il testo analizzabile e modificarlo o aumentarlo modificando il tipo di indice di un altro campo. Per ulteriori informazioni, consultare Identificazione del campo di testo.
Fare clic su Avanti.
-
Se vuoi applicare un arricchimento al testo nei tuoi dati di addestramento, seleziona almeno un campo dall'elenco Campi di destinazione dove vuoi applicare gli arricchimenti.
Di solito, si desidera scegliere il campo che contiene il testo che si desidera classificare. Dall'esempio precedente, il campo
Feedback
è la scelta migliore.Quindi, selezionare gli annotatori che si desidera applicare per arricchire il testo nel campo o nei campi di destinazione, quindi fare clic su Avanti.
L'annotatore Parte del discorso è selezionato per impostazione predefinita.
-
Nella pagina Conferma, esamina le tue impostazioni di configurazione del classificatore. Per apportare modifiche, utilizzare il pulsante Indietro. Altrimenti, fare clic su Salva.
Viene visualizzata la pagina Panoramica.
-
Fai clic su Nuovo modello per creare e preparare il tuo modello di machine learning.
-
Facoltativamente, è possibile modificare il nome del modello e aggiungere una descrizione.
È possibile modificare i valori di rapporto predefiniti specificati per i seguenti dataset:
- Dataset di addestramento: aggiorna i pesi del modello di addestramento.
- Serie di convalida: monitora l'accuratezza del modello di addestramento durante l'addestramento. Il risultato di precisione viene utilizzato per tracciare un grafo di perdita di addestramento.
- Dataset di test: calcola il punteggio del modello sottoposto a training.
-
Fai clic su Crea.
Il completamento dell'addestramento del modello potrebbe richiedere diversi minuti.
Distribuzione del modello classificatore documenti
Dopo che il modello è stato preparato, distribuisci il modello come un arricchimento.
-
Fare clic sull'icona del menu di overflow nella colonna Azioni, quindi fare clic su Distribuisci modello. Specificare il nome e altri dettagli, quindi fare clic su Distribuisci.
-
Effettua una delle operazioni riportate di seguito:
-
Per applicare il classificatore di documenti a una raccolta nel progetto Content Mining, consultare Arricchimento della raccolta.
-
Per applicare il classificatore di documenti a una raccolta in un progetto differente, completare la procedura riportata di seguito:
-
In Discovery, crea o apri la raccolta che ha i documenti che vuoi classificare.
I dati nella raccolta in cui applichi l'arricchimento devono avere gli stessi campi della raccolta che hai utilizzato per addestrare il modello.
-
Nella scheda Arricchimento, individua il tuo classificatore nella colonna Nome. Dal campo Campi da arricchire, scegliere lo stesso campo di testo utilizzato per addestrare il modello. (Questo campo è determinato dal sistema ed è indicizzato come campo Contenuto testo analizzabile. Per ulteriori informazioni, consultare Identificazione del campo di testo.)
-
Fai clic su Apply changes and reprocess.
-
-
Risultati della classificazione
Una volta applicato l'arricchimento a una raccolta, viene generato un facet che è possibile utilizzare per trovare le classi previste. In questo esempio, il campo previsto è denominato label_answer_predicted
.

Utilizzare il facet generato per filtrare i documenti per classificazione e analizzare sottoinsiemi di documenti. In questo modo è possibile trovare i modelli e scoprire altre informazioni. È possibile esportare questi documenti di destinazione per condividerli con i membri del team o per analizzarli ulteriormente. Per ulteriori informazioni, consultare Esportazione dei dati.
Quando il classificatore di documenti classifica un documento, memorizza la classificazione nel campo document_level_enrichment.classes.class_name
.
Ad esempio, il seguente estratto JSON mostra un documento classificato con la classe package_container
.

Limiti classificatore documenti
Il numero di classificazioni ed etichette del documento che puoi creare per istanza del servizio dipende dal tuo tipo di piano Discovery.
Limite | Enterprise | Premium | Cloud Pak for Data |
---|---|---|---|
Numero di classificatori di documenti per istanza del servizio | 20 | 20 | Illimitato |
Numero di righe di dati etichettate | 20.000 | 20.000 | 20.000 |
Dimensione massima in MB dei dati di training dopo l'arricchimento | 1,024 | 1,024 | 1,024 |
Numero di etichette | 1.000 | 1.000 | 1.000 |
Numero di campi obiettivo | 50 | 50 | 50 |