IBM Cloud Docs
Definisci entità personalizzate

Definisci entità personalizzate

Insegna a Discovery i termini significativi per la tua azienda creando un estrattore di entità.

Un estrattore di entità è un modello di machine learning che riconosce e contrassegna i termini che indichi come significativi per le tue esigenze aziendali o per il tuo caso di utilizzo. Quando si crea un estrattore entità, è possibile decidere il contenuto e l'ambito delle informazioni da trovare ed estrarre. L'estrattore può estrarre uno dei seguenti elementi:

  • Termini che rappresentano oggetti, come nomi di verdure da ricette di cucina o la marca e il modello di auto da rapporti di incidente
  • Attributi degli oggetti, ad esempio colore e quantità
  • Frasi brevi, come 107 deaths in France, revenue of $343M

Un tipo di entità è un tipo di oggetto. Per creare un estrattore di entità, definisci una serie di tipi di entità che ti interessano. Annoti quindi una raccolta dei tuoi propri documenti trovando termini o frasi che rappresentano il tipo di informazioni che vuoi estrarre e etichettandole come esempi di entità.

Dopo aver definito i tipi di entità e etichettato gli esempi di entità, è possibile generare un modello di machine learning. Il modello apprende le informazioni che ti interessano in base al modo in cui i termini o le frasi che etichetti come esempi vengono indicati nelle frasi. Il modello apprende dal contesto e dalla lingua con cui si fa riferimento agli esempi di entità nei dati di addestramento.

Dopo che il modello di machine learning è stato addestrato abbastanza bene per riconoscere i tipi di entità, puoi pubblicare il modello come arricchimento e applicare l'arricchimento ai nuovi documenti. L'arricchimento dell'estrattore di entità personalizzato riconosce e contrassegna le nuove citazioni degli stessi termini e termini simili come ricorrenze dei tipi di entità a cui tieni.

Per ulteriori informazioni su come utilizzare l'estrattore di entità per aggiungere la personalizzazione del dominio alle tue applicazioni AI, consulta il post del blog Entity Extractor Feature in Watson Discovery v2.

Discovery ha anche un arricchimento Entità integrato che può essere applicato direttamente alla tua raccolta. Non richiede alcuna formazione per riconoscere i nomi propri comunemente noti. Per ulteriori informazioni sull'arricchimento delle entità NLP Watson, vedi Entità.

Hai già creato un sistema di tipo di entità in Knowledge Studio? Puoi utilizzare il corpus associato al tuo modello di machine learning come punto di inizio per i dati di addestramento del tuo estrattore di entità. Per ulteriori informazioni, vedi Importazione di un corpus.

Per informazioni sulle lingue con cui è possibile utilizzare il programma di estrazione entità, consultare Supporto lingua.

Video della panoramica dell'estrattore di entità

Questo video fornisce una panoramica su come definire i tipi di entità personalizzati e utilizzarli per estrarre i termini di interesse dai dati.

Per leggere una trascrizione del video, aprire il video su YouTube.com, fare clic sull'icona Altre azioni e scegliere Apri trascrizione.

Esempio

Se hai familiarità con l'arricchimento Entità integrato, sai che l'arricchimento può riconoscere i termini che corrispondono alle categorie generalizzate, come Person e Location. Con l'estrattore di entità, è possibile controllare ciò che costituisce termini o frasi significativi.

La seguente immagine mostra i termini che un arricchimento che riconosce le citazioni del tipo di entità family members potrebbe estrarre dal testo. L'esempio illustra come possono essere previste le citazioni del membro della famiglia e altre citazioni dell'entità (che sono riconosciute dall'arricchimento Entità integrato).

Mostra un estratto da Orgoglio e pregiudizio con citazioni di membri della famiglia (figlia, sorelle, madre) e entità (Mr. Bennett, Mr. Bingley, Netherfield, Longbourn) etichettate.
Labeled entity examples

Questo estratto proviene dal Capitolo 3 di Orgoglio e pregiudizio di Jane Austen.

Prima di iniziare

Trovare o creare una raccolta con documenti che hanno vari esempi dei tipi di entità di cui si desidera che il rilevamento acquisisca informazioni. Per insegnare all'estrattore, è necessario etichettare esempi di tipi di entità. È possibile etichettare gli esempi solo se la raccolta contiene esempi validi. Provare a trovare documenti con molti e diversi termini che funzionano come esempi di ogni tipo di entità che si desidera definire.

Aggiunta di un estrattore entità

Per aggiungere un estrattore entità, completare la seguente procedura:

  1. Aprire il progetto in cui si desidera creare l'estrattore entità.

    Il progetto deve avere almeno una raccolta con documenti rappresentativi dei dati di dominio.

  2. Dal pannello Strumenti di miglioramento della pagina Migliora e personalizza, espandere Concetti di dominio Teach e fare clic su Estrai entità.

  3. Fai clic su New.

    Se vuoi creare un estrattore di entità basato sul sistema del tipo di entità da un corpus IBM Watson® Knowledge Studio, fai clic sulla freccia e scegli Importa un corpus Knowledge Studio. Per i passi successivi, consultare Importazione di un corpus Knowledge Studio.

  4. Aggiungere un nome estrattore e facoltativamente una descrizione.

    Questo nome viene utilizzato come nome del modello e come nome dell'arricchimento creato quando si pubblica il modello. Il nome viene visualizzato come il nome dell'arricchimento nella pagina Arricchimento in cui tu e altri potete applicarlo alle raccolte. Viene anche visualizzato come il nome del modello nella rappresentazione JSON dei documenti in cui vengono trovate entità personalizzate. Il nome viene memorizzato con le maiuscole e le spaziature specificate.

  5. Scegli una raccolta con documenti rappresentativi dei tuoi dati di dominio.

  6. Scegliere i campi dal documento da mostrare nella vista del documento in cui etichettare i documenti dalla raccolta.

    • Titolo documento viene visualizzato nell'intestazione della pagina come nome del documento. Scegliere un campo che abbia un valore univoco per documento, come il nome file, memorizzato nel campo extracted_metadata.filename.
    • corpo del documento è il punto in cui si etichettano gli esempi di entità. Scegliere un campo che contenga la maggior parte del contenuto del documento, ad esempio il campo text.

    Mostra che PP3.docx è il titolo del documento e il pannello di testo principale mostra il campo del corpo.
    Label documents page

  7. Fai clic su Crea.

Un documento della raccolta selezionata viene visualizzato nella vista Documenti etichetta. Etichetterai le occorrenze dei tipi di entità che si desidera che Discovery riconosca da questo e altri documenti nella raccolta.

Se non viene visualizzato alcun testo nel corpo della pagina, ricominciare da capo creando un nuovo estrattore di entità. Questa volta, quando si seleziona un valore per il campo Corpo del documento, assicurarsi di selezionare un campo dai propri documenti elaborati che contiene testo.

Definizione di tipi di entit ...

Definire i tipi di entità completando la seguente procedura:

  1. Fare clic su Aggiungi un tipo di entità.

  2. Aggiungere il nome del tipo di entità e una descrizione facoltativa.

    Utilizzare una convenzione di denominazione che funzioni per i dati. L'arricchimento Entità integrato utilizza le maiuscole iniziali e non spazi, ad esempio EmailAddress. Per distinguere le tue entità dalle entità estratte da altri arricchimenti, potresti voler utilizzare una convenzione diversa.

  3. Facoltativo: selezionare il colore da utilizzare per evidenziare il testo nel documento che si desidera etichettare come esempio di questo tipo di entità.

    È possibile fare clic su un colore dalla tavolozza Colore etichetta, fare clic sull'icona Rinnova colore per passare da un colore all'altro. Per utilizzare un colore personalizzato, specificarne il codice colore esadecimale (#fff0f7).

  4. Fai clic su Crea.

  5. Ripetere questo processo per aggiungere tutti i tipi di entità che si desidera vengano riconosciuti dall'estrattore.

    Se non si è certi di cosa aggiungere per i tipi di entità, potrebbe essere utile esaminare prima i documenti nella raccolta. Esaminando il contenuto, è possibile avere un'idea di quali termini hanno un significato significativo e cercare modi logici per raggruppare tali termini.

Etichetta termini significativi

Dalla vista Etichetta documenti, individuare i termini di significato nei documenti della propria raccolta ed etichettarli per indicarne i tipi di entità.

Prima di iniziare a etichettare i documenti, decidere se si desidera mantenere l'etichettatura in massa abilitata. La funzione di etichettatura di massa è un ottimo modo per velocizzare il processo di etichettatura dei documenti. Quando questa opzione è abilitata, ogni termine etichettato viene etichettato automaticamente ovunque si trovi nel documento. Altrimenti, è necessario etichettare ogni ricorrenza del termine uno alla volta.

Se si decide che non si desidera creare esempi di etichette di massa, impostare Esempi di entità di etichette di massa su Disattivo. Per ulteriori informazioni, vedi Esempi di etichettatura in massa.

Suggerimenti per l'etichettatura

Rivedere questi suggerimenti prima di iniziare:

  • La raccolta di documenti etichettata deve contenere una serie rappresentativa di documenti. I documenti devono avere molti e vari esempi dei tipi di entità che si desidera che l'estrattore di entità riconosca. Se la raccolta selezionata quando si è iniziato a creare il programma di estrazione entità non soddisfa il requisito, arrestare ora e ricominciare con una raccolta di documenti diversa.
  • Definire tipi di entità chiaramente distinti tra loro.
  • Cercare di etichettare almeno 40 esempi di ciascun tipo di entità.
  • Etichettare ogni esempio valido di un tipo di entità. Non ignorare alcuna ricorrenza. Per velocizzare il processo, utilizzare la funzione di etichettatura di massa.

Esempi di entità di etichettatura

Etichettare i termini nel documento che rappresentano esempi dei tipi di entità definiti. Una volta terminato con un documento, passare lo stato del documento da In corso a Completo, quindi passare al documento successivo.

Per etichettare gli esempi di entità, completare la seguente procedura:

  1. Rivedere il testo del documento. Ricercare gli esempi di entità da etichettare.

    La tabella seguente mostra alcuni esempi.

    Tipi ed esempi di entità
    Tipo di entità Esempi da etichettare nel documento
    colore bianco, verde, viola
    Car Convertibile, SUV, berlina
    modello_automatico Explorer, Civico, Sorrento
    auto_produttore Ford, Honda, Kia
    clothing camicia, camicetta, skort
    strumenti obbligazioni, azioni, ETF, munis

    Se un tipo di entità che si desidera identificare non è ancora stato creato, aggiungerlo. Dal pannello Tipi di entità, fare clic su Crea nuovo. Per ulteriori informazioni sull'aggiunta di tipi di entità, vedi Definizione dei tipi di entità.

  2. Innanzitutto, fare clic sul tipo di entità dal pannello Tipi di entità.

  3. Nel corpo del documento, selezionare la parola o la frase che rappresenta l'esempio di entità.

    Il termine viene selezionato e al termine viene applicata un'etichetta di colore. I primi due caratteri del nome del tipo di entità vengono visualizzati in maiuscolo all'interno del limite dell'etichetta. Sia l'ID di 2 caratteri che il colore dell'etichetta consentono di associare l'esempio al tipo di entità che rappresenta.

    Mostra che un'etichetta viene applicata alla parola moglie in una frase.
    A label is applied to an entity example

    Il testo di esempio viene aggiunto anche al pannello Tipi di entità. Se si fa clic sul chevron per visualizzare i dettagli, è possibile vedere che l'esempio è elencato. Il testo di esempio viene salvato in minuscolo, indipendentemente dalla maiuscola utilizzata nel testo originale.

  4. Se l'etichettatura in massa è abilitata, viene visualizzata una notifica per mostrare il numero di ricorrenze del termine che sono state trovate ed etichettate nel documento corrente.

  5. Se si desidera etichettare le ricorrenze del termine in tutti i documenti della raccolta, fare clic su Applica a tutti i documenti.

    Quando si abilita questa opzione, le occorrenze del termine vengono etichettate in tutti i documenti della raccolta, inclusi i documenti già esaminati e contrassegnati come completi.

    Ti viene richiesto di confermare l'azione perché non può essere annullata. Se non si desidera confermare l'azione ogni volta che si sceglie di applicare l'etichettatura in blocco a tutti i documenti, selezionare Non richiedere di nuovo la conferma. Fai clic su Run.

    Mostra la finestra di dialogo di conferma dell'etichettatura in massa.
    Bulk labeling configuration confirmation

    Per ulteriori informazioni, vedi Esempi di etichettatura in massa.

  6. Scorrere il documento per etichettare ogni esempio valido di ogni tipo di entità che si desidera venga riconosciuto dall'estrattore.

    È possibile ricercare termini che si desidera etichettare come esempi di entità. Per ulteriori informazioni, vedi Ricerca di esempi utilizzando le parole chiave.

    Il modello di machine learning impara tanto dai termini che non si etichettano come i termini che si fanno.

    Se ti perdi etichettare un esempio valido, il modello apprende che quando il termine viene utilizzato in tale contesto, non è una citazione valida del tipo di entità. In alcuni casi, un'omissione è appropriata. Ad esempio, alcuni termini hanno significati differenti in contesti differenti. Non si desidera etichettare il termine quando viene utilizzato nel contesto errato. Tuttavia, se il termine viene utilizzato nel giusto contesto e non lo si etichetta, si sta insegnando al modello a ignorarlo. Si riduce l'efficacia del modello quando i dati di addestramento sono incongruenti.

    Dopo aver etichettato molti esempi, vengono visualizzati i suggerimenti di esempio dell'entità. È possibile accettare o rifiutare i suggerimenti di esempio di entità.

    Mostra la richiesta che viene visualizzata per chiedere se si desidera accettare un suggerimento.
    Decide whether to accept a suggestion

    Accettare i suggerimenti di esempio è un altro modo per velocizzare il processo di etichettatura. Per ulteriori informazioni, consultare Suggerimenti di esempio entità. Dopo aver accettato un suggerimento, è possibile etichettare il termine in massa.

  7. Se si commette un errore e si etichetta la parola sbagliata o una parola è stata etichettata in modo non corretto dal processo di etichettatura di massa, è possibile eliminare l'etichetta.

    Passare con il mouse sulla parola etichettata fino a quando non viene visualizzata l'opzione Elimina questo esempio e fare clic su di essa. Puoi scegliere di eliminare solo questa citazione o tutte le citazioni nel documento. Effettuare una scelta e fare clic su Elimina.

  8. Dopo aver etichettato tutti gli esempi di entità nel documento corrente, modificare lo stato del documento da In corso a Completo.

    Viene visualizzato un altro documento della raccolta.

  9. Esempi di etichetta dei tipi di entità in ogni documento nella raccolta.

    In qualsiasi momento durante il processo di etichettatura, è possibile fare clic su Salva estrattore entità per salvare il lavoro.

  10. Se non si dispone di esempi sufficienti nella serie corrente di documenti, è possibile aggiungere ulteriori documenti.

    Dal pannello Elenco documenti, fare clic su Aggiungi documenti. L'opzione è disponibile solo quando nella raccolta sono disponibili più documenti. È possibile aggiungere fino a 20 documenti. Se è abilitata l'etichettatura in massa per tutti i documenti, le etichette vengono applicate automaticamente ai documenti appena aggiunti.

  11. Dopo aver etichettato gli esempi in tutti i documenti della raccolta desiderati, fare clic su Salva estrattore entità, quindi aprire la pagina Estrattore di treno.

Esempi di etichettatura in massa

Per la maggior parte degli esempi di entità, è utile abilitare la funzione di etichetta di massa. È possibile ignorarlo se un termine ha più di un significato in contesti differenti. In tal caso, valutare ogni ricorrenza singolarmente. Se si abilita la funzione di etichetta di massa, è possibile controllare l'accuratezza delle etichette che sono state aggiunte automaticamente e apportare le correzioni quando necessario durante la revisione del documento.

Dopo aver abilitato la funzionalità dell'etichetta di massa, viene visualizzata una notifica che indica quante ricorrenze di un esempio di entità sono state trovate nel documento corrente. Dalla pagina corrente, lo strumento di etichettatura non può accedere ad altri documenti per segnalare quante ricorrenze esistono in altri documenti della raccolta. Tuttavia, il conteggio delle citazioni viene mostrato nel pannello Tipi di entità. Quando apri per la prima volta altri documenti, puoi controllare il conteggio delle citazioni per vedere quante citazioni sono state etichettate automaticamente.

La funzione dell'etichetta di massa non ha rilevato una ricorrenza?

Le ricorrenze del termine non vengono etichettate se si verificano nella stessa frase in cui il termine è già etichettato. Ad esempio, la prima ricorrenza del termine husband non è etichettata quando la funzione di etichetta di massa è attivata per la seconda ricorrenza del termine nella frase seguente.

Mostra quando a una ricorrenza sovrapposta non viene assegnata un'etichetta dalla funzione di etichetta di massa.
Treatment of overlapping labels

Suggerimenti di esempio entità

Dopo aver etichettato abbastanza esempi, vengono visualizzati gli esempi del tipo di entità suggeriti. Il sistema apprende dai tipi di esempi etichettati e applica ciò che apprende per identificare potenziali nuovi esempi. Ad esempio, dopo aver etichettato red, orange, yellow, green e blue come esempi del tipo di entità color, il pannello Suggerimenti di esempio potrebbe mostrare indigo e violet come esempi suggeriti da etichettare. I suggerimenti non vengono visualizzati fino a quando non si etichettano molti esempi di tipo di entità.

Il seguente esempio mostra i suggerimenti fatti per le citazioni dei membri della famiglia.

Mostra i suggerimenti per le entità membro della famiglia.
Entity example suggestions

Si potrebbe notare che un termine scelto per l'etichetta di massa non è etichettato, ma viene visualizzato come un suggerimento. Un termine viene ignorato nelle seguenti situazioni:

  • Il termine potrebbe essere presente in frasi di nomi differenti in sezioni differenti del documento. Ad esempio, il termine father potrebbe essere presente nelle frasi dei nomi the kindest *father* e to her *father*. Quando una parola è inclusa in una frase sostantivo con aggettivi, il significato può cambiare. Pertanto, tali termini a volte sono suggeriti piuttosto che etichettati automaticamente.
  • Una parola potrebbe essere un esempio valido da sola e come parte di una citazione di più parole. Ad esempio, una menzione di IBM potrebbe riferirsi alla società International Business Machines, Corp. o potrebbe essere usata come parte del nome di un prodotto, come IBM Cloud Pak for Data. Tuttavia, una parola o una frase può essere parte di un unico esempio. Le etichette di esempio non possono sovrapporsi. Pertanto, è necessario scegliere quale suggerimento di esempio è il più accurato. In questo esempio, dove il termine IBM è usato come parte del nome di un prodotto, è più corretto etichettare la frase completa come un esempio del tipo di entità Product.
  • Il servizio potrebbe riconoscere che un termine è un esempio possibile di più di un tipo entità. Ad esempio, la parola top potrebbe significare il migliore o potrebbe significare camicia.

Per esaminare ulteriormente un suggerimento, fare clic su di esso per visualizzare la parola nel contesto all'interno del documento. La visualizzazione del termine nel contesto consente di decidere se la ricorrenza è un esempio di entità valido da etichettare.

Esportazione di dati con etichetta per un estrattore entità

Puoi esportare i dati con etichetta per un estrattore di entità da Discovery. Puoi utilizzare i dati con etichetta esportati per la formazione o la creazione di modelli di linguaggio di grandi dimensioni (LLM) su un servizio come Watson Studio e NLP (Natural Language Processing).

Per esportare i dati etichettati, completare i seguenti passaggi:

  1. Dal pannello Strumenti di miglioramento della pagina Migliora e personalizza, espandere Concetti di dominio Teache fare clic su Estrai entità.

  2. Per il programma di estrazione entità da cui si desidera esportare i dati etichettati, fare clic sull'icona Azioni e selezionare Scarica dati etichettati.

    Un file compresso viene scaricato con dati etichettati. Il file compresso contiene i seguenti file JSON.

    • labeled_data.json: include il testo e le etichette. Il formato dei dati è basato sul formato dei dati di input per l'estrazione di entità in Watson Natural Language Processing. Per ulteriori informazioni, vedere Formato dati di input.
    • metadata.json: include i metadati per lo spazio di lavoro e i dati etichettati.

Importazione di un corpus Knowledge Studio

Per le distribuzioni installate, la capacità di importazione è stata aggiunta con la release 4.6.2.

Puoi importare un corpus di documenti che sono stati annotati in IBM Watson® Knowledge Studio da utilizzare come dati di addestramento per un estrattore di entità in Discovery.

I tipi di entità definiti in Knowledge Studio vengono visualizzati come nuovi tipi di entità in Discovery. È possibile continuare ad annotare i documenti importati quando si personalizza il modello dell'estrattore entità.

I sottotipi di entità e le relazioni dal modello di machine learning Knowledge Studio non sono rappresentati, né lo sono i dizionari personalizzati associati al modello.

Prima di importare un corpus, devi esportare la serie di documenti da Knowledge Studio come file .zip. Segui la procedura appropriata per l'esportazione basata sul tuo tipo di distribuzione Knowledge Studio:

Anche se devi scaricare sia la serie di documenti che il sistema tipo per includere le annotazioni nei documenti che carichi in un altro spazio di lavoro Knowledge Studio, lo stesso non si verifica in questo caso d'uso. Importa solo il documento impostato su Discovery. Qualsiasi annotazione nei documenti viene ricreata in Discovery. Il sistema di tipo Knowledge Studio non è necessario.

Per importare un corpus Knowledge Studio, completa la seguente procedura:

  1. Aprire il progetto in cui si desidera importare il corpus.

  2. Dal pannello Strumenti di miglioramento della pagina Migliora e personalizza, espandere Concetti di dominio Teach e fare clic su Estrai entità.

  3. Fare clic sulla freccia associata al pulsante Nuovo. e quindi fare clic su Importa un corpus Knowledge Studio.

  4. Aggiungere un nome estrattore e facoltativamente una descrizione.

    Questo nome viene utilizzato come nome del modello e come nome dell'arricchimento creato quando si pubblica il modello. Il nome viene visualizzato come il nome dell'arricchimento nella pagina Arricchimento in cui tu e altri potete applicarlo alle raccolte. Viene anche visualizzato come il nome del modello nella rappresentazione JSON dei documenti in cui vengono trovate entità personalizzate. Il nome viene memorizzato con le maiuscole e le spaziature specificate.

  5. Fai clic su Upload, quindi sfoglia per trovare e selezionare il file .zip che hai esportato da Knowledge Studio. Fai clic su Crea.

    I documenti annotati che carichi vengono memorizzati con lo spazio di lavoro del programma di estrazione entità, non come una nuova raccolta nel progetto. È possibile continuare ad annotare i documenti.

Fornisci a Discovery un po' di tempo per importare e elaborare il corpus del modello di machine learning. Dopo che l'estrattore di entità è stato creato, l'estrattore viene aperto nella pagina Documenti etichetta.

Addestramento dell'estrattore

Dopo aver etichettato i documenti, esaminare i dati di addestramento che verranno utilizzati per addestrare il modello dell'estrattore entità.

Per addestrare l'estrattore, completare la seguente procedura:

  1. Decidere se si desidera applicare un'opzione avanzata. La maggior parte dei modelli non richiede modifiche a queste opzioni.

    Le seguenti personalizzazioni sono disponibili dalla pagina Revisiona e termina:

    • Includere i documenti che non sono stati esaminati da una persona nella serie di formazione.

      In genere, solo i documenti che una persona ha etichettato, revisionato e contrassegnato esplicitamente come completo possono essere candidati per l'inclusione nella serie di formazione. Tuttavia, se si desidera consentire ai documenti che non sono stati contrassegnati come completi di essere inclusi nella serie di addestramento, è possibile farlo.

    • Modificare il rapporto dei documenti inclusi nelle serie di documenti che comprendono i propri dati di training.

      I documenti della tua raccolta sono suddivisi in modo casuale nelle seguenti serie:

      • Serie di addestramento: i documenti che vengono etichettati e che vengono utilizzati per addestrare il modello di machine learning dell'estrattore di entità. L'obiettivo della serie di addestramento è quello di insegnare al modello di machine learning le etichette corrette.
      • Serie di test: i documenti utilizzati per verificare il modello sottoposto a training. Dopo aver eseguito un test, è possibile esaminare i risultati, analizzare attentamente le aree in cui il modello ha rilevato qualcosa di sbagliato e trovare i modi per migliorare le prestazioni del modello.
      • Blind set: documenti che vengono messi da parte e utilizzati per testare il modello periodicamente dopo che sono state completate diverse iterazioni di test e miglioramento. I documenti nel set di ciechi sono intenzionalmente riattivati. Quando si verifica il modello con documenti della serie di test e si analizzano i risultati, si acquisisce familiarità con i documenti di test sottostanti. Poiché i documenti di prova vengono utilizzati ripetutamente per migliorare il modello, possono iniziare a influenzare indirettamente l'addestramento del modello. Ecco perché la serie di documenti in bianco è così importante. Il set cieco fornisce un modo per generare periodicamente una valutazione imparziale del modello.

      La suddivisione predefinita applica un rapporto (70 %-23 %-7%) comunemente utilizzato per la formazione di apprendimento automatico.

  2. Fare clic su Train extractor.

Quando esegui il training dell'estrattore, Discovery utilizza i documenti della serie di addestramento per creare un modello di machine learning. Dopo che il modello è stato generato, esegue automaticamente un test sui documenti della serie di test. I risultati del test vengono visualizzati per la revisione.

Risoluzione dei problemi di formazione

Informazioni sui possibili messaggi di errore e su come risolverli.

I dati di addestramento sono troppo grandi

I tuoi dati di formazione contengono un documento di testo di grandi dimensioni o molti tipi di entità e le risorse necessarie per elaborare i dati sono maggiori delle risorse disponibili per la tua istanza del servizio. Questo errore può verificarsi anche quando lo spazio di lavoro non supera i limiti dell'estrattore entità documentati. Per risolvere il problema, puoi provare uno dei seguenti approcci:

  • Rimuovere uno o più tipi di entità per diminuire la dimensione dei dati di addestramento.
  • Rimuovere i documenti più grandi dai dati di addestramento. Ad esempio, se uno dei documenti con etichetta è molto grande, modificarne lo stato da Completato a In corso per ometterlo dai dati di addestramento.
  • Ridurre il numero di documenti inclusi nella serie di addestramento. Il rapporto di suddivisione predefinito (70 %-23 %-7%) per i dati di addestramento utilizza il 70% dei documenti nell'insieme di addestramento. È possibile modificare la percentuale di documenti utilizzati nella serie di addestramento in un numero inferiore. Ad esempio, è possibile modificare il rapporto di suddivisione in 60 %-33 %-7%.
  • IBM Cloud Pak for Data aumenta la capacità dell'istanza di servizio distribuita aumentando i pod di servizio IBM Software Hub Aumenta la capacità dell'istanza di servizio distribuita aumentando i pod di servizio.

Valutazione dell'estrattore

Per esaminare le metriche dall'esecuzione di test del modello di estrattore entità creato, fare clic sulla scheda Evalute extractor.

La tabella seguente descrive le metriche di valutazione disponibili.

Dettagli metriche
Metrica Descrizione
Matrice di confusione Una tabella che fornisce una suddivisione numerica dettagliata di serie di documenti annotati. Utilizza questa opzione per confrontare le citazioni del tipo di entità etichettate dal modello di machine learning con le citazioni del tipo di entità etichettate nei dati di addestramento.
Punteggio F1 Misura se viene raggiunto l'equilibrio ottimale tra precisione e richiamo. Il punteggio F1 può essere interpretato come una media ponderata dei valori di precisione e richiamo. Un punteggio F1 raggiunge il suo migliore valore con 1 e il peggiore con 0. I punteggi complessivi sono inferiori se il modello non dispone di dati di addestramento sufficienti da cui imparare.
Precisione Misura il numero di citazioni estratte complessive classificate come tipo di entità corretto. Un falso positivo è quando un'entità non deve essere estratta, ma è stata estratta (Previsto = positivo, Effettivo = negativo). I falsi positivi in genere indicano una precisione bassa.
Richiamo Misura la frequenza con cui vengono estratte le citazioni del tipo di entità che devono essere estratte. Un falso negativo è quando un tipo di entità deve essere estratto, ma non è stato estratto (Previsto = Negativo, Effettivo = Positivo). I falsi negativi in genere indicano un richiamo basso.
  1. Esaminare le metriche fornite relative all'esecuzione del test del modello estrattore per determinare se è necessario ulteriore addestramento.

  2. Esplorare i risultati di test in modo più dettagliato facendo clic su Esaminare i risultati della formazione nella serie di test.

    I documenti della serie di test vengono visualizzati con le etichette previste visualizzate in un pannello e il ground truth nell'altro.

    • Le etichette previste sono esempi che l'estrattore di entità ha identificato ed etichettato come tipi di entità.
    • Il ground truth ha esempi che una persona ha etichettato o che sono stati etichettati in massa e revisionati da una persona. Le etichette nel ground truth sono considerate le etichette corrette.

    Le prestazioni del modello sono valutate in base al livello di corrispondenza delle etichette previste con il ground truth.

Miglioramento dell'estrattore

La seguente tabella mostra le fix suggerite per problemi comuni.

Azioni di miglioramento
Problema Azione per risolvere il problema
Punteggi globali bassi Potresti non avere abbastanza documenti con esempi etichettati nella tua serie di formazione. Etichettare più esempi in più documenti.
Richiamo basso Etichettare più documenti con nuovi esempi dei tipi di entità mancanti dall'estrattore.
Precisione bassa Ricercare i tipi di entità che sono comunemente confusi. Trova ed etichetta più esempi di ciascun tipo di entità per aiutare l'estrattore di entità a distinguere tra i tipi di entità.

Aggiunta di documenti ai dati di formazione

Per aggiungere altri documenti, procedere come segue:

  1. Aprire la scheda Documenti etichetta.

  2. Nel pannello Elenco documenti, scegliere Aggiungi documenti.

    Questo pulsante è disabilitato se non sono disponibili altri documenti da aggiungere all'estrattore entità dalla raccolta corrente. Per aggiungere ulteriori documenti alla raccolta, andare alla pagina Attività per la raccolta, quindi fare clic sul riquadro Carica dati per ricercare e aggiungere ulteriori file.

Non è possibile scegliere i documenti dalla raccolta da mostrare nell' Elenco documenti a scopo di etichettatura. Se esistono tipi specifici di documenti che si desidera etichettare, considerare l'aggiunta di documenti rappresentativi a una raccolta che è possibile utilizzare per creare l'estrattore entità.

Esistono dei limiti al numero di documenti che possono essere inclusi nei dati di formazione. Se i tuoi dati di addestramento includono documenti con una combinazione di sezioni etichettate e altre non etichettate, il sistema potrebbe campionare alcuni esempi da frasi senza etichetta. Il sottocampionamento consente di bilanciare il numero di esempi positivi e negativi utilizzati per l'addestramento. Bilanciando gli esempi nella serie di addestramento si migliorano le prestazioni della formazione.

Pubblicazione dell'estrattore entità come arricchimento

Quando si pensa che l'estrattore entità sia pronto, pubblicare l'estrattore entità. Come fai a sapere quando e'pronta? Se il punteggio non cambia dopo diverse esecuzioni di test in cui vengono apportati miglioramenti, il modello è pronto. Puoi tornare per aggiornare e riaddestrare il modello dopo averlo pubblicato.

  1. Dalla pagina Valuta estrattore, fare clic su Pubblica estrattore.
  2. Fare clic su Applica ai dati.
  3. Scegli una raccolta e seleziona quindi il campo del documento in cui vuoi applicare l'arricchimento dell'estrattore di entità.
  4. Fai clic su Apply.

Esportazione del programma di estrazione entità

Per le distribuzioni installate, la funzionalità di esportazione è stata aggiunta con la release 4.6.2.

Un modello estrattore di entità che crei e distribuisci in un progetto è disponibile come un arricchimento che può essere applicato a una raccolta da qualsiasi progetto nella stessa istanza del servizio.

Se si desidera utilizzare il modello dell'estrattore entità in un progetto da un'altra istanza del servizio, è possibile esportare l'estrattore entità. Per utilizzarlo altrove, attenersi alla procedura per creare un modello di machine learning da Utilizza modelli ML importati per trovare termini personalizzati. Non è possibile continuare a modificare un estrattore entità che si importa in un altro progetto.

Il programma di estrazione entità che si desidera esportare deve essere completamente addestrato.

Per esportare un estrattore entità, completare la seguente procedura:

  1. Aprire il progetto con il programma di estrazione entità che si desidera esportare.

  2. Dal pannello Strumenti di miglioramento della pagina Migliora e personalizza, espandere Concetti di dominio Teache fare clic su Estrai entità.

  3. Dall'elenco Estrattori entità, individuare l'estrattore entità che si desidera esportare.

  4. Fai clic su Azioni per il tuo estrattore e scegli Scarica modello per salvarlo nel sistema.

    L'opzione Scarica modello non è disponibile a meno che il modello non venga addestrato.

Il modello dell'estrattore di entità viene salvato come file .ent. Puoi importarlo in un progetto in un'altra istanza del servizio come modello di machine learning e quindi applicarlo alle tue raccolte. Per ulteriori informazioni relative all'importazione del modello, consultare Utilizzare i modelli ML importati per trovare i termini personalizzati.

Applicazione di un arricchimento dell'estrattore entità

Quando si pubblica l'estrattore, si specifica il campo in cui si desidera applicare l'estrattore. Se decidi di applicare l'arricchimento a diversi o più campi in un secondo momento, puoi seguire questa procedura per farlo.

  1. Nel pannello di navigazione, fare clic su Gestisci raccolte.
  2. Fare clic per aprire la raccolta in cui si desidera applicare l'arricchimento.
  3. Fare clic su Arricchimento.
  4. Trova il nome dell'estrattore di entità nell'elenco e scegli un campo a cui applicare l'arricchimento.
  5. Fai clic su Apply changes and reprocess.

Per ulteriori informazioni su come rimuovere un arricchimento dell'estrattore di entità da una raccolta, vedi Gestione degli arricchimenti.

Output estrattore entità

Quando l'arricchimento riconosce una delle tue entità personalizzate in un documento, viene aggiunta una voce alla sezione enriched_text.entities della rappresentazione JSON del documento. La sezione contiene le ricorrenze delle entità riconosciute dal tuo modello personalizzato insieme alle entità riconosciute dall'arricchimento Entità integrato. L'arricchimento integrato utilizza il servizio NLP Watson per identificare le entità che fanno parte di quello che chiama il sistema di tipi Natural Language Understanding. Per ulteriori informazioni sull'arricchimento delle entità integrato, vedi Entità.

Il seguente output JSON viene prodotto da un modello personalizzato denominato letteratura che riconosce le citazioni dei membri della famiglia.

Mostra l'output JSON di un documento con una citazione di entità personalizzata.
JSON representation of a custom entity mention

Monitoraggio delle prestazioni nel tempo

Puoi riaddestrare il tuo modello di estrattore di entità in qualsiasi momento. Ogni volta che si addestra il modello, esaminare i punteggi della metrica delle prestazioni per determinare se le modifiche più recenti aumentano o diminuiscono i punteggi del modello.

  1. Per confrontare un'esecuzione di test con un'altra, fare clic su Visualizza cronologia punteggio.

    La vista della cronologia mostra le ultime 5 esecuzioni della formazione.

    Per conservare le informazioni sul punteggio per più delle 5 esecuzioni di formazione più recenti, è possibile esportare le metriche in formato CSV (comma - separated value) e tenere traccia dei punteggi in un'applicazione separata. Fare clic sull'icona di rappresentazione tabulare Icona di rappresentazione tabulare, quindi fare clic su Scarica come CSV.

Se un'esecuzione di addestramento successiva risulta in punteggi più bassi, non pubblicare tale versione del modello.

Eliminazione di un estrattore di entità

È possibile eliminare un estrattore entità se non è in uso, il che significa che l'arricchimento pubblicato dall'estrattore entità non viene applicato a una raccolta.

È possibile eliminare un estrattore entità se si raggiunge il limite per il numero massimo di estrattori consentiti per il piano, ad esempio.

Ricorda, i limiti sono definiti per istanza del servizio, non per progetto. Se non è possibile creare nuovi estrattori entità, ma non si dispone del numero massimo di estrattori nel progetto corrente, controllare gli altri progetti nella stessa istanza del servizio. Potrebbero essere presenti estrattori di entità che non vengono utilizzati in altri progetti che possono essere eliminati.

  1. Rimuovere l'arricchimento dell'estrattore entità pubblicato dall'estrattore entità che si desidera eliminare da qualsiasi raccolta in cui viene utilizzato.

    Per ulteriori informazioni, vedi Eliminazione degli arricchimenti.

  2. Dal pannello Strumenti di miglioramento della pagina Migliora e personalizza, espandere Concetti di dominio Teach e fare clic su Estrai entità.

  3. Individuare il programma di estrazione entità che si desidera eliminare, fare clic sull'icona Azioni e selezionare Elimina.

Limiti estrattore entità

Il numero di estrattori di entità che puoi creare per istanza del servizio dipende dal tuo tipo di piano Discovery.

Limiti del piano di estrazione entità
Pianifica Estrattori entità per istanza del servizio[1] Numero massimo di tipi di entità per estrattore Numero massimo di documenti nei dati di training
Cloud Pak for Data Illimitato 18 1.000
Premium 10 18 1.000
Enterprise 10 18 1.000
Plus (inclusa la versione di prova) 3 12 200

  1. Questo numero riflette il numero di arricchimenti del programma di estrazione entità pubblicati per l'istanza del servizio (inclusi i modelli del programma di estrazione entità importati), indipendentemente dal fatto che siano applicati a una raccolta o meno. ↩︎