Questa documentazione è per IBM Watson® Knowledge Studio su IBM Cloud®. Per visualizzare la documentazione della versione precedente di Knowledge Studio nel IBM Marketplace, fai clic su questo link.
Creazione di uno spazio di lavoro
Il primo passo nella creazione di un modello personalizzato è di creare uno spazio di lavoro.
Informazioni su quest'attività
Per ogni modello che vuoi creare ed utilizzare, crea un solo spazio di lavoro che contiene le risorse necessaria alla creazione del modello. Poi prepara il modello per produrre un modello personalizzato che può essere distribuito a un servizio esterno da utilizzare.
Prima di creare uno spazio di lavoro, rispondi a queste domande:
-
Quale tipo di modello vuoi creare?
- Modello di machine learning: utilizza un approccio statistico per trovare le entità e le relazioni nei documenti. Questo tipo di modello può adattarsi se la quantità di dati cresce.
- Modello basato sulla regola: utilizza un approccio dichiarativo per trovare le entità nei documenti. Questo tipo di modello è più prevedibile ed è più facile da comprendere e mantenere. Tuttavia, non impara dai nuovi dati. Può solo trovare i modelli per cui è stato preparato.
- Modello di regole avanzate: offre una personalizzazione più profonda per l'analisi del testo rispetto ai modelli basati sulle regole. Per istruzioni, vedi Creazione di un modello di regole avanzate.
È inoltre possibile creare uno spazio di lavoro che contenga sia un modello basato su regole che un modello di machine learning.
-
Quali servizi utilizzerà il modello?
Consulta i servizi di integrazione Watson per le informazioni sugli altri servizi Watson con cui possono essere utilizzati i modelli personalizzati.
Procedura
Per creare uno spazio di lavoro, completa la seguente procedura:
-
Accedi come amministratore Knowledge Studio e fai clic su Create Workspace.
Le persone con il ruolo di project manager possono eseguire quasi tutte le attività tranne la creazione di uno spazio di lavoro. Un amministratore deve creare lo spazio di lavoro inizialmente e assegnare i gestori del progetto ad esso.
-
Fornisci un nome allo spazio di lavoro. Scegli un nome breve che rifletta il tuo contenuto del dominio o lo scopo del modello. Se ne hai bisogno, puoi cambiare il nome dello spazio di lavoro successivamente.
-
Identifica la lingua dei documenti nel tuo spazio di lavoro. I documenti che aggiungi allo spazio di lavoro e i dizionari che crei o carichi, devono essere nella lingua che specifichi.
-
Facoltativo: se vuoi modificare il tokenizer utilizzato dall'applicazione dal tokenizer basato su machine learning predefinito, puoi espandere la sezione Advanced Options e scegliere Dictionary-based tokenizer.
Il tokenizer predefinito è più avanzato del tokenizer basato sul dizionario; utilizza il machine learning per identificare i token nei documenti di origine basati sull'apprendimento statistico fatto nella lingua dei documenti di origine. Identifica i token con più precisione perché comprende i modelli di linguaggio più naturali e con più sfumature. Il tokenizer basato sul dizionario identifica i token in base alle regole della lingua. Consulta Tokenizer per ulteriori dettagli.
-
Facoltativo: se vuoi aggiungere i gestori del progetto allo spazio di lavoro, espandi la sezione Advanced Options e seleziona i nomi delle persone che vuoi aggiungere come gestori del progetto dall'elenco. L'amministratore può aggiungere o rimuovere i gestori del progetto successivamente, modificando lo spazio di lavoro.
Vengono visualizzati solo i nomi delle persone a cui hai assegnato il ruolo di gestore del progetto dalla pagina User Account Management dell'istanza. Consulta Assemblaggio di un team per ulteriori informazioni sull'aggiunta degli utenti.
Se hai un abbonamento piano Lite, salta questo passo. Non puoi aggiungere altri utenti, per cui non puoi assegnare a nessuno il ruolo di gestore del progetto. Non hai bisogno di un gestore del progetto separato. Come amministratore, puoi eseguire tutte le attività normalmente eseguite da un gestore del progetto.
-
Fai clic su Crea.
Cosa fare successivamente
Dopo aver creato lo spazio di lavoro, puoi iniziare a configurare le risorse dello spazio di lavoro.
Per modificare la descrizione o il nome dello spazio di lavoro o per aggiungere o rimuovere i gestori del progetto successivamente, un amministratore può modificare lo spazio di lavoro. Dalla homepage Knowledge Studio, fai clic sull'icona Show menu nel tile dello spazio di lavoro e scegli l'opzione di menu Edit.
Concetti correlati:
Caricamento delle risorse da un altro spazio di lavoro
Riferimento correlato:
Tokenizer
Un tokenizer raggruppa i caratteri in token e i token in frasi. Un token è approssimativamente simile a una parola.
Le azioni che un tokenizer deve effettuare per identificare i token di un documento dipendono dalla lingua del documento. In inglese, i token sono spesso equivalenti alle parole perché delimitati da spazi bianchi in una frase. Tuttavia, non sempre hanno una corrispondenza di uno a uno con le parole; altri elementi di testo vengono considerati token in alcune situazioni. Ad esempio, la punteggiatura alla fine di una frase è considerata un token e le contrazioni sono spesso espanse in due token. Nelle lingue che non utilizzano gli spazi bianchi, come il cinese, vengono utilizzati algoritmi statistici più complicati per identificare i token.
Il processo di suddivisione in token è importante perché determina i gruppi di caratteri che gli utenti possono evidenziare per l'annotazione nell'editor ground truth. Le annotazioni delle citazioni di entità e relazione sono generalmente allineate con i limiti del token e devono essere etichettate in una frase; non possono estendersi oltre i limiti della frase.
Tipi supportati
Knowledge Studio supporta i seguenti tokenizer:
-
Tokenizer basato sul machine learning (predefinito)
Questo è il tokenizer più avanzato che identifica i token nei documenti di origine basati sull'apprendimento statistico fatto sulla lingua dei documenti di origine. Questo tokenizer trova i token che acquisiscono i modelli di linguaggio più naturali e con più sfumature. Non puoi personalizzare questo tokenizer.
-
Tokenizer basato sul dizionario
Questo tokenizer è basato sui dizionari linguistici. Trova i token che seguono le regole della lingua del documento di origine. Solo gli utenti esperti possono personalizzare questo token.
Devi scegliere il tokenizer che vuoi utilizzare quando crei lo spazio di lavoro. Non puoi passare a un tokenizer diverso in un secondo momento. Per i migliori risultati, utilizza il tokenizer predefinito. Solo gli utenti esperti che vogliono modificare il comportamento del tokenizer tramite un meccanismo di dizionario deterministico possono scegliere il tokenizer basato sul dizionario. Possono quindi personalizzarlo aggiungendo nuove voci al dizionario. Tuttavia, la personalizzazione deve essere fatta attentamente perché quando aggiungi nuove parole al dizionario, le modifiche possono influenzare il modello di machine learning in modi non voluti.
Riepilogo di input, output e limitazioni
Fasi diverse dello sviluppo del modello richiedono input diversi e producono output diversi.
Per ogni tipo di processo di sviluppo del modello, questa tabella riepiloga le attività tipiche che esegui, i formati del file di input supportati, gli output che possono essere prodotti e tutti i limiti di dimensione o altri requisiti.
Tutti i tipi di modello
Tabella 1: Tutti i tipi di modello
Attività | Utilizzo tipico | formati di input supportati | formati di output supportati | Limiti e requisiti |
---|---|---|---|---|
Gestione del sistema di tipo | Creare un sistema di tipo o upload e modificare un sistema di tipo esistente. Definisci i tipi di entità | |||
e relazione del tuo dominio. Non è possibile vedere una visualizzazione del sistema tipo. |
|
JSON | Per evitare il sovraccarico visivo per l'annotazione umana, definire non più di 50 tipi di entità e 50 tipi di relazione. Limitazione dimensione file per il caricamento di un sistema di tipo: 20 MB | |
Gestione dizionario | Caricare un file dizionario CSV in modalità di sola lettura o uno ZIP di dizionari scaricati da un altro spazio di lavoro. Creare un nuovo dizionario, quindi caricare un file CSV di voci di termine o aggiungere voci a termine. | File dizionario:
|
|
Limiti dimensione file:
|
Modello di machine learning
Tabella 2: Modello di machine learning
Attività | Utilizzo tipico | formati di input supportati | formati di output supportati | Limiti e requisiti |
---|---|---|---|---|
Gestione documenti | Caricare un piccolo sottoinsieme rappresentativo di documenti Upload documenti che contengono annotazioni precedentemente aggiunte da un annotatore umano, un modello di machine learning o un motore di analisi UIMA Non è possibile ingerire l'intero corpus da IBM Watson Explorer per il calcolo di documenti ad alto valore per l'annotazione. |
|
File di archivio ZIP dei documenti |
|
Pre - annotazione | Utilizzare un dizionario o IBM Watson® Natural Language Understanding pre - annotator per fornire un punto di partenza per l'annotazione umana. Non è possibile ri - annotarsi un corpus da IBM Watson Explorer. |
Documenti raw. Nota: Non pre - annotare i documenti che un annotatore umano ha già annotato, oppure perderete il lavoro fatto dall'annotatore umano. |
Documenti annotati | Nessuno |
annotazione documento | Gestisci annotazione umana. Annotare entità, relazioni e catene di coreferenza per creare verità al suolo | Attività Annotazione | Ground verità |
|
Formazione e perfezionamento | Traina un modello di apprendimento automatico supervisore per estrarre informazioni specifiche del dominio dal testo non strutturato. Valuta e migliora un modello di machine learning con supervisione. Non puoi | |||
creare un modello di machine learning senza supervisione o fatta in parte. Non è possibile effettuare un'estesa ingegneria della funzione. | Non applicabile | Modello di machine learning |
|
|
Pubblicazione | Esporta un modello di machine learning da utilizzare per l'esecuzione dell'estrazione del testo in altre applicazioni Watson . | Non applicabile |
|
Nessuno |
Modello basato sulla regola
Tabella 3: Modello basato su regole
Attività | Utilizzo tipico | formati di input supportati | formati di output supportati | Limiti e requisiti |
---|---|---|---|---|
Rule editor | Creare o caricare documenti all'editor di regole da cui definire le classi, le espressioni regolari e le regole. |
|
Nessuno |
|
Pubblicazione | Pubblica un modello basato su regole da utilizzare per l'esecuzione del riconoscimento del pattern in altre applicazioni Watson . | Non applicabile |
|
I modelli basati su regole possono attualmente essere esportati in IBM Watson Discovery solo |