IBM Cloud Docs
Creazione di uno spazio di lavoro

Questa documentazione è per IBM Watson® Knowledge Studio su IBM Cloud®. Per visualizzare la documentazione della versione precedente di Knowledge Studio nel IBM Marketplace, fai clic su questo link.

Creazione di uno spazio di lavoro

Il primo passo nella creazione di un modello personalizzato è di creare uno spazio di lavoro.

Informazioni su quest'attività

Per ogni modello che vuoi creare ed utilizzare, crea un solo spazio di lavoro che contiene le risorse necessaria alla creazione del modello. Poi prepara il modello per produrre un modello personalizzato che può essere distribuito a un servizio esterno da utilizzare.

Prima di creare uno spazio di lavoro, rispondi a queste domande:

  • Quale tipo di modello vuoi creare?

    • Modello di machine learning: utilizza un approccio statistico per trovare le entità e le relazioni nei documenti. Questo tipo di modello può adattarsi se la quantità di dati cresce.
    • Modello basato sulla regola: utilizza un approccio dichiarativo per trovare le entità nei documenti. Questo tipo di modello è più prevedibile ed è più facile da comprendere e mantenere. Tuttavia, non impara dai nuovi dati. Può solo trovare i modelli per cui è stato preparato.
    • Modello di regole avanzate: offre una personalizzazione più profonda per l'analisi del testo rispetto ai modelli basati sulle regole. Per istruzioni, vedi Creazione di un modello di regole avanzate.

    È inoltre possibile creare uno spazio di lavoro che contenga sia un modello basato su regole che un modello di machine learning.

  • Quali servizi utilizzerà il modello?

    Consulta i servizi di integrazione Watson per le informazioni sugli altri servizi Watson con cui possono essere utilizzati i modelli personalizzati.

Procedura

Per creare uno spazio di lavoro, completa la seguente procedura:

  1. Accedi come amministratore Knowledge Studio e fai clic su Create Workspace.

    Le persone con il ruolo di project manager possono eseguire quasi tutte le attività tranne la creazione di uno spazio di lavoro. Un amministratore deve creare lo spazio di lavoro inizialmente e assegnare i gestori del progetto ad esso.

  2. Fornisci un nome allo spazio di lavoro. Scegli un nome breve che rifletta il tuo contenuto del dominio o lo scopo del modello. Se ne hai bisogno, puoi cambiare il nome dello spazio di lavoro successivamente.

  3. Identifica la lingua dei documenti nel tuo spazio di lavoro. I documenti che aggiungi allo spazio di lavoro e i dizionari che crei o carichi, devono essere nella lingua che specifichi.

  4. Facoltativo: se vuoi modificare il tokenizer utilizzato dall'applicazione dal tokenizer basato su machine learning predefinito, puoi espandere la sezione Advanced Options e scegliere Dictionary-based tokenizer.

    Il tokenizer predefinito è più avanzato del tokenizer basato sul dizionario; utilizza il machine learning per identificare i token nei documenti di origine basati sull'apprendimento statistico fatto nella lingua dei documenti di origine. Identifica i token con più precisione perché comprende i modelli di linguaggio più naturali e con più sfumature. Il tokenizer basato sul dizionario identifica i token in base alle regole della lingua. Consulta Tokenizer per ulteriori dettagli.

  5. Facoltativo: se vuoi aggiungere i gestori del progetto allo spazio di lavoro, espandi la sezione Advanced Options e seleziona i nomi delle persone che vuoi aggiungere come gestori del progetto dall'elenco. L'amministratore può aggiungere o rimuovere i gestori del progetto successivamente, modificando lo spazio di lavoro.

    Vengono visualizzati solo i nomi delle persone a cui hai assegnato il ruolo di gestore del progetto dalla pagina User Account Management dell'istanza. Consulta Assemblaggio di un team per ulteriori informazioni sull'aggiunta degli utenti.

    Se hai un abbonamento piano Lite, salta questo passo. Non puoi aggiungere altri utenti, per cui non puoi assegnare a nessuno il ruolo di gestore del progetto. Non hai bisogno di un gestore del progetto separato. Come amministratore, puoi eseguire tutte le attività normalmente eseguite da un gestore del progetto.

  6. Fai clic su Crea.

Cosa fare successivamente

Dopo aver creato lo spazio di lavoro, puoi iniziare a configurare le risorse dello spazio di lavoro.

Per modificare la descrizione o il nome dello spazio di lavoro o per aggiungere o rimuovere i gestori del progetto successivamente, un amministratore può modificare lo spazio di lavoro. Dalla homepage Knowledge Studio, fai clic sull'icona Show menu nel tile dello spazio di lavoro e scegli l'opzione di menu Edit.

Concetti correlati:

Caricamento delle risorse da un altro spazio di lavoro

Riferimento correlato:

Supporto linguistico

Tokenizer

Un tokenizer raggruppa i caratteri in token e i token in frasi. Un token è approssimativamente simile a una parola.

Le azioni che un tokenizer deve effettuare per identificare i token di un documento dipendono dalla lingua del documento. In inglese, i token sono spesso equivalenti alle parole perché delimitati da spazi bianchi in una frase. Tuttavia, non sempre hanno una corrispondenza di uno a uno con le parole; altri elementi di testo vengono considerati token in alcune situazioni. Ad esempio, la punteggiatura alla fine di una frase è considerata un token e le contrazioni sono spesso espanse in due token. Nelle lingue che non utilizzano gli spazi bianchi, come il cinese, vengono utilizzati algoritmi statistici più complicati per identificare i token.

Il processo di suddivisione in token è importante perché determina i gruppi di caratteri che gli utenti possono evidenziare per l'annotazione nell'editor ground truth. Le annotazioni delle citazioni di entità e relazione sono generalmente allineate con i limiti del token e devono essere etichettate in una frase; non possono estendersi oltre i limiti della frase.

Tipi supportati

Knowledge Studio supporta i seguenti tokenizer:

  • Tokenizer basato sul machine learning (predefinito)

    Questo è il tokenizer più avanzato che identifica i token nei documenti di origine basati sull'apprendimento statistico fatto sulla lingua dei documenti di origine. Questo tokenizer trova i token che acquisiscono i modelli di linguaggio più naturali e con più sfumature. Non puoi personalizzare questo tokenizer.

  • Tokenizer basato sul dizionario

    Questo tokenizer è basato sui dizionari linguistici. Trova i token che seguono le regole della lingua del documento di origine. Solo gli utenti esperti possono personalizzare questo token.

Devi scegliere il tokenizer che vuoi utilizzare quando crei lo spazio di lavoro. Non puoi passare a un tokenizer diverso in un secondo momento. Per i migliori risultati, utilizza il tokenizer predefinito. Solo gli utenti esperti che vogliono modificare il comportamento del tokenizer tramite un meccanismo di dizionario deterministico possono scegliere il tokenizer basato sul dizionario. Possono quindi personalizzarlo aggiungendo nuove voci al dizionario. Tuttavia, la personalizzazione deve essere fatta attentamente perché quando aggiungi nuove parole al dizionario, le modifiche possono influenzare il modello di machine learning in modi non voluti.

Riepilogo di input, output e limitazioni

Fasi diverse dello sviluppo del modello richiedono input diversi e producono output diversi.

Per ogni tipo di processo di sviluppo del modello, questa tabella riepiloga le attività tipiche che esegui, i formati del file di input supportati, gli output che possono essere prodotti e tutti i limiti di dimensione o altri requisiti.

Tutti i tipi di modello

Tabella 1: Tutti i tipi di modello

Attività Utilizzo tipico formati di input supportati formati di output supportati Limiti e requisiti
Gestione del sistema di tipo Creare un sistema di tipo o upload e modificare un sistema di tipo esistente. Definisci i tipi di entità
e relazione del tuo dominio. Non è possibile vedere una visualizzazione del sistema tipo.
  • File JSON scaricato da uno spazio di lavoro Knowledge Studio .
  • Il file ZIP che hai scaricato da Human Annotation Tool (HAT)
JSON Per evitare il sovraccarico visivo per l'annotazione umana, definire non più di 50 tipi di entità e 50 tipi di relazione. Limitazione dimensione file per il caricamento di un sistema di tipo: 20 MB
Gestione dizionario Caricare un file dizionario CSV in modalità di sola lettura o uno ZIP di dizionari scaricati da un altro spazio di lavoro. Creare un nuovo dizionario, quindi caricare un file CSV di voci di termine o aggiungere voci a termine. File dizionario:
  • File CSV nel formato UTF-8
  • ZIP di dizionari scaricato da un altro spazio di lavoro
File del termine:
  • File CSV nel formato UTF-8
  • File CSV nel formato UTF-8
  • ZIP di dizionari da utilizzare in un altro spazio di lavoro
Limiti dimensione file:
  • 1 MB per file del termine CSV
  • 16 MB per i file del dizionario in sola lettura CSV
  • 15.000 voci per dizionario, eccetto un dizionario in sola lettura
  • 64 dizionari per spazio di lavoro

Modello di machine learning

Tabella 2: Modello di machine learning

Attività Utilizzo tipico formati di input supportati formati di output supportati Limiti e requisiti
Gestione documenti Caricare un piccolo sottoinsieme rappresentativo di documenti Upload documenti che contengono annotazioni precedentemente aggiunte da un annotatore umano, un modello di machine learning o un motore di analisi UIMA Non è possibile ingerire l'intero corpus da IBM Watson Explorer per il calcolo di documenti ad alto valore per l'annotazione.
  • File CSV nel formato UTF-8
  • Testo nel formato UTF-8
  • HTML
  • File PDF (i file scansionati e protetti da password non sono supportati)
  • File Microsoft Word DOC o DOCX (i file protetti da password non sono supportati)
  • File ZIP che contiene i documenti scaricati da un altro spazio di lavoro
  • File ZIP che contiene i documenti nel formato UIMA CAS XMI
File di archivio ZIP dei documenti
  • 40.000 caratteri per documento
  • 10.000 documenti per spazio di lavoro
  • 1.000 serie di documenti (incluse le serie di annotazioni) per spazio di lavoro.
  • 5 MB per file e 200 MB per caricamento (file TXT, PDF, DOC, DOCX e HTML)
Pre - annotazione Utilizzare un dizionario o IBM Watson® Natural Language Understanding pre - annotator per fornire un punto di partenza per l'annotazione umana.

Non è possibile ri - annotarsi un corpus da IBM Watson Explorer.
Documenti raw.

Nota: Non pre - annotare i documenti che un annotatore umano ha già annotato, oppure perderete il lavoro fatto dall'annotatore umano.
Documenti annotati Nessuno
annotazione documento Gestisci annotazione umana. Annotare entità, relazioni e catene di coreferenza per creare verità al suolo Attività Annotazione Ground verità
  • 256 attività di anntazione attiva per area di lavoro
Formazione e perfezionamento Traina un modello di apprendimento automatico supervisore per estrarre informazioni specifiche del dominio dal testo non strutturato. Valuta e migliora un modello di machine learning con supervisione. Non puoi
creare un modello di machine learning senza supervisione o fatta in parte. Non è possibile effettuare un'estesa ingegneria della funzione. Non applicabile Modello di machine learning
  • 1 modello di machine learning dello spazio di lavoro
  • 10 versioni del modello per spazio di lavoro
  • Il numero massimo di spazi di lavoro è determinato dal tuo deployment.
  • Il numero massimo di azioni di formazione che puoi eseguire al mese è determinato dal tuo deployment.
Pubblicazione Esporta un modello di machine learning da utilizzare per l'esecuzione dell'estrazione del testo in altre applicazioni Watson . Non applicabile
  • zip
Nessuno

Modello basato sulla regola

Tabella 3: Modello basato su regole

Attività Utilizzo tipico formati di input supportati formati di output supportati Limiti e requisiti
Rule editor Creare o caricare documenti all'editor di regole da cui definire le classi, le espressioni regolari e le regole.
  • Testo semplice (aggiunto nell'editor)
  • File CSV nel formato UTF-8
  • Copiato dalla serie di documenti All
Nessuno
  • 1 modello basato sulla regola dello spazio di lavoro
  • 5.000 caratteri per documento
  • 100 documenti per spazio di lavoro
  • La dimensione massima del titolo del documento è 256 caratteri
  • 200 regole per spazio di lavoro
  • 400 classi per spazio di lavoro
  • 100 gruppi di espressione regolare per spazio di lavoro
  • 100 voci di espressione regolare per gruppo di espressione regolare
  • 1.000 caratteri voce di espressione regolare
  • 5 versioni del modello basato sulle regole per spazio di lavoro
Pubblicazione Pubblica un modello basato su regole da utilizzare per l'esecuzione del riconoscimento del pattern in altre applicazioni Watson . Non applicabile
  • File ANNO
I modelli basati su regole possono attualmente essere esportati in IBM Watson Discovery solo