IBM Cloud Docs
Identificazione delle parole da ignorare

Identificazione delle parole da ignorare

Per ignorare i termini privi di significato durante le ricerche, aggiungere un elenco di stop word personalizzate. Le parole non significative sono parole non utili per distinguere il significato semantico del contenuto.

In inglese, the, is e and sono esempi di parole non significative.

Le stop word definite vengono filtrate dalle query e migliorano la pertinenza dei risultati delle query in linguaggio naturale.

Ad esempio, una società ha tre livelli di servizio. I documenti in una delle raccolte riguardano solo un livello, il livello Silver. Potresti voler aggiungere "silver" all'elenco di parole non significative perché il termine non aiuta a distinguere la significatività di un documento rispetto a un altro, dato che tutti i documenti sono correlati al livello di servizio Silver. Quando un cliente menziona il livello Silver in una stringa di query, viene ignorato. Altri termini più significativi nella query vengono utilizzati per ricercare i dati. O forse la raccolta di documenti consiste solo di segnalazioni di incidenti stradali. Potresti voler aggiungere "car" all'elenco di parole non significative per evitare che le citazioni di car nelle query aggiungano un rumore alla ricerca.

Discovery applica automaticamente un elenco di stop word predefinite per molte delle lingue supportate. Queste parole di arresto vengono applicate sia in fase di indicizzazione che in fase di query. Le stop word predefinite vengono ignorate quando il contenuto viene indicizzato e vengono filtrate dalle query. Tuttavia, le parole di arresto definite vengono utilizzate solo in fase di query. Il tuo elenco non sostituisce l'elenco predefinito; aumenta l'elenco predefinito. È possibile aggiungere parole non significative, ma non è possibile rimuovere parole non significative.

Esempio di elenco di parole di arresto personalizzate:

{
  "stopwords": [
    "a", "an", "the", "ibm", "what", "how", "when", "can", "should", ...
  ]
}

Elenchi di parole di arresto predefiniti

Puoi accedere all'elenco delle parole di arresto predefinite per l'inglese dal repositoryWatson Developer Cloud GitHub.

Per le lingue seguenti, Discovery utilizza l'elenco di parole non significative predefinito definito da Apache Lucene. Per ulteriori informazioni su quali parole sono incluse nell'elenco, consultare la documentazione di riferimento Lucene:

Queste stop word predefinite sono documentate in formato TXT, ma se vuoi ampliare l'elenco e inoltrarlo per l'utilizzo da parte di Discovery, devi inoltrare un file JSON. Per visualizzare un esempio della sintassi del file di elenco di parole non significative, consultare il file di elenco di parole non significative in inglese personalizzato.

Per le restanti lingue supportate, non vengono utilizzate parole di arresto predefinite. È possibile specificare un elenco di parole non significative da utilizzare al momento della query per queste lingue. L'elenco inoltrato non viene utilizzato quando i dati vengono inseriti.

Esempi di elenchi di parole di arresto che si potrebbe voler applicare al momento della query includono:

Vedi Lingue supportate per l'elenco delle lingue supportate da Discovery.

Definizione delle parole di arresto dell'ora della query

Per definire le stop words, completare i seguenti passaggi:

  1. Creare un file di parole non significative. Il file deve essere un file JSON con estensione json.

    Seguire queste indicazioni:

    • Specificare le parole di arresto in minuscolo.
    • In generale, mantieni il tuo elenco di parole non significative sotto 200 parole totali. Il limite di dimensione è un milione di caratteri. Tuttavia, se si specificano troppi termini, si potrebbe influire negativamente sulla precisione della ricerca.

    Puoi utilizzare il file di elenco delle parole di arresto in inglese predefinito, custom_stopwords_en.json, come punto di inizio quando crei un elenco di parole di arresto personalizzato in inglese.

  2. Dal riquadro di navigazione, aprire la pagina Migliora e personalizza.

  3. Espandere Migliora pertinenza dal riquadro Strumenti di miglioramento.

  4. Fai clic su Stopwords e quindi su Upload stopwords per la raccolta.

    È possibile caricare un solo elenco di stop word per raccolta. L'elenco di parole non significative che si carica aumenta l'elenco di parole non significative predefinito per la raccolta; non sostituisce l'elenco predefinito.

  5. Fai clic su Done.

Per disabilitare un file di stop word personalizzato e ripristinare l'utilizzo delle stop word predefinite, eliminare il file di stop word personalizzato.