IBM Cloud Docs
Panoramica delle fonti di dati

Panoramica delle fonti di dati

In Discovery for Cloud Pak for Data, puoi eseguire la ricerca per indicizzazione dei documenti da un'origine locale che carichi o da un'origine dati remota a cui ti connetti. Ulteriori informazioni sulle origini dati supportate e su come configurarle.

IBM Cloud Pak for Data IBM Software Hub

Queste informazioni si applicano solo alle distribuzioni installate. Per ulteriori informazioni sulle origini dati IBM Cloud, consulta Panoramica delle origini dati IBM Cloud.

Tutti i connettori dell'origine dati Discovery sono di sola lettura. Indipendentemente dalle autorizzazioni concesse all'account di ricerca per indicizzazione, Discovery non scrive, aggiorna o elimina mai alcun contenuto nell'origine dati originale.

Puoi utilizzare Discovery for Cloud Pak for Data per eseguire la ricerca per indicizzazione dalle seguenti origini dati:

L'origine dati non è elencata? È possibile lavorare con uno sviluppo per creare un connettore personalizzato. Per ulteriori informazioni, vedi Creazione di un connettore personalizzato Cloud Pak for Data.

Se hai requisiti speciali quando aggiungi documenti di origine, come la necessità di escludere determinati file, puoi lavorare con uno sviluppatore per creare un plug-in del crawler personalizzato. Il plug-in del crawler può applicare regole più sfumate a quali documenti e quali campi nei documenti vengono aggiunti. Per ulteriori informazioni, vedi Creazione di un plug-in del crawler personalizzato Cloud Pak for Data.

Impostazione della configurazione proxy dell' HTTP nell'ambiente air gap IBM Cloud Pak for DataIBM Software Hub

Quando Discovery è in esecuzione nell'ambiente air gap, è necessario impostare il proxy HTTP per connettersi ai server esterni.

È possibile eseguire il crawling dalle seguenti fonti di dati utilizzando un server proxy HTTP in un ambiente air-gapped:

È possibile utilizzare le impostazioni proxy specifiche per ciascun tipo di origine dati o le impostazioni proxy a livello di sistema fornite da RSI (Resource Specification Injection) da CPD 5.0.0.

  1. Esegui il seguente comando per installare il webhook RSI.
    $ cpd-cli manage install-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
    
    Per ulteriori informazioni, vedi Installa RSI.
  2. Esegui il seguente comando per abilitare il webhook RSI.
    $ cpd-cli manage enable-rsi --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
    
    Per ulteriori informazioni, consultare Abilita RSI.
  3. Eseguire il seguente comando per impostare la configurazione del proxy.
    $ cpd-cli manage create-proxy-config \
        --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS} \
        --proxy_host=$PROXY_HOST \
        --proxy_port=$PROXY_PORT \
        --proxy_user=$PROXY_USER \
        --proxy_password=$PROXY_PASSWORD
    
    Per ulteriori informazioni, consultare Gestione della configurazione proxy.
  4. Esegui il seguente comando per abilitare la configurazione proxy.
    $ cpd-cli manage enable-proxy --cpd_instance_ns=${PROJECT_CPD_INST_OPERANDS}
    
    Per ulteriori informazioni, consultare Abilita configurazione proxy.

Per ulteriori informazioni sull'applicazione delle impostazioni proxy a un cluster con gapsula d'aria, vedere Applicazione delle impostazioni proxy del cluster HTTP a IBM Cloud Pak for Data.

Di seguito sono riportati i requisiti e le limitazioni specifiche relative ai server proxy di HTTP:

  • HTTP i server proxy che richiedono la comunicazione TLS non sono supportati.
  • HTTP i server proxy che richiedono l'autenticazione sono necessari per:
    • SharePoint In prem
    • SharePoint Online con principal utente
  • HTTP i server proxy devono supportare NTLM quando i server Web e SharePoint On Prem di destinazione richiedono l'autenticazione NTLM.
  • HTTP i server proxy devono supportare il protocollo LDAP per la sicurezza a livello di documenti di SharePoint On Prem.

Requisiti dell'origine dati

I requisiti e le limitazioni che seguono sono specifici per IBM Watson® Discovery:

  • Il limite della dimensione dei singoli file è di 32 MB per ogni file, inclusi i file di archivio compressi (ZIP, CZIP, TAR). Una volta decompressi, i singoli file all'interno dei file compressi non possono superare i 32 MB per file. Questo limite è lo stesso per le raccolte in cui si caricano i propri dati.

  • A seconda del tipo di installazione (modalità di avvio o di produzione), il numero di raccolte che è possibile inserire contemporaneamente varia. Un'installazione iniziale include un modulo " crawler ", che consente di elaborare tre raccolte contemporaneamente. Un'installazione di produzione include due pod crawler, che possono elaborare sei raccolte contemporaneamente.

    Se si sta eseguendo un'installazione iniziale e si desidera elaborare più di tre raccolte contemporaneamente, è necessario aumentare il numero di pod di avvio ( crawler ) eseguendo i seguenti comandi:

    oc patch wd wd --type=merge --patch='{"spec": {"ingestion": {"crawler": {"replicas": <number-of-replicas> } } } }'
    

    In un'installazione iniziale, il numero massimo di raccolte simultanee che possono eseguire la ricerca per indicizzazione su un'origine dati esterna è 3. Se ne avvii un quarto, l'elaborazione di quella raccolta non inizia finché non terminano le tre precedenti.

    Ogni number-of-replicas consente 3 ricerche per indicizzazione simultanee, quindi number-of-replicas=2 aumenta le repliche a 6 e number-of -replicas=3 le aumenta a 9.

Impostazioni del plug-in del crawler

Quando si distribuiscono uno o più plug-in del crawler, è possibile configurare la raccolta per utilizzare uno dei plug - in.

Queste impostazioni sono disponibili solo quando i plug-in del crawler vengono distribuiti.

Quando si è pronti a configurare una raccolta per utilizzare un plug-in del crawler creato utilizzando lo script scripts/manage_crawler_plugin.sh, è possibile visualizzare una sezione Impostazioni plug-in con le seguenti opzioni:

  • Abilita plug-in: lo switch è impostato su Off. Abilitare questa opzione se si desidera utilizzare un plug-in del crawler per elaborare i documenti.
  • Plug-in: elenca i nomi dei plug-in del crawler disponibili. Selezionare un plug-in da utilizzare.

Sicurezza a livello di documento di supporto

Se la sicurezza a livello di documento è attivata, è possibile utilizzare le impostazioni di sicurezza dai documenti di origine per controllare i risultati della ricerca restituiti a utenti differenti.

Discovery supporta solo il prefiltraggio. Per prefiltrare, Discovery replica l'ACL (access control list) di origine del documento durante la ricerca per indicizzazione nell'indice. Il motore di ricerca deve confrontare le credenziali utente con gli ACL del documento replicati. Discovery è più veloce quando i documenti sono prefiltrati e quando controlli quali documenti aggiungi all'indice. Tuttavia, è difficile modellare tutte le politiche di sicurezza delle varie fonti di dati nell'indice e implementare la logica di confronto in modo uniforme. Inoltre, il pre-filtraggio non è così reattivo ai cambiamenti che si verificano negli ACL di origine dopo la scansione più recente.

La sicurezza a livello di documento è supportata dai seguenti tipi di origine dati:

  • Box
  • FileNet P8
  • HCL Notes
  • Microsoft SharePoint Online
  • Microsoft SharePoint On Prem
  • Microsoft Windows File System

Quando si eseguono query su raccolte in cui è abilitata la sicurezza a livello di documento, non vengono restituiti risultati se gli utenti associati all'istanza di Discovery non sono presenti nel sistema di origine. Per ulteriori informazioni sulla query di queste raccolte, vedi Query con la sicurezza a livello di documento abilitata.

Per abilitare la sicurezza a livello di documento, è necessario completare la seguente procedura:

  1. Creare utenti dell Discovery e che corrispondano agli utenti disponibili sul sistema sorgente.
  2. Associa gli utenti alla tua istanza Discovery. Per ulteriori informazioni, vedi Concessione agli utenti dell'accesso a un'istanza Watson Discovery.
  3. Abilitare la sicurezza a livello di documento per l'origine dati quando ci si connette.

Creazione di utenti per la protezione a livello di documento

È necessario creare utenti che corrispondano agli utenti disponibili sul sistema sorgente a cui si sta connettendo Discovery in modo che possano eseguire query con la sicurezza a livello di documento abilitata.

  1. Accedi a Discovery come amministratore.

  2. Crea utenti che corrispondano agli utenti disponibili sulla tua fonte o che siano collegati al provider di identità utilizzato dal tuo sistema sorgente. Se si creano utenti per la sicurezza a livello di documento, tenere presenti i seguenti punti:

    • Facoltativo: per ogni utente a cui si desidera accedere ai risultati della query, è necessario aggiungere utenti. Il nome utente deve corrispondere al nome utente utilizzato dall'origine. Questa opzione è solo per scopi di sviluppo e test. Per creare utenti singolarmente, vedere Gestione utenti.
    • Per connetterti a un provider di identità che l'origine sta utilizzando, vedi Connessione al tuo provider di identità.

Discovery non sincronizza le modifiche apportate agli utenti nel provider di identità con l'elenco utenti per il servizio. Gli amministratori Discovery devono assicurarsi che l'elenco utenti sia corrente e rimuovere tutti gli utenti non correnti.