IBM Cloud Docs
Windows File System

Windows File System

Eseguire la ricerca per indicizzazione sui documenti memorizzati in un filesystem Microsoft Windows.

IBM Cloud Pak for Data IBM Software Hub

Queste informazioni si applicano solo alle distribuzioni installate.

Documenti sottoposti a ricerca per indicizzazione

  • Viene eseguita la ricerca per indicizzazione solo dei documenti supportati da Discovery nel percorso file; tutti gli altri vengono ignorati. Per ulteriori informazioni, consultare Tipi di file supportati.
  • La sicurezza a livello di documento è supportata. Quando questa opzione è abilitata, gli utenti possono eseguire la ricerca per indicizzazione e interrogare lo stesso contenuto a cui possono accedere quando accedono direttamente al filesystem.
  • Quando una fonte viene ricaricata, i nuovi documenti vengono aggiunti, i documenti aggiornati vengono modificati nella versione corrente e i documenti eliminati vengono eliminati dall'indice della raccolta.
  • Tutti i connettori dell'origine dati Discovery sono di sola lettura. Indipendentemente dalle autorizzazioni concesse all'account di ricerca per indicizzazione, Discovery non scrive, aggiorna o elimina mai alcun contenuto nell'origine dati originale.

Requisiti dell'origine dati

Oltre ai requisiti dell'origine dati per tutte le distribuzioni installate, l'origine dati del file system Windows deve soddisfare i seguenti requisiti:

  • Il connettore supporta Microsoft Windows Server 2012 R2, 2016, 2019 e 2022.
  • Il server agent remoto e i file server da sottoporre a ricerca per indicizzazione devono appartenere allo stesso dominio di Windows. Il crawler può raccogliere i dati dell'elenco di controllo degli accessi (ACL) solo da un singolo dominio Windows.

Il supporto per Microsoft Windows Server 2022 è stato aggiunto con la versione 4.6. A partire dalla release 4.7, è possibile proteggere il traffico inviato tra il servizio agent Windows e il relativo crawler abilitando il supporto per il protocollo TLS (transport layer security).

procedura

prerequisita

  • Se si desidera abilitare la sicurezza a livello di documento, è necessario eseguire alcune operazioni per configurarlo. Per ulteriori informazioni, consultare Supporto della sicurezza a livello di documento.

    Per configurare la sicurezza a livello di documento, è necessario raccogliere le informazioni riportate di seguito:

    URL server LDAP
    Il server LDAP URL a cui connettersi. Ad esempio, ldap://<ldap_server>:<port>.
    Nome utente bind LDAP
    Il nome utente da utilizzare per collegarsi al servizio directory.

    Nella maggior parte dei casi, questo nome utente è un DN (distinguished name). Un nome utente Active Directory potrebbe funzionare, ma, a differenza dell'accesso Windows generale, è sensibile al maiuscolo / minuscolo.

    Password utente bind LDAP
    La password associata al nome utente associato.
    DN base LDAP
    Il punto di partenza per la ricerca delle voci utente in LDAP. Ad esempio, CN=Users,DC=example,DC=com.
    Filtro utente LDAP
    Il filtro utente per ricercare le voci utente in LDAP. Se vuoto, il valore predefinito è (userPrincipalName={0}).
  • Prima di configurare una raccolta di file system Windows, è necessario installare IBM Watson Discovery Agent for Windows File Systems su un server di file Windows remoto o su un server Windows remoto. L'agente è un servizio Windows che recupera i dati dai server di origine dati e li invia a Discovery. L'agent può eseguire la ricerca per indicizzazione su file system Windows remoti, unità locali per l'agent e cartelle di rete condivise.

    Se si installa l'agente su un server Windows remoto, il server Windows remoto deve essere in grado di montare uno o più file server in modo che l'agente possa eseguire la scansione dei file system Windows remoti.

    Per installare e configurare l'agente, completare le seguenti operazioni:

Installa l'agent

Con la release 4.6, IBM Watson Discovery Agent for Windows File Systems è stato aggiornato per essere eseguito con versioni a 64-bit di Windows. Se l'agent è stato installato con una release precedente a 4.6, è necessario disinstallare la versione precedente, eliminarlo e quindi reinstallare l'agent.

Esegui una delle seguenti operazioni:

Sostituire l'agente pre-4.6

Richiesto per le distribuzioni in cui è installata una versione di IBM Watson Discovery Agent for Windows File Systems precedente a 4.6.0.0.

Per sostituire una versione precedente dell'agent, completare la seguente procedura:

  1. Copiare il file di configurazione che definisca le directory di rete condivise a cui l'agent del file system Windows può accedere in una directory esterna al percorso file dell'agent, ovvero C:\Program Files (x86)\IBM\es.

    Ad esempio, copiare il file C:\Program Files (x86)\IBM\es\distributed\esadmin\config\esfsexport.txt in una directory come C:\temp.

  2. Dal programma di utilità Microsoft Windows Apps & features, individuare la versione precedente di IBM Watson Discovery Agent for Windows File Systems, quindi fare clic su Disinstalla.

  3. Scegliere Elimina completamente IBM Watson Discovery Agent per file system Windows, quindi fare clic su Disinstalla.

  4. Riavviare il sistema.

  5. Completare la procedura riportata in Installazione dell'agente per installare la versione più recente dell'agente.

  6. Sostituire la nuova versione del file C:\Program Files\IBM\es\distributed\esadmin\config\esfsexport.txt con il file copiato nel passo 1.

    Questo passo aggiunge la configurazione delle directory condivise impostate per la versione precedente dell'agente alla nuova installazione. Quando si riutilizza la condivisione file, è possibile ignorare il passo di configurazione delle directory condivise.

  7. Eseguire il seguente comando per verificare che la directory sia condivisa con il servizio agent:

    C:\Users\Administrator> esagent --lsshare
    

Installazione dell'agent

Per installare IBM Watson Discovery Agent for Windows File Systems per la prima volta, completare la procedura riportata di seguito:

  1. Dal riquadro di spostamento, scegliere Gestisci raccolte.

  2. Fare clic su Nuova raccolta.

  3. Fare clic su File system Windows, quindi fare clic su Avanti.

  4. Scorrere fino alla sezione Scarica & installa agent Windows, quindi fare clic su Scarica programma di installazione agent Windows.

    Viene scaricato un file ZIP.

  5. Decomprimere il file WindowsAgentServer.zip.

  6. Per eseguire il programma di installazione puoi scegliere uno dei seguenti metodi:

    • Fare doppio clic sul file install.exe per avviare la procedura guidata di installazione.

    • Per eseguire il programma di installazione in modalità testo da una console, completare i seguenti passaggi:

      • Passa alla directory dell'agent.

      • Immettere il seguente comando:

        install.exe -i console
        

        Le schermate sono rese in testo e ti richiedono le stesse informazioni dell'installazione grafica.

        Dopo aver inserito il comando, un processo viene eseguito in background per diversi secondi prima che venga visualizzato il programma di installazione della console.

    • Per installare il server agent in modalità non presidiata, completare la seguente procedura:

      • Passa alla directory Agent/responseFiles.

      • Modifica il file di risposta del template DistributedFileSystemCrawler.properties per fornire informazioni sul tuo ambiente. Per eseguire il programma di installazione, passare alla directory dell'agente e specificare il nome del file modificato.

        Vedi il seguente esempio:

        install.exe -i silent -f responseFiles/DistributedFileSystemCrawler.properties
        

      Se copi un file template in un'altra posizione per modificarlo, specifica il percorso completo del file quando esegui il programma di installazione. Se il percorso del file di risposta include uno spazio, racchiudere il percorso tra virgolette doppie ( " ). Vedere l'esempio seguente:

      install.exe -i silent -f "c:\My Documents\DistributedFileSystemCrawler.properties"
      
  7. Durante il processo di installazione è necessario fornire le seguenti informazioni:

    • hostname: immettere o verificare il nome host completo del computer su cui si sta installando il server agent.

      Non è possibile specificare un indirizzo IPv6 come nome host del server.

    • username: Inserire il nome utente di un account che può essere utilizzato per autorizzare l'accesso al server agente.

      Se il nome utente non esiste, selezionare la casella di controllo per creare l'account.

      Per eseguire la ricerca per indicizzazione su un dominio in una raccolta protetta, il nome utente deve essere un utente di dominio esistente con privilegi di amministrazione per il sistema Windows da sottoporre a ricerca per indicizzazione. Per specificare un utente di dominio, utilizzare il formato <username>@<domain name>.

    • password: fornire la password associata al nome utente.

  8. Facoltativo: se si desidera modificare le impostazioni di percorso e porta predefinite, fare clic su Opzioni avanzate.

    • Puoi modificare i percorsi per la directory di installazione e la directory dei dati.
    • Il server agent utilizza tre porte TCP/IP per l'autenticazione delle connessioni al server, il trasferimento dei dati tra i file system e Discovery e il monitoraggio del server agent. I numeri di porta predefiniti sono 8397 e 8398. Se tali valori sono in conflitto con altre assegnazioni di porte nel tuo sistema, modifica i numeri di porta.
  9. Nella pagina di riepilogo, esamina le opzioni che hai selezionato e fai clic su Install per avviare l'installazione del software.

  10. Facoltativo: se si desidera proteggere il traffico tra il servizio agent Windows ed il crawler, abilitare il supporto TLS.

    Copiare il file denominato tls.p12 dalla directory decompressa alla directory root in cui è installato l'agent. Ad esempio, la directory root potrebbe essere C:\Program Files\IBM\es\distributed\esadmin.

    Il supporto TLS è disponibile a partire dalla release 4.7.

  11. Riavvia il computer.

Configurazione di directory condivise sul server agent

Dopo aver installato il software, devi configurare le directory di rete condivise a cui l'agent Windows File System può accedere. Per definire una nuova condivisione del file system, esportare una directory di rete locale o remota.

Se si sostituisce un agent installato con una release precedente a 4.6.0.0, ignorare questa procedura. Le istruzioni di sostituzione spiegano come riutilizzare la condivisione file definita in precedenza.

  1. Esporta una directory locale dal server in cui è installato l'agent:

    esagent --addshare <d:><\example>
    

    Dove d: rappresenta la lettera di unità che vuoi utilizzare e \example rappresenta il percorso della directory locale.

  2. Esporta una directory di rete remota che sia accessibile dal server in cui è installato l'agent:

    esagent --addshare <\\files.example.com\data>
    

    Dove \\files.example.com\data rappresenta il nome host o l'indirizzo IP del server remoto o il percorso della directory remota.

  3. Elenca le condivisioni definite sul server in cui è installato l'agent:

    esagent --lsshare
    
  4. Se si desidera eliminare una condivisione definita sul server in cui è installato l'agent, è possibile utilizzare il seguente comando:

    esagent --rmshare \\files.example.com\data
    

Comandi di stato del server

Dopo aver installato il server agente, è possibile inserire comandi per avviare, arrestare e controllare lo stato del server.

L'arresto del server agent arresta anche il crawler. Ad esempio, se il crawler si arresta in modo imprevisto, puoi chiudere le connessioni e rilasciare le risorse per quel crawler.

  • Per avviare il server, inserire il seguente comando:

    esagent start
    
  • Per arrestare il server, inserire il seguente comando:

    esagent stop
    
  • Per ottenere lo stato del server agent, immettere il seguente comando:

    esagent getStatus
    

L'output del comando " getStatus " è un file XML con il seguente output:

<AgentStatus>
  <SpaceStatus>
    <SpaceId>012</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test1</RootFolder>
    <ConnectionNumber>9</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>
  <SpaceStatus>
    <SpaceId>013</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test2</RootFolder>
    <ConnectionNumber>10</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>

Connessione a un'origine dati del file system Windows

Dal tuo progetto Discovery, completa la seguente procedura.

Se sono stati completati i passi prerequisiti, tornare alla raccolta dell'origine dati del file system Windows che si è iniziato a creare, quindi passare al passo 4.

  1. Dal riquadro di spostamento, scegliere Gestisci raccolte.

  2. Fare clic su Nuova raccolta.

  3. Fare clic su File system Windows, quindi fare clic su Avanti.

  4. Denominare la raccolta.

  5. Se la lingua dei documenti su cui si desidera eseguire la ricerca per indicizzazione non è l'inglese, selezionare la lingua appropriata.

    Per un elenco delle lingue supportate, vedi Supporto linguistico.

  6. Facoltativo: modificare la pianificazione della sincronizzazione.

    Per ulteriori informazioni, vedi Opzioni di pianificazione della ricerca per indicizzazione.

  7. Nella sezione Immettere le credenziali, aggiungere valori ai seguenti campi. Questi campi sono stati forniti durante l'installazione del server agent, descritto nella sezione Prerequisiti.

    Conduttore
    Il nome host del server Microsoft Windows remoto, ad esempio <hostname>.mydomain.com.
    Nome utente
    Il nome utente per connettersi al server agent. Utilizzi il nome utente per collegare Discovery alle cartelle di rete condivise e per eseguire la scansione dei contenuti.
    Password
    La password associata al nome utente.
    Porta di autenticazione agent
    La porta da utilizzare per l'autenticazione. Il valore predefinito della porta è 8397.
    Porta
    La porta da utilizzare per trasferire i dati. Il valore predefinito della porta è 8398.
  8. Nella sezione Specifica cosa si desidera sottoporre a ricerca per indicizzazione, immettere il percorso file da sottoporre a ricerca per indicizzazione nel campo Percorso e fare clic su Aggiungi.

    Il percorso del file è sensibile al maiuscolo / minuscolo.

    Facoltativamente, aggiungere ulteriori percorsi file.

  9. Facoltativo: personalizzare i tipi di file sottoposti a ricerca per indicizzazione.

    Il crawler viene configurato automaticamente per escludere un elenco di estensioni file per i tipi di file che possono non essere sicuri per la ricerca per indicizzazione. È possibile aggiungere ulteriori estensioni file all'elenco di filtri esclusi oppure elencare solo le estensioni file per i tipi di file che si desidera includere nella ricerca per indicizzazione. Elencare i tipi di file da includere è ancora più sicuro.

    Per modificare i tipi di file sottoposti a ricerca per indicizzazione, nella sezione Filtro estensione, scegliere se utilizzare un elenco di filtri Esclusi o Inclusi. Quindi, elencare le estensioni file per i tipi di file che si desidera escludere o includere.

    Questa opzione di configurazione è stata introdotta con la release 4.0.3.

  10. Facoltativo: specificare la serie di caratteri dei dati da sottoporre a ricerca per indicizzazione.

    Il programma di conversione utilizzato dal crawler viene configurato automaticamente per rilevare la serie di caratteri dei file prima di convertirli. Tuttavia, è possibile scegliere di specificare una diversa codifica di caratteri da utilizzare per la conversione dei dati. Per specificare una codifica di caratteri, completare la seguente procedura:

    • Impostare l'opzione Rilevamento code page automatico su Off.
    • Nel campo Code page to use, specificare la codifica caratteri come valore Java Charset. Ad esempio, UTF-8 o UTF-16. Se non si specifica una serie di caratteri, viene utilizzato ISO-8859-1.

    Questa opzione di configurazione è stata introdotta con la release 4.0.3.

  11. Facoltativo: se si desidera abilitare la sicurezza a livello di documento, nella sezione Sicurezza, impostare l'opzione Abilita sicurezza a livello di documento su On.

    Quando abiliti questa opzione, i tuoi utenti possono eseguire la ricerca per indicizzazione e le query sui contenuti a cui hanno accesso. È necessario fornire i dettagli sulla directory LDAP che si desidera utilizzare.

    URL server LDAP
    Il server LDAP URL a cui connettersi. Ad esempio, ldap://<ldap_server>:<port>.
    Nome utente bind LDAP
    Il nome utente da utilizzare per collegarsi al servizio directory.
    Password utente bind LDAP
    La password associata al nome utente associato.
    DN base LDAP
    Il punto di partenza per la ricerca delle voci utente in LDAP. Ad esempio, CN=Users,DC=example,DC=com.
    Filtro utente LDAP
    Il filtro utente per ricercare le voci utente in LDAP. Se vuoto, il valore predefinito è (userPrincipalName={0}).
  12. Se si desidera che il crawler estragga il testo dalle immagini nei documenti, espandere Ulteriori impostazioni di elaborazionee impostare Applica OCR (optical character recognition) su On.

    Quando OCR è abilitato e i tuoi documenti contengono immagini, l'elaborazione richiede più tempo. Per ulteriori informazioni, consultare Riconoscimento dei caratteri ottici.

  13. Fai clic su Finish.

La raccolta viene creata rapidamente. È necessario più tempo per l'elaborazione dei dati man mano che vengono aggiunti alla raccolta.

Se si desidera controllare l'avanzamento, andare alla pagina Attività. Dal riquadro di navigazione, fare clic su Gestisci raccolte, quindi fare clic per aprire la raccolta.

Abilitazione di TLS per una raccolta esistente

Per garantire che tutto il traffico inviato tra il servizio agent Windows e il crawler venga inviato tramite il protocollo TLS (transport layer security), abilitare il supporto TLS.

Questa funzionalità è disponibile a partire da 4.7. Non completare questa attività fino a quando non si aggiorna il software di servizio a 4.7.

Dopo aver abilitato TLS per il servizio agent Windows, tutte le raccolte esistenti nelle distribuzioni con versioni precedenti di Discovery non saranno in grado di connettersi a questo servizio agent Windows.

Per aggiungere il supporto TLS a una raccolta esistente, completare la seguente procedura:

  1. Aprire la pagina Impostazioni di elaborazione per la raccolta Window File System esistente.

  2. Installare l'ultima versione dell'agente.

    Completare i passi nella procedura Installazione dell'agent, a partire dal passo 4 e includendo il passo facoltativo per abilitare il supporto TLS.

    Non completare l'ultimo passo che richiede di riavviare il computer.

  3. Trovare e aprire un file di as.cfg in un editor di testo, quindi aggiungere le seguenti righe al file:

    agent_key_store=%ES_AGENT_NODE_ROOT%\tls.p12
    agent_key_store_password=changeit
    

    dove %ES_AGENT_NODE_ROOT% è la directory root per il server agent Windows. Ad esempio:

    agent_key_store="C:\Program Files\IBM\es\distributed\esadmin\tls.p12"
    agent_key_store_password=changeit
    
  4. Riavviare il servizio agent Windows utilizzando i comandi riportati di seguito:

    esagent stop
    esagent start