IBM Cloud Docs
Local File System

Local File System

Eseguire la ricerca per indicizzazione sui documenti memorizzati in un filesystem locale.

IBM Cloud Pak for Data IBM Software Hub

Queste informazioni si applicano solo alle distribuzioni installate.

Documenti sottoposti a ricerca per indicizzazione

  • Solo i tipi di file supportati da Discovery nel percorso file vengono sottoposti a ricerca per indicizzazione; tutti gli altri vengono ignorati. Per ulteriori informazioni, consultare Tipi di file supportati.
  • Il crawler può accedere solo ai file nella directory /mnt o in una delle relative sottodirectory.
  • Viene eseguita la ricerca per indicizzazione solo dei file con estensioni file che corrispondono alle regole di filtro di estensione file specificate. Aggiunto con la release 4.7.0.
  • Quando una fonte viene ricaricata, i nuovi documenti vengono aggiunti, i documenti aggiornati vengono modificati nella versione corrente e i documenti eliminati vengono eliminati dall'indice della raccolta.
  • Tutti i connettori dell'origine dati Discovery sono di sola lettura. Indipendentemente dalle autorizzazioni concesse all'account di ricerca per indicizzazione, Discovery non scrive, aggiorna o elimina mai alcun contenuto nell'origine dati originale.

procedura

prerequisita

Prima di connettersi all'origine dati File system locale, completare la seguente procedura:

Il servizio utilizza l'archiviazione Portworx per impostazione predefinita. Tuttavia, se stai utilizzando l'archiviazione NFS (Network File System) (NFS), vedi Procedura prerequisita per l'archiviazione NFS.

Creazione e montaggio di un'attestazione di volume persistente sul pod del crawler

Prima di poter eseguire la ricerca per indicizzazione su un filesystem locale, devi creare un'attestazione del volume persistente e montarla sul pod crawler. Devi inoltre copiare i file su cui vuoi eseguire la ricerca per indicizzazione nel cluster Discovery su cui stai lavorando. Se hai più cluster Discovery, devi copiare i file insieme al file crawler-pvc-portworx.yaml che creerai in questa attività in ogni cluster.

Completa i seguenti passi:

  1. Immettere il seguente comando per verificare il nome storageclass del provisioner Portworx:

    oc get storageclass | grep portworx-gp3-sc
    

    Potresti vedere un output simile al seguente:

    NAME             PROVISIONER                    RECLAIMPOLICY  VOLUMEBINDINGMODE  ALLOWVOLUMEEXPANSION  AGE
    portworx-gp3-sc  kubernetes.io/portworx-volume  Retain         Immediate          true                  51d
    
  2. Crea un file denominato crawler-pvc-portworx.yaml per definire la PVC (persistent volume claim) con il seguente contenuto:

    kind: PersistentVolumeClaim
    apiVersion: v1
    metadata:
      name: <name-of-portworx-pvc>
    spec:
      accessModes:
        - ReadWriteMany
      resources:
        requests:
          storage: 10Gi
      storageClassName: portworx-gp3-sc
    

    Sostituisci <name-of-portworx-pvc> con il nome della tua attestazione del volume persistente Portworx dinamica. Ad esempio, jdoe-pvc-portworx

  3. Immettere il seguente comando per creare l'attestazione del volume persistente:

    oc create -f crawler-pvc-portworx.yaml
    

    Viene visualizzato un messaggio:

    persistentvolumeclaim/jdoe-pvc-portworx created
    
  4. Immetti il seguente comando per montare l'attestazione del volume persistente nel pod crawler :

    oc patch wd wd --type=merge \
    --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-portworx-pvc>" } } } } }'
    

    Sostituisci <name-of-portworx-pvc> con il nome della tua attestazione del volume persistente Portworx dinamica. Ad esempio, jdoe-pvc-portworx.

  5. Immetti il seguente comando per copiare i file su cui vuoi eseguire la ricerca per indicizzazione nella tua richiesta del volume persistente Portworx dinamica.

    Devi eseguire questo comando solo una volta su uno dei pod crawler esistenti. L'attestazione del volume persistente è condivisa tra tutti i pod crawler e ingestion-api. Sostituire le variabili nel comando con le informazioni appropriate.

    oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
    

Hai montato l'attestazione del volume persistente (o PVC, persistent volume claim) e copiato i file su cui vuoi eseguire la ricerca per indicizzazione nella PVC.

Connessione a un'origine dati del filesystem locale

Dal tuo progetto Discovery, completa la seguente procedura:

  1. Dal riquadro di spostamento, scegliere Gestisci raccolte.

  2. Fare clic su Nuova raccolta.

  3. Fare clic su File system locale e fare clic su Avanti.

  4. Denominare la raccolta.

  5. Se la lingua dei documenti su cui si desidera eseguire la ricerca per indicizzazione non è l'inglese, selezionare la lingua appropriata.

    Per un elenco delle lingue supportate, vedi Supporto linguistico.

  6. Facoltativo: modificare la pianificazione della sincronizzazione.

    Per ulteriori informazioni, vedi Opzioni di pianificazione della ricerca per indicizzazione.

  7. Nella sezione Specifica cosa si desidera sottoporre a ricerca per indicizzazione, immettere il percorso file da sottoporre a ricerca per indicizzazione nel campo Percorso e fare clic su Aggiungi.

    Il percorso file è sensibile al maiuscolo / minuscolo. Tenere presente che solo i file nella directory /mnt o in una delle relative sottodirectory possono essere acceduti dal crawler.

  8. Facoltativamente, aggiungere ulteriori percorsi file.

  9. Se si desidera limitare i tipi di file da aggiungere alla raccolta, è possibile elencare le estensioni file per i tipi di file da includere o escludere.

    Per un elenco di tipi di file supportati, consultare Tipi di file supportati.

    Il supporto per questa opzione è stato aggiunto con la release 4.7.0.

  10. Se si desidera che il crawler estragga il testo dalle immagini nei documenti, espandere Ulteriori impostazioni di elaborazionee impostare Applica OCR (optical character recognition) su On.

    Quando OCR è abilitato e i tuoi documenti contengono immagini, l'elaborazione richiede più tempo. Per ulteriori informazioni, consultare Riconoscimento dei caratteri ottici.

  11. Fai clic su Finish.

La raccolta viene creata rapidamente. È necessario più tempo per l'elaborazione dei dati man mano che vengono aggiunti alla raccolta.

Se si desidera controllare l'avanzamento, andare alla pagina Attività. Dal riquadro di navigazione, fare clic su Gestisci raccolte, quindi fare clic per aprire la raccolta.

Passi prerequisiti per l'archiviazione NFS

Scegliere uno dei seguenti metodi per consentire al pod crawler di accedere al filesystem:

Configurazione di un server NFS esterno

Se i file o le cartelle del file system locale su cui si desidera eseguire la ricerca per indicizzazione sono archiviati in un file system di rete esterno (NFS), è possibile utilizzare il server NFS esterno per creare l'attestazione del volume persistente.

  1. Creare un file denominato crawler-pv-nfs.yaml con il seguente contenuto:

    apiVersion: v1
    kind: PersistentVolume
    metadata:
      name: <persistent-volume-name>
      labels:
        pv-name: <persistent-volume-name>
    spec:
      capacity:
        storage: 10Gi
      accessModes:
        - ReadWriteMany
      persistentVolumeReclaimPolicy: Retain
      nfs:
        server: <NFS server hostname or IP address>
        path: <Path of NFS exported folder>
    

    Sostituisci i riferimenti a <persistent-volume-name> con il nome del tuo volume persistente. Ad esempio, jdoe-nfs-pv e aggiungere i dettagli NFS esterni mancanti.

  2. Immettere il seguente comando per creare l'attestazione del volume persistente:

    oc create -f crawler-pv-nfs.yaml
    

    Viene visualizzato il seguente messaggio:

    persistentvolume/jdoe-nfs-pv created
    
  3. Creare un file denominato crawler-pvc-nfs.yaml con il seguente contenuto:

    kind: PersistentVolumeClaim
    apiVersion: v1
    metadata:
      name: <persistent-volume-claim-name>
    spec:
      accessModes:
        - ReadWriteMany
      resources:
        requests:
          storage: 10Gi
      selector:
        matchLabels:
          pv-name: <persistent-volume-name>
    

    Sostituire le seguenti variabili:

    • <persistent-volume-claim-name>: specificare il nome della richiesta di volume persistente. Ad esempio, jdoe-nfs-pvc.
    • <persistent-volume-name>: specifica il nome del tuo volume persistente. Ad esempio, jdoe-nfs-pv.
  4. Immettere il seguente comando per creare l'attestazione del volume persistente:

    oc create -f crawler-pvc-nfs.yaml
    

    Viene visualizzato il seguente messaggio:

    persistentvolumeclaim/jdoe-nfs-pvc created
    
  5. Immetti il seguente comando per montare l'attestazione del volume persistente nel pod crawler.

    Questo comando monta anche l'attestazione del volume persistente su tutti i pod ingestion-api. Sostituisci <persistent-volume-claim-name> con il nome della tua attestazione del volume persistente. Ad esempio, jdoe-nfs-pvc.

    oc patch wd wd --type=merge \
    --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<persistent-volume-claim-name>" } } } } }'
    

Configurazione del provisioning dinamico con una classe di archiviazione NFS

Se si desidera eseguire la ricerca per indicizzazione sui file o sulle cartelle del file system locale ma non si desidera preparare un server NFS supplementare per memorizzare tali file o cartelle, è possibile configurare l'archiviazione dinamica utilizzando una classe di archiviazione NFS.

Per ulteriori informazioni sui provider di archiviazione supportati da Discovery e per i confronti di archiviazione, vedi Considerazioni sull'archiviazione.

Prima di completare questa attività, copia i file su cui vuoi eseguire la ricerca per indicizzazione nel cluster Discovery su cui stai lavorando. Se hai più cluster Discovery, devi copiare i file insieme al file crawler-pvc-dynamic.yaml che crei in questa attività in ciascun cluster.

Completa i seguenti passi:

  1. Immettere il seguente comando per controllare il nome storageclass del provisioner NFS:

    oc get storageclass
    

    Viene visualizzato un messaggio.

    NAME        PROVISIONER                                     RECLAIMPOLICY  VOLUMEBINDINGMODE  ALLOWVOLUMEEXPANSION  AGE
    nfs-client  cluster.local/innocence-nfs-client-provisioner  Delete         Immediate          true                  177m
    
  2. Creare un file denominato crawler-pvc-dynamic.yaml e aggiungervi il contenuto seguente:

    kind: PersistentVolumeClaim
    apiVersion: v1
    metadata:
      name: <name-of-dynamic-pvc>
    spec:
      accessModes:
        - ReadWriteMany
      resources:
        requests:
          storage: 10Gi
      storageClassName: nfs-client
    

    Sostituisci <name-of-dynamic-pvc> con il nome della tua attestazione del volume persistente NFS dinamica. Ad esempio, jdoe-dynamic-pvc.

  3. Immettere il seguente comando per creare l'attestazione del volume persistente:

    oc create -f crawler-pvc-dynamic.yaml
    

    Viene visualizzato un messaggio.

    persistentvolumeclaim/jdoe-dynamic-pvc created
    
  4. Immetti il seguente comando per montare l'attestazione del volume persistente nel pod crawler.

    Questo comando monta anche l'attestazione del volume persistente su tutti i pod ingestion-api.

    oc patch wd wd --type=merge \
    --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-dynamic-pvc>" } } } } }'
    

    Sostituisci <name-of-dynamic-pvc> con il nome della tua richiesta di volume persistente NFS dinamica nel passo precedente. Ad esempio, jdoe-dynamic-pvc.

  5. Immetti il seguente comando per copiare i file su cui vuoi eseguire la ricerca per indicizzazione nella tua richiesta di volume persistente NFS dinamica.

    È necessario eseguire questo comando solo una volta per uno dei pod crawler esistenti. L'attestazione del volume persistente è condivisa tra tutti i pod crawler e ingestion-api. Sostituire le variabili nel comando con le informazioni appropriate.

    oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
    

Hai montato la PVC (persistent volume claim) e copiato tutti i file su cui vuoi eseguire la ricerca per indicizzazione nella PVC.