Local File System
Eseguire la ricerca per indicizzazione sui documenti memorizzati in un filesystem locale.
IBM Cloud Pak for Data IBM Software Hub
Queste informazioni si applicano solo alle distribuzioni installate.
Documenti sottoposti a ricerca per indicizzazione
- Solo i tipi di file supportati da Discovery nel percorso file vengono sottoposti a ricerca per indicizzazione; tutti gli altri vengono ignorati. Per ulteriori informazioni, consultare Tipi di file supportati.
- Il crawler può accedere solo ai file nella directory
/mnt
o in una delle relative sottodirectory. - Viene eseguita la ricerca per indicizzazione solo dei file con estensioni file che corrispondono alle regole di filtro di estensione file specificate. Aggiunto con la release 4.7.0.
- Quando una fonte viene ricaricata, i nuovi documenti vengono aggiunti, i documenti aggiornati vengono modificati nella versione corrente e i documenti eliminati vengono eliminati dall'indice della raccolta.
- Tutti i connettori dell'origine dati Discovery sono di sola lettura. Indipendentemente dalle autorizzazioni concesse all'account di ricerca per indicizzazione, Discovery non scrive, aggiorna o elimina mai alcun contenuto nell'origine dati originale.
procedura
prerequisita
Prima di connettersi all'origine dati File system locale, completare la seguente procedura:
Il servizio utilizza l'archiviazione Portworx per impostazione predefinita. Tuttavia, se stai utilizzando l'archiviazione NFS (Network File System) (NFS), vedi Procedura prerequisita per l'archiviazione NFS.
Creazione e montaggio di un'attestazione di volume persistente sul pod del crawler
Prima di poter eseguire la ricerca per indicizzazione su un filesystem locale, devi creare un'attestazione del volume persistente e montarla sul pod crawler
. Devi inoltre copiare i file su cui vuoi eseguire la ricerca per indicizzazione
nel cluster Discovery su cui stai lavorando. Se hai più cluster Discovery, devi copiare i file insieme al file crawler-pvc-portworx.yaml
che creerai in questa attività in ogni cluster.
Completa i seguenti passi:
-
Immettere il seguente comando per verificare il nome
storageclass
del provisioner Portworx:oc get storageclass | grep portworx-gp3-sc
Potresti vedere un output simile al seguente:
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE portworx-gp3-sc kubernetes.io/portworx-volume Retain Immediate true 51d
-
Crea un file denominato
crawler-pvc-portworx.yaml
per definire la PVC (persistent volume claim) con il seguente contenuto:kind: PersistentVolumeClaim apiVersion: v1 metadata: name: <name-of-portworx-pvc> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi storageClassName: portworx-gp3-sc
Sostituisci
<name-of-portworx-pvc>
con il nome della tua attestazione del volume persistente Portworx dinamica. Ad esempio,jdoe-pvc-portworx
-
Immettere il seguente comando per creare l'attestazione del volume persistente:
oc create -f crawler-pvc-portworx.yaml
Viene visualizzato un messaggio:
persistentvolumeclaim/jdoe-pvc-portworx created
-
Immetti il seguente comando per montare l'attestazione del volume persistente nel pod
crawler
:oc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-portworx-pvc>" } } } } }'
Sostituisci
<name-of-portworx-pvc>
con il nome della tua attestazione del volume persistente Portworx dinamica. Ad esempio,jdoe-pvc-portworx
. -
Immetti il seguente comando per copiare i file su cui vuoi eseguire la ricerca per indicizzazione nella tua richiesta del volume persistente Portworx dinamica.
Devi eseguire questo comando solo una volta su uno dei pod
crawler
esistenti. L'attestazione del volume persistente è condivisa tra tutti i podcrawler
eingestion-api
. Sostituire le variabili nel comando con le informazioni appropriate.oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
Hai montato l'attestazione del volume persistente (o PVC, persistent volume claim) e copiato i file su cui vuoi eseguire la ricerca per indicizzazione nella PVC.
Connessione a un'origine dati del filesystem locale
Dal tuo progetto Discovery, completa la seguente procedura:
-
Dal riquadro di spostamento, scegliere Gestisci raccolte.
-
Fare clic su Nuova raccolta.
-
Fare clic su File system locale e fare clic su Avanti.
-
Denominare la raccolta.
-
Se la lingua dei documenti su cui si desidera eseguire la ricerca per indicizzazione non è l'inglese, selezionare la lingua appropriata.
Per un elenco delle lingue supportate, vedi Supporto linguistico.
-
Facoltativo: modificare la pianificazione della sincronizzazione.
Per ulteriori informazioni, vedi Opzioni di pianificazione della ricerca per indicizzazione.
-
Nella sezione Specifica cosa si desidera sottoporre a ricerca per indicizzazione, immettere il percorso file da sottoporre a ricerca per indicizzazione nel campo Percorso e fare clic su Aggiungi.
Il percorso file è sensibile al maiuscolo / minuscolo. Tenere presente che solo i file nella directory
/mnt
o in una delle relative sottodirectory possono essere acceduti dal crawler. -
Facoltativamente, aggiungere ulteriori percorsi file.
-
Se si desidera limitare i tipi di file da aggiungere alla raccolta, è possibile elencare le estensioni file per i tipi di file da includere o escludere.
Per un elenco di tipi di file supportati, consultare Tipi di file supportati.
Il supporto per questa opzione è stato aggiunto con la release 4.7.0.
-
Se si desidera che il crawler estragga il testo dalle immagini nei documenti, espandere Ulteriori impostazioni di elaborazionee impostare Applica OCR (optical character recognition) su
On
.Quando OCR è abilitato e i tuoi documenti contengono immagini, l'elaborazione richiede più tempo. Per ulteriori informazioni, consultare Riconoscimento dei caratteri ottici.
-
Fai clic su Finish.
La raccolta viene creata rapidamente. È necessario più tempo per l'elaborazione dei dati man mano che vengono aggiunti alla raccolta.
Se si desidera controllare l'avanzamento, andare alla pagina Attività. Dal riquadro di navigazione, fare clic su Gestisci raccolte, quindi fare clic per aprire la raccolta.
Passi prerequisiti per l'archiviazione NFS
Scegliere uno dei seguenti metodi per consentire al pod crawler
di accedere al filesystem:
- Configurazione di un server NFS esterno
- Configurare il provisioning dinamico con una classe di memoria NFS
Configurazione di un server NFS esterno
Se i file o le cartelle del file system locale su cui si desidera eseguire la ricerca per indicizzazione sono archiviati in un file system di rete esterno (NFS), è possibile utilizzare il server NFS esterno per creare l'attestazione del volume persistente.
-
Creare un file denominato
crawler-pv-nfs.yaml
con il seguente contenuto:apiVersion: v1 kind: PersistentVolume metadata: name: <persistent-volume-name> labels: pv-name: <persistent-volume-name> spec: capacity: storage: 10Gi accessModes: - ReadWriteMany persistentVolumeReclaimPolicy: Retain nfs: server: <NFS server hostname or IP address> path: <Path of NFS exported folder>
Sostituisci i riferimenti a
<persistent-volume-name>
con il nome del tuo volume persistente. Ad esempio,jdoe-nfs-pv
e aggiungere i dettagli NFS esterni mancanti. -
Immettere il seguente comando per creare l'attestazione del volume persistente:
oc create -f crawler-pv-nfs.yaml
Viene visualizzato il seguente messaggio:
persistentvolume/jdoe-nfs-pv created
-
Creare un file denominato
crawler-pvc-nfs.yaml
con il seguente contenuto:kind: PersistentVolumeClaim apiVersion: v1 metadata: name: <persistent-volume-claim-name> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi selector: matchLabels: pv-name: <persistent-volume-name>
Sostituire le seguenti variabili:
<persistent-volume-claim-name>
: specificare il nome della richiesta di volume persistente. Ad esempio,jdoe-nfs-pvc
.<persistent-volume-name>
: specifica il nome del tuo volume persistente. Ad esempio,jdoe-nfs-pv
.
-
Immettere il seguente comando per creare l'attestazione del volume persistente:
oc create -f crawler-pvc-nfs.yaml
Viene visualizzato il seguente messaggio:
persistentvolumeclaim/jdoe-nfs-pvc created
-
Immetti il seguente comando per montare l'attestazione del volume persistente nel pod
crawler
.Questo comando monta anche l'attestazione del volume persistente su tutti i pod
ingestion-api
. Sostituisci<persistent-volume-claim-name>
con il nome della tua attestazione del volume persistente. Ad esempio,jdoe-nfs-pvc
.oc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<persistent-volume-claim-name>" } } } } }'
Configurazione del provisioning dinamico con una classe di archiviazione NFS
Se si desidera eseguire la ricerca per indicizzazione sui file o sulle cartelle del file system locale ma non si desidera preparare un server NFS supplementare per memorizzare tali file o cartelle, è possibile configurare l'archiviazione dinamica utilizzando una classe di archiviazione NFS.
Per ulteriori informazioni sui provider di archiviazione supportati da Discovery e per i confronti di archiviazione, vedi Considerazioni sull'archiviazione.
Prima di completare questa attività, copia i file su cui vuoi eseguire la ricerca per indicizzazione nel cluster Discovery su cui stai lavorando. Se hai più cluster Discovery, devi copiare i file insieme al file crawler-pvc-dynamic.yaml
che crei in questa attività in ciascun cluster.
Completa i seguenti passi:
-
Immettere il seguente comando per controllare il nome
storageclass
del provisioner NFS:oc get storageclass
Viene visualizzato un messaggio.
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE nfs-client cluster.local/innocence-nfs-client-provisioner Delete Immediate true 177m
-
Creare un file denominato
crawler-pvc-dynamic.yaml
e aggiungervi il contenuto seguente:kind: PersistentVolumeClaim apiVersion: v1 metadata: name: <name-of-dynamic-pvc> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi storageClassName: nfs-client
Sostituisci
<name-of-dynamic-pvc>
con il nome della tua attestazione del volume persistente NFS dinamica. Ad esempio,jdoe-dynamic-pvc
. -
Immettere il seguente comando per creare l'attestazione del volume persistente:
oc create -f crawler-pvc-dynamic.yaml
Viene visualizzato un messaggio.
persistentvolumeclaim/jdoe-dynamic-pvc created
-
Immetti il seguente comando per montare l'attestazione del volume persistente nel pod
crawler
.Questo comando monta anche l'attestazione del volume persistente su tutti i pod
ingestion-api
.oc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-dynamic-pvc>" } } } } }'
Sostituisci
<name-of-dynamic-pvc>
con il nome della tua richiesta di volume persistente NFS dinamica nel passo precedente. Ad esempio,jdoe-dynamic-pvc
. -
Immetti il seguente comando per copiare i file su cui vuoi eseguire la ricerca per indicizzazione nella tua richiesta di volume persistente NFS dinamica.
È necessario eseguire questo comando solo una volta per uno dei pod
crawler
esistenti. L'attestazione del volume persistente è condivisa tra tutti i podcrawler
eingestion-api
. Sostituire le variabili nel comando con le informazioni appropriate.oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
Hai montato la PVC (persistent volume claim) e copiato tutti i file su cui vuoi eseguire la ricerca per indicizzazione nella PVC.