ローカル・ファイル・システム
ローカル・ファイル・システムに保管されている文書をクロールします。
IBM Cloud Pak for Data IBM Software Hub
この情報は、インストール済みデプロイメントにのみ適用されます。
クロールされる文書
- ファイル・パス内の Discovery によってサポートされるファイル・タイプのみがクロールされます。その他はすべて無視されます。 詳しくは、 サポートされるファイル・タイプ を参照してください。
- クローラーがアクセスできるのは、
/mnt
ディレクトリー内のファイル、またはそのいずれかのサブディレクトリー内のファイルのみです。 - 指定したファイル拡張子フィルター・ルールに一致するファイル拡張子を持つファイルのみがクロールされます。 * 4.7.0 リリースで追加されました。*
- ソースが再クロールされると、新しい文書が追加され、更新された文書は最新バージョンに変更され、削除された文書はコレクションのインデックスから削除されます。
- すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。
前提条件ステップ
ローカル・ファイル・システム・データ・ソースに接続する前に、以下のステップを実行します。
サービスは、デフォルトで Portworx ストレージを使用します。 ただし、ネットワーク・ファイル・システム (NFS) ストレージを使用している場合は、代わりに NFS ストレージの前提条件ステップ を参照してください。
クローラー・ポッドでの永続ボリューム請求の作成とマウント
ローカル・ファイル・システムをクロールする前に、Persistent Volume Claim を作成し、それを crawler
ポッドにマウントする必要があります。 また、クロール対象のファイルを、作業中の Discovery クラスターにコピーする必要があります。 複数の Discovery クラスターがある場合は、このタスクで作成する crawler-pvc-portworx.yaml
ファイルとともにファイルを各クラスターにコピーする必要があります。
以下のステップを実行します。
-
以下のコマンドを入力して、Portworx プロビジョナーの
storageclass
名を確認します。oc get storageclass | grep portworx-gp3-sc
以下のような出力が表示されます。
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE portworx-gp3-sc kubernetes.io/portworx-volume Retain Immediate true 51d
-
crawler-pvc-portworx.yaml
という名前のファイルを作成して、以下の内容の Persistent Volume Claim (PVC) を定義します。kind: PersistentVolumeClaim apiVersion: v1 metadata: name: <name-of-portworx-pvc> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi storageClassName: portworx-gp3-sc
<name-of-portworx-pvc>
を、動的 Portworx 永続ボリューム要求の名前に置き換えます。 例えば、jdoe-pvc-portworx
-
永続ボリュームの主張を作成するには、以下のコマンドを入力します
oc create -f crawler-pvc-portworx.yaml
以下のメッセージが表示されます。
persistentvolumeclaim/jdoe-pvc-portworx created
-
crawler
ポッドに永続ボリュームの主張をマウントするには、以下のコマンドを入力しますoc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-portworx-pvc>" } } } } }'
<name-of-portworx-pvc>
を、動的 Portworx 永続ボリューム要求の名前に置き換えます。 例えば、jdoe-pvc-portworx
です。 -
以下のコマンドを入力して、クロール対象ファイルを動的 Portworx 永続ボリューム請求にコピーします。
このコマンドは、既存の
crawler
ポッドのいずれかに対して1回実行するだけで十分です。 持続的なボリュームの主張は、すべてのcrawler
およびingestion-api
ポッドで共有されています。 コマンド内の変数を適切な情報に置き換えます。oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
パーシスタント・ボリューム・クレーム (PVC) をマウントし、クロールするファイルを PVC にコピーしました。
ローカル・ファイル・システム・データ・ソースへの接続
Discovery プロジェクトから、以下の手順を完了してください
-
ナビゲーション・ペインから、 「コレクションの管理」 を選択します。
-
新しいコレクションをクリックします。
-
「ローカル・ファイル・システム」 をクリックし、 「次へ」 をクリックします。
-
コレクションに名前を付けます。
-
クロールする文書の言語が英語以外の場合は、該当する言語を選択します。
サポートされる言語のリストについては、言語サポートを参照してください。
-
オプション: 同期スケジュールを変更します。
詳しくは、 クロール・スケジュール・オプション を参照してください。
-
「クロールする対象を指定 (Specify what you want to crawl)」 セクションで、クロールするファイル・パスを 「パス」 フィールドに入力し、 「追加」 をクリックします。
ファイルパスは大文字と小文字が区別されます。 クローラーがアクセスできるのは、
/mnt
ディレクトリー内のファイルまたはそのサブディレクトリーの 1 つのみであることに注意してください。 -
オプションで、さらにファイル・パスを追加します。
-
コレクションに追加するファイルのタイプを制限する場合は、包含または除外するファイル・タイプのファイル拡張子をリストすることができます。
サポートされるファイル・タイプのリストについては、 サポートされるファイル・タイプ を参照してください。
このオプションのサポートは、 4.7.0 リリースで追加されました。
-
クローラーが文書内のイメージからテキストを抽出するようにするには、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」 を
On
に設定します。OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。
-
「完了 (Finish)」 をクリックします。
コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。
進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。
NFS ストレージの前提条件ステップ
以下のいずれかの方法を選択して、 crawler
ポッドがファイル・システムにアクセスできるようにします。
外部 NFS サーバーの構成
クロール対象となるローカル・ファイル・システムのファイルまたはフォルダーが外部ネットワーク・ファイル・システム (NFS) 内に保管されている場合、外部 NFS サーバーを使用して永続ボリューム請求を作成できます。
-
crawler-pv-nfs.yaml
という名前で、以下の内容のファイルを作成しますapiVersion: v1 kind: PersistentVolume metadata: name: <persistent-volume-name> labels: pv-name: <persistent-volume-name> spec: capacity: storage: 10Gi accessModes: - ReadWriteMany persistentVolumeReclaimPolicy: Retain nfs: server: <NFS server hostname or IP address> path: <Path of NFS exported folder>
<persistent-volume-name>
への参照を永続ボリュームの名前に置き換えます。 例えば、jdoe-nfs-pv
と入力し、欠落している外部 NFS の詳細を追加します。 -
永続ボリュームの主張を作成するには、以下のコマンドを入力します
oc create -f crawler-pv-nfs.yaml
以下のメッセージが表示されます。
persistentvolume/jdoe-nfs-pv created
-
crawler-pvc-nfs.yaml
というファイルを作成し、以下の内容を入力しますkind: PersistentVolumeClaim apiVersion: v1 metadata: name: <persistent-volume-claim-name> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi selector: matchLabels: pv-name: <persistent-volume-name>
以下の変数を置き換えます。
<persistent-volume-claim-name>
: 永続ボリュームの主張の名前を指定します。 例えば、jdoe-nfs-pvc
です。<persistent-volume-name>
: 永続ボリュームの名前を指定します。 例えば、jdoe-nfs-pv
です。
-
永続ボリュームの主張を作成するには、以下のコマンドを入力します
oc create -f crawler-pvc-nfs.yaml
以下のメッセージが表示されます。
persistentvolumeclaim/jdoe-nfs-pvc created
-
crawler
ポッドに永続ボリュームの主張をマウントするには、以下のコマンドを入力します。このコマンドは、すべての
ingestion-api
ポッドに永続ボリュームの主張をマウントします。<persistent-volume-claim-name>
を、永続ボリューム要求の名前に置き換えます。 例えば、jdoe-nfs-pvc
などです。oc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<persistent-volume-claim-name>" } } } } }'
NFS ストレージクラスを使用した動的プロビジョニングの設定
ローカルのファイルシステム上のファイルやフォルダをクロールしたいが、それらのファイルやフォルダを保存するための追加の NFS サーバーを用意したくない場合は、 NFS ストレージクラスを使用して動的ストレージを設定することができます。
Discovery がサポートするストレージプロバイダーの詳細およびストレージの比較については 、「ストレージに関する考慮事項 」を参照してください。
このタスクを完了する前に、クロールしたいファイルを、作業中の Discovery クラスタにコピーしてください。 複数の Discovery クラスターがある場合は、このタスクで作成した crawler-pvc-dynamic.yaml
ファイルとともにファイルを各クラスターにコピーする必要があります。
以下のステップを実行します。
-
以下のコマンドを入力して、NFS プロビジョナーの
storageclass
名を確認します。oc get storageclass
メッセージが表示されます。
NAME PROVISIONER RECLAIMPOLICY VOLUMEBINDINGMODE ALLOWVOLUMEEXPANSION AGE nfs-client cluster.local/innocence-nfs-client-provisioner Delete Immediate true 177m
-
crawler-pvc-dynamic.yaml
という名前のファイルを作成し、そのファイルに以下の内容を追加します。kind: PersistentVolumeClaim apiVersion: v1 metadata: name: <name-of-dynamic-pvc> spec: accessModes: - ReadWriteMany resources: requests: storage: 10Gi storageClassName: nfs-client
<name-of-dynamic-pvc>
を、動的 NFS 永続ボリューム要求の名前に置き換えます。 例えば、jdoe-dynamic-pvc
です。 -
永続ボリュームの主張を作成するには、以下のコマンドを入力します
oc create -f crawler-pvc-dynamic.yaml
メッセージが表示されます。
persistentvolumeclaim/jdoe-dynamic-pvc created
-
crawler
ポッドに永続ボリュームの主張をマウントするには、以下のコマンドを入力します。このコマンドは、すべての
ingestion-api
ポッドに永続ボリュームの主張をマウントします。oc patch wd wd --type=merge \ --patch='{"spec": {"ingestion": {"crawler": {"mount": {"enabled": true, "persistentVolumeClaimName": "<name-of-dynamic-pvc>" } } } } }'
<name-of-dynamic-pvc>
を、前のステップの動的 NFS 永続ボリューム要求の名前に置き換えます。 例えば、jdoe-dynamic-pvc
です。 -
以下のコマンドを入力して、クロール対象ファイルを動的 NFS 永続ボリューム請求にコピーします。
このコマンドは、既存の
crawler
ポッドの 1 つに対して 1 回のみ実行する必要があります。 持続的なボリュームの主張は、すべてのcrawler
およびingestion-api
ポッドで共有されています。 コマンド内の変数を適切な情報に置き換えます。oc rsync <path-to-local-file-system-folder> <crawler-pod>:/mnt
Persistent Volume Claim (PVC) をマウントし、クロールする必要があるすべてのファイルを PVC にコピーしました。