IBM Cloud Docs
Windows ファイル・システム

Windows ファイル・システム

Microsoft Windows ファイル・システムに保管されている文書をクロールします。

IBM Cloud Pak for Data IBM Software Hub

この情報は、インストール済みデプロイメントにのみ適用されます。

クロールされる文書

  • ファイル・パス内の Discovery によってサポートされている文書のみがクロールされます。その他はすべて無視されます。 詳しくは、 サポートされるファイル・タイプ を参照してください。
  • 文書レベルのセキュリティーがサポートされます。 このオプションを有効にすると、ユーザーは、ファイル・システムに直接アクセスするときにアクセスできるコンテンツと同じコンテンツをクロールして照会することができます。
  • ソースが再クロールされると、新しい文書が追加され、更新された文書は最新バージョンに変更され、削除された文書はコレクションのインデックスから削除されます。
  • すべての Discovery データ・ソース・コネクターは読み取り専用です。 クロール・アカウントに付与されている許可に関係なく、 Discovery は、元のデータ・ソースのコンテンツの書き込み、更新、削除を行うことはありません。

データ・ソース要件

すべてのインストール済みデプロイメントの データ・ソース要件 に加えて、Windows ファイル・システムのデータ・ソースが以下の要件を満たしている必要があります。

  • このコネクターは、 Microsoft Windows Server 2012 R2、2016、2019、および 2022 をサポートします。
  • リモート・エージェント・サーバーとクロール対象のファイル・サーバーは、同じ Windows ドメインに属している必要があります。 クローラは、単一のWindowsドメインからのみアクセス制御リスト(ACL)データを収集できます。

4.6 リリースでは、 Microsoft Windows Server 2022 のサポートが追加されました。 4.7 リリース以降では、トランスポート層セキュリティー (TLS) プロトコルのサポートを有効にすることで、Windows エージェント・サービスとそのクローラーの間で送信されるトラフィックを保護できます。

前提条件ステップ

  • 文書レベルのセキュリティーを有効にする場合は、いくつかのステップを実行してセットアップする必要があります。 詳しくは、 文書レベルのセキュリティーのサポート を参照してください。

    文書レベルのセキュリティーを構成するには、以下の情報を収集する必要があります。

    LDAP サーバー URL
    LDAPサーバーに接続するには、 URL。 例えば、ldap://<ldap_server>:<port> です。
    LDAP バインディング・ユーザー名
    ディレクトリー・サービスにバインドするために使用するユーザー名。

    ほとんどの場合、このユーザー名は識別名 (DN) です。 Active Directory ユーザー名は機能する場合がありますが、一般的な Windows ログオンとは異なり、大/小文字が区別されます。

    LDAP バインディング・ユーザー・パスワード
    バインドされたユーザー名に関連付けられたパスワード。
    LDAP ベース DN
    LDAP でユーザー・エントリーを検索するための開始点。 例えば、CN=Users,DC=example,DC=com です。
    LDAP ユーザー・フィルター
    LDAPのユーザーエントリを検索するためのユーザーフィルタ。 空の場合、デフォルト値は (userPrincipalName={0}) です。
  • Windows ファイル・システム・コレクションを構成する前に、 IBM Watson Discovery Agent for Windows ファイル・システムをリモート Windows ファイル・サーバーまたはリモート Windows サーバーにインストールする必要があります。 エージェントはWindowsサービスであり、データソースサーバーからデータを取得し、 Discovery に送信します。 エージェントは、リモート Windows ファイル・システム、エージェントのローカル・ドライブ、および共有ネットワーク・フォルダーをクロールできます。

    リモートWindowsサーバーにエージェントをインストールする場合は、リモートWindowsサーバーが1つ以上のファイルサーバーをマウントできる状態になっている必要があります。そうすることで、エージェントがリモートWindowsファイルシステムをクロールできるようになります。

    エージェントをインストールして設定するには、以下の作業を行ってください

エージェントのインストール

4.6 リリースでは、 IBM Watson Discovery Agent for Windows File Systems が更新され、64 ビット・バージョンの Windows で実行できるようになりました。 4.6より前のリリースでエージェントをインストールした場合は、前のバージョンをアンインストールして削除してから、エージェントを再インストールする必要があります。

以下のタスクのいずれかを実行します。

pre-4.6 エージェントの置き換え

4.6.0.0 より前のバージョンの IBM Watson Discovery Agent for Windows File Systems がインストールされているデプロイメントの場合は必須。

以前のバージョンのエージェントを置き換えるには、以下の手順を実行します。

  1. Windows ファイル・システム・エージェントがアクセスできる共有ネットワーク・ディレクトリーを定義する構成ファイルを、エージェントのファイル・パスの外部にあるディレクトリー ( C:\Program Files (x86)\IBM\es) にコピーします。

    例えば、 C:\Program Files (x86)\IBM\es\distributed\esadmin\config\esfsexport.txt ファイルを C:\temp ディレクトリーなどのディレクトリーにコピーします。

  2. Microsoft Windows 「アプリ」& 機能 ユーティリティーから、以前のバージョンの IBM Watson Discovery Agent for Windows File Systemsを見つけて、 *「アンインストール」*をクリックします。

  3. *「完全に削除」 IBM Watson Discovery Agent for Windows File Systems」*を選択し、 *「アンインストール」*をクリックします。

  4. システムを再始動します。

  5. エージェントのインストール のステップを実行して、最新バージョンのエージェントをインストールします。

  6. 新しいバージョンの C:\Program Files\IBM\es\distributed\esadmin\config\esfsexport.txt ファイルを、ステップ 1 でコピーしたファイルに置き換えます。

    このステップにより、前のバージョンのエージェント用にセットアップした共有ディレクトリーの構成が新しいインストール済み環境に追加されます。 ファイル共有を再利用する場合は、共有ディレクトリーを構成するステップをスキップできます。

  7. 以下のコマンドを実行して、ディレクトリーがエージェント・サービスと共有されていることを確認します。

    C:\Users\Administrator> esagent --lsshare
    

エージェントのインストール

IBM Watson Discovery Agent for Windows File Systems を初めてインストールするには、以下の手順を実行します。

  1. ナビゲーション・ペインから、 「コレクションの管理」 を選択します。

  2. 新しいコレクションをクリックします。

  3. 「Windows ファイル・システム」 をクリックし、 「次へ」 をクリックします。

  4. 「ダウンロード」&「Windows エージェントのインストール」 セクションまでスクロールし、 「Windows エージェント・インストーラーのダウンロード」 をクリックします。

    ZIP ファイルがダウンロードされます。

  5. WindowsAgentServer.zip ファイルを解凍します。

  6. インストール・プログラムを実行するために、以下のいずれかの方法を選択できます。

    • install.exe ファイルをダブルクリックして、インストール・ウィザードを起動します。

    • コンソールからテキストモードでインストールプログラムを実行するには、以下の手順に従います

      • エージェント・ディレクトリーに移動します。

      • 以下のコマンドを入力します。

        install.exe -i console
        

        画面はテキストでレンダリングされ、グラフィカル・インストールと同じ情報を入力するようにプロンプト表示されます。

        コマンドを入力すると、コンソールインストールプログラムが表示される前に、バックグラウンドで数秒間プロセスが実行されます。

    • エージェントサーバーをサイレントインストールするには、以下の手順に従います

      • Agent/responseFilesディレクトリーに変更します。

      • DistributedFileSystemCrawler.properties テンプレート応答ファイルを編集して、ご使用の環境についての情報を提供します。 インストールプログラムを実行するには、エージェントディレクトリに変更し、編集したファイル名を指定します。

        以下の例を参照してください。

        install.exe -i silent -f responseFiles/DistributedFileSystemCrawler.properties
        

      テンプレート・ファイルを他の場所にコピーして編集する場合は、インストール・プログラムを実行するときにファイルの完全修飾パスを指定します。 レスポンスファイルのパスにスペースが含まれる場合は、そのパスを二重引用符で囲みます( " )。次の例を参照してください

      install.exe -i silent -f "c:\My Documents\DistributedFileSystemCrawler.properties"
      
  7. インストール・プロセス中に、以下の情報を指定する必要があります。

    • hostname: エージェント・サーバーをインストールするコンピューターの完全修飾ホスト名を入力または確認します。

      IPv6 アドレスをサーバーのホスト名として指定することはできません。

    • username: エージェントサーバーへのアクセスを認証するために使用できるアカウントのユーザー名を入力します。

      ユーザー名が存在しない場合は、アカウントを作成するチェックボックスを選択します。

      セキュア・コレクション内のドメインをクロールするには、ユーザー名は、クロール対象の Windows システムの管理特権を持つ既存のドメイン・ユーザーでなければなりません。 ドメインユーザーを指定するには、 <username>@<domain name> の形式を使用します。

    • password: ユーザー名に関連付けられているパスワードを指定します。

  8. オプション: デフォルトのパスとポートの設定を変更する場合は、 「拡張オプション」 をクリックします。

    • インストール・ディレクトリーおよびデータ・ディレクトリーのパスを変更できます。
    • エージェント・サーバーは、サーバーへの接続の認証、ファイル・システムと Discovery の間のデータの転送、およびエージェント・サーバーのモニターのために、3 つの TCP/IP ポートを使用します。 デフォルトのポート番号は 83978398 です。 これらの値がシステム内の他のポート割り当てと競合する場合、ポート番号を変更してください。
  9. サマリー・ページで、選択したオプションを検討し、**「インストール」**をクリックして、ソフトウェアのインストールを開始します。

  10. オプション: Windows エージェント・サービスとクローラーの間のトラフィックを保護する場合は、TLS サポートを有効にします。

    tls.p12 という名前のファイルを、解凍されたディレクトリーから、エージェントがインストールされているルート・ディレクトリーにコピーします。 例えば、ルート・ディレクトリーは C:\Program Files\IBM\es\distributed\esadmin のようになります。

    TLS サポートは、 4.7 リリース以降で使用可能です。

  11. コンピューターを再始動します。

エージェント・サーバーでの共有ディレクトリーの構成

ソフトウェアのインストール後、Windows ファイル・システムのエージェントがアクセスできる共有ネットワーク・ディレクトリーをセットアップする必要があります。 新しいファイルシステム共有を定義するには、ローカルまたはリモートのネットワークディレクトリをエクスポートします。

インストールしたエージェントを 4.6.0.0より前のリリースで置き換える場合は、この手順をスキップしてください。 置換手順では、前に定義したファイル共有を再利用する方法について説明します。

  1. エージェントがインストールされているサーバーからローカル・ディレクトリーをエクスポートします。

    esagent --addshare <d:><\example>
    

    d: は使用するドライブ名を表し、\example はローカル・ディレクトリーへのパスを表します。

  2. エージェントがインストールされているサーバーからアクセス可能なリモート・ネットワーク・ディレクトリーをエクスポートします。

    esagent --addshare <\\files.example.com\data>
    

    \\files.example.com\data は、リモートサーバーのホスト名または IP アドレス、またはリモートディレクトリへのパスを表します。

  3. エージェントがインストールされているサーバーで定義されている共有をリストします。

    esagent --lsshare
    
  4. エージェントがインストールされているサーバーで定義されている共有を削除する場合は、以下のコマンドを使用できます。

    esagent --rmshare \\files.example.com\data
    

サーバー状況コマンド

エージェントサーバーをインストールした後、サーバーの起動、停止、ステータスの確認などのコマンドを入力することができます。

エージェント・サーバーを停止すると、クローラーも停止します。 例えば、クローラーが突然停止した場合、接続を閉じて、そのクローラーのリソースを解放できます。

  • サーバーを起動するには、次のコマンドを入力します

    esagent start
    
  • サーバーを停止するには、次のコマンドを入力します

    esagent stop
    
  • エージェントサーバーのステータスを取得するには、次のコマンドを入力します

    esagent getStatus
    

getStatus コマンドの出力は、以下の出力を持つXMLファイルです

<AgentStatus>
  <SpaceStatus>
    <SpaceId>012</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test1</RootFolder>
    <ConnectionNumber>9</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>
  <SpaceStatus>
    <SpaceId>013</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test2</RootFolder>
    <ConnectionNumber>10</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>

Windows ファイル・システム・データ・ソースへの接続

Discovery プロジェクトから、以下の手順を完了してください。

前提条件のステップを完了した場合は、作成を開始した Windows ファイル・システムのデータ・ソース・コレクションに戻り、ステップ 4 にスキップします。

  1. ナビゲーション・ペインから、 「コレクションの管理」 を選択します。

  2. 新しいコレクションをクリックします。

  3. 「Windows ファイル・システム」 をクリックし、 「次へ」 をクリックします。

  4. コレクションに名前を付けます。

  5. クロールする文書の言語が英語以外の場合は、該当する言語を選択します。

    サポートされる言語のリストについては、言語サポートを参照してください。

  6. オプション: 同期スケジュールを変更します。

    詳しくは、 クロール・スケジュール・オプション を参照してください。

  7. 「資格情報の入力」 セクションで、以下のフィールドに値を追加します。 これらのフィールドは、エージェント・サーバーのインストール時に指定しました。これについては、「 前提条件ステップ 」セクションで説明されています。

    ホスト
    リモート Microsoft Windows サーバーのホスト名、例えば <hostname>.mydomain.com
    ユーザー名
    エージェント・サーバーに接続するためのユーザー名。 Discovery を共有ネットワークフォルダに接続し、コンテンツをクロールするには、ユーザー名を使用します。
    パスワード
    ユーザー名に関連付けられたパスワード。
    エージェント認証ポート
    認証に使用するポート。 デフォルトのポート値は 8397 です。
    ポート
    データの転送に使用するポート。 デフォルトのポート値は 8398 です。
  8. 「クロールする対象を指定 (Specify what you want to crawl)」 セクションで、クロールするファイル・パスを 「パス」 フィールドに入力し、 「追加」 をクリックします。

    ファイル・パスには大/小文字の区別があります。

    オプションで、さらにファイル・パスを追加します。

  9. オプション: クロールするファイルのタイプをカスタマイズします。

    クローラーは、クロールするのが安全でない可能性があるファイル・タイプのファイル拡張子のリストを除外するように自動的に構成されます。 除外するフィルター・リストにファイル拡張子を追加することも、クロールに含めるファイル・タイプのファイル拡張子のみをリストすることもできます。 組み込むファイルのタイプをリストすると、さらにセキュアになります。

    クロールされるファイル・タイプを変更するには、 「拡張フィルター」 セクションで、除外フィルター・リストと組み込みフィルター・リストのどちらを使用するかを選択します。 次に、除外または組み込みたいファイルのタイプのファイル拡張子をリストします。

    この構成オプションは、 4.0.3 リリースで導入されました。

  10. オプション: クロールするデータの文字セットを指定します。

    クローラーによって使用されるコンバーターは、ファイルの文字セットを変換する前に検出するように自動的に構成されます。 ただし、データ変換に使用する別の文字エンコードを指定することもできます。 文字エンコードを指定するには、以下の手順に従ってください

    • 「自動コード・ページ検出 (Automatic code page detection)」 スイッチを Off に設定します。
    • 「使用するコード・ページ」 フィールドで、文字エンコードを Java Charset 値として指定します。 例えば、UTF-8またはUTF-16などです。 文字セットを指定しない場合は、 ISO-8859-1 が使用されます。

    この構成オプションは、 4.0.3 リリースで導入されました。

  11. オプション: 文書レベルのセキュリティーを有効にする場合は、 「セキュリティー」 セクションで、 「文書レベルのセキュリティーを有効にする」 スイッチを On に設定します。

    このオプションを有効にすると、各ユーザーは、各自がアクセス可能なコンテンツをクロールおよび照会することができます。 使用する LDAP ディレクトリーの詳細を指定する必要があります。

    LDAP サーバー URL
    LDAPサーバーに接続するには、 URL。 例えば、ldap://<ldap_server>:<port> です。
    LDAP バインディング・ユーザー名
    ディレクトリー・サービスにバインドするために使用するユーザー名。
    LDAP バインディング・ユーザー・パスワード
    バインドされたユーザー名に関連付けられたパスワード。
    LDAP ベース DN
    LDAP でユーザー・エントリーを検索するための開始点。 例えば、CN=Users,DC=example,DC=com です。
    LDAP ユーザー・フィルター
    LDAPのユーザーエントリを検索するためのユーザーフィルタ。 空の場合、デフォルト値は (userPrincipalName={0}) です。
  12. クローラーが文書内のイメージからテキストを抽出するようにするには、 *「その他の処理設定 (More processing settings)」*を展開し、 「光学式文字認識 (OCR) の適用 (Apply optical character recognition (OCR))」On に設定します。

    OCR が有効になっていて、文書に画像が含まれている場合、処理にかかる時間が長くなります。 詳しくは、 光学式文字認識 を参照してください。

  13. 「完了 (Finish)」 をクリックします。

コレクションは迅速に作成されます。 データはコレクションに追加されるため、処理にかかる時間が長くなります。

進行状況を確認するには、「アクティビティー」ページに移動します。 ナビゲーション・ペインで、 「コレクションの管理」 をクリックし、コレクションをクリックして開きます。

既存のコレクションに対する TLS の有効化

Windows エージェント・サービスとクローラーの間で送信されるすべてのトラフィックが Transport Layer Security (TLS) プロトコルを介して送信されるようにするには、TLS サポートを有効にします。

この機能は、バージョン 4.7以降で使用可能です。 このタスクは、サービス・ソフトウェアを 4.7にアップグレードするまで実行しないでください。

Windows エージェント・サービスに対して TLS を有効にすると、以前のバージョンのディスカバリーを使用するデプロイメント内の既存のコレクションは、この Windows エージェント・サービスに接続できなくなります。

既存のコレクションに TLS サポートを追加するには、以下の手順を実行します。

  1. 既存のウィンドウ・ファイル・システム・コレクションの 「処理設定」 ページを開きます。

  2. エージェントの最新バージョンをインストールします。

    エージェントのインストール 」の手順のステップを実行します。ステップ 4 から開始して、TLS サポートを有効にするためのオプションのステップを含めます。

    コンピューターの再始動を求める最後のステップを完了しないでください。

  3. テキスト・エディターで as.cfg ファイルを見つけて開き、そのファイルに以下の行を追加します。

    agent_key_store=%ES_AGENT_NODE_ROOT%\tls.p12
    agent_key_store_password=changeit
    

    ここで、 %ES_AGENT_NODE_ROOT% は Windows エージェント・サーバーのルート・ディレクトリーです。 例:

    agent_key_store="C:\Program Files\IBM\es\distributed\esadmin\tls.p12"
    agent_key_store_password=changeit
    
  4. 以下のコマンドを使用して、Windows エージェント・サービスを再始動します。

    esagent stop
    esagent start