IBM Cloud Docs
Windows-Dateisystem

Windows-Dateisystem

Durchsuchen Sie Dokumente, die in einem Microsoft Windows-Dateisystem gespeichert sind.

IBM Cloud Pak for Data IBM Software Hub

Diese Informationen gelten nur für installierte Implementierungen.

Durchsuchte Dokumente

  • Nur Dokumente, die von Discovery in Ihrem Dateipfad unterstützt werden, werden durchsucht; alle anderen werden ignoriert. Weitere Informationen finden Sie unter Unterstützte Dateitypen.
  • Sicherheit auf Dokumentebene wird unterstützt. Wenn diese Option aktiviert ist, können Ihre Benutzer dieselben Inhalte durchsuchen und abfragen, auf die sie zugreifen können, wenn sie direkt auf das Dateisystem zugreifen.
  • Wenn eine Quelle erneut durchsucht wird, werden neue Dokumente hinzugefügt, aktualisierte Dokumente werden auf die aktuelle Version geändert und gelöschte Dokumente werden aus dem Index der Sammlung gelöscht.
  • Alle Discovery-Datenquellenconnectors sind schreibgeschützt. Unabhängig von den Berechtigungen, die dem Konto für die Crawlersuche erteilt wurden, schreibt, aktualisiert oder löscht Discovery keinen Inhalt in der ursprünglichen Datenquelle.

Datenquellenvoraussetzungen

Neben den Datenquellenvoraussetzungen für alle installierten Implementierungen muss Ihre Windows-Dateisystemdatenquelle die folgenden Voraussetzungen erfüllen:

  • Der Connector unterstützt Microsoft Windows Server 2012 R2, 2016, 2019 und 2022.
  • Der ferne Agentenserver und die zu durchsuchenden Dateiserver müssen zu derselben Windows-Domäne gehören. Der Crawler kann nur Zugriffssteuerungslistendaten (ACL) von einer einzelnen Windows-Domäne sammeln.

Mit dem Release 4.6 wurde Unterstützung für Microsoft Windows Server 2022 hinzugefügt. Ab dem Release 4.7 können Sie den Datenverkehr, der zwischen dem Windows-Agentenservice und seinem Crawler gesendet wird, schützen, indem Sie die Unterstützung für das TLS-Protokoll (Transport Layer Security) aktivieren.

Vorausgesetzte Schritte

  • Wenn Sie die Sicherheit auf Dokumentebene aktivieren möchten, müssen Sie einige Schritte ausführen, um sie einzurichten. Weitere Informationen finden Sie unter Sicherheit auf Dokumentebene unterstützen.

    Zum Konfigurieren der Sicherheit auf Dokumentebene müssen Sie die folgenden Informationen erfassen:

    URL des LDAP-Servers
    Der LDAP-Server URL, mit dem eine Verbindung hergestellt werden soll. Beispiel: ldap://<ldap_server>:<port>.
    Benutzername für LDAP-Bindung
    Der Benutzername für die Bindung an den Verzeichnisservice.

    In den meisten Fällen ist dieser Benutzername ein definierter Name (DN). Ein Active Directory-Benutzername funktioniert möglicherweise, aber im Gegensatz zur allgemeinen Windows-Anmeldung muss die Groß-/Kleinschreibung beachtet werden.

    Benutzerkennwort für LDAP-Bindung
    Das Passwort, das mit dem verbindlichen Benutzernamen verknüpft ist.
    LDAP-Basis-DN
    Der Ausgangspunkt für die Suche nach Benutzereinträgen in LDAP. Beispiel: CN=Users,DC=example,DC=com.
    LDAP-Benutzerfilter
    Der Benutzerfilter zum Durchsuchen von Benutzereinträgen in LDAP. Wenn keine Angabe gemacht wird, lautet der Standardwert (userPrincipalName={0}).
  • Bevor Sie eine Gruppe von Windows-Dateisystemen konfigurieren, müssen Sie IBM Watson Discovery Agent for Windows File Systems auf einem fernen Windows-Dateiserver oder einem fernen Windows-Server installieren. Der Agent ist ein Windows-Dienst, der Daten von Datenquellenservern abruft und an Discovery sendet. Der Agent kann ferne Windows-Dateisysteme, lokale Laufwerke des Agenten und gemeinsam genutzte Netzordner durchsuchen.

    Wenn Sie den Agenten auf einem Remote-Windows-Server installieren, muss der Remote-Windows-Server in der Lage sein, einen oder mehrere Dateiserver einzubinden, damit der Agent die Remote-Windows-Dateisysteme durchsuchen kann.

    Um den Agenten zu installieren und zu konfigurieren, führen Sie die folgenden Schritte aus:

Agenten installieren

Mit dem Release 4.6 wurde IBM Watson Discovery Agent for Windows File Systems für die Ausführung mit 64-Bit-Versionen von Windows aktualisiert. Wenn Sie den Agenten mit einem Release vor 4.6installiert haben, müssen Sie die Vorgängerversion deinstallieren, löschen und anschließend erneut installieren.

Führen Sie eine der folgenden Tasks aus:

Ersetzen Sie den Agenten pre-4.6.

Erforderlich für Implementierungen, bei denen eine Version von IBM Watson Discovery Agent for Windows File Systems vor 4.6.0.0 installiert ist.

Führen Sie die folgenden Schritte aus, um eine frühere Version des Agenten zu ersetzen:

  1. Kopieren Sie die Konfigurationsdatei, die die gemeinsam genutzten Netzverzeichnisse definiert, auf die der Windows-Dateisystemagent Zugriff hat, in ein Verzeichnis außerhalb des Dateipfads des Agenten ( C:\Program Files (x86)\IBM\es).

    Kopieren Sie beispielsweise die Datei C:\Program Files (x86)\IBM\es\distributed\esadmin\config\esfsexport.txt in ein Verzeichnis wie C:\temp.

  2. Suchen Sie im Dienstprogramm Microsoft Windows Apps & Features die frühere Version von IBM Watson Discovery Agent for Windows File Systemsund klicken Sie dann auf Deinstallieren.

  3. Wählen Sie * IBM Watson Discovery Agent for Windows File Systems vollständig löschen*aus und klicken Sie dann auf Deinstallieren.

  4. Starten Sie Ihr System erneut.

  5. Führen Sie die Schritte unter Agenten installieren aus, um die neueste Version des Agenten zu installieren.

  6. Ersetzen Sie die neue Version der Datei C:\Program Files\IBM\es\distributed\esadmin\config\esfsexport.txt durch die Datei, die Sie in Schritt 1 kopiert haben.

    Dieser Schritt fügt die Konfiguration der gemeinsam genutzten Verzeichnisse, die Sie für die Vorgängerversion des Agenten eingerichtet haben, zur neuen Installation hinzu. Wenn Sie die Dateifreigabe wiederverwenden, können Sie den Schritt zum Konfigurieren der gemeinsam genutzten Verzeichnisse überspringen.

  7. Führen Sie den folgenden Befehl aus, um zu überprüfen, ob das Verzeichnis mit dem Agentenservice gemeinsam genutzt wird:

    C:\Users\Administrator> esagent --lsshare
    

Agent installieren

Führen Sie die folgenden Schritte aus, um IBM Watson Discovery Agent for Windows File Systems zum ersten Mal zu installieren:

  1. Wählen Sie im Navigationsfenster Sammlungen verwalten aus.

  2. Klicken Sie auf "Neue Kollektion ".

  3. Klicken Sie auf Windows-Dateisystem und anschließend auf Weiter.

  4. Blättern Sie zum Abschnitt Download & install Windows Agent und klicken dann auf Download Windows Agent Installer.

    Eine ZIP-Datei wird heruntergeladen.

  5. Dekomprimieren Sie die Datei WindowsAgentServer.zip.

  6. Für die Ausführung des Installationsprogramms können Sie eine der folgenden Methoden wählen:

    • Doppelklicken Sie auf die Datei install.exe, um den Installationsassistenten zu starten.

    • Um das Installationsprogramm im Textmodus von einer Konsole auszuführen, führen Sie die folgenden Schritte aus:

      • Wechseln Sie in das Agentenverzeichnis.

      • Geben Sie den folgenden Befehl ein:

        install.exe -i console
        

        Die Anzeige erfolgt in Textform. Sie werden zur Eingabe derselben Informationen wie bei der grafisch orientierten Installation aufgefordert.

        Nachdem Sie den Befehl eingegeben haben, wird im Hintergrund einige Sekunden lang ein Prozess ausgeführt, bevor das Konsoleninstallationsprogramm angezeigt wird.

    • Führen Sie die folgenden Schritte aus, um den Agent-Server im Hintergrund zu installieren:

      • Wechseln Sie in das Verzeichnis Agent/responseFiles.

      • Bearbeiten Sie die Antwortdateivorlage DistributedFileSystemCrawler.properties. Machen Sie Angaben zu Ihrer Umgebung. Um das Installationsprogramm auszuführen, wechseln Sie in das Agentenverzeichnis und geben Sie den Namen der Datei an, die Sie bearbeitet haben.

        Sehen Sie sich das folgende Beispiel an:

        install.exe -i silent -f responseFiles/DistributedFileSystemCrawler.properties
        

      Wenn Sie eine Vorlagendatei zur Bearbeitung an eine andere Position kopieren, geben Sie für die Ausführung des Installationsprogramms den vollständig qualifizierten Pfad der Datei an. Wenn der Pfad der Antwortdatei ein Leerzeichen enthält, setzen Sie den Pfad in doppelte Anführungszeichen ( " ). Siehe folgendes Beispiel:

      install.exe -i silent -f "c:\My Documents\DistributedFileSystemCrawler.properties"
      
  7. Sie müssen während des Installationsprozesses die folgenden Informationen angeben:

    • hostname: Geben Sie den vollständig qualifizierten Hostnamen des Computers, auf dem Sie den Agentenserver installieren, ein oder überprüfen Sie ihn.

      Sie können keine IPv6-Adresse als Hostnamen des Servers angeben.

    • username: Geben Sie den Benutzernamen eines Kontos ein, das zur Autorisierung des Zugriffs auf den Agent-Server verwendet werden kann.

      Wenn der Benutzername nicht existiert, aktivieren Sie das Kontrollkästchen, um das Konto zu erstellen.

      Um eine Domäne in einer sicheren Objektgruppe zu durchsuchen, muss der Benutzername ein vorhandener Domänenbenutzer mit Administratorberechtigungen für das zu durchsuchende Windows-System sein. Um einen Domain-Benutzer anzugeben, verwenden Sie das Format <username>@<domain name>.

    • password: Geben Sie das dem Benutzernamen zugeordnete Kennwort an.

  8. Optional: Wenn Sie die Standardeinstellungen für Pfad und Port ändern möchten, klicken Sie auf Erweiterte Optionen.

    • Sie können den Pfad für das Installationsverzeichnis und das Datenverzeichnis ändern.
    • Der Agentenserver verwendet drei TCP/IP-Ports für die Authentifizierung von Verbindungen zum Server, für die Übertragung von Daten zwischen den Dateisystemen und Discovery und für die Überwachung des Agentenservers. Die Standardportnummern sind 8397 und 8398. Wenn diese Werte einen Konflikt mit anderen Portzuordnungen in Ihrem System erzeugen, ändern Sie die Portnummern.
  9. Überprüfen Sie auf der Übersichtsseite die von Ihnen ausgewählten Optionen und klicken Sie auf Installieren, um mit der Installation der Software zu beginnen.

  10. Optional: Wenn Sie den Datenverkehr zwischen dem Windows-Agentenservice und dem Crawler schützen wollen, aktivieren Sie die TLS-Unterstützung.

    Kopieren Sie die Datei tls.p12 aus dem dekomprimierten Verzeichnis in das Stammverzeichnis, in dem der Agent installiert ist. Das Stammverzeichnis könnte beispielsweise C:\Program Files\IBM\es\distributed\esadmin lauten.

    TLS-Unterstützung ist ab dem Release 4.7 verfügbar.

  11. Starten Sie Ihren Computer erneut.

Freigegebene Verzeichnisse auf dem Agentenserver konfigurieren

Wenn die Software installiert ist, müssen Sie freigegebene Netzverzeichnisse einrichten, auf die der Windows-Dateisystemagent zugreifen kann. Um eine neue Dateisystemfreigabe zu definieren, exportieren Sie ein lokales oder entferntes Netzwerkverzeichnis.

Wenn Sie einen Agenten, den Sie installiert haben, durch ein Release vor 4.6.0.0ersetzen, überspringen Sie diese Prozedur. In den Ersetzungsanweisungen wird erläutert, wie die zuvor definierte Dateifreigabe wiederverwendet wird.

  1. Exportieren Sie ein lokales Verzeichnis von dem Server, auf dem der Agent installiert ist:

    esagent --addshare <d:><\example>
    

    Hier steht d: für den Laufwerkbuchstaben, den Sie verwenden möchten, und \example für den Pfad zum lokalen Verzeichnis.

  2. Exportieren Sie ein fernes Netzverzeichnis Verzeichnis, auf das der Server, auf dem der Agent installiert ist, zugreifen kann:

    esagent --addshare <\\files.example.com\data>
    

    Dabei steht \\files.example.com\data für den Hostnamen oder die IP-Adresse des Remote-Servers oder den Pfad zum Remote-Verzeichnis.

  3. Listen Sie Freigaben auf, die auf dem Server, auf dem der Agent installiert ist, definiert sind:

    esagent --lsshare
    
  4. Wenn Sie eine gemeinsam genutzte Ressource löschen möchten, die auf dem Server definiert ist, auf dem der Agent installiert ist, können Sie den folgenden Befehl verwenden:

    esagent --rmshare \\files.example.com\data
    

Serverstatusbefehle

Nach der Installation des Agent-Servers können Sie Befehle eingeben, um den Server zu starten, zu stoppen und seinen Status zu überprüfen.

Wenn der Agentenserver gestoppt wird, wird auch der Crawler gestoppt. Wenn der Crawler z. B. unerwartet gestoppt wird, können Sie Verbindungen schließen und Ressourcen für diesen Crawler freigeben.

  • Um den Server zu starten, geben Sie den folgenden Befehl ein:

    esagent start
    
  • Um den Server zu stoppen, geben Sie den folgenden Befehl ein:

    esagent stop
    
  • Um den Status des Agent-Servers zu erhalten, geben Sie den folgenden Befehl ein:

    esagent getStatus
    

Die Ausgabe des Befehls getStatus ist eine XML-Datei mit folgender Ausgabe:

<AgentStatus>
  <SpaceStatus>
    <SpaceId>012</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test1</RootFolder>
    <ConnectionNumber>9</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>
  <SpaceStatus>
    <SpaceId>013</SpaceId>
    <RootFolder>E:\\Projects\Analytics\\data\test2</RootFolder>
    <ConnectionNumber>10</ConnectionNumber>
    <StartTime>1244709336093</StartTime>
    <LastTime>1244709385843</LastTime>
    <IdlePeriod>219</IdlePeriod>
  </SpaceStatus>

Verbindung zu einer Windows-Dateisystemdatenquelle herstellen

Führen Sie die folgenden Schritte für Ihr Discovery-Projekt aus.

Wenn Sie die vorausgesetzten Schritte ausgeführt haben, kehren Sie zur Sammlung der Windows-Dateisystemdatenquellen zurück, die Sie erstellt haben, und fahren Sie dann mit Schritt 4 fort.

  1. Wählen Sie im Navigationsfenster Sammlungen verwalten aus.

  2. Klicken Sie auf "Neue Kollektion ".

  3. Klicken Sie auf Windows-Dateisystem und anschließend auf Weiter.

  4. Benennen Sie die Objektgruppe.

  5. Wenn die Sprache der zu durchsuchenden Dokumente nicht Englisch ist, wählen Sie die entsprechende Sprache aus.

    Eine Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung.

  6. Optional: Ändern Sie den Synchronisationszeitplan.

    Weitere Informationen finden Sie unter Zeitplanoptionen für die Crawlersuche.

  7. Fügen Sie im Abschnitt Berechtigungsnachweise eingeben Werte in die folgenden Felder ein. Sie haben diese Felder während der Installation des Agentenservers angegeben, die im Abschnitt Vorausgesetzte Schritte beschrieben wurde.

    Moderator
    Der Hostname des Remote-Servers Microsoft Windows, zum Beispiel <hostname>.mydomain.com.
    Benutzername
    Der Benutzername für die Verbindung zum Agentenserver. Sie verwenden den Benutzernamen, um Discovery mit den freigegebenen Netzwerkordnern zu verbinden und Inhalte zu durchsuchen.
    Kennwort
    Das Passwort, das mit dem Benutzernamen verknüpft ist.
    Agentenauthentifizierungsport
    Der Port für die Authentifizierung. Der Standardportwert ist 8397.
    Portierung
    Der für die Übertragung von Daten zu verwendende Port Der Standardportwert ist 8398.
  8. Geben Sie im Abschnitt Zu durchsuchende Elemente angeben den zu durchsuchenden Dateipfad im Feld Pfad ein und klicken Sie anschließend Hinzufügen an.

    Beim Dateipfad muss die Groß-/Kleinschreibung beachtet werden.

    Fügen Sie optional weitere Dateipfade hinzu.

  9. Optional: Passen Sie die Typen von Dateien an, die durchsucht werden.

    Der Crawler wird automatisch so konfiguriert, dass eine Liste von Dateierweiterungen für Dateitypen ausgeschlossen wird, die nicht sicher durchsucht werden können. Sie können der Liste der ausgeschlossenen Filter weitere Dateierweiterungen hinzufügen oder nur die Dateierweiterungen für Dateitypen auflisten, die Sie in die Crawlersuche einschließen wollen. Die Auflistung der einzuschließenden Dateitypen ist noch sicherer.

    Um die Dateitypen zu ändern, die durchsucht werden, wählen Sie im Abschnitt Erweiterungsfilter aus, ob die Filterliste 'Ausgeschlossen' oder 'Eingeschlossen' verwendet werden soll. Listen Sie dann die Dateierweiterungen für die Dateitypen auf, die Sie ausschließen oder einschließen möchten.

    Diese Konfigurationsoption wurde mit der Veröffentlichung von 4.0.3 eingeführt.

  10. Optional: Geben Sie den Zeichensatz der zu durchsuchenden Daten an.

    Der vom Crawler verwendete Converter wird automatisch konfiguriert, um den Zeichensatz der Dateien zu erkennen, bevor sie konvertiert werden. Sie können jedoch auch eine andere Zeichencodierung für die Datenkonvertierung angeben. Um eine Zeichenkodierung festzulegen, führen Sie die folgenden Schritte aus:

    • Setzen Sie den Schalter Automatische Codepageerkennung auf Off.
    • Geben Sie im Feld Zu verwendende Codepage die Zeichencodierung als Java Zeichensatz an. Beispiel: UTF-8 oder UTF-16. Wenn Sie keinen Zeichensatz angeben, wird ISO-8859-1 verwendet.

    Diese Konfigurationsoption wurde mit der Veröffentlichung von 4.0.3 eingeführt.

  11. Optional: Wenn Sie die Sicherheit auf Dokumentebene aktivieren wollen, setzen Sie im Abschnitt Sicherheit den Schalter Sicherheit auf Dokumentebene aktivieren auf On.

    Wenn diese Option aktiviert ist, können Benutzer eine Crawlersuche durchführen und Inhalte abfragen, auf die sie Zugriff haben. Sie müssen die Details zum LDAP-Verzeichnis angeben, das Sie verwenden möchten.

    URL des LDAP-Servers
    Der LDAP-Server URL, mit dem eine Verbindung hergestellt werden soll. Beispiel: ldap://<ldap_server>:<port>.
    Benutzername für LDAP-Bindung
    Der Benutzername für die Bindung an den Verzeichnisservice.
    Benutzerkennwort für LDAP-Bindung
    Das Passwort, das mit dem verbindlichen Benutzernamen verknüpft ist.
    LDAP-Basis-DN
    Der Ausgangspunkt für die Suche nach Benutzereinträgen in LDAP. Beispiel: CN=Users,DC=example,DC=com.
    LDAP-Benutzerfilter
    Der Benutzerfilter zum Durchsuchen von Benutzereinträgen in LDAP. Wenn keine Angabe gemacht wird, lautet der Standardwert (userPrincipalName={0}).
  12. Wenn der Crawler Text aus Bildern in Dokumenten extrahieren soll, erweitern Sie Weitere Verarbeitungseinstellungenund legen Sie Optische Zeichenerkennung anwenden auf On fest.

    Wenn OCR aktiviert ist und Ihre Dokumente Bilder enthalten, dauert die Verarbeitung länger. Weitere Informationen finden Sie unter Optische Zeichenerkennung.

  13. Klicken Sie auf Beenden.

Die Objektgruppe wird schnell erstellt. Es dauert länger, bis die Daten verarbeitet werden, wenn sie der Objektgruppe hinzugefügt werden.

Wenn Sie den Fortschritt überprüfen möchten, rufen Sie die Seite 'Aktivität' auf. Klicken Sie im Navigationsfenster auf Sammlungen verwalten und anschließend auf, um die Sammlung zu öffnen.

TLS für eine vorhandene Sammlung aktivieren

Aktivieren Sie die TLS-Unterstützung, um sicherzustellen, dass der gesamte Datenverkehr, der zwischen dem Windows-Agentenservice und dem Crawler gesendet wird, über das Protokoll Transport Layer Security (TLS) gesendet wird.

Diese Funktion ist ab Version 4.7verfügbar. Führen Sie diese Task erst nach dem Upgrade Ihrer Service-Software auf 4.7aus.

Nachdem Sie TLS für den Windows-Agentenservice aktiviert haben, können alle vorhandenen Sammlungen in Implementierungen mit früheren Versionen der Erkennung keine Verbindung zu diesem Windows-Agentenservice herstellen.

Führen Sie die folgenden Schritte aus, um einer vorhandenen Sammlung TLS-Unterstützung hinzuzufügen:

  1. Öffnen Sie die Seite Verarbeitungseinstellungen für die vorhandene Fensterdateisystemsammlung.

  2. Installieren Sie die neueste Version des Agenten.

    Führen Sie die Schritte in der Prozedur Agenten installieren aus, beginnend mit Schritt 4 und einschließlich des optionalen Schritts zum Aktivieren der TLS-Unterstützung.

    Führen Sie nicht den letzten Schritt aus, in dem Sie aufgefordert werden, Ihren Computer neu zu starten.

  3. Suchen und öffnen Sie die Datei as.cfg in einem Texteditor und fügen Sie die folgenden Zeilen zur Datei hinzu:

    agent_key_store=%ES_AGENT_NODE_ROOT%\tls.p12
    agent_key_store_password=changeit
    

    Dabei ist %ES_AGENT_NODE_ROOT% das Stammverzeichnis für den Windows-Agentenserver. Beispiel:

    agent_key_store="C:\Program Files\IBM\es\distributed\esadmin\tls.p12"
    agent_key_store_password=changeit
    
  4. Starten Sie den Windows-Agentendienst mit den folgenden Befehlen erneut:

    esagent stop
    esagent start