IBM Cloud Docs
Microsoft SharePoint Online

Microsoft SharePoint Online

Crawlen von Dokumenten, die in einer Online-Datenquelle von Microsoft SharePoint gespeichert sind.

IBM Cloud Pak for Data IBM Software Hub

Diese Informationen gelten nur für installierte Bereitstellungen. Weitere Informationen zum Verbinden mit einer Online SharePoint-Site von einer verwalteten Bereitstellung aus finden Sie unter SharePoint Online.

Welche Dokumente werden gecrawlt

  • Beim anfänglichen Crawlen der Inhalte werden Dokumente von allen Objekten gecrawlt, auf die über den von Ihnen angegebenen Pfad der Websitesammlung zugegriffen werden kann, und zu Ihrer Sammlung hinzugefügt. Benutzerdefinierte Metadaten, die mit dem SharePoint verbunden sind, werden ebenfalls gecrawlt.
  • Sie können einen Site Collection-Pfad pro Sammlung crawlen.
  • Nur Dokumente, die von Discovery unterstützt werden, werden durchsucht; alle anderen werden ignoriert. Weitere Informationen finden Sie unter Unterstützte Dateitypen.
  • Sicherheit auf Dokumentenebene wird unterstützt. Wenn diese Option aktiviert ist, können Ihre Benutzer denselben Inhalt durchsuchen und abfragen, auf den sie zugreifen können, wenn sie bei SharePoint angemeldet sind. Weitere Informationen finden Sie unter Unterstützung der Sicherheit auf Dokumentenebene.
  • Wenn eine Quelle erneut durchsucht wird, werden neue Dokumente hinzugefügt, aktualisierte Dokumente werden auf die aktuelle Version geändert und gelöschte Dokumente werden aus dem Index der Sammlung gelöscht.
  • Alle Discovery Datenquellenkonnektoren sind schreibgeschützt. Unabhängig von den Berechtigungen, die dem Crawl-Konto gewährt werden, schreibt, aktualisiert oder löscht Discovery niemals Inhalte in der ursprünglichen Datenquelle.

Discovery kann die folgenden Objekte crawlen:

  • Website-Sammlungen
  • Standorte
  • SubSites
  • Listen
  • Artikel auflisten
  • Dokument-Bibliotheken
  • Liste Artikel Anhänge

Datenquellenvoraussetzungen

Zusätzlich zu den Datenquellenanforderungen für alle installierten Bereitstellungen muss Ihre SharePoint Online-Datenquelle die folgenden Anforderungen erfüllen:

  • Die Site Collection, mit der Sie sich verbinden, muss mit einem Enterprise-Plan erstellt worden sein. Es kann sich nicht um eine Sammlung handeln, die mit einem Plan für Frontline-Mitarbeiter erstellt wurde.

  • Die Unterstützung für die Authentifizierung unterscheidet sich je nach dem Prinzipaltyp, den Sie bei der Konfiguration der Authentifizierungsmethode angeben. Legen Sie die Art des Auftraggebers fest, bevor Sie die Sammlung erstellen; Sie können die Art des Auftraggebers später nicht mehr ändern. Die folgenden Optionen sind verfügbar:

    • Benutzer: Die folgenden Anforderungen müssen vom Crawl-Benutzerkonto erfüllt werden:

      • Das Konto muss über eine Azure Active Directory-Benutzer-ID mit der Berechtigung zum Zugriff auf alle Objekte verfügen, die Sie crawlen möchten. Beispiel: admin_user@company.onmicrosoft.com. Die Benutzer-ID muss die Berechtigung Site Collection Administrator haben.

      • Für das Konto muss die Legacy-Authentifizierung aktiviert sein. Um die Legacy-Authentifizierung zu aktivieren, gehen Sie zum Azure Portal oder wenden Sie sich an Ihren Azure Active Directory Administrator.

        Der Konnektor unterstützt die Methode Password hash synchronization (PHS) nur zur Aktivierung der hybriden Identität. Die Verwendung eines anderen Typs (z. B. Pass-Through-Authentifizierung oder Federation) erfolgt auf eigene Gefahr. Sofern Sie Ihr SharePoint-Online-Konto nicht vor Januar 2020 erstellt haben, ist die Zwei-Faktor-Authentifizierung für das Konto standardmäßig aktiviert. Sie müssen die Zwei-Faktor-Authentifizierung deaktivieren.

        Um Ihren Multifaktor-Authentifizierungsstatus anzuzeigen und zu ändern, siehe "Status für einen Benutzer anzeigen" oder "Status für einen Benutzer ändern ".

    • Dienst: Wenn Sie eine Verbindung zu Ihren Daten als Azure Active Directory-Dienstprinzipal herstellen, können Sie die Multifaktor-Authentifizierung verwenden.

Weitere Informationen zu SharePoint Online finden Sie in der Microsoft SharePoint-Entwicklerdokumentation.

Voraussetzungen für die Verwendung eines Benutzerprinzips

Wenn Sie die Sicherheit auf Dokumentenebene aktivieren möchten, müssen Sie einige Schritte unternehmen, um sie einzurichten. Weitere Informationen finden Sie in Informationen zur Sicherheit auf Dokumentebene.

In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Benutzerprinzipal-Authentifizierungsmethode festgelegt werden müssen.

  1. Registrieren Sie Ihre App.

    Weitere Informationen finden Sie in der Microsoft-Dokumentation.

  2. Konfigurieren Sie die API-Berechtigungen.

Benutzerprinzipal-API-Konfiguration
-API Berechtigungen Typ
Microsoft Graph (Gruppen) Group.Read.All oder Group.ReadWrite.All Delegiert
Microsoft Graph (Verzeichnisse) Directory.AccessAsUser.All oder Directory.Read.All oder Directory.ReadWrite.All Delegiert
SharePoint Online User.Read.All oder User.ReadWrite.All Delegiert

Voraussetzungen für die Verwendung eines Dienstherrn

Ein Service Principal ist eine Sicherheitsidentität, die von vom Benutzer erstellten Anwendungen, Diensten und Automatisierungstools für den Zugriff auf bestimmte Azure-Ressourcen verwendet wird. Es handelt sich um eine (mit einem Zertifikat verifizierte) Benutzeridentität, die eine bestimmte Rolle und streng kontrollierte Berechtigungen hat. Wenn Sie sich mit SharePoint Online als Dienstprinzipalbenutzer verbinden, können Sie auf Ihre Daten zugreifen, ohne die Multifaktorauthentifizierung zu deaktivieren.

Führen Sie die folgenden Schritte aus, um eine Verbindung als Dienstherr herzustellen:

  1. Erstellen Sie eine Zertifizierungsdatei.
  2. Registrieren Sie eine Anwendung bei SharePoint Online.
  3. Ein Zertifikat hinzufügen.
  4. Konfigurieren Sie die API-Berechtigungen.
  5. Aktivieren Sie den Azure Access Control Service(ACS).
  6. Erstellen Sie eine Standortgenehmigung.

Erstellen einer Zertifizierungsdatei

Der Crawler unterstützt die folgenden Formate für einen privaten Schlüssel:

  • PKCS #1
  • PKCS #1 mit Passwort
  • PKCS #8
  • PKCS #8 mit Passwort

Das folgende Verfahren zeigt Ihnen, wie Sie einen privaten Schlüssel im PKCS #1-Format ohne Passwort erstellen.

  1. Erstellen Sie einen privaten Schlüssel.

    openssl genrsa 2048 > spo-private.key
    
  2. Erstellen Sie einen öffentlichen Schlüssel.

    openssl rsa -in spo-private.key -pubout -out spo-public.key
    
  3. Erstellen Sie eine CSR-Datei (Certificate Signing Request).

    openssl req -new -key spo-private.key > spo-request.csr
    
  4. Erstellen Sie eine Zertifizierungsdatei.

    openssl x509 -req -in spo-request.csr -signkey spo-private.key -out spo.crt -days 3650
    

Registrieren einer Anwendung bei SharePoint Online

Befolgen Sie die Anweisungen der Microsoft-Dokumentation zur Registrierung einer Azure AD-Anwendung.

Treffen Sie die folgenden Auswahlen:

  • Wählen Sie die Option Nur Konten in diesem Organisationsverzeichnis.
  • Legen Sie den Client-Typ als öffentlichen Client fest.
  • Notieren Sie sich die Azure-Anwendungs-(Client-)ID, die Ihrer Anwendung bei der Registrierung zugewiesen wird.

Wenn Sie eine Anwendung im Portal registrieren, werden automatisch ein Anwendungsobjekt und ein Service-Principal-Objekt in Ihrem Hauptmandanten angelegt.

Zertifikat hinzufügen

Laden Sie das Zertifikat hoch, das Sie zuvor erstellt haben.

API-Berechtigungen konfigurieren

Folgen Sie der Microsoft-Dokumentation, um API-Berechtigungen hinzuzufügen.

In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Dienstprinzipal-Authentifizierungsmethode festgelegt werden müssen, wenn die Sicherheit auf Dokumentebene aktiviert ist.

Dienstprinzipal mit aktivierter API-Konfiguration für Sicherheit auf Dokumentenebene
-API Berechtigungen Typ
Microsoft Graph (Gruppen) Group.Read.All Anwendung
Microsoft Graph (Verzeichnisse) Directory.Read.All Anwendung
SharePoint Sites.FullControl.All Anwendung

In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Dienstprinzipal-Authentifizierungsmethode festzulegen sind, und die Sicherheit auf Dokumentebene ist deaktiviert.

Dienstherr mit deaktivierter API-Konfiguration auf Dokumentenebene
-API Berechtigungen Typ
Microsoft Grafik Sites.Read.All Anwendung
SharePoint Sites.Read.All Anwendung
  1. Nachdem Sie die API-Berechtigungen konfiguriert haben, klicken Sie auf Admin-Zustimmung für {tenant-name} erteilen.

Aktivieren Sie den Azure Access Control Service (ACS)

Dieses Verfahren ist nur erforderlich, wenn Sie die Anwendungsberechtigungen für jede Websitesammlung konfigurieren möchten.

  1. Öffnen Sie eine SharePoint Online Management Shell.

    Weitere Informationen finden Sie unter Einführung in SharePoint Online Management Shell.

  2. Aktivieren Sie die ACS-basierte App-Only-Authentifizierung, indem Sie den folgenden Befehl ausführen:

    Set-PnPTenant -DisableCustomAppAuthentication $false
    

    Weitere Informationen finden Sie unter Set-PnPTenant.

  3. Befolgen Sie die Schritte in der Microsoft-Dokumentation zu Zugriff über SharePoint App-Only.

  4. Kopieren Sie die Werte für die Client-ID und den geheimen Client-Schlüssel.

  5. Definieren Sie die entsprechende Berechtigungsanfrage für Ihren Einsatz.

    Gehen Sie zu https://{tenant-name}.sharepoint.com/sites/{site}/_layouts/15/AppInv.aspx.

    Wenn die Sicherheit auf Dokumentebene aktiviert ist, geben Sie die folgende XML-Anfrage an:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="FullControl" />
    </AppPermissionRequests>
    

    Wenn die Sicherheit auf Dokumentebene deaktiviert ist, geben Sie die folgende XML-Anfrage an:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="Read" />
    </AppPermissionRequests>
    
  6. Bestätigen Sie, dass Sie der App vertrauen.

Eine Standortgenehmigung erstellen

Fügen Sie eine Sites.Selected-Berechtigung für die Microsoft Graph API hinzu. Sie benötigen die Sites.FullControl.All Erlaubnis, die folgende API aufzurufen:

curl -s -XPOST -H "Authorization: ${access_token}" -H "Content-Type: application/json" \
  https://graph.microsoft.com/v1.0/sites/{site}/permissions -d '{
  "roles": ["read"],
  "grantedToIdentities": [{
    "application": {
      "id": "{azure_ad_app_id}",
      "displayName": "{display_name}"
    }
  }]
}'

Weitere Informationen finden Sie in der Microsoft-Dokumentation.

Verbinden mit einer SharePoint Online-Datenquelle

Führen Sie die folgenden Schritte für Ihr Discovery-Projekt aus:

  1. Wählen Sie im Navigationsbereich Sammlungen verwalten.

  2. Klicken Sie auf "Neue Kollektion ".

  3. Klicken Sie auf SharePoint Online und dann auf Weiter.

  4. Benennen Sie die Sammlung.

  5. Wenn die Sprache der Dokumente in SharePoint nicht Englisch ist, wählen Sie die entsprechende Sprache.

    Eine Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung.

  6. Optional: Ändern Sie den Synchronisierungszeitplan.

    Weitere Informationen finden Sie unter Kriechplanoptionen.

  7. Geben Sie im Abschnitt Authentifizierungsmethode den Principal-Typ an, den Sie bei der Authentifizierung mit SharePoint verwenden möchten, und wählen Sie aus den folgenden Optionen:

    • Benutzer: Ein Benutzer in Ihrer Active Directory Organisation.

      Füllen Sie im Abschnitt Eingabe Ihrer Zugangsdaten die folgenden Felder aus:

      Benutzername
      Der Benutzername des Benutzers SharePoint mit Zugriff auf alle Websites und Listen, die durchsucht und indiziert werden müssen, z. B. crawl_username@company.onmicrosoft.com.
      Kennwort
      Das Passwort des Benutzers SharePoint.

      Dieser Wert wird nie zurückgegeben und nur verwendet, wenn Sie Anmeldeinformationen erstellen oder ändern.

    • Dienst: Eine Sicherheitsidentität, die von vom Benutzer erstellten Anwendungen, Diensten und Automatisierungstools für den Zugriff auf bestimmte Azure-Ressourcen verwendet wird. Es handelt sich um eine (mit einem Zertifikat verifizierte) Benutzeridentität, die eine bestimmte Rolle und streng kontrollierte Berechtigungen hat.

      Mit der Version 4.0.3 wurde die Unterstützung für die Verwendung eines Service Principals hinzugefügt.

      Füllen Sie im Abschnitt Eingabe Ihrer Zugangsdaten die folgenden Felder aus:

      Tenantname

      Der Mieter, in dem sich die Daten befinden. Beispiel: ibm.onmicrosoft.com.

      Anwendungs-ID

      Die ID Ihrer App. Beispiel: 19ce9f74-cd14-4b68-8dfc-4bcc75ed2fe9. Laden Sie die folgenden Dateien hoch:

      Zertifizierungsdatei

      Die Zertifizierungsdatei, die Sie in SharePoint erstellt haben. Beispiel: myinfo.crt.

      Datei mit privatem Schlüssel

      Die private Schlüsseldatei, die Sie in SharePoint erstellt haben. Beispiel: private.app.key.

      Wenn ein Passwort für den privaten Schlüssel erforderlich ist, geben Sie das Passwort an. Wenn dieser Crawler nur auf die angegebene Websitesammlung zugreifen darf, setzen Sie den Schalter Azure Access Control Service auf On und geben Sie dann die folgenden Werte ein:

      • Client-ID
      • Geheimer Clientschlüssel
  8. Fügen Sie im Abschnitt Specify what you want to crawl Werte in die folgenden Felder ein:

    Site Collection Url
    Der Webservice SharePoint URL. Beispiel: https://organization_name.com.
    Nur Benutzerprinzipal
    Geben Sie im Feld Seitensammlungsname den Namen an, den die Seitensammlung verwendet. Holen Sie sich den Namen aus den Einstellungen der Websitesammlung.
  9. Optional: Wenn Sie einen Proxyserver für den Zugriff auf den Datenquellenserver verwenden, setzen Sie im Abschnitt Proxyeinstellungen den Schalter Proxyeinstellungen aktivieren auf On. Fügen Sie Werte zu den folgenden Feldern hinzu:

    Benutzername
    Optional. Der Benutzername des Proxyservers zur Authentifizierung, falls der Proxyserver eine Authentifizierung erfordert. Wenn Sie Ihren Benutzernamen nicht kennen, können Sie ihn vom Administrator Ihres Proxy-Servers erhalten.
    Kennwort
    Optional. Das Passwort für den Proxyserver zur Authentifizierung, falls der Proxyserver eine Authentifizierung erfordert. Wenn Sie Ihr Kennwort nicht kennen, können Sie es vom Administrator Ihres Proxy-Servers erhalten.
    Hostname oder IP-Adresse des Proxyservers
    Der Hostname oder die IP-Adresse des Proxy-Servers.
    Portnummer des Proxy-Servers
    Der Netzwerkport, mit dem Sie sich auf dem Proxy-Server verbinden möchten.
  10. Optional: Wenn Sie die Sicherheit auf Dokumentebene aktivieren möchten, setzen Sie im Abschnitt Sicherheit den Schalter Sicherheit auf Dokumentebene aktivieren auf On.

    Wenn diese Option aktiviert ist, können Ihre Benutzer denselben Inhalt durchsuchen und abfragen, auf den sie zugreifen können, wenn sie bei SharePoint angemeldet sind. Weitere Informationen finden Sie unter Unterstützung der Sicherheit auf Dokumentenebene.

    Nur Benutzerprinzip: Wenn Sie diese Option aktivieren, müssen Sie die Azure ID, die der Anwendung bei der Registrierung zugewiesen wurde, zum Feld Anwendungs-ID hinzufügen.

    Um die Sicherheit auf Dokumentenebene zu aktivieren, müssen Sie Ihre Anwendung bei SharePoint registrieren. Weitere Informationen finden Sie in den vorausgesetzten Schritten für den von Ihnen verwendeten Prinzipaltyp.

  11. Wenn Sie möchten, dass der Crawler Text aus Bildern auf der Website extrahiert, erweitern Sie Weitere Verarbeitungseinstellungen und setzen Sie optische Zeichenerkennung (OCR) anwenden auf On.

    Wenn OCR aktiviert ist und Ihre Dokumente Bilder enthalten, dauert die Verarbeitung länger. Weitere Informationen finden Sie unter Optische Zeichenerkennung.

  12. Klicken Sie auf Beenden.

Die Sammlung ist schnell erstellt. Die Verarbeitung der Daten nimmt mehr Zeit in Anspruch, wenn sie der Sammlung hinzugefügt werden.

Wenn Sie den Fortschritt überprüfen möchten, gehen Sie auf die Seite Aktivität. Klicken Sie im Navigationsbereich auf Sammlungen verwalten und dann auf , um die Sammlung zu öffnen.