Microsoft SharePoint Online
Crawlen von Dokumenten, die in einer Online-Datenquelle von Microsoft SharePoint gespeichert sind.
IBM Cloud Pak for Data IBM Software Hub
Diese Informationen gelten nur für installierte Bereitstellungen. Weitere Informationen zum Verbinden mit einer Online SharePoint-Site von einer verwalteten Bereitstellung aus finden Sie unter SharePoint Online.
Welche Dokumente werden gecrawlt
- Beim anfänglichen Crawlen der Inhalte werden Dokumente von allen Objekten gecrawlt, auf die über den von Ihnen angegebenen Pfad der Websitesammlung zugegriffen werden kann, und zu Ihrer Sammlung hinzugefügt. Benutzerdefinierte Metadaten, die mit dem SharePoint verbunden sind, werden ebenfalls gecrawlt.
- Sie können einen Site Collection-Pfad pro Sammlung crawlen.
- Nur Dokumente, die von Discovery unterstützt werden, werden durchsucht; alle anderen werden ignoriert. Weitere Informationen finden Sie unter Unterstützte Dateitypen.
- Sicherheit auf Dokumentenebene wird unterstützt. Wenn diese Option aktiviert ist, können Ihre Benutzer denselben Inhalt durchsuchen und abfragen, auf den sie zugreifen können, wenn sie bei SharePoint angemeldet sind. Weitere Informationen finden Sie unter Unterstützung der Sicherheit auf Dokumentenebene.
- Wenn eine Quelle erneut durchsucht wird, werden neue Dokumente hinzugefügt, aktualisierte Dokumente werden auf die aktuelle Version geändert und gelöschte Dokumente werden aus dem Index der Sammlung gelöscht.
- Alle Discovery Datenquellenkonnektoren sind schreibgeschützt. Unabhängig von den Berechtigungen, die dem Crawl-Konto gewährt werden, schreibt, aktualisiert oder löscht Discovery niemals Inhalte in der ursprünglichen Datenquelle.
Discovery kann die folgenden Objekte crawlen:
- Website-Sammlungen
- Standorte
- SubSites
- Listen
- Artikel auflisten
- Dokument-Bibliotheken
- Liste Artikel Anhänge
Datenquellenvoraussetzungen
Zusätzlich zu den Datenquellenanforderungen für alle installierten Bereitstellungen muss Ihre SharePoint Online-Datenquelle die folgenden Anforderungen erfüllen:
-
Die Site Collection, mit der Sie sich verbinden, muss mit einem Enterprise-Plan erstellt worden sein. Es kann sich nicht um eine Sammlung handeln, die mit einem Plan für Frontline-Mitarbeiter erstellt wurde.
-
Die Unterstützung für die Authentifizierung unterscheidet sich je nach dem Prinzipaltyp, den Sie bei der Konfiguration der Authentifizierungsmethode angeben. Legen Sie die Art des Auftraggebers fest, bevor Sie die Sammlung erstellen; Sie können die Art des Auftraggebers später nicht mehr ändern. Die folgenden Optionen sind verfügbar:
-
Benutzer: Die folgenden Anforderungen müssen vom Crawl-Benutzerkonto erfüllt werden:
-
Das Konto muss über eine Azure Active Directory-Benutzer-ID mit der Berechtigung zum Zugriff auf alle Objekte verfügen, die Sie crawlen möchten. Beispiel:
admin_user@company.onmicrosoft.com
. Die Benutzer-ID muss die BerechtigungSite Collection Administrator
haben. -
Für das Konto muss die Legacy-Authentifizierung aktiviert sein. Um die Legacy-Authentifizierung zu aktivieren, gehen Sie zum Azure Portal oder wenden Sie sich an Ihren Azure Active Directory Administrator.
Der Konnektor unterstützt die Methode
Password hash synchronization (PHS)
nur zur Aktivierung der hybriden Identität. Die Verwendung eines anderen Typs (z. B. Pass-Through-Authentifizierung oder Federation) erfolgt auf eigene Gefahr. Sofern Sie Ihr SharePoint-Online-Konto nicht vor Januar 2020 erstellt haben, ist die Zwei-Faktor-Authentifizierung für das Konto standardmäßig aktiviert. Sie müssen die Zwei-Faktor-Authentifizierung deaktivieren.Um Ihren Multifaktor-Authentifizierungsstatus anzuzeigen und zu ändern, siehe "Status für einen Benutzer anzeigen" oder "Status für einen Benutzer ändern ".
-
-
Dienst: Wenn Sie eine Verbindung zu Ihren Daten als Azure Active Directory-Dienstprinzipal herstellen, können Sie die Multifaktor-Authentifizierung verwenden.
-
Weitere Informationen zu SharePoint Online finden Sie in der Microsoft SharePoint-Entwicklerdokumentation.
Voraussetzungen für die Verwendung eines Benutzerprinzips
Wenn Sie die Sicherheit auf Dokumentenebene aktivieren möchten, müssen Sie einige Schritte unternehmen, um sie einzurichten. Weitere Informationen finden Sie in Informationen zur Sicherheit auf Dokumentebene.
In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Benutzerprinzipal-Authentifizierungsmethode festgelegt werden müssen.
-
Registrieren Sie Ihre App.
Weitere Informationen finden Sie in der Microsoft-Dokumentation.
-
Konfigurieren Sie die API-Berechtigungen.
-API | Berechtigungen | Typ |
---|---|---|
Microsoft Graph (Gruppen) | Group.Read.All oder Group.ReadWrite.All |
Delegiert |
Microsoft Graph (Verzeichnisse) | Directory.AccessAsUser.All oder Directory.Read.All oder Directory.ReadWrite.All |
Delegiert |
SharePoint Online | User.Read.All oder User.ReadWrite.All |
Delegiert |
Voraussetzungen für die Verwendung eines Dienstherrn
Ein Service Principal ist eine Sicherheitsidentität, die von vom Benutzer erstellten Anwendungen, Diensten und Automatisierungstools für den Zugriff auf bestimmte Azure-Ressourcen verwendet wird. Es handelt sich um eine (mit einem Zertifikat verifizierte) Benutzeridentität, die eine bestimmte Rolle und streng kontrollierte Berechtigungen hat. Wenn Sie sich mit SharePoint Online als Dienstprinzipalbenutzer verbinden, können Sie auf Ihre Daten zugreifen, ohne die Multifaktorauthentifizierung zu deaktivieren.
Führen Sie die folgenden Schritte aus, um eine Verbindung als Dienstherr herzustellen:
- Erstellen Sie eine Zertifizierungsdatei.
- Registrieren Sie eine Anwendung bei SharePoint Online.
- Ein Zertifikat hinzufügen.
- Konfigurieren Sie die API-Berechtigungen.
- Aktivieren Sie den Azure Access Control Service(ACS).
- Erstellen Sie eine Standortgenehmigung.
Erstellen einer Zertifizierungsdatei
Der Crawler unterstützt die folgenden Formate für einen privaten Schlüssel:
- PKCS #1
- PKCS #1 mit Passwort
- PKCS #8
- PKCS #8 mit Passwort
Das folgende Verfahren zeigt Ihnen, wie Sie einen privaten Schlüssel im PKCS #1-Format ohne Passwort erstellen.
-
Erstellen Sie einen privaten Schlüssel.
openssl genrsa 2048 > spo-private.key
-
Erstellen Sie einen öffentlichen Schlüssel.
openssl rsa -in spo-private.key -pubout -out spo-public.key
-
Erstellen Sie eine CSR-Datei (Certificate Signing Request).
openssl req -new -key spo-private.key > spo-request.csr
-
Erstellen Sie eine Zertifizierungsdatei.
openssl x509 -req -in spo-request.csr -signkey spo-private.key -out spo.crt -days 3650
Registrieren einer Anwendung bei SharePoint Online
Befolgen Sie die Anweisungen der Microsoft-Dokumentation zur Registrierung einer Azure AD-Anwendung.
Treffen Sie die folgenden Auswahlen:
- Wählen Sie die Option Nur Konten in diesem Organisationsverzeichnis.
- Legen Sie den Client-Typ als öffentlichen Client fest.
- Notieren Sie sich die Azure-Anwendungs-(Client-)ID, die Ihrer Anwendung bei der Registrierung zugewiesen wird.
Wenn Sie eine Anwendung im Portal registrieren, werden automatisch ein Anwendungsobjekt und ein Service-Principal-Objekt in Ihrem Hauptmandanten angelegt.
Zertifikat hinzufügen
Laden Sie das Zertifikat hoch, das Sie zuvor erstellt haben.
API-Berechtigungen konfigurieren
Folgen Sie der Microsoft-Dokumentation, um API-Berechtigungen hinzuzufügen.
In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Dienstprinzipal-Authentifizierungsmethode festgelegt werden müssen, wenn die Sicherheit auf Dokumentebene aktiviert ist.
-API | Berechtigungen | Typ |
---|---|---|
Microsoft Graph (Gruppen) | Group.Read.All |
Anwendung |
Microsoft Graph (Verzeichnisse) | Directory.Read.All |
Anwendung |
SharePoint | Sites.FullControl.All |
Anwendung |
In der folgenden Tabelle sind die Berechtigungen aufgeführt, die für eine Dienstprinzipal-Authentifizierungsmethode festzulegen sind, und die Sicherheit auf Dokumentebene ist deaktiviert.
-API | Berechtigungen | Typ |
---|---|---|
Microsoft Grafik | Sites.Read.All |
Anwendung |
SharePoint | Sites.Read.All |
Anwendung |
- Nachdem Sie die API-Berechtigungen konfiguriert haben, klicken Sie auf Admin-Zustimmung für {tenant-name} erteilen.
Aktivieren Sie den Azure Access Control Service (ACS)
Dieses Verfahren ist nur erforderlich, wenn Sie die Anwendungsberechtigungen für jede Websitesammlung konfigurieren möchten.
-
Öffnen Sie eine SharePoint Online Management Shell.
Weitere Informationen finden Sie unter Einführung in SharePoint Online Management Shell.
-
Aktivieren Sie die ACS-basierte App-Only-Authentifizierung, indem Sie den folgenden Befehl ausführen:
Set-PnPTenant -DisableCustomAppAuthentication $false
Weitere Informationen finden Sie unter Set-PnPTenant.
-
Befolgen Sie die Schritte in der Microsoft-Dokumentation zu Zugriff über SharePoint App-Only.
-
Kopieren Sie die Werte für die Client-ID und den geheimen Client-Schlüssel.
-
Definieren Sie die entsprechende Berechtigungsanfrage für Ihren Einsatz.
Gehen Sie zu https://{tenant-name}.sharepoint.com/sites/{site}/_layouts/15/AppInv.aspx.
Wenn die Sicherheit auf Dokumentebene aktiviert ist, geben Sie die folgende XML-Anfrage an:
<AppPermissionRequests AllowAppOnlyPolicy="true"> <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="FullControl" /> </AppPermissionRequests>
Wenn die Sicherheit auf Dokumentebene deaktiviert ist, geben Sie die folgende XML-Anfrage an:
<AppPermissionRequests AllowAppOnlyPolicy="true"> <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="Read" /> </AppPermissionRequests>
-
Bestätigen Sie, dass Sie der App vertrauen.
Eine Standortgenehmigung erstellen
Fügen Sie eine Sites.Selected
-Berechtigung für die Microsoft Graph API hinzu. Sie benötigen die Sites.FullControl.All
Erlaubnis, die folgende API aufzurufen:
curl -s -XPOST -H "Authorization: ${access_token}" -H "Content-Type: application/json" \
https://graph.microsoft.com/v1.0/sites/{site}/permissions -d '{
"roles": ["read"],
"grantedToIdentities": [{
"application": {
"id": "{azure_ad_app_id}",
"displayName": "{display_name}"
}
}]
}'
Weitere Informationen finden Sie in der Microsoft-Dokumentation.
Verbinden mit einer SharePoint Online-Datenquelle
Führen Sie die folgenden Schritte für Ihr Discovery-Projekt aus:
-
Wählen Sie im Navigationsbereich Sammlungen verwalten.
-
Klicken Sie auf "Neue Kollektion ".
-
Klicken Sie auf SharePoint Online und dann auf Weiter.
-
Benennen Sie die Sammlung.
-
Wenn die Sprache der Dokumente in SharePoint nicht Englisch ist, wählen Sie die entsprechende Sprache.
Eine Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung.
-
Optional: Ändern Sie den Synchronisierungszeitplan.
Weitere Informationen finden Sie unter Kriechplanoptionen.
-
Geben Sie im Abschnitt Authentifizierungsmethode den Principal-Typ an, den Sie bei der Authentifizierung mit SharePoint verwenden möchten, und wählen Sie aus den folgenden Optionen:
-
Benutzer: Ein Benutzer in Ihrer Active Directory Organisation.
Füllen Sie im Abschnitt Eingabe Ihrer Zugangsdaten die folgenden Felder aus:
- Benutzername
- Der Benutzername des Benutzers SharePoint mit Zugriff auf alle Websites und Listen, die durchsucht und indiziert werden müssen, z. B.
crawl_username@company.onmicrosoft.com
. - Kennwort
- Das Passwort des Benutzers SharePoint.
Dieser Wert wird nie zurückgegeben und nur verwendet, wenn Sie Anmeldeinformationen erstellen oder ändern.
-
Dienst: Eine Sicherheitsidentität, die von vom Benutzer erstellten Anwendungen, Diensten und Automatisierungstools für den Zugriff auf bestimmte Azure-Ressourcen verwendet wird. Es handelt sich um eine (mit einem Zertifikat verifizierte) Benutzeridentität, die eine bestimmte Rolle und streng kontrollierte Berechtigungen hat.
Mit der Version 4.0.3 wurde die Unterstützung für die Verwendung eines Service Principals hinzugefügt.
Füllen Sie im Abschnitt Eingabe Ihrer Zugangsdaten die folgenden Felder aus:
- Tenantname
-
Der Mieter, in dem sich die Daten befinden. Beispiel:
ibm.onmicrosoft.com
. - Anwendungs-ID
-
Die ID Ihrer App. Beispiel:
19ce9f74-cd14-4b68-8dfc-4bcc75ed2fe9
. Laden Sie die folgenden Dateien hoch: - Zertifizierungsdatei
-
Die Zertifizierungsdatei, die Sie in SharePoint erstellt haben. Beispiel:
myinfo.crt
. - Datei mit privatem Schlüssel
-
Die private Schlüsseldatei, die Sie in SharePoint erstellt haben. Beispiel:
private.app.key
.Wenn ein Passwort für den privaten Schlüssel erforderlich ist, geben Sie das Passwort an. Wenn dieser Crawler nur auf die angegebene Websitesammlung zugreifen darf, setzen Sie den Schalter Azure Access Control Service auf
On
und geben Sie dann die folgenden Werte ein:
- Client-ID
- Geheimer Clientschlüssel
-
-
Fügen Sie im Abschnitt Specify what you want to crawl Werte in die folgenden Felder ein:
- Site Collection Url
- Der Webservice SharePoint URL. Beispiel:
https://organization_name.com
. - Nur Benutzerprinzipal
- Geben Sie im Feld Seitensammlungsname den Namen an, den die Seitensammlung verwendet. Holen Sie sich den Namen aus den Einstellungen der Websitesammlung.
-
Optional: Wenn Sie einen Proxyserver für den Zugriff auf den Datenquellenserver verwenden, setzen Sie im Abschnitt Proxyeinstellungen den Schalter Proxyeinstellungen aktivieren auf
On
. Fügen Sie Werte zu den folgenden Feldern hinzu:- Benutzername
- Optional. Der Benutzername des Proxyservers zur Authentifizierung, falls der Proxyserver eine Authentifizierung erfordert. Wenn Sie Ihren Benutzernamen nicht kennen, können Sie ihn vom Administrator Ihres Proxy-Servers erhalten.
- Kennwort
- Optional. Das Passwort für den Proxyserver zur Authentifizierung, falls der Proxyserver eine Authentifizierung erfordert. Wenn Sie Ihr Kennwort nicht kennen, können Sie es vom Administrator Ihres Proxy-Servers erhalten.
- Hostname oder IP-Adresse des Proxyservers
- Der Hostname oder die IP-Adresse des Proxy-Servers.
- Portnummer des Proxy-Servers
- Der Netzwerkport, mit dem Sie sich auf dem Proxy-Server verbinden möchten.
-
Optional: Wenn Sie die Sicherheit auf Dokumentebene aktivieren möchten, setzen Sie im Abschnitt Sicherheit den Schalter Sicherheit auf Dokumentebene aktivieren auf
On
.Wenn diese Option aktiviert ist, können Ihre Benutzer denselben Inhalt durchsuchen und abfragen, auf den sie zugreifen können, wenn sie bei SharePoint angemeldet sind. Weitere Informationen finden Sie unter Unterstützung der Sicherheit auf Dokumentenebene.
Nur Benutzerprinzip: Wenn Sie diese Option aktivieren, müssen Sie die Azure ID, die der Anwendung bei der Registrierung zugewiesen wurde, zum Feld Anwendungs-ID hinzufügen.
Um die Sicherheit auf Dokumentenebene zu aktivieren, müssen Sie Ihre Anwendung bei SharePoint registrieren. Weitere Informationen finden Sie in den vorausgesetzten Schritten für den von Ihnen verwendeten Prinzipaltyp.
-
Wenn Sie möchten, dass der Crawler Text aus Bildern auf der Website extrahiert, erweitern Sie Weitere Verarbeitungseinstellungen und setzen Sie optische Zeichenerkennung (OCR) anwenden auf
On
.Wenn OCR aktiviert ist und Ihre Dokumente Bilder enthalten, dauert die Verarbeitung länger. Weitere Informationen finden Sie unter Optische Zeichenerkennung.
-
Klicken Sie auf Beenden.
Die Sammlung ist schnell erstellt. Die Verarbeitung der Daten nimmt mehr Zeit in Anspruch, wenn sie der Sammlung hinzugefügt werden.
Wenn Sie den Fortschritt überprüfen möchten, gehen Sie auf die Seite Aktivität. Klicken Sie im Navigationsbereich auf Sammlungen verwalten und dann auf , um die Sammlung zu öffnen.