IBM Cloud Docs
Microsoft SharePoint Online

Microsoft SharePoint Online

Esegue il crawling dei documenti archiviati in un'origine dati online di Microsoft SharePoint.

IBM Cloud Pak for Data IBM Software Hub

Queste informazioni si applicano solo alle distribuzioni installate. Per ulteriori informazioni sulla connessione a un sito online SharePoint da un'installazione gestita, vedere SharePoint Online.

Quali documenti vengono carrellati

  • Durante la scansione iniziale del contenuto, i documenti di tutti gli oggetti accessibili dal percorso della raccolta di siti specificato dall'utente vengono scansionati e aggiunti alla raccolta. Anche i metadati personalizzati associati al contenuto di SharePoint vengono sottoposti a crawling.
  • È possibile eseguire il crawling di un percorso della raccolta di siti per ogni raccolta.
  • Vengono sottoposti a scansione solo i documenti supportati da Discovery ; tutti gli altri vengono ignorati. Per ulteriori informazioni, vedere Tipi di file supportati.
  • È supportata la sicurezza a livello di documento. Quando questa opzione è attivata, gli utenti possono eseguire il crawling e la query dello stesso contenuto a cui possono accedere quando sono connessi a SharePoint. Per ulteriori informazioni, vedere Supporto della sicurezza a livello di documento.
  • Quando una fonte viene ricaricata, i nuovi documenti vengono aggiunti, i documenti aggiornati vengono modificati nella versione corrente e i documenti eliminati vengono eliminati dall'indice della raccolta.
  • Tutti i connettori dell'origine dati Discovery sono di sola lettura. Indipendentemente dalle autorizzazioni concesse all'account di crawl, Discovery non scrive, aggiorna o cancella mai alcun contenuto nell'origine dati originale.

Discovery può eseguire il crawling dei seguenti oggetti:

  • Collezioni del sito
  • Siti
  • SubSites
  • Elenchi
  • Elenco articoli
  • Biblioteche di documenti
  • Elenco degli allegati

Requisiti dell'origine dati

Oltre ai requisiti dell'origine dati per tutte le distribuzioni installate, l'origine dati SharePoint Online deve soddisfare i seguenti requisiti:

  • La Site Collection a cui ci si collega deve essere una creata con un piano Enterprise. Non può essere una raccolta creata con un piano per i lavoratori frontali.

  • Il supporto dell'autenticazione varia in base al tipo di preside specificato quando si configura il metodo di autenticazione. Prima di creare l'insieme, è necessario determinare il tipo di preside che si desidera utilizzare; non è possibile cambiare il tipo di preside in un secondo momento. Sono disponibili le seguenti opzioni:

    • Utente: L'account utente crawl deve soddisfare i seguenti requisiti:

      • L'account deve avere un ID utente Azure Active Directory con l'autorizzazione ad accedere a tutti gli oggetti che si desidera crawlare. Ad esempio, admin_user@company.onmicrosoft.com. L'ID utente deve avere l'autorizzazione Site Collection Administrator.

      • L'account deve avere l'autenticazione legacy abilitata. Per abilitare l'autenticazione legacy, accedere al portale Azure o contattare l'amministratore Azure Active Directory.

        Il connettore supporta il metodo Password hash synchronization (PHS) per abilitare solo l'identità ibrida. L'uso di qualsiasi altro tipo (come l'autenticazione Pass-through o la Federazione) è a proprio rischio e pericolo. A meno che non abbiate creato il vostro account online SharePoint prima di gennaio 2020, l'autenticazione a due fattori è abilitata per l'account per impostazione predefinita. È necessario disattivare l'autenticazione a due fattori.

        Per visualizzare e modificare lo stato dell'autenticazione a più fattori, vedere Visualizzare lo stato di un utente o Modificare lo stato di un utente.

    • Servizio: Quando ci si connette ai dati come un Azure Active Directory service principal, è possibile utilizzare l'autenticazione multifattoriale.

Per ulteriori informazioni su SharePoint Online, consultare la documentazione per sviluppatori Microsoft SharePoint.

Operazioni preliminari per l'utilizzo di un preside utente

Se si desidera attivare la sicurezza a livello di documento, è necessario eseguire alcune operazioni per impostarla. Per ulteriori informazioni, vedi Informazioni sulla sicurezza a livello di documento.

La tabella seguente elenca le autorizzazioni da impostare per un metodo di autenticazione principale dell'utente.

  1. Registrate la vostra applicazione.

    Per ulteriori informazioni, consultare la documentazione Microsoft.

  2. Configurare le autorizzazioni API.

Configurazione API principale dell'utente
Services Autorizzazioni Tipo
Microsoft Graph (Groups) Group.Read.All o Group.ReadWrite.All Delegare
Microsoft Graph (Directories) Directory.AccessAsUser.All o Directory.Read.All o Directory.ReadWrite.All Delegare
SharePoint Online User.Read.All o User.ReadWrite.All Delegare

Operazioni preliminari per l'utilizzo di un mandante di servizio

Un service principal è un'identità di sicurezza utilizzata da applicazioni, servizi e strumenti di automazione creati dall'utente per accedere a specifiche risorse Azure. È come un'identità utente (verificata con un certificato) che ha un ruolo specifico e permessi strettamente controllati. Se ci si connette a SharePoint Online come utente principale del servizio, è possibile accedere ai dati senza disabilitare l'autenticazione a più fattori.

Per prepararsi a connettersi come mandante del servizio, completare i seguenti passaggi:

  1. Creare un file di certificazione.
  2. Registrare un'applicazione con SharePoint Online.
  3. Aggiungi un certificato.
  4. Configurare le autorizzazioni API.
  5. Abilitare il servizio Azure di controllo degli accessi(ACS).
  6. Creare un'autorizzazione per il sito.

Creare un file di certificazione

Il crawler supporta i seguenti formati per una chiave privata:

  • PKCS #1
  • PKCS #1 con password
  • PKCS #8
  • PKCS #8 con password

La procedura seguente mostra come creare una chiave privata nel formato PKCS #1 senza password.

  1. Creare una chiave privata.

    openssl genrsa 2048 > spo-private.key
    
  2. Creare una chiave pubblica.

    openssl rsa -in spo-private.key -pubout -out spo-public.key
    
  3. Creare un file CSR (Certificate Signing Request).

    openssl req -new -key spo-private.key > spo-request.csr
    
  4. Creare un file di certificazione.

    openssl x509 -req -in spo-request.csr -signkey spo-private.key -out spo.crt -days 3650
    

Registrare un'applicazione con SharePoint Online

Seguite le istruzioni della documentazione Microsoft per registrare un'applicazione Azure AD.

Effettuare le seguenti scelte:

  • Scegliere l'opzione Solo gli account di questa directory organizzativa.
  • Impostare il tipo di client come client pubblico.
  • Prendete nota dell'ID dell'applicazione (client) Azure che viene assegnato alla vostra applicazione quando la registrate.

Quando si registra un'applicazione nel portale, vengono creati automaticamente un oggetto applicazione e un oggetto service principal nel proprio home tenant.

Aggiungi un certificato

Caricare il certificato creato in precedenza.

Configurare le autorizzazioni API

Seguite la documentazione Microsoft per aggiungere le autorizzazioni API.

La tabella seguente elenca le autorizzazioni da impostare per un metodo di autenticazione principale del servizio e la sicurezza a livello di documento è abilitata.

Principale del servizio con configurazione API abilitata alla sicurezza a livello di documento
Services Autorizzazioni Tipo
Microsoft Graph (Groups) Group.Read.All Applicazione
Microsoft Graph (Directories) Directory.Read.All Applicazione
SharePoint Sites.FullControl.All Applicazione

La tabella seguente elenca le autorizzazioni da impostare per un metodo di autenticazione principale del servizio e la sicurezza a livello di documento è disabilitata.

Principale del servizio con sicurezza a livello di documento disabilitata Configurazione API
Services Autorizzazioni Tipo
Grafico Microsoft Sites.Read.All Applicazione
SharePoint Sites.Read.All Applicazione
  1. Dopo aver configurato le autorizzazioni API, fare clic su Grant admin consent for {tenant-name}.

Abilitare il servizio di controllo degli accessi (ACS) di Azure

Questa procedura è necessaria solo se si desidera configurare le autorizzazioni delle applicazioni per ogni raccolta di siti.

  1. Aprire una SharePoint Online Management Shell.

    Per ulteriori informazioni, vedere Iniziare con SharePoint Online Management Shell.

  2. Abilitare l'autenticazione solo app basata su ACS eseguendo il seguente comando:

    Set-PnPTenant -DisableCustomAppAuthentication $false
    

    Per ulteriori informazioni, vedere Set-PnPTenant.

  3. Seguite i passaggi della documentazione Microsoft per concedere l'accesso utilizzando SharePoint App-Only.

  4. Copiare i valori ID cliente e Segreto cliente.

  5. Definire la richiesta di autorizzazione appropriata per l'installazione.

    Andate su https://{tenant-name}.sharepoint.com/sites/{site}/_layouts/15/AppInv.aspx.

    Se la sicurezza a livello di documento è abilitata, specificare la seguente richiesta XML:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="FullControl" />
    </AppPermissionRequests>
    

    Se la sicurezza a livello di documento è disabilitata, specificare la seguente richiesta XML:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="Read" />
    </AppPermissionRequests>
    
  6. Confermare la fiducia nell'applicazione.

Creare un'autorizzazione per il sito

Aggiungere un'autorizzazione Sites.Selected per l'API Microsoft Graph. Richiedere il permesso di Sites.FullControl.All per chiamare la seguente API:

curl -s -XPOST -H "Authorization: ${access_token}" -H "Content-Type: application/json" \
  https://graph.microsoft.com/v1.0/sites/{site}/permissions -d '{
  "roles": ["read"],
  "grantedToIdentities": [{
    "application": {
      "id": "{azure_ad_app_id}",
      "displayName": "{display_name}"
    }
  }]
}'

Per ulteriori informazioni, consultare la documentazione Microsoft.

Connessione a un'origine dati SharePoint online

Dal progetto Discovery, completare i seguenti passaggi:

  1. Nel riquadro di navigazione, scegliere Gestione collezioni.

  2. Fare clic su Nuova raccolta.

  3. Fare clic su SharePoint Online, quindi su Avanti.

  4. Dare un nome alla collezione.

  5. Se la lingua dei documenti in SharePoint non è l'inglese, selezionare la lingua appropriata.

    Per un elenco delle lingue supportate, vedi Supporto linguistico.

  6. Opzionale: Modificare la pianificazione della sincronizzazione.

    Per ulteriori informazioni, vedere Opzioni di pianificazione delrawl.

  7. Nella sezione Metodo di autenticazione, specificare il tipo di preside da utilizzare per l'autenticazione con SharePoint tra le seguenti opzioni:

    • Utente: Un utente dell'organizzazione Active Directory.

      Nella sezione Inserire le credenziali, compilare i seguenti campi:

      Nome utente
      Il nome utente dell'utente di SharePoint con accesso a tutti i siti e gli elenchi che devono essere sottoposti a scansione e indicizzati, ad esempio crawl_username@company.onmicrosoft.com.
      Password
      La password dell'utente SharePoint.

      Questo valore non viene mai restituito e viene utilizzato solo quando si creano o modificano le credenziali.

    • Servizio: Un'identità di sicurezza utilizzata da applicazioni, servizi e strumenti di automazione creati dall'utente per accedere a specifiche risorse Azure. È come un'identità utente (verificata con un certificato) che ha un ruolo specifico e permessi strettamente controllati.

      Il supporto per l'uso di un servizio principale è stato aggiunto con la versione 4.0.3.

      Nella sezione Inserire le credenziali, compilare i seguenti campi:

      Nome tenant

      Il tenant in cui risiedono i dati. Ad esempio, ibm.onmicrosoft.com.

      ID applicazione

      L'ID della tua app. Ad esempio, 19ce9f74-cd14-4b68-8dfc-4bcc75ed2fe9. Caricare i seguenti file:

      File di certificazione

      Il file di certificazione creato in SharePoint. Ad esempio, myinfo.crt.

      File chiave privata

      Il file della chiave privata creato in SharePoint. Ad esempio, private.app.key.

      Se è richiesta una password per la chiave privata, specificare la password. Se questo crawler ha le autorizzazioni per accedere solo alla site collection specificata, impostare l'interruttore Azure Access Control Service su On, quindi fornire i seguenti valori:

      • ID client
      • Segreto client
  8. Nella sezione Specificare ciò che si vuole cercare, aggiungere i valori ai seguenti campi:

    URL della collezione di siti
    Il servizio web SharePoint URL. Ad esempio, https://organization_name.com.
    Solo per l'utente principale
    Nel campo Nome raccolta siti, specificare il nome utilizzato dalla raccolta siti. Ottenere il nome dalle impostazioni della raccolta di siti.
  9. Opzionale: se si utilizza un server proxy per accedere al server di origine dati, nella sezione Impostazioni proxy, impostare l'interruttore Abilita impostazioni proxy su On. Aggiungere i valori ai seguenti campi:

    Nome utente
    Facoltativo. Il nome utente del server proxy da autenticare, se il server proxy richiede l'autenticazione. Se non si conosce il nome utente, è possibile ottenerlo dall'amministratore del server proxy.
    Password
    Facoltativo. La password del server proxy da autenticare, se il server proxy richiede l'autenticazione. Se non si conosce la password, è possibile ottenerla dall'amministratore del server proxy.
    Nome host o indirizzo IP del server proxy
    Il nome host o l'indirizzo IP del server proxy.
    Numero porta del server proxy
    La porta di rete a cui si desidera connettersi sul server proxy.
  10. Opzionale: se si desidera attivare la sicurezza a livello di documento, nella sezione Sicurezza, impostare l'interruttore Abilita sicurezza a livello di documento su On.

    Quando questa opzione è attivata, gli utenti possono eseguire il crawling e la query dello stesso contenuto a cui possono accedere quando sono connessi a SharePoint. Per ulteriori informazioni, vedere Supporto della sicurezza a livello di documento.

    Solo utente principale: Quando si attiva questa opzione, è necessario aggiungere l'ID Azure assegnato all'applicazione al momento della registrazione al campo ID applicazione.

    Per abilitare la sicurezza a livello di documento, è necessario registrare l'applicazione con SharePoint. Per ulteriori informazioni, consultare le fasi preliminari relative al tipo di preside utilizzato.

  11. Se si desidera che il crawler estragga il testo dalle immagini del sito, espandere Altre impostazioni di elaborazione e impostare Applica il riconoscimento ottico dei caratteri (OCR) su On.

    Quando l'OCR è abilitato e i documenti contengono immagini, l'elaborazione richiede più tempo. Per ulteriori informazioni, vedere Riconoscimento ottico dei caratteri.

  12. Fai clic su Finish.

La collezione viene creata rapidamente. L'elaborazione dei dati richiede più tempo per l'aggiunta alla raccolta.

Se si desidera controllare i progressi, andare alla pagina Attività. Nel riquadro di navigazione, fare clic su Gestione raccolte, quindi fare clic per aprire la raccolta.