IBM Cloud Docs
Microsoft SharePoint Online

Microsoft SharePoint Online

Rastrea documentos almacenados en una fuente de datos en línea de Microsoft SharePoint.

IBM Cloud Pak for Data IBM Software Hub

Esta información sólo se aplica a las implantaciones instaladas. Para obtener más información sobre la conexión a un sitio SharePoint en línea desde una implementación gestionada, consulte SharePoint en línea.

Qué documentos se rastrean

  • Durante el rastreo inicial del contenido, se rastrean y añaden a su colección los documentos de todos los objetos a los que se puede acceder desde la ruta de la colección de sitios que especifique. También se rastrean los metadatos personalizados asociados al contenido SharePoint.
  • Puede rastrear una ruta de colección de sitios por colección.
  • Solo se rastrean los documentos que están respaldados por Discovery ; todos los demás se ignoran. Para obtener más información, consulte Tipos de archivo admitidos.
  • Se admite la seguridad a nivel de documento. Cuando esta opción está activada, sus usuarios pueden rastrear y consultar el mismo contenido al que pueden acceder cuando han iniciado sesión en SharePoint. Para obtener más información, consulte Soporte de seguridad a nivel de documento.
  • Cuando se vuelve a rastrear una fuente, se añaden nuevos documentos, se modifican los documentos actualizados a la versión actual y se eliminan los documentos eliminados del índice de la colección.
  • Todos los conectores de fuentes de datos Discovery son de sólo lectura. Independientemente de los permisos que se concedan a la cuenta de rastreo, Discovery nunca escribe, actualiza ni elimina ningún contenido en la fuente de datos original.

Discovery puede rastrear los siguientes objetos:

  • Colecciones de sitios
  • Sitios
  • SubSites
  • Listas
  • Elementos de la lista
  • Bibliotecas de documentos
  • Lista de elementos adjuntos

Requisitos de orígenes de datos

Además de los requisitos de origen de datos para todas las implementaciones instaladas, su SharePoint Online debe cumplir los siguientes requisitos:

  • La colección de sitios a la que se conecte debe haber sido creada con un plan Enterprise. No puede ser una colección creada con un plan de trabajadores de primera línea.

  • El soporte de autenticación difiere en función del tipo de entidad de seguridad que especifiques al configurar el método de autenticación. Determine qué tipo de entidad de seguridad desea utilizar antes de crear la colección; no podrá cambiar el tipo de entidad de seguridad más adelante. Están disponibles las opciones siguientes:

    • Usuario: La cuenta de usuario crawl debe cumplir los siguientes requisitos:

      • La cuenta debe tener un ID de usuario Azure Active Directory con permiso para acceder a todos los objetos que desea rastrear. Por ejemplo, admin_user@company.onmicrosoft.com. El ID de usuario debe tener permiso Site Collection Administrator.

      • La cuenta debe tener activada la autenticación heredada. Para activar la autenticación heredada, vaya al portal Azure o póngase en contacto con su administrador de Azure Active Directory.

        El conector sólo admite el método Password hash synchronization (PHS) para habilitar la identidad híbrida. Utilice cualquier otro tipo (como autenticación Pass-through o Federation) bajo su propia responsabilidad. A menos que haya creado su cuenta en línea de SharePoint antes de enero de 2020, la autenticación de dos factores está habilitada para la cuenta de forma predeterminada. Debe desactivar la autenticación de dos factores.

        Para ver y cambiar el estado de su autenticación multifactor, consulte Ver el estado de un usuario o Cambiar el estado de un usuario.

    • Servicio: Cuando te conectas a tus datos como Azure Active Directory, puedes utilizar la autenticación multifactor.

Para obtener más información sobre SharePoint Online, consulte la documentación para desarrolladores de Microsoft SharePoint.

Pasos previos al uso de un usuario principal

Si desea activar la seguridad a nivel de documento, debe seguir algunos pasos para configurarla. Para obtener más información, consulte Acerca de la seguridad de nivel de documento.

En la siguiente tabla se enumeran los permisos que se deben establecer para un método de autenticación de usuario principal.

  1. Registre su aplicación.

    Para obtener más información, consulte la documentación de Microsoft.

  2. Configure los permisos de la API.

Configuración de la API de usuario principal
API Permisos Tipo
Microsoft Graph (Grupos) Group.Read.All o Group.ReadWrite.All Delegado
Microsoft Graph (Directorios) Directory.AccessAsUser.All o Directory.Read.All o Directory.ReadWrite.All Delegado
SharePoint Online User.Read.All o User.ReadWrite.All Delegado

Pasos previos al uso de una entidad de seguridad de servicio

Una entidad de seguridad de servicio es una identidad de seguridad que utilizan las aplicaciones, los servicios y las herramientas de automatización creados por el usuario para acceder a recursos específicos de Azure. Es como una identidad de usuario (verificada con un certificado) que tiene un papel específico y permisos estrictamente controlados. Si se conecta a SharePoint Online como usuario principal de servicio, puede acceder a sus datos sin desactivar la autenticación multifactor.

Para prepararse para conectarse como una entidad de seguridad de servicio, complete los siguientes pasos:

  1. Crear un archivo de certificación.
  2. Registrar una aplicación en SharePoint Online.
  3. Añadir un certificado.
  4. Configura los permisos de la API.
  5. Habilite el Azure(ACS).
  6. Crear un permiso de sitio.

Crear un fichero de certificación

El rastreador admite los siguientes formatos para una clave privada:

  • PKCS #1
  • PKCS #1 con contraseña
  • PKCS #8
  • PKCS #8 con contraseña

El siguiente procedimiento muestra cómo crear una clave privada con el formato PKCS #1 sin contraseña.

  1. Crea una clave privada.

    openssl genrsa 2048 > spo-private.key
    
  2. Crea una clave pública.

    openssl rsa -in spo-private.key -pubout -out spo-public.key
    
  3. Cree un archivo de solicitud de firma de certificado (CSR).

    openssl req -new -key spo-private.key > spo-request.csr
    
  4. Crear un archivo de certificación.

    openssl x509 -req -in spo-request.csr -signkey spo-private.key -out spo.crt -days 3650
    

Registrar una aplicación en SharePoint Online

Siga las instrucciones de la documentación de Microsoft para registrar una aplicación Azure AD.

Haz las siguientes elecciones:

  • Elija la opción Sólo cuentas en este directorio de organización.
  • Establezca el tipo de cliente como cliente público.
  • Anote el Azure que se asigna a su aplicación cuando la registra.

Al registrar una aplicación en el portal, se crean automáticamente un objeto de aplicación y un objeto principal de servicio en su inquilino de origen.

Añadir un certificado

Cargue el certificado que creó anteriormente.

Configurar los permisos de la API

Sigue la documentación de Microsoft para añadir permisos de API.

En la siguiente tabla se enumeran los permisos que se deben configurar para un método de autenticación de la entidad de seguridad y se activa la seguridad a nivel de documento.

Servicio principal con seguridad a nivel de documento habilitada Configuración de API
API Permisos Tipo
Microsoft Graph (Grupos) Group.Read.All Aplicación
Microsoft Graph (Directorios) Directory.Read.All Aplicación
SharePoint Sites.FullControl.All Aplicación

La siguiente tabla enumera los permisos que se deben configurar para un método de autenticación de Service principal y la seguridad a nivel de documento está desactivada.

Servicio principal con seguridad a nivel de documento desactivada Configuración de la API
API Permisos Tipo
Gráfico de Microsoft Sites.Read.All Aplicación
SharePoint Sites.Read.All Aplicación
  1. Una vez configurados los permisos de la API, haga clic en Otorgar consentimiento de administrador para {tenant-name}.

Habilitar el servicio de control de acceso (ACS) de Azure

Este procedimiento sólo es necesario si desea configurar los permisos de aplicación para cada colección de sitios.

  1. Abra un SharePoint Shell de administración en línea.

    Para obtener más información, consulte Iniciarse con SharePoint Online Management Shell.

  2. Habilite la autenticación de sólo aplicaciones basada en ACS ejecutando el siguiente comando:

    Set-PnPTenant -DisableCustomAppAuthentication $false
    

    Para obtener más información, consulte Set-PnPTenant.

  3. Siga los pasos de la documentación de Microsoft para Otorgar acceso mediante SharePoint App-Only.

  4. Copie los valores de ID de cliente y Secreto de cliente.

  5. Defina la solicitud de permiso adecuada para su implantación.

    Vaya a https://{tenant-name}.sharepoint.com/sites/{site}/_layouts/15/AppInv.aspx.

    Si la seguridad a nivel de documento está activada, especifique la siguiente petición XML:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="FullControl" />
    </AppPermissionRequests>
    

    Si la seguridad a nivel de documento está desactivada, especifique la siguiente petición XML:

    <AppPermissionRequests AllowAppOnlyPolicy="true">
      <AppPermissionRequest Scope="http://sharepoint/content/sitecollection" Right="Read" />
    </AppPermissionRequests>
    
  6. Confirma que confías en la aplicación.

Crear un permiso de sitio

Añade un permiso Sites.Selected para la API Microsoft Graph. Se requiere Sites.FullControl.All permiso para llamar a la siguiente API:

curl -s -XPOST -H "Authorization: ${access_token}" -H "Content-Type: application/json" \
  https://graph.microsoft.com/v1.0/sites/{site}/permissions -d '{
  "roles": ["read"],
  "grantedToIdentities": [{
    "application": {
      "id": "{azure_ad_app_id}",
      "displayName": "{display_name}"
    }
  }]
}'

Para obtener más información, consulte la documentación de Microsoft.

Conexión a una fuente de datos SharePoint Online

Desde tu proyecto Discovery, completa los siguientes pasos:

  1. En el panel de navegación, seleccione Gestionar colecciones.

  2. Haga clic en Nueva colección.

  3. Haga clic en SharePoint Online y, a continuación, haga clic en Siguiente.

  4. Nombre de la colección.

  5. Si el idioma de los documentos en SharePoint no es el inglés, seleccione el idioma adecuado.

    Para ver una lista de los idiomas admitidos, consulte Soporte de idiomas.

  6. Opcional: Cambia el horario de sincronización.

    Para obtener más información, consulte Opciones de programación de rastreo.

  7. En la sección Método de autenticación, especifique el tipo de entidad de seguridad que desea utilizar al autenticarse con SharePoint entre las siguientes opciones:

    • Usuario: Un usuario de su organización Active Directory.

      En la sección Ingrese sus credenciales, complete los siguientes campos:

      Nombre de usuario
      El nombre de usuario del usuario de SharePoint con acceso a todos los sitios y listas que deben rastrearse e indexarse, por ejemplo, crawl_username@company.onmicrosoft.com.
      Contraseña
      La contraseña del usuario de SharePoint.

      Este valor nunca se devuelve y solo se utiliza cuando se crean o modifican credenciales.

    • Servicio: Una identidad de seguridad utilizada por aplicaciones, servicios y herramientas de automatización creados por el usuario para acceder a recursos específicos de Azure. Es como una identidad de usuario (verificada con un certificado) que tiene un papel específico y permisos estrictamente controlados.

      La compatibilidad con el uso de un servicio principal se añadió con la versión 4.0.3.

      En la sección Ingrese sus credenciales, complete los siguientes campos:

      Nombre de arrendatario

      El inquilino donde residen los datos. Por ejemplo, ibm.onmicrosoft.com.

      ID de aplicación

      El ID de tu aplicación. Por ejemplo, 19ce9f74-cd14-4b68-8dfc-4bcc75ed2fe9. Cargue los siguientes archivos:

      Expediente de certificación

      El archivo de certificación que creó en SharePoint. Por ejemplo, myinfo.crt.

      Archivo de clave privada

      El archivo de clave privada que creó en SharePoint. Por ejemplo, private.app.key.

      Si se requiere una contraseña de clave privada, especifique la contraseña. Si este rastreador tiene permisos para acceder únicamente a la colección de sitios especificada, establezca el conmutador Azure en On y, a continuación, proporcione los siguientes valores:

      • ID de cliente
      • Secreto de cliente
  8. En la sección Especifique lo que desea rastrear, añada valores a los siguientes campos:

    Url de la colección de sitios
    El servicio web SharePoint URL. Por ejemplo, https://organization_name.com.
    Sólo usuario principal
    En el campo Nombre de la colección de sitios, especifique el nombre que utiliza la colección de sitios. Obtener el nombre de la configuración de la colección de sitios.
  9. Opcional: Si utiliza un servidor proxy para acceder al servidor de origen de datos, en la sección Configuración proxy, active el interruptor Activar configuración proxy en On. Añada valores a los siguientes campos:

    Nombre de usuario
    Opcional. El nombre de usuario del servidor proxy para autenticar, si el servidor proxy requiere autenticación. Si no conoce su nombre de usuario, puede obtenerlo del administrador de su servidor proxy.
    Contraseña
    Opcional. La contraseña del servidor proxy para autenticarse, si el servidor proxy requiere autenticación. Si no conoce su contraseña, puede obtenerla del administrador de su servidor proxy.
    Nombre de host o dirección IP del servidor proxy
    El nombre de host o la dirección IP del servidor proxy.
    Número de puerto del servidor proxy
    El puerto de red al que desea conectarse en el servidor proxy.
  10. Opcional: Si desea activar la seguridad a nivel de documento, en la sección Seguridad, ponga el interruptor Activar seguridad a nivel de documento en On.

    Cuando esta opción está activada, sus usuarios pueden rastrear y consultar el mismo contenido al que pueden acceder cuando han iniciado sesión en SharePoint. Para obtener más información, consulte Soporte de seguridad a nivel de documento.

    Sólo usuario principal: Al activar esta opción, debe añadir el Azure que se asignó a la aplicación en el momento del registro al campo ID de aplicación.

    Para habilitar la seguridad a nivel de documento, debe registrar su aplicación con SharePoint. Para obtener más información, consulte los pasos necesarios para el tipo de entidad de seguridad que está utilizando.

  11. Si desea que el rastreador extraiga texto de las imágenes del sitio, amplíe Más opciones de procesamiento, y establezca Aplicar reconocimiento óptico de caracteres (OCR) en On.

    Cuando el OCR está activado y sus documentos contienen imágenes, el procesamiento tarda más tiempo. Para obtener más información, consulte Reconocimiento óptico de caracteres.

  12. Pulse Finalizar.

La colección se crea rápidamente. Los datos tardan más tiempo en procesarse a medida que se añaden a la colección.

Si desea comprobar el progreso, vaya a la página Actividad. En el panel de navegación, haga clic en Gestionar colecciones y, a continuación, haga clic en para abrir la colección.