IBM Cloud Docs
Rastreo web

Rastreo web

Añada una colección de rastreo web para rastrear un sitio web, analizar su contenido de página y almacenar información significativa. Especifique uno o más URL de página web base y configure cuántas páginas enlazadas debe seguir el rastreo web. Puede configurar la frecuencia con la que sincronizar con el sitio web, para controlar la actualización de los datos de la recopilación.

Antes de crear una colección de rastreo web, póngase en contacto con el propietario del sitio web para obtener los permisos necesarios. Actualmente, el despliegue gestionado de Discovery no puede rastrear https://www.ibm.com.

IBM Cloud IBM Cloud sólo

Esta información sólo se aplica a los despliegues gestionados. Para obtener más información sobre cómo conectarse a un sitio web desde un despliegue instalado, consulte Rastreo web.

Qué documentos se rastrean

Puede conectarse a los siguientes tipos de contenido web:

  • Sitios web públicos
  • Sitios web de empresas privadas u otros sitios que requieren autenticación
  • Sitios web que están detrás de un cortafuegos corporativo

Durante el rastreo inicial del contenido, se rastrean todas las páginas del sitio web que coinciden con los valores de búsqueda y se añaden al índice de documentos de la colección. El rastreo se inicia en la página web que especifique en el campo URL de inicio. Si la colección está configurada para seguir enlaces, el rastreo sigue los enlaces de la página de inicio que comparten el mismo subárbol que la página de inicio. Por ejemplo, si especifica https://www.example.com/banking/faqs.html, se rastrearán los enlaces con URL que empiecen por https://www.example.com/banking/. Si especifica https://www.example.com/banking, se rastrean los enlaces con URL que empiezan por https://www.example.com/.

El rastreo no puede acceder a subdirectorios seguros. Por ejemplo, si un subdirectorio al que espera que acceda el rastreo, como https://www.example.com/banking/pdfs, no está siendo rastreado, compruebe si puede acceder al subdirectorio URL directamente desde un navegador web. Si no puede acceder a él, el rastreo no puede acceder a él.

Durante los siguientes rastreos planificados, se realiza un nuevo rastreo completo y los cambios se reflejan en la colección. Los documentos que se han añadido a la colección desde las páginas del sitio web que se suprimen más tarde del sitio web externo no se suprimen de la colección. Sin embargo, a partir de las colecciones creadas después de abril de 2022, cuando se elimina un URL e inicial de la configuración de rastreo web, se eliminan todos los documentos asociados. Los documentos eliminados incluyen documentos indexados que se agregaron a la colección en función del contenido de la página web en la URL de inicio y documentos que se derivaron de páginas web a las que enlazaba la URL de inicio. No puede limitar el número de documentos indexados cambiando otros ajustes, como cambiar la URL existente para incluir una ruta con un alcance más limitado que antes o reducir a 0 el número máximo de enlaces a seguir. Solo eliminando el URL podrá eliminar los documentos indexados que están asociados a él.

El rastreador web puede rastrear páginas web que utilizan JavaScript para representar contenido, pero el rastreador funciona mejor en páginas individuales, no en sitios web completos. No puede rastrear sitios que utilizan URL dinámicos; si no puede ver ningún contenido cuando visualiza el código fuente de una página web en el navegador, el servicio no puede rastrearlo.

Si desea rastrear un grupo de URL que incluye algunos sitios web que requieren autenticación y otros que no, considere la posibilidad de crear una colección diferente para cada tipo de autenticación. El conector no da soporte al rastreo basado en cookies.

Todos los conectores de origen de datos Discovery son de sólo lectura. Independientemente de los permisos otorgados a la cuenta de rastreo, Discovery nunca graba, actualiza o suprime ningún contenido del origen de datos original.

La tabla siguiente ilustra los objetos que Discovery puede rastrear.

Rastreo de fuentes de datos
Objetos que se rastrean
Sitios web, subdirectorios de sitios web

Paso previo para conectarse a un sitio web alojado tras un cortafuegos

Si desea conectarse a un sitio web alojado detrás de un cortafuegos, configure primero el conector IBM Cloud Satellite® fuera de Discovery. Para obtener más información, consulte la Satellite Descripción general del conector.

IBM® Secure Gateway for IBM Cloud® está en desuso. Las colecciones existentes que utilizan Secure Gateway pueden migrar al conector IBM Cloud Satellite® antes de la fecha de fin de soporte. Para obtener más información, consulte las Secure Gateway fechas de depreciación y detalles de depreciación.

El contenido valioso a menudo se almacena en el sitio web interno de su empresa. Normalmente, estos sitios web de intranet sólo son accesibles desde un sistema conectado a la red de su oficina o a través de una conexión VPN. Puede establecer una conexión persistente y más segura entre el rastreador web y este tipo de sitio interno mediante el conector Satellite.

Para configurar el conector Satellite, siga estos pasos:

  1. Cree un conector Satellite. Para obtener más información, consulte Creación de un conector.
  2. Ejecutar un agente conector. Para obtener más información, consulta Ejecutar un agente Connector.
  3. Crea y gestiona los puntos finales del conector. Para obtener más información, consulta Creación y gestión de endpoints de Connector.

Limitaciones

Las limitaciones al utilizar el conector Satellite son las siguientes:

  • Puede configurar el conector Satellite únicamente al crear una nueva colección de rastreo web (no se puede modificar una vez creada la colección).
  • Si Conectarse a la red local se establece en On en Más ajustes de conexión, todas las URL de semillas deben estar en el mismo dominio.
  • Si el servidor de origen ( URL ) utiliza SSL ( https:// ), puede utilizar autenticación básica y URL absolutas.
  • Si el sitio web de semillas URL utiliza HTTP ( http:// ), se aplican las siguientes limitaciones:
    • La autenticación básica no está disponible cuando se utiliza el conector Satellite Conector.
    • Si la página web rastreada tiene una dirección absoluta ( URL ), por ejemplo, http://<seed_url_domain>/sample.html, entonces la página enlazada no se rastrea.

Conexión con el origen de datos

Para configurar la colección de rastreos web, realice los pasos siguientes:

  1. En el panel de navegación, elija Gestionar colecciones.

  2. Haga clic en Nueva colección.

  3. Pulse el enlace situado junto a ¿Necesita conectarse a un origen de datos? pulse Rastreo web y, a continuación, pulse Siguiente.

  4. Asigne un nombre a la colección.

  5. Si el idioma del contenido del sitio web no es el inglés, seleccione el idioma apropiado.

    Para ver una lista de los idiomas admitidos, consulte Soporte de idiomas.

  6. Opcional: puede cambiar la planificación de sincronización.

    Para obtener más información, consulte Opciones de planificación de rastreo.

  7. Especifique la URL ( URL ) del sitio web que desea rastrear.

    • Si el sitio que desea rastrear requiere un inicio de sesión, establezca la autenticación básica en On, añada la dirección de la página ( URL ) al campo Dirección de inicio (Starting URL ) y, a continuación, haga clic en Añadir (Add).

      Añada un nombre de usuario y una contraseña con acceso al sitio y, a continuación, pulse Guardar credenciales. Sólo puede especificar un conjunto de credenciales por colección.

      Por ejemplo, puede especificar https://cloud.ibm.com como la dirección de inicio ( URL ) y añadir su nombre de usuario ( IBMid ) como credenciales.

      Si desea iniciar el rastreo desde una sección específica del sitio, especifíquelo en el campo URL de inicio. El nombre de dominio de la subsección debe coincidir con el dominio en el URL que especificó anteriormente.

      Por ejemplo, puede cambiar la dirección de inicio ( URL ) a https://cloud.ibm.com/unifiedsupport/supportcenter.

    • Para cualquier página web pública que desee rastrear, agregue la dirección URL de la página raíz del sitio web ( URL ) al campo URL de inicio y, a continuación, haga clic en Agregar. Puede añadir más de una página de inicio.

      La barra diagonal final ( / ) en el archivo URL determina el subárbol que se debe rastrear. Si especifica https://www.example.com/banking/faqs.html, se rastrearán todos los URL que empiecen por https://www.example.com/banking/, por ejemplo. Si especifica https://www.example.com/banking, se rastrearán todos los URL que empiecen por https://www.example.com/.

      URL De forma predeterminada, el número de enlaces consecutivos que el rastreador sigue desde la dirección de inicio 2 es de . Para cambiar el número de saltos o para listar las secciones de sitio web a excluir del rastreo, pulse el icono de edición.

      • El número máximo de saltos permitido es 20.

      • Para especificar rutas de acceso de sitios web ( URL ) que se deben excluir, agregue la ruta de acceso del sitio. Por ejemplo, si la URL inicial es https://example.com, puede excluir https://example.com/pricing introduciendo /pricing/.

        Se excluye cualquier sección de la dirección web que contenga la vía de acceso del sitio que especifique. Por ejemplo, si especifica /licenses/, se excluye la página https://example.com/products/licenses/europe, entre otras.

      • Si desea restringir el rastreo a una sola página, añada URL al campo URL de inicio. Por ejemplo, https://www.example.com/banking/faqs.html. Pulse el icono de edición para establecer el Número máximo de enlaces a seguir en 0.

      La función de rastreo dinámico de sitios web, controlada por el conmutador Ejecutar JavaScript durante el rastreo en la configuración de rastreo, ha quedado obsoleta y se eliminará en septiembre de 2025. Para más información, consulte Notas de la versión.

    • Si el sitio web que desea rastrear utiliza JavaScript para personalizar el contenido de la página antes de que se visualice, debe realizar un paso adicional.

      Después de introducir la dirección de correo electrónico inicial ( URL ) y hacer clic en Añadir (Add ), edite la dirección de correo electrónico alternativa ( URL ) haciendo clic en el icono de edición(Edit icon ). Establezca la opción Ejecutar el conmutador de rastreo ( JavaScript ) en Activado (On) y, a continuación, haga clic en Guardar (Save ).

      Cuando el proceso de JavaScript está habilitado, tarda de 3 a 4 veces más en rastrear una página. Utilícelo sólo en páginas web individuales en las que sepa que es necesario porque la página representa su contenido dinámicamente. Si ve mensajes de tiempo de espera o el rastreo finaliza sin añadir contenido a la colección, disminuya el número de páginas web que se incluyen en el rastreo. Por ejemplo, puede especificar la página exacta a rastrear en el campo URL de inicio y establecer Número máximo de enlaces a seguir en 0.

    • Para conectarse a un sitio web alojado tras un cortafuegos, configure primero el IBM Cloud Satellite Conector.

      Especifique los detalles del conector Satellite.

      Para especificar los detalles, siga estos pasos:

      1. Expanda Más valores de conexióny, a continuación, establezca Conectar a red local en On.
      2. Seleccione IBM Cloud Satellite® Conector como tipo de conexión. De forma predeterminada, esta opción está seleccionada.
      3. Especifique el punto final del conector de Satellite URL.

      Muestra los detalles del conector Satellite
      Satellite Detalles del conector

  8. Opcional: añada otra dirección web al campo URL de inicio.

    El número de URL de inicio para una única colección debe ser inferior a 100. Si tiene un requisito para rastrear un gran número de sitios web, consulte Necesito rastrear muchos sitios. ¿Cuál es mi límite?.

    El número de páginas web que se rastrean está limitado a 250.000, por lo que es posible que el rastreador web no rastree todos los sitios web especificados.

    El número de URL secundarias por URL que se rastrean está limitado a 10 000. Si el número de URL hijo dentro de cualquier URL rastreado supera 10.000, el rastreador no puede procesar nada del contenido en los URL hijo.

  9. Si desea limitar los tipos de archivos que se van a añadir a la colección, puede listar las extensiones de archivo para los tipos de archivo que se van a incluir o excluir.

    Si los URL de las páginas del sitio web no terminan en .html, utilice el filtro de exclusión en lugar del filtro de inclusión. Debe añadir al menos una extensión de archivo para excluirla.

    Para obtener una lista de los tipos de archivo soportados, consulte Tipos de archivo soportados.

  10. Si desea que el rastreo web extraiga texto de imágenes en el sitio, expanda Más valores de procesoy establezca Aplicar reconocimiento óptico de caracteres (OCR) en On.

    Cuando OCR está habilitado y los documentos contienen imágenes, el proceso tarda más tiempo. Para obtener más información, consulte Reconocimiento de caracteres ópticos.

  11. Pulse Finalizar.

La colección se crea rápidamente. Los datos tardan más tiempo en procesarse a medida que se añaden a la colección.

Si desea comprobar el progreso, vaya a la página Actividad. En el panel de navegación, pulse Gestionar colecciones y, a continuación, pulse para abrir la colección.

Necesito rastrear muchos sitios. ¿Cuál es mi límite?

El servicio puede dar soporte a un total de 500 conexiones de rastreador por instancia de servicio de Discovery. Todos los orígenes de datos excepto el rastreo web utilizan una conexión de rastreador cada uno. Para el rastreo web, se necesita una conexión para cada 5 URL de inicio. Si añade 10 URL de inicio, por ejemplo, Discovery genera la conexión de rastreador adicional necesaria para dar soporte a los 5 URL adicionales. Por lo tanto, el número máximo de URL de inicio que puede utilizar depende de las otras recopilaciones de datos configuradas en la instancia de servicio. Puede calcular el límite usted mismo.

Para calcular el límite de inicio de la visita ( URL ), siga los siguientes pasos:

  1. Calcule el número de otras recopilaciones de orígenes de datos en la instancia de servicio, lo que significa que este proyecto y cualquier otro proyecto en la misma instancia de Discovery.

    Por ejemplo, puede tener 2 colecciones de IBM Cloud Object Store en un proyecto y 2 colecciones de Salesforce y 1 colección de SharePoint Online en otro proyecto. En este ejemplo, el número total de otras recopilaciones de orígenes de datos es 5.

  2. Reste el número de otras recopilaciones de orígenes de datos del número máximo permitido de conexiones de rastreador, que es 500.

    Por ejemplo, 500-5 = 495.

  3. Multiplique el resto por 5 para determinar el número total de URL de inicio que puede utilizar.

    Por ejemplo, 495 x 5 = 2.475.

Para utilizar el número máximo permitido de URL de inicio en el ejemplo, necesitará 25 colecciones de rastreo web porque cada colección permite configurar un máximo de 100 URL de inicio. Sin embargo, no configure la instancia para utilizar el número máximo absoluto permitido. Si se añaden posteriormente uno o más orígenes de datos adicionales a un proyecto en esta instancia de servicio, afectará al número de URL de inicio que la instancia puede rastrear correctamente.

Resolución de problemas del rastreador

Se devuelve un error 403 Prohibido
El sitio web que desea rastrear puede bloquear solicitudes de todas las entidades excepto de un conjunto específico de entidades con nombre. Si es posible, añada el rastreador a la lista de elementos permitidos para el sitio. La cabecera de identificación del rastreador es User-Agent: IBM-AppConnect/V1.