Web-Crawler-Suche

Fügen Sie eine Web-Crawler-Gruppe hinzu, um eine Website zu durchsuchen, ihren Seiteninhalt zu analysieren und aussagekräftige Informationen zu speichern. Geben Sie mindestens eine Basiswebseiten-URL an und konfigurieren Sie, wie viele verlinkte Seiten für die Webcrawlersuche folgen sollen. Sie können konfigurieren, wie oft die Synchronisation mit der Website erfolgen soll, sodass Sie steuern, wie aktuell die Daten in Ihrer Sammlung sind.

Bevor Sie eine Web-Crawl-Sammlung erstellen, sollten Sie den Eigentümer der Website kontaktieren, um die Erlaubnis zum Crawlen der Website einzuholen. Derzeit kann die verwaltete Bereitstellung von Discovery nicht crawlen https://www.ibm.com.

IBM Cloud IBM Cloud nur

Diese Informationen gelten nur für verwaltete Implementierungen. Weitere Informationen zum Herstellen einer Verbindung zu einer Website aus einer installierten Implementierung finden Sie unter Web-Crawler-Suche.

Durchsuchte Dokumente

Sie können eine Verbindung zu folgenden Webinhaltstypen herstellen:

Öffentliche Websites
Private Unternehmenswebsites oder andere Sites, die eine Authentifizierung erfordern
Websites, die sich hinter einer Unternehmensfirewall befinden

Während der ersten Crawlersuche für den Inhalt werden alle Webseiten, die Ihren Sucheinstellungen entsprechen, durchsucht und dem Dokumentindex Ihrer Objektgruppe hinzugefügt. Die Crawlersuche beginnt auf der Webseite, die Sie im Feld Start-URLs angeben. Wenn Ihre Objektgruppe für das Folgen von Links konfiguriert ist, folgt die Crawlersuche Links auf der Startseite, die dieselbe untergeordnete Baumstruktur wie die Startseite verwenden. Wenn Sie beispielsweise https://www.example.com/banking/faqs.html angeben, werden Links mit URLs, die mit https://www.example.com/banking/ beginnen, durchsucht. Wenn Sie https://www.example.com/banking angeben, werden Links mit URLs, die mit https://www.example.com/ beginnen, durchsucht.

Die Crawlersuche kann nicht auf sichere Unterverzeichnisse zugreifen. Wenn beispielsweise ein Unterverzeichnis, auf das der Crawler zugreifen soll, wie https://www.example.com/banking/pdfs, nicht gecrawlt wird, überprüfen Sie, ob Sie direkt über einen Webbrowser auf das Unterverzeichnis URL zugreifen können. Wenn Sie nicht darauf zugreifen können, kann die Crawlersuche nicht darauf zugreifen.

Bei nachfolgenden geplanten erneuten Suchoperationen wird eine vollständige erneute Crawlersuche durchgeführt und alle Änderungen werden in Ihrer Sammlung widergespiegelt. Dokumente, die Ihrer Sammlung von Webseiten hinzugefügt wurden, die später von der externen Website gelöscht wurden, werden nicht aus der Sammlung gelöscht. Wenn Sie jedoch eine URL aus der Web-Crawl-Konfiguration entfernen, werden alle zugehörigen Dokumente gelöscht, beginnend mit Sammlungen, die nach April 2022 erstellt wurden. Zu den gelöschten Dokumenten gehören indizierte Dokumente, die der Sammlung basierend auf dem Inhalt der Webseite unter der ursprünglichen Adresse URL hinzugefügt wurden, sowie Dokumente, die von Webseiten abgeleitet wurden, die mit der ursprünglichen Adresse URL verlinkt waren. Sie können die Anzahl der indizierten Dokumente nicht einschränken, indem Sie andere Einstellungen ändern, z. B. indem Sie die vorhandene URL so ändern, dass sie einen Pfad mit einem eingeschränkteren Umfang als zuvor enthält, oder indem Sie die maximale Anzahl der zu verfolgenden Links auf 0 reduzieren. Nur durch Löschen von URL können Sie die indizierten Dokumente entfernen, die damit verknüpft sind.

Der Web-Crawler kann Webseiten durchsuchen, die JavaScript verwenden, um Inhalt wiederzugeben, aber der Crawler funktioniert am besten auf einzelnen Seiten, nicht auf ganzen Websites. Er kann keine Sites durchsuchen, die dynamische URLs verwenden. Wenn Sie keinen Inhalt anzeigen können, wenn Sie den Quellcode einer Webseite in Ihrem Browser anzeigen, kann der Service keine Crawlersuche durchführen.

Wenn Sie eine Gruppe von URLs crawlen möchten, die einige Websites enthält, für die eine Authentifizierung erforderlich ist, und einige, für die dies nicht der Fall ist, sollten Sie für jeden Authentifizierungstyp eine eigene Sammlung erstellen. Der Connector unterstützt keine cookiebasierte Crawlersuche.

Alle Discovery-Datenquellenconnectors sind schreibgeschützt. Unabhängig von den Berechtigungen, die dem Konto für die Crawlersuche erteilt wurden, schreibt, aktualisiert oder löscht Discovery keinen Inhalt in der ursprünglichen Datenquelle.

Die folgende Tabelle zeigt die Objekte, die Discovery durchsuchen kann.

Unterstützung für das Crawling von Datenquellen
Objekte, die durchsucht werden
Websites, Unterverzeichnisse von Websites

Voraussetzung für die Verbindung zu einer Website, die hinter einer Firewall gehostet wird

Wenn Sie eine Verbindung zu einer Website herstellen möchten, die hinter einer Firewall gehostet wird, konfigurieren Sie zunächst den IBM Cloud Satellite® Connector außerhalb von Discovery. Weitere Informationen finden Sie in der Satellite Connector-Übersicht.

IBM® Secure Gateway for IBM Cloud® wird veraltet sein. Bestehende Sammlungen, die Secure Gateway verwenden, können vor dem End of Support-Datum auf den IBM Cloud Satellite® Connector migrieren. Weitere Informationen finden Sie in den Secure Gateway Verwerfungsdaten und Verwerfungsdetails.

Wertvolle Inhalte werden häufig auf der internen Website Ihres Unternehmens gespeichert. In der Regel ist der Zugriff auf solche Intranet-Websites nur über einen Computer möglich, der mit Ihrem Office-Netz oder über eine VPN-Verbindung verbunden ist. Mit dem Satellite-Connector können Sie eine dauerhafte und sicherere Verbindung zwischen dem Webcrawler und dieser Art von interner Website herstellen.

Um den Satellite Connector zu konfigurieren, führen Sie die folgenden Schritte aus:

Erstellen Sie einen Satellite Anschluss. Weitere Informationen finden Sie unter Erstellen einer Verbindung.
Führen Sie einen Verbindungsagenten aus. Weitere Informationen finden Sie unter Ausführen eines Connector-Agenten.
Erstellen und verwalten Sie die Connector-Endpunkte. Weitere Informationen finden Sie unter Erstellen und Verwalten von Connector-Endpunkten.

Einschränkungen

Bei der Verwendung des Satellite Connectors gelten folgende Einschränkungen:

Sie können den Satellite Connector nur bei der Erstellung einer neuen Webcrawl-Sammlung konfigurieren (kann nach der Erstellung der Sammlung nicht mehr geändert werden).
Wenn Verbindung zum lokalen Netzwerk in Weitere Verbindungseinstellungen auf On gesetzt ist, müssen alle Seed-URLs in derselben Domäne liegen.
Wenn der Seed URL SSL ( https:// ) verwendet, können Sie die Standardauthentifizierung und absolute URLs verwenden.
Wenn der Seed URL HTTP ( http:// ) verwendet, gelten die folgenden Einschränkungen:
- Die Basisauthentifizierung ist nicht verfügbar, wenn der Satellite Konnektor.
- Wenn die gecrawlte Webseite eine absolute URL hat, z. B. http://<seed_url_domain>/sample.html, dann wird die verlinkte Seite nicht gecrawlt.

Verbindung zur Datenquelle herstellen

Führen Sie die folgenden Schritte aus, um die Web-Crawler-Gruppe zu konfigurieren:

Wählen Sie im Navigationsfenster Sammlungen verwalten aus.
Klicken Sie auf Neue Sammlung.
Klicken Sie auf den Link neben Sie müssen eine Verbindung zu einer Datenquelle herstellen? klicken Sie auf Web-Crawler-Suche und anschließend auf Weiter.
Benennen Sie die Objektgruppe.
Wenn die Sprache des Inhalts auf der Website nicht Englisch ist, wählen Sie die entsprechende Sprache aus.

Eine Liste der unterstützten Sprachen finden Sie unter Sprachunterstützung.
Optional: Sie können den Synchronisationszeitplan ändern.

Weitere Informationen finden Sie unter Zeitplanoptionen für die Crawlersuche.
Geben Sie die URL der Website an, die Sie durchsuchen möchten.
- Wenn für die Website, die Sie durchsuchen möchten, eine Anmeldung erforderlich ist, legen Sie die Standardauthentifizierung auf On fest, fügen Sie die URL der Seite zum Feld "Start- URL " hinzu und klicken Sie dann auf "Hinzufügen ".
  
  Fügen Sie einen Benutzernamen und ein Kennwort mit Zugriff auf die Website hinzu und klicken Sie dann auf Berechtigungsnachweise speichern. Sie können nur eine Gruppe von Berechtigungsnachweisen pro Sammlung angeben.
  
  URL Sie können beispielsweise https://cloud.ibm.com als Start-E-Mail-Adresse angeben und Ihre IBMid als Anmeldedaten hinzufügen.
  
  Wenn Sie die Crawlersuche von einem bestimmten Bereich der Site aus starten wollen, geben Sie ihn im Feld Start-URLs an. Der Domainname des Unterabschnitts muss mit der Domain in der zuvor angegebenen URL übereinstimmen.
  
  Zum Beispiel könnten Sie die Startadresse URL in https://cloud.ibm.com/unifiedsupport/supportcenter ändern.
- Für alle öffentlichen Webseiten, die Sie durchsuchen möchten, fügen Sie die URL für die Startseite der Website in das Feld "Start-URLs" ein und klicken Sie dann auf "Hinzufügen ". Sie können mehr als eine Startseite hinzufügen.
  
  Der letzte Schrägstrich ( / ) in URL bestimmt den zu durchsuchenden Teilbaum. Wenn Sie https://www.example.com/banking/faqs.html angeben, werden beispielsweise alle URLs durchsucht, die mit https://www.example.com/banking/ beginnen. Wenn Sie https://www.example.com/banking angeben, werden alle URLs, die mit https://www.example.com/ beginnen, durchsucht.
  
  Standardmäßig folgt der Crawl der Anzahl aufeinanderfolgender Links von der Startseite URL bis 2. Um die Anzahl der Hops zu ändern oder Websiteabschnitte aufzulisten, die von der Crawlersuche ausgeschlossen werden sollen, klicken Sie das Bearbeitungssymbol an.
  - Die maximal zulässige Anzahl von Sprüngen ist 20.
  - Um auszuschließende Pfade von URL anzugeben, fügen Sie den Pfad der Website hinzu. Wenn beispielsweise die Ausgangs-E-Mail-Adresse URL https://example.com lautet, können Sie https://example.com/pricing ausschließen, indem Sie /pricing/ eingeben.
    
    Jeder Abschnitt der Webadresse, der den angegebenen Sitepfad enthält, wird ausgeschlossen. Wenn Sie beispielsweise /licenses/ angeben, wird die Seite https://example.com/products/licenses/europe unter anderem ausgeschlossen.
  - Wenn Sie das Crawling auf eine einzelne Seite beschränken möchten, fügen Sie URL zum Feld "Start-URLs" hinzu. Beispiel: https://www.example.com/banking/faqs.html. Klicken Sie auf das Bearbeitungssymbol, um Maximale Anzahl der zu folgenden Links auf 0 zu setzen.
  Die Funktion für das dynamische Crawlen von Websites, die über die Funktion JavaScript während des Crawl-Wechsels in den Crawl-Einstellungen gesteuert wird, ist veraltet und wird bis September 2025 entfernt. Weitere Informationen finden Sie in den Versionshinweisen.
- Wenn die zu durchsuchende Website JavaScript verwendet, um den Seiteninhalt anzupassen, bevor er angezeigt wird, müssen Sie einen zusätzlichen Schritt ausführen.
  
  Nachdem Sie die Startadresse URL eingegeben und auf "Hinzufügen" geklickt haben, bearbeiten Sie die URL, indem Sie auf klicken. Setzen Sie den Schalter "Ausführen von JavaScript während des Crawlings " auf "Ein" und klicken Sie dann auf "Speichern ".
  
  Wenn die JavaScript-Verarbeitung aktiviert ist, dauert es 3 bis 4 Mal länger, eine Seite zu durchsuchen. Verwenden Sie es nur auf einzelnen Webseiten, wenn Sie wissen, dass es notwendig ist, weil die Seite ihren Inhalt dynamisch wiedergibt. Wenn Zeitlimitnachrichten angezeigt werden oder die Crawlersuche beendet wird, ohne der Objektgruppe Inhalt hinzuzufügen, verringern Sie die Anzahl der in die Crawlersuche eingeschlossenen Webseiten. Sie können beispielsweise im Feld Start-URLs die genaue Seite angeben, die durchsucht werden soll, und Maximale Anzahl der folgenden Links auf 0 setzen.
- Um eine Verbindung zu einer Website herzustellen, die hinter einer Firewall gehostet wird, richten Sie zunächst den IBM Cloud Satellite Connector ein.
  
  Geben Sie die Satellite Verbindungsdetails an.
  
  Führen Sie die folgenden Schritte aus, um die Details festzulegen:
  1. Erweitern Sie Weitere Verbindungseinstellungenund setzen Sie dann Verbindung zum lokalen Netz herstellen auf On.
  2. Wählen Sie IBM Cloud Satellite® Connector als Verbindungstyp. Diese Option ist standardmäßig ausgewählt.
  3. Geben Sie den Satellite Connector Endpoint URL an.
  Satellite Verbindungsdetails
Optional: Fügen Sie dem Feld Start-URLs eine andere Webadresse hinzu.

Die Anzahl der Start-URLs für eine einzelne Objektgruppe muss kleiner als 100 sein. Wenn Sie eine große Anzahl von Websites durchsuchen müssen, finden Sie weitere Informationen unter Ich muss viele Websites durchsuchen. Was ist mein Limit?.

Die Anzahl der durchsuchten Webseiten ist auf 250.000 begrenzt, sodass der Web-Crawler möglicherweise nicht alle angegebenen Websites durchsucht.

Die Anzahl der untergeordneten URLs pro URL, die durchsucht werden, ist auf 10.000 begrenzt. Wenn die Anzahl der untergeordneten URLs in einer durchsuchten URL 10.000 überschreitet, kann der Crawler den Inhalt der untergeordneten URLs nicht verarbeiten.
Wenn Sie die Dateitypen begrenzen wollen, die der Objektgruppe hinzugefügt werden sollen, können Sie die Dateierweiterungen für einzuschließende oder auszuschließende Dateitypen auflisten.

Wenn die URLs für Ihre Webseiten nicht auf .htmlenden, verwenden Sie den Ausschlussfilter anstelle des Einschlussfilters. Sie müssen mindestens eine auszuschließende Dateierweiterung hinzufügen.

Eine Liste der unterstützten Dateitypen finden Sie unter Unterstützte Dateitypen.
Wenn die Web-Crawler-Suche Text aus Bildern auf der Site extrahieren soll, erweitern Sie Weitere Verarbeitungseinstellungenund legen Sie Optische Zeichenerkennung (OCR) anwenden auf On fest.

Wenn OCR aktiviert ist und Ihre Dokumente Bilder enthalten, dauert die Verarbeitung länger. Weitere Informationen finden Sie unter Optische Zeichenerkennung.
Klicken Sie auf Beenden.

Die Objektgruppe wird schnell erstellt. Es dauert länger, bis die Daten verarbeitet werden, wenn sie der Objektgruppe hinzugefügt werden.

Wenn Sie den Fortschritt überprüfen möchten, rufen Sie die Seite 'Aktivität' auf. Klicken Sie im Navigationsfenster auf Sammlungen verwalten und anschließend auf, um die Sammlung zu öffnen.

Ich muss viele Websites durchsuchen. Was ist mein Limit?

Der Service kann insgesamt 500 Crawlerverbindungen pro Discovery-Serviceinstanz unterstützen. Alle Datenquellen mit Ausnahme der Web-Crawlersuche verwenden jeweils eine Crawlerverbindung. Für die Web-Crawlersuche ist eine Verbindung für jeweils 5 Start-URLs erforderlich. Wenn Sie beispielsweise 10 Start-URLs hinzufügen, generiert Discovery die zusätzliche Crawlerverbindung, die zur Unterstützung der zusätzlichen 5 URLs benötigt wird. Daher hängt die maximale Anzahl der Start-URLs, die Sie verwenden können, von den anderen Datensammlungen ab, die in Ihrer Serviceinstanz konfiguriert sind. Sie können den Grenzwert selbst berechnen.

Um das Startlimit für URL zu berechnen, führen Sie die folgenden Schritte aus:

Berechnen Sie die Anzahl anderer Datenquellensammlungen in der Serviceinstanz, d. h. dieses Projekt und alle anderen Projekte in derselben Discovery-Instanz.

Beispiel: Sie verfügen über zwei IBM Cloud Object Store-Gruppen in einem Projekt und zwei Salesforce-Gruppen und eine SharePoint Online-Gruppe in einem anderen Projekt. In diesem Beispiel beträgt die Gesamtzahl anderer Datenquellensammlungen 5.
Subtrahieren Sie die Anzahl anderer Datenquellensammlungen von der maximal zulässigen Anzahl von Crawlerverbindungen, die 500 beträgt.

Beispiel: 500-5 = 495
Multiplizieren Sie den Rest mit 5, um die Gesamtzahl der Start-URLs zu ermitteln, die Sie verwenden können.

Beispiel: 495 x 5 = 2.475.

Um die maximal zulässige Anzahl von Start-URLs im Beispiel zu verwenden, benötigen Sie 25 Web-Crawler-Gruppen, da jede Gruppe die Konfiguration von maximal 100 Start-URLs zulässt. Konfigurieren Sie Ihre Instanz jedoch nicht für die Verwendung der absoluten maximalen Anzahl. Wenn eine oder mehrere zusätzliche Datenquellen später einem Projekt in dieser Serviceinstanz hinzugefügt werden, wirkt sich dies auf die Anzahl der Start-URLs aus, die die Instanz erfolgreich durchsuchen kann.

Fehlerbehebung bei Crawlerproblemen

Es wird ein Fehler vom Typ "403 Verboten" zurückgegeben: Die Website, die Sie durchsuchen wollen, blockiert möglicherweise Anforderungen von allen benannten Entitäten außer einer bestimmten Gruppe von benannten Entitäten. Fügen Sie den Crawler nach Möglichkeit zur Zulassungsliste für die Site hinzu. Der identifizierende Header für den Crawler ist User-Agent: IBM-AppConnect/V1.