Web Crawler Strategie

Überblick

Beim Aufbau eines Web-Crawlers ist es zunächst erforderlich, kontinuierlich verschiedene URLs abzurufen und in die Warteschlange der zu crawlenen Seiten zu speichern. Anschließend werden diese URLs mit dem Downloader heruntergeladen, die gecrawlten Seiten werden im Webseitenarchiv gespeichert, um auf Indexierung zu warten, dabei wird auch eine Kopie in der Liste der abgerufenen URLs gespeichert, um doppeltes Crawlen zu vermeiden.

Crawl-Strategie

Es gibt verschiedene Auswahlmöglichkeiten für die Strategien zum Crawlen von unterschiedlichen Webseiten:

  • Breitensuche:Fügen Sie die in den heruntergeladenen Seiten enthaltenen Links direkt am Ende der zu crawelnden URLs hinzu.
  • Tiefensuche:Zuerst alle Links einer Seite crawlen, dann jeden Link nacheinander tiefgründig crawlen, bis abgeschlossen.

Der Kern dieser Strategien liegt darin, wichtige Seiten zuerst zu crawlen, anstatt die Webseite einfach nur zu überqueren.

PageRank-Algorithmus

Der PageRank-Algorithmus ist ein Algorithmus zur Messung der Bedeutung von Webseiten, hauptsächlich berücksichtigt er die Anzahl und Qualität der eingehenden Links. Jedoch kann der PageRank-Score während des Crawlvorgangs nicht vollständig berechnet werden. Daher wird bei der Entscheidung, welche Seiten priorisiert gecrawlt werden sollen, sowohl die bereits heruntergeladene Seite als auch die Seiten in der Warteschlange ganzheitlich berücksichtigt, um am Ende die Seiten mit hoher Bedeutung bevorzugt zu crawlen.

OPIC-Strategie

OPIC ist eine Weiterentwicklung von PageRank, d. h. eine Echtzeitberechnung der Seitenrelevanz. Der Hauptmerkmal ist die Echtzeitberechnung der Seitenrelevanz. Es werden zunächst allen URLs Startwerte zugewiesen, dann wird die Relevanz der heruntergeladenen Seiten auf die Links innerhalb dieser Seiten aufgeteilt und der Seitenwert wird gelöscht. Anschließend werden die URLs in der Abruffliste priorisiert abhängig von ihrer Relevanz abgerufen.

Große Seiten-Prioritätsstrategie

Basierend auf der Klassifizierung der URLs in der Abruffliste und der Domainebene wird entschieden, welche Websites zuerst abgerufen werden sollen. Es kann je nach Situation unterschiedliche Kriterien geben, um große Seiten zu identifizieren.