Was ist ein Web-Crawler/Spider und wie funktioniert er?
Suchmaschinen wie Google sind ein Teil dessen, was das Internet so mächtig macht. Mit wenigen Tastendrücken und einem Klick auf eine Schaltfläche erscheinen die relevantesten Antworten auf Ihre Frage. Aber haben Sie sich jemals gefragt, wie Suchmaschinen funktionieren? Webcrawler sind ein Teil der Antwort.
Was ist ein Webcrawler und wie funktioniert er?
Was ist ein Web-Crawler?
Wenn Sie in einer Suchmaschine nach etwas suchen, muss die Suchmaschine Millionen (oder Milliarden) von Webseiten schnell durchsuchen, um die relevantesten Ergebnisse anzuzeigen. Webcrawler (auch bekannt als Spider oder Suchmaschinen-Bots) sind automatisierte Programme, die das Internet „crawlen“ und Informationen über Webseiten auf leicht zugängliche Weise zusammenstellen.
Das Wort „Crawling“ bezieht sich auf die Art und Weise, wie Webcrawler das Internet durchsuchen. Webcrawler werden auch als „Spinnen“ bezeichnet. Dieser Name kommt von der Art und Weise, wie sie das Netz durchsuchen – wie zum Beispiel, wie Spinnen in ihren Spinnennetzen kriechen.
Webcrawler werten und sammeln Daten auf möglichst vielen Webseiten. Sie tun dies, damit die Daten leicht zugänglich und durchsuchbar sind, weshalb sie für Suchmaschinen so wichtig sind.
Stellen Sie sich einen Webcrawler als den Herausgeber vor, der den Index am Ende des Buches erstellt. Die Aufgabe des Index ist es, dem Leser mitzuteilen, wo im Buch jedes Schlüsselthema oder jede Schlüsselphrase auftaucht. Ebenso erstellt ein Webcrawler einen Index, den eine Suchmaschine verwendet, um schnell relevante Informationen zu einer Suchanfrage zu finden.
Was ist Suchindexierung?
Wie bereits erwähnt, ist die Suchindexierung vergleichbar mit der Zusammenstellung des Index am Ende eines Buches. In gewisser Weise ist die Suchindexierung wie das Erstellen einer vereinfachten Karte des Internets. Wenn jemand einer Suchmaschine eine Frage stellt, durchsucht die Suchmaschine ihren Index und die relevantesten Seiten erscheinen zuerst.
Aber woher weiß die Suchmaschine, welche Seiten relevant sind?
Die Suchindexierung konzentriert sich hauptsächlich auf zwei Dinge: den Text auf der Seite und die Metadaten der Seite. Der Text ist alles, was Sie als Leser sehen, während die Metadaten Informationen über diese Seiteneingaben des Seitenerstellers sind, die als "Meta-Tags" bekannt sind. Die Meta-Tags enthalten Dinge wie die Seitenbeschreibung und den Meta-Titel, die in den Suchergebnissen erscheinen.
Suchmaschinen wie Google indizieren den gesamten Text einer Webseite (mit Ausnahme bestimmter Wörter wie „the“ und „a“ in einigen Fällen). Wenn dann ein Begriff in der Suchmaschine gesucht wird, durchsucht diese schnell den Index nach der relevantesten Seite.
Wie funktioniert ein Web-Crawler?
Ein Webcrawler funktioniert wie der Name schon sagt. Sie beginnen bei einer bekannten Webseite oder URL und indizieren jede Seite unter dieser URL (meistens fordern Website-Besitzer Suchmaschinen auf, bestimmte URLs zu crawlen). Wenn sie auf diesen Seiten auf Hyperlinks stoßen, stellen sie eine „To-Do“-Liste mit Seiten zusammen, die sie als nächstes durchsuchen. Der Webcrawler setzt dies auf unbestimmte Zeit fort und befolgt dabei bestimmte Regeln, welche Seiten gecrawlt und welche ignoriert werden sollen.
Webcrawler crawlen nicht jede Seite im Internet. Tatsächlich wird geschätzt, dass nur 40-70% des Internets suchindexiert sind (was immer noch Milliarden von Seiten ausmacht). Viele Webcrawler sind so konzipiert, dass sie sich auf Seiten konzentrieren, die als „autoritativer“ gelten. Maßgebliche Seiten erfüllen eine Handvoll Kriterien, die es wahrscheinlicher machen, dass sie hochwertige oder beliebte Informationen enthalten. Webcrawler müssen auch Seiten ständig erneut besuchen, wenn sie aktualisiert, entfernt oder verschoben werden.
Ein letzter Faktor, der steuert, welche Seiten ein Webcrawler crawlt, ist das robots.txt-Protokoll oder das Robots-Ausschlussprotokoll. Der Server einer Webseite hostet eine robots.txt-Datei, die die Regeln für jeden Webcrawler oder andere Programme festlegt, die auf die Seite zugreifen. Die Datei schließt aus, dass bestimmte Seiten gecrawlt werden und welchen Links der Crawler folgen kann. Ein Zweck der Datei robots.txt besteht darin, die Belastung des Servers der Website durch Bots zu begrenzen.
Um zu verhindern, dass ein Webcrawler auf bestimmte Seiten Ihrer Website zugreift, können Sie das Tag „disallow“ über die Datei robots.txt hinzufügen oder der betreffenden Seite das Meta-Tag noindex hinzufügen.
Was ist der Unterschied zwischen Crawling und Scraping?
Web Scraping ist die Verwendung von Bots zum Herunterladen von Daten von einer Website ohne die Erlaubnis dieser Website. Web-Scraping wird oft aus böswilligen Gründen verwendet. Beim Web-Scraping wird oft der gesamte HTML-Code von bestimmten Websites verwendet, und fortgeschrittenere Scraper übernehmen auch die CSS- und JavaScript-Elemente. Web-Scraping-Tools können verwendet werden, um schnell und einfach Informationen zu bestimmten Themen zusammenzustellen (zB eine Produktliste), können aber auch in graue und illegale Gebiete vordringen .
Web-Crawling hingegen ist das Indizieren von Informationen auf Websites mit Erlaubnis, damit diese problemlos in Suchmaschinen auftauchen können.
Beispiele für Web-Crawler
Jede große Suchmaschine hat einen oder mehrere Webcrawler. Zum Beispiel:
- Google hat Googlebot
- Bing hat Bingbot
- DuckDuckGo hat DuckDuckBot.
Größere Suchmaschinen wie Google haben spezifische Bots für verschiedene Schwerpunkte, darunter Googlebot Images, Googlebot Videos und AdsBot.
Wie wirkt sich Web-Crawling auf SEO aus?
Wenn Ihre Seite in den Suchmaschinenergebnissen erscheinen soll, muss die Seite für Webcrawler zugänglich sein. Abhängig von Ihrem Website-Server möchten Sie möglicherweise eine bestimmte Crawling-Frequenz zuweisen, welche Seiten der Crawler scannen und wie viel Druck er auf Ihren Server ausüben kann.
Grundsätzlich möchten Sie, dass die Webcrawler sich auf Seiten mit Inhalten konzentrieren, aber nicht auf Seiten wie Dankesnachrichten, Admin-Seiten und internen Suchergebnissen.
Informationen zur Hand
Die Verwendung von Suchmaschinen ist für die meisten von uns zur zweiten Natur geworden, doch die meisten von uns haben keine Ahnung, wie sie funktionieren. Webcrawler sind einer der Hauptbestandteile einer effektiven Suchmaschine und indizieren jeden Tag effektiv Informationen über Millionen wichtiger Websites. Sie sind ein unschätzbares Werkzeug für Website-Besitzer, Besucher und Suchmaschinen gleichermaßen.