Crawler

Ein Crawler ist ein Computerprogramm, das automatisiert die Dokumente im Web durchsucht. Primär wird ein Crawler für sich wiederholende Aktionen programmiert, damit das Durchsuchen gänzlich automatisiert abläuft. Suchmaschinen setzen Crawler verstärkt ein, um das WWW zu durchsuchen und einen Index aufzubauen. Andere Crawler können unterschiedliche Arten von Informationen durchsuchen (RSS-Feeds, E-Mail Adressen uvm.) Der Begriff Crawler stammt von der ersten Suchmaschine für das Internet, dem Webcrawler. Synonym werden auch die Bezeichnungen „Bot“ oder „Spider“ verwendet.

Wie funktioniert ein Crawler?

Im Prinzip arbeitet ein Crawler ähnlich wie ein Bibliothekar. Er sucht nach Informationen im Web, die er bestimmten Kategorien zuordnet und anschließend indiziert bzw. katalogisiert, damit die gecrawlten Informationen abruf- und auswertbar sind. Während der Bibliothekar selbst bestimmt arbeitet und sich und seinem Team Aufgaben vorgibt, unterscheidet sich der Crawler davon. Denn er handelt nicht eigenständig.

Die Arbeitsschritte dieser Computerprogramme müssen vor Ablauf eines sogenannten Crawls festgelegt werden. Jeder Auftrag ist somit im Voraus definiert. Der Crawler selbst „arbeitet“ diese Vorgaben automatisch ab. Klassischerweise wird mit den Ergebnissen des Crawlers ein Index angelegt, auf den über eine Ausgabesoftware zugegriffen wird.

Welche Informationen ein Crawler aus dem Web bezieht, hängt von der jeweiligen Aufgabenstellung ab. Grafik welche die Linkbeziehungen visualisiert, die von einem Crawler aufgedeckt wurden:

Grafische Darstellung Crawler

Grafische Darstellung eines Crawlers (Quelle: neuroproductions.be)

crawler-01-1.png

Funkionsweise Web-Crawler

Einsatzgebiete

Das klassische Ziel eines Crawlers ist das Erstellen eines Index. Somit sind Webcrawler die Basis für die Arbeit von Suchmaschinen. Diese durchforsten zunächst das Web nach Inhalten, um die Ergebnisse anschließend für User verfügbar zu machen. Focused Crawler konzentrieren sich z.B. bei der Indizierung auf besonders aktuelle, themenrelevante Webseiten.

Doch Webcrawler werden auch für weitere Disziplinen eingesetzt:

  • Preisvergleichsportale suchen nach Informationen zu bestimmten Produkten im Web, damit Preise oder Daten genauer verglichen werden können.
  • Im Bereich des Data Mining kann ein Crawler z.B. öffentlich erreichbare E-Mail- oder Postadressen von Unternehmen sammeln.
  • Tools zur Webanalyse sammeln mit Hilfe von Crawlern bzw. Spidern Daten zur Seitenaufrufen oder zu eingehenden Links oder ausgehenden Links.
  • Crawler dienen dazu, Informationshubs mit Daten zu versorgen, z.B. Nachrichtenseiten.

Crawler vs. Scraper

Ein Crawler ist im Gegensatz zum Scraper lediglich ein Datensammler und bereitet diese Daten auf. Beim Scraping handelt es sich jedoch um eine Black Hat Technik, die darauf abzielt, Daten in Form von Content von anderen Seiten zu kopieren, um diese in gleicher oder leicht abgewandelter Form auf einer eigenen Website zu platzieren. Während ein Crawler demnach eher mit Meta-Informationen umgeht, die für den User auf den ersten Blick nicht sichtbar sind, greift der Scraper handfeste Inhalte ab.

Einen Crawler sperren

Wer nicht möchte, dass bestimmte Crawler seine Website durchsuchen, kann deren User Agents über die robots.txt ausschließen. Doch damit kann nicht verhindert werden, dass Inhalte durch Suchmaschinen indiziert werden. Hierfür eignet sich dann eher der noindex-Metatag oder der Canonical Tag.

Weblinks