Robots.txt Test Tool

Teste Deine Webinhalte auf Verfügbarkeit für Crawler.

URL eingeben

User-Agent auswählen

Die robots.txt Datei

Bei der robots.txt Datei handelt es sich um eine einfache Text-Datei, in der dem Googlebot die Information übermittelt wird, welche Bereiche einer Domain vom Crawler der Suchmaschine gecrawlt werden dürfen und welche nicht. Außerdem kann in der robots.txt Datei ein Verweis auf die XML-Sitemap aufgenommen werden.

Bevor der Suchmaschinenbot mit der Indexierung beginnt, sucht er zunächst im Root-Verzeichnis nach der robots.txt Datei und liest die enthaltenen Vorgaben aus. Dazu muss die Text-Datei im Root-Verzeichnis der Domain abgelegt sein und genau diesen Namen tragen: robots.txt.

allow/disallow

Die robots.txt kann einfach mithilfe eines Texteditors erstellt werden. Jede Datei setzt sich dabei aus zwei Blöcken zusammen. Zunächst wird angegeben, für welchen User Agent die Anweisung gelten soll, anschließend folgt dann der Befehl “Disallow”, nach dem die vom Crawling auszuschließenden URLs aufgelistet werden.

Bevor die robots.txt in das Root-Verzeichnis der Website hochgeladen wird, sollte der Nutzer stets ihre Korrektheit prüfen. Schon der kleinste Fehler kann dazu führen, dass der Bot die Vorgaben missachtet und möglicherweise Seiten einliest, die nicht im Suchmaschinenindex erscheinen sollen.

Mit diesem kostenlosen Tool von OnPage.org kannst Du Deine robots.txt Datei überprüfen. Hierzu musst Du einfach nur die entsprechende URL eingeben und den jeweiligen User Agent auswählen. Nach dem Klick auf “Prüfung starten” überprüft das Tool, ob das Crawling für Deine angegebene URL für den Bot erlaubt ist oder nicht. Mit Hilfe von OnPage.org FREE kannst Du Deine Webseite außerdem noch auf viele andere Faktoren hin untersuchen! Bis zu 100 URLs kannst Du mit OnPage.org FREE analysieren und optimieren. Hier kannst Du Dir jetzt Deinen FREE Account holen »

Robots.txt

Der einfachste Aufbau der robots.txt sieht folgendermaßen aus:

User-agent: *
Disallow:

Dieser Code bewirkt, dass der Googlebot alle Seiten crawlen darf. Um dem Bot das Crawlen der kompletten Webpräsenz zu verbieten, solltest Du folgende Angabe in Deine robots.txt Datei schreiben:

User-agent: *
Disallow: /

Beispiel: Möchtest Du, dass Dein Verzeichnis /info/ nicht vom Googlebot gecrawled wird, dann gib folgenden Befehl in der robots.txt Datei an:

User-agent: Googlebot
Disallow: /info/

Weitere Informationen zur robots.txt Datei findest Du hier:

Untersuche Deine komplette Domain nach Fehlern in der robots.txt Datei mit dem FREE Account von OnPage.org
Jetzt kostenlos ausprobieren!