2.1. robots.txt testen
1 Übung · ca. 13 Minuten
Spielregeln für Webcrawler
Vielleicht sagt Dir Begriff Robots-Exclusion-Standard-Protokoll nichts, aber sicher kennst Du dessen wichtigstes Resultat: die robots.txt. Eine solche Textdatei im Stammverzeichnis einer Domain erlaubt es Website-Betreibern festzulegen, ob und wie Webcrawler die eigene Webseite besuchen dürfen.
Als Crawler, Spider oder Robot werden in diesem Zusammenhang Programme bezeichnet, die automatisiert Website-Aufrufe durchführen. Dazu gehört natürlich der SEO Spider selbst, aber auch die Webcrawler der Suchmaschinen, die eine Website nach indexierbaren Inhalten durchsuchen.
Das Robots-Exclusion-Standard-Protokoll gibt eine einheitliche Sprache vor. Mit ihr wird in der robots.txt kommuniziert, wie sich die besuchenden Crawler auf der Website verhalten sollen. Seriöse Betreiber von Suchdiensten und anderer Crawler haben sich darauf verständigt, dass der Besuch ihrer Bots immer genau an dieser Stelle beginnt. Wird auf dem Webserver jedoch keine robots.txt gefunden, ist das ein Freifahrtschein für alle Crawler: Was erreichbar ist, wird besucht.
Das Protokoll erfordert ein kooperatives Verhalten der Webcrawler. Will ein Webmaster sicherstellen, dass Inhalte geheim bleiben und nicht im Index einer Suchmaschine auftauchen oder Unbefugte zuverlässig vom Besuch einer Seite oder eines Verzeichnisses abgehalten werden, reicht der Ausschluss in der robots.txt nicht aus.
Weitere Informationen
Wikipedia – Robots Exclusion Standard
Das Format der robots.txt
Die Datei robots.txt ist eine Textdatei und kann auch händisch im Webbrowser betrachtet werden:
https://die-domain.de/robots.txt
In der Datei finden sich pro Zeile zwei Felder, die durch einen Doppelpunkt getrennt sind. Die Angaben erfolgen in Absätzen, in denen zu Beginn beschrieben wird, für welchen Spider die folgenden Anweisungen gelten.
User-agent: Googlebot
Einzeilige, mit einer Raute beginnende Kommentare dienen der Nachvollziehbarkeit beim Nachlesen der Regeln. Sie werden jedoch von den Webcrawlern übersprungen.
# Anweisungen für den Googlebot
User-agent: Googlebot
Nach Nennung des betreffenden Crawlers wird in weiteren Zeilen festgelegt, welche Bereiche der Website ihm explizit erlaubt (Allow) oder verboten (Disallow) werden.
User-agent: *
Disallow: /index.html
Diese Anweisung gilt durch das Sternchen für alle Crawler und besagt, dass das Crawlen der URL index.html im Stammverzeichnis der Domain nicht erlaubt ist.
Es darf beliebig viele Absätze mit Anweisungen für einzelne Crawler in der Datei geben. Alle Webcrawler lesen die Datei von oben nach unten und überspringen dabei die Blöcke, die sich nicht auf sie beziehen.
# Allgemeingültige Anweisungen für alle Crawler
User-agent: *
Disallow: *?fcid*
# Anweisungen für den Googlebot
User-agent: Googlebot
Allow: *?fcid*
# Anweisungen für den Bingbot
User-agent: Bingbot
Allow: *?fcid*
Dieses Beispiel enthält zuerst einmal widersprüchliche Angaben. Das Crawlen aller URLs mit dem URL-Parameter fcid
wird zunächst allen Crawlern verboten. Im Nachgang wird das Crawlen dieser URLs dann aber explizit für den Googlebot und den Bingbot erlaubt.
Wenn Direktiven sowohl für alle als auch für bestimmte User-Agents angegeben werden, werden die allgemeingültigen Anweisungen vom spezifischen Crawler ignoriert, für den eigene Richtlinien existieren.
Werden innerhalb eines Absatzes für einen Crawler widersprüchliche Direktiven ausgesprochen, schlägt eine passende allow-Direktive eine passende disallow-Direktive – wenn sie aus gleich vielen oder mehr Zeichen besteht.
Wichtig: Wenn Du im letztgenannten Beispiel mit dem Screaming Frog SEO Spider einen Crawl startest, wird er ebenfalls durch die Direktiven ausgeschlossen. Um das zu umgehen, kannst Du den SEO Spider so konfigurieren, dass er den Direktiven der robots.txt nicht mehr folgt. Alternativ kannst Du den Crawler aber auch mit einem fremden User-Agent maskieren – so dass er sich gegenüber der Website beispielsweise als Google- oder Bingbot ausgibt.
Ergänzend zu den Crawler-Direktiven kann in der robots.txt außerdem der Link zur XML-Sitemap der Website hinterlegt werden:
Sitemap: https://www.die-domain.de/sitemap.xml
Welche URLs dürfen gecrawlt werden?
Auf den ersten Blick wirkt eine solche robots.txt recht einfach und strukturiert. je mehr Crawler und zugehörige Direktiven aber aufgeführt werden, desto unübersichtlicher wird es. Dann wird es schnell zum Problem, auf den ersten Blick erkennen zu können, ob für eine bestimmte URL das Crawlen erlaubt oder verboten ist. Werden versehentlich URLs für die wichtigsten Suchmaschinen-Bots ausgeschlossen, kann das enorme Auswirkungen auf die Sichtbarkeit in den Ergebnissen dieser Suchdienste haben.
Im Screaming Frog SEO Spider gibt es zwei verschiedene Möglichkeiten, die Direktiven zu testen. Es kann sowohl die robots.txt einer öffentlich erreichbaren Website getestet werden als auch eine individuelle robots.txt für einen Test hochgeladen werden. Du lernst nun beide Verfahren kennen.
Das Testen einer aktiven robots.txt
Wenn Du einen Crawl für eine Website durchlaufen lässt, erhältst Du auch einen Hinweis, wenn eine URL durch die robots.txt blockiert wurde. Eine vollständige Liste findest Du dann in der URL-Übersicht im Tab Antwort-Codes. Dort kann der Filter auf Von robots.txt gesperrt angewandt werden und nachfolgend um den Filter intern oder extern ergänzt werden.

Ist der Filter Blockiert durch Robots.txt gesetzt, zeigt die Spalte Passende Robots.txt-Zeile die Zeilennummer und den Verbots-Pfad der Direktive an, die die jeweilige URL im Crawl ausschließt.
Wenn Du zusätzlich wissen möchtest, wie der Spider auf die von der robots.txt ausgeschlossene URL gekommen ist, wählst Du die URL oben in der URL-Übersicht aus und schaust Dir im unteren URL-Details-Fenster im Tab Inlinks an, wo Verlinkungen existieren.
Das Testen einer nicht veröffentlichten robots.txt
In der kostenpflichtigen Version ist es außerdem unter Konfiguration > robots.txt > Benutzerdefiniert möglich, die robots.txt einer Website herunterzuladen, zu bearbeiten und anschließend für einzelne URLs zu testen.Wird eine URL durch eine Direktive blockiert, so wird die entsprechende Zeile farblich hervorgehoben.

Für welchen Crawler gerade geprüft wird, definierst Du im Hauptmenü unter Konfiguration > Benutzer-Agent im Feld Robots-Benutzer-Agent.

Wichtig: Deine Änderungen im SEO Spider haben keinen Einfluss auf die Live-Version des Webservers. Ein Upload ist über den Screaming Frog nicht möglich.
robots.txt vs. noindex-Angaben
URLs, die durch die robots.txt blockiert werden, können dennoch in den Suchergebnissen von Google, Bing und anderen auftauchen. Nämlich dann, wenn sie intern oder extern verlinkt sind. Das ist so, weil zwischen dem Crawlen und dem Indexieren unterschieden werden muss. Das Crawlen einer Seite kann durch die robots.txt unterbunden werden, das Indexieren auf der jeweiligen Seite per Angabe von noindex
im Meta-Tag Robots.
Das bedeutet, dass der Block-Eintrag in der robots.txt lediglich verhindert, dass die Crawler den Inhalt der Seite lesen den dort vorhandenen Links folgen. Erst mit einem Meta-Tag noindex
auf der entsprechenden URL wird verhindert, dass ein Inhalt im Index der Suchmaschinen erscheint.
<meta name="robots" content="noindex">
Weitere Informationen
Google Search Central – Aufnahme in den Suchindex mithilfe von noindex blockieren
SEO Südwest – ‚Noindex‘ oder robots.txt
Übung zum Testen der robots.txt
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.
[ultimatemember form_id=“261″]