2.1. robots.txt testen
1 Übung · ca. 13 Minuten
Spielregeln für Webcrawler
Vielleicht sagt Dir Begriff Robots-Exclusion-Standard-Protokoll nichts, aber sicher kennst Du dessen wichtigstes Resultat: die robots.txt. Eine solche Textdatei im Stammverzeichnis einer Domain erlaubt es Website-Betreibern festzulegen, ob und wie Webcrawler die eigene Webseite besuchen dürfen.
Als Crawler, Spider oder Robot werden in diesem Zusammenhang Programme bezeichnet, die automatisiert Website-Aufrufe durchführen. Dazu gehört natürlich der SEO Spider selbst, aber auch die Webcrawler der Suchmaschinen, die eine Website nach indexierbaren Inhalten durchsuchen.
Das Robots-Exclusion-Standard-Protokoll gibt eine einheitliche Sprache vor. Mit ihr wird in der robots.txt kommuniziert, wie sich die besuchenden Crawler auf der Website verhalten sollen. Seriöse Betreiber von Suchdiensten und anderer Crawler haben sich darauf verständigt, dass der Besuch ihrer Bots immer genau an dieser Stelle beginnt. Wird auf dem Webserver jedoch keine robots.txt gefunden, ist das ein Freifahrtschein für alle Crawler: Was erreichbar ist, wird besucht.
Das Protokoll erfordert ein kooperatives Verhalten der Webcrawler. Will ein Webmaster sicherstellen, dass Inhalte geheim bleiben und nicht im Index einer Suchmaschine auftauchen oder Unbefugte zuverlässig vom Besuch einer Seite oder eines Verzeichnisses abgehalten werden, reicht der Ausschluss in der robots.txt nicht aus.
Weitere Informationen
Wikipedia – Robots Exclusion Standard
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.