3.1. Passwortgeschützte Websites & Entwicklungsumgebungen crawlen

1 Übung · ca. 14 Minuten

Start > Online-Kurs > 3. Erweiterte Anwendungen > 3.1. Passwortgeschützte Websites & Entwicklungsumgebungen crawlen

Nicht veröffentlichte Websites

Es gibt gute Gründe, ungebetene Besucher und Suchmaschinen-Crawler von einer Entwicklungsumgebung oder einem Staging-Server auszuschließen. Egal, wie das technisch umgesetzt wird: Die Sperre trifft dann zunächst auch den Crawler des Screaming Frog. Ein Dilemma, denn gerade vor einer anstehenden Veröffentlichung ist es besonders sinnvoll, mit dem SEO Spider auf Fehlersuche zu gehen.

Warum Suchmaschinen ausgesperrt werden

  • Vermeidung von Duplikaten
    Wenn Suchmaschinen-Crawler auf eine Staging-Website zugreifen, können sie möglicherweise Duplikate von Inhalten auf der Live-Site indexieren. Die Staging-URLs konkurrieren dann mit den Live-URLs. Die Live-Website wird kannibalisiert.

  • Vermeidung von unbeabsichtigten Indexierungen
    Wenn Inhalte auf der Staging-Website noch nicht fertiggestellt oder genehmigt wurden, können sie noch nicht für die Öffentlichkeit bestimmt sein. Das Crawlen dieser Inhalte kann zu unbeabsichtigten Suchmaschinen-Indexierungen führen.

  • Schutz vertraulicher Daten
    Eine Staging-Website kann möglicherweise vertrauliche Informationen oder Daten enthalten, die nicht für die Öffentlichkeit bestimmt sind.

Technische Methoden zum Ausschließen von Besuchern und Crawlern

Mit verschiedenen Methoden können Besucher und/oder Crawler von einer Website ausgeschlossen werden:

MethodeAusschlussBeschreibung
robots.txtCrawlerIn der robots.txt können Website-Betreiber Anweisungen an Crawler geben, welche Seiten oder Bereiche der Website sie crawlen dürfen. Die Datei kann so konfiguriert werden, dass bestimmte Seiten, Bereiche oder die gesamte Website ausgeschlossen werden.

Besucher können die benannten Seiten dennoch aufrufen. Und: Nicht alle Crawler halten sich an die Direktiven in der robots.txt.
IP-Adressen-Filterung durch AusschließenBesucher und CrawlerDurch die Filterung von IP-Adressen können Website-Betreiber den Zugriff auf ihre Website von bestimmten IP-Adressen blockieren. Damit ist es theoretisch möglich, den Zugriff von bekannten Crawlern oder anderen unerwünschten Besuchern zu verhindern.
IP-Adressen-Filterung durch EinschließenBesucher und CrawlerDie IP-Adressen-Filterung kann aber auch so eingerichtet werden, dass zunächst alle IP-Adressen blockiert werden und im Nachgang für Ausnahmen zur Zugriff erlaubt wird.
User-Agent-FilterungBesucher und CrawlerWebsite-Betreiber können bestimmte User-Agents blockieren. So könnten alle Google Chrome-User oder der Google-Bot blockiert werden.
PasswortschutzBesucher und CrawlerDurch die Vergabe von Benutzernamen und Passwörtern können Website-Betreiber den Zugriff auf ihre Website auf autorisierte Benutzer beschränken.
Geo-BlockingBesucher und CrawlerDurch die Verwendung von Geoblocking können Website-Betreiber den Zugriff auf ihre Website aus bestimmten Ländern oder Regionen blockieren.

Letzte Aktualisierung: 11.05.2023

Du möchtest weiterlesen?

Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.