3.1. Passwortgeschützte Websites & Entwicklungsumgebungen crawlen
1 Übung · ca. 14 Minuten
Nicht veröffentlichte Websites
Es gibt gute Gründe, ungebetene Besucher und Suchmaschinen-Crawler von einer Entwicklungsumgebung oder einem Staging-Server auszuschließen. Egal, wie das technisch umgesetzt wird: Die Sperre trifft dann zunächst auch den Crawler des Screaming Frog. Ein Dilemma, denn gerade vor einer anstehenden Veröffentlichung ist es besonders sinnvoll, mit dem SEO Spider auf Fehlersuche zu gehen.
Warum Suchmaschinen ausgesperrt werden
- Vermeidung von Duplikaten
Wenn Suchmaschinen-Crawler auf eine Staging-Website zugreifen, können sie möglicherweise Duplikate von Inhalten auf der Live-Site indexieren. Die Staging-URLs konkurrieren dann mit den Live-URLs. Die Live-Website wird kannibalisiert. - Vermeidung von unbeabsichtigten Indexierungen
Wenn Inhalte auf der Staging-Website noch nicht fertiggestellt oder genehmigt wurden, können sie noch nicht für die Öffentlichkeit bestimmt sein. Das Crawlen dieser Inhalte kann zu unbeabsichtigten Suchmaschinen-Indexierungen führen. - Schutz vertraulicher Daten
Eine Staging-Website kann möglicherweise vertrauliche Informationen oder Daten enthalten, die nicht für die Öffentlichkeit bestimmt sind.
Technische Methoden zum Ausschließen von Besuchern und Crawlern
Mit verschiedenen Methoden können Besucher und/oder Crawler von einer Website ausgeschlossen werden:
Methode | Ausschluss | Beschreibung |
---|---|---|
robots.txt | Crawler | In der robots.txt können Website-Betreiber Anweisungen an Crawler geben, welche Seiten oder Bereiche der Website sie crawlen dürfen. Die Datei kann so konfiguriert werden, dass bestimmte Seiten, Bereiche oder die gesamte Website ausgeschlossen werden. Besucher können die benannten Seiten dennoch aufrufen. Und: Nicht alle Crawler halten sich an die Direktiven in der robots.txt. |
IP-Adressen-Filterung durch Ausschließen | Besucher und Crawler | Durch die Filterung von IP-Adressen können Website-Betreiber den Zugriff auf ihre Website von bestimmten IP-Adressen blockieren. Damit ist es theoretisch möglich, den Zugriff von bekannten Crawlern oder anderen unerwünschten Besuchern zu verhindern. |
IP-Adressen-Filterung durch Einschließen | Besucher und Crawler | Die IP-Adressen-Filterung kann aber auch so eingerichtet werden, dass zunächst alle IP-Adressen blockiert werden und im Nachgang für Ausnahmen zur Zugriff erlaubt wird. |
User-Agent-Filterung | Besucher und Crawler | Website-Betreiber können bestimmte User-Agents blockieren. So könnten alle Google Chrome-User oder der Google-Bot blockiert werden. |
Passwortschutz | Besucher und Crawler | Durch die Vergabe von Benutzernamen und Passwörtern können Website-Betreiber den Zugriff auf ihre Website auf autorisierte Benutzer beschränken. |
Geo-Blocking | Besucher und Crawler | Durch die Verwendung von Geoblocking können Website-Betreiber den Zugriff auf ihre Website aus bestimmten Ländern oder Regionen blockieren. |
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.