3.1. Passwortgeschützte Websites & Entwicklungsumgebungen crawlen
1 Übung · ca. 14 Minuten
Nicht veröffentlichte Websites
Es gibt gute Gründe, ungebetene Besucher und Suchmaschinen-Crawler von einer Entwicklungsumgebung oder einem Staging-Server auszuschließen. Egal, wie das technisch umgesetzt wird: Die Sperre trifft dann zunächst auch den Crawler des Screaming Frog. Ein Dilemma, denn gerade vor einer anstehenden Veröffentlichung ist es besonders sinnvoll, mit dem SEO Spider auf Fehlersuche zu gehen.
Warum Suchmaschinen ausgesperrt werden
- Vermeidung von Duplikaten
Wenn Suchmaschinen-Crawler auf eine Staging-Website zugreifen, können sie möglicherweise Duplikate von Inhalten auf der Live-Site indexieren. Die Staging-URLs konkurrieren dann mit den Live-URLs. Die Live-Website wird kannibalisiert. - Vermeidung von unbeabsichtigten Indexierungen
Wenn Inhalte auf der Staging-Website noch nicht fertiggestellt oder genehmigt wurden, können sie noch nicht für die Öffentlichkeit bestimmt sein. Das Crawlen dieser Inhalte kann zu unbeabsichtigten Suchmaschinen-Indexierungen führen. - Schutz vertraulicher Daten
Eine Staging-Website kann möglicherweise vertrauliche Informationen oder Daten enthalten, die nicht für die Öffentlichkeit bestimmt sind.
Technische Methoden zum Ausschließen von Besuchern und Crawlern
Mit verschiedenen Methoden können Besucher und/oder Crawler von einer Website ausgeschlossen werden:
Methode | Ausschluss | Beschreibung |
---|---|---|
robots.txt | Crawler | In der robots.txt können Website-Betreiber Anweisungen an Crawler geben, welche Seiten oder Bereiche der Website sie crawlen dürfen. Die Datei kann so konfiguriert werden, dass bestimmte Seiten, Bereiche oder die gesamte Website ausgeschlossen werden. Besucher können die benannten Seiten dennoch aufrufen. Und: Nicht alle Crawler halten sich an die Direktiven in der robots.txt. |
IP-Adressen-Filterung durch Ausschließen | Besucher und Crawler | Durch die Filterung von IP-Adressen können Website-Betreiber den Zugriff auf ihre Website von bestimmten IP-Adressen blockieren. Damit ist es theoretisch möglich, den Zugriff von bekannten Crawlern oder anderen unerwünschten Besuchern zu verhindern. |
IP-Adressen-Filterung durch Einschließen | Besucher und Crawler | Die IP-Adressen-Filterung kann aber auch so eingerichtet werden, dass zunächst alle IP-Adressen blockiert werden und im Nachgang für Ausnahmen zur Zugriff erlaubt wird. |
User-Agent-Filterung | Besucher und Crawler | Website-Betreiber können bestimmte User-Agents blockieren. So könnten alle Google Chrome-User oder der Google-Bot blockiert werden. |
Passwortschutz | Besucher und Crawler | Durch die Vergabe von Benutzernamen und Passwörtern können Website-Betreiber den Zugriff auf ihre Website auf autorisierte Benutzer beschränken. |
Geo-Blocking | Besucher und Crawler | Durch die Verwendung von Geoblocking können Website-Betreiber den Zugriff auf ihre Website aus bestimmten Ländern oder Regionen blockieren. |
Websites trotz Sperr-Methoden crawlen
Das Umgehen der verschiedenen Methoden, die das Crawlen einer Website verhindern, erfordert unterschiedliche Ansätze und Konfigurationen im SEO Spider.
robots.txt
Eine robots.txt-Datei, die das Crawlen der gesamten Website für jeden Crawler verhindert, kann wie folgt aussehen:
User-agent: *
Disallow: /
In diesem Beispiel wird der User-Agent * (alle Crawler) angesprochen, und mit Disallow: /
wird mitgeteilt, dass der Zugriff auf die gesamte Website ab dem Stammverzeichnis verboten ist.
Standardmäßig folgt der SEO Spider den Direktiven der robots.txt. Du kannst aber auch die Konfiguration ändern und dafür sorgen, dass der SEO Spider die robots.txt nicht beachtet. Dazu wählst Du im Hauptmenü: Konfiguration > robots.txt > Einstellungen. Im nun angezeigten Fenster ändert Du die Auswahl oben auf robots.txt ignorieren.

IP-Adressen-Filterung
Für diese Methode gibt es leider keinen Lösungsweg innerhalb des Programms. Da der SEO Spider lokal von Deinem Rechner aus crawlt, hat er entsprechend auch die gleiche IP-Adresse, die Du ansonsten beim Zugriff auf das Internet verwendest.
Damit der Crawl einer IP-beschränkten Website gelingt, musst Du Deine IP-Adresse der Erlaubnisliste des Webservers (Whitelist) hinzufügen.
User-Agent-Filterung
Zugegeben, die User-Agent-Filterung ist kein sonderlich eleganter Weg, um eine Website gegen ungewollte Zugriffe zu schützen. Zum Einsatz kommt das Verfahren dennoch und kann umgangen werden, wenn Du den SEO Spider mit einem User-Agent crawlen lässt, den der Webserver nicht abweist. Das gehst Du im Hauptmenü auf Konfiguration > Benutzer-Agent und wählst dort entweder einen Crawler aus der Liste und erstellt eine eigene Kennung für HTTP-Anfragen.

Passwortschutz
Es wird empfohlen, Staging-Websites und öffentlich erreichbare Entwicklungsumgebungen mit einem Passwortschutz zu versehen. Dies ist der verlässlichste Weg, nur autorisierte Benutzer den Zugriff zu gewähren und Suchmaschinen davon abzuhalten, die URLs zu crawlen und indexieren.
Grundsätzlich gibt es zwei verschiedene Formen für einen Passwortschutz:
1. Passwortschutz per Webserver (Basic Authentication / Digest Access Authentication)
Wenn der Webserver einen Benutzernamen und ein Kennwort für den Zugriff erfordert (in der Regel über .htaccess realisiert), wird beim Aufruf einer geschützten Seite ein Popup eingeblendet. Hier wird um die Eingabe von Benutzername und Passwort gebeten.
Ist die zu untersuchende Website auf diese Weise geschützt, brauchst Du keine weiteren Anpassungen vornehmen. Wenn Du den Crawl der Website startest, bekommt Du – ebenso wie im Webbrowser – das Popup angezeigt und kannst nun gültige Zugangsdaten eintragen, die für die Dauer es Crawls dann gespeichert werden.
Wichtig: Im Voraus kannst Du die Anmeldedaten nicht hinterlegen. Das Popup zur Eingabe erscheint, wenn der SEO Spider beim Crawl auf eine Seite trifft, die über diese Methode geschützt wird.
Weitere Informationen
Wikipedia – HTTP-Authentifizierung
2. Passwortschutz per Webformular
Es gibt allerdings auch programmierte Passwortschutz-Lösungen. Bei dieser Methode wird der Benutzername und das Passwort über ein Webformular abgefragt und anschließend in einem Cookie gespeichert.
Der SEO Spider ermöglicht es in der kostenpflichtigen Version, auch solche Websites zu crawlen. Dazu kann ein notwendiges Anmeldeformular im integrierten Chrome-Browser des SEO Spiders geöffnet, ausgefüllt und abgeschickt werden.
Öffne hierfür im Hauptmenü das Fenster unter Konfiguration > Authentifizierung. Im Tab Formularbasiert klickst Du auf Hinzufügen und kannst nun zuerst eine URL eingeben. Diese wird dann im internen Chrome-Browser geöffnet. Du bedienst die Website darin wie ein normaler Benutzer und gibst Benutzernamen und Passwort an.

Wichtig: Aus gutem Grund wird im SEO Spider deutlich davor gewarnt, dass bei einem Crawl jedem anklickbaren Link gefolgt wird. Wenn Du beispielsweise das Backend eines Content-Management-Systems mit den Rechten eines Admin-User crawlen lässt, hätte das fatale Folgen. Der SEO Spider könnte so auch Links verfolgen, mit denen Seiten neu angelegt, kopiert oder gelöscht werden.
Beim Crawl einer WordPress-Website ist für angemeldete Benutzer mit Bearbeitungsrechten häufig eine Navigationsleiste oberhalb der eigenen Seite sichtbar, in der sich direkte Links ins Backend finden.
Aus Sicherheitsgründen gilt: Dem SEO Spider nie Adminrechte geben – auch wenn auf den ersten Blick gar keine Verlinkung vom Frontend zum Backend existiert. Best Practice: Für den SEO Spider einen eigenen Zugang für die Website anlegen, der nur mit Leseberechtigungen ausgestattet wird.
Geo-Blocking
Du findest in diesem Modul eine eigene Lektion dazu, wie Du mit dem Screaming Frog SEO Spider geo-basierte Weiterleitungen einer Website umgehen kannst.
Erreichbarkeit über Hosts-Datei
Eine Hosts-Datei ist eine Datei auf einem Computer, die Domainnamen mit IP-Adressen verknüpft. Wenn Du eine Website besucht, verwendet Dein Computer normalerweise das Domain Name System (DNS), um die IP-Adresse der Website zu finden. Die Hosts-Datei ermöglicht es Dir jedoch, eine bestimmte IP-Adresse für eine bestimmte Domain zu definieren, unabhängig davon, was das DNS empfiehlt.
Die Hosts-Datei wird oft für Entwicklungsumgebungen verwendet, um die Verbindung zu einer lokalen Version einer Website oder Anwendung herzustellen, anstatt die öffentliche Version auf einem weltweit erreichbaren Server zu verwenden. Dies wird oft als lokale Entwicklung bezeichnet.
Lokale Entwicklungsumgebungen sind nützlich, um den Arbeitsstand einer Website oder Anwendung zu testen, bevor sie auf einem öffentlichen Server bereitgestellt wird. Durch die Verwendung der Hosts-Datei kann dabei trotzdem mit den finalen URLs gearbeitet werden.
Wenn Du Deine eigene Hosts-Datei so änderst, dass eine lokale Website angezeigt wird, greift auch der SEO Spider auf diese lokale Version bei einem Crawl von diesem Rechner aus zu.
Übung zum Crawlen passwortgeschützter Websites & Entwicklungsumgebungen
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.
[ultimatemember form_id=“261″]