5.3. Serverlimitierungen beachten
keine Übungen · ca. 6 Minuten
Was kann schon schiefgehen?
Mal eben einen Crawl im SEO Spider starten, das klingt nach den vorangegangenen Lektionen gar nicht mehr so kompliziert. In manchen Fällen kommt es aber zu unerwarteten Problemen. Ein Crawl bricht unerwartet ab, es werden ungewöhnliche Antwort-Codes des Webservers aufgelistet oder nur eine Teilmenge der erwarteten URLs wird gecrawlt?
In dieser Lektion bekommst Du nochmal einen kurzen Überblick über die typischen Ursachen, die zu Crawlingfehlern führen.
Wenn Spider ausgeschlossen werden
Website-Betreiber haben meist kein Interesse daran, dass ihre Seiten von Crawlern aufgerufen werden, die nicht zu einer Suchmaschine gehören. Daher gibt es durchaus restriktive Server-Direktiven, die sich dann in der robots.txt wiederfinden. Typisch ist beispielsweise, nur den Bots von Google und Bing das Crawlen von Inhalten zu erlauben.
Bei dem Versuch, die Website www.jungheinrich.de mit dem SEO Spider in seinen Standardeinstellungen zu crawlen, sieht das Ergebnis wie folgt aus:

Die Webserver unterbindet in der robots.txt das Crawlen für alle Bots, die nicht der Google- oder Bing-Bot sind. Die robots.txt ist jedoch kein technischer Sperrmechanismus. Die Direktiven sind für die Crawler unverbindlich und können auch ignoriert werden. Der SEO Spider befolgt standardmäßig die Anweisungen in der robots.txt. Dieses Verhalten kannst Du aber manuell über das Hauptmenü ändern: Konfiguration > robots.txt > Einstellungen.

Alternativ kannst Du den SEO Spider auch unter falscher Flagge auf einen Webserver schicken und sich beispielsweise mit dem User-Agent als Google-Bot ausgeben lassen.
Wichtig: Wenn es sich nicht um Deine eigene Website handelt, stellt die Missachtung der Direktiven ggf. einen Verstoß gegen die Nutzungsbestimmungen dar und sollte unterlassen werden, wenn keine explizite Genehmigung dafür vorliegt.
Crawling als Stresstest für Webserver
Fast alle Webserver definieren ein Limit für die Anzahl der HTTP-Requests, die von einer IP-Adresse innerhalb eines bestimmten Zeitraums akzeptiert werden. Wenn dieses Limit überschritten wird, kann es zu einer Blockierung oder Einschränkung der jeweiligen IP-Adresse kommen.
Gelingt es einem Webserver nicht, die Anzahl paralleler Requests zu begrenzen, kann ein intensiver Crawl in zu kurzen Intervallen einen ungewollten Stresstest für den Webserver bewirken. In der Praxis sind tatsächlich Fälle bekannt, in denen der Crawl mit dem SEO Spider unbeabsichtigt zu einer Art Denial-of-Service-Attacke wurde. Es ist daher wichtig, sich vorab zu versichern, dass durch den Einsatz des SEO Spiders kein Schaden entsteht und die eingestellte Crawling-Geschwindigkeit vom Webserver zu verarbeiten ist.
Weitere Informationen
BSI – Denial-of-Service-Attacken
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.
[ultimatemember form_id=“261″]