5.2. Umfangreiche Websites crawlen

keine Übungen · ca. 12 Minuten

Start > Online-Kurs > 5. Technische Grenzen & Ausblick > 5.2. Umfangreiche Websites crawlen

Wann ist eine Website groß?

Es gibt keine genaue Definition dafür, ab wann eine Website als groß oder umfangreich bezeichnet werden kann. Die Größe und Komplexität einer Website kann von verschiedenen Faktoren abhängen: Dazu gehört vor allem die Anzahl der Seiten, aber auch die Anzahl der Medieninhalte und die Verschachtelung der Site-Struktur (beispielsweise sichtbar in den Menüebenen der Navigation).

In Österreich ist die Unterscheidung zwischen großen und kleinen Websites gebräuchlicher, weil sich danach die verpflichtenden Angaben im Impressum richten. Hier werden große Websites als solche von der Wirtschaftskammer Österreich definiert, „wenn der Informationsgehalt über die Präsentation des Unternehmens hinausgeht und geeignet ist, die Meinungsbildung zu beeinflussen.“

Grundsätzlich gilt: Eine Website kann als groß betrachtet werden, wenn sie eine hohe Anzahl von Seiten und einer komplexen Site-Struktur aufweist, die schwieriger zu crawlen und zu optimieren sind. Als Richtwert wird in der Praxis häufiger die Schwelle von 10.000 Seiten genannt. Websites, die aus mehr Seiten bestehen, können auch im Rahmen eines technischen SEO-Audits als groß angesehen werden.

In Hinblick auf die Nutzung des Screaming Frog SEO Spiders ist es tatsächlich sehr relevant, vor einem Crawl einen Eindruck davon zu haben, wie komplex die zu untersuchende Website ist. Das Crawlen von Websites und das Sammeln der Daten ist ein speicherintensiver Prozess. Je mehr URLs Du crawlst, desto mehr Speicher wird für die Speicherung und Verarbeitung der Daten benötigt.

Wichtig: Seiten sind nicht gleichzusetzen mit URLs. Eine Website mit 10.000 Seiten besteht aus deutlich mehr als 10.000 URLs. Hinzu kommen Sitemaps, Skripte, CSS, Grafiken, PDFs, Videos und andere Dateien, die der SEO Spider über Verlinkungen erreichen kann.

Ressourcenverbrauch des SEO Spiders

Das Crawlen großer Websites kann sehr ressourcenintensiv sein und kann die Leistung des Computers beeinträchtigen. Es ist daher wichtig sicherzustellen, dass der Computer über ausreichend Ressourcen wie Speicher, Prozessorleistung und Netzwerkbandbreite verfügt, um den Crawlvorgang zu bewältigen.

Standardmäßig verwendet der SEO Spider den Arbeitsspeicher Deines Computers und nicht die Festplatte (RAM-Speicherung), um die Daten eines Crawls zu speichern und zu verarbeiten. Das ist normalerweise auch das beste Vorgehen, weil es erhebliche Geschwindigkeitsvorteile bietet. Leider ist diese Methode aber beim Crawling von Websites ungeeignet, die im Speicherbedarf den zur Verfügung stehenden Arbeitsspeicher übertreffen.

Der SEO Spider kann deswegen unterhalb von Konfiguration > System > Speichermodus so konfiguriert werden, dass die Crawl-Daten auf der Festplatte gespeichert werden. Dieser Speichermodus wird Datenbankspeicherung genannt. Screaming Frog empfiehlt für dieses Vorgehen die Verwendung einer SSD-Festplatte, da diese geringere Zugriffszeiten erlauben.

Zusätzlich kannst Du unter Konfiguration > System > Speicherzuweisung explizit Arbeitsspeicher zur Verwendung mit dem SEO Spider zuweisen.

Screaming Frog empfiehlt hier folgende Richtwerte:

  • Für Crawls bis zu ca. 2 Millionen URLs sollten bis zu 4 GB RAM zugewiesen werden
  • Für Crawls bis zu ca. 5 Millionen URLs sollten bis zu 8 GB RAM zugewiesen werden

Wichtig: Es ist nicht sinnvoll, dem Screaming Frog mehr Arbeitsspeicher als notwendig zuzuweisen. Dies beschleunigt den Crawl-Prozess nicht, verringert aber die Performance des Computers und lässt dann möglicherweise kein paralleles Arbeiten mehr zu.

Crawling-Geschwindigkeit

Gerade bei umfangreichen Crawls ist es verlockend, die Geschwindigkeit des SEO Spiders zu erhöhen. Dies kann jedoch dazu führen, dass die Website mit Requests überflutet wird, sodass es zu einer vorübergehenden oder sogar dauerhaften Sperrung der IP-Adresse des Crawlers durch den Server kommt. Alternativ kann der Server ggf. nicht mehr alle Anfragen schnell beantworten, sodass die Performance für echte Besucher schlechter ausfällt. Es ist wichtig, eine angemessene Crawling-Geschwindigkeit einzustellen, um eine Überlastung der Website zu vermeiden.

Das heißt auch, dass Du Zeit für das Durchlaufen eines komplexen Crawls einplanen musst: Das Crawlen einer Website mit einer Million URLs dauert bei einer Crawl-Rate von 5 URLs pro Sekunde etwas mehr als zwei Tage.

Crawl-Bereiche definieren

Weniger ist mehr: Dieses Motto gilt auch für das Crawlen komplexer Websites. Müssen tatsächlich alle URLs vom SEO Spider untersucht werden? In den meisten Fällen wir das nicht erforderlich sein. Weil gerade in Content-Management- und Shop-Systemen Seitentypen und Templates vorgeben, wie Inhalte ausgegeben werden, reicht es in vielen Fällen aus, nur Teilbereiche exemplarisch zu crawlen, um die Ergebnisse dann auch auf die anderen Bereiche der Website zu übertragen, die die gleichen Templates nutzen.

Eine andere Möglichkeit ist es, eine Website in Sektionen zu crawlen, denn Deine Ausgangs-URL im SEO Spider muss ja nicht immer die Homepage einer Website sein. Du kannst als Startpunkt auch einen Unterordner benennen. Dabei musst Du aber sicherstellen, dass Du unterhalb von Konfiguration > SEO-Spider im Tab Crawl das Crawlverhalten korrekt definierst und dort die Optionen Links außerhalb des Startordners prüfen und Crawl außerhalb des Startordners deaktivierst.

Wichtig: Damit der SEO Spider einen Unterordner als solchen erkennt, braucht es am Ende der URL den sogenannten Trailing Slash. Mit der Eingabe der URL https://missinglink.de/digital-insights würde der Unterordner Digital Insights nicht erkannt werden. Es braucht die korrekte Schreibweise https://missinglink.de/digital-insights/.

Zu sammelnde Daten definieren

Je mehr Daten gesammelt werden und je mehr gecrawlt wird, desto speicherintensiver wird es. Mache Deinen Crawl daher so „leicht“ wie möglich und sammle und speichere nur die Daten, die Du tatsächlich brauchst.

Einsparpotenziale gibt es in der Konfiguration des Crawls unter Konfiguration > SEO Spider im Tab Crawl. Deaktiviere wenn möglich:

  • Crawlen und Speichern von Bildern
  • Crawlen und Speichern von CSS
  • Crawlen und Speichern von JavaScript
  • Crawlen und Speichern externer Links
  • Crawlen und Speichern von Canonicals
  • Crawlen und Speichern von Paginierungen
  • Crawlen und Speichern von Hreflang
  • Crawlen und Speichern von AMP
  • JavaScript-Rendering (wenn es die technische Architektur der Website ermöglicht)

Zusätzlich empfehlenswert ist die Deaktivierung sämtlicher API-Anbindungen, die nicht explizit für die Auswertung benötigt werden.

Weitere Informationen
Bloofusion – Musst du rendern? Der Screaming Frog SEO Spider sagt es dir!

Letzte Aktualisierung: 11.05.2023

Du möchtest weiterlesen?

Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.

[ultimatemember form_id=“261″]