3.3. Automatisierte & geplante Crawls
1 Übung · ca. 10 Minuten
Zeitsteuerung für Crawls
Es gibt gute Gründe dafür, den Crawl einer Website nicht durchzuführen, wenn Du gerade an Deinem Computer sitzt: Immer dann, wenn sich die Dauer eines Crawls in die Länge zieht und Berechnungen und Speichervorgänge im SEO Spider laufen, die ein Arbeiten parallel zum laufenden Crawl unmöglich machen.
In solchen Fällen kannst Du Dich dafür entscheiden, die Durchführung eines Crawls für einen späteren Zeitpunkt zu planen. Interessant ist das vor allem, wenn eine oder mehrere Voraussetzungen erfüllt sind:
- Große Website mit sehr vielen URLs
- Umfangreicher Quellcode
- Viele interne und/oder externe Links
- Nutzung des JavaScript-Rendering-Modus
- Speichern von Dateien (robots.txt, CSS, Bilder, PDFs, ursprüngliches HTML, gerendertes HTML, Screenshots)
- Ausführender Computer mit geringem Arbeitsspeicher
- Leistungsschwacher/limitierender Webserver, für den die Crawling-Geschwindigkeit gedrosselt werden muss
So planst Du einen Crawl
Du kannst mit der kostenpflichtigen Version des SEO Spiders zwei verschiedene Arten von Crawls planen, die dann später automatisch innerhalb des Programms ausgeführt werden:
- Einmalige Crawls zu einem bestimmten Zeitpunkt
- Wiederholende Crawls in bestimmten Abständen
Die Einstellungen dazu findest Du im Hauptmenü unter Datei > Planung.

In diesem Fenster klickst Du auf Hinzufügen.
Allgemein
Anschließend kannst Du im Tab Allgemein einen Namen für die Aufgabe (den Crawl) und das zugehörige Projekt vergeben und eine Beschreibung hinzufügen. Der wichtigste Punkt folgt dann: Du bestimmt auf die Minute genau, wann Dein Crawl gestartet wird und in welchem Intervall eine Wiederholung stattfinden soll: Einmal, täglich, wöchentlich, monatlich.

Startoptionen
Im Tab Startoptionen triffst Du beim Crawlmodus zunächst die Entscheidung, ob eine hinterlegte URL-Liste oder eine Website beginnend von einer zu definierenden Startseite (Crawlstart) gecrawlt werden soll.

Idealerweise legst Du für diesen Crawl eine eigene Konfigurationsdatei ab. Darin gibt Du die wichtigsten Parameter mit. Du definierst dadurch unter anderem Antworten auf folgende Fragen: Soll das JavaScript-Rendering verwendet? Soll die robots.txt ignoriert werden? Wird die XML-Sitemap ausgelesen? In welcher Geschwindigkeit darf der SEO Spider crawlen?
Weitere Informationen
Screaming Frog – Configuration
Anbindungen an externe Tools
Im Tab API kann eine Verbindung zu externen Tools hergestellt werden. Über die Möglichkeiten, die der SEO Spider in Verbindung mit anderen Diensten bietet, erfährst Du mehr in Modul 4.
Export
In diesem Tab kannst Du wählen, ob die Crawl-Datei automatisch gespeichert, eine XML-Sitemap erstellt oder ausgewählte Daten exportiert werden sollen. Das Speichern ist sowohl lokal als auch in einem Google-Drive möglich.
Entscheidend für die Nutzung der Exportfunktionen ist, dass Du die Option im Hintergrund (für den Export erforderlich) aktivierst. Damit bestätigst Du, dass der geplante Crawl im sogenannten Headless-Modus ausgeführt wird.

Im Headless-Modus verrichtet der SEO Spider seine Aufgaben im Hintergrund, ohne eine Benutzeroberfläche zu zeigen. Damit wird verhindert, dass ein Benutzer versehentlich in den Crawl eingreift oder auf andere Weise mit dem Programm zur Laufzeit interagiert.
Wichtig: Wenn Du für einen Crawl den Datenbankspeichermodus verwendest, ist es nicht notwendig, den Crawl nochmal gesondert abzuspeichern. Er steht Dir automatisch in der internen Datenbank des SEO Spiders zur Verfügung.
Für jeden geplanten Crawl wird eine neue Instanz des SEO Spider gestartet. Wenn Du zu dem Zeitpunkt händisch einen Crawl mit dem SEO Spider durchführst, zu dem ein geplanter Crawl starten soll, so wird er parallel ausgeführt und landet nicht etwa in einer Warteschlange. Das kann Deine Systemressourcen stark beanspruchen und sollte eher vermieden werden.
Voraussetzungen für automatisierte Crawls
Voraussetzung | Beschreibung |
---|---|
Lizenz | Die Planung von Crawls ist nur in der kostenpflichtigen Version von Screaming Frog verfügbar. |
Einstellungen | Die Einstellungen für den zeitgesteuerten Crawl müssen korrekt eingerichtet werden. Dazu gehören die Startzeit, die Häufigkeit des Crawls und die URLs oder der Pfad, den der Crawler durchsuchen soll. |
Internetverbindung | Der SEO Spider muss zum geplanten Zeitpunkt über die gesamte Laufzeit des Crawls in der Lage sein, auf das Internet zuzugreifen, um die gewünschten Seiten zu crawlen. |
Systemressourcen | Das Programm benötigt eine ausreichende Menge an Speicherplatz, um die gecrawlten Daten zu speichern. |
Sicherheitseinstellungen | Manche Websites haben Sicherheitseinstellungen, die den Zugriff durch Crawler blockieren oder Anfragen bei zu vielen Zugriffen innerhalb zu kurzer Zeit abweisen. |
Wichtig: Für Nutzer auf Windows-Notebooks ist es außerdem notwendig, an ein eingestecktes Netzteil zu denken. Automatisierte Crawls werden nicht ausgeführt, wenn das Notebook im Akkubetrieb läuft. Es handelt sich um eine von Windows vorgesehene Vorsichtsmaßnahme im Task-Management, die verhindern soll, dass während einer geplanten Aufgabe der Akku leer läuft und sie (im schlimmsten Fall beim Schreiben auf die Festplatte) abgebrochen wird.
Übung zu automatisierten und geplanten Crawls
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.
[ultimatemember form_id=“261″]