2.7. XML-Sitemaps prüfen & erstellen

1 Übung · ca. 21 Minuten

Start > Online-Kurs > 2. Grundlegende Anwendungen > 2.7. XML-Sitemaps prüfen & erstellen

Was ist eine XML-Sitemap?

Eine XML-Sitemap ist eine Datei auf dem Webserver, die eine Liste aller Seiten auf einer Website enthält, die von Suchmaschinen indexiert werden sollen. Es handelt sich dabei um eine strukturierte Liste, die Informationen zu jeder Seite wie URL, Datum der letzten Änderung, Priorität und Häufigkeit des Updates enthält.

Suchmaschinen-Bots prüfen meist eigenständig auf das Vorhandensein eine solchen Sitemap im Stammverzeichnis eines Auftritts unter dem Namen sitemap.xml. Es empfiehlt sich aber, in der robots.txt einen Verweis auf die Sitemap einzufügen, damit das Auffinden auch anderer Stelle auf dem Webserver sichergestellt wird. Suchmaschinen helfen Sitemaps, um die Struktur und Inhalte einer Website besser zu verstehen und zu indexieren.

Beispiel für den Aufbau einer einfachen XML-Sitemap für den fiktiven Auftritt unter www.deine-domain.de mit folgen Seiten:

  • Leistungen
  • Wir über uns
  • Kontakt
  • Impressum
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">

  <url>
    <loc>http://www.deine-domain.de/leistungen/</loc>
    <changefreq>weekly</changefreq>
    <priority>0.8</priority>
  </url>

  <url>
    <loc>http://www.deine-domain.de/wir-ueber-uns/</loc>
    <changefreq>weekly</changefreq>
    <priority>0.6</priority>
  </url>

  <url>
    <loc>http://www.deine-domain.de/kontakt/</loc>
    <changefreq>monthly</changefreq>
    <priority>0.5</priority>
  </url>

  <url>
    <loc>http://www.deine-domain.de/impressum/</loc>
    <changefreq>yearly</changefreq>
    <priority>0.4</priority>
  </url>

</urlset>

Es ist möglich, die Inhalte einer Website in mehrere XML-Sitemaps zu splitten. Häufig passiert das bei der Verwendung von Content-Management-Systemen, die XML-Sitemaps automatisiert erstellen. Dazu wird ein Index als separate XML-Datei erstellt, der auf die URLs der einzelnen Sitemaps verlinkt. In einem solchen Fall wird dann diese Indexdatei als Sitemap-Link in der robots.txt angegeben.

Beispiel für einen Sitemap-Index:

<?xml version="1.0" encoding="UTF-8"?>
<sitemapindex xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
  <sitemap>
    <loc>http://www.deine-domain.de/seiten.xml</loc>
    <lastmod>2023-03-01T12:00:00+00:00</lastmod>
  </sitemap>
  <sitemap>
    <loc>http://www.deine-domain.de/posts.xml</loc>
    <lastmod>2023-03-15T12:00:00+00:00</lastmod>
  </sitemap>
</sitemapindex>

Weitere Informationen
searchmetrics – Was ist eine Sitemap.xml?

So prüfst Du XML-Sitemaps

Die Anforderungen an eine XML-Sitemap lassen sich aus SEO-Sicht wie folgt skizzieren:

  • Aktuelle und vollständige Auflistung
  • Fehlerfreie Verlinkung sämtlicher URLs
  • Nur indexierbare URLs (Meta-Tag-Hinweise beachten)
  • Nur URLs, die nicht als Kopie (Canonical-Tag mit abweichender URL) ausgewiesen werden

Mit dem SEO Spider kannst Du auf zwei verschiedene Arten den Zustand einer XML-Sitemap prüfen: Entweder Du schließt die Sitemap(s) einer Website explizit beim Crawl mit ein oder aber Du lädst die XML-Sitemap direkt im Programm hoch und lässt den Spider die dort aufgelisteten URLs crawlen.

Der Vorteil der ersten Variante, also dem Einschließen der XML-Sitemap in den Crawl einer Website, besteht darin, dass Du die gecrawlten URLs mit dem Inhalt der ebenfalls erfassten Sitemap abgleichen kannst. So kannst Du URLs finden, die zwar gecrawlt wurden (und indexierbar sind), aber nicht in der Sitemap enthalten sind.

Vielleicht hast Du Dir schon die Lektion zum Finden von Orphan Pages angesehen? Dort erfährst Du mehr dazu, wie Du URLs entdeckst, die zwar in der Sitemap aufgeführt werden, aber intern auf der Website nicht verlinkt sind.

Wenn Du nur durch das Hochladen einer XML-Sitemap anstößt, dass den darin enthaltenen URLs gefolgt werden soll, stehen Dir diese Vergleiche entsprechend nicht zur Verfügung. Für ein umfangreiches Überprüfen empfiehlt sich also in den meisten Fällen die erste Variante.

Dazu muss vor dem Crawl einmal sichergestellt werden, dass der SEO Spider auch tatsächlich auf die XML-Sitemaps zugreifen kann und diese ausliest. Im Hauptmenü wählst Du dafür: Konfiguration > SEO Spider. Dort im Tab Crawl setzt Du im Bereich XML-Sitemaps das Häkchen bei Verlinkte XML-Sitemaps crawlen.

Wichtig: Dieses Vorgehen setzt voraus, dass in der robots.txt ein gültiger Verweis auf eine XML-Sitemap existiert, dem der SEO Spider folgen kann. Wenn dieser Verweis fehlt, Du aber eine bestimmte Sitemap auf dem Webserver bei Crawl mit einschließen willst, kannst Du die Option Diese Sitemaps crawlen aktivieren und händisch die URL zur gewünschten XML-Sitemap eintragen.

Um Deine Sitemap zu prüfen, startest Du nun den Crawl der Website und führst nach erfolgreichem Abschluss die Crawlanalyse aus. Erst danach wirst Du mit den notwendigen Daten im Tab Sitemaps der URL-Übersicht versorgt. Die Sitemap-Vergleiche stehen also nicht in Echtzeit zur Verfügung.

Nach Abschluss der Crawlanalyse sind folgende Filter im Tab Sitemaps anwendbar:

  • URLs in der Sitemap
    Die URL ist in mindestens einer der gecrawlten Sitemaps aufgeführt.

  • URLs nicht in der Sitemap
    Die URL ist nicht in einer der gecrawlten Sitemaps aufgeführt.

  • Verwaiste URLs
    Die URL taucht in einer Sitemap auf, ist intern aber nicht verlinkt.

  • Nicht indexierbare URLs in der Sitemap
    Die URL wird in der Sitemap aufgeführt, ist aber von der Indexierung ausgeschlossen worden (Robots-Meta-Tag)

  • URLs in mehreren Sitemaps
    Die URL taucht unterschiedlichen Sitemaps auf. Das sollte vermieden werden. Es bringt keinen Vorteil, eine URL mehrfach in Sitemaps aufzuführen.

  • XML-Sitemap mit über 50.000 URLs
    Google definiert eine Größenbeschränkung für Sitemaps. Es dürfen nicht mehr als 50.000 URLs in einer Datei enthalten sein. Umfasst ein Auftritt mehr URLs, müssen weitere Sitemaps zum Einsatz kommen.

  • XML-Sitemap über 50 MB
    Google definiert außerdem eine Obergrenze von 50 MB (unkomprimiert) je Sitemap.

Weitere Informationen
Google – Sitemap erstellen und einreichen

So erstellst Du XML-Sitemaps

mit dem Screaming Frog SEO Spider kannst Du auf einfache Weise selbst eineXML-Sitemap für eine Website erstellen. Dazu startest Du den Crawl beginnend bei der Startseite und wartest, bis er vollständig durchgelaufen ist. Anschließend wählst Du im Hauptmenü: Sitemaps > XML-Sitemap.

Welche Seiten sollen eingeschlossen werden?

Im Tab Seiten kann Du nun bestimmen, welche Inhalte für die Sitemap berücksichtigt werden sollen. Du weißt aus dem oberen Abschnitt dieser Lektion bereits, welche Eigenschaften eine XML-Sitemap erfüllen muss, die darauf abzielt, eine Unterstützung für Suchmaschinen zu sein. Es ist in solchen Fällen sinnvoll, dass keine Noindex-Seiten und keine ausgewiesenen Kopien (canonicalised) in die Liste aufgenommen werden.

Wie sieht es aber mit Paginierten URLs aus? Gemeint sind damit Listendarstellungen auf der Website, die sich aufgrund vieler Einträge über mehrere Seiten erstrecken und durch Seitenzahlen verlinkt sind.

Eine typische paginierte URL in einem Online-Shop könnte so aussehen:

https://www.deine-domain.de/bademode/seite/2/

Es ist in der Regel keine gute Idee, paginierte URLs in der XML-Sitemap aufzunehmen. Das Hinzufügen von paginierten URLs kann zu Problemen führen, da die Suchmaschinen die Paginierung möglicherweise als Duplicate Content betrachten. Zusätzlich wird mitunter das Crawl-Budget erheblich strapaziert.

Es gibt jedoch Fälle, in denen es trotzdem sinnvoll ist, paginierte URLs in der XML-Sitemap zu berücksichtigen. Nämlich dann, wenn die paginierten Seiten wirklich wichtige Inhalte enthalten, die so auf keiner anderen Seite zu finden sind oder wenn sie nicht durch interne Verlinkungen leicht zugänglich sind.

Weitere Informationen
mindshape – Paginierung und SEO

Mitunter gibt es Anwendungsfälle, in denen Du einzelne URLs von einer Sitemap ausschließen möchtest, obwohl sie ansonsten den üblichen Parametern entsprechen: Verfügbar, indexierbar und als Original ausgezeichnet. In einem solchen Fall verlässt Du das Konfigurationsmenü und suchst die betreffende URL in der URL-Übersicht aus und öffnet mit der rechten Maustaste das Kontext-Menü. Dort wählst Du den Punkt Entfernen. Die Seite ist aus dem Crawl gelöscht und wird entsprechend auch nicht mehr bei der Erstellung der XML-Sitemap berücksichtigt.

Wenn es ganze Bereiche oder Verzeichnisse einer Website gibt, die nicht in die XML-Sitemap aufgenommen werden sollen, kannst Du diese einfach im Hauptmenü unter Konfiguration > SEO Spider Im Tab Crawl vor dem Crawlen ausschließen. Auch hier gilt: Was nicht zu den internen URLs eines Crawls gehört, wird auch nicht in der XML-Sitemap aufgeführt.

Sollten PDF-Dateien in XML-Sitemaps aufgenommen werden?

Die Frage, ob in der XML-Sitemap PDFs verlinkt sein sollten, ist mit der klassischen SEO-Berater-Floskel zu beantworten: Es kommt darauf an. Welche Vor- und Nachteile es hat, PDF-Dateien einer Website in der XML-Sitemap zu berücksichtigen, zeigt die folgende Tabelle:

VorteileNachteile
👍 Suchmaschinen können PDFs leichter finden und indexieren. Die Sichtbarkeit in den Suchergebnissen kann sich dadurch verbessern.👎 Das Hinzufügen von vielen PDFs zur XML-Sitemap braucht das Crawl-Budget auf.
👍 Wenn PDFs wichtige Inhalte enthalten, können sie mehr Traffic auf die Website ziehen.👎 Wenn PDFs nicht relevant oder veraltet sind, kann das Hinzufügen zur XML-Sitemap dazu führen, dass der Ergebniseintrag für das PDF die ggf. wertvollere HTML-Seite verdrängt.
👍 PDFs können als eigenständige Seiten betrachtet werden, was bedeutet, dass sie in den Suchergebnissen angezeigt werden können, wenn jemand nach einem spezifischen Inhalt einem PDF sucht.👎 Wenn PDFs nicht ausTexten bestehen, sind die Inhalte für Suchmaschinen weitestgehend unsichtbar.
👍 Das Hinzufügen von PDFs zur XML-Sitemap kann einer Website einen komplexeren Gesamteindruck verpassen. Verlinkungen in einem PDF werden ähnlich wie Links auf HTML-Seiten behandelt.👎 PDFs sind umständlicher zu aktualisieren. Die Gefahr ist höher, dass sie veraltete Links enthalten, die zu nicht mehr vorhandenen Inhalten führen, was zu einer schlechten Benutzererfahrung führen kann und ebenfalls Crawl-Budget aufbraucht.

Weitere Informationen
Google – PDFs in Google-Suchergebnissen

Wichtig: Standardmäßig werden nur interne Seiten in die Sitemap aufgenommen, die als Status-Code 200 (OK) zurückgeben. Du kannst das in diesem Tab anpassen, solltest dann wissen, warum Du das tust. Es besteht die Gefahr, dass Du Suchmaschinen-Crawler auf Seiten schickst, die sie nicht erreichen und/oder nicht indexieren können.

Die Standard-Parameter: Zuletzt modifiziert, Priorität, Änderungshäufigkeit

Im Tab Zuletzt modifiziert kannst Du optional das letzte Änderungsdatum für Deine Sitemap angeben oder automatisiert die Antwort des Webservers zum letzten Änderungsdatum der Datei ausgeben.

Im Tab Priorität kannst Du ein weiteres optionales Attribut mitgeben. Die Priorität gibt Suchmaschinen einen Hinweis auf die Bedeutung einer URL im Vergleich zu anderen URLs auf der Website. Gültige Werte reichen von 0 bis 1,0 (höchste Priorität), wobei der Standardwert 0,5 beträgt. Ausgehend von der Startseite kann nun definiert werden, welche Ebene (Crawltiefe) welche Priorität erhalten soll.

Wichtig: Die Priorität von URLs hat keinen Einfluss darauf, wie sie von den Suchmaschinen bewertet werden. Dieser Wert wird lediglich verwendet, um die Wahrscheinlichkeit zu erhöhen, dass bei einem einschränkenden Crawl-Budget zumindest die wichtigsten Seiten gecrawlt und indexiert werden.

Auch die Änderungshäufigkeit im gleichnamigen Tab ist ein optionales Attribut. Es gibt für Suchmaschinen lediglich eine Schätzung mit, wie oft sich eine Seite vermutlich ändern wird.

Hier stehen zwei Berechnungsoptionen zur Verfügung:

  • Über den Last-Modified-Header berechnen
    Mit dieser Option wird für jede Datei der Last-Modified-Header ausgelesen. Wenn die Datei in den letzten 24 Stunden geändert wurde, wird der Wert auf täglich gesetzt, andernfalls auf monatlich.
  • Use crawl depth settings (in der deutschen Version derzeit noch nicht übersetzt)
    Das Änderungshäufigkeit wird aufgrund der Ebene (Crawltiefe) der URLs konfiguriert. Wählbar sind: Stündlich, täglich, wöchentlich, monatlich, jährlich, niemals.

Möchtest Du Bilder in der XML-Sitemap berücksichtigen?

Wenn die Option Bilder einbeziehen im Tab Bilder aktiviert ist, werden alle internen Bilder standardmäßig in der Sitemap eingeschlossen. Wenn Du auch Bilder einschließen magst, die auf einem CDN abgelegt sind, so kannst du vor dem Crawl im Hauptmenü unter Konfiguration > SEO Spider und dort im Tab Crawl festlegen, welche Domänen als intern behandelt werden sollen.

Möchtest Du hreflang in der XML-Sitemap berücksichtigen?

Die XML-Sitemap um hreflang-Auszeichnungen zu erweitern, ist für international ausgerichtete Websites interessant, die in mehreren Regionen und Sprachen ähnliche Inhalte anbieten.

In der XML-Sitemap wird jeder URL zusätzlich ein link-Element mitgegeben, mit dem die jeweils ähnlichen Inhalte in den unterschiedlichen Sprachversionen verlinkt werden.

Weitere Informationen
Bloofusion – Wie man hreflang-Informationen über XML-Sitemap oder HTTP-Header übermittelt
Sistrix – Der hreflang-Guide für internationales SEO

Übung zum Prüfen & Erstellen von XML-Sitemaps

Letzte Aktualisierung: 11.05.2023

Du möchtest weiterlesen?

Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.

[ultimatemember form_id=“261″]