2.5. Duplicate Content aufdecken
1 Übung · ca. 11 Minuten
Was ist Duplicate Content?
Unter Duplicate Content sind identische oder nahezu identische Inhalte zu verstehen, die auf mehreren verschiedenen URLs im Internet veröffentlicht sind. Das kann sowohl innerhalb der gleichen Website (interner Duplicate Content) als auch zwischen verschiedenen Websites (externer Duplicate Content) auftreten.
In den Anfangszeiten von Google war es möglich, zur Steigerung der eigenen Sichtbarkeit den gleichen Inhalt mehrfach zu veröffentlichen und damit Wettbewerber aus den sichtbarsten Ergebnisrängen zu verdrängen. Dieses Suchmaschinen-Spamming verspricht heutzutage keinen Erfolg mehr, denn auch die Suchmaschinen haben kein Interesse daran, den gleichen Inhalt mehrfach in den Suchergebnissen auszugeben.
Sie bevorzugen qualitativ hochwertige und gleichzeitig einzigartige Inhalte. Tatsächlich haben Websites mit Sichtbarkeitseinbußen zu rechnen, wenn sich auf ihnen vermehrt Duplicate Content befindet, denn wenn Google eine URL nicht als Original ansieht, kann das im schlimmsten Fall dazu führen, dass es die Seite gar nicht mehr im Suchindex berücksichtigt.
Durch das Vermeiden von internen Duplicate Content steuerst Du, welche Inhalte von den Suchmaschinen indexiert werden. Die Entscheidung, welche Seite ein Original und welche Seite eine Kopie ist, überlässt Du nämlich besser nicht den Suchmaschinen. Diese Einschätzung ist temporär und kann sich regelmäßig ändern. Außerdem verschwendest Du möglicherweise so Dein Crawl-Budget.
Allein aus SEO-Gründen ist es daher wichtig, sicherzustellen, dass die Inhalte einer Website einzigartig sind und keine Kopien anderer Seiten (intern oder extern) darstellen.
Wichtig: Es hält sich hartnäckig das Gerücht, eine Website müsste mit Abstrafungen durch Google (sogenannte manuelle Maßnahmen, englisch: Penalty) rechnen, wenn sich auf ihr Duplicate Content findet. Das stimmt so nicht.
Weitere Informationen
Sistrix – Duplicate Content
Search Engine Journal – The Truth About Duplicate Content
So deckst Du Duplicate Content auf
Aus der letzten Lektion ist Dir bereits bekannt, wie Du intern das Risiko mindern kannst, dass Duplicate Content entsteht. Wenn jede Seite einer Website mit einem selbstreferenzierenden Canonical-Tag ausgezeichnet wird, dann wird damit an Suchmaschinen das Signal gesendet, dass alle Inhalte Originale sind und für den Suchindex berücksichtigt werden sollen.
Was aber, wenn trotz dieser Canonical-Angabe tatsächlich inhaltliche Kopien einer Seite bestehen? Gibt es außerhalb der eigenen Website eine Seite mit gleichem oder sehr ähnlichem Inhalt (externer Duplicate Content), stößt auch der Screaming Frog SEO Spider an seine Grenzen. Der Spider müsste ja das gesamte Web crawlen, um sie zu aufzudecken.
Für internen Duplicate Content sieht das hingegen anders aus. Wenn der SEO Spider alle URLs einer Website crawlt, kann er anschließend auch eine Aussage darüber treffen, ob er gleiche oder sehr ähnliche Inhalte auf mehreren URLs entdeckt hat.
Exakte Kopien und Nahduplikate
Exakte Kopien einer URL erkennt der SEO Spider direkt. Wenn Du aber auch prüfen möchtest, ob es Seiten mit sehr ähnlichem Inhalt (Nahduplikate) gibt, musst Du das vor dem Crawl einstellen. Dazu klickst Du im Hauptmenü auf Konfiguration > Inhalt > Duplikate.

Wichtig: Die Aktivierung der Checkbox Nahduplikate aktivieren braucht mehr Arbeits- und ggf. Festplattenspeicher. Du solltest beim Crawl großer Websites sicherstellen, dass Du die über ausreichend Ressourcen auf dem Computer verfügst.
Standardmäßig ist für Nahduplikate eine Ähnlichkeitsschwelle (englisch: Similarity Threshold) von 90 % eingestellt. Du kannst diesen Wert nach eigenen Bedürfnissen anpassen.
Ab welchem prozentualen Wert stuft aber Google eine Seite als Duplikat ein? Leider lässt sich dazu kein fester Prozentsatz angeben. Wenn beispielsweise auf einer externen Seite ein eigenständiges Layout verwendet wird, aber der Inhalt von einer anderen Seite übernommen wurde, reicht das in den allermeisten Fällen aus, um als Duplikat gewertet zu werden. Werden lediglich ein oder zwei Sätze übernommen, ist das Risiko dagegen recht gering.
Werden Seiten eines Auftritts vollständig miteinander verglichen, haben sie naturgemäß viele Übereinstimmungen. Sie basieren vermutlich auf gleichen Templates und einem identischen Raster. Das bedeutet, dass sich viele Überschneidungen in den allgemeinen Teilen wie dem Header, der Navigation, der Sidebar oder dem Footer finden lassen.
Du möchtest die Suche nach Nahduplikaten aber meistens nutzen, um ähnliche Inhalte und nicht ähnliche HTML-Dokumente aufzudecken. Deswegen kannst Du im SEO Spider festlegen, welche Bereiche einer Seite beim Vergleich berücksichtigt werden sollen. Dazu gehst Du über das Hauptmenü zu folgendem Punkt: Konfiguration > Inhalt > Bereich. Hier können nun explizit HTML-Tags, Klassen und IDs für das Aufdecken von Nahduplikaten ein- oder ausgeschlossen werden.

Der SEO Spider schließt standardmäßig sowohl die Navigations- als auch die Fußzeilenelemente einer in HTML5 verfassten Seite aus, um sich auf den Hauptinhalt zu konzentrieren.
Startest Du nun den Crawl einer Website, kannst Du in Echtzeit in der URL-Übersicht im Tab Inhalt und mit dem Filter Exakte Duplikate mitverfolgen, welche URLs der SEO Spider hierfür entdeckt.
Die Werte für den Filter Nahduplikate stehen nicht unmittelbar zur Verfügung. Hier musst Du nach Abschluss des Crawls erst die Crawlanalyse ausführen.
Wennn Du in der URL-Übersicht auf eine URL klickst, die als Nahduplikat eingestuft wird, kannst Du unten im URL-Details-Fenster wichtige Zusatzinfos einsehen. Dazu wählst Du dort den Tab Duplikatdetails. Hier wird Dir dann angezeigt, zu welcher Seite die Übereinstimmungen bestehen.
Weitere Informationen
SEO Südwest – Google: Duplicate Content lässt sich nicht prozentual bestimmen
Übung zum Aufdecken von Duplicate Content
Du möchtest weiterlesen?
Du kannst Dich kostenlos registrieren und anschließend auf alle Inhalte im Online-Kurs zugreifen.
Du hast schon einen Account? Dann melde Dich an.
[ultimatemember form_id=“261″]