Duplicate Content

Duplicate Content (deutsch: doppelter Inhalt) entsteht in der Regel, sobald ein gleicher oder sehr ähnlicher Content unter verschiedenen URLs angezeigt wird. Dies gilt sowohl innerhalb einer Domain als auch bei unterschiedlichen Webseiten. Doppelte Inhalte können sich negativ auf das Ranking innerhalb der SERPs auswirken.

Video Erklärung

Duplicate Content kann in folgenden Fällen entstehen:

  • Inhalte werden syndiziert, verkauft oder illegal kopiert.
  • Der Inhalt einer Webseite wird versehentlich unter anderen Domains oder Subdomains (z.B. mit und ohne “www”) angezeigt.
  • Inhalte werden in verschiedenen Kategorien doppelt verwendet (etwa zusätzlich noch in einem News-Bereich).
  • Das Content Management System kann dem Inhalt keine eindeutigen URLs zuweisen.
  • In Onlineshops ergeben verschiedene Attribut-Filter gleiche Produktlisten.
  • Eine Webseite gibt die gleichen Inhalte in der gleichen Sprache für verschiedene Länder aus.

Man spricht von “Near Duplicate Content” bei sehr ähnlichen Inhalten, die ebenfalls zu Problemen führen können. Vielfach kopierte Textbausteine, wie etwa Teaser oder auf jeder Seite wiederkehrende Texte, können von Suchmaschinen als Duplicate Content behandelt werden, auch wenn der restliche Content unterschiedlich ist.

Sowohl das Brandy Update aus 2004 als auch das Bourbon Update aus 2005 verbesserten die Fähigkeit der Suchmaschine Google, Duplicate Content zu erkennen.

Damit Webseitenbesitzer oder SEOs Duplicate Content entdecken, kann der Einsatz eines Duplicate Content Checkers helfen.

Konsequenzen von Duplicate Content

Doppelte Inhalte stellen Suchmaschinen vor ein Problem. Sie müssen entscheiden, welche der doppelten Seiten am relevantesten zu einer Suchanfrage ist. Grundsätzlich wird von Google zwar betont, dass „Duplizierter Content auf einer Website […] kein Grund für Maßnahmen gegen diese Website [ist]“. Allerdings behält sich der Suchmaschinenprovider vor, bei manipulativen Absichten die entsprechende Website abzustrafen: „In den seltenen Fällen, in denen wir annehmen müssen, dass duplizierter Content mit der Absicht angezeigt wird, das Ranking zu manipulieren oder unsere Nutzer zu täuschen, nehmen wir die entsprechenden Korrekturen am Index und Ranking der betreffenden Websites vor.“ [1] Webmaster sollten es demnach nicht Google die Interpretation überlassen, ob Duplicate Content unbeabsichtigt oder bewusst verursacht wurde und doppelte Inhalte vermeiden.

600x400-DuplicateContent-01.png

Technische Ursachen für Duplicate Content

Doppelte Inhalte können verschiedene Ursachen haben, die häufig auf der fehlerhaften Konfiguration von Servern basieren.

Duplicate Content durch Subdomain Catch-All / Wildcards

Wenn eine Domain auf allen Subdomains gleich antwortet, liegt einer der elementarsten OnPage SEO Fehler vor. Das kann sehr leicht getestet werden, indem man einmal "www.DOMAIN.de" aufruft und danach "DOMAIN.de" (also ohne "www"). Wenn bei beiden Seiten die gleichen Inhalte angezeigt werden, obwohl in der Adresszeile jeweils eine andere Domain steht, solltemn Webmaster schnell handeln. Im Worst-Case antwortet der Server sogar bei allen Subdomains - also z.B. auch bei "kartoffel.DOMAIN.de". Diese weiteren Seiten mit gleichem Content werden auch Dubletten genannt. Aus Sicht der Suchmaschinen sind das alles verschiedene Webseiten - die aber den gleichen Inhalt liefern. Die Suchmaschine muss folglich entscheiden, welche der vorliegenden Seiten das Original ist. Als Konsequenz werden die übrigen Dubletten ignoriert oder erhalten ein schlechteres Ranking. Um den Suchmaschinen diese Entscheidung abzunehmen, sollte deshalb der Server korrekt konfiguriert werden. Das funktioniert bei dem häufig verwendeten Apache Server zum Beispiel mit dem Modul mod-rewrite. Mit Hilfe einer .htaccess Datei im Root-Verzeichnis der Webseite, kann man mit folgendem Code der Webseite beibringen, nur auf die korrekte Domain zu antworten. Die übrigen Subdomains leiten automatisch zu der korrekten Domain um:

RewriteEngine On
# ! Bitte daran denken "DOMAIN" mit der jeweiligen Domain Deines Projektes auszutauschen !
RewriteCond %{HTTP_HOST} !^www.DOMAIN.de$ [NC]
RewriteRule (.*) http://www.DOMAIN.de/$1 [R=301,L]

Als Vorüberlegung müssen sich Webmaster also entscheiden, was die Hauptdomain sein soll - also mit "www" oder ohne „www“. Bei internationalen Webseiten sollte auch eine Länderkennung als Subdomain in Erwägung gezogen werden (also z.B. "www.de.DOMAIN.com/").

Duplicate Content durch fehlende Trailing Slashes

Eine andere weit verbreitete Form von Duplicate Content tritt bei der Verwendung von Trailing Slashes auf. Dabei handelt es sich um URLs, die keinen Dateinamen enthalten, sondern auf Verzeichnisse zeigen. Also zum Beispiel:

http://www.DOMAIN.de/verzeichnis_a/verzeichnis_b/

Dadurch wird (standardmäßig) die Index Datei des Unterordners "verzeichnis_b" geladen. Je nach Konfiguration antwortet allerdings auch folgende URL auf gleiche Weise:

http://www.DOMAIN.de/verzeichnis_a/verzeichnis_b

Es fehlt also der letzte Slash. Dabei versucht der Server zunächst die Datei "verzeichnis_b" zu finden, diese existiert nicht, dabei stellt aber der Server fest, dass ein solcher Ordner existiert. Da der Server keine unnötige Fehlermeldung auswerfen will ("Datei existiert nicht") wird stattdessen die Index-Datei dieses Ordners angezeigt. Ist ja an sich eine feine Sache, nur wird leider daraus Duplicate Content (sobald ein Link auf diese "falsche" URL zeigt). Dieses Problem kann auf verschiedene Weise gelöst werden.

Best-Practice ist ein 301 Redirect via .htaccess sowie die Korrektur der fehlerhaften Links. Auf diese Weise wird Google zugleich unnötiger Crawl-Aufwand abgenommen. Das eingesparte Crawl-Budget steht dann an anderer Stelle der Webseite zur Verfügung.

Umgang mit Duplicate Content

Mit zu den Aufgaben der Onpage-Optimierung gehört es, nicht nur Duplicate Content zu vermeiden, sondern diesen zu identifizieren, um dann zielführend zu handeln. Wichtig ist vor allem, dass Webmaster und SEOs bei doppelten Inhalten handeln. Da die Indizierung über die Suchmaschinen-Robots immer schneller erfolgt, sind auch gleiche Inhalte schneller im Web. Demzufolge ist die Gefahr von Rankingverlusten, einer Abstrafung oder sogar der Ausschluss aus dem Index noch schneller möglich.

Duplicate Content Checker

Für die erste Analyse bieten sich sogenannte Duplicate Content Checker wie copyscape an. Diese Tools identifizieren zunächst ähnliche oder sogar gleiche Inhalte im Web. Vor allem Online-Shops, die ihre Produktdaten per CSV-Dateien an Preisvergleichsportale oder Verkaufsplattformen wie Amazon übermitteln, sind häufig von diesen Problemen betroffen. Matt Cutts hat sich auch schon zu dieser Thematik geäußert.[2]

Texteinzigartigkeit zur Vermeidung von Duplicate Content

Eine erste Konsequenz ist es, unterschiedliche Texte für die eigene Homepage und Preisvergleiche oder externe Shoppingportale zu erstellen. Auch wenn es auf den ersten Blick wie eine Sisyphos-Arbeit erscheinen mag, zahlt sich das individuelle Betexten für verschiedene Seiten aus. Zum einen wird dadurch die eigene Seite als Brand gestärkt und zum anderen erhalten die Preisvergleiche ebenfalls individualisierte und somit für Google und den User interessantere Texte.

Um Near Duplicate Content auf der eigenen Seite zu vermeiden, sollten Webmaster ihren Content genau prüfen und zum Teil überlegen, ob einige Kategorien zusammengelegt werden können. In manchen Fällen kann es außerdem sinnvoll sein, zum Beispiel Filter-Seiten mit dem Tag „noindex,follow“ auszuzeichnen. Suchmaschinen indexieren diese Seiten dann nicht, folgen aber den Links, die sich darauf befinden.

Um einzigartige Inhalte zu erstellen, bieten sich Tools an, die die Formel WDF*IDF berücksichtigen.

Contentklau

Sollte externer Duplicate Content durch „Contentklau“ entstanden sein, muss der entsprechende Webmaster sofort mit der Bitte kontaktiert werden, die gleichen Inhalte entweder mit einer Nennung der Originalquelle zu versehen oder diese zu entfernen. Vielfach reicht eine einfache Bitte aus. Im Extremfall kann jedoch auch mit einer Abmahnung gedroht werden. Webmaster haben darüber hinaus die Möglichkeit, Seiten an Google zu melden, die durch kopierte Inhalte das Urheberrecht verletzen. Diese Formular kann über die Google Search Console abgeschickt werden. [3]

301-Weiterleitung

Wenn externer Duplicate Content dadurch entsteht, dass ein Webmaster zwei Websites mit gleichen Inhalten auf zwei oder mehr verschiedenen Domains betreibt, reicht vielfach ein 301-Redirect, um doppelte Inhalte zu vermeiden.

Eine weitere Möglichkeit besteht darin, Google über die Google Search Console zum Beispiel die bevorzugte Version einer Webseite mitzuteilen.

Canonical Tag und Robots.txt

Bei internem Duplicate Content auf der eigenen Website stehen verschiedene Handlungsalternativen zur Auswahl. Ein wichtiges Instrument ist hier der Canonical Tag. Dabei wird auf der gedoppelten Unterseite auf die Originalseite verwiesen und die doppelte Seite bei der Indizierung nicht berücksichtigt. Wer ganz sicher gehen möchte, dass eine Unterseite mit Duplicate Content überhaupt nicht indiziert wird, kann diese mit dem noindex-Tag markieren. Um die doppelten Inhalte zusätzlich vom Crawling auszuschließen, können die betreffenden Unterseiten auch in der robots.txt entsprechend hinterlegt werden.

Vorbeugung

Um internen Duplicate Content vorzubeugen, bietet es sich an, die Seitenhierarchie genau zu planen. So lassen sich im Vorfeld bereits mögliche Quellen für doppelte Inhalte ermitteln. Beim Anlegen von Produkten in Online-Shops sollten auch alle Vorkehrungen für die einfache Implementierung des Canonical-Tags getroffen werden. Auf der Textebene gilt: je individueller, desto besser für Google und den User und desto besser, um Duplicate Content zu vermeiden.

Einzelnachweise

  1. Duplizierter Inhalt support.google.com Abgerufen am 30.01.2017
  2. Will having the same ingredients list for a product as another site cause a duplicate content issue? (Englisch) youtube.com. Abgerufen am 21.10.2014
  3. Search Console Webspam melden google.com Abgerufen am 30.01.2017

Weblinks