WordPress – Duplicate Content
Wer sich (s)eine WordPress Installation einmal näher angesehen hat, hat sicher schon bemerkt, dass dort im Standard sehr viel Duplicate Content vorhanden ist.
Eine gute Definition, was unter Duplicate Content zu verstehen ist, findet man auf Googlewebmastercentral: „Als Duplicate Content wird Content bezeichnet, der anderem Content, domainintern oder –übergreifend, genau gleicht oder diesem offensichtlich ähnlich ist.“ (sehr frei zitiert; vgl. Duplicate Content Problematik)
Problematik:
Beim Standard WordPress findet man die Artikel wahlweise unter:
- http://domain.tld/
- http://domain.tld/category/category-name
- http://domain.tld/date/jahr/monat
- http://domain.tld/page/2
- http://www.domain.tld
Ein Artikel kann also an vielen Stellen gefunden werden. Bei meinem Blog waren das zu Anfang bis zu 16 verschiedene Orte. Sechs Kategorien, einmal im Archiv, einmal auf Start- oder Folgeseite. Das Ganze darf man dann noch mit zwei multiplizieren, weil der Content sowohl unter http://domain.tld, als auch unter http://www.domain.tld gefunden werden kann. Wenn noch mehr Kategorien vorhanden sind, in die ein Artikel eingeordnet werden kann oder wenn zusätzlich noch tagging verwendet wird, kann diese Zahl noch erheblich überschritten werden. Google wertet dies alles als Duplicate Content und straft die entsprechenden Seiten mit dem Supplemental Index ab.
Um das zu vermeiden, gibt es verschiedene Strategien, die ich (fast alle) ausprobiert habe.
Strategie 1: robots.txt
Die robots.txt ist eine Datei die im Rootverzeichnis der Domain liegen muss. Der Zweck der robots.txt ist es den Suchmaschinenbots mitzuteilen, welche Seiten Sie indizieren dürfen und welche nicht.
Eine robots.txt für WordPress kann etwa so aussehen:
User-agent: *
Disallow: */feed/
Disallow: */trackback/
Disallow: /wp-content/
Disallow: /wp-admin/
Disallow: /wp-includes/
User-agent: Gibt an, für welche Bots die folgenden Anweisungen gelten. Der * bedeutet, dass die Anweisungen für alle Bots gelten. Alternativ kann man natürlich für jeden Bot eigene Regeln aufstellen.
Disallow: Hier können Ordner relativ zur URL der Domain angegeben werden die nicht indiziert werden sollen.
Man sollte auf jeden Fall die Feeds ausschliessen. Man möchte ja, dass der Content der Webseite rankt und nicht die zuerst die Feeds (Sonst hätte man sich das hübsche Template sparen können).
Strategie 2: noindex
Im HTML Header einer jeden Seite kann man ein robots Metatag setzen:
<meta name="robots" content="noindex,follow">
Das Tag aus dem Beispiel bedeutet, dass Suchmaschinenbots, die Seite nicht indizieren, aber den Links folgen sollen. Das ist also genau das, was man sich für die Archiv- oder Kategorieseiten wünscht.
Um noindex nutzen zu können, empfiehlt es sich das Plugin „Duplicate Content Cure Plugin for WordPress“ zu installieren. Wer PHP programmieren kann, sollte etwas Ähnliches auch leicht selbst schreiben und im Header plazieren können.
Strategie 3: www oder nicht www?
Es gibt zwei Möglichkeiten um zu vermeiden, dass man durch die „Subdomain“ www Duplicate Content zugeschrieben bekommt.
- Man kann in den Google Webmastertools angeben, ob man die Domain bevorzugt mit www oder ohne indiziert haben möchte. Nachteil: Gilt nur für den Googlebot
- Man kann das Plugin „Enforce www. Preference“ installieren. Dieses leitet Anfragen an die unerwünschte URL per HTTP 301 Umleitung an die Gewünschte weiter.
Ich persönlich bevorzuge das Plugin. Neben Google gibt es ja auch noch andere Bots… Gibt es doch noch!?
Strategie 4: more
Auf der Startseite finden sich die kompletten Artikel, das sind oft die letzten 10-20 Artikel des Blogs. Damit findet sich Duplicate Content auf der Startseite und unter der Artikel-URL. Dies kann mit dem more-tag vermieden werden.
Es lässt sich aus dem WYSIWYG Editor setzen und sorgt dafür, dass der komplette Artikel nur noch unter der Artikel-URL abrufbar ist. Auf allen anderen Seiten wird nur der Text der vor dem more-tag steht angezeigt zusammen mit einem Link auf den Artikel.
Fazit
Zu diesem Thema könnte man noch sehr viel schreiben. Ich wollte mit diesem Artikel nur eine kurze Anleitung schreiben, wie ich die Sache „gelöst“ habe. Wer sich eingehender damit beschäftigen möchte, dem empfehle ich, in den verlinkten Artikeln weiterzulesen.
Die Punkte 1 bis 3 setze ich bereits um, das more-tag benutze ich in diesem Artikel zum ersten Mal. Ich denke ich habe mit diesen Maßnahmen eine ganz gute Kombination gefunden. Ob es sich bewährt wird sich zeigen, aber ich bin sehr zuversichtlich.
Weiterführende Literatur:
Supplemental Index:
fridaynite.de: supplemental results in google
nxplorer.net: Wie man dem Supplemental Index entkommt
Duplicate Content und WordPress:
BasicThinking.de: WordPress – Duplicate Content Probleme umgehen
eniak.info: Duplicate Content vermeiden – aber wie?
seofreak.de: Klonschaf WordPress – WordPress Installation erzeugt von Haus aus Duplicate Content
Share this content:
9 Kommentare