Duplicate content

Er doen veel spookverhalen de ronde over duplicate content, ook wel genoemd double content. De allergrootste fout die gemaakt wordt is dat er te veel aangemerkt wordt als duplicate content en dat om die reden het canonical attribuut te vaak wordt toegepast. Een verkeerd gebruik van het canonical attribuut doet meer kwaad dan goed.

Google en duplicate content.
Identieke pagina's binnen een site worden door Google automatisch gedetecteerd en uit de index gegooid. Logisch, want voor de gebruiker van een zoekmachine is het niet fijn als exact dezelfde zoekresultaten getoond worden, en voor de site-eigenaar is het niet zinvol om meerdere keren met dezelfde pagina in de index te staan.
Toch is het jammer als pagina's uit de index gegooid worden. Want iedere keer als een pagina bezocht wordt, als ernaar gelinkt wordt, als erover gesproken wordt, ontvangt die pagina waarderingspunten (pagerank). Deze waarderingspunten lekken weg in het luchtledige.

Canonical attribuut
Om deze waarderingspunten toch te behouden kan het canonicial attribuut gebruikt worden. Deze zegt tegen Google dat het een duplicaat betreft en waar het origineel te vinden is. De waarderingspunten lekken op deze manier niet weg, maar worden doorgegeven aan het origineel. Het is het aangeven van de voorkeursurl.

Duplicate content voorkomen
Het canonical attribuut is een middel tegen het weglekken van pagerank door duplicate content. Voorkomen is ook in dit geval beter dan genezen. Plaats pagina's niet dubbel. Maak rechtstreekse verwijzingen. Geef het pad niet aan in de url. Pas het canonical attribuut alleen toe als duplicate content echt niet te voorkomen is.
Soms worden met opzet veel urls met verschillende zoektermen gemaakt voor dezelfde pagina. Dit heeft zoekmachine-technisch nul-komma-nul effect. Ze worden zonder canonical uit de index gegooid, en met canonical worden de verschillende zoektermen weer gelijk weggetoverd.

Is het wel duplicate content?
Pagina's moeten echt heel veel op elkaar lijken willen ze automatisch door Google uit de index gegooid worden. Een anders gesorteerde overzichtspagina, bijvoorbeeld op prijs ipv alfabet, is geen duplicate content. Daar hoeft geen canonical opgezet te worden om verwijdering uit de index te voorkomen. Wel kan er een canonical opgezet worden om de pagerank van de voorkeursurl te verbeteren.
De vraag is wat beter is; één geïndexeerde overzichtspagina met hogere pagerank, of meerdere geïndexeerde -maar lager gewaardeerde- overzichtspagina's. Ik denk zelf het laatste. Een anders gesorteerde pagina heeft nut voor de bezoeker, de ene zoekwoordencombinatie scoort bij de ene pagina beter dan bij de ander, elke pagina heeft zijn eigen unieke kracht, en bovenal, ik ben geen voorstander van dingen doen speciaal voor Google en onzichtbaar voor de bezoeker.

Duplicate content extern
Aha, duplicate content ontstaat alleen binnen een site? Er kunnen dus straffeloos teksten en plaatjes gekopieerd worden van andere sites? Ja, er is inderdaad weinig kans dat je automatisch uit de index gegooid wordt. Maar er zijn een heleboel redenen om het toch niet te doen:
  • Het mag wettelijk niet. Teksten, plaatjes enz vallen automatisch onder het auteursrecht.
  • Het is zachtjes gezegd niet netjes. Er wordt tijdsinvestering van iemand anders gestolen, om er zelf beter van te worden ten koste van degene.
  • Uitzondering is als er iets overgenomen wordt mèt bronvermelding. Dit levert een backlink op voor het origineel, waardoor dat origineel meer waarderingspunten krijgt.
  • Google houdt van origineel en nieuw. Oude en al bekende teksten worden lager gewaardeerd. Hoe vaker een zoekwoord of zoekwoordencombinatie gebruikt wordt, hoe moeilijker het scoren wordt met zo'n woord/combinatie.
  • Auteursrechtschending kan doorgegeven worden aan Google. Google kan dan besluiten om de site handmatig te verwijderen uit de index. Bovendien kan bij grove schending een penalty gegeven worden.
Hier kun je een verzoek indienen om een site die jouw auteursrecht schendt te laten verwijderen uit de index.