Benoit Tremblay

Réflexions et observations sur la technologie, les affaires et le changement.

Parlons-en de contenu dupliqué et de la pénalité Google

googleslapS’il y a un sujet en lien avec le référencement sur lequel il y a de la mauvaise information, c’est bien la duplication de contenu et la « pénalité » que Google peut vous « infliger ». La croyance commune veut que Google vous pénalise si votre contenu est repris en intégralité sur d’autres sites en plus du fait qu’il aura de la difficulté à différencier la source originale des copies. Vrai et faux.

Google en a parlé sur son blogue officiel il y a plus d’un an et encore aujourd’hui, le contenu dupliqué est souvent mal interprété. Il existe principalement deux situations de contenu dupliqué : le contenu dupliqué hors site et à l’intérieur de votre propre site.

Contenu dupliqué hors site

Pour ce qui est du contenu dupliqué à l’extérieur de votre site, je cite premièrement Google dans Demystifying the « duplicate content penalty » :

« There are some penalties that are related to the idea of having the same content as another site-for example, if you’re scraping content from other sites and republishing it, or if you republish content without adding any additional value. These tactics are clearly outlined (and discouraged) in our Webmaster Guidelines. »

Il y a effectivement une forme de pénalité associée à la re-publication de contenu intégral et on comprend facilement pourquoi. Par contre, ça c’est si vous-même vous copiez du contenu, alors qu’arrive-t-il si les gens copient votre contenu? Encore une fois, je cite le blogue officiel de Google dans son article Duplicate content due to scrapers:

« In the second scenario, you might have the case of someone scraping your content to put it on a different site, often to try to monetize it. It’s also common for many web proxies to index parts of sites which have been accessed through the proxy. When encountering such duplicate content on different sites, we look at various signals to determine which site is the original one, which usually works very well. This also means that you shouldn’t be very concerned about seeing negative effects on your site’s presence on Google if you notice someone scraping your content. »

Assez clair: il n’y a pas de pénalité associée directement à l’idée d’avoir votre contenu sur d’autres sites. De plus, la plupart du temps, Google est en mesure de déterminer le contenu original et de la positionner en conséquence. Je dois avouer qu’il n’est pas rare de voir des sites comme Digg sortir plus haut dans les résultats que la source originale à court terme, mais sur le long terme, les choses se placent habituellement. Voici quelques petits trucs pour vous assurer de vous positionner en temps que source originale sur Google : Ranking as the original source for content you syndicate.

Vous devriez de toute façon vous adresser aux gens qui copient votre contenu sans autorisation et en intégralité même s’ils ne vous surclassent pas sur Google: personne n’aime se faire voler son contenu.

Contenu dupliqué à l’intérieur de votre site

Le contenu dupliqué à l’intérieur de votre site peut être associé à du contenu re-publié sur d’autres pages de votre site ou encore plusieurs adresses qui pointent vers le même contenu. Il n’est pas rare sur les blogues d’ avoir une section « Archives» par exemple, qui contient exactement le même contenu que les articles eux-mêmes. Encore une fois, il faut faire attention. Cela ne vous pénalisera pas à proprement dit, mais pourrait vous affecter si Google n’arrive pas à déterminer le contenu que vous voulez personnellement montrer.

Google donne un autre exemple de duplication de contenu sur votre site, cette fois-ci en lien avec les URL dynamiques. D’un point de vu Google, ces deux URL sont différentes, même si en réalité elles sont identiques pour nous :

www.example.com/skates.asp?color=black&brand=riedell
www.example.com/skates.asp?brand=riedell&color=black

Un « sitemap » prend tout son sens ici afin de s’assurer que Google index et accorde de l’importance aux URL que vous désirez. De plus, Google a récemment introduit le tag « canonical » qui vous donne encore plus de contrôle sur cet aspect.

Vous pouvez aussi restreindre l’accès à certaines sections de votre site si vous pensez que cela pourrait vous nuire à l’aide du tag « no-index » ou encore à l’aide d’un fichier « robots.txt« .

Conclusion

En conclusion, il n’y a pas de pénalité directement associée au contenu dupliqué, sauf si vous copiez vous-mêmes du contenu. Il est vrai que cela peut affecter votre positionnement Google, mais ce n’est pas dû à une pénalité, juste à une mauvaise gestion de contenu.

Pour la majorité des gens qui ne font que blogger, la duplication de contenu ne devrait même pas ou pratiquement pas être un souci. Les problèmes classiques liés aux CMS du genre WordPress sont assez bien gérés par Google.

Tout cela peut se compliquer si vous avez par exemple un site de commerce en ligne avec beaucoup de produits et plusieurs URL qui pointent vers les mêmes produits. Il y a assez de liens et de ressources vers des documents officiels Google dans cet article pour vous aider à gérer cette situation (sitemap, tag canonical, etc.) ou encore, pensez à consulter!

Benoit TremblayPrésident de i5 Conseil, je partage sur ce blog mes observations sur la technologie, les affaires et le marketing. En savoir plus.

Pour recevoir les mises à jour,



Qu'en pensez-vous?

Abonnez-vous pour ne rien manquer!

rss feed RSS twitter benoit tremblay twitter