Dans le dernier épisode du podcast appelé Search Off the Record , John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey, tous employés de Google dans la Search Relations team, abordent le sujet du contenu dupliqué (duplicate content) : identification, traitement, solutions. L’occasion pour nous de revenir sur ce sujet récurrent en SEO et parfois mal compris.

 

Définition : Qu’est-ce que le contenu dupliqué ?

Le contenu dupliqué fait référence à des portions significatives de texte identique ou très similaire qui apparaissent sur plus d’une page web, soit à l’intérieur d’un domaine, soit sur des  domaines externes.

Comment Google prend en compte le contenu dupliqué ?

  1. Un algorithme calcule une emprunte numérique du contenu de la page
  2. Les pages avec une emprunte numérique proches sont regroupées dans un cluster
  3. Google choisit parmi les page d’un cluster, celle qui recevra de la visibilité : la page canonique

Cela paraît très simple, mais il faut apporter quelques précisions tout de même.

  • d’après Gary Illyes, Google calcule plusieurs empruntes numériques (Checksum en anglais) pour chaque page afin de procéder aux comparaisons.
  • Google détecte tout ce qui correspond au template sur une page, afin de l’exclure du calcule des empruntes. La navigation principale du site, ainsi que le footer sont ainsi exclu. On peut imaginer par extension que la majorité du texte « sitewide » (qui se retrouve sur toutes les pages du site) est également exclu ou dévalorisé.
  • l’algorithme qui choisit la page canonique d’un cluster en étape 3 possèderait une vingtaine de critères, le premier étant évidemment le contenu. En interne sur le site Google utilise par exemple le fait que la page soit sécurisée en HTTPS, incluse dans un sitemap XML, possède une balise canonical. Lorsque les pages d’un cluster font partie de domaines différents, le PageRank est utilisé également. Tout cela est également arbitré par un algorithme de machine learning.

FAQ sur le Contenu Dupliqué

Le contenu dupliqué concerne-t-il uniquement les pages 100% identiques ?

S’il est plus évident de détecter 2 pages totalement identiques, ce n’est pas le seul cas de contenu dupliqué. Deux pages peuvent être considérées comme dupliquées, même si leurs balises H1 diffèrent ou que quelques mots sont remplacés par un synonyme dans le texte. On se réfère alors au Taux de similarité des pages, et plus il est élevé, plus une des pages a de risque d’être considéré comme une copie.

Un texte traduit peut-il être considéré comme dupliqué ?

Non. Deux pages présentant les mêmes informations dans deux langues différentes ne seront pas considérées comme dupliquées par les moteurs de recherche.

Comment éviter le contenu dupliqué ?

La balise canonical est le principal outil technique à la disposition des référenceurs pour maîtriser le contenu dupliqué. Lorsque plusieurs pages sont identiques ou similaires, elle permet d’indiquer à Google quelle est la page principale, dite canonique, et quelles sont les copies.

La balise canonical est-elle toujours respectée ?

Non, la balise canonical est un indicateur pour Google, mais pas une directive. Cela signifie que, si Google détecte que votre configuration est fausse (exemple : toutes les pages indiquent l’accueil comme canonical), ou d’une manière générale si les pages sont trop différentes, Google peut ignorer la balise canonical.

Peut-on être pénalisé en raison de contenu dupliqué ?

Non, il s’agit d’un mythe SEO. Le risque du contenu dupliqué vient de la perte de visibilité potentielle pour les pages que Google ne jugera pas canonique.

 

Articles relatifs
Comment tracker une landing page sur Google Analytics
logo google analytics

Vous souhaitez lancer une opération spéciale, recruter des leads ou simplement encourager vos internautes à faire un don ? La Read more

Etats-Unis : Yahoo gagne du terrain sur le géant Google
logo yahoo

L’association Yahoo / Bing génère plus de 33% des parts de trafic outre-Atlantique en Mars 2015. Une étude menée par ComScore Read more

5 conseils pour une campagne de retargeting efficace
subscription

Le retargeting est un outil de marketing digital puissant quand les campagnes sont gérées correctement. Pour vous aider à renforcer Read more