Dans le dernier épisode du podcast appelé Search Off the Record , John Mueller, Martin Splitt, Gary Illyes et Lizzi Harvey, tous employés de Google dans la Search Relations team, abordent le sujet du contenu dupliqué (duplicate content) : identification, traitement, solutions. L’occasion pour nous de revenir sur ce sujet récurrent en SEO et parfois mal compris.

 

Définition : Qu’est-ce que le contenu dupliqué ?

Le contenu dupliqué fait référence à des portions significatives de texte identique ou très similaire qui apparaissent sur plus d’une page web, soit à l’intérieur d’un domaine, soit sur des  domaines externes.

Comment Google prend en compte le contenu dupliqué ?

  1. Un algorithme calcule une emprunte numérique du contenu de la page
  2. Les pages avec une emprunte numérique proches sont regroupées dans un cluster
  3. Google choisit parmi les page d’un cluster, celle qui recevra de la visibilité : la page canonique

Cela paraît très simple, mais il faut apporter quelques précisions tout de même.

  • d’après Gary Illyes, Google calcule plusieurs empruntes numériques (Checksum en anglais) pour chaque page afin de procéder aux comparaisons.
  • Google détecte tout ce qui correspond au template sur une page, afin de l’exclure du calcule des empruntes. La navigation principale du site, ainsi que le footer sont ainsi exclu. On peut imaginer par extension que la majorité du texte « sitewide » (qui se retrouve sur toutes les pages du site) est également exclu ou dévalorisé.
  • l’algorithme qui choisit la page canonique d’un cluster en étape 3 possèderait une vingtaine de critères, le premier étant évidemment le contenu. En interne sur le site Google utilise par exemple le fait que la page soit sécurisée en HTTPS, incluse dans un sitemap XML, possède une balise canonical. Lorsque les pages d’un cluster font partie de domaines différents, le PageRank est utilisé également. Tout cela est également arbitré par un algorithme de machine learning.

FAQ sur le Contenu Dupliqué

Le contenu dupliqué concerne-t-il uniquement les pages 100% identiques ?

S’il est plus évident de détecter 2 pages totalement identiques, ce n’est pas le seul cas de contenu dupliqué. Deux pages peuvent être considérées comme dupliquées, même si leurs balises H1 diffèrent ou que quelques mots sont remplacés par un synonyme dans le texte. On se réfère alors au Taux de similarité des pages, et plus il est élevé, plus une des pages a de risque d’être considéré comme une copie.

Un texte traduit peut-il être considéré comme dupliqué ?

Non. Deux pages présentant les mêmes informations dans deux langues différentes ne seront pas considérées comme dupliquées par les moteurs de recherche.

Comment éviter le contenu dupliqué ?

La balise canonical est le principal outil technique à la disposition des référenceurs pour maîtriser le contenu dupliqué. Lorsque plusieurs pages sont identiques ou similaires, elle permet d’indiquer à Google quelle est la page principale, dite canonique, et quelles sont les copies.

La balise canonical est-elle toujours respectée ?

Non, la balise canonical est un indicateur pour Google, mais pas une directive. Cela signifie que, si Google détecte que votre configuration est fausse (exemple : toutes les pages indiquent l’accueil comme canonical), ou d’une manière générale si les pages sont trop différentes, Google peut ignorer la balise canonical.

Peut-on être pénalisé en raison de contenu dupliqué ?

Non, il s’agit d’un mythe SEO. Le risque du contenu dupliqué vient de la perte de visibilité potentielle pour les pages que Google ne jugera pas canonique.

 

Articles relatifs
Comment réussir sa fin d’année en tant qu’e-commerçant ?
e commerce reussir fin d'année fêtes noel black friday zee media

Le dernier trimestre est toujours une période importante pour tout e-commerçant. Entre les fêtes traditionnelles et les événements promotionnels comme Read more

LinkedIn lance Marketing Labs et ses certifications en France
linkedin marketing labs zee media certification

Depuis le début d'année 2021, LinkedIn a lancé Marketing Labs, sa plateforme de cours en ligne à la demande dédiée Read more

Que retenir du Google Marketing Livestream 2021 ?
zee media Google Marketing Livestream

Le 27 mai dernier, Google a diffusé le cru 2021 de son annuel Marketing Livestream (que vous pouvez retrouver au Read more