Définition : Duplicate content

Le duplicate content ou contenu dupliqué désigne le phénomène par lequel un contenu identique se retrouve sur plusieurs pages Internet au sein d’un même site ou à travers plusieurs sites ou domaines distincts. Un contenu dupliqué peut correspondre à la quasi-totalité d’une page ou à un simple passage ou paragraphe.

La notion de duplicate content est importante, car lorsque Google détecte du contenu dupliqué, il filtre ses résultats afin de ne pas proposer plusieurs pages au contenu jugé comme identique dans ses résultats de recherche.

En cas de contenu dupliqué et de filtrage par Google, seule la page considérée comme initialement à l’origine du contenu ou la plus « digne de confiance » va apparaître dans les résultats.

En général, seule la ou les pages comprenant du contenu dupliqué peuvent éventuellement disparaître des résultats. Un site comprenant du contenu dupliqué est rarement pénalisé dans son ensemble, sauf si Google estime que l’essentiel de son contenu est le fruit d’un pillage de contenus.

Au sein d’un même site ou domaine, la présence de contenus dupliqués est assez courante car dès que l’URL diffère (sauf pour certains types de modification), Google considère qu’il s’agit de pages différentes. Les modes de gestion non optimisés des contenus peuvent parfois amener à avoir plusieurs URl pour une même page. On parle alors de duplicate content interne. Dans ce cas, Google pointe généralement uniquement vers la page qu’il juge la plus pertinente. Pour plus de détails voir la définition duplicate content interne.

La présence et la gestion de contenus dupliqués sur plusieurs sites sont également courantes et plus problématiques à gérer. En effet, dans ce cas seule une page risque d’apparaître dans les pages de résultats du moteur. La présence de contenu dupliqué entre plusieurs sites peut être dûe à un pillage de contenu, mais également à des facteurs plus naturels (reprise d’extraits, citations, fiches annuaires, fiches produits reproduites sur différents sites marchands, etc.) ou à une politique volontaire de multiplication de contenus. Lorsque la duplication du contenu est volontaire dans une logique de SEO black hat, de nombreux acteurs utilisent le content spinning pour éviter le filtrage dans les SERPs Google.

Pour prendre en compte des textes reproduits simplement avec de très légères modifications, les outils et algorithmes détectant le contenu dupliqué peuvent calculer un taux de similarité.

Un exemple d’outil permettant de détecter les contenus dupliqués et de calculer un taux de similarité :

Share on FacebookTweet about this on TwitterShare on LinkedIn