[Guest blogging] SEO : Facebook et l’énorme copie des articles de Wikipedia

Un billet en Guest blogging d’un confrère du blog Kubx. Il a décidé de nous parler de l’énorme nouveau contenu de Facebook, 100% copié collé de Wikipédia. Place à l’artiste.

Facebook l’avait annoncé le 19 Avril 2010 dans un communiqué de presse, ils ont signé un partenariat avec Wikipédia leur permettant d’afficher le contenu des articles de Wikipédia sur Facebook. Pour info, le contenu de Wikipédia ne lui appartient pas et comme indiqué sur le home de Wikipédia : « Son contenu est sous licence Creative Commons by-sa et peut être copié et réutilisé sous la même licence – même à des fins commerciales – à condition d’en respecter les conditions. »

Facebook, un scrapeur fou

Facebook n’a pas lésiné sur son intégration et a même mis les bouchés doubles. Je vous laisse regarder les deux screens ci-dessous ou aller sur la page de présentation du W3C made in Facebook et celle made in Wikipedia.

Le texte n’a subi aucune modification et est donc exactement le même sur les deux sites. Quelques expressions sont mises en gras, mais encore une fois ce sont les mêmes mots qui le sont sur les deux sites. D’ailleurs, ils utilisent la balise < b > qui n’est plus recommandée, au lieu de la balise < strong >. La seule différence entre les deux pages est donc la présentation due à leurs feuilles de style CSS. Bref ils ne se sont pas foulés et ont donc fait un pur copié collé de Wikipédia.

Des liens et encore des liens Facebook

En regardant d’un peu plus près, on peut remarquer qu’il y a un tas d’ancres internes pointant vers d’autres expressions, ce qui va permettre de mailler toute la structure du site Facebook. En effet, toutes ces pages étaient auparavant totalement indépendantes car Facebook n’avait  aucune donnée pour les lier entre elles. Ce qui est étonnant, c’est que parfois ces liens contextuels pointent toujours vers Wikipédia , comme ici sur l’ancre « standards organization ». Pourquoi ? Aucune idée.

Bref, tous ces liens à même le texte renforcent le linking interne de facebook et va lui permettre de se référencer sur un nombre incalculable de pages.

Google et le Référencement

Google a toujours dit qu’il pénalisait les sites ayant du « duplicate content ». D’après Google :

Par contenu en double, on entend généralement des blocs de contenus importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires.

Personne ne peut me dire qu’il ne s’agit pas de contenu identique ou sensiblement similaire…

Comment éviter le Duplicate Content ?

Si vous faites du référencement, vous savez qu’il est important que notre page est une valeur ajoutée. Facebook a donc « enrichi » les définitions pompées sur Wikipédia. En effet, Facebook affiche les fans et les dernières publications relatives à la page, ce qui lui permet d’avoir un contenu un peu différent et soi disant enrichi.

De plus, en désactivant le Javascript, seul le début de l’article (2 000 premiers caractères) est disponible. Est-ce un choix de Facebook ou une erreur de développement ?

Il y a un truc qui cloche ? Cloaking ?

Autre interrogation, le contenu de la page est différent selon notre USER AGENT et nos cookies. Facebook s’amuserait-t-il à faire du cloaking  ? La même url peut afficher selon votre navigateur le contenu anglais de Wikipedia ou bien celui Français. Bizarre comme stratégie de référencement, voire incohérente. Il me semblait que c’était interdit par Google le cloaking ?

Conclusion Facebook / Wikipedia

Facebook risque de se positionner dans les SERP en scrapant du contenu, pourquoi nous ne ferions pas également la même chose ?

Le mot de Keeg :

Pour la petit histoire, Remi Le Calvez du blog KubX m’a contacté au bon moment. Pourquoi ? Parce que 1/2 heures plus tard, j’allais commencé un article sur le même thème ! J’ai bien fait de le laisser faire, le billet est de qualité. Pour info, notre ami cherche un poste de développeur web sur Paris.

Pour ma réaction au contenu du billet, je le ferais en commentaire. Je suis ok sur certains points, un peu moins sur d’autres. 😉

12s Commentaires à “[Guest blogging] SEO : Facebook et l’énorme copie des articles de Wikipedia”

  1. Mouais, pas convaincu, mais alors pas convaincu du tout que Facebook se soucis de référencement dans l’affaire.

    J’imaginerai plus un « Monde Facebook » ou tu aurais tout, et dont tu n’aurais plus besoin de sortir …

    Répondre
  2. Marie-Hélène

    Sans sympathie aucune pour facebook, je voudrais tout de même faire remarquer

    1) que plein d’autres sites clonent wikipedia par copier/coller sans toujours le dire (c’est explicite sur FB)

    2) que le principe du web sémantique / web de données / web 3.0 / appelez-ça-comme-vous-voulez est précisément la libre (liberté technique s’entend) circulation des données et leur réutilisation par d’autres fournisseurs de services, comme associer des photos flickr à des articles wikipedia

    Je suis plutôt d’accord avec littlebuzz.

    Répondre
  3. « le contenu de la page est différent selon notre USER AGENT et nos cookies »

    Il ne faut pas voir le mal partout…là ou tu penses voir du cloaking, d’autres veulent juste adapter leur contenu à leur audience. Si tu as configuré FB pour qu’il s’affiche en Français, le contenu est affiché en Français…ou en Anglais, ou en Allemand, etc…

    Pour ce qui est des motivations de FB, je pense pas qu’ils cherchent à augmenter leur audience ou a optimiser leur référencement par ce genre de procédés. Déja parce que Google ne sera pas dupe, mais aussi parce que ces pages apportent peu de valeur ajoutée au visiteur, donc peu de récurrence, donc peu de revenu.

    Ca va vous paraitre con, mais ca me fait plutôt penser à un projet confié a des stagiaires (sans aucune méchanceté envers les stagiaires 🙂 qu’autre chose. L’utilité du projet est réduite mais c’est un bon sujet pour apprendre a manipuler des gros volumes de contenu…

    Répondre
  4. Effectivement, l’objectif numéro 1 est je pense de faire en sorte de posséder une gigantesque masse de données avec comme but de faire en sorte que l’internaute ne sorte pas de Facebook.

    Cela permet d’augmenter le nombre de pages vues et le temps passé sur Facebook. Ca permet tout simplement d’engendrer davantage de revenu. C’est une stratégie depuis quelques mois et années, comme l’intégration directe de vidéos ou d’applications.

    Par contre, j’ai effectivement hâte de voir ce que ça va donner niveau référencement.

    Répondre
  5. Mais au niveau référencement je pense qu’ils ne risquent strictement rien, mise à part peut etre de passer d’un PR10 à un PR9, et je pense qu’ils en ont rien à péter XD

    Mais alors copier coller un article de wikipedia dans un autre site web n’est pas répréhensible ?

    Répondre
  6. « Mais alors copier coller un article de wikipedia dans un autre site web n’est pas répréhensible ? »

    Absolument pas, du moment que tu indiques clairement que le contenu provient de Wikipedia. Wikipedia fournit des exports complets (et réguliers) de son contenu…comme on peut le lire sur cet article de Wikipedia : http://en.wikipedia.org/wiki/Wikipedia_database

    Ces exports sont des mines d’or pour les expérimentations autour de la sémantique et l’analyse textuelle…et aussi, hélas, un gros gisement de texte pour les spammers :/

    Répondre
  7. je pense que après un certain niveau de trustrank Google ignore « ce genre de details » par exemple j’ai fait la faute de copier une partie d’un de mes articles sur Digg, après quelques temps c’est ma page qui était pénalisé et biensur pas celle de digg qui était moins détaillé et plus trusté.

    Répondre
  8. Bonjour,
    je souhaite créer la meme page facebook que le w3c mais je ne trouve pas comment !!?

    Pouvez-vous m’helper ? :p

    Répondre
  9. Merci pour cet article même si après ça, je reste toujours sur ma faim d’informations concernant le duplicate content.
    La notoriété d’un site semble être un critère pertinent pour Google, comment « guestbloguer » alors, sans risquer de quitter la piste ?

    Répondre
  10. mdannech

    svp comment je peus afficher le contenu d’un articles wikipedia sur une page facebook comme l’exemple si dessus

    Répondre

Laisser un Commentaire