Le cocktail favori de Google : Creative Commons & Duplicate Content

Passer ses textes sous licence Creative Commons, c’est bien. Je suis à peu près certains que les blogueurs sont très majoritairement favorables aux idées globales de diffusion et de liberté. Pourtant, une grande majorité des blogs ne sont surtout pas en Creative Commons. Référencement vous dites ?

Créative Commons et les blogs

D’ailleurs, je ne suis moi-même pas en Creative Commons, alors que je défends certaines valeurs morales qui me semble bonnes. Et je n’ai pas l’intention d’y passer. Les quelques sites Internet qui me piquent mon contenu sans mon accord me gonflent au plus haut point d’ailleurs.

Au passage, pour ceux qui sont déjà perdus : le Creative Commons ? Il s’agit ni plus ni moins d’autoriser la réutilisation d’un texte (ou autre) sous certaines conditions en fonction de la licence choisie.

Tout ça pour en revenir au sujet de l’article : Creative Commons, d’accord, mais si quelqu’un me pompe mon article, ça donne quoi au niveau du Duplicate Content ? Prends-t-on une pénalité par maitre Google ? Cette interrogation m’est venu hier en lisant le dernier article de Plug’n Geek qui a décidé de passer ses articles sous licence Creative Commons (et ses commentaires en Dofollow). D’ailleurs, petit mot au passage, je pense que c’est depuis quelques semaines l’un des blogueurs qui produit les meilleurs articles de la sphère Geek.

C’est la première fois que je me pose réellement cette question et que je me prends quelques bonnes minutes pour y réfléchir. Du coup, je risque forcement de raconter quelques conneries. J’ai encore un paquet de trucs à apprendre.

Paperblog et Duplicate Content

Du coup, pour limiter au maximum d’affirmer des choses stupides, j’ai décidé de prendre le cas de Paperblog. Cette plateforme repique sans aucune morale l’ensemble des articles de pas mal de blogueurs naïfs. Forcement, quant on débute ou quand on ne se pose pas les bonnes questions, on accepte sans aucune difficulté de se faire piquer ses articles par Paperblog. C’est stupide, mais c’est comme ça. J’aurais pu à mes débuts m’y faire prendre aussi si je n’avais pas lu ça et là les interrogations suscités par Paperblog.

J’ai eu besoin de pas plus de deux minutes pour attraper trois articles High-Tech où le blog source est complètement dépassé par Paperblog sur Google à l’instant où j’écris ces lignes. J’ai pour cela copier / coller sur Google la première phrase du texte de l’article testé.

Premier cas avec un article sur Bioshock 2 :

  • Paperblog : positions 1 & 2
  • Le blog source : position 3

Deuxième cas avec un article sur Dead Space 2 :

  • Deux espèces de diggs-like : positions 1 & 2
  • Paperblog : positions 3 & 4
  • La blog source : position 5

Troisième cas avec un article sur Facebook :

  • Paperblog : position 1
  • Le blog source : pas (encore ?) référencé

Alors, d’après vous, qui coiffe au poteau les visiteurs que devraient faire les blogs sources ? En tout cas, pas l’article initial. Pourtant, on est bien dans une situation similaire à la licence Creative Commons où un blog donne son accord de diffusion à une autre personne, qui reposte l’article en mettant un lien vers la source… C’est beau le partage !

En plus, je ne vous raconte pas la gueule des liens pointant vers l’article initial. Une ancre superbe « Voir l’article original » et un magnifique lien sous forme « http://feedproxy.google.com/~r/amacoders/~3/Rs66IlTFBhw/ ». Je ne sais pas de quoi il en retourne, mais je suis prêt à parier mon dernier marteau que ça ne vaut pas un clou niveau référencement.

Duplicate Content et Google

On peut facilement en conclure que si un site solide te pompe sans scrupule ton petit contenu de ton petit blog tout nouveau parce que tu es en Creative Commons ou que tu as donné ton accord, tu risques de te faire bien baiser pour parler crument.

De mémoire, il me semble que Google a affirmé que la sanction Duplicate Content n’existait pas. Pourtant, si on suit un peu l’histoire des annuaires, on peut très facilement comprendre que Google à horreur du Duplicate Content. Il te sanctionne d’abort la page en question, et, si ton site dépasse un certain « taux » de Duplicate Content, c’est l’ensemble du site qui est sanctionné… sauf Paperblog.

Bienvenue dans un monde où seul les énormes sont épargnés.

L’expérience Creative Commons / Duplicate Content

Du coup, je me lance dans une petite expérience (pas plus) qui risque de tourner court en terme de résultats. Je vais lancer un blog en utilisant les textes de petits blogs sous Creative Commons en respectant scrupuleusement la licence choisie. Je supprimerai l’ensemble du blog à la fin de l’expérience. C’est du Google-suicide, c’est clair, mais il faut bien tester.

32s Commentaires à “Le cocktail favori de Google : Creative Commons & Duplicate Content”

  1. Officiellement, Google a bien obtenu un brevet sur la détection de contenus dupliqués et est capable de savoir qui de l’œuf ou la poule est arrivé en premier. Ça c’est la théorie, maintenant dans la pratique, il semble bien que les sites de fortes notoriétés, les sites qui donnent la source en lien peuvent échapper au filtre que google a mis en place. Si j’ai bien compris ce que j’avais lu du brevet, Google détecte à posteriori le duplicate content donc il faut sans doute lui laisser un peu de temps pour qu’il classe tout cela dans le bon ordre. Les exemples de pages qui sont données dans l’article semblent assez récentes (quelques heures pour certaines) donc peut être que tout cela va rentrer dans l’ordre prochainement. C’est le moins qu’on puisse espérer.

    Répondre
  2. Tu devrais ajouter le mot « référencement » ou « SEO » à ta baseline … genre le labo SEO, quoi :)

    Répondre
  3. Tu peux obliger certaines conditions avec le Creative Commons : par exemple si on repompe un article sur mon blog, il faut mettre mon nom dessus, ne pas le modifier, et ne pas en faire une utilisation commerciale.
    Pour que ces conditions sautent, il faut mon accord.

    Répondre
  4. Merci bien pour le compliment, ça fait vraiment plaisir ! :)

    Pour revenir sur le duplicate content, je pense aussi qu’il y a d’autres paramètres à prendre en compte :

    – Sans être sur paperblog, ce site a-t-il autant de visibilité ?
    – Profite-t-il d’un retour notable de visites pour d’autres articles de son site ?

    Sur le moyen terme, les sites en CC ont tendance à retrouver leur place originale dans les faits et gagnent des backlinks plus ou moins rentables également .

    Le cas paperblog est extrême quand même et ne représente pas, je crois, un bon exemple dans la mesure où en plus d’être une pompe à contenu, ils monétisent indirectement le contenu, donc un site CC, ils ne peuvent pas se servir sans que celui-ci s’inscrive volontairement à leur service. N’oublie d’ailleurs pas une chose importante que Paperblog ne respecte pas :

    Les données de l’auteur doivent être facilement identifiables (et l’auteur c’est nom + le lien vers la source). Si tu planques le lien source comme un brute, je pense que le site sous CC peut directement dire que tu ne respectes pas la licence et que tu tentes d’abuser en étant de mauvaise foi car tu altères la mention de la source.

    Je fais donc aussi l’expérience et je vais voir si les requêtes Google diminuent de manière significatives où non et si les visites fluctuent. Dans 1 ou 2 mois (ça m’étonnerait de voir un changement à court terme) je serai fixé de ce que représente la CC en matière de trafic, de backlink et bien sûr si je dois la maintenir ou non.

    Répondre
  5. @Sylvain : Osé de demander ça chez toi !

    @Simon : Les tests et articles SEO, c’est effectivement mon dada en ce moment.

    @Kusanageek : Comme je le dit, effectivement tu peux imposer des critères. Mais pour voler ton contenu, on ne va pas chercher à le modifier, et te fera un lien en JS…

    @Fox15 : Merci mais je pense taper dans du blogueur que je ne connais pas + blog US, peut-être^^.

    @Skalp : Ce serait avec plaisir de connaitre le retour de ton expérience si certains utilisent cette licence pour voler ton contenu euh, diffuser tes articles 😉

    @LeBlogger : Ce genre de pratique est aussi très limite. Par contre, il ne me semble pas que Wikio ouvre dans des frames.

    Répondre
  6. @Sylvain : Pour maxisciences j’ai accepté (ils m’avaient contacté par mail) et en fait ils coupent l’article au bout de quelques phrases, donc le lecteur est obligé d’aller sur mon blog pour lire la suite. En échange j’ai juste eu à mettre un petit bandeau vert avec « blog reporter » écrit dessus.

    Répondre
  7. @Kusanageek : Pour avoir rapidement jeté un oeil, c’est de vue 50% des caractères de pris. C’est assez conséquent. Mais effectivement, il faut aller sur le blog pour lire la suite (la fin).

    Répondre
  8. Exemple :

    -maxisciences.com/google/google-prend-desormais-en-compte-la-rapidite-d-affichage-d-un-site-dans-le-calcul-du-pagerank_mrm11844.html

    (clic sur une catégorie puis onglet « les blogs en parlent »)

    Répondre
  9. Article intéressant Alexandre
    la propriété du contenu ? une bonne question
    les pratiques de Paperblog sont abusives c’est clair

    et google n’a rien à foutre de la qualité comme tu le dis et fait confiance au site qui a du page rank

    mais je pense que Google va modérer cela dans quelques temps
    pratiquement certain
    et paper blog sera sanctionné un jour ou l’autre

    par contre les pratiques de Blogasty m’agacent profondément
    avec leur eframe

    Répondre
  10. Parmi les attributs des licences CC, il y a le Non Commercial (NC). Non commercial, c’est assez clair quand on parle d’imprimer les textes et de sortir un bouquin.
    Par contre, est-ce que réutiliser la création pour l’entourer de blocs de pubs rentre dans ce cadre ?

    Répondre
  11. Pépé

    Ton idée elle te viens d’où ? En tous cas, c’est sûr, faut pas couler keeg !! :)
    Pauvre gars, il met ses articles en Creative Commons, et tu vas lui pourrir son référencement! heureusement c’est pour la bonne cause ! Tu vas te donner combien de temps pour l’expérience ?

    Répondre
  12. @Pépé : Quelques semaines je pense, mais c’est moi qui risque de me faire pourrir par Google. Enfin, on verra 😉

    @Jimmy : Effectivement très bonne question. Je dirais mais sans certitude qu’à partir du moment où ton site Internet génère de l’argent, Adsense ou autre, il devient dès lors commercial si cette somme n’est pas toute minime.

    Répondre
  13. Mais si on balance Paperblog a Google ya pas moyen que ce site se face fouetter bien comme il faut ? Parcequer sucer un article mot pour mot sans même indiqué la source c’est complètement abusé…

    Répondre
  14. Mapics

    Il me semble que Paperblog ne prend les articles que des sites qui s’inscrive chez eux non ? Quand ont regarde leur Conditions Générales d’Utilisation ont comprend vite de quoi il retourne, ils ont tous les droit sur le contenue du blog de façon matériel et immatériel pour eux ou même leur partenaire. Se n’est pas de la faute de Paperblog si certain webmaster sont prêt a offrir leur contenue en échange de plus de visibilité.
    Ont ne peut reproché à ça femme de vouloir dormir dans notre lit si ont la épousé. 😉

    Répondre
  15. @Mapics : Encore heureux qu’il s’agit uniquement des personnes inscrites. Mais ça joue clairement sur un abus de faiblesse. Alors oui, on peut toujours dire « tu es idiots, c’est ta faute », mais on peut aussi très largement estimer que les sociétés jouant sur une faiblesse ne sont absolument pas correctes. C’est le cas de Paperblog, il me semble.

    Répondre
  16. @ Keeg

    Connais tu un site qui vie de la publicité qui t’offre plus de visibilité sans rien attendre en retour ?

    Tous le monde veut ça part du gâteau et Paperblog est pareil mais bon si les gens ne regarde pas le CGU que veut tu y faire. :-(

    Oui ça reste mal mais bon ont peut pas y faire grand chose hormis des billet comme le tient qui ferons que les gens se méfierons plus.

    En fait je voie un fautif « Google » qui fait passé Paperblog devant les sites légitime mais bon Google n’est pas dieu et ne peut pas tout contrôlé (heureusement).

    Répondre
  17. Je te rejoins un peu dans tes agacements. Mais en fait on n’y peut pas grand chose. Envoyer un mail à la personne qui duplique, pour qu’il mette un lien.
    Si c’est un gros site dont le modèle économique est basé sur le pompage de contenu, c’est plus délicat, parce que on n’a jamais vu de « manif géante » de blogueurs ou d’internautes contre un site de ce genre. Ou plutôt si, je me souviens que c’est arrivé une fois, sur le site « Ladies room », où une grève de blogueuses avait eu lieu.
    http://www.mysacamain.com/ladiesroom+greve+des+blogueuses-365
    Mais ce genre de révolte des utilisateurs est très rare, parce que les entreprises savent très bien jusqu’où ne pas aller trop loin. Et quand elles vont trop loin, elles reculent d’un pas…

    Pour finir, je ne sais pas si tu poses bien le problème, mais il y a un problème! 😉

    Répondre
  18. Paperblog est à proscrire pour le référencement … qu’importe ou non qu’il y ait du duplicate content, le site ayant plus de poids que le petit ayant rédigé, il passera devant …

    On le voyait pas sur un de nos petits sites mais quand celui-ci a commencé à grossir, la réponse est vite tombée : hausse de trafic puis baisse de trafic sans rien faire de particulier et sans explication …

    Je viens de demander à Paperblog et à son fondateur directement d’effectuer la suppression des blogs et de mon compte par la même !

    Plus jamais Paperblog …

    Répondre
  19. Fabien from geek

    Ah Paperblog…. toute une histoire !

    Petite solution toute bête que je vous recommande pour éviter ce type de pillage : créez un 2ème flux RSS … tronqué !
    Pour WordPress il suffit d’installer un petit plugin tout bête : http://pix-geeks.com/webmasters/creer-flux-rss-coupe

    Et voilà ! Plus de problème :)
    J’utilise le même procédé avec les publications automatiques sur Facebook d’ailleurs !

    Répondre
  20. merci pour ces avis très intéressants, les plates-formes de blogs ont tendance à effectivement tout balancer dans le flu rss…et cela peut être un gros piège…

    Répondre
  21. Avec Panda, les copieurs seront punis, Google aime l’ordre. Le problème : le contenu des sites qui sont crawlés moins souvent que les sites qui les copient…

    Répondre

Laisser un Commentaire