Flagrant délit de copie

Scrappers de tous les pays, ce billet de blog est pour vous !

Sur le web les données sont copiées presque à l'infini, c'est une question de temps. D'où l'intérêt de certains services comme Google Actualités (News) par exemple pour avoir accès à la primeur de l'information avant que tout ne soit dilué, déformé, mal traduit, mal compris par le troupeau de suiveurs (sites d'information de seconde zone, webzines de second plan, blogueurs dans l'obligation de publier pour ne rien dire, etc) et avant d'être repris par l'armée de curateurs de contenus, de mashups et autres agrégateurs, eux-même diffusés et re-diffusés en boucle sur les réseaux sociaux.

Je me livre depuis quelques temps à un test SEO sur le (trèèès) long terme. J'ai ouvert un blog de petites annonces, que j'alimente de façon plus ou moins régulière avec de vrais articles que je vend, car je fais partie de la génération de ceux qui ont payé plusieurs fois pour le même produit dans des formats différents (j'ai les disques vinyles, les cassettes audio, les CD et les fichiers Flac de pas mal d'albums par exemple), et qu'il me faut destocker car le déménagement en 38 tonnes n'est pas toujours aisé.

Mon test consiste donc à mettre mes biens en ligne, et à voir ceux qui s'indexent le mieux de façon naturelle, à quelle vitesse, et la concurrence de sites/pages qui proposent le même produit.

Concernant l'objet livre, mon talon d’Achille puisque j'adore lire, je me retrouve avec mon millier d'ouvrage (à peine une dizaine sont sur le site d'annonces, c'est dire le travail titanesque qu'il me reste à faire) en compétition avec les librairies, les sites de vente d'occasion, les sites de maisons d'éditions, les sites d'auteurs même parfois, et puis l'inévitable cohorte de revues de presse et autres fiches de lecture. Mais finalement, au fur et à mesure que je saisis mes livres, il est évident que mon plus gros concurrent, une fois encore, c'est Google, avec son service Google Books.

Le Monopole de la numérisation de livres depuis 2004

google books 2005

Sur certains ouvrages très rares (indisponibles à la vente, et peu médiatisés) je peux comprendre que le service de numérisation arrive dans les Serps, mais finalement pour pratiquement n'importe quel livre, Google place son propre service bien en haut en première position. Après ça qu'on ne vienne pas encore me dire qu'il n'y a pas de favoritisme ni d'abus de pouvoir... (cf le monde google, encore et encore).

Et donc Google Books, comme presque tous les services en ligne qui traitent de livres, modifie le texte d'origine. Donc un scrap ou un copié-collé dans le but d'obtenir des effets de volumétrie ou de longue traîne reproduit l'erreur.

La clé devient alors la modification apportée sur la page par rapport à la source. Il peut s'agir :

  • de passages entiers tronqués,
  • de fautes d'orthographe ou d'accord volontairement ajoutées,
  • de ponctuation modifiée
  • de mots remplacés...

C'est dans ce dernier cas de figure que se classe mon exemple.

Le dos de couverture utilisé par Google Books pour la description du livre a été subtilement modifié de façon à substituer le mot "décisionnaires" dans la phrase suivante :

(...) aux utilisateurs de la base de données et aux démissionnaires : le directeur marketing, (...)

La clé est donc "démissionnaires" qui remplace le mot "décisionnaires" du texte original.

Voilà, ceci n'a rien de révolutionnaire, c'est une méthode qui permet de démasquer une taupe ou un traître au sein d'un réseau par exemple, et c'est utilisé depuis la nuit des temps.

Mais comme le scraping a énormément la côte depuis ces dernières années, je tenais à vous mettre en garde : quiconque possède la clé peut remonter facilement un réseau de sites diffusant la même information marquée (car erronée). Ou encore s'assurer de la fiabilité d'une source d'information. Les applications sont multiples.

Je trouvais cette substitution de Google Books assez drôle, et cela permet de démontrer que Google encore une fois juge et partie organise lui-même la désinformation pour ensuite filtrer à coup sûr les pages de contenus pour mieux les pondérer (ou pas, mais en tous cas il en a connaissance).

Et vous ? Vous suivez un peu vos contenus ? Vous les marquez ?

Quelques outils pour traquer le Duplicate Content :