Wikipedia & Linterweb

30 juillet 2016

Un délit de démocratie sur Wikipedia

Filed under: wikiwix — Pascal Martin @ 4:30

Lorsque la Fondation Wikimedia qui fait confiance à Internet Archive et consulte qu’une partie de la communauté aux risques de devenir editrice du contenu de Wikipedia avec un service énergivore.

Pour ceux qui ne connaissent pas, Internet Archive est une Fondation à but non lucratif de 200 salariés consacrée à l’archivage du Web créé en 1996, qui fait partie des 500 sites les plus vus sur la toile.
Pour ceux qui connaissent, il paraît évident que le cadre légal de l’archivage du web mondial est respecté par Internet Archive, car c’est le référent en la matière.
Pour ceux qui ne connaissent pas, le cadre légal repose sur un bout de code html placé sur les pages ou dans le fichier robots.txt. Ce bout de code est assez significatif puisqu’il s’agit du noarchive.
Pour ceux qui connaissent, les éditeurs des sites ont donc un moyen technique simple et efficace afin de protéger leurs droits d’auteurs même d’une copie temporaire.

Maintenant par trois exemples je vais vous démontrer qu’Internet Archive ne respecte pas la directive noarchive.
Le premier l’archivage du site de Sudouest, mais d’autres quotidiens nationaux sont impactés leFigaro, Nouvel Observateur ( … ) :
Article Donald Trump du nouvel observateur dont le source de l’article contient la balise noarchive ( CTRL U et CTRL F « noarchive » )
Il y a 311932 urls d’archivés pour SudOuest.
Le second est l’archivage du site de Lemonde :
– soit en faisant un framesur un site extérieur qui renvoie vers un article du monde,
– soit en utilisant un raccourcisseur d’url,
A ce moment-là vous obtiendrez une copie de la une du Monde, qui vous permettra de surfer sur l’ensemble du site du Monde qui sera enregistré temporairement, les robots d’Internet Archive viennent chercher l’information du site et les efface a posteriori.
J’invite donc toute la presse qui utilise la balise noarchive à contrôler les archives présentes sur archive.org et à estimer le manque à gagner car leurs archives sont en libre disposition dans toutes les universités américaines.
Le troixième est l’archivage de Facebook, par exclusion dans le fichier robots.txt du robots de Internet Archive, un exemple de sauvegarde du contenu au sujet de Denis Robert :
Je vous invite à titre particulier à vérifier si vos données publiques ne sont pas sauvegardées également.
Et pourtant depuis 2005 Internet Archive prétend qu’il respecte la meta donnée noarchive

Maintenant revenons à nos moutons, en effet le projet de remplacement des liens morts par un lien vers le système d’archive.org va changer irrémédiablement le contenu de l’encyclopédie :

Le souhait numéro 1 de la « communauté Wikipedia », alors qu’historiquement chaque communauté locale devrait être consulté avant une prise de décision, qui a acté à partir de 111 votants pour l’ensemble de toutes les langues est devenu un projet de la Fondation Wikimedia puisque Danny Horn est salarié de la Fondation Wikimedia et agit en tant que chef de projet de cette migration :
Danny Horn salarié de la Wikimedia Fondation
projet gérer par la Wikimedia Fondation

A ce titre-là, la Fondation n’est plus hébergeur du site de Wikipedia puisque remplacer des liens par d’autres liens est un acte d’édition. La Fondation Wikimedia devient donc éditrice par le biais du déploiement Cyberbot II sur l’ensemble des projets de la Fondation Wikimedia à hauteur de plusieurs centaines millions de liens.

Je me suis entretenu avec Danny qui en aucun cas n’a tenu compte de mes remarques, et je lui ai expliqué également de la difficulté de détecter un lien mort.
Le remplacement par la note 12 en est un parfait exemple, le Cybert_Bot_II a remplacé un lien par une archive alors que le site de BloomBerg donne toujours la même information :

Pour éviter de cataloguer les liens trops vite comme liens morts, il faut aller voir plusieurs fois les urls avant leur remplacement.

En outre cette solution, qui n’est pas la panacée, va donc devenir de plus en plus énergivore : en effet pour savoir si un lien est mort il est nécessaire d’y accéder de façon automatique mais au vu de la quantité de liens à surveiller je suis surpris qu’un tel service voit le jours car il sera payé par les dons.

Cela fait que c’est un projet excessivement polluant pour un rendu qui apporte moins que la solution que nous maintenons depuis 2009 pour la communauté Wikipedia Francophone hébergé en France à Saint Etienne du Rouvray.
En effet, les articles de Wikipedia Francophone restent inchangés tout en permettant un accès à toutes sources qui peuvent être modifié à postériori sans générer de liens morts. Un lien archive doit être positionné sur chacune des sources pour vérifier l’information en cas de changement de contenu de cette dernière.
Quant aux détracteurs de notre solution, sachez qu’en aucun cas nous n’avons perdu de la donnée depuis que nous nous sommes lancés dans ce projet. En effet, notre système repose sur un archivage du contenu de liens en temps réel dès qu’ils apparaissent sur Wikipedia ( pour justement pérenniser le travail de sourcing de la communauté ). La perte de la synchronisation est due généralement à un manque de communication entre la Fondation et Linterweb lors de correctif qui impact ce processus.

J’ai expliqué aux membres du projet que Linterweb était prête à partager sa technologie avec Internet Archive afin d’une part de ne pas augmenter le coût énergétique et d’autre part sur la captation des urls en temps réel.
Je n’ai pour l’instant eu aucun retour de leurs parts au sujet de ma proposition.
Evidement que notre solution est beaucoup moins laxiste concernant les normes d’archivages en vigueur et que notre solution est prête à être déployée pour d’autres langues avec l’aval des différentes communautés comme cela a été le cas pour le francophone et le hongrois.
L’expertise dans le domaine de l’archivage acquise par Linterweb, nous permet également d’affirmer qu’Internet Archive n’est pas le seul à outrepasser la bienséance nécessaire à ce type de projets.
Est-ce que la Fondation Wikimedia a pour rôle de détecter l’ensemble des sites qui ne fonctionnent plus, et qui résout partiellement le problème du sourcing des articles, je ne pense pas, c’est plus le rôle d’un moteur de recherche :

Pour contrer ce déploiement vous pouvez manifester votre mécontentement :
sur la page du projet
sur la demande du déploiement sur Wikipedia francophone
Mais dans ce monde-là, on accorde bien plus de crédits à une fondation de droit américains qui viole les droits du producteur de données ( cf : http://www.lemonde.fr/robots.txt ) et qui gagne de l’argent en revendant les archives qu’à une petite société française qui ne gagne pas d’argent sur les archives.

Pascal Martin

5 commentaires »

  1. La référence au robots.txt du Monde pourrait-elle être précisée ? Il est manifestement pris en compte sur les articles récents (https://web.archive.org/web/*/http://www.lemonde.fr/big-browser/article/2016/07/30/attentat-de-saint-etienne-du-rouvray-les-religieuses-temoignent_4976584_4832693.html). Avez-vous des exemples d’articles ayant été enregistrés par IA *depuis* l’apparition de ia_archiver dans le robots.txt (avec naturellement une référence pour cette date d’apparition) ?

    Commentaire by Ltrlg — 30 juillet 2016 @ 12:44

  2. Bonsoir,
    excusez ma réponse tardive, mais voilà une url de la une du monde stocké par IA :
    http://blog.wikiwix.com/?attachment_id=1354 genre la une d’aurjourd’hui ?

    Commentaire by Pascal Martin — 21 septembre 2016 @ 21:25

  3. https://www.undernews.fr/hacking-hacktivisme/lhebergeur-ovh-vise-par-la-plus-violente-attaque-ddos-jamais-enregistree-1tbps.html?utm_content=buffer24aa3&utm_medium=social&utm_source=twitter.com&utm_campaign=buffer combien de liens vont être vus comme morts lors de cette attaque par le Cyber_bot_II et qui vont être remplacé par un lien vers archive.org ….

    Commentaire by Pascal Martin — 26 septembre 2016 @ 1:02

  4. Avez-vous une procédure pour obtenir ce résultat ? Je viens d’essayer avec une dizaine d’articles présents en page d’accueil, sans succès. J’en déduit que vous avez soit une chance extraordinaire soit une méthode précise. Si vous avez une telle méthode, avez-vous envisagé la possibilité qu’il s’agisse d’un bug inconnu de l’équipe d’archive.org ? Dans ce cas, leur avez-vous signalé ? Accessoirement, il est dommage que vous n’ayez pas fourni le lien en plus de l’image, pour permettre un test simple, au moins dans les quelques jours suivants votre commentaire (à moins que vous n’ayez signalé la page et que la procédure de retrait soit rapide, auquel cas il aurait été pertinent de le mentionner).

    Commentaire by Ltrlg — 26 septembre 2016 @ 23:50

  5. Bonjour,

    Je ne fais que suivre la procédure décrite ci dessus, mais comme je le précise dans mon article cela ne dure pas longtemps. Mais le noarchive est strict pas de copie même temporaire.

    Cela fait comme même beaucoup de bug pour une fondation ( le nom respect de la balise généraliste noarchive pour le nouvel observateur, et celui là ) qui archive le web.

    Alors c’est facile http://www.numerama.com/tech/204406-wikipedia-veille-a-preserver-durablement-ses-sources-dinformations.html de récupérer du contenu qui n’a pas été autorisé de stocker.

    Un bug qui date de 2005, ce n’est plus un bug qui a été mainte fois remonté :
    https://archive.org/post/31561/robots-archive-noarchive-meta-tags

    A linterweb nous sommes tellement si petit que si nous laissions traîner ce genre de bug depuis 11 ans le CRIANN qui héberge nos datas à l’université de Rouen nous mettrait dehors :)

    Je pense que la WMF n’a pas besoin de ce partenariat qui la rend éditrice de Wikipedia, et qui ne protège en rien des changements de sources qui ne génèrent pas d’erreur 404, beaucoup d’énergie de dépenser pour graver dans le marbre archive.org.

    Commentaire by Pascal Martin — 3 novembre 2016 @ 0:06

Flux RSS des commentaires de cet article. TrackBack URL

Laisser un commentaire

Powered by WordPress