23 septembre 2017

Wikiwix Uberise Facebook

Bonjour à tous,

Je ne vous cache pas mon impatience de dévoiler notre moteur de recherche sur les contenus de Facebook.

A ce jours, il a indexé plus de 30 000 000 de publications qui proviennent de 1 000 000 de groupes public.
Nous découvrons environ plus de 15000 nouveaux groupes par jours.

Je ne vous cache que nous avons du mal à suivre les flux de données qui nous arrivent quotidiennement, en effet nous avons été obligé de réécrire nos crawleurs, et du coup nos indexes ont un peu de mal à suivre, mais des pistes d’améliorations sont en phase d’être trouvé.

Ce moteur de recherche est accessible en se rendant en haut à droite ( ) et en cliquant sur Facebook ( ), notre IHM n’est pas optimal je suis preneur de quelques conseils.

Pour l’instant il est possible de chercher les publications de plus de 300 000 000 de personnes, en commençant la recherche par @Nomdelapersonnechercher, ou de sélectionner à l’aide de l’autocompléteur une sélection de groupes afin d’effectuer des recherches au sein de ces groupes, ou de chercher autour d’une ville.

Nous allons dans les prochains jours proposer de nouveaux formats de visualisation des données issue de Facebook.

Je signale que ce moteur de recherche se base uniquement sur l’API de Facebook.

Je remercie le CRIANN qui héberge l’ensemble de nos technologies de moteur de recherche depuis des années.


30 juillet 2016

Un délit de démocratie sur Wikipedia

Lorsque la Fondation Wikimedia qui fait confiance à Internet Archive et consulte qu’une partie de la communauté aux risques de devenir editrice du contenu de Wikipedia avec un service énergivore.

Pour ceux qui ne connaissent pas, Internet Archive est une Fondation à but non lucratif de 200 salariés consacrée à l’archivage du Web créé en 1996, qui fait partie des 500 sites les plus vus sur la toile.
Pour ceux qui connaissent, il paraît évident que le cadre légal de l’archivage du web mondial est respecté par Internet Archive, car c’est le référent en la matière.
Pour ceux qui ne connaissent pas, le cadre légal repose sur un bout de code html placé sur les pages ou dans le fichier robots.txt. Ce bout de code est assez significatif puisqu’il s’agit du noarchive.
Pour ceux qui connaissent, les éditeurs des sites ont donc un moyen technique simple et efficace afin de protéger leurs droits d’auteurs même d’une copie temporaire.

Maintenant par trois exemples je vais vous démontrer qu’Internet Archive ne respecte pas la directive noarchive.
Le premier l’archivage du site de Sudouest, mais d’autres quotidiens nationaux sont impactés leFigaro, Nouvel Observateur ( … ) :
Article Donald Trump du nouvel observateur dont le source de l’article contient la balise noarchive ( CTRL U et CTRL F « noarchive » )
Il y a 311932 urls d’archivés pour SudOuest.
Le second est l’archivage du site de Lemonde :
– soit en faisant un framesur un site extérieur qui renvoie vers un article du monde,
– soit en utilisant un raccourcisseur d’url,
A ce moment-là vous obtiendrez une copie de la une du Monde, qui vous permettra de surfer sur l’ensemble du site du Monde qui sera enregistré temporairement, les robots d’Internet Archive viennent chercher l’information du site et les efface a posteriori.
J’invite donc toute la presse qui utilise la balise noarchive à contrôler les archives présentes sur et à estimer le manque à gagner car leurs archives sont en libre disposition dans toutes les universités américaines.
Le troixième est l’archivage de Facebook, par exclusion dans le fichier robots.txt du robots de Internet Archive, un exemple de sauvegarde du contenu au sujet de Denis Robert :
Je vous invite à titre particulier à vérifier si vos données publiques ne sont pas sauvegardées également.
Et pourtant depuis 2005 Internet Archive prétend qu’il respecte la meta donnée noarchive

Maintenant revenons à nos moutons, en effet le projet de remplacement des liens morts par un lien vers le système d’ va changer irrémédiablement le contenu de l’encyclopédie :

Le souhait numéro 1 de la « communauté Wikipedia », alors qu’historiquement chaque communauté locale devrait être consulté avant une prise de décision, qui a acté à partir de 111 votants pour l’ensemble de toutes les langues est devenu un projet de la Fondation Wikimedia puisque Danny Horn est salarié de la Fondation Wikimedia et agit en tant que chef de projet de cette migration :
Danny Horn salarié de la Wikimedia Fondation
projet gérer par la Wikimedia Fondation

A ce titre-là, la Fondation n’est plus hébergeur du site de Wikipedia puisque remplacer des liens par d’autres liens est un acte d’édition. La Fondation Wikimedia devient donc éditrice par le biais du déploiement Cyberbot II sur l’ensemble des projets de la Fondation Wikimedia à hauteur de plusieurs centaines millions de liens.

Je me suis entretenu avec Danny qui en aucun cas n’a tenu compte de mes remarques, et je lui ai expliqué également de la difficulté de détecter un lien mort.
Le remplacement par la note 12 en est un parfait exemple, le Cybert_Bot_II a remplacé un lien par une archive alors que le site de BloomBerg donne toujours la même information :

Pour éviter de cataloguer les liens trops vite comme liens morts, il faut aller voir plusieurs fois les urls avant leur remplacement.

En outre cette solution, qui n’est pas la panacée, va donc devenir de plus en plus énergivore : en effet pour savoir si un lien est mort il est nécessaire d’y accéder de façon automatique mais au vu de la quantité de liens à surveiller je suis surpris qu’un tel service voit le jours car il sera payé par les dons.

Cela fait que c’est un projet excessivement polluant pour un rendu qui apporte moins que la solution que nous maintenons depuis 2009 pour la communauté Wikipedia Francophone hébergé en France à Saint Etienne du Rouvray.
En effet, les articles de Wikipedia Francophone restent inchangés tout en permettant un accès à toutes sources qui peuvent être modifié à postériori sans générer de liens morts. Un lien archive doit être positionné sur chacune des sources pour vérifier l’information en cas de changement de contenu de cette dernière.
Quant aux détracteurs de notre solution, sachez qu’en aucun cas nous n’avons perdu de la donnée depuis que nous nous sommes lancés dans ce projet. En effet, notre système repose sur un archivage du contenu de liens en temps réel dès qu’ils apparaissent sur Wikipedia ( pour justement pérenniser le travail de sourcing de la communauté ). La perte de la synchronisation est due généralement à un manque de communication entre la Fondation et Linterweb lors de correctif qui impact ce processus.

J’ai expliqué aux membres du projet que Linterweb était prête à partager sa technologie avec Internet Archive afin d’une part de ne pas augmenter le coût énergétique et d’autre part sur la captation des urls en temps réel.
Je n’ai pour l’instant eu aucun retour de leurs parts au sujet de ma proposition.
Evidement que notre solution est beaucoup moins laxiste concernant les normes d’archivages en vigueur et que notre solution est prête à être déployée pour d’autres langues avec l’aval des différentes communautés comme cela a été le cas pour le francophone et le hongrois.
L’expertise dans le domaine de l’archivage acquise par Linterweb, nous permet également d’affirmer qu’Internet Archive n’est pas le seul à outrepasser la bienséance nécessaire à ce type de projets.
Est-ce que la Fondation Wikimedia a pour rôle de détecter l’ensemble des sites qui ne fonctionnent plus, et qui résout partiellement le problème du sourcing des articles, je ne pense pas, c’est plus le rôle d’un moteur de recherche :

Pour contrer ce déploiement vous pouvez manifester votre mécontentement :
sur la page du projet
sur la demande du déploiement sur Wikipedia francophone
Mais dans ce monde-là, on accorde bien plus de crédits à une fondation de droit américains qui viole les droits du producteur de données ( cf : ) et qui gagne de l’argent en revendant les archives qu’à une petite société française qui ne gagne pas d’argent sur les archives.

Pascal Martin

26 septembre 2017

Filed under: liens externes de wikipedia

22 février 2016

Wikiwix attend Facebook pour déployer ses technologies de moteur de recherches et d’archivages

Bonjour à tous,

Comme vous vous êtes aperçus ces deux dernières années de Recherche et Développement nous ont amené à travailler sur les contenus de Facebook.
Nous sommes donc en mesure de proposer un moteur de recherche spécifique sur les contenus de Facebook.

Il va de soi que le but n’étant pas de faire un moteur de recherche sur l’intégralité des contenus de Facebook, mais un moteur de recherche à l’échelle des moyens que possèdent Linterweb.

Après une dizaine de jours, nous attendons toujours l’autorisation de Facebook pour l’entrée nécessaire à nos robots dans le fichier robots.txt de Facebook.

En effet, il faut savoir que Facebook fait référence au moteur de recherche comme Google, Bing , en stipulant que : « le contenu public peut apparaître quand quelqu’un procède à une recherche sur Facebook ou un autre moteur de recherche », mais il est bien entendu nécessaire d’avoir l’aval de Facebook.

Normalement, il s’agit d’une simple formalité car Wikiwix est moteur de recherche, au même titre que ceux autoriser par Facebook dans le robots.txt, sur les contenus :
Wikipedia :
et sur toutes les catégories du Dmoz

La technologie que nous avons revisité est celle qui nous a primé au 1 Carrefour des possibles à savoir un moteur de recherche communautaire

et que nous avons expérimenté très tôt sur twitter.

Je ne préfère pas argumenter sur le rôle d’archiveur de datas que nous opérons sur les contenus sources de Wikipedia, car à l’heure actuelle Internet Archive est le seul à avoir le droit de pouvoir se déployer au regard du fichier robots.txt.

Sans cette autorisation officielle, nous ne pouvons pas valoriser notre recherche à venir dans le cadre du Crédit Impôt Innovation, car nous sommes propriétaires d’une solution qui commercialement ne peut pas être exploitée sans autorisation.

J’ai donc contacté Facebook France et ils m’ont renvoyé vers le centre d’aide communautaire afin d’avoir le soutien de la communauté Facebook pour avoir une réponse à mes questions :

Linterweb travaille sur ces deux technologies de puis une bonne dizaine d’années, la demande est donc légitime, car c’est indéniable Linterweb a une technologie de moteur de recherche, et d’archivage de datas au même titre que les grands noms du domaine.

« Lorsque vous publiez sur un forum ouvert sur Facebook (par exemple, sur des Pages, dans des groupes publics ou dans la section Forum communautaire des pages d’aide), les publications peuvent apparaître dans les résultats de moteurs de recherche tels que Yahoo et Google. »
extrait du centre d’aide de Facebook :
« Lorsque vous publiez sur un forum ouvert sur Facebook (par exemple, sur des Pages, dans des groupes publics ou dans la section Forum communautaire des pages d’aide), les publications peuvent apparaître dans les résultats de moteurs de recherche tels que Yahoo et Google. »
extrait du centre d’aide de Facebook :

Pascal Martin
Pour Linterweb

1 septembre 2015

Filed under: actualité

13 mai 2015

Filed under: actualité

21 avril 2015

Les archives Wikiwix des liens externes reviennent !

Interrompu depuis quelque temps déjà, le service d’archivage automatique des liens externes de Wikipedia placés dans les notes de bas de page, à la semblance du beau phœnix, renaît de ses cendres !


Comme vous le savez, depuis plusieurs années, suite à cette prise de décision : Wikipédia:Prise_de_décision/Système_de_cache, nous (enfin, Linterweb, quoi ! ) archivons  les liens externes apparaissant dans les notes de bas de page des articles de Wikipédia. Ceci afin que ces pages extérieures à Wikipédia restent accessibles telles qu’elles étaient lors de leur insertion dans l’article, même en cas de modification ultérieure ou de suppression de la page externe.


Mit roten Kreisen eingekreist, von Linterweb archivierte externe Weblinks

Mit roten Kreisen eingekreist, von Linterweb archivierte externe Weblinks


Par exemple, prenons l’article sur la commune de Faux, en Dordogne. Dans la section Liens externes, vous voyez un lien vers la page de Faux sur le site de l’Institut géographique national. Malheureusement, cette page n’est plus accessible : le lien mène vers une belle Erreur 404 : la page n’a pu être trouvée… 🙁

IGN Faux page manquante



Pour remédier à ce problème, Linterweb sauvegarde sur ses serveurs ce genre de liens externes. Pour notre exemple, la page manquante de l’IGN peut ainsi être retrouvée sur nos serveurs :


IGN Faux Cache Wikiwix


La page est telle qu’elle était lorsqu’elle a été archivée. La page est manquante sur les serveurs de l’IGN mais toujours consultable sur les nôtres.


Depuis quelques semaines, les disques durs dédiés à l’archivage des pages étaient arrivés à saturation, et nous avions été obligés d’interrompre le service. De 2,7 teraoctets, leur capacité a été augmentée à 11 teraoctets, ce qui devrait nous permettre d’être désormais tranquilles pour plusieurs années.


Nous remettons donc en route le service d’archivage automatique. Mais armez-vous de patience : il faudra au minimum plusieurs semaines avant que le service soit à nouveau pleinement opérationnel.


Les liens externes non archivés pendant l’interruption de service seront récupérés à partir des fichiers de sauvegarde de Wikipédia, afin qu’aucune page ne soit perdue.


Ce projet est intégralement financé par Linterweb, une société néo bretonne de trois salariés, et intégralement hébergé en Haute-Normandie, au Crihan.


Ce service nous paraît vraiment extrêmement utile : dans les articles, beaucoup de références comportent un ou plusieurs liens externes, qui permettent de sourcer, de vérifier, les affirmations énoncées dans l’article. Cette exigence de sourçage est un point clé de la crédibilité des articles. Maintenant, il suffit que la page externe servant de source soit modifiée ou supprimée, et la vérification est rendue de fait beaucoup moins évidente, voire impossible, pouvant alors remettre en cause toute la crédibilité de l’article, surtout si surviennent des conflits entre utilisateurs à propos de la véracité d’une affirmation donnée. Pour éviter la perte de cette information que constituent les liens externes, pour s’assurer que la crédibilité de l’article demeurera dans le temps, pour éviter nombre de conflits, le système d’archivage proposé par Linterweb est une nécessité.


Cette année nous avons prévu de passer quelques semaines à l’amélioration de ce service. Merci de nous faire part de vos suggestions d’améliorations ici : Utilisateur:Pmartin/Cache_v2.


En espérant que vous apprécierez l’utilité de ce service, cordialement 🙂 Matthieu.


Et je chantais cette romance

En 1903 sans savoir

Que mon amour à la semblance

Du beau Phénix s’il meurt un soir

Le matin voit sa renaissance.

Linterweb est une société d’informatique qui, depuis maintenant plusieurs années, développe un certain nombre de produits, dont la plupart sont liés de plus ou moins près à Wikipédia. Entre autres :

  • Wikiwix, un moteur de recherche sémantique qui restreint ses résultats aux articles des divers projets de la Fondation Wikimédia ;
  • Okawix, le navigateur Wikipédia hors-ligne libre et gratuit qui permet de lire en mode déconnecté les articles des projets de la Fondation Wikimédia, aussi bien que des archives de votre propre site web ;
  • un programme d’archivage des pages web externes à la Wikipédia (c’est-à-dire, les pages web qui ne font pas partie de Wikipédia, mais auxquelles mènent des liens placés dans les articles de la Wikipédia, dits liens externes), afin que ces pages web externes restent consultables, et que les liens externes ne donnent pas des liens brisés ; ce programme est utilisé, en particulier, pour tous les liens externes des projets Wikimédia francophones, ou encore sur les Wikipédias roumanophone et magyarophone ;
  • allingroups autoposteur Facebook, un service permettant de publier automatiquement des messages sur tout ou partie des groupes Facebook auxquels vous êtes abonné (auto-posteur Facebook) ;

12 septembre 2012

Filed under: wikiwix

2 février 2012

Xulrunner (firefox) plus dans les dépots d’ubuntu

Nous réalisons actuellement une check list afin de porter tout ou partie de notre développement en opensource, et quelle surprise Xulrunner ne fait plus partie du dépot d’ubuntu.
C’est à dire que dès qu’une mise à jours du système d’exploitation s’effectue, elle désinstalle le xulrunner ne permettant plus d’exécuter Okawix.

Il semblerait que ce soit le fait de mise à jour de Firefox trop fréquentes qui ne permettent pas de maintenir le paquet XulRunner à jours.

Je me demande bien comment vont faire les applications pour pouvoir continuer à fonctionner sur Xulrunner, on va comme même pas interdire aux gens de mettre à jour leurs OS ou leur dire qu’il faut réinstaller manuellement le paquet après une mise à jour.

D’un autre côté je suis surpris également de ne pas trouver de communiqué de la Fondation Firefox à ce sujet.

Pascal Martin

5 octobre 2011


