Wikipedia & Linterweb

3 février 2011

Archivage des liens externes : le problème a été traité

Filed under: liens externes de wikipedia — Matthieu @ 19:12

La semaine dernière, il y a eu un petit problème avec le système d’archivage des liens externes, service offert par Linterweb, et qui permet de sauvegarder des archives des liens externes utilisés comme sources dans les articles.
Ce qui s’est passé, c’est qu’une lectrice consultant l’article Wikipédia La_Quatrième Prophétie a cliqué sur l’archive du lien de la première note, obtenant donc la page telle que sauvegardée dans le système de cache de notre moteur de recherche Wikiwix. Jusqu’ici, rien d’extraordinaire, donc.

Au-dessus de l’affichage de la page archivée, nous affichons quelques propriétés de l’archive, comme l’URL de la page archivée, la date d’archivage, comment nous contacter, comment les webmasters peuvent empêcher notre bot d’indexer leur site… en outre, depuis quelque temps, nous affichions aussi les trois liens apparaissant en tête des Résultats dans le web récent, une fonctionnalité récemment ajoutée à notre moteur de recherche. Ces liens ne sont pas des liens publicitaires. Ce sont des liens récemment twittés sur Twitter, et que notre moteur de recherche estime liés d’une manière ou une autre à la page archivée.

http://www.cprw.com/wp-content/themes/gazette/best-writing-paper.html

En aucune manière un clic sur l’un de ces liens ne rapporte de revenus à Linterweb. Les liens sont simplement générés par l’algorithme de recherche spécial Twitter que nous avons mis en place. Ces liens, en général extrêmement récents, complètent et enrichissent les résultats de recherche retournés normalement par Wikiwix ou, dans le cas présent, la page archivée. Vous pouvez voir un exemple de cette fonctionnalité de recherche spécial Twitter en cliquant sur le lien http://wikiwix.com/index.php?disp=!twitter/fr/&action=Wikipedia. L’idée est de renvoyer à des contenus récents liés aux termes de recherches ou à la page archivée. Quoi qu’il en soit, qu’il soit bien clair que nous ne gagnons absolument rien avec ces liens. La fonctionnalité est juste destinée à enrichir le service de cache que nous fournissons à Wikipédia.

Or donc, pour en revenir à nos moutons, voici que le premier de ces Résultats dans le web récent a amené notre Wikipédienne sur un site dédié au football, site que notre algorithme a jugé, pour une raison ou pour une autre, lié à la page archivée, et sur lequel étaient affichées quelques publicités sexy.

Donc, jouant de malchance (Wikipédia -> archive Wikiwix -> lien twitté sémantiquement lié à l’archive -> site de football -> pubs sexy), notre Wikipédienne est arrivée sur une page au contenu peu en rapport avec Wikipédia, et sans aucun doute inapproprié.

Nous sommes bien sûr désolés. Nous nous sentons en outre d’autant plus concernés qu’en plus de notre collaboration avec la Wikipédia francophone sur le système d’archivage et le moteur de recherche, nous fournissons aussi des services de moteur de recherche à Vikidia, un projet inspiré de Wikipédia, destiné aux enfants de 8 à 13 ans !! :-S C’est dire l’attention que nous portons à ce genre de problème (rappelons cependant qu’il existe aussi des logiciels de contrôle parental permettant aux parents de filtrer, au moins dans une certaine mesure, les contenus auxquels peut accéder leur enfant ; voir le site internetsanscrainte.fr, site officiel du programme national français de sensibilisation aux enjeux et risques de l’Internet, en particulier cette page : http://www.internetsanscrainte.fr/s-informer/boite-outils-controle-parental ; voir aussi l’article de Wikipédia Contrôle parental).

Par conséquent, nous travaillons maintenant sur des améliorations de nos algorithmes, afin de pouvoir éviter que de telles pages puissent s’immiscer parmi les Résultats récents présentés par Wikiwix. Et en attendant, nous avons bien sûr désactivé la fonctionnalité en question.

Si vous avez des commentaires, ne manquez pas de nous les laisser sur notre blog.

Bien cordialement 🙂 Matthieu.

Linterweb est une société d’informatique qui, depuis maintenant plusieurs années, développe un certain nombre de produits, dont la plupart sont liés de plus ou moins près à Wikipédia. Entre autres :

  • Wikiwix, un moteur de recherche sémantique qui restreint ses résultats aux articles des divers projets de la Fondation Wikimédia ; My Wikiwix, qui permet de disposer de son propre moteur de recherche personnalisable sur son propre site web ; wikiwix.mobi, une version mobile de Wikiwix ;
  • Okawix, le navigateur Wikipédia hors-ligne libre et gratuit qui permet de lire en mode déconnecté les articles des projets de la Fondation Wikimédia, aussi bien que des archives de votre propre site web ;
  • un DVD comprenant environ 2 000 articles de la Wikipédia anglophone ; une clef USB contenant la version 0.7 de la Wikipédia anglophone ;
  • un programme d’archivage des pages web externes à la Wikipédia (c’est-à-dire, les pages web qui ne font pas partie de Wikipédia, mais auxquelles mènent des liens placés dans les articles de la Wikipédia, dits liens externes), afin que ces pages web externes restent consultables, et que les liens externes ne donnent pas des liens brisés ; ce programme est automatiquement utilisé, en particulier, pour tous les liens externes de la Wikipédia francophone.

Powered by WordPress