Commentaires sur : Liens externes de Wikipedia

Par : Pascal Martin

Pascal Martin — Mon, 21 Jul 2008 12:56:56 +0000

Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.

Par : Jérôme

Jérôme — Mon, 21 Jul 2008 12:34:24 +0000

Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?

Par : Nytux

Nytux — Tue, 24 Jun 2008 13:31:32 +0000

En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations « annexes » à chaque article : catégories, extrait du texte, image … Nous comptons nous servir de ce cache pour analyser les liens externes.

Par : Darkoneko

Darkoneko — Tue, 24 Jun 2008 13:18:31 +0000

Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes ... Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu'accessoirement, si un dev vois ça, le robot va être bloqué...) Bref, si vous voulez un conseil : là => chargez le dernier dump de la base frwiki (enfin plus précisement la table externallinks et le dump "articles" de la table page (pour avoir le nom de l'article)), et travaillez avec ça.