Nous allons dans les prochains jours lancé un robot d’indexation sur les liens externes de Wikipedia, à ce titre là nous pourrions fournir à la communauté des retours automatiques concernant l’état du lien , la pertinence du lien , la langue du lien.
L’état du lien correspond en fait au code renvoyé par Apache , en fonction de ce code, soit le lien est valide soit il ne l’est pas. Ainsi, nous pourrons faire remonter à la communauté Wikipedienne les liens dits morts ou en redirections.
La pertinence du lien peut être assimilée à une recherche sélective dont C2040-918nous faisons allusion dans le précédent post, c’est à dire que si le lien ne renvoie pas l’article de WP dont il est issue c’est qu’il y a un doute.
La langue peut être détecté au moment du crawl ainsi le fait d’étiqueter la langue d’un lien peut être un plus dans Wikipedia.
Si vous avez des améliorations concernant le
00M-638 travail à fournir, faites nous part.
Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes …
Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu’accessoirement, si un dev vois ça, le robot va être bloqué…)
Bref, si vous voulez un conseil : là => chargez le dernier dump de la base frwiki (enfin plus précisement la table externallinks et le dump « articles » de la table page (pour avoir le nom de l’article)), et travaillez avec ça.
Commentaire by Darkoneko — 24 juin 2008 @ 15:18
En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations « annexes » à chaque article : catégories, extrait du texte, image … Nous comptons nous servir de ce cache pour analyser les liens externes.
Commentaire by Nytux — 24 juin 2008 @ 15:31
Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?
Commentaire by Jérôme — 21 juillet 2008 @ 14:34
Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.
Commentaire by Pascal Martin — 21 juillet 2008 @ 14:56