Wikipedia & Linterweb

24 juin 2008

Liens externes de Wikipedia

Filed under: liens externes de wikipedia — Pascal Martin @ 14:30

Nous allons dans les prochains jours lancé un robot d’indexation sur les liens externes de Wikipedia, à ce titre là nous pourrions fournir à la communauté des retours automatiques concernant l’état du lien , la pertinence du lien , la langue du lien.
L’état du lien correspond en fait au code renvoyé par Apache , en fonction de ce code, soit le lien est valide soit il ne l’est pas. Ainsi, nous pourrons faire remonter à la communauté Wikipedienne les liens dits morts ou en redirections.
La pertinence du lien peut être assimilée à une recherche sélective dont C2040-918nous faisons allusion dans le précédent post, c’est à dire que si le lien ne renvoie pas l’article de WP dont il est issue c’est qu’il y a un doute.
La langue peut être détecté au moment du crawl ainsi le fait d’étiqueter la langue d’un lien peut être un plus dans Wikipedia.

herbal prednisone

Si vous avez des améliorations concernant le
00M-638 travail à fournir, faites nous part.

4 Comments »

  1. Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes …
    Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu’accessoirement, si un dev vois ça, le robot va être bloqué…)

    Bref, si vous voulez un conseil : => chargez le dernier dump de la base frwiki (enfin plus précisement la table externallinks et le dump « articles » de la table page (pour avoir le nom de l’article)), et travaillez avec ça.

    Commentaire by Darkoneko — 24 juin 2008 @ 15:18

  2. En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations « annexes » à chaque article : catégories, extrait du texte, image … Nous comptons nous servir de ce cache pour analyser les liens externes.

    Commentaire by Nytux — 24 juin 2008 @ 15:31

  3. Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?

    Commentaire by Jérôme — 21 juillet 2008 @ 14:34

  4. Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.

    Commentaire by Pascal Martin — 21 juillet 2008 @ 14:56

RSS feed for comments on this post. TrackBack URL

Leave a comment

Powered by WordPress