<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	>
<channel>
	<title>Commentaires sur : Liens externes de Wikipedia</title>
	<atom:link href="http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/</link>
	<description></description>
	<pubDate>Wed, 07 Jan 2009 08:37:43 +0000</pubDate>
	<generator>http://wordpress.org/?v=2.5.1</generator>
		<item>
		<title>Par : Pascal Martin</title>
		<link>http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/#comment-19</link>
		<dc:creator>Pascal Martin</dc:creator>
		<pubDate>Mon, 21 Jul 2008 12:56:56 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-19</guid>
		<description>Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.&lt;div class="comment-remix-meta"&gt;&lt;a href="#" class="replyto" onclick="replyto('19','Pascal Martin'); return false;"&gt;Répondre&lt;/a&gt;  - &lt;a href="#" class="quote" onclick="quote('19','Pascal Martin','Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autoris&#195;&#169; &#195;&#160; le faire. Donc il me para&#195;&#174;t normal de pouvoir r&#195;&#169;aliser un cache d&#195;&#169;di&#195;&#169; au projet de la Fondation.'); return false;"&gt;Citer&lt;/a&gt;&lt;/div&gt;</description>
		<content:encoded><![CDATA[<p>Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.
<div class="comment-remix-meta"><a href="#" class="replyto" onclick="replyto('19','Pascal Martin'); return false;">Répondre</a>  - <a href="#" class="quote" onclick="quote('19','Pascal Martin','Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autoris&Atilde;&copy; &Atilde;&nbsp; le faire. Donc il me para&Atilde;&reg;t normal de pouvoir r&Atilde;&copy;aliser un cache d&Atilde;&copy;di&Atilde;&copy; au projet de la Fondation.'); return false;">Citer</a></div>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Jérôme</title>
		<link>http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/#comment-18</link>
		<dc:creator>Jérôme</dc:creator>
		<pubDate>Mon, 21 Jul 2008 12:34:24 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-18</guid>
		<description>Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?&lt;div class="comment-remix-meta"&gt;&lt;a href="#" class="replyto" onclick="replyto('18','J&#195;&#169;r&#195;&#180;me'); return false;"&gt;Répondre&lt;/a&gt;  - &lt;a href="#" class="quote" onclick="quote('18','J&#195;&#169;r&#195;&#180;me','Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous n&#195;&#169;goci&#195;&#169; des droits de republication avec les &#195;&#169;diteurs ?'); return false;"&gt;Citer&lt;/a&gt;&lt;/div&gt;</description>
		<content:encoded><![CDATA[<p>Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?
<div class="comment-remix-meta"><a href="#" class="replyto" onclick="replyto('18','J&Atilde;&copy;r&Atilde;&acute;me'); return false;">Répondre</a>  - <a href="#" class="quote" onclick="quote('18','J&Atilde;&copy;r&Atilde;&acute;me','Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous n&Atilde;&copy;goci&Atilde;&copy; des droits de republication avec les &Atilde;&copy;diteurs ?'); return false;">Citer</a></div>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Nytux</title>
		<link>http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/#comment-12</link>
		<dc:creator>Nytux</dc:creator>
		<pubDate>Tue, 24 Jun 2008 13:31:32 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-12</guid>
		<description>En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations "annexes" à chaque article : catégories, extrait du texte, image ... Nous comptons nous servir de ce cache pour analyser les liens externes.&lt;div class="comment-remix-meta"&gt;&lt;a href="#" class="replyto" onclick="replyto('12','Nytux'); return false;"&gt;Répondre&lt;/a&gt;  - &lt;a href="#" class="quote" onclick="quote('12','Nytux','En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir diff&#195;&#169;rentes informations \&#34;annexes\&#34; &#195;&#160; chaque article : cat&#195;&#169;gories, extrait du texte, image ... Nous comptons nous servir de ce cache pour analyser les liens externes.'); return false;"&gt;Citer&lt;/a&gt;&lt;/div&gt;</description>
		<content:encoded><![CDATA[<p>En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations &#8220;annexes&#8221; à chaque article : catégories, extrait du texte, image &#8230; Nous comptons nous servir de ce cache pour analyser les liens externes.
<div class="comment-remix-meta"><a href="#" class="replyto" onclick="replyto('12','Nytux'); return false;">Répondre</a>  - <a href="#" class="quote" onclick="quote('12','Nytux','En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir diff&Atilde;&copy;rentes informations \&quot;annexes\&quot; &Atilde;&nbsp; chaque article : cat&Atilde;&copy;gories, extrait du texte, image ... Nous comptons nous servir de ce cache pour analyser les liens externes.'); return false;">Citer</a></div>
]]></content:encoded>
	</item>
	<item>
		<title>Par : Darkoneko</title>
		<link>http://blog.wikiwix.com/2008/06/24/liens-externes-de-wikipedia/#comment-11</link>
		<dc:creator>Darkoneko</dc:creator>
		<pubDate>Tue, 24 Jun 2008 13:18:31 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-11</guid>
		<description>Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes ...
Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu'accessoirement, si un dev vois ça, le robot va être bloqué...)

Bref, si vous voulez un conseil : &lt;a href="http://download.wikimedia.org/backup-index.html" rel="nofollow"&gt;là&lt;/a&gt; =&#62; chargez le dernier dump de la base frwiki (enfin plus précisement &lt;a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-externallinks.sql.gz" rel="nofollow"&gt; la table externallinks&lt;/a&gt; et &lt;a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-pages-articles.xml.bz2" rel="nofollow"&gt;le dump "articles" de la table page (pour avoir le nom de l'article)&lt;/a&gt;), et travaillez avec ça.&lt;div class="comment-remix-meta"&gt;&lt;a href="#" class="replyto" onclick="replyto('11','Darkoneko'); return false;"&gt;Répondre&lt;/a&gt;  - &lt;a href="#" class="quote" onclick="quote('11','Darkoneko','Donc vous comptez r&#195;&#169;cup&#195;&#169;rer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes ...\r\nEuh, vous vous rendez un peu compte de la charge serveur que &#195;&#167;a va induire ? (et qu\'accessoirement, si un dev vois &#195;&#167;a, le robot va &#195;&#170;tre bloqu&#195;&#169;...)\r\n\r\nBref, si vous voulez un conseil : &#60;a href=\&#34;http:\/\/download.wikimedia.org\/backup-index.html\&#34; rel=\&#34;nofollow\&#34;&#62;l&#195;&#160;&#60;\/a&#62; =&#38;gt; chargez le dernier dump de la base frwiki (enfin plus pr&#195;&#169;cisement &#60;a href=\&#34;http:\/\/download.wikimedia.org\/frwiki\/20080614\/frwiki-20080614-externallinks.sql.gz\&#34; rel=\&#34;nofollow\&#34;&#62; la table externallinks&#60;\/a&#62; et &#60;a href=\&#34;http:\/\/download.wikimedia.org\/frwiki\/20080614\/frwiki-20080614-pages-articles.xml.bz2\&#34; rel=\&#34;nofollow\&#34;&#62;le dump \&#34;articles\&#34; de la table page (pour avoir le nom de l\'article)&#60;\/a&#62;), et travaillez avec &#195;&#167;a.'); return false;"&gt;Citer&lt;/a&gt;&lt;/div&gt;</description>
		<content:encoded><![CDATA[<p>Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes &#8230;<br />
Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu&#8217;accessoirement, si un dev vois ça, le robot va être bloqué&#8230;)</p>
<p>Bref, si vous voulez un conseil : <a href="http://download.wikimedia.org/backup-index.html" rel="nofollow">là</a> =&gt; chargez le dernier dump de la base frwiki (enfin plus précisement <a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-externallinks.sql.gz" rel="nofollow"> la table externallinks</a> et <a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-pages-articles.xml.bz2" rel="nofollow">le dump &#8220;articles&#8221; de la table page (pour avoir le nom de l&#8217;article)</a>), et travaillez avec ça.
<div class="comment-remix-meta"><a href="#" class="replyto" onclick="replyto('11','Darkoneko'); return false;">Répondre</a>  - <a href="#" class="quote" onclick="quote('11','Darkoneko','Donc vous comptez r&Atilde;&copy;cup&Atilde;&copy;rer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes ...\r\nEuh, vous vous rendez un peu compte de la charge serveur que &Atilde;&sect;a va induire ? (et qu\'accessoirement, si un dev vois &Atilde;&sect;a, le robot va &Atilde;&ordf;tre bloqu&Atilde;&copy;...)\r\n\r\nBref, si vous voulez un conseil : &lt;a href=\&quot;http:\/\/download.wikimedia.org\/backup-index.html\&quot; rel=\&quot;nofollow\&quot;&gt;l&Atilde;&nbsp;&lt;\/a&gt; =&amp;gt; chargez le dernier dump de la base frwiki (enfin plus pr&Atilde;&copy;cisement &lt;a href=\&quot;http:\/\/download.wikimedia.org\/frwiki\/20080614\/frwiki-20080614-externallinks.sql.gz\&quot; rel=\&quot;nofollow\&quot;&gt; la table externallinks&lt;\/a&gt; et &lt;a href=\&quot;http:\/\/download.wikimedia.org\/frwiki\/20080614\/frwiki-20080614-pages-articles.xml.bz2\&quot; rel=\&quot;nofollow\&quot;&gt;le dump \&quot;articles\&quot; de la table page (pour avoir le nom de l\'article)&lt;\/a&gt;), et travaillez avec &Atilde;&sect;a.'); return false;">Citer</a></div>
]]></content:encoded>
	</item>
</channel>
</rss>
