<?xml version="1.0" encoding="UTF-8"?><rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
		>
<channel>
	<title>Comments on: Liens externes de Wikipedia</title>
	<atom:link href="http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/feed/" rel="self" type="application/rss+xml" />
	<link>http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/</link>
	<description></description>
	<lastBuildDate>Sat, 13 Mar 2010 17:06:04 +0100</lastBuildDate>
	<generator>http://wordpress.org/?v=2.8.6</generator>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
		<item>
		<title>By: Pascal Martin</title>
		<link>http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/comment-page-1/#comment-19</link>
		<dc:creator>Pascal Martin</dc:creator>
		<pubDate>Mon, 21 Jul 2008 12:56:56 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-19</guid>
		<description>Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.</description>
		<content:encoded><![CDATA[<p>Des sites comme archive.org, ou bien les fonctions cache des moteurs de recherche sont autorisé à le faire. Donc il me paraît normal de pouvoir réaliser un cache dédié au projet de la Fondation.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Jérôme</title>
		<link>http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/comment-page-1/#comment-18</link>
		<dc:creator>Jérôme</dc:creator>
		<pubDate>Mon, 21 Jul 2008 12:34:24 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-18</guid>
		<description>Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?</description>
		<content:encoded><![CDATA[<p>Ces articles seront-ils visibles publiquement et pour toujours ? Avez-vous négocié des droits de republication avec les éditeurs ?</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Nytux</title>
		<link>http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/comment-page-1/#comment-12</link>
		<dc:creator>Nytux</dc:creator>
		<pubDate>Tue, 24 Jun 2008 13:31:32 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-12</guid>
		<description>En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations &quot;annexes&quot; à chaque article : catégories, extrait du texte, image ... Nous comptons nous servir de ce cache pour analyser les liens externes.</description>
		<content:encoded><![CDATA[<p>En fait, notre moteur de recherche conserve les articles de wikipedia en cache afin de pouvoir fournir différentes informations &#8220;annexes&#8221; à chaque article : catégories, extrait du texte, image &#8230; Nous comptons nous servir de ce cache pour analyser les liens externes.</p>
]]></content:encoded>
	</item>
	<item>
		<title>By: Darkoneko</title>
		<link>http://blog.wikiwix.com/fr/2008/06/24/liens-externes-de-wikipedia/comment-page-1/#comment-11</link>
		<dc:creator>Darkoneko</dc:creator>
		<pubDate>Tue, 24 Jun 2008 13:18:31 +0000</pubDate>
		<guid isPermaLink="false">http://blog.wikiwix.com/?p=15#comment-11</guid>
		<description>Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes ...
Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu&#039;accessoirement, si un dev vois ça, le robot va être bloqué...)

Bref, si vous voulez un conseil : &lt;a href=&quot;http://download.wikimedia.org/backup-index.html&quot; rel=&quot;nofollow&quot;&gt;là&lt;/a&gt; =&gt; chargez le dernier dump de la base frwiki (enfin plus précisement &lt;a href=&quot;http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-externallinks.sql.gz&quot; rel=&quot;nofollow&quot;&gt; la table externallinks&lt;/a&gt; et &lt;a href=&quot;http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-pages-articles.xml.bz2&quot; rel=&quot;nofollow&quot;&gt;le dump &quot;articles&quot; de la table page (pour avoir le nom de l&#039;article)&lt;/a&gt;), et travaillez avec ça.</description>
		<content:encoded><![CDATA[<p>Donc vous comptez récupérer le contenu de 670 000 pages avec un crawler juste pour avoir leurs liens externes &#8230;<br />
Euh, vous vous rendez un peu compte de la charge serveur que ça va induire ? (et qu&#8217;accessoirement, si un dev vois ça, le robot va être bloqué&#8230;)</p>
<p>Bref, si vous voulez un conseil : <a href="http://download.wikimedia.org/backup-index.html" rel="nofollow">là</a> =&gt; chargez le dernier dump de la base frwiki (enfin plus précisement <a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-externallinks.sql.gz" rel="nofollow"> la table externallinks</a> et <a href="http://download.wikimedia.org/frwiki/20080614/frwiki-20080614-pages-articles.xml.bz2" rel="nofollow">le dump &#8220;articles&#8221; de la table page (pour avoir le nom de l&#8217;article)</a>), et travaillez avec ça.</p>
]]></content:encoded>
	</item>
</channel>
</rss>
