<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>飞晏博客 &#187; 蜘蛛</title>
	<atom:link href="http://www.feiyan.info/tag/spider/feed" rel="self" type="application/rss+xml" />
	<link>http://www.feiyan.info</link>
	<description>关注网络营销和网站设计开发的原创博客</description>
	<lastBuildDate>Wed, 28 Jul 2010 08:06:56 +0000</lastBuildDate>
	<language>en</language>
	<sy:updatePeriod>hourly</sy:updatePeriod>
	<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.0</generator>
		<item>
		<title>WordPress统计搜索引擎蜘蛛抓取记录</title>
		<link>http://www.feiyan.info/338.html</link>
		<comments>http://www.feiyan.info/338.html#comments</comments>
		<pubDate>Wed, 21 Apr 2010 11:23:19 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[WordPress]]></category>
		<category><![CDATA[插件]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.feiyan.info/338.html</guid>
		<description><![CDATA[利用Google管理员工具和其他一些基于JavaScript的程序可以很方便的统计搜索引擎的spider抓取我们网站的行为，根据统计所得到的数据区发现网站存在的问题是一个网站管理员或者SEOer必备的能力，我们可以从中获知网站上面的那些页面深受欢迎，那些页面搜索引擎抓取不到。举个例子，如果你网站上面的某个页面深受Google或者百度spider的青睐，那么可以在这个页面上增加一些其他页面的链接，一页得道，网站升天！ 使用插件：WordPress Crawl Rate Tracker 折腾九死一生通过备案的就差钱的时候，我曾想过使用这个插件，老外做的这个插件除了没有百度、搜狗的统计之外还是非常不错的，在后台可以生成搜索引擎蜘蛛抓取网站的详细报表和页面，主要特性如下： 1. 抓取Google、Yahoo和MSN(Bing)三个搜索引擎(更适合英文网站)。 2. 可以查看每个spider抓取任意页面的详细时间。 3. 可以监测抓取超时。 4. 发现抓取频率和PageRank的关系（这个满牛X的）。 下载地址：WordPress Crawl Rate Tracker。 使用PHP代码生成简单的搜索引擎蜘蛛抓取统计（非插件） 以前用Zblog的时候也用过类似的代码，飞晏博客最风光的时候每天被蜘蛛啃得遍体鳞伤的。因为各大搜索引擎的蜘蛛爬行程序都有自己的标识符，例如谷歌的是googlebot，百度的是 baiduspider，它们可以通过查询_SERVER变量中的HTTP_USER_AGENT参数来获取，再结合HTTP_REFERER记录下 URL的来源，最后用 nowtime()函数取得当前的系统时间，就形成了一条简单的擎蜘蛛爬行记录。代码如下： &#60;?php function get_naps_bot() { $useragent = strtolower($_SERVER['HTTP_USER_AGENT']); if (strpos($useragent, 'googlebot') !== false){ return 'Googlebot'; } if (strpos($useragent, 'msnbot') !== false){ return 'MSNbot'; } if (strpos($useragent, 'slurp') !== false){ return 'Yahoobot'; } if [...]]]></description>
			<content:encoded><![CDATA[<p>利用Google管理员工具和其他一些基于<a href="http://www.feiyan.info/category/program/js">JavaScript</a>的程序可以很方便的统计搜索引擎的spider抓取我们网站的行为，根据统计所得到的数据区发现网站存在的问题是一个网站管理员或者SEOer必备的能力，我们可以从中获知网站上面的那些页面深受欢迎，那些页面搜索引擎抓取不到。举个例子，如果你网站上面的某个页面深受Google或者百度spider的青睐，那么可以在这个页面上增加一些其他页面的链接，一页得道，网站升天！</p>
<h5>使用插件：WordPress Crawl Rate Tracker</h5>
<p>折腾九死一生通过备案的<a href="http://www.jiuchaqian.info">就差钱</a>的时候，我曾想过使用这个插件，老外做的这个插件除了没有百度、搜狗的统计之外还是非常不错的，在后台可以生成搜索引擎蜘蛛抓取网站的详细报表和页面，主要特性如下：</p>
<ul>
<li>1. 抓取Google、Yahoo和MSN(Bing)三个搜索引擎(更适合英文网站)。</li>
<li>2. 可以查看每个spider抓取任意页面的详细时间。</li>
<li>3. 可以监测抓取超时。</li>
<li>4. 发现抓取频率和PageRank的关系（这个满牛X的）。</li>
</ul>
<p style="text-align: center;"><img class="aligncenter" title="WordPress搜索引擎蜘蛛抓取统计" src="http://disk.feiyan.info/feiyan/img/crawl1.gif" alt="WordPress搜索引擎蜘蛛抓取统计" /></p>
<p style="text-align: center;"><img class="aligncenter" title="WordPress搜索引擎蜘蛛抓取统计" src="http://disk.feiyan.info/feiyan/img/crawl2.gif" alt="WordPress搜索引擎蜘蛛抓取统计" /></p>
<p style="text-align: center;"><img class="aligncenter" title="WordPress搜索引擎蜘蛛抓取统计" src="http://disk.feiyan.info/feiyan/img/crawl3.gif" alt="WordPress搜索引擎蜘蛛抓取统计" /></p>
<p>下载地址：<a href="http://disk.feiyan.info/feiyan/file/crawlrate.zip">WordPress Crawl Rate Tracker</a>。</p>
<p>使用PHP代码生成简单的搜索引擎蜘蛛抓取统计（非插件）</p>
<p>以前用Zblog的时候也用过类似的代码，飞晏博客最风光的时候每天被蜘蛛啃得遍体鳞伤的。因为各大搜索引擎的蜘蛛爬行程序都有自己的标识符，例如谷歌的是googlebot，百度的是 baiduspider，它们可以通过查询_SERVER变量中的HTTP_USER_AGENT参数来获取，再结合HTTP_REFERER记录下 URL的来源，最后用 nowtime()函数取得当前的系统时间，就形成了一条简单的擎蜘蛛爬行记录。代码如下：</p>
<pre class="brush: php;">
&lt;?php
function get_naps_bot()
{
  $useragent = strtolower($_SERVER['HTTP_USER_AGENT']);
  if (strpos($useragent, 'googlebot') !== false){
    return 'Googlebot';
  }
  if (strpos($useragent, 'msnbot') !== false){
    return 'MSNbot';
  }
  if (strpos($useragent, 'slurp') !== false){
    return 'Yahoobot';
  }
  if (strpos($useragent, 'baiduspider') !== false){
    return 'Baiduspider';
  }
  if (strpos($useragent, 'sohu-search') !== false){
    return 'Sohubot';
  }
  if (strpos($useragent, 'lycos') !== false){
    return 'Lycos';
  }
  if (strpos($useragent, 'robozilla') !== false){
    return 'Robozilla';
  }
  return false;
}
function nowtime(){
  $date=gmdate(&quot;Y-n-j H:i:s&quot;,time()+8*3600);
  return $date;
}
$searchbot = get_naps_bot();
if ($searchbot) {
  $tlc_thispage = addslashes($_SERVER['HTTP_USER_AGENT']);
  $url=$_SERVER['HTTP_REFERER'];
  $file=&quot;robotslogs.txt&quot;;
  $time=nowtime();
  $data=fopen($file,&quot;a&quot;);
  fwrite($data,&quot;Time:$time robot:$searchbot URL:$tlc_thispage\n&quot;);
  fclose($data);
}
?&gt;
</pre>
<p>复制代码保存为spider.php（注意编码格式），然后上传到你正在使用主题的目录下，最后在footer.php里面加上一段代码即可：</p>
<pre class="brush: php;">
&lt;?php include(&quot;robots.php&quot;) ?&gt;
</pre>
<p>随后在有搜索引擎蜘蛛抓取网站后，在根目录下面会生成一个robotslogs.txt文本，可以在代码中修改文件的名字或者增加想要统计的搜索引擎标志。</p>
<p>此代码可以用在任何动态和伪静态的PHP程序中，不足之处是不能统计每一个被抓去的页面，亟待高手改进。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.feiyan.info/338.html/feed</wfw:commentRss>
		<slash:comments>21</slash:comments>
		</item>
		<item>
		<title>店大欺客的百度搜索推广模式</title>
		<link>http://www.feiyan.info/317.html</link>
		<comments>http://www.feiyan.info/317.html#comments</comments>
		<pubDate>Mon, 08 Feb 2010 09:12:27 +0000</pubDate>
		<dc:creator>admin</dc:creator>
				<category><![CDATA[百度]]></category>
		<category><![CDATA[Google]]></category>
		<category><![CDATA[公司]]></category>
		<category><![CDATA[搜索引擎]]></category>
		<category><![CDATA[蜘蛛]]></category>

		<guid isPermaLink="false">http://www.feiyan.info/317.html</guid>
		<description><![CDATA[随着慢慢的开始louboutin的推广和编程开发，我已经基本上只使用Google了，百度懂中文，但是他不懂技术文档。闲暇时间帮朋友完成汽车用品的网站的模板后，习惯性site了一下，Google中规中矩的收录了50多页，百度依然是0。忽然想起来百度推广北京公司的某位大爷前些时间给我的朋友打电话说要他做搜索推广，那时候网站刚做起来也仅仅是为了展示，所以朋友就拒绝了，因此至今网站还没有被百度纳入法眼。 虽然不能100%的说百度不收录新站是因为没有做推广，但是这个网站自从开始运行，除了完善内部结构和内容和到几个主流搜索引擎提交之外没有做过任何优化推广，但是百度不仅仅没有收录过一篇文章，甚至蜘蛛都没有爬过一次，连MSN都隔三差五的光顾一次，百度你真是悲剧。 这几天N多博客都在讨论卢松松的博客被百度K掉的原因，我看到的一条是说卢松松的某个有商业价值的关键词在百度的排名非常可观，吸引了某位业务员的眼球，随后发生的事情大家估计都知道了。卢松松自己的博客上说可能是前一段封网域名停了几天导致的，但是相比之下我一个基本没有优化过的网站断网也大半个月，百度收录依旧，难道百度已经不屑于K这些微不足道的网站吗？可悲的是卢松松这样被百度拔掉的网站，人家都是辛辛苦苦做出来的，于情于理都应该给一个在算法规则内的排名，为了自己的利益而去人工干预搜索结果，纯属店大欺客。 百度这样做早就不是什么新鲜事情了，当然Google啊、有道搜索都有这样的业务员去联系一些商业公司或者网站，但是像百度这么无耻不厚道的前无古人，后也许会有来者。你Y搞一个搜索结果广告无可厚非，但是热门词汇的第一页全都是主题推广就有点太过分了，而且不答应你你就不去收录人家的网站，这就是卑鄙了，别以为你有CCAV撑腰你就嚣张。 商业公司在推广网站的时候或多或许都会遇到店大欺客的问题，我个人认为商业网站在做策划的时候不能简单的考虑哪些调查机构给出的数据，虽然百度和Google在中国市场是七三开，但是面向对象和使用对象的不同等因素直接决定搜索引擎对我们的价值！ 虽然这两天开始频繁更新博客之后，来自Google的流量已经是百度的两倍以上了，但是老实说现在谁都离不开百度那哗哗的流量，希望有一天百度不要总是以自己的利益为重，当然，前提是百度愿意放弃或者整改店大欺客的搜索推广模式。 坐等百度K掉飞晏博客。]]></description>
			<content:encoded><![CDATA[<p>随着慢慢的开始<a href="http://www.8-mall.com">louboutin</a>的推广和<a href="http://www.feiyan.info/category/program">编程开发</a>，我已经基本上只使用Google了，百度懂中文，但是他不懂技术文档。闲暇时间帮朋友完成汽车用品的网站的模板后，习惯性site了一下，Google中规中矩的收录了50多页，百度依然是0。忽然想起来百度推广北京公司的某位大爷前些时间给我的朋友打电话说要他做搜索推广，那时候网站刚做起来也仅仅是为了展示，所以朋友就拒绝了，因此至今网站还没有被百度纳入法眼。</p>
<p>虽然不能100%的说百度不收录新站是因为没有做推广，但是这个网站自从开始运行，除了完善内部结构和内容和到几个主流搜索引擎提交之外没有做过任何优化推广，但是百度不仅仅没有收录过一篇文章，甚至蜘蛛都没有爬过一次，连MSN都隔三差五的光顾一次，百度你真是悲剧。</p>
<p>这几天N多博客都在讨论卢松松的博客被百度K掉的原因，我看到的一条是说卢松松的某个有商业价值的关键词在百度的排名非常可观，吸引了某位业务员的眼球，随后发生的事情大家估计都知道了。卢松松自己的博客上说可能是前一段封网域名停了几天导致的，但是相比之下我一个基本没有优化过的网站断网也大半个月，百度收录依旧，难道百度已经不屑于K这些微不足道的网站吗？可悲的是卢松松这样被百度拔掉的网站，人家都是辛辛苦苦做出来的，于情于理都应该给一个在算法规则内的排名，为了自己的利益而去人工干预搜索结果，纯属店大欺客。</p>
<p>百度这样做早就不是什么新鲜事情了，当然Google啊、有道搜索都有这样的业务员去联系一些商业公司或者网站，但是像百度这么无耻不厚道的前无古人，后也许会有来者。你Y搞一个搜索结果广告无可厚非，但是热门词汇的第一页全都是主题推广就有点太过分了，而且不答应你你就不去收录人家的网站，这就是卑鄙了，别以为你有CCAV撑腰你就嚣张。</p>
<p>商业公司在推广网站的时候或多或许都会遇到店大欺客的问题，我个人认为商业网站在做策划的时候不能简单的考虑哪些调查机构给出的数据，虽然百度和Google在中国市场是七三开，但是面向对象和使用对象的不同等因素直接决定搜索引擎对我们的价值！</p>
<p>虽然这两天开始频繁更新博客之后，来自Google的流量已经是百度的两倍以上了，但是老实说现在谁都离不开百度那哗哗的流量，希望有一天百度不要总是以自己的利益为重，当然，前提是百度愿意放弃或者整改店大欺客的搜索推广模式。</p>
<p>坐等百度K掉<a title="关注网络营销和网站设计开发的原创博客" href="http://www.feiyan.info">飞晏博客</a>。</p>
]]></content:encoded>
			<wfw:commentRss>http://www.feiyan.info/317.html/feed</wfw:commentRss>
		<slash:comments>14</slash:comments>
		</item>
	</channel>
</rss>
