baidu蜘蛛足迹分析

  • 作者:小飞 来源:趣飞商旅网 文章点击数:

  网上有网友写道baidu有个15天的观察期,不知道是不是真的。今天下午登陆了服务器,查看分析IIS日志文件。发现google和baidu都在我的网站上线第三天,也就是6月14日就拜访了我的网站,并且第一个访问的文件都是robots.txt,说明robots.txt文件是何等的重要。直到今天才发现yaho拜访了我的robots.txt文件,其他搜索引擎没发现足迹,这就是为什么国内搜索市场baidu和google占了8成以上市场的原因。我估计如果不是我申请yahoo的访问量统计工具,它不知道会不会拜访我。

  baidu和google的行动速度算是相当快,baidu的行动也毫不比google弱。从14号开始,这两个家伙基本上每天都访问我的网站,当然google的访问量相对来说比较频繁,但baidu也不弱到哪里去,基本上也是天天访问。具体观察了今天的日志,从凌晨0点8分开始,baidu蜘蛛就不断的来骚扰我睡觉,一直到下午17点,访问间隔基本上都是1个小时,从一开始只访问首页,到访问频道页,基本上都是成功的。随便摘了几条数据如下:

  2008-06-16 15:07:23 W3SVC1 202.104.188.69 GET /plus/rssmap.html - 80 - 220.181.32.5 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 0

  2008-06-17 04:09:07 W3SVC1 202.104.188.69 GET /index.html - 80 - 61.135.168.39 Baiduspider+(+http://www.baidu.com/search/spider.htm) 200 0 64

  2008-06-17 10:44:48 W3SVC1 202.104.188.69 GET /html/info/index.html - 80 - 220.181.32.5 Baiduspider+(+http://www.baidu.com/search/spider.htm) 304 0 0

  红色数字200表示正常请求完成,两个0不知道啥意思,64也不知道啥意思,哪位知道请解释一下,万分感谢。304表示未修改,就是未按预期修改文档,baidu还要看看你的内容是否经常更新,所以经常更新网站内容也是非常重要的。基本上没发现4xx(客户机中出现错误)和5xx(服务器出现错误)等错误信息,可以说相对比较友好。

  那么为什么baidu迟迟不肯收录我呢?到底它在等什么?在观察什么呢?我自己的想法是:

  第一、baidu对新站一定要观察一段时间,不管你是什么内容,都不收录,但是蜘蛛照常访问,等过了这段观察期后,马上就会放手大干了;

  第二、就是网站原创的内容比较少,这个想法有点不对,因为趣飞商旅网(www.trip36.com )除了航空资讯频道外,特价机票页面是原创内容来的,首页也是,为什么一开始就爬了首页,却不收录呢?有点想不通,只能用第一个想法来解释;

  第三、声明一下,我的域名是新注册的,排除以前被罚记录,我的服务器使用的是独立ip,排除多个站点使用同一ip受到牵连的可能性。

  所以,讲到最后,难道真的像网友说的要等15天?大家共同探讨一下,希望有经验的老鸟分析一下,或给点建议,万分感激!偶是新鸟,偶也继续观察,继续分享,谢谢各位支持!

Tags:百度 蜘蛛 robots
  • 相关文章

Copyright 2006-2008 Powered by Noheart.NET无心人网络 All Rights Reserved.

QQ:89232083 E-Mail:leijian212@163.com

豫ICP备08004854号