为雅虎蜘蛛设置抓取频率限制

出自James Qi

跳转到: 导航, 搜索

所在位置:首页 > 日志 > 为雅虎蜘蛛设置抓取频率限制

--James Qi 2008年11月11日 (二) 10:36 (CST)

  采取文件缓存等一些措施后,MediaWiki服务器的负载明显降低,但偶然还是会升高,这两天看到老网站区号查询邮编查询所在的服务器连续两个上午负载很高,正常访问困难,估计是因为这两个网站近期做了一些改版,有些蜘蛛来重新爬行吧。

  详细查看了access.log, usragent.log 两个文件,没有发现特别的IP来捣乱,却发现雅虎蜘蛛(Yahoo! Slurp 和 Yahoo! China Slurp)访问量最大,大约是百度蜘蛛(BaiduSpider)的5倍,是谷歌蜘蛛(googlebot)的10倍,而实际上网站来自雅虎的流量简直都在5%以下,要不是看在雅虎搜索还有一定名气的份上,真想象对待搜搜、有道、奇虎等的蜘蛛一样完全屏蔽起来。

  以前知道雅虎蜘蛛有个专门的指令可以放在robots.txt中来限制抓取频率:Crawl-delay,意思是两次抓取之间的间隔时间,开始用的是10,但实际日志中肯定不是10秒才访问一次,而是1秒钟有多次访问。

  后来查询资料,说是因为雅虎美国、雅虎中国有两种蜘蛛,每种蜘蛛又有多组服务器可能会同时出击而不互相协调配合,真是垃圾技术啊,难怪雅虎搜索越来越差。为了达到限制频率,需要乘以40(雅虎共有越40组服务器),也就是Crawl-delay=400,在会实际两次抓取中间隔为10秒。

  上传了robots.txt以后,短期内雅虎蜘蛛还是快速爬行,可能是因为还没有读取更新的robots.txt,只有先在Squid中把Slurp全部拒绝再说,稍后再打开。

标签:雅虎, 蜘蛛
相关内容:
  1. 2008年11月22日 (六) 18:36: 给有道管理员的信(蜘蛛频率问题) ‎(104次浏览)
  2. 2008年11月10日 (一) 11:14: 给搜搜蜘蛛(Sosospider)的信(请勿骚扰) ‎(224次浏览)
  3. 2008年10月29日 (三) 00:07: 在Squid设置中多管齐下防止蜘蛛频繁抓取 ‎(164次浏览)
  4. 2008年10月27日 (一) 22:01: 常见搜索引擎蜘蛛(爬虫、机器人)IP地址段 ‎(299次浏览)
  5. 2008年5月16日 (五) 09:45: 汶川地震:谷歌、百度、雅虎热门关键词比较 ‎(852次浏览)


别名:雅虎的蜘蛛啊,你不要太勤快!雅虎的蜘蛛来访太频繁,需要设置抓取频率限制

用户留言:
目前暂无留言
新增留言

个人工具