在Squid设置中多管齐下防止蜘蛛频繁抓取

出自James Qi

跳转到: 导航, 搜索

所在位置:首页 > 日志 > 在Squid设置中多管齐下防止蜘蛛频繁抓取

--James Qi 2008年10月29日 (三) 00:07 (CST)

  我们的Wiki网站受到各种搜索引擎蜘蛛频繁抓取导致服务器负载过高的情况持续很长时间了,以前基本都是用封IP的办法解决。

  只用IP限制来对付猖獗的各种搜索引擎蜘蛛看来是不行,有可能2、3天服务器都很稳定,但也说不定什么时候又出来新的蜘蛛来骚扰,为了排查、处理一次,短则需要半个小时,长则需要半天的时间,真是恼人!

  用IP限制还有一个麻烦,就是怕把Baidu等误封了,于是还要想其它的办法。今天在Squid中进行了多种设置来联合起作用:

  1. 设置maxconn参数限制同一IP的并发访问数为20;
  2. 设置acl badbot browser Sosospider来屏蔽搜搜蜘蛛等已知名称的蜘蛛;(为此把useragent_log打开以便记录发现)
  3. 设置acl badurl url_regex Recentchangeslinked来屏蔽带特征内容的URL。(还可以用来屏蔽整个网站,代替以前用的Hosts文件)

  搜索引擎中保留了最大的三个:谷歌、百度和雅虎,其它的搜搜、搜狗、有道、奇虎什么的既不能带来流量,又频繁到访耽误事,统统给封了!

  希望这些办法能联合生效,解决好服务器的稳定性问题,让我们把注意力重新集中到网站的内容和组织发展上去。

标签:Squid, 搜索引擎, 蜘蛛
相关内容:
  1. 2008年11月22日 (六) 18:36: 给有道管理员的信(蜘蛛频率问题) ‎(100次浏览)
  2. 2008年11月11日 (二) 10:36: 为雅虎蜘蛛设置抓取频率限制 ‎(155次浏览)
  3. 2008年11月10日 (一) 11:14: 给搜搜蜘蛛(Sosospider)的信(请勿骚扰) ‎(222次浏览)
  4. 2008年11月6日 (四) 22:47: 启用Squid和MediaWiki的File Cache双重缓存 ‎(159次浏览)
  5. 2008年10月27日 (一) 22:01: 常见搜索引擎蜘蛛(爬虫、机器人)IP地址段 ‎(296次浏览)
  6. 2008年10月24日 (五) 12:32: 调整Squid反向代理参数提高命中率 ‎(210次浏览)
  7. 2008年10月18日 (六) 10:39: 关闭一些以前的Wiki网站 ‎(325次浏览)
  8. 2007年9月25日 (二) 13:20: Squid, apache, mysql的优化真是个麻烦事情! ‎(848次浏览)
  9. 2006年12月22日 (五) 08:14: 把搜索引擎的網頁快照做備份用 ‎(676次浏览)
  10. 2006年3月20日 (一) 12:59: 搜索在无线、购物这两个方面很有前景,社区搜索、博客搜索也很火爆,应该还有更多的搜 ‎(88次浏览)
  11. 2006年3月19日 (日) 12:25: Google Dance Party: IT也可以这么热闹 ‎(686次浏览)
  12. 2006年2月12日 (日) 03:08: 搜索引擎关键词被搜索次数 ‎(931次浏览)


别名:用Squid来限制搜索引擎蜘蛛的访问Squid中屏蔽蜘蛛抓取

用户留言:
目前暂无留言
新增留言

个人工具