MediaWiki系统的Robots.txt

出自James Qi

跳转到: 导航, 搜索

所在位置:首页 > 日志 > MediaWiki系统的Robots.txt

--James Qi 2008年10月7日 (三) 22:31 (CST)

  小许帮忙分析造成我们服务器过忙的原因很可能不是别人故意攻击,而是一些搜索引擎蜘蛛来爬引起的。

  十一长假期间,我把Squid的access.log日志文件传了一份下来,对照squid.conf设置文件中已经屏蔽的IP详细研究,主要分三种情况:

  1. 看到以前有一些IP属于病急乱投医错误屏蔽的,后来这些IP也没有来过,或者只来过几次,显然不是攻击,而是普通浏览者,可以马上解封;
  2. 有一些屏蔽后在一周左右的时间中还有几百到几万的IP来访,详细查询IP地址归属、网上相关发贴,发现基本上都是搜索引擎的蜘蛛,有雅虎搜索、腾讯搜搜、百度搜索等,这些就解封观察;
  3. 有一个新近访问量特别多的,还不知道是否蜘蛛,暂时不解封。

  对于以上第二种情况发现解封后,某些网站的负载马上升高很多,又几乎让服务器无法访问,猜想可能是某些搜索引擎的蜘蛛不太明白MediaWiki系统造成爬行过量。

  MediaWiki系统的一个特点是站内链接特别多,每一个页面都对应有&action=edit, history, move, talk以及链出更改、链入页面、旧版本、新老版本比较等链接,这有利于人工操作、编辑,一些聪明的蜘蛛(例如Google Bot)来说不会迷路,但对于设计得不好的搜索引擎蜘蛛来说就沿着各种可能的链接到处乱窜,又因为这些蜘蛛的服务器强大、网络带宽充裕,可以对我们服务器进行非常密集的访问,就直接导致我们的服务器因为过载而瘫痪。

  于是和这些搜索引擎蜘蛛沟通就很重要了,最开始我们网站都没有Robots.txt,后来建了一个允许所有蜘蛛访问所有链接的Robots.txt,这当然也没有起到屏蔽的作用,十一放假前参考了维基百科、Mahalo等网站的Robots.txt文件,重新编辑了我们网站的Robots.txt,现在节后再次编辑进行更多链接屏蔽,还增加了部分蜘蛛遵守的参数Crawl-delay和Request-rate,希望能让搜索引擎蜘蛛更明白我们的意图,更友好地合作下去。

  与搜索引擎配合好至关重要,对它们的蜘蛛只好进行引导,强行屏蔽只能让它们放弃收录,不利于网站发展。希望这些改动能收到好的效果,继续观察看看。

附目前的Robots.txt:


# robots.txt file from 18dao wiki project
# add for www.18dao.cn by jamesqi 2008-9-27

User-agent: *
Disallow: /User*
Disallow: /QC*
Disallow: /Note*
Disallow: /Task*

Disallow: /skins
Disallow: /Special:Random
Disallow: /Special%3ARandom
Disallow: /Special:Search
Disallow: /Special%3ASearch
Disallow: /Special:Recentchangeslinked/
Disallow: /Special%3ARecentchangeslinked/
Disallow: /index.php?title=Special:Random
Disallow: /index.php?title=Special:%3ARandom
Disallow: /index.php?title=Special:Search
Disallow: /index.php?title=Special:%3ASearch
Disallow: /*action*
Disallow: /*oldid=*
Disallow: /*diff

Crawl-delay: 5           # set to 5 seconds to wait between successive requests to the same server
Request-rate: 1/5         # maximum rate is one page every 5 seconds

# Some bots are known to be trouble, particularly those designed to copy
# entire sites. Please obey robots.txt.
User-agent: sitecheck.internetseer.com
Disallow: /

User-agent: Zealbot
Disallow: /

User-agent: MSIECrawler
Disallow: /

User-agent: SiteSnagger
Disallow: /

User-agent: WebStripper
Disallow: /

User-agent: WebCopier
Disallow: /

User-agent: Fetch
Disallow: /

User-agent: Offline Explorer
Disallow: /

User-agent: Teleport
Disallow: /

User-agent: TeleportPro
Disallow: /

User-agent: WebZIP
Disallow: /

User-agent: linko
Disallow: /

User-agent: HTTrack
Disallow: /

User-agent: Microsoft.URL.Control
Disallow: /

User-agent: Xenu
Disallow: /

User-agent: larbin
Disallow: /

User-agent: libwww
Disallow: /

User-agent: ZyBORG
Disallow: /

User-agent: Download Ninja
Disallow: /

标签:MediaWiki, Robots.txt
相关内容:
  1. 2008年12月5日 (五) 23:00: MediaWiki的StringFunctions扩展 ‎(77次浏览)
  2. 2008年11月6日 (四) 22:47: 启用Squid和MediaWiki的File Cache双重缓存 ‎(160次浏览)
  3. 2008年10月21日 (二) 15:40: 启用MediaWiki的File Cache功能,生成静态HTML页面 ‎(308次浏览)
  4. 2008年10月18日 (六) 10:39: 关闭一些以前的Wiki网站 ‎(329次浏览)
  5. 2008年9月28日 (日) 22:48: 用Google Ajax Search API弥补MediaWiki中文站内搜索缺陷 ‎(241次浏览)
  6. 2008年9月27日 (六) 16:48: MediaWiki百度收录的问题 ‎(287次浏览)
  7. 2008年9月26日 (五) 09:32: MediaWiki的页面自动编辑保存AutoEdit ‎(233次浏览)
  8. 2008年9月20日 (六) 22:03: 再次用301永久重定向转移网站域名 ‎(231次浏览)
  9. 2008年8月14日 (四) 02:37: MediaWiki克隆繁体网站 ‎(364次浏览)
  10. 2008年5月16日 (五) 17:29: 用301永久重定向来转变域名 ‎(1,505次浏览)
  11. 2008年4月9日 (三) 23:27: 超强的MediaWiki扩展功能:DPL动态页面列表 ‎(970次浏览)
  12. 2008年3月19日 (三) 14:21: 在MediaWiki平台下模拟数据库功能 ‎(1,088次浏览)
  13. 2008年3月8日 (六) 00:18: 重新设计一把刀人工搜索的质量检验过程 ‎(797次浏览)
  14. 2007年12月24日 (一) 13:37: MediaWiki中重新生成搜索文本索引rebuildtextindex.php ‎(971次浏览)


别名:如何设置MediaWiki平台网站的Robots.txt设置Robots.txt来降低MediaWiki网站的负载

用户留言:

[编辑] 不错的robot.txt

留言:收了,感谢! --116.23.123.196 2008年10月11日 (日) 21:36 (CST)

新增留言

个人工具