人工搜索Mahalo.com研究
--James Qi(讨论) 2007年10月25日 (四) 15:29
为了准备我们未来的关键词搜索Wiki想法,最近找了一些相关搜索网站来研究,我会陆续把研究记录放在日志中。
先来看看人工搜索的新贵Mahalo.com,这是我目前在网上找到与我们的想法最接近的项目。
目录
简介
Mahalo是夏威夷语“谢谢你”的意思(Wiki也是夏威夷语,现在网络上世道真是变了,夏威夷语这么流行 )。
它是由业内知名的搜索引擎专家Jason Calacanis创建,此人把以前创办的Weblogs Inc以2500万美元的价格出售给AOL,这次在2007年5月30日推出了号称第一人工搜索引擎的Mahalo,引起VC界的关注,刚开始就获得不少投资。在网上搜索到的一些中文介绍都是6月初发布的,我到10月才开始关注、看到,真是落伍了!
下面摘录一点报道中的内容:
Mahalo 是世界上第一个台人肉搜索引擎,他们由一些热心人提供动力,这些人废寝忘食地将自己的青春花费在搜索上面,帮你过滤掉垃圾信息,手工编辑最佳的搜索结果,而且如果没有你需要的结果,还可以向他们提交搜索申请 ……
Mahalo 不收录的网页:
- 垃圾邮件网站;
- 非垃圾邮件站点但包含欺诈性广告的站点;
- 恶意获取个人信息的站点;
- 只会复制重不原创的站点;
- 非法复制内容(没获得许可)的站点;
- 火星人建立的站点;
- 成人内容或者令人恶心的内容的站点。
Mahalo 收录的网页:
- 在某个领域权威的站点;
- 高品质原创内容的站点;
- 运作一年以上的站点;
- 涉及清爽,广告在可以忍受的范围之内的站点。
上面是他们自己介绍的,虽然翻译得不好,但它其实是一个严肃的项目,创建人是搜索领域赫赫有名的 Jason Calacanis。这一项目的原动力在于,虽然搜索词是不可限定的,但事实上有一万个搜索词占据了所有搜索 24% 的份额,人工编选的结果和机器搜索其实是很容易很出来的,而那 76% 的“长尾”,就留给 Google 好了。
CNET 对它的评介是,搜索结果匹配度非常地高。
平台
打开他们网站 http://www.mahalo.com 看看,因为我成天接触Wiki用的MediaWiki软件,所以马上就发现该网站所用平台与MediaWiki惊人相识,同样有Category、History等,今天上午再仔细看看,确实就是用的在开放源代码软件MediaWiki基础上修改过的系统做为平台(这点上与WikiHow相同),不过他们修改的幅度比较大,主要是适应他们的一些特点,例如不允许浏览用户编辑但可以推荐和讨论,也增加了很多插件来实现他们需要的功能和界面。
页面打开特别快,不像其它一些国外的英文网站打开很慢。我故意打错一个链接,看到Squid出错的提示,看来也是用了与MediaWiki配合做缓存的Squid服务器。
使用MediaWiki平台来做各种网站项目确实是个好的办法,上面的两个例子网站都是很知名的了,我们自己现在也是这样做,但我们现在还没有找人来进行针对性开发,以后是需要的。
内容
该项目目前是全英文的。
首页上有一个搜索框,然后下面是分类及热点文章。
5月30日推出的时候有4000个关键词,当时说到今年年底准备做10000个关键词。
我在页面底部看到“Mahalo's goal is to hand-write the top 20,000 search terms. ”,也就是他们准备做20000个搜索量最大的关键词出来。
从已经做好的文章内容来看,质量是没有话说的,远比通用搜索引擎(例如Google, Yahoo!等)给出的结果好,到底是人脑厉害!
页面
进入一个典型的关键词Paris Hotels页面后,看到:
上方
包括:
- 返回首页链接
- 搜索框
- 分类
左侧
包括:
- 标题
- 相关文章(See Also, Do You Mean)
- 推荐Top 7网站
- 其它标题(例如与关键词相关的新闻、视频、历史等)及推荐网站
- 相关搜索(指向更多的相关内部文章)
右侧
包括:
- LOGO
- 编辑笔记
- 快速内容
- 最多推荐链接
- 分享本页
- 今日热门页面Top 10
- 图标含义(Warnings / Guide's Choice / What is?)
下方
包括:
- 作者名称及链接
- 浏览者推荐链接
- 最近更新时间、查看历史链接
- 搜索框
- 分类
- 到博客和Greenhouse(参加编辑的项目组织网站)的链接
- 使用说明、隐私政策
组织
他们招聘有40位专职的编辑人员,另外通过 Greenhouse 招收业余兼职编辑,每篇符合要求的文章付费10-15美元。对编辑人员进行分级别。
按照他们自己的说法,写一篇文章一般需要几个小时。然后还有定期的后续维护。
给编辑人员的帮助我重点看了看,包括编辑内容的质量要求、格式的编排、准备的模板等,准备得还是很充分的。
其它
其它的一些了解到内容:
- 无结果页面:对于还没有编写内容的关键词,系统会给出相关文章列表和Google搜索结果
- 收益:以后靠广告收入,目前专注于高质量内容的建设,另外通过Google搜索结果中的广告可以分享收入
标签:搜索、人工搜索、Mahalo、关键词、MediaWiki。 |
相关内容:
|
关于“人工搜索Mahalo.com研究”的留言:
祁总,是否能考虑将18DAO做成Wiki内容联盟
留言: --221.234.200.74 2007年10月27日 (六) 14:35 (CST)
祁总,是否能考虑将18DAO做成Wiki内容联盟,让各个专业/行业网站可申请加盟,将代码放自己网上上,同时,大部分称职站长都是好编辑者哟,还可以将代码放博客上。当然,这个系统需要重新开发。技术研发还是很重要地呵呵。
另,我用的武汉电信ADSL访问过来都好慢,是不是太热闹了带宽没跟上?
又,027.COM的错误MS还没有更改,执行力的问题?很多公司都这样啊。。。
(豆豉鲮鱼)
回复:--James Qi(讨论) 2007年10月29日 (一) 10:37 (CST)
- 18dao.org做的是Wiki群,向后发展其实也有点类似你说的Wiki联盟,但从近半年来的实践情况来看,效果不理想,Wiki用在一般网站上有一定局限和难度,见效也比较慢,我们正在酝酿一个集中大家力量来做的Wiki网站,相对上手也简单,不久就会拿出来;
- 网站访问慢事出有因,还不是带宽的问题,我们正在解决;
- 真是不好意思,我刚问了同事,他们把另外一处错误修改了,却没有发现还有这个错误,我马上督促把027.com修改过来!
继续研究Mahalo
留言:这是一个很好的参考,可以在我们的项目初期节约我们不少时间。--James Qi(讨论) 2007年11月12日 (二) 22:27 (CST)
下面是几个转过来的内容:Mahalo的团队、Mahalo的分类、Mahalo的模板。
另外,增加了RSS功能后,还可以看看他们的博客新文章:
http://blog.mahalo.com/?feed=rss2
新增留言
--58.62.225.239 (IP 位置 | 谁是 | 贡献) 2009年10月30日 (五) 12:37 (CST)
留言: 好文章,学习!