窗前一点雨 发表于 2009-7-28 23:35

【转载】即将到来的搜索引擎暗网之战

前一段,Google索引的网址数量突破1兆。本来可喜可贺,没想到《纽约时报》的专栏专家倒打一耙,说“尽管突破1兆,但还差得远,Google的终极克星就是还没索引到的deep web。”

关于deep web(暗网),说白了,它就是搜索引擎和web内容的一场“猫捉老鼠”游戏。

你在明,他在暗,猫要怎么才能抓到老鼠?办法只有两种,一种是猫不眠不休拼命去抓;一种就是设计引诱老鼠主动送货上门。

Google主张前者,即以机器人主动抓取,百度主张后者,即以合作的方式“诱捕”暗网内容。这两种截然不同的思路必然将在未来有一场PK。

1、Google早就推出了“深度搜索”技术,但现实是,现在互联网暗网产生的速度远远快于抓取的速度,也就是说互联网正在变得越来越“暗”。这也是《纽约时报》质疑的焦点。

2、百度的“阿拉丁”是个开放性平台,体系中的三方——用户、搜索引擎、网站均能得到好处,这将让事情的进展事半功倍。这也是Yahoo选择类似思路的主要原因。开放必然是未来互联网的趋势。

3、从实际体验来看,“阿拉丁”的搜索结果明显好于Google。大家可以试试“天气”、“CCTV节目表”、“中国石油”、“意甲积分”等。出现的结果比较符合用户的搜索预期。这其实并非偶然,设想:搜索引擎的爬虫再先进,也肯定不如网站自身了解自己的目标用户及最优质数据是哪些。所以,由网站直接提交的数据往往是最符合用户需要的。

4、“阿拉丁”效率更高。一个典型的例子就是:百度可以与携程合作,将机票和酒店的信息嫁接过来。但Google只能重复做一遍携程做过的事,做一个小型的机票酒店垂直搜索。要记得,这只是两个行业,如果是成百上千个行业,恐怕Google得累死了。

5、“阿拉丁”更有灵活性。由于展示的方式、位置、关键词、爬虫抓取频率都是网站按照自身实际情况设定的,所以其展示上更加自由。是表格?还是图片,都有站长来确定。当然,Google的结果也有些无序。

6、大量搜索引擎后来者都采取的是“合作”。比如前一段发布的WolframAlpha,其实就是一个应对暗网的典范,你在上面搜索关键词,获得的是直接结果。WolframAlpha采取的方式是和一些数据机构合作,让暗网主动送上门。

如此看来,似乎百度处于上风。不过这是一场持续的战争,也许要再过几年才能真正下结论。
页: [1]
查看完整版本: 【转载】即将到来的搜索引擎暗网之战