CAD设计论坛

 找回密码
 立即注册
论坛新手常用操作帮助系统等待验证的用户请看获取社区币方法的说明新注册会员必读(必修)
查看: 1451|回复: 0

[经验] 【转载】即将到来的搜索引擎暗网之战

[复制链接]
发表于 2009-7-28 23:35 | 显示全部楼层 |阅读模式
前一段,Google索引的网址数量突破1兆。本来可喜可贺,没想到《纽约时报》的专栏专家倒打一耙,说“尽管突破1兆,但还差得远,Google的终极克星就是还没索引到的deep web。”

关于deep web(暗网),说白了,它就是搜索引擎和web内容的一场“猫捉老鼠”游戏。

你在明,他在暗,猫要怎么才能抓到老鼠?办法只有两种,一种是猫不眠不休拼命去抓;一种就是设计引诱老鼠主动送货上门。

Google主张前者,即以机器人主动抓取,百度主张后者,即以合作的方式“诱捕”暗网内容。这两种截然不同的思路必然将在未来有一场PK。

1、Google早就推出了“深度搜索”技术,但现实是,现在互联网暗网产生的速度远远快于抓取的速度,也就是说互联网正在变得越来越“暗”。这也是《纽约时报》质疑的焦点。

2、百度的“阿拉丁”是个开放性平台,体系中的三方——用户、搜索引擎、网站均能得到好处,这将让事情的进展事半功倍。这也是Yahoo选择类似思路的主要原因。开放必然是未来互联网的趋势。

3、从实际体验来看,“阿拉丁”的搜索结果明显好于Google。大家可以试试“天气”、“CCTV节目表”、“中国石油”、“意甲积分”等。出现的结果比较符合用户的搜索预期。这其实并非偶然,设想:搜索引擎的爬虫再先进,也肯定不如网站自身了解自己的目标用户及最优质数据是哪些。所以,由网站直接提交的数据往往是最符合用户需要的。

4、“阿拉丁”效率更高。一个典型的例子就是:百度可以与携程合作,将机票和酒店的信息嫁接过来。但Google只能重复做一遍携程做过的事,做一个小型的机票酒店垂直搜索。要记得,这只是两个行业,如果是成百上千个行业,恐怕Google得累死了。

5、“阿拉丁”更有灵活性。由于展示的方式、位置、关键词、爬虫抓取频率都是网站按照自身实际情况设定的,所以其展示上更加自由。是表格?还是图片,都有站长来确定。当然,Google的结果也有些无序。

6、大量搜索引擎后来者都采取的是“合作”。比如前一段发布的WolframAlpha,其实就是一个应对暗网的典范,你在上面搜索关键词,获得的是直接结果。WolframAlpha采取的方式是和一些数据机构合作,让暗网主动送上门。

如此看来,似乎百度处于上风。不过这是一场持续的战争,也许要再过几年才能真正下结论。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

关于|免责|隐私|版权|广告|联系|手机版|CAD设计论坛

GMT+8, 2024-11-23 11:10

CAD设计论坛,为工程师增加动力。

© 2005-2024 askcad.com. All rights reserved.

快速回复 返回顶部 返回列表