首页 百科知识 搜索的发展历程

搜索的发展历程

时间:2022-10-01 百科知识 版权反馈
【摘要】:用户只需提交一次搜索请求,由多元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果集中起来,处理后再返回给用户。由于专门用于检索信息的Robot程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为Spider程序。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。

1.3.1 搜索的产生

在1990年之前,一般情况下人们进行信息检索是到图书馆查阅大量书籍来获取自身需要的信息。

1990年,蒙特利尔的麦吉尔大学发明了Archie。Archie是第一个自动索引互联网上匿名FTP网站文件的程序,但它还不是真正的搜索引擎。Archie可以帮助用户在互联网的任意一个匿名FTP服务器上查找文章和目录。

1994年,第一个既可搜索又可浏览的分类目录EINet Galaxy上线,除了网站搜索,它还支持Gopher和Telnet搜索。同年,美籍华人杨致远等创办了Yahoo,随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。在这一年中,华盛顿大学开始了WebCrawler项目的研究。WebCrawler是互联网上第一个支持搜索文件内全部文字的搜索引擎,在它之前,用户只能通过URL和摘要搜索(摘要一般来自人工评论或程序自动摘取的正文前100个字)。随后的Infoseek是另一个重要的搜索引擎,它沿袭Yahoo的概念,并没有什么独特的革新。1995年,它与Netscape的战略性合作,使它成为一个强势搜索引擎。

1995年,一种新的搜索引擎形式出现了——多元搜索引擎。用户只需提交一次搜索请求,由多元搜索引擎负责转换处理后提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果集中起来,处理后再返回给用户。第一个多元搜索引擎是华盛顿大学硕士生开发出的Metacrawler。

1.3.2 搜索的发展

1990年以前,没有任何人能搜索互联网。1990年,加拿大麦吉尔大学计算机学院的师生开发出Archie。当时,万维网还没有出现,人们通过FTP来共享交流资源。Archie能定期搜集并分析FTP服务器上的文件名信息,提供查找分布在各个FTP主机中的文件。用户必须输入精确的文件名进行搜索。Archie告诉用户在哪个FTP服务器能下载该文件。虽然Archie搜集的信息资源不是网页(HTML文件),但和搜索引擎的基本工作方式是一样的,自动搜集信息资源,建立索引,提供检索服务。所以,Archie被公认为现代搜索引擎的鼻祖。Robot(机器人)一词对编程者有特殊的意义。Computer Robot是指某个能以人类无法达到的速度不断重复执行某项任务的自动程序。由于专门用于检索信息的Robot程序像蜘蛛一样在网络间爬来爬去,因此,搜索引擎的Robot程序被称为Spider程序。

1993年,Matthew Gray开发出World Wide Web Wanderer,这是第一个利用HTML网页之间的链接关系来检测万维网规模的机器人程序。开始,它仅仅用来统计互联网上的服务器数量,后来也能够捕获网址。

1994年4月,斯坦福大学的两名博士生,美籍华人杨致远和David Filo共同创办了Yahoo。随着访问量和收录链接数的增长,Yahoo目录开始支持简单的数据库搜索。Yahoo的数据是手工输入的,所以不能真正被归为搜索引擎。事实上它只是一个可搜索的目录。雅虎于2002年12月23日收购Inktomi,2003年7月14日收购包括Fast和AltaVista在内的Over-ture,2003年11月,Yahoo全资收购3721公司。1994年7月,卡内基·梅隆大学的Michael Mauldin将John Leavitt的Spider程序接入到其索引程序中,创建了Lycos。除了相关性排序外,Lycos还提供了前缀匹配和字符相近限制,Lycos第一个在搜索结果中使用了网页自动摘要,而最大的优势还是它远胜过其他搜索引擎的数据量。

1995年,一种新的搜索引擎形式出现了——元搜索引擎(A Meta Search Engine Roundup)。用户只需提交一次搜索请求,由元搜索引擎负责转换处理,提交给多个预先选定的独立搜索引擎,并将从各独立搜索引擎返回的所有查询结果,集中起来处理后再返回给用户。第一个元搜索引擎是Washington大学硕士生Eric Selberg和Oren Etzioni开发的Metacrawler。1995年12月,DEC正式发布AltaVista。AltaVista是第一个支持自然语言搜索的搜索引擎,也是第一个实现高级搜索语法的搜索引擎(如AND,OR,NOT等)。用户可以用AltaVista搜索新闻组的内容并从互联网上获得文章,还可以搜索图片名称中的文字,搜索Titles,搜索Java applets,搜索ActiveX objects。AltaVista也声称是第一个支持用户自己向网页索引库提交或删除URL的搜索引擎,并能在24小时内上线。AltaVista最有趣的新功能之一是搜索链接指向某个URL的所有网站,同时在面向用户的界面上,AltaVista也作了大量革新,它在搜索区域放了“tips”以帮助用户更好地表达搜索模式。这些小tip经常更新。这样,在搜索过几次以后,用户会看到很多他们可能从来不知道的有趣功能。这些系列功能,逐渐被其他搜索引擎广泛采用。1997年,AltaVista发布了一个图形演示系统Live Topics,帮助用户从成千上万的搜索结果中找到想要的。

1995年9月26日,加州伯克利分校助教EricBrewer,博士生Paul Gauthier创立了Inktomi。1996年5月20日,Inktomi公司成立,强大的HotBot出现在世人面前,声称每天能抓取索引1000万页以上,所以有远超过其他搜索引擎的新内容,HotBot也大量运用cookie储存用户的个人搜索喜好设置。

1997年8月,Northern light搜索引擎正式现身。它曾是拥有最大数据库的搜索引擎之一。它没有StopWords。但它有出色的Current News,7100多种出版物组成的Special Collection,良好的高级搜索语法和第一个支持对搜索结果进行简单的自动分类。1998年10月之前,Google只是斯坦福大学的一个小项目BackRub,1995年博士生Larry Page开始学习搜索引擎设计,于1997年9月15日注册了Google.com的域名。1997年年底,在Sergey Brin和Scott Hassan、Alan Steremberg的共同参与下,BachRub开始提供Demo。1999年2月,Google完成了从Alpha版到Beta版的蜕变。Google公司则把1998年9月27日当成自己的生日。Google以网页级别为基础,判断网页的重要性,使得搜索结果的相关性大大增强。Google公司的奇客(Geek)文化氛围,不作恶(Don't be evil)的理念,为Google赢得了极高的口碑和品牌美誉。2006年4月,Google宣布其中文名称“谷歌”。这是Google第一个在非英语国家起的名字。

Fast(Alltheweb)公司创立于1997年,是挪威科技大学(NTNU)学术研究的副产品。1999年5月发布了自己的搜索引擎All The Web。Fast创立的目标是做世界上最大和最快的搜索引擎,Fast(All the Web)的网页搜索可利用ODP自动分类,支持Flash和pdf搜索,支持多语言搜索。还提供新闻搜索、图像搜索、视频、MP3和FTP搜索,拥有极其强大的高级搜索功能(2003年2月25日,Fast的互联网搜索部门被Overture收购)。

1996年8月,Sohu公司成立,制作中文网站分类目录,曾有“出门找地图,上网找搜狐”的美誉,随着互联网网站的急剧增加,这种人工编辑的分类目录已经不适应。Sohu于2004年8月注册独立域名的搜索网站“搜狗”,自称第三代搜索引擎。Openfind创立于1998年1月,其技术源自台湾中正大学吴升教授所领导的GAIS实验室。Openfind起先只做中文搜索引擎,鼎盛时期同时为三大著名门户新浪、奇摩、雅虎提供中文搜索引擎,但2000年后市场逐渐被Baidu和Google瓜分。2002年6月,Openfind重新发布基于GAIS30 Project的Openfind搜索引擎Beta版,推出多元排序,宣布累计抓取网页35亿,开始进入英文搜索领域。2000年1月,两位北大校友,超链分析专利发明人,前Infoseek资深工程师李彦宏与好友徐勇(加州伯克利分校博士后)在北京中关村创立了百度(Baidu)公司,2001年8月发布Baidu.com搜索引擎Beta版(此前Baidu只为其他门户网站如搜狐、新浪、Tom等提供搜索引擎),2001年10月22日正式发布Baidu搜索引擎,专注于中文搜索。Baidu搜索引擎的其他特色包括:百度快照、网页预览、预览全部网页、相关搜索词、错别字纠正提示、MP3搜索、Flash搜索。2002年3月闪电计划(Blitzen Project)开始后,技术升级明显加快。后推出贴吧、知道、地图、国学、百科等一系列产品,深受网民欢迎。2005年8月5日在纳斯达克上市,发行价为USD27.00,代号为BIDU。开盘价USD66.00,以USD122.54收盘,涨幅353.85%,创下了5年以来美国股市上市新股当日涨幅最高纪录。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈