首页 理论教育 搜索引擎为什么什么都能搜到

搜索引擎为什么什么都能搜到

时间:2022-02-20 理论教育 版权反馈
【摘要】:据CNNIC调查,网络上90%的用户是通过搜索引擎来获取信息的。目前,互联网上的搜索引擎已达数百家,搜索引擎的划分标准和具体类型见表5-1。尤其像Yahoo这样的超级索引,登录更是困难。目录式搜索引擎是最早出现的一种搜索引擎。注意目录式搜索引擎的收录特点、选择适当目录式搜索引擎使用目录式搜索引擎,要了解不同目录式搜索引擎的收录特点。所以热门主题和常用目录可以直接在一些门户网站和目录式搜索引擎的首页查询到。
自由的组织模式(索引擎)_连续性资源组织

搜索引擎(Search Engine)成为人们访问Internet、获取信息的最主要的一种工具,它能帮助用户在海量网络信息中迅速地找到其所需要的信息。据CNNIC调查,网络上90%的用户是通过搜索引擎来获取信息的。1990年以前,没人能检索互联网上的信息,随着WWW的发展,基于网页的搜索引擎于1994年7月出现,同年4月,超级目录索引Yahoo被成功创办。目前,互联网上的搜索引擎已达数百家,搜索引擎的划分标准和具体类型见表5-1。

表5-1 搜索引擎的划分标准和具体类型

(续表)

(一)目录式搜索引擎

1.目录式搜索引擎简介

目录式搜索引擎又称分类目录、主题指南,它按照某种分类方式组织网络资源,尤其是网站资源,提供一份按类别编排的网站目录,各类下排列着这一类别的网站的站名和网址链接,有些还提供内容提要。它是以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。信息大多面向网站,提供目录浏览服务和直接检索服务。

目录式搜索引擎的特点:①搜索引擎属于自动网站检索,而目录索引则完全依赖手工操作。用户提交网站后,目录编辑人员会亲自浏览你的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否接纳你的网站。②搜索引擎收录网站时,只要网站本身没有违反有关的规则,一般都能登录成功。而目录索引对网站的要求则高得多,有时即使登录多次也不一定成功。尤其像Yahoo这样的超级索引,登录更是困难。③在登录搜索引擎时,我们一般不用考虑网站的分类问题,而登录目录索引时则必须将网站放在一个最合适的目录(Directory)。最后,搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以用户的角度看,我们拥有更多的自主权;而目录索引则要求必须手工另外填写网站信息,而且还有各种各样的限制。更有甚者,如果工作人员认为你提交网站的目录、网站信息不合适,他可以随时对其进行调整,当然事先是不会和你商量的。④目录索引,顾名思义就是将网站分门别类地存放在相应的目录中,因此用户在查询信息时,可选择关键词搜索,也可按分类目录逐层查找。如以关键词搜索,返回的结果跟搜索引擎一样,也是根据信息关联程度排列网站,只不过其中人为因素要多一些。如果按分层目录查找,某一目录中网站的排名则是由标题字母的先后顺序决定(也有例外)。

目录式搜索引擎是最早出现的一种搜索引擎。建设目录式搜索引擎首先要由领域专家建立起科学、实用的等级式主题目录框架,然后以人工方式或半自动方式搜集信息,由编辑员查看信息之后,人工形成信息摘要,并将信息置于事先确定的分类框架中。这类搜索引擎的代表是:Yahoo,Look Smart,Open Directory,Go Guide等,国内的搜狐、新浪网易搜索也都属于这一类搜索引擎

目录式搜索引擎采用分类检索的网络信息检索方法,可以提供目录浏览服务和直接检索服务。分类检索是循序渐进的检索方法。与关键词检索不同,分类搜索要首先确定所需信息在目录中的类系归属和相关路径,从大类入手,逐级浏览,渐进查询,在相应类目下按字顺展开网站列表,然后再根据网站名称和简介,对结果列表进行选择。由于分类目录已按照学科或主题对网络信息进行了标引,所有网站在分类体系中同聚异分,各有所属,“纵向成枝,横向成网”,只需“按图索骥”,同一类属或相关主题题的信息即可“循类以求”,适用于查询具有同一特征的多个目标和主题范围广、概念宽泛的问题。

2.目录式搜索引擎适用技巧

要想快速、准确地查找到用户需要的信息,自然要注意各类使用技巧。

(1)注意目录式搜索引擎的收录特点、选择适当目录式搜索引擎

使用目录式搜索引擎,要了解不同目录式搜索引擎的收录特点。比如,Yahoo被认为是分类搜索的鼻祖和代表,引领着目录检索的潮流,雅虎中国以收录繁体中文网站见长。搜狐(搜狗)是第一个中文目录式搜索引擎,它拥有五万个主题分类,五十万个优选网站,是中文主题分类目录的典范,是查找简体中文信息的首选。开放存取期刊目录DOA,由瑞典的隆德大学图书馆设立于2003年5月,从最初的350种期刊开始,截至2006年10月,已收录开放存取期刊超过2400种、文章近12万篇,该目录收录的均为学术性、研究性期刊,具有免费、个文、高质量的特点。其质量源于所收录的期刊实行同行评市,或者有编辑作质量控制,改而对学术研究有很高的参考价值。

(2)了解目录式搜索引擎分类体系

使用目录式搜索引擎,要了解所用搜索引擎分类体系的特点及其类目设置,包括分类标准、类目划分、类目设置、类目序列等。分类体系决定着分类目录的性质和功能,影响着分类搜索的效率和效果。系统性和实用性是对网络信息分类的基本要求,以学科性质为标准,可以保证分类的系统性,以主题为标准,体现了分类体系的实用性

(3)关注热门主题和常用目录

许多目录式搜索引擎类目的设置以方便使用和检索习惯为依据,为了引起用户的兴趣和关注,常常突破体系分类的规则,把热门主题或点击率高的类目置于较高级位或显著位置。类目序列以检索频次为主要参考指标,首先列举检索频次较高的类目,突出重要或时尚主题,迎合用户的检索习惯与检索偏好。所以热门主题和常用目录可以直接在一些门户网站和目录式搜索引擎的首页查询到。

(4)注意各目录式搜索引擎的分类标准

使用目录式搜索引擎还需注意,由于分类没有统一的分类标准,同名类目或相似类目,在不同的分类体系中的类目含义不尽相同,因此性质相同或相近的网站在不同的分类体系中可能分属不同的大类,或同一大类的不同级位。如与“太极拳”相关的网站,在搜狗(搜狐)中归入“体育健身”大类之中(体育健身>武术/搏击>太极拳),而雅虎中国则列于“休闲与生话”大类之下(休闲与生话>体育运动>武术>太极拳);“搜索引擎”在搜狗(搜狐)和雅虎中国中的大类归属相同(“电脑网络”与“电脑与因特网”),但级位不同,分属三级(电脑网络>搜索引擎/分类目录>搜索引擎)和四级类目(电脑与因特网>因特网>搜寻与检索>搜索引擎)。凡此种种,非专门的研究人员也能对各种分类体系了如指掌,一般用户只能根据需要和爱好,选择一种分类搜索引擎,经常使用,以熟能生巧。

(5)关注开放目录式搜索引擎

这种搜索引擎,它采用结合了最新技术的开放目录列表,允许用户个人决定哪些内容出现在目录中。比较典型的开放目录式搜索引擎是OOZM。它通过改变使用信息的权限,让用户来决定自己希望有哪些内容出现在首页,使得搜索更有效、透明和准确

目录式搜索引擎的建立、维护和使用已有相当成熟的理论、技术和丰富的成功经验。目录式搜索引擎因为加入了人的智能,所以信息准确、导航质量高,缺点是需要人工介入、维护量大、信息量少、信息更新不及时。一般认为,目录式搜索引擎适用于不经常检索网络信息的新手,但是,利用目录式搜索引擎的优点,各种用户可以快捷、准确检索出有用的网络信息。

3.各类目录式搜索引擎比较(见表5-2)

表5-2 目录式搜索引擎比较

(续表)

资料来源:陈鹤阳,王辉.网络信息检索搜索引擎工具的比较研究[J].图书馆学研究,2008(1)

目录式搜索引擎其实不是严格意义上的“搜索引擎”,仅仅是按目录分类的网站链接列表而已。用户完全可以按照分类目录找到所需要的信息。该类搜索引擎因加入了人工智能,所以信息准确、导航质量高;缺点是需要人工介入、维护量大、信息量少、信息更新不及时;改造方法有:建立相对独立的分类体系,改造现有的分类法与主题法,采用新的分类技术。Yahoo是目录式搜索引擎的典型代表,其他著名的目录式搜索引擎还有Open Directory(DMOZ)、Look Smart等,国内的搜狐、新浪、网易等门户网站也是从分类目录发展起来的。连续性资源中,有很多开放性期刊的门户网站采取目录式搜索引擎的组织模式,如DOAJ等(见图5-1)。

图5-1 开放存取期刊DOAJ的主题树指南——目录式搜索引擎

(二)全文式搜索引擎

1.全文搜索引擎简介

全文搜索引擎是目前广泛应用的主流搜索引擎。它的工作原理是计算机索引程序通过扫描文章中的每一个词,对每一个词建立一个索引,指明该词在文章中出现的次数和位置,当用户查询时,检索程序就根据事先建立的索引进行查找,并将查找的结果反馈给用户的检索方式。这个过程类似于通过字典中的检索字表查字的过程。

全文搜索引擎是名副其实的搜索引擎,它通过信息抓取软件(如Spider或Robert)从互联网上自动搜索网页,提取各网站的信息,建立索引数据库,提供关键词检索。

在分类上,全文检索的方法主要分为按字检索和按词检索两种。按字检索是指对于文章中的每一个字都建立索引,检索时将词分解为字的组合。对于各种不同的语言而言,字有不同的含义,比如英文中字与词实际上是合一的,而中文中字与词有很大分别。按词检索指对文章中的词,即语义单位建立索引,检索时按词检索,并且可以处理同义项等。英文等西方文字由于按照空白切分词,因此实现上与按字处理类似,添加同义处理也很容易。中文等东方文字则需要切分字词,以达到按词索引的目的,关于这方面的问题,是当前全文检索技术尤其是中文全文检索技术中的难点。

在功能上,全文检索系统是按照全文检索理论建立起来的用于提供全文检索服务的软件系统。一般来说,全文检索需要具备建立索引和提供查询的基本功能,此外现代的全文检索系统还需要具有方便的用户接口、面向WWW的开发接口、二次应用开发接口等等。功能上,全文检索系统核心具有建立索引、处理查询返回结果集、增加索引、优化索引结构等等功能,外围则由各种不同应用具有的功能组成。

在结构上,全文检索系统核心具有索引引擎、查询引擎、文本分析引擎、对外接口等等,加上各种外围应用系统等等共同构成了全文检索系统。

这种真正意义上的搜索引擎,检索对象具体到网页。它的优点是资源覆盖率较高、数据库更新及时。缺点是基于全文索引和关键词简单匹配,检索准确性不高,噪声大,人工筛选负担重。改造的方法有:注重整合资源查询,发展自然语言查询,采用个人检索代理和网页侦察技术。有代表性的全文搜索引擎中,国外的主要有Google、AltaVista等,国内最著名的是百度。有很多连续性资源网站采用全文搜索引擎的组织模式,如可免费检索20 000种期刊British Library Direct,提供了全文搜索引擎的组织模式(见图5-2)。

2.全文搜索引擎和目录式搜索引擎的比较[1]

目前最重要的两类网络检索工具就是全文搜索引擎和目录式搜索引擎了,全文搜索引擎和目录式搜索引擎的主要区别有:

图5-2 可免费检索2万种期刊的全文搜索引擎

全文搜索引擎属于自动网站检索,检索快捷,直接输入关键词即可得到结果,而目录式搜索引擎则完全依赖手工操作。用户根据自己的意图首先去考虑自己需要检索的内容属于哪个类别,然后再去一个个尝试。

全文搜索引擎中各网站的有关信息都是从用户网页中自动提取的,所以从用户的角度看,我们拥有更多的自主权,这是一种主动的检索,能够检索到大量与我们检索意图相关的内容;而目录索引则要求必须手工选择网站信息,而且还有各种各样的限制,而网站的管理人员划分出来的类别有时候并不包含我们想要的,因此这是一种被动的检索方式,但是这样检索出来的内容更为准确。综合以上特征对比,可知全文搜索引擎的特点是查全率比较高,目录式搜索引擎的特点是查准率比较高。

美国著名的市场调查公司Stat Counter发布了2011年4月份搜索引擎排行榜前五名。

全球范围内,搜索引擎排行和所占份额:

Google—90.2%;②bing—1.06%;③Yahoo!—3.81%;④Baidu—0.53%

中国范围内,搜索引擎排行和所占份额:

Baidu—73.31%;②Google—21.33%;③Yahoo!—1.08%;④bing—1%

由此可见,在全球范围内,Google依然是网络检索工具第一大巨头,其他网络检索工具只能望其项背,而在中国,由于Google撤出中国大陆,加上百度作为中文搜索引擎的独特优势,百度已成为中国第一大搜索引擎。

目前,全文搜索引擎与目录式搜索引擎有相互结合的趋势。目前很多的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询,而像Yahoo则通过与Google等搜索引擎合作扩大搜索范围。当对于检索内容的概念比较模糊时,以通过目录式搜索引擎选择准确的方向,找到合适的词汇便可以通过搜索引擎扩大检索范围,这样就把两种检索工具做了一个很简单的集成,但用户却轻松地获得了很好的使用体验。

从上述的分析可以看出,全文搜索引擎和目录式搜索引擎这两种信息检索工具,用户更倾向于选择全文搜索引擎这种主动、便捷的检索方式。在进行信息检索的过程中,很多时候,全文搜索引擎能够帮人们完成信息检索的任务,但有的时候,特别是当人们自己无法明确“检索词”具体是什么的时候,可以先在目录式搜索引擎中进行浏览,从中得到启示,确定自己检索的类别,从而摸索出检索词具体是什么,这样将两种网络检索工具灵活运用可以帮人们提高检索效率。

3.搜索引擎的发展方向[2]

随着计算机技术的快速发展和信息检索需求的不断增加,网上检索工具也将更加完善。通过对目前国内外搜索引擎特点的观察和归纳,网上检索工具的将来主要朝着以下几个方向发展:

(1)实现全文搜索引擎和目录式搜索引擎的同步支持。正如前文所述,目前大多数目录式搜索引擎和门户网站都有内置的搜索引擎,这些搜索引擎既可以由外部公司提供,也可以由自己公司制作。通过这样的实现方式,能将全文搜索引擎和目录式搜索引擎的优势结合起来,用户可以根据自己对检索课题的熟悉情况来选择检索方式。

(2)网络检索工具的功能多样化。当前的网上检索工具已不仅仅只是提供搜索功能,随着用户需求的多样化,各大网络检索工具提供公司正致力于提供更多其他方面的服务,以满足用户不断增加的多样化需求。如可以提供天气预报新闻报道、股票点评、免费电子信箱等。

(3)实现多媒体检索。当前的网络检索工具一般或者说广泛使用的只有文字检索,而网络资源丰富多彩,除了文字内容还有视频、图片、音乐等,未来的网络检索工具应实现对图表、图形、图像、声音、视频等多媒体进行检索的功能。而具体的技术实现以及用户体验等问题还有待进一步研究。

(4)多语言检索。这是当前时代给检索工具带来的印迹,随着各国人们之间交流的简便化、密切以及人们对掌握多语言的追求,人们对多语言检索的需求将会不断增加。网络检索工具要响应时代的号召,不但能实现多语种检索,同时对语言之间翻译的智能化也要不断增强。

(5)商业化发展趋势。网络检索系统拥有全世界数量众多的用户,吸引了大量的广告,为电子信息的增值服务提供了广阔的空间。在这里汇集了最新的思想、最先进的技术和最大的潜在市场。

搜索引擎,它就像一只神奇的手,从杂乱的信息中抽出一条清晰的检索路径。在这条路径上的检索和信息提取是什么呢?是我们的阅读和大脑的判断,也就是做搜索引擎的最后一步是我们的大脑。随着互联网的发展,网上可以搜到的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,为探索者提供更准确及适用的资料。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈