首页 理论教育 多元搜索引擎

多元搜索引擎

时间:2022-03-10 理论教育 版权反馈
【摘要】:多线索式的多元搜索引擎的检索界面非常简单,大多只有一个提问框。使用串行检索式的多元搜索引擎检索时,对多个引擎是顺序检索还是同时检索,这个差异将使得处理时间、结果返回方式等有所差异。大多数多元搜索引擎的检索结果按相关性排序,即将各搜索引擎的查找结果合并,并报告与结果相对的搜索引擎名称。较好的多元搜索引擎应显示去重合并后的、可链接的、有使用价值的检索结果,并按相关度排序。

第四节 多元索引

对于Internet数量众多的页面来说,任何一个独立的搜索引擎都无法穷尽所有的Web资源。而且据研究,对于同一个查询请求,不同的搜索引擎因其工作机制的不同,得到的检索结果也不同。因此,在很多情况下人们为了获得更高的查全率,用户不得不将同一个检索课题在多个搜索引擎上一次次地进行检索,使检索过程变得十分繁琐。另外,网络上还有许多专门为某种类型的网络资源查找(如FTP资源、Telnet资源、用户组资源等)和专为某种类型问题检索(如查找人名、地名、统计数据等)而设计的工具,这些工具并不都被用户了解或熟悉。为了克服用户面对品牌繁多、五花八门的网络检索工具而产生的无所适从和疲于奔命,多元搜索引擎应运而生。

一、多元搜索引擎概述

严格意义上来讲,多元搜索引擎只能算是一种用户代理,而不是真正的搜索引擎。多数元搜索引擎在处理其他搜索引擎的返回结果时,只提取出每个搜索引擎结果中前面10~50条,并将这些条目合并在一起返回给用户,因此,最后结果的数量很可能会远远少于直接在一个搜索引擎上进行查找所得到的数量,这就是为什么很多Internet用户都喜欢元搜索引擎查找信息的原因。但是它也有一定的局限性,如多数元搜索引擎都只能访问少数几个搜索引擎,并且通常都不支持这些搜索引擎的高级搜索功能,在处理逻辑查询时也常常会出现错误。

按功能划分,多元搜索引擎工具包括多线索式和All-in-One式(即搜索引擎目录);按运行方式的差异划分为在线检索工具和桌面检索工具;按照工作方式的不同,多元搜索引擎又可以分为并行处理式和串行处理式两大类。

多线索式集合型检索工具是利用惟一和确定的检索界面,实现对多个独立检索工具索引数据库进行检索,并将检索结果以统一格式显示的网络检索工具。这类工具具有以下特征:统一的检索界面;检索指令的转换;统一结果集的组织与显示。如DOGPILE、Inference Find等。

All-in-One方式的集合型检索工具的用户界面以任意顺序或分类罗列多个成员检索工具,用户可通过这个界面了解有关成员检索工具和实际连接所选择的检索工具。严格说来,他们只是检索工具的列表,具有以下特点:仅仅提供一个简单的界面来帮助用户选择和使用各检索工具;往往只能选择一个检索工具进行检索;对各独立检索工具检索界面的复制可能是部分的或全部的;直接利用检索工具的显示格式呈送各用户。如:All-in-One、CUSI等。

二、多元搜索引擎的检索特性

每个多元搜索引擎均有其自身的特性,例如,使用哪些搜索引擎检索?如何处理检索提问?如何编辑和显示结果?有些是顺序检索,有些是同时检索,有些将提问转化为目标引擎的语法,还有些则以“相当于”(as is)来发送检索请求。正是由于多元搜索引擎具有这些特性,因而无法进行单个的特性比较。不过,通过对若干个多元搜索引擎的研究,可以找出一些共同的选项和特性。

(一)可检索引擎的数量和名称

这是指一个多元搜索引擎可检索多少以及哪些搜索引擎。在有些多元搜索引擎的检索界面上可以一目了然,但有些多元搜索引擎则未加详细说明,将检索引擎的数量和名称隐藏在帮助信息或FAQ中。

(二)检索提问

由于搜索引擎目录只是集中罗列主要的搜索引擎,引导用户按检索资源类型或检索提问等选择相应的检索工具,并没有将各个搜索引擎的检索功能加以合并,检索时使用的还是某一搜索引擎的数据库,与检索普通单一搜索引擎相同,因此,在其检索界面上可见到一系列的检索框,列出的每个搜索引擎对应一个检索框,根据该搜索引擎的检索句法,输入检索词或提问式,单击递交或检索后,再分别检索每个搜索引擎。

多线索式的多元搜索引擎的检索界面非常简单,大多只有一个提问框。与大多数流行搜索引擎的做法类似,均支持布尔检索选择,允许检索者按某种检索句法形成自己的提问式。在用户输入提问式后,自动地利用多种检索工具同时进行检索。这里要特别注意的是由于不同搜索引擎的检索机制、算法及对提问式的解读均不同,没有一个共同规范,某些搜索引擎可能不支持用户所使用的检索句法,因此有的多元搜索引擎在发出提问式时,便将提问转换为每个引擎的检索句法,或者是以“相当于”直接传送给目标引擎。

(三)其他检索选项

1.等候时间

使用并行检索式的多元搜索引擎检索时,由于同时检索多个数据库,所需检索时间较长,用户可事先设定等候时间。

2.检索作业方式

使用串行检索式的多元搜索引擎检索时,对多个引擎是顺序检索还是同时检索,这个差异将使得处理时间、结果返回方式等有所差异。

3.其他检索参数

该多元搜索引擎是否支持布尔算符、自然语言和词组等检索策略,可供选择的其他检索参数等。

4.检索结果选项

大多数多元搜索引擎的检索结果按相关性排序,即将各搜索引擎的查找结果合并,并报告与结果相对的搜索引擎名称。有些则显示一个简单的主题并链接到相关网页。有些与普通搜索引擎结果界面非常相似,显示主题和简介。另一种相关排序方法是显示结果数及其来源引擎。还有个别多元搜索引擎按分类排序并显示极简短的主题。

较好的多元搜索引擎应显示去重合并后的、可链接的、有使用价值的检索结果,并按相关度排序。检索结果显示至少应包括题名、URL、简介和与结果相关的搜索引擎信息。

5.创建自己的Web检索服务

越来越多的元搜索引擎开始更加关注用户查询行为的个性化定制要求,如对独立搜索引擎的选择、命中结果数量、查询时间、显示格式等都可进行个性化设置。选择一个适合自己风格的搜索引擎,并按照自己要求加以个性化设置后,就可以很快地获得检索结果。如有必要,还可以返回到特定的一两个引擎进行扩展检索。

多元搜索引擎能方便地检索多个搜索引擎,扩大了检索范围,提高了检索的全面性,又能对用户选择、使用网络检索工具提供指南和导引。

三、常用的多元搜索引擎

(一)常用搜索引擎目录

1.All-in-One(网址:http://www.allonesearch.com/)

All-in-One由William Cross创建,是一个典型的搜索引擎目录。它收集了因特网上500多个最佳搜索引擎、数据库、资源索引和资源目录等检索工具,类似于检索工具大全。这些专业搜索引擎分为40个大类,每类提供数十个引擎。

(1)检索方法 首先选择系统列出的类目表。该类目表包括WWW、一般兴趣、特殊兴趣、软件与图像、出版物与文献、技术报告、参考书等,每个类目下提供多个检索工具。选择一个检索工具,输入检索词后,即可进入该搜索引擎的真正检索界面。检索结果按单个引擎的检索结果显示模式显示。即检索步骤为:在类目表中选定类目→在选定类目中选择检索工具→输入检索词→检索→检索结果显示。

(2)评价 All-in-One检索页面是因特网现有多种检索工具的汇编,他们组合在一起形成一个统一的界面,体现了Allin-One(即“所有引擎在一起”)的检索特点,省去用户记忆众多搜索引擎地址的麻烦。但每次只能选择一个检索工具,同一检索词需要进行多次反复检索,且统一的检索界面,丧失了许多引擎的特色检索功能。

(二)iTools!(网址:http://www.itools.com)

它于1995年开始提供服务,其版权属于iTools。它集中了Yahoo!、AltaVista、GONetwork、NorthenLight等著名搜索引擎以及ASK Jeeves、Google、Excite、Hotbot、LookSmart、GOTO.com、About.com、Lycos共12个常用引擎。

(1)检索特点。它提供了3种检索界面:iTools!、Find-It!和Research-It!。第一种检索界面提供4个有特色的检索工具为默认选择:Yahoo!(网络目录的代表)、AltaVista(最大的搜索引擎)、GONetwork(最佳结果排序)、NorthenLight(最好的结果分类)。可选择检索词出现的区域为页面、主题或URL。可在此4个工具输入检索词检索,也可选其中任意一个工具检索。第二种界面在检索工具的选项(Search Through)、检索词的输入(Search For)以及检索操作(Action)等方面都提供更丰富的选择。第三种界面除包括第二种界面的检索功能外,还提供更丰富的类目选择及检索语法的组合运用。其检索结果按照所选引擎的结果显示。

(2)评价。iTools!集中了网络上优秀的检索工具,可为检索者提供自由的选择,检索各类网络信息。

(3)CUSI(网址:http://www.nexor.com/public/cusi/cusi.html或http://cusi.emnet.co.uk/)

CUSI(Configutrable Unified Search Engine)是一种公共的服务搜索引擎。它由NEXOR公司创立,由EMNET维护。它的检索界面是结构化的,主要包括Web检索资源并支持用户快速使用已连接上的资源,而无须重复输入词组。

它将所有的检索工具分为7类:WWW Indexes、Robot Generated Web Indeces、Other Internet Indexes、Software、People、Documents和Dictionaries。每个类目下包含若干检索工具,在每个类目下选择一个工具,输入检索词即进入该工具的检索界面进行查询。

(二)常用的多线索式元搜索引擎

1.MetaCrawler(网址:http://www.metacrawler.com或http://www.go2net.com/search/html)

MetaCrawler是Internet上最早出现的多元搜索引擎之一,最初由华盛顿大学(University of Washington)的研究生Erik Selberg和副教授Oren Etzioni于1994年开始创建,1995年6月提供Web服务,现是属于Go2Net网络公司

(1)检索特点。MetaCrawler主页的内容包括:检索输入框、网上商场、分类检索频道、100个最佳站点列表按钮、Go2net网络其它站点链接以及专门检索链点。

MetaCrawler能对Lycos、Infoseek、Webcrawler、Altavista、Thunderstone、The Mining Co、Looksmart和Yahoo!八个检索工具进行并行检索,并能分门别类地对许多专门检索工具进行并行检索。它在接受到检索要求后,将该检索要求转换为每个成员搜索引擎的专门指令形式,并分发给各个搜索引擎,然后鉴定和接受它们的检索结果。当所有结果都收到或超过规定的时间,它就将所收到的结果收集起来,去掉重复,按相关性排序后显示给用户。

MetaCrawler提供频道检索功能,分别对某一领域内的多个搜索引擎、资源目录、专业数据库、专业新闻站点等工具进行并行检索。目前可供检索的频道包括:教育、计算机、娱乐、财经、健康、新闻、游戏、购物、体育和旅游。每个频道下面包含若干搜索引擎。

(2)结果显示。首先列出搜索引擎名称、然后有简短摘要,每页显示20个,按照检索者选定的方式排序(相关性或站点)。

2.Dogpile(网址:http://www.dogpile.com)

它是最早、最受欢迎的多元搜索引擎之一,最近加入了Go2Net Network。它支持25个比较有名的搜索工具。这些搜索工具的类别及其所包含的检索工具如下:

①Web检索(the Web):Yahoo!、Thunderstone、LycosA2Z、Goto、Miningco、Excite Guide、PlanetSearch、Magellan、Lycos、Webcrawler、Infoseek、Excite、Altavista。

新闻组检索(Usenet):Reference、Dejanews、Alta Vista、Dejanews’Old dATABASE。

FTP检索(FTP):FTP Search。

②新闻检索(News Wires):Yahoo News Headlines、Excite News、Infoseek Newswires。

股市检索(Stock Quotes):quoteserver。

黄页检索(Yellow pages):Infospace。

⑤白页检索(White pages):Infospace。

⑥地图检索(Maps):Infospace。

⑦天气检索(Weather):Weather Underground。

(1)检索特点 Dogpile具有智能化的搜索程序和易用界面。支持逻辑运算符AND、OR和NOT,括号(),缺省值是AND,支持+(包含)、-(排除)和“”(短语)。

(2)结果显示 每个结果依次说明搜索引擎名称、检到结果数目、所用的语法格式、显示记录数目。查询结果不再进行排序,所以结果可能存在重复。且每次只列出3个引擎的并行检索结果,检索者若不满足已有结果,可按页面下方的“Next set of Search Engines”按钮,继续检索另外3个,继续察看更多的检索结果。若结果匹配少于10个,将自动转向另外3个搜索引擎,直至匹配超过10个。

(3)SarvySearch(网址:http://www.sarvysearch.com)

它是Sarvy Search公司的主要网络检索工具,该公司宣称,它的技术能使用户显著加快WWW浏览速度,能迅速检索因特网并得到相关信息,与无限的全球虚拟数据无缝连接。现属于CNET公司。它有11个主要搜索引擎,多个网络目录、新闻和用户组检索工具。它允许用户进行个性化设置,具有检索工具分类导引选择和并行检索双重功能,融搜索引擎目录和多元搜索引擎于一体。可进行关键词检索和分类查询。“一次检索,找到所有”是它的宗旨。至今,已经能提供法、德、意、日等23种语言检索,尚未包括中文。

(三)其他集合式搜索引擎

1.Internet Sleuth(http://www.isleuth.com)

它顺序检索6个较大的引擎,先显示一个引擎的结果,然后检索下一个引擎。提供主题分类选择,较适合检索特定主题站点或引擎。

2.Metafind(http://www.metafind.com)

可检AltaVista、Excite、HotBot、Infoseek、Planetsearch和Webcrawler6个引擎。由于其良好的结果处理功能和综合性能而很受欢迎。可直接链接到Dogpile,因为两者出自同一家公司。

3.悠游(http://www.goyoyo.com.cn/main/search/indexs.html)

其主页提供“搜索引擎”的链接,分10余大类列出各类相关的专业搜索引擎,可检索所有搜索引擎,也可选择某个类目,检索专业引擎。

4.北极星(http://www.beijixing.com.cn/engines.html)

北极星主页的“引擎集萃”罗列了近50个国内外中西文搜索引擎,是典型的综合性引擎目录,用户可选择其中一个引擎进行检索。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈