首页 百科知识 搜索引擎在网上调研中的应用

搜索引擎在网上调研中的应用

时间:2022-05-12 百科知识 版权反馈
【摘要】:4.3.2 搜索引擎在网上调研中的应用要在互联网浩如烟海的信息中查找所需的信息,不是一件容易的事,需要熟练的经验,并掌握各种搜索工具和检索手段。目前利用搜索引擎搜集网上资料是最常用的方法。摩根斯坦利的调查表明,搜索引擎的使用率仅次于电子邮件。

4.3.2 索引擎在网上调研中的应用

要在互联网浩如烟海的信息中查找所需的信息,不是一件容易的事,需要熟练的经验,并掌握各种搜索工具和检索手段。目前利用搜索引擎搜集网上资料是最常用的方法。摩根斯坦利的调查表明,搜索引擎的使用率仅次于电子邮件。根据CNNIC的调查统计,目前我国有73.3%的网民使用搜索引擎,成为网民使用互联网的第三大应用功能[3],搜索引擎为网络用户提供了一个获取丰富资源的有效入口。

与一般的网站不同,搜索引擎的主要任务是搜索其他网站上的信息,并将这些信息进行分类、建立索引,再将索引的内容存入数据库中。当用户向搜索引擎提交搜索请求时,搜索引擎会从数据库中找出匹配的资料反馈给用户,用户再根据这些信息的网址,找到所需的资料,因此,利用搜索引擎来查找所需要的信息非常方便,熟悉常用的搜索引擎并掌握基本的搜索技巧将大大提高间接调研的效率。

目前在互联网上的中、英文搜索引擎有上万个,比较著名的有Baidu、Google、Yahoo、Lycos、Alta Vista等,主要分为目录索引、全文检索、元搜索引擎和其他非主流搜索引擎四类。

1.目录索引搜索引擎

目录索引(search index/directory)类似一本书的目录,主要提供网站的名称、网址、简介等内容的查询,它按照所收录各网站的不同性质,将这些网址分门别类地存放在相应的目录中。用户在查询信息时,可以按关键词搜索,也可以通过相关的分类目录逐层搜索,直接找到相关网站。目录索引查询的结果完全是通过人工操作完成的,用户提交网址后,目录编辑人员会亲自浏览用户的网站,然后根据一套自定的评判标准甚至编辑人员的主观印象,决定是否收录用户提交的网址。由于所收录的信息是经由人工查验的,搜索结果常附有摘要和点评,故所收录的信息质量较高;但因所搜集的信息一般是由被收录的网站主动提供,且维护目录索引数据库的人力有限,因此,其搜索结果也并非完美无缺。

目录索引中最具代表性的是雅虎(Yahoo),它将所收录的几十万个网址分为艺术与人文、商业与经济、计算机与互联网、教育、娱乐等14个大类,大类下又细分为几个层次的小类。其他著名的目录索引还有开放目录专案DMOZ(Open Directory Project,www.dmoz.com)、Look Smart(www.looksmart.com)、About(www.about.com)等。国内的搜狗(搜狐)、新浪、有道(网易)搜索也都属于这一类。

2.全文检索搜索引擎

与目录索引相比,全文检索搜索引擎(full text search engine)属于自动网站检索,即通过一种称为“蜘蛛(spider)”的程序[4]自动在网上搜集各网站的相关信息来建立自己的数据库,并向用户提供按关键词进行内容查询的服务,这是一种真正意义上的搜索引擎。常用的有Ala Vista、Google、Excite、Hotbot、Lycos及Baidu等。

全文检索搜索引擎数据库中的数据来源分两种:一是定期搜索,即每隔一段时间搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的网站进行检索,一旦发现有新的网站或网站上的信息有更新,就会自动提取这些信息和网址加入到自己的数据库中;二是搜索引擎在固定的时间派出“蜘蛛”程序搜集和处理由网站所有者主动提交的相关信息,并存入自己的数据库中。这两种方式所收录的数据都是“蜘蛛”程序搜索到的网页上的具体内容,因此,所提供的搜索结果可精确到具体网页,在收录网页的数量上也远远超过了分类目录。

Google是目前全球规模最大的全文搜索引擎,其数据库中已存有几十亿个Web文件,并向Yahoo、AOL等其他目录索引和搜索引擎提供后台网页查询服务。Google提供包括英、中(简、繁体)、日、朝鲜等30多种语言的查询功能,同时还提供40多个国别专属引擎。Google的搜索功能分为常规与高级两种。在高级搜索中,用户可限制某一搜索必须包含或排除特定的关键词或短语。该引擎允许用户定制搜索结果页面所含信息条目数量,可从10到100条任选。该引擎提供网站内部查询和横向相关查询。Google还提供主题搜索,如Google财经(finance.google.cn)、Google地图(maps.google.com、ditu.google.cn)、Google学术搜索(scholar.google.cn)、Google生活搜索(shenghuo.google.cn)等。Microsoft公司也于2009年6月推出了自己新的全文搜索引擎品牌“必应(Bing)”(www.bing.com),以取代原来的搜索品牌“Live Search”,并计划投资上亿美元推广新搜索引擎。

在我国,全文搜索引擎Baidu(www.baidu.com)以搜索结果匹配度极高的特点受到用户的普遍认可。此外,网易搜索引擎独立研发的搜索引擎——“有道”(www.youdao.com)目前已提供包括网页、图片、新闻、音乐、博客、地图等搜索;而腾讯也推出了“搜搜”(www.soso.com),迅雷则推出了“gougou娱乐搜索”(www.gougou.com),其搜索领域各有所侧重,但都属于全文搜索。表4-5所示为部分常用的国内外通用搜索引擎及网址。

表4-5 部分常用的国内外通用搜索引擎

img36

需要指出的是,在Web网检索工具出现初期,上述两种方法的界限明显,如最著名的分类目录检索工具Yahoo起初就没有关键词检索功能;同样,关键词检索工具Alta Vista开始也没有建立分类目录。目前,全文检索与目录索引有相互融合渗透的趋势。原来一些纯粹的全文搜索引擎现在也提供目录搜索,如Google就借用Open Directory目录提供分类查询。而像Yahoo这类老牌目录索引则通过与Google等搜索引擎合作扩大搜索范围。在默认搜索模式下,一些目录类搜索引擎首先返回的是自己目录中匹配的网站,如搜狗、有道等;而另外一些则默认的是网页搜索,如Yahoo。

还需指出,国内的用户大多使用Baidu、Google等中文搜索引擎,然而,应当看到,在互联网中95%以上的信息是英文信息,中文信息仅占不到1%。从信息搜索工具来看,英文搜索引擎由于开发早,加上英文单词词组简单易于分割,所以目前其功能和索引的信息量都好于中文引擎。因此,在网络营销中要想充分利用互联网信息,应熟练地掌握英文搜索引擎的查询技巧。另外,由于不同搜索引擎所搜集的信息有一定的差异,因此在搜集信息时最好同时使用多个搜索引擎。

3.元搜索引擎及其使用

1) 元搜索引擎

随着搜索技术的日臻完善,搜索引擎已为人们所熟知和广泛使用。任何一种搜索引擎的设计,均有其特定的数据库索引范围、独特的功能和使用方法,以及预期的用户群指向。因此,一种搜索引擎不可能完全满足所有用户或一个用户所有的检索需求。在文献普查、专题查询、商情调研等许多情况下,人们往往需要使用多种搜索引擎,并对搜索结果进行比较、筛选和相互印证。为解决逐一调用单个搜索引擎,并在每个搜索引擎中重复输入同一检索请求(检索关键词汇)这样的烦琐操作,元搜索引擎应运而生。

元搜索引擎(metasearch engines)是一种调用其他独立搜索引擎实现检索的引擎,亦称多元搜索引擎、集成搜索引擎、综合搜索引擎。“元(meta)”在这里是“总的”、“超越”的意思,使用元搜索引擎进行检索时,它将根据用户提交的检索请求,在多个搜索引擎中选择和利用合适的(甚至是同时利用若干个)其他独立搜索引擎来进行搜索,在对搜索结果进行汇集、筛选、删除、合并等优化处理后,以统一格式的用户界面集中显示。相对于元搜索引擎,被其调用的独立搜索引擎称为“源搜索引擎(source search engines)”。采用元搜索引擎减少和优化了检索操作,从而实现“一次检索输入,多引擎同时搜索”。

元搜索引擎分为并行处理式和串行处理式两大类。并行处理式元搜索引擎将用户的查询请求同时转送给它调用的多个源搜索引擎进行查询处理;串行处理式元搜索引擎将用户的查询请求依次转送给它调用的每一个源搜索引擎进行查询处理。

2) 元搜索引擎的功能与特点

(1) 涵盖较多的搜索资源,可随意选择和调用源搜索引擎。

(2) 具备尽可能多的可选择功能,如资源类型(网站、网页、新闻、软件、FTP、MP3、图像等)选择、返回结果数量控制、结果时段选择、过滤功能选择等。

(3) 具有强大的检索请求处理功能(如支持逻辑匹配检索、短语检索、自然语言检索等)和不同搜索引擎间检索语法规则、字符的转换功能(如对不支持“NEAR”算符的搜索引擎,可自动实现由“NEAR”向“AND”算符的转换等)。

(4) 可详尽、全面地对检索结果信息进行描述(如网页名称、URL、文摘、源搜索引擎、结果与用户检索需求的相关度等)。

(5) 支持多种语言检索。目前运营的元搜索引擎各具特色,功能各有侧重,但完全“理想”的尚不多见。如大多数英文元搜索引擎不支持多语种,尤其是汉语检索;一些元搜索引擎实现检索语法转换的能力有限,不能充分发挥各个源搜索引擎的高级检索功能;在检索结果上,元搜索引擎只能返回十几、数十条“相关度”较高的结果,大量可能有价值的源搜索引擎的检索结果被忽视,影响检索结果的全面性。元搜索引擎的这些不足使它的广泛使用受到一定程度的影响。

3) 常用元搜索引擎及使用

(1) 万纬搜索引擎(www.widewaysearch.com)。

万纬搜索是试验性的元搜索引擎,它调用的英文搜索引擎有Google、Alta Vista、Direct Hit、Fast、Hotbot、Northern Light、Argos、Yahoo等,中文搜索引擎有天网、新浪、搜狐、中文雅虎、百度、中文Google等。用户可在万纬搜索主页的检索框内键入想要搜索的中、英文关键词汇进行一般搜索,在检索框下有两个按钮,其中“一般查找”是默认的搜索方式,采用系统规定的方式查找;“精确查找”使用网页智能分析和精确网络环境模拟技术,可为用户提供最接近关键词概念的10条结果。

在“高级搜索”中,用户可以输入两个以上的关键词,并可实现“AND”、“OR”等布尔逻辑查询。

用户可以在“高级搜索”中设置检索结果的排列方式,选择所使用的搜索引擎,并可根据不同地区和时段的网络状况设定查询结果的等待时间,从7秒到60秒共有六种选择。

在万纬搜索的结果页中,除搜索结果的统计数据、所查询到的信息内容摘要等信息外,每条查询记录的前面还标明了该条信息是由哪个搜索引擎查到的。

(2) ixquick搜索引擎(www.ixquick.com)。

ixquick自称“全球最大的元搜索引擎”,它有16种语言的版本,可针对不同需求从Web页、电话号码、视频和图像四个选项进入检索环境,但在各种资源环境中都采用统一的检索界面和方法。作为并行元搜索引擎,ixquick可同时调用10个常用的独立搜索引擎,用户可以在检索结果页顶部的单一搜索引擎选择框中根据需要设置使用其中的若干搜索引擎。

作为网上调研的搜索工具,元搜索引擎的作用和价值不应被忽视,表4-6中列出了一些常用的英文元搜索引擎。

表4-6 国外常用的几种元搜索引擎

img37

4.其他非主流搜索引擎

1) 垂直主题搜索引擎

海量的并以10倍速增长的网络信息和资源,使任何一个搜索引擎都不可能囊括所有的网络信息,而且,由于网上信息的主题范围十分宽泛,也很难将各类主题都做得精确和专业,这使得一些通用搜索引擎的检索结果过多过滥。于是,诸如新闻、证券、天气、购物、博客等以高度的目标化和专业化为特征的垂直主题搜索引擎在各类搜索引擎中占据了一席之地。这类搜索引擎专注于某一领域的搜索,故也称专业搜索引擎,由于具有很强的针对性,其查询结果的用户满意度较高。表4-7所示为国内外部分专业商业搜索引擎。

表4-7 国内外部分专业商业搜索引擎

img38

2) 集合式搜索引擎

这类搜索引擎与元搜索引擎相似,但它并非同时调用多个搜索引擎进行搜索,而是由用户从提供的若干搜索引擎中选择,如HotBot(www.hotbot.com)、搜网全能搜索引擎http://so.sowang.com、Mysearch(http://ms101.mysearch.com)等。

3) 门户搜索引擎

这类搜索引擎虽然提供搜索服务,但自身既没有分类目录也没有网页数据库,其搜索结果完全来自其他搜索引擎,如AOL Search (search.aol.com)。

4) 非Web信息搜索引擎

相对Web搜索引擎,诸如软件、图片、视频、音乐各种文档等非Web资源,许多不是存放在Web服务器上,对于这些非Web信息的搜索,可以使用各种特殊的搜索引擎,如利用FTP搜索引擎搜索匿名FTP服务器提供的各种非Web信息。表4-8是一些常用的国内外FTP搜索引擎。

表4-8 常用的国内外FTP搜索引擎

img39

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈