搜索引擎的概念与原理

时间：2022-10-17 百科知识版权反馈

【摘要】：搜索引擎是目前网络信息检索中最重要的工具。搜索引擎的目的是帮助新闻工作者和网民寻找信息资源。一个搜索引擎的有效性在很大程度取决于索引的质量。WWW搜索引擎实际上是一个专用的WWW服务器，它存有庞大的索引数据库，搜集了世界上百万甚至上千万个WWW主页的信息。也有一些搜索引擎可由人工或通过用户登陆方式追加信息。

9.2.1　搜索引擎的概念与原理

信息如同汪洋大海，又无专门机构将其进行规范管理，如果不掌握其相关的检索工具，便如同大海捞针。搜索引擎是目前网络信息检索中最重要的工具。

搜索引擎（Searching engine）是收集、整理网上信息资源并按一定规则加以整理和组织，提供人们按相应的规则提取信息线索，并能直接链接到相关站点的网上信息搜索工具。

搜索引擎的目的是帮助新闻工作者和网民寻找信息资源。在Internet环境下，其典型实现是基于关键词匹配的信息检索机制。搜索引擎主要由四部分组成：搜索器、索引器、检索器、用户接口。搜索器的功能是在互联网中发现和搜索信息。它要尽可能快、尽可能多地搜集各种类型的信息，同时还要定期更新已有信息，避免死连接和无效连接。索引器的功能是理解搜索器所搜索的信息，从中抽取出索引项，用于表示文档以及生成文档库的索引表，建立起自己的索引数据库。一个搜索引擎的有效性在很大程度取决于索引的质量。检索器的功能是根据用户的查询在索引库中快速检出文档，进行文档与查询的相关度评价，对将要输出的结果进行排序，并实现某种用户相关性反馈机制。用户接口的作用是输入用户查询、显示查询结果，提供用户相关性反馈机制。

搜索引擎起源于传统的信息全文检索理论，即计算机程序通过扫描每一篇文章中的每一个词，建立以词为单位的倒排文档，检索程序根据检索词在每一篇文章中出现的频率和每一个检索词在一篇文章中出现的概率，对包含这些检索词的文章进行排序，最后输出排序结果。

WWW搜索引擎实际上是一个专用的WWW服务器，它存有庞大的索引数据库，搜集了世界上百万甚至上千万个WWW主页的信息。搜索引擎通常采用一种称作Robot（或spider、crawler等）的自动跟踪索引程序，自动跟踪浏览Web信息，然后将浏览结果进行加工处理（主要是WWW主页上的文字信息建立索引，索引信息包括文档的WWW地址，每个文档中单词出现的频率、位置等），形成一个庞大的数据库。每次跟踪结果可自动追加进数据库，此外数据库可由网上任一站点通过输入提问的方式进行访问。Robots（机器人）是指一个在网络上检索文件并自动跟踪该文件的超文本结构，并循环检索被参照的所有文件的软件。也有一些搜索引擎可由人工或通过用户登陆方式追加信息。

使用WWW查询引擎时，一般根据用户输入的关键词，在数据库中查询相关的信息，然后将结果提供给用户。一个完整的搜索引擎系统还需要有一个检索结果的页面生成系统，也就是要把检索结果高效地组装成互联网页面。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈