首页 百科知识 搜索引擎基本原理

搜索引擎基本原理

时间:2022-07-06 百科知识 版权反馈
【摘要】:4、提供检索搜索引擎的检索器根据用户输入的关键字,在索引库中快速检索出包含的这个KEYWORD的网页,并按照上述的排序规则对将要输出的结果进行排序,并将结果返回给用户。

我们前面已经分析过ODP等类似的目录式索引擎,那是半人工的分类目录,用户通过分类导航或搜索人工编写的摘要进行检索,严格意义上这不是真正的搜索引擎。

我们这里讲的搜索引擎是基于页面的搜索引擎。基于页面的搜索引擎,其实就像有一个人,将网络上可以被寻找到的网站,事先找回来;然后将每个网站的每个页面都复制下来,再将每个页面的信息都登记好编号,然后提供给用户。用户只要输入想要的关键词,搜索引擎就根据这个关键词去匹配事先登记好的信息,把对应编号的信息提供给客户选择。

因此,页面的搜索引擎,我们又叫全文检索,让我们一起看看搜索引擎的工作步骤就很容易了解搜索引擎的原理了。

1、抓取网页

发现网站,通过爬虫(SPIDER)将网页抓取回来存档,就是常说的“快照”。

2、分析网页

提取网页的文字信息,将网页的文字信息进行文字分组。如果是中文则进行中文分词后,进行词语分组,并登记编号、创建索引。

我们来看一个例子,假设www.258weishi.com/index.html这个网页上有这句文字:“258商务卫士是一款会思考的B2B推广工具”,那么搜索引擎会将这些文字内容提取并分成“258”、“商务”、“卫士”、“一款”、“思考”、“B2B”、“推广”、“工具”等,然后将每个词语进行登记编号入库。

再假设www.xuanchuanyi.com/index.html这个页面上有这句文字:“商友宣传易是商务人士进行电子商务推广的入门级工具”,则提取并分成“商友”、“宣传易”、“商务”、“人士”、“进行”、“电子”、“商务”、“推广”、“入门级”、“工具”等,然后将每个词语进行登记编号入库。

这时,搜索引擎的索引库已经登记了包含“商务”这个词的网页有例子中的两个,并且记录了第一个页面包含一个“商务”词,第二个页面包含两个“商务”词。

如此类推,假设258商业搜索上面有十亿个页面,则每个页面都重复上述过程,假设有十万个页面包含了“商务”这个词,创建了索引的搜索引擎会清楚记录包含“商务”这个词分别是哪些页面,每个页面有多少个“商务”等,如同查字典一样,索引目录会告诉你要找的那个“字”在第几页。

3、排序规则

搜索引擎都会有非常复杂的排序计算方式,目的是让搜索引擎提供的搜索结果,尽可能符合搜索者的搜索目的。比如google的PR(page rank),叫google的页面权重;百度的则叫百度权重(目前百度权重并没有官方的数值对外提供);258搜索则叫BR(BUSINESS RANK),叫商业页面权重。各搜索引擎都有一套非常复杂并保密的页面权重算法,也叫排序规则。

4、提供检索

搜索引擎的检索器根据用户输入的关键字(KEYWORD),在索引库中快速检索出包含的这个KEYWORD的网页,并按照上述的排序规则对将要输出的结果进行排序,并将结果返回给用户。假设用户输入“商务”这个关键词,则上述举例中搜索引擎检索到两个页面包含了“商务”这个词,按简单排序方法,第二个页面因为包含了两个“商务”,那么搜索引擎会“思考”可能第二个页面更加符合用户的需求,则排第一;第一个页面只包含一个“商务”则排第二,如此类推。

这就是搜索引擎的基本工作原理,如果纯文字看得比较累,你只要在白板上简单画出流程图,就一目了然了。懂得基本原理,对于SEO的讲解就简单得多了,主要是针对搜索引擎的爬虫和权重排序来做对应的优化工作。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈