首页 理论教育 搜索引擎的智能行为分析

搜索引擎的智能行为分析

时间:2022-03-04 理论教育 版权反馈
【摘要】:为提高搜索引擎的检索性能,本节首先分析了搜索引擎的影响因素。搜索引擎的智能性在检索技术、检索结果处理及检索服务的智能化上得以体现[2]。因而智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息检索,并能为用户提供更方便、更确切的搜索服务。

10.1.2 索引擎的智能行为分析

传统搜索引擎采用关键词的机械匹配,缺乏知识处理能力和理解能力,即搜索引擎无法处理一些在用户看来是非常普遍的常识性知识,更无法处理随用户不同而变化的个性化知识、随地域不同而变化的区域性知识以及随领域不同而变化的专业性知识等。为提高搜索引擎的检索性能,本节首先分析了搜索引擎的影响因素。影响搜索引擎性能的最关键因素有三点:所采集到的原始信息的质量,对原始信息的加工处理与组织的能力高低,信息检索查询服务能力。

(1)原始信息的采集。所采集到的网络原始信息的质量好坏直接影响到搜索引擎的性能。网络环境中的信息呈现一种无穷的状态,其范围之广、数量之大对搜集效率和效果有着非常大的影响,因此,应使搜索过程能在一定条件下选择最优路径沿着具有相关主题的链接进行搜索,这也就要求搜索引擎能够识别相应的网站和网页信息资源,是一种智能性的体现,这种智能性的实现需要采用机器学习、自然语言理解、内容分析、自动分类等技术。

(2)信息的加工处理与组织。当采用合适的算法和策略从网络信息资源中获取到原始超文本信息后,还需要从中抽取出有价值的信息内容进行索引存储,构建信息数据库。这一阶段可以借助于数据挖掘与知识发现、机器学习、元数据、本体、内容分析、知识库等技术实现智能化、知识化的信息获取和组织。

(3)信息的检索查询。信息检索查询接口为用户提供直接服务,它根据用户的信息需求,完成对数据库的查找过程,并以一定的方式向用户提供查询结果。信息检索是搜索引擎最终的价值体现,是影响搜索引擎性能的一个关键环节,其实现需要借助于知识检索理念与技术。

针对上述分析,可融入人工智能、自然语言理解、用户模型、模式识别、数据挖掘等技术,构建智能搜索引擎,提供主动的、个性化的搜索服务,以此提高搜索引擎的性能。搜索引擎的智能性在检索技术、检索结果处理及检索服务的智能化上得以体现[2]

1.检索技术的智能化

(1)机灵的网络蜘蛛。网络蜘蛛通过对网络的链接访问能够实现对Internet信息的遍历。它定期根据预先设定的地址查看对应网页,若网页发生变化则重新获取该网页,否则根据该网页中的链接继续访问。而智能搜索引擎的设计网络蜘蛛不仅能遍历整个Internet,自动完成在线信息的索引,还能通过启发式学习采取最有效的搜索策略,选择最佳时机从Internet上自动收集、整理信息。同时,它能够对网页内容的相关性及该网页所包含的链接质量等作出判断,质量较差或内容不大相关的网页将不被选取,从而保证信息来源的质量,提高检索效果。

(2)自然语言理解技术。借助自然语言理解技术,智能搜索引擎能够实现基于知识(或概念)层面的检索,并且对知识有一定的理解与处理能力,能够实现分词技术、同义词技术、概念搜索、短语识别以及机器翻译技术等。因而智能搜索引擎具有信息服务的智能化、人性化特征,允许用户采用自然语言进行信息检索,并能为用户提供更方便、更确切的搜索服务。

(3)检索对象形式的多样性。智能搜索引擎具有跨平台工作和处理多种混合文档结构的能力,既能处理HTML(HyperText Markup Language,超文本标志语言),又能处理SGML(Standard for General Markup Language,通用标志语言标准)和XML(Extensible Markup Language,可扩展标志语言)文档以及其他类型的文档,如Word、WPS等。另外,智能搜索引擎还支持多语言检索,允许用户用中文输入查询英文或其他语言的信息。

(4)人工/机编混合型目录。它呈两种形式:人工进行质量控制的机编目录和运用智能技术检索的手编目录。这种混合型目录能够弥补机编目录和手编目录的缺憾,提高网页索引覆盖率。

2.检索结果处理的智能化

(1)测试群体用户使用网络的方式提高检索结果的相关度。例如,访问量排序和基于超链接的排序。搜索引擎记录其所搜索到的Web页面的被点击次数(即访问量),从而判断该Web页面被访问的频率。这是一种由公众集体确认网站重要性的方法,具有一定的客观性与公众性。而基于超链接的排序则是利用Web页面之间的引用关系,综合考虑Web页面被引用次数以及所引用页面的相关度来判断本页面的重要性。

(2)检索结果的转换过滤,即根据一定条件对检索结果进行优化过滤的过程,如信息格式的支持与转换。采用信息过滤技术可减少重复信息和垃圾信息,应用聚类技术对检索结果进行联机聚类处理,从而“精简”检索结果。

(3)检索结果的知识提取。搜索程序具有机械性及其对网络用户的透明性,而网络用户对搜索程序所规定的概念和语词符号一无所知,这就使用户的检索具有一定的模糊性,进而降低检索结果的满意度。因此,智能搜索引擎通过对用户需求进行分析研究,跟踪用户的兴趣爱好,建立用户需求模型库,并对检索结果进行一定程度上的知识提取,完成检索结果的集成。

3.检索服务的智能化

在检索服务方面,检索质量的提高依赖于对网络用户信息需求的分析与挖掘,最基本的在于确定提问词中词语在不同领域的含义。比如对“bond”的检索,不同的用户会有不一样的需求,这就需要分析用户检索的是“金融债券(financial bond)”,“化学键(chemical bond)”,还是“人名(James Bond)”。只有理解提问词的含义范围,理论上将检索范围缩小到一个适当的相关范围,检索才能精确。同时,试图理解用户的意图,并相应地将检索结果分类编排,便于用户的选择利用。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈