网络信息检索发展趋势的分析

时间：2024-11-04 理论教育版权反馈

【摘要】：网络上多媒体信息数量的激增使图像、音频、视频等多媒体信息的检索成为网络信息检索的热点。跨语言信息检索是一个起步较晚而发展很快的研究领域。

6.5.4　网络信息检索发展趋势

(1)多媒体信息检索

多媒体信息检索是根据用户的要求，对图形、图像、文本、声音、动画等多媒体信息进行检索，得到用户所需的信息。网络上多媒体信息数量的激增使图像、音频、视频等多媒体信息的检索成为网络信息检索的热点。

多媒体信息检索的方法分为基于文本的检索(Text Based Information Retrieval，TBIR)和基于内容的检索(Content Based Information Retrieval，CBIR)。基于文本的检索是通过对图像、声音等多媒体信息进行文本注释(如题名、作者、主题分类等)，产生索引，然后基于文本注释采用关键词进行检索。TBIR技术能够用文本来表达多媒体对象的语义信息，实现简单，可以充分利用已有的成熟的文本检索技术和搜索引擎技术。但这种方法的文本标注是很不准确的，而且也不能满足用户对多媒体对象原始特征信息的检索。为了克服基于文本的检索技术的局限性，研究者们提出了基于内容的多媒体检索，即把多媒体信息的原始特征信息作为内容表示，进行匹配、查找。目前，针对图形、图像、动态视频等信息类型，研究人员已提出了一些基于颜色、形状、纹理、空间位置关系、摄像机动作、镜头等视觉特征提取与匹配的算法思想，并涌现出一批示范性或试验性检索系统。在音频信息检索方面，研究人员针对语音类信息具有语法、字、词等要素的特点，提出利用自动语音识别(Automatic Speech Recognition，ASR)技术，将语音信息转换成文本再进行检索;而对音乐类信息，则针对其所具有的听觉特征，提出基于旋律、节奏、音乐乐谱等的检索匹配思想。

根据这两种技术各自的特点，如果将二者相结合，有机整合基于文本和基于内容的检索技术，使两者互为补充，这样系统就可以同时获取多媒体信息的语义特征和底层特征，在一定程度上既弥补文字描述存在的主观性不足，又弥补内容检索对语义描述的缺乏。

作为一种半结构化标记语言，XML具有简单灵活、可扩展、自我描述等特点。由于目前网页内容中已不再仅仅包含文本信息，而越来越多的是文本与其他媒体信息的结合，如何利用XML文档的结构语义等信息辅助多媒体信息的检索，是一个值得探索和研究的领域。由于XML文档结构能提供各多媒体信息相互联结的逻辑层次，可以利用该种XML结构来改进基于XML的多媒体信息检索系统的检索性能，根据用户需求检索结构化的多媒体片段，并在统一考虑不同类型信息的相关性的基础上以一定方式合并来对其进行排序显示^[19]。

(2)跨语言信息检索

传统的信息检索系统主要是针对单一语种的文档集实现，一般是使用用户最为熟悉的语种作为查询语言。跨语言信息检索(Cross-Language Information Retrieval，CLIR)是指用户以某种语言(也称为源语言source language)来构建和提交检索提问式，系统检索出符合用户需求的其他语言(也称为目标语言target language)表示的文档集。

跨语言信息检索是一个起步较晚而发展很快的研究领域。该领域的研究始于20世纪70年代初，起初十几年的发展较慢，进入20世纪90年代以后，随着计算机技术和网络技术的迅猛发展，跨语言信息检索的研究也取得了快速进展^[20]。

跨语言信息检索是以单一语言描述的用户查询来检索多语种的信息资源，实质就是单语言的用户查询与多语言的信息(文档)表示之间的匹配。目前主要的解决方法是在单语言信息检索系统的基础上增加一个语言转换机制。作为传统信息检索的一种扩展，跨语言网络信息检索综合了多种信息处理成果，在进行语言转换之前还要进行一些前期的文本预处理，比如语言识别、信息抽取、分词、信息标引、文本分类等。

一般来说，解决查询条件和查询文档集之间的语言障碍有5种不同的技术路线:①同源匹配(congnate matching)，根据两种语言的语词拼写形式或读音相似度来判断其中一种语言语词的意义，不进行任何翻译。这种方法只适用于具有相同词源的语言，比如英语和法语，而对于中英文来说则不适用。②查询翻译(query translation)，将用户输入的提问式(源语言)翻译为系统支持的语言(目标语言)，然后再将目标语言的提问式提交给匹配模块，进行单语言信息检索。其优点是能够在线快速执行，缺点是提问式通常很短，语境信息很少，难以消除歧义。③文献翻译(document translation)，这种方法与查询翻译正好相反，是先将多语言的文献信息集转换成与查询相同的语言，再进行单语言信息检索。其优点是具有完整的文献语境，翻译质量较高，可离线执行，缺点是速度很慢，文献库的规模较小。④中间语言技术(interlingual technique)，是指将源语种与目标语种都转换成一种中间语种来实现CLIR，即源语种-中间语种-目标语种，以此来解决两种语言之间无法直接翻译的问题。中间语言通常选择的是计算机容易处理的语种，如英语等。⑤非翻译(no translation)，目前通过非翻译实现跨语言信息检索的典型技术是潜语义索引(latent semantic indexing)，其实现方式是，首先将原始文档与对应的翻译文档建立联系，构建训练文档集，然后利用奇异值分解技术(Singular Value Decooposition，SVD)对其进行分析，获得双语文档集的特征信息和一级检索词用法上的映射关系，即构造出不同语种的潜在语义空间，最后根据平行文档中的语词的用法特征检索出另一语种的相关信息。

目前跨语言信息检索的主要研究热点包括翻译技术、词义消歧、翻译资源构建、测试集等，同时还有一些问题有待进一步研究，如专有名词识别、音译研究、跨语言信息检索系统的检索结果处理、跨语言信息检索系统评价等将成为新的研究方向^[21]^[22]。

(3)智能信息检索

传统的信息检索系统是基于关键词的检索，并不能完全表达用户的检索需求，返回的检索结果一般也只包含文档的URL和文档标题、摘要等少量信息，由于没有语义支持，经常会检索到一些与用户请求不相关的网页。为进一步提高检索效率和质量，新一代的信息检索系统——智能信息检索系统应运而生。智能信息检索系统是由抽词检索与全文检索发展而来，它是以检索词的相关度为基础，对检索词具有较高的判断能力、理解能力和处理能力的人工智能型检索系统。智能信息检索利用分词词典、同义词典、同音词典等来改善用户的输入，还能对文本资料进行语义理解，当用户查询时，对查询语句进行理解，然后再对文本进行语义上的概念匹配。

理想的智能信息检索系统应尽量实现如下功能:①具有良好的人机交互界面，能使用自然语言处理、机器学习和信息推送等技术;②允许用户灵活地添加和修改查询条件，能根据用户的查询条件进行相应的语义扩展和推理处理，以返回更多用户所关心的信息，提高系统的查全率和查准率;③支持对检索结果的多种排序方式，如按时间排序和按与查询条件的相关程度排序，把最贴近用户需求的信息以较为显著的形式展现出来;④依据用户浏览和检索习惯信息，熟悉用户的兴趣爱好，建立用户描述并据此主动向用户提供相关的信息;⑤具有良好的自适应能力和较高的智能程度，能根据各种领域知识来提高服务质量。

智能信息检索涉及自然语言理解、语义Web、人工智能、本体等多个领域。随着社会的日益信息化，人们越来越强烈地希望用自然语言同计算机交流。自然语言理解的任务是建立一种计算机模型，这种模型能够给出像人那样理解、分析并回答自然语言的结果，寻求计算机对人类语言的自动理解和处理，进而实现更自然、更便捷的人机交流。James Allen在他的《自然语言理解》一书中指出:自然语言理解将为下一次的计算机革命提供动力。他认为:在未来，为适应人类解决问题和行动的方式，应该是计算机做出改变。界面应该是目标驱动的，并以一种符合用户知觉的自然方式向用户返回信息。自然语言将成为人机之间最直接的交流方式。因此，检索工具应该具有更加友好的交互界面，支持用户使用自然语言进行检索，并且计算机能够理解用户的输入信息，在大量文本中找到用户真正需要的内容。

近几年，基于语义、Agent、本体(Ontology)的智能信息检索成为研究热点。语义智能信息检索系统试图从语义上理解和索引文档，并根据用户的相关信息智能化地理解用户的信息需求。在系统实现上采用概念检索，而不是简单的字符串匹配检索。Agent是一个具有适应性和智能性的软件实体，能代表用户或其他程序以主动服务方式完成工作，它与智能信息检索相结合提高了检索技术的智能化，促进人机交互，使信息的收集、过滤、聚类和信息融合更有效率;同时通过跟踪用户信息查询的活动，自主地捕捉用户兴趣爱好，搜索可能引起用户兴趣的信息并提供给用户^[23]。本体(Ontology)能够较好地描述概念的内涵以及概念与概念之间的关系，具有良好的概念层次结构和对逻辑推理的支持。可以利用其对用户检索进行扩展、推理，从而提高检索的效率与精确度，因此，在信息检索，特别是在基于知识的检索中得到了广泛的应用。

(4)信息检索可视化

信息检索可视化是信息可视化技术在信息检索中的应用，是指把文献信息、用户提问、各类情报检索模型以及信息检索过程中不可见的内部语义关系转换成图形，在一个二维或三维的可视化空间中显示出来^[24]。

从技术角度来分析，当前的文本信息检索存在一些比较明显的缺陷:①检索过程是不连续和不透明的，用户对检索过程的参与程度和控制能力较差;②检索结果的线性显示，不能显示检索结果之间的关系，也不能显示检索结果和用户提问式之间的关系，不利于用户对检索结果的理解、接收和利用;③没有充分考虑用户的检索要求与习惯，缺乏比较直观、形象的检索交互措施和渠道。将可视化技术引入信息检索领域，不仅有助于营造简洁、高效的信息检索视觉环境，提高检索操作的透明度，而且在激发用户认知思维、帮助用户理解提问与检索结果之间的内在联系、减少理解检索结果所需时间等方面具有重要作用。

作为一个前沿性探索方向，目前信息检索可视化研究与应用已取得了一定进展和某些试验性成果，并主要体现在检索处理活动的以下不同环节中:(检索前)提问式构造;检索过程的透明化;(检索后)结果处理;可视化检索词表系统的研制，等等。提问式构造的可视化，其研究意图是检索接口或检索界面，对检索词及其逻辑组配关系进行某种直观的、可视化的显示和表达，辅助用户更轻松、准确地构造出既符合系统语法规则又符合自己真实需求的提问式，减少检索交互过程中用户的认知负担。检索过程可视化力图将提问式、文献、文献集及检索结果等对象以图形表示，通过检索操作以可视化的方式展示检索词与提问式、检索匹配过程、不同匹配阶段命中的文档记录数量等内容，使得用户对检索过程可控、可理解。检索结果可视化研究主要建立在对检索结果集合的分析处理基础上，围绕“显示什么”和“如何显示”两个方面进行试验和探讨，以揭示检索词与结果文档之间的相关度、结果文档之间的内在联系等，利于用户对检索结果的整体把握。

未来的研究中，如何实现抽象的、庞大的信息空间可视化仍是一个具有挑战性的问题。其中复杂对象结构、语义及相互间关系的可视化是重点，而建立在应用层面上的可视化信息检索与交互标准研究，是加速可视化技术应用进程的重要手段^[25]。

(5)Web2.0环境下的信息检索

在Web2.0时代，普通用户逐渐从单纯的信息使用者的角色向信息生产者和使用者的双重身份过渡，普通用户在信息检索过程中的参与程度比以往大大加强。基于P2P的信息检索、基于社会化标签的信息检索等将成为未来信息检索的发展趋势和研究热点。

随着WWW的迅速发展，人们越来越依赖搜索的理念去定位所需要的资源，而集中式的搜索引擎远远无法涵盖所有互联网内的共享内容，基于P2P的信息检索正好是这种集中式检索的良性互补^[26]。利用社会化标签进行信息检索是一种新的信息检索方式，它是随着Web2.0时代的到来逐渐被采用的。目前流行于网络的分众分类法就是在社会化标签的基础上发展起来的。由于其自身维护成本较低，容易发现深层次信息，有一定的语义特性，容易形成社区等优势越来越受到关注。Web2.0环境下网络表现出一系列的新特征，信息检索的技术、方法、模式等也随之发生变化，值得进一步深入探讨。

本章内容提要

在信息管理流程中，信息检索是继信息组织之后的又一重要环节，其任务是在前面信息组织的基础上，使用户查找到并获取满足其信息需求的信息内容。第6章首先介绍了信息检索的基本概念与相关原理，包括信息检索的涵义、类型、基本原理及主要模型;并以信息技术发展为线索，梳理了信息检索的发展历程及阶段，并对各阶段所采用的信息检索技术和方法进行了介绍;然后讨论了信息检索的步骤与策略制定，以及信息检索语言和信息检索效率评价等相关问题。在网络应用部分，分析了网络信息检索的特点，重点介绍了搜索引擎这种主要的网络检索工具，包括搜索引擎的发展、原理及应用等方面，并对网络信息检索未来的发展趋势进行了展望。

本章重点

1.掌握信息检索的基本原理，分析信息检索流程与信息组织流程之间的关系;

2.了解信息检索的发展阶段及每个阶段所采用的主要技术手段特征; 3.什么是检索策略，如何根据检索命题制定优化的检索策略; 4.信息检索效率评价主要指标有哪些?它们之间是什么关系?

5.掌握搜索引擎的基本原理，结合不同领域的实例分析不同类型的搜索引擎的应用现状及其功能特性。

本章其他参考文献

［1］陈光祚.计算机情报检索系统导论［M］.北京:书目文献出版社，1993．

［2］华薇娜.搜索引擎的最新进展述要［J］.图书与情报，2009(6)．

［3］黄如花.网络信息的检索与利用［J］.武汉:武汉大学出版社，2002．

［4］焦玉英，符绍宏，何绍华编著.信息检索［M］.武汉:武汉大学出版社，2008．

［5］焦玉英，雷春明.模糊理论在信息检索中的应用研究［J］.情报学报，2000(5)．

［6］焦玉英，等.网络环境中信息检索理论与实践的发展［J］.图书情报知识，2001(1)．

［7］李灵华，米守防.国外典型元搜索引擎特性比较与分析［J］.计算机工程与设计，2010(9)．

［8］屈鹏，李璐，张丽丽.情报检索发展的几个前沿问题［J］.图书情报工作，2008(3)．

［9］王文钧，李巍.垂直搜索引擎的现状与发展探究［J］.情报科学，2010(3)．

［10］叶伟.中文WAP移动搜索比较研究——以谷歌、宜搜为例［J］．情报探索，2010(7)．

［11］张琪玉.情报语言学基础(增订版)［M］.武汉:武汉大学出版社，1997．

［12］赵需要，张文德.网络信息检索模式及未来发展［J］.情报探索，2006(2)．

［13］S.J.Shepherd.Concepts and Architectures for Next-generation Information Search Engines［J］．International Journal of Information Management，2007，27(1)．

【注释】

[1]切内尔著.情报检索理论概述［M］.赵宗仁，等译.北京:科学技术文献出版社，1980．

[2]康耀红.相关性及其排序原则［J］.情报理论与实践，1990(4)．

[3]夏立新，金燕，方志，等.信息检索原理与技术［M］.北京:科学出版社，2009:6．

[4]赵丹群.现代信息检索:原理、技术与方法［M］.北京:北京大学出版社，2008:3．

[5]王知津，郑红军.基于集合理论的信息检索模型［J］.情报科学，2004(11):1288-1291，1296．

[6]丁蔚，倪波，成颖.情报检索的发展——情报学世纪回眸之一［J］.情报科学，2001(1):81-86．

[7]张海涛，等.信息检索［M］.北京:机械工业出版社，2006:38．

[8]陈雅芝，等.信息检索［M］.北京:清华大学出版社，2006:20-23．

[9]张琪玉.情报语言学基础［M］.武汉:武汉大学出版社，1997:8．

[10]张海涛，等.信息检索［M］.北京:机械工业出版社，2006:27．

[11]丘丽珍.浅谈图书馆网络信息检索方法与技巧［J］.科技情报开发与经济，2006(23):72-74．