首页 百科知识 当前网络信息组织的主要方法

当前网络信息组织的主要方法

时间:2022-07-17 百科知识 版权反馈
【摘要】:但当超媒体网络过于庞大时,难以迅速、准确地定位于真正需要的信息结点,而且容易出现“迷航”现象。鉴于目前网络信息组织存在的缺点,基于本体的网络信息组织方法具有滋生的优点。

1.文件方式

文件是存储非结构化信息的天然单位,计算机处理的所有最终结果都能以文件的形式保存下来,对于图形、图像、图表、音频、视频等非结构化信息,可以方便地利用文件系统来管理。Internet也提供了诸如FTP一类的协议来帮助用户利用那些以文件形式保存和组织的信息资源。但是,以文件为单位共享和传输信息,会使网络负载越来越大,对结构化信息的组织与管理显得软弱无力,而且随着以文件形式保存和管理的信息资源的迅速增多,文件本身也需要作为对象来进行管理。

2.数据库方式

数据库是对大量的规范化数据进行管理的技术,它利用严谨的数据模型对信息进行规范化处理,利用成熟的关系代数理论进行信息查询的优化,能提高信息管理的效率。 由于数据的最小存取单位是字段,用户可根据需要灵活地改变查询结果集的大小,从而大大降低了网络数据传输的负载。以数据库技术为基础,还可以帮助建立网络信息系统来组织网络信息。利用数据库方式组织网络信息同样存在许多不足,如对非结构化信息处理难度较大,不能提供数据之间的关联,无法处理结构复杂的信息单元,而且缺乏直观性和人机交互性

3.主题树方式

主题树方式组织信息资源的方法,是将信息资源按照某种事先确定的概念体系分门别类地加以组织,用户通过浏览的方式层层遍历,直到找到所需要的信息线索连接到相应的网络信息资源。采用树型目录结构组织信息资源,具有严密的系统性和良好的可扩充性,用户查准率也比较高。为了保证主题树的可用性和结构的清晰性,范畴体系的类目不宜过多,每一类目下的信息索引条目也不宜过多,这就限制了一个主题树体系所能容纳的信息资源数量,所以,主题树结构不宜建立大型的、综合性的网络资源系统。

4.搜索引擎方法

搜索引擎是指Internet上专门提供查询服务的一类工具,它利用被称作Robot、 Spider、 Worm等名称的自动代理软件,定期或者不定期地在网上爬行,通过访问网络中公开区域的每一个站点,对网络信息资源进行搜集,然后利用搜索软件对搜集的信息进行自动标引,创建一个详尽的可供用户进一步按关键词查询的Web页索引数据库。这种数据库的内容一般有标题、摘要或简短描述、关键词和URL、文件大小、语种以及词出现的频率和位置等。搜索引擎方法是目前Internet上对二次信息组织的主要方式之一,网上有成百上千种这类搜索引擎,比较著名的有AltaV ista、 Opentext、 Excite、Webcraw ler、 Lycos等。此种方式所搜集的信息虽然丰富广博,但良莠不齐,因而查准率低。

5. 自由文本方法

该方法主要用于全文数据库的组织,是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织,无需前控,不必用规范化语言对信息进行复杂的前处理。它不是对文献特征的格式化描述,而是用自然语言深入揭示文献的知识单元,根据文献全文的自然状况直接设置检索点。它能够完整地反映出一次文献的全貌,通过计算机自动进行文献信息处理和组织。基于全文数据库的全文检索,可以将任意字符作为检索标识,这样,用户用自然语言即可直接检索未经标引的一次文献。

6.超文本方法

超文本是一种新型的信息组织方法,是网络信息组织的基础。超文本技术的一大特征是信息的非线性排列,它以结点为基本单位,结点间以链接点相连,将信息组织作为某种网状结构,使用户可以从任一结点开始,根据网络中信息之间的链接,从不同角度浏览和查询信息。超文本组织方法所提供的非顺序性的浏览功能,比传统的信息组织方式更加灵活方便,且符合人们的联想思维方式。超文本技术的另一大特征是信息表达形式的多样性。超文本信息可以是文字、图形、图像、声音、动画等多种媒体形式,因此也可称之为“超媒体”。

7.超媒体方式

超媒体技术是超文本与多媒体技术的结合,它将文字、表格、声音、图像、视频等多媒体信息以超文本方式组织起来,使人们可以通过高度链接的网络结构,在各种信息库中自由航行,找到所需的任何媒体信息。它采用非线性方式组织信息,符合人们思维联想和跳跃性的习惯。各个信息节点中的内容可多可少,结构可以任意伸缩,具有良好的可扩充性和包容性。同时,它通过链路浏览的方式搜寻所需信息,将信息控制机制融合进系统数据中,避免了检索语言的复杂性。但当超媒体网络过于庞大时,难以迅速、准确地定位于真正需要的信息结点,而且容易出现“迷航”现象。

8.本体研究方法

本体是从哲学领域引进的一个概念。近年来,在知识工程、人工智能、信息系统等领域的研究中,被用来表示有关领域的对象、概念、实体以及它们之间的关系。在图书情报领域,本体也有很大应用。比如,叙词表、分类表,它们都是用来描述特定学科信息并且用作特定学科的信息组织工具,词(概念、类)及词(概念、类)间关系,都具有等级结构,并通过等级关系及词间关系将词组织起来。基于本体的网络信息组织借助本体描述语言,可以直接表达为机器可理解的、显示的、明确的、形式化的语义,便于计算机理解和处理;本体在表达概念及含义时更加清晰和准确,在进行信息组织时也更加规范;它是多维、网状的信息组织方式;它的描述语言具有推理功能。

鉴于目前网络信息组织存在的缺点,基于本体的网络信息组织方法具有滋生的优点。在方法设计上,该方法建立在四点假设成立的基础上:①领域专家已具备构建出某一领域本体的能力;②具备切分词功能的切词软件,如3GWS等;③经过长时间经验的积累,已确定去除高频词和低频词的阈值;④具备完善的句法分析方法,该方法分为领域本体构建、预处理器和文档分析器三个部分,实施步骤如图5-20所示。

图5-20 基于本体的网络信息组织方法

9.语义网研究方法

在信息组织的研究中,当前最关注的问题是如何使巨大的网络信息资源得到快速的识别、标记,只有这样,才能进行有效的传播、搜索和使用。语义网(Semantic Web)是对现有的Web进行语义扩展,弥补计算机难以分析和识别的语义信息内容上的不足。语义网具有一整套完备的信息组织机制,该机制的核心由两大模块组成:一是以XML与RDF( s)为手段的信息组织模块,它用于管理信息,具有部分语义;二是以Ontology(本体论)为手段的知识组织模块,它用于管理知识,提供机器间的语义互操作。

10.搜索引擎研究方法

搜索引擎是集信息采集、信息组织、信息检索为一体的技术,是利用互联网资源最重要的工具。近年来,搜索引擎研究的重点在于:一是提高搜索的精度。 目前,搜索引擎研究主要是在现有技术的基础上,结合汉字特点进行改进。二是基于内容的多媒体信息搜索技术受到更多关注。三是网络信息分类导航系统、学科信息门户的研究更加深入。四是随着网络信息复苏的个性化服务发展,大众分类、维基百科开始崛起。

11. 自动标引和自动分类的研究方法

解决海量信息的快速组织的核心技术之一是自动标引和自动分类。 自动标引包括关键词自动提取(又称自动抽词标引)和自动赋词标引。 自动标引系统是情报检索系统的一个子系统。 自动标引过程与人工标引过程相似,也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。 自动标引的特点是标引速度快、标引的前后一致性好。今后,自动标引的研究方向主要有:本体的自动构建,并用于自动赋词标引中;多种标引方法的集成学习、更理想的机器学习方法的运用;深层语言知识的获取及其在自动标引任务中的运用等。现在,自动分类大部分都建立在题中或文摘中关键词的基础上,其速度与规范性则是手工分类无法比拟的。因此,它正在受到人们越来越多的重视,成为一个重要的研究与发展方向。特别是它与聚类检索的结合,将使其拥有更强的生命力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈