当前网络信息组织的主要方法

时间：2023-07-17 百科知识版权反馈

【摘要】：但当超媒体网络过于庞大时，难以迅速、准确地定位于真正需要的信息结点，而且容易出现“迷航”现象。鉴于目前网络信息组织存在的缺点，基于本体的网络信息组织方法具有滋生的优点。

1.文件方式

文件是存储非结构化信息的天然单位，计算机处理的所有最终结果都能以文件的形式保存下来，对于图形、图像、图表、音频、视频等非结构化信息，可以方便地利用文件系统来管理。Internet也提供了诸如FTP一类的协议来帮助用户利用那些以文件形式保存和组织的信息资源。但是，以文件为单位共享和传输信息，会使网络负载越来越大，对结构化信息的组织与管理显得软弱无力，而且随着以文件形式保存和管理的信息资源的迅速增多，文件本身也需要作为对象来进行管理。

2.数据库方式

数据库是对大量的规范化数据进行管理的技术，它利用严谨的数据模型对信息进行规范化处理，利用成熟的关系代数理论进行信息查询的优化，能提高信息管理的效率。由于数据的最小存取单位是字段，用户可根据需要灵活地改变查询结果集的大小，从而大大降低了网络数据传输的负载。以数据库技术为基础，还可以帮助建立网络信息系统来组织网络信息。利用数据库方式组织网络信息同样存在许多不足，如对非结构化信息处理难度较大，不能提供数据之间的关联，无法处理结构复杂的信息单元，而且缺乏直观性和人机交互性。

3.主题树方式

主题树方式组织信息资源的方法，是将信息资源按照某种事先确定的概念体系分门别类地加以组织，用户通过浏览的方式层层遍历，直到找到所需要的信息线索连接到相应的网络信息资源。采用树型目录结构组织信息资源，具有严密的系统性和良好的可扩充性，用户查准率也比较高。为了保证主题树的可用性和结构的清晰性，范畴体系的类目不宜过多，每一类目下的信息索引条目也不宜过多，这就限制了一个主题树体系所能容纳的信息资源数量，所以，主题树结构不宜建立大型的、综合性的网络资源系统。

4.搜索引擎方法

搜索引擎是指Internet上专门提供查询服务的一类工具，它利用被称作Robot、 Spider、 Worm等名称的自动代理软件，定期或者不定期地在网上爬行，通过访问网络中公开区域的每一个站点，对网络信息资源进行搜集，然后利用搜索软件对搜集的信息进行自动标引，创建一个详尽的可供用户进一步按关键词查询的Web页索引数据库。这种数据库的内容一般有标题、摘要或简短描述、关键词和URL、文件大小、语种以及词出现的频率和位置等。搜索引擎方法是目前Internet上对二次信息组织的主要方式之一，网上有成百上千种这类搜索引擎，比较著名的有AltaV ista、 Opentext、 Excite、Webcraw ler、 Lycos等。此种方式所搜集的信息虽然丰富广博，但良莠不齐，因而查准率低。

5. 自由文本方法

该方法主要用于全文数据库的组织，是对非结构化的文本信息进行组织和处理的一种方式。它不同于二次文献数据库的组织，无需前控，不必用规范化语言对信息进行复杂的前处理。它不是对文献特征的格式化描述，而是用自然语言深入揭示文献的知识单元，根据文献全文的自然状况直接设置检索点。它能够完整地反映出一次文献的全貌，通过计算机自动进行文献信息处理和组织。基于全文数据库的全文检索，可以将任意字符作为检索标识，这样，用户用自然语言即可直接检索未经标引的一次文献。

6.超文本方法

超文本是一种新型的信息组织方法，是网络信息组织的基础。超文本技术的一大特征是信息的非线性排列，它以结点为基本单位，结点间以链接点相连，将信息组织作为某种网状结构，使用户可以从任一结点开始，根据网络中信息之间的链接，从不同角度浏览和查询信息。超文本组织方法所提供的非顺序性的浏览功能，比传统的信息组织方式更加灵活方便，且符合人们的联想思维方式。超文本技术的另一大特征是信息表达形式的多样性。超文本信息可以是文字、图形、图像、声音、动画等多种媒体形式，因此也可称之为“超媒体”。

7.超媒体方式

超媒体技术是超文本与多媒体技术的结合，它将文字、表格、声音、图像、视频等多媒体信息以超文本方式组织起来，使人们可以通过高度链接的网络结构，在各种信息库中自由航行，找到所需的任何媒体信息。它采用非线性方式组织信息，符合人们思维联想和跳跃性的习惯。各个信息节点中的内容可多可少，结构可以任意伸缩，具有良好的可扩充性和包容性。同时，它通过链路浏览的方式搜寻所需信息，将信息控制机制融合进系统数据中，避免了检索语言的复杂性。但当超媒体网络过于庞大时，难以迅速、准确地定位于真正需要的信息结点，而且容易出现“迷航”现象。

8.本体研究方法

本体是从哲学领域引进的一个概念。近年来，在知识工程、人工智能、信息系统等领域的研究中，被用来表示有关领域的对象、概念、实体以及它们之间的关系。在图书情报领域，本体也有很大应用。比如，叙词表、分类表，它们都是用来描述特定学科信息并且用作特定学科的信息组织工具，词（概念、类）及词（概念、类）间关系，都具有等级结构，并通过等级关系及词间关系将词组织起来。基于本体的网络信息组织借助本体描述语言，可以直接表达为机器可理解的、显示的、明确的、形式化的语义，便于计算机理解和处理；本体在表达概念及含义时更加清晰和准确，在进行信息组织时也更加规范；它是多维、网状的信息组织方式；它的描述语言具有推理功能。

鉴于目前网络信息组织存在的缺点，基于本体的网络信息组织方法具有滋生的优点。在方法设计上，该方法建立在四点假设成立的基础上：①领域专家已具备构建出某一领域本体的能力；②具备切分词功能的切词软件，如3GWS等；③经过长时间经验的积累，已确定去除高频词和低频词的阈值；④具备完善的句法分析方法，该方法分为领域本体构建、预处理器和文档分析器三个部分，实施步骤如图5-20所示。

pagenumber_ebook=163,pagenumber_book=155

图5-20　基于本体的网络信息组织方法

9.语义网研究方法

在信息组织的研究中，当前最关注的问题是如何使巨大的网络信息资源得到快速的识别、标记，只有这样，才能进行有效的传播、搜索和使用。语义网（Semantic Web）是对现有的Web进行语义扩展，弥补计算机难以分析和识别的语义信息内容上的不足。语义网具有一整套完备的信息组织机制，该机制的核心由两大模块组成：一是以XML与RDF（ s）为手段的信息组织模块，它用于管理信息，具有部分语义；二是以Ontology（本体论）为手段的知识组织模块，它用于管理知识，提供机器间的语义互操作。

10.搜索引擎研究方法

搜索引擎是集信息采集、信息组织、信息检索为一体的技术，是利用互联网资源最重要的工具。近年来，搜索引擎研究的重点在于：一是提高搜索的精度。目前，搜索引擎研究主要是在现有技术的基础上，结合汉字特点进行改进。二是基于内容的多媒体信息搜索技术受到更多关注。三是网络信息分类导航系统、学科信息门户的研究更加深入。四是随着网络信息复苏的个性化服务发展，大众分类、维基百科开始崛起。

11. 自动标引和自动分类的研究方法

解决海量信息的快速组织的核心技术之一是自动标引和自动分类。自动标引包括关键词自动提取（又称自动抽词标引）和自动赋词标引。自动标引系统是情报检索系统的一个子系统。自动标引过程与人工标引过程相似，也要经过主题分析、查词表和将自然语言转换为情报检索语言的若干阶段。自动标引的特点是标引速度快、标引的前后一致性好。今后，自动标引的研究方向主要有：本体的自动构建，并用于自动赋词标引中；多种标引方法的集成学习、更理想的机器学习方法的运用；深层语言知识的获取及其在自动标引任务中的运用等。现在，自动分类大部分都建立在题中或文摘中关键词的基础上，其速度与规范性则是手工分类无法比拟的。因此，它正在受到人们越来越多的重视，成为一个重要的研究与发展方向。特别是它与聚类检索的结合，将使其拥有更强的生命力。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈