首页 理论教育 网络信息的主题组织的分析介绍

网络信息的主题组织的分析介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:随着因特网的发展,国际上一些主流的数据库不断改进和提高叙词表在网络数据库领域的信息组织和检索能力。因此网络环境用户迫切需要采用自然语言,关键词法成为网络信息组织中的一种常见方法。

5.4.3 网络信息的主题组织

主题法是网络信息组织的另一种主要方式,主要可分为两种形式:一是采用现有的词表(如叙词表,即主题词表),主要应用于学科专业型数据库中;二是采用关键词法,在索引擎等网站中使用较普遍。

5.4.3.1 叙词表的应用

叙词表,又称主题词表,是叙词法的词汇管理工具,是为采用叙词法标引和检索信息的用户提供规范化的叙词及其语义关系信息的一种索引词汇表。网络化的叙词表联机显示是叙词表在网络环境下应用的主要形式之一,既包括原印刷型词表的数字化,也包括数字化环境下编制和生产的数字化词表。

随着因特网的发展,国际上一些主流的数据库不断改进和提高叙词表在网络数据库领域的信息组织和检索能力。例如世界三大农业数据库之一的联合国粮农组织所属的国际农业科技信息系统建立的书目型的国际农业数据库AGRIS,其网络版农业多语种叙词表AGROVOC,进行了不断的修订和维护,完全适应了网络数据库的信息标引和检索功能[7]。其他著名的叙词表,例如美国国立医学图书馆编制的《医学主题词表》(Medical Subject Headings,MeSH)[8]、LCSH国会图书馆标题表(Library of Congress Subject Headings)等都在网络时代发挥着重要的作用。2005年美国发布了新的叙词表国家标准,叙词表相关的国际标准也在2008年出了讨论稿[9]

按照功能和有用性,网络环境下的叙词表可分为两种类型:①独立叙词表,此类叙词表不附属于某个信息系统,如《ASIS图书馆和信息科学叙词表》、《艺术与建筑叙词表》(Art&Architecture Thesaurus,AAT)等;②集成在数据库或信息检索系统中的叙词表,如美国教育资源信息数据库使用的《教育资源叙词表》(ERIC)、美国国立医学图书馆编制的《医学主题词表》(Medical Subject Headings,MeSH)等。

值得关注的是,随着图像、音频、视频等各种非文本信息的增多,各类多媒体数据库相应建立,一些国家开始实行一些项目来将叙词表引入对视觉化信息的标引过程,以提高其标引质量和检索效率。具有代表性的有美国国家航空航天局《NASA图像集合视觉叙词表》(NASA Image Collection Visual Thesaurus)。德克萨斯奥斯汀学院的ICON图像扫描实验室项目致力于创建一种用于NASA图像数据库标引和检索的受控词表。项目使用自动叙词表构建技术,提出一种专门用于快速准确标引和检索视觉数据的新型叙词表,称为“视觉叙词表”(The Visual Thesaurus),词表将集合中的图像与语词类目对应起来,它也可以应用到航空领域以外的其他图像结合。此项目的目的包括两方面:一是使用适合于各种图像集合领域的“图像语言”来快速精确地描述图像,创建一个数据库生成子系统;二是在数据库生成子系统的基础上,创建用于检索的视觉界面。

5.4.3.2 关键词法的应用

叙词表具有较强的专业性,词表的参照系统和索引系统也比较完善,在学科专业型数据库中较为常用。但与此同时,在现有的网络环境下,难以单纯采用自动规范用词来组织信息资源以及实现自动扩检;并且检索语言的使用不再仅限于专业标引人员和检索人员,二是层次不同的广大终端用户。因此网络环境用户迫切需要采用自然语言,关键词法成为网络信息组织中的一种常见方法。

由于网络资源数量庞大,使用规范语言将会大大提高信息组织成本,降低文本处理效率,而网络信息的自动词语处理技术,是直接从文本标题或正文中抽取关键词作为信息组织标识。与叙词相比,关键词是一种不受控或者受控程度较低的标引语言。因而,关键词技术在网络搜索引擎和其他信息系统的信息组织中被广泛采用。网络搜索引擎中的自动索引软件,如Robot、Spider、Crawler等都采用了关键词技术,从网站、网页的题名、地址、摘要,甚至网页的正文中抽取关键词作为索引词,提供指向相关网络信息资源的超文本链接。这些搜索引擎由采集器、建库器、索引查询器、备份复制器、目标缓存器、目标管理器等功能模块组成,分别负责在网络上漫游和收集网页上的重要信息,抽取网页上的内容,生成目标格式文件,排序、归并、检索、更新及管理索引数据库内的文件。在搜索引擎的数据库内,收集起来的超文本格式的文件要进行筛选,把文件中的辅助部分去掉,把有检索意义的部分储存起来,形成查询数据库。关键词和其他一些特定词成为数据库中重要的组织标识或检索标识。我们所熟悉的Google、Baidu、Bing等搜索引擎都采用了关键词法来组织网络信息。此外,网络上的一些文献数据库(如中国期刊网CNKI、重庆维普数据库等),也广泛使用了词语标识系统,使得用户在进行文献分类浏览的同时,还能够从题名、作者、篇名等检索入口利用关键词作为检索标识进行查找。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈