首页 理论教育 近五年来国内外文献分类学研究热点探寻

近五年来国内外文献分类学研究热点探寻

时间:2022-03-04 理论教育 版权反馈
【摘要】:通过查阅国内外相关期刊论文数据库、有关出版物及相关网站,对2001~2005年5年间国内外文献分类学研究热点进行总结与分析,将其归纳为文献分类法的电子化与网络化、兼容化、自动分类、网络信息组织等几个专题,并对我国文献分类法的研究提出建议。Suman与Debanshu从图书分类法用于网络资源组织的主要优势与存在问题,以及DDC目前在网上应用实践等方面,对图书分类法在网络中的作用进行探讨。

近五年来国内外文献分类学研究热点探寻

司 莉

武汉大学信息管理学院 武汉 430072

【摘要】通过查阅国内外相关期刊论文数据库、有关出版物及相关网站,对2001~2005年5年间国内外文献分类学研究热点进行总结与分析,将其归纳为文献分类法的电子化与网络化、兼容化、自动分类、网络信息组织等几个专题,并对我国文献分类法的研究提出建议。

【关键词】文献分类学 研究热点 建议

Research focus of Document Classification in the Last 5 Years and Some suggestions of our research

Si Li

School of Information Management,Wuhan University,Wuhan,P.R.China,430072

【Abstract】Through accessing related professional periodical articles database,some publications and websites,the research focus of document classification research during the year 2001-2006 is summarized and analyzed,it is concluded classification scheme electronization and online version,compatibility,automation classification and Internet information organization.Some suggestions are put forward.

【Key words】document classification research focus suggestion

1 国外文献分类法研究热点概述

近五年来国外文献分类学研究主要集中在《杜威十进分类法》(简称DDC)、自动分类、兼容化等方面。

1.1 关于DDC、LCC网络环境下的应用研究

Vizine-Goets认为DDC使用等级结构组织资源,是进行主题领域浏览的理想工具(1)。为了增强DDC作为联机工具,OCLC进行了以下研究:以用户为导向发展DDC;加强与其他叙词表的链接;改进与其他版本的链接;将注释转变为终端用户使用的语言;分解类号;改善检索等。Vizine-Goets还选取DDC与Yahoo、LookSmart,分别从类目在类级的分布、各类级所标引的资源数量等方面进行比较,认为DDC类目结构与因特网主题树有许多共同性质(2)。两者均能提供等级浏览与字顺检索,均可运用于多语言环境,由于DDC已被译为30多种语言,这方面更具优势。另外,采用DDC五级类目以上类号标引的文献占到2/3以上,多数资源使用三级以上DDC类目进行组织,以DDC等级组织网络资源具有良好前景。

Saeed和Chaudry介绍了将《DDC相关索引》与《IEEE网络主题词表》的术语及词汇并入DDC等级体系中,建立计算机科学领域术语的步骤与方法。即:①选择DDC的等级体系作为网络资源组织的基础;②将DDC相关索引合并到DDC等级结构之中;③为DDC等级结构添加控制词汇(3)

将DDC用做元数据,对于组织与检索网络资源有独特作用。Hickey和Vizine-Goets描述了CORC(合作联机资源编目)项目以DDC作为元数据,认为CORC系统与DDC两者均可得到益处(4),一方面,CORC可通过DDC分类系统检索信息;另一方面,DDC可适用于网络系统,有助于新环境下扩展分类系统。

Suman与Debanshu从图书分类法用于网络资源组织的主要优势与存在问题,以及DDC目前在网上应用实践等方面,对图书分类法在网络中的作用进行探讨(5)。认为列举式分类法在网络环境下有其不足,更为灵活的分面分类法如冒号分类法更加适宜,也可对不同的分类法进行组合使用。

Vizine-Goetz等OCLC研究人员开发了DeweyBroser(6),它是一种支持检索与浏览由DDC组织的资源的研究模型,采用异步的Java描述语言与XML语言AJAX(Asynchronous JavaScript andXML),可呈现DDC三级类目的检索结果,并可以用英、法、德、西班牙、瑞典文等五种语言显示,用户通过点击DDC等级类目或输入检索词来使用该模型。按命中记录数量多少分别采用红、橙、黄、绿、蓝、白6种颜色来标记DDC三级类目。红色表示至少命中10000条记录、橙色表示至少命中1000条记录,黄色表示至少命中100条记录,绿色表示至少命中10条记录,蓝色表示至少命中1条记录,白色表示没有命中记录。DeweyBroser可用于检索三种资源,一是21万册电子图书,二是220万条WorldCat记录,三是选自DDC14版简略版的数据。对于电子图书与WorldCat记录均链接到具体的网上图书馆。

Davis介绍了Columbia大学图书馆的基于《美国国会分类法》(简称LCC)的电子资源主题等级浏览界面(HILCC)计划的发展与操作模型,涉及计划背景、作为等级主题界面基础的LCC、设计原则及应考虑的问题、计划的完善等方面(7)。目前,HILCC已成功应用于该馆电子期刊与数据库的主题浏览之中。Chandler和LeBlanc还对HILCC是否能用于大学图书馆馆藏检索的潜力进行了探讨(8)

1.2 关于自动分类研究

1.2.1 自动分类研究计划

OCLC启动自动分类研究计划(9),主要探讨两个问题,一是标准的图书分类法如DDC、LCC能否适应自动分类,特别是能否适应对于网络资源及其他数字化电子文献自动分类的需要?二是自动分类系统如何改进才可尽可能接近人工分类的结果?结果的效用如何?其结果是否能用于主题浏览与检索或产生最小的元数据?是否应该在网站管理员设置的工具条或其他的人工辅助程序中配置自动分类器等。

Toth对自动分类的一些创新解决方案进行了总结(10),集中讨论了网络资源自动文摘与自动分类研究计划的实施情况。描述了在Nordic WAIS/WWW、DESIREII、Engineering Electronic Library System(EELS)、GERHARD和Scorpion projects计划中采用的方法。认为人工神经网络与人工智能有极大潜力。

Shafer对OCLC的Scorpion计划进行总结(11),Scorpion是OCLC综合图书馆学与信息检索技术为自动主题标引建立工具的一项研究计划。Scorpion计划主题之一是使用DDC为电子资源给定主题标引。

1.2.2 基于文献分类法的自动分类研究

研究者们分别提出了以DDC、LCC、《冒号分类法》(简称CC)为知识基础的自动分类系统。ChungYoung Mee和NohYoung-Hee探讨了使用自动分类技术建立了专门的目录系统(12),代表每一类别的主题学术或主题类别从DDC类表中选择,构造典型的术语词典。在搜集与类分网络文献时,测试了不同的方法。根据DDC将经济学网络文献分为757个等级主题类别,对使用术语词典分类和基于机器学习的近邻规则(KNN)分类器方法进行实验,后者分类精确度更高些。认为采用将基于词典的技术与近邻规则分类器相结合的方法,有望提高分类效果。

Godby和Stuler主要探讨改造LCC作为全文自动分类的知识基础,开发用做联机主题浏览LCC结构,描述了调整LCC作为自动分类数据库的一系列实验(13)。Paynter介绍了自动标引LCC类号的工具即INFOMINE's LCSHtoLCC(14),该工具建立在支持向量机算法基础上,使用国会图书馆主题表(LSCH)标题词来给定LCC类号,精确度较高,涵盖了大部分LCC主题范围。针对其不能完全归并到iVia(iVia虚拟图书馆软件),训练不够快,不能给出多个类目,并且需要先给出LCSH等不足,提出了采用逻辑回归分类器(Logistic Regression classifiers)替代支持向量机,使用词汇而不是LCSH标题词作为特征词等方法解决这些问题。Frank和Paynter对标出的LCSH标题的文献自动给定LCC分类号问题进行探讨(15),将LCC组织成具有根结点和叶结点树结构,程序采用机器学习技术和取自图书馆目录的训练数据,得到从LCSH映射LCC树的模式。

Kim Jeong-Hyen和Lee Kyung-Ho探讨采用CC分面分类原理作为自动分类的知识基础,建立自动分类系统AutoBC(16)。其要点是:利用球体和圆柱体原理进行主题自动识别;选取图书馆学领域的387个词汇,按照PMEST五个分面进行分析,设计知识基础;在分面公式的基础上进行概念组配,将其划分为32种类型;根据检索到的每一主题词汇数量对输入数据进行主题识别;通过知识基础的控制代码对分类号码进行有效控制。

Peng和Choi认为目前大多数自动分类算法与系统忽视了类目的固定类号与不断增长的待分类网页之间的矛盾,需要检索所有已存在的类别才能进行分类,因而提出动态的等级分类系统(17),能够随时增加所需要的新类别,将网页组织成为树结构,通过检索惟一的树结构路径对网页进行分类。与相关算法相比较,所提出的单独路径技术减少了检索的复杂性,与其他算法相比提高分类精度6%。

1.3 关于兼容化与互操作研究

映射是指识别大致对等的术语、概念和等级关系的过程。人们常常通过提高术语与分类法之间的兼容实现语义的互操作。用户使用从多种系统中抽出的相关术语,同时检索多种资源,可以提高检索效率。

2005年欧洲数字图书馆现代技术与研究会议(European Conference on Research and Advanced Technology for Digital Libraries 2005ECDL)于2005年9月在奥地利的维也纳举行,第4届欧洲NKOS(European Networked Knowledge Organization Systems)网络知识组织系统专题会议(18)是其会议的组成部分,会上围绕以用户为中心的知识组织系统的映射进行讨论,其主要议题之一就是探讨不同知识系统间的映射,涉及如何实现语义互操作、分布式知识组织中不同组织系统/服务间的跨库检索与跨库浏览问题、术语、分类法、系统及各种知识组织系统的映射、知识组织系统的可视化等问题。

Koch从分析项目的背景,如对于参与Renardus项目网关使用分类法的调查、通用的映射方法与问题、映射关系的定义、技术方案与映射工具等方面探讨欧盟Renardus项目中分类法映射方法与过程(19)。Renardus项目是信息社会技术项目、欧盟第五框架计划项目的组成部分,来自丹麦、芬兰、德国、荷兰、法国、瑞典、英国七个国家的国家图书馆、研究中心及主题网关参与Renardus项目,由荷兰国家图书馆负责协调工作。项目的宗旨是开发集成式的网络信息资源门户,使用户通过一个单一界面,能够跨库浏览和检索遍布欧洲的分布式主题网关内的网络学术资源,Renardus项目成果是实现了基于DDC的跨库浏览。

另外,Leide等探讨了分类法导航可视化(20)。导航分类法就像船与航海家通过航海图航行一样,由一系列的灯塔指引。灯塔包括可调整的界面组成,将用户与信息通过各自代理链接起来,用户代理是用户在信息空间中具有的认知模式,通过与系统的交互进行改进,系统代理是由专业标引人员创建的改进后的分类法。在分类法导航中,整个检索过程模拟船在海中航行,用户代理就是船上的导航员,船航行在黑暗、模糊的海面只有通过一系列的灯塔来指引。检索系统代理采用灯塔形式,包括一个由小的主题空间组成的相连的地图组成,用户使用由灯塔导航分类法提供的标记来找到方位。

2 我国文献分类法研究热点概述

2.1 关于文献分类法的电子化与网络化研究

2.1.1 关于国外文献分类法电子化与网络版研究

这方面研究主要集中在对LCC、DDC、《国际十进分类法》(简称UDC)网络版总结与分析等方面。

沈怡介绍了美国图书馆分类法分类数据的机读目录格式(21),总结与分析了视窗杜威(Dewey for Windows)的基本功能以及在检索与浏览的方法及显示类目条目的方式、主题标目与分类号的连接等特点。

侯雅楠介绍了DDC网站的内容,提出DDC网站具有:服务内容更新、速度更快,服务方式更加多样、服务手段更加先进,面向网络的特点(22)

曹树金、颜丽君、汪东波详细介绍了DDC网络版(WebDewey)、LCC网络版(CLassification Web)、UDC英文网络版(UDC Online BS1000)各自特色,并对三者的查询功能、界面窗口的设计、分类主题一体化的情况进行了比较(23)。认为在查询功能设计中,DDC的检索浏览途径设置得最为全面,而LCC在匹配方式上提供了最多的选项,而UDC的设计相对简单一些。DDC注重提供多途径检索,充分显示等级结构,并且带有用户帮助性的说明。LCC窗口设计也很注意分类等级结构的浏览,在任意层次上可以浏览,界面友好,允许用户个性化的写入并且保存相关内容注释。UDC注重构造精确的分类方法。DDC和LCC的网络版较成功地实现了分类主题一体化,UDC的网络版则还没有做这种努力。

邹瑾、张燕飞介绍并分析了UDC和DDC在网络环境下的应用和推广情况(24),主要从建立专业网站,提供网上宣传和服务的平台;拓展多种用途,渗透到信息组织的多种领域;网络推广相关产品,形成全方位的服务和宣传体系;网上提供用户指南,指导用户使用网络版分类法;积极与用户沟通,收集用户反馈信息五个方面总结其应用推广的手段与方法。并在此基础上对《中图法》电子版的应用和推广提出了五点建议:①拓宽《中图法》编制和管理思路,把用户作为工作的出发点;②发挥网站优势,大力推广《中图法》电子版;③健全网站功能,加强与用户的沟通:④制作多媒体指导软件,提供网上的在线服务;⑤基于《中图法》电子版,开发多种用途。

邓爱贞、张红莲介绍网络环境下国内外主要的UDC、LCC、DDC、《中图法》四部图书分类法电子化发展概况(25),总结了图书分类法电子化,具有多维揭示信息、检索易用性、兼容性好、用户界面友好、更新速度快的特点。

2.1.2 关于国外文献分类法在网络中的应用研究

左少凝与柳晓春对国际大型分类法主要是DDC、UDC、LCC在因特网资源组织中的应用现状进行分析(26)。笔者全面调查了国外文献分类法在网络中的应用现状,共有25个系统使用DDC,使用LCC和UDC的系统分别有5个和3个,并对国外分类法组织网络信息的特点进行了总结与分析(27)何琳从资源的收录、标引深度、类下说明以及检索途径等方面对DDC在加拿大主题信息系统的应用进行了详细的介绍和评价(28)

2.1.3 关于我国文献分类法的电子化与网络版研究

随着国外文献分类法的电子化、网络化成果的成功问世,以及文献分类法应用于网络信息组织的现实需要,对于分类法的易用化、实用化及更新速度提出更高要求,也推动了我国文献分类法电子化进程。

(1)《中图法》电子版出版与研究。

《中图法》电子版于2001年由北京图书馆出版社出版,标志着我国分类法的研究和应用进入崭新阶段。《中图法》已步入文献信息分类电子化时代,对《中图法》发展起到里程碑的作用。

卜书庆、宋安莉从《中图法》MARC格式的研制、《中图法》MARC格式数据库的建立、功能软件的研制三方面详细论述了《中图法》电子版的研制原理,并介绍了《中图法》电子版的结构与功能(29)

陈树年分析《中图法》电子版的功能设计和数据格式,从系统的界面、窗口的布局、调整、切换与互动、检索功能、用户的评注与管理、与编目系统的接口与复制功能等方面详细介绍电子版的结构和功能。《中图法》电子版的特点主要是:完整的数据格式、方便的显示和浏览功能、完备的检索与统计功能、通用的编目接口、实用的评注功能、方便友好的用户界面、为主题检索的兼容留有余地(30)。文章还对电子版的意义进行了评价。

于新国发表了5篇关于《中图法》电子版标记制度研究的论文,涉及到电子版在采用八分法、层累制、双位制、借号法等编号制度中存在的问题。

马珉与甄伟提出了《科图法》电子版数据格式的设计原则(31):一是要与国际和国内的相关格式兼容,满足数据交换的需要;二是要能充分描述《科图法》类目的特点并留有充分的余地。其数字化方式的主要思路如下:①组织相关人员对《科图法》的体系结构及类目关系进行深入研究,归纳出《科图法》中所有显性及隐性的关系类型;②对《科图法》数字化格式进行研究,尽快制定数字化格式。按照格式将《科图法》各级条目数字化;③制定出《科图法》数字化的发展规划,制定出近期、中期及长期目标;④格式应留有供使用者进行类目评价的开放窗口,为各类专业人员提供不同的权限,对《科图法》进行开放的、远程的、适时的维护平台,最终达到《科图法》动态维护修订的目的。

(2)《中国分类主题词表》第二版及电子版的出版。

由于应用环境的变化、文献标引的需要、《中图法》的修订变化、《汉语主题词表》需要彻底修订等原因,《中国分类主题词表》进行了及时修订。由《中国图书馆分类法》编委会主持修订的《中国分类主题词表》(第2版与电子版)已于2005年9月由北京图书馆出版社出版。其电子版在第2卷“主题词-分类对应表”中增加了主题词英译名、名称主题词(包括人名、团体、机构名、题名)、类目对应的组配标题(词串),词表电子版由标题名为《中国分类主题词表》的主窗体和“分类号-主题词对应表”子窗体、“主题词-分类号对应表”子窗体和“词族表”子窗体共同组成。这三种类型的子窗体在形式和内容上完全不同,操作上也各具特色。可通过多种浏览方式和快速准确检索法、全文字面检索法以及缩小或扩大的概念检索法等方式来实现各种条件的分类主题一体化检索和标引,大大降低了印刷版查找的复杂程度和缩检、扩检的难度,提高了编目效率,同时为图书馆公共检索系统和网络搜索引擎提供了检索平台。

(3)《中图法》网络版的开发。

贺定安在分析Web版分类法的特征与研制我国Web版分类法意义,以及对Web版分类法与网络信息分类法以及电子版分类法进行比较的基础上,探讨了研制与开发我国Web版分类法的方法(32)。即是在《中图法》电子版的基础上,增加Web接口,将原有界面形式,更改为能在网络环境下使用的HTML界面,并将《中图法》数据库及Web版程序安装在《中图法》网站上,建立起用户管理系统,即可将《中图法》接入因特网,建立起《中图法》Web版。《中图法》Web版可基本保持《中图法》电子版的界面,并结合Web版的特性做适当调整。

2.2 关于兼容化与互操作研究

2.2.1 以《中图法》为核心的兼容系统

(1)以电子版为核心的兼容系统研究。

《中图法》电子版与分类法MARC数据的研制为实现中外分类法的兼容提供了基础。贺定安提出以《中图法》电子版为核心的国内外分类法兼容系统属对应表模式的兼容系统(33),它是以《中图法》为中介语言的集成分类法,各种分类法均通过《中图法》这一中介,实现相互的兼容转换,同时又通过《中图法》的类目体系,将各种分类法集成在一起。其具体方法及步骤是:①对现有《中图法》电子版CLCMARC格式进行修改,将“6--分类号块”中增加国内外主要分类法字段,并设置“分类号”与“版次”子字段;②按照修改后的《中图法》CLCMARC格式,对《中图法》每一类目的数据,增补国内外分类法相应的类号及版次;③修改、调整《中图法》电子版系统界面的窗口,首先可以对应增加国内分类法的分类号,建立起国内分类法兼容系统,其次,对应增加国外分类法的分类号,实现国内外分类法的兼容互换。

(2)以《中图法》为转换中心搜索引擎分类体系兼容互换工具研究。

为了解决中文搜索引擎不同分类体系之间的兼容与互换,提高检索效率,侯汉清、薛春香借助情报检索语言兼容互换原理,通过中介词典实现中文搜索引擎分类体系兼容互换,中介词典中以《中图法》类号作为转换中心(34)。提出的设计方案是:①对《中图法》类目进行改造,取到五六级类目,对热点类目予以细分、检索频率低的类目予以合并,用上位类替代亦可,并保留相应的分类号;②分别从新浪、搜狐、网易中逐级抽取前五级类目词,得到各自的原始类目表;③用层累制分别为原始类目表编配分类标记;④用《中图法》分别标引原始类目表中的各个类目,构建分类号-类目词对应表;⑤以改造过的《中图法》为主干,以《中图法》类号作为兼容互换基础,建立各个体系之间的对应关系,并按照《中图法》类号来排序。通过《中图法》这个转换中心,在新浪、搜狐、网易分类体系类目之间建立关系,实现相互间的转换。

李波、戴秀梅和侯汉清共同探讨了利用计算机建立分类法和主题词表转换系统,即双向对照索引的可行性,并详细说明了该系统软件的设计思想、模块结构和系统功能评价等(35)。其主要设计思想是:将北京图书馆和广东图书馆的MARC数据综合起来,根据这些数据中分类号与主题词之间对应关系,通过浏览、统计和分析这种机读数据,自动地建立起一个差错率较低的分类法与主题词或词串表之间的转换系统。系统需要完成《中图法》分类号与对应《汉表》主题词、《科图法》分类号与《汉表》主题词以及《中图法》与《科图法》的兼容互换。

2.2.2 不同分类法之间的映射研究

戴剑波与侯汉清以《中图法》和DDC为例分析了等级体系分类法相互映射的可行性、映射实现模式、自动映射的实现原理(36),并通过分析两部分类法类目之间的差异,认为类目之间应该存在四种语义映射关系。采用空间向量模型解决匹配问题,把类目对应的词汇看成类目向量,多条DDC21类目向量就可以构成待映射的类目向量集合,映射类目(CLC4类目)看成是映射向量,这样类目的一对多映射就可以转换为映射类目向量与被映射的类目向量相似度计算的问题。根据各种映射关系的阈值范围,便可以建立CLC4类目与多条DDC21类目之间的映射关系。

曹玲与侯汉清介绍了欧盟Renardus项目利用分类法映射技术实现跨库浏览和检索的主要方法,包括通用分类法的选择、映射过程、映射结果的显示等方面,以及该项目跨库浏览检索系统的主要功能(37),提出了研制《中图法》网络版、实现《中图法》与其他中外分类法的映射转换,以及利用《中图法》构建统一的中文网络学术信息分类导航系统的建议。

2.2.3 自然语言与受控语言的兼容研究

探索人工语言与自然语言融合的原理、方法和技术,是当今情报检索语言研究的头等重大课题。学者们主要探讨了自然语言与受控语言兼容的原理与技术问题。吕娟、袁湘琴称自然语言与人工语言结合的一体化语言为第四种情报检索语言,第四种情报检索语言是21世纪网络环境中最理想的情报检索语言。重点阐述这种情报检索语言系统的机理、实例及其发展(38),分析了《军用主题词表》应用管理系统、一体化医学语言系统,提出以《中国分类主题词表》为核心的第四种情报检索语言系统是我国21世纪情报检索语言系统研究的方向,汉语分词技术难题的进一步解决是加快我国第四种情报检索语言系统研究的关键。

张琪玉论述了分类语言、主题语言与自然语言一体化检索系统的原理、作用、实现的核心技术与模式,并列举一个实例,认为自然语言自由标引模式是三种语言一体化系统的较好选择,编制关键词-主题词-类名对应表,是实现一体化的惟一形式,是其核心技术(39)。而关键词-主题词-类名对应表相当于一个知识库,对应表的质量决定一体化的质量。

张金凤、张燕飞和陈玉顺认为适合我国信息环境的检索语言模式是(40):在词表内容上侧重建立专业性的系统,然后向综合性发展;在具体词表的设计中,以一体化语言系统模式为核心,合理借鉴其他模式;借鉴《军用主题词表》中的词素相似度识别转换模式分词技术来分割出语义。提出系统的建立的三个步骤:第一步,仿效UMLS系统建立符合各专业特点的超级叙词表、语义网络、专家词典程序和情报源图谱,形成各专业系统;第二步,对自然语言(包括文本及检索策略)进行分词分析;第三步,对新概念不能进行词素分析或系统推荐词均不合适的情况,采用概念空间模型方法,对于没有对应受控词的自然语词,将程序设计成可以计算文本中概念的共现频率,找出与该词共现频率最高的语词并提供对应的受控词。

2.3 关于文本自动分类与网页自动分类研究

自动分类标引是当今情报检索语言领域的研究热点之一。文本自动分类是指文本和预先定义类之间的类属关系,分类工作由计算机自动完成。文本自动分类分为三个过程:首先,对文本进行预处理,将文本数字化;接着,构造并训练分类器;最后,用分类器对新文本进行分类。文本分类一般分为训练和分类两个阶段,训练方法和分类算法是分类系统的核心部分。

近五年来,研究者们集中对以下自动分类方法与算法进行研究:主要有贝叶斯算法、Rough集约简算法、概念树、Boosting算法、模糊C-原型算法、KNN与自动检索的迭代近邻法、特征权重算法、支持向量机(SVM)、最大加权依赖树分类方法、模糊综合评判的文本自动分类算法、基于序列、基于关联规则挖掘、基于潜在语义标引、基于语义相关和概念相关的自动分类方法、基于模糊特征向量自组织特征映射网络的分类方法,并对基于向量空间模型、概率神经网络的文本分类模型进行了探讨,提出了诸多自动分类系统,主要有:

(1)基于分面组配类表的自动分类系统。

张琪玉提出概念分面组配型自动分类系统(41),以文献题名作为主要抽词对象,适当采用人工辅助抽词措施以保证抽词质量,采用分面分类法模式减少概念归类的复杂性,控制自动归类诸环节,利用关键词-概念词-分类号对应表提供自然语言入口,保留原始关键词以提供自然语言检索功能。

臧国全探讨虚拟图书馆中网页自动分类,认为自动分类和用户分类检索过程有(42):①人工标引网页,形成关键词索引;②编制所选专业的分面组配分类表;③编制关键词分类号对照表;④编制自动分类程序,对标引结果的关键词在关键词-分类号对照表中查找对应的分类号,然后对每一网页的分类号去重;⑤编制用户检索用的等级分类表;⑥编制分类检索程序,对等级分类表中的每个类目确定分面组配分类表对应的若干类目,并在程序中进行自动组配检索。

(2)基于向量空间模型的自动分类系统。

许多学者对基于向量空间模型的自动分类系统进行探讨,提出系统及其主要技术如下:

朱华宇提出的基于向量空间模型的中文文本自动分类系统(43),主要由语料库维护、词典维护、分类知识学习、输入文档分类和系统设置5个部分组成。重点阐述特征提取,空间降维、层次分类和分类器训练等技术的实现方法。

庞剑锋、卜波和白硕对基于向量空间模型的文本自动分类系统进行研究,探讨其涉及的关键技术(44),包括向量空间模型、特征提取、机器学习方法、百分比阈值确定法,比较和分析了三种训练和分类算法(简单向量距离分类法、贝叶斯算法、KNN(K值最近邻居)算法),并提出了文本分类系统的结构模型。

武旭与须德采用简单向量距离法建立自动分类系统(45),此算法将文档映射成向量空间中的点,点之间的距离用向量间的余弦夹角来度量,也即表示了文档间的相似度。采取“排列分类”,即计算待分类文档与所有类别的相似度,然后进行排列,一般情况下,文档属于相似度最高的类别,提出了一种“平均值”法设置阈值。

白振田与侯汉清开发了基于向量空间的实用行业自动分类系统(46),对构建分类概念空间的思路、步骤及主要技术,包括权值确定、算法构思、正确性及效率评价、停用词典、分词词典的构建等相关问题进行讨论。

有研究者采用线性支持向量机(LSVM)学习算法,提出了一种利用训练中拒识样本信息对分类器输出进行改进的方法,实现了一个中文文本自动分类系统(47)

(3)基于知识库的自动分类系统。

李伟等提出一种能够在人的参与下,更新完善机器自动分类知识库的学习方法(48),自动分类系统使用的是香港中国资讯行经济新闻的行业分类体系,共分为19个大类200个小类。用香港资讯行的100 000篇经济新闻样本作为训练语料,采用基于大语料库的、基于统计的分类方法构建知识库。分类算法采用K值最临近法、向量空间模型法和基于概念匹配的分类算法的有机结合。

吴起立提出的科技论文自动分类知识库(49),依据《中图法》或《人大法》的分类等级体系结构,建立自动分类数据库,并结合从现有篇名数据库中导入的数据和人工抽取的关键词,根据一定的逻辑规则,利用语义层次网络的分块技术表示逻辑关系,匹配函数直接匹配的推理方法,得出文献的分类号。

向桂林提出利用知识库来对网络资源进行自动分类(50),讨论知识库中的规则体系,阐述统计规则、上下文规则和经验规则及其在分类中的作用,知识库由概念体系、分类体系,以及能把概念体系映射到分类体系的规则体系构成。

侯汉清、薛鹏军设计了中文信息自动分类用知识库(51),根据分类语言、主题语言、自然语言三者兼容互换的原理,以众多标引员的主题标引和分类标引的经验,即文献数据库实体中大量存在的文献分类号和主题词双重标引数据为基础,建立一个以《中图法》为基础的分类知识库-分类法与主题词表对照数据库。

卢鹏、孙明勇与陆汝占提出基于知网的词汇语义自动分类系统(52),采用知网提供的词汇语义分类体系,系统由加载模块、粗分类模块、语料数据训练模块、细分类模块组成。将知网提供的6万余条汉语常用词进行语义粗分类,开发细分类模块,对所得到的语义分类结果中颗粒度过大词类进一步细化为若干子类。

顾燕萍等介绍了利用基于《中图法》知识库的网页和期刊论文中文信息自动标引和自动分类系统(53),以题名、内容提要、目次、参考文献为标引源,进行图书自动标引与自动分类的实验方案与结果。

(4)基于网页的自动分类系统。

随着Web技术日益得到广泛的应用,海量网页信息的涌现,文本自动分类技术的处理对象从普通文本扩展到网页信息。网页自动分类技术在数字图书馆、主题搜索、搜索引擎的目录导航、信息过滤等领域得到了广泛的应用,网页自动分类技术成为Web领域的研究热点。

尹中航、王永成和蔡巍介绍一种可以广泛应用在网上信息自动分类的方法——支持向量机方法(SVMS)(54),该方法研究小样本情况下的机器学习规律,有相对较高的性能指标。

张义忠、赵明生和朱精南介绍了基于内容的网页自动分类系统(55),包括类别词典的建造方法、网页超文本类别词切分方法、中文网页自动分类算法以及利用类别词与网页间的模糊关系对网页文本进行自动分类等内容。

谭立球、谷士文和费耀平设计的一个网页自动分类系统(56),介绍了预处理、批量训练、特征选择、在线测试和重归档等模块的设计过程,选取简单贝叶斯模型作分类模型和信息增益作为特征提取方法。

牛忠兰等设计网络文本自动分类系统(57),首先对经过人工分类的文本进行分析,提取特征向量,建立训练语料库,确定初始阈值,然后针对工作环境、工作需求等建立切分词典;其次,利用词典词条对待分类文本进行词条切分、词频统计,生成待分类文本的特征向量;最后计算待分类文本向量与各文本类向量的相似度,输出满足阈值条件分类结果。

郑家恒采用基于词的归类技术(58),在类别词专指度的计算中,考虑了类别词在语料中的频度、集中度和分布性等因索。根据HTML语言的标记特性,应用三维加权分类算法计算类别权值。采用Bayes公式变型,计算WWW中文信息文件归类可信度,并按可信度最大归类。

段宏、张桂清和谭运猛提出基于Web挖掘的信息自动分类系统(59),根据用户的需求确立目标样本,从互联网上采集文本信息作为目标文本,进行信息特征向量的提取,对文档分类方法是基于关联的分类,首先通过简单的信息检索技术和关联分析技术提取关键字,其次使用已有的基于专家知识或分类的关键词表,生成关键词的概念层次。基于关键字或词的挖掘方法可以发现文档的关联词,从而可以区分不同类别的文档,根据用户的定制信息,将所需求信息发送给用户,根据用户提供的关键词,在系统中查找信息,提取索引库中源信息的特征向量,并与目标样本的特征向量进行匹配,将符合阈值条件的信息返回给用户。

谢振亮等探讨基于网站结构挖掘的Web文档自动分类(60),把挖掘网站的拓扑结构和现有的文档分类方法相结合,并根据扩展网页的特征提取,挖掘出单个网站的分类模式,再将多个网站的分类模式进行综合,生成搜索引擎的分类模式。

左志宏和周明天提出基于最新的知识表达技术——描述逻辑(description logics),网络资源自动分类方法(61),是在构建网络资源知识库的基础上,利用描述逻辑完备和正确的推理算法,对网络资源进行分类。

冯是聪、张志刚和李晓明应用有指导的机器学习方法实现一个中文网页分类器(62),并应用该分类器在“天网”搜索引擎上实现了中文网页的目录导航服务。该分类器主要包括训练过程和分类过程两部分。在训练过程中,训练集实例经过中文分词和特征选取处理后被表示为向量形式,以该特征向量描述类别模式。校验集是训练集的一部分,通过应用相应的阈值策略来预先确定每个类别的截尾阈值。在分类过程中,一个待分类的中文网页经过中文切词并表示成向量后,应用分类算法同训练过程得到的类别模式逐一比较,得到候选类别列表,再同训练过程中得到的每个类别的阈值相比较,保留大于阈值的类别,并作为该网页的分类结果。其关键算法有特征选取算法、分类算法和阈值策略。

侯婷和蓝国勇所设计开发的中文网页分类工具主要由网页抓取、中文分词、特征选取、Naive贝叶斯机器学习等模块构成(63)。网页抓取模块是用来提取网页文本、进行文本分类。中文分词是在词典的支持下将段落或句子切分成词条。特征选取是从词条中挑选出适合于具有分类价值的词作为识别特征分量。贝叶斯学习及分类是对准备好的训练样本文本进行机器学习,经学习后的Naive贝叶斯文本分类器具有较强的智能识别能力,能够对未知文本进行分析,指出其属于各种类别的概率,所属概率最大的类别被认为是文本的目标类别。

以下几位研究者提出了基于《中国分类主题词表》的网页自动分类系统:

肖明开发了WWW科技信息资源自动标引系统(64)。其总体设计思想是:以《中图法》中的类名、《中国分类主题词表》和《汉表》中的主题词作为主干词汇,辅以相关工具书及专科语料库中的语词作为补充词汇,建立类目短语主题词库和切分词典库;同时采用适量的非用词,建立停用词词库;以网页的全文信息作为自动标引的信息获取对象。

傅赛香和严小卫设计了网页分类浏览器CBrowser(65)。CBrowser采用了传统的分词方法即词典法,主要由专业人员事先手工制作主题词典,以词典为依据在文档中查找关键词。以《中图法》的类名、《中国分类主题词表》、《汉表》中用到的所有关键词组成统计词典,对于每一篇文档,遍历词典去查找既出现在词典中又出现在文档中的关键词,用以表示文档。

侯汉清和薛鹏军构建了一个基于知识库的网页自动标引和自动分类系统(66)。知识库是一个基于《中图法》的专家知识系统,包括了《中图法》库、《汉表》库、分类号主题词对应库、同义词库、关键词库等若干数据库。中文网页主题标引运用了基于词频的统计加权法,采用关键词最长组配法提高了标引词的先组度,通过与分类号-主题词对应库主题词串的词面相似度计算,进一步完成中文网页的分类标引。

2.4 网络信息的分类组织研究

网络信息的分类组织为文献分类学的发展与研究注入了新的活力,成为近年来探讨的热门话题。其研究主要集中在搜索引擎分类体系以及建立我国网络信息分类法的研究等方面。

2.4.1 关于搜索引擎分类体系研究

(1)与传统分类法的比较研究。

陈耀盛从分类对象、用户及其需要、分类思想、技术手段、宏观与微观结构、类目层次级别、类目设置方法等方面进行比较(67),认为分类引擎与文献分类法应互相吸取长处、克服不足;搜索引擎应是网络信息书目控制的重要工具和方式,专业分类引擎应与专业文献分类法相结合,应对搜索引擎的类目和信息内容加以规范控制。

刘延章认为中文搜索引擎分类体系与传统分类法分类体系两者的差异是(68):以主题聚类为主与以学科聚类为主,突出生活性类目与突出学科性类目,以使用频率为序与以逻辑关系为序,同位类的包容性与排斥性之间的差异。并就两种分类体系的改进问题,从立类、序类、类目划分及类目命名等方面提出了改进意见。

余义芳认为中文搜索引擎分类体系存在着覆盖不全、体系粗略、归类不科学、划分差错多、序类混乱、类名失范、稳定性差等问题,提出可借鉴传统图书分类法完善分类体系,如借鉴基本大类,完善分类大纲;概念划分和概念分析原理,以保持分类体系的清晰度;逻辑排序原则,用以科学编排同位类;类目命名要求,适当规范类目名称等(69)

(2)特征分析与编制技术研究。

马张华对搜索引擎的类目体系进行较为全面的研究,探讨类目结构的编制依据、大类结构、类目体系的特点等以及存在的问题,提出搜索引擎分类体系应遵守基本的逻辑规则、解决好类目的排列问题及横向类目的处理问题(70)

陈树年提出网络信息分类导航系统是一个由查询界面、类目体系、各级类目及其链接的网络信息、网络信息搜索及标引技术、索引数据库等组成的整体。其中查询界面、类目体系、各级类目及其链接的网络信息是它的分类法部分。从知识分类体系的构建、类目的划分与设置、类目交叉关系的处理、类目与信息的排列、类目注释和说明以及用户界面等方面探讨了网络分类法的编制技术(71)

陈志新分析并总结了分类搜索引擎和网络分类法的形成原理(72):上网速度影响类目级别、类目下聚集的网站要方便浏览、追踪热点、与主题式检索工具竞争、为机构和人物设类、国家地区属性设为独立的类目、通用性类目适宜网络资源的特点、交替类目和相关类目同一化处理并扩大参照幅度、强烈的文献保证原则和用户保证原则等特点。

邹婉芬从大类设置、类目体系展开及类间关系揭示、类目排列、类名使用、说明与注释的设置等方面分析搜索引擎分类体系的主要特征(73),认为其分类体系具有充分揭示事物的多重属性、揭示类目之间的多维关系、实现了分类体系的动态组织、直观地显示类目体系的优点,同时存在着知识领域不全,知识体系不严密,科学性、逻辑性、全面性不强等问题。

(3)类目体系的改进研究。

学者们在分析搜索引擎分类体系存在问题的基础上,提出许多改进意见,如张琪玉提出了改进网络信息检索工具分类检索性能的方式方法(74),主要有:①选用主题分类法模式,主题概念的隶属采用多种属分关系;②分类体系应体现网络导航、文献数据库服务、直接信息服务相结合;③将专题检索内容纳入总的分类体系;④一级类目的设置数量可多些,并采用类组列类方式;⑤类目的细分控制在5级左右;⑥选用普通用户检索需要又能表达网络信息主题内容的名词作类名;⑦专业性检索要求使用专业分类体系,可在供普通用户使用的分类体系中设置链接点,也可链接相关的专业检索工具;⑧采用自然语言接口,或者说为分类体系配备一套索引;⑨在相关类下设立专门链接点,并设立专类反映重要数据库;⑩多设一些与质量高的专业检索工具的友谊链接,满足专业检索要求;img13地区类目应双重标引;img14多加注释;img15精心设计分类浏览界面等。这为我们优化搜索引擎的分类性能提供了思路。

刘延章和谢琳惠认为中文搜索引擎分类体系具有实用性强、易用性好、多维性高等特点,但在归类、序类、划分、命名等方面也存在着严重问题,完善类目体系、科学编排同位类、规范类目名称等是改进其分类体系的重要措施(75)

(4)搜索引擎的发展趋势研究。

苏广利阐述了网络信息分类系统八大发展趋向(76),即:编制机构协作化、内容范围专业化、类目体系多维化、类目层次缩简化、类目显示直观化、同位类排列规范化、类名语言自然化、标引技术自动化。

傅欣和李伟指出了网络信息分类组织中出现的三种新趋势(77),即:分类标准的选择和使用更加清晰、通用面的分布趋于标准化、对屏幕显示技术的研究和运用更趋成熟等。

邹婉芬提出网络信息分类体系的发展具有五大趋势(78),即:基础理论方面,更多地汲取各种情报检索语言的合理因素;编制体例方面,趋于规范和统一;检索手段方面,检索功能将愈加完善;编制主体方面,实现图书馆与网络公司的合作;标引方式方面,实现网络信息标引的自动化。

董琳论述了网络信息分类组织具有通用化趋势、合作化趋势、兼容化趋势和以用户为中心的趋势(79)

(5)对搜索引擎分类体系的兼容研究。

这方面研究文章较少,侯汉清与薛春香对新浪、搜狐、网易三大搜索引擎分类体系进行分析,认为现有中文搜索引擎分类体系之间虽存在差异但有实现兼容互换的基础,可借助情报检索语言兼容互换原理,设计出中文搜索引擎分类体系兼容互换工具(80)。以《中图法》类号作为兼容互换基础,建立各个体系之间的对应关系,并按照《中图法》类号来排序。通过《中图法》这一转换中心,在新浪、搜狐、网易类目之间建立关系,实现相互间的转换。

2.4.2 关于建立我国网络信息分类法研究

对于网络信息分类法编制研究,成为网络信息组织探讨的重点论题之一。众多学者对其进行积极的探讨。目前主要有两种不同思路与方式,即:通过改造《中图法》,还是另起炉灶建立一部新的网络信息分类法。

(1)对现有分类法及词表的改造。

邓均华提出要编制我国数字化分类法,应以我国信息组织推荐标准《中图法》为蓝本(81),综合国内外优秀的分类法及现代各种搜索引擎分类体系的长处,充分利用超文本技术的特征来表现分类法的体系特点。

卜书庆提出从数字信息资源词频统计出发,从国际通用数据交换格式的研制出发,从最终用户检索需求出发,从适应新技术环境出发的主要思路,改造《中国分类主题词表》,用于组织数字信息资源(82)

崔慕岳、刘延章和张中秋提出:“如果像一些同仁所言,组织力量编制出一部《中国网络信息分类法》,用以取代《中图法》是不实际的。分析《中图法》组织网络信息的优势与不足,研究其现代化改造之措施,尽早出第五版和网络版,恐怕是一条切实可行的路子。”(83)

贺定安认为《中图法》编委会应根据网络信息需求,成立《中图法·网络信息分类表》分编委会,对网络信息进行分析、研究,依据网络信息的特点,在广泛征求意见的基础上,以《中图法》为基础,编制出我国第一部网络信息分类法《中图法·网络信息分类表》(84)。其应具备的特征是:多维类目设置,采用语词标记,多重分类体系,动态类目链接和广泛的兼容性。

王知津探讨了用体系分类法、分面分类法、分类主题一体化改造网络信息组织(85)。认为传统分类体系与网络分类体系的相互借鉴和改造,使得编制一部网络信息分类法成为可能。以传统分类主题为基础,构建多维的分类体系,按需设类,突出重点,便于浏览,控制类目级别,减少栏目层次,网络信息分类法与主题词表的结合。

陈树年、李青华与朱连花提出《中图法》要想真正成为实用的网络信息分类组织的工具,必须在结构、体系、标记等方面进行重大改造,以一个崭新的版本出现,即《中国图书馆分类法》搜索引擎版(86)。这个崭新版本将在宏观、微观结构上有显著变化,而《中图法》的精髓,它所建构的庞大的、科学的、完整的、严密的知识分类体系,将充分在新的版本中得以继承和发展。从重建知识与信息分类体系、分类法宏观结构、中观结构及微观结构的建构与技术及功能组合等方面进行了详细的论述。提供了具有26个基本大类的知识体系,其第一层为基本大类,与常见搜索引擎分类目录相近。第二层为各个知识信息领域的基本范围,体现出完整性与系统性。第三层,各知识信息领域的科学性与完整性得以全面展开。传统文献分类法的技术方法、成果等在网络信息组织中的运用得以体现。

(2)建立统一的网络信息分类法。

范炜综合网络化环境和突显大众化需求两个因素,将在网络环境中、建立在用户检索需求基础上的分类法称之为网络(大众)信息分类法。认为如果用《中图法》来取代网络(大众)分类法也是不现实的,可以将其作为第二分类体系(87)

刘延章认为,《中图法》不适合用于组织网络信息,即使是对其进行现代化改造也不可能取代目前各种自编的网络信息分类体系。建立全国统一的中文通用网络信息分类法是当务之急,是解决目前许多中文搜索引擎分类体系存在的问题,从而提高检索效果的最好措施和惟一途径(88)。我们不能再走以科学分类为依据编制传统文献分类法的老路,编制网络信息分类法必须把实用性和易用性放在第一位。单纯使用自然语言或单纯使用人工语言都会降低网络用户的满意度,只有将二者有机地结合在一起,才能编制出高质量的网络信息分类法。

陆宝益认为“已经到了着手构建统一的网络信息分类法的时候了”,他从检索语言的选择、主体结构的确立、有关附件的编制探讨了我国统一网络信息分类法的架构,提出构建中要有专门机构,配备专业人员,深入调研,制定可行计划,广泛征求意见,不断修改完善、大力宣传普及,争取国标地位(89)

张琪玉从因特网大众分类法的产生背景、结构、适用人群、使用环境、所采用的方法等方面分析,说明它是一种独立创造的分类法,而不是对传统分类法改进和发展的结果,因此不宜用传统分类法的准则来对它进行框范,也不宜用它的准则来框范传统分类法(90)

另外,研究者探讨了网络信息分类法的编制技术,提出了分类框架。如张琪玉在《网络信息检索工具的热门类目》一文中专门研究了网络分类法热门类目的主题领域及其特点和编制要点,在《网络信息检索工具的分类体系》一文中在调查了43种网络信息检索工具,提出了网络信息检索工具的设计方针,并给出了一个供普通用户使用的分类体系框架(一级类目)(91)。吴丹在《网络信息分类体系设计》一文中提出了一个初步的包含有l8个大类以及二级类目的综合性网络信息分类大纲(92)。董琳设计了一个适合于综合性中文网站的分类体系(93)。该体系常设20个一级类目,把主题作为主要聚类标准,学科和专业作为辅助聚类标准。将一级大类分为5大模块:较丰富信息的模块、高查询率模块、学科专业模块、查询人口模块、综合网站模块。

(3)事实标准的方式。

马张华认为:“试图在现在建立标准化的网络分类体系,规范网络资源的使用,显然是不现实的。”可以考虑三种标准化的方式,第一种,是将标准确定在基本编制原则和方法的层次;第二种,只在一定范围或系统中贯彻强制性标准;第三种,事实标准的方式,即具体分类体系在实际使用中因其质量优越而得到广泛使用和承认,成为实事标准。建立权威的网络分类工具,使其广泛使用,发展成一种事实标准,是一种适合的努力方向(94)

另外,傅欣和李伟提出可以根据网上资源总的特点将其分为学术性资源、娱乐性资源和新闻3个板块分别加以组织(95)。对于学术性资源可以参照传统图书分类法进行组织;对于娱乐性资源的分类可以采用以事物为中心设类的方法,同时根据对用户的访问情况对类目进行调整。而新闻板块的组织可以借鉴新华社、人民日报等机构使用的新闻分类法。这种方法在当前应该说具有可行性与操作性。

2.5 实用分类系统Ontology研究

Ontology有许多不同译名,本文取其“实用分类系统”的名称。实用分类系统是开发语义网的核心,其主要成分是一整套对某一领域里的知识进行表述的词和术语,编制者根据该知识领域的结构将这些词和术语组成等级类目,并且应用面向对象(Object-Oriented)的方法按需要给一些类目加更细的定义(如特性、限制等)。实用分类系统与传统知识分类工具的一个根本区别就是系统中的概念、特性、限制条件等内容都是计算机可读的,因而实用分类表中的知识定义可以被再利用。实用分类系统在支持电子商务的浏览和检索与知识管理配置的可互操作性方面起着关键的作用。

秦健针对目前语义网的发展和实用分类系统的技术,对其应用领域、主要技术和标准、研究项目、发展动向、主要研究课题进行了详细的分析与介绍,并对我国发展语义网提出了建议(96)。王云才探讨了在构造Ontology时可采用的基本素材、构造程序以及现在主要采用的开发两种设计方法(97):一是利用已有叙词表或分类词表来改造成实用分类系统;二是利用现有文献和领域专家从头做起。

Ontology已经远远超出图书馆学、哲学、知识表述的范畴,成为图书馆、信息产业、医学、工商业界等众多领域的共同研究的课题。建立语义网需要做扎实的基础工作,目前,这些基础工作包括(98):①按照当前的实用分类系统与有关技术的标准建立中文的实用分类系统,建立系统的过程可以先选择几个重要而又常用的应用领域(如数字化图书馆元数据自动抽取、电子培训、灾难应急系统等)作为试验,积累一套方法、程序和工具,再推广到其他领域;②对已建成的外文实用分类系统进行翻译和语义匹配,作为可互操作性的前提;③对应用领域的结构、词和术语、用户的习惯进行调研,为编制领域实用分类系统提供可靠的一手资料。

3 关于加强我国文献分类法研究的几点建议

(1)借鉴OCLC研究模式,创建研究部门。

自从1978年OCLC建立研究部门以来,该研究部门就致力于信息技术的发展,并将其应用于图书馆建设实践中。其使命是使读者方便地获得并使用全世界的信息资源,降低图书馆的成本。要完成该使命需要将计算机、图书馆和信息科学等领域的知识有机地融合在研究活动中,研究活动包括实验、原型系统、标准制定与科研合作。OCLC设有“研究咨询委员会”负责指导和评估研究活动并提出新的研究方向。在其研究部门的网页上设有“研究成果”:历年来的研究成果;“研究计划”:各项研究计划;“研究项目”:可申报的研究项目,“研究工作”(ResearchWorks,是OCLC研究科学家与OCLC用户交流的一种通道):提供的软件,通报等。与国外相比,我国的学术研究多是分散的,没有一个研究领导部门。应借鉴OCLC研究模式,可在CALIS(中国高等教育文献保障系统)下设立相关的研究部门与研究咨询委员会,将核心研究人员、研究成果、研究项目、研究计划等集成在一起,使分类法研究与世界学术研究的领先水平同步。

(2)注重实证研究,推出应用性成果。

国外的分类学研究比较注重实证研究,应用性成果较多。如在分类法在网络信息组织中的应用方面,建立了一些基于分类法的检索浏览系统如BUBL LINK、CyberDewey、DeweyBrowser等,在分类法的互操作上,完成了Renardus计划,实现了基于DDC的跨库浏览与检索,有诸多应用型成果问世,十分注重研究实践方面的前沿课题。而我国的学术研究偏重于理论,实证性研究较缺乏,分类学研究同样如此。今后,必须在重视理论研究的同时,更加关注应用研究,深入研究文献分类法的重大实践问题,推出一批应用性研究成果。

(3)开展合作研究,进行科研的联合攻关。

文献分类领域中的一些研究专题如分类法的网络化、网络信息分类体系的建立、自动分类与自动标引技术、知识组织系统的应用以及互操作与兼容化、实用分类系统的开发与研究等,都需要图书馆和信息科学领域、计算机领域专家及学科专家的共同合作,进行联合攻关。建议由有关部门(如中国图书馆学会、中国科学技术情报学会、《中图法》编委会等)牵头,组织这些方面的专家,推进这些研究专题的不断深入,早日研制出实用系统。

(4)加强学术交流,建立通畅的信息交流渠道。

各种学术研讨会是促进学术研究的重要阵地,也是学术研究繁荣局面的体现,同时也为研究人员提供重要的学术参考源。国外一些较有影响的学术会议在会议筹备、论文召集、会议召开以及会议文献的公开与透明方面,均有值得我们借鉴之处。如NKOS(Networked Knowledge Organization Systems/Services)“网络知识组织系统/服务”已举办过7届研讨会,在其网站上有会议宗旨、日程安排、参会论文的链接以及往届会议的信息等内容,研究人员可非常便利地、随时获取到所需信息。而我国一些学术研讨会至多出一本论文集,其影响力有限。研究人员很难及时、便利地获取重要的会议文献及其他成果信息,不能实现信息共享,没有起到学术研究的信息保障作用。

img16

【参考文献】

俞君立.中国文献分类法百年发展与展望.武汉:武汉大学出版社,2002

【作者简介】司莉,女,汉族,196

5年3月出生,武汉大学信息管理学院副教授,博士。主要研究方向:知识组织、现代目录学、图书馆营销与公共关系。2005年2~8月,应邀以高级访问学者身份赴美国加州大学伯克利分校从事研究工作。主持湖北省教育厅科学研究指导性计划项目“网络信息资源组织发展方向研究”等。代表作《我国文献分类计算机化的发展与近期目标研究》、《网络信息资源揭示及其优化研究》等,发表论文30余篇,多篇论文被《人大复印报刊资料》全文转载。

【注释】

(1)Vizine-Goets,Diane.Dewey 2000.Journal of Library Administration.34(1/2)2001:103-109

(2)Vizine-Goetz,Diane.Classification schemes for Internet resources. Revisited.Journal of Internet Cataloging,2002,Vol.5 Issue 4:5-18

(3)Saeed,Hamid,Chaudhry,Abdus Sattar.Using Dewey decimal classification scheme(DDC)for building taxonomies for knowledge organization. Journal of Documentation,2002,Vol.58 No.5:575-583

(4)Hickey,T.B.,Vizine-Goets,D.The role of classification in CORC Journal of Library Administration.34(3/4)2001:421-430

(5)Suman,S.,Debanshu,Karmakar.The role of library classification in organizingtheWeb.http://drtc.isibang.ac.in/bitstream/1849/44/2/Paper-CE.pdf(访问日期:2006/2/22)

(6)http://deweyresearch.oclc.org/ddcbrowser/ebook(访问日期:2006/ 2/10)

(7)Davis,S.P.HILCC:A Hierarchical Interface to Library of Congress Classification.Journal of Internet Cataloging,2002 v.5,no 4:19-49

(8)Chandler,Adam,LeBlanc,Jim.Exploring the Potential of a Virtual Undergraduate Library Collection Based on the Hierarchical Interface to LC Classification(HILCC)http://dspace.library.cornell.edu/handle/1813/2223(访问日期:2006/2/10)

(9)http://www.oclc.org/research/projects/auto_class/default.htm(访问日期:2006/2/10)

(10)Toth,E.Innovative solutions in automatic classification:a brief summary. Libri 2002,52(1):48-53

(11)Shafer,K.E. Evaluating Scorpion results.Journal of Library Administration.34(3/4)2001:237-244

(12)Chung Young Mee,Noh Young-Hee.Developing a specialized directory system by automatically classifying Web documents.Journal of Information Science,2003.V.29,No.2:117

(13)Godby,Carol Jean,Stuler,Jay.The Library of Congress Classification as a Knowledge Base for Automatic Subject Categorization.Presented at the IFLA Preconference,“Subject Retrieval in a Networked Environment,”Dublin,Ohio,August 2001

(14)Paynter,Gordon W.Developing Practical Automatic Metadata Assignment and Evaluation Tools for Internet Resources.Fifth ACM/IEEE Joint Conference on Digital Libraries(JCDL2005),June 7~11(Denver,Co)

(15)Frank,Eibe,Paynter,Gordon W.Predicting Library of Congress classifications from Library of Congress subject headings.Journal of the American Society for Information Science and Technology,2004,55(3):214-227

(16)Kim Jeong-Hyen,Lee.Kyung-Ho.Designing a knowledge base for automatic book classification The Electronic Library,2002,V.20 No.6:488-495

(17)Peng Xiaogang,Choi Ben.Automatic Web Page Classification in a Dynamic and Hierarchical Way.Proceedings of the 2002 IEEE International Conference on Data Mining(ICDM'02).Washington,DC,USA:IEEE Computer Society,2002

(18)Mapping Knowledge Organisation Systems:User-centred Strategies.4th European Networked Knowledge Organization Systems (NKOS) Workshop EDCL2005 September 22nd,Vienna

(19)Koch,Traugott,Neuroth,Heike,Day,Michael.Renardus: Crossbrowsing European subject gateways via a common classification system(DDC) http://www.ukoln.ac.uk/metadata/renardus/papers/ifla-satellite.html(访问日期:2006/2/24)

(20)Leide,John E.et al...Visualization schemes for domain novices exploring a topic space:The navigation classification scheme.Information Processing&Management.Vol.39 Iss.6:923

(21)沈怡.美国国会分类法和杜威十进分类法的计算机化进展.情报杂志,2001(1):91~92

(22)侯雅楠.“DDC”的网络发展及其服务模式.国家图书馆学刊,2005(2):75~77

(23)曹树金,颜丽君,汪东波.DDC、LCC、UDC网络版评析.中国图书馆学报,2002(6):61~65

(24)邹瑾,张燕飞.UDC、DDC网络化发展对《中图法》电子版应用及推广的启示.图书情报知识,2004(2):68~70

(25)邓爱贞,张红莲.图书分类法电子化引发的思考.图书馆学研究,2004(11):55~57

(26)左少凝,柳晓春.国际大型图书分类法在因特网上的应用.图书馆杂志,2001(12):10~13

(27)司莉.网络信息资源组织与揭示及其优化研究[博士学位论文].武汉:武汉大学,2003

(28)何琳.DDC在网络资源组织中的应用:加拿大主题信息系统简介.新世纪图书馆,2003(6):35~39

(29)卜书庆,宋安莉.《中图法》电子版的原理、结构及应用.中国图书馆学报,2001(4):68~72

(30)陈树年.我国第一部电子分类法——《中国图书馆分类法》电子版的功能与特点.图书情报工作,2002(3):56~60,81

(31)马珉,甄伟.《科图法》数字化格式研究.图书情报工作动态,2004(6):8~12

(32)贺定安.论我国Web版分类法的研制开发.中国图书馆学报,2003(3):97~98

(33)贺定安.建立以《中图法》电子版为核心的国内外分类法兼容系统.图书馆,2003(6):31~33,51

(34)侯汉清,薛春香.中文搜索引擎分类体系兼容互换工具的设计.中国图书馆学报,2003(1):85~88,89

(35)李波,戴秀梅,侯汉清.计算机建立分类法和主题词表转换系统的尝试.现代情报,2003(6):112~115

(36)戴剑波,侯汉清.图书分类法映射系统设计原理——以《中国图书馆分类法》和《杜威十进分类法》为例.情报学报,2005(3):299~303

(37)曹玲,侯汉清.文献分类法在主题网关互操作中的应用研究.图书馆杂志,2004(11):25~28,7

(38)吕娟,袁湘琴.论第四种情报检索语言系统.中国图书馆学报,2002(1):87~91

(39)张琪玉.分类语言、主题语言与自然语言一体化检索系统与《中国财经报刊数据库》的实践.现代图书情报技术,2002(1):66~68

(40)张金凤,张燕飞,陈玉顺.受控语言与自然语言结合模式比较研究.图书情报知识,2005(4):75~77

(41)张琪玉.概念分面组配型自动分类系统.图书馆学刊,2002(6):9~10

(42)臧国全.虚拟图书馆中网页自动分类研究.现代图书情报技术,2002(3):28~31

(43)朱华宇,孙正兴,张福炎.一个基于向量空间模型的中文文本自动分类系统.计算机工程,2001(2):15~17,63

(44)庞剑锋,卜东波,白硕.基于向量空间模型的文本自动分类系统的研究与实现.计算机应用研究,2001(9):23~26

(45)武旭,须德.基于向量空间模型的文本自动分类系统的研究与实现.北方交通大学学报,2003(2):38~41

(46)白振田,侯汉清.基于向量空间的行业自动分类系统应用.情报科学,2005(6):940~944

(47)都云琪,肖诗斌.基于支持向量机的中文文本自动分类研究.计算机工程,2002(11):137~138

(48)李伟等.一种自动分类系统学习功能的实现方法.情报学报,2003(3):302~305

(49)吴起立.科技论文自动分类知识库的构建.图书情报工作,2003(5):38~39,62

(50)向桂林.学科分类知识库的构建及其在网络资源分类中的作用.图书情报工作,2003(2):61~66

(51)侯汉清,薛鹏军.中文信息自动分类用知识库的设计与构建.情报学报,2003(3):681~686

(52)卢鹏,孙明勇,陆汝占.基于知网的词汇语义自动分类系统.计算机仿真,2004(2):127~131

(53)顾燕萍等.中文图书自动标引与自动分类实验.全国第四次情报检索语言发展方向研讨会,2005

(54)尹中航,王永成,蔡巍.应用支持向量机进行网上信息自动分类.高技术通讯,2001(11):107~110

(55)张义忠,赵明生,朱精南.基于内容的中文网页自动分类研究.信息与控制,2001(5):408~412

(56)谭立球,谷士文,费耀平.一个网页自动分类系统的设计.计算技术与自动化,2002(1):58~61

(57)牛忠兰等.网络文本自动分类系统的研究与设计.微机处理,2002(2):41~43

(58)郑家恒,宋文中.WWW中文信息自动分类方法研究.情报学报,2002(5):532~536

(59)段宏,张桂清,谭运猛.一种基于Web挖掘的信息自动分类系统.华中科技大学学报(自然科学版),2003(7):19~21

(60)谢振亮等.基于网站结构挖掘的Web文档自动分类.计算机应用,2003(3):37~39

(61)左志宏,周明天.描述逻辑SHIQ与网络资源自动分类.通信学报,2004(7):200~206

(62)冯是聪,张志刚,李晓明.一种中文网页自动分类方法的实现及应用.计算机工程,2004(5):19~20,108

(63)侯婷,蓝国勇.中文网页的自动分类.交通与计算机,2005(4): 114~117

(64)肖明.WWW科技信息资源自动标引的理论与实践研究.中国科学院博士学位研究生学位论文,2001

(65)傅赛香,严小卫.网页分类浏览器CBrowser的设计与实现.计算机应用,2001(12):8~10

(66)侯汉清,薛鹏军.基于知识库的网页自动标引和自动分类系统的设计.大学图书馆学报,2004(1):50~55

(67)陈耀盛.分类引擎、分类书目与文献分类法的比较.图书馆,2002(5):22~26

(68)刘延章.差异与改进:两种分类体系.图书馆论坛,2002(5):91~94

(69)余义芳.中文搜索引擎分类体系存在的问题及对传统分类法的借鉴.图书与情报,2004(3):52~54

(70)马张华.分类搜索引擎类目体系研究.图书情报工作,2001(2): 36~40

(71)陈树年.网络信息分类法研究.现代图书情报技术,2002(3):54~57,80

(72)陈志新.如何理解分类搜索引擎的类目体系.大学图书馆学报,2004(2):71~74,78

(73)邹婉芬.搜索引擎分类体系分析与评价.图书馆学刊,2004(3): 40~41

(74)张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7~11

(75)刘延章,谢琳惠.中文搜索引擎分类体系的特点、问题及其改进.郑州大学学报(哲学社会科学版),2002(11):146~148

(76)苏广利.网络信息分类系统的发展趋向研究.图书馆杂志,2002(4):11~15

(77)傅欣,李伟.网络信息分类组织发展趋势探析.图书情报工作,2002(3):6l~65

(78)邹婉芬.网络信息分类体系发展趋势探讨.国家图书馆学刊,2004(4):84~86

(79)董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65~67

(80)侯汉清,薛春香.中文搜索引擎分类体系兼容互换工具的设计.中国图书馆学报,2003(1):85~88,89

(81)邓均华.数字图书馆与数字分类法.中国图书馆学报,2001(4): 76~77

(82)卜书庆.试论数字信息资源的组织方法.国家图书馆学刊,2001(4):46~49

(83)崔慕岳,刘延章,张中秋.《中图法》组织网络信息的可行性、不适应性及其现代化改造.郑州大学学报(哲学社会科学版),2001(6):137~140

(84)贺定安.关于编制《中图法·网络信息分类表》的构想.国家图书馆学刊,2002(3):69~72

(85)王知津,肖洪.网络信息组织对传统信息组织的借鉴.图书馆工作与研究,2003(4):2~7

(86)陈树年,李青华,朱连花.网络信息组织与《中国图书馆分类法》搜索引擎版研制.全国第四次情报检索语言发展方向研讨会,2005

(87)范炜.网络(大众)信息分类法分析与研究.情报杂志,2003(6): 66,70

(88)刘延章.关于网络信息分类组织研究中的几个问题.中国图书馆学报,2003(5):16~18,30

(89)陆宝益.论创建我国统一的网络信息分类法.中国图书馆学报,2004(6):44~47

(90)张琪玉.因特网大众分类法——一种独创的分类法.江苏图书馆学刊,2005(1):4,10

(91)张琪玉.网络信息检索工具的分类体系.江苏图书馆学报,2002(4):7~11

(92)吴丹.网络信息分类体系设计.图书情报知识.2002(5):37~39

(93)董琳.网络信息分类组织的发展趋势与标准化.图书情报知识,2004(2):65~67

(94)马张华.分类搜索引擎对分类法发展的贡献及其相关问题讨论.全国第四次情报检索语言发展方向研讨会,2005

(95)傅欣,李伟.网络信息分类组织发展趋势探析.图书情报工作,2002(3):6l~65

(96)秦健.实用分类系统与语义网:发展现状和研究课题.现代图书情报技术,2004(1):16~23

(97)王云才.实用分类系统及其实现方法.情报科学,2005(8):1219~1212

(98)秦健.实用分类系统与语义网:发展现状和研究课题.现代图书情报技术,2004(1):16~23

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈