传统知识组织系统评价方法

时间：2022-10-20 百科知识版权反馈

【摘要】：宏观评价主要从知识组织系统的宏观结构层面进行评价，而微观评价则是对具体的类目、词条和概念进行评价；定性评价主要从其功能层面评价，而定量评价则采用一整套定量指标进行测评；理论评价是针对知识组织系统本身的构建、结构、内容等方面的测评，而实践评价则是对其在具体应用中的效果进行测评。目前对分类法、主题词表等传统知识组织系统的评价主要是针对其资源本身的结构和内容进行一些定性和定量评价，相对比较简单实用。

传统知识组织系统评价方法_网络环境中知识组织系统构建与应用研究

7.1　传统知识组织系统评价方法

一般评价方法可分为宏观评价与微观评价，定性评价与定量评价，理论评价与实践评价等。宏观评价主要从知识组织系统的宏观结构层面进行评价，而微观评价则是对具体的类目、词条和概念进行评价；定性评价主要从其功能层面评价，而定量评价则采用一整套定量指标进行测评；理论评价是针对知识组织系统本身的构建、结构、内容等方面的测评，而实践评价则是对其在具体应用中的效果进行测评。

目前对分类法、主题词表等传统知识组织系统的评价主要是针对其资源本身的结构和内容进行一些定性和定量评价，相对比较简单实用。

7.1.1　分类法评价方法

分类法是一种最为传统的、在纸质环境下发挥巨大信息组织作用的语义工具。按照处理信息对象的不同，可以分为文献分类法、学科分类法、网络信息分类法、事物分类法等类型。不论何种类型，一部完整的分类法都是由若干部分组成，各组成部分协同工作共同实现分类法的功能。这些组成部分构成了分类法的整体结构，包括分类法的宏观结构和微观结构，其中类目是分类法的基本组成单元，类目的组成即微观结构。对分类法的评价，一般采用基于类目数量和类目质量的评价指标。最常用的分类法定量评价指标有^［1］：

①类目数量。类目是分类法的基本单元，一切对分类法的无论从科学性与实用性的统一，抑或宏观结构与微观结构方面的评价，都需建立在一定数量的类目集合基础上。类目数量是衡量分类法语词完备性和专指度的一个重要指标，也是对分类法规模划分的依据，一般要求其类目划分详细，展开充分、数量众多，这样才能达到有利于分类组织的目的。

②交替度。交替类目是为了处理具有多重等级关系的概念而在分类表中专设的类目。为了使类概念多向成类，多维列类，多入口查找，会在分类表有关位置同时设置该类目，再视实际处理需要而决定是否将其改为正式类目，这样既拓宽了分类表的适用性与生命力，处理一些交叉学科也更灵活方便。交替度是用来评价交替类目在分类表所有类目中所占比率的指标，其计算公式为：

交替度＝分类法中交替类目数之和/分类法中类目总数

一般说来，交替度越大，分类表灵活性也越强，但太大也易引起归类上的混乱。

③参照度。参照度是指分类法中每个类目接受参照项的平均数。设置参照项能加强了类目间的联系，建立了相关类目之间的指引关系，有利于族性检索及提高检全率与检准率；同时，提供了更多的检索入口词，从而提高检索效率。一般采用参照度这个指标来表示分类法在上述各方面的性能表现，其计算公式为：

参照度＝分类法中参照项总和/分类法中类目总数

④清晰度。清晰度较形象地表达了类目能被用户理解并正确使用的可能性，亦即分类法对类目注释的详尽程度。注释一般有说明类目的使用方法、适用范围、类目定义及历史注释等类型。注释越详尽，清晰度也就越高，越有助于用户明确类目的含义及类目间的关系，越有助于用户掌握分类法的使用方法。当然考虑压缩分类法篇幅、降低成本等因素，清晰度也不能过高，过犹不及。清晰度的计算公式为：

清晰度＝含注释类目数总和/分类法中类目总数

⑤类级。类级是类目展开的层级数，反映了类目设置和划分的合理程度，类目划分太粗，类级少；类目划分太细，类级多。一般以5～6级为宜。

⑥更新周期。及时更新和日常维护是保持分类法生命力和应用效度的基本要求，一般用修订周期或更新周期来衡量。一些著名的分类法，比如DDC、UDC、LCC、CC以及我国的《中图法》、《资料法》等都有专门的机构来负责修订和日常维护，而有些分类法则在编制完成后就再无人进行管理和维护，最后无人问津，不知所终。对有专门机构负责维护的分类法，也因为种种原因，更新周期长短不一，比如《中图法》自第1版至第4版，历时24年，进行了3次换版修订，平均周期长达8年；而DDC自1876年问世，始终遵守“与知识发展保持同步原则”，120年来，每隔六七年进行一次修订换版，每季发布一个网络版，每月定期发布增补公报、更改信息^［2］，从而使DDC历经百年而不衰，成为最通用的综合性分类法。借鉴DDC的经验，分类法的更新周期不能过长，也不能太短，过长无法及时增补新主题、新学科，过短会破坏分类法的稳定性，因此应采用几年一大修，每月一小修的长短结合策略。

除了上述6个常用定量指标外，测评分类法的性能指标还有分类法类目实际使用频率、标记符号性能、类目差错率及与分类法配套使用的分类法索引的质量与数量等，鉴于这些指标在分类法评价中应用不够广泛，此处不再一一赘述。

7.1.2　叙词表评价方法

叙词表的评价研究历来比较受重视，戴维民^［3］、周全明^［4］、吴雯娜、曾建勋^［5］等研究者就叙词表的结构和内容评价提出了一些定性和定量的评价指标，并有学者借助于这些评价指标对我国的《汉表》^［6］、《军表》^［7］、《中医药主题词表》^［8］等进行了评测。叙词表的评价主要包括宏观评价和微观评价两个部分。

（1）叙词表宏观评价

叙词表的宏观结构决定了其功能的发挥，因此，对叙词表结构的评价也就是对其功能的评价。这里所指的结构为叙词表的宏观结构，即叙词表的构成部分。

叙词表的宏观结构主要包括主表、附表和各种索引，如图7-1所示。

那么一部叙词表究竟应该包括哪几个组成部分最为理想？结构复杂、功能全面或结构简单、功能单一者都不能称之为理想的叙词表宏观结构，应是结构简明而功能完善。因此，在评价叙词表宏观结构时，应考虑下列几个方面的因素^［3］：

①字顺叙词表之外的其他组成部分，包括附表和索引所具有的标引和检索的功能。最理想的模式是这些组成部分能提供字顺表不具备的功能，其次是对字顺表的功能发挥能起到有效的辅助作用。

②叙词表各个组成部分之间是否相互对应，相互指向，这反映了叙词表整体结构的严密性。理想模式是各部分之间的词汇和微观结构做到一一对应，目前做得比较好的是《军表》，其词表管理系统实现了字顺主表、释义表、范畴表、词族表、轮排表、英汉对照索引六表联动，保证了主表、附表和各种索引之间的相互指向和连接；而传统纸质的叙词表这方面表现很差。

③结构与功能的对应，应保证能用最简明的结构发挥最有效的功能。

④结构的设计与实现的难易程度，不能实现或难以实现的结构不能算作是实用的结构模式，换而言之，叙词表的系统显示部分对其他组成部分的生成能力越强，词表的编制管理工作越容易实现。

图7-1　叙词表宏观结构

图表来源：戴维民.信息组织（2版）［M］.北京：高等教育出版社，2009.

这是从宏观层面对叙词表的组成部分及功能发挥进行定性的评价，随之叙词表的数字化以及全文检索技术以及检索方法的多样化，有一些索引的功能已经弱化甚至消失，无需单独设置。

（2）叙词表微观评价

叙词表的微观评价是对叙词表微观结构，即叙词及其词间关系进行评价。叙词是叙词表的构成元素，任何一部叙词表都是由叙词及其词间关系有机组织成的一个整体，叙词表的微观结构对于叙词表功能的发挥同样有着直接的影响。

对叙词表微观结构的评价主要采用一些定量指标，主要包括^{［3］［4］［5］［9］}：

①词量，即词表包含语词概念的数量。词量决定了叙词表的规模，大型词表、中型词表和小型词表除了考虑主题领域范围的大小外，主要是参考词量来划分。侯汉清认为，词量在10 000以上的为大型词表，词量在1 000到10 000之间的为中型词表，词量在1 000以下的为小型词表^［10］。叙词表最佳词量的选择受到了傅兰生^［11］、周剑波^［12］、竺培培^［13］等学者的关注，但对于最佳词量的度量一直存有争议，尚无定论。最佳词量是一个多变量的动态函数，与词表覆盖的专业范围和该领域的新技术发展速度、词表本身的组配能力和检索能力、编制的人员和编制方式都有密切的关系。

②先组度。词汇的先组度是指每个叙词平均包含单词的数目，就整部叙词表而言，词汇的平均先组度是词表中叙词所包含的单词总数与词表叙词总数的比值。即：

先组度＝词表中叙词所包含的单词总数/词表叙词总数

国外学者通过大量的调查研究得出，英语及法语叙词表的理想值在1.5～2.0之间，德语叙词表的理想值在1.1～1.2之间。叙词表继承单元词法后组的优点同时，亦适当吸收了标题词法先组的原理，叙词语言最重要的特征是概念组配，所以叙词表应尽可能采用组配，以充分发挥叙词表的优异性能，但无限制的采用组配，也会造成混乱，增加误检，因此，对某些复合概念直接选用专指性的词组作为叙词。选用专指性的词组可使主题的标识定型，避免错误组配带来的混合，减少误检，叙词专指性越强，误检率越低，但过多采用词组，不但会使叙词数量庞大，降低检索系统的检索效率，而且更会使叙词组配的许多优异性能（如自由扩大、缩小、改变检索范围，多途径、多因素检索等）受到损失，这是个矛盾。如何处理这一矛盾，对发挥叙词表的优越性关系很大。张琪玉先生提出了解决这一矛盾的基本原则：“当一个概念用组配能够较准确地表达，并且可以增加检索途径和不影响检索速度时，就不应采用专指性的词组，如果不符合这些要求，就应采用专指性词组。”换种说法，即当叙词组配得不到组配的益处，反而带来诸如组配后含义失真等弊端时，就没有必要采用叙词组配，而采用先组词，这就是决定叙词先组还是后组的重要原则。一般认为，现代叙词表先组词约占50%或低于该比例。随着分面叙词表的模式的不断采用，当今叙词语言的先组度有下降的趋势，且随着机编词表技术和机检的扩大，无疑会加速这一趋势。寻求一个理想的先组度是非常重要的，它是能否充分发挥叙词表组配优异性能的关键。

③清晰度。清晰度是指叙词表中具有范围注释、限定词、等级关系的词汇数与总词量的比值，是衡量概念清晰度的一个指标。叙词表要求每个词都具有单义性，这就要求每个叙词概念的内涵和外延都比较明确。

清晰度＝（词表叙词总数-缺乏范围注释、限定词或等级关系的叙词总数）/词表叙词总数

由此可知，清晰度越接近1，词汇的语义表示越清晰，这就要求词表中每个叙词都保持语义的单义性。

④分布的均衡度。叙词表词汇分布的均衡度反映了叙词词汇在各个学科、专业范围内分布的均衡程度，词汇分布必须保持一个合理的均衡度。《汉表》是我国一部著名的大型综合性词表，然而通过多年的标引和检索实践，发现《汉表》在各学科、领域的词汇分布存在明显的不均衡性，如核技术专业的叙词大约有3 000个，而汽车专业的叙词却只有300个，然而核技术方面的文献量是远不及汽车专业文献数量多，显然这种词汇分布是欠均衡、欠合理的，这也许就是导致《汉表》在各单位使用极少的主要原因之一。

⑤入口率。入口率也称词汇等同率，是非正式叙词与正式叙词的比率，这是衡量入口词汇丰富程度的一项重要指标。从词汇控制、检索语言自然语言化的角度考虑，入口率越高越好，国外叙词表的平均入口率在40.67%，而国内的叙词表一般在16%左右^［3］，最新修订的《中国分类主题词表》的入口率是32%^［14］。

⑥关联比和参照度。这是衡量叙词表中词间关系的重要指标。关联比是指叙词表中设有参照的叙词（即至少具有一个以上属、分或参项参照的词）与词表总词数的比率，关联比的值越接近1，叙词表的性能越好。

参照度是叙词表中叙词所接受的参照的平均数，一般使用属分参照数、相关参照数与正式叙词总数的比值来表示，而不包括等同参照数（已用入口率反映）。参照度越高，相关性越强，一部好的叙词表应尽量避免无关联词的出现，但每个叙词带有过多的参照与其说是一种帮助不如说是一种障碍，理想的参照度应该是在2～5之间^［4］。

⑦专指度。专指度反映了叙词与文献与信息需求的主题概念在内涵和外延上的一致性程度。词汇的专指度与检索系统的检准率密切相关。专指度的判别一般由主题领域与词量结合起来使用，过高或过低都是不合适的。

⑧网罗度。词汇的网罗度是指叙词揭示文献主题概念和表达用户信息需求主题概念的完备程度（即广度），它是影响检索系统检全率的主要原因。词汇的网罗性越好，用该表控制的检索系统的查全率就越高；反之，词汇的网罗性越差，查全率就越差。由于查全率和查准率存在着反变关系，过高、过低的网罗度都要尽量避免，即必须控制在一个适当的水平。要保证词汇有一定的网罗度，就要求叙词表的每一个学科、专业、范畴组面都有一定数量的叙词。通常在编表中按专业收词时采用的组面分析法能较好的保证叙词表词汇有较好的网罗度。所谓组面分析，就是根据同一区分特征把所选主题词分成不同的分面和组面，这些组面和分面，类似于表示一类事物的某一属性的一组简单概念。组面有广有窄，同一个专业的“内容相关”的组面，内容较广，适用于收词；而范围专一，属于同一范畴的“内容相关”的组面，不仅适于收词，而且适用于定词，这种组面分析法与其选词法配合使用，有助于消除组配体系内叙词的空缺、重复和交叉，因而能较好地保证叙词表词汇的网罗度。

⑨用户保障率。用户保障率是指对于一定的用户群，叙词表中的某一叙词被用于表达用户文献信息提问主题的次数（频率）。

叙词用户平均保障率＝叙词用于表达用户文献信息提问主题总次数/叙词表叙词总数

叙词用户平均保障率体现了叙词表词汇的用户保障原则，这一原则在叙词词汇控制方面的重要作用和意义还没有引起人们应有的重视，而实际上，叙词用户保障率和文献保障率一样重要，它是决定叙词增加、修改、删除和保留的重要依据，也是衡量叙词表微观结构是否合理的一条实践标准。美国兰开斯特说：“标引词的使用情况的统计数字对于词表更新是一种宝贵的指示值，但是，检索过程中用词情况的统计数字，在某种意义上更为重要，却很少被保留，这是令人诧异的。”他还说，“无论一个叙词在标引工作中被用得多么频繁，譬如说在两年多时间内，该词在检索过程中从未被使用过，该词就不应被收录为叙词，这可能表明该词过分专指。但该词可在叙词表中查到，而且存在着有关该专门主题的文献，所以标引人员就选用该词。即使如此，在某一特定的主题领域，提问从未专指到这种程度，所以专指度过高的词是冗余的。另外，在检索过程中有从未被用过的词，这表明叙词表的收录范围和检索者的需要并不一致。”所以说，只有当用户对某词感兴趣，常用来表达文献信息需求提问主题，有一定的用户保障率时，该词才应被收录词表。用户保障率是确定叙词表中词汇恰当专指度的重要依据，目前国内对叙词表用户保障问题研究很少，甚至在某种程度上被忽视了，有鉴于此，我们很有必要深入研究叙词表用户保障率问题。

⑩词强。词强是对给定的叙词表和文献集合，叙词表中某一叙词用于标引的次数（频率），亦即叙词的文献保障率。词强是对给定的叙词表和文献集合而言的，它随着给定的文献数量的多少而不同，文献量增大，词强变化的总趋势是增大。黄水清给出了平均词强的公式^［15］：

平均词强＝全部主题词被标引总次数/叙词表中总主题词数

词强反映了对于给定的叙词表和文献集合，单个主题词被标引的频率，它是一种叙词标引实践的反馈信息，是叙词表词汇控制的主要依据之一。特别是目前，在用户保障率还未引起人们足够重视情况下，词强几乎成了叙词增加、修改和删除的最主要的标准。一般来说，词强过高和过低的词都不适合作为叙词。对于词强过高、太泛指的词，可选用由该词与其他词结合而成的较专指的词组作叙词；对词强过低，太专指的词，可合并到能概括它的较泛指的叙词中去，对于那些反映新事物、新学科的词，即使开始时可能在文献中出现频率不高（即文献保障率不高），也应该注意选取；而对于那些反映旧事物、旧学科的词，即使过去某一时期在文献中出现频率较高，可合并到能概括它的叙词中去，未被选取为叙词但仍可能被检索者使用的词，可作为非叙词保留。当然，这一原则选取的叙词还是候补的，还需要通过以后的标引实践检验，观察和分析其词强是否合理，以便最后决定取舍和改进。可见，词强是评价叙词表微观结构的重要实践标准，是维持词表动态性、科学性的重要依据。

上述十大指标分别从理论和实践两个层面对叙词表词汇内容、词间关系、应用实践等方面进行了定性和定量测评，其中词量、先组度、清晰度、分布均衡度反映了语词概念自身的情况，而入口率、关联度（关联比和参照度）则反映了词间关系的信息，专注度、网罗度、用户保障率和词强等指标则反映了叙词表是实际的标引与检索实践中的效果。除此之外，吴雯娜、曾建勋还提出应采用更为细致的概念深度、概念分化度、概念聚合度以及概念横向关联度等指标对叙词表中的纵向关系（等级关系）和横向关系（相关关系）等进行描述和评价，并用其对EI叙词表与我国的主要中文叙词表进行比较研究^［5］。

7.1.3　分类主题一体化词表评价方法

分类法和主题词表作为两种不同的知识组织工具，存在诸多差异，但在原理上有着共通之处，这种原理上的共通之处成为它们结构上有机结合的基础。分类主题一体化词表将分类法和主题词表有机地融合为一个整体，既能发挥各自独特的功能，又能通过相互配合发挥最佳的整体效应。“知识组织系统”这个术语本身就反映了各种知识组织工具集成使用的一种趋势，因此，分类主题一体化词表是知识组织工具发展的一种趋势。

常见的分类主题一体化词表类型有分面叙词表、叙词表式索引、分类表-叙词表对照索引和集成词表^［16］，其中分面叙词表和分类表-叙词表对照索引应用较为广泛，著名的实用系统有英国艾奇逊《分面叙词表》、联合国教科文组织的《社会科学综合叙词表》、我国的《中国分类主题词表》、《教育分面叙词表》、《农业科学叙词表》等。对于分类主题一体化词表的评价，除了分别采用分类法和叙词表的一些评价指标评价外，还需设置专门的指标用来评价类目和叙词之间的兼容关系。

①类目对应标引深度^［17］。类目对应标引深度反映了用叙词表中的叙词标引分类法类目包含的主题内容的周详程度，即每个类目平均对应标引的叙词或叙词词串的数量。类目对应标引深度过低，则对隐含概念挖掘不足；过高，则可能造成冗余。

类目对应标引深度＝类目对应的叙词及叙词词串总数/类目总数

②等值兼容率。等值兼容率反映了类目与叙词（串）的概念一致性程度。在分类主题一体化词表中，类目与叙词（串）之间的概念映射关系一般分为完全相符、部分相符和不相符合三种情况，或分为完全相符、基本相符、大部分相符、小部分相符和不相符五种类型。鉴于部分相符的情况较难判别，一般以完全相符率，即等值兼容率作为一项衡量指标。

等值兼容率＝完全相符的对应关系数/总的对应关系数

等值兼容率越高表明分类主题一体化词表的一体化程度越高，效果越好。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈