首页 百科知识 档案的自由标引和自动标引

档案的自由标引和自动标引

时间:2022-10-01 百科知识 版权反馈
【摘要】:档案自由标引是指标引时不依据分类表和词表,而由标引人员直接从档案题名或正文中抽取标引词或自拟标引词。档案自由标引用词是由标引人员自行决定的,可以从档案原文中直接抽取,也可以由标引人员根据标引规则自主措词,措词的好坏直接关系到自由标引的质量和检索效果。后控词表对作为档案检索标识的自然语言词汇进行控制,须在现有的自然语言检索系统标识的基础上进行编制,具体而言,可采取下

第四节 档案的自由标引和自动标引

一、档案自由标引的含义

档案自由标引是指标引时不依据分类表和词表,而由标引人员直接从档案题名或正文中抽取标引词或自拟标引词。档案自由标引不受分类表和词表的限制,对标引人员要求低,标引难度小,标引速度快,由于直接采用作者所用的词进行标引,可达到较高的专指度。然而,由于自由词标引没有统一的依据,在大量标引的情况下容易造成用词不一致,使同一主题的档案分散在几个词下,导致检全率降低。解决此问题的有效手段是编制后控词表。

二、档案自由标引要点

(1) 档案题名在很大程度上反映了档案的主题内容,因此可作为自由标引的主要依据,但当档案题名不能确切表达档案主题,或者档案正文或摘要中含有题名中未反映出来的具有检索意义的内容时,就须从档案正文或摘要中抽取标引词。

(2) 标引词可由标引人员根据标引规则自主措词,不必拘泥于原文用词,但必须准确、规范、简洁、通用,并尽量保证同一主题档案标引用词的统一,必要时可参考词表或权威性词典。

(3) 除了标引档案主题中的主体因素外,还应标引其他方面的因素,以达到与档案主题相应的专指度。

(4) 由于自由标引主要用于计算机档案检索系统,因此对标引深度无多大限制,只要是有检索意义的主题概念都可以标引出来,并尽可能反映出新学科、新事物、新概念,对档案作者所用的新名词术语尽量直接采用。

(5) 为控制标引质量,应预先制定详尽的标引规则,保证标引的顺利进行。标引质量的内容包括主题分析方法、标引用词的规定、标引内容的取舍、标引深度的确定,人名、地名、机构名的处理及其他标引要求等。

三、档案自由标引的措词

档案自由标引用词是由标引人员自行决定的,可以从档案原文中直接抽取,也可以由标引人员根据标引规则自主措词,措词的好坏直接关系到自由标引的质量和检索效果。对自由标引措词的基本要求是简明、确切,符合用户习惯和检索思路,并力求对相同主题概念措词的一致性。

1.措词的简明性

标引用词不能过于冗长、繁琐,尽量避免不起作用的词的堆砌,应在明确表达主题的前提下尽可能地简洁。如“中华人民共和国政府严正声明”用“中国政府声明”即可。但标引措词也不能简略到含义不清的地步,如“北大同学录”应标引为“北京大学”、“同学录”。

2.措词的确切性

对于原文中含义不清的词,应透过其字面描述把握其实际含义,概括出能准确反映主题概念的词。例如:“关于集中整治无证‘三车’的通知”,应标引为“无证行驶”、“电力三轮车”、“人力三轮车”、“板车”、“交通管理”等。

3.措词的用户保障原则

自由标引用词要符合用户习惯和检索思路,尽量不用用户想不到的措词形式。如“野游避险”可标引为“旅游安全”。

4.措词的一致性

对同一主题概念的标引尽可能保持用词的一致性,尤其是对档案中那些常用的主题概念或容易引起分歧的主题概念应尽量做到标引用词的统一。例如:“周恩来100周年诞辰纪念”、“纪念周恩来总理100周年诞辰”、“纪念周恩来百年诞辰”、“周总理诞辰100周年纪念”,一律用“周恩来诞辰100周年纪念”来标引。

四、档案自由标引中对人名、地名、机构名的处理

1.人名的处理

对档案中涉及的人名,凡是具有检索意义的,都应析出标引,若是仅仅提及,无具体内容的,不必标引。标引人名时应针对下列情况作分别处理:

(1) 党和国家领导人的讲话,应标引讲话人。

(2) 典型人物和事迹介绍材料,应将典型人物的人名标出。

(3) 档案中涉及的人物的合称词,如“全国十佳少年”、“宋家三姊妹”等,除标引合称词外,若论及了每个人的具体情况,应将其分别标引。

(4) 档案中用了人称代词的如“我”、“你”、“他”、“某人”等,将其全名标出。

(5) 人名不全,如仅有“姓+职务”的,用人名全称,并可将其职务、身份一并标引,如“朱镕基—总理”,“克林顿—美国总统”。

(6) 档案附件中的各类人员名单,如受表彰的人员名单,某机构、团体的组成人员名单,出席会议的一般代表名单等,用“三八红旗手—人员名单”的式样,不标具体人名。

2.地名的处理

对档案中涉及的地名,标引时一般不须冠以上级地域名称,但对于很小的不知名的地名,则应冠以上级地名。具体来说:

(1) 对外国地名,若是人所共知的可直接用其原名,如“巴黎”、“纽约”、“伦敦”等;若是一般地名则应冠以国名,如“英国伯明翰”、“挪威卑尔根”等。

(2) 我国各省、市、自治区、直辖市的名称,一律只用地名,而省去“省”、“市”、“自治区”字样,如“湖北省”标引为“湖北”。

(3) 我国县及其以上级别的地名,一律不加上级地名限定,县以下地名,应冠上县名作限定,如“孟津县小寨村”。

(4) 风景名胜地名一般用其直接名称,如“庐山”、“北戴河”等。但若可能重名的,则应冠以所属地名,如“杭州西湖”。

(5) 各大城市区一级及以下地名,应冠以城市名限定,如“武汉市江汉区”等。

3.机构名的处理

一般应用全称标引,若简称更为通行,且能完整准确地表达时,也可用简称标引。具体作以下处理:

(1) 外国的机构名,应冠以国名。如“法国外交部”、“美国西点军校”等。

(2) 我国各机构名,不须冠以“中华人民共和国”或“中国”字样。如“卫生部”、“国家教育部”等。

(3) 各种民间团体、组织、协会等直接用其全称标引。如“台湾海峡交流基金会”等。

(4) 机构名称不全,或属保密性质的,用其上级单位名称或不标引。如“广州军区某部”用“广州军区”标引。

(5) 有番号或代号的机构,直接用其代号标引,如“719所”。必要时加上限定,如“北京301医院”。

五、档案自由标引实例

1.江主席在北大建校100周年庆祝会上的讲话

标引结果:江泽民—国家主席、军委主席、总书记北京大学100周年校庆庆祝大会讲话

说明:人名、机构名均用全称。

2.国家统计局公布1998年第一季度经济形势统计报告

标引结果:经济形势统计报告国家统计局1998.1—3

说明:时间概念一般可不标,若须标引,则应采用确切的时间。

3.中国复关问题会议记录

标引结果:关贸总协定会议记录复关问题中国

说明:原文措词含义不清,应补充标引“关贸总协定”一词。

4.中国人民政治协商会议八届三次会议纪要

标引结果:全国政协八届三次会议会议纪要

说明:“中国人民政治协商会议”用简称“全国政协”。

5.武汉大学关于表彰1997—1998学年度先进团支部、优秀团干部和优秀团员的通知标引结果:表彰先进武汉大学先进团支部优秀团干部—人员

名单优秀团员—人员名单

说明:先进人员名单在附件中列出,无具体内容,不标出人名。

6.三省市试行国家教委“普通高中新课程方案”调查

标引结果:普通高中课程方案教学大纲教材试点国家教育委员会江西山西天津调查报告

说明:机构名用全称,“三省市”用具体地名。

7.第三届全国职业道德十佳标兵事迹介绍材料

标引结果:全国十佳标兵 职业道德 事迹介绍 徐虎 离素丽 亢龙田 史改梅 梁鸿义 冀丙祥 王凡 邱汝瞬 邹甲乙 梁惠珍

说明:档案中论及个人具体情况,应标人名。

8.国务院关于在全国建立城市居民最低生活保障制度的通知

标引结果:城市居民最低生活保障制度城市贫困人口社会救济

9.美中最惠国待遇谈判纪要

标引结果:最惠国待遇中美谈判会议纪要

说明:档案中涉及中国与其他国家关系的内容,采用中国有关,其他国家在后的方式标引。

10.革命老区拥军爱民活动纪要(照片)

标引结果:革命老区拥军爱民—照片档案

说明:照片档案依据其主题标引,因照片档案所包含的信息量不大,只

需作浅标引,标出1~2个标引词即可,但应将档案类型因素标引出来。

六、后控词表及其编制

全文数据库和信息网络的发展,使自然语言在档案信息组织和检索中的应用逐渐加强,但是单纯采用自然语言会造成检全率的降低,解决此问题的有效途径就是采用后控词表。后控词表是一种在检索阶段进行控制的词表,它不像一般的控制词表那样在标引阶段实施控制,而是在检索阶段对检索提问进行控制。

对于标引和检索的控制与否有如下4种模式:

(1) 标引控制+检索控制同时在标引和检索阶段使用词表;

(2) 标引控制+检索不控制只在标引阶段使用词表,检索阶段直接使用自然语言检索;

(3) 标引不控制+检索控制用自然语言标引,但在检索时采用控制词表进行控制,检索用词既可以是自然语言,也可以是受控语言(即词表中的词);

(4) 标引不控制+检索不控制标引和检索时都使用自然语言,不使用任何词表。

这4种模式中,第一、二种为先控模式,第四种为纯自然语言检索模式,后控检索就是第三种模式。所谓“后控”,是指在系统输入阶段不进行控制,而在系统输出阶段进行一定的控制,它把“控制”不放在标引阶段,而放在检索阶段。“后控制技术”是指检索系统在标引阶段使用自然语言,不对标引进行严格控制,而在检索阶段才对检索词进行控制的一种自然语言检索优化技术。后控检索一般通过后控词表来实现。先控模式(在标引阶段实施控制)对标引人员要求高,标引难度大,标引速度慢,词汇控制严格,词表管理耗时耗力。编制后控词表的目的是避开先控带来的问题,通过在检索阶段实施控制,减轻标引人员的负担,改进检索效果。

后控词表在很大程度上接近于自然语言,又保留了规范语言的许多特点,相对于结构严密的叙词语言来说具有更大的灵活性和动态性,且不用花多少人力编制,是自然语言和规范语言结合的理想方式。

后控词表对作为档案检索标识的自然语言词汇进行控制,须在现有的自然语言检索系统标识的基础上进行编制,具体而言,可采取下面几种方式:

(1) 在现有的标引词的基础上编制。先用自动抽词或自由标引的方法标引一批档案,然后将标引结果整理成后控词表。

(2) 利用现成的词表或分类表编制。用现有词表或分类表作框架,将自然语言检索标识纳入其参照系统中。

(3) 利用计算机自动编制。利用计算机自动收集检索表达式中的检索用词逐渐积累成表。

后控词表的词汇量是不断增长的,这是为了适应自然语言词汇不断增长的需要,以便对新增加的自然语言标识加以及时控制。

后控系统检索的基本流程:检索词输入系统后,先不用于检索,而是进入词表匹配,根据词表中等同、等级的联系,将词表中与输入的检索词具有等同关系的词和检索词一同进行查找,同时显示相关词,供检索用户参考、选用。其流程如图5-1。

img26

图5-1 后控检索流程图

后控检索举例:提问词为“微机”,后控词表中的“微机”的等同关系词有“微型计算机”、“微电脑”、“个人电脑”等,相关关系词为“计算机”、“电脑”、“大型机”、“中型机”、“小型机”、“巨型机”等。系统在检索时,会将提问词“微机”与其对应的等同关系词“微型计算机”、“微电脑”、“个人电脑”一同进行检索,并显示其相关关系词“计算机”、“电脑”、“大型机”、“中型机”、“小型机”、“巨型机”等,供用户选择,以扩大或缩减检索范围。

六、档案自动标引

档案自动标引,是指采用计算机技术自动对档案文件的题名、摘要乃至全文进行扫描处理,抽取反映档案主题内容的关键词,进而规范成主题词分类号的过程。

1.档案自动标引的步骤

(1) 将档案题名、摘要乃至全文输入计算机,转换成机读形式。

(2) 计算机对档案题名、摘要或全文进行扫描,从中自动切分出可以组成主题词的词语,或依据独立于档案文本之外的主题词典选取关键词。

(3) 计算机自动统计所选取的关键词在档案中出现的频率,进行对比、分析和筛选,并按照词频大小排序。

(4) 计算机按照规定的词频测定标准,自动将选取的关键词转换为主题词。

(5) 对自动标引结果进行审核,以人工干预的方式进行必要的删改,最后确定标引词。

2.档案自动标引的方式方法

档案自动标引方式有两种:一是抽词标引;二是赋词标引。其中抽词标引方式应用较为普遍。

(1) 抽词标引

所谓抽词标引,是指计算机从机读档案的题名、摘要乃至全文中自动抽取能表达档案主题内容的关键词作为标引词的方法。抽词标引又可分为主关键词抽词标引和全关键词抽词标引两种类型。

主关键词抽词标引要求计算机从档案原文中抽取能直接表达档案主题的主要关键词作为档案标识,即按照词频测定标准只有达到某一词频数以上的关键词才能被抽取出来,标引深度较小。

全关键词抽词标引,指计算机只从档案中剔除数量有限的非关键词,其余的关键词都抽取出来作为标引词的一种方法。这种标引方法标引深度较大,目前世界上的大型联机检索系统都采用这种方法。

抽词标引主要通过词频统计分析来实现,其基本方法是:计算机对机读档案题名、摘要乃至正文进行扫描,完成自动分词,用禁用词表排除只起句法作用的非关键词,如连词、介词、代词等,统计关键词在档案中出现的频率,删除出现频率过高或过低,没有实际检索意义的词,在规定的词频范围内抽词标引。

抽词标引的优点是不需预先编制机内主题词库作为标引依据,省时省力,方便实用,但随意性较大,标引用词的规范性较差。

(2) 赋词标引

所谓赋词标引,是指预先编制一个机内主题词库,用作标引的依据,计算机根据档案的主题特征,从规范的词库中选取相关主题词作为标引词的方法。

机内主题词库需有较高的覆盖率,其词量应随被标引档案数量的增加而增加,以满足自动标引的需要。

赋词标引的基本方法是:计算机按一定的算法扫描档案题名、摘要乃至正文的一连串汉字,将原文中的关键词与机内主题词库中的主题词进行对比、分析、转换,从而确定标引用词。

赋词标引的优点是规范化程度高,标引质量较有保证,但须事先编制机内主题词库,难度较大,若词库质量不高,还会影响到标引质量。

3.档案自动标引系统

自动标引系统一般包括输入子系统、词典、抽词、知识库、转换和输出6个子系统。

(1) 输入子系统。将文本以数据库或文档记录形式输入计算机,每个记录中包括供标引用的若干字段或子字段(如题名、文摘、文本段落等)。

(2) 自动标引词典。自动标引词典(机器词典)是存储在计算机系统内的一部或多部词表。在赋词标引系统中,词表为受控词表(如主题词表),收录的是经过人工规范的主题词,通过参照系统显示了词与词之间的各种关联;在抽词标引系统中,全关键词标引词表是一种禁用词表(也称非用词表),即词表中收入的词都不用来作为检索标志;而主关键词标引词表中的每个词具有若干信息,如词类、组配等。在标引过程中,通过查找词典确定关键词与禁用词、词组构成与切分。

(3) 抽词子系统。通过查找机器词典中存储的信息,对输入的文本逐字逐句进行扫描,抽出供综合与转换子系统处理的检索标志。对于拼音文字来说,词间有空格分隔,可按空格进行逐词扫描,作抽词处理。汉字词间没有空格,不能进行逐词扫描。因此,汉字抽词子系统首先须解决分词的问题,即将连续书写的汉字文本切分为有空格分隔的词。汉字自动切分,又称汉字自动分词,主要是通过扫描取文本的一部分同词典比较进行分词。词典切分的方法有最长匹配法、最短匹配法、设立切分标志法、逆向扫描二字前进法和非用字后缀表法等。

(4) 知识库子系统。知识库是针对某一领域问题求解的需要,采用某种知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。对于人工标引而言,一般包括如下3个阶段:主题分析、概念汲取、对照词表将主题概念转换为规范的主题词。在计算机标引过程中,可通过主题句法、词频统计法、概率法、加权法、语法分析法和语义分析法等方法表达上述过程,用语义网等知识表达方式构造成知识库。

(5) 转换子系统。依照知识库提供的知识,对抽词子系统抽出的全部词语进行统计、分析和综合,选取表达主题的关键词,然后,按词典子系统的规则,将选出的关键词转换为规范化主题词。

(6) 输出子系统。将选取的关键词存入到文本记录的有关字段,并将记录输出到要求的介质上。

4.汉字词的自动切分

汉字词的自动切分,指的是用计算机在中文文本中自动切分出能够构成标引词的词或词组。它是中文文献标引的一个特有难题,这是由于处于词组和句子中的汉字词之间无明显的分隔标志,字和字之间可以进行多种组合,形成含义不同的词和词组,计算机难以从中自动抽词。例如:“发展中国家兔养殖业”可以切分成:

①发展/中国/家兔/养殖业

②发展中国家/兔/养殖业

③发展中/国家/兔/养殖业

因此,在档案自动标引中,首先要将档案中连续的一个个汉字按照汉字构词规律切分成词或词组,才能进行自动标引处理,自动分词问题是档案自动标引研究和应用中所要解决的关键问题。

目前已提出多种汉字切分方案,大致可以分为以下几种:

(1) 词典切分法

词典切分法的基本原理是利用机内词典或词表作为自动抽词的手段,将抽取的词与词典(表)的词进行匹配,再辅以其他手段达到分词的目的。

(2) 语法分析切分法

语法分析切分法的基本原理是通过词法、句法、语义分析,采用词频加权的手段实现自动分词。

(3) 智能切分法

智能切分法的基本原理是采用概念分析、知识表示的方法进行句法分析,利用知识库、网络推理机等实现自动分词。

汉字词切分过程中的技术关键是把“字”构成词,避免产生歧义现象,也就是说,要保证切分出来的都是与原题名含义一致的词。在目前汉字切分方案中,词典切分法用得较多。

本章思考题

1.简述档案分类标引规则的主要内容。

2.简述档案主题标引规则的主要内容。

3.简述档案主题词组配规则。

4.什么是后控词表?它具有什么作用?

5.档案自动标引采取的主要方式有哪几种?

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈