首页 百科知识 叙词表的编制与维护

叙词表的编制与维护

时间:2022-02-26 百科知识 版权反馈
【摘要】:在叙词表编制前,根据系统的标引对象、设备条件和使用需求等相关因素,明确叙词表的总体要求,具体包括如下7个方面:①明确词表的主题领域。词表结构是采用字顺显示结合传统的系统显示形式,还是字顺显示结合分类显示或图形显示等;是单语种叙词表,还是多语种叙词表。
叙词表的编制与维护_多语种叙词本体

1.4 叙词表的编制与维护

1.4.1 叙词表的编制

叙词表的编制一般包括以下六个步骤:

(1)总体设计

总体设计是指编制叙词表之前设计出叙词表的总体模式。在叙词表编制前,根据系统的标引对象、设备条件和使用需求等相关因素,明确叙词表的总体要求,具体包括如下7个方面:

①明确词表的主题领域。根据词表涉及的范围对词汇进行选择和处理,通常情况下,中心主题领域是收词的重点,且应做到词量充分。对于边缘学科门类,则可以相对概略。

②明确词表的标引对象。对于图书、期刊论文、科技报告、档案或是网络信息资源,应根据具体情况确定词汇的专指度。

③明确词表的功能。词表是供编制手检工具,还是供机检使用;是严格的受控系统,还是与自然语言结合使用的系统;对词类、词形以及词汇的先组度等有何规定;是否使用辅助检准措施,包括联号、职号等。

④明确系统的用户。是专业人员,还是普通用户,对于不同的用户,应根据其不同的需求确定词汇选择和控制的特点。如果系统的作用对象为终端用户,一般应重视词表的易用性,选择更多的自然语言的证词作为入口词。

⑤确定词汇的特点。明确收录的词汇是需要较高的专指度,还是一般的专指度。

⑥确定词表的结构。词表结构是采用字顺显示结合传统的系统显示形式,还是字顺显示结合分类显示或图形显示等;是单语种叙词表,还是多语种叙词表。同时,还应明确各个组成部分中款目的结构以及各个具体的组成部分。

⑦明确词表编制的条件。包括使用的设备条件、时间及人员等,以便确定编表的方法、步骤等。

(2)选词

通常情况下,应根据词表涉及的主题或学科范围进行词汇选择。词表的来源一般有以下6个方面:

①现有词表和分类表。如果编制的专业词表,可选择综合性叙词表或分类表的相应部分或参考相关的专业词表、类表。其中叙词表的词汇收有同义词以及必要的词间关系处理,可以直接收入到词库。

②词库。对于现有词库,可以直接从词库中选择对应领域的词。

③参考检索刊物。可将相应专业的文摘和索引期刊的标引词作为选择依据,同时也可以参考该领域的其他出版物的关键词。

④参考工具书。包括百科全书、词典、术语表等。此类工具书的词汇比较规范,可以通过它们获取相应领域的标准词汇。

⑤文献浏览。专业文献是标引的对象,同时也是叙词的重要来源。尤其是那些发展迅速的主题领域,需要注意直接从文献中选词,浏览的文献除专著、期刊论文外,还应包括技术报告、会议录、专利、标准等。此外,也可以根据需要结合网络资源选词。

⑥用户提问。包括参考检索系统中用户的检索提问记录,邀请主题领域的专家提供常用的检索词汇,收集后加以整理作为词表词汇的重要来源。

(3)词汇整理

词汇整理通常采用两种方法:分类和轮排。

①分类。此种方法是按照学科、专业和词汇分类的特点,将词汇按照学科或主题集中。然后在一个学科或主题领域下根据其特点确定基本范畴,按照范畴对词汇加以聚类。通过采用这一方法,可以按照领域或范畴了解收词情况,确定词汇的收集是否充分,各部分之间是否平衡,词汇的质量如何,根据需要进行必要的增补和调整。同时,可以在集中同一领域词汇的基础上,进行词间关系处理,包括发现同义词、上下位词、相关词等,并加以相应处理。

②轮排。通过结合轮排的方式,按词素对词汇进行集中,分析收词情况,增补和调整词汇。同时利用词汇轮排中出现的字面成族现象,对词间关系进行处理。结合轮排方式的优点是:可以采用人机结合的方式实现轮排系统的编制,比词汇分类的速度快、效率高,从而减少工作量。此外,利用轮排索引可以发现分类处理中不能发现的词间关系。如果将两种方法结合,可以提高处理的质量。

(4)展开词表

根据之前步骤处理的结果,就能够根据确定的组成结构,进一步生成完整的词表,包括字顺表、系统显示等。在上述各部分的建立过程中,族首词的选择需要根据专业领域的检索需要确定,并考虑到等级索引不同词族之间的平衡。轮排索引中词素的切分,一般也需要根据汉语的特点进行人工干预。在编制分面叙词表的情况下,一般应编制要求,按照基本主题领域、基本范畴、子分面建立详细的分面结构,作为词表编制的基础,并根据词汇的情况,详细确定类级、类号等。后面的工作,可以依据词汇处理提供的数据完成,要求排列正确,等级分明,相关参照完整。

(5)审核和试验

在生成词表的过程中,应广泛征求专家意见,并对词表进行详细的审核,包括:审核对应款目的参照是否完备,同义词、准同义词的处理是否恰当,叙词的类型是否符合规范,字顺排列是否准确,词表的格式字体是否符合规定等。同时,使用草表进行试验,包括试验标引和结合用户提问进行对照等。

(6)出版

经过审核和试验后的词表,便可以按照传统的印刷或是电子方式出版。出版前一般应编写详细的词表编制说明以及标引规则、特殊方法等,以方便用户使用。

1.4.2 叙词表的维护

随着科学技术的发展,叙词表作为标引工具,应能够根据信息资源标引的需要,随着各学科领域的不断发展,及时进行修订增补和动态维护。通常情况下,进行深度标引的词表比一般层次的词表更新更加迫切。在检索系统或数据库发展初期,词表的词汇会随着标引出现较高的增长,随后逐步达到相对稳定。但如果该主题领域学科发生急剧变化或数据库扩大收录范围,则词汇会再次出现大幅度增长。因此词表的维护,应根据信息资源的特点、标引的阶段以及学科领域的变化等的规律进行。叙词表的维护通常包括以下方面:

(1)增加新词

增加新词包括各种新学科、新技术、新问题等出现的新词汇。对叙词表进行增加新词汇,能够确保词表及时反应文献的发展动态。新增加的词汇应包括必要的范围注释以及参照关系,如同义词、等同关系、从属关系、相关关系等,同时补入字顺表以及相关的索引,并在相关的参照词下加以显示。对特别专指的词汇,可作为非叙词收入,用于指引检索相应的上位词或有关的组配形式。

(2)删除旧词

对于不满足系统要求的词,如使用频率过低,没有标引价值的词等,应予以删除。删除旧词应注意参考有关的标引和检索频率统计。删除某词时,一般应将该词与词表各相关部分或词间关系揭示中同时删去。对仍有一定使用价值的词,则可以将其改作非叙词,作入口词用。

(3)修改调整

根据使用需要对词表中现存的词进行必要调整,使其更加规范、适合使用。修改调整包括词形是否符合控制要求,同义关系、准同义关系中标引词的选择是否恰当,范围注释是否需要完善,等级关系和相关关系是否需要调整等,以便能够使词表更加有效、更适合实际使用需要。修改调整也包括将原来确定为非叙词的准同义词,根据实际使用情况,调整为叙词。

为了保证词表的质量,词表维护工作一般应由专门的编辑人员负责。一般来说,应以相应的数据为依据,包括标引数据、检索频率数据以及与词表有关的统计数据,如:等同率、关联比、参照度、先组词、词族及范畴的规模等。其中,等同率为词表中非叙词与叙词之比,关联比指词表中至少有一个参照项的叙词与叙词总数之比,这些数据是国内外用来对词汇控制进行评价的一些参数,可以在一定程度上作为词表调整改进的依据。词表维护过程中,应详细记录词汇的变化,做好词汇的历史注释,使词表词汇的变化发展脉络清楚,以便必要时,用户可以利用历史注释进行回溯检索。同时,使用计算机管理系统,简化词汇维护的操作,提高词表管理的水平。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈