首页 百科知识 叙词本体的功能

叙词本体的功能

时间:2022-02-26 百科知识 版权反馈
【摘要】:与传统叙词表不断更新版本不同,叙词本体在更新和修正时,在原有语料库基础上进行自动化的抽取以及半自动化的维护。而且叙词本体更新能够重用原始的叙词本体,没有发现变化的叙词术语以及关系,不会发生任何的改变。叙词本体要完成新词发现功能,需要专家事先定义新词的词频。
叙词本体的功能_多语种叙词本体

3.2 叙词本体的功能

3.2.1 叙词本体与叙词表的比较

叙词本体的实质依然是叙词表,因此叙词本体也具有叙词表的四个作用。同样是将文献标引人员、信息检索用户的自然语言转化为规范语言的工具,对信息检索进行后控制,提高查全率、查准率。但它却比传统的叙词表更加智能化,并为实现多语种检索和智能化概念检索打下了基础。

在检索叙词术语方面。传统的叙词表则只能够按照字顺顺序进行检索,要定位叙词术语所属的学科分类还必须通过分类号加以确定,而叙词本体就不用这么麻烦了。而且不可以通过学科分类进行检索,即查询途径相对单一,不能满足不同用户的需求。叙词本体解决了这方面的难题,它吸收了本体的优点,使得叙词本体的结构更加清晰,概念的层次结构更加明显,因此检索途径可以多样化,既可以按照概念分类进行垂直检索,也可以通过叙词术语直接进行检索。而且通过叙词术语检索出来的信息包括了叙词术语的所属学科分类、分类号、各种叙词术语之间的关系。所以在检索方面,叙词本体会给用户带来很多方便,促进了标引人员提高工作效率,同时也节省了用户的时间。

在叙词术语以及术语关系更新维护方面。传统的叙词术语的结构相对稳定,由于组织方式的原因,很难对叙词表进行修改以及更新,因此对于维护以及版本升级来说,都是相当困难的。即使是通过更新版本来达到叙词表的升级,但是时间周期也是非常长的,而且还非常耗时耗力。如果是纸质版的叙词表,除了专家外,还需要大量的出版编辑者重新对叙词表进行排版,重新出版,整个升级过程将耗费大量的资金以及人力。而由于叙词本体的底层是基于本体技术的,所以可以利用本体自学习以及自演化的技术来实现叙词本体的演化功能。与传统叙词表不断更新版本不同,叙词本体在更新和修正时,在原有语料库基础上进行自动化的抽取以及半自动化的维护。只要初始叙词本体构建好之后,演化过程只需要专家对发现的新词以及新关系加以评审之外,无须耗费大量的其他人员参与演化过程,从而节省了人力物力。而且叙词本体更新能够重用原始的叙词本体,没有发现变化的叙词术语以及关系,不会发生任何的改变。叙词本体演化能够使叙词术语以及关系时刻跟进学科发展,减少了词表维护的工作量。

3.2.2 叙词本体的网络学习功能

叙词本体除了提供叙词术语以及查询的功能之外,最重要的是能够实现叙词本体更新维护的功能。而更新维护功能主要分为网络学习以及自动演化两个子功能。这一节将讲述网络学习功能,下一节将讲述自动演化功能。

网络学习功能又具有以下三项子功能:网络信息解析子功能,新词发现子功能,关系提取子功能,如图3-1所示。

img37

图3-1 网络学习功能图

其中网络信息解析子功能主要是对抽取出的网络信息资源进行解析,提取出能够发现新词以及新关系的关键信息。而要解析网络信息,首先需要获取信息来源。

叙词本体需要更新与维护,除了原有叙词本体之外,还需要一些新术语以及新关系的知识来源。如果没有知识来源,叙词本体的功能再强大,也不能够更新陈旧的叙词本体,这就好比“巧妇难为无米之炊”。

知识来源有很多,如互联网、各种书目信息,以及各种学术论文信息。互联网信息的增长速度非常快,特别是大量草根作者涌现的情况,很多互联网用户开始在网络上发表自己的观点和看法,使互联网信息更加丰富多彩。但是这些信息都不能作为叙词本体的真正来源,因为大多数的草根作家并不是就某一学术问题发表自己的观点看法,而是对于他们周围的事物以及自身的经历写下日志,这些信息中即使出现了新词,那也只是社会上流行的语言在发生改变,而不能说明学术上涌现了新的词汇。所以我们并不采用互联网信息作为叙词本体演化的信息来源。那么书目信息呢?很多书目确实是学术研究的成果,但是由于书籍出版的周期比较长,因此从书目信息中发现新叙词术语以及新关系,在一定程度上具有时滞现象。

那么我们最好的选择就是从大量的学术论文数据库中获取到一些学术论文的信息作为叙词本体网络学习的来源。学术论文是表达学术研究成果快捷的一种表现形式,因此采用学术论文可以减少叙词本体更新维护的时滞。网络上的一般信息表达随意而缺乏规范,而学术论文是学术交流的一种形式,代表着每一位学者在该领域研究过程中所作出的贡献,其规范程度较高。国内的学术数据库主要包括“中国知网”、“重庆维普数据库”以及“万方数据学术论文数据库”;外文数据库非常之多,较为出名的有“Conference Proceedings Citation Index”等。

选择了信息来源之后,需要从这些数据库中获取到描述文献特征的网页,并对其进行解析,提取关键信息。通过分析这些关键信息,为叙词本体演化功能服务。对于不同的数据库,其描述文献特征的网页结构也不一样,那么需要针对各种不同数据库描述文献特征的网页结构来分析如何解析网页,提取关键信息。在后面的章节中,将会仔细介绍如何针对不同的数据库提取关键信息。这里的关键信息,主要是指题名,关键词,摘要以及学科导航信息等。

新词发现子功能主要是从提取的关键信息——题名、关键词以及摘要中进行分词;根据叙词表的叙词词汇控制要求,提取出符合要求的词汇;同原有叙词本体进行比较是否存在相同的词汇;统计新词的词频,判断其规范性;确定新词。叙词本体要完成新词发现功能,需要专家事先定义新词的词频。叙词本体根据专家预先设定的词频对抽取出的新词进行判断,将超过该词频的词汇作为候选新词提供给专家进行评审。

关系提取子功能主要解决的问题是在新词出现的语句中提取该词与其他词之间的关系。根据叙词术语关系的特点,采用不同的方法提取关系。由于相关关系的外延比较宽泛,只要两个词之间存在一定的关系,那么这种关系就可以称为是相关关系。可以认为等同关系以及等级关系从某种程度上说也是一种相关关系。因此可以先提取两个词之间的相关关系,然后在相关关系的基础上再进一步判断等级关系以及等同关系,同时也可以在相关关系的基础上进一步判断是否满足相关关系子关系的要求,如对立关系以及交叉关系,从而更具体、更准确地提取相关关系。

这一节都只是较为简单地描述网络学习各个子功能,在后续的章节中,将会具体阐述如何实现这些功能。

3.2.3 叙词本体的自动演化功能

叙词本体演化功能又分为专家评审功能以及自动更新子功能两个功能。图3-2为自动演化功能与其子功能的结构图。

上一节讲述了网络学习功能以及其子功能,新词发现子功能完成了提取出新词,关系提取子功能完成了关系的提取,新词以及新关系提取出来之后并不能直接将其增加到叙词本体中去。而要通过专家的审核,才能够增加到叙词本体中去。因此在演化功能中有专家评审子功能。此功能主要是为众多专家提供了评审的平台,提取出来的新词以及新关系会自动提交到专家评审流程中,只要专家以专家的身份登录叙词本体系统,就可以看到系统提示的评审事宜。专家通过超级链接进入到评审界面,会看到各条提取出来的新词以及新关系及其出现的频次,作为专家评审的依据。同时专家也可以看到其他评审对此作出的评价结果以及打分情况,还可以对此参与讨论。这样可以加强专家之间的合作以及交流,使专家评审的结果可以更加准确。

img38

图3-2 叙词本体自动演化功能

自动更新功能是指在所有注册了叙词本体的专家都参与评审之后,自动地对专家评审的结果进行统计和分析,将通过绝大多数专家评审的新词以及新关系自动增加至叙词本体中去。而绝大多数专家到底是指多少专家呢?这需要在叙词本体系统中进行参数定义。在后续的工作中,系统将自动地根据此参数进行统计分析。自动更新子功能是指将满足要求并通过专家评审的结果添加到叙词本体中,此功能的实现需要借助本体更新技术,利用开源代码Jena即可以完成。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈