首页 百科知识 语义属性描写的发展历程

语义属性描写的发展历程

时间:2022-03-04 百科知识 版权反馈
【摘要】:切夫、菲尔墨二人在名词短语的语义属性描写方面的工作对我们很有启发。图42 Berry的与动物有关的词项的语义网络对语义角色的语义属性进行描写和研究对于现代语义学来说,已经是势在必行。真正大规模的对名词短语的语义属性的描写是在汉语信息处理领域,源于这一领域对语言知识的渴求。自然语言处理领域为了建构知识库而进行的语义属性描写正如火如荼地展开,取得了一定的成果,但是面临的挑战也不容忽视。
语义属性描写的发展历程_语义角色视角下的谓词同义词辨析

对名词组的语义属性描写国内外20世纪70年代以后才广泛地开展研究,但对语义属性的描述最早恐怕要追溯到古希腊的大哲学家苏格拉底,他对钓鱼人的语义分析就考虑了该名词所蕴含的深层事件结构,包括想获取客体的来源(外部、自己生产)、获取客体的方式(强力、交换)、获取客体的生命值(活物、死物)、获取客体的处所(水中、陆地)、获取客体的时间(白天、晚上)、获取客体的工具(钩子、叉子等),如图41所示。[127]这种分析的广度和深度对我们的研究极有借鉴和指导意义。

图41 苏格拉底对“钓鱼人”的语义分析

作为对结构主义语言学的一次革命的转换生成语言学,为了解决生成过程中产生的“桌子吃鸡”之类的违反真实世界语义规则的句子,逐步发展出了一套词汇嵌入的选择限制规则和投射规则,用以检验句子的合格性。 切夫比较重视名词短语的语义属性的描写,与转换生成语法所主张的句法深层结构的合格性决定着句子的合格性不同,他认为,“是语义结构决定着句子的合格性”。[46]菲尔墨的格理论本身也非常重视名词的语义属性,他认为各不同名词所提供的框架环境决定着动词的选择。 切夫、菲尔墨二人在名词短语的语义属性描写方面的工作对我们很有启发。

作为韩礼德“词汇是最精密语法”这一观点的践行者,Berry利用语义属性构建了与动物有关的名词的语义网络。 在他的语义描写网络中,除了常用的性别、成熟程度、生命度以外,把动物们的生活场所也作为属性特征,如在野外,还是跟人类一起生活,跟人类一起生活又进一步区分为在家庭还是在农场。[16]他对动物的语义属性描写为我们提供了可资借鉴的宝贵经验。

图42 Berry的与动物有关的词项的语义网络

对语义角色的语义属性进行描写和研究对于现代语义学来说,已经是势在必行。在俄罗斯,ПадучеваE.B.编制的词汇信息中心把题元(语义角色)作为动词义项的四项描写内容之一(其他三项分别为形态特征、分类范畴、释义),重视描写题元的次范畴特征(要求哪些典型的主、客体)。[128]在我国,徐烈炯提出汉语的语义研究要突破只研究语言系统内部词语和词语之间的语义关系(即内部语义学)的内容局限,要和国际接轨,研究词语跟外部事物之间的关系,诸如指称、真值、前提、外延、可能世界等,以填补汉语语义研究的空白地带。[129]《同义词词林》将名词分为人、物、时间与空间、抽象事物四大类,每一类下面又分若干小类,小类下面再分若干小类,[130]为以后的语义属性描写研究奠定了坚实的基础。 真正大规模的对名词短语的语义属性的描写是在汉语信息处理领域,源于这一领域对语言知识的渴求。他们的描述不仅规模大,而且具备了一定的系统性,分类标准不统一的现象有了很大程度的改善。905工程和973工程就是在《同义词词林》的分类体系的基础上进行名词短语的语义属性描写的。905工程是语言信息处理专家陈力为院士主持的“八五”重大科研项目,该工程的语义小组把名词短语分为事、物、时间、空间,描写的最终结果是语义分类树。[64]973工程是北京大学主持的完成的现代汉语语义分类系统及语义关系描述基本框架,973工程用“分类+属性描述”的方式来标记一个词的语义属性。[131]它所提供的语义属性给我们很大的启发,比如虽然在语义类上都属“人群”语义类,但“人群”“人流”等词可以跟“拥挤”组配(拥挤的人群),而“团伙”“帮派”等则不能(*拥挤的团伙),因此还需要进一步区分,由此引入了一个新语义属性“场面”来区分这两种不同的体词性成分,将这些看似相似的同范畴名词区别开来。 这种运用对比得出语义属性的方法给人以很大的启发。

董振东的知网采取了概念加属性值的描写方法,对于一个词首先确定其所属的概念,然后用一系列的属性及赋值加以描写,以概念为统、以属性赋值为别,以逐步构建人类知识的完整体系,目前知网2005版已经对44828个名词做了知识(语义属性)表述,[132]达到了较大的规模。

自然语言处理领域为了建构知识库而进行的语义属性描写正如火如荼地展开,取得了一定的成果,但是面临的挑战也不容忽视。 首先是量的方面,相对于人类在长期的生活、生产、社会实践活动中逐步积累、不断扩展和深化的知识总体,现在所做的工作尚属九牛一毛。 信息处理用的汉语语言知识库,是一个包括语言内的词汇语法知识,及语言外的常识、公理等自然世界知识的全集。 由于这个全集十分复杂庞大,且充满了各种各样的广泛的语义关系,一下子就建立一个完善的语义网络是不可能的,必须“先建立一个属于这个全集的一个子集,然后逐步扩充、完善、逼近全集”。[133]

其次是质的方面,任何的语义分类体系都有漏洞,都不能涵盖全部的客观事实。 如对体词的某些属性赋值不彻底,[±人工]属性值可以赋予除了时间之外的一切具体万物,各家一般只对“非生物”予以[±人工]的属性赋值,实际上“生物”也可以加以[±人工]的属性赋值描写,具有[人工]痕迹的生物是家养的,不具有[人工]属性的生物是野生的。 语言知识是人类对客观世界认识的总体,从不同的角度观察就可能有不同的认识结果,则应该有不同的属性赋值,比如“学校”,是一个机构,它的上位概念是组织,但同时它表达了一个处所,占有一定的空间,它的上位概念还可以是空间。 再比如“建筑”一类,是一种物体,从其占据一定的场所能够容纳其他物体来看,则又属空间一类。 再如生物一类,当用来作为烹饪的原料的时候,又应该属于材料一类,语义知识的描写怎样智能适应人类认知视角的转换,也是一个亟待解决的问题。

总之,汉语语义知识库的建设,要应对以上挑战,以达到提高自然语言处理质量的目的,还有很长的一段路要走。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈