首页 理论教育 国内计算语言学研究

国内计算语言学研究

时间:2022-04-01 理论教育 版权反馈
【摘要】:第二节 国内计算语言学研究与国外计算语言学发展情况相似,我国计算语言学的研究也是首先从机器翻译的研究开始的。1978年底召开“全国汉字编码会议”,成立“汉字编码研究会”。由于我国“863”计划顺利实施,计算语言学基础理论研究及相关领域的应用开发技术在我国得到了快速的发展。

第二节 国内计算语言学研究

与国外计算语言学发展情况相似,我国计算语言学的研究也是首先从机器翻译的研究开始的。起步虽不晚于其他国家,但我国计算语言学的相关研究是在20世纪80年代中后期才展开,其标志是成立“中国中文信息学会”和隶属于该学会的“自然语言处理专业委员会”和“计算语言学专业委员会”。

一 国内计算语言学研究综述

1956年至1966年是我国计算语言学的草创期。这个时期内,我国学者对机器翻译作了初步的探索。1956年,机器翻译研究成为科学工作发展规划中的一个课题,课题名是“机器翻译、自然语言翻译规划的建立和自然语言的数学理论”。1957年3月科学出版社翻译并出版《自动翻译》。同年5月,《语言研究通讯》发表了刘涌泉的《谈谈机器翻译问题》及几篇译文。1958年刘涌泉在“苏联第一次机器翻译会议”上做了《俄汉机器翻译的词序问题及解决途径》报告。除了俄汉机器翻译外,语言所和外国语学院还开展了英汉机器翻译研究。1960年,一套英汉机器翻译系统编制成功,至此,我国的机器翻译研究出现了蓬勃发展的局面。

但这种局面很快被文革破坏了。1966年至1975年是我国计算语言学发展的停滞期。这个时期内,我国基本没有任何机器翻译的试验。1974年,重庆一家计算机杂志上发表了冯志伟综述数理语言学新理论的文章,这是这一时期唯一的关于自然语言处理的论文,这篇论文初步介绍了国外计算语言学的新理论,但在文革时期,几乎没人关注它。

文革后期,1975年至1987年是我国机器翻译研究的复苏期。1975年,机器翻译协作研究组成立,制定英汉翻译方案。1978年英汉题录翻译系统和英汉全文翻译系统试验成功。1978年底召开“全国汉字编码会议”,成立“汉字编码研究会”。

20世纪80年代是汉字信息处理大发展时期,拼音输入和字型分解输入得到了广泛应用以及后来GBK码的开发、计算机汉字激光照排印刷系统的应用及推广,计算语言学初级阶段的自动编排工作积极开展起来。80年代后期,词和词库问题被提上议事日程。1986年《中文信息学报》发表刘涌泉的论文《谈谈词库的问题》。由于我国“863”计划顺利实施,计算语言学基础理论研究及相关领域的应用开发技术在我国得到了快速的发展。1987年至今是我国计算语言学发展的繁荣期。1987年,“科译1号”问世,是我国第一个商品化机译系统,1988年,“科译1号”更名为“译星1号”,而后又重新设计,发展为“译星-92”机器翻译系统。从此之后,出现了一系列实用化、商品化机译系统,例如,北京高立电脑公司与中国社会科学院语言研究所共同开发“高立英汉机器翻译系统”,把语义分析和句法分析结合起来,实质就是一个“词专家系统”。1986年中国科学院计算技术研究所开发一个智能型英汉机器翻译系统863-IMT∕EC。中国科学院计算技术研究所与香港权智集团合作,建立科智语言信息处理有限公司,用以开发机器翻译系统。1994年,国防科技大学研制成的英汉机器翻译系统也开始商品化,这个系统的翻译速度在当时是世界上最快的。

20世纪90年代是我国计算语言学全面发展的黄金期,大规模非受限文本的处理条件越来越好,语料库语言学产生,数据库、术语库、各类电子词典和翻译软件不断出现,但翻译质量总体上不高,而且基本都是外汉翻译软件,很少有汉外翻译软件,主要原因是汉语计算机自动分析和理解问题没有得到很好地解决。

21世纪以来,汉语自动分词研究取得一定成果,信息处理用现代汉语分词词表在8亿多字的生语料库基础上得出92843个词的大词表。这为语词的自动切分提供了更有利条件,同时也提高语词切分准确率,开始对人名地名展开研究。

2000年左右出现了大工程,即“书同文数码文库”和“书同文数码大师”的开发。2001年成功开发了GB18030汉字编码字符集的中文Linux操作系统,此系统能处理我国少数民族语言的编码信息。此外,还出现许多商品化汉字自动识别系统,而且汉语语音信息处理也得到长足进步。

二 国内计算语言学研究主要成果

学界在学习和借鉴国外的理论和方法的基础上,结合汉语特点来研究汉语的计算机处理的理论问题,取得了很大成就。

(一)概述性成果

很多论文或译介文章大多刊登在《中文信息处理》、《软件学报》、《计算机学报》、《语言文字应用》、《当代语言学》以及一些大学学报等刊物上。例如陆续如、冯志伟的《国外机器翻译的新进展》(1980),范继淹、徐志敏的《自然语言理解的理论和方法》(1980),范继淹、徐志敏的《RJD-80型汉语人机对话系统的语法分析》(1982),冯志伟的《国外自然语言理解系统简介》(1984),俞士汶的《自然语义分析技术》(1988)等。

20世纪90年代初有三本具有引论性质的计算语言学著作,分别是钱峰的《计算语言学引论》(1990)、陆致极的《计算语言学导论》(1990)、刘开瑛、郭炳炎的《自然语言处理》(1991)。三本著作反映了国内外一个时期内研究的概貌。此外还有王永成等的《中文信息处理技术基础》(1991),张普的《汉语信息处理研究》(1992),吴蔚天、罗建林的《汉语计算语言学》(1994),姚天顺、朱靖波的《自然语言理解》(1995),白硕的《语言学知识的计算机辅助发现》(1995),冯志伟的《自然语言的计算机处理》(1996),姚亚平的《中国计算语言学》(1997),翁富良、王野翊的《计算语言学导论》(1998),袁毓林的《语言的认知研究和计算分析》(1998),傅永和的《中文信息处理》(1999),侯敏的《计算语言学与汉语自动分析》(1999)等。这些著作涉及了国内学者所做的系统研究和理论探索,同时吸收了国外研究的最新成果,也是了解本学科理论方法的重要资料。

21世纪,重要著作有,鲁川的《汉语语法的意合网络》(2000),陈小荷的《现代汉语自动分析——Visual C++实现》(2000),冯志伟的《计算语言学基础》(2001),刘颖的《计算语言学》(2002),姚天顺、朱靖波的《自然语言理解》(2002),俞士汶的《计算语言学概论》(2003),王晓龙、关毅的《计算机自然语言处理》(2005),俞士汶的《计算语言学前瞻》(2005),江铭虎的《自然语言处理》(2006),苗夺谦、卫志华的《中文文本信息处理的原理与应用》(2007),宗成庆的《统计自然语言处理》(2008),袁毓林的《基于认知的汉语计算语言学研究》(2008)等。

还有一些译著,例如,阿霍(Aho)著、石青云译的《形式语言及其句法分析》(1987),米兰(Milano)著、李锡胤译的《翻译算法》(2003),艾伦(Allen)著、刘群等译的《自然语言理解》(2005),曼宁(Manning)等著、苑春法等译的《统计自然语言处理基础》(2005),巴伊赞·耶茨(Baeza Yates)等著、王知津等译的《现代信息检索》(2005)等,这些都有利于国内学者了解该学科的国外学术研究动态。

对理论方法和学科建设问题的理性思考是重要的,这方面研究包括:宁春岩的《自然语言理解中的几个根本问题》(1985),马希文的《以计算语言学为背景看语法问题》(1989),许嘉璐的《现状和设想—试论中文信息处理与现代汉语研究》(2000),张钹的《自然语言处理的计算模型(2007)等。

还有一些论文是关于如何结合汉语的实际情况来思考计算语言学的理论问题,例如,黄典诚的《关于中文信息处理的探讨》(1982),刘涌泉的《语言应用和现代化——中文信息处理研究》(1983),袁琦的《中文信息技术和自然语言处理》(1986),苏东庄、袁琦的《中文信息处理在中国的发展》(1990),袁毓林的《自然语言理解的语言学假设》(1993),曹右琦的《中文信息处理研究的现状和前瞻》(1995),刘海涛的《计算语言学应用中的模块化概念》(1995),孙茂松、张磊的《人机并存,“质”“量”合一》(1997),鲁川的《语义的先决性·句法的强制性·语用的选定性》(2000),黄昌宁、张小凤的《自然语言处理技术的三个里程碑》(2002),胡壮麟的《计算符号学》(2002),刘云、俞士汶的《“句管控”与中文信息处理》(2004),钟义信的《自然语言理解的全信息方法论》(2004),冯志伟的《计算语言学的历史回顾与现状分析》(2011)等。

有的学者主张计算机处理汉语应该以对语言的模糊消解能力为第一标准,代表理论就是概念层次网络(HNC理论)。黄曾阳针对汉语提出来的关于自然语言理解的一个理论体系就是HNC理论,此理论的目标是建立自然语言的知识表述和处理模式,使计算机能够模拟人脑的语言感知功能。HNC理论突破了传统的句法分析或语义分析的局限性,开拓了一条从语义分析入手的语句分析之路。该理论代表性成果是黄曾阳的《HNC理论概要》(1997)以及《HNC(概念层次网络)理论》(1998)。对HNC理论的具体应用的著作有:晋耀红的《HNC(概念层次网络)语言理解技术及其应用》(2006),张克亮的《面向机器翻译的汉英句类及句式转换》(2007)等。

陆汝占等人主张基于内涵模型的语义分析,认为在一个逻辑句义框架下分析词汇及其分类,只要句义明确即可,不需太精细。他将汉语表达式抽象成数学表达式,把汉语表达式与计算机数据结构之间直线联结,改变为汉语表达式——抽象数学表示——数据结构三者的间接联结,称之为基于形式方法——模型论的汉语语义计算理论。代表性论文有陆汝占、靳光瑾的《蒙太古语义学》(1995)、《领属关系与逻辑语义解释》(1996)、《从汉语句子中提取逻辑函子的一种方法》(1998)、《现代汉语研究的新视角》(2004)等。

还有一些重要的论文集:陈力为的《计算语言学研究与应用》(1993)、《中文信息处理应用平台》(1995),陈力为、袁琦的《计算语言学进展与应用》(1995),俞士汶、朱学锋的《计算语言学文集》(1996),罗振声、袁毓林的《计算机时代的汉语和汉字研究》(1996),黄昌宁、夏滢的《语言信息处理专论》(1996),陈原的《汉语言文字信息处理》(1997),陈力为、袁琦的《语言工程》(1997),黄昌宁的《1998中文信息处理国际会议论文集》(1998),孙茂松的《汉语自动分析研究的若干最新进展》(2001),张全、萧国政的《HNC与语言学研究》(2001),孙茂松、陈群秀的《语言计算与基于内容的文本处理》(2003),徐波、孙茂松的《中文信息处理若干重要问题》(2003),曹右琦、孙茂松的《中文信息处理前沿进展——中国中文信息学会二十五周年学术会议》(2006),萧国政、姬东鸿等的《中文计算技术与语言问题研究—第七届中文信息处理国际会议论文集》(2007),李红等的《语言·认知·信息处理》(2007)等。这些论文集,覆盖了该学科的各个领域,反映了这一时期的整体研究水平。此外,中国社会科学出版社的《语言和计算机》(1982、1985、1986)的第1、2、3期,是我国当时唯一的机器翻译学术刊物。

(二)应用性成果

1.自然语言处理研究成果

自然语言处理研究领域中出现了一些代表性著作:例如刘开瑛、郭炳炎的《自然语言处理》(1991),吴立德的《大规模中文文本处理》(1997),傅承德的《自然语言理解的方法与策略》(2000),靳光瑾的《现代汉语动词语义计算理论》(2001),马丁著,冯志伟、孙乐译的《自然语言处理综论》(2005),王晓龙、关毅的《计算机自然语言处理》(2005),朱拉斯凯(Jurafsky)、宗成庆的《统计自然语言处理》(2008),冯志伟的《自然语言处理的形式模型》(2009)等。

傅承德的《自然语言理解的方法与策略》对自然语言理解的各种方法和策略做了一个总结。全书共七章,从第一章到第三章是介绍一个简单的系统,引进自然语言理解的方法原则等。第四章到第六章探讨自然语言理解的方法,第七章侧重探讨自然语言理解的策略问题,在所有的这些章节中,中心是有关汉语自动理解方面。内容系统,具有学术性和实用性价值。

靳光瑾的《现代汉语动词语义计算理论》在语义分析方法上是一个突破,在前人研究基础上,结合汉语的特点(尤其是大量缺省的特点),提出了一种新的理论思想和策略,即“函子理论”和关于区分词语的内涵义和外延义的思想有效的解释了领属关系的逻辑语义,体现了汉语中反复出现的抽象提升和具体操作等一系列语义解释特点。

宗成庆的《统计自然语言处理》比较详细地介绍了近几年国内学者在汉语语料库和词汇知识库建和、自动分析与词性标注、句法分析以及口语信息处理等方面研究的最新成果,这在国外学者的著作中是难以看到的。本书涵盖了自然语言处理的相关理论和应用技术,有形式语言与自动机、语言模型和隐马尔可夫模型等基础理论介绍,也有汉语自动分词、句法分析和词义消除歧义等方法描述。

概论性研究论文主要有:冯志伟的《自然语言的计算机处理》(1997),朱拉斯凯、马丁的《自然处理综论》(2005),刘小冬的《自然语言理解综述》(2007)等。

有关对自然语言处理中歧义的研究成果主要包括:冯志伟的《论歧义结构的潜在性》(1995),林耀群的《自然语言的计算机处理过程中的歧义问题》(2000),全昌勤、何婷婷、姬东鸿等的《从搭配知识获取最优种子的词义消歧方法中》(2005),孟维娟的《自然语言处理中的歧义》(2006),介绍了在自然语言处理中的歧义问题及使用统计信息来消除歧义的处理方法,张禄彭的《面向自然语言处理的歧义概念》(2007)等。

关于自然语言处理的方法探讨的论文主要有:杨宪泽、谈文蓉、刘玉萍等的《自然语言处理的一些方法研究》(2005),冯志伟的《自然语言处理中理性主义和经验主义的利弊得失》(2007)等。

关于自然语言处理的应用性探讨的论文主要有:黄敏的《自然语言处理与信息检索》(2001),邱君瑞的《自然语言处理与信息检索系统》(2002),刘群、张浩、白硕的《自然语言处理开放资源平台》(2002),侯志霞、曹军的《自然语言处理的发展概况及前景展望》(2003),刘伟权、钟义信的《自然语言处理与全文情报检索》(1997),王谓生的《信息检索系统中的自然语言处理》(2000),熊回香、夏立新的《自然语言处理技术在中文全文检索中的应用》(2007),柏晓静、俞士汉、朱学锋的《自然语言处理中的技术评测及关于英语专业考试的思考》(2010),才让加的《面向自然语言处理的大规模汉藏(藏汉)双语语料库构建技术研究》(2011)等。

探讨自然语言处理的前景展望的文章主要有:侯志霞、曹军的《自然语言处理的发展概况及前景展望》(2003),王挺、麦范金、刘忠的《自然语言处理及其应用前景的研究》(2006)。还有一些相关的论文:王献昌等的《机器翻译与自然语言处理的现状与趋势》(1992),蔡义发的《自然语言理解的研究与发展》(1992),黄昌宁、张小风的《自然语言处理技术的三个以程碑》(2002),杨宪泽的《自然语言处理的句法分析和规则索引》(2002),杨宪泽的《自动翻译的词处理及其算法》(2003),冯志伟的《从知识本体看自然语言处理的人文性》(2005),冯志伟的《当前自然语言处理发展的四个特点》(2006),殷杰、董佳蓉的《论自然语言处理的发展趋势》(2008),冯志伟的《自然语言处理中的一些宏观问题之我见》(2009),冯志伟的《计算语言学的历史回顾与现状分析》(2011)等。

2.语料库研究成果

语言学领域中语料库的研究,基本从语言本体和应用价值角度出发,促进语言学及其他多种学科领域的发展,并得到广泛的应用。

(1)口语研究

口语与书面语相比,更有研究的优先性,因为口语在收集方面存在诸多困难,然而针对自然而非人工环境下所建的的口语语料库可真实反映现实生活中所使用语言的特点,且大型语料库还可以包括多种变量选择。在口语研究方面,何莲珍等(2004)利用大学英语四、六级考试口语考试(CET-SET)语料库研究了非英语专业大学生在大学英语口语考试中使用交际策略的情况。

(2)词汇研究

1)词典编纂

国内对这方面的探讨主要包括:北京语言学院出版社出版的《现代汉语频率词典》(1986),中国宇航出版社出版的《现代汉语常用词词频词典(音序部分)》(1990),张丽平、顾飞荣的《国内语料库语言学研究评述》(2003)。此外还有1980年12月出版的《信息处理交换用的汉字字符集及其编码》,它于1981年被正式公布定名为《信息交换用的汉字编码字符集基本集》,这些都促进了汉字信息处理系统的建立,奠定了计算语言学在中国发展的基础;初步编纂了包括语音、字形、频率等24种属性的语文出版社的《汉字属性字典》(1989)等,这些都为我国计算语言学的发展奠定了基础。

2)词频统计

大多数语料库软件都具有词频统计功能,常用的Wordsmith软件还允许用户在计算词形频率时,选择确定词的定义。词频统计还有助于句法、语言教学和文体等领域的研究,代表性论文主要有:方称宇、陈小力的《频率统计在语料库中的应用》(1992),陈建生的《语料库语言学在词的用法研究中的应用》(2001),谢元花的《语料库与词汇研究》(2002),许家金的《语料库语言学的理论解析》(2003)。

(3)语法研究

荷兰奈梅亨(Nijmegen)大学以阿尔茨(Aarts)为首的一批研究者,设计出一套形式语法,将该语法装入计算机分析器在语料库中运行,以检验该语法对语料库数据的解释度,然后根据所得语料分析结果修订语法。这种方法可以探查出唯理语法在多大程度上解释语料库数据以及完全结合这些数据需做多少修订。主要论文有关文玉的《谈语料库在语法教学中的运用》(2005)等。

(4)语义研究

语料库与语义研究主要有两点:“一是曼德特(Mindt)(1991)指出在语义学中,词项和语言结构的意义往往是根据语言学家自己的直觉描写的,事实上语义区别是与句法、词法和韵律等上下文的语篇相关的,通过语料库来调查这些成分,可以找到特定语义区别的客观指示。二是语料库有助于建立语义的模糊范畴的梯度概念。”[9]

(5)文体学研究

“文体学研究主要是指不同文体的体裁研究及语言使用的特征表现。比贝尔(Biber)等(1994)通过检索LOB等语料库进行研究,发现语域与文体直接影响词汇的选用与含义。”[10]关于文体学方面的研究成果主要有李斌、支秉武的《语料库与语言研究》(2009),它为文体学研究提供了量化的实际语料,避免了主观因素的猜测。

(6)语言教学研究

从这个角度探讨的论文主要有:谢应光的《语料库语言学与外语教学》(1996),曾用强的《语料库在外语教学与研究中的应用》(2002),许葵花、张卫平的《论语料库语言学在外语教学中的应用》(2003),翟红华的《语料语言学及其应用》(2004),陈建生的《语料库语言学与英语教学》(2004),吴颖、阙紫江、熊斯琼的《语料库在英语语言研究方面的应用综述》,申厚坤的《语料库语言学及其应用》(2005),张韵的《语料库与外语教学》(2009),闫婷婷《语料库及其在教学中的应用》(2009)等。

语料库研究代表性著作有:亢世勇的《汉语数据库建设及其应用》(2000),黄昌宁、李涓子的《语料库语言学》(2002),卫乃兴、李文中、濮建忠的《语料库应用研究》(2005),王建新的《计算机语料库的建设与应用》(2005),杨惠中的《语料库语言学导论》(2007),余国良的《语料库语言学的研究与应用》(2009)等。

概论性论文主要有:周强、张伟等的《汉语树库的构建》(1997),陈建生的《关于语料库语言学》(1997),王建新的《语料库语言学发展史上的几个重要阶段》(1998),丁信善的《语料库语言学的发展及研究现状》(1998),丁信善的《语料库语言学的发展及研究现状》(1999),王建新的《我国在语料库语言学研究方面的部分进展概述》(1999),崔淑珍的《语料库在英语语言研究领域中的运用》(2000),段慧明的《大规模汉语标注语料库的制作与使用》(2000),潘永梁的《语料库语言学的目的和方法》(2001),崔淑珍的《语料库语言学的发展》(2001),文渤燕的《语料库及其作用》(2001),冯志伟的《中国语料库研究的历史与现状》(2002),王陆的《建立小型语料库之我见》(2003),靳光瑾、郭曙纶等的《语料库加工中的规范问题》(2003),周强的《汉语句法树库标注体系》(2004),何婷婷、沈辉宇的《语料库文本描述的语言规范》(2005),邢福义、姚双云的《汉语复句语料库的建设与利用》(2006),姚兰芝的《语料库语言学与语言研究》(2006),陈潇的《语料库、语料库语言学及其应用》(2006),卫乃兴、李文中等的《COLSEC语料库的设计原则与标注方法》(2007),张丽平、顾飞荣的《国内语料库语言学研究述评》(2007),俞士汶的《建设综合型语言知识库的理念与成果价值》(2007),王春艳的《语料库语言学的特点》(2009),何常丽的《语料库语言学研究综述》(2009),王大鹏的《国内语料库发展现存问题与分析》(2010)等。

3.文字的计算机输入研究成果

关于汉字的计算机输入的研究著作主要有:张普的《汉语信息处理研究》(1992),傅永和的《中文信息处理》(1999),盛玉麟的《语言文字信息处理》(2006)等。

还有一些重要论文,例如:许家梁的《对汉字编码研究中几个问题的认识》(1982),刘涌泉的《汉字进入计算机之后的问题》(1984),廖万清的《第六讲微型计算机的汉字处理》(1986),王永民的《关于汉字输入计算机的一点思考》(1989),张炘中的《计算机汉字识别技术》(1992),张普的《汉字键盘输入方法》(1992),兰星的《汉字识别简介》(1994),徐火辉的《汉字编码与电脑键盘中文输入》(1994),章森的《汉字输入系统的设计方法》(1994),刘迎建的《汉字识别技术的发展及应用前景》(1994),张文国的《汉字输入计算机的未来之路》(1996),汪跃的《汉字输入法的教学辅导》(1996),方世增的《论汉字键盘输入法的归宿》(1997),曹天福的《汉字反切编码输入法》(1997),朱侯平的《汉字编码—通向拼音文字的桥梁》(1997),王振武的《汉字输入不再是瓶颈》(1999),一清的《从文字输入到人机智能交互》(2000),汤志贵的《对高校计算机文字输入教学的几点思考》(2007),付丽伟的《谈谈汉字的键盘输入》(2010)等。

4.信息检索研究成果

信息检索的著作主要有俞士汶的《计算语言学概论》(2003),刘挺、秦兵、张宇的《信息检索系统导论》(2008)等。

从技术应用价值的角度研究的成果有:何新贵、彭甫阳的《中文文本的关键词自动抽取和模糊分类》(1999),潘谦红等《基于属性论的文本相似度计算》(1999),战学刚、林鸿飞的《中文文献的层次分类方法》(1999),吴立德、罗航哉等的《基于多重倒排文件的快速相似性检索》(2000),曾春、邢春晓、周立柱的《个性化服务综述》(2002),卢文林的《信息检索技术发展概况》(2003),张玉锋等的《论知识检索与信息检索》(2003),张玉峰、李敏、晏创业的《论知识检索与信息检索》(2003),武琳的《网络环境下信息检索语言研究》(2003),黄萱菁、夏迎炬等的《基于向量空间模型的文本过滤系统》(2003),张永奎等的《基于机器学习的网页主题词自动抽取》(2003),熊文新的《信息检索Query语言分析》(2003),陈康、武港山的《基于Ontology的信息检索技术研究》(2005),陆勇的《面向信息检索的汉语同义词自动识别》(2005),蒋凯、武港山的《基于Web的信息检索技术综述》(2005),韩用的《中文信息检索索引单元的研究》(2006),张东伟的《中英文跨语言信息检索模型研究》(2006),熊文新、宋柔的《信息检索自然语言查询问句处理框架》(2006),于志敏、张文德的《基于自然语言处理的信息检索》(2006),秦兵等的《多文档文摘中句子优化选择方法研究》(2006),何婷婷的《基于混合并行遗传算法的文本聚类研究》(2007),程冲的《信息检索用汉语分词与未登录词识别技术研究》(2007),党可的《基于统计语言模型和Passage特征的信息检索模型研究》(2007),张彬的《面向中文网络信息检索的自动分词系统设计与算法实现》(2007),吴东坡的《基于Ontology的Web信息检索》(2008),刘博的《潜在语义索引在中文信息检索中的应用》(2009),孙琦的《基于时间域的信息检索系统的设计与实现》(2008),吴兵华的《基于深度网络的信息检索模型研究》(2008),王斌的《从信息检索到搜索引擎》(2009)等。

5.语言本体自动化分析研究成果

(1)词的分析与处理

词的分析与处理是自然语言处理基础性工作之一,主要研究词语自动切分、词性自动标注、未登录词识别、人名地名的识别等,各种新兴词典的建设也是与此相关的研究内容。

20世纪80年代初期,北京航空学院、中国人民大学等十几所院校、研究机构参加现代汉语词频统计,这是国内首次使用计算机进行大规模语料词频统计研究的大型语言工程。80年代末,第一个汉语自动分词系统——CDW研制成功。此后,许多高校和科研单位研究分词,开发系列分词软件。我国在各类电子词典开发中的突出成果有:北京大学计算语言研究所研制的《现代汉语语法信息词典》,清华大学和中国人民大学合作研制的《现代汉语述语动词机器词典》等。哈尔滨工业大学在梅家驹等的《同义词林》(1983)的基础上建成了《同义词林(扩展版)》,并实现了电子资源共享,这也是自然语言处理中的重要资源。

在这方面代表性的著作有:北京语言学院语言教学研究所的《汉语词汇的统计与分析》(1985),刘源等的《现代汉语常用词词频词典》(1990)、《信息处理用现代汉语分词规范及自动分词方法》(1994),林杏光等的《现代汉语动词大词典》(1994),姚天顺等的《自然语言理解:一种让机器懂得人类语言的研究》(1995),冯志伟的《自然语言机器翻译新论》(1995),朱巧明的《汉字信息处理基础》(1997),张普的《汉字编码键盘输入文集》(1997),俞士汶等的《现代汉语语法信息词典详解》(1998),林杏光的《词汇语义和计算语言学》(1999),刘开瑛的《中文文本自动分词和标注》(2000),赵铁军等的《机器翻译原理》(2000),陈群秀、李坚、王健的《信息处理用现代汉语语义分类词典的设计与实现》(2001),章宜华的《计算机辅助翻译漫谈》(2002),宋春阳的《面向信息处理的现代汉语“名+名”逻辑语义研究》,许嘉璐、傅永和的《中文信息处理现代汉语词汇研究》(2006)等。

这方面研究的的论文主要体现在五个方面:

第一,从宏观上探讨分词方法问题。例如刘涌泉的《谈谈词库问题》(1986),揭春雨、刘源的《论汉语自动分词方法》(1989),韩世欣、王开铸的《基于短语结构文法的分词研究》(1992),徐秉铮、詹剑等的《基于神经网络的分词方法》(1993),黄昌宁的《中文信息处理中的分词问题》(1997),进明的《有关汉语分词的几点意见》(1997),温锁林的《从词性标注看小句的中枢地位》(2004),赵伟、戴新宇等的《一种规则与统计相结合的汉语分词方法》(2004)等。

第二,介绍分词系统的实现问题。例如梁南元的《书面汉语自动分词系统—CDWS》(1987),姚天顺等的《基于规则的汉语自动分词系统》(1990),揭春雨的《汉语自动分词实用系统CASS的设计和实现》(1991),刘挺、吴岩等的《串频统计和词形匹配相结合的汉语自动分词系统》(1998),陈玉忠、李保利等的《藏文自动分词系统的设计与实现》(2003)等。

第三,讨论分词标准方面的问题。例如刘源的《字词频统计与汉语分词规范》(1992),宋柔的《关于分词规范的探讨》(1997),杨成凯的《关于汉语分词问题之我见》(1997),袁毓林的《关于分词规范和规范词表的若干意见》(1997),孙宏林的《浅谈汉语分词的标准》(1997),朱学锋、俞士汶等的《现代汉语五万词语归类的实践》(1997)等。

第四,关于未登录词、人名、地名的识别问题。例如郑家恒、刘开瑛的《汉语姓名自动识别初探》(1994),孙茂松、黄昌宁等的《中文姓名的自动识别》(1995),张小衡、王玲玲的《中文机构名称的识别与分析》(1997),郑家恒、李鑫等的《基于语料库的中文姓名识别方法研究》(2000),黄德根、岳广玲等的《基于统计的中文地名识别》(2003),邢福义的《新词语的监测与搜获——一个汉语本体研究者的思考》(2007)等。

第五,探讨分词中歧义字段的切分问题。例如李国臣、刘开瑛的《汉语自动分词及歧义组合结构的处理》(1988),刘挺、王开铸的《关于歧义字段切分的思考与实验》(1988),侯敏、孙建军的《汉语自动分词中的歧义问题》(1996),孙茂松、黄昌宁等的《利用汉字二元语法关系解决汉语自动分词中的交集型歧义》(1997),温锁林的《中文文本歧义字段切分技术》(2001),陈小荷的《用基于词的二元模型消解交集型分词歧义》(2004),李斌、陈小荷等的《基于语料库的高频最大交集型歧义字段考察》(2006)等。

(2)句法分析

汉语中有很多兼类词,词性多样性和词义的复杂使得自然语言中的句子结构多样,句法层面面临着歧义问题,这是自然语言处理的难题之一。解决问题的途径之一就是尽快建立形式化的汉语句法规则体系。

20世纪90年代以来,人们对汉语句法自动分析和标注方面进行多角度、多层面的研究,主要成果有:清华大学的依存语法标注研究,周明和黄昌宁提出了一个汉语句法依存体系,划分了44种依存关系,探索了规则和统计相结合的方法在依存关系自动标注中的应用;清华大学罗振生、郑碧霞等人通过对大规模汉语语料库句型分布频度统计进行的汉语句型自动分析和分布统计研究。周强的句法自动分析器,结合汉语短语分析的特点,利用吸收英语语料库加工的处理技术和实践经验,来研究汉语语料库短语自动切分和标注,覆盖了绝大多数语法单位。

在这方面研究发表的论文主要有:刘倬的《中文信息处理中的切词和句法分析》(1985),翟成祥、王岩冰等的《汉语组合类型语法》(1991),冯志伟的《中文信息处理与汉语研究》(1992),沙新时、吴立德等的《基于合一语法的通用句法分析器》(1993),罗振声、郑碧霞的《汉语句型自动分析和分布统计算法与策略的研究》(1994),周明、黄昌宁等的《统计与规则并举的汉语句法分析模型》(1994),刘伟权、王明会等的《建立现代汉语依存关系的层次体系》(1996),单玉秋的《并行确定策略及汉语句子分析》(1996),穗志方、俞士汶的《汉语单句谓语中心词识别知识的获取及应用》(1998),周强、黄昌宁的《汉语句法规则的自动构造方法研究》(1998)、《基于局部优先的汉语句法分析方法》(1999),詹卫东的《面向中文信息处理的现代汉语短语结构规则研究》(2000),亢世勇的《面向信息处理的现代汉语语法研究》(2004),孙宏林、俞士汶的《浅层句法分析概述》(2000),冯志伟的《基于短语结构语法的自动句法分析方法》(2000),杨开城的《一种基于句法语义特征的汉语句法分析器》(2000),苑春法、陈刚等的《基于词性和语义知识的汉语句法规则学习》(2001),孟遥、李生等的《四种基本统计句法分析模型在汉语句法分析中的性能比较》(2003),陆俭明、王黎的《句处理中排歧问题补议》(2003),王厚峰、王波的《基于句子对齐的汉语句法结构推导的计算模型》(2003),才藏太、华关加·班智达的《汉藏公文翻译系统中基于二分法的句法分析方法研究》(2005),曾小兵、邱丽娜等的《语言监测中词语构造能力的分析及其应用》等。

我国计算语言学领域内,句子的研究比字、词的研究起步要晚,研究也相对薄弱。随着句法研究的深入,复句研究受到学界重视,尤其是面向信息处理的复句应用研究。复句应用研究开始的重要标志就是华中师范大学“211工程”重点学科建设项目“小句中枢说在汉语与临界领域研究中的应用与验证”下面的子项目“小句中枢理论的应用与复句信息工程”的实施。在这方面出版的著作主要有:张仕仁的《汉语复句的结构分析》(1999),鲁松、宋柔的《汉英机器翻译中描述型复句的关系识别和处理》(2001),鲁松、白硕等的《汉语多重关系复句的关系层次分析》(2001),李晋霞、刘云的《面向计算机的二重复句层次划分研究》(2003),胡金柱、王琳等的《汉语复句本体模型初探》(2005),胡金柱、罗旋等的《本体论在复句领域概念建模中的应用》(2006),吴晨、张全的《自然语言处理中句群划分及其判定规则研究》(2007),姚双云的《复句关系标记的搭配研究》(2008),周文翠、袁春风等的《并列复句的自动识别初探》(2008)等。

(3)语义问题研究

语义问题是计算语言学研究重点,在这方面的重要著作有:吴蔚天的《汉语计算语义学——关系、关系义场和形式分析》(1999),林杏光的《词汇语义和计算语言学》(1999),靳光瑾的《现代汉语动词语义计算理论》(2001),吴平的《句式语义的形式分析与计算》(2007),侯敏的《计算语言学与汉语自动分析》(1999)等。

发表的论文主要有:马希文的《语义学中的关系方法》(1982),张普的《信息处理用现代汉语语义分析的理论与方法》(1991),张潮生的《语义表达的一些性质》(1991),鲁川的《汉语的意合网络》(1998),易绵竹的《从计算语言学角度看语义角色问题》(1998),董振东的《语义关系的表达和知识系统的建造》(1998),陈小荷的《一个面向工程的语义分析体系》(1998),沈阳的《信息处理中汉语动名语义关系分析的不同层次》(1999),詹卫东的《基于配价的汉语语义词典》(2000),陈群秀的《现代汉语述语动词机器词典的扩充和槽关系研究》(2001),鲁川、缑瑞隆等的《现代汉语基本句模》(2000),陆俭明的《关于句处理中所要考虑的语义问题》(2001),董振东、董强的《知网和汉语研究》(2001),詹卫东的《确立语义范畴的原则及语义范畴的相对性》(2001),杨尔弘、张国清的《基于义原同现频率的汉语词义排歧方法》(2001),朱靖波、李珩等的《基于对数模型的词义自动消歧》(2001),吴平的《含有量化名词组的及物性结构的语义分析及其在自然语言处理中的实现问题》(2004),刘挺、车万翔等的《基于最大熵分离器的语义角色标注》(2007),萧国政、胡惮的《信息处理的汉语语义资源建设现状分析与前景展望》(2007),袁毓林的《语义角色的精细等级及其在信息处理中的应用》(2007)等。

还有一些相关论文:俞士汶的《自然语言语义分析技术》(1998),冯志伟的《汉语计算语义学研究的新成果—评汉语计算语义学关系、关系义场和形式分析》(1999),汤庆国的《语义信息处理的认知基础研究——计算语言学探索(之二)》(1999),刘海涛的《关于自然语言计算机处理的几点思考》(2001),孙茂松的《语言计算:信息科学技术中长期发展的战略制高点》(2005),梅立军、周强、臧路和陈祖舜的《知网与同义词词林的信息融合研究》(2005),由丽萍、范开泰、刘开瑛的《汉语语义分析模型研究述评》(2005),刘扬、俞士汶、于江生的《CCD语义知识库的构造研究》(2005),吴云芳、段慧明、俞士汶的《动词对宾语的语义选择限制》(2005),贾成、陈松乔、王斌的《基于构件语义网络的分布式构件库原型系统》(2005),刘蓓、杜利民的《汉语口语对话系统中语义分析的消歧策略》(2005),施海虎、邢宣宇、李冬梅的《面向主题会话的扩展语义框架》(2005),刘云峰、齐欢的《潜在语义分析权重计算的改进》(2005),刘云峰、齐欢、代建民的《潜在语义分析在中文信息处理中的应用》(2005),舒鑫柱的《现代汉语词汇语义网模型设计》(2005)等。

(4)语音的分析与处理

语音的分析与处理主要包括语音识别和语音合成,是人机对话实现的重要环节。清华大学计算机系于1979年创立语音实验室之后,全国许多研究者在基础研究基础上还开发出应用软件。

这方面的代表性著作主要有:吴宗济、林茂灿的《实验语音学概要》(1989),王炳锡等的《实用语音识别基础》(2005),刘幺和、宋庭新的《语音识别与控制应用技术》(2008)等。

发表的论文主要有:吴宗济的《试论普通话语音的区别特征及其相互关系》(1980),杨顺安的《浊声源动态特性对合成音质的影响》(1986),王晓龙、王开铸的《声音语句输入的研究》(1994),张保轩的《汉语语音识别研究进展综述》(1994),陈方、高升的《语音识别技术与发展》(1996),江铭虎、袁保宗、林碧琴的《神经网络语音识别的研究及进展》(1997),曹剑芬的《连续话语语音特性及其信息处理》(1998),应宏、蔡莲红的《基于结构助词驱动韵律短语界定的研究》(1999),冯俊兰、杜利民的《自然口语语音识别研究概况》(1999),李晓霞、王东木、李雪耀的《语音识别技术评述》(1999),刘加的《汉语大词汇量连续语音识别系统研究进展》(2000),姚文冰、姚天任、韩涛的《稳健语音识别技术发展现状及展望》(2001),徐波的《面向网络计算的汉语语音信息处理》(2001),何湘智的《语音识别的研究与发展》(2002),张全的《语言声学的进展》(2002),吴晓如、王仁华等的《基于韵律特征和语法信息的韵律边界检测模型》(2003),李剑锋、胡国平等的《基于最大熵模型的韵律短语边界预测》(2004),刘鹏、王作英的《多模式汉语连续语音识别中视觉特征的提取和应用》(2004),徐明星、杨大利的《分级语音识别研究》(2004),罗俊、欧智坚等的《说话人自适应训练方法在连续语言识别中的应用》(2004),荀恩东、钱揖丽等的《应用二叉树剪枝识别韵律短语边界》(2006),贺俊杰的《跨方言生成及变调处理》(2011)等。

6.机器翻译

对机器翻译领域的研究主要著作有:冯志伟的《自动翻译》(1987),刘涌泉的《应用语言学》(1989),冯志伟的《自然语言机器翻译新论》(1995),赵铁军的《机器翻译原理》(2001),冯志伟的《机器翻译研究》(2004)。此外,余国良的《语料库语言学》(2009)第六章“语料库语言学与机器翻译”讲述了机器翻译的发展过程、方向及其方法等。俞士汶的《计算语言学》(2003)一书中第五章介绍了机器翻译的基本原理及机器翻译中的一些语言学问题等;第六章阐释了机器翻译的概括机器困难对策等。

对机器翻译研究进行综述的文章主要有:冯志伟的《国外主要机器翻译单位工作情况简述》(1978),冯志伟的《法国的自动翻译研究》(1982),戴伟长的《国内外机器翻译进展状况》(1994),冯志伟的《自然语言机器翻译新论》(1995),赵铁军、李生、高文的《机器翻译研究的现状与发展方向》(1996),黄河燕、陈肇雄的《机器翻译基本问题研究》(1997),杨学泉的《机器翻译的历史及现状》(1998),吴会芹的《机器翻译的回顾与展望》(2003),张政的《国外机器翻译理论概述》(2003),张政的《国外机器翻译理论评介》(2003),刘也玲的《机器翻译面面观》(2004),岳涛的《机器翻译的现状和发展趋势》(2005),冯志伟的《机器翻译与语言研究》(上下)(2007),刘群的《机器翻译研究新进展》(2009),巩茗珠的《浅议机器翻译的发展历史及前景展望》(2009)等。

从机器翻译与语音、词汇、语法和语义联系的角度研究的成果有:刘海涛的《依存语法和机器翻译》(1997),韩习武的《机器翻译中语义因素的理论分析》(2001),叶俊的《机器翻译中的多义问题探析》(2005),胡清平的《机器翻译中的受控语言》(2005),苗洪霞的《基于短语的统计机器翻译系统的研究与应用》(2007),吴志杰的《机器翻译中汉语词语切分的现状——汉语分词与汉英机器翻译研究系列之一》(2009),张涛的《机器翻译的发展与基于短语的统计机器翻译》(2009),关晓薇的《基于语义语言的机器翻译系统中若干关键问题研究》(2009),宾科的《文化语境与机器翻译的局限性》(2010),翟舒、韩习武的《汉英机器翻译中的意译和直译应用》(2011)等。

7.计算机辅助语言教学

关于计算机辅助语言教学的著作主要有:黄仁杰的《计算机辅助外语教学》(1992),章国英的《计算机辅助外语教学与研究》(1995),顾佩娅的《计算机辅助语言教学理论与实践》(2006),盛玉麒的《语言文字信息处理》(2006),郑艳群的《对外汉语计算机辅助教学的理论研究》(2006),贾国栋的《计算机辅助语言教学——理论与实践》(2007),《计算机技术与世界汉语教学》(2008)等。

发表的论文主要有:杨惠忠的《计算机辅助教学研究现状》(1986),桂诗春的《关于计算机助外外语教学的若干问题》(1994),刘晖的《国外计算机辅助教学概况》(1997),陈晓明的《对未来计算机辅助教学的展望》(1997),方志刚等的《人机交互技术研究新进展》(1998),张自娟的《国外计算机辅助教学的发展综述》(2000),张红玲的《现代外语教学的发展趋势和机辅外语教学》(2000),秦秀白、刘丽燕、贾国栋的《计算机辅助语言教学的理论与实践》(2001),马素萍的《国外机辅语言教学的发展轨迹》(2001),闰寒冰、祝智庭的《CAI理论在信息化教育中的新发展》(2001),李宝鸿的《计算机辅助语言教学现状与前瞻》(2002),袁嵘的《计算机辅助语言教学及其在外语教学中的运用》(2003),姚剑鹏、方治强的《计算机辅助教学与语言的输入与输出》(2003),姚力之的《计算机辅助英语教学中教师角色探讨》(2003),周江林的《从计算机辅助语言教学的本质特征看其发展历程及发展趋势》(2004),张海峰的《国外计算机辅助语言教学的趋势》(2004),陈坚林的《大学英语教学新模式下计算机网络与外语课程的有机整合——对计算机“辅助”外语教学概念的生态学考察》(2006),易绵竹、姚爱钢的《计算机辅助语言教学若干问题研究》(2006),李丹的《计算机辅助英语教学的现状及发展趋势》(2006),冯辉的《计算机辅助外语教学中教师角色之探讨》(2006),庄智象等的《我国多媒体外语教学的现状与展望》(2007),徐萍浅的《谈计算机辅助语言教学》(2007),齐红、翁克山的《计算机辅助语言教学的设计与评价原则》(2007),陈琳的《试论计算机辅助语言教学》(2007),谈言玲、严华的《计算机辅助英语教学研究10年:回顾与思考》(2007),徐永红的《解析影响计算机辅助语言教学的变量思想纵横》(2008),崔云波的《计算机辅助语言教学刍议》(2008),黄岚的《计算机辅助语言教学法的利弊新论》(2008),曹超的《中国计算机辅助语言教学30年回顾与展望》(2009),毕烨的《发挥计算机辅助教学的优势》(2010),张洁兰的《计算机辅助教学在英语教学中的优势》(2010)等。

8.少数民族语言研究

从计算语言学角度探讨少数民族语言的相关文章有:孙宏开的《20世纪中国少数民族语言文字研究》(1998),才藏太、华关加·班智达的《汉藏公文翻译系统中基于二分法的句法分析方法研究》(2005),才智杰的《藏汉英电子词典的开发研究》(2005),姚延栋、吴健、孙玉芳等的《传统蒙古文变形显示机制研究与实现》(2005),华沙宝、达胡白乙拉的《对蒙古语语料库基本名词短语的定界与统计分析》(2005),谢谦、吴健、孙玉芳的《XWindow核心系统的民文支持》(2005),芮建武、吴健、孙玉芳的《基于ISO/IEC10646标准的藏文操作系统若干问题研究》(2005),高定国、龚育昌的《现代藏字全集的属性统计研究》(2005),毕丽克孜的《语料库语言学的应用和维吾尔语语料库词频统计的意义》(2005),毕玉德的《面向语言信息处理的朝鲜语知识库研究》(2005),孙道功的《20世纪90年代以来计算语言学的成就及其反思》(2006)等。

三 国内计算语言学研究存在的问题

我国计算语言学研究确实成就多多,但也存在一些值得我们深思的问题。

(一)本体研究与应用研究的“衔接”问题

这个问题有两个方面:一是如何从本体研究向应用研究转型。解决这个问题的关键在于转变观念。我们要认识到现在我们要借助电脑处理语言,而非人脑处理,这种改变要求我们更加严谨地思考语言问题。转变方式有直接和间接两种。所谓直接转型是指对于那些形式化特征比较明显的本体研究成果,我们可以直接转化为应用研究的成果,而间接转型则是指那些形式化特征不明显的本体研究成果,必须经过加工后才能转化为应用研究的成果。二是如何让应用研究推向本体研究。计算机处理语言的一个显著特征就是速度快,数量大,所以面对计算机处理语言的结果应该辩证地看待,要充分利用应用的结果来服务于本体研究,同时也要对这些成果认真审视,来提高本体研究的准确率。

(二)两方面人才的“对接”问题

长期以来,由于学科隔绝,语言学在其研究中很少考虑到计算语言学的需要,有些语言学的研究成果与社会生活实践的距离很远,很多学者倡导促进多学科交叉,培养两栖型人才。在“两栖”人才出现之前存在一个人才的“对接”问题。解决问题的途径很多,首先我们要确定好自己的研究目标,研究领域,配置好人才资源。一方面我们考虑如何获取语言规律,另一方面要考虑如何让计算机去应用这些规律来处理语言。目前,前一个任务有语言学专业人才完成,后一个任务则由计算机专业人才完成。双方之间是补集,我们应该让它们实现交集,互补慢慢融合,“两栖”人才就会产生了。

(三)“突出特色与资源共享”问题

本体研究是应用研究的基础,同时本体研究领域的某种特色会反应到应用研究中来。计算语言学的研究动向受学术领军人物的研究风格等影响。我们学术具有多样性,我们注意到“突出特色”但也应该“资源共享”。目前,实现资源共享的可行途径之一就是交流。通过交流我们可以了解到最新研究成果,拓展我们思路。交流的前提是我们必须“自主创新”。

同我们过去的研究结果相比,我国的计算语言学确实已经取得了很大的成绩。但是,同国际计算语言学发展的水平相比,我们不能不承认还有很大的差距。我们一定要面向世界,更大地敞开国门,加速我国计算语言学的世界化进程。

我国计算机语言学将在几个方面获得发展,首先是巩固已有的成果。中国计算语言学已经初级规模。要想把这一学科建设得更好,就必须巩固基础,稳中求进。其次,我们要开辟新的研究领域。这与巩固成果不矛盾,因为事物发展是连续的过程,科学要发展,必须在巩固已有成果基础上开辟新的领域,才能取得新的成就。再次,要开发新技术。计算语言学为了适应时代的发展,满足社会需求,必须开发新的技术。只有这样,才会实现计算机自动处理自然语言的最终目标。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈