计算语言学学科概述

时间：2023-04-01 理论教育版权反馈

【摘要】：第一节　计算语言学学科概述计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的学科,有自身独特的研究内容和研究方法。这表明，计算语言学是语言学、计算机科学、心理学和数学等学科相互渗透，相互影响的产物，所以计算语言学的学科性质是交叉学科。这就决定了计算语言学与传统语言学截然不同。

第一节　计算语言学学科概述

计算语言学是计算机科学和语言学、心理学、哲学等多种学科相结合的一门新兴的学科,有自身独特的研究内容和研究方法。

一　计算语言学的性质

（一）计算语言学的内涵

不同研究者有不同的研究取向，可以多层面来理解计算语言学。袁毓林指出：“从研究取向的角度（主要从工程主义、工具主义、认知主义、实证主义和逻辑主义）出发，探讨计算语言学的理论方法和应用技术。例如，从工程主义出发，着眼于建立一种可运转的计算机系统，进而理解和生成自然语言。计算语言学是采用计算机技术来研究和处理自然语言的一门新兴学科（冯志伟，1992）。从工具主义观点看，则强调是用计算机来分析语言，例如，计算语言学是关于自然语言计算机处理的一门学科。它用计算机技术来研究和处理自然语言（陆致极，1990）；对计算语言学一般有狭义和广义两种理解。计算语言学狭义理解盛行于最为发达的美国，它大致上就是人工智能中自然语言理解（包括机器翻译）的理论和方法部门，广义的理解则把凡是利用计算机处理自然语言的有关问题都囊括进来了（钱锋，1990）。从认知主义的立场来看，计算语言学研究着眼于人类使用语言时的心理过程，例如，计算语言学是一门计算机科学和语言学紧密结合的科学。它用数学的方法来制订语言规则和模型去解决有关计算机的语言学习和理解、语言信息的存储、组织、更新、转换和生成等问题。在这些问题中，核心是学习和理解（黄建烁，1991），强调的是要教会计算机自动学习。从逻辑主义取向，主要着眼于语言学知识的自动发现，在对其定义中强调了语言的计算结构和计算模型，例如：计算语言学旨在以自然语言处理（包括理解、生成、人机对话、机器翻译以及语音/文字输入的后处理等）为技术背景，揭示自然语言的词法、句法、语义、语用诸平面及其相互作用的计算结构，把语言学知识重塑成可以转化为产品的计算模型（白硕，1995）；现代计算语言学是通过建立形式化的计算模型来分析、理解和处理语言的学科……广义地讲，计算语言学是研究字符串的结构以及结构和意义的关系的学科。（翁富良、王野翊，1998）”^[1]

目前，许多教材所采用的计算语言学定义是：“计算语言学指的是这样一门学科，它通过建立形式化的数学模型来分析处理自然语言，并在计算机上用程序来实现分析和处理的过程，从而达到以机器来模拟人的全部或者部分语言能力的目的”。^[2]从这个定义中可看出，计算语言学是“计算”和“语言”的统一，将语言作为计算的对象来研究相应的算法；同时，是从计算的角度来研究语言。

（二）计算语言学的性质

不同的研究者对这一学科性质的界定不同，例如，计算语言学是用计算机研究和处理自然语言的一门新兴的交叉学科，其研究对象是自然语言，所以语言学家认为它是语言学的分支；由于计算语言学要采用先进的计算机科学技术来研究和处理自然语言，因此，计算机科学家认为它是计算机科学的一个分支；由于计算语言学要研究自然语言的形式结构和处理方法，因此，数学家把它算作应用数学的一个分支。这表明，计算语言学是语言学、计算机科学、心理学和数学等学科相互渗透，相互影响的产物，所以计算语言学的学科性质是交叉学科。

鉴于计算语言学的研究范围广泛，研究者对其学科性质的界定的取向不同，出现许多纷繁不一的见解：“黄居仁（1990）根据科际整合和整合科技的理念，把计算语言学看做是一个整合的学科，它是人工智能、语言学、认知科学的结合，无论采用何种定义，计算语言学都应当包括：构建处理语言的计算机系统以及自然语言规范模式的研究。刘开瑛与郭炳炎（1991）早年从事中文信息处理工作，他们指出计算语言学的研究突破了传统的语言学、心理学、数学以及计算机科学的界限，而是这些有关学科的相互渗透，并逐渐形成了具有新概念、新理论、新技术的交叉学科；俞士汶（1993）从汉语信息处理基础研究薄弱这一现实出发，阐明了计算语言学具有基础学科性质的特点；冯志伟（1996）认为计算语言学是一门介于语言学、数学和计算机科学之间的交叉学科，它同时涉及文科、理科和工科三大知识领域；姚亚平（1997）用‘新兴学科’‘应用学科’和‘交叉学科’来概述中国计算语言学的性质和特征；翁富良、王野翊（1998）把计算语言学的性质界定为边缘学科。”^[3]“冯志伟（2005）从自然语言处理的过程、范围以及历史三个角度来考察它的学科定位问题，论证了计算语言学是一个多边缘的交叉学科”。^[4]

（三）计算语言学的特点

计算语言学与传统语言学的研究目的不同。传统语言学是为了解决人与人之间的交际问题，而计算语言学是为了解决人与机器的交际问题。这就决定了计算语言学与传统语言学截然不同。

1.元语言的形式化

元语言是相对于对象语言而言的。对象语言是人们要研究的那种语言，而元语言是研究者在研究描述对象语言时所使用的语言。在传统语言学里，无论研究对象语言是什么，自然语言始终是元语言。但是自然语言过于复杂化，用它做元语言会让自然语言处理出现歧义问题，因为计算机没有思维能力，它能做的就是执行指令，而所有的指令都必须是精确的信息，所以它无法直接接受自然语言的命令。于是，人与计算机沟通的途径就是形式化的元语言。

2.可操作性

操作性是与描述性相对而言的。描述性是告诉人们语言是怎样构成的，操作性是告诉人们怎么样从一个现成的句子变出它的句法结构乃至得出它的意义。二者不同在于：描述性是消极的，是在对某一语言、某一语句理解的基础上进行描述；而操作性则是积极的，它站在主观的立场，必须参与进去，操作程序就是从不理解到理解的过程，而传统语言学主要是描述的。可操作性可以看成是计算语言学区别于传统语言学的本质特征之一。

3.工程性

计算机产生后，机器翻译是人们把它应用于非数值运送的第一个领域，由于最初采用的“词对词”翻译方式受挫，人们开始认识到问题的根源在于对自然语言的语法、语义、语用等基础问题研究不够深入。此后，人们把实验、研制、开发的目标转向人机对话、自动检索、自动文摘、自动校对、语音识别以及机器翻译、汉语信息处理所特有的汉字输入、自动分词等一个个语言工程项目。计算语言学就是随着这些工程项目的研制而逐步建立、发展并成熟起来。从计算语言学的历史发展看，计算语言学本质就是一门实验性、工程性的学科。其理论和假设必须通过实验去证明，实验之后，必须进入语言工程，达到实用化，这也是计算语言学的终极目标所在。

4.注重语言研究的全局性和一般性

由于计算语言学有工程性的特点，它的目的是要在人与计算机之间建立一座桥梁，所以它面对的应该是整个自然语言现象，它更重视把语言作为一个整体来研究，更注重从整体出发来研究计算机处理语言的普遍性和一般性问题。正如冯志伟所说：“研究计算语言学好比用望远镜，应该‘通观大局，大处落墨’；而研究传统语言学好比是使用显微镜，应该‘明察秋毫，精雕细刻’。”^[5]

（四）计算语言学研究内容

语言学各个层次上的计算机应用便形成了计算语音学、计算词汇学、计算语法学、计算语义学、计算语用学等，它们都是计算语言学的分支学科，也是计算语言学主要研究的内容。

计算语音学：研究如何利用计算机对语音信息进行处理，实现语言的自动合成与识别。

计算词汇学：研究如何利用计算机处理自然语言的词汇、建立语言词汇库、术语数据库等机器可读词典。对于印欧语言主要研究形态分析。计算机形态分析指如何用计算机将一个词分析为语素的组合，从而导出词的意义。

计算语法学：研究如何利用计算机来分析自然语言的语法。根据语言学理论所提供的关于语法结构的规则，推导出一个语句的所有可能的语法结构。这种研究在计算机中叫“剖析（parsing）”。目前，剖析技术主要有自顶向下分析法、厄尔利（Earley）分析算法、富田胜算法、线图分析算法、马库斯（Mar⁃cus）提出的确定性分析算法等。语言学理论有乔姆斯基提出的短语结构语法理论、转换生成语法和管辖与约束理论，转换生成语法和管辖与约束理论，广义短语结构语法，词汇功能语法，功能合一语法，基于中心词驱动的短语结构语法等。

计算语义学：如何利用计算机来分析自然语言的语义，例如：维尔克斯（Wilks）的优选语义学，菲尔摩的格语法，商克（Schank）的概念依存理论，西蒙斯（Simmons）的语义网络理论，蒙塔鸠（Montague）的蒙塔鸠语法等。另外计算语言学还研究计算机语言学习和语料库语言学等。

语料库语言学：语料库语言学是用概率统计来研究语言，它的手段是语料库。语料库语言学研究的基础是机器可读的大量语料库和一种易于实现的统计处理模型，两者缺一不可。其基本任务是研究机器可读的自然语言文本的采集、存储、检索、统计等，以及语料库方法在语言定量分析、词典编纂、作品风格分析、自然语言理解和机器翻译等领域中的应用。

（五）计算语言学与自然语言处理的关系

自然语言处理（Natural Language Processing）自20世纪50年代的机器翻译和人工智能研究起，已有半个世纪的历史。在这个历程中，学术界曾提出许多理论和方法，取得了丰富的成果。

对自然语言处理的界定，主要有三个代表性的观点：

1.冯志伟对“自然语言处理”的解释为：“自然语言处理就是利用计算机为工具对人类特有的书面形式和口头形式的自然语言的信息进行各种类型处理和加工的技术。”^[6]

2.刘涌泉对自然语言处理的定义为：“自然语言处理是人工智能领域的主要内容，即利用电子计算机等工具对人类特有的语言信息（包括口语信息和文字信息）进行各种加工，并建立各种类型的人—机—人系统。自然语言理解是其核心，其中包括语音和语符的自动识别以及语音的自动合成。”^[7]

3.美国计算机科学家马纳瑞斯（Manaris）给自然语言处理的定义是：“自然语言处理是研究人与人交际中以及人与计算机交际中的语言问题的一门学科。自然语言处理要研制表示语言能力（linguistic competence）和语言应用（linguistic performance）的模型，建立计算框架来实现这样的语言模型，提出相应的方法来不断完善这样的语言模型，根据这样的语言模型设计各种实用系统，并探讨这些实用系统的评测技术。”^[8]

计算语言学和自然语言处理学科地位都是三级学科，研究对象都是人类使用的自然语言（英语、汉语等），研究工具都是计算机，研究内容大致相似（即实现自然语言的自动分析与生成，在人与计算机之间实现以自然语言作为交流的工具）。计算语言学和自然语言处理技术的常用算法既有基于语言学规则方法，也有基于语料库的统计方法。

如果把这两门学科区分开来的话，可以认为自然语言处理倾向于应用研究（典型的应用就是机器翻译），以构造自然语言处理系统为目标。计算语言学倾向于理论研究，它为自然语言处理系统提供理论模型、实现算法和工程方案。语言模型,简单说，就是把实际问题模型化。计算语言学强调其理论模型必须在计算机上实现，从这个意义上看自然语言处理技术是其延伸，自然语言处理系统的实践也是检验计算语言学理论的标准。

二　计算语言学对理论语言学的影响

（一）计算语言学对词汇学的影响

计算机的出现，简化了词典编纂的工作。近年来还出现了存贮着丰富的语言信息的电子词典，这也为机器翻译和计算语言学其他部门的研究提供了静态的语言信息。

（二）计算语言学对语法学的影响

计算语言学对传统语法的影响主要表现在自然语言处理的句法分析理论和方法，有三个学派：第一，基于数学模型的语法。在机器翻译研究初期，库拉金娜（Кулагина）用集合论方法建立了俄语句法的数学模型，精确地定义了一些语法概念。巴西勒（Basile）提出了范畴语法，建立了一套形式化的句法和演算规则，可以判断一个句子是否合乎语法规则。这些都使传统句法分析方法更加精密化、算法化。第二，乔姆斯基的形式语言理论是早期影响最大的计算语言学句法理论，包括无约束短语结构语法(0型语法)、上下文有关语法、上下文无关语法和正则语法类型的形式语法。其中上下文无关语法被广泛地应用于自然语法的自动分析和生成中，但不能充分地描述自然语言，于是提出转换生成语法，后来又转向短语结构语法。第三，美国语言学家布列斯南建议建立面向词汇的语法，提出了词汇功能语法，马丁（Martin）“合一语法”、功能合一语法”，盖兹达（Gazdar）提出了“广义短语语法”，玛拉德（Mardeen）提出了“中心词语法”，又与同事一起提出了“中心词驱动的短语语法构语法”。这些语法的结构采用了复杂特征结构，采用合一运算来改进和完善短语结构语法，更适合计算机。

另外，理论语言学对汉语词类的划分存在着争议，一般是用功能辅以意义的方法来进行，还没有解决词类的多少及某些具体词的归属问题，而计算语言学从计算机理解自然语言的角度将词类划分得十分细致。

（三）计算语言学对语义学的影响

乔姆斯基的表层结构和深层结构理论把语义问题提到了一定的高度，卡茨（Katz）等提出了解释语义学，菲尔摩（Fillmore）提出了格语法，玛考利（Ma⁃cauley）等提出了生成语义学，维尔克斯（Wilkes）提出了优选语义学，美国人工智能学者西蒙（Simon）提出了语义网络理论，这些理论都强调语义在计算语言学中的应用。美国学者汉德雷斯（Hendrix）在描述一种语言的过程时把大量的语义信息插人该语言的句法中，这样定义的系统叫做“语义语法”。语法的自然语言的处理速度提高，后来许多自然语言处理系统都采用这种方法。

（四）计算语言学对逻辑语法的影响

逻辑语法是逻辑程序设计和计算语言学相结合的产物，是指用谓词逻辑来表达的语法。在机器翻译和自然语言理解的研究领域里，经常使用谓词逻辑来描述知识和进行逻辑推理。计算语言学对如何处理省略的对话题、照应关系以及篇章结构等问题，也进行了一些有益的探索，这些都推动了语义学的发展。1983年美国斯坦福大学的巴外斯和佩利提出了情景语义学的自然语言模型，把自然语言研究扩展到情景领域，拓宽了计算机语言的研究范围。在整个科学、哲学和数学基本原则的基础上把传统的自然语言和计算机语言的理论融合为一个综合的整体，使它们沿着统一的方向逐步发展。

（五）计算语言学对理论语言学研究方法的影响

计算语言学还影响语言材料的整理加工。理论语言学的研究以事实作为依据，拥有大量的材料，得出的结论也是可行的。计算机出现以后，大大减轻了人们的劳动。在这种工作中形成语料库语言学，并成为计算语言学的分支学科。语料库语言学主要研究机器可读自然语言文本的采集、存储、检索、统计、语法标注、句法语义分析以及具有上述功能的语料库在语言定量分析、词典编纂、作品风格分析等领域中的应用。

随着计算语言学的不断发展与进步，它对理论语言学的影响已经越来越明显地表现出来。

三　计算语言学研究方法

计算语言学研究方法分为基于规则的理性主义和基于统计的经验主义方法。

（一）理性主义研究方法——符号处理系统

理性主义方法是基于乔姆斯基的语言原则，以生成语言学为基础的方法。此方法认为，人的大部分语言知识是由遗传决定的。持这种观点的代表人物是美国语言学家乔姆斯基，他的内在语言官能理论被广泛地接受。按理性主义的研究思路，自然语言处理主要研究人的语言知识结构。实际的语言数据只提供了这种内在知识的间接证据。

符号处理系统是认知心理学家作为人的认知模型提出来的。它在计算语言学研究中得到广泛应用。在计算语言学中，用于自然语言处理的符号处理系统通常根据一套规则或程序，将自然语言“理解”为符号结构——该结构的意义可以从结构中的符号的意义推导出来。在一个典型的自然语言处理系统中，由语法分析器按照人所设计的自然语言的语法规则，将输入语句分析为语法结构，再根据一套规则将语法结构映射到语义符号结构。自然语言符号处理系统中的规则通常是先验的，也就是由人设计好了以后赋予机器的，这是一种典型的理性主义方法。

（二）经验主义研究方法——基于语料库的计算语言学研究

经验主义的研究方法是基于珊南（Shannan）的信息论，以大规模语料库分析为基础的方法，将语言事件赋予概率。经验主义认为，人的知识是由感官输入，经历一些简单的联想与通用化的操作而得到的，也是假定人脑所具有的一些认知能力开始的。因此，从这种意义上看，两种方法并不是完全对立的。但是经验主义方法假定孩子的大脑一开始具有处理联想、模式识别和通用化处理的能力，这些能力能够使孩子充分利用感官输入来掌握具体的语言结构。在系统实现方法上，经验主义方法主张通过建立特定的数学模型来学习复杂的、广泛的语言结构，然后利用统计学、模式识别和机器学习等方法来训练模型的参数，以扩大语言使用规模。因此，经验主义的自然语言处理方法是建立在统计方法之上的，我们又称其为统计自然语言处理方法。

统计学方法：统计学方法首先要为解决语言处理问题建立统计模型，并且训练语料库来估计统计模型中的参数，然后把参数值应用到模型中处理语言问题。统计方法广泛应用于词性标注、机器翻译、语音识别等语言处理领域。以词性标注为例，首先建立统计模型，例如隐马尔可夫模型，为了能够实现统计，一般在计算时要对模型简化，然后统计训练语料库中模型中的每个参数值，最后把参数值应用到模型中确定出每个词的词性。

神经网络学方法：主要应用有动词的形态变换、语法分析、机器翻译等。但因为神经网络中的分布式表达很难表示自然语言处理中所需要的高层次知识，所以这些系统不具有实用价值。

（三）研究方法的评价

基于规则的理性主义和基于统计的经验主义方法各有千秋，我们应当用科学的态度来权衡它们的利弊得失。

1.基于规则方法的优点

（1）基于规则的方法中主要是语言学规则，这些规则的形式描述能力和形式生成能力都很强，在自然语言处理中有很好的应用价值。

（2）基于规则的方法可以有效地处理句法分析中的长距离依存关系等困难问题，例如句子中长距离的主语和谓语动词之间的一致关系。

（3）基于规则的方法通常都是明白易懂的，表达得很清晰，描述得很明确，很多语言事实都可以使用语言模型的结构和组成成分直接地、明显地表示出来。

（4）基于规则的方法在本质上是没有方向性的，使用这样的方法研制出来的语言模型，既可以应用于分析，也可以应用于生成，这样，同样的一个语言模型就可以双向使用。

（5）基于规则的方法可以在语言知识的各个平面上使用，可以在语言的不同纬度上得到多维的应用。这种方法不仅可以在语音和形态的研究中使用，而且在句法、语义、语用、篇章的分析中也大显身手。

（6）基于规则的方法与计算机科学中提出的一些高效算法是兼容的，例如，计算机算法分析中使用厄尔利算法（1970）和马库斯算法（1978）都可以作为基于规则在自然语言中得到有效的使用。

2.基于规则的方法的缺点

（1）基于规则的方法研制的语言模型一般都比较脆弱，逻辑性很差，一些与语言模型稍微偏离的非本质性的错误，往往会使得整个的语言模型无法正常地工作，甚至导致严重的后果。不过，近来已研制出一些逻辑的、灵活的剖析技术，这些技术能够使基于规则的剖析系统在剖析失败中得到恢复。

（2）使用基于规则的方法来研制自然语言处理系统的时候，往往需要语言学家、语音学家和各种专家的配合，进行知识密集的研究，研究工作的强度很大；基于规则的语言模型不能通过机器学习的方法自动地获得，也无法使用计算机自动地进行泛化。

（3）使用基于规则的方法设计的自然语言处理系统的针对性都比较强，很难进行进一步的升级。例如，斯罗肯（Slocum）在1981年曾指出，赖弗尔（Lif⁃er）自然语言知识处理系统在经过两年的研发之后，已经变得非常复杂和庞大，以至于这个系统原来的设计人很难对它进行一点点的改动。对于这个系统的稍微改动将会引起整个连续的“水波效应”，以至于“牵一发而动全身”，而这样的副作用是无法避免和消除的。

（4）基于规则的方法在实际的使用场合其表现往往不如基于统计的方法好。因为基于统计的方法可以根据实际训练数据的情况不断地优化，而基于规则的方法很难根据实际的数据进行调整。基于规则的方法很难模拟语言中局部的约束关系，例如，单词的优先关系对于词类标注是非常有用的，但基于规则的方法很难模拟这种优先关系。

不过，尽管基于规则的方法有这样的或那样的不足，这种方法终究是自然语言处理中研究得最为深入的技术，它仍然是非常强有力和非常有价值的技术，我们决不能忽视这种方法。实践证明，基于规则方法的算法具有普适性，不会由于语种的不同而失去效应，这些算法不仅适用于英语、法语、德语等西方语言，也适用于汉语、日语、韩国语等东方语言。在一些针对性很强的领域应用中，在一些需要丰富的语言学知识支持的系统中，特别是在需要处理长距离依存关系的自然语言处理系统中，基于规则的方法是不可或缺的。

3.基于统计的方法的优点

（1）用基于统计的方法来训练语言数据，从训练的语言数据中获取语言的统计知识，可以有效地建立语言的统计模型。这种方法在文字和语音的自动处理中效果良好。

（2）基于统计方法的效果在很大程度上依赖于训练语言数据的规模，训练的语言数据越多，基于统计的方法效果就越好。

（3）基于统计的方法很容易与基于规则的方法结合起来，从而处理语言的约束问题，以提高系统的效能。

（4）基于统计的方法很适合用来模拟那些有细微差别的、不精确的、模糊的概念（例如“很少”、“很多”、“若干”等），而这些概念，在传统语言学中需要使用模糊逻辑才能处理。

4.基于统计的方法的缺点

（1）使用基于统计的方法研制的自然语言处理系统，其运行时间是与统计模式中所包含的符号类别的多少成比例线性地增长的，不论在训练模型的分类中或者是在测试模型的分类中，情况都是如此。因此，如果统计模式中的符号类别数量增加，系统的运行效率会明显地降低。

（2）在当前语料库技术的条件下，要使用基于统计的方法为某个特殊的应用领域获取训练数据，还是一件费时费力的工作，而且很难避免出错。基于统计的方法的效果与语料库的规模、代表性、正确性以及加工深度都有密切的关系，可以说，用来训练数据的语料库的质量决定了基于统计方法的效果。

（3）基于统计的方法很容易出现数据稀疏的问题，随着训练语料库规模的增大，数据稀疏的问题会越来越严重，这个问题需要使用各种平滑的方法来解决。

自然语言处理的理论，例如，短语结构语法、扩充转移网络、从属关系语法和配价语法、语言串理论、格语法、管辖和约束理论、范畴语法、概念依存理论、多叉多标记树形图分析法、功能合一语法、词汇功能语法、广义短语结构语法、中心词驱动的短语结构语法、定子句语法、蒙太格语法等，它们基本是基于规则的理性主义的理论和方法。

（四）两种方法的结合

基于规则的理性主义研究方法，优点可以不必事先建立一个语料库，研究者只将语言学家研究的大量现成的语言学知识形式化。这种方法的概括性强，容易推广到一些尚未涉及的领域。但是基于规则的方法所描述的语言知识难以处理复杂信息。当规则数目增加时，很难保证一致性。

基于统计的经验主义研究方法则需要事先建立一个语料库，其全部知识都是由计算机通过统计处理大规模真实文本而自动获取的，具有很好的一致性。

每一种方法各有利弊，因此需要把两种方法结合起来。一方面，如果把统计方法作为获取知识的主要途径，依据语言学家的语言学知识对所获取的知识加以取舍，并增加一些统计方法没有得到的，而经语言学家证明是行之有效的正确的语言规则；另一方面，由于统计方法获取的语言知识来自真实文本，可以涵盖所有语言现象。这样，能克服语言学家总结语言规则的片面性和主观性，并使他们集中精力研究那些最常见的，在统计意义上比较重要的语言现象。

在计算语言学的发展历史中出现过各种具体的自然语言处理方法基本上都可以归入这两类中的一类或是这两类方法的融合。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈