首页 理论教育 国内数理语言学研究

国内数理语言学研究

时间:2022-04-01 理论教育 版权反馈
【摘要】:第二节 国内数理语言学研究数理语言学是采用数学思想和数学方法来研究语言现象的科学,它从数学领域得到的主要是思考问题的思路和方法,把数学模型和数学程序运用于语言的研究中。数理语言学作为语言学及应用语言学的一个组成部分,半个世纪以来在我国有了很大的发展,也逐渐为人们所重视。一 国内数理语言学研究的萌芽阶段20世纪20年代,我国就开始对汉字频度进行统计。

第二节 国内数理语言学研究

数理语言学是采用数学思想和数学方法来研究语言现象的科学,它从数学领域得到的主要是思考问题的思路和方法,把数学模型和数学程序运用于语言的研究中。数理语言学作为语言学及应用语言学的一个组成部分,半个世纪以来在我国有了很大的发展,也逐渐为人们所重视。虽然这个发展历程很短暂,但是人们已经意识到数理语言学在现代科学中的重要作用,作为应用语言学的一个分支,这一学科一直以来都很受语言学界的关注。

一 国内数理语言学研究的萌芽阶段

20世纪20年代,我国就开始对汉字频度进行统计。1925年,陈鹤琴编写的《语体文应用字汇》一书用于教学。陈鹤琴曾做过统计,使用六种材料,包含554478个汉字的语料,得到不同的汉字4261个,这是我国学者采用数学方法来统计汉字频度的最早尝试,也是我国语言学研究与数学方法的最早结合。

20世纪30年代,我国学者还用统计方法来研究“反切”问题。1931年,白涤洲在《广韵声纽韵类之统计》一文中指出,古人做反切有两个毛病,一是“同类字太少,随便假借相似的别类字作切”;二是“偶然忽略,误用近似而非同类的字作切”。虽然白涤洲使用算术统计方法并不足以消除古人做反切时的随机误差,但他用统计方法来处理反切问题毕竟比前人更胜一筹。

1939年,陆志韦最早用概率方法来研究音韵学。他在《证广韵五十一声类》一文中提出,在统计比较研究时,必须有一个客观的标准。他以一个随机相逢概率在样本空间中理论上的实现值作为比较的标准,他把这个标准称之为“机遇数”,用机遇数同实际相逢的情况相对照。这种概率统计方法比算术统计方法更为科学。陆志韦在《广韵说文中间声类转变的大势》、《唐五代韵书跋》、《古音说略》、《古反切是怎样构造的》等文章中,都使用了概率统计的方法,在汉语音韵学的研究中开风气之先。

但是,这段时间的研究对数学方法的使用还有一定的局限,并没有把数学方法在语言学中的应用作为一个独立的学科来看待,还不能算作真正的数理语言学研究,但是它却是一个前奏,给以后的研究提供借鉴。

二 国内数理语言学的发展阶段

20世纪50年代起我国开展了数理语言学的研究工作,在用数学方法研究汉语的句子结构、中文信息处理等方面取得一定成就。

1956年,学者们开始关注国外的数理语言学,“在我国科学研究的发展规划中,确立了名称叫做‘机器翻译,自然语言翻译规则的建立和自然语言的数学理论’的课题。这个课题包括两个部分:一部分是机器翻译,另一部分是自然语言的数学理论,也就是今天我们所说的‘数理语言学’。”[14]

1959年,刘涌泉在《中国语文》第6期上发表了《谈数理语言学》一文,介绍了这门学科的主要内容和研究方法,但由于数理语言学的研究要求学者同时具备语言学和数学功底,所以,这一时期我国的数理语言学并没有开展起来。

1982年,北京大学中文系给汉语专业学生开设的《语言学中的数学问题》选修课,这是第一个在我国开设数理语言学方面课程的学校。这一学科的开设使大家认识到现代数学发展给语言学的研究带来了生机和活力。

1985年,上海知识出版社出版了我国的第一本数理语言学著作——冯志伟的《数理语言学》。数学的定量研究方法已逐渐受到我国传统语言学家的注意,并开始用到他们的研究工作中去,在用数学方法研究汉语的句子结构、汉字的频率统计、汉语单词频率统计、频率词典的编制、方言定量分析、汉字熵值测定等方面都取得了一定的成绩。从这时起,语言学界才逐渐对数理语言学重视起来。

三 国内数理语言学的理论依据

数理语言学,是语言学跟数学相结合而产生的一门语言学交叉学科,因而要想研究数理语言学,就必须要用到数学中的一些知识,而数学又分数值学科和非数值学科,数理语言学的研究就要用到以下两个理论。

(一)数值学科:概率论数理统计、信息论

1.概率论

概率论是研究随机性或不确定性等现象的数学,是研究随机现象数量规律的数学分支。所谓事件的概率就是指衡量某一事件发生的可能性的量度。在数理语言学的第一阶段——统计语言学就用到大量的概率知识。统计概率是建立在频率理论基础上的,它是由英国逻辑学家约翰(John)和奥地利数学家理查德(Richard)提出的。他们认为,获得一个事件的概率值的唯一方法是通过对该事件进行100次、1000次或者10000词的前后相互独立的n次随机试验,得出一个极限值,这个极限值被称为统计概率。不论是词汇统计学、文体统计学还是对语言结构本身的统计,都需要作严格的统计,这样我们才可以了解一个作家的语言风格,或在实际工作中破译密码,同时它对考古学也有很大帮助。

2.数理统计

随着概率论的发展,应用概率论的结果更深入地分析研究统计资料,通过对某些现象的频率的观察来发现该现象的内在规律性,并作出一定精确程度的判断和预测,将这些研究的某些结果加以归纳整理,这些组成了数理统计的内容。

数理统计应该说大多是用在自然科学、工程技术、管理科学当中的,但是,随着人文科学与数学的广泛结合,数理统计逐渐渗透到语言学当中,为信息时代的语言注入新的活力。

3.信息论

信息论是由美国数学家珊南创立的,它是运用概率论与数理统计的方法,从量的方面来研究信息是如何获取、加工、处理、传输和控制的一门学科。信息就是指消息中所包含的新内容与新知识,是用来减少和消除人们对于事物认识的不确定性,也是一切系统保持一定结构、实现其功能的基础。狭义信息论是研究在通讯系统中普遍存在着的信息传递的共同规律、以及如何提高各信息传输系统的有效性和可靠性的一门通讯理论;广义信息论不仅包括用狭义信息论的观点来研究一切问题的理论还包括所有与信息有关的领域,例如心理学、语言学、语义学等。信息论认为,系统正是通过获取、传递、加工与处理信息而实现其有目的的运动的,同时它也能够揭示人类认识活动产生飞跃的实质,有助于探索与研究人们的思维规律和推动与进化人们的思维活动。信息论可以将信息的传递作为一种统计现象来考虑,给出了估算通信信道容量的方法。信息传输和信息压缩是信息论研究中的两大领域,这两方面又由信息传输定理、信源——信道隔离定理相互联系。

信息论的主要内容可以类比人类最广泛的交流手段——语言。一种简洁的语言(以英语为例)通常有两个重要的特点:首先,最常用的词(例如“a”“the”“I”)应该比不太常用的词(例如“benefit”“generation”“mediorce”)要短一些;其次,如果句子的某一部分被漏听或者由于噪声干扰而误听,听者应该仍然可以抓住句子的大概意思。但如果把电子通信系统比作一种语言的话,这种健壮性就是不可或缺的。

数理语言学中,信息论被广泛应用,例如信息熵、编码学、密码学、密码分析学等领域都要运用信息论的相关知识,信息论领域的应用使语言的研究更趋于精密化。

(二)非数值学科:离散数学理论

离散数学是数学中的一个分支,它以离散量作为其主要研究对象,例如自然数、真假值、字母表等,这使它与数学分析在研究对象上形成了鲜明的差别。数学分析是以连续量作为其研究对象的,由于这两种数学在研究对象上的本质区别,使数学分成连续数学和离散数学。离散数学是以离散量作为其研究对象,故一切以离散现象作为其研究对象的数学均可属于离散数学。由于语言是由一些离散的单位组成的,所以很容易就将语言学与离散数学结合起来。

离散数学包括很多内容,例如代数结构、数理逻辑、图论、自动机理论、递归函数、集合论等内容。数理语言学中,使用最多的应该是集合论和数理逻辑两个方面。

1.集合论

集合的概念是一般数学及离散数学中的基本概念,也是计算机科学中经常应用的基本概念。作为数学中最富创造性的伟大成果之一,它是在19世纪末由德国的康托尔(Cantor)创立的,从集合的概念出发研究集合上的运算、顺序。集合论是关于无穷集合和超穷数的数学理论。早在集合论创立之前两千多年,数学家和哲学家们就已经接触到了大量有关无穷的问题。

2.数理逻辑

“数理逻辑”这个名称由皮亚诺(Peano)首先给出,它是用数学方法研究形式逻辑中的推理规律的一种理论。所谓数学方法主要是指引进一套符号体系的方法,因此,数理逻辑一般又叫符号逻辑。用这种方法,在形式逻辑的研究中引入了一套形式语言,组成了一个形式系统,使得对形式逻辑的研究归结为对由一套符号所组成的形式系统的研究,这种研究方法具有表达简洁、推理方便、概括程度高、易于分析研究等特点。[15]

数理逻辑在本质上是亚里士多德的逻辑学,但从记号学的观点来讲,它是用抽象代数来记述的。传统的逻辑研究较偏重于“论证的形式”,而当代的数理逻辑可以被总结为对于内容的组合研究,它同时包括“语法”(例如,从一形式语言把一个文字串传送给一编译器程序,从而转写为机器指令)和“语义”(在模型论中构造特定模型或全部模型的集合)。数理逻辑主要包括:模型论、证明论、递归论和公理化集合论,其中程序语言学、语义学的研究从模型论衍生而来。由此可以看出数理语言学中广泛应用了数理逻辑方面的内容,这使语言学的研究更趋于精密化。

四 国内数理语言学的局限及今后走向

我国数理语言学自20世纪中期出现以来,一直在不断地发展、更新、进步,由于科技的进步、研究方法的改进、研究内容的增加以及它对现代智能科技的影响,人们越来越重视数理语言学的研究。我国语言学界开始了更广泛的探索,出现了一大批数理语言学方面的学者,例如,冯志伟、方立、戚雨村、徐振远等,当然还有大量的理论著作和期刊。近些年来,数理语言学硕士研究生和博士研究生也有所增加,这无疑为我国的数理语言学研究培养了后备人才,这些说明我国越来越重视数理语言学的研究。但是在这一过程中也出现了一些问题。翻开各类有关数理语言学的文章,我们会发现,对数理语言学的概述很多,但每篇的模式几乎相同,都是对基本概念的阐述、理解,或者是分述三个发展阶段,理论也都是国外的语言学原理,没有自己的创新。在中国语言学急速发展的今天,如果一些研究仍停留在原有理论、基本概念的简单重复介绍上,而不结合我国数理语言学的发展实际进行系统、创新的研究,那就明显落伍了。所以,我们对数理语言学的研究不能仅仅做重复性的工作,重要的是运用理论解决更多的问题。在信息爆炸、科技迅猛发展的今天,如果数理语言学能够有进一步的突破将会提高信息的处理的效率。

一直以来,语言文字和数学工具就是文明的一对翅膀,但是它们在历史上的作用极不相同。当前,数理语言学正把这两者在现代科学的基础上结合起来,对于这种结合所导致的变革,我们今天还很难估计它的全部意义。

数理语言学从诞生、独立再到成熟的过程中给我国语言学界带来很多思考,而汉语的语言科学究竟怎样才能实现本身的现代化的确值得我们这些从事语言研究的人思考。

总之,用数学的方法和理论研究语言学就产生了数理语言学,语言描写程序化和数学化大大推动了语言的研究,二者共同、协调的发展会为数理语言学的进一步研究带来新的动力。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈