首页 理论教育 数理语言学学科概述

数理语言学学科概述

时间:2022-04-01 理论教育 版权反馈
【摘要】:第一节 数理语言学学科概述一直以来,传统语言学的研究采用的几乎都是人文学科的方法,对古代文献中的一些语言现象进行描写、分析、归纳和总结,其主要目的是为了学习、研究古人的思想或者进行教学。三 数理语言学的形成和发展早在数理语言学这门学科的名称出现之前,语言问题的数学研究就已经在进行了。

第一节 数理语言学学科概述

一直以来,传统语言学的研究采用的几乎都是人文学科的方法,对古代文献中的一些语言现象进行描写、分析、归纳和总结,其主要目的是为了学习、研究古人的思想或者进行教学。但是,语言的学习不能拘泥于传统的方法,社会的进步促使每一个学科不断向前发展,语言学这门古老的学科也应有所突破,走出千年固守的阵地,向其他学科汲取养料,当然这不仅包含人文学科,更多的是要与现代数学等自然学科发生联系,数理语言学的产生就是一个很好的例子。

一 数理语言学的性质

数理语言学是20世纪50年代发展起来的新兴交叉学科,它是用数学理论和方法来研究语言现象的科学,是语言学同数学相结合的产物。这门新兴学科的出现,使得语言学的研究与现代数学、计算机科学、人工智能等学科挂上了钩,逐渐走上了现代化的道路。在此之前,人们很难想象到人文学科竟然能如此紧密地与数学结合起来,数学不断地向其他学科渗透,语言学应该算人文学科中的第一个了。数学的介入,使语言学发展得更为完善。数学和语言学之所以能够结合,其主要原因是它们两者有一个基本共同点,即数学符号和语言符号都是信息的载体,都可以用来表示一定的概念和意义,但是语言符号通常具有不止一个意义,而数字符号往往就只有一个概念意义,况且数学语言是超国界的,这些都使其具有了较语言符号更高的精确性,运用数学工具来对语言学研究对象进行科学客观的量化分析,可以与原来传统的定性分析相互配合,各司演绎归纳之职,从而一定程度上避免对某些语言现象的主观臆断或游移不定。同时,数学简洁明确、严密又富有逻辑性的特点可以帮助我们精确地表述语言学研究的问题,各种数学方法也能大大丰富语言学的研究途径,并在一定程度上扩展出语言学研究的新领域。数理语言学不同于传统语言学,它的理论依据除了普通语言学理论外,还有数学中的非数值学科和数值学科。这些理论的综合运用把两个孤立的学科紧密地结合在一起了,使数理语言学的研究更有理据性、更为人们所相信。

二 数理语言学研究目标

现代数学是研究数量、形式及结构等之间相互关系的一门精密学科,而语言是一种最广泛、最基本的社会现象,语言的口语形式和文字形式大量存在,语言本身更有着复杂的结构。从这种情况来看,现代数学工具应该是可以用来研究定量化、形式化等问题的。

所以说,数理语言学的目标是用数学方法研究语言对象并加以定量化和形式化的描述,使语言不论是形式还是内容都不断地精确,进而来促进人工智能、机器翻译人机对话等方面的发展。数理语言学不仅研究自然语言,同时也研究人工语言,为计算机科学奠定牢靠的理论基础。

三 数理语言学的形成和发展

早在数理语言学这门学科的名称出现之前,语言问题的数学研究就已经在进行了。1847年,俄国数学家布里亚柯夫斯基(Buljakovski)就认为可以用概率论来进行语法、词源及语言历史比较的研究。1851年,英国数学家摩根(Morgen)把词长作为文章风格的一个特征进行统计研究。1867年,苏格兰学者坎贝尔(Campbell)用统计方法来确定柏拉图著作的执笔时期。1881年德国学者迪丁贝尔格(Dittinberger)进一步用统计方法把柏拉图著作的执笔时期分为前、中、后三个阶段。1887年,美国学者门登豪尔(Mendenhall)对不同时期的英国文学著作进行统计分析,特别是研究了莎士比亚的作品。现代语言学的两位先驱——波兰语言学家库尔德内和瑞士语言学家索绪尔在20世纪初也认识到语言学必须同数学保持紧密的联系。库尔德内认为,语言学家不仅应该掌握初等数学,而且还要掌握高等数学,语言学将根据数学的模式,一方面“更多地扩展量的概念”,另一方面“将发展新的演绎思想的方法”;索绪尔指出,“在基本性质方面,语言中的量和量之间的关系可以用数学公式有规律地表达出来。”后来,他在其名著《普通语言学教程》中又指出:“语言学好比一个几何系统,它可以归结为一些待证的定理。”[1]语符学派的代表人物叶尔姆斯列夫(Hjelmslev)把语言看成一个纯粹抽象关系的系统,主张把语言的抽象理论同数学结合起来。描写语言学派的代表人布龙菲尔德则使语言描写方法在客观性和形式化方面达到前所未有的高度,从而使语言研究中引进数学方法成为可能。

1955年,美国哈佛大学最先创办了数理语言学研讨班,两年后,便正式开设了数理语言学课程,之后美国许多大学相继开设了这一课程。1957年,日本成立了计量语言学会并创办了《计量国语学》杂志。此后,欧洲许多国家也开展了有关研究;这一年,美国著名语言学家乔姆斯基发表了《句法结构》一书,首次创造性地将数学和概率论的方法运用于语言分析中,提出了短语结构等新型的语言模式,为数理语言学的发展开创了道路。1964年,在法国南锡召开了“国际应用语言学(即数理语言学)会议”,并成立了国际应用语言学协会,至此,数理语言学便正式诞生。

然而,数理语言学的发展并非一帆风顺。一开始,数学界认为它只不过是列举语言文字方面的一些数据来进行计算,因而并不构成数学的一个独立分支;另一方面,语言学界则认为它只不过是花样繁多的现代语言学中的一种定量分析和描述方法,主要任务仅限于统计语言中某一要素(音素、语素或词汇)的出现概率,因而只能作为语言学的一种辅助手段。20世纪中期,在相当长的一段时间里,数学界和语言学界双方都不承认它的独立性。数学界说它不过是用于分析语言现象的‘应用数学’的一个附属部分,语言学界则说它是借助于数学工具的‘应用语言学’的一个侧面。[2]

把语言学和数学这两门学科联系起来的是语言通讯技术和电子计算机。语言通讯技术使语言符号的远距离传输和转换变成现实,电子计算机则用数字化的快速运算来处理非数值符号——语言。科学技术的发展使语言学和数学的领域得到空前扩展,它们都以符号系统作为主要的研究对象,这也使数理语言学应运而生。

同时,电子计算机的发展也把它推上现代科学的舞台并宣告了它的独立,人们为了控制电子计算机操作以及进行“人机对话”,就必须编制一套计算机能够理解的语言系统,在这里只有数学公式是远远不够的,而必须求助语言——有语法结构、语义解释的符号系统。这样,数理语言学逐渐得到了语言学家们的重视,成为应用语言学中重要的一部分。

到目前为止,数理语言学主要包括三个部分,同时这也是它发展的三个阶段:统计语言学、代数语言学、计算语言学,每个发展阶段都有其各自的特点和影响,都对数理语言学的发展起到重要作用。

(一)统计语言学

早在18世纪时,就有人开始尝试使用统计学来解释语言的消失与保存,到了19世纪80年代,德国青年语法学派的一些代表人物就曾采用统计方法来处理语言材料。例如,1913年,俄国语言学家马尔科夫(Марков)采用概率论的方法统计诗人普希金(Pushkin)的《欧根·奥涅金》中俄语元音和辅音字母的序列。这些,应该是最早将统计应用于语言学的研究。

统计语言学又称计量语言学,是数理语言学中比较成熟的部分,它是指采用统计的方法来研究语言,即如何应用统计程序来处理语言资料。例如,它可以通过计算统计各种语言单位在语言使用中出现的频率来对语言结构、语言变化、语言风格以及语言行为的概念模式进行研究;同时,它对字母、字、词的频率统计对语言信息的计算机化处理很有帮助,可以用于辞书编纂方面中对字词的检索设计,还可以通过对作家用词频率、词长分布和句长分布的统计分析测定其常用的修辞手法、语言风格等。运用统计语言学进行研究主要采用概率论和数理统计以及信息论的方法来分析语言成分出现的概率和频率,从而揭示语言的统计规律,为自然语言的机器处理提供数据、也为语言教学提供参考。

统计语言学大致包括三个方面,词汇统计学、文体统计学以及对语言结构本身的统计研究。

1.词汇统计学

“词汇统计学主要研究词在文本中出现的相对频率,此外还对有韵诗歌中的音位安排及字母和某些语言形式的相对频率进行研究。”[3]

在数理语言学中,最早提出统计规律的是齐普夫(Zipf),以他名字命名的齐普夫定律(Zipf’s law)是语言学上著名的定律,这一定律描述某种语言中词的顺序号与出现的频率关系的经验公式。后来,经过学者们的多次修正,这个定律的形式更加精确。艾思杜(Estoup)、贡东(Condon)、琼斯(Jones)、曼德尔布洛特(Mandelbrot)以及齐普夫本人,先后对上述定律进行研究,因而又称为齐普夫——琼斯——曼德尔布洛特定律。

这里,举一个运用齐普夫定律的例子。有一篇文章,把其中的词按照在文章中出现的频率由高到低排列,同时从小到大对其编号,齐普夫定律所表示的就是文章中词的频率与序号之间的数量关系。这个公式可表示为K=P·r,其中K是一个近似于0.1的常数,P表示频率,r表示词表中的序号,通过这个公式我们可以看出P与r成反比,也就是说序号越大词的频率就越小。当然,词的频率大小与所选文章的文句容量也有很大关系,从一篇文章中提取100、1000、10000个文句所得出的词频是不同的,因而采用统计的方法来统计词频一定要考虑到文本容量的问题。

例如,有人曾研究过俄国诗人普希金、屠格涅夫(Тургенев)和蒲宁(Бунин)的诗歌中动词ьыть出现的情况。在这种研究中,条件S=‘普希金、屠格涅夫和蒲宁的诗歌’,事件A=‘ьыть出现’。当条件组S实现次数很少时,文句容量为10个词,ьыть的出现次数为0,ьыть的出现频率当然也为0;当条件组S的实现次数稍增,文句容量为100个词,ьыть出现3次,ьыть的出现频率为0.030;当条件组S实现次数继续增加,文句容量逐渐加大,ьыть出现的频率越来越稳定,最后稳定于0.010左右。如下表所示ьыть的频率变化:[4]

img1

“频率词典的编写主要采用的也是这一定律,它需要对语言成分做统计研究。早在1898年,德国语言学家凯定(Kaeding)就编写了世界上第一部频率词典《德语频率词典》,这部频率词典的样本容量为110万个词的文句,统计出每一个词在110万个词的样本中出现的次数。在20世纪初,美国的教育学家兼心理学家桑戴克(Thorndike)先后编写了《教师两万词词书》、《教师三万词词书》,做了大量的英语词汇的频率统计工作。”[5]在我国,第一部汉语频率字典是教育家陈鹤琴编写的。1950年,美国语言学家史瓦德士(Swadesh)提出了语言年代学,通过语言的词汇统计来测定语言存在的年代或亲属语言从共同原始语分化的年代。[6]

2.文体统计学

“所谓文体统计学是指对某部作品和某位作家所使用的语言形式进行统计研究,通过某些语言形式在数量上的比例来说明和确定作品或作家的文体特征。”[7]当然,文体统计学主要是研究词汇在形式上的结构特征而并非是意义内容,主要包括作家用词数量、某个词语的使用频率等。采用文体统计方法能够帮我们判别某部作品是出自哪位作家之手,也可以确定某部作品成书的年代。例如很多学者对《红楼梦》中词语的相关联程度、用词用字的统计规律来研究前八十回和后四十回的相互关系,得出了不同结论。华裔学者陈炳藻就曾利用计算机程序统计分析《红楼梦》的用词规律,并据此得出《红楼梦》的一百二十回均为曹雪芹所作的结论,而深圳大学的研究小组却判定后四十回语言风格突变,所以不是同一作者。复旦大学数学系的李贤平从47个虚词在各回的出现频度作统计分析,得出的结论是《红楼梦》是由不同作者在不同时期陆续写成的。这样的统计方法不仅给红学的研究焦点一个较为客观可靠的结论,也为红学其他研究课题开辟一种新的研究途径。

3.对语言结构本身的统计

对语言结构本身的统计又称为狭义的统计语言学,它是把宏观特性看成微观量统计的平均结果,并以此来解释语言系统内在结构和各种语言形式的分布状态。赫尔丹(Herdan)曾指出,在统计学看来,语言是选择加几率。也就是说,在交际过程中所产生的具体语言形式只是它们的固有概率的反映。统计语言学可以从统计特征出发,对普通语言学中的理论作出解释。我们都知道语言学家索绪尔把言语活动区分成“语言”和“言语”,前者是指某个语言社团成员约定俗成的符合系统,后者是指个人的说话行为。统计语言学把“语言”解释成各种语言成分(例如:音素、词、语法形式等)的使用概率的总和,因此它是统计总和;而“言语”则可以看作从统计总和中抽取出来的统计样本,是一种集体选择的结果,每个人说话的风格则是个人选择的结果。[8]

除了上述三种数理统计外,统计语言学的研究方法还包括使用信息论对语言进行分析,下面将简要阐述信息论在语言统计中的应用。

语言的使用过程包括说话者的说话过程和听话者的听话过程,要想了解语言各成分之间的概率关系,采用信息论的方法可以解决这一问题。1948年,美国数学家珊南发表了《通讯的数学理论》,这为信息论的研究奠定了基础。信息论是研究信息传输和信息处理系统的一般规律的科学,我们日常交际所使用的电话、传真等都可以用信息论的方法加以阐释。在信息论产生之前,人们对信息系统的理解是很简单的,后来,人们把马尔科夫随机过程理论及一些数学方法运用于信息系统的研究中,这才意识到通讯系统内的消息实质上是一种具有概率性的随机过程,因而建立了信息论。

其实语言的交际过程即每一时刻人们使用的语言符号是一个随机过程,如果在这个随机过程中,采用试验方法确定语言中出现什么语言成分,这样的试验就是随机试验,这样就可以将语言看做随机试验结局的链。随机试验结局的链可以是独立链或马尔科夫链,其中独立链又可以分为等概率独立链和不等概率独立链,但是在语言交际中,这种独立链不常见,因此,在这里我们将重点介绍一下马尔科夫链。

在随机试验中,各个语言成分的出现概率不互相独立,每个随机试验的个别结局依赖于它前面的随机试验的结局,这种链就是马尔科夫链,在马尔科夫链中,前面的语言成分对后面的语言成分是有影响的,它是由一个有记忆信源发出的。若只考虑前面一个语言成分对后面一个语言成分的影响是一重马尔科夫链,若考虑前面两个语言成分对后面的影响则是二重马尔科夫链,以此类推,还有三重、四重、五重等。由此可知,重数越大,后面语言成分出现的随机性就越小。在随机试验过程中,可能出现的结果的大小是不确定的,这种不定度的大小叫作“熵”,也就是说,汉字的“熵”(entropy)是汉字所含信息量大小的数学度量。如果不考虑语境的影响,对一个人将开口说出的第一句话做预测,其不定度即熵是最大的;如果说出一句话后,再把这句话作为已知条件预测第二句时,熵就会减少,以此类推,马尔科夫链的重数越过,熵就越小。正是因为语言要素具有结构性,而各要素之间会相互影响,所以熵才会减少。

还有一种隐马尔科夫模型(Hidden Markov Model,简称HMM)是马尔科夫模型的扩展。马尔科夫模型描述的是一个随机过程,而隐马尔科夫模型则有两个随机过程,在语料库的词性标注方面通常采用隐马尔科夫模型。

统计语言学除了上述用途外还有很多价值。例如,在破译密码方面、文学方面、考古学方面都有很广泛的应用,就像对玛雅文和古希腊线条文字的解释都有很大的成就。例如,史瓦德士的《史前民族接触的词汇统计学年代推算》(1962),以往的史前研究都是用放射性碳进行年代推算,而史瓦德士采用的是词汇统计学的方法进行年代推算,这说明统计语言学对考古学的研究也有帮助。他还有一篇文章《词汇统计年代推算的精确化》(1962),也是通过应用统计语言学的知识进行考古研究。刘菊黄、吕可农、张伯江的《<现代汉语词典>单音节同音词统计》,为了减少主观色彩,采用不完全相同的标准对现代汉语的单音词作了较全面的考察、统计。王还的《汉语词汇的统计研究与辞典编纂》(1986),用科学的方法对要编教材及词典进行词汇的选择。毕丽克孜的《现代维吾尔语语料库词频统计实验性研究》(2003),主要阐述了与维吾尔语词频统计技术相关的具体步骤与方法,并公布实验性研究结果的词类自动标注文本、词频统计表及统计结果分析。阿不都客依木·沙依木的《现代维吾尔语名词统计分析研究》(2007),用语料库的方法对维吾尔语的名词进行统计分析。周琴的《安妮宝贝两部小说的语言学分析》(2007),用词量统计、词频分析等方法来对小说进行分析,从而总结出它们的主题思想倾向和风格特点。努尔买买提·伊布拉音的《现代维吾尔动词语态及动词构词词缀统计分析》(2007),对现代维语电子词库和在此基础上建立的动词从不同角度进行统计分析。曲晓航的《统计与语言学相结合的词对齐及相关融合策略研究》(2009),提出了统计和语言学知识相结合及利用相关策略融合的方法来解决提高词对齐的正确率的问题。韩习武、赵铁军的《汉英动词范畴化对应类型的统计分析》(2010),是基于大规模句子级,对齐双语语料库进行了统计分析汉英动词次范畴化对应类型的系统性实验。

统计语言学是数理语言学的一个重要组成部分,它代表着数理语言学中的经验主义方法,这种基于统计的经验主义方法有助于全面观察语言现象、克服传统语言研究的局限性和片面性,因而我们要重视统计规律,但这不是唯一规律,因为它并未完全揭示语言的全部本质。所以,在研究中绝不能忽视理性主义的方法。随着科技的进步,计算机技术也不断地向前发展,这也就使得数理语言学更深入的发展,计算机信息处理技术要求人们对语言进行严密的逻辑分析,提出准确的语言模型,因此,代数语言学应运而生。

(二)代数语言学

数学和语言都是我们在日常生活中的工具学科,可以说每一学科都能与其有很多的联系,然而作为人文学科的语言学怎么又能跟数学产生联系,这值得我们进一步研究、学习。我们都知道,语言作为一个符号系统在本质上是由一些离散的单元组成的,而数学又可以分为连续数学和离散数学两种,这样语言就可以基于它的本质特点与离散数学联系在一起,因此研究语言的方法自然就是离散的、代数的,所以便会产生代数语言学这一分支。

代数语言学又叫形式语言学,它是用来研究一般的抽象符号系统,对传统语言学概念进行逻辑分析,提出精确的语言模型,把语言学改造成现代科学的演绎系统,以便适用于计算机处理。这也能为自然语言的信息处理提供理论基础。代数语言学认为语言拥有一种递归机制和生成功能,也就是说有限的语言单位和规则可以生成无限的句子,可以用数学的方法将之公式化并创建普遍语法的数学模型。这说明代数语言学是基于规则的,它代表着数理语言学中的理性主义方法。在数理语言学的研究中,我们主张把经验主义的方法与理性主义的方法结合起来,因此,我们不能不注意这种基于理性主义的代数语言学。

代数语言学的产生与现代语言学关于语言本质的看法有密切关系。“结构主义语言学家索绪尔认为,语言是一个符号系统,在他的影响下,现代语言学一直向精密的方向发展。结构主义的三大学派之一哥本哈根学派所创立的理论对数理语言学的建立有很大影响。它以符号逻辑理论为方法论基础,试图演绎地建立一个适用于描写任何语言甚至根本不存在的语言的极其抽象的语言理论,这已经非常接近建立语言模型的思想。”[9]语言模型是语言客观事实的模拟,它是人们为了解释语言客观事实而设计出来的抽象系统,但它并不完全等同于语言客观事实,而只是语言客观事实的某种近似物。在语言模型与语言客观事实之间可以建立某种对应关系,但语言模型并不能完全充分地描写语言客观事实,它只提供出语言中个别成分的性质及关系的抽象描写。语言模型与语言客观事实之间的关系,正如数学上的抽象直线与客观世界中所存在的成千上万的各式各样的具体直线关系一样。语言模型是一个单纯的、统一的、抽象的形式系统。语言客观事实经过语言模型的描述之后比较适合于电子计算机对其进行自动加工,因而语言模型的研究对于自然语言的信息处理至关重要。

代数语言学发展的因素来自两个不同的方面、不同的领域,因而也就出现了两类不同的语言模型。一是源于乔姆斯基对自然语言研究而建立起的形式演绎系统,他把语言模型看作数学中的某种运算过程,由一套给定的元素、语法规则,生成词和句子,这类语言模型属于生成性语言模型;二是描述自然语言,也就是从已知的一个语言集合出发,分析它的结构、组成元素及相互关系,像这种找出一定的语法规则描述语言叫做语言的分析性模型。还有一种辨识性语言模型,这种语言模型是综合了上述两种语言模型而产生的,下面,就分别介绍这三种语言模型。

1.生成性语言模型

生成性模型最开始是用于研究自然语言的,但后来人们发现它与计算机有密切联系,所以对它的研究也就越来越多,并逐步引入数理语言学的研究中。所谓生成的观点就是制定一个有限的规则去孳生语言中无限个句子,它从一组规则系统着手,研究该规则系统所产生的语言。在前面,我们已经提到过,生成性语言模型是从已知的语法规则出发来研究由这个语法所生成的语言集合的性质。这一理论的代表人物是乔姆斯基,他在1957年写的《句法结构》一书中提出了转换生成语法,并指出“研究自然语言时应该寻求严密的形式化表达方式,一部语法应该是一套数目有限而且可以观察到的规则的集合,这一有限规则系统能生成数目无限多的句子”,他认为只有这样的语法才能反映人类语言能力的创造性。自然语言的结构可以看作是由词连接生成的无限句子,如果把词看成符号、句子看成由符号组合成的符号串,这样,语言就是按一定规则构成符号串的集合。例如,我们用L代表一种语言词的集合,但是这一集合中并不是所有符号都能组成符合语法的句子,比如说“小姑娘写作业”这个句子在汉语中成立,但由相同符号构成的“作业写小姑娘”则不成立。要想得到一种语言中成立的句子就要求我们能够制定出一定的规则,而这些规则构成的集合就叫“文法”。英语中常见的文法如下:

S→NP~VP

NP→T~N

VP→V+NP

其中,S表示句子、NP是名词短语、VP是动词短语,T、N、V分别表示限定词、名词、动词,NP、VP都是非终极符号,也就是说它们可以继续拆分,而T、N、V都是终极符号。下面通过列举一个句子来看句子的生成过程:

img2

The girl writes the homework

对生成性模型应用的文章主要有白世云的《代数语言学与英语的歧义现象》(1995),这篇文章运用离散数学的办法研究语言的数学模型,从而对语言的有关现象进行严格、精确的描述,建立语言的模型理论。

2.分析性语言模型

与生成性语言模型相反,分析性语言模型理论是从一个已知的语言集合出发分析它的结构、组成元素及相互关系,并运用一定的数学方法来描写词形变化、语法结构。这种描写的方法首先是提出数学模型,再从严格定义的最基本的原理概念出发,弄清这个模型各对象之间的关系,并利用演绎法使其他的一些语言学概念以及其间的关系成为前者的逻辑推论,即用一个严格的演绎系统描述整个语言体系。这种模型以前苏联数学家库拉金娜提出的语言模型为代表,她的语言模型主要是采用美国描写语言学的思路和方法,她指出,在某种具体的自然语言中,通过毗连运算而形成的词的一切组合可以分为两个子集:一个是成立句子的子集,另一个是不成立句子的子集。分析性语言模型把语言定义为词的集合W以及由W中的词构成的成立句子的集合θ,这里所说的“成立”是指语法上正确,而不考虑语义是否正确,也就是说,像“他在看电视”和“电视在看他”都成立。

分析性模型的研究涉及普通语言学的很多方面,对某些语言学概念作了精确的描述,从而也产生一些数学结构。但它所取得的成就不论从语言学角度、数学角度或应用角度来看,都未达到令人满意的程度。分析性模型的发展的时间并不长,并未受到足够的关注,因此我们不能对它有过多的要求。同时,从现有成果来看,应用数学思想和数学方法来研究语言现象,把语言学改造为精确、严格的演绎系统,在目前不仅必要而且是完全可能的。另外,从方法论的角度来看,把数学思想和数学方法引进语言学,进行演绎的研究,打破语言学上传统的归纳方法的束缚,这无疑是一次革命性的措施。[10]

由于分析性模型的发展毕竟只有短短几十年的历史,而且还未受到足够广泛的注意,它的研究目前仍处于局部模型化阶段,停留在个别语言现象的描述上,很少能进入实用阶段,因此大多数人更关注生成性模型。

3.辨识性语言模型

辨识性语言模型是综合了生成性语言模型和分析性语言模型的一种语言模型,它很具有实用价值,能从某种语言的文法规则出发,通过有穷步骤,来判断一些元素是否是合乎文法规则的句子。

辨识模型从识别角度描述语言,采用了数学形式化的演绎的语言研究方法,便于机器模拟,促进了数学和计算机科学在语言学领域的渗透,辨识模型的方法和思想所能给予人们的帮助是多方面的。例如,设计一台装置,它可以在有穷步骤内,识别出输入的词串是否是语言的句子,针对特定的问题,有限状态自动机、下推自动机、线性有界自动机、图灵机都将是很好的识别器。辨识模型是根据识别观点构造的,它从语言元素的某一集合及规则系统出发,通过有穷步骤,确定这些元素是一堆杂乱无章的词还是语言的句子。但是,辨识模型的语言学背景并没有摆脱描写语言学和结构主义语言学的束缚,而且它是否客观地把握了现象的主要矛盾实质、满足数学上的要求还有待进一步讨论。“可以说,辨识模型乃至整个代数语言学的理论似乎仍然处于尚未成熟的阶段,其原因主要有两点:一是语言研究本身的复杂性。语言有它与一般符号系统相似的形式,但更具有同人类思维密切相关的内容,用数学方法来描述语言不是一件容易的事。二是人们对进一步的认识不足、不统一。就目前人们对语言的认识来看,语言形式的研究是完全必要的,但这种研究需要或是否能够达到某一深度,人们的反映是模糊的。”[11]

由此,我们可以知道,就像分析性语言模型存在的问题一样,一旦涉及语义问题,各种语言模型都会遇到解决不了的麻烦,以至于让人们怀疑这一理论。所以,仅仅从形式上去研究语言是远远不够的,我们必须探求新方法来解决语言构造问题,进而深入语言的内部即语义学领域。这些要求也就推动了数理语言学的进一步发展,走向第三个阶段——应用数理语言学。

(三)应用数理语言学

当下,社会已经进入了信息时代,人们的生活中都被大量的信息所包围,由于信息的大量涌现,通讯的重要性和复杂性在现代生活中日益突出。就如同计算机科学一样,数理语言学已经置身于现代前沿科学之林,而它的研究成果已经广泛地应用于人工智能、机器翻译、情报检索、语言文字信息处理等领域,因而这一阶段的数理语言学被称作应用数理语言学。

应用数理语言学也称计算语言学或算法语言学,它兴起于20世纪70年代,是把计算语言学和代数语言学的理论应用于科学实验和生产斗争的实践,这一阶段主要采用计算机来进行语言研究。它认为语言是由一系列的层次组成的,各层次本身都有一定的结构形式,而各层次之间都有一定的对应关系。应用数理语言学具有很强的实用价值,现代的人工智能技术都离不开它。

当然,像机器翻译这类人工智能技术,它要求对人所输入的信息进行迅速准确的处理,而这种处理技术是建立在机器具有分析、判断能力的基础上的,因而需要机器能真正地成为人类大脑的模拟和延长,独立解决各种问题。但是语言中最棘手的问题是语言的模糊性,因此有些人把模糊语言学作为数理语言学的第三个阶段。语言是一个社会现象,它涉及社会生活中的各个领域,同时也受到说话人和周围环境的影响,因而使语言有很大的模糊性。人们可以对界限不清晰的概念进行分辨,但机器则不可以,而要克服这一问题就要充分研究语言变量中的模糊性,使模糊的语义变得清晰起来,来帮助计算机克服这一弱点。

一 直以来,学术界都没能给计算语言学下一个统一的定义,在《大不列颠百科全书》中给出了这样的定义:计算语言学是利用电子数字计算机进行的语言分析。计算分析最常用于处理一些基本的语言数据——例如建立语音、词、词元素的搭配以及统计它们的频率。就目前计算语言学的发展来看,这个定义似乎还有一定的历史局限性,因为,目前计算语言学的研究已经远远超出了搭配和频率统计的范围。但实际上,站在不同的立场上会对计算语言学做出不同的理解。

应用数理语言学实际上就是把语言的研究归结为建立“表层结构”和“底层结构”的关系。应用数理语言学认为,语言是由一系列层次组成,各层次本身都有一定的结构形式,各层次之间都有一定的对应关系。例如,音位、词汇、语句的序列等都是语言的某个层次。在音位学中,语音是底层、音位就是表层,算法语言学是把这种底层结构作为一种抽象的符号系统来处理,通常采用图论中的树形图作为分析表达工具,这样才能从表层中挖掘出它的深层本质,进而也可以解决一些代数语言学中遇到的问题。

数理语言学可以应用到很多领域,例如,在文字信息处理系统中,编辑索引书目、机器词典、术语数据库、情报检索系统、档案管理系统、自动作文摘、语言统计分析研究、书面语言控制系统、程序教学等需要引入数理语言学的知识,而在与其他自然语言转换的系统中,机器翻译(外国语↔汉语、少数民族语言↔汉语)、外语程序教学、旅游翻译机等更需要数理语言学的帮助。

1.中文信息处理

中文信息处理是对数理语言学应用的一个很重要的部分,所谓中文信息处理就是指用电子计算机对信息进行各种加工,不外乎图像信息和语音信息的识别、模拟、分析和转换。中文信息处理系统除了要以汉字信息处理系统作为条件外还要带有为不同目的服务的各种应用软件。

中文是自然语言的一种,因此中文信息处理也是自然语言处理的一部分,中文信息处理要研究的项目有很多,例如,机器翻译、汉字信息处理、言语统计、术语数据库等。由此可见,中文信息处理在现代科学技术中的应用是很广泛的,当然,随着新技术革命的不断深入,中文信息处理的研究范围也会逐步扩大,来满足人们的需求。以中文信息处理中的一个内容——言语统计为例,看看它到底有什么作用。

(1)言语统计

言语统计是中文信息处理的一个重要组成部分,其目的在于根据量的描述作出质的评价。例如音位、音节、声调等语音特征的统计对以字音为主的汉字编码方案的设计有很大帮助。另外,字的频率统计对以字形为主的编码方案的设计及键盘的设计也有重要的参考价值。人工统计已经有很长的历史,前面提到过,我国的第一部汉语频率字典是教育家陈鹤琴编写的,但是到目前为止,我们主要进行的还是字频统计,而且是人工的。近年来,利用电子计算机进行言语统副产品计工作既快又准、统计量不受限制,而且能够提供多种参数,因而促进了统计语言学的发展。

言语统计的基础是语料库,同时语料库又是言语统计的副产品,因为每次统计之后语料库就会不断扩大。所以说,要想做好言语统计,重要的是要设计好语料库,如果语料库编排得好就能提供不少副产品。例如,统计两本书之后就可以利用所存的语料编制逐词索引和试题库,语料库编排合理与否直接影响到语料库的发挥和副产品的多少。还有就是语料的标记是最重要的问题,如果要想得到词类参数就得给每个词注上词类标志,若得不到词类参数,那么那些依靠词类才能得到的语法参数就更谈不上了,标记词类可以不受研究深度的限制,有些词的分类尚无定论也没关系,可以如实地把各种可能性都标记出来。例如,一个词可能是V,可能是N,还可能是A,那就把它归为VNA类词。通过这种统计有可能促进词类问题的解决,从而也就能为中文信息处理提供有效的帮助。

有关言语统计的文章主要有:白水的《言语统计和语料库》(1985),这篇文章认为言语统计的目的在于根据量的描述给出质的评价,即依靠定量分析得出定性分析,统计结果一般是做出各种频度表,供各个不同专业的人员使用,而利用电子计算机进行言语统计工作则既快又准,使统计量不受限制,且能提供多种参数,因此促进了统计语言学的大发展;刘小虎等人的《基于词典和统计的语料库词汇级对齐算法》(1997),针对汉英句子一级对齐的语料库,提出了借助于词典和语料库统计信息的有效的对齐算法;隋桂岚、孙利望、李学勤的《语料库、统计学与文体分析》(2003),以语料库为依据,通过计算机语言处理软件,对语料进行对比分析和统计测试的方法引入文体分析之中,这使我们能更直观、更清楚地认识各种语域变体的特点;封鹏程的《现代汉语法律语料库的建立及其词汇计量研究》(2005),通过对法律语料库中所有的词进行词频统计来提取出法律语域中的惯用表达式。

(2)机器翻译

我们已经进入了信息化时代,因此语言就成为最主要的负荷者,所以,当前全人类共同面临的问题就是如何有效地使用现代化的手段来突破各种语言之间的障碍。机器翻译是用电子计算机来进行不同语言之间的自动翻译,它应该是目前解决语言间障碍的最好方法。可以说进入21世纪以来,每个人都生活在网络信息时代,这一时代的特点就是人们要频繁地与计算机打交道,所以机器翻译或多或少地都会对我们产生影响。可以说机器翻译是当代科学技术十大难题之一,因此要是能掌握机器翻译技术就等于把科学技术又向前推进了一步。机器翻译不同于传统的翻译模式,机器翻译主要是借助电子计算机这一现代化工具来实现,它是自然语言计算机处理的一个历史悠久的部分,也是信息时代语言应用的一个重要领域。这门科学兴起于20世纪50年代初,现在处于不断的发展当中。机器翻译是数理语言学的一个应用领域,它结合了语言学、数学和计算机科学这三门学科,通常由语言学家提供词典和语法规则,数学家再将语言学家提供的材料形式化和代码化,然后再由计算机专家给机器翻译提供软件手段和硬件设备,这三方面缺少任何一个方面都不能完成机器翻译工作。

近十年来,人们对于机器翻译的兴趣日益增加,由于计算机科学技术的快速发展及语言学的进步,机器翻译也有重大进展。当前是一个信息爆炸的时代,所以有大量的科技文献亟待翻译,这也就更加促成机器翻译的发展。但是,机器翻译工作也并不是顺利的,经常会出现一些翻译系统的失败。这种失败固然与计算机的硬件或软件有关,可是主要原因还是在于语言学所提供的形式化语言模型过于简单和某些本质上的不准确性。因此,要想提高机器翻译的准确性就要大力开展语言学基础研究,使之能与计算机更好地结合在一起,为机器翻译提供便利的条件。

(3)情报检索

所谓的情报检索是指知识信息或情报按照特定方式贮存和按照特定需要查找的过程,而采用电子计算机实现这一过程的就是计算机情报检索。[12]

早期的情报检索一般都是手工检索,后来又有了机械检索。随着计算机的出现,20世纪50年代初期出现了计算机情报检索系统,计算机的介入使得情报检索更准确、更快速、更方便。情报检索的重要环节是文献的分类,然后在此基础上建立主题词表,通过输入关键词来查找想要的资料,这比以往的手工检索和机械检索要方便多了。但这也提醒了我们,语言是信息最重要的载体,是科技情报的主要负荷者,所以文献语言研究的深度对于情报检索的效率有很大影响。因此情报检索系统中的关键问题是情报检索语言的建立,这种语言应该具备精确表达文献主题和提问主题所需要的词汇和语法手段,不应产生歧义、不受使用者主观因素的影响且便于用程序运算方式进行检索。要做到这些,我们就得消除术语的同义性和多义性,用既经济又足够的语法手段来表达必要的语法关系。

情报检索在我国发展很快,由于计算机中文信息处理水平的不断提高,情报检索系统已经取得了很大的成功,人们可以通过输入主题词或关键词等方式查找自己想要的信息,这一程序大大提高了人们的工作效率和准确度。关于这方面的论文有很多。例如:罗惠阳的《情报检索策略构造技巧探析》(1996),在分析情报提问的基础上,确定检索用词,并运用检索逻辑构造检索提问式,并对其查找途径和步骤作出科学的安排;艾露的《超文本在情报检索中的应用》(1998),概述了超文本的概念与特点、超文本技术在情报检索中的应用情况及其体现出的优越性以及超文本检索系统的模型及发展趋势;寇钧锋的《论自然与人工情报检索语言》(2000),通过对人工语言和自然语言的概念及优缺点的对比论证,提出随着计算机等技术的发展,未来的情报检索语言应该是对自然语言进行适当控制的一种综合性情报检索语言;戴平、李法运的《情报检索10年来发展的哲学思考》(2004),通过对情报检索诞生以来、尤其是近十年来的理论研究和工作实践进行历史的梳理后发现,情报检索的哲学即其基本理论已发生了深刻的变化,其哲学基础完成了从传统的理性主义观点向认知观点的过渡。

2.计算机辅助教学

“所谓的计算机辅助教学是指采用电子计算机协助教学活动。它的英文原名是Computer Aided Instruction,是把某一学科的理论和知识按教学方法和教学模式设计在计算机和软件上,用于辅助教学。”[13]在语言教学中,计算机的引入产生了巨大的积极作用。在应用数理语言学阶段,计算机辅助教学也是一个重要领域。

(1)教学软件的种类

就教学软件的服务对象来看,可以分为面向教师和面向学生两类。对于教师来说,借助计算机,可以研制出面向学生的教学软件,教师可以借助这一工具统计词汇、分析句型、分析试卷等。对于学生来说,教学软件可以使他们对教师所讲的内容一目了然、便于他们理解以及课后的复习,同时也节省了课堂时间、提高了上课的效率。

(2)CA I的优点

计算机辅助教学有很多的优点。首先,学生可以根据自己对知识点的掌握情况来选择是复习前一课还是预习下一课。例如,在英语听力上,学生若没听懂课上内容,可以反复练习直至听懂为止,还可以根据所听内容作练习。第二,这种机器学习不会给学生带来压力,他们不用再考虑自己不会这一内容会不会引来老师和同学的嘲笑。这使老师学生之间的交流更随意、亲切。

(3)CA I的意义

计算机辅助教学具有深远的意义,将计算机引入到语言教学中可以提高教学质量。多年来,我们一直在探讨教育改革,事实上,计算机的引入应该算作很重要的改革,这说明教育改革已经充分认识到现代化的重要性。

计算机辅助语言教学有助于克服传统教学的很多不足。语言的学习主要以练习为主,如果让每个人在课堂上都得到练习显然是不可能的,一来时间不允许、二来这样也会影响教学进度;其次,每个人掌握语言的能力都是不同的,因此,个体之间一定会存在很多差异。对于这种差异,计算机辅助语言教学能够很好的解决。从根本上说,计算机辅助教学将传统的封闭型课堂教育转变为开放型的社会教育,从集体听讲变为个别讲授,这些变革使教育事业更好的向前发展。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈