词语行为特征的统计信息

时间：2023-03-30 理论教育版权反馈

【摘要】：2.5　词语行为特征的统计信息笔者所研究的词语学是隶属于语料库语言学的“下一级学科”。词语的典型性行为特征是语料库语言学研究的价值取向,是对语言运用事实的观察、总结和描述。在基于语料库的词语行为特征研究的过程中,需要运用数理统计的手段来处理词语的典型性问题。

2.5　词语行为特征的统计信息

笔者所研究的词语学是隶属于语料库语言学的“下一级学科”。因为语料库语言学研究语言所依赖的是概率模型,是基于频率信息来研究词语的动态行为特征的。这给语言中的词汇研究提供了一种全新的思路,以语料库语言学为基础的词语学面对大量的、真实的语言数据,以实际使用中的语言现象的出现概率为依据,揭示出自然语言中词语行为的本质性特征。词语学借助于概率模型的研究方法,突显出语言交际过程中的具有高频现象的词语型式,高频的词语型式应对的是词语使用的典型性。如果将基于概率信息的词语研究与以乔姆斯基（Noam Chomsky）的转换生成语法为典型代表的心灵主义的研究方法进行比对,我们也可以罗列出一些“二元对立”（dichotomy）研究价值取向：典型性与可能性、核心词语型式与边缘词语型式、大概率语言事件与小概率语言事件等。

典型性（typicality）与可能性（possibility）。词语的典型性行为特征是语料库语言学研究的价值取向,是对语言运用事实的观察、总结和描述。而可能性只能是依赖操母语者的人脑语言机制加以判断,无法做到“直接观察”。参照乔姆斯基的观点,语言学研究的对象是人脑的语言机制,即为什么操本族语的人有能力生成和理解无限数量的合乎语法的句子并且有能力识别不合语法的句子。可能性是理想的本族语者语言运用的“待选机制”。但是语言研究中,我们主张“所见可做决定；所思仅供参考”。由于乔姆斯基认为语言运用会受到各种因素的干扰,不能用来揭示语言的本质,因此他极力反对研究具体的语料。他认为“任何自然语料都是偏颇的,对其描述只不过是列举一张清单而已”（Chomsky 1962：59）。乔氏“一语成谶”,语料库语言学在20世纪60年代后一度陷入低谷。然而,用主观臆造的例句来阐释语言理论的方法无疑是先验论的。因此,辛克莱曾经针锋相对地讽刺心灵主义者是在“拿一束塑料花就去研究植物学”（Sinclair 1991：5）。辛克莱认为“没有不可能的词语搭配,但是一些搭配比另外一些搭配更为恰当”（1966：411）。

核心词语型式与边缘词语型式。前者是指人们在语言交际过程中经年累月使用、渐次形成的词语使用方式。这种词语表达成为语言社团中人们经常性使用的话语,能够方便于人们的语言意义表达。后者则是不合语言常规,创造性地使用语言。它多限定在一定的语言运用范围内,传达出一定的修辞性语言,是传统的文体学和文学研究的关注点。例如：英语中的wear一词的核心搭配是wear a new coat,wear her diamonds,wear an expensive perfume,wear glasses,wear seat belts等,但是wear an angry frown就属于边缘词语搭配型式。英语中的could/can not help DOING短语表达“禁不住,控制不住”的含义,DOING所代表的核心词汇（按照BNC语料库中MI值的排列）有over－hearing,noticing,liking,wondering,feeling,smiling,laughing,observing,thinking,hearing,remembering,wishing,falling in love,seeing,asking,边缘搭配词有saying（MI值：2.3042）,getting（MI值：1.9224）,looking（MI值：1.9072）,taking（MI值：1.1607）和making（MI值：0.9192）。没有could not/not help crying检索行出现。

大概率语言事件和小概率语言事件。词语行为研究数据处理是以语料库中重复发生的大概率语言事件为依据的,而小概率事件一般不作考虑。在此,我们需要对词语的频率概念做进一步的说明。语言系统中概率是词语的本质属性,韩礼德（Halliday 1991：31）对此有过表述,“语言系统具有内在的概率性”。语料库中的词语概率是会涉及一些相关的参数,包括频率、篇章分布率、专业分布率、大类分布率和选词指数等。在考虑词语的概率问题时,我们需要认识到词语的频率和覆盖率之间的关系不是线性关系。词语的分布率也会因为专业学科领域和语体的不同而发生变化（见杨惠中2002：24－26）。根据语言的概率性特征,我们便可以有效地获取不同类型的词语或多词序列形式。

在基于语料库的词语行为特征研究的过程中,需要运用数理统计的手段来处理词语的典型性问题。频率反映的是词语在实际的语言运用中的事实,是概率模型的基本信息。由一个词语或短语的形符在语料库中的观察频率（observed frequency）,我们会得出其相应的期望频数（expected frequency）。语料库语言学中,对于词语的行为特征分析,我们会采用以下的统计方法,包括Z值检验、T值检验、MI相互吸引值的计算（mutual information value）、似然对数值计算（log－likelihood）、Dice值计算、φ值计算、卡方检验（chi－square test）、费舍尔精确性检验（Fisher Exactness Test）、聚类分析（cluster analysis）和因子分析（factor analysis）等概率信息的统计方法。对于以上的计算方法,我们需要针对不同的语言数据采用不同的计算方法,比如需要考虑语言数据是否是正态分布,样本的大小,节点词左右的跨距等因素。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈