首页 理论教育 值的计算方法

值的计算方法

时间:2022-03-30 理论教育 版权反馈
【摘要】:5.2.1 Z值的计算方法目前,语料库检索软件和统计的方法多用于计算两个单词之间的搭配力。在计算词项的搭配值时,无需考虑节点词在跨距内的语法因素。Z值表示的是节点词与搭配词相互预见或相互吸引的程度。MI值也同样可以用来计算词语与结构之间的相互吸引和预见性。表5.6 短语动词MAKE full use of所吸引的搭配词和Z值

5.2.1 Z值的计算方法

目前,语料库检索软件和统计的方法多用于计算两个单词之间的搭配力。Church和Hanks(1990)最先将“关联度测量法”(association measure)引入到词语搭配研究中,即运用点互信息来测量单词之间相互关联的显著性,从而实现计算机自动提取典型搭配。此后各种“关联度测量法”相继问世(如对数似然比log likelihood,Φ2算法,Dice算法,T检验,X2检验,Z值和MI值),这些计算方法都是用来测量两词之间的搭配力,即两个单词之间相互吸引和相互关联的程度(见Church & Hanks 1990;李晶洁卫乃兴2010)。在计算词项的搭配值时,无需考虑节点词在跨距内的语法因素。研究者需要测量的是搭配词在语料库中出现的概率的显著性。如果语料库的总库容量为W,某个搭配词在语料库中的观察频数为C1,那么,该搭配词在各个词位平均出现的频率计算为C1/W。如果搭配跨距限定为S,该搭配词与每个节点词共现的频率则为C1·(2S+1)/W(2S是指设定在节点词左右两侧4或是5个词的跨距位置,1为节点词所占的词位)。但是,当考虑该搭配词与观察频数为N的某个节点词共现的概率时,其理论上的概率P应该计算为

img9

用共现概率的理论值乘以库容W,可以求得该搭配词与节点词共现的期望频数(expected frequency)E。那么,搭配词与节点词共现的期望频数为

img10

这里的期望频数的计算涉及4项数据:语料库的总词数W,某个搭配词在语料库中的观察频数C1,限定跨距2S(根据词语结构实际,可作数值调整),节点词在语料库中出现的频数N。期望值E被用于词语搭配Z值的计算。Z值表示的是节点词与搭配词相互预见或相互吸引的程度。计算Z值需要利用已有的各种相关数值,进一步计算出搭配词在文本中分布的标准差

img11

用搭配词和节点词共现的实际频数C2与期望频数E之差除以标准差,即可求得Z值,即

img12

Z值的数值大小,可以用来判断词语搭配的强弱。词语搭配Z值需要在0.01的水平上才具备显著意义,Z值必须等于或大于2.576。设定2.576为临界值,研究者就可以获得具有显著意义的词语搭配,过滤掉那些对节点词没有预见作用的偶然搭配词。以下笔者以词形performed为例,选取了《东华大学科技英语语料库——通用英语子库》中的部分语料,包括自然科学总论、数理科学与化学、生物科学、医药卫生、农业科学、自动化和计算机技术的内容,进行了检索和Z值的计算。通过Z值的显示(见表5.5),我们可以看出performed词形(150例)所吸引的所有显著搭配词,包括tests,contraction,exercise,surgery,prediction,experiment,diagnosis,task,analysis,measurements,procedure和evaluation等。科技英语中词形performed所吸引的搭配词的词义主要释义为“检验、压缩、实验、诊断、分析、测量和评价”等科学实验方法。

表5.5 词形performed所吸引的搭配词和Z值

img13

传统的Z值计算方法主要是集中在两个词形之间,即节点词和搭配词之间搭配值的计算。随着语料库赋码技术的提高,我们可以运用词项归并(lemmatization)技术,对短语动词和搭配词之间、词语与结构之间的粘合力进行计算。在此,我们需要对以上的计算方法稍微做出调整:语料库的库容是形符(tokens)之和,可以通过Wordsmith 4.0词表生成功能获得。当我们计算多词序列和搭配词之间的Z值时,库容W作为分母不受太大的影响。按照词块的物理分割的方式处理,两词的数量为W-1,三词的数量为W-2,四词的数量为W-3,以此类推。从多词序列和词语意义的显性度的关系来看,词语序列越长,意义越显现;词语序列越长,频率越低。所以,跨距S的因素就可以做简化考虑。由于在计算搭配的过程中,我们需要考虑到词项归并的问题,所以,对于词项归并后的词元(lemma)和短语、构式与词语之间的搭配值尚需要人工来进行计算。笔者利用BNC语料库中《应用科学》与《自然科学》两个书面语子库,对MAKE full use of与其相关的搭配名词进行了检索和计算(见表5.6)。这里MAKE是词元,包括make,makes,made,making等多种屈折形式。MI值也同样可以用来计算词语与结构之间的相互吸引和预见性。以下笔者将进行说明。

表5.6 短语动词MAKE full use of所吸引的搭配词和Z值

img14

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈