首页 理论教育 对和搭配词的提取与计算分析

对和搭配词的提取与计算分析

时间:2022-03-30 理论教育 版权反馈
【摘要】:在对于amplifier和amplifiers各自5/5搭配幅度内的所有搭配词进行了提取和统计之后,我们发现以上三个子语料库中amplifier和amplifiers于搭配幅度内的有效搭配词分别为20个和9个,其中7个搭配词为它们所共享;而Doyle仅发现三个共享搭配词,分别为first,input和voltage,数据存在一点差别,这可能与其选择的题材和库容有关。这一结果与各子库中的两个词形出现频率的高相关性也是吻合的。

7.2.1 对amplifier和amplifiers搭配词的提取与计算分析

利用Wordsmith 4.0的词图工具,笔者对JDEST语料库的32个子库(子库的材料是按照工科的专业收集分类的),就四组词形amplifier,amplifiers;frequency,frequencies;antibody,antibodies和gene,genes分别进行了检索统计,对四组词形在各个子库中出现的频率进行了相关系数计算,频率的高低能够有效地反映出这些词形与子库内的篇章意义的关联性大小,为随后研究中的子库选择提供了数理依据;而0~1区间的相关系数则能够积极反映出相关词形落户同类篇章中的词汇模型的可能性。由于提取的方法有极大的雷同,笔者仅以词形amplifier和amplifiers为例,对子库的加工、选择、相关系数的计算进行交待。以下frequency,frequencies;antibody,antibodies和gene,genes三组词形的研究方法大体一致,读者可以依样而行。

依据File列的子库号和Hits列的词形频率(见图7.1、图7.2),我们可以罗列出词形amplifier和amplifiers出现的子库和它们的频率矩阵,然后对它们的相关系数进行计算,以确定子库的选择,最大限度地保证研究的信度和效度。

img61

图7.1 词形amplifier在JDEST语料库各子库中的词图统计

(注:File列为子库号;Hits列为子库中的频率)

img62

图7.2 词形amplifiers在JDEST语料库各子库中的词图统计

表7.1 词形amplifier和amplifiers的子库出现频率(相关系数γ2=0.9241)

img63

(续表)

img64

依据相关系数γ2=0.9241可以推断词形amplifier和amplifiers各子语料库中出现频率的大体一致性,词形搭配的吻合度大体符合预期。参照词形频率,我们应该选择t221.lib,t281.lib和t41.lib三个子库进行词形搭配检索和聚类分析(cluster analysis)。以上三个子库中的文本分别为信号传输、声学和光学方面的文本内容。

依据《朗文当代高级英语词典》(1998:42),amplifier一词的词义为:an instrument,as used in radios and record players,that makes electrical current or power stronger,esp.so as to make sound louder(放大器、扩音器、扬声器)。在对于amplifier和amplifiers各自5/5搭配幅度内的所有搭配词进行了提取和统计之后,我们发现以上三个子语料库中amplifier和amplifiers于搭配幅度内的有效搭配词分别为20个和9个,其中7个搭配词为它们所共享;而Doyle仅发现三个共享搭配词,分别为first,input和voltage,数据存在一点差别,这可能与其选择的题材和库容有关。因为笔者如果将更多的子库,特别是电学和电磁学等文本容纳进来的话,这三个词将会出现在显著搭配词的行列中。经过数据比对(见表7.2,表7.3),我们发现amplifier和amplifiers左侧位置的搭配词与节点词的修饰关系最为密切,其左侧位置分别为operational(12次),power(10次),differential(8次),used(7次),band(6次),difference(5次),transistor(5次)等搭配词,这些搭配词都可以概括为放大器的“类型或种类”,词义分别为:运算、功率、微分、运用、波段、差异和导体。Amplifiers的左侧位置为power(9次),operational(7次),transistor(5次),used(3次),signal(4次),词义分别为:功率、运算、导体、运用和信号。这些搭配词也同样揭示amplifier的“类型或种类”值(MI值)来分析(见表7.2.1.5),我们发现amplifier和amplifiers两个词形所共享的搭配词operational,power,used,transistor,circuit和signal等搭配词的搭配值都在14以上,这说明了节点词所共享搭配词的数目和相互吸引值符合预期。这一结果与各子库中的两个词形出现频率的高相关性也是吻合的。以上的分析研究是语料库语言学研究的惯例性处理方法:利用语言的概率性特征以求取语言特征的共性研究,即语言特征中的“求同”。

表7.2 词形amplifier的20个搭配词的相互吸引值MI值

img65

(续表)

img66

(注: * 为节点词所在的位置;L1,L2,R1,R2等表示“左1,左2,右1,右2”等的位置。)

表7.3 词形amplifiers的9个搭配词的相互吸引值MI值

img67

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈