首页 理论教育 科技英语词汇提取方法

科技英语词汇提取方法

时间:2022-03-30 理论教育 版权反馈
【摘要】:4.3 科技英语词汇提取方法对科技英语技术词提取方法的研究,主要以Mona Baker,Becka,YangHuizhong(杨惠中),Teresa Mihwa Chung和Paul Nation等人为代表。表4.1 JDEST学术英语语料库频率词表选例加强对技术词和次技术词的研究对科技英语中概念称谓和语篇的词汇模型具有铺垫作用。这些研究最终都需要落实在科技英语中以词形为显现方式的词语行为特征的探究之中。

4.3 科技英语词汇提取方法

对科技英语技术词提取方法的研究,主要以Mona Baker,Becka,YangHuizhong(杨惠中),Teresa Mihwa Chung和Paul Nation等人为代表。他们选择不同领域的科技文本,如解剖学文本以及应用语言学文本进行分析,最终提取不同级别的科技词汇。他们所采用的方法主要有以下几种:

第一种方法是依赖某一领域专家的直觉进行判断。这种方法又可以细分为三类:①运用等级评价的方法(Baker,1988:91-105;Farrell,1990);②运用由专家编纂的科技英语词典进行参考(Nation,2001:201;Oh et al.,2000:287-311);③运用具体语境中的线索来判断。大部分的专家或科技文本的实际作者为了强调或介绍某个术语会特意在文本中留下线索帮助读者定位和理解该技术词(Bramki & Williams,1984:168-181;Flowerdew,1992:202-221;Williams,1981:49-59)。

第二种方法就是运用语料库的技术手段来提取不同级别的科技词汇的方法。一般地说,我们对技术词的定义是技术词是仅仅出现于个别相关学科子库中,频率低的技术词汇;而次技术词是指在科技英语语料库的各学科子库中频率较高,分布均匀的通用技术词汇。语料库语言学对词语的分类提取是依据词语概率特征来操作的,包括频率、篇章分布率、专业分布率、大类分布率和选词指数等。在考虑词语的概率问题时,我们需要了解词语的频率和覆盖率之间的关系不是线性关系。词语的分布率会因为专业学科领域和语体的不同而发生变化。换句话说,有些词语在不同的专业学科领域或是不同语体的文本中出现的频率都很高;另外有些词语则仅仅局限于某些特定的学科领域中(见杨惠中2002:24-26)。表4.1中的后四个词besides,wait,carbonate和annulus就属于这种情况。频率相同而后面四项指标则相差甚远。

根据词的统计特征,我们得到三类词。第一类是功能词,频率高,分布率也高。功能词包括介词、代词、连词等,是封闭性的词类(closed class);第二类是专业性术语,属技术词。这类词在相应的专业门类的文本中频率较高,但是在跨领域的文本中,频率极低甚至为零;第三类是介入两者之间的准技术词(semi-technical word),此类词的频率处于次高频,词义具有跨学科的特点。为了综合考虑频率、分布率和覆盖率等因素,我们选词或是选取多词序列时,可以采用下列的选词公式:

I={αlog F+βlog Dt+γ(Ds-1)}0.5×1000

式中:I为选词指数;F为频率;Dt为篇章分布率;Ds为专业分布率;α,β,γ为经验数据。

表4.1 JDEST学术英语语料库频率词表选例

img4

加强对技术词和次技术词的研究对科技英语中概念称谓和语篇的词汇模型具有铺垫作用(Becka,1972:46-67;Yang,1986:93-103)。这些研究最终都需要落实在科技英语中以词形为显现方式的词语行为特征的探究之中。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈