首页 理论教育 检索和研究

检索和研究

时间:2022-04-07 理论教育 版权反馈
【摘要】:在语料库语言学研究领域,受关注最多的是基于语料库的共时研究。一般说来,普通的语料库检索程序可以用于历时语料的检索和分析,但理想的检索平台应该能够根据历时语料的特点和研究要求来呈现语言数据。我们先看基于历史语料库的词汇/句法变化研究。

语料库语言学研究领域,受关注最多的是基于语料库的共时研究。其主要原因是LOB、Brown、BNC和COCA等流行于学界的语料库提供的是共时检索平台,这些平台适合语言的共时变异研究。随着研究的深入,人们开始将研究兴趣扩展到语言早期的变异和语言古往今来的变化,这必然会重新唤起对历史语言材料的兴趣。本节先介绍两个可以用于历时研究的历史语料库,然后介绍与之相关的历时语言研究。

1.3.1 两个重要的历史语料库

对于历史语料库研究的兴趣大多是由Helsinki Corpus(730—1710)语料库的创建催生的。该库规模不大,只有150万英语词,包含古英语时期(始于8世纪)、中古英语和早期现代英语(18世纪上半叶)。这两个时期的语料又进一步分为多个子时段(subperiods),每一时段涵盖70至100年的语料,构成有序的时段。此外,该语料库中的语料代表英格兰不同方言区的语言,还包含不同的体裁(法律文本、总价文本、小说、书信);从中古英语开始还含有作者的社会文化信息(年龄、性别)。这些参数均赋码于语料文件里,如表1-1所示:

表1-1 The Helsinki Corpus of English Texts使用的文本及作者参数编码[5]

从表1-1中看出,Helsinki语料库提供的文本元数据既能满足历时研究需要,又能用于共时研究,如翻译文本和原创文本的语言差异研究(如F),语言变体研究(如D、V、X),历史文体学研究(如T、H),等等。这为语料库的多用途设计提供了重要的参考。

当然,Helsinki Corpus只做到1710年,以后的英语语料阙如。为了填补这一空白(Meyer,2002:16-17),Biber等从1990年代初开始创建历史语料库ARCHER(A Representative Corpus of English Historical Registers)。最初,该库将时间框架设定为1650—1990年,每50年为一个时段,每个时段至少有10个文本。文本随机选取,抽样框架为现有的文献目录(D.Biber、E.Finegan et al., 1994:3)。但该库最新的版本ARCHER3.2(2013)已将结束时间前推至1600年,后延至1999年。所以,从时间框架上看,也不能简单说是为了填补Helsinki Corpus留下的时间空白。另外,该库包含英国英语和美国英语两种变体,美国英语最早取样时间为1750年。像Helsinki语料库一样,该库每50年为1个时段,共8个时段,也就是8个子库。到目前为止,该语料库已经涵盖12个体裁[6](最初设计为11个,实际只有9个),体裁和规模在不断丰富和扩大,还包含更具口语化的体裁,如小说对话和布道词等。从库容上看,该语料库库容在不断扩增,已达330万词(初期为190万词)。

1.3.2 历时语料的检索

目前用于研究的历史/历时语料库大多不是对外开放的,更难以在线检索、使用。一般说来,普通的语料库检索程序可以用于历时语料的检索和分析,但理想的检索平台应该能够根据历时语料的特点和研究要求来呈现语言数据。在这方面, Mark Davies做了重要贡献。这位杨百翰大学(Brigham Young University)的语言学教授长期从事语料库语言学、历史比较语言学和语体研究,成果丰硕,他发起创建的COHA[7]在检索方法上值得参考。

COHA收录了1810—2009,时间跨度近200年的美国英语文本,库容4亿词。其规模远远超过90年代创建的Helsinki Corpus和ARCHER语料库。尽管其抽样框架不如其他语料库理想[8],COHA提供的在线检索平台还是给研究带来了很大的方便,也是目前最广泛使用的语料库之一。

该库可以观察词汇、词组和语法结构频率的历时变化,词汇意义的变化,以及文体的变化。比如,该库可以使用CHART,即使用表1-2形式呈现语言形式使用频率的历时变化(检索项目是manyatime)。

表1-2 COHA中“many a time”使用的历时分布

可以发现,检索项目的使用频率200年来总体上呈现下降趋势。当然,我们还有可能发现特定语言项目使用频率的上升趋势,或者先降后升的趋势,等等。

该平台还有COMPARE(对比两个词的用法)、COLLOCATES(搭配检索)或者按照年度、词性以及使用通配符检索的功能,允许多样的语料检索和数据提取方式,满足历时语言研究的需求。

另一个不错的检索平台是PPCHE(Penn-Helsinki Parsed Corpora of Historical English)。该库收集了从中古英语早期到第一次世界大战期间的散文文本。文本有三种形式,简单文本、词性标注文本和句法标注的文本。句法标注既允许词和词串检索,也允许句法结构的检索。它的在线演示版(http://www.ling.upenn.edu/hist-corpora/histcorpora-demo.html)提供了简单词和词串检索,词性检索,以及句法切分的短语结构检索。在语言形式特征的检索上明显高于目前常见的其他语料库(Kroch&Taylor,2014)。

还有一个标注程度更深的语料库是当代英语口语历时语料库(DCPSE)。语料来源于自然的英国英语口语。该库包含两个等量、可类比的部分:一是1960—1976年时段的语料,而是1990年代早期开始的语料。该库库容不大,仅为80万词,但标注内容丰富,该库不仅有语法标注(词性和句法标注),还有语篇标注(如说话者标注)。这些标注能为使用者进行多层面的语言研究提供方便,尤其适合当代英语的发展变化研究。

1.3.3 基于历史语料库的历时语言研究

建立历史语料库,除了满足一般意义上的词素、句法和词汇研究,还支持从变体角度研究语言演化的过程,而它的更高追求则是让历时语料支持社会语言学研究。我们先看基于历史语料库的词汇/句法变化研究。

1)特定词汇或句子结构的研究

Peitsara(1993:219234)使用Helsinki Corpus研究英语被动句中施事短语使用的发展状况,重点是中古英语晚期和现代英语早期(1350—1640,现代英语转型期)施事介词短语的分布状况。自古英语以来,of,by,with,through,from都曾用来引出施事,但这一功能在今天已逐渐归由by这一个介词来承担。这个变化过程是如何实现的? 为回答这个问题,作者选择这一转型剧烈的时期,从四个子时段(即中古英语3期、4期和现代英语1期、2期)观察细微的历时变化,并得到表1-3的结果(摘自Peitsara,1993:231)。

表1-3 所有介词短语中施事性介词短语所占比例

(续表)

表1-3显示,统观这四个时期,尽管介词by功能多,但引出施事是它的主要功能;而of引出施事的功能并不突出。主要原因是of在中古英语时期已经语法化成属格,要承担其他多种重要的功能,引导施事的功能故而不强。进一步说,by当时还没有完全语法化,就是到了今天,它承担的功能似也少于of(Peitsara, 1993:231);既然by承担的功能相对较少,主要用它来引出施事者自然最合适。

2)体裁的变异

早在1987年,Biber和Finegan(2004:67)指出,极少有语言研究分析体裁的历时演化,即便是在历史语言学领域,也极少有研究注意到某类篇章的语言特征也会发生历时变化。Biber和Finegan试图运用语料库语言研究手段探讨三类英语体裁的历史变迁,具体说来,就是使用语言变异的多维度分析来描述和比较语言使用的变体。这里说的多个维度基于67个他们认为是比较重要的语言特征(linguistic features),考察这些特征在文本中的分布状况。

从理论上说,列在维度之下的语言特征集会在文本中频繁共现,这样就可以通过因子分析,使用量化手段识别出共现模式。Biber和Finegan提出了三个维度:①参与度(Involvement),表达说话者的互动、情感态度,如主观动词(private verbs)[9]、省略补语从句中的that、压缩形式如I’m、第一人称、第二人称,等等;或者表达信息性,如名词、介词短语、属性形容词、地点状语,等等。②详述(Elaboration),涉及篇章内部(高详述度)和外部(依赖情景,低详述度)指称的识别。如关系从句、名物化的详述度高,而时间、地点状语的使用详述度低,等等。③抽象文体(Abstract style),所谓抽象是指使用被动或者过去分词短语时施事的突出度降低,而受事角色得到凸显;受事通常比较抽象,故称抽象文体。这种抽象程度可以通过考察被动句、过去分词短语或者无施事被动句构成的特征集去发现。

为了研究这些语言特征的历时变化,Biber和Finegan使用了86个历史文本,分别来自18世纪(23个文本)、19世纪(至1865年,30个文本)和现代时期(1865—1950年,34个文本),文本体裁有小品文、小说和信件(18世纪末收录信件)。检索得到这些特征的频次后,再通过因子分析得到3个世纪来这三类体裁的维度得分。研究发现,就小品文而言,详述维度的变化不大,但方向一致。小品文的变化在18和19世纪不明显,文体上都使用被动句偏多,较为抽象,技术性文本特征明显。但从19世纪到现代时期小品文的变化显著,现在已经不能称作抽象文体了。使用同样方法观察抽象风格维度的得分,会发现小说的抽象度变化剧烈,每个时期的变化都很明显。

Finegan和Biber(1995)还尝试把历史语料库ARCHER和Helsinki Corpus结合起来研究使用that和不使用that的结构,如I know(that)he is right。一般认为,在现代英语里,使用that是正式文体标志,在学术和专著中使用偏多,而在非正式文体中使用偏少。Finegan和Biber却发现,自1750年后,所有体裁中使用that的趋势都在增强。没有历史语料的支持,这一异于一般看法的变化趋势是无法发现的。这说明不管是笔语还是口语,在记录语言变化方面,历时语料库大有作为。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈