首页 理论教育 历时语料库的创建和研究

历时语料库的创建和研究

时间:2022-04-07 理论教育 版权反馈
【摘要】:历史语言研究基于过去的语言素材,天然亲近经验性语言数据;这一传统沿传至今,并在当代有了新的发展。

历史语言研究基于过去的语言素材,天然亲近经验性语言数据;这一传统沿传至今,并在当代有了新的发展。Lüdeling & Kytö(2008:vi)指出,现代语料库语言学得益于历时比较语言学,因为后者使用的研究素材总是文本或者文本的集合。而且,19世纪发展起来的语言谱系识别技术一直沿用至今,语言变化研究依旧仰赖早期的文本(也就是语料)。在此背景下,在欧美国家,自20世纪80年代以来,随着人们对语言历史发展兴趣重燃;随着计算机和信息技术在语言处理领域的广泛应用,可机读的便于检索和提取语言数据的历时语料库得到了飞速发展。基于这类语料库的语言研究蔚然大观,研究方法日益成熟,卓见迭出。在中国,历时语料库的创建和基于历时语料的研究起步较晚,语料库设计思路和研究思路较西方还远不够成熟,迫切需要对国外历时语料库的创建和研究有较多的了解。同时,基于语料库的历时语言研究本身也出现了许多问题和困难,这些都需要我们认真审视和总结。本章回顾二十多年来历史(时)语料库的发展状况,重点探讨该类语料库的设计、制作,以及基于这类语料库的语言研究。

1.2.1 历史语料库和历时语料库

研究语言变化,必然要用过去的语言素材。是过去的,自然就是历史的。但历史的不一定是历时的,因为后者专指抽取的素材在时间上具有连续性,甚至可以延续到当前的时间。而且,即便是共时研究,若研究对象为不同年龄段说话者,他们在言语习惯上的差异也会反映出语言的变化。这样说来,共时变异其实就是实时发生的各种语言变化,语言变化研究既需要共时语料库(synchronic corpus)又需要历时语料库(diachronic corpus)的支持。从时间关系上看,来自过去时间的历时语料和共时语料都属于历史语料(Claudia,2008:242)。比如,在历史语料库(historical corpus)里,按照时间顺序连续收集的语料是历时的,但其中能代表某一时段并作为独立单元收集的语料则属于共时语料。一般说来,为了观察语言变化,在较大时间范围内分不同阶段用同一框架抽取的语料是典型的历史语料,如Helsinki Corpus of English Texts(HC)收集的语料纵贯千年(750—1710),包含古英语、中古英语和现代英语。

历史语言学家和当代历时语言学家所言的历时采用的时间框架不同(Renouf,2007:38)。传统意义的历时性涉及的时间跨度较大,动辄几个世纪甚至跨越千年。相比而言,现代历时语言学家使用的时间跨度较小,通常只有10到30年的时间,主要有两种:一种是采用相同取样框架和设置,但按照时间顺序从不同时段选取语料,如20世纪60年的LOB语料库和它在90年代的克隆语料库(clone corpora)FLOB(类似的还有Brown和Frown),这类语料库属于历时语料库,支持历时语言研究。二是监控语料库(“monitor”corpus;或称“dynamic”corpus),这类语料库中的文本按照特定设计收集,所收文本在时间上具有连续性。根据Renouf(2007:36),监控/动态语料库到1990年才出现,来自Renouf主持的AVIATOR项目,库中语料为1988年以来《泰晤士报》的文本,文本按照时序不间断地收集;另一同类型监控语料库由ACRONYM项目于1994年开始创建,不过收集的是《独立报》的新闻文本。

从历史和历时的包容关系看,我们可以把在大跨度时间段内收集的历时语料称作历史语料库,而把当代出现的在跨度较小的时段内收集的历时语料称作现代历时语料库(modern diachronic corpus)。本章既探讨现代历时语料库,又探讨历史语料库,并探讨基于这些语料库的语言研究。

1.2.2 历史和历时语料库的创建目的

语文学和历史语言学(比较语言学)都使用既往的语言材料。前者探究词源,释读经典著作中的词汇;后者旨在建立语言谱系,关注音系和句法发展,但不关心其他语言特征的变化,如体裁上的变化。相比而言,现代历时语言研究中所关注的内容更加多元,越来越多的历时语言研究关注新词、新的搭配组合方式、词汇和句法变异,以及不同性别、不同社会阶层在语言使用上的历时变化;研究涉及的语言点多面广、层叠繁复,传统的历史比较手段难以驾驭,只能借助现代信息技术才有望高效、准确地检索、分析。Renouf(2007:36)认为,现代历时语料库(modern diachronic corpus)的研发主要有以下三个动机:

(1)认为语言处于时刻变化之中;

(2)认为语言变化原则上可以基于语料数据进行观察;

(3)希望了解语法和词汇的创新、变异和变化。

索绪尔之后的现代语言学强调共时研究的重要性,但也不贬低历时语言研究[1]。在当代,类型学和认知语言学依然关注语言内部特征的流变,历时观察和分析和共时研究一样不可或缺。

把语言视为不断变化的客体是历时语言研究的前提,但传统上此类研究借重印象和直觉,不使用量化数据(Biber & Finegan,2005:67)。但是,要考察语言变化,尤其是微观语言特征的变化,仅仅依靠内省,连描述充分性也无法实现,更无从解释语言的各种变化了。正是这个原因,我们需要经验性语言数据。实际上,比较语言学就是使用经验性数据,但受制于数据检索手段,比较语言学观察的范围和深度难如人意。在当代,信息检索技术飞速发展,在超大型语料中精确检索语言数据已成为可能,能够满足多层面、多角度的历时语言研究,建设大型历时语料库的时机已经到来。根据Renouf(2007)所言,历时语料库在西方也不过20年的时间。1990年,第一个历时语料库AVIATOR由伯明翰大学研制成功,另一个历时语料库ACRONYM于1994年建成,二者均收录使用连续出版的报刊。当然,目前还有代表性更强、跨度长达300多年的ARCHER平衡英语语料库,以及正在不断扩展中的4亿词COHA美国英语历史语料库。

1.2.3 历时语料库的结构:时间框架和抽样框架

历时语料,顾名思义就是指选择的语料在时间上具有连续性。语言变化通常是渐进的,也有可能在某一时间突发;有的语言变化对于社会变化不敏感(如语法),有些则与某个特殊的时代和社会活动关系密切(如词汇)。这些特征提示我们,根据语言变化特点和研究内容来设计时间框架和文本抽样框架对于历时语言研究至关重要。我们先谈时间框架(包括时间跨度和时间的连续性),然后谈文本抽样框架。

时间跨度

时间跨度与研究内容关系密切。在西方,为了建立语言谱系,构拟语言早期的发展状况,历史语言学家跨洲追溯早期的语言素材,观察几百年甚至上千年内的语言素材。在中国,历时语言研究传统深厚,如关注字义的训诂学,关注字形变化的文字学,关注通过字音掌握字义和诗歌用韵的音韵学,以及关注虚词的语法研究,这些研究都需要大量历时语言素材的支持。显然,传统意义上的语言变化研究需要较大跨度时间框架的历时分析(long diachrony)(Rissanen,2000)。当代语料库研究则不同以往:随着注意力转向特定时间内语言变化的微观问题,如特定语言项目使用频率的增减趋势、使用人群的差异和变化、适用体裁的动态变化,以及新词和新的表达方式的出现和使用频率,研究者就不需要几百甚至几千年的语料,在较短时段内(比如说一代人)搜集语料并建立语料库也能满足研究的需要。

一般说来,研究目的和研究内容不同,取样时间和范围设置也就不同。比如, ZEN语料库(Zurich English Newspaper Corpus,1665—1791)取样的起始时间据说是真正的报纸最早出版的年份(即1665年London Gazett出版发行),而终止时间为1791年,即通常所说的早期英国报纸时代结束的时间,这样设置时间框架显然考虑到了体裁变化在时间上的表现。与ZEN不同,Lampeter Corpus设置的起点是1640年英国资产阶级革命,而终点是1740年代英国工业革命开始之时,这样设置显然是考虑到了语言与社会历史发展的关联。问题来了,设置时间框架是要考虑语言文本特征的变化,还是要考虑社会文化的变化? 这个问题不好回答,但时间框架总是要和研究者研究内容所涉及的范围一致。比如,ZEN适合研究报纸这一早期英语体裁在文体上的一致性;而Lampeter Corpus则适合研究某个特定历史时期的新闻内容。

时间连续性

即便我们使用窄的时间框架,也需要解决语料本身的时间连续性问题。比较简单的做法是按照时间的流动顺序连续收集,也可以按照一定的时间间隔使用同样的抽样结构来建设“克隆”语料库。

观察按照时序连续收集的语料可以揭示语言中新的用法、发展趋势和流行语(vogue)使用,形成10年或者更长的数据流,且语料的总体是开放的,库容可以不断扩增。根据Renouf(2007:37)所言,1990年代之后存储和保留既往数据的计算能力大幅推动了新理论和新方法的出现,即允许文本进行双向处理,这样也就允许多重切分的字符串分析。借助于可靠的字符串分析手段,只出现一次的词(hapax legomena)就便于识别和归类,进而识别首次出现的新词语,追溯语言最初变化的手段因之更为丰富,这是APRIL计划(1994—1997)取得的突破。

当然,也有学者认为,有时间间隔的、平行的、库容有限的克隆语料库也能满足历时研究的需要。比如,Mair(1997;2007:1110)认为,有30年间隔的语料可以反映语言使用的显著变化,也可以考察语言在新近时间阶段内的发展变化。比如, LOB(1961)和FLOB(1991),Brown(1961)和Frown(1992)语料库时间间隔30年,每个子库都是只含一年的语料,属于“快照”语料库(“snapshot”corpus[2]),这种语料库也可用于历时语言研究。

Taeymans(2002:215 227)基于LOB、FLOB、Brown和Frown四个语料库,使用历时比较方法,探讨了边缘情态动词(dare和need)和半情态动词(dare to和need to)在英国和美国当代英语(PDE;Present Day English)中的使用状况。选择DARE和NEED来研究是有原因的。这两个动词正处于语法化还是逆语法化?学界莫衷一是,观察历时语料显然最有说服力。Taeymans基于历时语料,试图弄清在小时段内两类情态动词的变式在使用频率上是否出现显著变化。他发现,有明确证据显示,在1960和1990年间,NEED已成为半情态主动词(main verb)。而DARE则有不同的表现:在当代英国英语里,它更像是情态动词,而在美国当代英语里则主要表现为半助动词。研究还显示,DARE和NEED都在从情态动词向助动词方向发展。

语料在时间上的连续性以及语料取材的时间范围对语言描写的影响是明显的。“快照”语料库取材时间范围过小(往往只有一两年),难以用单个库去研究语言变化,除非把多个克隆库组合起来实施研究。而且,语料取材的时间越往前推,就越难以找到足够的语言材料来建立时段窄小、体裁丰富且比例一致的克隆库。与之相比,设定能提供足量素材的长时段就比较现实,也很有必要。事实上,历史语料库使用的时间段长达百年。为什么用百年的时段呢? 这主要是因为一个百年时段大约有三代连续的说话者,一般认为在此基础上可以建立语言变化的标准模型[3]。而且,长时段语料库可以有内部的时间结构,即内含多个子时段,子时段间构成相似,可比性强[4]

抽样框架

研究目标和时间框架一旦确定,后续工作就是历时语料的收集和选取,这项工作至关重要,也同样需要制定原则和规范。Kyto & Rissanen(1993:7)在总结Helsinki Corpus的建库原则时指出,在选择历史语料文本时要考虑以下四个标准:

(1)有序的时间覆盖(Chronological coverage):语料库应代表要覆盖的时段内所有的素材构成;

(2)地域覆盖(Regional coverage):语料库制作者应注意语言的地域变体;

(3)社会语言覆盖(Sociolinguistic coverage):语料库中的文本由不同性别的作者撰写,作者所属年龄段不同,社会背景和教育程度不同;

(4)体裁覆盖(Generic coverage):语料库应该包含代表文本体裁或文本类型的广泛性、多样性。

实际上,以上四个标准中只有第一个标准是专门为历时语料库设置的,后三个标准适用于所有语料库,也是语料取样平衡的关键。时序覆盖强调所选语料在时间上有序铺展,不宜出现时间空缺,这是历史语料库建设的头等大事。其目的是研究者可以将不同阶段的语料视为共时语料,从中对比、比较不同的变体。

历史语料涉及久远的过去。一说到历史文本,就要考虑是否有足量、合适的文本可用。语料库应该具有代表性、平衡性,完整再现语料总体内部的差异性和不同时段间类比时所需的同质性,还要代表语料库中各时段包含的所有构成部分,这样的语料库最理想。但即便是在当代,这一点也难以做到。对于历时语料而言,实现代表性和平衡性就更难,Helsinki Corpus的制作者最终放弃了系统或者平衡的建库标准(Studer,2008:44)。原因很简单,语言材料世代流传,经过长期社会文化的洗礼,能流传至今且为时人所用的不过是总体之微小部分,从这微小部分中抽取的样本只是随机性次级抽样(random subsample)而已。因此,历时语料库永远无法捕捉到语料总体中的全部变体(Claridge,2008:246)。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈