首页 理论教育 中医英语语料库的建库原则

中医英语语料库的建库原则

时间:2022-10-24 理论教育 版权反馈
【摘要】:在中医英语语料库建设由“坐而言”进入“起而行”之际,笔者拟以建库的原则问题与国内同行进行探讨,冀为我国中医英语语料库的建设抛出“引玉”之砖。显然,这种语料档案将无法行使中医英语语料库应有的功能。建库的用途与语料库的代表性密切相关。在大多数情况下,中医英语语料库代表的往往是无限的总体。笔者仍以中医期刊英语文献语料库的建设为例。

中医英语语料库的建库原则

“中医英语”是专门用途英语(ESP:English for Specific Purpose)家族中的一个新成员,特指英语语言在中医药对外翻译与交流过程中逐渐形成的一种独特的表达体系(李照国1999:5—7)。语料库是指在随机采样基础上收集到的有代表性的真实语言材料的集合,是语言运用的样本(杨惠中2002:8)。将语料库数据驱动技术(Corpus-based Data-driven)引入中医英语研究的设想肇始于21世纪初(闻永毅等2003a:45—46;闻永毅等2003b:76—77;薛学彦2004:482—485)。目前,这一设想正得以逐步实施,如江苏已将“中医英语语料库研究”列入2004年度高校哲学社会科学课题指南。在中医英语语料库建设由“坐而言”进入“起而行”之际,笔者拟以建库的原则问题与国内同行进行探讨,冀为我国中医英语语料库的建设抛出“引玉”之砖。

1.用途专一性原则是中医英语语料库建设的基本原则

根据语料库的用途,目前已建成并投入使用的语料库可分为:通用语料库、专用语料库、监控语料库、口语语料库、学生语言学习语料库和平行语料库(杨惠中2002:29)。针对中医英语“描述的主体是中医的理论与实践,而描述的语言却是英语”这一特殊性,加之中西资料的巨大差异,在中医英语语料库建库伊始就想建立类似BROWN和LOB等“大而全”和“一劳永逸”通用语料库的设想,显得过于简单和盲目。如真按闻永毅(2003a:45—46)所提出“中西语料应该在数量上相等、结构上相同”和“各取50%”的设想,建立中医英语的通用语料库,许多语料的语言学特征和差异将被“大而全”“淹没”而无法展现。这种语料库其实只是中医英语的“语料档案”(archive),而不是真正意义上的中医英语语料库。显然,这种语料档案将无法行使中医英语语料库应有的功能。

值得注意的是,笔者在这里所用的“专一”一词,是相对“通用”而言,不是说所建语料库只能有“唯一”的用途,只是强调中医英语语料库建设时,尤其是在建库初期,对其用途应该明确界定,尽量将语料库设计为“一库单用或几用”,而不是“一库通用”。

2.语料代表性原则是中医英语语料库建设的首要原则

任何语料库的建立都有一定的用途。建库的用途与语料库的代表性密切相关。一个语料库是否有代表性,首先要看该语料库所代表的总体。在大多数情况下,中医英语语料库代表的往往是无限的总体。在建设中医英语语料库时,如果明确了建库的用途后,所收录的语料除了应该最大限度地涵盖与建库用途相关内容的各个方面外,还应该最大可能地代表该语料库设计时需要反映的总体。如以中医期刊英语文献语料库的建设为例,该库代表的总体是所有用英语正式发表的中医期刊文献资料。显然,这是一个理论上有限,实际上无限的总体。在建库时,为了能让所收集的语料充分反映中医英语期刊文献的语言学特征,我们除了尽可能地涵盖英语中医期刊的各大类别外,在具体采样时还应该注意这些样本是否能够真正反映该领域的文献特征。

3.结构合理性原则是中医英语语料库建设的重要原则

根据所建语料库的具体用途,在语料库专家的指导下,合理配置不同内容间的语料搭配比例的做法非常重要。英语文库(Bank of English)前车之鉴的尴尬境地,可为我们的中医英语语料库建设提供一些警示:由英国伯明翰大学和柯林斯出版社联合建立的英语文库,号称是世界上最大的“语料库”。早在1996年就已达到3.2亿词,目前已超过5亿词的库容,而且还在以每月500万词的速度增长(杨惠中2002:134)。但是,由于它没有事先设定收集哪些领域的文本,也没有设定各个领域的比例,至今有些语料库专家仍只把它当作语料档案,而不是语料库来使用。

此外,上面所述的语料库的语料代表性原则和结构合理性原则是相辅相成的。它们从两个不同角度规范了语料库的构建:语料代表性原则涉及构建语料库横向的广度,而结构合理性原则涉及构建语料库纵向的深度。

4.库容适度性原则是中医英语语料库建设的实用原则

从理论上讲,如果语料库要代表一个无限的或者非常大的总体,在其他条件相同的情况下,库容越大越好。在这一理论的指导下,国内一些学者在讨论建设中医英语语料库时也提出了诸如“中医英语语料库的大小将没有限制”(薛学彦2004:482—485)的观点。其实,在实际操作过程中,要根据语料库的具体用途,考虑“投入与产出比”。如果我们在确保样本代表性和随机性的基础上,能够用较少的样本充分展示语料库要反映总体的语言学特征,又何必多付出无谓的努力呢?

笔者仍以中医期刊英语文献语料库的建设为例。根据国际惯例,在应用语料库数据驱动技术分析科技文献的语言学特征时,在把握好采集语料代表性和随机性的基础上,一般以100篇(幅)左右为宜。Giannoni,D.S.(2002:1—31)在比较英语与意大利语“致谢”体裁时使用了100篇文献建立语料库;Jose,M.(2000:63—86)在分析医学英语科技文献文体特征时,也使用了100篇文献建立语料库。由此,我们在建设中医期刊英语文献语料库时,完全可以参考国际上其他同行的做法,而不必在语料库的库容上进行盲目地攀比。

5.内容真实性原则是中医英语语料库建设的根本原则

内容真实性原则可以从两个层面上解读:一是要收集实际使用中的语料,不能是语言学家或研究者自己杜撰的。二是要收集符合条件的语料。比如:我们在建立中医期刊英语文献语料库时,没有发表和虽然发表但不属于正式期刊的文献就不符合条件,不能收录。

另外,就库容适度性和内容真实性这两条原则的关系而言,它们实际上是一个问题的两个方面,分别代表了语料库量和质的问题。库容大固然能弥补内容上的不足,但是库容大并不意味着对内容就无需有要求了。对于内容,最根本的要求仍是真实。

6.采样随机性原则是中医英语语料库建设的保障原则

如果语料库要代表一个无限的或者非常大的总体,那么就涉及一个采样或抽样的问题。选取语料时,应严格遵循采样的随机性原则,以避免人工选择的主观干预。其实,在语料库建设中,随机采样的方法较多,如对于语料的初次采集可选用简单的随机采样法、对于收集好的语料可运用分层随机的采样法等。

此外,就语料代表性原则、库容适度性原则和采样随机性原则的关系来说,采样的随机性是建库质量最基本的保障。只有在完全遵循采样随机性的基础上扩大库容,才能最终确保样本的代表性,才可以这样认为:样本就是总体的真实代表或样本具有总体的统计特征。

参考文献

Jose,M.&Marco,L.,2000.Collocational frameworks in medical research papers:agenre-based study[J].English for Specific Purposes.(19):63 86.

Giannoni,D.S.,2002.Words of gratitude:a contrastive study of acknowledgement texts in English and Italian research articles[J].Applied Linguistics.(1):1-31.

李照国,1999,中医英语:一门正在形成中的新学科[J],《上海中医药大学学报》第3期。

闻永毅、樊新荣,2003a,中医英语语料库建设可行性探讨[J],《上海中医药杂志》第4期。

闻永毅、樊新荣,2003b,浅谈建设中医英语语料库的意义[J],《陕西中医学院学报》第5期。

薛学彦,2004,中医英语语料库建立的设想[J],《广州中医药大学学报》第6期。

杨惠中,2002,《语料库语言学导论》[M]。上海:上海外语教育出版社。

载《上海中医药大学学报》2005年第3期

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈