首页 理论教育 汉语学习词典解释语用词计量研究

汉语学习词典解释语用词计量研究

时间:2022-03-31 理论教育 版权反馈
【摘要】:汉语学习词典解释语用词计量研究_对外汉语研究与探索汉语学习词典解释语用词计量研究———以《学汉语词典》为例吴 蝶提 要:本文提取《学汉语词典》解释语中的全部词语,对其总体数量、出现次数及各级词汇分布情况进行统计。作为针对性强、功能明确的汉语学习词典,其释义词语与一般语文词典的释义词语不尽相同。本文研究的是汉语释义词语整体面貌,外文解释及拉丁字母不在研究范围之内。

汉语学习词典解释语用词计量研究

———以《学汉语词典》为例

吴 蝶

提 要:本文提取《学汉语词典》解释语中的全部词语,对其总体数量、出现次数及各级词汇分布情况进行统计。筛选出现次数较多的常用词,分析其词性构成及词汇等级分布,试分析汉语学习词典解释语用词的概貌。

关键词:解释语用词 词次 等级

1.引  言

词是最小的独立使用的语言单位,词典中的解释语句由每一个词组成。词典编纂者在进行解释语的选择和编写时,需要对解释语进行考量,看是否适合于使用者。释义词语是组成解释语的基本单位,释义词语的选择得当与否直接影响释义的效果。作为针对性强、功能明确的汉语学习词典,其释义词语与一般语文词典的释义词语不尽相同。《学汉语词典》(商务印书馆,2007)是编者在吸收前人的经验与教训的基础上编纂而成的,可以代表目前我国汉语学习词典编纂的最新成就。江蓝生为该词典写序时指出,该词典为“迄今为止我国第一部专门为具有中级汉语水平的外国人编的汉语原文词典”。本文以《学汉语词典》(以下简称《学汉》)为例,提取其解释语,对解释语用词进行数量分析,统计词语出现次数(词次)的情况,并依照《汉语水平词汇与汉字等级大纲》(以下简称《等级大纲》),对全部解释语用词的等级分布进行归纳,并在全部解释语用词中提取常用的解释语用词进行进一步的考察。

2.解释语用词总体计量分析

2.1 制作解释语电子文本

采用人工逐字输入的方式,输入内容分别为:词目词、词性、解释语(词典中为蓝色字体的部分)。如有多音现象则加注拼音,并以excel文档保存。辅以人工校对,保证输入内容正确无误。

2.2 提取解释语

将解释语从文本中分离出来,将解释语以txt形式保存。在提取解释语时,需删除下列不属于本文研究范围的内容。

A.将语素单独列出的部分。语素作为义项,所组成的词不作为义项,即不作为解释语。如“□器”。

B.外文解释。本文研究的是汉语释义词语整体面貌,外文解释及拉丁字母不在研究范围之内。如“锡,名,一种金属元素,符号是Sn。(拉丁文:stannum)”中,“Sn、拉丁文、stannum”需删除。

2.3 分词与校对

对提取出的解释语用分词软件进行自动分词。本文使用的是中文分词软件ROSTWordParser5.8版。分词软件分词的结果有很多错误,必须对机器分词的结果进行人工校对。处理的方法是:词语的分合原则上依照《等级大纲》为主,《现代汉语词典》(以下简称《现汉》)为辅,同时参考安华林(2005)对《现汉》机器分词结果进行校对的方法。对比较典型的处理方式具体举例如下。

(1)某X

机器分词的结果是:某人、某地、某事、某个、某地、某些、某种……

“某些”在《等级大纲》中列为代词,合并。其余在《等级大纲》及《现汉》中都不收,全部分开。

(2)不X

机器分词的结果是:不能、不远、不好、不同、不变、不对、不幸、不用、不管、不顾、不要、不分、不定、不久、不平、不会、不满、不再、不如、不住、不着、不/想、不/是……

校对时依据《等级大纲》及《现汉》相结合进行分合。“不能、不远、不敢、不变、不通、不分、不会、不再”《等级大纲》及《现汉》均未收,全部分开。“不同、不敢、不停、不住”《等级大纲》收入,校对时合并。需要说明的是,《等级大纲》中的“不住”为副词,做补语表示“不能”。如“控制不住、站不住”,《现汉》中未收该项。“不着(zháo)”前通常有表动作的词,如“找不着”,在校对时,分开处理。

(3)一X

机器分词的结果是:一边、一面、一家、一头、一下、一对、一个、一级、一次、一年、一根、一部、一系列、一/天、一/只、一/种……

依据《等级大纲》与《现汉》,“一边、一面、一头、一下、一系列”皆收有,则合并。其余分开。

(4)X形

机器分词的结果是:圆形、方形、三角形、球形、圆柱形、角/形、圆/环形……

《现汉》收有“三角形”,其余不收。考虑到其结构的一致性,全部合并。

(5)X状

机器分词的结果是:糊状、粉末状、颗粒状、线条状、筒状、块状、片状、泥/状、块/状、扁平/状、背心/状、瓶子/状、圆/块状、圆/筒状……

校对时同“X形”,一律合并。如果“x状”后面接“物”,如“花片/状物”,将“物”单独分开,改成“花片状/物”。

(6)X指/X称

机器分词为:“泛指、特指、俗称、尊称、总称、通称、原/指、本/指、专/指、旧/称……

校对时根据是否能出现在解释语中结构为“是……的X”中X的位置进行分合。如“泛指、特指、所指、原/指”等没有出现在X的位置上,其名物化程度不高,分开。其余则一律合并。

(7)动补式

机器分词的结果将动结、动趋结构合并在一起,如:抓住、拦住、凸起、举起、交给、献给、留给、收到、回到、听到、想到、作出、交出、露出、卖出、找出、发出、带走、赶走、去掉、扔掉、留下、咽下、放下、倒下、举起、激起、躲开、避开、放开、打开、隔开、裂开、抬高、打伤、买进、制成、切断、穿过、造成、变成、组成、做成、赶上、碰上……

以上这些结构在校对时,《现汉》中收有的词全部合并,如“打开、发出、超出”。“显出”《等级大纲》和《现汉》均未收,但“显”不能单用,考虑实用因素,将其合并。“变成、组成、赶上”《等级大纲》收入,合并。其余全部分开。

(8)动宾式

机器分词的结果是:打球、喝茶、炒菜、开车、骑马、写字、画画、加油、敲/鼓……

以上各词《等级大纲》及《现汉》均未收,全部分开。

(9)处所、方位

机器分词时将大多数合并。“路上、身上、心里、天上”等《现汉》收入,合并。“岸上、地上、船上、脸上、海上、水边、心中、心上、田里、皮下、远处、下方、嘴里”等《等级大纲》及《现汉》均未收,一律分开。

(10)其他

a.机器分词时“儿”尾全部分开,校对时一律与前合并。

b.“用/来、用/于、用作”XH均不收。在解释语中,后置“来、于、作”意义趋向虚化。因此将三者合并。

2.4 解释语用词的数据统计

通过校对,最后得出了《学汉》全部解释语用词。将全部词语进行词次统计,制成《解释语用词统计表》。《学汉》所用的解释语用词共计13146个。在统计出各级词次后,与《等级大纲》中的词汇进行对照,得出甲、乙、丙、丁四级词汇的比例,考察解释语用词的整体使用情况。

词次是指词语出现的次数,反映了词语出现和使用的概率,是确定词语常用性的重要依据。词次在1000上的有11个词。依次为“的、或、一、在、不、用、等、人、和、种、某”。其中“的”的词次为10359,远远高出第二位的“或”(2567)。词次为1的词数量最多,为6795个,占总词数的51.69%。具体数据见下表。

《学汉》解释语用词统计表①

img45

①该统计表中词次分级参考安华林(2005)的《现代汉语词典》释义性词语分级方法。

词次在量上具有渐变性和连续性。单从上表的数字看,似乎说明不了问题。由于释义时选词的不确定性,词次是2的词并不一定就比词次为1的词常用。但是,量变是质变的基础,量的积累能引起质的飞跃。词次是1000的词必然比词次是50或1的词更具有常用性。因此,词语出现的次数和常用度有比较紧密的联系。从上表可以看出,数量上呈底大顶小的金字塔形。词次较高的解释语用词是学习词典解释语中的主力军,是学习词典编纂的重要参考材料。

《等级大纲》和《现汉》是分词校对的标准。在全部解释语用词中,甲级词946个,乙级词1788个,丙级词1756个,丁级词2211个,共计6701个。其中,解释语中的甲级词占《等级大纲》甲级词的91.58%,乙级词占88.60%,丙级词占79.75%,丁级词占61.95%,共占75.96%。由此可见,解释语中的各等级词语均占《等级大纲》中对应等级词语的60%以上,其中甲级词和乙级词已超过或接近90%。甲、乙级词是外国留学生学习汉语的基本部分,同样也是汉语学习词典解释语的重要组成部分。鲁健骥、吕文华(2006)编写后记中总结归纳《学汉》释义原则时指出,释义时尽量采用《等级大纲》中的甲、乙级词。此统计数据验证了该释义原则使用的真实性。

下表为各等级词语分布及占解释语总词数的比率:

《学汉》解释语用词等级分布

img46

上表显示的数据反映,解释语用词中一半以上的词来自《等级大纲》。尽管《等级大纲》中词语数量有限,但在词典释义中使用率较高,在词典解释语中起到了重要的作用。

3.解释语常用词考察

本文提取解释语用词中词次为10以上的词拟为解释语常用词,根据《学汉》解释语用词统计表,词次10以上的词共有1639个。总体分析这些词的词性构成、各类词的数量和词汇等级分布的情况,通过数据统计,初步了解《学汉》解释语用词的整体框架结构。

3.1 常用词计量分析

经过分析,统计如下表:

img47

由以上统计可以看出,解释语常用词中以名词的数量最多,占总数的39.60%。动词和形容词数量占总数的37.03%。解释语常用词中名词、动词、形容词这三类实词占一半以上,是常用词的主要组成部分,亦是研究词义的主要对象。另外,兼类词共占总数的12.98%。从上表还可以看出,虚词数量不多,共43个,但使用频率很高,其中频率最高的“的、或、在、和”根据统计分别排在1、2、4、9位,前10词中虚词就有4个。虚词的作用是成句功能,从一个侧面可以看出,释义方式应以描写释义为主,而非同义释义。

3.2 词汇等级分布

解释语常用词是释义词语的核心,是把汉语作为第二语言的学习者能否有效使用汉语学习词典,准确理解词语释义的关键。《学汉》在释义中尽量使用《等级大纲》中的甲、乙级词。本文通过对1639个解释语常用词进行等级归类统计,以进一步验证该释义原则的使用情况。在这1639个词语中,有71个词语《等级大纲》未收。剩下1568个词语统计出的词汇等级分布如下:

img48

由以上统计可以看出,《学汉》中解释语常用词中同样以甲、乙两级词语居多,共占了79.40%。丙级词和丁级词相对较少,分别只占14.16%和6.44%。此统计数据进一步证实了该词典落实了“释义时尽量采用《等级大纲》中的甲、乙级词”的释义原则。对于一部针对中级汉语水平学习者使用的单语学习词典,释义时需充分考虑释词的基础性和常用性,使学生可以通过已学过的词语来学习新词,达到学习的目的。

参考文献

安华林 2005《现代汉语基元词研究》,北京:中国社会科学出版社

方绪军 2000《现代汉语实词》,上海:华东师范大学出版社

董春利 2008对外汉语词典中抽象名词的释义研究,河北师范大学硕士学位论文

鲁健骥、吕文华 2006编写对外汉语单语学习词典的尝试与思考,《世界汉语教学》第1期

苏新春 2005汉语释义元语言的结构、词义、数量特征,《辞书研究》第9期

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈