首页 理论教育 齐夫定律的表述及其他形式的分析介绍

齐夫定律的表述及其他形式的分析介绍

时间:2022-11-04 理论教育 版权反馈
【摘要】:齐夫定律正是要回答这个问题。上式称为齐夫定律。齐夫分布的其他形式无论是(3-5)式还是(3-6)式,适应范围都有一定的局限性。因为齐夫定律是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。

3.2.2 齐夫定律

词汇是表达和载荷信息的基本单元。词汇的选择、使用及出现频次必然地影响着信息的分布。那么,任何文集或文献中不同词汇的使用有什么特点?它们在文献中出现的频次有没有一定的规律?如果有规律,其表现形式应当是怎样的?齐夫定律正是要回答这个问题。

(1)齐夫定律的表述

如果将一篇较长文章(约5000字以上)中每个词按其出现频次递减排列起来(高频词在前,低频词在后),并用自然数给这些词编上等级序号,出现频次最高的为1级,其次为2级……这样一直到D级,如果用f表示词在文章中出现的频次,用r表示词的等级序号,则有:

fr=c              (3-5)

式中,c为常数。上式称为齐夫定律。

表3-2列出了一组词汇的出现频次与递减排列的等级序号的统计数据。如果建立f与r的直角坐标系,用纵坐标表示词的等级序号,横坐标表示出现频次,就得到一条双曲线(见图3-2)。

表3-2      词频分布

img45

如果等级r与频次f都取对数,则图3-2中的双曲线变成一条直线(见图3-3)。与之等价的数学表达式为:

lgr+lgf=lgc

图3-2为齐夫词频分布曲线,图3-3坐标轴为对数尺的齐夫分布曲线。

图3-3中的虚线表示理想化形式,一般地,斜率为b的任一直线可表示为:

klgr+lgf=lgc

这一直线由图3-3中的实线表示。如果将其改写成(3-15)式的形式就得:

img46

图3-2 齐夫词频分布曲线

img47

图3-3 坐标轴为对数尺的齐夫分布曲线

frb=c     (3-6)

取b=1,(3-6)式与(3-5)式相同,因此可以将(3-6)式看做是对齐夫定律的修正。

(2)齐夫分布的其他形式

无论是(3-5)式还是(3-6)式,适应范围都有一定的局限性。因为齐夫定律是一个纯粹的经验定律,仅仅使用了一般的统计方法,其过于简单的形式和结论对于出现频次特别高的词和特别低的词都不能完全满足。于是有的学者尝试引入一般参数对齐夫定律进行修正。

在齐夫定律发表后不久,美国学者朱斯就指出,在(3-6)式中,不仅c应当是参数,而且b并不总是等于1(即齐夫最初画出的直线的倾角不总是45°),也是一个参数,齐夫定律可更为一般地表示为:

f(r)=cr-b        (3-7)

式中,b>0,c>0,对于r=1,2,…,n,有:

img48

式(3-7)就是朱斯的双参数等级分布定律。f(r)表示r位词出现的频率(或概率)。

数学家曼德尔布罗运用信息论原理和概率论方法来研究词频分布,用三参数修正了齐夫定律,使齐夫定律更具有一般性和普遍意义。

曼德尔布罗将词(包括字母间的空格)看做有一定顺序的字母序列,并将语言和利用模拟或数学公式表达形式的编码加以比较;又把句子看成是用词表示的编了码的序列;把文章看成是由句子的增减过程而形成的句子系列。为了使语言的表达最佳化,根据信息论原理,要求语言中字母的最小可能的平均数或对于给定的字母平均值,具有最大的信息量。

设r为词的顺序,f(r)为第r个词的频率,m(r)为r个词的词长。这时平均词长为:

img49

当给定的熵值H最小或当L最小时,应有:

img50

根据这些条件,曼德尔布罗从理论上提出了三参数分布公式:

f(r)=c(r+a)-b         (3-8)

式中,0≤a<1,b>0,c>0。

a,b,c为参数,具有如下意义:

①参数“与出现概率最高的词的概率大小相关或者说与f(1)有关。当a=0,b=1时,c=f(1)。

②参数b与高频词数量的多少有关,对于r<50的高频词,b是r的非减函数,随着r的增大,参数b并不减少。

③参数a与词的数量n有关,由于a的选择自由较大,此公式更为灵活,更能够在各种条件下与测定的统计数据拟合。

齐夫定律和朱斯的修正式都可看做曼德尔布罗的特例。

齐夫定律是对自然语言词汇统计所得到的规律。研究表明,人工语言及人工语言语词构成的集合同样满足齐夫定律。

齐夫定律是通过研究英语语言词汇得出的结论,最适用于拉丁语系,它是否也适合于其他语言,尤其是像汉语语言这样的表意文字呢?自20世纪80年代中期以来,我国学者进行了卓有成效的研究,发现齐夫定律完全符合汉语语言词汇的分布。

齐夫定律具有广泛的应用,在信息系统建设、词表管理和控制、自动标引、信息存储与检索方面都取得了许多应用成果。通过词频分布来揭示信息的分布规律则是齐夫定律在理论上的重要开拓。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈