首页 百科知识 基于统计数据的实证分析

基于统计数据的实证分析

时间:2022-02-28 百科知识 版权反馈
【摘要】:犯罪暗数是指已经发生的、但是并没有记录到官方犯罪统计数据中去的犯罪人数,比如案发但因为种种因素被害人没有报案的,或者报案后没有立案的。白建军认为,以公安机关立案数计算的犯罪率相对最接近犯罪实际。因此,本研究采用以“法院一审收案数”计算的被害率反映犯罪率。
基于统计数据的实证分析_消费与犯罪

一、变量的测量

影响犯罪率的变量很多,有犯罪者本身的个人因素,还有宏观的外部社会因素。本研究重点关注外部的社会因素,并以改革开放以后中国犯罪率的宏观数据代表犯罪本身的消长变化,用中国各种宏观经济数据代表社会影响因素,来探讨犯罪率的此消彼长。

(一)被解释变量:犯罪率

关于犯罪率的计算,学术界并没有统一的规范。首先,犯罪率是每十万人口中犯罪案件数或犯罪人数。这种通常使用的犯罪率是以总人口作为基数计算的,描述犯罪对每个可能的被害人带来的危害。而实际上并不是每个可能的被害人都会成为加害人,因此还有另外一种表示犯罪状况的犯罪率,即以“总人口减去不具刑事责任能力的人口数”作为基数计算的犯罪率。其次,犯罪率是根据已知犯罪的数量计算出来,并没有反映犯罪暗数的影响。犯罪暗数是指已经发生的、但是并没有记录到官方犯罪统计数据中去的犯罪人数,比如案发但因为种种因素被害人没有报案的,或者报案后没有立案的。犯罪暗数是客观存在的,但也是在数据处理中无法计算其中的数据。比如牵扯到多方利益或者内部黑幕,或者当事人考虑打官司的成本,经济犯罪、职务犯罪和白领犯罪的犯罪暗数相对比较高,较多犯罪可能通过私下协调处理,比如补回挪用公司的公款,公司将不予以追究当事人责任;再比如职务犯罪可能一个人肩挑了多人的犯罪事实等。因此,犯罪的实际规模与已知规模一定存在差距,犯罪率只是犯罪实际规模的一部分。

在现有数据条件下,描述犯罪现象时,只能尽可能选用能在最大程度消减犯罪案数影响的犯罪率。目前可供选择的犯罪率有:以公安机关立案数计算的犯罪率、以公安机关破案数计算的犯罪率、以检察机关批捕数计算的犯罪率、以检察机关提起公诉数计算的犯罪率、以法院一审收案数计算的犯罪率、以法院终审定罪数计算的犯罪率[16]。白建军认为,尽管立案不一定破案,破案不一定批捕,批捕不一定起诉,起诉不一定收案,收案不一定定罪,但由于犯罪暗数的存在,这六种犯罪率中,以公安机关立案数计算的犯罪率相对最接近犯罪实际[17]。而且,犯罪率还可以分为被害率和加害率:被害率指以每十万潜在的被害人为基数计算的犯罪率,即以被简化为10万的总人口数为分母计算的犯罪率;加害率指以每十万潜在犯罪人为基数计算的犯罪率,即以达到刑事责任年龄(18周岁)的人口数为基数计算的犯罪率,分母是简化为10万的“18周岁以上的人口数”。

到底用哪个指标来描述犯罪率呢?

首先,犯罪率是选择被害率,还是加害率呢?把犯罪放在社会大背景中去考量时,改革开放30年,犯罪已经出现了越来越明显的低龄化趋势,18周岁以下罪犯占刑事罪犯的比率总体上呈上升趋势,而且在犯罪人数中所占的比例最高时期达到9.81%,详见表4-1。因此,在考虑犯罪率时,18周岁以下的人群不能被忽视。本研究选择被害率作为犯罪率的考量标准。

表4-1青少年犯罪状况

其次,来考察可供选择的被害率数据。白建军认为,以公安机关立案数计算的犯罪率相对最接近犯罪实际。但查询中国统计出版社历年出版的《中国统计年鉴》和中国法律年鉴社历年公开出版的《中国法律年鉴》,数据比较齐全的只有公安机关的立案刑事案数,并不能准确反映公安机关的立案数[18]。相对来说,以法院一审收案数计算的犯罪率,既反映了历史来犯罪率的变化趋势,也比较接近犯罪实际,更重要的一点是数据齐全。其他数据,第一是数据不齐全,第二是反映总体的犯罪率与实际犯罪数相差较远。详见表4-2。

因此,本研究采用以“法院一审收案数”计算的被害率反映犯罪率。

表4-2不同标准计算的犯罪率

续表

说明:1.“法院一审收案数”包括“刑事、民事、经济纠纷、行政和海事海商等”;2.表4-2的数据是根据《中国法律年鉴》和《中国统计年鉴》的历年原始数据计算得出;3.各项被害率皆为十万分比。

(二)解释变量

改革开放30年来,哪些社会因素导致了犯罪率的高速增长?诸如谢文荻和贾文[19]、罗煜和冯玉军[20]等学者考察了犯罪率与经济增长之间的关系。而本研究则将经济增长指标作为控制变量,在宏观的社会大背景中主要考察消费与犯罪的关系,试图寻找犯罪的客观的消费指标解释因素。因此,本研究主要将与消费相关的指标作为解释变量。初步选定的解释变量有以下几项。

1.居民年人均生活消费支出(城镇和农村)

居民年人均生活消费支出主要是指居民的“八大类”消费支出,包括食品、衣着、居住、交通、通讯、家庭设备用品、文化教育娱乐支出、医疗保健消费支出等。这些直接反映了居民的消费观念和消费水平的变化。改革开放以来,居民的人均消费支出逐年提高,人民的生活水平逐年提高,而这是否与犯罪率的逐年提高有着一定的关系呢?因此,本研究引入此变量。鉴于农村和城镇的居民人均生活消费支出的巨大差异,本研究分别引入“农村居民年人均生活消费支出”和“城镇居民年人均生活消费支出”两个变量。

2.恩格尔系数(城镇和农村)

恩格尔系数是食物支出金额占个人消费性总支出金额的比重。一个家庭的收入越少,家庭收入的总支出中用来购买食物的支出所占的比重就越大,随着家庭收入的增加,家庭收入的总支出中用来购买食物的支出比重则会下降。这个系数通常用来反映国家的贫富水平,如果国家越穷,国民的总支出中食物支出所占的比重就越大,随着国家变得越来越富裕,这个比重则呈现下降趋势。但是,恩格尔系数也反映了人们的非基本生存需求(除食品之外的物质、精神的需求)的满足程度。如果人们的非基本生存需求无法得到满足,可能会导致犯罪率的上升。鉴于中国的二元断裂的社会,本研究分别引入“农村家庭恩格尔系数”和“城镇家庭恩格尔系数”。

3.城乡消费水平比

城乡消费水平比,是指以农村居民年人均生活消费支出为1计算的城镇居民年人均消费支出对农村居民年人均生活消费支出的倍数,计算方法是“城乡消费水平比=城镇居民年人均生活消费支出/农村居民年人均生活消费支出”。城乡消费水平比反映了断裂的二元社会中城乡消费之间的差异,也反映了消费的不公平。

4.居民消费价格指数CPI

居民消费价格指数(Consumer Price Index,CPI)是根据与居民生活有关的商品及劳务价格统计出来的物价变动指标,通常作为观察通货膨胀率的重要指标。通常认为,通货膨胀率越高,犯罪率也会越高。美国学者通过对美国1960—2005年的通胀率和犯罪率的分析,证实了二者之间存在高度相关性[21]

(三)控制变量

本研究主要考察消费与犯罪的关系。但是,犯罪率的提高,消费指标所作的贡献可能有限,比如人口数增长、经济增长、城市化失业率等都可能会影响犯罪率。因此,本研究将这些可能影响犯罪率的除了消费以外的其他指标适当作为控制变量引入模型。初步选定的控制变量主要有以下几项。

1.人口数和人均GDP

人均GDP,即人均国内生产总值,是重要的衡量经济发展状况的宏观经济指标之一,是了解和把握一个国家或地区的宏观经济运行状况的有效指标。人均GDP的计算方法是,将一个国家核算期内(通常是一年)实现的国内生产总值与这个国家的常住人口(目前使用户籍人口)相比计算得到。

因为本研究进入模型的是毛被害率,即犯罪率的分母是被简化为10万的人口数,并未显示人口结构。人口数与犯罪率之间存在直接的相关关系,因此理论上必须将人口数作为控制变量。经济发展与犯罪率之间的关系已经被很多学者诸如谢文荻和贾文[22]、罗煜和冯玉军[23]等所证实。GDP和人均GDP是经济发展的主要测量指标。人口数和GDP都会影响犯罪率。考虑到控制变量太多,而样本数据只有32期,引入过多的控制变量会使得模型难以拟合。因此本研究引入人均GDP,既反映经济发展指标,也使得人口数在人均GDP中得到控制,不必再单独引入人口数作为控制变量。

2.城市化率

城市化率是指城镇人口占总人口(包括农业与非农业)的比率。城市化是现代化的必然结果,城市化率越高,城镇人口就越多,城镇就会面临更严峻的就业压力,犯罪率可能就会越高。城市化率越高,单位面积上的城镇人口密度就会越大,人们之间的纠纷、利益冲突的可能性也会越大,犯罪率可能也会越高。

3.居民年人均收入(城镇和农村)

引入居民年人均收入,主要是从微观角度控制经济与犯罪之间的关系。如果犯罪是贫困原因所致,犯罪率与居民年人均收入之间的关系就应该呈现负相关关系,即收入水平越低,犯罪率越高;如果犯罪是高度物质文明和社会富裕等社会发展的结果,则犯罪率与居民年人均收入呈现正相关关系,即收入水平越高,犯罪率越高。改革开放以来,社会经济总量的增长,并没有带来城乡居民年人均收入的同步增长。因此,引入城镇居民年人均收入(可支配)和农村居民年人均收入(纯收入)分别从微观视角检验居民的收入水平。

4.城乡收入比

城乡收入比,是指以农村居民年人均收入(纯收入)为1计算的城镇居民收入对农村居民收入的倍数,计算方法是,城乡收入比=城镇居民年人均收入(可支配)/农村居民年人均收入(纯收入)。社会不公平一直是犯罪的一种理论解释,社会不公平产生的心理落差往往使得一些弱势群体通过犯罪来获得心理满足,比如农民工犯罪。而在我国,城乡差别又是测量社会不公平的重要因素。

5.基尼系数(城镇和农村)

基尼系数是20世纪初意大利经济学家基尼(Corrado Gini)于1922年提出的,用来定量测量收入分配差异程度,是判断收入分配公平程度的重要指标。城镇和农村的收入分配公平程度差别很大,因此分别引入城镇基尼系数和农村基尼系数。但是,城镇基尼系数的数据不全,因此最终引入模型的只有农村基尼系数。

6.失业率(城镇)

失业率是指失业人口占劳动人口的比率(一定时期全部就业人口中有工作意愿而仍未有工作的劳动力数字),是反映一个国家或地区失业状况的主要指标。由于中国只统计城镇失业率,所以引入模型的只有城镇失业率。城镇失业率越高,城市里的闲杂人员就越多,无事生非,犯罪率也会越高。

二、犯罪率走势分析

改革开放30年来,全国犯罪率总体上升趋势明显,1978年全国每十万人中只有46.5个法院的一审收案数,到2009年,全国每十万人口中就已经有501.1个法院一审收案数,后者是前者的10倍多(如图4-1)。

图4-1中国改革开放30年来的犯罪率

从法院一审收案数所计算的犯罪率来看,犯罪率有三个高速增长时期:一个是1986—1989年;二是1992—1996年;三是2007年至今(如图4-2)。这三个时期有一个普遍的特征就是居民消费价格指数(CPI)较高,初步可以判断犯罪率与居民消费价格指数之间存在相关性,而且据图观察,犯罪率相比CPI存在滞后性,即今年的CPI可能影响明年的犯罪率。因此,初步判断消费与犯罪之间可能存在某种相关性。

图4-2中国改革开放30年来的犯罪率与通货膨胀率

三、犯罪率的多元回归分析

(一)多重共线性的检验

在进行犯罪率的多元回归分析前,首先计算引入模型中的各变量的Pearson简单相关系数,测量两两变量间的线性相关的强弱程度。尽管相关关系不一定存在因果关系,但是无相关关系一定不存在因果关系。因此,简单相关关系是多元回归分析的探索性研究的前提。从表4-3中可以看出,除了CPI和城镇失业率外,其他变量之间都存在相关关系,而且相关关系强度较大。

其次,在进行多元回归分析之前,要检查多个自变量之间的多重共线性问题。对于一个给定的因变量,引入多元回归模型中的自变量越多,则误差方差越小。因此,我们希望在模型中引入尽可能多的有解释意义的自变量。但是,引入模型的自变量变多了以后,自变量之间可能会存在多重共线性,从而影响模型的拟合效果。简单相关系数可以判断多个自变量之间的多重共线性问题。从表4-3的简单相关系数矩阵可以看出,自变量之间的简单相关系数较高,需要注意变量间的多重共性线问题。但是,多重共线性到了什么样的程度才会成为一个问题,目前学术界还没有达成共识。对于一个给定的数据集,如果发现自变量之间的多重共线性较强,我们可以做的是,试着从模型中去掉一些自变量,以努力消除多重共线性。但是,如果我们想观察某些特定变量的因果效应时,在模型中引入了较多的控制变量,如果这些控制变量之间高度相关,我们可以“忽视”控制变量之间的多重共线性,而只重点考虑自变量之间的多重共线性。因为这些控制变量之间的高度相关对于自变量的参数估计并不重要。因此,本研究只考虑自变量之间的多重共线性问题。

再次,需要注意的是,从图4-1可以看出,因变量“犯罪率”是一组时间序列数据,而不是随机数据。时间序列数据有一个前提是,我们必须承认过去可能会影响未来,而不是相反,这时候如果继续用回归分析的最小二乘估计法(OLS)拟合模型,可能会产生偏差。因为,OLS估计法把抽样视为随机,但是,在时间序列数据中,把抽样视为随机显然很不恰当。因此要放弃随机抽样的假定。如果自变量也是时间序列数据,自变量之间也会存在高度相关性,因此产生较强的多重共线性。表4-3的简单相关系数矩阵已经显示,本研究引入模型中的自变量和控制变量之间存在高度的多重共线性。到此,我们可以初步判断,这些自变量之间的多重共线性可能是因为这些变量是时间序列数据而导致。

很多经济数据都有着随着时间而上升的趋势,从而产生多重共线性。那么我们应该怎么样来估计模型呢?一个简单的方法是在模型中增加一个时间趋势变量。因此,本研究在多元回归分析时,加入了一个时间趋势变量t。时间序列回归中的R2通常会很大。同时,时间序列数据也会存在数据之间的滞后效应,即模型设定的内生型问题——自变量相对于因变量滞后一期。比如,去年的CPI可能会影响今年的犯罪率。因此,在模型拟合时,还要考虑时间序列的滞后性问题。

(二)模型拟合

理想状态是建构一个犯罪率的综合模型,在该模型中既包括消费支出和结构的影响,又包括城乡消费差距的影响,还包括居民消费价格指数的影响。因此,先来拟合一个多元线性回归的综合模型(表4-4中的模型1)。将本研究预设的所有自变量和控制变量都引入模型中,发现预设的六个自变量中,只有一个自变量“农村居民年人均生活消费支出”通过了显著性检验,其他五个自变量“居民消费价格指数(CPI)”“城镇居民年人均生活消费支出”“城镇家庭恩格尔系数”“农村家庭恩格尔系数”“城乡消费水平比”均没有通过显著性检验。出现这一状况的部分原因是因为所有变量均为时间序列数据、自变量和控制变量之间的多重共线性较强所致,也与样本量较小(n=32)有关。因为本研究没有收集地区数据,只有32期的全国数据,所以一次引入模型中的变量不能太多,否则可能会导致引入模型中的变量难以通过显著性检验,以及模型难以拟合。因此,下面通过减少引入模型中的变量,分别考虑不同层次的自变量对犯罪率的影响,即分别构建微观个体层面的“消费支出和结构”模型、“城乡消费差距”模型、“居民消费价格指数”模型来检验预设的三个理论假设。

首先,构建“消费支出和结构”模型,从微观个体层面考虑“消费支出”和“消费结构”对犯罪率的影响。以犯罪率作为因变量,以“城镇居民年人均生活消费支出”“城镇家庭恩格尔系数”“农村居民年人均生活消费支出”“农村家庭恩格尔系数”四个变量为自变量,以“人均GDP(元)”“时间趋势t”作为控制变量拟合模型。由于样本量太小,同时考虑城市和农村消费支出对犯罪率的影响时,模型中较多变量难以通过显著性检验。因此,分别考虑城市消费支出和农村消费支出对犯罪率的影响。由于自变量和因变量均是时间序列数据,因此在模型中引入时间趋势变量t,经过多次拟合,在控制人均GDP的情况下,最终拟合出表4-4中的模型2和模型3。从模型2可以看出,“城镇居民年人均生活消费支出”和“城镇家庭恩格尔系数”都对“犯罪率”有正的影响效应,而且影响效应显著,通过了t检验。即,城镇居民生活消费支出越高,犯罪率越高;城镇家庭食物支出在家庭总支出中所占的比例越高,生活越贫穷,犯罪率越高。模型拟合的结果跟现实比较吻合。现实生活中,改革开放多年以来,虽然城镇居民的收入增加了,消费水平也相应地越来越高,但是,人们的消费欲望也增强了,人们能够从消费中所获得的满足和幸福感实际上在下降,当消费欲望无法通过正常途径获得满足时,就可能通过犯罪来实现不切实际的消费欲望。生活越贫困的人,越无法满足自己的消费欲望,犯罪的概率就越高。从模型3可以看出,“农村居民年人均生活消费支出”对“犯罪率”有正的影响效应,影响效应显著,通过了t检验。即,农村居民生活消费支出越高,犯罪率越高。说明,消费主义对中国人的影响不仅是在城市,农村居民同样深受影响,虽然农村居民的收入有所增加,但是电影、电视等媒体中铺天盖地的广告不断刺激着农村居民的消费欲望,相比他们消费欲望的提高,收入的增长速度远远不够,从而增加了他们为满足消费欲望而犯罪的概率。但是,“农村家庭恩格尔系数”对“犯罪率”的影响效应却不显著,没有通过t检验,主要原因是农村居民以自给自足为主,在食品上的消费支出增长缓慢,更多的是将收入花费在服装、孩子教育、建造房屋等支出上。至此,假设一基本得到了验证,即微观个体层面的“消费支出”和“消费结构”影响犯罪率,影响效应为正。

其次,构建“城乡消费差距”模型,从中观社会层面考虑“城乡消费差距”对犯罪率的影响。以“犯罪率”作为因变量,以“城乡消费水平比”作为自变量,以“滞后一期的城镇失业率”作为控制变量拟合模型。理论上来讲,由于自变量和因变量均是时间序列数据,在模型拟合时,应该考虑时间趋势变量t。但是,由于只有一个自变量和一个因变量,当自变量和因变都是时间序列数据,而控制变量不是时间序列数据时,时间趋势的影响效应可以忽略,因此,此处暂不考虑时间趋势的影响。从模型5可以看出,在控制城镇失业率的情况下,“城乡消费水平比”与犯罪率显著正相关,说明城乡消费差距越大,犯罪率越高。

假设二得到了验证,即中观社会层面的“城乡消费差距”影响犯罪率,且影响效应为正。改革开放以来,虽然农村居民和城市居民的收入水平和消费水平都增加了,人们的物质生活水平提高了很多,但是,农村居民和城市居民的差距却越来越大,人们的心理不平衡感越来越强,心理落差越来越大,仇富心理越来越强,从而可能走上极端犯罪。这也进一步证明了为什么消费支出越高,犯罪率会越高。因为虽然人们的生活水平提高了,但是人们之间的消费差距拉大了,人们的参照对比群体在变化,对比高消费群体,低消费群体的心理落差不是变小了,而是变大了,从而可能通过犯罪来实现自己的消费欲望。

最后,构建“居民消费价格指数”模型,从宏观政策层面考虑“居民消费价格指数(CPI)”对犯罪率的影响。以犯罪率作为因变量,以“滞后一期的居民消费价格指数(CPI)”作为自变量,以“时间趋势t”作为控制变量拟合模型。模型7显示,CPI与犯罪率之间的因果关系不显著;但是,“滞后一期的CPI”却与犯罪率之间的因果关系显著(模型8)。说明,CPI与犯罪率之间存在模型设定的内生型问题,即自变量相对于因变量滞后一期,去年的CPI影响今年的犯罪率,去年的CPI越高,今年的犯罪率越高。

假设三得到了验证,即宏观政策层面的“居民消费价格指数(CPI)”影响犯罪率,且影响效应为正。因为,CPI增长,通货膨胀程度严重,人们手中的货币贬值,所能购买的消费品减少,从而使得消费欲望不能得到满足,增加了通过犯罪达到消费欲望的可能性。

至此,本研究已经通过模型拟合证实了预设的三个与消费相关的影响犯罪率的研究假设。但是,本研究模型拟合的一大特点是事前设定的控制变量,较多没有能够引入模型当中。原因之一是自变量与控制变量均是时间序列数据,多重共线性较强,如果模型中引入太多变量,导致需要观测的自变量难以通过显著性检验。另一个原因是样本量较小,只有32个时间序列数据,引入模型中的自变量和控制变量太多时,也会导致自变量的系数比较难于通过显著性检验。

(三)研究假设得到验证的情况总结

本研究通过多元回归分析,基本验证了预设的三个研究假设,详见表4-5。

表4-5研究假设得到验证的情况

续表

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈