首页 百科知识 评估对象的选择方法与模型

评估对象的选择方法与模型

时间:2022-04-06 百科知识 版权反馈
【摘要】:第一节 评估对象的选择方法与模型纳税申报涉及纳税事宜的方方面面,小到数据填写、录入错误,大到情况复杂、种类繁多、形式多样的虚假申报。因此,从这个意义上来说,每个纳税人都是被评估对象。旧细则规定非正常损失的进项税额不得抵扣,包括自然灾害损失。

第一节 评估对象的选择方法与模型

纳税申报涉及纳税事宜的方方面面,小到数据填写、录入错误,大到情况复杂、种类繁多、形式多样的虚假申报。如果想以一种简单的算法解决所有的选案问题,显然是不可能的。往往需要多种方法并用,从多个侧面进行深入挖掘分析。这里分别分析申报资料勾稽法、逻辑错误检索法、综合评分法、判别分析法、Tobit模型估测法、神经网络预测法。由于申报资料勾稽法、逻辑错误检索法、综合评分法相对简单,因此这里重点分析较为复杂的判别分析法、Tobit模型估测法、神经网络预测法。

需要说明的是,评估工作中,所有纳税人每期申报资料都要通过计算机自动筛选分析。因此,从这个意义上来说,每个纳税人都是被评估对象。而这里指的评估对象是通过计算机分析之后,发现可能有问题,需要进一步进行人工分析、约谈以至实地核查的对象。

一、申报资料勾稽法、逻辑错误检索法

申报资料勾稽法、申报资料逻辑错误检索法,主要用于检索纳税人申报资料中的计算、填写的错误。其主要的适用范围是:检索校验包括纳税申报主表、附表及项目、数字之间,不同税种纳税申报表的相互项目之间,申报表与审批表之间,申报表与税控装置数据之间,申报数据与财务报表数据之间、不同系统相关数据之间的勾稽逻辑关系是否正确。

(一)申报资料勾稽法

1.数学模型

申报资料勾稽法主要用于检索表内、表间算术关系错误。

数学模型:F(a,b,…)=x

模型中a,b,…、x分别代表具有一定关系的变量,F为x与其他各变量之间的函数关系。

2.应用举例

《申报表》中本期进项税额合计错误检索。

其中,x为“本期进项税额合计数”;a为“本期发生额合计数”;b为“免税货物合计数”;c为“非应税项目合计数”;d为“非正常损失合计数”;e为“简易办法征税货物合计数”;函数关系表达式F(a,b,c,d,e)=a-b-c-d-e

如果F(a,b,c,d,e)≠x,则说明纳税人报送的申报表算术关系错误,原因可能是由于计算、填写错误或有偷逃税款行为。

适用范围:处理纳税人财务报表、发票及附报资料表内及表间算术关系错误问题。

专栏4-1

《增值税暂行条例实施细则》:非正常损失不再包括自然灾害损失

增值税法是指国家制定的用以调整增值税征收与缴纳之间权利及义务关系的法律规范。现行增值税法的基本规范,是1993年12月13日国务院颁布的《中华人民共和国增值税暂行条例》(以下简称《增值税暂行条例》)。

我国从1979年起在部分城市试行增值税。1982年财政部制定了《增值税暂行办法》,并自1983年1月1日开始在全国试行。1984年9月,在总结经验的基础上,国务院又制定了《中华人民共和国增值税条例(草案)》,并自该年10月起施行。1993年12月13日,国务院又发布了《中华人民共和国增值税暂行条例》,并自1994年1月1日起施行。为进一步完善税制,积极应对国际金融危机对我国经济的影响,国务院决定自2009年1月1日起全面实施增值税转型改革,修订《中华人民共和国增值税暂行条例》(以下简称《增值税暂行条例》),在2008年11月5日经国务院第34次常务会议审议通过,11月10日以国务院令第538号公布,于2009年1月1日起施行。

修订前的《增值税暂行条例》对于保障财政收入、调节经济发展发挥了积极作用。但修订前的《增值税暂行条例》中确定的我国增值税类型是生产型增值税,即计算增值税应纳税额时不允许企业抵扣购进固定资产的进项税额,存在重复征税问题,制约了企业技术改造的积极性。随着这些年来经济社会环境的发展和变化,各界要求增值税由生产型向消费型转变的呼声很高。党的十六届三中全会明确提出适时实施增值税转型改革,“十一五规划”明确在十一五期间完成这一改革。自2004年7月1日起,经国务院批准,东北、中部等部分地区已先后进行改革试点,取得了成功经验。因此,国务院决定自2009年1月1日起,在全国推开增值税转型改革。

旧细则规定非正常损失的进项税额不得抵扣,包括自然灾害损失。但从社会认知度来看,自然灾害损失的进项税额不得抵扣有些不近情理。同时,旧细则规定的“其他非正常损失”范围不够明确,难以准确把握,争议较大。为此,细则第二十四条仅规定非正常损失是指因管理不善造成被盗、丢失、霉烂变质的损失,取消了自然灾害损失和其他非正常损失。

(二)申报资料逻辑错误检索法

1.数学模型

申报资料逻辑错误检索法主要用于检索表内、表间逻辑关系错误。

数学模型:如果F(a1,b1,…)>0,则G(a2,b2,…)>0。

模型中,a1,b1,…,a2,b2,…分别代表具有一定算术关系的变量。F,G分别表示变量a1,b1,…之间和a2,b2,…之间的函数关系。

2.应用举例

非正常损失是否作为进项税额转出检索。

此时,a1为《资产负债表》中“待处理流动资产损失”本月期末数;b1为《资产负债表》中“待处理流动资产损失”上月期末数;a2为《申报表》中进项税额转出栏“非正常损失”;F(a1,b1)=a1-b1;G(a2)=a2。

如果F(a1,b1)>0,而G(a2)≤0,则说明纳税人报送的资料逻辑关系错误,原因可能是由于计算、填写错误或有偷逃税款行为。

适用范围:处理纳税人财务报表、发票及附报资料表内及表间逻辑关系错误问题。

(三)申报资料勾稽、逻辑错误检索法应用分析

申报资料勾稽法、申报资料逻辑错误检索法,用于发现计算、填写错误或有偷逃税款行为等问题。其主要优点是:方法简单,易于实现;不存在人为因素,客观公正;查出问题准确率较高。缺点是:这两个模型只能处理一些简单的表内、表间平衡问题或根据财务指标间的内部关联特性检查出一些简单、明显的勾稽算术关系、逻辑关系错误,查出的问题一般比较轻微。

二、综合评分排序法

综合评分排序法,是一种对由计算机自动筛选出的疑点纳税人,按照疑点指标数量多少和疑点指标值偏离度自动计算得分,根据分值多少排序的方法。

综合评分排序法的思想源自比较分析法:同区域、同行业、同规模正常经营企业的某系涉税指标一般应处于某个合理区间。如果某个企业的指标偏离了这个区间,我们可认为该企业经营可能不正常。一个企业某测算指标偏离越大、偏离指标数量越多,不正常的可能性越大。

(一)数学模型

img27

其中,x表示某纳税人的排序得分值;M表示用于选择评估对象指标的个数。

di为偏离度,表示第i个指标偏离警戒值的幅度;

计算公式为:di=p i-|-di+δ|  如果p i≥|-d i+δ|

      di=|-d i-δ|-p i  如果p i≤|-d i-δ|

      d i=0         如果|-d i-δ|<p i<|-d i+δ|

其中:

-d i为该行业纳税人该指标的均值;δ为方差

p i代表某纳税人第i个选择指标的具体指。

qi代表第i个选择指标值的权值,依据该指标与纳税人申报情况相关度来确定。相关度越高,则分配权值qi越大;反之,则分配值越小。可以令img28

排序方法:各纳税人按疑点指标总得分情况,由高分至低分排序,分高者存在问题可能性大,先评估。

该方法的优点在于:模型意义比较直观;最终评分由多个指标计算得到,考虑的因素比较多。缺点是:模型中评估指标的构成以及不同指标之间的权值分配由税务部门确定,人为主观因素多;模型中指标之间可能存在线性相关关系,导致信息重叠。

(二)应用举例

A、B两商业企业,地域、规模相近,某月申报情况:A企业本月增值税税负率1.9%,主营业务收入变动率为1.8%;B企业本月增值税税负率3%,主营业务收入变动率为1.5%;该行业平均税负率为4%,方差为1%。主营业务收入变动率平均值为2%,方差为1%。为简便起见,仅以两个评估选案指标为例。

税负率、主营业务收入变动率的权值分别为60和40.则:

img29

显然,X A>X B。A的综合评价得分大于B,应先对A进行评估。

三、判别分析法

判别分析(Discriminant Analysis)是产生于20世纪30年代的一种多元统计方法。其基本思想是根据已有的有明确分类的样本指标,构造一个或一组判别函数及判别规则,从而判断某一特定个体究竟属于哪一类。判别分析法经过数十年的发展,产生了不同的判别原则,从而形成了不同的判别方法。(1)

就判别标准而言,有最大似然法、举例判别法、费雪判别法、贝叶斯判别法、非参数判别法、Logistic判别法等;就判别过程而言,有普通判别法、序惯判别法、逐步判别法等;就判别函数形式而言,有线性判别函数与非线性判别函数。这些方法构成了判别分析的方法体系。

应用判别分析法选择评估对象的步骤为:①行业合并与规模分类;②筛选指标;③建立判别样本库;④总体差异性检验;⑤建立真实申报判别模型。

(一)行业合并与规模分类

纳税人分布在国民经济的各个行业,由于各个行业之间的获利能力、成本结构以及会计核算方法不同,不同税种的核算方法也不同,故应以行业为单位建立判别函数。

需要指出的是,一般来说,由于规模效应的影响,同一行业不同规模企业的盈利能力以及其他所体现出来的生产经营指标数量特征也往往并不相同。因此,在本地区同一行业企业数量足够多的情况下,可以考虑按照销售收入大小再进行分类,这样将经营规模因素也考虑到判别函数的建立当中,可以提高判别分析的准确性。

这里的行业分类可以采取“国民经济行业分类代码”中的分类方法。该分类代码体系将整个国民经济划分为13个大类。每个大类又分为若干小类。在实际工作中,根据各地区的实际情况划分行业时,要保证划分后的每个行业中企业(样本)的数量不能过少。如果太少,需要考虑将相近的行业合并。

(二)指标的选取和筛选

1.指标的选取

在各税种的评估指标体系当中,既有纵向比较的指标、也有横向对比的指标;既有纳税人报送的指标信息、也有其他部门提供的指标信息。在进行不同税种的判别分析时,模型中的指标可以取自上述各税种的指标体系。以企业所得税申报判别分析为例,可以选取偿债能力指标、运营能力指标、盈利能力指标等指标,这些指标主要来自企业的纳税报表:资产负债表和损益表。模型中采用的指标可以是企业纳税报表中的指标(绝对指标),也可以是其派生指标(相对指标)。

通过上述分析,初步选择出某个行业的判别指标体系,得到行业判别原始指标体系。

2.指标的筛选:主成分分析法

在各税种评估指标体系当中,为了全面、系统地反映纳税人生产经营活动、纳税情况,考虑的因素较多,以期从多个角度全方位反映纳税人的纳税状况,因此指标数量众多。例如,与企业所得税相关的评估指标就有80多个。但是,由于指标之间往往彼此存在一定的相关性,所以所取得的评估指标会有一定程度的信息重叠。而在统计研究中,如果变量太多,不但会增加问题的复杂性和计算量,使得指标运算量加大,甚至可能会成几何级数增加;并且如果将对判别分析不起作用的指标入选判别模型,还会影响模型的判别效果。因此在统计分析中所用指标应当尽可能少,而得到的信息尽可能多,这样判别效果会更加准确。

为此,我们可以使用主成分法对上一步初选的行业原始指标体系进行优选,从而建立简洁有效的指标体系。

(1)主成分分析的基本思想(2)

主成分分析(Principal Components Analysis),也称主分量分析,是由Hotelling于1933年首先提出的。主成分分析是一种利用降维的思想,把多个指标化为少数几个综合指标的多元统计分析方法。它通过适当的数学变换,用少数几个具有代表性的综合指标来代替原始指标,并保留原始指标尽可能多的信息。

经济问题涉及的众多变量之间具有一定的相关性,这其中必然存在着起支配作用的共同因素。因此,通过对原始变量相关矩阵内部结构关系的研究,经过适当的数学变换,找出影响某一经济过程的几个综合变量,使综合指标成为原来指标的线性组合。这个综合指标就是原始指标的主成分。该综合指标不仅保留了原始变量的主要信息、彼此之间不相关,又比原始变量具有某些更优越的性质,使得我们研究复杂的经济问题时,容易抓住主要矛盾。这就是主成分分析方法的思想实质。

(2)主成分分析的数学模型与求解过程

由n个p维随机变量x=(x 1,x 2,…,x pT组成的原始矩阵:

img30

在经济研究中一般表示n个样本(企业、年份等),p个变量(经济指标、因素等)。

设x i代表P维随机变量,则(1)式用向量表示为x=(x 1,x 2,…,x pT

在应用主成分方法分析时,为消除由于量纲的不同可能带来的一些不合理的影响以及解决不同量纲不能求和的问题,需要先对数据进行标准化处理,以使每一个变量的平均值为零,方差为1。

为方便,将数据标准化之后的矩阵仍用x记,则(x 1,x 2,…,x pT的p个变量可以综合成p个新变量,新的综合变量可以由原来的变量x 1,x 2,…,x p线性表示,即

img31

其中,系数uij是由下列原则确定的:

(1)yi与y j(i≠j;i,j=1,2,…,p)相互无关。

(2)y 1是x 1,x 2,…,x p的一切线性组合(系数满足2式)中方差最大者;y 2是与y 1不相关的x 1,x 2,…,x p的一切线性组合中方差最大者;y p是与y 1,y 2,…,y p不相关的x 1,x 2,…,x p的所有线性组合中方差最大者。

这样决定的综合变量与y 1,y 2,…,y p分别称为原变量的第一,第二,…,第p个主成分。其中y1在总方差中占的比重最大,其余综合变量y2,…,y p的方差依次递减。因此,只要取前几个方差最大的主成分,即可达到减少变量(指标),从而简化结构、抓住问题实质的目的。

根据以上分析,得到主成分分析法筛选指标的步骤和原则为:

img32

(1)将原始数据进行标准化处理;

(2)根据指标的样本数据计算相关矩阵R;

(3)求相关矩阵R的特征值及特征向量

(4)选取最小的特征值和该特征值对应的特征向量,把该特征向量中具有最大分量所对应的指标删除;

(5)对余下的指标再重复以上步骤,直至指标筛选满足要求结束。

(三)建立样本库

建立样本数据库,是指将税务部门收集的样本企业数据进行分类,把这些企业分为“真实申报”和“不真实申报”两类,并分别建立标准的“真实申报”数据库H和标准的“不真实申报”数据库L。

理想的分类方法是:首先进行调查,掌握准确的数据资料,不但要掌握真实申报类的详细、准确的数据资料,而且要掌握不真实申报类的详细、准确的数据资料以及偷逃漏税形式;其次使用精简的指标体系,即上述通过主成分分析法获得的指标体系,选用合适的“距离”、应用合适的分类方法对样品数据进行分类,就可以将样本企业分为“真实申报”H类和“不真实申报”L类。建立“真实申报”数据库H和标准的“不真实申报”数据库L。

对样本企业进行分类采用的是聚类分析方法。

1.聚类分析方法

聚类分析(Cluster Analysis)是研究“物以类聚”的一种多元统计方法,是按照研究对象在性质上的亲疏关系,应用数学工具进行分类的方法。聚类方法很多,有系统聚类法、动态聚类法、最优分类法、图论聚类法等,其中最常用的是系统聚类分析法。

系统聚类分析的思想是,将n个样品各自看作一类,规定样品之间的距离和类与类之间的距离,先将两两计算距离,然后将具有最小距离的两个样品合并成一类,然后计算这个类和其他n-2个样品的距离。再将最小的两个类合并,如此重复。这样每次分类都会减少一类,直到所有的样品都归并为一类为止。

在实际研究过程中,通常利用计算机软件进行聚类分析。这时可以根据研究对象,选取多种聚类方法和多种距离或相似系数,然后对聚类结果进行对比、分析,以确定合适的距离和方法。在聚类分析中,除了聚类分析的选择外,距离的选择也是一个比较复杂而带有主观性的问题。

2.常用距离

描述研究对象在性质上的亲疏关系的尺度有两种:一种是把研究对象样品看作是m维空间的一个点,然后用点和点之间的某种距离表示,常用的距离有明科夫斯基(Minkowski)距离、切比雪夫(Chebychev)距离、兰式(Canberra)距离、马氏(Mahalanobis)距离和协交空间距离等;另一种是定义样品之间的某种“相似系数”,然后据此将样品进行分类。常见的相似系数有夹角余弦、相关系数和指数相关系数等。

设有n个样品,每个样品有p个指标,记n×p原始观察数据矩阵为:

img33

矩阵X的第i行是第i个样品的p个指标值,第j列是第j个指标的n个观测值。

在聚类分析以及判别分析中常用的距离有以下几种:

(1)明科夫斯基距离

img34

明科夫斯基距离的优点是比较直观;缺点是距离的大小与各指标的观测单位有关,另外它没有考虑指标之间的相关性,因而易受变量之间相关性的干扰。

(2)切比雪夫距离

img35

切比雪夫距离的特点与明科夫斯基距离相同。

(3)马氏距离

img36

马氏距离的优点是对指标的相关性做了考虑,且不受指标量纲的影响。缺点是同类样本的距离通过这一类样品的协方差矩阵计算得到,类的形成依赖样品之间的距离,而样品之间合理的马氏距离又依赖于类,从而形成循环。

(4)兰式距离

img37

  (i,j=1,2,…,n)

兰式距离的特点,与明科夫斯基距离相同。此外,它对大的奇异值比较敏感,适合高度偏倚的数据。

(5)协交空间距离

其中,rih为数据经过标准化变换后指标i和指标h之间的相关系数。

该距离的特点是排除了变量之间相关性的干扰,不受量纲的影响。

(四)总体差异性检验

1.总体均值的差异性检验

对纳税人诚实申报进行判断的方法是判别分析,判别分析是利用两个总体数字特征之间的差异进行判别的,只有两个总体的均值有显著性差异,应用建立的判别模型进行判别才有意义。否则,判别没有意义。因此,在建立判别模型前,还需要对H库和L库进行差异性检验。

设有两个p元总体N p(μ(2),∑(2))N p(μ(1),∑(1)),分别从中抽取样品:

统计量为:

img40

其中,n=n1+n2

对建立的H库和L库用以上统计量进行均值差异性检验,如果总体均值差异不显著,则需重新建库,或者重新设立、筛选指标体系。

2.总体协方差阵的差异性检验

线性判别函数是以两总体协方差阵相等为前提的,如果两总体协方差阵不相等,则应考虑使用两次判别函数。因此,还应对两总体进行协方差阵的差异性检验。

协方差阵的差异性检验方法为:

img41

H 0的似然比统计量为:

修改的似然比统计量记为:

博克斯(Box)给出了M的近似分布,并编制了p、n较小时的分布表。当p、n值超出表中的范围,可以用M近似服从的F分布或近似服从的χ2分布来判断拒绝或接受原假设H 0

建立H库和L库之后,需要按照上述检验方法进行总体协方差阵的差异性检验,以判断是否采用线性判别函数或者二次判别函数。

(五)建立真实申报判别模型

选择评估对象(真实申报)判别模型的依据是判别分析。判别分析方法有很多,应根据具体的研究对象选取不同的判别方法。也可以采用不同的判别方法建立判别模型进行分析,然后比较结果,再加以选择。

1.距离判别

设有两个总体H和L,X是一个待判样品。定义样品X到总体H和L的距离,并记X和H、L的距离分别为d(X,H),d(X,L)。可以采用如下规则判别:若样品X到总体H的距离小于到总体L的距离,则认为样品X属于总体H;反之,则认为样品X属于总体L;若X到H和L的距离相等,则待判别。数学模型可描述为:

若d(X,H)<d(X,L),则X∈H;

若d(X,H)>d(X,L),则X∈L;

若d(X,H)=d(X,L),本方法无法判别。

如前所述,X到总体H、L的距离有多种定义方法,对应正态总体,比较合适的选择是使用马氏距离,则:

img44

其中,μ(1)、μ(2)img45分别是H和L的均值和协方差阵。

(1)线性判别

W(X)=d 2(X,H)-d 2(X,L)

img47距离采用马氏距离,经过变换可以得到:

img48

这时,W(X)为X的线性函数。判别取决于函数W(X)的值。判别规则为:

若W(X)>0,则X∈H;

若W(X)<0,则X∈L;

若W(X)=0,本方法无法判别。

(2)二次判别

用线性判别函数进行距离判别的前提是两总体协方差阵相等img49当两个总体协方差阵不相等时,就不能建立线性判别函数,此时通过计算待判样本到两类总体的马氏距离,从中找出最小距离,然后进行判别。

img50

判别规则为:

若W(X)>0,则X∈H;

若W(X)<0,则X∈L;

若W(X)=0,本方法无法判别。

此时,W(X)是X的二次函数,所以又称二次判别法。

2.贝叶斯判别法

贝叶斯判别的基本思想是,通过修正样本修正先验概率分析,求得后验概率分布,得到平均误判损失,通过使平均误判损失达到最小求得一个划分。

设有m个p元总体G 1,G2,…Gm,分别具有p维密度函数p 1(X),p 2(X),…,p m(X)。已知m个总体的先验分布分别为q 1,q2,…qm,用D 1,D 2,…Dm表示R p的一个划分:img51

如果此划分适当,正好对应于m个总体,则有如下判别规则:

X∈Gi 若X∈Di i=1,2,…,m

由上面的判别规则,划分D 1、D 2带来的平均损失ECM(expected cost of misclassification)为:

img52

其中,c(j|i)表示样品来自Gj而误判给Gi的损失,误判的概率为:

我们的目的是求D 1,D 2,…Dm,使得ECM达到最小。可以证明,在上述假设下,贝叶斯判别的解D 1,D 2,…Dm为:

img54

img55

选择纳税评估对象,需要将纳税人区分为“真实申报”(H)和“非真实申报”(L)两类。因此是一个两总体判别问题。此时m=2,因此

img56

从而有:

img57

img58

img59

判别规则为:

若V(X)>0,则X∈H;

若V(X)<0,则X∈L;

若V(X)=0,本方法无法判别。

3.Probit模型

Probit模型是一个计量经济学模型,常用线性Probit模型(LPM)。

假设被解释变量Zi(i=1,2,…,n)仅取0,1两个值,Xi为解释变量。LPM的形式为:其中:当Z>0时,Zi=1当Z≤0时,Zi=0

假设:ui服从标准正态分布,可得到:

E(Zi|Xi)=β0+β1 Xi

因为Zi仅取0或1两个值,利用LPM,在给定解释变量Xi(若有多个解释变量,则为解释向量)的值,就可求得事件|Zi=1|的概率:

img60

        =pi

即在给定解释变量Xi样本值,事件|Zi=1|发生的概率为pi,事件|Zi=0|发生的概率为1-pi。如果pi≥0.5,则预测事件|Zi=1|会发生。

应用这一思想,建立选择纳税评估对象的Probit模型,有:

被解释变量:Zi=0,当Xi∈H Zi=1,当Xi∈L

解释变量为所选各项评估指标。

建立LPM模型Zi=β0+β1Xi+ui

根据样本库的数据和被解释变量Zi的取值,估计出模型参数β0,β1的值。

对于某一待判样品,将观察值代入模型,求得估计值^p,^p就是该样品属于总体L的概率。

(六)应用举例

判别是一种应用性很强的多元统计方法,在各个领域得到广泛运用,比如对小企业进行破产评估、对个人信用进行评估(3)等。在税务系统,也为美国等一些发达国家和地区所使用。

近年来,我国一些地区税务部门也逐渐采用判别分析法判断纳税人申报情况。比较典型的应用是上海市税务局建立的诚实纳税申报识别系统。(4)该系统利用判别分析方法,建立线性判别函数和二次线性判别函数模型对纳税申报的诚实性进行判断。该系统以上海市税务局调查的大量历史数据为基础,将企业分为“诚实申报”和“不诚实申报”两大类,采用机器学习的方法自动选取模型指标,最终选取了4个指标。并通过对采集数据进行计算分析得到线性判别函数和二次线性判别函数。该方法在其“税务稽查系统软件”中得到推广应用,但其在系统中的实用性和可靠性有待进一步提高。

此外,杭州市国税局开发的税务稽查选案系统,利用计算机系统自动筛选指标后得到30多个指标,在此基础上用判别分析的方法和神经网路的方法建立了不同的模型进行判别。该系统指标过多,需要进行深入的统计分类。(5)

通过上面的分析,可见判别分析是一种科学的多元统计分类方法。优点是:考虑影响因素比较全面,避免信息重叠;不存在主观人为因素,客观公正。

但在应用中需要注意的问题是,指标选择要精简高效,纳税人分类库要准确,否则判别分析法效力将大打折扣。在应用研究中,分类要足够细致科学。在对行业进行分类之后,在本行业纳税人数量足够多的情况下,应该在此基础上再按规模进行细分,一般要保证每类纳税人的数量大于30。

四、Tobit模型估测方法

(一)模型简介

Tobit模型是诺贝尔经济学奖获得者J.托宾(James Tobin,1958)首先提出来的一个计量经济学模型。其模型方程为:

img61

其中,Xi是(k+1)维的解释变量向量,β是(k+1)维的未知参数向量。

Tobit模型的一个重要特征是,解释变量Xi是可观测的,而被解释变量yi只能以受限制的方式被观测到:当βX i+ei>0时,取y i=βX i+ei,称y i为“无限制”观察值;当βX i+ei≤0时,取yi=0,称yi为“受限”观测值。即“无限制”观测值取实际的观测值,“受限”观测值均截取为0。

建立Tobit模型,就是要求在对yi和X i进行n(n>k)次观测的基础上估计β和σ2

可以证明,对所有的n个观测值应用最小二乘法不会产生Tobit模型的无偏估计量和一致估计量。而β和σ2的最大似然估计是一致估计量。因此,估计Tobit模型的最好方法就是最大似然估计。

(二)建立Tobit逃税额估测模型

Tobit模型可用于计算纳税人非真实申报逃税额的情况,来选择评估对象。应用Tobti估测逃税额的步骤为:

(1)行业合并与规模分类;

(2)筛选指标;

(3)建立判别样本库(真实申报和非真实申报样本库);

(4)总体差异性检验;

(5)建立Tobit逃税额估测模型;

1-4步骤与判别分析法相同。应用Tobit模型估测非真实申报导致的逃税额方法为:在上述1-4步将纳税人分为“真实申报”H类和“非真实申报”L类后,将“真实申报”的被解释变量y i(指标)和解释变量X(指标)作为“无限制”观测值yi>0,即取实际申报值;将“不真实申报”类的被解释变量y i看成是“受限”观测值,即将非真实申报的实际申报值截取为yi=0。

(yi;x i1,…,xik)和(0;x j1,…,x jk

根据观测值,求得yi=βX i+ei的估计模型img62

此模型为“真实申报”类的估计模型,再将“非真实申报”类的解释变量Xi代入上面的估计模型,求出“非真实申报”被解释变量yi的估测值^y i的置信区间,从而推算出逃税额。y i的估测值img63及其置信区间的含义为:“非真实申报”企业如果真实申报,其被解释变量y的真实值应该是多少及其可能的范围。

(三)应用举例(6)

根据某地区“诚实申报”商业企业H和部分“不诚实申报”商业企业G的纳税资料(选取5个指标作为解释变量),应用SAS软件建立的Tobit模型,采取最大似然估计法可以估测出该商业企业的所得税申报情况。

假设企业的应税所得额等于利润总额,现在需要估算该商业企业的应纳所得税额。而

  应纳所得税额=利润总额×适用税率

  利润总额=销售收入净额×销售利润率由于所得税的税率是固定的,因此,企业如果不诚实申报,问题一般出在利润总额上。如果销售收入净额为诚实申报,只需估测出真实的销售利润率,就可以推算出真实的利润总额。

在应用H、G的资料估计参数β、σ2之后,验证了模型的估测效果:选“诚实申报”类H中的一家企业h和“不诚实申报”类G中的一家企业g进行估测,结果见表4-1。

表4-1   Tobit模型的估测值与申报值比较

img64

作为验证模型效果的“诚实申报”企业h,其销售利润率的申报值y=0.074落在90%置信区间(0.073 337,0.081 065)内,与点估计值相对接近,与点估计值的相对误差为4.32%。可见,模型的估测效果相当好。

“不诚实申报”企业g申报值的销售利润率y=0.002,通过Tobit模型得到的点估计值^y=0.011 648,90%置信区间为(0.010 564,0.012 731),因此,有90%的把握判定,其真实的销售利润率至少应为0.010 564(取置信区间的下限),销售利润率的估计值(仅取下限)是申报值的5倍多。根据点估计和区间估计,不难得出真实利润总额和真实应纳税所得额的估测值,由此判断g非真实申报,应列入评估对象。

由此可见,Tobit模型是通过估算逃税额判断纳税人是否真实申报的有效方法。如果申报值与点估计和区间估计相差较大,则有理由判定其属于“不真实申报”。

五、神经网络预测法

人工神经网络,neural network,简称“神经网络”,最早是由心理学家和神经生物学家提出,是对生物神经网络系统的模拟。它试图通过模拟人和动物大脑的功能,首先根据人类经验从了解如何处理一般类型情形的经验中学习,然后将这些所学到的知识运用到同类型的情形中去,进而得到我们所要的输出。近年来,神经网络方法成功地运用于实际问题的预测,取得了令人满意的效果。

神经网络预测方法的应用步骤:行业合并与规模分类;筛选指标;应用神经网络预测方法预测。行业合并与规模分类、筛选指标与判别分析法相同。下面介绍神经网络方法预测的原理和模型。

(一)人工神经网络概述

神经网络由神经元组成,神经元是参照人脑神经细胞的结构建立的。每个神经元可以接受多个输入(x 1,x 2,…,x n),对应人脑细胞的多个神经末梢;在神经元中设置了一个激发阀值T,对应神经细胞的细胞抑制度。神经元的输出由下式表示:

y=sgn(f(x 1,x 2,…,x n)-T)

神经元之间相互连接形成神经网络,神经网络在结构上可以划分为输入层、隐含层和输出层。其中输入层对应输入变量,而输出层对应目标变量。隐含层在输入层和输出层之间,对神经网络的使用者是不透明的。

神经网络方法的优点是其所具有的学习能力以及由此而来的泛化能力。该方法的主要缺点是神经网络很难解释,没有比较容易理解的解释方法;神经网络训练时间比较长,而且还存在训练过度的问题。

img65

在各种人工神经网络模型中,多层前馈神经网络模型是应用比较多的一种。下面重点介绍BP多层前馈神经网络模型,并用青岛市国家税务局的一个实例来说明其应用。

(二)BP神经网络模型

BP(back propagation,反向传播)网路模型由Rumelhart等人于1985年提出,是神经网络中采用误差反向传播算法的多层前馈神经网络。BP模型中,隐含层可以不止一层,层与层之间的神经元采用全互联的方式联接,邻层之间的神经元通过相应的联接权系数W相互作用,但同层内的神经元之间没有联接。

1.作用函数(活动函数)

作用函数为非线性的(0,1)Sigmoid型:

img66

2.误差函数

第p个样本误差计算公式为:

img67

其中,tpi,opi分别是期望输出与计算输出。

3.计算公式

(1)隐含层结点输出值

img68

(2)输出结点输出值

img69

(3)输出结点的误差公式

img70

式(2)、(3)中,xi表示输入层第i个结点的输入值,y i表示中间层第j个结点的输出值,Ok是输出层中第k个结点的输出值。Wi表示输入层第i个结点到中间层第j个结点的权系数,Tki表示中间层第j个结点到输出层第k个结点的权系数,θj表示中间层第j个结点的内部阀值,θk表示输出层第k个结点的内部阀值。式(4)中tk、Ok分别表示第k个结点的期望输出与计算输出。

(三)网络自学习过程

BP神经网络的自学习过程是一个反复迭代的过程。首先给网络一组初始权值,然后输入一样本并计算其输出,通过实际的输出与期望值之间的差值用一定的方法来修改网络的权值,以达到减小这个差值的目的。反复执行这个过程直到这个差值小于预先确定的值为止。对足够的样本进行这样的训练后,网络所得到的那组权值便是网络经过自适应学习得到的正确的内部关系。

自学习过程的具体算法如下:

第一步,给网络赋一组小的随机初始权值,其值在0到1之间,并使其互不相等。

第二步,将输入数据归一化,使其在0到1之间,并确定期望输出信号tk(k=1,2,…,m)。

第三步,逐层计算神经网络的实际输出值。

img71

第四步,从输出层开始,反向调整权值,其调整公式如下:

img72

其中:

img73

第五步,计算总的误差E,若E≤ε,学习停止,否则转到第三步重新计算。

在实际编制程序时,如果步长η较小则学习速度较慢,而若η过大则会引起网络出现摆动。

(四)应税销售额BP网络非线性模型的建立与验证(7)

1.模型设计

通过实际观察商业企业应税销售额的曲线变化趋势,发现它们总体上的变化规律很强、且具有相似的共性。这说明我们可以用同一种模型结构来描述它们的规律。考虑到BP人工神经网络模型的强大非线性表达能力和自学习适应能力以及模型参数的学习稳定性,经过不断探索改进,把商贸企业应税销售额模型设计为由一个BP网络预测模型和一个非线性模型复合而成,如图所示,其中BP网络预测模型包含两个隐层。

img74

图4-1 应税销售额模型原理

在初步确定模型结构之后,根据实际工作经验以及利用数据挖掘的决策树分析,选择5个申报财务指标,如销项税额,进项税额实际发生数,固定资产原值,管理费用,期末应收账款余额等。前3个月的实际数据为模型的输入参数,对数据归一化处理,把BP网络模型的应税销售额预测值作为所设计的非线性模型的输入。非线性模型的输出,就是BP网络非线性模型的应税销售额的预测值。

2.模型预测效果

该商贸企业的实际预测效果图表,见表4-2。

表4-2   某商贸企业5月至次年3月的应税销售额实际值与预测值单位:元

img75

续表

img76

根据所设计的模型结构,针对每个真实申报的企业确定学习训练输入样本,通过模型的自我学习确定相应的模型参数,相对固化模型,预测应税销售额。对真实申报企业的实际验证显示,90%以上的企业最大预测误差在30%以内,表明模型可以反映商贸企业应税销售额的变化趋势、模型的预测效果能够满足纳税评估实体分析的需要。

通过上面的实例可见,在科学筛选指标基础上,建立适当结构的BP神经网络模型,经过网络自学习,确定模型参数,可以满足纳税评估工作的需要。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈