首页 理论教育 数据挖掘技术在税务稽查中的应用

数据挖掘技术在税务稽查中的应用

时间:2022-11-19 理论教育 版权反馈
【摘要】:本文拟从粗糙集、分类、聚类等数据挖掘技术在税务稽查中的应用做一些探讨,以期给纳税评估、税源监控与预测、纳税信誉等级评估等决策信息挖掘工作提供一些思路。有许多数据挖掘算法可以应用在分类分析中,例如决策树归纳、贝叶斯分类、神经网络等。应用实例:《基于决策树的税务稽查计算机选案》一文中利用决策树提取11条规则,并将挖掘规则应用于实际的地税征管信息系统进行计算机选案。

数据挖掘技术在税务稽查中的应用

蒋丽华

随着税务信息化建设的发展,应用数据库的规模和数据量在迅速膨胀,各个系统中存储着大量的涉税信息。但是面对这些海量的信息数据,在具体工作中,却往往是“数据丰富”与“信息缺乏”并存,因此如何将这些“历史的、静态的”数据变成具有分析决策价值的信息,已成为目前税务信息化建设向更高层次推进的瓶颈。本文拟从粗糙集、分类、聚类等数据挖掘技术在税务稽查中的应用做一些探讨,以期给纳税评估、税源监控与预测、纳税信誉等级评估等决策信息挖掘工作提供一些思路。

一、数据挖掘基本概念

数据挖掘(Data Mining),又称数据库中的知识发现(KDD),是指从大型数据库或数据仓库中提取隐含的、先前未知的、对决策有潜在价值的知识和规则的高级处理过程。换言之,数据挖掘就是对观测到的数据集(经常是很庞大)进行分析,发现其中未知的关系并对其有价值的部分以一种新颖方式进行数据总结、分类。它是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等各个学科的理论和技术。目前,数据挖掘技术已经成功应用到金融业、零售业、电信业和政府决策等各个领域,取得了良好的社会效益和经济效益。

二、税务稽查工作中引入数据挖掘技术的必要性

(一)税务稽查工作现状

近年来,税务稽查工作通过发挥监督、惩处、教育和收入等职能作用,有效地维护了税法的严肃性和税收经济的正常秩序。但离新形势下税务稽查工作的要求还有一定的距离,特别是稽查管理的精细化、科学化程度还不高。主要表现在:

1.税务稽查选案缺乏科学性、准确性。当前,涉税违法犯罪日益多样化、隐蔽化,传统的选案方法和选案结果已经制约了稽查案件的有效性、针对性。

2.稽查实施重点不突出。由于选案存在盲目性,制定稽查计划时,只能每年查一定的比例,几年轮一遍,这样就使检查的户数过多,导致日常稽查难以查深查透;近几年开展的重点行业稽查,选择面太广,没有体现稽查的重点,也没有达到重点稽查的目的;稽查方式仍停留在就账查账的老路上,稽查人员采用“就账查账,账实相核”的传统稽查方法,很难查处深层次的违法问题。

3.数据分析手段单一,应用软件间缺乏信息共享。目前在稽查局运行的金税工程协查系统、举报管理系统以及中国税收征管信息系统等软件,都是相互独立的系统,系统间缺少信息共享。并且这些系统对数据的分析也仅停留于简单的统计和报表功能,缺乏对大规模征管及涉税数据的加工分析。

4.电子商务对税务稽查的挑战。网络经济不仅提供了集信息流、物流和资金流于一体的商务交易模式,而且带来了经济结构和运作方式的变革。这种变革直接导致了企业会计信息系统和会计核算方式的变革,也对以会计信息系统为客体的税务稽查产生了极大冲击。具体表现为:税务稽查环境、范围、线索、技术方法以及税务稽查主体素质的改变等。如何利用先进的计算机技术和工具对电子商务进行“网上稽查”,成为各级稽查部门需要思考和探索的问题。

(二)信息资源整合为税务稽查提供数据分析平台

随着中国税收征管信息系统(CTAIS)省级数据集中方式的全面推行,以及整合主体应用系统的逐步实施,税务系统的信息化正由扩张走向信息资源整合和数据集中管理的阶段。数据整合使业务数据集中处理迈向新台阶,不仅带来了数据处理平台的全面提升以及系统间信息交换共享的实现,而且也为税务稽查工作的数据分析带来了新的契机,给稽查工作提供了一个统一的、全面涵盖纳税人涉税信息的数据平台,使前沿的数据分析、挖掘技术有了发挥作用的基础,开辟了数据信息向知识信息转变的通道。

三、数据挖掘技术在税务稽查工作中的应用

(一)选案环节

1.选案指标的建立。税务稽查选案评价指标的选择和确定,是直接关系到评价结果的一项最重要的基础性工作。从理论上讲,设置的指标越多选案内容就越丰富,越有深度和广度。但是,实际选案中采用的指标并不是越多越好。其中有些属性(指标)是与问题无关、弱相关或冗余的,对这些属性必须继续检测识别和删除,否则会影响选案的效果。

属性约简是粗糙集理论研究的核心内容之一,粗糙集分析方法仅利用数据本身提供的信息,无须任何先验知识,能在保留关键信息的前提下对数据进行化简并求得知识的最小表达。利用粗糙集等数据挖掘方法,对纳税户的属性(指标)进行简化,可以提高选案系统潜在知识的清晰度

2.纳税群体的细分。为了准确地定位稽查对象,对辖区内纳税户的细分是非常重要的。一般有两种方法:分类和聚类。

分类是指事先人为根据纳税户属性确定分类标准,再对其进行归类。目前选案大多采用将纳税人简单地分为有疑问和没有疑问两种类型。有许多数据挖掘算法可以应用在分类分析中,例如决策树归纳、贝叶斯分类、神经网络等。应用实例:《神经网络在税务稽查选案中的应用研究》一文中利用BP网络模型对诚实纳税企业和非诚实纳税企业进行分类。研究中选用19个财务比率指标,构建了三层的网络结构。由于BP神经网络方法对处理非线性问题具有明显的优势,其判别结果与统计分析中的判别分析方法比较,BP的效果要明显好一些。

与分类不同,聚类要划分的类是未知的,它完全是根据数据在各变量上的取值的相似性进行的。聚类方法是指系统根据纳税户属性,使群内纳税户具有最大的相同性,群间纳税户具有最大的相异性,自动产生聚类标准,再按此标准对纳税户进行归类。通过对分行业、分税种聚类的分析研究,可以更快地将存在不同疑点的纳税群体进行分类,确定各个类别的总体状况和特征,为制定稽查计划提供决策依据,使得税务稽查工作更具科学性和针对性。

3.异常纳税户的分析。通过离群点的分析可以发现异常纳税户。离群点是不符合数据一般模型的数据对象,对于聚类分析来说,就是那些散落在外,不能归并到任何一类中的数据对象。离群点中可能隐藏着重要的信息。税务稽查部门在选案过程中,先从数据仓库中根据企业的规模、行业、地区等维度查找出若干企业,将这些数据再用数据挖掘的有关方法查找纳税额明显偏低的企业,可以将它们作为重点检查对象进行稽查。

4.选案规则提取。在很多情况下,稽查人员需要得到如“IF(属性a)AND(属性b)……THEN纳税户是否被确定为稽查对象”等一些直观的选案规则,我们可以采用粗糙集、决策树、关联规则算法等辅助进行选择。应用实例:《基于决策树的税务稽查计算机选案》一文中利用决策树提取11条规则,并将挖掘规则应用于实际的地税征管信息系统进行计算机选案。

(二)实施环节

在稽查实施环节中,要根据查处的问题进行定性。在定性和处罚过程中,其中违法违章类型有8种,违法违章手段有100多种,违法违章成因有4种,根据违法税款大小和《征收管理法》来进行处罚。税务人员通常是根据经验和查询相应的法律法规来决定进行什么样的处罚及处罚金额,这样比较麻烦和容易出错。我们可以用产生式规则解决税务稽查中的违法定性和处罚,即:将《征收管理法》整理成规则库,通过对规则的匹配和推理,得出定性处罚结论。

(三)审理环节

基于案件的推理(简称CBR)是通过访问案例库中的同类案例(源案例)的求解从而获得当前问题(目标案例)解决方法的一种推理技术。对过去的求解结果进行复用,而不是再次从头推导,可以提高对新问题的求解效率。过去求解成功或失败的经历可以指导当前求解时该怎样走向成功或避开失败,这样可以改善求解的质量。对于那些目前没有或根本不存在可以通过计算推导来解决的问题,如在法律中的判例,基于范例推理能很好地发挥作用。

CBR的基本过程是:当遇到一个新的问题时,系统根据关键的特征在原始的案例库中进行检索,找出一个与待求问题最相近的候选案例,重用此候选案例的解决方法。如果对此候选案例的解决方法不满意,可以对它进行修改以适应待求问题,最后把修改过的案例作为一个新的案例保存在库中,以便下次遇到类似的问题时作为参考。CBR以案例作为知识元,知识获取和表示自然直接,并且具有自学功能,其本质是基于相似性的类比推理,这正是符合了人类类比思维的逻辑。

经过多年的工作积累,税务部门已经拥有了大量的稽查案例。将这些已有的稽查案例改造成范例推理的范例库,然后通过范例推理的技术找到相似案例,在审理环节可以辅助稽查审理人员对案件进行审理。

四、结束语

数据挖掘是一种高效的分析数据的技术,通过对信息数据的深层次分析,为决策者提供重要的、极有价值的信息或知识,实现了信息数据的增值应用。同时,作为一种全新的解决问题的手段,数据挖掘带给稽查工作新的思考问题的角度和方式,必将在未来的税务稽查工作中发挥其高效、智能的作用,为税务稽查的决策提供强有力的支撑。

参考文献

(1)〔加〕Jiawei Han,Micheline Kamber著,范明等译:《数据挖掘:概念与技术》,机械工业出版社,2004年。

(2)段云峰、吴唯宁等:《数据仓库及其在电信领域中的应用》,电子工业出版社,2003年。

(3)马庆国、王卫红等:《神经网络在税务稽查选案中的应用研究》,《数量经济技术经济研究》2002年第8期。

(4)苏世杰:《基于决策树的税务稽查计算机选案》,清华大学硕士论文(2003年)。

(5)陈颖、吴璇:《税务稽查选案存在的问题及指标体系选择》,《税务研究》2005年第8期。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈