首页 百科知识 聚类分析方法在税源管理领域的应用探析

聚类分析方法在税源管理领域的应用探析

时间:2022-07-21 百科知识 版权反馈
【摘要】:徐 晏税源管理是税收征管的核心。随着税务系统信息化建设的不断发展,以税收征管信息系统为核心的业务系统已积累了海量的数据,但是对这些已经收集到的数据进行深度的研究和应用,在国内税务系统尚处于起步阶段,实施“精细化”管理的方式方法还很欠缺。通过层层分类,可以体现并满足税源管理科学化、精细化的时代新要求。

徐 晏

税源管理是税收征管的核心。近年来,随着经济全球化和我国社会主义市场经济的发展,纳税人数量不断增多,企业的组织形式和经营方式呈现多样化趋势,税源管理的复杂性、艰巨性、风险性不断加大。随着税务系统信息化建设的不断发展,以税收征管信息系统为核心的业务系统已积累了海量的数据,但是对这些已经收集到的数据进行深度的研究和应用,在国内税务系统尚处于起步阶段,实施“精细化”管理的方式方法还很欠缺。在这一现实背景下,以科学化的手段对涉税数据进行分析,从而有的放矢地探索税源分类化管理,提高征管质量和效率的要求迫在眉睫。

税源分类管理是指根据纳税人和征税对象的不同特点,将其划分成若干类型,在管理上实行合理分工,以利从中找出征管规律,强化对重点税源和纳税风险环节的监控,有的放矢地实施管理和服务,从而达到事半功倍效果的一种管理模式。

税源分类管理的提出已有较长时间,但目前仍存在分类标准比较单一、标准确定不够科学、确定方法不能统一等问题。目前各地基本都是将行业、地域、年度纳税额等作为划分标准,没有一个统一的确定方法,依赖于管理经验等人为因素较多。各级税源分类标准介定的科学性有待商榷,不能充分反映税源的综合特征,也难以采用有效的针对性管理措施。因此,找到一种能够有效利用已有征管信息,对税源进行科学、合理分类的方法,成为当前税源分类管理工作的现实需要。

国家税务总局制定了纳税评估通用分析指标及分行业分析指标,但在基层工作中,纳税评估指标的应用具有一定局限性。纳税申报的合法性与真实性单单依靠评估指标的测算很难进行合理判断和确定,实际评估及稽查选案工作中各项评估指标之间、财务指标与非财务指标之间缺少相互映照,全面应用各项复杂的指标对所有企业经营相关内容进行逐一计算,并参照评估指标预警值进行配比分析,不具有很强的操作性。因此,实际的工作过程中,常常由于工作人员业务知识掌握的差异导致纳税评估及稽查立案的案源差异很大。鉴于这种情况,无论是纳税评估分析还是稽查选案,都需要通过对计算机信息系统已有的数据资料进行分析、对比、排列和组合,利用计算机高效处理能力这一优势,从中发现企业的纳税异常。这是提高征管效率,使有限的人力用于最需评估稽查对象的根本需求。

一方面,目前我国纳税人的财务核算结果多受人为控制,经营指标造假的情况比较严重,有的企业在银行多头开户,建立假账、假库,隐瞒销售收入,税务机关进行日常检查时难以从账目上发现问题。另一方面,我国税务系统经历了十几年的信息化建设和发展,积累了大量的数据。这些数据中蕴藏着极大的隐含信息,理应成为税务管理、决策的宝贵资源。但由于当前税务系统中税源数据的分析工作还处于探索阶段,没有形成一套完备的数据分析方法和体系,目前还未能有效利用已有征管信息对税源进行科学、合理的分组,也就难以采取有针对性的风险管理措施,一定程度上影响了税源管理工作的成效。如果能将分散在税务部门各种系统内的数据经过重新组合和加工,在深入分析企业行业特点的基础上,充分利用税务数据的特性,针对数据进行有效的分析,从而在海量数据中发现有价值的信息,就能为管理和决策提供服务,构建起一个更好的适应税务管理需要的风险管理数据系统。

聚类是数据挖掘中的技术和手段之一。聚类分析的基本思想是将论域中的元素按性质上的亲疏程度,将性质相近的元素归为一类,性质差异较大的归到不同的类。因此,聚类分析的实质是建立一种分类方法,在没有先验知识的情况下将一批样本数据置于一个多维空间,按照它们空间关系的亲疏程度进行分类,也即根据事物彼此不同的属性进行辨认,按照他们在性质上的亲密程度自动进行分类,使同一类内的个体具有相似性,不同类之间的个体具有明显的差异性。在众多的不同领域中,聚类分析方法都已经得到应用,并取得了不断的发展,有效地解决了科学研究中多因素、多指标的分类问题。

与其他的分类方法相比而言,聚类分析的优点在于其通过对客观数据本身的处理来寻找待处理元素之间的关系,是一种无指导学习,体现了简单性、客观性和实用性的原则。

由于聚类分析的原理是单纯通过记录之间的数据特征来将其分类,因此使用聚类分析方法进行税源分类,可以避免很多可能会对结果造成影响的人为的、主观的因素。在不存在既定规则的情况下,从客观统计数据的角度出发,通过聚类的方法能够获得具有极高相似度的数据之间的关系,以实现同一类别中所记录的纳税人具有尽可能高的同质性,而不同类别之间的纳税人则具有尽可能高的异质性。

通过分析聚类结果,找出不同类之间的差别及同类之间的规律,可以更清楚地发现并了解每一类纳税人的不同特点,从而更好地结合税源管理流程,针对不同类别的税源实施不同的管理策略,有效地发挥税源管理活动效能。

使用聚类的方法,还可以先做出几个相对较大的类划分,然后对其中某一类再进行精确划分。通过层层分类,可以体现并满足税源管理科学化、精细化的时代新要求。例如按照类别中纳税人数量规模的不同,可以定义并区分各种纳税人管理层级,改变目前税收管理员“分户到人,各事统管”的管理办法,将税源管理职责在不同层级、部门和岗位间进行分解,合理界定税收管理员的职责及分工,实施更为有效的分类管理,实现征管力量的科学配置。

异常检测和分析是聚类分析应用中一个重要的方面,可以用来发现相对于聚类的“小的模式”,即数据集中显著不同于其他数据的对象。在对不同的数据集合进行聚类分析时,有时会出现一些客观存在的、非人为因素导致的异常数据。在聚类过程中它们往往分布得较为分散,不符合数据的一般模型,形成一个个孤立点,无法通过聚类的方法将其与其他数据建立有效的联系。而正是这类数据往往反映着有较大的实际应用价值的问题。

本文对180个数据对象进行了尝试聚类,选用4个基础变量,将所有对象分为6类。无论采用何种分类方法,其中绝大多数成员(158个)都聚集为一类,而其他5类各自的类成员数都比较少,每一类的类中心点距其他类中心点的相对距离也都比较大。用SPSS做出矩阵散点图,以聚类选用的4个变量分别作为横纵坐标绘制二维空间散点图,可清楚地发现其中的孤立点。这样的结果说明,此次分析的大多数数据比较相似,因此被集中到了同一类,其他数据分布比较离散,出现了不少的孤立点。

在对税收征管数据进行聚类时,孤立点的出现反映出某些纳税人经济数据的相对特殊,但这种特殊并不一定都由纳税人偷漏税等行为造成。有可能是特别的经营方式,如某生产大型机械的企业,一到两年才生产销售一台机床,它的销项数据和发票使用就都呈现出异常的状态;也有可能是某些规模或效益远远超过其他纳税人的特大型企业,它们正是所谓的“重点税源”,是值得特别关注的一部分优质纳税人;而在某些情况下,异常数据的出现则清晰地反映出纳税人的不正常经营行为,甚至可判断出该纳税人是否存在偷、漏、骗税嫌疑,从而迅速得到准确的纳税评估应注意的重点企业或是税务稽查应关注的嫌疑对象。

另外一类值得重视的税务异常数据是数据对象在聚类中的漂移现象。一般而言,一个企业的经营和纳税模式应该有一定的延续性,在一段时间内的销售额、发票使用种类和数量、纳税额应该有一定的规律,并且与经营模式类似的企业呈现相似的特征。如果某个纳税人,一直在聚类分析中与大多数小型工业企业被归为一类,却突然在某一个月中呈现出大规模商业企业的特征,那么虽然在任何一次的数据分类中它都不是一个孤立点,但仍然应该被提取出来,作为疑点进行纳税评估分析或被选为税务稽查案例。

企业作为经济运行主体,由于市场经济条件下广泛的市场联系,企业之间特别是同类企业之间难免具有相似的经济结构。利用这种企业之间的相似性作为数据分析的切入点来识别有纳税风险的企业,可以提高风险管理水平。税务信息系统数据库中存储了大量的企业纳税登记信息、纳税申报信息和各种财务数据,通过用聚类分析的方法对这些数据进行数理分析,可以发现数据背后大量的隐藏规律。一方面,聚类分析往往可以发现纳税人的群体行为,例如,大批纳税人可能在发票领购使用、经营销售模式或财务处理方式上具有相当大的类似性,因而形成了具有共性的纳税人群体。经过聚类分析,发现他们的共性,就可以在此基础上进行比传统的比对更深入、更有效的税收监管。另一方面,异常数据的发现也可为风险管理提供线索:例如,如果有多个纳税人采用同一手段进行偷税活动,在一定的参数下,可能得到他们的聚类。也即,若税务机关可以推定某一聚类中有少数存在税源管理风险的纳税人,则可以推测认为可能整个类都是异常企业,应该对这个聚类进行进一步的考察,加强对该类企业的监管。

通过对监测得来的税源信息进行分析,判断其真实性,对税源信息进行聚类,再通过分析、对比来确认信息的真实性和合理性,从而挖掘隐蔽税源,发现管理漏洞,查找征管薄弱环节,可以最大限度地避免信息不对称对税务部门产生的不利影响,提高税源管理的水平。

K-Means方法是一种基于划分的聚类分析方法,也是最常用的一种聚类算法。进行快速聚类时需要根据最终分类的个数指定或随机选取相应个数的初始聚类中心,然后不断地迭代,直到达到目标函数的最小值,即得到最终的聚类结果。

本文以K-Means方法为例,具体说明聚类分析操作步骤。

聚类分析的基本思想是根据对象间的相关程度进行类别的聚合。聚类开始时,样本中的各个样品(或变量)自成一类;通过计算样品(或变量)间的相似性测度,把其中最相似的两个样品(或变量)进行合并,合并后,类的数目就减少一个;重新计算类与类之间的相似性测度,再选择其中最相似的两类进行合并,这种计算、合并的过程重复进行,通过数据分析将相似程度较大的数据或单位划为一类。划类时关系密切的聚合为一小类,关系疏远的聚合为一大类,直到把所有的数据或单位聚合为不同的类别。

每次聚类,可以结合实际需求选取不同的税务指标或财务指标作为聚类变量。指标的选取可与税务日常管理指标、企业财务分析指标、纳税评估通用、特定指标等相结合。例如,进行日常分类时,可选择反映纳税人资产规模的注册资本、从业人数、资产规模、主营业务收入、应纳税额或税负等指标;进行风险管理分类时,可选择反映纳税人资本结构、运营状况或是盈利能力的资产负债率、存货周转率、销售利润率(营业收入利润率)、成本利润率的某些财务指标;进行纳税评估及稽查选案时,可选择税负变动率、主营业务收入/利润/成本变动率等等。需要说明的是,上述各类指标可以分别从税收负担、偿债能力、盈利能力和资产管理能力等不同的角度来反映纳税人的基本信息。在做聚类分析时可以不拘泥于使用其中一种或几种,而是可以根据实际情况采用多维指标,相互比对,最后得出聚类结果。

指标选定后,可以列出样本数据二维表格,横向代表不同的分析指标,纵向代表某个纳税人。将原始数据样本排列如表1所示:

表1 聚类分析原始数据样本采集表

其中:n为纳税人名称排序,m为指标数,原始数据值Vij表示第i个纳税人在第j个指标上的数据值。

首先对表中数据进行预处理,每个企业即为聚类的数据样本V,由企业的m个指标值组成V={V1,V2,…,Vm},属性为聚类管理模块中选择的若干属性,n个企业组成聚类模块的数据样本集矩阵如表2。

表2 数据样本集矩阵

用于分析的原始数据往往由于计量单位的不同,差异程度非常大,而差异大的数据会严重影响距离计算标准化,需要消除不同量纲对数据值大小的影响,然后才能进行聚类分析。

将各单变量原始数据用Z.Scores法标准化处理,所得结果为最终代入聚类的变量值。其变换公式为:

其中:V'ij表示标准化后的数据,Vj=nΣVij,表示指标j的均值,Sj表示指标j的标准差,即

在实际分析过程中,研究者需要从研究目的出发,尝试把数据分成不同的类别数进行聚类迭代,对结果进行比较,从中找出最优的聚类结果方案。

SPSS软件会根据样本数据的情况选择k个有代表性的样本数据作为初始类中心(Initial Cluster Centers),初始类中心也可以由用户自行指定。

SPSS逐一计算每一个记录到各个类别中心点的欧氏距离(Euclidean Distance),d (Vi ,Vj)为第i个矢量数据到第j个聚类的距离。

其中,i=1,…,n; j=1,…,m

把各个记录按照距离最近的原则归入各个类别,并计算新形成的类别中心点;按照新的中心位置,重新计算每一记录距离新的类别中心点的距离,并重新进行归类,更新类别中心点。重复以上两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。最后一次迭代后类中心点没有变化或变化很小,距离为0,则快速聚类过程结束。

SPSS聚类结果输出包括的重要组成部分为最终聚类中心表(Final Cluster Centers)、类中心距离表(Distances between Final Cluster Centers)和各类成员表(Cluster Membership)等。也可利用SPSS软件生成柱状图、饼状图等各种图表,更为形象直观地理解聚类结果。

聚类结果产生后,通过对结果的分析,可将之用于前述的相应项目。例如,按照分析识别、等级排序、应对处理等,设计税源分类管理流程,实现管理资源的优化配置;根据不同类型纳税人的不同风险,采取纳税辅导、风险提示、纳税评估、税务稽查等风险应对措施,促进纳税遵从度提高;建立评估预警指标体系和评估模型,下达稽查案源,等等。

(作者工作单位:湖北省武汉市武昌区国家税务局)

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈