聚类分析与重要系数法相结合的方法模型

时间：2023-07-15 百科知识版权反馈

【摘要】：（一）聚类分析聚类分析又称群分析，是对样品或指标进行分类和研究的一种多元统计分析方法。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。所以，在这里我们首先采用聚类分析然后根据重要系数法进行调整，得到合理反映部门之间溢出关系的结果。从概念上加以区分，直接消耗系数也称投入系数，是指在生产经

（一）聚类分析

聚类分析又称群分析，是对样品或指标进行分类和研究的一种多元统计分析方法。所谓的“类”，通俗地说就是相似元素的集合。基本思想是在样品之间定义距离，在变量之间定义相似系数，距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小，将样品（或变量）逐一归类，关系密切的类聚集到一个小的分类单位，然后逐步扩大，使得关系疏远的聚合到一个大的分类单位，直到所有的样品（或变量）都聚集完毕，形成亲疏关系的谱系。常见的聚类分析方法有系统聚类法、动态聚类法和模糊聚类法等。为了研究方便，本文采用最常用的系统聚类法，聚类分析有两种形式，一种是对样本（个案）进行分类，称为Q型聚类，它使具有共同特点的样本聚集在一起，以便对不同类的样本进行分析；另一种是对研究对象的观察变量进行分类，称为R型聚类，它使具有共同特征的变量聚集在一起，以便从不同类中分别选出具有代表性的变量作分析，从而减少分析变量的个数。

样品间的距离是事物之间差异性的测度，差异性越大，则相似性越小，所以距离是系统聚类分析的依据和基础。计算距离的方法有四种：

①绝对值距离：

pagenumber_ebook=114,pagenumber_book=105

②欧氏距离：

③明科夫斯基距离：

pagenumber_ebook=115,pagenumber_book=106

④切比雪夫距离：当明科夫斯基距离P→∞时，有

由于样本数据较多，为便于数据的处理并能更直观的反映样本之间的溢出效应关系，本文选用欧几里得空间距离（欧氏距离）。

欧几里得空间距离是聚类分析中使用最广泛的距离。系统聚类法中计算类与类之间距离的方法有多种，主要有最短距离法、最长距离法、中间距离法、类间平均法、重心法、离差平方和法六种方法。

中间距离法、类间平均法、重心法和离差平方和法计算复杂，对已有数据的处理过于繁琐。最远距离聚类法具有空间扩张性，而最短距离聚类法具有空间压缩性。最短距离聚类法和最远距离聚类法关于类之间的距离计算可以用统一的公式表示：

当γ=-1/2时，就是最短距离聚类法计算类间距离的公式；当γ = 1/2时，就是最远距离聚类法计算类间距离的公式。

为方便研究，本文采取最短距离法Nearest neighbor（用两类中样品之间的距离最短者作为两类距离），最短距离聚类法，是在原来的m ×m距离矩阵基础上，找出最小的类间距，把分类对象Gp和Gq归并为一新类Gr，然后按计算公式Drk =min｛DPK，Dqk｝，计算原来各类Gk与新类Gr之间的距离，这样就得到一个新的（m-1）阶的距离矩阵；从新的距离矩阵中选出最小者dij，把Gi和Gj归并成新类；再计算各类与新类的距离，这样一直下去，直至各分类对象被归为一类为止。

（二）重要系数法

聚类分析虽然将样本按照距离的远近进行科学分类，但聚类分析仍存在某些不足，只能从部门之间距离的远近程度加以分类，不能反映出各个部门之间的影响重要程度，有些对某部门有重要影响的部门却被分到了次要部门，而一些有弱溢出关系的部门却与无溢出关系的部门分到了一类，因此在研究的方法上，引入重要系数分析对聚类分析结果进行调整。利用重要系数分析找出各部门的重要溢出部门。

重要系数（ICs，即Important Coefficients）又称重点系数或主系数，是指在n×n个系数矩阵中对经济系统最具影响力的那一小部分系数。确定和研究重要系数，不仅为关键部门分析提供了新的视角，而且对进一步把握复杂经济系统中的关键链条、对投入产出表的更新乃至非线性投入产出模型的建立等方面都具有重要的意义［66］。重要系数开始是就直接消耗系数而言的，确定方法有：影响域法（field of influence approach）、容忍限法（tolerable limits ）、累积规模法。影响域法是依据直接消耗系数变化对Leontief逆矩阵整体的影响幅度决定哪些系数为重要系数。与影响域法不同，容忍限法一般以对总产出的影响程度作为判断重要系数的依据。影响域法和容忍限法都从直接消耗系数的逆意义出发确定重要系数，这一类方法存在一个主要问题：所确定的重要系数实为边际重要系数而非平均重要系数［67］。累积规模法以系数的大小作为确定重要系数的唯一依据。重要系数法也适用于判断溢出关系的重要与否，由于直接消耗系数矩阵和分配系数矩阵比R&D流量系数矩阵更具有稳定性，本文以直接消耗系数矩阵和分配系数矩阵为依据，采用累积规模法作重要系数分析。

其具体做法是：

1.直接消耗系数权重法

该方法是将直接消耗系数矩阵中的每个系数除以该部门的中间投入系数，即：

pagenumber_ebook=116,pagenumber_book=107

将a′ij进行降序排列，然后按顺序累积，当累积权重系数达到中间投入系数的80%比例时，即将已累积权重系数所对应的系数确定为后向流量的重要系数。

2.分配系数权重法

该方法是将分配系数矩阵中的每个系数除以该部门的中间产品系数，即：

pagenumber_ebook=117,pagenumber_book=108

将a′cij进行降序排列，然后按顺序累积，当累积权重系数达到中间产品系数的80%比例时，即将已累积权重系数所对应的系数确定为前向流量的重要系数。

（三）聚类分析方法与重要系数法的结合

本文将综合运用聚类分析、重要系数分析研究方法。重要系数分析在分析宏观国民经济与部门关系领域应用广泛，能够反映部门在产业部门之中的重要程度。但重要系数分析只是将部门分成重要系数部门和非重要系数部门两类，即：累积系数大于80%的部门及累积系数小于80%的部门两类。重要系数分析在类别之间的差异性很不明显，而聚类分析是研究多要素事物分类问题的数量方法，能够很好地避免了这个缺陷。所以，在这里我们首先采用聚类分析然后根据重要系数法进行调整，得到合理反映部门之间溢出关系的结果。

（四）聚类分析的数据对象

在揭示部门间溢出关系时应当用前、后向流量系数矩阵。常见的一个错误的方法就是用直接消耗系数直接作比较，从而说明某部门单位产出与其他部门的投入的关系，这种方法把R&D经费投入也认为是一种无差异的资金投入。简单用于比较互溢关系就出现了问题，因为生产单位产品需要其他部门的产品或投入的数量与需要其他部门的溢出是完全不同的两个概念。前者是显性的、主动的，后者是隐性的、被动的。

从概念上加以区分，直接消耗系数也称投入系数，是指在生产经营过程中第j个产品部门的单位总产出所直接消耗的第i个部门的产品数量。直接消耗系数是考察产业间直接依存关系的系数。一般用aij表示，所有的直接消耗系数组成直接消耗系数矩阵，一般用A表示，为n阶方阵［32］。

aij的定义是：每生产单位j产品需要消耗i产品的数量。aij是反映两产业间依存关系最基础的数据。aij越大，说明两产业间直接依存关系越密切。例如：考察最新的2010年河北省42部门直接消耗系数表，得到农业对煤炭开采和洗选业的直接消耗系数a21为0. 004505，这说明每生产1单位农产品需要消耗0.004505单位煤炭开采和洗选业的产品或投入的数量。但这并不是说每生产1单位农产品需要煤炭开采和洗选业的溢出是0.004505单位。

而R&D后向流量系数矩阵CR&D和前向流量系数矩阵DR&D中的系数crij和drij 则反映了i部门和j部门之间R&D活动的溢出关系。CR&D的第j列是第j部门从各部门R&D活动溢出效应中受益程度的度量，如2010年河北省42部门CR&D矩阵中cr21为0.00078，表示农业每产出1单位产品从煤炭开采和洗选业得到0.00078单位的R&D经费支出的溢出效应；D R&D中的第i行则是i部门向各部门R&D活动溢出效应中贡献程度的度量，如2010年河北省42部门DR&D矩阵中dr21为0.003966，表示煤炭开采和洗选业每产出1单位产品可以向农业贡献的R&D经费溢出效应为0.003966。对各部门来说R&D经费溢出效应的贡献和受益并不是对等的，这是由于各产业之间不仅存在直接联系，还存在层层叠叠的间接联系，同时也存在R&D经费溢出效应的浪费。此外，还应当说明的是，R&D后向流量系数矩阵CR&D和前向流量系数矩阵DR&D不是一成不变的，不同年份的投入产出表数据不同，各部门R&D经费支出不同，CR&D和DR&D矩阵中的系数也不尽相同，本研究采用了最新的2010年投入产出表和R&D经费支出作为面板数据进行分析。