基于可变精度粗糙集的风险企业的信用风险识别方法的提出

时间：2023-11-07 理论教育版权反馈

【摘要】：运用VPRS模型处理数据关系表时，要求表中的属性值用离散数据表示，而新兴技术企业的条件属性均为连续值，必须进行离散化处理。由于现实数据中往往存在噪音和不一致性，为了提高抗干扰能力，本研究中采用VPRS模型，其中β＝0.8。在识别规则库形成后，我们应用二叉树方法，建立基于二叉树的识别方法。

3.4　基于可变精度粗糙集的风险企业的信用风险识别方法的提出

基于可变精度粗糙集的新兴技术企业信用风险识别方法的基本步骤如下：

1.导出识别规则并构建识别规则库

（1）二维数据关系表的建立

二维数据关系表的每一行描述论域U中一个样本企业；每一列描述了一个属性，属性分为条件属性（即识别指标）和决策属性（即新兴技术企业信用状况较好或信用状况较差）。这样做出的二维数据关系表形成一个决策系统S。数据关系表的建立主要是通过搜集样本企业的各属性值而成的。

（2）应用Mean－mode法进行数据补缺

在实际的数据搜集工作中，数据缺失是很正常的情况，为此需要进行数据的补缺。为了最大限度地保留原有的决策规则，我们采取Mean－mode补缺方法，即对缺失的数值样本属性值用该属性的其他样本属性值的平均数补充，从而得到完备数据关系表。

（3）样本分类

按2∶1的比例将完备数据关系表分为两个数据关系表（对应训练样本和测试样本）。其中：总样本的67%为训练样本（training sample），用来导出识别规则，并进一步构建识别规则库；剩余的33%为测试样本（testing sample），用来检验该方法识别信用风险的精度。

（4）应用启发式算法对数据离散化

运用VPRS模型处理数据关系表时，要求表中的属性值用离散数据表示，而新兴技术企业的条件属性（识别指标值）均为连续值，必须进行离散化处理。因此，首先应用启发式算法对训练样本进行离散化，该离散化方法保持了数据关系表的分类关系，并且得到最少断点的断点集；再利用该断点集对测试样本数据进行离散化处理，从而保证了训练样本和测试样本离散化的一致性。

（5）识别规则库的形成

由于现实数据中往往存在噪音和不一致性，为了提高抗干扰能力，本研究中采用VPRS模型，其中β＝0.8。应用遗传算法对训练样本进行约简，并根据支持度条件对约简结果进行筛选；然后依据约简结果导出识别规则；接下来再根据3.3.2介绍的规则价值衡量方法对识别规则进行筛选，从而形成识别规则库。约简算法如下：

算法基于遗传算法的属性约简：

输入：决策系统S＝（U，C∪D），C＝｛c₁，c₂，…，c_n｝，精度系数β＝0.8，群体规模为m，交叉概率为P_c，变异概率为P_m。

输出：属性子集。