数据的预处理

时间：2022-03-02 理论教育版权反馈

【摘要】：由于样本数据集常常存在一些不确定内容，这些内容主要表现在三个方面：字段值标记错误、有特殊语义的数据值和空值，必须对这些内容进行确认和预处理。本书利用上海某商业银行提供的客户财务数据库，该数据库中包含有客户的各种各类财务信息，也有其最终是否违约的信息。最后确认进行数据分析的财务指标共有29个指标。本书采用等区间的方法对29项属性指标进行连续数据的离散化处理，每个属性指标分为5个档次。

4.2.2　数据的预处理

由于样本数据集常常存在一些不确定内容，这些内容主要表现在三个方面：字段值标记错误、有特殊语义的数据值和空值，必须对这些内容进行确认和预处理。预处理任务是：根据样本数据集可能存在的问题以及按粗集算法对样本数据集的要求，进行数据校验，离散化［83］。

本书利用上海某商业银行提供的客户财务数据库，该数据库中包含有客户的各种各类财务信息，也有其最终是否违约的信息。本书选取了2005—2006年两年的数据进行分析。

数据库中每个客户的财务信息包含有50个财务指标，具体见上节所列。笔者通过分析发现，其中有相当一部分指标的数据为0或者记录为空，或者同一指标有超过一半以上的企业没有记录。这些主要集中在财务指标的第五大类“其他”中，对这样的财务指标，笔者进行了简单的删除处理。最后确认进行数据分析的财务指标共有29个指标。

本书收集列了67个非上市企业的财务数据（由于数据庞大，列于附录1），数据来自于上海某商业银行。

运用粗糙集理论进行知识约减时，要求决策表中的属性值用离散数据（如整型、字符串型、枚举型等）表达。如果某些属性的值域为连续值，则在应用挖掘算法之前须进行离散化分析，否则所发现的决策规则的支持度极低，在用于决策时很难有某个新实体正好与规则完全匹配［85，86］。

本书采用等区间的方法对29项属性指标进行连续数据的离散化处理，每个属性指标分为5个档次。为了避免由于个别样本偏离群体过大或过小，导致区间分布的不合理，在区间划分时先不考虑这些个别过大或过小样本，在绝大部分数据按照区间离散后，再对个别过大或过小样本进行归类处理。如此，获得29项属性指标的分级，对于评价结果按违约和不违约分为2类，分别用0和1表示，分级符号表示属性的取值，称X1，X2，…，X29为知识库的条件属性，D为知识库的决策属性。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈