首页 理论教育 数据挖掘及其在商业银行营销分析中应用的展望

数据挖掘及其在商业银行营销分析中应用的展望

时间:2022-11-21 理论教育 版权反馈
【摘要】:在大多数情况下,统计分析结果表示为各数据项的总和等形式。因此,随着我国商业银行营销信息数据仓库建设进程的加快,可以预见数据挖掘技术在营销分析中将会有广泛应用,举例来说:①决策树分析方法主要应用于商业银行市场研究和预测工作,比如商业银行市场定位、服务产品定位、信用卡客户流失预测、贷款风险分析等问题。②神经网络分析方法主要应用于商业银行信用卡欺诈检测、贷款拖欠分析、客户流失预测等问题的研究

4.6.3 数据挖掘及其在商业银行营销分析中应用的展望

数据挖掘作为一门汇聚机器学习、模式识别、数据库、人工智能、统计学、可视化、并行计算等不同学科和领域的新技术,与传统的统计学有较大区别,如表4-1所示。数据挖掘的出现为统计学提供了一个新的应用领域,同时也向统计学的理论研究提出了挑战,它毋庸置疑地将推动统计学的发展。

表4-1 数据挖掘与统计学的比较

img30

1.数据挖掘流程分析

数据挖掘流程如图4-8所示。在实际运作中,数据挖掘将是一个反复的过程,进而有可能逐步趋近事物的本质。

img31

图4-8 数据挖掘流程图

这里对数据挖掘各环节作如下简要说明:

数据取样。进行数据挖掘时,首先需要从大量数据中筛选一个与所研究问题相关的样板数据子集,以减少数据处理量,节省系统资源,增加数据间的规律性。原始数据可以是结构化的,比如关系数据库中的数据;也可以是半结构化的,比如文本、图形、图像数据,甚至是分布在网络上的异构型数据。

数据搜索。数据搜索致力于从样本数据集中寻找规律和趋势,并用聚类分析法来区分类别。因此,数据搜索是一个对数据进行深入调查的过程,其最终目的是弄清楚多因素之间的复杂关系,发现因素之间的相关性。

数据调整。在对数据的状态和趋势有了初步了解的基础上,需要进一步明确和量化解决问题的要求。应针对解决问题的要求及时对数据进行增删,并根据对整个数据挖掘过程的新认识生成一组新变量,体现对状态的有效描述。

模型化。在问题进一步明确,数据结构和内容进一步调整的基础上,运用神经网络、决策树、数理统计、时间序列分析等方法建立模型。方法的选用和模型化是数据挖掘的核心环节。

评价。在大多数情况下,经由上述环节得出的系列分析结果将表现为对目标问题多侧面的描述。此时,可选用适当的评价方法对分析结果进行综合评价。方法之一是直接使用原先建立的模型和样本数据进行检验;方法之二是另找一批数据对其进行检验;方法之三是在实际运行环境中取出新的数据进行检验。

2.数据挖掘的主要方法

数据挖掘的主要方法包括统计分析和知识发现两大类。由于数据挖掘是从大量的数据中抽取知识的过程,鉴于数据本身的性质,那些符合推理和统计原理、信息论、遗传算法和神经网络的知识首先被运用到知识发现的算法设计中。常用的数据挖掘方法主要有以下几种:

统计分析。统计分析是应用最早,也是目前最成熟和行之有效的一种数据挖掘方法。在大多数情况下,统计分析结果表示为各数据项的总和等形式。该方法的关键在于构造合适的统计模型和数学模型来解释被分析的数据模式。

决策树分析。决策树分析是建立在信息论基础上,对数据进行分类的一种有效方法,也是目前应用最广的方法之一。决策树以一种树形结构来形象地描述预测和决策过程,实质上它是一种预测模型。它首先利用一批已知的训练数据建立一棵决策树,其中每一个分支都是分类问题,树叶就是在具体类别下的数据集合的子集。在此基础上,建立某种决策规则,对相关数据进行预测。该方法最后的知识形式表现为决策树或决策规则树。

神经网络分析。神经网络分析是建立在自学习数学模型基础上的一种方法。它可以对大量复杂的数据进行分析,并可以完成对人脑或计算机来说极为复杂的模式抽取与分析。神经网络模型通常由输入层、中间层、输出层组成,而神经元是其基本组成单位。每一个神经元在接受各种输入后,计算总输入值,并由过滤机制确定输出值。神经网络通过分层组织和互联每层中的神经元来模型化复杂行为。当修改连接层与连接层、神经元与神经元之间的连接权重时,神经网络就进行学习或“训练”,经“训练”后的神经网络可用于预测现有事例可能带来的结果。神经网络分析模拟人脑神经元结构,以MP和Hebb学习规则为基础,主要有前馈式网络、反馈式网络和自组织网络三种模型。

遗传分析。遗传分析是所有知识发现方法中人们理解得较少的一种方法。它以模仿生物进化过程为基础,依靠强大的搜索能力来解决复杂的问题。实质上这是一种将自然界有机体优胜劣汰的自然选择、适者生存的进化机制以及在同一种群中个体之间的随机信息交换机制相结合的搜索算法。具体来说,该方法将问题的求解表示成“染色体”,问题的所有可能解则构成一群“染色体”。把“染色体”置于问题的“环境”中后,根据适者生存的原则,从中搜索、选择适应环境的“染色体”进行复制,通过“交叉”、“变异”等带有生物遗传特点的操作产生更加适应环境的新“染色体”群。通过反复“交叉”、“变异”操作,直至收敛于一个最适应环境的个体上,此时即求得问题的最优解。

关联分析和顺序分析。关联分析描述一个事物中某些属性同时出现的规律和模式,是一种简单却很实用的相关分析规则。关联分析的作用是在数据仓库的条目或对象中挖掘满足一定条件、隐藏于数据中的关联网,发现关联度较高的变量,并描述其中的规律。类似于关联分析的另外一种知识发现方法是顺序分析。该方法针对两个事件在发生时间上有一定间隔的情况,主要用来发现其中所蕴涵的符合一定频率的规律。

聚类分析和最近邻预测分析。基于“物以类聚”的朴素思想,聚类分析根据事物的特征对其进行分类,以期从中发现规律和典型模式。一般地,当分析数据缺乏描述信息,或者无法组织成任何分类模式时,利用聚类分析,按照某种相近程度的度量方法,基于概念描述,可以自动将数据按某些特征划分成一系列有意义的子集合,即聚类。该分析方法的实质是一个全局最优问题。最近邻预测分析则是一种与聚类分析较相似的预测技术。该方法认为邻居数据必然有相同的属性或行为。若以K表示某个特定数据的K个邻居,则可以通过K个邻居的平均数据来预测该特定数据的某个属性或行为。或者也可以K个邻居中某一个最相近邻居的属性值作为该特定数据的预测值。

3.数据挖掘技术在商业银行营销分析中的应用展望

数据挖掘技术潜力的充分发挥与数据仓库的发展紧密结合。数据仓库完成了数据的收集、集成、存储和管理等工作,为数据挖掘技术的应用奠定了基础。在这些已经初步加工的数据基础上,数据挖掘技术方能注重知识的发现,为商业银行决策提供更多深层次信息,并预测未来的发展趋势。因此,随着我国商业银行营销信息数据仓库建设进程的加快,可以预见数据挖掘技术在营销分析中将会有广泛应用,举例来说:①决策树分析方法主要应用于商业银行市场研究和预测工作,比如商业银行市场定位、服务产品定位、信用卡客户流失预测、贷款风险分析等问题。另外,该方法也可应用于客户特征分析工作,有利于商业银行识别和寻找黄金客户,发现潜在客户群。②神经网络分析方法主要应用于商业银行信用卡欺诈检测、贷款拖欠分析、客户流失预测等问题的研究工作,为商业银行营销控制工作的开展提供必要信息。③遗传分析方法主要应用于商业银行有关优化、预测和模拟等问题。④关联分析和顺序分析方法主要应用于商业银行客户购买模式研究工作,用于发现客户同时购买产品和购买产品的前后顺序方面的规律性。⑤聚类分析和最近邻预测分析方法主要应用于商业银行市场细分、目标客户定位、业绩评估和价值客户分析等问题。比如在价值客户分析问题中,利用聚类方法,根据可盈利性对客户进行类别划分,可以方便地识别出对商业银行盈利有重要贡献的客户。

在此,以神经网络分析方法在商业银行贷款拖欠预测中的应用为例,说明数据挖掘技术在商业银行客户数据仓库的知识发现和分析中的应用。

img32

用于预测贷款拖欠的简化神经网络模型

首先,构建如图4-9所示的分析模型。在图4-9中,神经网络模型将通过一个人的年龄、收入这两个属性的具体值来预测其是否会拖欠某银行的贷款。事先约定,如果经训练后的神经网络的输出值为1.0,则认为该客户有拖欠贷款的可能;如果结果为0.0,则没有这种可能。

为便于计算和分析,将图4-9的模型转化为图4-10的形式。其中,年龄被规范为0.40;收入被规范为0.6;连接权值分别为0.7和0.1。对输入节点加权求和的结果为0.34。由于计算结果更接近于0.0,可以认为经过该简化神经网络的控制,一个年收入60 000元、年龄40岁的客户不大可能拖欠该银行的贷款。

img33

图4-10 被规范后的神经网络模型

图4-9、图4-10所给出的神经网络模型是最大限度简化后的结果。实际运用中神经网络一般有许多连接和节点,甚至可能包含多个隐含层,但分析原理是一致的。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈