首页 百科知识 数据挖掘系统架构

数据挖掘系统架构

时间:2022-07-17 百科知识 版权反馈
【摘要】:很多企业从数据库中查找技术信息,利用电脑进行数据处理。此外,数据挖掘技术还可以同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。

很多企业从数据库中查找技术信息,利用电脑进行数据处理。必要时,通过互联网查询相关信息。需要某方面的技术信息时,随时可从电脑中查找出来。那些还没有使用电脑进行数据处理的企业,也可通过有关单位从数据库中查找出所需要的技术信息。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。数据挖掘是一门很广义的交叉学科,涉及数理统计、模糊理论、神经网络和人工智能等多种技术,技术含量比较高,实现难度较大。此外,数据挖掘技术还可以同可视化技术、地理信息系统、统计分析系统相结合,丰富数据挖掘技术及工具的功能与性能。

1.选择数据挖掘系统

如何在众多的数据挖掘系统中选择满足企业需要的产品,这是共同的问题。数据挖掘系统产品并不像其他数据库产品,主要考虑系统的硬件平台、兼容性、扩充性、价格和服务,而更要从多维特性来考察,注意其处理数据类型的能力、系统适应性、数据挖掘的功能和方法、与数据库或数据仓库系统的结合、伸缩性、可视性,以及数据挖掘查询语言和图形用户接口等方面的评价。

(1)数据类型。常用的数据形式可以是ASCII文本的,也可以是关系数据库或数据仓库中的数据。考察一下系统能处理哪些格式的数据是非常重要的,因为一些数据或应用可能需要特定的算法来查找模式,而现有的或通用的数据挖掘系统有可能不能满足需求。与数据仓库一起工作的数据挖掘系统必须遵循OLAP标准的OLE DB规范,支持ODBC连接,才能保证与数据库进行开放连接,这样才具有访问关系数据库的能力。

(2)系统适应性。数据挖掘系统必须考虑能同时在多个操作系统上运行的情况,它们有可能是UNIX和OS/2等。面向工业的数据挖掘系统应该支持客户,服务器结构、客户端一般是个人机,运行W indows,服务端是一系列强大的并行计算机,运行在UNIX上。数据挖掘系统也应提供基于Web的接口,允许输入和输出XML数据。

(3)数据挖掘的功能和方法。支持多种数据挖掘功能,同时,每一种功能又支持多种方法的数据挖掘系统,能提供给用户很大的灵活性和很强的分析能力。数据挖掘系统的常用功能包括:描述、OLAP分析、关联、分类、预测、聚类等;常用方法包括:决策树、贝叶斯、神经网络、遗传算法、案例推理等。有些数据挖掘系统可能只提供一种数据挖掘功能或一种方法,这将不利于用户进行不同数据挖掘功能和方法的尝试或比较。

(4)与其他系统的结合。一个数据挖掘系统应该和数据库或数据仓库系统结合起来,以各种组件形式无缝地集成到一个信息处理环境中,其结合方式有无耦合的、松耦合的、半松耦合的和紧耦合的四种形式。最理想的是,数据挖掘系统应该和数据库或数据仓库在以下意义上进行紧密耦合,即通过把数据挖掘查询系统优化成循环的数据挖掘和检索过程,将二者结合起来。

(5)伸缩性。数据挖掘有两种可伸缩性问题,即行可伸缩性和列可伸缩性。如果一个数据挖掘系统行数扩大了10倍,而执行同样的数据挖掘查询的时间最多也不超过其原来时间的10倍的话,则这个系统是行可伸缩的;如果数据挖掘查询执行时间和列数呈线性增长关系,则这个系统是列可伸缩的。

(6)可视性。图形在数据挖掘中是非常直观和真实的。数据挖掘的可视化分为数据可视化、挖掘结果可视化、挖掘过程可视化和可视化数据挖掘。可视化工具的种类、质量和灵活性直接影响数据挖掘系统的使用、解释能力及吸引力。

(7)数据挖掘查询语言和图形用户接口。数据挖掘是一个探寻的过程,一个易使用的高质量图形用户接口,对于促进用户进行高交互的数据挖掘非常重要。数据挖掘语言必须标准化,才能使数据挖掘系统之间进行互操作。

2.数据挖掘的几种方法

第一,关联规则挖掘方法。发现关联规则,这些规则展示了属性值频繁地在给定的数据集中一起出现的条件。关联可分为:①简单关联,如购买面包的顾客90%也同时购买牛奶;②时序关联,如若AT&T股票不下跌,则第三天IBM股票上涨的可能性为75%;③因果关联。关联分析的目的是找出数据库中隐藏的关联。关联规则挖掘分为两步:一是求支持度大于用户指定的最小支持的数据项集,即大数据项集,对于有语义约束的规则仅求得满足约束的大数据项集;二是用大数据项集产生关联规则。

第二,多层次数据汇总归纳。数据库中的数据和对象经常包含原始概念层上的详细信息,将一个数据集合归纳成高概念层次信息的数据挖掘技术,称为数据汇总。数据汇总将数据库中的相关数据从低概念层抽象到高概念层,主要有数据立方体和面向属性两种方法。网络数据挖掘常采用多层次数据汇总方法。

第三,概念/类描述。特征化和区分,即用汇总的、简洁的、精确的方式描述每个类和概念。例如,可以研究销售量增加20%的产品的特征。

第四,分类和预测。通过分类,可以找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。当被预测的值是数值数据时,通常称为预测(prediction)。预测包含值预测和基于可用数据的分布趋势识别。例如,在销售活动中,根据商品的描述特性,如price,brand, place made,type和category,对这三类的每一种导出模型。结果分类应最大限度地区别每一个类,提供有组织的数据集图像。假定结果分类用判定树的形式表示,判定树可能把price看作最能区分三个类的因素。该树可能区分price之后,帮助进一步区分每类对象的其他特性,包括brand和place made。这样的判定树可以帮助你理解给定销售活动的影响,并帮助你设计未来更有效的销售活动。

第五,聚类分析。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组,所形成的每个簇(聚类)可以看作一个对象类,由它可以导出规则。聚类也便于分类编制,将观测到的内容组织成类分层结构,把类似的事件组织在一起。

第六,演变分析。数据演变分析,描述行为随时间变化的对象的规律或趋势,并对其建模。如对股票交易数据的演变分析,可以识别整个股票市场和特定公司的股票演变规律。这种规律可以帮助预测股票市场价格的未来走向,对股票投资做出明智决策。

第七,空间数据库的数据挖掘方法。空间数据库系统的发展提供了丰富的空间数据,为数据分析和知识发现展示了广阔的前景。空间数据挖掘技术帮助人们从庞大的空间数据中抽取有用信息。其挖掘方法有归纳方法、聚集方法、统计信息网格算法等。这些方法在GIS系统、图像数据库等领域有广泛应用。

第八,神经网络方法。模拟人脑神经元方法,以MP模型和HEBB学习规则为基础,建立了三大类多种神经网络模型,即前馈式网络、反馈式网络、自组织网络。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈