数据挖掘系统架构

时间：2023-07-17 百科知识版权反馈

【摘要】：很多企业从数据库中查找技术信息，利用电脑进行数据处理。此外，数据挖掘技术还可以同可视化技术、地理信息系统、统计分析系统相结合，丰富数据挖掘技术及工具的功能与性能。

很多企业从数据库中查找技术信息，利用电脑进行数据处理。必要时，通过互联网查询相关信息。需要某方面的技术信息时，随时可从电脑中查找出来。那些还没有使用电脑进行数据处理的企业，也可通过有关单位从数据库中查找出所需要的技术信息。

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含在其中的，人们事先不知道的，但又是潜在有用的信息和知识的过程。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等，还可以用于数据自身的维护。数据挖掘是一门很广义的交叉学科，涉及数理统计、模糊理论、神经网络和人工智能等多种技术，技术含量比较高，实现难度较大。此外，数据挖掘技术还可以同可视化技术、地理信息系统、统计分析系统相结合，丰富数据挖掘技术及工具的功能与性能。

1.选择数据挖掘系统

如何在众多的数据挖掘系统中选择满足企业需要的产品，这是共同的问题。数据挖掘系统产品并不像其他数据库产品，主要考虑系统的硬件平台、兼容性、扩充性、价格和服务，而更要从多维特性来考察，注意其处理数据类型的能力、系统适应性、数据挖掘的功能和方法、与数据库或数据仓库系统的结合、伸缩性、可视性，以及数据挖掘查询语言和图形用户接口等方面的评价。

（1）数据类型。常用的数据形式可以是ASCII文本的，也可以是关系数据库或数据仓库中的数据。考察一下系统能处理哪些格式的数据是非常重要的，因为一些数据或应用可能需要特定的算法来查找模式，而现有的或通用的数据挖掘系统有可能不能满足需求。与数据仓库一起工作的数据挖掘系统必须遵循OLAP标准的OLE DB规范，支持ODBC连接，才能保证与数据库进行开放连接，这样才具有访问关系数据库的能力。

（2）系统适应性。数据挖掘系统必须考虑能同时在多个操作系统上运行的情况，它们有可能是UNIX和OS/2等。面向工业的数据挖掘系统应该支持客户，服务器结构、客户端一般是个人机，运行W indows，服务端是一系列强大的并行计算机，运行在UNIX上。数据挖掘系统也应提供基于Web的接口，允许输入和输出XML数据。

（3）数据挖掘的功能和方法。支持多种数据挖掘功能，同时，每一种功能又支持多种方法的数据挖掘系统，能提供给用户很大的灵活性和很强的分析能力。数据挖掘系统的常用功能包括：描述、OLAP分析、关联、分类、预测、聚类等；常用方法包括：决策树、贝叶斯、神经网络、遗传算法、案例推理等。有些数据挖掘系统可能只提供一种数据挖掘功能或一种方法，这将不利于用户进行不同数据挖掘功能和方法的尝试或比较。

（4）与其他系统的结合。一个数据挖掘系统应该和数据库或数据仓库系统结合起来，以各种组件形式无缝地集成到一个信息处理环境中，其结合方式有无耦合的、松耦合的、半松耦合的和紧耦合的四种形式。最理想的是，数据挖掘系统应该和数据库或数据仓库在以下意义上进行紧密耦合，即通过把数据挖掘查询系统优化成循环的数据挖掘和检索过程，将二者结合起来。

（5）伸缩性。数据挖掘有两种可伸缩性问题，即行可伸缩性和列可伸缩性。如果一个数据挖掘系统行数扩大了10倍，而执行同样的数据挖掘查询的时间最多也不超过其原来时间的10倍的话，则这个系统是行可伸缩的；如果数据挖掘查询执行时间和列数呈线性增长关系，则这个系统是列可伸缩的。

（6）可视性。图形在数据挖掘中是非常直观和真实的。数据挖掘的可视化分为数据可视化、挖掘结果可视化、挖掘过程可视化和可视化数据挖掘。可视化工具的种类、质量和灵活性直接影响数据挖掘系统的使用、解释能力及吸引力。

（7）数据挖掘查询语言和图形用户接口。数据挖掘是一个探寻的过程，一个易使用的高质量图形用户接口，对于促进用户进行高交互的数据挖掘非常重要。数据挖掘语言必须标准化，才能使数据挖掘系统之间进行互操作。

2.数据挖掘的几种方法

第一，关联规则挖掘方法。发现关联规则，这些规则展示了属性值频繁地在给定的数据集中一起出现的条件。关联可分为：①简单关联，如购买面包的顾客90%也同时购买牛奶；②时序关联，如若AT&T股票不下跌，则第三天IBM股票上涨的可能性为75%；③因果关联。关联分析的目的是找出数据库中隐藏的关联。关联规则挖掘分为两步：一是求支持度大于用户指定的最小支持的数据项集，即大数据项集，对于有语义约束的规则仅求得满足约束的大数据项集；二是用大数据项集产生关联规则。

第二，多层次数据汇总归纳。数据库中的数据和对象经常包含原始概念层上的详细信息，将一个数据集合归纳成高概念层次信息的数据挖掘技术，称为数据汇总。数据汇总将数据库中的相关数据从低概念层抽象到高概念层，主要有数据立方体和面向属性两种方法。网络数据挖掘常采用多层次数据汇总方法。

第三，概念/类描述。特征化和区分，即用汇总的、简洁的、精确的方式描述每个类和概念。例如，可以研究销售量增加20%的产品的特征。

第四，分类和预测。通过分类，可以找出描述并区分数据类或概念的模型（或函数），以便能够使用模型预测类标记未知的对象类。当被预测的值是数值数据时，通常称为预测（prediction）。预测包含值预测和基于可用数据的分布趋势识别。例如，在销售活动中，根据商品的描述特性，如price，brand， place made，type和category，对这三类的每一种导出模型。结果分类应最大限度地区别每一个类，提供有组织的数据集图像。假定结果分类用判定树的形式表示，判定树可能把price看作最能区分三个类的因素。该树可能区分price之后，帮助进一步区分每类对象的其他特性，包括brand和place made。这样的判定树可以帮助你理解给定销售活动的影响，并帮助你设计未来更有效的销售活动。

第五，聚类分析。对象根据最大化类内的相似性、最小化类间的相似性的原则进行聚类或分组，所形成的每个簇（聚类）可以看作一个对象类，由它可以导出规则。聚类也便于分类编制，将观测到的内容组织成类分层结构，把类似的事件组织在一起。

第六，演变分析。数据演变分析，描述行为随时间变化的对象的规律或趋势，并对其建模。如对股票交易数据的演变分析，可以识别整个股票市场和特定公司的股票演变规律。这种规律可以帮助预测股票市场价格的未来走向，对股票投资做出明智决策。

第七，空间数据库的数据挖掘方法。空间数据库系统的发展提供了丰富的空间数据，为数据分析和知识发现展示了广阔的前景。空间数据挖掘技术帮助人们从庞大的空间数据中抽取有用信息。其挖掘方法有归纳方法、聚集方法、统计信息网格算法等。这些方法在GIS系统、图像数据库等领域有广泛应用。

第八，神经网络方法。模拟人脑神经元方法，以MP模型和HEBB学习规则为基础，建立了三大类多种神经网络模型，即前馈式网络、反馈式网络、自组织网络。

免责声明：以上内容源自网络，版权归原作者所有，如有侵犯您的原创版权请告知，我们将尽快删除相关内容。

我要反馈