首页 理论教育 交互式知识挖掘流程

交互式知识挖掘流程

时间:2022-02-28 理论教育 版权反馈
【摘要】:数据挖掘是网络知识挖掘的基础。这种交互可能发生在知识挖掘的各个不同阶段,从不同角度或不同粒度进行交互。所以良好的交互式挖掘也是知识挖掘系统成功的前提。在网络挖掘中,分类技术可以基于用户的一些人口统计信息和访问模式对访问某文档的用户进行偏好描述。知识挖掘应该能够用高水平语言、可视化表示,或其他表示方式来描述所挖掘出的知识,以使用户更容易地理解和应用所挖掘的知识。

6.2.1 交互式知识挖掘流程

随着Web的发展,需要有新的技术来适应这种发展,从而使我们能更好地掌握关于用户行为的知识。衡量挖掘算法的优劣从两个方面来考虑,概括起来就是效率和效力,在这两个方面提高算法质量的工作还要进行下去。Web上应用数据的收集有其本身的特点,如果所有的数据在挖掘之前进行了综合,大量的有用信息能够被抽取,其后的挖掘工作就可以顺利地进行,提供分析的可信程度就很高。

数据挖掘是网络知识挖掘的基础。网络知识挖掘是指利用数据挖掘技术,自动地从由异构数据组成的网络文档中发现和抽取知识,从概念及相关因素的延伸比较上找出用户需要的深层次知识的过程。由于数据挖掘是在大量的源数据集中发现潜在的、事先并不知道的知识,因此和用户交互式进行探索性挖掘是必然的。这种交互可能发生在知识挖掘的各个不同阶段,从不同角度或不同粒度进行交互。所以良好的交互式挖掘(Interaction Mining)也是知识挖掘系统成功的前提。当前,随着各种交互系统网络化的发展,网络交互知识挖掘得到广泛应用,它可分为网络内容挖掘(Web Content Mining)、网络结构挖掘(Web Construct Mining)、网络使用挖掘(Web Usage Mining)。一般而言,网络知识挖掘的发现技术主要包括以下几个方面。

(1)路径分析

可以用许多曲线图解法来进行路径分析,一个曲线代表了Web页面间或者其他事物之间的一些联系。曲线图最直接的来源是网站结构图,网站上的页面定义为节点。其他的图也都是建立在页面和页面之间联系或一定数量的浏览者浏览页面顺序基础之上的。基于Web使用模式的数据挖掘,就是从图中确定最频繁的路径访问模式或大的参引访问序列。

(2)关联规则

关联规则用于发现数据项之间的联系,在网络挖掘中就是发现某一用户的引用页面和服务器上多种页面之间的联系。在网络日志数据的预处理中,浏览者访问的页面路径构成了会话事务集,可以通过关联规则挖掘得到大量访问请求的URL之间的联系,并将挖掘出的规则按照不同的支持度和置信度进行取舍,从而保留一些有用的规则进行应用。

(3)序列模式

序列模式系指挖掘出交易集之间的有时间序列的模式。应用序列模式是为了发现一些交互模式,如在一时间段内某一数据项后面跟着另一个数据项。在服务器日志文件中,记录了一段时间内用户的访问信息,对Web服务器中访问日志的序列模型分析可以预测用户访问模式,发现在一个时间段内访问某一文件的所有用户的相同特征等。

(4)聚类和分类

根据一些数据项的共同特征来对数据库进行分类。在网络挖掘中,分类技术可以基于用户的一些人口统计信息和访问模式对访问某文档的用户进行偏好描述。聚类分析可以将有相似特征的用户或者数据聚集在一起,聚类Web日志的用户信息和数据可用来制定未来市场营销策略。

这些挖掘技术按用户交互程度划分为完全自主(autonomous)、交互式探索(interactive exploratory)和基于查询驱动(query-driven)。基于以上技术,可以按如下流程来实现整个知识挖掘(KDD)过程,其主要步骤有:

①数据清洗(data clearning),其作用就是清除数据噪声和与挖掘主题明显无关的数据;

②数据集成(data integration),其作用就是将来自多数据源中的相关数据组合到一起;

③数据转换(data transformation),其作用就是将数据转换为易于进行数据挖掘的数据存储形式;

④数据挖掘(data mining),它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;

⑤模式评估(pattern evaluation),其作用就是根据一定评估标准(interesting measures)从挖掘结果筛选出有意义的模式知识;

⑥知识表示(knowledge presentation),其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。

由于很难准确地知道能够在数据库中发现什么,数据挖掘过程应当是交互的。对于包含海量数据的数据库,首先应当使用适当的抽样技术,进行交互式数据探查。交互数据挖掘能够让用户参与并指导对(要挖掘)模式的搜索,或帮助让用户精炼所返回的挖掘结果。类似于OLAP对数据立方体所做的那样,应当通过交互在数据空间和知识空间下钻、上卷和旋转来挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。知识挖掘应该能够用高水平语言、可视化表示,或其他表示方式来描述所挖掘出的知识,以使用户更容易地理解和应用所挖掘的知识。知识挖掘结果的可视化表示,对于交互式挖掘系统是非常重要的,同时也要求系统采用多种表示形式,如树、表格、规则、图、示意图(charts)、矩阵、曲线来描述所挖掘结果。

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈