首页 理论教育 数据挖掘技术在现代远程教育中的应用

数据挖掘技术在现代远程教育中的应用

时间:2022-11-15 理论教育 版权反馈
【摘要】:数据挖掘技术在现代远程教育中的应用周 美1 邓 慧2摘要:数据挖掘是近些年发展起来的一种提取隐含在大量信息中有用信息的技术。本文从数据挖掘技术的定义与特征入手,探讨了数据挖掘技术的方法和过程,分析了数据挖掘技术在现代远程教育中的应用。

数据挖掘技术在现代远程教育中的应用

周 美1 邓 慧2

(1.安徽师范大学,安徽芜湖,241000,E-mail:zhoumeiyouxiang@163.com;

2.安徽师范大学,安徽芜湖,241000,E-mail:denghuifeier@126.com)

摘 要:数据挖掘是近些年发展起来的一种提取隐含在大量信息中有用信息的技术。本文从数据挖掘技术的定义与特征入手,探讨了数据挖掘技术的方法和过程,分析了数据挖掘技术在现代远程教育中的应用。

关键词:数据挖掘技术 现代远程教育 应用

The Application of the Data Mining Technology in the Modern Distance Education

Zhou Mei 1 Deng Hui 2

(1.Anhui Normal University Collge of Educational Science,Anhui Wuhu,241000,Email:zhoumeiyouxiang@163.com;2.Anhui Normal university Collge of Educational Science,Anhui Wuhu,241000,E-mail:denghuifeier@126.com)

Abstract:Data mining is an extract implicit in large quantities of information technology in the useful information.This passage begin with the data mining technology in the definition and characteristics of the data mining technology,this paper discusses the methods and processes,and analyses the data mining technology in the modern distance education application.

Key Words:the data mining technology;contemporary and long-range education;application

一、数据挖掘技术的定义和特征

1.数据挖掘技术的定义

数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与数据挖掘相近的同义词有数据融合、数据分析和决策支持等。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘的对象不仅是数据库,也可以是文件系统,或其它任何组织在一起的数据集合,例如WWW信息资源,最新的对象是数据仓库。

随着Internet的发展,大量的信息都是从Web上获取的,因此Web挖掘成为一个新的研究内容。Web挖掘指利用数据挖掘技术从Web文档和访问数据中发现和抽取知识。按照挖掘对象的不同,将Web数据挖掘分为三类:Web内容挖掘(Web Content Mining),Web结构挖掘(Web Structure Mining),Web使用挖掘(Web Usage Mining)。

2.数据挖掘技术的关键特征

与数据挖掘类似的概念有“数据库中的知识挖掘”、“知识发现”、“数据模式分析”。很多著作将数据挖掘与知识发现相比较,一种常见的观点是将数据挖掘与知识发现近似地等同,认为知识发现是数据挖掘的基本目标,数据挖掘是知识发现的一个关键步骤。另一种观点是将数据挖掘看成是人工智能(AI)在数据库领域中的具体应用,其中知识发现是应用的最重要的形式。不管如何,数据挖掘是综合多个学科的技术,研究者根据兴趣对数据库中累积的数据进行分析,以期发现其中隐含的知识。它主要涉及的学科有统计学、人工智能、数据库及研究的领域学科等。数据挖掘和相关学科区别的几个关键特征有:

(1)要挖掘的目标事先并不总是确定,因此挖掘的结果可能是一无所获,也可能有意外惊喜。

(2)显而易见的知识无需通过数据挖掘。

(3)所要挖掘的数据库最初并不是为挖掘而建立的,这一点和统计学不同。在统计学中,为了统计某一命题,往往要在进行数据分析前设计好数据模式。

(4)数据挖掘面对的是海量数据,是GB级甚至TB级的数据,而且有些每天还在不断增长,如Web日志中的记录,无法依赖人力来进行分析,必须依靠计算机来完成任务。同时分析数据所用到的方法、算法与研究学科密切相关,如行星观测的记录的分析必须和天文学特点相结合、银行交易的记录分析必须和金融学结合、基因组记录分析必须与生物分子学结合。这些记录结构复杂,具有层次性和多维性,必须结合特定的算法来完成挖掘。

二、数据挖掘技术的方法与过程

1.数据挖掘技术的方法

作为一门处理数据的新兴技术,数据挖掘中最常见和应用最广泛的方法有以下几种:

(1)传统统计方法。抽样技术:我们面对的是大量的数据,对所有的数据进行分析是不可能的也是没有必要的,这就要在理论的指导下进行合理的抽样。多元统计分析:因子分析、聚类分析等。统计预测方法,如回归分析、时间序列分析等。

(2)可视化技术。用图表等方式把数据特征直观地表述出来,如直方图等,这其中运用了许多描述统计的方法。可视化技术面对的一个难题是高维数据的可视化。

(3)决策树。利用一系列规则划分,建立树状图,可用于分类和预测。常用的算法有CART、CHAID、ID3、C4.5、C5.0等。

(4)神经网络。模拟人的神经元功能,经过输入层、隐藏层、输出层等,对数据进行调整、计算,最后得到结果,用于分类和回归。

(5)遗传算法。基于自然进化理论,模拟基因联合、突变、选择等过程的一种优化技术。

(6)关联规则挖掘算法。关联规则是描述数据之间存在关系的规则。一般分为两个步骤:首先求出大数据项集,其次用大数据项集产生关联规则。

除了上述的常用方法外,还有粗集方法、模糊集合方法、Bayesian Belief Netords、最邻近算法(knearestneighbors method(kNN))等。

2.数据挖掘技术的过程

数据挖掘的数据来源主要有网站信息(如用户资料库、网站拓扑结构等)、用户浏览网站日志数据(如Cookie、Error Log等)、相关知识领域信息等。数据挖掘的过程实际上就是一个知识的发现的过程,其处理流程是:

(1)数据选择:对与用户需求相关的数据进行知识提取,从而选择出适用于数据应用的数据,从而减少与挖掘无关的结果。

(2)数据预处理:从网站日志数据中识别事务,利用关联规则和序列模式的发现等挖掘技术对事务数据库实施数据挖掘,确定将要进行的挖掘操作的类型,得到了规范的数据集。

(3)数据的转换:将数据转换成一个分析模型,这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。

(4)数据挖掘:首先确定挖掘的目的是进行分类、聚类、关联规则发现等,确定了任务再决定使用的挖掘算法。同样的任务可以用不同的算法来实现,选择算法时一是要考虑数据本身的特点,使用与之相关的算法来挖掘;二是要考虑用户或实际运行系统的要求,有的用户可能希望获取描述型的、容易理解的知识,而有的用户或系统的目的是获取预测准确度尽可能高的预测型知识。常用的数据挖掘方法有:聚类方法、神经网络、贝叶斯网络、遗传算法、模糊算法以及粗糙集方法等。要对所得到的转换数据进行挖掘,获得好的挖掘效果,就必须对各种挖掘算法的要求或前提条件进行充分的理解。

(5)知识的同化:这个过程分为两步,第一步要对数据挖掘得到的知识结果进行分析,清除无用或错误的知识,以可视化技术将可用知识展示给用户(可视化技术就是把数据转换成能够被人所理解的方式,如图形、图像等),并将分析所得到的知识集成到网站信息系统的组织结构中。

三、数据挖掘技术在现代远程教育中的应用

1.选择教学对象和授课老师

远程教育改变了传统的面授、辅导方式,实行自主式的学习。因而在教学对象的选择和授课老师的选择方面就有很大的自主权。学生可以自由地选择最满意的授课老师,老师也可以不选择最不愿意教授的学生。那么,对学生来说,为了学习某一方面的课程,就存在对相应老师的知名度、教学水平及相关情况的了解;对老师来说,为了有针对性的教授学生,就存在对学生综合素质、学习目的及IQ等情况的掌握。这类似于建立市场中的“客户关系管理”(SCR)系统,了解业务对象是走向市场的第一步。为了完成这一步,管理者可以利用数据挖掘中的关联规则技术在已建立好的老师和学生数据库或数据仓库中进行关联查询,找到相关的记录提交给老师或学生。在此,支持度和置信度的阀值的确定至关重要。支持度越高,说明规则经常出现;置信度越高,说明规则越可靠。对高支持度和高置信度的挖掘结果进行综合,就可大致得出该对象的一般情况。

2.分析学习者特征和认知特点

实现个性化教学的关键是发现学习者在学习中的个体差异,提供适应个体需要的学习。因此在学习活动开始之前,首先应该帮助学习者明确自身的学习特征,并在动态的学习过程中捕捉其特征的变化。在远程教育中,我们可以通过网络交互技术记录学习者的学习信息,利用数据挖掘技术对收集的学习信息进行分析,获取学习者特征,作为为学习者提供学习帮助和学习策略的依据。在远程教学过程中,充分考虑到学习者的个性差异,以及学习动机、学习风格等方面的差异,根据这些差异,进行个性化教学。

当一个学习者进入该学习系统后,远程教育网站首先通过某种策略采集学生的个性化信息,并根据学习者的学习需求、学习者以前的学习情况和追踪其学习过程,形成学习者新的学习记录,如学习者经常点击的URL、查询的关键字、经常访问的数据类型、课程的选择和学习情况、上网的时间、通过BBS或聊天室参加讨论的主题和次数、作业完成的情况等信息,这些信息可以利用网络通信技术对学习者的学习活动进行实时追踪来获得。我们可以利用数据挖掘技术对这些信息进行分析和处理,从而发现学习者的学习倾向和认知特点,根据学习者的不同学习倾向呈现不同的学习内容,真正实现个性化的教学。

3.实时教学与考试

在国外,远程教育被称为“虚拟学校”,也叫“电子学校”,它提供了一个交互的探讨环境,与传统的学校有很大的不同,每天24小时教学;每年365天,天天“上课”。学生可以通过电流和网络进行学习,就像在传统的学校里学习一样,只不过是改用虚拟方式进行罢了。而且,远程教育可以更多且及时的了解到学生的状况、需求、能力、学习进度、兴趣爱好的差异,并动态地根据这诸多因素调整学习计划及进度,让学生得到针对其“个性”的教育;真正地做到了因人而异、因材施教。正是由于高速发展的互联网技术、人工智能和数据库技术,知识发现这种数据处理过程进入到Web领域,它通过机器学习、统计分析等方法,设计出个性化处理引擎,从大量数据中进行数据挖掘,提取有用的、潜在的信息,才使个性化服务成为可能,并成为目前的远程教育的支撑技术。值得一提的是,远程教育中的自动答疑系统只需用户连接到Internet,通过浏览器就可以解答在学习过程中产生的问题。这是因为,一方面,系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题,系统可以通过对问题的分析自动在数据库中寻找最适合的答案;另一方面,如果提出的问题具有典型性和独创性,并且自动答疑系统没有找到合适的答案,专门配备的经验丰富的专职教授将回答这些问题。实际上,整个答疑过程就是一个数据挖掘技术的应用过程。

远程考试系统是一个基于数据库和WWW的远程在线式实时的测试系统。在考试过程中,系统根据学生对某个问题的回答情况动态的增加或降低问项的难度,并记入学生考试信息数据库;当进行解释问题时,系统利用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的;恰如其分地反馈给学生,提高学习的效率。

4.支持教育决策,帮助教师提高教学技能

数据挖掘是教育管理决策系统的核心技术之一。在教育决策中,对于那些决策者明确了解的信息,可以用普通的查询等工具直接获取,而另外一些隐藏在大量数据中的关系、趋势等信息就需要数据挖掘技术。根据目前各学校中的管理信息系统的特点,首先需要在较高层次上将不同信息系统中的数据进行综合、归类,并进行抽象,建立数据仓库。在数据仓库的基础上进行联机分析处理和数据挖掘,发现有价值的知识,为各学校的管理决策者提供更科学的决策基础,从而有针对性地加强教学管理,有效地提高教学质量。

利用数据挖掘技术,可以对学生在网络上的提问信息进行整理,发现有价值的资料。在远程教育中,提问与回答是提高学习效率的关键。而通常在一个领域的知识学习过程中,不同学生的问题往往具有相似性。可以利用数据挖掘,对学生所提的问题加以汇总和分析,从而总结出教师在教学过程中的得失。作为反馈,可以使教师能够及时高效地调整教学方法,从而大大缩短经验教师的培养周期。另外,通过对提问频率的分析,帮助老师了解学生对知识点的掌握情况。

5.支持远程教育资源库建设

现代远程教育教学支撑系统由一系列支持多种教学模式的教学工具构成,主要包括学习系统(非实时/实时)、授课系统(非实时/实时)、教学资源编辑制作系统、辅导答疑系统、作业评间系统、考试系统、评价系统、交流讨论工具、虚拟实验系统及搜索引擎等。这些教学工具都是基于远程教育资源库的。资源库包括中央远程教育资源信息中心和学科门类资源库、地区资源中心及学校资源库。教学资源编辑和制作系统是远程教育的基础。目前,我国课件开发制作水平较低,为了建立覆盖面广、功能齐全的资源库,必须编制信息资源目录,征集各类资源信息,并进行资源查重、资源信息筛选、资源信息整理和存储;同时,按学科门类建设数字化教学素材库或称之为积件库,包括存储综合性的先进音像教材、多媒体软件。

在课件制作的过程中,为了有针对性并避免重复,可按如下三步进行:①对所有学习者已选的课程进行聚类,使得属于同一类别的课程之间的距离尽可能的小,而不同类别上的课程间的距离尽可能的大,并通过聚类学习算法来自动确定每门课程的类别标记;②根据类别标记及一组相关特征向量的课程数据库记录构成训练样本数据集,输入该训练集,构造分类器,把课程数据库中的数据项映射到给定类别中的某一个;③计算出课程数据库的各个字段上,特别是关键字段使用频度的求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示,利用OLAP对数据库进行多维数据分析,将有关数据从低层次抽象到高层次上;并给出紧凑描述;④利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或者利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。

6.优化基于网络的远距离教学

随着科技的发展和社会的进步,多媒体计算机、计算机网络进入平民化时代,它们被广泛地应用在教学中,产生了新型的基于网络的远距离学习模式。这种学习模式的基本特征是:利用多媒体技术和计算机网络,提供丰富的学习资源供学习者选用,教学形式由原来的以教为主变为以学为主。与传统的课堂授课相比,在网络环境下学习具有不少优点,比如可以实现自主学习、按需学习;学习自由度高,可以实现“泛在学习”[1],即五个“任何”,指任何人、任何时间、任何地点、从任何章节开始、学习任何课程;便于培养学生的创新能力;便于实施研究性学习等。同时,基于网络的学习也有不少缺点,比如不能对学生的学习进行有效的监管,不易把握学习者在学习过程中的进度、能力、习惯;由于Web中的知识是非线性结构的,很容易使学习者在复杂的超级链接中迷失学习方向,增加认知负担,降低学习效率;网站界面固定,不利于为学习者提供个性化服务,无法因材施教。这些缺点是新型学习模式是否真正有效的重要影响因素。在这种情况下,使用数据挖掘工具可以解决部分问题。[2-3]

参考文献

[1] 祝智庭,王陆.网络教育应用[M].北京:北京师范大学出版社,2004:18-30.

[2] 张建宇,叶长青.“教育超市”的个性化授导——基于web的数据挖掘在远程教育中的应用[J].中国教育网络,2005,(11):48-50.

[3] 宋江春,陈文林.Web使用挖掘及其在远程教育教学支持服务中的应用研究[J].中国远程教育,2005,(7):62-64.

免责声明:以上内容源自网络,版权归原作者所有,如有侵犯您的原创版权请告知,我们将尽快删除相关内容。

我要反馈