您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页数据挖掘技术在个性化学习指导中的应用

数据挖掘技术在个性化学习指导中的应用

来源:筏尚旅游网
山东广播电视大学学报 2010年第1期 数据挖掘技米在个性化掣习指导中的应用 董彩云。吕秀荣 (山东广播电视大学,山东 济南 250014) 摘要:利用数据挖掘技术为学员提供个性化学习指导可以提高学员学习的积极性。收到更好的学>-/效 果。介绍数据挖掘技术,详细分析关联规则挖掘算法,给出一个完整的数据挖掘系统的设计与实现过程。详细 介绍各个步骤的处理过程,并增加兴趣度阈值来提高挖掘的精度,为高校管理决策提供科学依据。 关键词:数据挖掘;关联规则;数据集市;兴趣度 中图分类号:TP31l 文献标识码:A文章编号:1008—3340(2O1O)01—0o42一o3 与传统的教育相比,远程教育…的对象存在着极大的 理人员决策提供支持。 差异性,这就决定了远程教育必须是一种适应个别化学习 从功能上可以将DM的分析方法划分为以下四种(根 需求的个性化教学。然而,我国现有的远程教育并不能很 据IBM的划分方法):关联分析(Association rules);序列模 好地解决个性化教学的问题:现在的远程教育系统所提供 式分析(Sequential Patterns);分类分析(Classiifers):聚类分析 的教学资料虽然可以满足不同学习者在不同时间的个别 (Clustering)。关联规则挖掘算法是一种重要的数据挖掘方 学习需要,但大多数教学只是将教案挂到网上。对不同水 法。 平的学习者实施的是同一水平的教学.没有考虑到学习者 DM系统 不是多项技术的简单组合.而是一个完整的 的个性化特征;网络教学缺少具有个性化特征的信息反馈 整体,它还需要其他辅助技术的支持,才能完成数据准备、 系统,学习者不能得到适当的反馈信息,这些问题极大地 数据挖掘、结果表述、算法评价这一系列任务。 制约了远程教育的发展。经过调研认为.学习者根据自己 二、关联规则挖掘算法 的兴趣选择合适的课程进行学习,会很好地促进学习者的 (一)关联规则的概念 积极性,可以更大程度地发挥学习者的潜能。因此为学习 关联规则 是发现一个事物与其他事物间的相互关联 者提供合理的选课指导。已经成为所有远程教育工作者面 性或相互依赖性。它首先是Agrawal R C: 等提出的。所谓关 临的问题。数据挖掘技术的出现,则为这一问题的解决带 联规则,是指客体之间的相互关系。 来了契机。 设I={i。,i ,...,im1是m个不同项目的一个集合,其中每 一一、数据挖掘技术 个事务T是I中一组项目的集合。即T I。每一个事务 早期文献中,数据挖掘_2 .,也称为数据库中的知识发 都与一个唯一的标识符TID相联。如果对于I中的一个子 现,是从数据库中的数据抽取隐含的(implicit)、未知的 集X.有X T。我们就说一个事务T包含x。一条关联规则 (previously unknown) ̄1潜在有用的(potentially usefu1)信息 就是一个形如X Y的蕴涵式,其中XCI,YcI。而且Xn (如知识规则、约束和规律等)的非平凡的过程。确切地讲, Y= 。如果事务数据库中c%的事务包含X的交易同时也 数据挖掘(简记为DM)是一种决策支持过程,它主要基于 包含Y,则关联规则X Y的可信度为c;如果事务数据库 AI、机器学习、统计学等技术.高度自动化地分析和组织原 中s%的事务包含xuY,则关联规则x Y具有支持度s。 有的数据,做出归纳的推理,从中挖掘出潜在的模式,为管 这样每条被挖掘出来的关联规则就可以用一个蕴涵式、两 收稿时间:2009-12-02 作者简介:董彩云(1978-),女,工学硕士学位,山东广播电视大学讲师,研究方向:数据仓库、数据挖掘。 吕秀荣(1962-),女,山东广播电视大学直属学院副院长,副研究员。 42 山东广播电视大学学报 个阈值表示。 关联规则的开采问题可以分解成以下两个子问题: (1)找出所有具有指定最小支持度的项目集(itemset,I的一 个非空子集),具有最小支持度的项目集称为频繁项目集 (Frequent Itemsets)。(2)利用频繁项目集生成所需要的关 数据挖掘技术在个性化学习指导中的应用 后针对不同的部分进行挖掘,从而提高挖掘的速度。在本 实验中。先通过聚类分析中的K—MEANS算法按所属专业 对课程信息进行聚类,然后再利用所得信息对学生成绩 数据库进行挖掘。不同的用户可以根据自己的需要,按不 同的方式对数据进行分类。 (二)数据挖掘阶段 联规则。挖掘关联规则的总体性能由第一步决定。 (二)频繁集的发现 在本系统的实现中利用关联规则对学生成绩数据库 寻找频繁子集的方法是根据所有频繁发生的集合的 进行数据挖掘,目的是得到课程之间的相关信息,起到指 子集也是频繁发生的。 为了生成频繁项目集,首先遍历数据库,收集每个项 目集的支持度,取其支持度不低于最低支持度的项目集构 成频繁项目集的集合L1;然后两两连接L1中的项目集,形 成二维项目集的集合,再次遍历数据库,收集每个侯选二 维项目的支持数,取其支持数不低于最低支持项目集构成 频繁二项集的集合L2;如此迭代,直到新的侯选集n维集 合为空时为止。 (三)关联规则的发现 假设每个频繁集的支持度都得到,记作P(L),LE频 繁集,那么可信度Confidence(Ll/L2)=p(Ll nL2),p(L1)。 如果conifdence(Ll,L2)满足最低信任度,那么这条规则存 在.是有意义的。 三、DM在个别化学习指导中的应用 笔者在Window xp系统下进行了该系统的设计,数据 库平台选用SQL Server 2005。开发工具为Delphi。 (一)数据准备 本阶段又可以进一步细分为两步:数据集成:数据选 择和预分析。(1)集成(Integration)。在这一步中,将从操作 型环境中提取并集成数据,解决语义二义性问题。消除脏 数据等。在对教学系统数据的处理中,所有课程都是用课 程编号表示,不用作其它处理。该数据仓库系统研究设计 了“学生”、“课程”这两个主题的数据集市,为数据挖掘系 统提供集成的数据源,主要对学生成绩进行分析。(2)数 据选择和预分析。这一步将负责缩小数据范围.提高数据 挖掘的质量。随着数据仓库中数据的持续增加,在数据挖 ‘掘过程中,进行一次挖掘的时间越来越长,规则越来越 多,最终用户将面对着堆积如山的规则。许多的用户对总 体数据含有的规则并不感兴趣,他们只关心某些细化区 域的隐含规则。采用总体数据进行挖掘时,不仅挖掘时间 相应的增长、有用的规则淹没于用户不感兴趣的规则海 洋里,而且可能有的规则由于整体数据的“稀释”而无法 挖掘出来。因此,进行关联规则的挖掘需要根据用户的兴 趣方向进行数据区域细化。用户根据自己的要求分类,然 导学生选课的作用。关联规则的分析算法主要有AIS和 SETM.Apfiofi以及Partitio等,本实例采用经典的Apfiofi 算法。在关联规则分析中用到学生的考试成绩,学生所属 专业等学生基本信息以及在数据准备阶段形成的各门课 程所属的课程分类信息。根据学生的考试成绩分析出各门 课程之间的内在联系。在原有的关联规则的基础上增加了 兴趣度阈值来提高挖掘的精度。因为在实际应用中仅考虑 可信度和支持度是不够的,并且还会引起误导。例如:在学 生成绩库中有15%的学生《高等数学》和《软件工程》成绩 为优,而《高等数学》成绩为优的学生中50%的人《软件工 程》成绩为优,由这两个足够大的支持度和可信度我们推 出“加强《高等数学》的教学有助于《软件工程》成绩的提 高”这条看似有用的规则。但实际情况是原始记录显示选 修《软件工程》的学生60%成绩为优,换句话说,有35%的 学生《软件工程》成绩为优而《高等数学》成绩非优,并且任 意一个我们不知道任何信息的学生《软件工程》成绩优秀 的概率高于已知《高等数学》成绩优秀的学生。很显然上面 推出的这条规则是误导性的,不仅不利于用户作出决策。还 会形成虚假信息.而影响用户决策的正确性。兴趣度阈值 的定义就是来主要来解决这一问题的。定义规则R的兴趣 度[ 为: IR=(CR-Sl ̄)/max(CR,SIl}I) 其中C 即为规则R的可信度l H^B I,lBl,SRH为原始记录 中支持该规则推出的信息即规则右部H的比例。很显然C 与SRH之间并不存在任何数量关系,即算出来的兴趣度I 可能大于0也可能小于0。其值大于0,表示该规则是真实 有效的,可以输出,若小于0,则表示该规则有误导作用,应 舍弃。 显然,在挖掘的过程中,支持度、可信度、兴趣度阈 值定的越高,挖掘出的规则越少,相反阈值定的越低,挖 掘出的规则越多。在我们对局部的学生成绩数据库挖掘 后,得出了以下所示的支持度阅值(S)、可信度阈值(C)、 兴趣度阈值(I)和挖掘出的规则数目(NUM)的关系表,如 表1所示: 43 山东广播电视大学学报 表1 支持度、可信度、兴趣度与规则数目关系表 S C I NUM I NUM I NUM O.1 0.0l 0.1 916 0.3 488 0.5 139 0.1 O.O3 O.1 219 O_3 40 0.5 21 0.1 O.05 0.1 l32 0_3 36 0.5 4 0.2 0.05 0.1 108 0.3 35 0.5 4 O.3 0.05 0.1 87 0.3 35 0.5 4 由上表很容易分析出三者的变化对产生的规则数目 有很大的影响。因此在实际运行程序时,要适当对其进行 定义.才能既得出足够的规则又可使其达到足够的精度。 (三)结果描述 数据挖掘将获取的信息以便于用户理解和观察的方 式反映给用户.这时可以利用可视化工具。对于DM系统的 挖掘结果,可以用自然语言、图形、表格等多种方式进行表 示。在本系统中采用表格形式表示。用表格表示某学院学 生成绩挖掘结果,分别为(no,front,rear,C,S,I),其含义分 别是f产生关联规则的序号,关联规则前件,关联规则后件, 可信度,支持度,兴趣度),其中关联规则项需要通过查询组 合第二列和第三列得出来。部分结果如下表2所示: 表2某学院课程关联规则表 no front I ar C S I 1 离散数学 数据结构 0.76 0.04 O.63 2 数据结构 数据库基础 0.34 0.03 O.17 3 算法分析与设计 C语言程序设计 0.83 O.05 0.67 通过分析以上结果可以得出加强《离散数学》的学习 有助于对《数据结构》课程的学习,其他规则同样可按照这 种方式分析。用户根据挖掘结果可以容易的得出课程之间 的相关信息,做出决策,指导学生选课。 (四)评价 如果分析人员对结果不满意,可以调整支持度,可信 度及兴趣度阈值。递归地执行上述三个过程,直到满意为 数据挖掘技术在个性化学习指导中的应用 止。 四、系统分析 该系统实现了一个完整的数据挖掘过程。用户只要提 供必要的数据。系统就可以自动地对选定的数据库进行分 析,并且返回用户需要的信息,帮助用户做出决策,从而帮 助学生选课,对学生的更好地选课及进一步地学习,起到 了很好的促进作用。具有一定的实用价值。但也存在着一 些问题。如随着学生的增多,数据库中的数据将越来越多, 此方法如果不加以改进.会使得在用Apfiofi算法进行关联 规则挖掘时产生大量的侯选集,生成频繁项目集的时间大 大加长,因此降低了系统的效率。甚至会成为影响系统性 能的瓶颈.因此在后继工作中将采取一些措施提高挖掘的 效率;此外,由于学生都通过这种方式选课,有可能会造成 学习模式单一问题,因此需设计出更完善的系统避免此种 情况的发生。 五、结束语 远程教育的生存和发展将取决于能否提供个性化的 教学服务。数据挖掘在各个领域已有了非常广泛的应用, 它也可以为个性化的远程教育提供技术上的支持。随着研 究的深入,还可以通过对远程教育网站积累的大量教学信 息f如用户的访问日志、注册信息、答疑信息、考试成绩、作 业情况、交流信息和学习进度等)进行分析和处理,挖掘出 学习者的个性差异.为其提供更为广泛的个性化的教学支 持服务。 参考文献: [1]杨星,现代网络教育中学习的个别化和个性化U]. 中国成人教育,2006,(6):26. [2]UMFayyadGPiatetsb hapirqandP.SmytkKnowledge discovery and data mining:towards a unifying ̄dlTlework.In Proc.2nd Int’1 Conf.on Knowledge Discovery and Data Mining.Menlo Park.1996. [3]Jiawei Han,Micheline kamber.数据挖掘概念与技术 [M].范明,孟小峰,译.北京:机械工业出版社,2003. [4]黄解军,潘和平,万幼川.数据挖掘技术的应用研 究U].计算机工程与应用,2003,(2):45—47. [5]贾彩燕,倪现君.关联规则挖掘研究述评[J].计算 机科学,2003,30(4):145—148. 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务