HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 数据挖掘课程

数据挖掘课程

时间:2022-07-10 09:35:10

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘课程,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘课程

第1篇

1、数据挖掘课程设计研究基础

国外很多大学都开设了数据挖掘类课程,波士顿大学的“数据管理与商务智能”课程主要包括基础、核心技术、应用三部分。授课方式包括理论内容讲授、案例教学,以及学生以团队合作方式完成项目并进行课堂演讲。从麻省理工学院开放性课程资料(斯隆管理学院)中可以看出,在每章讲解一种算法之后都尽可能地安排了商务实例的分析,并在课程后期安排了客座讲座的形式。国内对于数据挖掘的教学类研究成果也很多,主要集中在三类问题的研究上,较为普遍的是根据专业建立大纲的研究,例如针对电子商务专业进行大纲设计;另外也有专注研究某一种或多种适合数据挖掘或商务智能的教学方法,如专题研讨法;还有的讨论算法理解与程序设计、软件应用的关系。

2、基于模块化方法的课程内容分析

模块化教学模式是按照程序模块化的构想和原则来设计教学内容的一整套教学体系,它是在既定的培养目标指导下,将全部教学内容按照一定标准或规则进行分解,使其成为多个相对独立的教学模块,且各教学模块之间可以按照一定的规则有选择性的重新组合。该方法在20世纪70年代,由国际劳工组织引入教学之中,开发出以现场教学为主,以技能培训为核心的模块化教学模式,在很多国家得到广泛应用。由于该教学法具有针对性、灵活性、现实性等特点,越来越受到教育界的关注。模块化教学本质上是以知识点与实践的细化为出发点研究,本课程的知识点细化分为两个层次:一是从宏观角度,参考ACM的SIGKDD的数据挖掘课程建设建议,设计课程的基础内容模块和高级主题模块;二是从微观角度,针对较为复杂的算法进行的知识点划分。课程内容的一至五章属于基础内容模块,介绍本课程的基础理论和入门的数据挖掘技术;六至第八章介于基础内容与高级主题之间,介绍数据挖掘的核心算法,可以根据学生情况进行灵活处理,可强调应用,也可深化算法介绍;第九、十章为高级主题模块,可以作为扩展材料介绍应用,或为感兴趣同学提供算法介绍;课程实践模块包含数据仓库建设与数据挖掘算法的应用,难度居中,可以在引导学生思考的前提下给出实验步骤,并引导学生使用类似的方法处理不同的数据。

3、基于模块化方法进行重要知识点的模块化分析

重要知识点内涵较为丰富,一般体现在经典数据挖掘算法上,通常一大类算法下还分有多个算法,不同算法的在难度上有渐进层次,同一种算法也有很大改进研究空间,讲授弹性比较大。因此,适合使用模块化方法进行处理,并且需要在课程设计中明确一定课时量所要达到的内容和难度。基础部分为必选内容,介绍基本概念和基本原理;决策树作为数据挖掘分类算法的最基础算法也是必选内容,决策树算法有多种分类,需要进行按照难易程度进行选择;最后要根据难度选择其他分类算法进行介绍。

4、结论

本文使用了模块化教学的思想研究了数据挖掘类课程设计的过程,主要包括课程内容的模块化处理与重要知识点的模块化处理。对课程内容进行模块化处理,可以方便教师实行不同的授课方式和考查方式,可以使学生从宏观角度明确课程重点和难点提高学生的听课效果。对知识点的内容进行模块化处理,可以帮助学生了解哪些是基础知识,哪些是需要扩展和探索的内容,为将来深入学习打下基础,同时也有助于教师及时了解学生对知识点的掌握程度。对于难度跨度较大的章节,可以选用专题探讨式教学方法提升学生上课的兴趣、有效提高学生对知识点的理解程度,对于实践教学环节,选用商务智能和数据挖掘软件帮助学生理解方法的应用。随着数据挖掘、云计算、大数据的发展,数据挖掘类课程的课时量、实践教学环节都会在教学计划调整过程中增加,对教学内容的模块化分类以及相应的授课方式的研究成果仍可继续发挥作用,并进行更深入的研究和实践。

作者:胡敏单位:北京信息科技大学信息管理学院

第2篇

课程相关性分析数据挖掘相关分析典型相关分析关联规则一、引言

课程是实现教学内容传递的集中体现,是学校教育的目的性、计划性和组织性的集中体现。课程设置规定着课程类型、课程性质、课程排序和学时分配,还规定各类各科课程的学习目标、学习内容和学习要求等,其合理与否将直接影响到所培养人才的质量,关系到学生知识面的宽度、深度、动手实践和研究能力的高低,同时也已经成为了影响大学生就业的主要因素之一。因此,课程结构和课程内容的合理设置尤为重要。

课程相关性分析可定量描述课程之间的相关性,可根据相关系数值的大小确定课程间关系的紧密程度,然后从顺序性、整体性、关联性和连续性四个方面为优化课程设置提供参考信息,优化课程结构和课程内容。近年来,国内外教育工作研究人员开展了大量的课程相关性方面的研究,国内外多所著名高校已将课程相关性研究成果作为课程设置的基本依据。

目前课程相关性分析研究所采用的方法均基于数据分析,其方法主要包括传统数据分析法和数据挖掘分析法两种,而两者又有着本质的区别。在探索数据关系时,传统的分析方法一般是基于验证的方法,即用户首先对数据之间的关系做出一定的假设,然后通过数据分析来验证假设是否正确来得出相应结论,其分析过程是基于假设驱动的演绎型分析;数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻找模型,数据挖掘在本质上是一个完全基于发现驱动的归纳型分析过程。

本文对课程相关性分析中的数据挖掘过程及基于数据挖掘技术的课程相关分析方法进行介绍,以期为我国高校课程的优化设置研究提供理论指导和方法借鉴。

二、数据挖掘技术

数据挖掘(Data Mining,DM)又称数据库中的知识发现,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,通过使用成熟的数据挖掘模型,提取出隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,得到数据中反映出来的数据内在的关系,从而进一步应用到具体的数据分析研究中去。数据挖掘得到的信息具有先前未知、有效和实用三个特征。

目前,数据挖掘技术的已被应用于关联分析(Association Analysis)、概念/类别描述(Concept/Class Description)、分类与估值(Classification and Estimation)、聚类分析(Clustering Analysis)、时间序列分析(Time-Series Analysis)、偏差分析(Deviation Analysis)、孤立点分析(Outlier Analysis)等方面,随着数据挖掘技术的发展,可能还会继续出现新的数据挖掘功能。课程相关性分析为其关联分析功能中的一部分,所采用的分析方法主要有相关分析法、典型相关分析法和关联规则分析法等。

数据挖掘分析过程各步骤之间互相影响、反复调整,形成一种螺旋式上升过程,具体分析流程见图1所示。目前已建立的数据挖掘模型有CRISP-DM模型(Cross Industry Standard Process for Data Mining)、ODDM模型(OLE DB for Data Mining)、Oracle9i数据挖掘模型等多种,对于课程相关性分析来说,具有直观、简单和可靠等特点的CRISP-DM模型最为适用,其模型见图2所示。

三、基于数据挖掘的课程相关性分析方法

基于数据挖掘的课程相关性分析方法主要有相关分析法、典型相关分析法和关联规则分析法,三种方法各具优缺点,互不可取代。

1.相关分析法

相关分析法又称单因子相关分析法,主要用于研究两个变量因子间的相关关系。作为教育信息多元统计分析方法的一种,相关分析法主要用于测定现象之间相关关系的规律性,据此进行预测和控制。将其用于课程相关性的探讨研究,可直接量化两门课程间的相关性,分析过程简单、快捷,显示方式直观,数据可信度高。

相关分析法在课程相关性分析研究中应用,主要有以下几个步骤:

第3篇

阐明了主成分分析在数据降维的同时能够保持原始数据的绝大部分能量信息没有损失,是一种最优的数据描述和表示方法。通过对主成份分析理论基础的讲述,让学生不仅掌握了主成分分析的内容和作用,搞清楚了相关的计算过程,这也对学生更好地实现主成分分析的程序设计和应用情况有了清楚的认识。对于教材中一些简单的内容,比如数据分箱、K近邻分类等,我们要求学生自己理解,然后随机抽取学生为其他同学讲授,这样可以提高学生的主动性,加深学生的理解。对于一些简单的问题,如K-means聚类的类别中心为各类样本的均值,我们可以让学生自己证明,提高他们的理解力。在讲授其他一些内容时,比如说聚类分析,我们可以将聚类分析的各个过程用图的形式表示出来,用空间中的点表示聚类样本,这样就大大增强了学生的理解。

我们在教学的过程中,也比较比较注重案例教学。例如,在讲授神经网络时,我们可以用上海证券交易所中股市中股票随时间变化的数据为例,让学生讨论如何应用神经网络对股票价格进行预测。人工神经网络是一种模仿自然界动物神经网络行为特征,进行分布式并行信息处理的算法数学模型,能够较好地处理具有一定复杂性的数据,在预测、拟合等方面取得了很好的应用效果。让学生采用神经网络进行实际数据分析和处理,可以增强他们学习的积极性,更主动地投入到学习中去。我们也要求他们使用回归分析的方法对股票价格进行预测,然后和神经网络预测的结果进行比较。通过这个过程,可以使学生们不但了解了神经网络与回归分析算法的异同,加深他们对神经网络的认识。

加强实验教学,增强学生动手能力

信息与计算科学专业是以信息领域为背景,数学与信息、管理相结合的交叉学科专业。该专业培养的学生具有良好的数学基础,能熟练地使用计算机,初步具备在信息与计算科学领域的某个方向上从事科学研究,解决实际问题,设计开发有关软件的能力。毕业生适合到企事业单位、高科技部门、高等院校、行政管理和经济管理部门,从事科研、教学和计算机应用软件的开发和管理工作,也可以继续攻读信息与计算科学及相关学科的硕士学位。从信息与计算科学专业的培养目标可以看出信息与计算科学专业的本科生不但需要掌握理论知识,还需要具有将所学知识用来解决实际问题的能力。数据挖掘作为一门应用性较强的课程,需要学生能够运用数据挖掘知识分析和解决实际问题,要求学生能够熟练掌握数据挖掘的程序设计,以便在将来的就业中具有更好的适应性,因此实验环节的教学有着其必要性。基于这些原因,我们在这门课中引入实验环节,并将其纳入考核要求。我们实验所用的基本软件是SAS统计分析软件。SAS软件是一个集统计分析、报表图形、信息系统开发和大型数据库管理等多种强大功能为一体的大型软件系统,是目前国际上主流的统计分析软件之一。我们信息专业在大三时开设这门课程,之前已经学过C语言和JAVA等程序设计方法,有了一定的编程基础,因此学习使用SAS软件并不是特别困难。而且,在SAS软件中,系统自带了许多数据挖掘函数,这方便了同学们的使用。我们在平时的学习中,将一些SAS软件的基本程序设计基础知识先发给同学们,让他们利用课后时间自己在个人电脑上进行熟悉,从而使得他们熟悉基本SAS程序设计方法,这样可以在实验课上直接运用SAS软件进行数据挖掘程序的编写。在实验课上,我们主要将要实验的内容和相关数据资料提供给同学,要求同学自己用数据挖掘的知识和SAS软件进行编程实现,并写出实验分析和小结。另外,在实验中,我们也要求学生尽可能将一些实验结果用图表的形式如崖底碎石图等表示出来,以利于进一步分析。对于少部分学有余力的同学,我们也引导他们自编相关的程序。比如说在SAS软件中进行K-均值聚类用fastclus这个函数就可以了,但是学生对程序具体实现过程可能不是很清楚。如果学生能够将程序K-均值聚类详细程序步骤自己编写出来,就可以表明学生对所K-均值聚类算法也有了较清楚的认识。另外,对于属于数学建模协会的同学,我们也引导他们将数据挖掘的知识和数学建模中某些问题相结合起来,对于以往出现的一些可以利用数据挖掘知识分析的问题让他们利用相关的数据挖掘知识对其进行分析和求解,通过这样的方式,可以这样拓展这些同学的思路,也为数学建模培养了人才。

灵活的课后作业形式,提高学生的综合能力

对于我们讲授的课题,每学完一个算法,我们要求学生在网络上搜索该方法的运用领域和技术要点,加深对该算法的理解。然后,我们让每一个同学自己挑选一个该算法可以解决的问题,在网上搜集相关数据,写出实现程序,并写出相应的小论文。这也可以锻炼学生的搜索、整理和分析处理数据的能力。对于课程中的某些案例,我们要求学生进行重新总结思考。比如在运用主成分分析进行入侵检测的这个案例,案例中的主要指标是运用两类样本协方差特征根的差异进行分析和比较。我们让学生思考该处理方法的优缺点,同时让学生思考有没有其他的思路,比如按照模式分类的思想来实现。即首先主成份分析进行降维,然后运用K-近邻分类方法进行分类。另外,也让学生思考有没有其他的思路,比如特征降维是否可以采用其他方法,如线性鉴别分析等;而分类方法是否可以采用BP神经网络等。进一步,我们可以让学生比较主成份分析和线性鉴别分析有什么异同之处;K-近邻分类和BP神经网络运用于分类时执行过程有什么异同之处。让学生对这些算法的理解更加透彻。另外,在课本的作业之外,我们也会自编一些题目,让学生自己进行思考分析。比如,对于图1双圈图,我们可以设置这样的问题:将图形的描点数据给大家,要求他们绘出图形,说明形状。然后要求他们运用K-means聚类聚为两类,并且根据聚类的结果画出图形。然后将所得的图形跟原始图形进行比较,说明差异之处。通过这样的问题,既可以使得学生对数据整理、画图等有一定的掌握,还使得他们熟悉了K-means聚类算法的编程过程。另外,使得他们不仅了解了K-means聚类算法的优点,也使得他们理解K-means聚类算法作为一种线性方法的局限之处。四、小结综上所述,“数据挖掘”课的教学既要注重基本理论与方法的讲解,使得学生能够掌握数据挖掘的基本理论和知识;又要培养学生的思考和分析能力,提高他们运用数据挖掘的相关程序解决实际问题的能力。从而使得所学的知识能够真正运用于实践中,提高学生的综合能力。本文尝试对本科数据挖掘教学做一些总结,如何更好地提高《数据挖掘》这门课的教学质量,期待更多的同行共同探讨。

作者:徐春明单位:盐城师范学院数学科学学院

第4篇

Data Mining and Analysis for the Personalized Teaching of Multimedia Technology Course

YANG Nan-yue

(Industrial Training Center, Guangdong Polytechnic Normal University, Guangzhou 510665, China)

Abstract: Since personalized teaching has been implemented in multimedia technology teaching in the past five years, a lot of teaching data accumulated from multimedia technology online learning platform. The article introduced data mining and analysis technology to process these data in order to obtain support and decision-making reference for the improvement of the quality of personalized teaching. First, the snowflake model of courses selection for data warehouse was built. Then the Apriori algorithm was used to dig out the inner link between the students’ media technology achievements and the final grade. And then cluster analysis with k-means algorithm on all students’ scores was conducted. Finally, the calculated results were visualized and analyzed. Practice proved that data mining and analysis technology is a useful tool for quantitative analysis in the teaching.

Key words: data mining; snowflake model; association rule; cluster analysis; personalized teaching

我校的多媒体技术公选课面向全校各年级各专业本科生开课,因此选修本课程的学生来源较复杂,其计算机基础参差不齐。过往统一步调的授课模式满足不了不同层次学生的需求,所以从2011年开始,本门课程实施教学改革,以多媒体技术在线学习平台为基础,结合课堂授课开展个性化教学,把多媒体技术包含的四大媒体技术课程:图像处理、音频处理、视频处理和动画制作做成讲座的形式,每一门课程分别包含两到三次的讲座,学生根据自己的情况选听选学。每门媒体技术不同难易度的学习资料都放在学习平台里,学生可以自由选择学习资源,并通过网络或课堂与同学和老师进行学习交流。考核方式为每一门课程最后一次讲座讲完后在学习平台上进行随堂考试,要求每位学生至少选考其中三门。本门课程期末考试也在学习平台上进行,要求全体学生都必须参加。本教改实施五年来,学生反应良好,同时多媒体技术学习平台网站上存在着大量学生成绩和教师教学及管理过程中的相关数据,那么这些数据之间存在着怎样的联系,是否蕴藏着教与学之间的知识和规律?由于数据挖掘技术能够发现隐藏在海量数据中的潜在联系和规则,从而预测未来的发展趋势[1],因此我们把该技术引入学习平台中的信息资源管理系统,把大量积累的教学基础数据建立数据仓库[2],在这基础上运用数据挖掘手段从中快速准确地提取出重要的信息和有价值的知识,找出影响学习成绩的因素,为进一步改善个性化教学的教学质量提供数据支持和决策参考。

1 数据仓库多维数据模型的建立

数据仓库的逻辑数据模型是多维数据模型。目前使用的多维数据模型主要有星型模型和雪花模型。一个典型的星型模式包括一个大型的事实表和一组逻辑上围绕这个事实表的维度表[3]。雪花模型是对星型模型的扩展,将星型模型的维度表进一步层次化,原来的各维度表被扩展为小的事实表,形成一些局部的层次区域[3-4]。建立本课程数据仓库时,为了减少数据冗余,改善查询性能我们采用雪花模型结构,如图1所示。建立以学生选课为中心的选课事实表,三个主维度表“学生表”、“成绩表”和“时间表”分别通过“学生键”、“成绩键”和“时间键”与事实表直接关联。其中,主维度表中的“学生表”和“成绩表”都有各自的二级维度表,与事实表间接关联[5]。

2 采用Apriori算法的关联规则挖掘

关联规则用于揭示数据与数据之间未知的相互依赖关系,即在给定的一个事物数据库D,在基于支持度-置信度框架中,发现数据与项目之间大量有趣的相关联系,生成所有的支持度和可信度分别高于用户给定的最小支持度(min_sup)和最小可信度(min_conf)的关联规则。关联规则挖掘算法归结为下面两个问题:(1)找到所有支持度大于等于最小支持度(min_sup)的项目集(Item Sets),即频繁项目集(Frequent Item Sets)。(2)使用步骤(1)找到的频繁项目集,产生期望的规则。两步中,第(2)步是在第(1)步的基础上进行的,工作量非常小,因此挖掘的重点在步骤(1)上,即查找数据库中的所有频繁项目集和它的支持度[4]。本课题对多媒体技术课程学习平台中所有考试成绩进行关联规则挖掘,采用Apriori算法查找频繁项目集。

Apriori算法通过逐层迭代来找出所有的频繁项目集L。用户需要输入事物数据库D和最小支持度阀值min_sup。实现过程为:

1)单次扫描数据库D计算出各个1项集的支持度,得到频繁1项集构成的集合L1。

2)连接:为了产生频繁K项集构成的集合,通过连接运算预先生成一个潜在频繁k项集的集合Ck。

3)剪枝:利用Apriori算法“任何非频繁的(k-1)项集必定不是频繁k项集的子集”的性质,从Ck中删除掉含有非频繁子集的那些潜在k项集。

4)再次扫描数据库D,计算Ck中各个项集的支持度。

5)剔除Ck中不满足最小支持度的项集,得到由频繁k项集构成的集合Lk。

Apriori算法如下:

[(1)L1=find_frequent_1-itemsets(D)(2)for(k=2;Lk-1≠?;k++) do begin(3)Ck=apriori_gen(Lk-1); //新的潜在频繁项集(4)for all transactions t∈D do begin(5) Ct=subset(Ck,t);//t中包含的潜在频繁项集(6)for all candidates c∈Ct do begin(7) c.count++;(8)end;(9)Lk=c∈Ckc.count≥inmsup(10)end;(11)Answer=UkLk;]

求出频繁项集L后,1)对于L中的每一个频繁项目集l,产生l的所有非空子集。2)对于l的每一个非空子集s,如果,[sup_count(l)sup_count(s)≥min_conf],则输出规则:SL-S[4]。

本课题对近五年选修多媒体技术的学生所有成绩数据进行清洗,填补空缺值,去噪,类型转换,集成等处理后放入数据仓库中,系统采用Apriori算法找出所有的频繁项集。为了便于进行关联规则的挖掘,对成绩数据进行离散化处理,转变成标称型变量[5]。成绩score(简化为“s”)在85-100区间的表示“优秀”,标记为“1”,在70-84区间的表示“中等”,标记为“2”,在60-70区间的表示“合格”,标记为“3”。多媒体技术每门媒体技术课程:图像处理、音频处理、视频处理、动画制作和最后的期末考试分别用A、B、C、D、E表示。学生的学号用StudentID表示,那么每个学生选修的N门课和最后期末考试的成绩可以表示为{StudentID,Asa,Bsb,Csc,Dsd,Ese},其中Sa,Sb,Sc,Sd,Se的取值范围是{1,2,3}。例如{ 2011204543021,A3,B1,D3,E3}表示学号为2011204543021的学生,选修了图像处理,音频处理和动画制作这三门媒体技术,其中图像处理成绩为合格,音频处理成绩为优秀,动画制作成绩为合格,期末考试成绩为合格,该名学生没有选修视频处理,故没有这门科目的成绩。

设定最小支持度阀值min_sup为3%,最小置信度阀值min_conf为70%,系统采用Apriori算法进行数据挖掘,得到满足最小置信度阀值的规则和相应的置信度如表1。

挖掘结果分析:表1的关联规则体现学生选修的媒体技术课程种类、科目数量与期末考试成绩之间的相互关系。可以看到期末考试成绩属于中等(E2)或合格(E3)级别的,学生全选四门媒体技术比只选学三门的置信度高,即选课数量多的较容易及格或获得中等的期末成绩。另外,在选课种类方面,选B这门课,即选音频处理的学生比较多,是一个概率比较高的事件,可能这门课内容比较少和易掌握,因此选学选考的学生就多。但这门课的成绩对期末考试成绩影响不明显,说明教师这门课出的考题区分度低,没能反映出学生的水平层次。在最小支持度阀值min_sup为3%的情况下,选A(图像处理),C(视频处理)和D(动画制作)这几门课并获得优秀成绩(A1,C1,D1)的很少,即小概率事件被过滤掉了,没能挖掘出它们与期末成绩之间的关联性。但这几门课程成绩中等或合格与期末成绩存在内在关系,也就是说如果这几门课成绩都是中等的,期末考试成绩大部分都为中等,一小部分可以达到优秀。如果这几门课成绩都是合格,期末考试成绩就是合格。说明这几门课程的考题比较真实反映出学生掌握技能的实际水平,致使期末综合性的考试成绩与学生平时掌握程度相符合。这也意味着个性化教学具有一定的成效。

本课题对近五年的学生多媒体技术每科成绩与期末成绩进行聚类分析,把学生划分到若干不同的类中,分析各个类的特征,从而考察实施个性化教学后的效果。设定85分,75分和65分为三个初始的聚类中心,对学生的所有成绩进行聚类分析,找出同一类别学生的学号,以此为索引,查找到该类中各个学生的专业与年级,绘制出饼状图,再绘制出该类学生所选各门媒体技术的平均分柱状图,通过这几个图表考察不同专业不同年级学生在本门课程优秀中等合格若干成绩区间的分布情况,从而检查实施个性化教学的效果,为今后的改进方案提供参考。例如调整后得到的最终聚类中心为82分的学生,各门媒体技术的平均分和专业、年级分布如图3~图5所示。

从上面几个图可以看出,成绩为优秀的学生主要来自美术、计算机和电信这几个专业,大三、大四的学生比较多。分析其中的原因,主要是美术学院很多专业课需要用二维、三维图像软件或视频软件进行制作和处理,他们对这门课程已经有一定的基础,所以学起来比较轻松,也容易取得高分。而计算机和电信专业中高年级的学生学习和使用软件的能力比较强,因此掌握多媒体技术各个媒体软件较其他专业学生快,并且能够灵活运用,因而较易取得比较优异的成绩。

最终聚类中心为64分的学生,各门媒体技术的平均分和专业、年级分布如图6~图8所示。

从图中可以看出,这个类别的学生主要来自文科方向的专业,年级分布差异不大,大四所占百分比稍微比其他三个年级略高,有可能是学生们最后一年为了修满选修课学分而选了这门课,目的是混个及格拿到学分,因此学习积极性和学习态度不佳,导致大部分成绩徘徊在60来分。还有一种可能性是大四学生毕业在即,需要写简历找工作,做自我介绍作品等,觉得掌握一些多媒体技术可以作为辅助工具因此选了本门课程。可惜有效学习时间明显不如前三年充足,加上文科方向的同学计算机基础和软件学习能力较理工类学生薄弱,因此成绩不太理想。

第5篇

关键词:数据挖掘技术 高等学校 教学 应用研究

中图分类号:G421 文献标识码:A 文章编号:1672-3791(2013)05(a)-0201-01

21世纪是经济和社会不断发展,科技水平不断提高的信息化时代,从而促进了整个社会的信息总量的增加,提高了人们利用信息技术寻找数据的能力。可是由于积累的数据不断增多,可是在对数据进行挖掘的过程中对所隐藏的知识知知晓的方法比较少,从而就出现了数据大爆炸,而知识上出现了严重的匮乏这样的现象。

随着人们对数据库技术上的不断掌握和成熟,以及在数据应用上也得到相应的普及,人们积累的数据资料很多,人们累积了比较多的数据资料,可是却没有充分的发挥与利用数据库里蕴含的丰富的知识和信息。由于在现代社会里数据库的量在以几何状态不断的增长着,而从数据的中,人们要在挑选技术的需求下对信息去粗存精、去伪存真愈发强烈,日益期望计算机系统能够提供更高层次的数据分析,从而有效的帮助领导者注意到数据之间容易被户数可是又很重要的因素,在决策上得到了更好的支持效果。同时为了跟这项要求呈现迎合现象,应挖掘数据库的技术和发现数据库中的知识KDD,才能顺应时代的发展,得到相应的推广和研发。

1 数据挖掘技术的具体含义和特点

数据挖掘技术的含义主要指的是从一些不完全、有噪声、模糊的、大量的、随机的数据当中,对其隐藏在数据里面的信息进行有效的提取,可是又不被人们事先知道,然而又十分有用的信息与知识的过程。通过比较分析数据挖掘的目标,人们可以采用一些手段和措施进行挖掘,其中包含了人工智能、集合论或者统计学等,再运用相对应的数据挖掘算法进行分析数据的基础,在通过可视化的工具来描述夺取的模式和表达其规则。

对于数据挖掘技术而言,其通常具有以下三个特点。首先数据挖掘技术能够有效的发现能够表现系统局部特征和规律的模型;其次数据挖掘技术可以自动的对趋势进行有效的预测,从而发掘新的知识;最后数据挖掘技术能够便捷的获取规则,并进行实时的更新。数据挖掘方法是一种开放性的思维方法,它能够及时的使用和借鉴在模型法中的多项成果,例如神经网络、粗糙集、朴素贝叶斯算法等方法,这些方法无一例外都被数据挖掘方法所采用。

2 数据挖掘技术的目的和挖掘的过程

首先,对于数据挖掘技术而言,其希望能够发现以下几方面的知识的知识:一方面是能够有效的表现同类事物的共同性质的泛化知识;另一方面是期望能够发现可以表现一种事物与其他事物之间的依赖或者关联的关联型知识;第三是期望能够发现可以详细的展现同类事物的共同性质的特征型知识,以及在不同事物之间存在的区别的差异型知识;最后采用数据挖掘技术还期望能够获得通过对历史和当前数据的分析,能够预测未来的预测型知识。

数据挖掘技术挖掘的过程是从大型库中挖掘出未知的、有效的并且具有实用价值的信息,再通过相关信息的综合比较来做出具体决策。对其而言,通常可以将其分成准备、数据挖掘、评价阶段以及运用这四个阶段。

3 数据挖掘技术在高等学校教学中的具体应用

3.1 了解高校学生的基本信息

采用数据挖掘技术,不仅可以实时的分析,跟踪和了解学生的出勤状况,而且能够针对学生的具体年龄和个人情况进行有效的分析,在综合的掌握和了解还可对学生的结构和组合的基础上,来为其安排合理的课程,从而为科学合理的评价学生的综合素质情况提供良好的理论和数据依据。可以采用可视化的技术来对学生的相关数据进行挖掘,或者给教师提供图表和曲线图,使教师能够充分合理的利用学生的问题资源,来科学合理的提高教学质量。在另一方面,数据挖掘还能够应用于网上的考试系统,挖掘考生的成绩情况,从而为教师在之后的教学中更好的教导学生提供重要的帮助。

3.2 掌握学生的学习特征

所谓的学生学习特征一般包含两方面的内容:一方面是学生进行学习上准备,另一方面则是学生的学习风格。学习准备一般包含初始能力与一般特征。学生的初始能力是指学生在学习某一特定的课程内容时,学生已经掌握的相关知识和技能,还有学生对这些学习内容的具体认识和态度。而学生的一般特征则是指学生在学习过程中能够影响学生的心理、生理和社会的特点,包括年龄、性别、年级、认知成熟度、智力才能、学习动机、个人对学习的期望、生活经验、文化、社会、经济等背景因素。

3.3 教师要科学合理的设置课程

学生学校学习的过程中,其对课程的学习一般都是循序渐进的,并且相关的课程之间都有一定的联系和前后顺序关系。因此学生在学习一门比较难的课程之前一定会先选择一些基础课程来做好充足的准备。对于学生学习而言,不学好基础课程,一定会对之后的课程学习带来比较大的影响。此外,由于同一年级的学生,班级不同,因此授课教师和班级文化也会产生比较大的差异,这就会影响到学生的总体成绩。因此合理科学的利用学校教学数据库中存放的历届学生各门学科的考试成绩,再在综合数据挖掘技术中对关联分析和时间序列分析的功能基础上,从这些海量的数据中探寻出对教师教学有用的信息,总结出一些具有价值的规则与信息,从而使教师能够找到影响学生成绩的具体原因,在此基础上对课程设置进行科学的挑选和合理的安排。

4 结语

总而言之,随着科学技术的不断发展和信息量的海量增加,依靠传统方法很难在规模庞大的数据中找到科学决策的依据。因此这就需要我们借助数据挖掘技术去寻找蕴藏在数据库中的规律,从而为科学合理的决策提供有力的支持。数据挖掘技术,作为一门辅助工具,永远无法动摇教师在提高学生成绩的地位,可是它能够为教师的决策提供科学的依据,从而为传统教学中很难获取或者不能获取的模型提供了可能。

参考文献

[1] 惠向晖,王亚伟,苏克勤,等.浅谈数据挖掘技术及其在高等学校教学中的应用[J].北计算机科学,2010(11):41-45.

第6篇

关键词:学校教学;数据挖掘技术;应用

中图分类号:G632文献标识码:A文章编号:1009-3044(2012)17-4177-03

1数据挖掘技术

数据挖掘始于上世纪90年代,是一门发展速度较快的交叉学科,数据挖掘技术包括人工智能、神经网络、数理统计、模式识别、数据库、粗糙集等技术学科,数据挖掘能够从大量数据中挖掘到隐含的、未知的、用户可能感兴趣的、对决策存在潜在价值的知识及规则,数据挖掘过程又称为知识发现,基本功能主要为分类、估计、预测、关联分组、聚类、建档、描述等。数据挖掘的对象较多,主要包括数据库、图像等各种结构化和非结构化的信息、文本等,有时无法直接对其进行分析,因此要通过以下步骤进行:第一,选择数据。数据挖掘过程中所有需要的数据来源可能都不相同,可以通过不同的异数数据源来获取数据;第二,预处理。在初始数据中,会有一些不符合形式处理或是出现偏差的例外,因此要对这些数据进行修正和剔除,为后期数据处理的正确性奠定基础;第三,变换。将不同数据源获得的数据转换为同一种格式,可以利用编码或是其他一些方式来简化表示形式;第四,数据挖掘。利用数据挖掘算法,对变换之后的数据进行挖掘并产生期望的挖掘结果;第五,解释或评价。将数据挖掘之后的结果用适当的方式移交给用户。

数据挖掘技术的应用十分广泛,在电信业、农业、工业、金融业等各个领域都得到了广泛的应用。数据挖掘方法主要为关联规则、决策树、聚类分析以及遗传算法、神经网络等,关联规则和决策树是使用频率最多、范围最广的两种方法。关联规则是数据挖掘最先研究的问题之一,也是数据挖掘中最成熟、最主要的分析方法之一,能够揭示出数据之间的隐含关系。关联规则首先要对数据库中的一组对象进行关系分析,然后通过置信度和支持度来进行筛选,最后得出被认为具有价值的事实或是规律,例如购物篮的分析中,通过对销售数据的分析发现一些客户的购物习惯及规律。利用关联规则最经典的是由R . Agrawal , Hnielinski , Swam等人在1994年提出的Apriori算法,在生成特定关系候选项目集的基础之上,对数据库进行扫描,并确定候选项目是否满足要求。

决策树算法主要用来解决分类问题,通过对数据进行归纳和学习,将分类过程在构建的一棵树上进行建模,完成后,便能够应用在数据库中的元组得到分类结果,树中每一个内部节点都表示了一个属性值的检验,分支便表示检验结果,树的叶节点代表类别。

通过上文的分析可知,数据挖掘技术具有以下特点:第一,数据处理规模较大;第二,挖掘出的知识无法预知;第三,在发现潜在规则的基础上,要维护并管理规则;第四,规则的发现是在大样本统计规律的基础之上,且当置信度达到某一标准时,便认为规则成立。

2常用的数据挖掘技术

2.1关联规则

关联规则是指各个数据项之间相互依存的关系,发现规则的任务为从数据库中发现一些置信度、支持度大于定阈值的强关联规则,在大型数据库中,每个字段之间都存在着多种多样的关系,且都隐藏在数据库包含的信息中,关联规则的目的即为找出数据项之间隐藏关系。用来描述关联规则挖掘问题的数据模型为:令I={i1,i2,i3,……,in}为属性可能取值,也称为数据项集,模型中ik(1≤i≤n)为数据项,I中的元素个数即为数据项集的长度,如果长度为n的数据项集,便成为n维数据项集(n-Item-set)。例如关联规则的蕴含式为XY,且X,Y包含于1,且X∩Y=ψ,则规则XY在事务集合D中成立。一般情况下,用置信度和支持度来描述规则属性:置信度指如果D中包括C%的X事务,且同时也包括Y,则C是关联规则XY的置信度,置信度即为出现了数据项集X的事务中,Y相集同时出现的改了,置信度C%=The number of Transactions(X∩Y)/The number of Transaction(X)。换言之,只要数据库中出现了X,那么Y出现的可能先变为C%;支持度指如果D中有S%的事务既包括数据项集X,也包括数据项集Y,那么S%即为关联规则XY的支持度,支持度S%=The number of Transactions(X∩Y)/The number of Transactions(D)。支持度越大,便说明X和Y在数据库中出现的机会越大。本着发现有意义关联规则的原则,需要给出两个阈值——最小支持度和最小置信度。关联规则对给定事务集合D中所有产生满足最小支持度及最小置信度的关联规则进行挖掘,可将关联规则挖掘分为两个子问题:1)根据最小支持度,找出在数据集D中所有出现的频繁项目集,此为关联规则挖掘的中心问题,也是衡量关联规则算法的一项标准;2)根据频繁项目集以及最小置信度来形成关联规则。

2.2决策树算法

决策树算法是较为常用、直观、快速的一种分类方法,决策树算法即创建一个树状结构,根据不同层次对结点进行分类,每个节点都对应一个样本集,根节点要对应整个样本集,内部节点应对应一个样本集,叶节点对应一个类标志,然后根据结点包含的样本属性进行测试,并依据测试结果,将样本集进行划分,划分出两个或两个以上的子集,每一个子集生成一个分支,并用测试属性值来对分值进行标识,叶节点包含一个类标志,表示与之相对应的样本集类别。常用的决策树计算方法有:1) ID3算法,此为最著名的一种决策树算法,采用的是贪心搜索选择分裂的特征和信息理论;2) C4.5算法,此为ID3算法的改进,也是基于信息增益比的特征选择策略以及最小描述长度的剪枝方法的首次提出,增加了缺失数据以及对连续性属性的处理策略,并对分类规则的推导方法进行提出,对连续性属性采用的是安全搜索二分法,对于离散型属性,采用的是多分法;3) EC4.5算法,此种算法是C4.5的改进算法,在效率上较C4.5有一定的提高。除此之外,决策树算法还包括很多其他算法,在处理不同的数据库数据时,要结合数据库特征来选择算法。

2.3聚类分析算法

一般情况下,人们对事物进行认知采用将认知对象进行分类的方法,分为同一类的事务一般都具有较多的相似特征,聚类的任务即在没有训练数据样本时,根据对象自身相似性将一组对象划分成为一系列具有意义的子集。经常使用的聚类划分方法为:K-means算法、PAM算法以及CLARA算法和CLARANS算法等,较为经典的聚类分析算法为K-means和扩展算法,即将对象D划分为一组聚类{C1,C2,……Ck},始终K是要得到的聚类个数,此种算法将一个对象最多分为一个聚类,每一个聚类都是全体对象的子集之一。聚类指本着找到一组聚类中心及隶属矩阵的目的,让目标函数值趋近于最小,因此为了能够解决函数值最小的问题,可以采用K-means中的爬山算法,即首先随机选择K个初始聚类中心,将每一个对象都分配给离它的据点,得到一组聚类,然后对当前每一个聚类中心进行计算并作为新聚点,将每个对象重新进行分配,分配要离对象最近的聚点中,如此循环计算,直到满足终止条件位置。

3数据挖掘技术在学习特征分析中的应用

在现代教育理论的指导下,教学设计是一套能够促进学生学习、发展的系统化程序,也是在教学问题求解过程中,侧重和问题求解中方案的决策、寻找过程,其中,学习者的学习特征分析是重要的组成部分之一,我们所说的学习特征,即学生的学习风格、习惯、准备状态等,虽然和具体学科的内容并没有直接联系,但是对教学者的内容组织、选择,教学方法的选择等都能够产生一定影响,因此通过对学习者的学习特点进行分析,能够明确学生的初始能力,从而确定下学习的起点,为选择教学内容、方式方法提供参考。在利用数据挖掘技术对学习者学习特征进行分析的过程中,首先要对于学习者相关的信息和数据进行收集并整理,然后本着提高学习能力、规范学习行为、帮助学习者的目的来选择数据挖掘的方法,例如关联规则法或是决策树法,根据对学习者信息和数据的分析,能够挖掘到学习者的学习风格、习惯等,通过与教学专家进行交流或寻求帮助,能够利用数据挖掘法挖掘到的规则来确定质量的好坏,可以采用聚类分析法来对学生进行分类,然后根据结果对学生再次进行关联规则法的挖掘,或是决策树法的挖掘,便能够了解学生未来发展方向,指导学生进行专业或课程的选择,对具有潜力的学生进行激发,提供一些锻炼和学习的机会,有针对性的、实际性的进行教学,从而培养出不同层次、不同方面的人才。

4数据挖掘技术在教学决策中的应用

利用数据挖掘技术来辅助教学过程中的决策,主要表现在以下方面。

4.1合理设置课程

合理设计课程,即将课程之间的结构安排合理,包括开设的课程、课程的先后顺序、课程之间的衔接等,通过将课程进行合理设置,能够让学生通过学习课程,具备相应的知识和能力。由于课程的开设本身就具有一定程度的潜在关联和顺序,因此通过数据挖掘技术能够将潜在关联、顺序进行明确,从而找到设置课程的依据,调整课程之间的顺序,达到最佳教学效果。

4.2改进教学方式方法

在教学过程中,教师会通过运用各种方式方法来完成教学任务,并达到最佳教学效果,但是何种教学效果才算是最优效果,何种方式方法能够达到最优效果还尚不明确,因此要通过对积累的大量教学数据进行数据挖掘,来明确教学的方式方法及效果。利用数据挖掘技术的分类和聚类方法首先对学生的具体情况进行分析,然后利用回归线和关联规则的方法来判断不同专业、特征的学生应当采取怎样的方式方法进行教学,以及教学内容的深度和广度等,让教师能够通过数据挖掘技术,了解不同教学对象应当使用的教学方法、内容、手段等,用发展的眼光来看待教学方法,不断更新教学手段,激发起学生的学习兴趣,从而提高教学质量。

4.3合理化考试

考试作为教育教学活动中的重要环节,能够检验学生知识和能力的掌握理解程度,随着教育改革进程的不断加快,考试也应当随着教育的不断发展而变化,教师在教学过程中不能因为考试而教学,也不能因为教学而考试,考试仅仅是教学活动中的一个组成部分。考试的内容和方法要根据教学的目标、内容、方法来确定,因此想要让教学和考试能够和谐发展,相互促进,共同提高,就必须要利用数据挖掘技术来辅助教学决策,提高评价、考试的合理化。

5数据挖掘技术在教学评价中的应用

所谓教学评价,即根据教学目标中的要求,通过测量的工具或方法对学生学习结果进行量化描述,并对量化结果进行价值判断。教学评价是教学管理中的重要环节之一,也是引导教育、利用教育成果、促进教育发展的重要保障,但是在传统的教学评价方法中,有许多缺陷,主要表现为:第一,主观因素过多,无法真实反映出客观实际问题,由于教学管理部门采用的评价手段并不全面,因此获得的教学评价数据也并不充分,多数教学管理部门都依据经验来进行评价,让自身的主观因素来决定评价的结果;第二,内容和形式过于简单,无法反映出教学中深层的问题,在内容方面,统计出来的数据不够全面,直接或间接的影响教学效果的因素,如学生的基础、教学的环境、课程的设计等都没有表现出来,且在形式上也较为单一,多采用学生打分、网评、教师互评、考试成绩等,因此,制定评估指标时,也忽视了对以往数据中隐藏信息的利用,导致教学评估评价的制定没有历史依据,仅仅是单纯某次评估的结果,无法反映出分析数据的结果,以及教学过程中存在的问题;第三,无法起到教学评价应当具有的作用,通常来讲,教学评价仅仅为了评优、晋升等活动的依据,但是实际上,教学评价的作用远不仅如此,客观的、良好的教学评价能够在教学过程中发挥出积极的、正面的作用,并能够在整体上调节、激励、促进、控制教学活动的进行,保证教学活动能够实现最终目标。因此,通过数据挖掘技术对学生成绩、基本信息、评价信息中的数据进行处理,能够进行深层的数据分析,并发现各因素之间的关联性关系,从而找到隐藏的规律以及对教学效果产生影响因素之间的关系,综合的评定、评价教学成果,保证评价的全面、多元、科学、可靠以及客观公正,促进教学水平和质量的整体提高。总之,建立起合理的教学评价体系,能够强化学校教学管理,提高教学质量,促进教学基本建设,促进专业课程建设,促进师资队伍建设,从而提高学校凝聚力,增强学校竞争优势。

6结束语

综上所述,我们可以通过利用数据挖掘技术来明确各个要素之间的隐藏关联关系,通过将数据挖掘技术应用在学校教学中,能够挖掘学习者的学习特征、辅助教学决策、帮助教学评价。笔者在对数据挖掘技术进行分析和研究的基础之上,首先对两种常用的数据挖掘技术——关联规则和决策树进行叙述,然后针对数据挖掘技术在学校教学中的应用提出一些个人观点,相信在不久的将来,数据挖掘技术能够代替以往传统的数据分析技术,帮助学校教育适应现代化教育的潮流,紧跟现代化教育的脚步,提升学校教学水平。

参考文献:

[1]李瑞林.数据挖掘技术在教学过程中的应用[J].制造业自动化,2010,9(73).

[2]唐仕敏.数据挖掘技术在高校教学中的应用[J].产业与科技论坛,2011,1(38).

第7篇

关键词:数据挖掘技术;交互课堂;特点

课堂教学是一个具有一定周期性的过程,作为授业者的教师,通过不断的教学实践,对教学设计不断地进行优化、更新、管理及评价的过程。本文探讨通过数据挖掘技术建立一个可以对课堂交互中的信息进行有效整理、合理分析的信息处理模型,从而有效促进教学设计的不断更新。

一、课堂互动中信息的特点

在课堂教学中的信息交互是通过师生人际交流、教学过程等实现的,这决定了这些信息具有以下基本特点:

1.信息采集工作量大

在课堂互动中由于交流过程中所表达的信息类型较多,包括教师的讲授、提问、指示等方面的信息、教师接受学生的意见信息、教师给予学生的鼓励表扬、对学生的建议批评、学生答问信息、学生之间的讨论、思考问题等信息,还有一些是课堂上与正常教学行为不相关的其他信息、课堂外有学生的作业、教师的批改以及自身学习与发展方面信息等。对这些信息数据的采集、处理工作量比较大。

2.可量化性低

课堂内外互动中的信息绝大多数是由言语、肢体语言来交互的,其中一些类似如学生对教学内容与方式的反应、学习中的兴趣爱好、教师与学生互动中交流信息等不容易进行定性量化,导致处理起来比较困难。

3.信息的包容性大

在教学互动过程中的各类信息,如教师的教学方式、教学风格、教学内容的组织、师生的个人思维动态等都包含了各种各类的信息综合体,非常难以从这些信息的表面就判断信息的类属。同时这些信息有些还属于生物信息范畴,难以分析。

4.信息的不确定性

在课堂互动教学过程中对学生当前学习状态、知识的掌握程度的判断是基于教师的个人理解,具有不确定性,是具有一定的误差的。而在教学过程中对提问中学生的反应,判定学生的回答正确与否,都具有教师的主观性。

正是由于课堂互动中的信息具有以上特征,从而使得数据信息采集工作量大,定性量化比较困难。所以很久以来从事教育信息整合的研究者常喜欢于用质的定性研究来评价,随着当前数据处理科学的进步,如何更客观地对课堂中的交互信息进行定性、量化、处理变得尤为重要。通过对潜在信息数据中有价值的内容的提炼、整合、处理,可以及时从里面发现有用的数据信息,从大量互动数据中找到教育规律,用以教师对教学的改进。归根结底,我们对课堂互动中信息的数据挖掘,是为了处理过后的信息反馈与我们的教学,从而更加有效地改进我们教学系统的设计、评价等系统。

二、数据挖掘及其技术

数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程,其目标是支持利用数据进行合理的决策。

根据信息存储格式的不同,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。其任务主要是关联分析、聚类分析、分类、预测、时序模式分析等。

数据挖掘的流程包括以下过程,这些过程不是一次完成的,其中某些步骤或者全过程可能要反复进行:(1)问题的定义;(2)数据准备;(3)数据挖掘;(4)结果分析;(5)知识表示。

三、交互课堂中数据挖掘技术的应用

在交互课堂的设计中我们可以根据课堂互动信息的相关特点,通过整合数据挖掘应用的数据处理优势,从包含海量信息的师生行动和语言互动中发掘并定性出有用的信息。然后通过对这些信息的统计等处理,让隐藏在自然语言下的信息变成电子信息数据,通过教师对数据挖掘规则的参与,有效利用这些信息,从而产生可以指导我们教学实践的数据挖掘结果。下面我们深入探讨一下课堂交互中的数据挖掘应用。

1.课堂互动中数据挖掘的主要任务

利用数据挖掘技术可从以下三个方面对零碎的、不容易识别的课堂互动信息进行挖掘。

(1)对教师教学信息的挖掘。①对教师教学风格、特点的信息挖掘:包括对教师语言特点、提问的比率、提问的开放性程度、与学生的互动能力等主观性因素进行量化,可视化。②对教学信息中可重复部分的挖掘:利用分类、统计、甄别等工具把一些共性的信息提炼出来,拆分教学内容,概括出课堂交互中所传递信息的共性点,分析交互的信息量,进行定性。还可以根据特定的课程进行分析。③教学设计、教学科目设置结构等信息:通过对不同的科目的教学设计的分析,可以了解科目类别之间的关系。通过数据挖掘后直观地分析表和图,系统可为教师提供教学设计对比,促进教学过程的改进。④教师对新技术应用的发现:随着社会的发展和进步,各种各样的信息技术手段在课堂交互中被利用,这些手段为改进课堂互动的效率提供了有效的环境。利用数据挖掘技术,对教师对新技术手段的应用效果及比例进行观察,对新技术手段对课堂交互的促进效果进行评估。⑤师生交互的模式:师生交互的模式有多种多样,数据挖掘利用课程、科目、交互的模式、交互的效果等等进行分析,找出各种因素之间的关联,为教师提供基于实际应用的合理模式推荐。⑥课堂互动过程变动信息:利用定性量化的课堂交互数据,通过数据挖掘得出所需评估科目在交互过程中的变化,以提高教师对交互课堂的教学进程的把握程度。

(2)学生相关信息的挖掘。可以从以下几个方面对学生的课堂反应和表现进行数据挖掘:①课堂参与的投入程度:首先观察学生的参与比例,其次定性参与学生的投入程度。可以对不同的参与程度定性为全部、大多数、少数等,对参与投入的定性可以为:积极、一般。②交互的状态:首先看交互中是不是有多方参与的信息互动,其次看互动中交互是否友善、是否合作良好。③思维反馈的状态:通过学生的反馈及主动性的互动,来看课堂交互的思维反馈状态是否良好。④情绪表现:首先看学生互动中是否有情感上的投入,比如紧张与愉快;其次看学生是否能根据课堂交互的进行及时转变状态,比如前一段谈论气氛热烈,转入后一段的静静聆听。⑤课程状态:首先看学生能否在课程进行中,感到有收获感;其次看学生对后续的课程交互是否抱有期待。

日常的教学实践证明,课堂交互中的学生投入与否,对交互的教学效果有着决定性的影响。假设学生的课堂交互状态不够,那么要找原因的话,就要从教师的教学设计或课堂气氛营造上来找。我们利用学生信息的数据挖掘技术,分析学生在交互的过程中的状态,形成直观的信息材料,为教师课堂教学的组织的改进提供支撑,同时也可以为教师教学效果评价提供依据。

(3)教师、学生课堂交互信息的挖掘。“师生交互”是教学设计实施中的关键环节,交互意味着师生有语言上的交流及行为上的互动。在课堂教学交互过程中一般互动是在授课者与听课者、课程设计与教学实际之间进行的。师生间的交互信息主要表现在师生的互动交流、教师为学生直接提供的课程内容、课程内容的问答和学生错误的反馈等。通过使用数据挖掘技术,深入挖掘教学中的交互信息,让老师改进自己的教学设计及课堂行为,提高实际教学效果,实现师生之间进行有效的互动。

2.挖掘课堂中互动信息的流程

建立课堂互动信息处理的数据挖掘系统现场记录或通过WEB在线应用收集交互信息信息的标准化和信息化处理课堂互动信息分类编码数据信息进行转换、处理数据挖掘挖掘结果分析反馈教学过程。

3.课堂互动信息数据挖掘方法

在数据挖掘方法的选择上,我们主要采用数据挖掘中应用广泛的统计学、关联分析等方法,同时通过数据库软件的数据技术对信息进行处理。在挖掘课堂互动信息的时候,我们需要对时序数据库和序列数据库进行数据挖掘,时序数据库中的数据是一些反映随时间变化的序列值或事件组成的数据库,这些值是等时间间隔采集的数据。利用统计类挖掘工具和数据库技术可以在时序数据和序列数据的挖掘中实现对课堂教育信息的趋势分析、相似性搜索、与时间有关数据的序列模式挖掘和周期性模式的挖掘。

4.基于课堂交互的数据挖掘系统设计

根据数据挖掘模型及课堂互动信息的特点,基于课堂交互的数据挖掘系统可由如下四个部分组成。

(1)数据采集模块:模块采集的信息主要包括课堂教学中教师、学生的各种行为、语言,师生间互动等信息。

(2)数据处理模块:解决语义模糊性,数据库按照元数据标准对数据进行清理、集成和变换,检查数据的完整性和一致性。

(3)数据分析模块:通过分析经过转换的数据,根据数据挖掘的基本策略,对数据进行分析处理,得出结果并输出。如,利用统计类数据挖掘工具对反映一般变化方向的教学趋势变化进行分析,采用加权平均或最小乘2法对时序图上的数据进行处理,以确定数据变化趋势,为后续的教学决策与评价提供依据。

(4)数据评价模块:对提取的信息进行分析,将结果与课堂教学的教育理论,学习理论相结合,根据起始目标的量规对课堂教学效果进行评价、反思教学。将有价值的信息区分出来,通过决策支持工具提交决策者。根据每个处理模块的结果可以决定是否重新进行某些处理过程,在处理的任意阶段可以返回以前阶段进行再处理。在数据挖掘技术实际运用过程中,教师可以根据自身对信息需求的不同,通过对数据挖掘的一些语义规则的选择和自定义得到不同的个性化结果。

第8篇

关键词:高校教育信息化;数据挖掘

中图分类号:TP311.13

信息化社会的到来,使各种信息纷涌而至,给高校也带来了大量的有关教育、学生等各类信息,面对如此庞大的信息量,用传统的信息、数据提取的方式已经很难满足高校的要求,而且大量信息所带来的信息的消化、安全等问题,使得高校必须要借助数据挖掘的工具去提取数据中隐藏的规律和模式。

1 数据挖掘的概念及过程

1.1 数据挖掘的概念

数据挖掘是一种提取知识和信息的过程,具体来说就是从大量的、不完整的、有噪音的、模糊、随机的在实际中应用的数据里,提取出其隐藏在内部、不被人们事先知道的信息和数据的过程。

1.2 数据挖掘的过程

数据挖掘的过程包括以下几个方面,数据的预处理、数据的挖掘、结果的分析与应用。首先对数据进行预处理,通过数据清理去掉噪音数据,保证数据的一致,然后对多个文件或多个数据库中的文件进行合并、压缩数据,形成有效的数据集,便于进行数据挖掘,缩短挖掘的时间,提高挖掘质量。接下来对数据进行挖掘,根据数据的不同类型及特点,选取不同的算法,例如采用分类、神经网络、遗传算法等技术。最后对所得数据的结果进行分析,使其能被用户接受和理解,然后将得出的结果运用到实践活动中去。

2 数据挖掘在高校教育信息化中应用的必要性

目前,计算机已不单单是计算的工具,它还帮助我们分析和处理数据,从而做出科学的决策。随着信息化社会的快速发展,人们所接触、获得到的数据种类不断增多,数量也急剧上升,此时用传统的数据分析的方法已不能更快速、更有效的帮助人们解决问题了,这就要求我们运用数据挖掘这一手段来进行工作。在教育信息化的背景下,高校管理也朝着信息化、网络化的方向发展。在教育教学过程中,必定会积累大量的教学数据,但我们只能对其进行简单的统计与分析,无法了解数据深层的内容。在教学评估中,教师也只能把学生的平时和期末成绩作为评价一个学生的标准,无法客观公正的做出评判。教学工作者仅凭简单的经验分析就做出结论,往往存在很多的漏洞,这就需要数据挖掘为我们提供一种更深层次了解数据隐藏的信息和内容的方法,使管理者做出科学的决策,及时发现学生在学习过程中出现的问题,制定行之有效的教学方法,做出正确客观的分析评价,提升教育教学的质量和水平。可见数据挖掘具有重要的意义和必要性。

3 数据挖掘在高校教育信息化中的应用

高校教育信息化是整合先进的技术,运用到高校教育管理体系之中,使教育教学、管理工作和校园的文化生活更网络化、信息化,提高教育质量和效率,形成一种全新的教育和管理模式。高校教育信息化所产生和积累的数据,为我们进行数据挖掘提供了有效的数据。数据挖掘可以应用到高校教育信息化的各个方面,如教学评价、课程设置、网络教育、分析学习者特征、干预师生行为、辅助考试等方面。

3.1 教学评价

教学评价就是根据教学目标、原则的要求,利用收集到的信息对教学活动以及教学成果进行评价的过程,主要包括对学生学和对教师教的评价。随着信息化的快速发展,高校教育信息化积累了大量的学生成绩、行为纪律、处罚奖励等数据,利用数据挖掘的方式来进行分析处理,可以客观准确的得到学生的评价结果,及时纠正学生的不良的学习行为,同时还能尽量避免教师因主观作用对学生做出的不公平的、不客观的评价。将数据挖掘的关联规则运用到教学评价的数据中,使教师能够认识到自身的教学情况以及学生的学习和个性特点,并给予合理的意见,对今后的教学工作有一定的指导意义。

3.2 合理设置课程

高校学生所进行的课程学习是循序渐进的,对于课程的学习要一步一步按照先易后难来进行,而且由于教师、学生以及班级的文化氛围的不同,同一年级的不同班级在学习相同课程时也存在很大的差异。这种情况下,教务管理人员和任课教师就很难根据学生的成绩做出客观、合理的判断,从而做出教学进程的决策。因此,要借助于数据挖掘技术,从大量已有数据中挖掘出有用的信息和内容,分析各数据之间存在的关系,找到影响学生成绩的因素,然后在此基础上,对课程设置做出合理的安排。

3.3 个性化、智能化网络教育

个性化、智能化网络远程教育充分的利用了数据挖掘的技术,远程教育的顺利开展得到保障。首先根据学生所提供的信息,对不同层次的学生提供不同的学习内容和模式,进行因材施教。其次,对已保存的学生的信息进行数据挖掘,利用已有的资源,对课程进行重新组合,使之更符合教学规律。最后通过对学习者学习行为进行数据挖掘,了解学习者的浏览模式,重新进行页面之间的链接,以符合学习者的访问习惯。

3.4 学习者特征分析

对学习者特征的分析在教育活动中具有重要的地位。它不仅是教学设计的前提,是教学成功的关键。学习者特征包括学习者的知识结构和学习风格。学习者的知识结构是学习者已经学习的或即将学习的内容。学习风格包括学习者的生理、心理和社会特征。利用数据挖掘来分析学习者的特征,不仅有助于学习者改进自己的学习行为,而且能提高学习者的学习能力,完善其人格,有利于学习者素质的全面、和谐发展。

3.5 干预学生行为

在干预学生行为方面也可以使用数据挖掘技术。高校的教育教学人员可以根据高校数据库中保存的学生的家庭条件、学习状况、奖励处罚等情况,通过数据挖掘中分类等方法找到学生行为活动的关系,及时对做出学生下一步行为的预测,防止学生出现不良行为。例如在学校课程增多,难度加大,学生学习压力重,而且家庭出现矛盾的情况下,学生很容易出现抑郁或偏激行为,通过数据挖掘技术,学校教务管理人员及教师可以及时做出预测,并做好预防工作,就可以有效避免这种情况的发生。

3.6 辅助考试

考试是教学环节中必不可少的一部分,也是用来考察学生学习成果的。从考试分数可以说明在一定时期内学生的学习情况,但不能说明影响成绩的因素有哪些,无法得知教学中关乎成败的关键因素,就不能对教师教和学生学起到促进作用。利用数据挖掘可以对学生平时的学习情况进行分析,从而做出全面的、有针对性的评价。例如可以用平时成绩、作业成绩、点播课件等各种平时教学中的成绩进行考察,缩减期末考试成绩的比重,加大对学生平时自主学习的考核。在这过程中产生的大量数据可使用数据挖掘工具进行处理、分析。考试题的质量对学生考试的分数有很大的影响。因此可以将数据挖掘应用到对试卷分析的数据库中,通过对每道题目的难易度、区分度、相关度等的分析,教师就能够对试题的质量做出比较客观、准确的评价,可以更好的了解学生对所学知识的掌握和运用情况,为开展以后的教学工作提供有益的指导。

4 结束语

高校教育信息化带来是信息量的增长和提取信息工作的难度。数据挖掘技术有效的避免了传统信息提取的问题,更深层面的发掘隐藏的规律和模式,为教育教学工作的设计、决策、实施等方面提供了新的途径,带来了更多的便利。随着科学技术的日新月异、信息技术的不断发展,数据挖掘技术还将更广泛的被应用到各个领域,并发挥着日益重要的作用。

参考文献:

[1]肖自力.信息素养教育和高校图书馆的使命[J].大学图书馆学报,2011(5).

[2]刘同明.数据挖掘技术及其应用[M].北京:国防工业出版社,2010(4).

第9篇

关键词:实践教学研究;建构主义理论;信息管理专业;数据挖掘

中图分类号:G642.0?摇 文献标志码:A 文章编号:1674-9324(2014)15-0197-02

一、引言

随着数据挖掘、商务智能技术的快速发展与广泛应用,作为综合型应用型人才的信息管理专业的本科生必须在掌握一定理论知识的前提下熟悉数据挖掘的实践操作,能够根据实际数据构建数据仓库的多维模型、进行联机分析处理,并能结合案例主动思考分析,熟练选择合适的数据挖掘方法解决管理领域的问题,得出数据挖掘的结论。这就对数据挖掘课程的实践教学提出了很高的要求。数据挖掘是一门与多学科交叉的综合课程,其课程内容丰富、课程案例和使用工具具有多样化特征,这使得实践教学设计的方案的可选择性增强了,同时也对选择适合的内容、案例与工具并设计成一个完善的系统化的实验增加了难度。

二、基于建构主义理论进行实践教学设计

1.建构主义理论与实践教学目标。建构主义理论强调,学生通过以往的学习和经历已经形成了对客观事物的基本理解和认识,已具备了一定的知识结构,学习的过程是学生个人的知识储备与知识结构和外界影响相结合,并在结构过程中继续主动地建构自己新知识结构的过程[1]。

基于建构主义理论,给出数据挖掘课程实践教学的主要目标即为在原有理论知识理解的基础上,在新的教学实验情景下不断学习和理解,最终熟悉了实验情景、掌握了课程设计的应用,还能改达到对原有知识的深刻理解,进而能在新的实验情景和新的应用案例下有启发式的想法和思路,进行独立的思考和研究。具体包括:巩固已学习知识、加深对理论知识的理解,实验内容设计与教材理论体系一脉相承,有助于学生系统化理解本课程;深刻理解数据挖掘多步骤之间以分析为驱动、以数据相衔接的前后关系;训练学生对管理问题的抽象能力,培养学生学习兴趣。通过管理实例深刻体会到数据挖掘方法的重要性和实用性,培养学生对课程的兴趣,引导学生学会科学思考问题、提炼问题;熟悉主流软件,为学生踏入数据仓库与数据挖掘领域做好铺垫。实验使用业内流行的数据整合软件和商务智能软件进行实验设计,使得学生的实践适应技术的发展。

2.基于建构主义理论选择实验工具与实验案例。建构主义认为,学是与一定的情境相联系的。学习情境是学生可以在其中进行自由探索和自主学习的场所,一个良好的实践教学情景设计对学生学习要有明显的激发和引导作用。

在案例选择时,教师可以为学生提供一种典型的案例背景,在这种背景下的研究方法可以给予较多的辅导,使学生首先熟悉实验工具的环境,以及实验工具、实验案例与实验内容和原理的融合。再准备一些其他的经典案例供学生自由选择,鼓励学生用已有的知识来寻找最佳解决方案。这样,就促进了学生对知识、能力的迁移,并使得这一过程成为学生能力和自我有意识的调节过程。在确定软件选择方案方面,根据对国内外调研情况的分析[2],数据挖掘实践模块的工具的选择,可以分为以下三种情况:一是使用基本工具编程实现算法;二是直接使用具备数据整合、多维数据建模等方法的商务智能工具;三是使用数据挖掘软件进行数据建模或编程开发。根据信管专业培养方案的培养目标,后两种模式较为适合。可以针对学生基础知识的掌握情况,选择合适的工具为学生设计综合性实验,并在实验后期留一部分自由度,让学生自己设计数据仓库、进行数据挖掘,并对挖掘结果进行多种形式的展示。

3.基于建构主义理论设计实验原理与内容。建构主义理论认为,意义建构是整个学习过程的最终目标,即认识事物的性质、规律以及事物之间的内在联系,通过“同化”和“顺应”来完善和丰富个体的认知结构[1]。“同化”是利用原有认知结构中的有关经验去学习当前的新知识,并对新知识进行过滤或改变,原有框架的一部分。如果原有经验不能“同化”新知识,则要引起“顺应”过程,即对原有认知结构进行改造与重组。[3]

基于建构主义理论进行实践教学活动设计,需要围绕意义建构目标而展开,需要在安排实践教学课程前,明确理论课程的主要框架,并遵循已有的理论框架和逻辑结构安排实践环节,这样学生就能够更有效地从学习过程中理解当前实践内容所反映的事物性质、规律及其互相联系。

实验原理实际就是实验所选择的理论和方法基础,在实验设计时最好能依据课堂内容进行选择,并注意最好选择按照课堂内容的顺序前后衔接,这样更加符合建构主义的教育方法。实验内容就是以与学生专业相符合的案例和案例的数据,应用实验原理进行实验的设计。在本课程中主要的实验原理是:应用数据预处理抽取、转换和装载方法,对原始数据进行整合和装载;应用数据仓库的OLAP技术,建立星型模式的多维数据模型,并进行OLAP操作,应用多维数据展示技术进行数据展示;应用数据挖掘分类与预测方法,对多维数据建模、预测,并使用报表工具展示挖掘的结果。主要实验内容包括:数据集成与转换,使用Pervasive软件实现数据存储格式转换、集成;进行Mstr商务智能软件的基本配置,并将实验1的数据装载到软件的数据仓库表中,为实验3做准备;数据仓库与多维数据的OLAP操作,使用商务智能软件针对原始数据建立星型模式多维数据模型,实现多维数据模型的OLAP操作,掌握商务智能软件的数据展示功能;数据挖掘方法应用,创建季度指数度量,进行数据挖掘前的数据转换,并创建训练度量实现对销售量的预测。

4.基于建构主义理论设计实践教学方式和方法。在建构主义理论下,教师需要由传统的知识的传授者与灌输者转而成为实践教学的设计者、组织者、引导者。教师要引导学生形成分析问题的思路,启发学生对实践活动进行评价、反思和讨论,帮助学生深刻理解学习内容并形成新的认知结构。从课程内容安排上分析,建构主义强调“支架式教学”,即为学习者的知识建构提供一种概念框架[4]。为此,要在安排实验前对实验任务加以分解,形成逐渐递进式的概念框架,便于由浅入深逐步引入实践内容。例如,对于第三个实验――数据仓库与多维数据的OLAP操作,教师首先带大家回顾多维数据模型的星型模式、OLAP操作和多维数据展示三部分理论课内容,再分析案例数据,引导学生思考如何对案例数据进行处理,然后给出答案,加深对原来这三部分内容的理解。从对学生的引导和教学方法上来说,应该充分发挥学生的主动性,鼓励学生大胆探索,主动观察和认识客观事物,并鼓励学生在在实践中重新整合头脑中原有的知识,通过讨论、思考的过程加深对客观事物的认识。在条件允许的前提下,为学生提供更多的案例训练的机会,加深对知识的理解和知识架构的丰富与完善。本实验选用的实验模式为小组讨论、教师引导、上机实验相结合的方式,使用的具体方法有录制实验教学视频,引导学生思考初始数据蕴含的管理问题,画出课程知识点与实验过程、软件使用关系图等方式。

三、实验效果与结论

使用建构主义理论设计实践环节,事前给学生做好知识架构的铺垫,针对入门级实践,进行原理的讲解与回忆、进行实验过程的引导思考与详细讲授,同时提供更多情景资源给学生训练;对深入研究型的部分,给学生较大自由度,由学生自己完成。该门课程多数学生能够独立完成实验过程,并且能够在实验过程中较好地理解实验原理,分析管理问题。本实验综合效果较好,随着数据挖掘在信息管理专业中重要性的增强,在教学实践中增加课时的可能性很大,继续使用建构主义理论进行实践环节设计对学生也更有好处。

参考文献:

[1]张向葵.教育心理学[M].北京:中央广播电视大学出版社,2003.

[2]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2001.

[3]赵学凯,赵芳.教学建设与改革[J].北京教育,2007,(01).

[4]齐宏,王爱萍.实践教学环节的认知理论基础与教学设计[J].开放学习,2007,(7).

第10篇

关键词:数据挖掘;关联规则;成绩管理

中图分类号:TP311.13

努力提高学生的成绩和学生素质是每一所高校的目标,随着高校的办学规模的扩大、办学层次多样化,随着社会的发展,影响学生学习成绩的因素也越来越多,学生成绩分析就更加重要。目前教务管理系统中收集了大量的学生成绩数据,管理者大都采用传统的统计报表形式,对这些数据的处理还停留在数据录入、简单的数据备份和查询阶段,有很大的局限性。

数据挖掘技术在许多领域,如商业、金融业以及企业的生产、市场营销等一些盈利行业都得到了广泛的应用,但在非盈利行业教育领域的应用相对还较少,将数据挖掘技术引入到教务管理信息系统中,对教务管理系统中的学生成绩数据进行分析,从大量数据存在的关系、规则中研究学生成绩,预测成绩发展趋势,从而能够更好地指导教师排课和学生选课,对学生管理工作有的放矢,提高授课和学习效果能起到非常重要的作用。本文主要使用数据挖掘技术中的关联规则进行高校学生成绩分析,以找出课程之间的关联关系,指导学生选课和合理的设置课程。

1 数据挖掘关联算法

1.1 数据挖掘

数据挖掘是一个应用数据分析工具从大量数据中发现以前未知的和隐蔽的信息,以及数据之间关系的研究领域。这些工具包括统计模型,数学算法和机器学习方法。综合了多学科内容的数据挖掘,把原来对知识的简单应用,比如学生成绩的操作及简单查询等方面扩展到了对知识信息的深度提取运用,比如从现有的学生信息数据库中挖掘对学生成绩有影响的属性信息,帮助学校合理调整教学计划,提高教学质量。出于对此类应用的需求,使数据挖掘这门前沿学科吸引了各个领域的研究者。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有自动预测趋势和行为、关联分析、聚类、概念描述(决策树方法、遗传算法)及偏差检测。本文主要应用了关联规则。

1.2 关联规则

关联规则的挖掘是为了在数据库中发现关联关系,它是数据挖掘最先研究的问题之一,也是数据挖掘的一个主要研究方向,起初是研究超市的顾客交易数据库中的购买商品之间的关联规则的挖掘问题,即货物篮数据的关联规则。关联规则挖掘的目的是找出数据库中不同数据项集之间隐藏的关联关系。

设I={i1,i2,…im}是项的集合。设任务相关的数据D是数据库事务的集合,其中每个事务T是项的集合,使得 。每个事务有一个标识符,称作TID。设A是一个项集,事务T包含A当且仅当 。关联规则是诸如A=>B的蕴涵式,其中 , ,并且 。规则的支持度和置信度是两个规则兴趣度量值,它们分别表示发现规则的有用性和确定性。

Sup port(A=>B)=P(A∪B) confidence(A=>B)=P(B/A)

同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称作强规则,我们用0%和100%之间的值而不是用0到1之间的值表示支持度和置信度。

1.3 Aprior算法

Aprior算法是经典的关联规则挖掘算法,使用一种逐层搜索的迭代方法,k项集用于探索(k+1)项集。首先,找出频繁1项目集的集合,该集合记作L1,然后由L1得到L2,由L2得到L3,如此下去,直到不能找到频繁k一项目集。每找一层Lk均需要一次数据库扫描。

Apriori算法的在执行过程中存在两个缺点,一个是需要多次扫描事务数据库D,一个是可能产生庞大的候选集。在本文应用中,基于划分的优化方法。使用划分技术,可以只需要对数据库进行两遍扫描,就可以发现全部频繁集,从而大大降低对数据库的扫描遍数。将数据库分成许多区段,在找出频繁项集时,需要经过两步:计算各区段中项集的支持度,以找出各区段中的所有频繁项集:将各区段中所有的频繁项集合结合起来后,再扫描数据库找出真正的频繁项集合。

2 成绩数据的关联挖掘

教务管理系统中收集了大量的学生成绩数据,如学生相关可包含学号、姓名、性别、班级、年级、分数等,教师相关可包含教师号、性别、科目、学历、职称、教龄等,课程相关可包含课程名称、课程号、考试类型、考试难度等数据。采取不同的数据挖掘方法,可进行如图1,不同角度分析,挖掘不同的隐藏信息。挖掘获取的信息是不可预测的,但要探索的问题是有预见的,清晰地定义问题,认清数据挖掘的目的是重要的。

图1 教务管理系统不同角度分析

2.1 数据采集、清理与转化

大学课程之间有一定的关联和前后顺序关系,因此分析学生成绩与课程之间的关系为本文重点研究的内容。本文分析数据取自本校计算机学院软件工程三本学生121名学生成绩,课程信息如表1,专业必修课选择高级语言程序设计,公共课选取大学计算机基础、高数以及线性代数,同时也取其高考成绩作为先行成绩,应用关联规则算法分析先修课成绩优良对后修课成绩的影响程度。

学生的成绩信息从教务管理系统采集,初步收集时为EXCEL表,如图2,需要进行数据清理如去除空缺记录,以及进行数据转换,对数据进行规格化操作,将数据变成统一的格式,以适合数据挖掘。

Apriori算法只能处理布尔变量,需把数值型数据转换为由项集组成的事务数据表。因为挖掘的是各课程之间的优秀关系,同样使用创建命名计算的方法,成绩在60分以上的置为“及格”,表示事务中存在该项,将成绩字段值在60分以下的置为“不及格”。建命名计算后的表的数据如图3.

图2 学生成绩信息初始表 图3 创建命名计算后数据视图

2.2 数据分析

根据数据特点和应用需要,设定最小支持度20%,最小置信度60%。算法参数:Min_Support=0.2,Min_Probability=0.6。

图4 专业课成绩的关联挖掘概率及重要性显示

图4显示了满足要求的关联规则,显示的规则已经按照概率排序,规则从上到下顺序编号为1-7。这些规则的概率和重要性分数。重要性(Importance)也称为兴趣度分数或者增益,设计重要性分数的额目的是测试规则的有效性。重要性分数越高,则规则的质量越好。重要性为0表示,A和B之间没有关联。正的重要性分数表示,当A为真时,B的概率会上升。负的重要性分数表示,当A为真时,B的概率为下降。说明线性代数取得及格(60分以上)的成绩和高级语言程序设计成绩在及格以上有很高程度的联系,特别是规则4高数成绩在及格的话,有94.4%的概率高级语言程序设计成绩为及格。

3 总结

对于高校来说,学生信息的数据量可能达到几万甚至几十万,我们需要考虑如何利用智能算法来挖掘潜在的知识。通过本文的研究,初步实现了数据挖掘技术在高校学生成绩分析中的应用。课程之间有一定的关联和前后顺序关系的,分析学生成绩与课程之间的关系,得出了一些有价值的规则,以此可对教学计划进行合理的安排,学生也可根据自身情况合理选课。

参考文献:

[1]Tan,Steinbach,Kumar.Introduction to Data Mining,2004.

[2]Hartigan,J.A.(1975).Clustering Algorithms.Wiley.MR0405726.ISBN 0-471-35645-X.

[3]韩家炜.数据挖掘:概念与技术[M].北京:机械工业出版社,2007,3.

[4]邹竞.基于FP-growth算法的课程相关性的关联规则研究[J].计算机与数字工程,2009,6.

作者简介:李莹莹,女,河南理工大学计算机学院,助教,硕士,研究方向:计算机网络,数据挖掘;张一民,男,河南理工大学在职研究生,研究方向:软件,数据挖掘。

第11篇

关键词:数据挖掘 高校教务管理 实践应用

中图分类号:TP311.1 文献标识码:A 文章编号:1007-9416(2013)04-0145-01

随着现代信息技术在各领域各行业的渗透与应用,给现代人们的生活与工作方式都带来了极大的改变。高校也不例外,在近年来高等教育信息化建设的背景下,诸多高校积极推进数字化校园的建设。教务管理是高校常规管理工作中的核心组成部分,也是各类数据和信息庞大的聚集地。因此如何运用现代信息技术来提高高校教务管理工作效率,更好地为学校发展服务,是一项赋有现实意义的课题。基于此,笔者结合工作实践,就数据挖掘技术在高校教务管理中的应用,作以下探讨与分析:

1 数据挖掘概述

以计算机为基础的现代信息技术的发展,推动了各种新技术、新手段的应用。数据挖掘(Data Mining)是一门融合了机器学习、统计分析和数据库技术的作为一门交叉学科。其应用价值在于把对数据的应用从低层次的简单查询,提升到有价值信息的挖掘,从而为决策提供支持。作为一种全新的信息处理技术,数据挖掘已被广泛应用于各行业、各领域,并展现出其强大的应用优势。在已有的研究和实践证明,在高校教务管理系统中应用数据挖掘技术有助于提高工作效率,能为教务管理决策提供有益帮助,从而推动高校教育教学工作的快速发展。

2 系统分析及设计

从当前多数高校教务管理系统的建设实践来看,一般的教学管理系统都属于操作型的管理系统,往往只具备基本的查询和分析功能,而在决策支持方面局限性很大。比如只能对某课程考试学生的及格率,或者某一届学生在共同英语、计算机考试的通过率等。教师和学生的基本情况进行查询或分析功能。并且这种数据的显示或报告也是二维报表形式,教务管理工作者难以从中发现其动态变化。由于高校教务管理信息会随时间的推移而不断积累,因此这些数据会不断的堆积,而得不到有效利用,因此,在教务管理系统决策过程中其利用率是极低的。在进行高校教务管理系统的数据挖掘之前,需要确定合适的数据挖掘组织结构。当前应用较多的数据挖掘体系结构模式是采取用户访问层、业务逻辑层和数据层三层构架模式,在各层之间数据和消息的传输借助相关接口来得以实现。

3 数据挖掘技术在教务系统中的应用

基于上述目的,那么在具体的高校教务管理中,采取怎样的数据挖掘技术手段就是应当解决的问题。笔者结合实践经验,就应用分类、回归分析、聚类、关联规则、特征、变化和偏差分析等数据挖掘技术手段在教务管理信息系统中的应用,作以下介绍:

3.1 分类分析法的实践应用

当前各高校推动教育教学改革的过程中,人才培养方案是其重要构成内容。高校如何根据学生的实际情况,结合人才市场的需求,从而制定出科学合理的培养方案,是诸多高校亟需解决的问题。而在这一决策过程中,就可以利用数据挖掘的分类分析法了。具体来说,可以对学生的性格特征、学习兴趣与方法、课程设置、教学资源配置等信息数据建立起一个量的模型,进而对其进行分析、归纳和总结,找出它们共同的特点,按照分类的模式将其进行划分、归类,将学生个性化培养方案概括到某个给定的范围,既可以为学生自主性个性化学习提供更为科学有效的指导,又可以对学校的学科课程设置提供建设性意见,从而更好地实现培养多样化、个性化、创新性人才的培养目标。

3.2 关联分析的实践应用

关联分析是用来发现描述数据中强关联特征的模式。所发现的模式通常用蕴涵规则或特征子集的形式表示。在高校教务管理系统中,运用关联分析可以获得良好的效果。以教学计划编制为例,可以通过对学生选课关联关系进行识别,以寻求最佳排课方式;同时还可以对排课的数据进行分析,以优化课时的具体分配问题。

3.3 聚类分析算法的实践应用

聚类分析其实是无监督分类,其目的在于实事求是地按被处理对象的特征分类,有相同特征的对象被归为一类。高校教务管理实践中,运用聚类分析算法,可以在命题质量分析方面获得良好的应用效果。在高校教学管理中,课程的命题考试是在很大程度上体现了该课程的教学情况如何,也反映了学生学习情况和达标情况是怎样。因此,在进行命题考试完成以后,就要对成绩进行分析。按照一般规律,学生学习成绩应呈正态分布。只有当分数较高和分数较低两头比例小,中间部分比例大,说明这次命题的试卷质量好,试题编制较为成功。

3.4 异常检测的应用实践

异常检测的任务是识别其特征显著不同于其他数据的观测值。这样的观测值称为异常点或离群点。通过异常检测算法,就能发现系统中存在的异常点,有效地避免出现对信息的误判或遗漏的现象。在高校教务管理实践中,应用异常检测来行学籍预警,就能取得良好的效果。比如我们可以对教务系统里面学生对应的信息特征进行提取,类似于“登陆教务系统的频率”、“考试成绩”、“补考/缺考记录”、“网上选课记录”等数据,当特征值低于某一阈值的时候,学生即有可能处于“离校而未办理学籍”等异常状态。以此来加强对学生学籍问题的管理。

4 结语

综上所述,由于高校教务管理系统的数据随时间的推移而不断的增长,致使这一数据越来越庞大,越来越复杂。面对这种情况,运用数据挖掘技术能是其中蕴含有价值的关联起来,发现其中的利用价值,从而更好地服务于高校发展的需要。这就需要高校在这方面引起足够的重视,采取可行的措施,进而不断提高数据挖掘的技术水平,以实现推动高校的快速、健康发展。

参考文献

[1]Dunja M.Text-Learning and Intelligent Agents.1998.

第12篇

关键词 数据挖掘 预警模型 关联规则 决策树

中图分类号:TP315 文献标识码:A DOI:10.16400/ki.kjdks.2015.02.074

Dynamic Warning Model of Students' Achievement

BAI Jin, LIU Linjing, ZHOU Jianghui

(Business Information College, Shanghai University of International Business and Economics, Shanghai 201600)

Abstract Through the use of the Senate Higher Educational Administration Management Information storage, development and design based on student achievement data mining dynamic warning model; the introduction of data mining association rules and decision tree method using Apriori algorithm and ID3 algorithm separately on student achievement data mining in order to find the intrinsic link between the course and they were used as association rules for student achievement warning, final comparison of the two algorithms, selecting optimum algorithm model as the final score early warning models. The warning model is beneficial for students to make early warning, to improve student achievement with good results.

Key words data mining; warning model; association rules; decision tree

0 引言

随着高校教务管理信息系统的广泛应用,高校拥有大量学生的考试成绩和教务数据,国内已有一些研究者以数据挖掘技术为基础面向这些信息展开了数据挖掘工作,如魏顺平在《学习分析技术:挖掘大数据时代下教育数据的价值》一文中介绍了教育数据挖掘在我国的发展历程及相关的概念,并提到了5类教育数据挖掘方法;①叶福兰则利用数据挖掘技术在高校已有的教育数据上给出了学生成绩预警的分析,寻找不及格课程间内在联系、可能联系和关键因素;②刘斌、陈依潼则利用K-均值聚类方法分析学生评价方式;③以及王璇利用Apriori算法分析大学生心理状况。④

1 基于数据挖掘技术的成绩预警模型

预警主要分为两个部分:规则产生和规则匹配。规则产生部分,预警模型接收学生成绩训练集,从中依靠内部算法获取符合要求的成绩预警规则。规则匹配部分,预警模型接受待处理学生成绩和课程,而后根据规则产生部分产生的规则,进行逐一匹配、筛选,最后输出预警信息。

如图1所示,基于数据挖掘的成绩预警模型由数据输入/输出接口,数据预处理模块、预警规则挖掘模块、成绩预警规则库和预警模块5部分组成。其中,预警规则挖掘模块是该模型的核心部分,它负责从输入的训练集中挖掘预警规则,并将符合条件的规则储存到预警规则库中。预警模块式将从数据预处理模块里的学生成绩和课程信息,与成绩预警规则库中的规则匹配,再根据已设定的预警条件比较,继而决定是否生成预警信息。数据输入/输出接口、预警模块可以实现实时的学生成绩预警信息,到达动态预警的目的。

图1 基于数据挖掘的成绩预警模型

2 基于关联规则的成绩预警模型

2.1 关联规则和 Apriori算法

设 = {,,……,}是项(Item)的集合。记为事务的集合,事务是项的集合,并且 。对应每一个事务有唯一的标识,如事务号,记作。设是一个中项的集合,如果 ,那么称事务包含。项的集合称为项集。包含个项的项集称为项集。项集的出现频率是指包含该项集的事务数,简称为项集的频率或支持度计数。

定义1 一个关联规则是形如 的蕴涵式,这里 , ,并且∩= 。

定义2 规则 在事务数据中具有支持度,表示支持度S(support)是事务集中同时包含 和的事务数与所有事务数之比,记为support( ),即:

support( ) = O{:∪ ,}O/OO?00% = %

定义3 规则 在事务集中的置信度(confidence)是指包含和的事务数与包含的事务数之比,记为confidence( ),即:

confidence( ) =O{:∪ ,}O/O: ,O?00% = %

定义4 同时满足最小支持度(min_sup)和最小可信度(min_conf)的规则称为关联规则,即S( )>min_sup且C( )>min_conf成立时,规则 称为强关联规则。

Apriori算法是关联规则的重要方法,是挖掘布尔型频繁项目集的算法。它使用一种称为逐层搜索的迭代方法,“K-项集”用于探索“K+1-项集”。这是一个基于两阶段频繁集思想的方法,将关联规则算法的设计分为两个子问题:①找到所有支持度大于min_sup的项集,即频繁项集。②使用第一步找到的频繁项集找到置信度大于或 最小置信度min_conf的关联规则。

2.2 基于关联规则的发现

2.2.1 数据预处理

由于目前高校成绩数据库中存贮的成绩信息主要是百分制的成绩和五分制成绩为主,所以需将实验数据进行处理、变换。本文基于关联规则的成绩预警模型方法是将学生成绩变为离散的布尔类型数据(0,1)。具体为:将学生成绩大于该科平均分的,记为0;小于该科平均分的,记为1。再添加辅助列“预警”,如果学生成绩存在不及格科目,记为“Y”;不存在不及格科目的,记为“N”。一般而言,数据变换的过程需要经历数据选择、数据清洗(多次成绩处理和缺失成绩处理)、数据集成和变换等步骤。

2.2.2 基于关联规则挖掘结果分析

实现本模型的软件环境为操作系统为Windows XP,采用Oracle 数据库管理系统提取学生成绩,并使用SPSS Clementine软件进行数据挖掘工作。根据Clementine软件的特点,本实验选择处理时将低于平均成绩记为“1”,高于平均成绩的记为“0”。这样的目的是使本次分析出的关联规则方向为:对于学生成绩不及格情况下,各个课程之间的关联性。

表1 挖掘出的规则数和类规则平均预测准确率

以教务管理系统中导出信息管理与信息系统2010级和2011级部分学生3年的成绩为训练集,以其余学生3年成绩为测试集Dtest,用以挖掘课程和学生成绩之间的关联关系。并最终,选择信息管理与信息系统的10门必修课程成绩作为最后实验数据。10门课程为:数据结构,数据仓库与数据挖掘,数据库原理与应用,操作系统,C++面向对象程序设计,程序设计基础(英),微积分(I),微积分(II),概率论,线性代数。

设={,,… }为类关联规则的规则集。将已经产生的关联规则 ,记为(,),得到类关联规则:(,) ,为类别。记为类别为“Y”的数据集合。定义类规则:(,)的预警准确率为(),类规则集的预测准确率为()。

(公式1)P()=

(公式2)()=

经过反复试验、验证,分别设置最小支持度分别为0.40、0.37、0.34,最小置信度为0.90、0.87和0.84,在此参数条件设置下挖掘类规则集预警准确率。

上文所提出的模型从上述实验结果看,准确性在60%~70%之间。实验结果表明,该模型及其方法在实践上是有效的。

3 基于决策树算法的成绩预警模型

3.1 决策树算法

决策树算法是一种典型的分类和预测方法,也是一种逼近离散函数值的方法。它具有算法思想简单,识别样本效率高,对噪声数据有很好的健壮性等优点。决策树使用样本的自身属性作为节点,用属性取值作为分支的树型结构。它的根节点是所有样本中信息量最大的属性。ID3算法是机器学习领域中最具有影响力的决策树方法之一,采用自顶向下的递归方法C4.5是ID3算法的改进算法,它增加了:能够对连续属性离散化处理等变化。而C5.0是C4.5应用于大数据集上的分类算法,主要在执行效率和内存使用方面进行了改进。本文采用C5.0算法进行挖掘分析。

3.2 基于C5.0算法的发现

(1)数据预处理。将如表1所示的原始数据,将成绩分为3种:“0<成绩<60”记为“差”;将“60<=成绩<80”记为“一般”;将“成绩=>80”记为“好”。并增加一列“预警”,将学生成绩存在挂科的记为“Y”;不存在挂科的记为“N”。

(2)基于C5.0算法挖掘结果分析。使用SPSS Clementine软件进行分析,选择将决策树进行剪枝,将科目:数据仓库与数据挖掘和C++面向对象程序设计和操作系统从决策树中剪去。

最后,从决策树中抽取的规则为(表2):

通过表2可以分析出,微积分A(I)和微积分A(II)对学生影响较大,当该科为“一般”或者“好”时,学生不属于预警生的概率较大。当学生数据结构不及格时情况时,学生有很大可能成为预警生。因此学校在日常教学活动中,应特别关注学生这几门课程的学习。

(3)准确性测试。设={,,… }为从决策树中抽取的规则的规则集。设,,…,为课程名,有个取值:{,,…,}。={,,…}为类别的集合。定义规则: = ,…, = ,then 的预警准确率为,类规则集的预测准确率为。

(公式3)=

(公式4)()=

通过训练集Dtest,本模型通过上述数据可达到60%的预警准确率。实验结果也表明,基于决策树技术的学生动态成绩预警模型在实践上是有效的。但据历史经验来看,C5.0算法优势在与准确性高,而本次试验准确率却为60%,初步分析是由于试验数据有限,对准确性测试过程产生了一些影响。

4 结论

在将两种方法的输出转化为统一输出后,即两种方法输出都为:预警类别,因此,可直接进行准确性比较。通过比较上述两种模型和方法,发现选用Apriori算法,模型预警率较高。而且C5.0算法预警率较低。对数据的噪声较为敏感,训练集中的一些错误会对实验结果产生较大影响。当C5.0算法训练集增加时,C5.0的决策树也会变化,所以当学生成绩训练集变化时,成绩决策树变化,从而使预警规则库发生不断变化,这对于成绩预警过程来说,是不方便的。

通过设计基于关联规则的成绩动态预警模型,初步证明了基于数据挖掘的预警技术是有效的。随着对应用领域的不断深入开发,对基于数据挖掘的预警技术的深入研究,相信该模型、机制具有更广阔的前景。

注释

① 魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值.现在教育技术,2013(2).

② 叶福兰.基于数据挖掘的高校学生成绩预警状况分析.长春师范学院学报(自然科学版),2013(5).