时间:2022-02-16 13:45:48
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘技术论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
数据挖掘是指从数据集合中自动抽取隐藏在数据中的那些有用信息的非平凡过程,这些信息的表现形式为:规则、概念、规律及模式等。它可帮助决策者分析历史数据及当前数据,并从中发现隐藏的关系和模式,进而预测未来可能发生的行为。数据挖掘的过程也叫知识发现的过程。
二、数据挖掘的方法
1.统计方法。传统的统计学为数据挖掘提供了许多判别和回归分析方法,常用的有贝叶斯推理、回归分析、方差分析等技术。贝叶斯推理是在知道新的信息后修正数据集概率分布的基本工具,处理数据挖掘中的分类问题,回归分析用来找到一个输入变量和输出变量关系的最佳模型,在回归分析中有用来描述一个变量的变化趋势和别的变量值的关系的线性回归,还有用来为某些事件发生的概率建模为预测变量集的对数回归、统计方法中的方差分析一般用于分析估计回归直线的性能和自变量对最终回归的影响,是许多挖掘应用中有力的工具之一。
2.关联规则。关联规则是一种简单,实用的分析规则,它描述了一个事物中某些属性同时出现的规律和模式,是数据挖掘中最成熟的主要技术之一。关联规则在数据挖掘领域应用很广泛适合于在大型数据集中发现数据之间的有意义关系,原因之一是它不受只选择一个因变量的限制。大多数关联规则挖掘算法能够无遗漏发现隐藏在所挖掘数据中的所有关联关系,但是,并不是所有通过关联得到的属性之间的关系都有实际应用价值,要对这些规则要进行有效的评价,筛选有意义的关联规则。
3.聚类分析。聚类分析是根据所选样本间关联的标准将其划分成几个组,同组内的样本具有较高的相似度,不同组的则相异,常用的技术有分裂算法,凝聚算法,划分聚类和增量聚类。聚类方法适合于探讨样本间的内部关系,从而对样本结构做出合理的评价,此外,聚类分析还用于对孤立点的检测。并非由聚类分析算法得到的类对决策都有效,在运用某一个算法之前,一般要先对数据的聚类趋势进行检验。
4.决策树方法。决策树学习是一种通过逼近离散值目标函数的方法,通过把实例从根结点排列到某个叶子结点来分类实例,叶子结点即为实例所属的分类。树上的每个结点说明了对实例的某个属性的测试,该结点的每一个后继分支对应于该属性的一个可能值,分类实例的方法是从这棵树的根结点开始,测试这个结点指定的属性,然后按照给定实例的该属性值对应的树枝向下移动。决策树方法是要应用于数据挖掘的分类方面。
5.神经网络。神经网络建立在自学习的数学模型基础之上,能够对大量复杂的数据进行分析,并可以完成对人脑或其他计算机来说极为复杂的模式抽取及趋势分析,神经网络既可以表现为有指导的学习也可以是无指导聚类,无论哪种,输入到神经网络中的值都是数值型的。人工神经元网络模拟人脑神经元结构,建立三大类多种神经元网络,具有非线形映射特性、信息的分布存储、并行处理和全局集体的作用、高度的自学习、自组织和自适应能力的种种优点。
6.遗传算法。遗传算法是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。每一步,通过使用目前适应性最高的假设的后代替代群体的某个部分,来更新当前群体的一组假设,来实现各个个体的适应性的提高。遗传算法由三个基本过程组成:繁殖(选择)是从一个旧种群(父代)选出生命力强的个体,产生新种群(后代)的过程;交叉〔重组)选择两个不同个体〔染色体)的部分(基因)进行交换,形成新个体的过程;变异(突变)是对某些个体的某些基因进行变异的过程。在数据挖掘中,可以被用作评估其他算法的适合度。
7.粗糙集。粗糙集能够在缺少关于数据先验知识的情况下,只以考察数据的分类能力为基础,解决模糊或不确定数据的分析和处理问题。粗糙集用于从数据库中发现分类规则的基本思想是将数据库中的属性分为条件属性和结论属性,对数据库中的元组根据各个属性不同的属性值分成相应的子集,然后对条件属性划分的子集与结论属性划分的子集之间上下近似关系生成判定规则。所有相似对象的集合称为初等集合,形成知识的基本成分。任何初等集合的并集称为精确集,否则,一个集合就是粗糙的(不精确的)。每个粗糙集都具有边界元素,也就是那些既不能确定为集合元素,也不能确定为集合补集元素的元素。粗糙集理论可以应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
8.支持向量机。支持向量机(SVM)是在统计学习理论的基础上发展出来的一种新的机器学习方法。它基于结构风险最小化原则上的,尽量提高学习机的泛化能力,具有良好的推广性能和较好的分类精确性,能有效的解决过学习问题,现已成为训练多层感知器、RBF神经网络和多项式神经元网络的替代性方法。另外,支持向量机算法是一个凸优化问题,局部最优解一定是全局最优解,这些特点都是包括神经元网络在内的其他算法所不能及的。支持向量机可以应用于数据挖掘的分类、回归、对未知事物的探索等方面。
事实上,任何一种挖掘工具往往是根据具体问题来选择合适挖掘方法,很难说哪种方法好,那种方法劣,而是视具体问题而定。
三、结束语
目前,数据挖掘技术虽然得到了一定程度的应用,并取得了显著成效,但仍存在着许多尚未解决的问题。随着人们对数据挖掘技术的深人研究,数据挖掘技术必将在更加广泛的领域得到应用,并取得更加显著的效果。
参考文献:
苏新宁杨建林邓三鸿等:数据挖掘理论与技术[M].北京:科学技术文献出版社,2003
1.1安全技术资金不足
煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。
1.2安全管理模式传统
与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。
1.3安全信息管理体制不健全
安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。
2空间数据挖掘技术
数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据挖掘技术是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据挖掘技术的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘技术和知识发展的新地学数据分析理念与依据。
3煤矿安全管理水平的提升
3.1建设评价指标体制库
评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。
3.2构建专业的分析模型库
依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。
3.3构建以GIS空间分析为基础的方法库
GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。
3.4决策支持体制与煤矿管理水平评价指标
体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。
4结语
关键词:Web数据挖掘,边防情报,应用模式
随着科学技术的突飞猛进,社会信息化的快速发展, 以信息技术为主要标志的高新技术革命已经引起了社会各个领域的深刻变革,网络已经成为社会生活不可分割的一部分。每天有数以亿计的网民在互联网上浏览、信息,互联网已经成为信息时代最为重要的信息集散地。对于边防情报部门而言,研究如何通过互联网和公安网快速高效地进行情报收集,使各项工作都围绕收集、运用情报而展开,已经成为当务之急。Web数据挖掘技术的兴起,为边防情报部门开展工作提供了高效的工具与手段。
一、Web数据挖掘技术
Web数据挖掘技术是由传统数据库领域的数据挖掘技术演变而来。数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的原始数据中,提取隐含在其中的、事先未知的、但又潜在有用的信息的过程;它是从数据仓库中提取出可信的、新颖的、有效的,并能被人理解的模式的高级处理过程。数据挖掘出现于20世纪80年代,它不仅面向特定数据库的简单检索查询调用,而且要对这些数据进行深入的统计、分析和推理,发掘数据间的相互关系,完成从业务数据到决策信息的转换。数据挖掘技术把人们对数据的应用,从低层次的末端查询提高到为决策者提供决策支持。随着互联网的蓬勃发展,数据挖掘技术被运用到网络上,并根据网络信息的特点发展出了新的理论与方法,演变成为Web数据挖掘技术。Web数据挖掘是指从与WWW有关的资源和行为中抽取人们感兴趣的、有用的模式和隐含信息,所挖掘出的知识能够用于信息管理、查询处理、决策支持、过程控制等方面。Web数据挖掘已经成为对互联网信息进行深度分析、开发与利用的重要手段。
二、Web数据挖掘的分类
(一)Web内容挖掘
Web内容挖掘是指从互联网上检索资源,从相关文件内容及描述信息中获取有价值的潜在信息。根据处理对象的不同,Web内容挖掘分为文本挖掘和多媒体挖掘。网上信息形式多以文本信息的形式存在。文本可以被看作是一种顺序数据,目前有许多适合于顺序数据的挖掘方法。Web文本信息挖掘的主要任务一般限定在文本特征的表示、文本的总结,以及文本的分类和聚类等方面。互联网现有大量多媒体信息。对该类信息进行分析挖掘,找出合适的描述模式,阐述并理解其中的意义,可提高该类信息的识别度及检索效率,也是Web多媒体挖掘的目标。论文大全。目前此方面应用的技术手段主要是语音信息的理解及识别、图形图像信息的理解及识别,以及信息检索等。
(二) Web结构挖掘
Web结构挖掘的目标是Web文档的链接结构,目的在于揭示蕴涵于文档结构中的信息,主要方法是通过对Web站点的结构进行分析、变形和归纳,将Web页面进行分类,以利于信息的搜索。对Web页的链接结构进行分类,可以识别判断页面与文档间的各种属性关系。由于Web页的内外部存在具有各种属性关系的结构信息,通过研究Web结构信息,可得到相关主题、相关分类的页面集合,生成关于某个Web站点的结构和页面结构的概括信息。因此,结构挖掘的重点在于链接信息。
(三) Web日志挖掘
Web日志挖掘是从服务器访问日志、用户策略、用户对话和事物处理信息中得到用户的访问模式和感兴趣的信息,并尽可能预测用户的行为。通过对用户所访问页面、文档等的技术分析,Web日志挖掘可以找出相关主题间、相关内容间的联系规律。访问分析又称使用分析,主要使用用户基本信息如IP、ID、URL、日期、时间等进行处理。由于Web服务器的Log日志存在完整的结构,当用户访问Web站点时,相关的页面、文档、链接等信息在日志中都做了相应的记录。Web日志挖掘不仅要找出用户经常访问的URL路径,而且也要找出用户有可能要访问的相关站点的链接。利用这种方法,可以获知互联网使用者的行为偏好。
三、Web数据挖掘的主要方法
(一)统计分析方法
统计分析(statistical)方法是通过对总体中的样本数据进行分析,从而描述和推断能够揭示总体中的内部规律的信息和知识的方法。为了适应复杂信息的挖掘需求,往往依赖有明确目标和任务的概率模型。数据挖掘的统计模型要适合于所要提取的对象。利用统计分析技术可以对我们感兴趣的内容进行蕴含信息的挖掘。如对互联网日志进行统计可以获得有关站点使用的基本信息,包括页面访问次数、日平均访问人数、最受用户欢迎的页面等。除此以外,还可以进行错误分析,如非法用户登录等。这些统计数据都是基于用户浏览页面的时间、用户的浏览路径和路径长度等信息。这些统计数据对于提高系统的性能、安全性以及优化站点结构大有帮助。目前已有许多互联网流量分析工具实现了这些基本的统计功能。
(二)关联分析方法
关联分析(associationanalysis)用于发现关联规则,所谓关联规则是指在大量的数据中所隐含的项集之间的关系以及项集的频繁模式。用户在浏览网页时,经常会在同一次访问中浏览一些无顺序关系的页面集合,挖掘发现的这些页面之间内在的联系,就是就表现为它们之间存在一定的关联。如果关联规则中的页面之间没有超链接,则应该引起我们的特别关注。通常使用可信度、支持度、期望可信度和作用度这四个参数来描述关联规则。
(三)分类方法
分类(classification)是找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。分类不同于聚类,聚类无须事先制定标准,而能从信息本身出发,利用算法自动分类;而分类的准则是事先定好的。在Web数据挖掘中,分类主要是将用户配置文件归属到既定的用户类别,网页根据内容的属性分类等。分类技术要求抽取关键属性描述已知的信息,可以通过指导性归纳学习算法进行分类,主要包括决策树分类法、贝叶斯分类法、最近邻分类法等。
(四)聚类分析方法
聚类(clustering)就是将数据对象分组成为多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。聚类分析能够将一批数据按照它们在性质上的亲密程度,在没有先验知识的情况下自动进行分类,每一类都是大量具有相似性个体的集合,不同类之间具有明显的区别。聚类分析是一种探索性分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从信息本身出发,自动进行分类。例如在Web日志挖掘中,聚类分析主要集中于用户聚类和页面聚类。用户聚类将具有相似浏览行为的用户归类;页面聚类则是将内容相关的页面归类,搜索引擎可以利用这些信息为某个查询提供用户感兴趣的相关超链接。
四、Web数据挖掘在边防情报工作中的应用模式
(一)Web数据挖掘在建立公安网搜索引擎中的应用
目前,边防情报部门所需的公开信息大部分来源于互联网和公安网,情报人员通过使用搜索引擎来快速查询需要的信息,然而公安网的搜索引擎存在较大局限性,搜索出来的结果存在大量冗余信息,不能满足情报人员的需求。因此,在搜索引擎中通过借鉴Web数据挖掘技术可以有效地提高查准率和查全率,从而给情报人员提供较有准确的信息。具体应用方法如下:
1.根据公安网的页面内容,自动形成摘要
目前,使用公安网搜索引擎进行检索,检索的结果文档是以简单摘要形式出现的,它表现为机械地提取网页内容取前几句为摘要,这种仅通过位置进行自动摘要是很难真正反映出网页中的信息内容。论文大全。在文本挖掘中的文本抽取技术是指从文档中抽取出关键信息,然后以简洁的形式对文档的信息进行摘要或描述,即文本抽取技术是根据Web文档本身的内容,从Web页中提炼出重要信息形成文档摘要,而不是根据位置来进行文本内容的概括,因此它更能够反映出Web文档中的真正信息。论文大全。这样,情报人员通过浏览关键词就可以了解网页的大致内容,从而决定是否使用该信息。
2.根据检索结果,自动进行文档聚类
文本聚类是文本分类的逆向过程,是指将文档集中的文档分为更小的簇,要求同一簇内文档之间的相似性尽可能大,而簇与簇之间的关系尽可能小,这些簇相当于分类表中的类目。情报人员在使用搜索引擎时,会得到大量的返回信息组成的线性表,而其中很大一部分是与其查询请求不相关的,于是通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,并远离那些不相关的文档。再将处理以后的信息以超链接结构组织的层次方式可视化地提供给情报人员,从而大大减短浏览时间。
(二)Web数据挖掘在建立公安网站中的应用
公安网网站是公安网信息的容纳处,我们可以利用Web数据挖掘技术有效地组织网站信息,建立一个资源优化的网站,也就是说通过对网站内容的数据挖掘,主要是对文本内容的挖掘,如采用自动归类技术实现网站信息的层次性组织;以及结合对用户访问日志记录信息的挖掘,把握用户的兴趣,开展网站信息推送服务。
1.采用自动归类技术,实现公安网网站信息层次化
一般而言,网站提供给访问者的信息和服务应该是按优先次序进行排列,网站维护人员应该把重要的信息放在醒目的位置,因此在网站维护时,通过对网站内容挖掘和Web日志挖掘,可以有效地组织网站信息。例如:采用自动归类技术实现网站信息层次化;分析访问者的访问行为,可为用户提供智能化、个性化服务。还可根据访问者的访问兴趣、访问频度、访问时间,动态地调整页面结构。
2.采用日志挖掘技术,实现公安网网站信息推送服务
网站可以根据访问者的浏览情况,发现访问者的兴趣,定期为注册用户提供相关信息,并且调整网站中网页的链接结构和内容,为访问者提供个人定制服务。具体步骤为:首先将日志文件中的数据经过预处理,形成原始数据库;然后获取用户的访问模式,放入用户访问模式数据库;再通过数据挖掘和模式分析形成知识数据库,Web服务器自动更新知识数据库,采用动态主页设计方法,根据用户的知识信息,提供相应的个性化主页。在数据预处理过程中会话识别是重要的一步,它取决于用户访问模式的有效性和准确性。为提高准确性,可采用Cookie法进行会话识别。在呈现个性化主页时,利用用户的IP地址和Cookie值查询知识数据库,发现用户频繁访问的路径,并自动形成相应链接,根据相似用户群和相关Web页推荐给用户。由于是经过挖掘和分析后所产生的动态主页,相对于一般的主页,其针对性更强,更受用户的欢迎。
参考文献:
[1]叶鹰.情报学基础教程[M].科学出版社,2006
[2]栗湘等.Web挖掘应用研究[J]情报理论与实践,2005,(6)
[3]曼丽春等.Web数据挖掘研究与探讨[J].现在电子技术,2006,(8)
[4]徐险峰.基于Web的网络数据挖掘技术[J].情报杂志,2005,(3)
关键词:推荐系统;云计算;数据挖掘;个性化
中图分类号:TP393 文献标识码:A DOI:10,3969/J.issn.1003-6970.2013.03.001
本文著录格式:[1]郭平,刘波,沈岳,农业云大数据自组织推送关键技术综述[J].软件,2013,34(3):1-6
0 引言
随着物联网、云计算、下一代互联网等新一代信息技术的快速发展和信息内容的日益增长,“信息过载”问题愈来愈严重,推荐系统(recommender systems)被认为可以有效的缓解此难题,帮助用户从海量数据中发现感兴趣信息,满足个性化需求。
近年来,我国在农业个性化知识服务服务领域从本体论、语义网、知识工程角度开展了广泛的研究,成果主要体现在三个方面:以搜索引擎为代表的知识检索系统,需回答大量预设问题进行知识推理的专家系统,特定领域应用系统,它们在各自的场合都发挥了积极作用。然而知识检索系统不能满足用户个性化需求,专家系统的应用很难普及,特定领域应用开发成本高和重用难度大。物联网与数据挖掘云服务提供知识服务云实现物理世界的“感知控”,知识服务云的研究主要集中在制造和图书情报领域,云环境下的农业个性化知识服务的研究尚处于起步阶段,主要集中在服务模式的构建与展望。
本文是对科技部科技支撑课题“农村农业信息化关键技术集成与示范”(2011BAD21803)与“农村物联网综合信息服务科技工程”(2012BAD35800)研究成果的总结,也是对农业云推荐系统研究的升华。
1 农业云大数据自组织区域推送的提出
1.1 农业信息资源特点
我国自“十一五”时期以来,农业农村信息化发展取得了显著成效,主要表现在农业农村信息化基础设施不断完善、业务应用深入发展、物联网技术在农业中逐步推广应用等方面。从中央到省,市、县建立了“三农”综合信息服务平台,涉农企业、组织和科研院所也积极搭建了各具特色的农业信息服务平台,目前正向乡镇村发展。农村信息员队伍及以农业综合信息服务站和农业合作社为代表的农村信息服务机构发展迅速,“三电合一”、“农民信箱”、“农村热线”等信息服务模式应用深入。云计算利用海量的存储能力把农业信息资源形成高度集成和虚拟化的计算资源一“农业知识聚合云”,支持用户在任意位置、使用各种终端方便获取信息,但由于农业领域生态区域性和过程复杂性及农业区域发展不平衡和农民文化的多层次性也带来了“信息过载”、“资源隐晦”“资源迷向”等问题。
1.2 农业云环境下大数据自组织区域推送
物联网和云计算背后是大数据,在云计算模式下,用户不确定的、智能的交互,个性化需求更加多元化,信息交互行为更加频繁;在大量用户通过社会标注达成共识的过程中,逐渐形成不同社区,涌现出群体智能,形成“农业用户兴趣社交云”。利用云的海量存储、群体涌现智能、强大的计算能力和物联网感知控优势,可以提供面向用户复杂分析计算,实现业务重点由面向应用和资源的传统信息服务,转变为基于对海量农业知识进行动态划分,有目的、主动、定制、自组织推送给有需求的农业用户,为农业用户提供实时性、个性化知识服务,指导农业生产过程。
首先以Hadoop+MapReduce+HBaSe分布式框架为处理平台,对“农业用户兴趣社交云”,融合用户兴趣偏好和社交网络进行建模,将这些多元用户信息充分融入推送系统会更好产生推荐结果;将推荐对象“农业知识聚合云”按农业知识高维性、多样性、多层次性特征分类聚类为各种知识块静态和动态元数据;通过智能算法推荐和社会网络推荐为用户发现个性化内容;根据用户的地理位置、用户服务的评价以及云基础服务提供商信息将预测值最高的服务推送给用户实现与物理世界的互动(如图1)。
从以上分析可知,农业云大数据自组织区域推送的关键技术有用户兴趣模型、推荐对象模型,推荐算法、数据挖掘四个部分,以下分别对这几项技术进行论述。
1.2.1 用户兴趣模型
用户兴趣建模是个性化服务技术的基础和核心,包括数据收集、模型表示、模型学习与模型更新。用户兴趣建模的方法有很多,常用的有向量空间模型、神经网络、遗传算法、用户一项目评价矩阵、基于案例的表示、基于本体论的表示、基于加权关键词的表示,基于社会网络的表示等。几乎每种表示形式都是以一种私有形式进行知识表示,此外一些表示技术还依赖于模型学习,如广泛使用的基于向量空间模型的表示与TF-IDF学习技术联系在一起。表示形式的私有性和对学习技术的依赖性阻碍了用户模型在系统间的共享,这种共享对于减少用户建模工作量,提高推荐算法启动效率具有重要意义。因此开发独立于模型学习技术的通用用户模型表示技术是目前研究中热点,基于语义网和社交网络的用户模型在这方面表现了优势。
用户的兴趣或需求会随时间、情景发生变化,结合长期和短期兴趣及兴趣的变化用户兴趣建模的重点,目前的更新机制很难及时跟踪用户兴趣的变化,有更好的学习效率和动态变化适应能力的建模是未来的重要研究方向,国内外大量的文献对此展开了研究,遗忘函数、时间窗、用户兴趣的漂移特性等被提出。
在湖南农业云中,基于呼叫中心、互联网,手机报、手机短信,电视广播等用户在多应用系统中形成的兴趣偏好和社交网络特征,提出“农业用户兴趣社交云”建模思路:以图论模型表示用户“兴趣图”数据和“社交图”数据,根据经典的局域世界演化理论,综合考虑实际情况中用户之间的多重关系和关系的强弱程度,以用户之间相似度为节点连接概率因素,生成动态多维网络,进行用户数据的挖掘和更新;结合农业本体,在多维社交网络的基础上,将基于农业本体的区域用户兴趣融合在云计算平台上进行处理。
1.2.2 推荐对象模型
推荐本质上是将推荐对象的特征与用户的兴趣偏好进行推荐计算,所以推荐对象的描述和用户的描述密切相关。推荐系统应用不同领域,它推荐的对象也就各不相同,目前,湖南农业云主要是文本性数据;不同的对象,特征也不相同,目前没有一个统一的标准来进行统一描述,主要有基于内容、分类、聚类的方法。
基于内容的方法是从对象本身抽取信息表示对象,常见的是向量空间模型,使用最广泛的是加权关键词矢量方法进行特征选取,使用TFIDF计算每个特征的权值。向量空间模型对模型中的特征词进行权重估计(TF-IDF)过程中不考虑特征词之间的相关性,直接用特征词作为维度构建文档向量,降低了文档向量对文档概念表达的准确性以及对不同类型文档的区分能力。
基于分类的方法是把推荐对象放入不同类别,把同类文档推荐给对该类文档感兴趣的用户。主要有两种,一种是基于知识工程的方法,使专家的类别知识直接编码为分类规则,正确率和召回率高,但工作量大;近期研究最多的是另一种一机器学习,根据训练样本集建立分类器,方法有很多,常见的有概率分类、贝叶斯回归分析、决策树分类器、决策规则分类器、Rocchio分类器、神经网络分类器、支持向量机(SVM)、分类器融合、Boosting分类器、k最近邻方法(KNN)等。
研究文本聚类的最初目的是为了提高信息检索的查全率和查准率,近年来,文本聚类用于自动产生文本的多层次的类,并利用这些新生成的类对新文本进行效率较好的归类,已经提出了大量的文本聚类算法。传统的聚类算法在处理高维和海量文本时效率不很理想。针对这样的问题,将聚类分析与计算智能理论,并行计算、云计算等相结合,设计出高效的并行聚类算法,己经成为一个比较流行的研究思路。
在湖南农业知识云数据模型中,将能更好反映特征词相关性的超图模型引入,将文档中提取的特征项表示为图中节点,特征词条之间的关系构成图中边,用边上权值表示相关联特征项之间共现程度。通过对文本图模型K最近邻划分实现降维降噪的粗粒度数据切片;对切片后数据反映用户兴趣如地域、时间、诉求等多维度特征的智能聚类,实现细粒度的聚合与分割。
“农业知识聚合云”模型算法建立在基于MapReduce处理的大规模图上,得到各种知识块静态和动态元数据。
1.2.3 推荐算法
推荐算法是整个推荐系统中核心部分,大量的论文和著作都关注了这个方面。目前,基本包括以下几种:基于内容过滤推荐、协同过滤推荐、基于关联推荐、基于知识推荐、基于效用推荐、基于网络结构推荐、基于聚类推荐、基于社会网络分析推荐、混合型推荐等。通过对众多推荐算法进行比较分析,各种算法都有优缺点(如表1):
各种推荐方法都有各自的优缺点,在实际问题中采用多种策略进行混合推荐,主要有两种混合思路:推荐结果混合和推荐算法混合。目前大部分的推荐算法都是混合推荐算法,主要还是以协同理论为核心,再配合其他算法的优点或交叉学科的理论来改善推荐的质量。另外基于社会网络个性化推荐算法研究是一个趋势,基于社会网络的推荐是协同过滤的延伸,通过考察结点之间(用户和用户之间或产品之间)的相关性和结点之间的信任度可以获得比一般协同推荐更高推荐效果,如文献提出将社会网络关系结合到推荐算法中。纵观国内外在推荐算法上的研究,主要集中在基于用户显性评分数据的协同过滤算法上,对基于非显性评分行为数据场景下的研究却显得有点不足。目前在扩展性问题上学术研究不是很具有针对性,主要集中在通过各种交叉学科中的方法来对用户进行聚类或对行为数据进行降维、压缩等缩短推荐的项目集或减少计算量,从而提升算法的性能;有关基于云平台上的推荐算法研究目前主要集中于协同过滤算法MapReduce化。而实际应用中,己出现利用分布式集群解决算法扩展性方法,如Google News的推荐算法就是部署在分布式环境下,从而满足海量数据下的推荐服务。
根据农业云大数据自组织区域推送实际情况将推荐结果和推荐算法混合,提出“三层推荐”策略:在丰富的知识块云元数据基础上,将知识块属性和用户兴趣行为基于频繁模式的知识关联撮合推荐;通过复杂网络聚类算法识别一个用户多个社区兴趣,融合“兴趣图”和“社交图”协同过滤推荐,突破算法推荐的局限性,让用户信任的朋友圈子为其发现和推荐内容,取得社交推荐的时效性和算法推荐的长尾性之间的互补,从而针对每个社区成员提供精准个性化推荐;根据基础设施服务供应商、用户所在的地理位置以及用户对服务可用性评价值的相似性等,将大量用户云终端聚类为一定数量的社区,提高云端推送服务的有效性,最终形成通过大众参与,支持云间变换,集电信网、广播电视网、互联网合一的自组织区域推送,较有效地处理一般推荐算法中存在的稀疏性、冷启动以及大规模实时计算的问题。
1.2.4 云计算下个性化数据挖掘
数据挖掘采用了多种领域中的思想,包括来自统计学的抽样、估计、假设检验以及人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。随着数据挖掘的不断发展,也采用了包括最优化、进化计算、信息论、信号处理、可视化、信息检索、云计算、并行计算等技术。与传统的数据挖掘相比,云计算下的个性化数据挖掘的目标,就是通过云计算中心,向用户提供针对其即时演化需求的数据挖掘SaaS(Software as aService,软件即服务)服务,其基础问题主要为:对于用户不同的数据挖掘需求以及针对用户特点进行个性推荐的建模和表征;数据挖掘算法适应云计算的并行分布式化;使数据挖掘的结果和算法能够支持云间变换并形成一种面向用户、即时组合的、变粒度的云服务,其中数据挖掘的云服务化是研究的难点。
(1)云计算下个性推荐的建模和表征
云下的个性推荐建模和表征与传统上个性化推荐明显的不同在于海量异构大数据和用户间群体涌现的社交网络,它们本质上形成了多个顶点的大规模图。云计算可以为大规模个性化提供技术支撑,云服务本身也有大规模个性化定制应用需求,目前研究两者结合的文献还很少,张泽华从计算资源的角度基于复杂系统理论对云计算联盟体系结构进行建模,并基于蚁群优化算法和复杂系统理论进行了负载均衡研究;郭昱就有效处理客户需求信息该如何选择与分布云计算平台中的关键节点问题,提出了基于云计算的大规模定制客户需求模型。赵东杰对复杂网络、数据挖掘与群体智能有效结合进行了探索研究。农业云大数据自组织推送通过“农业知识聚合云”分解的静态、动态知识元数据和“农业用户兴趣社交云”形成的兴趣图、社交图基于用户行为和知识元数据的关联撮合,通过人工智能和社交圈子帮助用户发现内容,实现搜索和推荐的无缝结合,为智能个性化推荐实现“内容找人”愿景。
(2)算法并行分布式与高性能计算
对于大规模数据的处理,典型系统结构大致分为三类:基于MapReduce模型的分布式并行处理系统、基于BSP模型的分布式并行处理系统和分布式图数据库系统。数据挖掘算法现在的发展趋势是基于云计算的并行数据挖掘,它的同一个算法可以分布在多个节点上,多个算法之间是并行的,多个资源实行按需分配,而且分布式计算模型采用云计算模式,数据用DFS或者HBASE,编程模式采用MapReduce这种方式。Bhaduri等整理了一个十分详尽的并行数据挖掘算法文献目录,包含了关联规则学习、分类、聚类、流数据挖掘四大类分布式数据挖掘算法,同时还包括分布式系统、隐私保护等相关的研究工作。
2 基于云计算推荐系统研究的重点、难点与热点
2.1 云环境下用户偏好获取安全与可信问题
推荐系统中,用户数据集的数量和质量问题,影响用户模型的精确度、可用性,导致问题的根本原因在于用户对隐私和安全的考虑。而云环境下,数据的安全与隐私是用户非常关心的问题。既能得到准确用户信息而提高推荐系统性能,又能有效保护用户信息同时检测并能预防推荐攻击(一些不法的用户为了提高或降低某些对象的推荐概率,恶意捏造用户评分数据而达到目的)将是未来推荐系统的一个重要研究方向。
2.2 模型过拟合问题
过拟合现象是指系统推荐给用户的对象与用户刚刚看过的不是太相似或者太不相关。过拟合(过学习)的问题本质上来自于数据的不完备性,这在实际应用中是无法完全避免的。在于兴趣偏好获取方式或隐私等原因使用户没有对足够多类别的对象进行评价。目前解决的主要方法是引入随机性,使推荐算法收敛到全局最优或者逼近全局最优,关于既要保证推荐的多样性,又不能与用户看过的对象重复或毫不相关这一问题的研究是推荐系统研究的一个难点和重点。
2.3 稀疏性与冷启动问题
稀疏性和冷启动问题困扰推荐系统很长时间了,前者的解决办法主要过滤和降维。目前针对冷启动问题提出了一些解决方法,主要分为两大方面,一是直接利用传统协同过滤的评分数据结合特定的方法进行解决,二是新用户或新项目的内容属性信息与传统的协同过滤评分数据相结合的方法进行改善冷启动问题。稀疏性与冷启动问题一直是推荐系统研究的一个难点和重点。
2.4 数据挖掘的结果和算法智能服务化
将数据挖掘算法融入针对海量用户的使用记录和计算资源间协作进行优化组合,利用这些特性通过大众参与的交互作用,提高云间服务的智能性、有效性将是大数据时代推荐系统研究的一个制高点。将数据挖掘任务及其实现算法服务化,通过SaaS方式向云计算中心索取所需的相应的数据挖掘,这可能是目前突破数据挖掘专用软件使用门槛过高、普通大众难以触及、企业用户使用成本太大、挖掘算法和结果难以实时得到评价和相应修改等问题的最有希望的解决方案之一,也是数据挖掘走向互联网大众、走向实用化的重要的一步。
2.5 大数据处理与增量计算问题
目前对大数据的研究仍处于一个非常初步的阶段,半结构化和非结构化数据给传统的数据分析带来巨大挑战,尤其算法如何快速高效地处理推荐系统海量和稀疏的数据成为迫在眉睫的问题。当产生新的数据时,算法的结果不需要在整个数据集上重新进行计算,而只需考虑增量部分,对原有的结果进行微调,快速得到准确的新结果,是增量计算的理想状态。但一般而言,随着信息量的增多,算法的误差会累积变大,最终每过一段时间还是需要利用全局数据重新进行计算。一个特别困难的挑战是如何设计一种能够保证其误差不会累积的算法,也就是说其结果与利用全部数据重新计算的结果之间的差异不会单调上升,要达到这种程度,还有很长的路要走。
结束语:
随着新一代信息技术的快速发展和信息内容的日益增长,搭载在云计算平台的自组织区域推送具有它天然的优势:云的海量存储使得推荐系统能有效获取训练数据;云的分布式计算能力提供了较高的响应能力;海量用户的使用记录和计算资源问大众参与的交互涌现,最终形成自组织优化组合的智能个性化云推送。因此,农业云自组织区域推送具有重要的研究意义和广阔的应用前景,对云环境下其他领域的个性化推送应用具有借鉴意义,但目前存在大量问题需要进行深入细致的研究。
参考文献
[1]孟祥武,胡勋,王立才,张玉洁,移动推荐系统及其应用[J],软件学报,2013,24(1):91-108
[2]杨涛,基于本体的农业领域知识服务若干关键技术研究[D],上海:复旦大学计算机科学技术学院博士论文,2011,1-50
[3]杨晓蓉,分布式农业科技信息共享关键技术研究与应用[D],北京:中国农业科学院博士学位论文,2011,3-35
[4]赵春江,农业智能系统[M],北京:科学出版社,2009,1-210,
[5]何清,物联网与数据挖掘云服务[J],智能系统学报,2012,7(3):1-5,
[6]黄卫东,于瑞强,共享学习模式下知识服务云平台的构建研究[J],电信科学,2011,12:6-11
[7]丁静,杨善林,罗贺,丁帅,云计算环境下的数据挖掘服务模式[J],计算机科学,2012,39(6):217-219,237
[8]邓仲华,钱剑红,陆颖隽,国内图书情报领域云计算研究分析[J],信息资源管理学报,2012,2:10-16
[9]胡安瑞,张霖,陶飞,罗永亮,基于知识的云制造资源服务管理[J]同济大学学报(自然科学版),2012,40(7):1093-1101
[10]程功勋,刘丽兰,林智奇,俞涛,面向用户偏好的智能云服务平台研究[J],中国机械工程,2012,23(11):1318-1323,1336
[11]刘波,方逵,沈岳,可重构的农业知识服务模式研究[J]农机化研究,2011,36(11):66-70
[12]赵星,廖桂平,史晓慧,陈诚,李文圃,物联网与云计算环境下的农业信息服务模式构建[J],农机化研究,2012,4:142-147
[13]郭永田,中国农业农村信息化发展成效与展望[J],电子政务,2012,02-03:99-106
[14]李道亮,中国农业农村信息化发展报告(2011)[M],北京:电子工业出版,2012,87-150
[15]钱平,郑业鲁,农业木体论研究与应用[M],北京:中国农业科学技术出版社,2006,1-100
[16]吴丽花,刘鲁,个性化推荐系统用户建模技术综述[J],情报学报,2006,25(2):55-62
[17]李珊,个性化服务中用户兴趣建模与更新研究[J],情报学报,2010,29(1):67-71
[18]王国霞,刘贺平,个性化推荐系统综述[J],计算机工程与应用,2012,48(7):66-76
[19]王巧容,赵海燕,曹健,个性化服务中的用户建模技术[J],小型微型计算机系统,2011,32(1):39-46
软件杂志欢迎推荐投稿:http:///
[20]张华清,动态多维社会网络中个性化推荐方法研究[D],济南:山东师范大学硕士学位论文,2012,16-31
[21]丹,面向跨系统个性化服务的用户建模方法研究[J]_情报杂志,2012,31(6):156-161
[22]邓夏玮,基于社交网络的用户行为研究[D],北京:北京交通大学硕士学位论文,2012,4-43
[23]马尧,基于多维用户特征建模的个性化社交搜索引擎的设计与实现[D],广州:华南理工大学硕士学位论文,2012,12-55
[24]陈恩红,徐童,田继雷,杨禹,移动情景感知的个性化推荐技术[J],中国计算机学会通讯,2013,9(3):19-24
[25]Jong Hwa Kima,b,,Hyun JoonLeeb,Extraction of user profile based on workflow and information flow[J],Expert Systems with Applications,2012,39(5):5478-5487
[26]南智敏,钱松荣,引入漂移特性的用户兴趣模型优化研究[J],微型电脑应用,2012,28(3):30-32
[27]郭新明,弋改珍,混合模型的用户兴趣漂移算法[J],智能系统学报,2010,5(2):181-184
[28]程显毅,朱倩,文本挖掘原理[M],北京:科学出版社,2010,9-45 [29]李涛,推荐系统中若干关键问题研究[D],南京:南京航空航天大学博士学位论文,2009,31-80
[30]姜伦,模糊聚类算法及其在中文文本聚类中的研究与实现[D],哈尔滨:哈尔滨理工大学硕士学位论文,2010,18-48
[31]冯汝伟,谢强,丁秋林,基于文本聚类与分布式Lucene的知识检索[J],计算机应用,2013,33(1):186-188
[32]陶红,周永梅,高尚,一种基于语义相似度的群智能文本聚类的新方法[J]计算机应用研究,2012,29(2):482-532
[33]孟海东,刘小荣,基于聚类分析的图模型文档分类[J]计算机应用与软件,2012,29(1):117-174,229
[34]饶君,张仁波,东呈晓,吴斌,基于MapReduce的大规模图挖掘并行计算模型[J],应用科技,2012,39(3):56-60
[35]于戈,谷峪,鲍玉斌,王志刚,云计算环境下的大规模图数据处理技术[J],计算机学报,2011,34(10):1753-1767
[36]吕善国,吴效葵,曹义亲,基于网络结构的推荐算法[J]_实验室研究与探索,2012,31(7):278-280,368
[37]周佳,罗铁坚,一种基于内容关联的学术资源协同推荐算法[J],中国科学院研究生院学报,2013,30(1):117-123
[38]唐晓波,张昭,基于混合图的在线社交网络个性化推荐系统研究[J]情报理论与实践,2013,36(2):91-95
[39]王立才,孟祥武,张玉洁,上下文感知推荐系统[J],软件学报,2012,23(1):1-20
[40]刘建国,周涛,汪秉宏,个性化推荐系统的研究进展[J],自然科学通报,2009,19(1):1-15
[41]许海玲,吴潇,李晓东,阎保平,互联网推荐系统比较研究[J]软件学报,2009,20(2):350-362
[42]孙冬婷,何涛,张福海,推荐系统中的冷启动问题研究综述[J],计算机与现代化,2012,5:59-63
[43]张亮,基于聚类技术的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,7-18
[44]Liu, F.,Lee, H.J. Use of social network information to enhance collaborative filterinperformance.Expert[J] Systems with Applications. 2010, 37(7):4772-4778.
[45]Jiang, J., Lu, J., Zhang, G., Long, G. Scaling- Up Item-Based CollaborativeFiltering Recommendation Algorithm Based on Hadoop[C].2011 IEEE World Congress onServices.IEEE[A]. 2011, 490-497.
[46]周源,基于云计算的推荐算法研究[D],成都:电子科技大学硕士学位论文,2012,26-64
[47]吕雪骥,基于云计算平台的智能推荐系统研究[D],合肥:安徽大学硕士学位论文,2012,25-43
[48]刘晨,改进的聚类挖掘算法对网络自助出版“长尾”文本的推荐应用[D],上海:复旦大学硕士学位论文,2011,10-19
[49]陈桂生,张海粟,刘玉超,云计算下的个性化数据挖掘服务[EB/OL],[2011-2-28]中国人工智能学会通讯,http://www,/contents/50/119,html
[50]张泽华,云计算联盟建模及实现的关键技术研究[D],昆明:云南大学博士学位论文,2012,26-114
[51]郭昱,吴清烈,基于云计算的大规模定制客户需求响应模型及其节点的选择与分布[J],系统工程理论与实践,2011,31(增刊2):1-6
[52]赵东杰,张海粟,韩言妮,杨海涛,何宇,基于网络化数据挖掘的群体智能研究方法[C],Proceedings of 2010 The 3rdInternational Conference on Computational Intelligence andIndustrial Application(Volume 9).IEEE[A].2010,239-243.
[53]AnandRajaraman,Jeffrey David Ullman著,王斌译,互联网大规模数据挖掘与分布式处理[M],北京:人民邮电出版社,2012,1-253
[54]Bhaduri K, Das K, Liu Kun, et al. Distributed data mining bibliography[EB/OL]. [2011-01-03]. http:// cs. umbc. edu/~hillol/DDMBIB/
[55]杨健,汪海航,王剑,俞定国,云计算安全问题研究综述[J],小型微型计算机系统,2012,33(3):472-479
在高校教育领域,就当前阶段数据挖掘还是一种较新的技术。如何在高校的学生成绩管理中合理的利用数据挖掘技术,对存放了大量学生的信息的数据库中的数据进行挖掘处理,从而提取出可以对教师的教和学生的学都起到积极促进作用的关键性规律,获得更加良好的教学效果是我们目前高校的教育工作者面临的一大急需解决的有价值的问题。随着数据挖掘技术的成熟,它的应用领域也在不断的扩展,被关注程度也不断提高,很多高校已经投入大量的人力物力在这项研究工作上,并逐渐的将其研究成果应用于日常的教学及管理工作中。比如,将其应用在学生信息的管理、学生的各门课的成绩分析和考试系统、教育教学的评估工作等,这些应用都将对提高高校的教学和管理水平等各方面都起到十分显著的的指导作用[1]。
1 当前很多高校学生的成绩管理面临的问题
目前大部分高校教务管理系统是采用联机的事务处理系统对学生成绩进行管理,成绩数据只能简单地存储于数据库中,而对数据的处理也停留在单纯的数据查询和插入修改等功能上,仅有的对成绩的分析可能也只是求总和、平均值、均方差和合格率等之类的统计。教务管理系统中的数据单纯的保存了相关数据信息而没有能够挖掘出这些数据背后所隐藏的可能有用信息——例如学生每门课程取得的成绩的可能原因、每门课程的诸多知识点之间以及课程和课程之间的联系。庞大的数据库里数据和数据之间存在着很多的关联,我们如何充分利用这些数据关联,为高校教育教学决策者提供一定的决策依据,从而科学的指导教学,提高高校的教学及管理水平,进一步提高办学效益和水平,是目前高校需要去面对和解决的问题。
2 利用数据挖掘技术管理学生成绩
数据挖掘技术就是从大量的、有噪声的、不完全的、随机的、模糊的应用数据中来提取隐藏在其中的潜在并且十分有用的信息过程[2]。利用数据挖掘对存储在高校成绩数据库中的学生成绩数据信息进行全面的深层次的分析和挖掘,达到全面地分析成绩数据的优劣及产生原因、各种因素之间隐含的内在联系的目的。挖掘分析这些数据所隐藏的有用信息,找到对指导教师教学和学生学习有用的知识,帮助高校管理者对未来高校的发展进步的决策。由此可见,数据挖掘技术一定会在教师提高教学质量、学生增加学习效率和学校强化管理水平等方面起到至关重要的引导作用[3]。
第一,使用计算机对高校学生成绩进行信息管理相对于传统管理方法有着十分明显优势:在现代的互联网时代,信息的管理早已经超越传统概念,使用计算机存储量大且成本低,可以长久保存,同时对信息的检索更迅速也更方便,结果的可靠性也是传统管理方法不可比拟的,这些也正是高校管理正规化和教育单位的科学化所必需的。
第二,学生成绩管理系统对于任何一个教育单位来说都是一个不可或缺的组成部分。它对于高校的管理者的办学思路的抉择来说是至关重要的。高校的成绩管理系统不仅应该做到为用户提供方便快捷的查询手段还用改能够提供充分的信息量以满足不同用户的不同查询需求。学生可以通过这个系统方便的查找自己到各门课的考试成绩及其他的教学相关信息;教师也能够通过系统提供的查询和分析工具非常准确的掌握学生的成绩变化,及时获取教学效果反馈信息,改进教学方式方法等;对高校的管理者来说,运用了最新的数据挖掘技术的学生成绩管理系统也可以让他们更及时快捷的从海量的数据中找到有用的信息,从而为不断提高高校的办学质量和管理水平提供保障。
3 学生成绩管理系统的设计
3.1数据挖掘的过程
数据挖掘是一个多阶段的复杂过程,如图1所示直接数据目标数据净化数据数据源知识数据选择清理与集成数据转换数据挖掘模式评价数据预处理数据挖掘解释和评价。
主要分为以下六个主要步骤[4]:
1)确定数据源。数据源的确立是整个系统的基础,是挖掘结果准确的保证。对学生成绩信息进行数据挖掘时,面向对象是各类不同的学生,例如教务处要挖掘的信息是面向全校学生的成绩,从而掌握全校学生的学习情况,而每个系所要掌握的学生的学习情况是针对本系的学生来说的,所以要挖掘的对象也只是每个系学生的成绩信息。他们面向对象和数据挖掘的目的都是不同的;
2)选定模型。为所挖掘的问题选择恰当的数据挖掘方法,并且针对该挖掘方法选择几种或是一种的算法。选择何种算法将直接影响挖掘信息的质量;
3)采集数据。这个阶段在整个开发过程中将会占用开发者大部分的工作量和时间。因为开发者需要收集在以往的教学实践中的数据信息,这些信息中,有些数据他们可以以直接的方式获得,而有些数据可能需要对学生以问卷调查等形式获得。
4)数据预处理。开发者在这一步需要将收集到的大量的不同的数据预处理,使其为一个分析数据模型;数据预处理是数据挖掘很重要的一步,数据只有经过预处理才能提高挖掘对象的质量;
5)数据挖掘。算法在这一步得到具体的实现,开发者将对经过预处理的数据信息进行挖掘;
6)解释和评价。分析和验证上一步的挖掘结果,并从中找到有价值的信息,将其集成到教师的教学环节和学生的学习环节中去,使教师和学生可利用所得信息改进教和学的策略,指导学生进一步更好的学习。
3.2数据挖掘的方法
在实际应用中需要根据对信息的实际需求选择恰当的挖掘算法。通过对几种常用的数据挖掘方法进行比较和分析,本文选择了以下两种适合的算法:关联分析方法以及决策树分类方法。
1)关联分析
利用关联分析对数据进行挖掘的目的就是挖掘出隐含在数据之间的关系。首先给定一组或一个记录的集合,然后,通过分析此记录集合从而推导出信息之间的相关性[5]。一个适用于关联规则的最有说服力的例子就是“90%客户在购买黄油和面包的同时也会选择购买牛奶”,即:规则“购买黄油和面包也会同时购买牛奶”的信息可信度高达90%。在大型的数据库系统中,类似的关联规则会产生很多,因此需要开发者进行筛选。一般来说,我们会采用 “可信度”和“支持度”这两个闽值去淘汰一些没有太多实际意义的规则。
关联规则算法主要 有以下两个步骤:第一步要求开发者查找出所有的频繁项集。频繁项集就是指其支持度大于或是等于最小支持度的那些项目集。第二步是指由频繁项集所产生的强关联规则,即所产生的以上规则一定要满足最小置信度和最小支持度[6]。
在实际教学中应用关联分析的数据挖掘方法对学生成绩信息进行分析和处理,研究课程的开设先后关系以及各门课程的成绩相关性,分析的结果将对一些课程的教与学提供很多有用的信息,使高校的教学工作迈上一个新的台阶。
2)决策树算法对学生成绩的分析
决策树算法是以实例为基础的归纳学习算法,用来形成数据挖掘的预测模型和分类器,同时可以对大量未知数据进行预测或分类、数据的预处理以及数据挖掘等。通常包括两部分:树的生成和树的剪枝[7]。
使用决策树算法来提取分类规则时,规则使用以“if——then”的形式表示。决策树算法和其他算法相比具有以下的优势:处理速度较快;从结果上来说,分类准确率也更相近,算法更容易转换为SQL语句。
4 结论
利用数据挖掘技术进行高校学生的成绩、心理分析和德育评估、教学及管理决策、教学质量评估等,能够为学生、教师以及教学管理人员等用户提供相应的数据信息支持,对教务管理和教学过程有着极为重要的指导意义,同时也为高校教与学、管理与决策的服务提供了一种新的思路。
参考文献
[1]刘春阳,数据挖掘技术在高校成绩管理中的应用研究,学位论文大连交通大学,2009.
[2]J.Braehaan,T.Anand.The Proeess of Knowledge Diseovery in Databases.A Human一eentered APProaeh.1996:37-58.
[3]刘军.决策树分类算法的研究及其在教学分析中的应用[D].河海大学,2006.
[4]邓景毅.关联规则数据挖掘综述[J].电脑学习,2006(3):2-3.
[5]赵辉.数据挖掘技术在学生成绩分析中的研究及应用,学位论文,大连海事大学,2007.
长久以来信息的不完备是影响管理者进行理性判断和决策的直接原因之一,而现有的数据库系统虽然可以高效地实现数据的录入、查询和部分统计等功能,但是无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。因此,杭州市西湖区院为了在检察业务信息、队伍建设情况和综合行政事务方面辅助领导决策,建设应用行政决策辅助系统,将各科室以往分散的数据资源进行整合,并充分发挥电子政务平台的优势,通过系统提供的多种分析功能进行多角度、多层次的分析,将各类数据转化为院领导决策所需要的信息。它的实施使得行政决策者可以在广泛了解决策所需信息的前提下进行决策,避免了靠经验决策和决策信息不完备导致的决策的盲目性现象,从而提高了行政决策的科学性和合理性,支持与强化行政决策过程。
一、系统架构及技术分析
系统架构主要由数据仓库系统、模型库系统、知识库系统及可视化接口4部分构成。采用的关键技术是数据仓库技术(DW)、数据挖掘技术(DM)、在线分析处理技术(OLAP)。
(一)数据仓库的作用
电子政务的决策过程是一个从非结构化数据中抽取结构化信息,再提供非结构化决策分析结果的过程。因此,为了营造良好的电子政务决策数据环境,获得高质量的数据分析结果,建立适合政府决策的数据仓库系统是电子政务决策支持系统的关键环节,以确保政务系统中的数据能够更好地发挥分析、决策的作用。这种数据仓库系统的功能要能向两个不同方向拓展,一是广度计算,二是深度计算。广度计算是使数据仓库系统的应用范围尽量扩大,能基本涵盖市级政府决策、服务的领域;深度计算使数据仓库系统克服了以往数据库简单数据操作处理(即事务处理)的缺点,对数据处理提出了更高的要求,使其能更多地参与政府对数据分析和决策的制定等工作。
(二)模型库系统的功能
模型库系统包括模型库及其管理系统,模型库是一个包含有财务、统计、运筹和其他定量模型的软件包,存放解决行政管理问题的经验模型,是为决策提供分析能力的部件,给予决策者通过推理、比较、选择来分析、预测和解答整个问题的能力。因此,研究一些决策支持模型,建立一个政府决策的模型库系统是完成系统的关键环节之一。这种模型库系统应具有以下两个特点,一是能实现多目标决策;二是能实现多领域、多部门、多用途的决策,即按经济内容来看应具有预测类模型、综合平衡模型、结构优化模型、经济控制类模型等,按决策活动来看应有规划模型、推理模型、分析模型、预测模型、评估模型等。
(三)知识库系统的功能
知识库系统包括知识库及知识库管理系统,其功能是对知识进行系统化组织与管理,存储、增加、删除、修改和查询知识,以及对知识进行一致性和完整性校验。知识库与数据库既有区别又有联系,从知识的逻辑表示观点来看,关系数据库是一种简单的知识库,数据库中的每一个关系是一个原子公式,即一个谓词,关系中的元组即是知识中的事实,因此利用关系数据库来建造知识库,就可以充分利用关系数据库管理系统的功能,便于知识库管理系统的设计与实现。
(四)可视化接口
可视化接口包括预测、分析、查询和维护等4个子系统。通过数据分析和预测工具对数据仓库中的数据进行多维分析、汇总,结果可以用二维表、饼图、折线图和直方图表示。
二、数据挖掘的技术工具和基本过程
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘常用的技术有神经网络、决策树、遗传算法、近邻算法和规则推导等。数据挖掘常用的工具有:
第一,基于神经网络的工具。由于对非线性数据具有快速建模能力,神经网络很适合非线性数据和含噪声数据,所以在政府数据库的分析和建模方面可以应用。
第二,基于关联规则和决策树的工具。大部分数据挖掘工具采用规则发现或决策树分类技术来发现数据模式和规则,其核心是某种归纳算法。
第三,基于模糊逻辑的工具。其发现方法是应用模糊逻辑进行数据查询、排序等。
第四,综合多方法工具。不少数据挖掘工具采用了多种开采方法,这类工具一般规模较大,适用于大型数据库或者并行数据库。数据挖掘的基本过程包括数据准备、模型搜索、结果分析和生成报告。
数据准备:收集和净化来自数据源的信息并加以存储,将其放入数据仓库中。
模型搜索:利用数据挖掘工具在数据中查找模型,搜索过程可以由系统自动执行,也可以由用户参与执行。对于一个主题的搜索,可用神经网络、专家系统、统计方法等。
结果分析:一般地说,数据挖掘的搜索过程需要反复多次,因为当分析人员评价输出结果后,他们可能会发现一些偏差或一些新的问题,要求对某一方面做更精细的查询。
关键词:任务驱动;探究式;课程改革
中图分类号:G642 文献标识码:A 文章编号:1009-3044(2014)06-1253-03
Applied Research of Task-driven Inquiry Teaching Model in Data Mining Course
HUANG Jian
(Zhejiang Wanli University, Department of Computer Science and Information Technology, Ningbo 315100, China)
Abstract: The task-driven inquiry teaching model is a teaching activities which students as the main body, teachers as the leading. It fits the data-mining course. Not only using task lead the student to inquiry learning, but also improve teachers during the teaching process. Based on the data mining course teaching reform practice, summarizes the task-driven inquiry teaching mode in general process and the specific content of the reform. Practice has proved, this teaching mode is good for improving undergraduate courses teaching quality.
Key words: Task-driven; Inquiry; Curriculum reform
数据挖掘是一门包括了数据库系统、专家系统、机器学习、统计学、模式识别、信息检索、人工智能等学科的综合性的学科,其目标是发现隐藏在大型数据集中的知识模式。此课程一般是在研究生教育阶段开设[1],但随着社会对应用型人才的需求越来越大,这就要求我们的学生毕业后不仅要有扎实的理论基础,更要有较强的创新能力和实践能力。
我校针对信息与计算科学及统计学两个专业开设了数据挖掘课程。该专业学生拥有较强的数学理论基础,并掌握了数学建模、统计学、数据库等相关学科。数据挖掘作为一门综合性课程,是融合学生各科知识,提高该专业学生应用实践能力,培养学生团队协作能力的很好的载体课程。
1 数据挖掘课程教学特点
数据挖掘技术是一个多学科交叉的综合研究领域。不过也正因为它涉及的范围很广泛,发展的时间也不是很长,因此要真正理解数据挖掘的本质并不是一件容易的事情。我校针对信息与计算科学和统计学两个理学专业开设此课程,并将此课程归类为实践类课程。经过笔者多年对传统教学方法的研究和改革,发现了在数据挖掘教学中存在的问题:
1) 理论教学困难:数据挖掘课程内容涉及领域广泛,如统计学、数据库、机器学习、模式识别等内容,并且所涉及的算法繁多。由于本科生的知识体系不健全,理论基础相对薄弱,造成了学习难度过大。此外,由于学时限制,无法在课堂中详细地讲述算法理论,导致了学生积极性不高,很难达到教学目标。
2) 实践环节无法让学生体会数据挖掘本质:数据挖掘是从数据获取、数据整理、预处理、数据挖掘分析、结果分析等一系列流程的综合。但由于课时关系,我们课程中的实践环节往往是针对某个特定的算法,让学生利用已经预处理好的数据进行算法的应用。数据挖掘成本很高,但是这个成本往往并不是金钱,而是时间,而数据整理和预处理的时间往往占到全部工作量的80%。不经过完整的数据挖掘流程训练,学生就无法体会数据挖掘的本质。
3) 软件应用缺乏:针对海量数据分析是必须要应用到计算机技术处理。当今针对数据挖掘应用的软件很多,如SAS公司的EM模块、SPSS的Modeler、WEKA、Matlab以及各数据库系统配套的OLAP功能等。在课堂中,不可能对任何一款软件都详细的进行讲解。这就使得学生很难进行算法的应用实践。
2 任务驱动探究式教学模式
针对目前教学存在的这些问题,广西大学梁斌梅提出了目标驱动的专业课教学法,利用导入课吸引学生、利用教学目标引导学生[2]。韩秋明等人编著的《数据挖掘技术应用实例》中采用了大量的行业数据,为数据挖掘教学模式的改革提供大量的应用实例[3]。结合本校的学生特点,参考国内的一些研究成果,该文提出了基于任务驱动探究式教学模式。课程整体主线由任务驱动,学生进行探究式自主学习。
任务驱动是基于构建主义教学理论基础上的教学方法,以学生为主体,以老师为主导的一整套教学新模式。而探究式教学是与直接接受式教学相对的,在任务驱动的同时,激发学生的好奇心,并驱使学生投入到知识获取的自主学习活动中。任务驱动探究式教学模式是将两者有机的结合起来,使学生能够明确学习目标、提高学习兴趣、提升学习动力,发挥学生的自主学习能力、创造能力,培养学生分析问题、解决问题的能力。通过自主学习,自行的完成阶段性的教学任务,以达到相应的教学目标。任务驱动探究式教学模式,适合操作性和应用性强的课程。任务驱动探究式教学模式的核心思想是在教学方面强调任务驱动,在学习方面则强调探究式学习。因此必须合理地设计课程教学方案,在“教”和“学”两个方面进行设计。老师必须在任务设计、实施进程管理、信息反馈等各方面做好衔接,保证学生能够时刻跟上任务进度,并保持足够的兴趣度。
3 基于案例驱动探究式教学模式的数据挖掘课程改革
任务驱动探究式教学模式是以学生为主体,教师主导的新型教学模式。教师的作用在于教学组织和任务布置的安排调度。利用任务引导学生学习相关知识,提高学生的学习主动性。因此,如何根据课程需要合理地进行课程任务设计,安排任务进度都是课程改革成功的关键。
3.1 课程内容重新整合
数据挖掘是一个由数据收集、数据预处理、数据分析挖掘、结论分析等各个步骤组成的整体过程。在现有的数据挖掘书中,针对数据收集、数据预处理部分往往比较简化,大部分篇幅都在讲述数据挖掘算法,如分类算法、关联算法、聚类算法。如果在课程内容设计时,仅仅对算法做重点讲述而忽略前期步骤,将会造成学生内容知识的脱节,无法体会数据挖掘整个流程,从而不能真正地理解数据挖掘思想本质。因此,本课程教学目标应该是重点培养学生分析问题、解决问题和团队协作能力,树立数据挖掘思维体系,了解数据挖掘基本算法,能够应用数据挖掘软件解决实际问题并得到结果。
根据这个教学目标对课程内容进行适当调整。首先,增加绪论内容并设置导入课。在导入课中增加生活中学生感兴趣的数据挖掘故事,经典案例以及各行业中的应用,从而提高学生学习的兴趣。其次,适当增加数据获取、数据预处理以及数据挖掘软件的介绍,使得学生能够明确数据怎么来、如何处理以及用什么工具处理等问题。最后,有选择地介绍基本的数据挖掘算法,所介绍的算法应该是常见、易懂并且能够很容易使用软件实现的,如决策树算法、K均值聚类算法、Apriori算法、朴素贝叶斯算法等。而针对比较难的算法,可以仅做介绍,让学生在今后遇到此类问题能够自主的进行学习。通过内容的调整,一方面使得学生不会因为数据挖掘算法繁多且复杂而惧怕,保证学生的学习兴趣,从而很好的引导其自主学习,提高教学效果。另一方面,数据挖掘算法在不断的改进,不可能在课程中覆盖所有。通过基本算法和工具的结合,能够很好地帮助学生从算法理论转变成算法实现,从而真正的进行数据挖掘工作。即使出现了新的算法,也能够举一反三,进行软件实现。
3.2 组织方式的改变
任务驱动探究式教学模式必须以课程任务为依托。改变以往以纯理论的教学方式,加入实践和课堂讨论环节,将理论知识讲解和课程任务有机地结合到一起。考虑到数据挖掘连贯性以及工程庞大性,可以考虑以项目化的方式进行。将学生6个人左右分为一组,自主的在老师所提供的数据共享平台中寻找感兴趣的问题进行分析研究。将整个项目分解成为数据搜集、数据预处理、探索性分析、数据挖掘、结果分析等一系列的小任务,安排阶段性的任务目标,层序渐进,逐步的建立学生完成项目的信心并最终完成整个项目。
学生是项目的负责人,在接受一个短期任务后,就要自主的开始进行任务的执行。老师仅仅在课堂中进行了基本知识的讲解,学生要完成任务就必须学习更多的课外知识。项目的研究内容是自己选择的,而且完成阶段性的任务并不是那么的遥不可及,所以学生有足够的兴趣和信心去完成。通过查阅资料、学习知识、任务分配、安排和组织实施等,完成教学任务的同时也锻炼了他们团队合作意识、沟通能力、自主学习能力。这些能力的培养才能使他们在知识不断更新的当今,紧密地跟紧前沿技术并更好的去解决实际问题。
3.3 任务进度控制和评价
课程的课堂教学时间是有限的,老师不可能在课堂中既完成理论教学,又给足时间让学生进行课程任务,所以项目的实施必须是在课后进行。学生要在课外进行大量的参考资料阅读、相互讨论及数据分析的工作。那么老师作为主导者,必须及时地了解学生阶段性任务的完成情况,对当前学生遇到的困难及时给出建议和意见,甚至在学生遇到真正的难题给予技术上的支持。所以本课程在理论课教学的同时,也开展了定期的讨论课,让学生定期汇报阶段性任务的完成情况,及时进行任务进度的控制。整个项目的实施流程和任务分解如图1。根据流程安排,理论引导学生任务的进行。通过学生任务的完成情况,老师在完成基本理论教学的同时,有针对性的对学生所遇到的问题进行讲解,最终目标是引导学生完成整个教学项目。一方面,学生自主学习能力提高,有足够的兴趣和能力去完成每个阶段的任务,并且会更加认真的在理论课中寻找自己想得到的知识。另一方面,由于学生自主寻找的项目多样性,选择的算法不可控性,同样促使老师不断的提高自身,教学内容不再一成不变,而是随时的更新。
图1 任务进度安排流程图
良好的进度控制需要一个完善的评价体系做辅助。只有做好每个阶段性的评价,引入一定的竞争机制,才能提高学生积极性和自信心。首先,必须做到极端性任务的目标和时间明确化。要完成什么,在什么时候完成,都必须事先和学生约定。对没有按时完成任务的组,必须做出相应的惩罚,如扣除本阶段的得分。除此之外必须分析原因,搞清为什么无法完成任务,有针对性地提出建议和意见,以便学生能够及时调整。其次,评价标准既要唯一又要区别对待。唯一标准指的是一样的进度,一样的任务,一样的要求。但是数据挖掘项目会根据研究领域不同、使用算法不同、数据质量不同而造成难度差异,一味的同等标准要求会造成选择难度较高项目的学生积极性下降。所以老师必须客观的分析每个项目难度,并区别对待。对于由客观难度造成任务进程落后的组,应当在解决问题后给予奖励。并且,在最终论文评定时,适当的加入一定的难度分,以鼓励学生培养自我挑战的精神。通过教师评价、组长评价、组间评价等评价方式,客观的合理的对整个项目实施作出最终的评价结果。
4 结束语
通过案例驱动探究式教学模式的改革,数据挖掘课程在教学效果上得到了实质性的提高。人才培养上卓有成效,老师也在教学过程中受益良多。通过教学模式的改革,使得原本枯燥、难懂的理论教学变得生动。学生的求知欲望得到了激发,课程的学习目标更加的明确,教学质量也有很大的提高。同时我们发现,学生的自主学习能力、汇报能力、论文撰写能力都有了明显的提高,并且有很多教学项目被用于毕业论文的研究。数据挖掘课程也因此被选为宁波市级的智慧产业核心引导课程。
参考文献:
[1] 胡建军.浅谈数据仓库与数据挖掘的本科教学[J].广西科学院学报,2007(3):29-210.
关键词:数据挖掘;客户价值分析;K-Means聚类分析
DOI:10.16640/ki.37-1222/t.2017.04.248
1 绪论
体验经济时代消费趋势主要有以下六个方面:体验化、情感化、个性化、主动化、休闲化和求美化。[1]第三次工业革命以来,现代信息技术得到迅猛发展,各行各业意识到数据的重要性,建立了无数的数据库,面对数以亿计的数据,传统的统计方法的弊端日益显现。人们面对海量的数据,却不能挖掘出有用的信息,随着“数据爆炸”困惑的增加,人们迫切需要新的数据处理技术,因而数据挖掘技术应运而生。法国著名雕塑家罗丹说,生活中从不缺少美,而是缺少发现美的眼睛。如今,企业从不缺少数据,而是缺少挖掘数据价值的能力。通过对现有数据的挖掘,发现隐藏在数据里的模式,有用信息,指导航空公司作出决策,增加顾客的满意度,是航空公司必须解决的问题。自从1989年举行的第十一届国际联合公认学术会上首次提出数据库中发现知识(KDD),到目前为止,美国人工智能协会曾经举办了9次KDD全球研讨会。规模从原来的专题讨论会到策略和技术的集成以及多学科跨领域融合。数据挖掘技术迅速在航空电子领域,航空安全领域,航空维修等等航空领域得到较好的应用与发展。我国在上世纪90年代的时候就已经开始的对数据挖掘的研究,经过多年的研究,我国已经形成数据挖掘基础理论的框架,并且越来越多的学者投入数据挖掘的研究之中。不过相对于国外来说,我国的数据挖掘应用并没有得到较高的发展,依然面临着严重的挑战,仍旧有很多问题等待着研究人员去探索和发现。
2 数据挖掘技术
数据挖掘有三大步骤:第一数据筹备,第二数据挖掘,第三结果表达和解释[5]。
数据筹备包含数据集成,数据选择,目标数据预处理。
数据挖掘主要是对预处理后的数据进行挖掘。
结果表达和解释即我们所说的结果可视化。
3 航空公司客户价值分析
3.1 传统客户价值分析方法
传统的客户价值分析使用RFM方法(Recency--最近购买日期, Frequency--各时期购买频率, Monetary一段时间内消费总和)在多数领域中的多数情况下能有效地预测老顾客今后可能的消费行为和费用,之后对销售毛利率、关系营销费用进行预测,就能按不同时间段分析出今后短期内的客户价值。[6]说明, 在这种分析方法中,客户价值是指CRM毛利。CRM毛利 = 购买金额 - 产品成本 - 关系营销费用。[7]
RFM模型以Recency为X轴,Frequency为Y轴,Monetary为Z轴做一个三维立体模型,可以把客户价值分为八种:重要发展客户、重要价值客户、一般发展客户、一般价值客户、一般保持客户、一般挽留客户、重要保护客户、重要挽留客户。
由于航空公司客户的独特性,RFM方法分析航空公司客户价值存在多种弊端和不足,造成分析结果的不准确和实用性降低。
(1)在RFM模型中,消费金额是一段时间内客户消费总和,由于航空票价受到运输距离,舱位等级,闲忙时,天气等众多因素的影响,同样消费金额的客户对于航空公司的价值是不同的。所以用这个指标分析航空公司客户价值存在不妥。
(2)RFM是使用属性分箱法分析客户价值的,这种方法细分客户群较多,需要逐个识别客户特征和行为,大大提高的针对性营销的成本。
(3)RFM方法在处理大量数据时由于模型的限制需要的成本较高。
3.2 航空公司客户数据分析方法与步骤
航空客户信息,包含会员档案信息和其他乘坐航班记录信息等
(1)因为消费金额总和这一指标在航空公司客户价值分析过程中不太实用,所以我们可以选择航空客户在一段时间内积累的乘坐距离M和乘坐舱位折扣系数平均值C来替代消费金额总和。同时,因为航空公司会员的加入时间一定程度上可以影响客户价值,所以我们在航空公司客户价值分析模型中添加客户关系长度L,当做区分客户价值的另一个指标,所以我们构建出LRFMC模型。
(2)使用聚类分析的方法把客户进行分类,并且分析客户群的特征,分析客户价值。
第1步数据抽取。
(1)以2014年3月31为结束日期,选取宽度为两年的时间段作为分析观测窗口,抽取观测窗口内有乘机记录的所有顾客的详细资料形成历史数据。对于后来新增客户信息利用数据中最大的某个时间作为结束时间,采用同样的方法进行抽取,形成增量数据。
(2)根据末次飞行日期从航空公司系统内抽取2012年4月1日至2014年3月31日内所有所有乘客的详细数据,共62988条记录。
第2步数据探索分析。
在原始数据中存在票价为空的情况,票价为空值的数据有可能是航空客户未有乘机记录造成的。票价最小值为0,折扣率最小值为0,总飞行里程不为0的数据有可能是顾客使用0折机票或者是使用积分兑换的机票造成的。
第3步数据预处理。
(1)数据清洗:从航空公司业务和数据挖掘建模需要考虑筛选出需要的数据。
A)不需要票价为空的数据。
B)不需要票r为0,平均折扣率不为0,总飞行里程不为0的数据。
(2)属性规约。在原始数据中数据属性太多,我们只需要与LRFMC模型相关的6个数据属性,所以我们需要删除不相关,弱相关和冗余的数据属性。
(3)数据变换。A)数据属性构造 B)数据标准化
第4步建构模型。
构建航空公司客户价值分析LRFMC模型
A)客户K-Means聚类分析 B)客户价值分析 C)应用模型
A客户K-Means聚类分析。
采用K-Means办法对所有客户数据进行聚类分析,将客户数据聚为5类。(具体情况具体分析,必须依据实际状况决定分几类)
B客户价值分析。
对聚类结果进行属性分析:顾客群1在L、M属性上最小;顾客群2在R属性上最大,在F、M上最小;客户群3在属性F、M上最大,在R上最小;客户群4在属性L上最大;客户群5在属性C上最大。
根据航空公司业务定义为五个等级的客户类别:重要保持客户,重要发展客户,重要挽留客户,普通价值客户,低价值客户。
根据每种客户群类型的特征对客户群M行客户价值排名,以便获得高价值客户的信息。
C模型应用:根据每种客户群的特征,可以采取更多个性化服务和营销策略。
由于各种行业面临的具体问题不同,数据挖掘技术的发展受到不同的挑战,不过总大趋势来说,数据挖掘技术必将会得到更好发展和更加普遍的运用。随着数据量爆炸式的激增,分析决策难度的增加,传统分析方法弊端的显现,人们对分析决策智能化和自动化的迫切需求,数据挖掘技术与工具将得到更广泛的使用和发展。在数据爆炸时代,航空公司面临的新挑战为数据挖掘技术提供了发展背景,个性化服务的发展为数据挖掘技术提供了很好的基础和发展平台。
数据挖掘未来会吸引越来越多的研究人员,会涌现出越来越多的研究成果。从目前来看,数据挖掘在中国的研究与应用还有很多务实的问题没有解决。本文仅仅是数据挖掘技术在航空公司客户价值分析中的初步尝试,展望未来数据挖掘的发展,有以下几点需要注意的地方:要充分考虑是否有必要进行数据挖掘。传统的数据分析办法的确有很多弊病,但是相对于传统的方法数据挖掘需要成本较高。在传统数据分析技术可以满足要求的情况下,没有必要必须进行数据挖掘,这样能更加节省成本。数据挖掘需要较大的成本,须要大量的人力,物力和财力用于数据筹备,数据搜集,问题建模,生成模型和数据分析等等。
参考文献:
[1]吴钊.体验经济时代六大消费趋势[J].商业研究,2003(24).[2]Jiaweihan,Miche line kan ber.Data ming:Concepts and techniques.Diane Cerra Publisher.20063
[3]刘浩,韩晶.MATLAB R2014a一本通[J].电子工业出版社.
[4]李定远.CIO时代网.2012,09(29).
[5]耿向华.数据挖掘在旅游商务系统中的应用研究[J].魅力中国,2013,5(27).
[6]郭良.基于数据挖掘技术的客户信息分析[J].华东师范大学硕士论文,2015.
论文关键词:电子商务,数据挖掘,聚类分析,关联规则挖掘
1引言
随着Internet的普及,电子商务得到了前所未有的发展,经销商和客户之间通过互联网进行交易,节省了大量的费用和时间。但是在电子商务中充斥着大量的数据,如何从这些大量的数据中挖掘出真正有价值的信息,帮助企业经销商制定更好的营销策略是电子商务急需解决的问题。数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database, KDD),也就是从大量的数据中挖掘出有用信息的一种技术。利用数据挖掘技术可以使经销商从大量的数据中挖掘出有用的信息帮助决策,从而在市场竞争中获得优势地位。
2电子商务概述
电子商务指交易当事人或参与人利用现代信息技术和计算机网络(主要是因特网)所进行的各类商业活动,包括货物贸易、服务贸易和知识产权贸易。“电子商务”中所包括的“现代信息技术”应涵盖各种使用电子技术为基础的通信方式;“商务”指不论是契约型还是非契约型的一切商务性质的关系所引起的种种事项。如果将“现代信息技术”看作一个子集,“商务”看作另一个子集,电子商务所涵盖的范围应当是这两个子集所形成的交集,即“电子商务”标题之下可能广泛涉及的因特网、内部网和电子数据交换在贸易方面的各种用途。
电子商务与传统商务相比有以下优点:(1)电子商务将传统的商务流程数字化、电子化,让传统的商务流程转化为电子流、信息流,突破了时间空间的局限,大大提高了商业运作的效率。(2)电子商务简化了企业与企业,企业与个人之间的流通环节,最大限度地降低了流通成本,能有效地提高企业在现代商业活动中的竞争力。(3)电子商务是基于互联网的一种商务活动,互联网本身具有开放性全球性特点,电子商务可为企业及个人提供丰富的信息资源,为企业创造更多商业机会。(4)电子商务对大型企业和中小企业都有利,因为大中型企业需要买卖交易活动多,实现电子商务能有效地进行管理和提高效率,对小企业同样有利,因为电子商务可以使企业以相近的成本进行网上交易,这样使中小企业可能拥有和大企业一样的流通渠道和信息资源,极大提高了中小企业的竞争力。(5)电子商务将大部分商务活动搬到网上进行,企业可以实行无纸化办公节省了开支。
3数据挖掘技术
数据挖掘(Data Mining,DM)技术是随着计算机的广泛应用和数据的大量积累而发展起来的。数据挖掘是从大量的数据中提取或“挖掘”知识,即发现其中隐含的,未知的,有意义的信息的过程,它又被称为“数据库中知识发现”(KDD),也有人把数据挖掘视为数据库中知识发现的一个基本步骤,知识发现过程由以下步骤组成:(1)数据清理(2)数据集成(3)数据选择(4)数据变换(5)数据挖掘(6)模式评估(7)知识表示。
从商业的角度定义,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。利用功能强大的数据挖掘技术,可以使企业把数据转化为有用的信息帮助决策,从而在市场竞争中获得优势地位。数据挖掘与传统的数据分析的不同是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知、有效和实用3个特征。
4数据挖掘在电子商务中的作用
数据挖掘技术之所以可以服务于电子商务,是因为它能够挖掘出活动过程中的潜在信息以指导电子商务活动。在电子商务中的作用有7个方面:(1)挖掘客户活动顾虑,针对性的在电子商务平台下提供“个性化”的服务。(2)可以在浏览电子商务网站的访问者中挖掘出潜在的客户。(3)通过电子商务访问者的活动信息的挖掘,可以更加深入的了解客户需求。(4)通过挖掘网上顾客的购买行为,可以帮助制定合理的产品策略和定价策略。(5)通过对商品访问情况和销售情况进行挖掘,可以帮助制定产品营销策略,优化促销活动。(6)优化电子商务网站的信息导航,方便客户浏览。(7)通过客户在网络上浏览时的拥塞记录发现网站的性能瓶颈,从而提高网站的稳定性,保证电子商务购物快速进行。
5电子商务中数据挖掘的技术与方法
电子商务中的数据挖掘过程一般包括3个主要的阶段:数据准备、数据挖掘、结果解释和评价。(1)数据准备又可分为数据选取和数据预处理两个步骤。数据选取的目的是确定发现任务的操作对象。即目标数据,是根据用户的需要从原始数据库中抽取的一组数据。数据预处理一般包括消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换以及对数据降维。(2)数据挖掘阶段首先要确定数据挖掘的目标和挖掘的知识类型。确定挖掘任务后,根据挖掘的知识类型选择合适的挖掘算法,最后实施数据挖掘操作,运用选定的挖掘算法从数据库中抽取所需的知识。(3)结果的解释和评价。数据挖掘阶段发现的知识,经过评估,可能存在冗余或无关的知识,这时需要将其剔除,也有可能知识不满足用户的需求,需要重复上述挖掘过程重新进行挖掘。另外,由于数据挖掘最终要面临用户,因此,还需要对所挖掘的知识进行解释,以一种用户易于理解的方式供用户所使用。
数据挖掘按照其挖掘任务主要包括分类和预测、聚类分析、关联规则挖掘,回归发现和序列模式发现等技术。在选择某种数据挖掘技术之前,首先要将需要解决的问题转化成正确的数据挖掘任务,然后根据挖掘的任务来选择使用哪些数据挖掘技术。在电子商务活动中,主要使用下面的一些数据挖掘技术。
5.1分类
分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型或分类函数,将数据库中的数据项映射到某个给定的类别。分类的主要方法有基于决策树模型的数据分类,贝叶斯分类算法,ID3算法和基于BP神经网络算法等。
假定现在我们有一个描述顾客属性的数据库,包括他们的姓名、年龄、收入、职业等,我们可以按照他们是否购买某种商品(例如,计算机)来进行分类。如果现在有新的顾客添加到数据库中,我想将新计算机的销售信息通知顾客,若将促销材料分发给数据库中的每个新顾客,如此可能会导致耗费较多的精力和物力。而若我们只给那些可能购买新计算机的顾客分发材料,可以在较大的程度上节省成本。为此,可以构造和使用分类模型。分类方法的特点是通过对示例数据库中的数据进行分析,已经建立了一个分类模型,然后利用分类模型对数据库中的其它记录进行分类。
5.2聚类分析
聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。聚类分析的方法是数据挖掘领域最为常见的技术之一。常用的聚类分析方法有:分割聚类方法,层次聚类方法,基于密度的聚类方法和高维稀疏聚类算法等。聚类分析方法与分类方法的不同之处是聚类事先对数据集的分布没有任何的了解。因此在聚集之后要有一个对业务很熟悉的人来解释这样聚集的意义。很多情况下一次聚集你得到的分类对你的业务来说可能并不好,这时你需要删除或增加变量以影响分类的方式,经过几次反复之后才能最终得到一个理想的结果。聚类分析方法在电子商务中的使用也极其广泛。其中一个典型的应用是帮助市场分析人员从客户基本库中发现不同的客户群,并且用购买模式来刻画不同客户群的特征。通过对聚类的客户特征的提取,把客户群分成更细的市场,提供针对性的服务。
5.3关联规则挖掘
关联规则是描述数据库中数据项之间所存在关系的规则,即根据一个事物中的某些项的出现可导出另一些项在同一事物中也出现,即隐藏在数据间的关联或相互关系,比如在一次购买活动中所买不同商品的相关性。在电子商务中,从大量商务事物记录中发现有趣的关联关系,可以帮助许多商务决策的制定。关联规则挖掘最初也是最典型的形式是购物篮分析。它通过发现顾客放入其购物篮中不同商品之间联系,分析顾客的购买习惯。例如,在同一次去超级市场,如果顾客购买牛奶,他也购买面包(包括购买什么类型的面包)的可能性有多大?这些信息可以帮助零售商有选择地经销和安排货架,引导销售。例如,将牛奶和面包尽可能放近一些,可以进一步刺激一次去商店同时购买这些商品。在电子商务中,由于Web服务器的日志文件记录了用户的访问记录,通过这些记录利用关联规则挖掘网上顾客购买产品的相关度,对某些品牌的喜好和忠诚,价格接受范围,以及包装要求等,挖掘的结果可以用来帮助管理者进行网站规划、确定商品的种类、价格和新产品的投入。
5.4序列模式分析
序列模式分析和关联规则挖掘相似,但侧重点在分析数据间的前后序列关系。它能发现数据库中形如在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频度较高的信息。序列模式分析的一个例子是“九个月以前购买奔腾PC的客户很可能在一个月内订购新的CPU芯片”。
6结束语
电子商务过程中的各种信息和数据是电子商务活动能够更好的进行的基础,通过选择合适的数据挖掘技术来挖掘电子商务中有价值的信息,从而使企业在激烈的市场竞争中做出正确的决策,保持有力的竞争优势。随着数据挖掘技术的不断发展,我们相信它在电子商务中的应用将促使其得到更快更高效的发展。
参考文献
[1]姚淼.《数据挖掘在电子商务中的应用》.高校图书情报论坛.Mar.2009.Vol.8 No.1
[2]赵雁.张黎明.吕安.赵彦慧.《电子商务中的数据挖掘技术》.中国电子学会第十届青年学术年会论文集.2004.9
[3]杨青杰.胡明霞.《数据挖掘技术在电子商务中的应用研究》.商场现代化.2008年第16期
摘 要 面对当前企事业单位普遍存在各类数据庞大,但快速提取有效信息却十分困难的现状,如何在海量数据中发现有用的数据,即所谓的数据挖掘技术便应运而生。针对财务决策中数据海洋的现状,本文提出了如何采用数据挖掘技术,来提高财务决策的效率。
关键词 数据挖掘 财务决策 应用
随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析,特别是公司财务数据之类。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”技术应运而生。数据挖掘技术的产生和发展使得人们可以利用这些数据挖掘出有用的、隐藏的商业和科学信息。
一、数据挖掘含义
1.数据挖掘的定义
目前普遍认同的一个数据挖掘(DM-Data Mining)定义是:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一种深层次的数据分析方法。
数据挖掘可以根据企事业单位的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企事业单位经营管理中。是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以对财务信息做出预测。
2.数据挖掘的主要功能
数据挖掘的目标是从数据库中发现隐含的、有意义的信息,它主要有以下功能:
(1)估计与预测:估计是根据已有积累的资料来推测某一属性未知的值,预测是根据对象属性的过去观察来估计该属性未来之值。数据挖掘技术能够自动在大型数据库中寻找预测性信息。
(2)关联和序列发现:关联是要找出在某一事件或是资料中会同时出现的东西;序列发现与关联关系很密切,所不同的是序列发现中相关的对象是以时间来区分的。
(3)聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类技术的要点是在划分对象时不仅考虑对象之间的距离,还要划分出类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的信息,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等①。
二、数据挖掘在财务决策支持系统的应用
1.财务决策支持系统
财务决策支持系统是在传统电算化会计信息系统的基础上建立和发展起来的,传统会计信息系统输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情形,而财务决策的精确程度又取决于所用信息的正确程度。随着竞争的增加,财务决策的时效性也变得越来越重要了,面对这些结构化或半结构化的海量数据,将数据挖掘技术应用到系统中充分有效的预测企事业单位未来的发展趋势,有利于输出财务决策信息供高层管理者使用,提高企事业单位的竞争②。
(1)会计信息系统结构
会计信息系统可分为三个层次:会计核算层、财务管理层和财务决策层,分别属于事后核算、事中控制和事前预测与决策过程。财务决策支持系统是最高层,也是会计信息系统发展的最终目标。会计核算层和财务管理层输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情况,这严重影响了财务决策层发挥有效作用。
(2)财务决策支持系统的概念
财务决策支持系统(FDSS―Financial Decision Support System)是以现代管理科学和信息技术为基础,以电子计算机为工具,运用经济学、模糊数学、控制论和模型技术,对财务管理中的结构化、半结构化以及非结构化问题进行决策分析的人机交互系统。
在财务决策支持系统中,为了支持管理决策,首先必须建立各种数据库以备决策之需。其次要建立各种数学模型,组成模型库对数据库中的数据进行深加工以便探索其内部规律,对数据的运算结果进行比较、分析和评价。同时,为了充分利用管理者的经验、知识和智慧,系统还设置人机交互接口和专家知识库,采用人工智能技术判断环境生成方案、评价决策。
(3)财务决策系统国内外发展现状
在国内,会计核算系统和财务管理系统已发展良好,逐步地为用户理解和接受,但财务决策支持系统的发展尚处初级阶段。
在国外,财务决策支持系统已较为完善,以财务管理为核心构造财务决策支持系统,做到了账务系统与管理系统的有机融合,做到了事前预测与决策、事中控制、事后分析为一体的网络化、科学化的决策管理,数据挖掘在财务决策支持系统中的运用也较为成熟。
2.数据挖掘在财务决策支持系统的应用
数据挖掘技术在财务决策支持系统中的应用研究始于1995 年,研究内容包括将DSS 的结构体系引入过来,从二库、三库结构到四库、五库结构的研究,也就是从传统的FDSS 研究到智能的或高级的FDSS 的研究。随着信息技术的不断完善,把数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)也引入到财务决策支持系统中,出现了基于数据仓库和数据挖掘技术的财务决策支持系统结构,数据挖掘技术在财务决策支持系统中的应用主要包括:
(1)财务状况分析
财务状况分析是财务管理的重要组成部分,包括企事业单位偿债能力分析、企事业单位营运能力分析、企事业单位获利能力分析、企事业单位发展能力分析。它是利用已有的财务数据对企事业单位的财务状况、经营成果进行分析与评价。财务分析系统可以运用数据挖掘分类、预测等技术,根据企事业单位过去和现在的财务数据做进一步的加工、整理、分析和评价,在预测未来的财务状况的同时从中取得有用的信息供决策者使用。
(2)财务预测
财务预测系统是FDSS 的重要组成部分,其功能分为两个方面:一是利用已有的财务数据对企事业单位未来的财务状况和经营成果进行预测。二是利用专家经验和专门知识对某项财务专题进行预测。财务预测的主要内容包括销售预测、利润预测、成本预测、资金预测、财务指标预测等。利用回归,神经网络等技术根据已有的财务数据预测企事业单位未来的财务状况,进而判断企事业单位未来发生财务危机的可能性。
(3)筹资决策
筹资是指企事业单位何时、采用何种方式、获得何种规模资金的过程。企事业单位筹资决策主要包括筹资数量决策、筹资方式决策和债务偿还决策。一般地说,企事业单位筹资首先应考虑自有资本,即所有者权益筹资;其次再考虑债务筹资,其目的是使财务风险最小化。利用数据挖掘中的分类、聚类等技术可根据单位经营管理的需要进行决策信息输出,确定一个合理的筹资方案。
(4)投资决策
企事业单位的投资决策主要包括企事业单位内部长期投资决策、联营投资决策和证券投资决策。投资决策问题是决策问题中较为复杂的问题,其决策问题一般分为半结构化或非结构化问题。我们可利用预测、关联等技术对投资时机、投资规模、投资方式等方面来确定投资方案。通过在众多可投资项目中选择出最具价值的项目决策信息,实现投资资金效率最大化。
(5)成本决策
成本决策涉及企事业单位销、生产经营和资本运作等各个领域,可以说凡是发生成本费用支出的各项经济活动,都存在成本决策问题。企事业单位成本决策包括:存货成本决策、生产成本决策、资金成本决策、销售成本决策、服务成本决策等,其中销售成本决策和服务成本决策,其非结构化因素较多,包括促销费用、广告费用、销货服务费等,从而使其决策方案的确定更加复杂化。这就需要利用数据挖掘技术中的时间序列分析,关联分析等技术对历史数据进行分析预测,以确定最优方案。
(6)股利分配决策
股利分配是指公司向股东分派股利。股利分配决策的合理与否,将会对公司的持续发展和股东利益产生重大影响。股利分配决策包括股利发放决策、股利支付比率决策和股利发放形式决策等。由于股利分配决策要受到法律、经济、公司政策、股东利益、以及股票市场等诸多因素的影响,其决策问题大多为半结构化和非结构化问题,我们可利用数据挖掘技术中的分类技术来提供支持。
(7)存货决策
存货决策主要是指原材料和产成品的决策,即确定合理的经济订货量以及何时订货才是最佳时机,力求使存货上耗费的成本最低。销售的不确定性使得存货决策成为一种风险性决策,它需要根据以往的经验储存、历史统计资料的分析以及输入用户的调研数据,运用数据挖掘技术中的决策树方法帮助决策者确定需求变量的范围及发生概率,并提供最优方案的参考数据。随着数据库技术和网络技术的迅速发展,传统会计核算层及财务管理层的不断完善,人们获取数据的能力越来越强,将海量的数据存储在数据库和数据仓库中。将数据仓库(DW)、数据挖掘(DM)和联机分析(OLAP)等信息技术应用于财务决策支持系统,更能将数据仓库里的海量数据从执行系统中筛选出来,减少冗余,完成一系列转换处理,便于决策者从宏大的信息系统中分辨、析取、整理、挖掘出对财务决策有用的信息,极大提高企事业单位管理信息系统的工作效率③。
三、数据挖掘技术在财务决策支持系统中应用的难点与展望
数据挖掘技术在财务决策支持系统中的应用还是一门崭新的技术或方法,接受数据挖掘的概念容易,但将其落在实处却比较困难。其中最重要的就是成本问题。数据挖掘功能对企事业单位财务数据进行分析虽然存有优势,但前提条件是具备完整、正确的数据,即在建立数据仓库系统基础后,与此功能结合运用以达到事半功倍的效果。但目前单位财务部门提供的数据本身就可能存在水分,因此需要数据信息使用者在经过会计信息质量分析等前提下调整或重新估计,然后再利用数据挖掘等技术应用到财务决策支持系统中。数据挖掘仅依靠计算机或者软件是无法完成任务的,更多的是需要依靠专业人士的职业判断。
虽然在单位财务决策支持系统中利用数据挖掘技术还不十分成熟,但是伴随着科学技术的迅猛发展,以及数据挖掘技术在财务决策支持系统中的广阔市场前景,相信基于数据挖掘的财务决策支持系统必将更加成熟!
但是,数据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想基于数据挖掘的财务决策支持系统模型得到更为广泛的应用,面临的挑战为:
1.建立基础的数据挖掘理论体系;
2.提高数据挖掘算法的效率和处理能力;
3.良好的人机交互界面;
4.挖掘各种数据类型,包括半结构和无结构数据。
注释:
①何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6):155-156.
②汤九斌.基于数据挖掘技术的决策支持系统及其关键技术研究.中国优秀博士论文全文数据库.南京理工大学.2009.
③周喜,王加阳.数据挖掘技术在财务决策支持系统中的应用研究.湖南商学院学报.2009(4):99-101.
参考文献:
[1]何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6).
[2]郑日军.数据挖掘综述.科协论坛(下半月).2008(10).
[3]洪沙,向芳.数据挖掘与决策支持系统.科学咨询(决策管理).2008(4).
关键词:数据挖掘,客户关系,决策树
1 引言
本课题研究的公司其客户的不断增加,为了减少公司的投入以及更有效的利用公司现有的人力资源,将所有客户适当分类势在必行。随着公司客户的不断增加,和客户相关的信息资料也不断增加,这就要求公司投入更多的人力和物力来整理这些庞杂信息资料,而且为了更有效的利用公司现有的人力资源,将所有客户适当分类也势在必行。很显然,如果仅仅依靠传统人工技术,这将是一项非常困难的工作。本文就是选择好的解决方法。
通过公司的mis系统,可以搜集到关于客户的基本信息、客户近段时间内的访谈记录、客户的销售确认单(SO 单)、客户拥有的设备等信息资料。接下来的工作就是如何从这些信息资料中挖掘出公司所需要的知识。我们需要解决的问题如下:
1)用户的根本需要,即用户需要发现什么?2) 用户对现有数据中的哪些属性更加关注?3) 数据挖掘的目的是什么?
2 系统的概要设计
2.1设计目标
需要是发明之母。对每个问题有了一个比较清晰的结论才可以进行以后的工作,才可以保证以后的工作的有用性。期望的结果如下:
1)用户需要对所有客户合理分类,为公司制定各种营销和服务活动打好基础;
2)用户对数据中客户的SO单、访谈记录数量等更加关注;
3)数据挖掘的目的是选择合适的分类算法将公司的客户合理分类。
由上面的问题分析可以分析出用户的需求:用户已经有了一个业务数据库,而且积累了大量的数据,用户希望可以利用这些数据将客户合理分类,以便公司制定各种营销和服务活动,增加销售收入。
2.1数据预处理
数据预处理技术可以改进数据的质量,对挖掘数据进行压缩、归约等处理,从而有助于提高其后的挖掘过程的精度和运行性能。数据预处理包括一些复杂的过程,一般包括数据清理、数据集成、数据变换、数据归约。
1)数据清理。数据清理要去除数据集中的噪声数据和无关数据,处理遗漏数据和清洗脏数据,取出空白数据域和知识背景上的白噪声,考虑时间顺序和数据变化等。主要包括重复数据处理和缺值数据处理,并完成一些数据类型的转换。论文参考。比如,数据库中大量存在null值,这将会影响我们最终的挖掘结果,怎样才能为该属性填上空缺的值呢?我们可以忽略该条记录,也可以使用最可能的值人工填写空缺值,或者使用一个全局常量(或该属性的平均值)填充空缺值。论文参考。
2)数据集成。数据集成主要是将多文件或多数据库运行环境中的异构数据进行合并处理,解决语义的模糊性。该部分主要涉及数据的选择、数据的冲突解决以及不一致数据的处理问题。比如,数据分析者或计算机如何才能确信一个数据库中的customer _id 和另一个数据库中的customer_number 指的是同一实体?通常,我们通过元数据(关于数据的数据)来解决这个问题,这种元数据可以帮助避免模式集成中的错误。
3)数据变换。数据变换主要是找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式,包括:规格化、归约、切换、旋转和投影等操作。比如,在数据库的客户信息表中并没有设置某个字段来记录客户的访谈记录情况(>=40 或20...40 或<=20),通过SQL 语句也只是能得到该客户的访谈记录的具体数量,这里就必须进行数据变换,将属性数据离散化,以适应数据挖掘的需要。
4)数据归约。有些数据属性对发现任务是没有影响的,这些属性的加入会大大影响挖掘效率,甚至还可能导致挖掘结果的偏差。因此,有效的缩减数据是很必要的。
5)事实表:把所有的度量值合成到一张表中,这张表就是事实表,事实表中存放的是所有用户所关心的数据,分析时通过按不同的维度,查看、翻转、切片数据来得到关心的信息。
6)维度表:维度表存放了事实数据的描述信息,一般包括时间、地点等信息。
3 所选分类算法的研究
3.1决策树的生成
本次数据挖掘的基本算法可以描述如下:
首先确定所要生成的决策树的相关分类 C,如“关键客户”,“主要客户”,“一般客户”,“潜在客户”。
树以代表训练样本的单个节点开始。
如果样本都在属于 C,则该节点成为树叶,并标记该节点的概率权值为1。
否则,算法使用称为“信息增益”的基于熵的度量作为启发信息,选择能够最好的将样本分类的属性。该属性成为节点的“测试”或“判定”属性。
对于测试属性的每个已知的值,创建一个分支,并据此划分样本。论文参考。
算法使用同样的过程,递归的形成每个划分上的样本决策树。一旦一个属性出现在一个节点上,就不会在该分支再次出现。
递归划分步骤当且仅当下列条件之一成立时停止:
1) 给定节点的所有样本都属于C或者都不属于C。此时当前节点成为叶子节
点,并标记该节点的概率权值为1或0。
2) 有剩余属性可以用来进一步划分样本。此时当前节点成为叶子节点,并
标记该节点的概率权值为C类样本在样本中所占比例。
3) 分支test_attribute=ai没有样本。在这种情况下,以样本中的多数类创建一个树叶。
3.2 决策树的剪枝
在决策树构造时,许多分支可能反映的是训练数据中的噪声或孤立点。树剪枝试图检测和剪去这种分支,以提高在未知数据上分类的准确性。通常使用统计度量,剪去最不可靠的分支,这将导致较快的分类,提高树独立于测试数据正确分类的能力,目前剪枝方法主要有以下几种:
1)减小错误修剪法(Reduced Error Pruning):此方法由Quinlan提出。在此方法中,检测决策树中非叶的节点,当此节点被最佳的叶取代而产生的错误数目小于或者等于之前未修剪的决策树的错误数目,则修剪成功;否则修剪失败,放弃修剪。
2)悲观错误修剪法(Pessimistic Error Pruning):此方法同样是由Quinlan提出的。Quinlan发现,当用产生决策树的训练数据来检测错误率时,实际上对错误的估计过于乐观了。
3)基于代价复杂度的修剪法(Cost Complexity Pruning):此方法由Breiman等提出,主要包括:按照一些启发式的方法由原决策树产生一系列子树{T0,T1,T2,……,TL};通过评价以上子树的错误率来选择一个最好的子树以取代原决策树。
4)代价敏感(Cost Sensitive)的决策树修剪方法:上述决策树修剪方法均是通过分析错误率的大小来决定是否进行修剪。对于所有这些错误,假设它们的严重性都是等同的。但在现实生活中,情况并非如此,往往不同的错误具有不同的严重性。
我们可以根据编码所需的二进位位数,而不是根据期望错误率,对树进行剪枝。所得的“最佳剪枝树”使得编码所需的二进位最少。这种方法采用最小描述长度原则。这一原则遵循的理念是最简单的解是最期望的。不想代价复杂性剪枝,它不需要独立的样本集。
3.3由决策树提取分类规则
决策树很容易转换成分类规则,并以IF-THEN 形式的分类规则表示。对从根到树叶的每条路径创建一个规则。沿着给定路径上的每个属性-值对形成规则前件(“IF”部分)的一个合取项。叶节点包含类预测,形成规则后件(“THEN”部分)。IF-THEN规则易于理解,特别是当给定的树比较大的时候。
图1:概念buys computers的决策树,
指出顾客是否购买计算机
沿着由根节点到树叶节点的路径,图1的决策树可以转换成如下的IF-THEN
分类规则:
IF age=”<=30” AND student=”no” THENbuys_computers=”no”
IF age=”<=30” AND student=”yes” THENbuys_computers=”yes”
IF age=” 30...40” THEN buys_computers=”yes”
…… …… ……
3.4 算法的复杂性分析
假设参与分类算法的客户记录数为n,共有分析属性p个,分析属性值为q个ID3 算法扫描每条数据记录q×p 次,若每次扫描数据记录耗费一个单位时间,则法的时间复杂性为 O(n)。
4 系统的详细设计
4.1 系统结构的设计
系统大致可以分成三层:数据层(包括业务数据库和数据仓库)、业务逻辑层、数据展现层。如图2。
图2:系统的层次结构
4.2 业务逻辑层的设计
业务逻辑层同样分为三层:Facade层、BO 层、DAO层。如下图3所示。将业务逻辑层分层的主要目的在于提高系统的重用性、可维护性、可移植性。
图3 业务逻辑层设计
DAO Factory和DAO都属于DAO层,DAO封装访问数据层的所有方法,一般来说,一个DAO只对应一张数据库表,由DAO Factory 实例化不同数据表对应的DAO。将DAO层作为独立的一层的主要优势在于:
1)上层(BO层)在实现对数据层操作时只需要调用该层提供的统一接口,提高了代码的重用性,也大大简化了开发。
2)通过提供操作接口使得该层的功能实现对上层透明,当需要对数据库操作进行修改时,无须修改上层的大量程序文件,而只需修改该层的方法,降低了层与层之间的耦合度,增强了灵活性。
3)该层作为功能独立的一层,可以作为独立组件重用,提高了软件的可复用性。
BO层封装具体的业务操作逻辑,根据不同的逻辑调用不同的DAO方法以取得相应的结果,比如根据权限的大小限定用户可以查看的结果。在BO层可以调用多个DAO,即可以操作多张数据库表。
Facade层对外提供统一的接口,因为在完成一个功能调用的时候可能会涉及到多个BO。为了最小化下层的修改对上层的影响,用户调用的是Facade 层的方法,而不是直接让用户来调用BO 层的方法。Facade 层可以直接调用DAO 层的方法,也可以通过BO层来调用DAO层的方法,这取决于具体的业务需要。
另外,DAO返回的只是相应数据库表的内容(对应Data Object),当需要联合显示多个数据库表的内容时,在Facade 层做相应的数据拼装(由多个Data Object 按需要组合成Facade Data Object),以适应数据展现层的表示需要。这样做一方面提高了系统的安全性,另一方面减小了访问客户端的负担。
5 结束语
数据挖掘的进行不是在设计和建造阶段就可以最终确定的,要经过用户的反复验证和不断改进才可以做到真正满足用户的需要。因此,还存在进一步的工作有待完善。
??数据挖掘出来的知识,只是相对于某一时间的某些数据的,新的数据可能使发现的新知识与原来的知识冲突。
??根据已经有的分类算法分析出的结果,不断优化分类算法和参数值的设置,使挖掘出的结果更加符合用户的需求。
??发掘用户其他需求,建立新的挖掘模型,添加到已有系统中,进一步增强系统的功能。
参考文献:
[1] 李冠乾,许亮. CRM 数据挖掘中关联规则的应用. 昆明理工大学学报-理工版. 2004年2月,第29卷,第1期.
[2] 蔡淑勤,刘至高,梁凯春,王略. 基于Web的CRM应用系统技术支持平台研究. 武汉理工大学学报-信息与管理工程版. 2005年2月,第27卷,第1期.
[3] 黄解军,万幼川. 基于数据挖掘的电子商务策略. 计算机应用与软件. 2004年6月,第21卷,第7期.
关键词:数据挖掘 客户细分 精准营销
中图分类号:F274 文献标识码:A
文章编号:1004-4914(2010)10-267-02
随着3G业务的全面展开,运营商进入了全业务运营时代,中国移动面临着前所未有的激烈竞争,如何在全业务运营时代更好地了解用户,增加用户黏度,提高现有业务的用户忠诚度是中国移动应对其他运营商的关键所在。
3G时代将带来更多丰富多彩的业务应用,同时随着客户群体越来越向小众化、复杂化发展,终端用户对多元化业务的需要以及对高质量信息服务的要求也不断提高,这对运营商精准营销能力提出了新的挑战。“真正为客户提供所需要的应用”已经成为电信运营商营销创新的重点所在。电信运营商需要进行营销理念转变,必须依靠先进的技术手段实现电信业务的深度运营和精准营销,实现产品、管理及商务模式的创新,从粗放式营销向精准营销和深度营销转变。
一、传统客户细分方法分析
传统的客户细分方法包括基于调查资料的细分和基于客户价值的细分。基于调查资料的客户细分方法一般是基于市场调查得到的资料进行细分,优点是细分的维度较少,细分的结果容易理解,但缺点是支撑细分的对象只是少量的客户样本,因此细分结果的实施会很被动,只能等待有类似特征和需求的客户主动上门。基于客户价值的细分方法操作简单,可以识别出电信企业的高价值客户,但缺点是无法揭示各类群体在通信业务需求中的差异性,所以无法在市场营销中帮助运营商进行差异化的方案设计。
二、数据挖掘的客户细分方法
基于数据挖掘的客户细分方法是数据挖掘技术和电信企业丰富数据资源的完美结合,其特点是充分利用了电信企业内部数据,细分维度多,不仅包含客户属性,客户消费行为,还包括客户消费心理等多种因素,因此可以帮助电信企业多层面、多角度地了解客户的差异。如果将基于数据挖掘的客户细分和基于市场调查的客户细分等方法相结合,客户细分将更加完美。
客户细分是基于客户业务需求的细分,消费行为和消费价值维度能直接反映电信客户的业务需求差异,同时电信企业拥有大量的客户行为和价值数据。因此,基于行为和价值的客户细分对电信企业更具有实际意义。通过数据挖掘的聚类分析方法将有助于将客户群根据其消费行为和价值的内在差异进行合理细分。
三、数据挖掘客户细分在长沙移动增值手机订票业务中的应用
1.长沙移动手机订票精准营销系统内涵。根据长沙移动对于手机订购电影票业务的推广需求提出的,采用数据挖掘技术和分析方法对网络数据和用户数据进行分析,并对数据进行采集及关联分析的解决方案。系统通过采用一系列算法对用户市场数据和用户网络数据进行关联分析和其他挖掘分析,发现各种有价值的用户信息,以帮助长沙移动针对手机订票业务开展精准营销服务。
2.手机订票精准营销系统分析方案。该系统主要针对电影票的手机销售,其总体目标有两个,分别是:
(1)帮助长沙移动提高手机订票业务的用户渗透率和业务认知度。
(2)帮助长沙移动提高现有手机订票业务的使用普及率和成功率。为达成这个目标,必须对手机用户进行客户细分,以识别目标观影用户群,排除疑似工作人员和其他人员干扰,并确定目标观影用户群的小区(上接第267页)分布情况和分时段小区分布情况,分析目标观影用户群的移动性、社会联系性和订票观影行为特征,同时分析订票业务的关键影响因素和订票流程、用户短信交互行为,旨在提高尝试订票用户的购买成功率。系统的整体分析方案见表1。
按照业务问题和数据分析要求,必须对采集的海量网络数据进行全面整合和处理,形成有关网络和终端用户的全息数据库。针对具体手机订票业务特点,提出业务精准营销解决方案框架设计,根据该业务框架进行相应数据分析,为精准营销提供数据和建议参考。
系统收集业务需要的部分网络数据,并根据业务设计的逻辑框架进行数据分析,由于数据的局限性,仅进行部分专题内容分析,完整的业务分析将有待于进一步开展。
系统数据收集范围显示了以长沙万达影院为目标影院,三天系统网络数据收集的情况,数据覆盖大部市区,数据量为800G。
系统利用这些数据,对客户进行行为分析,以识别观影用户、进行营销手段评估,并分析影响用户手机购买的关键因素。
3.建立手机订票精准营销数据分析模型提高购买成功率。为提高目标用户对业务的认知度和提高使用用户的购买成功率,本文提出手机订票业务精准营销数据分析模型,从识别观影用户、营销手段评估,影响用户手机订票的关键因素分析这三个方面对数据进行分析聚类。(1)识别观影用户。该部分目的在于帮助运营商深入了解目标客户群,通过对网络数据中目标观影用户的识别,并通过关联技术手段排除工作人员和其他非观影人员,确定手机订票业务的真正用户群体。并且对于这部分用户进行深入分析,建立全面多维的用户档案。(2)营销手段评估。通过对目标用户的聚集度、社会活跃性和订票观影行为的深入分析,对目标用户群体进行建模,根据用户的不同特征特点,对不同的营销方案进行效果评估,并根据用户模型优选营销方案建议。(3)影响用户手机购买的关键因素分析。通过识别出尝试进行手机订票的用户,并对购票成功影响因素的分析,对用户行为和订票流程进行关联分析,确定影响购买的漏斗模型,并提出流程及业务改进建议,帮助更多的用户成功购票。
随着中国电信业改革不断深入,电信运营商之间对客户的争夺也越来越激烈。为了适应这种竞争,中国移动进行了战略转型,由“移动通信专家”转型为“移动信息专家”,开展全业务运营,重点发展增值业务等数据业务。而且随着竞争加剧,电信运营商在争夺用户市场的同时必须降低市场营销成本,那么如何识别潜在客户,如何选择有效的营销手段进行精准营销就成为市场竞争中获胜的关键。同时,电信行业是典型的数据密集行业,其业务数据中隐含着大量对企业有价值的信息,通过基于数据挖掘技术的“精准营销”可以帮助我们发现顾客需要、分析顾客行为、评估顾客价值,进而有针对性地制定营销策略,满足客户个性化的需求。
参考文献:
1.韩家炜.数据挖掘:概念与技术.机械工业出版社,2006
2.范爱民.精细化管理[M].中国纺织出版社,2005
3.彭清圳.基于数据挖掘的电信精细化营销策略研究.北京邮电大学硕士论文,2008
4.林志宏.以精细营销为目标的移动通信增值业务客户行为分析.北京邮电大学硕士论文,2008
5.樊奕.基于数据挖掘的电信企业精确营销.北京邮电大学硕士论文,2006
6.王春,谢忠,徐士才,张海鹰.3G时代增值业务运营研究.商业时代,2009(7)
7.朱海松.4I模型:3G时代的营销方法与原理.2009