时间:2022-09-07 10:10:47
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘技术研究,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
当前,数据库技术和网络技术的发展日趋成熟,世界上传统商务也正在经历一次重大的改革,电子商务成为发展重点。电子商务的一个重要应用技术就是数据挖掘技术,并且数据挖掘技术可以给正确的商业决定提供可靠的保证和强有力的支持,因此,数据挖掘技术被认为是电子商务中必不可少的工具。
一、数据挖掘技术的概念和应用
数据挖掘就是对数据仓库中存储的大量数据进行挖掘,来找出有意义的新的关联趋势和关联模式的过程。从商业的角度看,数据挖掘技术是一个对商业信息进行处理的新技术,具有能够分析、转换、抽取和其他模型化处理商业数据库中大量业务数据,从中提取出能够辅助商业决定的关键性数据的特点。
因为数据挖掘可以给电子商务带来显著的经济效益,所以其在电子商务中也有越来越广泛的应用。
数据挖掘应用于零售业,能够帮助商家识别顾客的购买行为,发现顾客的购买趋势和模式,从而可以帮助商家有针对性的提高服务质量,获得更好的顾客满意度与顾客保持力,提高货物的销量,设计出更好的货物分销与运输方法,降低商业成本。
数据挖掘应用于金融领域,能够帮助管理者分析客户的信用情况与偿还能力,并对其进行分类和评级,从而降低放贷的错误率,提升资金的使用效率。通过数据挖掘,还可以找到在偿还中有决定作用的主导因素,制定相应的金融策略,还能够发现洗黑钱和其它金融犯罪活动。
二、如何选择正确的数据挖掘技术
数据库方法、神经网络方法、机器学习方法和统计方法都是数据挖掘所使用的技术。本文将从可获得的数据与数据挖掘任务两个方面来说明如何选择正确的数据挖掘技术。
2.1 可获得的数据
数据挖掘可获得的数据信息主要是内容、记录和字段类型之间的关系,并且对数据挖掘技术的选择有影响的数据性质有以下几个:
第一,数值字段:聚集检测和MBR使用距离函数对数值字段进行处理;神经元网络把所有的输入转化到0-1之间;决策树使用splitter数值对数值字段进行处理;关联分析需要把数值变量区间转化为种类变量区间,但是区间的选择十分困难。
第二,种类字段:决策树、连接分析、关联分析都很适用于种类字段。
第三,多个非独立的目标字段:神经元网络可以很好地应用于存在多个依赖变量的情况。
第四,自由文本数据:采用MBR技术是最佳选择。
第五,具有时间顺序的数据:关联规则、神经元网络对有时间顺序的数据有比较好的处理能力。时间顺序也可以用决策树处理,但是需要准备较多的数据。
第六,每条记录都有大量独立的字段:关联规则挖掘、MBR技术、神经元网络都会受到记录中字段多的影响。但是决策树就会受到程度较小的影响。
第七,变长的记录:只有连接分析和关联规则能够对变长的记录进行处理,而如果使用其它技术,就需要对数据进行预处理:把一条记录拆分为几条记录,每个都含有记录号;能够生成一些统计字段。
2.2 数据挖掘任务
从数据中发现模式是数据挖掘的任务。在对某种数据挖掘技术进行选择之前,第一,要把需要解决的商业问题转化成正确的数据挖掘任务;第二,依照数据挖掘的任务来决定使用几种或者是哪一种数据挖掘技术。以下将以聚集和概念描述为例,对挖掘任务需要使用哪些挖掘技术进行分析。
(1)聚集。聚集就是把整个数据库分为不同的群组。其目的是使同一个群之间的数据尽量相似,而不同的群之间要有很明显的差别。协助市场分析人员在客户基本信息库中找出不同的客户群,并用购买模式对不同客户群的特征进行刻画是电子商务中对聚集的典型应用。另外,聚类分析也能作为分类、特征等其他算法的预处理步骤,这些算法可以再在生成的簇上进行处理。聚集与分类不同的是,在开始之前一般不知道该把数据分成几组和怎样分,所以要有一个对业务特别熟悉的人在聚集之后对这样分群的意义进行解释。一般情况下,需要经过几次反复的增加或删除变量才能得到理想的结果。
(2)概念描述。描述式数据挖掘的最基本形式就是概念描述。概念描述以简洁汇总的形式对给定的任务的相关数据集进行描述,提供数据的一般特征。一般,通过数据库来查询收集用户指定类的数据。有两种概念特征化的一般方法:面向属性归纳的方法和基于数据立方体OLAP的方法,这两种方法都是基于维或属性的概念化方法。一般使用面向数据库的方法实行概念描述挖掘,并且还能够采用机器学习方法中的基于范例学习的技术来进行。
三、小结
选择能够解决电子商务中一些问题的数据挖掘技术的时候,需要根据具体问题的特点来选择合适的技术方法,在选择了符合数据模型的算法之后,就要确定正确的模型与参数。并且要想很好的发挥数据挖掘能够帮助企业在激烈的竞争中做出正确决定的作用,就必须选对合适的数据挖掘工具。
参考文献
[1]胡永祥.电子商务系统中的数据挖掘技术研究[J].电子世界,2013,(24):25-25.
[2]徐羡文,郑厦君.数据挖掘技术在电子商务推荐中的应用[J].电脑知识与技术,2011,07(27):65-66.
【关键词】数据挖掘;电子商务系统
1.前言
数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。它是一门涉及面很广的交叉学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术,数据挖掘是一个包含多个处理步骤的知识发现过程,其主要内容包括数据清洗、数据集成、数据选择、数据转换、数据挖掘、模式评估和知识表达输出等。
把数据挖掘技术应用到电子商务系统中,开发出基于数据挖掘技术的电子商务系统能够加深和加强对电子商务系统数据的分析功能,为电子商务企业管理人员提供电子商务的预期信息,从而能很好的保证电子商务网站的运行效果。
现在电子商务系统主要形式B2C,涉及的数据不仅包括客户在电子商务网站上的交易数据,还包括客户的注册信息数据和商品信息等数据。电子商务系统的数据有如下特点:
(1)数据量大;
(2)数据质量差;
(3)数据种类多。
2.电子商务系统功能模块结构设计
根据B2C电子商务系统设计的目标,管理业务流程,将这个B2C电子商务系统分为:会员注册管理、会员帐户管理、商品购买管理、会员管理、商品类别管理、商品管理、优惠券管理、订单管理、留言板管理、商品评论管理、库存管理、网站管理和数据挖掘管理等功能模块(如图1所示)。
3.数据挖掘管理模块的设计
B2C电子商务数据挖掘管理模块主要通过对电子商务企业当前的和历史的交易数据进行分析。挖掘出其中隐含的知识和从中发现隐含的趋势和规律。它主要包括数据预处理模块、数据挖掘模块和数据挖掘结果显示模块。B2C电子商务数据挖掘系统从电子商务运行商品数据库、客户信息数据库和交易数据库中获取数据,根据数据挖掘算法的需要进行数据预处理,并建立数据挖掘模型,供电子商务企业的用户挖掘时使用。用户只需要输入简单的一些参数,系统就会自动的根据已建立的模型输出预测结果。电子商务挖掘系统体系结构如图2所示。
3.1 数据预处理模块
数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上面进行挖掘,需要做数据预处理工作,其一般包括数据的选择、数据清理、数据集成和转换。数据预处理是否做好将影响数据挖掘的效率和准确度以及最终模式的有效性。这些处理技术在数据挖掘之前使用可以大大提高数据挖掘模式的质量,降低实际挖掘所需要的时间。原始数据通过数据选择、清理、集成和转换后生成数据挖掘库,为下一步的数据挖掘做好准备。
3.2 数据挖掘模块
数据挖掘的目的是生成可以据其所示的含义采取行动的知识,也就是建立一个现实世界的模型。数据挖掘的本质就是数学建模。在数据挖掘中,可以使用许多不同的模型,如分类模型、回归模型、时间序列模型、聚类模型和关联规则模型。针对同一模型,可以使用不同的算法进行数据挖掘。算法的目的就是找到适合于数据的模型。数据挖掘涉及到多步骤、各系统间的交互、特殊解决方案及各步骤间的反复过程。
B2C电子商务网站中商品介绍页面的摆放就好比商店里的货架,商品介绍的摆放位置也会影响客户对商品的购买率。而商品之间的关联性一般不是很容易看出来的,一般人很难联想到商品之间的关联性,只有实际上通过对大量的交易历史数据的分析,才可以挖掘出它们之间的关联性。在数据挖掘过程中对关联产品和服务进行深入挖掘,可以发现其中的关联规则,利用关联规则模型进行数据挖掘可以了解客户的购买行为,这对于改进B2C电子商务商业活动的决策很有帮助。例如,可以通过改进商品介绍位置的摆放(把顾客经常同时买的商品摆放在一起),帮助如何规划市场(互相搭配进货)等。而作为B2C电子商务网站。可以针对不同客户特点动态调整网站结构,使客户访问的有关联的网页文件的链接更加直接,让客户更容易访问到自己想要的东西。这样的网站更能吸引客户,提高客户的忠诚度,提高网站的效益。
B2C电子商务网站网页主要为顾客展示商品名称或图片,为顾客推荐与当前感兴趣商品更详细或相关的网页是个性化推荐的关键。根据客户的注册信息和订单信息,通过回归模型挖掘可以为不同的用户提供个性化服务,例如系统可以向客户显示那些可能引起客户感兴趣的新商品。
随着“以客户为中心”的经营理念不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对B2C电子商务系统收集的客户的交易数据进行聚类模型挖掘,可以确定不同类万方数据型客户的行为模式,电子商务企业便可以采取相应的营销措施,促使企业利润的最大化。
3.3 数据挖掘结果显示模块
数据挖掘结果的显示模块是将数据挖掘后得到的知识和结果用可视化形式表示出来,例如采用图形化界面把挖掘结果显示给电子商务企业的管理人员。在建立好相关数学模型后,把实际数据作为输入信息,通过挖掘模型的计算获得预测结果。B2C电子商务企业要根据不同的挖掘结果做出不同的反应。采取不同的措施,给顾客提供不同的服务,在为顾客服务的同时也为自己的B2C电子商务企业获取更多的利润。
4.结论
本文讨论了把数据挖掘技术应用于B2C电子商务系统中,并采用J2EE的B/S架构将其实现,系统采用客户端、中间服务器和后台数据库三层架构。利用数据挖掘技术可以提高B2C电子商务企业现代化管理水平方面发挥着积极的作用,它能够提高B2C电子商务企业对客户管理和商品管理方面信息的准确性和及时性,可以帮助B2C电子商务企业网站的开发人员及时、全面了解B2C电子商务企业网站运营情况和合理安排网页的页面布局,为不同浏览习惯的顾客提供个性化服务,为各项具体工作提供技术、信息支持;有效地减少各种失误并保证B2C电子商务企业网站的各项任务保质保量、按计划完成,从而提高电子商务企业网站的运作效率。
参考文献
[1]朱明.数据挖掘[M].合肥:中国科学技术大学出版杜(第2版),2008.
[2]寰方,王煜,等.PaoloGiudici.实用数据挖掘[M].北京:电子工业出版,2004.
[3]廖芹,郝志峰.数据挖掘与数学建模[M].北京:国防工业出版社,2010.
关键词:电子商务;数据挖掘;应用
1概述
电子商务是指企业或个人以网络为载体,应用电子手段,利用现代信息技术进行商务数据交换和开展商务业务的活动。随着互联网的迅速发展,电子商务比传统商务具有更明显的优势,由于电子商务具有方便、灵活、快捷的特点,使它已逐渐成为人们生活中不可缺少的活动。目前电子商务平台网站多,行业竞争强,为了获得更多的客户资源,电子商务网站必须加强客户关系管理、改善经营理念、提升售后服务。数据挖掘是从数据集中识别出隐含的、潜在有用的、有效的,新颖的、能够被理解的信息和知识的过程。由数据集合做出归纳推理,从中挖掘并进行商业预判,能够帮助电子商务企业决策层依据预判,对市场策略调整,将企业风险降低,从而做出正确的决策,企业利润将最大化。随着电子商务的应用日益广泛,电子商务活动中会产生大量有用的数据,如何能够数据挖掘出数据的参考价值?研究客户的兴趣和爱好,对客户分门别类,将客户心仪的商品分别推荐给相关客户。因此,如何在电子商务平台上进行数据挖掘成为研究的热点问题。
2数据挖掘技术概述
数据挖掘(DataMining),也称数据库中的知识发现(Knowl⁃edgeDiscoveryinDatabase,KDD)。数据挖掘一般是指从海量数据中应用算法查找出隐藏的、未知的信息的过程。数据挖掘是一个在大数据资源中利用分析工具发现模型与数据之间关系的一个过程,数据挖掘对决策者寻找数据间潜在的某种关联,发现隐藏的因素起着关键作用。这些模式是有潜在价值的、并能够被理解的。数据挖掘将人工智能、机器学习、数据库、统计、可视化、信息检索、并行计算等多个领域的理论与技术融合在一起的一门多学科交叉学问,这些学科也对数据挖掘提供了很大的技术支撑。
3Web数据挖掘特点
Web数据挖掘就是数据挖掘在Web中的应用。Web数据挖掘的目的是从万维网的网页的内容、超链接的结构及使用日志记录中找到有价值的数据或信息。依据挖掘过程中使用的数据类别,Web数据挖掘任务可分为:Web内容挖掘、Web结构挖掘、Web使用记录挖掘。
1)Web内容挖掘指从网页中提取文字、图片或其他组成网页内容的信息,挖掘对象通常包含文本、图形、音视频、多媒体以及其他各种类型数据。
2)Web结构挖掘是对Web页面之间的结构进行挖掘,挖掘描述内容是如何组织的,从Web的超链接结构中寻找Web结构和页面结构中的有价值模式。例如从这些链接中,我们可以找出哪些是重要的网页,依据网页的主题,进行自动的聚类和分类,为了不同的目的从网页中根据模式获取有用的信息,从而提高检索的质量及效率。
3)Web使用记录挖掘是根据对服务器上用户访问时的访问记录进行挖掘的方法。Web使用挖掘将日志数据映射为关系表并采用相应的数据挖掘技术来访问日志数据,对用户点击事件的搜集和分析发现用户导航行为。它用来提取关于客户如何浏览和使用访问网页的链接信息。如访问了哪些页面?在每个页面中所停留的时间?下一步点击了什么?在什么样的路线下退出浏览的?这些都是Web使用记录挖掘所关心要解决的问题。
4电子商务中Web挖掘中技术的应用分析
1)电子商务中序列模式分析的应用
序列模式数据挖掘就是要挖掘基于时间或其他序列的模式。如在一套按时间顺序排列的会话或事务中一个项目有存在跟在另一个项目后面。通过这个方法,WEB销售商可以预测未来的访问模式,以帮助针对特定用户组进行广告排放设置。发现序列模式容易使客户的行为被电子商务的组织者预测,当用户浏览站点时,尽可能地迎合每个用户的浏览习惯并根据用户感兴趣的内容不断调整网页,尽可能地使每个用户满意。使用序列模式分析挖掘日志,可以发现客户的访问序列模式。在万维网使用记录挖掘应用中,序列模式挖掘可以用于捕捉用户路径之中常用的导航路径。当用户访问电子商务网站时,网站管理员能够搜索出这个访问者的对该网站的访问序列模式,将访问者感兴趣但尚未浏览的页面推荐给他。序列模式分析还能分析出商品购买的前后顺序,从而向客户提出推荐。例如在搜索引擎是发出查询请求、浏览网页信息等,会弹出与这些信息相关的广告。例如购买了打印机的用户,一般不久就会购买如打印纸、硒鼓等打印耗材。优秀的推荐系统将为客户建立一个专属商店,由每个客户的特征来调整网站的内容。也能由挖掘出的一些序列模式分析网站及产品促销的效果。
2)电子商务中关联规则的应用
关联规则是揭示数据之间隐含的相互关系,关联分析的任务是发现事物间的关联规则或相关程序。关联规则挖掘的目标是在数据项目中找出每一个数据信息的内在关系。关联规则挖掘就是要搜索出用户在服务器上访问的内容、页面、文件之间的联系,从而改进电子商务网站设计。可以更好在组织站点,减少用户过滤网站信息的负担,哪些商品顾客会可能在一次购物时同时购买?关联规则技术能够通过购物篮中的不同商品之间的联系,分析顾客的购物习惯。例如购买牛奶的顾客90%会同时还购买面包,这就是一条关联规则,如果商店或电子商务网站将这两种商品放在一起销售,将会提高它们的销量。关联规则挖掘目标是利用工具分析出顾客购买商品间的联系,也即典型购物篮数据分析应用。关联规则是发现同类事件中不同项目的相关性,例如手机加充电宝,鼠标加鼠标垫等购买习惯就属于关联分析。关联规则挖掘技术可以用相应算法找出关联规则,例如在上述例子中,商家可以依据商品间的关联改进商品的摆放,如果顾客购买了手机则将充电宝放入推荐的商品中,如果一些商品被同时购买的概率较大,说明这些商品存在关联性,商家可以将这些有关联的商品链接放在一起推荐给客户,有利于商品的销售,商家也根据关联有效搭配进货,提升商品管理水平。如买了灯具的顾客,多半还会购买开关插座,因此,一般会将灯具与开关插座等物品放在一个区域供顾客选购。依据分析找出顾客所需要的商品的关联规则,由挖掘分析结果向顾客推荐所需商品,也即向顾客提出可能会感兴趣的商品推荐,将会大大提高商品的销售量。
3)电子商务中路径分析技术的应用
路径分析技术通过对Web服务器的日志文件中客户访问站点的访问次数的分析,用来发现Web站点中最经常访问的路径来调整站点结构,从而帮助使用用户以最快的速度找到其所需要的产品或是信息。例如在用户访问某网站时,如果有很多用户不感兴趣的页面存在,就会影响用户的网页浏览速度,从而降低用户的浏览兴趣,同时也会使整个站点的维护成本提高。而利用路径分析技术能够全面地掌握网站各个页面之间的关联以及超链接之间的联系,通过分析得出访问频率最高的页面,从而改进网站结构及页面的设计。
4)电子商务中分类分析的应用
分类技术在根据各种预定义规则进行用户建模的Web分析应用中扮演着很重要的角色。例如,给出一组用户事务,可以计算每个用户在某个期间内购买记录总和。基于这些数据,可以建立一个分类模型,将用户分成有购买倾向和没有购买倾向两类,考虑的特征如用户统计属性以及他们的导航活动。分类技术既可以用于预测哪些购买客户对于哪类促销手段感兴趣,也可以预测和划分顾客类别。在电子商务中通过分类分析,可以得知各类客户的兴趣爱好和商品购买意向,因而发现一些潜在的购买客户,从而为每一类客户提供个性化的网络服务及开展针对性的商务活动。通过分类定位模型辅助决策人员定位他们的最佳客户和潜在客户,提高客户满意度及忠诚度,最大化客户收益率,以降低成本,增加收入。
5)电子商务中聚类分析的应用
聚类技术可以将具有相同特征的数据项聚成一类。聚类分析是对数据库中相关数据进行对比并找出各数据之间的关系,将不同性质特征的数据进行分类。聚类分析的目标是在相似的基础上收集数据来分类。根据具有相同或相似的顾客购买行为和顾客特征,利用聚类分析技术将市场有效地细分,细分后应可每类市场都制定有针对性的市场营销策略。聚类分别有页面聚类和用户聚类两种。用户聚类是为了建立拥有相同浏览模式的用户分组,可以在电子中商务中进行市场划分或给具有相似兴趣的用户提供个性化的Web内容,更多在用户分组上基于用户统计属性(如年龄、性别、收入等)的分析可以发现有价值的商业智能。在电子商务中将市场进行细化的区分就是运用聚类分析技术。聚类分析可根据顾客的购买行为来划分不同顾客特征的不同顾客群,通过聚类具有类似浏览行为的客户,让市场人员对顾客进行类别细分,能够给顾客提供更人性化的贴心服务。比如通过聚类技术分析,发现一些顾客喜欢访问有关汽车配件网页内容,就可以动态改变站点内容,让网络自动地给这些顾客聚类发送有关汽车配件的新产品信息或邮件。分类和聚类往往是相互作用的。在电子商务中通过聚类行为或习性相似的顾客,给顾客提供更满意的服务。技术人员在分析中先用聚类分析将要分析的数据进行聚类细分,然后用分类分析对数据集合进行分类标记,再将该标记重新进行分类,一直如此循环两种分析方法得到相对满意的结果。
5结语
随着互联网的飞速发展,大数据分析应用越来越广。商业贸易中电子商务所占比例越来越大,使用web挖掘技术对商业海量数据进行挖掘处理,分析客户购买喜好、跟踪市场变化,调整销售策略,对决策者做出有效决策及提高企业的市场竞争力有重要意义。
参考文献:
[1]庞英智.Web数据挖掘技术在电子商务中的应用[J].情报科学,2011,29(2):235-240.
[2]马宗亚,张会彦.Web数据挖掘技术在电子商务中的应用研究[J].现代经济信息,2014(6):23-24.
[3]徐剑彬.Web数据挖掘技术在电子商务中的应用[J].时代金融,2013(4):234-235.208
[4]周世东.Web数据挖掘在电子商务中的应用研究[D].北京交通大学,2008.
关键字:云计算;物联网;数据挖掘模式;研究
物联网其实就是指物和物之间相互联系的互联网,随着社会科学技术的不断发展和进步,促进了互联网的快速发展,也让社会经济得到了很好的发展。云计算主要就是指对相关的信息进行虚拟化的计算和存储,对各种信息在互联网上进行规范和整理,这样就能够有效的形成很多个计算中心和数据。
一、基于云计算的物联网
物联网其实就是一个比较大而且分布也非常广泛的物和物的互联网,主要作用就是对生活中的各种事物进行监控,随着物联网的不断发展,现在也接入了很多的应用终端,其中就包括了湖泊、建筑物以及交通设施等。一般来说,云计算物联网数据挖掘就是指通过对云计算来解决物联网数据挖掘存在的问题。首先建立一个能够全面捕捉物联网数据的分布式时空数据库,然后在云计算的平台上,全面的对物联网系统的数据进行挖掘。云计算中的数据挖掘主要就是通过对相关的数据进行分析研究,从而知道通过这种方式进行数据挖掘,物联网进行数据挖掘的相关工作将能够被完美的执行与完成。
二、基于云计算的数据挖掘平台
在工作中,能够提供高可用性和更多的动态资源池的计算机平台,将能够很好的实现云计算的数据挖掘。在对那些可用性比较高的应用程序进行开发的时候就可以选择使用基于云计算的数据挖掘平台,在利用云计算对数据进行挖掘的时候也可以采用基于云计算的数据挖掘平台。一般情况下,可以通过软件分层的理念,对物联网的基于云计算的数据挖掘平台系统进行一定的分层处理。云计算的数据挖掘系统从下而上可以分为算法层、任务层和用户层三层。各层系统的相关工作,都需要相互配合才能够完成。软件中的下层可以向它的上层提供相关的服务内容,而上层在对下层的服务进行调用的时候主要就是通过上层层间的开发接口来完成的,这样就能够有效的保证基于云计算的数据挖掘平台系统当中的各个层之间的功能能够比较的独立。采用这样的一种设计模式主要就是为了在对系统进行二次开发的时候能够比较的方便。
在构建基于云计算数据挖掘模式的时候主要就是通过积极的应用云计算的服务模式,那么在这样的一种情况下建立起来的基于云计算数据挖掘平台它们当中的每一个部分在实际提供服务的过程当中都能够比较独立的去完成。操作人员在使用基于云计算数据挖掘平台的时候主要就是经过互联网来连接数据挖掘平台,在监控使用账户的管理系统时,主要就是在SaaS、PaaS以及DaaS这三个系统当中来完成的。在数据挖掘平台当中的任何环节都是在云计算服务的模式中。在数据挖掘平台当中的账户管理系统主要就是指管理使用者的实际服务情况的一个系统,它对使用者的账户信息有一个比较全面的记录,它主要就是把用户在平台当中使用设备的情况以及服务的情况比较详细的记录下来形成一个账目,这样就能够为使用者提供一个比较全面的数据使用的资源。在数据挖掘平台当中的数据管理子系统主要是指管理用户的数据资源。这个数据管理子系统主要就是在云计算中的DaaS服务模式下进行工作的,用户在购买数据等相关活动的时候就是通过这个系统来完成的。数据管理子系统能够对使用者的隐私起到很好的保护作用,而且使用者在处理了数据之后还能够进行再次的出售。在数据挖掘平台当中的子挖掘系统主要的作用就是发现用户数据当中的知识,让数据挖掘目标能够有效的实现,在在数据挖掘平台中子挖掘系统是最主要的部分,它的专业性比较的强。
三、基于云计算的物联网数据挖掘模式
物联网的整个环境决定了物联网数据挖掘的模式,因为物联网当中的数据类型比较复杂,而且物和物之间的关联以及相关的特性也不一样,那么这些情况可能就会使得在构建物联网数据挖掘模式的时候就会和传统的数据挖掘模式不相同。
在使用物联网的过程中,常常会出现一些问题,如在发送与接收数据的时候可能出现部分或者是全部信息出错甚至是丢失。出现这些现象的原因,可能是物联网系统的原因,也可能是其他什么原因。那么基于云计算物联网数据挖掘模式就应该要考虑到这种情况,在构建物联网数据挖掘应用模型的时候,必须考虑对物与物之间的关系的表达,这样才能有效的解决数据的错误与丢失。如果物与物存在间接的关系的时候,可以采用SVD模型或者是拉普拉斯变换模型进行推导。如果物与物之间存在非常重要的直接关系时,物联网数据挖掘模式应该要具有表达出物和物之间直接关系的能力,这样在对物和物的间接关系进行推导的时候才会比较的方便。物联网数据挖掘模型当中的一种就是基于超图的物联网数据模型,在超图当中的每一个变都能够和很多的点进行联接,对于物联网当中数据之间比较复杂的关系可以通过超边来进行标示。物联网数据挖掘模型当中的另外一种就是基于马尔科夫链的数据挖掘模型。在基于马尔科夫链的数据挖掘模型中,对于进行预测未来可能会出现的现象的概率时,不需要根据以前的信息或知识,只需要根据现在的信息或知识就能够完成。在物联网的数据实际应用当中,这一类问题最常见的。
稳定的可外推参数模型是物联网数据挖掘模型中的另外一种数据挖掘模型。在物联网数据的实际应用当中,在进行物理建模的时候应该要先要了解到物和物之间的关系,然后建立起数据模型来描述数量上面的相互关系,但是因为物联网数据的类型比较复杂,有可能会出现错误或者丢失的情况,所以采用传统的方法进行物理建模会有很多的困难。
参考文献
[1]刘茂华,史文崇. 物联网数据处理之浅论[J]. 计算机与信息技术,2011,06:52-53.
[2]丁静,杨善林,罗贺,丁帅. 云计算环境下的数据挖掘服务模式[J]. 计算机科学,2012,S1:217-219+237.
作者简介:
关键词:隐私保护;数据挖掘;数据库应用
0、引言
随着网络技术和通信技术的日益成熟以及网络通信带宽的不断增加,越来越多的数据在网上进行和交换,丰富的数据资源一方面加大了数据分析和数据挖掘的需求,另一方面,数据资源的隐私保护问题给数据挖掘提出了新的挑战。
1 隐私保护中的关键问题
1.1 隐私
隐私是指个人、机构等实体不愿意被外部知晓的信息[1]。比如,个人的行为模式、兴趣爱好、健康状况、公司的财务状况等。个人隐私即为数据所有者不愿意被披露的敏感信息,如个人的收入水平、健康状况、兴趣爱好等。由于人们对隐私的限定标准不同,对隐私的定义也有所差异。一般来说,任何可以确认特定个人的,但个人不愿意披露的信息都可以称为个人隐私。
1.2 数据挖掘
数据挖掘(Data Mining),又称为数据库中的知识发现(Knowledge Discovery in Database,KDD),就是从大量数据中获取有效地、新颖的、潜在有用的、最终可理解的模式的非平凡过程,简单的说,数据挖掘就是从大量数据中提取或“挖掘”知识[2]。数据挖掘可以对得到的数据库查询结果进行高效、智能化的处理,从中自动获取先前未知的模式和信息。但是,倘若毫无限制地进行挖掘,必然会对一些隐私数据造成侵犯。从本质上说,数据挖掘是研究如何利用数据库中现有的数据推导出未知的数据,而隐私保护则是防止用户推出敏感数据。形象地说,数据挖掘是进攻,而隐私保护则是防守。
1.3 隐私保护度量标准
隐私保护技术在保护隐私的同时,还要兼顾应用价值和计算开销。综合起来,隐私保护技术的度量标准有以下三个方面:
(1)隐私保护度。 一般通过数据隐私的披露风险来反映,披露风险越小,隐私保护度越高[3]。
(2)数据质量/服务质量。在数据中,数据质量是指数据的可用性,数据的可用性越高,数据质量越好。一般采用信息丢失率(即信息扭曲度)[4]来衡量数据质量的好坏。
(3)算法性能。一般利用时间复杂度对算法性能进行度量。例如,时间复杂度为O(k)的近似k-匿名算法,显然优于复杂度为O(klogk)的近似算法。
2 数据隐私保护技术
在上述度量标准的基础上,下面开始对几种主流的数据隐私保护技术进行介绍和分析。
2.1 基于匿名的隐私保护技术
匿名技术是隐私保护中广泛使用的技术,通过隐藏或不收集用户的身份敏感信息,允许用户提交数据而且不暴露自己的身份[5]。因其处理简单,在数据库应用中较容易使用。然而通过匿名技术收集的数据难以保证质量,因为在没有身份确认的情况下大量用户会提交无用的随机数据。并且系统容易受到竞争对手的攻击。例如一个公司在数据库系统中输入大量的伪造数据来使自己生产的产品获得更多的推荐。因此在数据库应用中确认用户的身份是十分必要的。
2.2 基于关联规则的隐私保护技术
关联规则挖掘是一种典型的数据挖掘方法,最早由Agrawal等人提出。关联规则挖掘可以发现存在于数据库中的项目或属性间的有趣关系。这些关系是预先未知的和被隐藏的,也就是说不能通过数据库管理系统所提供的逻辑操作或统计的方法得出。现有的各种关联规则挖掘算法大致可分为搜索算法、层次算法、数据集划分算法、抽样算法等。关联规则挖掘作为数据挖掘中最重要的方法之一,已经也在隐私保护方面取得了一定的研究成果,可以利用到基于关联规则的数据服务中。关联规则中隐私保护的基本策略有数据干扰和查询限制两大类[6]。
数据干扰策略就是对原始数据按照一定的规则进行预变换,然后在经过干扰的数据上运行数据挖掘算法,得到所需的模式和规则。
查询限制策略则是通过数据隐藏等方式来改变特定规则的支持度和置信度,然后用概率统计的方法或者分布式计算的方法得到所需的挖掘结果。
2.3 基于协同过滤的隐私保护技术
协同过滤推荐技术基于相似用户群的兴趣向目标用户产生推荐,是当前数据库服务中最成功、使用最广泛的推荐技术之一。它只依赖于用户对项目的评分矩阵,因此对于各种特定应用都有很好的适应性,可提高数据应用系统的可扩展性和推荐质量。与其他数据挖掘技术一起,在协同过滤算法中加入隐私保护机制近年来引起了越来越多的学者的研究兴趣,是一个崭新的领域,需要得到更多的关注。目前协同过滤中隐私保护技术基本可以分为基于密码学的方法和数据变换两大类[7]。
基于密码学的方法是通过对原始数据进行加密处理的方法。安全多方计算是分布式环境下的一种加密方法,是目前数据服务协同过滤中最行之有效的隐私保护方法。
数据变换是对原始数据进行变换处理的方法。Clifton等人讨论了几种防止对数据过分挖掘的方法,主要包括对数据增加噪声、消除数据中的附加信息、故意增加错误数据等。数据变换在协同过滤的隐私保护中得到了广泛应用。
3 数据隐私保护技术的发展
在总结当前数据隐私保护现状的前提下,对于未来数据隐私保护技术的发展,可以从如下几点入手:
(1)高准确度的方法。尽可能完整地生成相应规则,而不遗漏重要规则,并且所生成规则的准确度也不应有明显的降低。
(2)高性能的方法。提出具有优良性能的相关方法,包括时间性能与空间开销,以及网络开销。
(3)适用于分布环境的方法。随着网络技术的发展,如何在分布式环境下进行各种隐私保护的数据挖掘,也将是一个重要的研究方向。
4 结束语
本文综述了数据隐私保护技术研究的发展现状,并分别对当前主流的三类隐私保护技术进行了分析总结,还对未来数据隐私保护技术的发展提出了几点看法。然而数据隐私保护技术的研究仍然面临着许多挑战,需要更深入的研究使其在实际系统中得到更多应用,真正有效保护用户的信息和隐私安全。随着信息技术的发展,数据库系统的广泛应用,数据库服务中隐私保护技术也会得到更多的重视和研究。(作者单位:天津师范大学计算机与信息工程学院)
参考文献:
[1] 周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J].软件学报,2009,32(5):847-858.
[2] 华蓓,钟诚.数据挖掘中的隐私保护技术进展分析[J].微电子学与计算机,2009,26(8):38-41.
[3] 田秀霞,王晓玲,高明,等.数据库服务——安全与隐私保护[J].软件学报,2010,21(5):991-1006.
[4] 朱勤,骆轶姝,乐嘉锦.数据库隐私保护技术研究[J].东华大学学报(自然科学版),2006,32(5):21-25.
[5] 王平水,王建.匿名化隐私保护技术研究综述[J].小型微型计算机系统,2011,32(2):248-252.
Linear Algebra Tools for Data Mining
2012,880 p
Hardcover
ISBN9789814383493
Dan A Simovici著
随着大数据时代的到来,数据挖掘技术逐渐走向了应用的前台。从文本检索到社交关系挖掘,从计算机视觉到语音识别,从推荐系统到网络安全,众多应用领域都需要数据挖掘技术的支撑。而随着数据规模的膨胀,数据挖掘技术也面临着如何提高效率、提高可扩展性的挑战。为此科学家们提出很多解决思路,其中基于矩阵计算或线性代数的数据挖掘技术因其易于并行化且计算效率相对较高等优势而受到研究人员的青睐。而对于计算机科学或者工科计算技术的教材来说,一般只对线性代数的理论和技术进行讲解,很少能与实际应用进行结合。本书的目的就是希望弥补这一空白,把传统的线性代数内容与最新的数据挖掘技术结合在一起展示给人们。
本书分为线性代数理论部分和数据挖掘应用部分,共包含16章。线性代数部分,含第1-10章:1.通过基本代数结构的建立引入线性空间;2.矩阵的概念;3.MATLAB的基本编程;4.行列式;5.线性空间中的范式;6.内积空间;7.凸性;8.特征值;9.相似和谱;10.矩阵的SVD(奇异值分解)。第2部分讲解了线性代数在数据挖掘中的应用,含第11-16章:11.矩阵在图中的应用;12.数据采样矩阵;13.最小二乘近似和数据挖掘;14.维度约减技术;15.kMeans聚类;16.图的谱和谱聚类。
本书非常好地把线性代数和数据挖掘结合起来进行介绍,使得科研人员不仅能深化对于矩阵和线性代数理论的认识,又可以从应用中理解各种方法的作用。本书的作者Dan A Simovici教授是马萨诸塞波士顿大学计算机科学系的教授,多年来致力于将基本数学理论与数据挖掘技术相结合的教学研究工作。他目前还在撰写另一本图书《数据挖掘的数学工具(Mathematical Tools for Data Mining)》,预计2014年会由Springer出版。本书非常适合在读研究生和相关科研人员阅读。
张志斌,副研究员
(中国科学院计算技术研究所)
关键词:大数据环境 数据挖掘 具体技术分析
中图分类号:TP39 文献标识码:A 文章编号:1003-9082(2016)10-0004-02
技术在快速进步,现今时期内的网络正在深入生活,网络体现出重要的意义。从本质上看,大数据不仅代表了日益增长的数据量,同时也表现出更复杂的数据关系。增长的过程中,达到特定规模的数据量将会发生质变。大数据的具体类型包含了视频和文本等信息[1]。对于信息搜集以及处理等,也应当确保更快的处理速度。大数据环境下,数据挖掘的相关技术具备了独特的技术优势,然而同时也面对新阶段的技术挑战。面对新阶段的新环境,有必要给出数据挖掘的特定技术流程以及技术方式。结合现阶段面临的挑战,给出完善思路。
一、数据挖掘在大数据环境下的重要价值
面对信息化的新时期,各行业都不可缺少数字化技术作为支持。最近几年,互联网正在快速普及,在这种基础上也诞生了云计算和物联网的相关技术。在当前形势下,全球范围内的网络技术正在加快发展,爆炸式的数据增长趋势也因此变得更明显。信息化冲击着各个行业,传输信息的方式也在相应改变。信息化形势下,对于信息形成、信息运用以及信息共享都可以做到有效的整合[2]。在企业发展中,大数据起到了不可忽视的作用,同时也汇聚了各个层面的物力和人力。
从信息化角度看,企业在整合处理各类的数据时都需要借助电子化的方式。针对大量的资源和信息,应当符合交互式的处理方式和数据传输方式。数据化处理可以为企业提供精确的决策依据,因此也创造了更高层次的生产效能。云计算方式能够用来处理实时的数据,从而减少了整体投入。
随着技术进步,云计算技术正在变得更成熟。与此同时,云计算也配备了信息化的新式平台。这样做,在根本上确保了信息化的效能提高。在当前时期内,大数据代表着全新的发展阶段。这是因为,大数据技术可以用来筛选数据、存储数据或者调用数据,这些步骤和流程都不必耗费额外的资源。从行业本身来看,数据交换以及信息交易的总数都变得更大,因此也构建了规模更大的数据库。针对存储量很大的数据库,应当经过筛选和分类,提取必需的信息数据。这样做,就可以为各类用户提供必需的信息。由此可见,大数据环境中的数据挖掘具备更高的价值,有必要深入探析数据挖掘的相关技术方式[3]。
二、现今阶段的技术难点
从技术构架来看,数据库表现出更复杂的技术架构,因而也增加了整体数据库的管理难度。在传统模式下,数据库能够用来处理较低层次的数据,然而针对较高层次的信息数据并不能给予很好的处理。最近几年,数据总量正在增大,数据库管理也相应改变了常用的流程和模式。近些年,分布式的全球数据库也被创造出来,在这种形势下亟待扩展整体的处理规模,以此来适应现今阶段的数据处理。然而应该注意:传统数据库仍缺乏相应的分区和类型,非结构化的倾向十分明显。
从实时性来看,数据处理中的实时性需求正在变得更强,用户希望获得实时的处理方式和技术。最近几年,数据库表现出智能性和商业化的整体趋势,因此也相应提高了实时性的需求。针对各类型的信息,用户都有必要给予实时的解析和处理。大数据的整体背景有别于传统背景,这是因为智能式的商业处理方式正在被推广采用。因此,如果仍沿用常用的处理流程,那么很难符合新阶段的实时处理需要[4]。
从硬件和软件的存储方式看,传统类型的软硬件也不再满足需求。现今时期内,数据处理达到了更大的总量。与此相应,在信息保存的过程中也应当符合更高层次的精确性需求。数据量不断增大的状态下,只有配备高性能的软硬件,才能够给予必要的保障。实际上,软件更新的整体速度仍较慢,无法适应现有的形势。
从技术分析的具体方式看,传统方式的数据分析特指结构化的分析。经过分析之后,就可以归纳得到全面的体系,确保实效性的处理。然而,大数据形势下的各行业数据总量都变得更大,因此也挑战了常用的分析方式。
三、数据挖掘的技术优势
首先,数据挖掘符合了更强的实效性,满足实时的处理。信息技术的新时期内,不同类型的数据也蕴含了更多的知识价值。大数据环境下,数据分析更多表现为线性处理,这种趋势符合了新阶段的处理需求。如果选择了大数据这种处理形式,那么优先选择数据挖掘的相关技术方式。这是由于,数据挖掘可以运用于流处理的过程,从而也确保了批量式的处理。针对大数据而言,业务处理也在客观上需要设置实时性的处理框架,以此来满足实效性的新需要。
其次,在动态环境下,数据挖掘设置了特定的索引类型,能够符合动态变化的环境。从关系数据库的角度看,索引可以加快整体的检索速度。然而,传统类型的数据检索只设置了较少的几类索引[5]。近些年来,大数据的具体种类正在不断增多,这种形势下创建的索引就必须具备更简洁的特征,同时也必须符合高效化的整体要求。在数据挖掘中,索引形式是多样的,并且可以实时调整。因此,大数据环境中的索引形式应当更新,这样做才能便于提高实时查询的效率。
第三,大数据环境中的数据挖掘还具备丰富的先验知识。传统模式的数据分析通常选择了关系型的信息存储,这种模式隐含了先验知识。具体而言,在探求特定对象的属性时,首先就需要明确可以取到的数值范围。在进入分析之前,有必要初步了解这种取值范围。然而,大数据包含了更多的非结构性信息,因此在客观上也要求构建与之匹配的内部数据关系。数据是实时性的,因此并不具备先验知识。针对这种问题,数据挖掘也可以给予妥善的处理。
四、具体技术实现
在新的环境下,数据挖掘技术受到了更多行业的认可和接受,同时也逐渐扩展了应用范围。大数据环境下,数据挖掘具体可以划分为数据遗传、神经网络算法、粗糙集的算法、决策树算法等类型。现今社会中的信息呈现爆炸的趋势,数据挖掘因此也逐渐具备了独立性,构成了独立学科。用户运用分类技术,就能够针对特性类型的数据和信息予以分类,然后进入数据挖掘的过程中。由此可见,数据挖掘更加符合了大数据的特定环境和背景[6]。具体而言,数据挖掘的方式和技术手段包含了如下:
1.构建矩阵模型
存储大数据过程中,应当构建精确的矩阵模型。在建模的基础上,才能够适当运用数据挖掘的方式。针对不同来源的数据,也需要给出各异的处理方式。传统处理方式下,通常构建单一的数据库,用来存储信息并且分析信息。实际上,这种方式在具体落实时也很困难,因为不同类型的信息包含了繁杂的内容。大数据环境下,依照数据挖掘的思路,相关人员可以尝试构建相关的数据模型。这样做,就能够在根本上确保通用性,数据模型也能够容纳更多的数据内容。矩阵模型属于三维模型,模型具备立体性,因此更加便于数值分析。
2.设置关联规则
如果要顺利进行数据挖掘,那么先要挖掘关联规则。从特定属性来看,关联规则通常是隐含在属性内部的,是不可以预知的。对于此,只能依照选择的统计方法来实现。从兴趣度的角度看,关联规则通常取决于置信度和支持度这两个指标。为了达到平衡,用户就应当给出最小的置信度和支持度数据。数据挖掘的具体方式可以用来实现可靠的关联规则,建立必要的存储模型,用这种方式来集中表达关联规则。
3.聚类算法的运用
针对高维的空间,通常可以构建特定的聚类算法。为了详细区分不同类型的超图,数据挖掘选择了区分投影的方式。选择这种方式,能够细化不同类型的算法,进而也提高了算法整体的精细度。利用数据挖掘,实现了更优的超图划分,聚类计算得到的结果也表现得更加精确[7]。
结论
大数据背景下,数据库更需要数据挖掘作为支持。通过数据挖掘,能够筛选并且获得可利用的数据信息,满足新阶段的用户需求。经济在不断增长,然而与此同时资源消耗的总量也相应变得更大。大数据可以用于多领域的数据挖掘,因此也在根本上改变了原有的处理过程和处理方式。面对剧烈的市场竞争,数据挖掘的新方式也可以用于更广的领域,同时也起到了更大作用。未来的实践中,相关人员还需要结合大数据的特定背景,不断修正并完善现今阶段的数据挖掘手段。只有这样,才可以为各行业提供必要的决策依据,服务于数据挖掘的整体质量提高。
参考文献
[1]朱东华,张嶷,汪雪锋等. 大数据环境下技术创新管理方法研究[J]. 科学学与科学技术管理,2013(04):172-180.
[2]王兰成,刘晓亮. 网上数字档案大数据分析中的知识挖掘技术研究[J]. 浙江档案,2013(10):14-19.
[3]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014(02):54-55.
[4]卢建昌,樊围国. 大数据时代下数据挖掘技术在电力企业中的应用[J]. 广东电力,2014(09):88-94.
[5]黄取治. 大数据环境下O2O电商用户数据挖掘探讨[J]. 湖南科技学院学报,2015(05):122-124.
[6]杜钢虎. 大数据时代背景下数据挖掘技术刍议[J]. 电子技术与软件工程,2015(14):221.
数据的挖掘是一项复杂的系统工程,其主要指的是在庞大数据中收集有价值信息数据的过程。对数据挖掘技术在软件开发信息管理中的应用展开研究,有着十分重要的现实意义。
1 数据挖掘技术概述
1.1 数据挖掘流程
通常而言,数据挖掘可划分成四个阶段,分别为选择、预处理、挖掘以及吸收,如图1所示。其中,选择是就有着极强交互性的庞大数据而言的,在工作期间受信息数据不断更新影响,通常要对数据展开重新选择;预处理则是将没有得到加工的信息数据变换成适宜挖掘处理的形式;挖掘是经由科学计算方法将预处理数据输入系统,在庞大数据中收集有价值的信息内容,从而完成分类、聚类等工作;吸收也就是数据的后处理,其是为了将有价值的信息数据反馈给用户,使数据预处理、挖掘环节具备真实意义。
1.2 数据挖掘技术
现阶段,在软件开发中数据挖掘技术诸如分析、聚类、预测及统计等已经得到较好的应用,这些技术的应用能够使数据挖掘繁杂工程得到一定的简化,也就是在海量的数据中尽可能快的时间内找出人们所需的信息,且对系统予以反馈供人们使用。在数据挖掘工程中,较为常见的技术包括关联发现、分类树、课时数据挖掘等,同时还有一些较为特殊的数据挖掘技术包括回归建模、统计分析等。在软件开发信息管理中应当对数据挖掘技术进行科学合理的选择,以完成好软件开发信息管理工作。
2 软件开发信息管理数据挖掘面临的挑战
2.1 软件开发数据较为复杂
现阶段,软件开发数据以结构化数据和非结构化数据为主,前一种数据多牵涉软件版本对应信息及缺陷报告等,后一种数据主要涵盖相关软件代码及文档等。该两方面数据无法使用同一种算法,然而它们相互又有着很大的相关性。换而言之,在数据挖掘算法开发方面,为了尽可能权衡到两方面数据的复杂关联,很大程度上提升数据挖掘难度。
2.2 分析手段并非传统模式
软件开发数据挖掘后续工作是把取得的信息提供给需要的用户。在以往数据挖掘应用期间,就好比电子商务或者金融行业,就是把信息转化为文字或图表。然而,软件开发人员所需信息并非如此简单,其还涉及了缺陷定位、编程模板等用户信息,所以对数据挖掘技术提供较高的要求。
2.3 数据挖掘结果评价标准不统一
现如今,数据挖掘技术在诸多行业得到普及推广,同时在结果呈现及评价标准等内容上相对完备。然而,在软件开发新型管理中数据挖掘技术的应用却并非如此。软件开发人员要获取诸多、繁杂的信息,且信息表示方法各不相同,如此很大程度上提升了对数据挖掘结果展开定量准确分析的难度。
3 数据挖掘技术在软件开发信息管理中的应用
在软件开发信息管理过程中,经对数据挖掘技术科学合理应用,可为软件开发带来极有利的帮助,达到软件开发信息管理低成本、高质量、短工期的要求,消除软件开发信息管理期间存在的一系列问题。全面软件开发行业在时展新形势下,要与时俱进,大力进行改革创新,运用先进的科学技术不断优化数据挖掘技术研究。
3.1 数据挖掘技术在开源软件开发中的应用
开源软件,即源代码为开放的软件,此类软件现阶段大部分对用户是不收取费用的,也正是受此影响提升了开源软件控制管理难度,鉴于此,可应用数据挖掘技术来改善开源软件的资料。就好比,日本某高校学生推出了一个分布式数据挖掘系统,该系统一方面可对大型系统开展数据挖掘,一方面能够一系列开源软件开展数据挖掘。
3.2 数据挖掘技术在软件项目管理中的应用
软件项目管理中数据挖掘多表现于两个方面,一方面为对组织关系开展的挖掘,一方面为对版本控制信息开展的挖掘。软件项目管理作为一个系统工程,对组织关系开展挖掘主要是指对人力资源开展协调分配。就好比,一个庞大工程可能同时有千百余人参与,在工程运行期间人员相互会出现频繁的信息数据交互,经对数据挖掘技术的有效应用,能够对人员组织关系展开合理划分,积极促进软件项目管理的有序开展。同时,数据挖掘技术还可应用于挖掘版本控制信息,能够有效缩减系统维护成本,改善软件项目管理水平。
3.3 数据挖掘技术在程序代码及机构中的应用
在数据库中收集有价值的代码、构件,现阶段,较为常用的手段包括经由关键词开展索引、经由记录输入-输出关系索引以及以建立交互关系图为基础的方法等,我们常常使用的百度、搜狗等搜索引擎均能够开展数据检索。
4 结束语
总而言之,在软件开发信息管理过程中,经对数据挖掘技术科学合理应用,可为软件开发带来极有利的帮助,达到软件开发信息管理低成本、高质量、短工期的要求,消除软件开发信息管理期间存在的一系列问题。基于此,相关人员务必要明确认识软件开发信息管理数据挖掘面临的挑战,不断钻研研究、总结经验,积极促进软件开发信息管理有序开展。
作者简介
摘 要 面对当前企事业单位普遍存在各类数据庞大,但快速提取有效信息却十分困难的现状,如何在海量数据中发现有用的数据,即所谓的数据挖掘技术便应运而生。针对财务决策中数据海洋的现状,本文提出了如何采用数据挖掘技术,来提高财务决策的效率。
关键词 数据挖掘 财务决策 应用
随着计算机、网络技术的发展,获得有关资料非常简单易行。但对于数量大、涉及面宽的数据,传统统计方法无法完成这类数据的分析,特别是公司财务数据之类。因此,一种智能化的、综合应用各种统计分析、数据库、智能语言来分析庞大数据资料的“数据挖掘”技术应运而生。数据挖掘技术的产生和发展使得人们可以利用这些数据挖掘出有用的、隐藏的商业和科学信息。
一、数据挖掘含义
1.数据挖掘的定义
目前普遍认同的一个数据挖掘(DM-Data Mining)定义是:从数据库中抽取隐含的、以前未知的、具有潜在应用价值的模型或规则等有用知识的复杂过程,是一种深层次的数据分析方法。
数据挖掘可以根据企事业单位的既定业务目标和存在的问题,对大量的业务数据进行探索,揭示隐藏其中的规律,并将其模型化,指导并应用于实际的企事业单位经营管理中。是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以对财务信息做出预测。
2.数据挖掘的主要功能
数据挖掘的目标是从数据库中发现隐含的、有意义的信息,它主要有以下功能:
(1)估计与预测:估计是根据已有积累的资料来推测某一属性未知的值,预测是根据对象属性的过去观察来估计该属性未来之值。数据挖掘技术能够自动在大型数据库中寻找预测性信息。
(2)关联和序列发现:关联是要找出在某一事件或是资料中会同时出现的东西;序列发现与关联关系很密切,所不同的是序列发现中相关的对象是以时间来区分的。
(3)聚类:数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类技术的要点是在划分对象时不仅考虑对象之间的距离,还要划分出类具有某种内涵描述,从而避免了传统技术的某些片面性。
(4)偏差检测:数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的信息,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等①。
二、数据挖掘在财务决策支持系统的应用
1.财务决策支持系统
财务决策支持系统是在传统电算化会计信息系统的基础上建立和发展起来的,传统会计信息系统输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情形,而财务决策的精确程度又取决于所用信息的正确程度。随着竞争的增加,财务决策的时效性也变得越来越重要了,面对这些结构化或半结构化的海量数据,将数据挖掘技术应用到系统中充分有效的预测企事业单位未来的发展趋势,有利于输出财务决策信息供高层管理者使用,提高企事业单位的竞争②。
(1)会计信息系统结构
会计信息系统可分为三个层次:会计核算层、财务管理层和财务决策层,分别属于事后核算、事中控制和事前预测与决策过程。财务决策支持系统是最高层,也是会计信息系统发展的最终目标。会计核算层和财务管理层输出的企事业单位财务数据及非财务数据都存在数据过剩而信息不足的情况,这严重影响了财务决策层发挥有效作用。
(2)财务决策支持系统的概念
财务决策支持系统(FDSS―Financial Decision Support System)是以现代管理科学和信息技术为基础,以电子计算机为工具,运用经济学、模糊数学、控制论和模型技术,对财务管理中的结构化、半结构化以及非结构化问题进行决策分析的人机交互系统。
在财务决策支持系统中,为了支持管理决策,首先必须建立各种数据库以备决策之需。其次要建立各种数学模型,组成模型库对数据库中的数据进行深加工以便探索其内部规律,对数据的运算结果进行比较、分析和评价。同时,为了充分利用管理者的经验、知识和智慧,系统还设置人机交互接口和专家知识库,采用人工智能技术判断环境生成方案、评价决策。
(3)财务决策系统国内外发展现状
在国内,会计核算系统和财务管理系统已发展良好,逐步地为用户理解和接受,但财务决策支持系统的发展尚处初级阶段。
在国外,财务决策支持系统已较为完善,以财务管理为核心构造财务决策支持系统,做到了账务系统与管理系统的有机融合,做到了事前预测与决策、事中控制、事后分析为一体的网络化、科学化的决策管理,数据挖掘在财务决策支持系统中的运用也较为成熟。
2.数据挖掘在财务决策支持系统的应用
数据挖掘技术在财务决策支持系统中的应用研究始于1995 年,研究内容包括将DSS 的结构体系引入过来,从二库、三库结构到四库、五库结构的研究,也就是从传统的FDSS 研究到智能的或高级的FDSS 的研究。随着信息技术的不断完善,把数据仓库(DW)、联机分析处理(OLAP)、数据挖掘(DM)也引入到财务决策支持系统中,出现了基于数据仓库和数据挖掘技术的财务决策支持系统结构,数据挖掘技术在财务决策支持系统中的应用主要包括:
(1)财务状况分析
财务状况分析是财务管理的重要组成部分,包括企事业单位偿债能力分析、企事业单位营运能力分析、企事业单位获利能力分析、企事业单位发展能力分析。它是利用已有的财务数据对企事业单位的财务状况、经营成果进行分析与评价。财务分析系统可以运用数据挖掘分类、预测等技术,根据企事业单位过去和现在的财务数据做进一步的加工、整理、分析和评价,在预测未来的财务状况的同时从中取得有用的信息供决策者使用。
(2)财务预测
财务预测系统是FDSS 的重要组成部分,其功能分为两个方面:一是利用已有的财务数据对企事业单位未来的财务状况和经营成果进行预测。二是利用专家经验和专门知识对某项财务专题进行预测。财务预测的主要内容包括销售预测、利润预测、成本预测、资金预测、财务指标预测等。利用回归,神经网络等技术根据已有的财务数据预测企事业单位未来的财务状况,进而判断企事业单位未来发生财务危机的可能性。
(3)筹资决策
筹资是指企事业单位何时、采用何种方式、获得何种规模资金的过程。企事业单位筹资决策主要包括筹资数量决策、筹资方式决策和债务偿还决策。一般地说,企事业单位筹资首先应考虑自有资本,即所有者权益筹资;其次再考虑债务筹资,其目的是使财务风险最小化。利用数据挖掘中的分类、聚类等技术可根据单位经营管理的需要进行决策信息输出,确定一个合理的筹资方案。
(4)投资决策
企事业单位的投资决策主要包括企事业单位内部长期投资决策、联营投资决策和证券投资决策。投资决策问题是决策问题中较为复杂的问题,其决策问题一般分为半结构化或非结构化问题。我们可利用预测、关联等技术对投资时机、投资规模、投资方式等方面来确定投资方案。通过在众多可投资项目中选择出最具价值的项目决策信息,实现投资资金效率最大化。
(5)成本决策
成本决策涉及企事业单位销、生产经营和资本运作等各个领域,可以说凡是发生成本费用支出的各项经济活动,都存在成本决策问题。企事业单位成本决策包括:存货成本决策、生产成本决策、资金成本决策、销售成本决策、服务成本决策等,其中销售成本决策和服务成本决策,其非结构化因素较多,包括促销费用、广告费用、销货服务费等,从而使其决策方案的确定更加复杂化。这就需要利用数据挖掘技术中的时间序列分析,关联分析等技术对历史数据进行分析预测,以确定最优方案。
(6)股利分配决策
股利分配是指公司向股东分派股利。股利分配决策的合理与否,将会对公司的持续发展和股东利益产生重大影响。股利分配决策包括股利发放决策、股利支付比率决策和股利发放形式决策等。由于股利分配决策要受到法律、经济、公司政策、股东利益、以及股票市场等诸多因素的影响,其决策问题大多为半结构化和非结构化问题,我们可利用数据挖掘技术中的分类技术来提供支持。
(7)存货决策
存货决策主要是指原材料和产成品的决策,即确定合理的经济订货量以及何时订货才是最佳时机,力求使存货上耗费的成本最低。销售的不确定性使得存货决策成为一种风险性决策,它需要根据以往的经验储存、历史统计资料的分析以及输入用户的调研数据,运用数据挖掘技术中的决策树方法帮助决策者确定需求变量的范围及发生概率,并提供最优方案的参考数据。随着数据库技术和网络技术的迅速发展,传统会计核算层及财务管理层的不断完善,人们获取数据的能力越来越强,将海量的数据存储在数据库和数据仓库中。将数据仓库(DW)、数据挖掘(DM)和联机分析(OLAP)等信息技术应用于财务决策支持系统,更能将数据仓库里的海量数据从执行系统中筛选出来,减少冗余,完成一系列转换处理,便于决策者从宏大的信息系统中分辨、析取、整理、挖掘出对财务决策有用的信息,极大提高企事业单位管理信息系统的工作效率③。
三、数据挖掘技术在财务决策支持系统中应用的难点与展望
数据挖掘技术在财务决策支持系统中的应用还是一门崭新的技术或方法,接受数据挖掘的概念容易,但将其落在实处却比较困难。其中最重要的就是成本问题。数据挖掘功能对企事业单位财务数据进行分析虽然存有优势,但前提条件是具备完整、正确的数据,即在建立数据仓库系统基础后,与此功能结合运用以达到事半功倍的效果。但目前单位财务部门提供的数据本身就可能存在水分,因此需要数据信息使用者在经过会计信息质量分析等前提下调整或重新估计,然后再利用数据挖掘等技术应用到财务决策支持系统中。数据挖掘仅依靠计算机或者软件是无法完成任务的,更多的是需要依靠专业人士的职业判断。
虽然在单位财务决策支持系统中利用数据挖掘技术还不十分成熟,但是伴随着科学技术的迅猛发展,以及数据挖掘技术在财务决策支持系统中的广阔市场前景,相信基于数据挖掘的财务决策支持系统必将更加成熟!
但是,数据挖掘作为一门新兴的科学和技术,它的发展还处于幼年期,要想基于数据挖掘的财务决策支持系统模型得到更为广泛的应用,面临的挑战为:
1.建立基础的数据挖掘理论体系;
2.提高数据挖掘算法的效率和处理能力;
3.良好的人机交互界面;
4.挖掘各种数据类型,包括半结构和无结构数据。
注释:
①何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6):155-156.
②汤九斌.基于数据挖掘技术的决策支持系统及其关键技术研究.中国优秀博士论文全文数据库.南京理工大学.2009.
③周喜,王加阳.数据挖掘技术在财务决策支持系统中的应用研究.湖南商学院学报.2009(4):99-101.
参考文献:
[1]何京舟.浅议数据挖掘技术与财务分析.中国集体经济.2009(6).
[2]郑日军.数据挖掘综述.科协论坛(下半月).2008(10).
[3]洪沙,向芳.数据挖掘与决策支持系统.科学咨询(决策管理).2008(4).
关键词:数据挖掘;技术;神经网络技术
1 数据挖掘技术的方法
数据挖掘技术的方法主要分为统计、聚类和遗传分析[1]。统计方法可以满足数据库处理分析,包括:有线、非线、回归等多项统计方法;聚类方法应用于数据挖掘的内部处理,梳理内部数据的关系,基于聚类方法的存在,数据挖掘技术可以满足经济、模拟等多项数据领域的需求;遗传分析是数据挖掘方法的重点,以生物进化为导向,将重组、变异导入到数据库内,推进数据的后续发展,将后续模拟的数据,应用在现代数据库的某个部分,发挥同样作用,遗传算法高度模拟生物进化的方式,结合繁殖、基因、突变、重组的概念,引入新数据,促使数据库中新个体的形成,所以数据挖掘中的遗传算法,既可以作为数据分析的方法,也可以体现预算和评估的特点。
2 数据挖掘的技术支持
2.1 神经网络技术
神经网络主要以数学模型为主,重点针对复杂数据,快速完成数据抽取。神经网络技术处理的能力,可以超出计算机的分析水平,保障输入神经网络中的数据属于数值型,即可快速导出趋势性变化的数据。神经网络技术通过模拟大脑的神经元结构,利用MP,实现非线性规划,根据数据信息的特性,决定信息的存储位置,实现自主处理。神经网络技术在数据挖掘中,不仅可以实现数据的快速分类,还可以对数据进行模拟预测,促使数据挖掘处于优化的状态,完成难度聚类。神经网络技术的代表为RBF和BP。
2.2 决策树技术
此技术以模拟离散函数为主,借助树木模型,对实际案例进行综合分类处理。决策树的叶子,代表不同结点,而结点则是组成实例不同属性的测试,未来枝叶的分支,表示可能覆盖的属性预测[2]。决策树在根部向枝叶推进的过程中,蕴含丰富的数据挖掘,目的是得出有价值的属性信息,所以决策树理论支持数据挖掘的分析和分类,对相同属性的数据进行归类存储,进而挖掘数据分类中遵循的规则。
3 数据挖掘技术的应用领域
3.1 通信服务行业
在数据挖掘技术的带动和参与下,通信服务行业逐渐趋向于“三网融合”,即:电信、互联和电视,势必涉及诸多数据运营,数据挖掘技术可以针对三网状态,实行模式分析,挖掘商业潜能。例如:数据挖掘技术可以对通信数据进行分析,得出通信系统实时运行的参数和状态,以聚类的方式,归类系统数据,还可直接分析用户的实际行为,拓宽业务途径,同时发现发展机遇,提升通信服务行业的社会效益。
3.2 高校管理系统
数据挖掘技术在高校中的应用较为明显,例如:学生信息管理系统、教务评价系统、成绩查询系统、选课系统等,都可体现数据挖掘技术的优点。高校学生数量较多,通过数据挖掘技术,可以为学生提供一体化服务,学生在入学之际,即可将信息录入在管理系统内,整个在校期间,都可通过管理系统,查询个人信息,管理者也可以根据管理系统,快速调取学生信息,如:图书借阅、饭卡充值等,随时关注学生的信息动态[3]。高校在数据管理方面,已经实现多系统的融合发展,在数据挖掘技术的支持下,将不同功能的数据系统,兼容于统一系统,不论是学生,还是教务人员,利用独立账号、密码,都可实现个人信息管理或查询,对数据挖掘技术提供更高的发展要求。
3.3 医学领域
医学领域不仅涉及大量的信息数据,而且数据的编排、汇总非常复杂,大量数据同时出现的过程中,几乎不会出现相同数据,因此,医学领域的数据管理,具备一定难度。数据挖掘技术成功应用于医院数据管理中,特别是在病历管理、医药信息管理方面,例如:数据挖掘技术可以整合医药信息,将医药信息存储于数据库系统内,医务人员可以通过检索的方式,在管理系统内,迅速获得所需信息,避免信息筛选错误,提高信息识别的能力。由此,医务人员在信息管理和校对方面,提高操作效率,确保数据挖掘的质量。
3.4 金融行业
金融行业中的数据分类比较明确,如:信贷数据、储蓄数据等,需对数据采取合理的分配和管理。数据挖掘技术在金融行业中,为数据管理提供可靠的空间,成为管理金融数据的最佳方式[4]。数据挖掘技术具备独立分析的能力,可以在数据库中,设置多维参考点,对不同类型的数据实行严格区分,根据数据的异同性质,实行准确处理,发挥数据挖掘的优势,维持金融数据的运行。数据挖掘技术还可以根据金融数据的动态变化,有效发现影响金融活动的不良因素,防止金融行业出现数据漏洞,造成管理弊端。
综上所述,随着数据挖掘技术的发展,其在行业领域中的应用越来越广泛,为数据运行提供强大的技术支持。数据挖掘技术可以迅速获取有效信息,体现准确识别的能力,改善数据运行,因此,数据挖掘技术成为行业发展与进步的重要途径,不仅提高信息处理的能力,还可以保障信息处理的效率和价值,同时提高行业信息技术水平。
[参考文献]
[1]罗斌.数据挖掘研究进展[J].中国水运,2012(07):90-92.
[2]张昀.数据挖掘技术研究[J].软件导刊,2012(09):45-47.
关键词:云计算;概述;发展现状;研究方向
中图分类号:TP3
1 云计算概述
什么是云计算?目前广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,它存在一个计算资源共享池,包括网络、服务器、存储、应用软件和服务等资源能够被快速提供,并且只需投入很少的管理工作,或是与服务供应商进行很少的交互。云计算本质上是一种基于互联网的超级计算模式,它由很多廉价服务器组成,可以提供动态的网络资源池、虚拟化和高可用性的下一代计算平台等的核心计算机技术,使得互联网成为用户的数据和计算中心,为用户提供安全便捷的数据存储和网络服务。云计算的发展建立在并行计算、分布式处理、网络计算的基础上,是当今信息技术一个重要的发展方向。
2 云计算发展现状
目前云计算正在如火如荼的发展,但尚处于初级阶段。在国外,IT界巨头Google因为其自身发展的软硬件优势,其在云计算方面的成就已经走在了时代的前列,对外公布的云计算技术主要包括MapReduce、GFS和BigTable,旨在将全球多所大学都纳入到云计算中。微软也注资10个亿建立云计算的服务器农场,平均占地超过7个足球场,设置10万台计算机服务器。IBM在2007年高调推出“蓝云(Blue Cloud)”计划,并表示“云计算将是IBM接下来的一个重点业务”,它将为企业客户搭建分布式、可通过互联网访问的云计算体系,是一个企业级的解决方案。同年亚马逊也向开发者开放了名为“弹性计算机云”的服务,使得软件公司可以按需购买亚马逊数据中心的处理能力。雅虎也将一个小规模的服务器群,即“云”,开放给卡内基―梅隆大学的研究人员。惠普、英特尔和雅虎三家公司联合创立一系列数据中心,目的同样是推广云计算技术。我国的相关科研研究结构也紧跟着时代的发展,纷纷展开了对云计算技术的研究。2008年3月17日,Google全球CEO埃里克・斯密特(Eric Schmidt)在北京访问期间,宣布在中国大陆推出“云计算”计划,清华大学将是第一所和Google合作的高校。清华将与Google合作开设“大规模数据处理”课程,并协助学校在现有的运算资源上构建“云计算”实验环境。未来Google将把课程推广到其他多所高校。中国电子学会也在2008 年专门成立了中国电子学会“云计算专家委员会”,旨在更深入的探索和研究云计算问题。我国电商行业的先锋―阿里巴巴,也首次建立起“电子商务云计算中心”,开发更多云产品供应市场。
3 未来云计算主要研究的问题
3.1 并行计算。并行计算是云计算的核心技术,可以说云计算得以提出的最初的思想来源就是并行计算。是未来云计算研究领域的一个重点研究问题。并行计算是指在一个时间点同时利用多台计算设备完成计算问题的过程,它将计算能力从单个处理器扩展到多处理器,主要被用来提高计算机的处理速度和处理能力,同时它也解决了大主存容量的求解问题。并行计算的基本思想是将计算问题分解成多个部分,每个部分用一立的处理设备进行处理,然后再汇总形成问题的最终解,它需要多台处理器共同参与工作。并行计算系统既可以是专门设计的、含有多个处理器的超级计算机,也可以是以某种方式互连的若干台的独立计算机构成的集群。通过并行计算集群完成数据的处理,再将处理的结果返回给用户。目前并行计算的发展还面临着很多困难,比如说并行程序的实际达不到规范化标准,可读性差;并行程序开发难度大,一般的程序员难以将算法进行并行化实现,这就有了自动并行技术的需求,但目前还未实现;云计算多并行计算的要求高于现在的大部分应用,但现在的并行计算技术超过一定的处理器后就很难再提高加速比。并行计算是云计算的核心,只有实现了并行计算的突破,才能顺利解决云计算中大规模的求解和扩展问题。
3.2 大规模数据挖掘。计算机技术的发展和普及使得海量的信息数据产生,人类已经进入了大数据时代。大规模数据挖掘,就是对海量数据进行提取分析,来获得数据中潜藏的知识的过程,也是当今信息技术研究的一个热点。比如说电商的商品推荐服务,就是利用数据挖掘算法,对用户在网上购物过程中产生的相关数据进行分析预测,从而进行个性化的商品推荐。但是由于信息数据一般规模较大,对海量数据进行处理所需的时间和空间复杂度都相对很高,因此数据处理效率一直是数据挖掘领域所要面对和解决的问题。云计算的数据挖掘也要解决处理效率的问题,只有提高数据处理效率,才能让用户在短时间内获得他们的需求。提高数据的处理效率,可以考虑从数据挖掘算法和并行计算两方面着手。现在已经成熟的数据挖掘算法有很多,数据挖掘工程师要根据具体的数据格式和用户需求选取不同的算法进行数据处理,要在实践中分析和改进算法,以提高数据挖掘的效率。另外,原创性数据挖掘算法的研究应该被提升到一定的高度。并行计算也是解决大规模数据挖掘效率问题的一个重要手段,如果并行计算的发展受到制约,数据挖掘也无法实现突破。
3.3 云安全。紧随云计算和云存储之后,云安全也出现了。云安全是指是指基于云计算商业模式应用的安全软件、硬件、用户、机构、安全云平台的总称。云安全”是“云计算”技术的重要组成部分,已经在反病毒领域获得了广泛应用。云安全是通过大量的网状客户端,对网络中的软件行为进行异常监测,在获得网络中木马、恶意程序信息之后,将其推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云安全最终的目标是把整个互联网变成一个超级杀毒软件,是决定云计算发展规模和前景的重大因素,已经成为网络安全界研究的主要问题之一。云安全技术是P2P技术、网格技术、云计算技术等分布式计算技术混合发展,自然演化的结果。云安全技术的应用还要解决很多问题,要建立云安全系统不是那么容易的事情,海量的客户端、专业的反病毒技术和经验、大量的资金和技术投入、开放的系统都是必不可少的组件,而且还需要大量合作伙伴的加入。国内云安全技术已经有一些初步的发展,比如金山毒霸的“云安全”,它是为了解决木马商业化之后的互联网严峻的安全形势应运而生的一种全网防御的安全体系结构,包括智能化客户端、集群式服务端和开放的平台三个层次。
3.4 系统级容错技术。利用云计算,用户不管在什么时间、什么地点都可以利用互联网来查看自己在云端存储的文件,完成未完成的工作,他不用依赖特定的计算机来共享网络资源,甚至不需要安装任何应用软件就可以在云端顺利地可用所需的应用,用户所需的各种资料和软件都存在云端。因此,云计算安全系统必须具备容灾和数据恢复的功能,以保证用户的资料不丢失。但是由于云计算本身的庞大,以往的系统容错技术已不能满足需要,进一步的研究系统容错是十分必要的。保障容错系统的高可靠性要从系统结构的设计出发,目前经常用到的容错技术包括服务器群集技术、双机冗余服务器技术和单机容错技术,云计算系统级容错则是一种多机容错技术。云计算系统中有成千上万台服务器,其中存放着大量的数据、服务和应用,容错系统也必须可以解决大范围失效问题。目前使用较多的是应用层面的检查点和重启技术,但这回增加云计算容错技术的开发难度和工作量,降低系统运行性能。所以急需提出新的技术和设计方法,来为云计算发展提供可靠稳定的保障。
4 结束语
现在商用和科学计算的计算量在日益增大,云计算必将成为解决这些问题的不二选择,未来云计算的发展前景会是一片大好。明确云计算发展需解决的问题,将有助于我们准确把握未来云计算研究的方向,为云计算的进一步发展做出贡献,使中国的云计算技术研究和云计算产品在世界IT领域占有一席之地。
参考文献:
[1]方巍,文学志,潘吴斌.云计算:概念?技术及应用研究综述[N].南京信息工程大学学报(自然科学版),2012(04).
关键词:学前教育;信息素养;数据挖掘
一、研究背景
20世纪90年代以来,教育界出现了以信息技术的广泛应用为特征的发展趋势,国内学者称之为教育信息化。教育的信息化逐渐成为教育现代化的重要平台,而学前教育是整个教育大厦的奠基石,它的信息化对整个教育信息化起着强大的推动作用。教育信息化是一个系统工程,有了好的软、硬件环境,教师们具备较高的信息素养,对于教育信息化的推进有着重要意义。
信息素养,通俗的理解是对信息的搜索、加工、处理,再结合自己的知识结构,对信息内化,提出自己的看法。这种素养、能力在网络时代显得尤为重要,也是幼儿教师朝专业化发展的重要素质。幼儿园教师的信息素养应当是“知道如何利用计算机和网络技术以获取相关学前教育教学信息,创造性地开发、丰富幼儿园教育资源,合理、灵活运用多种信息解决幼儿园教育教学实际问题的技术技能”。
泉州儿童发展职业学院,是闽南地区重要的学前教育培养基地,每年都会为社会输送300~500名学前教育专业的学生,分布在闽南、闽西和闽北等地区,为提升海峡西岸的学前教育质量做出贡献。为适应学前教育信息化进程,学院每年都会举办幼儿园信息技术师资培训,培训内容从以前单一的办公化软件应用基础,发展到现在的多媒体软件应用、课件制作等更高技能。
由于幼儿园教师多来自闽南三地,数量庞大,可以利用深度访谈、网上问卷、网下答卷等多种形式收集所需的信息,从而建立起相关的数据库。随着调查研究的展开,数据资料和信息量将会急剧增大。以泉州地区为例,截止到2004年共有幼儿园604所,加上各种幼教机构,将达到700个单位,一个普通幼儿园一般师资有40人左右,这样单单泉州地区从事幼教行业的人员就有近3万人,而每个教师的数据资料包含有多方面,其中包含着巨大的信息资源。要如何合理地、高效地挖掘出这些数据之间的关系,从而为我们的教育培训提供指导,单靠传统的数据分析手段是无法胜任的。因此结合笔者的实际工作以及所在单位的需要,引入一个新的研究方向:面向学前教育师资信息素养的数据挖掘技术研究。
数据挖掘,现在已经在一些领域上得到成功的应用,在高层次的教育管理领域的应用得到越来越广泛的重视,不仅是师范院校、综合大学,包括很多大公司、大企业也参与到这项造福未来的事业中。
在学前教育管理领域上,数据挖掘还是个全新的课题。本文将利用数据挖掘方法,分析被研究对象——幼儿园教师在使用信息技术过程中表现出来的信息素养,包括:
1.个人信息意识与态度,包括教师的业务能力、信息环境建设,以及教师的信息意识,利用信息手段解决工作和生活问题的主动性。
2.个人信息知识和技能水平,包括教师多媒体软件使用情况、多媒体课件制作能力、网络技能、知识技能与课件制作的能力。
3.个人信息素养综合因素以及学习目标,包括信息化教学意识、信息道德与安全、信息技术培训要求以及信息技术困难。
通过对以上三方面的研究分析,我们希望能从中找出影响教师信息素养提升的主观和客观因素,从而指导教师信息技术培训方案的制订,更有助于学前教育师资职前教学计划的制订以及培养目标的调整。
二、教育领域的数据挖掘技术应用现状
在教育管理领域内,数据挖掘技术正在慢慢地被推广,主要是应用在图书管理、教务管理、教学评价、数据分析等事务中,但总体上研究不够成熟。当前国内各大师范院校也意识到数据挖掘的重要性,在教育专业课程设置方面均开设了“数据挖掘”等相关课程,如南京师范大学的“Web数据挖掘与推理”、“数据库与数据挖掘”等课程。随着关联分析、聚类、概念描述、偏差检测等技术的不断发展和完善,数据挖掘必将在教育领域中发挥越来越大的作用,同时随着人们对这一技术的日益关注,相信其在教育领域的应用范围也会越来越广,从而快速推进教育的改革和发展。
在学前教育领域内,由于管理人员在技术上的不足,数据挖掘的相关应用基本上是空白,更多的是利用Excel图表或SPSS等工具对调查结果进行简单的汇总分析,得出结论。随着信息技术的广泛应用,学前教育界的专家也开始注意到信息素养的培养问题,并对幼儿园教师信息素养进行调查研究,但对于得到的数据、问题之间的内在关联、相互制约等关系,没能进行更有意义的发现、推理。
三、研究意义及方法
在学前教育领域中,作为主体的幼儿教师是一个特殊的年轻群体,她们普遍学历不高,研究水平有限,学习能力也不如中小学教师,但却是个充满朝气、积极向上的群体。由于特殊的教育环境、教学对象,使得她们需要借助更多高效的教学手段、教学模式来丰富课堂,吸引幼儿的注意力,提高教学效果,而信息技术正是最好的工具。因此,如何加强幼儿教师的信息技术能力,提升幼儿教师的信息素养,是一项非常重要的任务。笔者已通过调查问卷、网络答题等方式,不断地收集、积累相关数据,构建数据库,而如何利用有效的途径,并从这些数据中发现有用的信息,进而对信息技术教育课程改革提供指导,有着长远的意义。
因此,本次研究的主要内容和所采用的研究方法可以概括为:
1.持续地通过问卷调查,网络答题等方式获取数据,形成“学前教育师资信息素养数据库”,并结合个别访谈形式,探讨泉、莆、厦、漳、龙岩等地幼儿教师信息技术整体水平;
2.根据领域专家要求,将各因素分成11个挖掘问题,并利用挖掘工具探索各因素之间的关系;
3.设计数据挖掘模型,利用数据挖掘工具,对不同的挖掘问题分别采用关联规则、聚类方法进行研究;
4.探讨不合理规则,利用测试数据集对挖掘结果进行检验;
5.挖掘结果可视化、直观化,方便用户对结果的理解。
参考文献
[1] 杜安平,周期玉.Big6与当代大学生的信息素养构建[J].实践研究,2006,(6):730-734.