时间:2022-03-17 23:08:25
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:数据挖掘;神经元;方法;应用;发展
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9599 (2012) 12-0000-02
一、引言
伴随信息技术的迅猛发展,数据库规模与应用的不断扩大,大量数据随之产生。新增的数据包含了重要的信息,人们希望更好地利用这些数据,并通过进行更高层次的数据分析,为决策者提供更宽广的视野。
现今,很多领域已建立了相应的数据仓库。但人们无法辨别隐藏在海量数据中有价信息,传统的查询方式无法满足信息挖掘的需求。因此,伴随着数据仓库技术不断发展并逐渐完善的一种从海量信息中提取有价潜在信息的崭新数据分析技术------数据挖掘(Data Mining)技术应运而生。
二、数据挖掘概念
数据挖掘技术从1990年左右开始,发展速度很快,数据挖掘技术的产生和不断发展可使得人们对当今世界的海量数据中隐藏着人们所需要的商业和科学信息等重要信息进行挖掘。数据挖掘运用到交叉学科,涉及到,包括Database、AI、Machine Learning、人工神经网络(Artificial Neural Networks)、统计学(statistics)、模式识别(Pattern Recognition)、信息检索(Information Retrieval)和数据库可视化等,因此数据库目前还没有明确的定义。通常普遍认可的数据挖掘定义是:从数据库中抽取隐含的、以前未知的、有潜在应用价值的模型或规则等有用知识的复杂过程,是一类深层次的数据分析方法。
三、数据挖掘方法
由于数据挖掘技术研究融合了不同学科技术,在研究方法上表现为多样性。从统计学角度上划分,数据挖掘技术模型有:线形/非线形分析、回归/逻辑回归分析、单/多变量分析、时间序列/最近序列分析和聚类分析等方法。通过运用这些技术可以检索出异常形式数据,最后,利用多种统计和数学模型对上述数据进行解释,发掘出隐藏在海量数据后的规律和知识。
(一)数据挖掘统计
统计学为数据挖掘技术提供了判别方法与分析方法,经常会用到的有贝叶斯推理(Bayesian reasoning; Bayesian inference)、回归分析(Regression analysis)、方差分析(Analysis of Variance,简称ANOVA)等分析技术、贝叶斯推理是在估计与假设统计归纳基础上发展的全新推理方法。贝叶斯推理在与传统统计归纳推理方法相比较,所得出的结论不仅根据当前观察得到的样本信息,还将根据推理者过去相关的经验和知识来处理数据挖掘中遇到的分类问题;回归分析是通过输入变量和输出变量来确定变量之间的因果关系,通过建立回归模型,根据实测数据求解模型的各参数,若能很好的拟合,则可根据自变量进一步预测。统计方法中的方差分析是通过分析研究中估计回归直线的性能和自变量对最终回归的贡献大小,从而确定可控因素对研究结果影响力的大小。
(二)聚类分析(Cluster analysis )
聚类分析(Cluster analysis)是将一组研究对象分为相对同质的群组(clusters)的统计分析技术。 同组内的样本具有较高相似度,常用技术有分裂/凝聚算法,划分/增量聚类。聚类方法适用于研究群组内的关系,并对群组结构做出相应评价。同时,聚类分析为了更容易地使某个对象从其他对象中分离出来的方法用于检测孤立点。聚类分析已被应用于经济分析(Economic analysis)、模式识别(Pattern Recognition)、图像处理(image processing)等多种领域。
(三)机器学习(Machine Learning)
机器学习方法经过多年的研究已相对完善,通过建立人类的认识模型、模仿人类的学习方法从海量数据中提取信息与知识,在很多领域已取得了一些较满意的成果。因此利用目前比较成熟的机器学习方法可以提供数据挖掘效率。
(四)数据汇总
数据库中的数据和对象经常包含原始概念层上的详细信息,将数据集通过数据立方体和面向对象的归纳方法由低概念层抽象到高概念层,并对数据归纳为更高概念层次信息的数据挖掘技术。
(五)人工神经网络(Artificial Neural Networks)
神经网络是一种模范动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。近年来在解决数据挖掘中遇到的问题越来越受到人们的关注,源于人工神经网络具有良好的自组织自适应性、并行处理、分布式存储和高容错等特性,并通过调整内部大量节点之间相互连接的关系,达到处理信息的目的。
(六)遗传算法(Genetic Algorithm)
遗传算法(Genetic Algorithm)是模拟达尔文生物进化论的自然选择和遗传学机理的生物进化过程的计算模型,是一种通过模拟自然进化过程搜索最优解的方法,是一种受生物进化启发的学习方法,通过变异和重组当前己知的最好假设来生成后续的假设。遗传算法可直接对结构对象进行操作,不存在求导和函数连续性的限定,能自动获取和指导优化的搜索空间,自适应地调整搜索方向。遗传算法已被人们广泛地应用于多种学科领域。
(七)粗糙集
粗糙集是一种刻划不完整性和不确定性的数学工具,能有效地分析不精确,不一致(inconsistent)、不完整(incomplete) 等各种不完备的信息,还可以对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律。粗糙集理论应用于数据挖掘中的分类、发现不准确数据或噪声数据内在的结构联系。
四、数据挖掘技术发展趋势
当前,数据挖掘技术不断创新与发展,数据挖掘技术开发研究人员、系统应用人员所面对的主要问题:高效、有效的数据挖掘方法和相应系统的开发;交互和集成的数据挖掘环境的建立以及在实际应用中解决大型问题。
五、小结
数据挖掘技术涉及到多种学科技术,如:数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索及空间数据分析等。因此,数据挖掘是非常有前景的研究领域,随着数据挖掘技术的不断发展,它将会广泛而深入地应用到人类社会的各个领域。
参考文献:
[1]罗可,蔡碧野.数据挖掘及其发展研究[J].计算机工程与应用,2002
[2]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000
[3]刘毅勇.情报分析智能辅助决策方法及其军事应用[M].北京:国防大学出版社,2001
[4]唐晓萍.数据挖掘技术及其在指挥控制系统中的应用[J].火力与指挥控制,2002
[5]Alex Berson,Stephen J.Smith,Data Warehousing,Data Mining,&OLAP[M], McCraw-Hill Book Co,1997
[6]吴修霆.SAS数据挖掘技术的实现[J].微电脑世界,2000, Vol.14:pp44-45
[7] INDERPAL BHANDARI, EDWARD COLET, JENNIFER PARKER, ZACHARYPINES, RAJIV PRATAP, KRISHNAKMAR RAMANUJAM. Advanced Scout: Data Mining and Knowledge Discovery in NBA Data. Data Mining and Knowledge Discovery,1997,1:121~125
关键词:数据挖掘 技术研究 前景分析
中图分类号:TP39 文献标识码:A 文章编号:1674-098X(2014)05(c)-0034-01
数据挖掘技术对各个不同应用领域中的传统数据进行分析研究,提取其中存在的有价值的信息。随着科技信息的快速发展,人们对信息分析技术的要求越来越高,现阶段如何从大量的数据中挖掘出自己所需的知识日益重要。数据挖掘技术是在传统数据分析系统的基础上建立起的新数据处理技术。
1 数据挖掘技术分析研究
1.1 数据挖掘的背景
当今社会信息技术的广泛利用提高了生产的能力,在企业、工程建设和科学研究中数据挖掘技术被逐渐利用,数据挖掘技术的优点在被逐渐推广,作为新兴的技术被广泛使用。在信息时代的激烈竞争中,提高数据的利用效率问题显得日益重要,企业在激烈的市场竞争中要想结合数据挖掘技术的作用使得数据信息作为企业有利的竞争手段,只有充分利用数据挖掘的技术才能够高效的为企业的良好发展打下一个坚固的基础。面对社会竞争中的各种挑战,数据挖掘技术是在传统数据分析基础上升级的一项高效技术,其优势已经适应社会的竞争理念正在被完善利用。
1.2 数据挖掘的功能分析
数据挖掘的主要任务是对数据分类以及对信息的预处理数据预测进行分析,其中信息预处理是以由两个或两个以上的变量值进行分析,得出两者之间存在的规律,称之为信息预处理。数据预处理有简单处理和复杂处理,的目的是对数据库中的隐藏知识进行研究分析,结合相关重要的参数使得挖掘出的数据更符合应用的要求。数据的预测是结合历史的数据总结出数据的规律,对同一类型的数据进行比较,可以运用数据的预测方式使得挖掘技术更好的展现。
1.3 数据挖掘的概念
数据挖掘技术是一门新的计算机应用技术中的技术,在近几年的发展中逐渐吸引了大量相关工作者的关注,科学挖掘技术会给企业减少一些不必要的投资,使自身能够获得一定的利益回报。数据挖掘技术在企业中的利用会逐渐提高,由于新技术的使用会给企业带来丰厚的利益,使得企业之间广泛运用数据挖掘技术,随着数据挖掘技术在运用中的不不断升级和挖掘技术的完善发展,促使数据挖掘技术在各个行业中被逐渐重视。结合数据库技术和系统分析技术的运用,保障相关工作人员对挖掘出的数据的透彻理解,挖掘技术的运用要求保证数据的准确有效性,对挖掘出的数据价值作出合理的分析,使挖掘数据具有一定的科学价值。
2 数据挖掘技术的流程展现
2.1 数据挖掘的应用
数据挖掘技术能够为企业的运行带来显著的利益,使得很多企业都在利用数据挖掘技术为自身的经济利益作出保障。企业在发展中为了稳定的长期发展,从而利用数据挖掘技术了解客户的特点,从中得到一定的经济利益,结合数据的特点可以针对性的为客户提供所需的服务。企业根据数据挖掘技术可以找到符合自己所需的客户进行产品销售,增加更多的经济利益。数据挖掘技术运用多个领域,可根据不同领域的特点采用数据挖掘减少利益的损失,开阔领域的发展前景。
2.2 数据挖掘的结构
数据挖掘技术从数据库到技术的运用过程中有不同的运行步骤,在确定业务对象问题方面可根据数据的准备对所有业务对象进行分析研究处理,保障数据的质量从而为进一步的分析工作做准备。在数据的转换方面应建立一个针对性的分析模型,挖掘数据的成功关键因素,对所得的数据进行预处理,完善挖掘技术的措施,使数据分析工作自动顺利的运行。在数据挖掘技术的结果分析上,应对数据结果做出正确的评估,与知识理念共同分析,完善数据挖掘技术的每一步结构。
3 结语
随着信息的高速发展,使得数据系统越来越复杂,数据类型的要求也越来越多,使用合理有效的数据挖掘技术能够将传统数据的作用更好发挥。数据挖掘技术是一个有潜力的发展领域,在社会利益的竞争中被不断完善运用,每年都会有更高效的数据挖掘技术产生,市场中对数据挖掘技术的要求日益严格。数据挖掘技术在高速的社会发展下面临着诸多挑战,对数据挖掘技术必须作出优化处理措施,维护数据挖掘中的各种问题产生解决问题,完善数据挖掘技术的运用,使数据挖掘能够长久的在未来发展。
参考文献
[1] 黄天航.面向数字城市规划的数据仓库构建中主题信息的组织与提取研究――以大北京区域规划为例[C]//规划创新:2010中国城市规划年会论文集,2010.
[2] 吴亮,符定红.基于距离扩散的审计信息系统异常数据挖掘算法研究[J].长春理工大学学报(社会科学版),2012(2).
[3] 杨静,申艳光,邢丽莉.数据仓库与数据挖掘的研究与应用[C]//2006北京地区高校研究生学术交流会――通信与信息技术会议论文集(下),2006.
关键词 Web数据挖掘;技术模型;具体解析
中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2014)03-0055-01
Web框架下的数据挖掘,主要经由对数据挖掘类技术的现实利用,从网络供应的服务,以及现有的网络文档中,发觉并提炼信息。数据挖掘含有的对象不同,可以将现有的Web挖掘,分为三个类别:Web框架下的内容挖掘、Web框架下的信息挖掘、Web带有的结构挖掘。
1 新颖的内容挖掘
伴随信息技术延展,Web框架下的数据类别也在递增,从本源层级上来讲,主要涵盖了图像类、文本类、声音类、元数据类、视频类等。在不同类别的数据以内进行挖掘,就构造出了多媒体属性的数据挖掘。
1) Web框架下的文本挖掘。数据挖掘,应指代在很不完备的、数目偏多的、很含糊的、带有杂声的、带有随机特性的数据内,将其中潜藏着的各类别信息及关联知识,予以提炼。若数据挖掘的目标对象,只归属于文本,便构造出文本属性的数据挖掘。挖掘对象,涵盖着半结构类、非结构类、结构化框架下的数据;而非结构化属性的数据,是侧重的挖掘成分。
在IR这一领域中,文档采纳了空间向量模型这一独有的形式,空间配有的向量,便归属于文档。对文档含有的特征集,予以提炼时,常常会多遍扫描,而获取到特征向量,其现有维数非常高,这就增添了必备的处理时段。所以,在没能影响到现有匹配结果及关联分类的根基上,需要对原有的特征子集,予以选取。选取时,先对某个特有函数,创设构造,然后对这一子集中含有的特征进行评判,将评判价值偏高的那些特征,选取出来,归结成特征子集。常常见到的评价函数,归属于交叉熵等。
对文本类别的数据去挖掘时,所接纳的模型质量类评价方法,和惯用的挖掘方法很近似,分类算法之内,朴素贝叶斯这一类别的算法,很常见。评判现有的模型质量,主要涵盖着分类带有的准确率、分类带有的正确率、惯用的信息估值。
中文框架下的信息编码,是偏复杂的,这一类别的编码,在Web内,较为常见的,归属于BIG5属性的编码、GB类别的码、HZ类别的码等。对带有中文类码的HTML,采纳数据挖掘,要对这一类别的编码标准予以辨识,并更替成带有统一性的惯用指标,然后才可挖掘。
2)对Web框架下多媒体挖掘,予以解析。在数据挖掘内,多媒体属性的挖掘,是一个凸显出来的挖掘领域,它从多媒体属性的数据库内,提炼出潜藏着的知识。多媒体属性的数据挖掘,带有广义性,涵盖着对声音、多样的视频以及各类别图像的挖掘,同时涵盖着文本类数据挖掘。
进行多媒体属性的数据挖掘,要先凝练得来必备的信息,然后对惯用的挖掘方式,予以挖掘。对网页中潜藏着的多媒体类别数据,凝练属性时,要对HTML类别的标签信息充分利用。
2 Web框架下的结构挖掘
这种构架,被当成Web,因为它没能由HTML类别的页面,单纯堆积而构造出来,而是在Web含有的页面间,有着各类别的关系,而能在现有的Web之间,架设出桥梁,因此归属于超链。超链能对现有的Web类页面关联,选取出适宜的表征形式,如引用类的关系和继承类的关系等。但是对于现有的Web框架下搜索工具,不会顾及到Web结构,仍然把这种Web,当成独立框架下文档的集中。Web现有的结构挖掘,是经由对引用解析类技术与服务类技术的可行利用,对Web框架下的结构衔接进行分析,将其中可用的所有模式,予以提炼。进行这一类别的结构挖掘时,其潜藏着的结构对象,既可以是现有的Web页面构架,也可以是现有Web页面搭配的超链。前者含有针对性,带有特定的应用层级内目的,而后者存在着普遍价值。
Web框架下的结构挖掘,把Web当成了独有的有向图,Web含有的页面,当成顶点,而图含有的边,归属于超链。然后经由对图论的现实利用,对Web框架下拓扑结构去解析。常常见到的算法,归属于发觉相似页面、发觉虚拟社区、分出页面类别、发觉地理位置。结构挖掘算法,通常可分出两类,一类归属于查询无关,一类归属于查询相关。采用查询相关这一算法时,需要对各类别的查询,进行超链解析,获取到一次值的精准指派;接纳查询独立框架下的算法时,要对各类别的文档,去进行一次值的精准指派。
3 Web框架下的信息挖掘
对现有的交易及关联商务,都是经由Web去予以落实。因此,在各类别的服务器方,会产出数目偏多的数据,它们由服务器所产出,并存留在服务器配有的日志文件内,另外,还会产出很多数目的用户信息,如注册类的信息。对这些数据解析以后,可以让现有的商家,更好地明晰客户信息,从而对现有市场以及现有商品,进行更精准的决策;对于供应网络类服务的人员,可以整合起总括的站点,以便供应出带有个性化的新服务。
Web框架下信息挖掘,带有如下特性:当用户访问到既有网络,可对用户现有的活动及关联行为,予以推测。挖掘方法可分出以下两类:
原始数据,经由网络服务器搭配的日志文件,选用独有的处理方法,对其进行归整,然后再去挖掘。
把网络服务类日志,现有的文件,经由图表去展示,然后去挖掘。通常情形之下,只要对原始属性的数据,予以处理后,便可对旧有的数据挖掘,予以采纳,以便获取到挖掘目的。
数据清除流程终结以后,制备出事务标识类模块,对登录项含有的日志,分出逻辑类别。采用这样的事务标识,是为了让各类别的用户,都能产出带有一定含义的聚类。因此,这种事务标识含有的目的在于,将总括的大事务进行归整,以便分出几个分支属性的小事务。在这一过程中,可以分解出多样步骤,或者是接纳合并扩展这样的形式,从而产出最适宜的事务。
4 结束语
Web框架下的数据挖掘,是新产出的技术,关涉到各类别的多样技术,正处于初始时段中。国内对这一层级进行的研究,数目还是偏少,对于Web含有的中文信息的关联挖掘技术,没能制备出完善方案。但是,对Web框架下数据挖掘技术现有的研究,具有明显的实用价值和商业价值。
参考文献
[1]薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006(08).
关键词:数据仓库;数据挖掘
中图分类号:TP392文献标识码:A文章编号:1009-3044(2007)15-30631-02
On Data Warehouse and Data Mine
SHENG Wei-xiang1,LONG Jia-li2
(1.Department of Science & Law,Jiangxi Vocational College of Politics and Law,Nanchang 330013,China;2.College of Automation, Nanchang Hangkong University,Nanchang 330036,China)
Abstract:The Data Mine is a burgeoning technology,the research about it is developing flourishly.In this paper,it expatiates and analyses the concepts of Data Warehouse andData Mine.Together,discussing the connections of how to expand the two technologies,and combining the two technologies with prospect.
Key words:Data Warehouse;Data Mine
随着信息时代的不断进步,社会正处于数据技术飞速发展的良好状态。但是,在数据信息极度膨胀的同时,并非所有的数据都可被利用,大量的数据浪费,造成各种损失,所以有必要将这些数据转化为有用的信息。而传统的数据处理方法越来越不能满足使用要求,迫切需要一种从大量数据中搜索集中并去伪存真的技术。20世纪80年代后期至今,高级数据分析――数据挖掘(Data Mining,简称DM)发展起来,是开发信息资源的一套科学方法、算法以及软件工具和环境,是集统计学、人工智能、模式识别、并行运算、机器学习、数据库等技术为一体的一个交叉性的研究领域[1]。
1 数据挖掘
1.1数据挖掘定义及实现过程
数据挖掘就是用来发现隐含的、事先未知的、潜在的有用知识,提取的知识可以表示成概念、规律、模式等形式。其挖掘对象不仅可以是数据库,也可以是文件系统或组织在一起的数据集合,更主要的是数据仓库[2]。简单的说,数据挖掘是提取或“挖掘”知识。目前,数据挖掘是可以从统计学、数据库和机器学习等三个方面进行定义。从统计学的角度,数据挖掘是指分析所观察的数据集以发现可信的数据间的未知关系并提供给数据拥有者可理解的、新颖的和有用的归纳数据[1]。从数据库的角度来看,数据挖掘是指从存储在数据库、数据仓库或其他信息仓库中的大量数据中发现有趣的知识的过程[1]。从机器学习的角度,数据挖掘定义为从数据中抽取隐含的、明显未知的和潜在的有用的信息[1]。可以理解为,数据挖掘是一个从已知数据集合中发现各种模型、概要和导出值的过程。图1表示的是典型的数据挖掘系统的结构。
过程表述如下:从数据库或数据仓库等资源库中收集数据,并进行信息的初步筛选;根据用户对数据信息的要求,由服务器提取并传输有用的数据;为了对已经采集到的数据进行更有效的分配,数据挖掘引擎对数据进行特征化、关联、分类等操作;然后将精确划分的数据信息进行模式评估,从而使搜索仅限制在感兴趣的模式上,通过图形用户界面,用户可以方便的与数据挖掘系统之间通信,实现对数据的使用。
1.2数据挖掘分类
数据挖掘是一个交叉性的学科领域,涉及数据库技术、统计学理论、机器学习技术、模式识别技术、克视化理论和技术等。由于所用的数据挖掘方法不同、所挖掘的数据类型与知识类型不同、数据挖掘应用的不同,从而产生了大量的、各种不同类型的数据挖掘系统。掌握数据挖掘系统的不同非类,可以帮助用户确定最适合的数据挖掘系统[1]。
图1 典型的数据挖掘系统的结构
(1)根据所挖掘数据库类型的不同来分类:有关系型数据挖掘系统、对象型数据挖掘系统、对象-关系型数据挖掘系统、事务型数据挖掘系统、数据仓库的数据挖掘系统,等等。
(2)根据所挖掘的知识类型来分类:分为特征化、区分、关联、分类、聚类、孤立点分析(异常数据)和演变分析、偏差分析、相似性分析等分类。
(3)根据所采用技术的分类:有自动数据挖掘系统、证实驱动挖掘系统、发现挖掘系统和交互式数据挖掘系统。
(4)根据数据挖掘方法来分类:如面向数据库的方法、面向数据仓库的方法、机器学习方法、统计学方法、模式识别方法、神经网络方法等。
(5)根据数据挖掘应用的分类:有金融数据的数据挖掘系统、电信行业的数据挖掘系统、DNA序列数据挖掘系统、股票市场数据挖掘系统、WWW数据挖掘系统等等,不同的应用通常需要集成对于该应用特别有效果的方法。因此,普通的、全功能的数据挖掘系统并不一定适合特定领域的数据挖掘任务。
1.3数据挖掘任务
数据挖掘任务有6项:关联分析、时序模式、聚类、分类、偏差检测、预测[3]。
关联分析是从数据库中发现知识的一类重要方法。若两个或多个数据项的取值之间重复出现并且概率很高的时候,就存在某种管理,可以建立起这些数据项的关联准则。
通过时间序列搜索出重复发生概率较高的模式。这里强调时间序列的影响。
数据库中的数据可以划分为一系列有意义的子集,即类。在同一类别中,个体之间的距离较小,而不同类别的个体之间的距离偏大。聚类增强了人们对客观现实的认识,即通过聚类建立宏观概念。
分类是数据挖掘中应用最多的任务。分类是找出一个类别的概念描述,它代表了这类信息的整体,即该类的内涵描述。一般用规则或决策树模式表示。该模式能把数据库中的元组影射到给定类别中的某一个。
数据库中的数据存在很多异常情况。从数据分析中发现这些异常情况也是很重要的,应该引起足够的重视。偏差检测的基本方法是寻找观察结果与参照之间的差别。观察常常是某一个领域的值或多个域值的总汇。参照是给定模型的预测、外界提供的标准或另一个观察。
预测是利用历史数据找出变化规律,建立模型,并用此模型来预测未来数据的种类、特征等。近年来,发展起来的神经网络方法,如BP模型,实现了非线性样本的学习,能进行非线性函数的判别。分类也能进行预测,但是分类一般用于离散数值;回归预测用于连续数值;神经网络方法预测两者都可用。
2 数据仓库概述
数据仓库对不同的使用者、不同的操作范围,它有不同的意义。被誉为数据仓库之父的W.H.Inmom将数据仓库(Data Warehouse)定义为[4]:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。对于数据仓库的概念可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。
数据仓库具有以下特征:
(1)数据是面向主题的
传统的数据仓库只是单纯的数据的集中,在处理不同事务时执行不同的操作。而现今的数据仓库是有较强主题组织性的,高层次地将数据归类,去除无用的数据。
(2)数据的集成性
因为数据的来源是多方面的,必须根据一定的规则将所有的数据进行重新构造,即数据的集成。
(3)数据的相对稳定性
数据仓库中的数据是历史数据,具有一定的借鉴性,不会有大的变动。
(4)数据的不易失性(长期性)
数据仓库只是物理式的、筛选式的存放数据,不会改变数据本身的性质,那么其数据结构必定包含有时间效果,这样才能更好的体现历史数据的趋势预测性。
3 数据仓库与数据挖掘的关系
既然数据仓库的唯一功能是向终端用户提供信息以支持决策者,数据挖掘体现了数据仓库的一个最重要的应用。与其他查询工具和应用系统不同,数据挖掘过程向终端用户提供提取隐藏的、非同等常的信息的能力。这种信息虽然很难提取,但能提供更大的商业和科学利益,也能使对“数据仓库和数据挖掘”的投资产出更高的利润[5]。
从数据仓库的观点,数据挖掘可以看作是联机分析处理的高级阶段。但是作为更高级的数据分析技术,数据挖掘比数据仓库的汇总分析要详细和深入的多。数据仓库技术的发展与数据挖掘有着密切的关系。数据仓库的发展是促进数据挖掘越来越热门的原因之一。但是,数据挖掘并不一定要有数据仓库的支持,即数据仓库并不是数据挖掘的必要条件,因为有很多数据挖掘可直接从操作数据源中挖掘信息,同时,数据挖掘仍然经常被看做是数据仓库的后期市场产品,因为那些努力建立起来的数据仓库有最丰富的数据资源可供挖掘。显然,数据仓库被更为广泛地接受将使人们对数据挖掘更感兴趣。
从数据仓库中直接得到进行数据挖掘的数据有许多好处。数据仓库的数据清理和数据挖掘的数据清理差不多,如果数据在导入数据仓库时已经清理过,很可能在做数据挖掘时就没必要再清理一次了,而且所有的数据不一致的问题都已经得到解决了。
数据挖掘库可能是数据仓库的一个逻辑子集,而不一定非得是物理上单独的数据库。但如果数据仓库的集中资源已经很紧张,那最好还是建立一个单独的数据挖掘库。
为了数据挖掘库,也不是一定要建立一个数据库。因为建立一个巨大的数据仓库,要把各个不同资源的数据集中在一起,并解决所有的数据冲突问题,然后把所有的数据导入一个数据仓库内,是一项非常巨大的工程,比较麻烦,需要时间和金钱的花费。如果只是为了数据挖掘,可以把一个或几个数据库导到一个只读的数据库中,就把它当作数据集合,然后在这上面进行数据挖掘。其中如何抽取、集成、筛选并准备数据以解决其最为紧迫的业务问题,将是分析人员在进行数据挖掘时所面临的最大挑战。解决这些问题,不仅是数据挖掘过程中的一个艰巨任务,而且需要耗费大量的时间。尽管在数据挖掘中并非一定要有数据仓库的支持,但数据仓库的确为数据集成和准备提供了一个好办法。
4 总结
构造在数据仓库平台的数据挖掘具有很强的实用性,效率很高,节省资源。目前,数据仓库和数据挖掘技术在科学研究、市场流通、企业管理等应用方面已经达到了一定的水平。随着信息化的加强,数据仓库的多维化和数据挖掘的效率化将更有效的结合起来,促进整个信息产业的发展。
参考文献:
[1]焦李成.等.智能数据挖掘与知识发现[M].西安:西安电子科技大学出版社.2006.8:1-7.
[2]Dustin R Callaway.精通Servlets[M].北京:清华大学出版社.2002:20-45.
[3]陈文伟.等.数据挖掘技术[M].北京:北京工业大学出版社.2002.12:1-6.
[4]钟飙等.数据仓库与数据挖掘技术概述[J].计算机与网络.2003.2:11-15.
当今是一个信息技术飞速发展的时代,人们在日常的生活和工作中产生的数据量越来越大,要让人们理解和接受这些错综复杂的数据,数据研究工作者需要采用数据挖掘技术来解决这一难题。本研究就对数据挖掘技术进行分析,并对当前运用较多的关联规则挖掘算法进行探讨。
【关键词】数据挖掘 关联规则算法
数据挖掘是对数据进行理解分析,对数据中隐藏的知识进行挖掘发现的技术,所以也称为数据库中的知识发现(KDD)。数据挖掘技术在近几年来的研究越来越深入,这是数据研究工作者经过长期在大量的应用过程中探索研究的成果。在数据挖掘技术中的关联规则是应用较为广泛的一种算法,数据研究工作者在大量数据中获取微量信息时,关联规则能发挥其重要的价值。本研究在对数据挖掘技术相关概念进行分析的基础上,对关联规则中的集中常用算法进行探讨,以期为数据研究工作这提供可靠参考。
1 数据挖掘技术介绍
1.1 数据挖掘技术的概念
数据挖掘技术是一门包容性以及开放性较强的跨领域数据信息揭示学科,这项技术能从大量含有噪声,且模糊不确定的实际业务数据中进行计算,在这些数据中对当前尚未发现,或者没有被明确认知的具有一定价值的知识信息进行揭示。在进行数据挖掘中的业务数据形式不是单一固定的,是复杂多样的,所以数据挖掘得出的分析结果形式能以多种形式表现出来,可以是具有较强逻辑性的数学表达式,也可以是容易被一般用户理解的结果。且数据挖掘技术在科学研究、市场分析等领域均得到了广泛的应用。
1.2 数据挖掘技术分类
数据挖掘功能的分类主要是根据数据挖掘功能的不同进行的,当前的数据挖掘技术主要有关联规则挖掘技术、分类挖掘技术、孤立点挖掘技术以及聚类挖掘技术等。本研究主要对关联规则挖掘算法进行详细探讨。
2 关联规则挖掘算法
2.1 关联规则种类介绍
关联规则按照不同的标准,能用各种不同的方法分成不同类型。将关联规则分为挖掘频繁项集、闭频繁项集、被约束频繁项集、极大频繁项集,是根据挖掘模式的完全性分类的;将关联规则分为多层和单层关联规则,以及单位和多维关联规则是根据规则所涉及的数据进行分类的;将关联规则分为量化关联规则和挖掘布尔型规则是根据规则处理值类型分类的;将关联规则分为序列模式挖掘、频繁项集挖掘以及结构模式挖掘是根据俄关联规则挖掘模式进行分类的;将关联规则分为兴趣度约束、知识类型约束、数据约束,是根据规则所挖掘的约束类型分类的。
2.2 P联规则挖掘算法分析
2.2.1 Apriori算法分析
关联规则算法中的挖掘完全频繁项集中,Apriori算法该类型中最具有应用价值,影响力最大的算法。Apriori算法主要有两个步骤:
(1)发现所有的频繁集;
(2)生成强关联规则。
在Apriori算法中的第一步是最为重要的步骤,该算法的核心思路是,给定一个数据库,在第一次数据库扫描中找出所有支持度大于等于最小支持度的项目组成频繁1―项集,也就是L1,1―项集C1,由L1进行连接得到;接着进行第二次数据库扫描,将C1中所有支持度大于等于最小支持度的项集组成频繁2―项集,也就是L2,候选2―项集C2由L2连接得到。以此类推,直到找出最大项频繁集。即在进行第N次数据库扫描时,找出CN-1中所有支持度大于等于最小支持度的项集组成频繁N―项集,即是LN,N―项集CN要由LN连接得出,一直到找不出新的选集为止。在这里还要用到Apriori算法性质,即是频繁项集是频繁项集的子集,非频繁项集是非频繁项集的超集。在Apriori算法中对数据库的扫描次数需要大于最大频繁项集的项数。
Apriori算法的操作具有两个明显的缺点。(1)该算法的使用需要对数据库进行多次扫描,因此在读写操作上会花费很多的时间,从而增加挖掘算法的时间成本,这种成本的增加不可小觑,因为它是有数据库存储数据的增加,以几何级数上升的成本;
(2)Apriori算法会出现众多的候选频繁集,频发集的产生量在每一步都很大,这会使算法在广泛度和深入度上的适应性较差。
2.2.2 FP―growth算法分析
FP―growth算法是关联规则算法中属于深度优化的一种算法,这种算法是深度优化算法中较新且具有较高成效的,不同于Apriori算法本质的常用算法。FP?―growth算法的基本基本步骤有两个:
(1)先将频繁模式树FP―tree生成;
(2)在生成的FP―tree频繁模式树中搜索频繁项集。
(1)需要将项集关联信息保留住,并采用一棵频繁模式树(FP―tree)用来容纳压缩后的数据库;
(2)再将压缩后的FP―tree再分散为几个小的条件数据库,再分别对这些数据库进行信息挖掘。FP―growth算法相较于Apriori算法,只需要对数据库进行两次扫描,不需要多次扫描,大幅度减少了挖掘算法的时间成本;也不会出现大量的候选项集,大幅度减少了频繁集的搜索空间。也就是说FP―growth算法能明显提高时间和空间效率。但是该算法也有缺点,在对庞大且松散的数据库进行挖掘处理过程中,不管是递归计算还是信息挖掘都需要占据大量的空间。
3 总结
综上所述,本研究对对数据挖掘技术概念和分类进行了简单的介绍,并对关联规则的种类进行了详细的分析,对关联规则中常用的两种算法FP―growth算法和Apriori算法进行了详细的分析。两种算法都还存在各自需要改进缺点,怎样在挖掘过程中提高挖掘效率,满足人们对挖掘系统的需求,这将是数据研究工作者仍然需要突破的重难点。
参考文献
[1]毛国君.数据挖掘技术与关联规则挖掘算法研究[D].北京:北京工业大学,2015.
[2]张弛,王本德,李伟等.数据挖掘技术在水文预报中的应用及水文预报发展趋势研究[J].水文,2015,27(02):74-77,85.
[3]魏陵博,付先军.基于Aprio关联规则挖掘技术分析归心经中药与抗心律失常药理作用的相关因素[J].中西医结合心脑血管病杂志,2014(05):517-518.
[4]付先军,周永红,王中琳等.基于频繁项集与关联规则挖掘技术探索王新陆临床用药及处方配伍规律的初步研究[J].中国中医药信息杂志,2015,17(09):92-94.
[5]郭涛,门瑞.关于数据挖掘技术与关联规则挖掘算法的研究[J].无线互联科技,2014(10):150-150,264.
【关键词】数据挖掘 数据分类算法
在当前的时代背景下,很多的行业都引入了大数据挖掘的理念,这既给计算机产业带来了发展机遇,也带来了挑战。因为想要做好大数据挖掘的相关工作,就一定要掌握数据分类算法,而数据分类算法可称得上是数据挖掘中的一道难关。随着数据分析的研究不断深入,人们开发了多种多样的分类算法,用以不断减轻其难度。通常都是以数据分类器为基准,进行相应的数据分类,包括决策树类、Bayes类、基于关联规则类以及利用数据库技术类,本文将对它们进行简单的阐述。
1 决策树分类算法
1.1 传统算法
C4.5算法作为传统的数据分类算法,有着很明显的优点,如规则简单易懂,实际操作易于上手。但是随着计算机的不断普及,数据的规模变的越来越庞大,其复杂程度也是日渐增长。C4.5已经逐渐无法满足新时期的数据分类处理工作了。并且由于决策树分类算法的规则,决定了在数据分类的过程中,要对数据进行多次重复的扫描和排序。特别是在构造树的时候,这种缺点更加明显。这不仅会影响数据分析的速度,也浪费了更多的系统资源。对于大数据挖掘来说,C4.5更加无法胜任,因为C4.5算法的适用范围十分有限,只能够处理小于系统内存数量的数据,对于内存无法保留的过于庞大的数据集,C4.5甚至会出现无法运行的情况。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而来,在其基础上做了一些技术性的完善,例如增强了数据的排序技术,并采取了广度优先的处理策略。这使得SLIQ算法能够很好地记录数据处理的个数,并具有相当优秀的可扩展性,为处理大数据提供了基础条件。但是SLIQ算法也存在一些缺点,由于它是以C4.5算法为基础的,因此在进行数据处理时,仍需要将数据集保留在内存中,这就导致SLIQ算法的可处理数据集的大小受到了限制。即数据记录的长度一旦超过了排序的预定长度,SLIQ算法就很难完成数据处理和排序的工作。
(2)SPRINT 算法是为了解决SLIQ算法中数据集大小受到内存限制的问题而开发出来的。SPRINT 算法重新定义了决策树算法的数据分析结构,改变了传统算法将数据集停留在内存中的做法。值得一提的是,它没有像SLIQ 算法那样讲数据列表存储在内存当中,而是将其融合到了每个数据集的属性列表中,这样既避免了数据查询时重复扫描造成的速度缓慢,又释放了内存的压力。特别是在进行大数据挖掘时,由于数据的基数过大,在每个数据集的属性列表内寻找所需数据能够大大节省分析的时间,对数据进行分类的工作也变得更加便捷。但是SPRIT算法同样存在一些缺点,对于不具有可分裂属性的数据列表,由于它只能在数据集内进行分析,结果可能不是十分准确,导致其拓展性受到了限制。
2 其他分类算法
2.1 Bayes分类算法
Bayes分类算法是利用概率统计学而开发出来的一种算法,在目前数据分类中应用比较广泛。但是其缺点也比较明显,由于Bayes分类算法需要在分析之前对数据的特性做出一定的假设,而这种假设往往缺少实际数据的理论支持,因此在数据分析过程中就很难做到准确有效。在此之上,TAN算法又被开发出来,它是为了提高Bayes分类算法的假设命题的准确率,也就是降低了NB任意属性之间独立的假设。
2.2 CBA分类数据算法
基于关联规则的分类算法就是CBA分类数据算法。这种算法一般需要用到数据构造分类器,在数据分析的过程中,先搜索到所有的右部为类别的类别关联规则,这被称为CAR;然后再从CAR中选择合适的数据集。CBA算法中主要用到的是Apriori算法技术,它能够使潜在的数据关联规则呈现到表面,方便进行归纳整理。但是由于其在进行数据分类时容易出现疏漏,因此经常采用设置最小支持度为0的办法来减少遗漏的数据,这就造成了算法的优化作用不能完全发挥,降低了运行效率。
2.3 MIND和GAC-RDB算法分类算法
在大数据挖掘的背景下,未来数据分类算法的发展方向应当是以数据库技术为基础的的分类算法。尽管很久之前就已经有一些专门研究数据库的人员发现并提出了基于数据库技术的分类算法,但是并没有得到实际运用。因为在进行数据挖掘和数据分析的时候,很难将其与数据库的系统集成,目前来说,MIND和GAC-RDB算法还能够较好地解决这个问题。
2.3.1 MIND算法
MIND算法与决策树算法有些相似,都是通过构造数据分类器来进行数据分析。但是MIND算法采用了UDF方法和SQL语句来与数据库系统实现关联。在进行数据分析时,UDF方法能够大大缩短对每个节点的数据特性进行分析的时间,这样就在为数据库的集成提供了理论基础。SQL语句是通过对数据集的属性进行分析,以便从中选择出最合适的分裂属性,然后给数据排序,这样就节省了数据分类的时间。但是MIND算法还不能直接在数据库系统中实现查询功能,更重要的是,该算法的维护成本过高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基础上进行了更多的改进,能够充分利用数据库系统进行聚集运算,也就是实现了数据库系统的集成。该算法拥有分类准确,分析迅速,执行更快的优点,同时可拓展性也比较出色。更重要的是,它可以充分利用数据库提供的查询功能,从而避免了重复扫描数据集的现象,缩短了分析的时间,节约了系统资源。只要在自动确定参数取值的技术上进行一些改进,该算法就能很好地胜任大数据挖掘的数据处理工作。
3 总结
大数据挖掘是时展的潮流,因此数据分类算法的重要性也将随着显现。通过分析几种不同的算法,能够在数据分析速度、可扩展性和结果的准确性上进行比较,从而选择最适合的数据分类算法。它们都在不同程度上有着各自的优缺点,因此要继续深入研究以开发出更好的分类算法。
参考文献
[1]钱双艳.关于数据挖掘中的数据分类算法的综述,2014(13).
[2]刘红岩.数据挖掘中的数据分类算法综述,2002(06).
关键词:数据挖掘;数据库;预处理技术
中图分类号:TP311.131
随着计算机和互联网的普及应用,由于其能够提高工作的效率,非常受到人们的重视,一些企业甚至在计算机应用的基础上,提出了无纸化办公的理念,在实际应用的过程中,计算机需要存储大量的数据,对于企业用户来说,很多数据具有私密性,如果这些数据泄露出去,将会给企业的发展带来严重的影响,甚至造成巨大的经济损失。受到特殊的历史因素影响,我国的经济和科技起步较晚,与西方发达国家相比,存在较大的差距,虽然经过了多年改革开放的发展,我国已经成为了世界第二大经济体,计算机的应用水平也有了很大的提高,但是在尖端的数据挖掘等领域中,研究的还比较少,而数据挖掘等技术,能够在很大程度上影响数据的利用效率,对于实际的工作来说,具有非常重要的作用。
1 数据挖掘的预处理技术简析
1.1 数据挖掘预处理技术的概念
数据挖掘技术是随着数据库的发展,逐渐形成的一门学科,在计算机出现的早期,受到其性能和体积的限制,能够存储的数据很少,不需要考虑数据的利用效率,但是随着晶体管和集成电路的使用,计算机的性能得到了极大的提高,相应的存储设备也有了很大的进步,计算机能够处理的任务越来越复杂,存储的数据越来越多,现在我国建成了多个大型数据存储中心,存储的数据量非常巨大。对于如此多的数据,如何筛选出自己想要的,成为了很大专家和学者研究的问题,在传统的数据应用中,通常都是利用检索技术,根据输入的关键词,在数据库中进行逐个的匹配,如果数据库的存储量较小,检索的效率就比较高,而对于现在的海量存储来说,逐个匹配显然需要很长的等待时间。数据挖掘的预处理技术,正是在这种背景下出现的,所谓预处理技术,就是在数据挖掘之前,对数据进行一定的整理,通常情况下,数据挖掘主要面对现有的数据库或者互联网上海量的数据,如果在数据库中进行挖掘,那么可以对数据库进行一定的修改,如完善数据分类的方式等,而在互联网上进行数据挖掘,显然就需要优化挖掘的方式,或者缩小数据挖掘的范围等。
1.2 数据挖掘预处理技术的特点
与正常的数据挖掘技术相比,如何增加相应的预处理环节,无疑可以极大的提高数据挖掘的效率,如在数据库中进行数据的挖掘,传统的挖掘方式下,通常都是利用检索技术,输入指定的关键词后,与数据库中的信息进行对比,这样逐条的进行检索,就可以找到自己想要的数据,如果数据库存储的信息量较大,那么利用这样的挖掘方式,显然需要很长的等待时间。如果增加相应的预处理环节,如在数据库中添加索引,对数据库中的数据进行分类,那么在输入相应的关键词后,首先与索引进行匹配,然后在指定类别的数据中进行对比,这样的方式,显然极大的提高了数据挖掘的效率,目前使用的数据库中,大多采用了这样的预处理技术,取得了很好的应用效果。受到特殊历史因素的影响,我国数据库相关技术水平较低,目前我国建设的大型数据库,都是与国外的技术公司合建的,通过实际的调查发现,现在我国还无法自主生产外部存储设备,市面上的存储设备,都是从外国引进的,但是在实际数据库的建设中,在外国存储设备的基础上,我国也进行了大量数据挖掘等技术的研究。
1.3 数据挖掘预处理技术的发展
从某种意义上来说,数据挖掘技术是随着互联网和数据库的应用,根据实际使用的需要,逐渐形成的一门技术,在互联网发展的初期,网络上的资源有限,而且受到计算机性能的限制,没有太多的娱乐项目,只能浏览一些商业网站等,随着计算机的普及应用,互联网有了很大的发展,现在已经建成了覆盖世界范围的因特网。据最新的统计调查表明,我国的网民数量已经超过了6亿,如果庞大的用户群体,为我国互联网的发展,提供了坚实的基础,但是通过实际的调查发现,我国的实际网络带宽,还没有达到世界平均水平,即使实际使用的网络带宽较低,我国互联网内容的发展速度依然很快,现在网络上出现了各种各样的网站,极大的提高了网络建设水平。在实际的网络浏览中,面对如此大的信息量,如何找到自己想要的信息,成为了一个实际问题,为了解决这个问题,出现了搜索引擎,只要输入相应的关键词,搜索引擎就可以很快的找到大量相关内容,然后进行必要的筛选,就能够得到相应的数据,但是随着互联网内容的丰富,除了传统的文字信息外,还有视频和音频等数据,如何在这些数据中,进行相应的挖掘工作,具有较大的难度。
2 影响数据挖掘预处理技术的因素
2.1 预处理的方式
在实际的数据挖掘过程中,能够影响挖掘效果的因素有很多,如数据量的大小、挖掘方式等,从某种意义上来说,数据挖掘就是数据的查找,从指定范围或者未知范围内,找到指定的数据,通常情况下,数据挖掘都具有很强的目的性,但是对于找到数据的量,并没有明确的要求,尤其是随着互联网内容的增加,现在的数据挖掘中,都会附带大量的相关信息。对于数据挖掘的预处理技术来说,预处理的方式,能够在很大程度上影响挖掘的效率,例如在一个一百条数据库中进行挖掘,为了提高实际的效率,通常情况下会采用检索的方式,根据输入的关键词,逐条的与数据库的信息进行比对,这样挖掘的效率具有很大的不确定性,如果要查找的数据排列比较考前,那么就需要很短的检索时间,如果要查找的数据刚好在第一百条的位置,显然就需要进行一百次匹配。如果采用索引的方式进行预处理,将这一百条数据根据自身的特点,分成十个类别,每个类别建立一个索引,那么在实际的匹配中,无论要查找的数据处于哪个位置,最多只需要十次匹配,就可以找到相应的数据,由此可以看出,预处理方式对于数据挖掘效率具有非常重要的影响。
2.2 数据量的大小
计算机经过了多年的发展,其自身的性能有了很大的提高,在实际的数据挖掘中,如果检索的数据较少,即使不经过任何的预处理,仍然可以具有很高的挖掘效率,但是随着数据库自身的发展,企业用户的数据库容量越来越大,在数据库中查找指定的数据,需要较长的时间,要想很好的解决这个问题,必须对数据挖掘的方式等,进行相应的优化。通过实际的调查发现,目前我国使用的数据库,大多都是国外的技术公司设计的,为了方便数据库的使用,大多采用了整体的外包,即软件和硬件都是由同一家公司提供,采用这样的方式,不但能够很好的解决软件和硬件之间不兼容的问题,同时可以提供优质的软件服务。目前市面上的数据库,大多对数据挖掘技术进行一定的优化,如增加索引环节等,通过这些技术的使用,很好的提高了实际的挖掘效率,但是这些预处理技术,并没有考虑到数据量的大小,如一些大型的数据库中,要想建立索引机制,本身就需要很长的时间,虽然在建立索引后,就可以直接的使用,即使数据库中发生变化,也不需要重新建立,只要根据数据的情况,将其存储到指定的分类中即可。
2.3 操作人员自身的素质
对于实际的数据挖掘工作来说,操作人员自身的素质,也可以在很大程度上影响挖掘的效率,经过了多年的完善,数据挖掘技术已经成为了一门单独的学科,计算机专业的学生,要进行相应知识的学习,但是通过实际的调查发现,现在的数据挖掘主要针对互联网上的内容,而互联网日新月异的发展,给数据挖掘带来了很大的难度。在这种背景下,如果没有足够的工作经验,显然很难完成相应的数据挖掘工作,因此刚毕业的大学生,数据挖掘的效果较差,即使能够完成相应的工作,也需要较长的时间,虽然这些学生在学校中,能够学习到大量的数据挖掘知识,为了提高教学的效果,老师还会讲解一些数据挖掘的实例,但是实际挖掘中,具有很多的不可控因素。如果操作人员具有丰富的数据挖掘经验,在实际的工作中,必然会总结一些相应的技巧,这些技巧的使用,可以在一定程度上缩短挖掘的时间,提高数据挖掘的准确性,对于数据挖掘工作来说,具有非常重要的作用,从某种意义上来说,数据挖掘的预处理技术,指的就是这些从实践中总结出来的技巧,然后进行科学、系统的分析,应用到实际的挖掘中。
3 我国数据挖掘预处理技术应用中存在的问题
3.1 没有意识到预处理技术的重要性
在传统的数据挖掘中,由于数据库自身的容量较少,采用检索的方式,就可以轻松的找到想要的数据,因此不需要预处理技术,随着数据库自身的发展,计算机的性能也有了很大的提高,在很长一段时间内,硬件的发展速度都要领先于软件,因此数据检索具有很高的效率,近些年互联网的普及应用,在很大程度上改变了这种现象,尤其是云计算等理念的出现。在互联网海量数据中进行挖掘,依靠单独的计算机,很难具有较高的效率,在这种背景下,如何优化数据挖掘技术,成为了很多专家和学者研究的问题,预处理技术就是根据实际工作的需要出现的,受到特殊的历史因素影响,在数据库的建设等方面,我国要落后西方国家很多,虽然近年来我国投入了大量的人力和物力,研究数据挖掘等技术,但是并没有取得明显的效果。正是受到自身技术水平的限制,使得我国数据建设中,对数据挖掘的预处理技术,没有足够的重视,导致很大数据库中,还采用传统的检索等方式,没有任何的预处理技术,在很大程度上影响了数据挖掘的效率,虽然一些数据库中集成了相应的功能,但是通过实际的调查发现,在实际使用的过程中,并没有启用相应的功能。
3.2 没有针对性的预处理方式
由于现在的数据挖掘,主要针对互联网上海量的数据,而互联网上的数据非常复杂,尤其是近些年网络的发展,出现了文本、视频、音频等各种各样的信息,在这些信息中进行数据的挖掘,显然具有较大的难度,而且互联网的数据量较大,即使借助相应的搜索引擎,依然需要很长的挖掘时间,对于现在使用的一些数据挖掘预处理技术,只有在一些特定的情况下,才能够发挥出一定的作用。数据挖掘预处理技术出现的时间较短,目前还没有形成统一的认识,不同学者根据实际工作的需要,提出了不同的预处理方式,通过实际的调查发现,这些预处理方式的应用,都具有一定的局限性,在特定的数据挖掘中,可以明显的提高挖掘的效率,但是对于其他数据的挖掘,就无法起到相应的作用。受到我国数据挖掘技术水平的限制,并没有意识到这点,在实际数据挖掘的工作中,通常都是随意的采用预处理方式,这样显然无法最大成都上提高数据挖掘的效率,有时候反而会降低工作的效率,目前西方发达国家的数据挖掘预处理中,都会根据每次工作的实际情况,针对性的设计一个预处理的方式。
4 数据挖掘的预处理技术应用措施
4.1 重视数据挖掘的预处理技术
考虑到我国的数据库建设中,很多都没有采用相应的预处理技术,在很大程度上影响了数据挖掘的效率,要想很好的解决这个问题,必须对预处理技术给予足够的重视,在数据库的设计时,就对预处理的方式等进行考虑,如果是购买的数据库服务,那么就要根据自身的实际情况,对预处理技术提供一定的要求,这样可以极大的提高挖掘的效率。通过实际的调查发现,西方国家的预处理技术水平之所以比较高,主要就是由于其重视,在实际的挖掘工作中,对于能够提高工作效率的所有细节进行完善,并总结相关的经验,方便下次的使用,正是这种供求双方的重视,使得西方发达国家的预处理技术快速的发展。我国要想提高自身的数据挖掘预处理技术,必须根据自身的实际情况,借鉴外国一些先进的经验,最大程度上完善预处理技术,要想达到这个目的,首先应该提高对预处理技术的重视程度,无论是实际的操作人员,还是管理人员和开发人员,都应该重视预处理技术的应用,然后从自身的工作角度出发,对其进行一定的完善。
4.2 提高工作人员自身的素质
数据挖掘预处理技术的应用,需要实际的操作人员,而不同工作人员,由于自身经验等不同,工作的效率会有一定的差距,如刚毕业的大学生,即使在学校中的成绩较好,掌握了足够的预处理知识,还是无法很好的完成相应的工作,尤其是近些年信息技术的发展,互联网上海量数据的挖掘,具有很大的难度。而且不同数据的挖掘,预处理方式等也应该具有一定的差异,通过实际的调查发现,目前我国的数据挖掘工作人员自身的素质普遍较低,无法根据实际的工作情况,针对性的选择一种预处理方式,在很大程度上影响了挖掘的效率,要想很好的解决这个问题,必须提高工作人员自身的素质,在实际的招聘过程中,尽量聘请一些具有丰富经验的人员。对于现有的工作人员,可以通过定期培训等方式,让其了解到最新的数据挖掘理念,以及预处理技术的重要性等,如果条件允许,还可以与一些先进的企业进行交流,学习先进的预处理技术,这样在提高预处理技术水平的同时,还可以对数据库的其他的技术,进行一定的优化。
4.3 采用针对性的预处理方式
经过了多年的发展和完善,数据挖掘的预处理技术已经非常普遍,目前的很大数据库建设中,都会采用预处理技术,甚至在日常的数据搜索中,也开始使用预处理技术,但是通过实际的调查发现,根据实际需要数据的不同,数据挖掘的环境、方式等会具有较大的差异,而这些条件的变化,必然需要不同的预处理方式。而目前我国的数据挖掘中,显然还没有意识到这点,为了提高实际的工作效率,虽然会采用一定的预处理方式,但是预处理的方式,并不会根据数据挖掘的不同,进行针对性的变化,没有真正的达到预处理的目的,在一些特殊的数据挖掘中,由于预处理方式的不当,甚至会降低工作的效率。由此可以看出,在实际的数据挖掘中,预处理方式的重要性,要想最大程度上提高工作的效率,必须采用针对性的预处理方式,对目前已有的预处理方式进行总结、分类,根据需要数据的情况,针对性的选择,如果人员的自身素质较高,还可以设计一个新的预处理方式,以此来最大程度上提高数据挖掘的效率。
5 结束语
通过全文的分析可以知道,随着近些年计算机和互联网的普及应用,数据的挖掘、存储、调用等技术越来越重要,受到特殊的历史因素影响,我国科技起步较晚,与西方发达国家相比,在数据挖掘等领域中,具有明显的差异,虽然经过了多年改革开放的发展,这种差距在逐渐的减小,但是很难在短时间内赶上发达国家的技术水平,在这种背景下,要想快速的提高我国数据挖掘预处理技术,必须结合我国数据挖掘的实际情况,借鉴西方国家先进的经验,完善目前的预处理技术。
参考文献:
[1]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(05):44-47.
[2]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(05):94-96.
[3]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报(自然科学版),2007(02):1-4.
[4]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(01):46-49.
[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(03):10-15.
[6]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(03):324-327.
[7]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(04):486-489.
关键词:web网络数据;挖掘技术;实现
中图分类号:TP393.09
时间就是金钱,效率就是生命。在当今这个竞争日趋激烈的社会中,谁能快速有效的找到并掌握信息谁就能够在激烈的环境中占据强大优势。互联网作为一个我们任何热获取知识和有效信息的重要工具,在我们日常的生活和工作中具有非常重要的作用。我们在日常的生活和工作中,利用互联网挖掘对我们有效的数据的时候,必须掌握一定的技术和技巧,这样我们既可以得到我们所需要的资料和信息,又能在激烈的竞争环境中占得先机。
1 网络数据挖掘技术简介
当今社会是一个网络蔓延的社会,我们的日常生活和工作学习都离不开网络的大力支持,在网上我们可以找到我们所需的相关信息,网络数据挖掘技术是一门在网上快速的提取我们所需的有效信息的一种技术手段,通过网络数据挖掘技术我们可以节约我们获取信息的时间,提高我们的日常工作效率。对于我们的日常生活来讲,利用网络数据挖掘技术在网上获取我们所需的有效信息,可以为我们节约非常多的生活时间,让我们有更多的时间和精力去处理个人生活问题,有效的帮助提高我们的生活质量。在工作中,我们利用网络数据挖掘技术可以为我们节约大量的时间,有效的提高我们的工作效率,对于一些特殊的行业来说,获取信息的准确与否会直接影响企业的未来发展甚至是命运,对于这些行业来讲,他们必须保证自己在第一时间获取信息,提前进行准备或者直接下手,为以后面对激烈的行业竞争打下坚实的基础。
Web数据挖掘技术是一项非常综合性的技术,我们可以把它认为是一项计算机技术,也可以把它理解为一项数据处理技术,之所以这样是因为这项技术在应用的过程中,既要有一定的计算机应用技术作为基础,又要熟练掌握一些相关的数据处理技术。在web数据挖掘技术应用的过程中,人们需要对一些挖掘算法进行反反复复的利用,建立一定的数据模型,最终按照建立的数据模型在网络上准确获取我们所需要的有效信息。Web数据挖掘技术是一项在互联网中获取自己需要的有效信息的一种技术手段,我们可以从数学的角度来理解这项技术,我们把我们现在掌握的有效信息作为一个信息集合P,把我们想要得到的有效信息作为另一个集合C,这样我们就得到一个映射:P--C,而从P-C的这个过程就需要我们利用web挖掘技术进行信息的挖掘和筛选。Web数据挖掘技术从本质上讲是一门数据获取技术,是由我们在日常生活和工作中的数据挖掘技术发展而来的,以前我们在获取数据进行有效数据挖掘的时候是建立在纸质的文件上的,而web数据挖掘技术是建立在网络技术和计算机技术的基础之上,是计算机技术和网络技术高度发展形成的一个产物。我们在利用web数据挖掘技术进行数据挖掘时,首先要对现有的信息进行总结归纳,得出其中所蕴含的关键信息,然后利用数据挖掘这种技术手段对我们所需信息进行深度挖掘的一个过程。利用web数据挖掘技术可以很好的解决我们日常工作中所需要的各种数据问题,帮助我们提高工作效率。
2 web数据挖掘技术的基本原理
我们把要得到的有效数据看做是一个集合,把我们目前掌握的已知数据也看作是一个集合,WEB数据挖掘技术的作用就是将这两个信息有机的联系在一起,我们首先在WEB网站中输入我们所需信息的关键词,首次输入的时候力求做到全方位输入,也就是说我们输入的关键词要尽可能的囊括我们所需信息的各个方面,如果在搜索后我们发现,在WEB网站中没有与我们所需信息完全吻合的数据信息,我们就将我们所要得到的信息进行简化,所谓简化不是一味的删除关键词,而是对各个关键词进行逐字分析,弄懂其包含的意义,然后结合我们实际的工作需要,将关键词进行有效的排序,排在前面的将作为我们首先要输入的关键词,直至出现与我们所需信息一致的信息为止,对于我们在首次的搜索过程中没有体现出来的关键词,我们要进行单独的处理,然后将他们有机的融合在一起即可。在数据挖掘完成后,我们还需要进行数据整理,将得到的信息进行有机的整理也是数据挖掘技术的一个重要组成部分,根据我们工作的性质和目的,结合我们的实际工作过程,将我们挖掘到的信息整理成我们所需的那种形式表达出来,这就是整个WEB数据挖掘技术的过程。
3 web数据挖掘的分类
每个概念每项技术都有其归属,网络数据挖掘技术也有不同的分类标准,按照挖掘对象进行分类我们可以将web数据挖掘分为web内容的挖掘、web结构的挖掘、wab使用记录的挖掘三类,下面对这三类web数据挖掘技术进行简要介绍。
3.1 web数据内容挖掘
Web数据内容挖掘我们从其字面意思上就可以对这种挖掘有个大致的了解。所谓web数据内容挖掘的针对对象就是对web网站中实际数据内容进行深度挖掘,我们可以进行网页信息的深度挖掘,也可以根据我们的需要进行网页数据格式的挖掘,从网页信息的角度考虑,我们可以在网页上实际的选择我们真正需要的数据内容,或者将几个网页的数据内容进行有机的结合;从网页数据格式的角度考虑,我们可以挖掘我们需要的那种数据格式,网页格式包括音频、视频、文本、图片等等,以提高我们工作效率和工作质量为原则,我们可以根据我们的实际需要选择最理想的web数据挖掘内容。
3.2 web数据结构挖掘
Web结构挖掘是另一种web数据挖掘的分类,所谓web结构挖掘实际上是一种链接数据挖掘,我们可以利用链接分析来达到我们数据挖掘的目的,也就是说我们在web中输入我们所需要的信息的关键词,在网页上就会自动的弹出很多的链接供我们进行自由选择,我们根据我们的世界需要进行链接的点击和数据的获取。我们对所得到的网页进行有效的分类通过分类来达到网页之间数据对比和相似度分析的目的。在我们的日常工作中利用web结构挖掘进行工作的地方有很多。例如无论我们是大学毕业还是在评职称的过程中,都是我们每个人的必经之路,我们所写的论文在发表之前都要进行,以达到检测相似度的目的,这个就是对web数据结构挖掘的一个很好的利用。
3.3 web使用记录挖掘
Web使用记录挖掘是除了web数据内容挖掘和web数据结构挖掘以外的另一种非常重要的数据挖掘形式。Web数据内容挖掘和web数据结构挖掘都是对web网页进行挖掘的一个形式,web使用记录挖掘与他们不同,web使用记录挖掘是建立在web数据内容挖掘和web数据结构挖掘基础上的一种挖掘形式,是用户与网路服务器在进行交互的过程中形成的一种数据挖掘形式,web使用记录挖掘的对象包括很多,它包括计算机注册的信息、服务器的登录次数和日志等等。Web使用记录挖掘从本质上讲是对wab数据内容挖掘和web数据结构挖掘的二次挖掘,是对它们所蕴含的数据的又一次过滤,帮助我们过去更加有效的数据信息。
Web数据内容挖掘、web数据结构挖掘、web使用记录挖掘是我们在日常的数据挖掘中经常用到的三种挖掘形式,在它们之间也有一定的联系,他们三者相辅相成,我们可以根据自己的实际工作需要选择合适的方法进行数据挖掘,也可以综合利用三种挖掘形式进行数据挖掘。
4 web数据挖掘技术的实现
在我们的互联网上蕴藏着大量的信息供我们选择,在互联网上找到真正适合我们的有效信息目前已经成为了一个难题,通过网络开发人员的不断努力,目前XML是我们解决这个问题的一个重要的技术。XML可以将不同位置、不同结构形式、不同内容的数据有机的结合在一起,帮助我们进行web数据挖掘的实现。Web数据难以整理主要是有web数据的特点造成的,其中异构数据库环境、半结构化的数据结构、是web数据两个最重要的特点,web数据的这两个特点,导致在不同位置、不同结构的数据很难有机的集合在一起,而XML很好的为我们解决了这一点,XML形象的被我们称作是数据的中介机构,它的出现可以有机的将不同形式、不同格式的数据内容建立一一对应的关系,帮助我们把不同的数据有机的柔和在一起,供我们方便使用。随着web数据挖掘的应用日趋广泛,这种XML技术被逐渐完善,通过软件开发人员的不断努力,目前,XML技术已经具有操作简单、高效率、通用率高等诸多优点,而且,XML还实现了国际化,我们可以在世界网络范围内进行web数据的挖掘,扩大了我们的知识范围,为方便我们日常工作,提高我们获取有效信息的效率做出了巨大的贡献。下面对web数据挖掘技术的实现步骤进行简要描述:第一,用户输入已知的样本,作为获取数据的已知条件;第二,根据数据内容,归纳数据特征,并利用一定的数据统计方法准确的计算他们的权值。第三,获取大量的网络信息,也就是在搜索引擎中输入我们要查找信息的关键词,在网页中显示出很多的信息供我们选择,这些信息包含不同的数据特点,数据格式;最后,利用事先计算好的数据特征,对现在获取的大量信息进行匹配,并要求计算机将最吻合的信息反馈给用户。这就是web数据挖掘技术的实现过程。
5 结语
Web数据挖掘技术是目前数据处理行业的一个重要的技术,我国任何行业的发展与进步都需要大量的数据,我们在日常生活和工作中也都需要从web中获取大量的有价值数据,web数据挖掘技术可以有效的帮助我们进行数据获取,在为我们节约时间的同时获取大量有价值的数据供我们日常生活和工作所用。Web数据挖掘技术是一项由计算机技术和数据挖掘技术共同组成的复杂技术,这项技术的出现和不断完善,对我们的日常生活起到了非常重要的作用,为提高我们的生活质量和工作效率做出了巨大的贡献。
参考文献:
[1]高燕,胡景涛.web数据挖掘原理、方法及应用[J].现代图书情报技术,2012(03):51-53.
[2]王玉珍.web数据挖掘分析与探索[J].计算机发展与应用,2009(6):73-76.
[3]范亚芹,刘颖.web数据挖掘的原理与实现技术[J].吉林大学学报,2006(8):370-373.
[4]高月,梁本亮.浅谈网络信息挖掘[J].通信电源技术,2005(2):30-33.
1、数据挖掘技术的应用及特点
数据挖掘技术是一种新型的技术,在现代数据存储以及测量技术的迅猛发展过程中,人们可以进行信息的大量测量并进行存储。但是,在大量的信息背后却没有一种有效的手段和技术进行直观的表达和分析。而数据挖掘技术的出现,是对目前大数据时代的一种应急手段,使得有关计算机数据处理技术得到加快发展。数据挖掘技术最早是从机器学习的概念中而产生的,在对机器的学习过程中,一般不采用归纳或者较少使用这种方法,这是一种非常机械的操作办法。而没有指导性学习的办法一般不从这些环境得出反馈,而是通过没有干预的情况下进行归纳和学习,并建立一种理论模型。数据挖掘技术是属于例子归纳学习的一种方式,这种从例子中进行归纳学习的方式是介于上述无指导性学习以及较少使用归纳学习这两种方式之间的一种方式。因此,可以说,数据挖掘技术的特征在出自于机器学习的背景下,与其相比机器主要关心的是如何才能有效提高机器的学习能力,但数据挖掘技术主要关心如何才能找到有用、有价值的信息。其第二个特征是,与机器学习特点相比较而言,机器关心的是小数据,而数据挖掘技术所面临的对象则是现实中海量规模的数据库,其作用主要是用来处理一些异常现象,特别是处理残缺的、有噪音以及维数很高的数据项,甚至是一些不同类型数据。以往的数据处理方法和现代的数据挖掘技术相比较而言,其不同点是以往的传统数据处理方法前提是把理论作为一种指导数据来进行处理,在现代数据挖掘技术的出发角度不同,主要运用启发式的归纳学习进行理论以及假设来处理的。
2、数据挖掘技术主要步骤
数据挖掘技术首先要建立数据仓库,要根据实际情况而定,在易出现问题的有关领域建立有效的数据库。主要是用来把数据库中的所有的存储数据进行分析,而目前的一些数据库虽然可以进行大量的存储数据,同时也进行了一系列的技术发展。比如,系统中的在线分析处理,主要是为用户查询,但是却没有查询结果的分析能力,而查询的结果仍旧由人工进行操作,依赖于对手工方式进行数据测试并建模。其次,在数据库中存储的数据选一数据集,作为对数据挖掘算法原始输入。此数据集所涉及到数据的时变性以及统一性等情况。然后,再进行数据的预处理,在处理中主要对一些缺损数据进行补齐,并消除噪声,此外还应对数据进行标准化的处理。随后,再对数据进行降维和变换。如果数据的维数比较高,还应找出维分量高的数据,对高维数数据空间能够容易转化为检点的低维数数据空间进行处理。下一步骤就是确定任务,要根据现实的需要,对数据挖掘目标进行确定,并建立预测性的模型、数据的摘要等。随后再决定数据挖掘的算法,这一步骤中,主要是对当前的数据类型选择有效的处理方法,此过程非常重要,在所有数据挖掘技术中起到较大作用。随后再对数据挖掘进行具体的处理和结果检验,在处理过程中,要按照不同的目的,选择不同的算法,是运用决策树还是分类等的算法,是运用聚类算法还是使用回归算法,都要认真处理,得出科学的结论。在数据挖掘结果检验时,要注意几个问题,要充分利用结论对照其他的信息进行校核,可对图表等一些直观的信息和手段进行辅助分析,使结论能够更加科学合理。需要注意的是要根据用户来决定结论有用的程度。最后一项步骤是把所得出的结论进行应用到实际,要对数据挖掘的结果进行仔细的校验,重点是解决好以前的观点和看法有无差错,使目前的结论和原先看法的矛盾有效解除。
3、数据挖掘技术的方法以及在电力营销系统中的应用和发展
数控挖掘技术得到了非常广泛的应用,按照技术本身的发展出现了较多方法。例如,建立预测性建模方法,也就是对历史数据进行分析并归纳总结,从而建立成预测性模型。根据此模型以及当前的其他数据进行推断相关联的数据。如果推断的对象属于连续型的变量,那么此类的推断问题可属回归问题。根据历史数据来进行分析和检测,再做出科学的架设和推定。在常用的回归算法以及非线性变换进行有效的结合,能够使许多问题得到解决。电力营销系统中的数据挖掘技术应用中关联规则是最为关键的技术应用之一。这种应用可以有效地帮助决策人员进行当前有关数据以及历史数据的规律分析,最后预测出未来情况。把关联规则成功引入电力营销分析,通过FP-Growth算法对电力营销的有关数据进行关联规则分析,从中得出各种电量销售的影响因素以及外部因素、手电水平等的关联信息,以便更好地为电力的市场营销策略提供参谋和决策。对电力营销系统的应用中,时间序列挖掘以及序列挖掘非常经典、系统,是应用最为广泛的一种预测方法。这种方法的应用中,对神经网络的研究非常之多。因此,在现实中应用主要把时间序列挖掘以及神经网络两者进行有效地结合,然后再分析有关电力营销数据。此外,有关专家还提出应用一种时间窗的序列挖掘算法,这种方式可以进行有效地报警处理,使电力系统中的故障能够准确的定位并诊断事故。此算法对电力系统的分析和挖掘能力的提高非常有效,还可判定电力系统的运行是否稳定,对错误模型的分析精度达到一定的精确度。
4、结语
目前,对数据挖掘技术在整个电力营销系统中的应用还处于较低水平上,其挖掘算法的单一并不能有效地满足实际决策需要。但是,由于数据挖掘技术对一些潜在的问题预测能力较强,特别是对电力营销系统中较大规模的非线性问题,具有较强的处理能力,在未来的发展中会成为营销领域中重要的应用工具。
作者:许敏 单位:国网福建省电力有限公司电力科学研究院客户服务中心
关键词:数据挖掘技术;银行客户关系管理系统;决策树
中图分类号:TP311.13
随着社会的不断发展和进步,企业逐渐转变以往“以产品为导向”的做法,开始注重发掘客户资源,通过分析客户信息和把握客户需求,提供方便便捷的服务渠道和售后服务,建立持久的客户关系等措施,来加强对客户关系的有效管理。客户关系管理CRM的概念最早被美国GartnerGroup最早提了出来,目的在于建立一个系统,使企业在客户服务、市场竞争、营销等方面形成一个协调的关系实体,为企业赢得竞争的优势。
1 银行客户关系管理系统
客户关系管理(Customer Relationship Management,简称CRM)作为一种改善企业与客户关系的管理模式,主要对业务处理流程及服务环节进行有效的整合和管理,使企业以较低的成本获得较高的收益,最大限度地满足客户需求,提高企业的经济效益和收益。随着各领域对客户关系管理理念认同的不断扩大,CRM在银行领域的实施也逐渐被一些大型银行列入工作日程。银行作为客户密集型行业,日常的业务处理中积累了大量的客户数据信息,但是缺乏数据管理与分析工具,很难有效地为决策提供帮助,建立CRM系统能够有效地解决这些问题[1]。
基于数据挖掘技术的CRM系统能帮助银行准确地发现目前具有潜在经济效益的客户,帮助银行开拓符合消费者需求的新产品,为银行留住原有客户提供有效的方法和手段。利用数据挖掘技术对客户数据信息进行挖掘和分析,能够充分利用积累的数据资源,挖掘出其中的模式和规则,进一步深化和客户的关系,发现潜在的客户群体,提高竞争能力,降低投资风险,提高投资经济效益。
2 数据挖掘技术
数据挖掘是指从大量的数据中提取有用的信息和知识,用来指导实际决策的制定。数据挖掘通过对数据的综合分析处理过程,发现潜藏在数据之间的关联关系,从数据信息中推导并揭示出模式与未来趋势。数据挖掘技术是银行CRM系统采用的关键技术,通过数据挖掘和分析,了解把握客户的消费偏好和行为模式,有助于决策者商业策略的制定和参考,使银行最大限度地获取利润[2]。
数据挖掘技术从功能上主要包括分类分析、关联分析、聚类分析等分析技术,广泛应用于客户分类和预测等。数据挖掘主要有以下功能:(1)分类分析。以训练数据集的某一属性为类别进行分类划分,建立描述数据分类的模型,对其它数据集进行划分。分类的方法有决策树分类、贝叶斯分类、遗传算法分类等,其中决策树算法是数据挖掘分类的一种重要方法;(2)关联分析。数据关联是数据库的数据之间中存在的―类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联分析的目的是找出数据库数据中隐藏的关联关系;(3)聚类分析。聚类是将数据库中的记录划分为一系列有意义的子集。
3 数据挖掘技术在银行CRM系统中的应用
近年来,数据挖掘作为一种发现大量数据中潜在信息的数据分析方法和技术,受到各界的广泛关注。数据挖掘主要包括决策树算法、神经元网络算法、遗传算法以及关联规则挖掘方法等。其中,决策树以其出色的数据分析效率高、形象直观易懂等特点,广泛应用在机器学习、知识发现等各领域。构建决策树有多种算法,ID3和C4.5算法最具有代表性,都是基于信息熵的决策树分类算法。ID3算法采用信息熵作为节点属性的选择标准,易偏向于具有较多取值的候选属性。C4.5算法用信息增益率来选择节点属性标准,它继承ID3算法的优点的基础上增加了对连续属性的离散化、对未知属性的处理等功能,C4.5算法在商业、金融、医疗等各领域得到了成功的应用[3]。
3.1 决策树C4.5算法描述
决策树数据挖掘算法作为数据挖掘分类的一种重要方法,具有数据分析准确率高、稳定性好等特点。决策树生成算法的输入是一组带有类别标记的实例,构造的输出结果是一棵二叉或多叉的树。C4.5算法构造决策树的过程:计算数据集中每个属性的信息增益率,选择最大信息增益率的属性作为当前的属性节点,依据属性的每一个取值构建一个分支,对该子节点所包含的样本子集递归地执行上述过程,直到子集中的数据记录的类别取值都相同,或没有属性可划分,由此构造一棵决策树。通过决策树提取分类规则,对从根到叶子节点的每一条路径获取一个规则,形成规则集。将规则集显示给用户,把经过筛选过的认为可行的规则存入规则数据库。
3.2 决策树C4.5算法的应用
银行在信贷业务中,积累了大量客户信息和还贷情况等数据,在这些客户数据的基础上运用决策树算法构造的简单决策树如下。当新客户在银行进行信贷业务时,系统运用决策树所得到规则对新客户进行分析,预测该客户的行为属于哪一等级,从而帮助银行判断是否允许该客户贷款。
4 结束语
随着时代的进步和发展,人们观念的转变以及我国银行经营垄断的局面逐渐被打破,银行经营观念开始从传统的“以产品为中心”向“以客户为中心”转变。CRM作为一种改善企业与客户之间关系的新型管理机制,能够帮助银行建立完善的客户服务体系,优化银行的业务流程,为客户提供高质量服务。在银行CRM系统中有效利用数据挖掘技术,通过对大量的客户信息进行分析,找出各种数据之间的关联性,为银行高层决策者提供准确的客户分类、盈利能力及潜在用户等有用信息,指导他们制定最优的银行营销策略、降低运营成本、增加利润及加速银行的发展[4]。
参考文献:
[1]陈建成.数据挖掘技术在客户关系管理系统中的应用[J].电脑与电信,2007(02):41-43.
[2]左爱群,杜波.数据挖掘在银行客户关系管理系统中的应用[J].武汉工业学院学报,2006(25):52-55.
[3]刘耀南.C4.5算法的分析及应用[J].东莞理工学院学报,2012(19):47-52.
[4]孔德汉.数据挖掘技术在银行业客户关系管理中的应用[J].合作经济与科技,2010(20):60-62.
作者简介:杜丽英(1969-),女,吉林长春人,讲师,硕士,研究方向:计算机应用。
1.1录入正确的信息
由于数据挖掘技术的运算功能较强,常规的数据信息系统在实际的运算过程中,会消耗掉大量的时间,甚至由于数据庞大会对运算系统造成一定影响,在数据挖掘技术的作用下,不会出现这种问题,还能节省运算时间。另外,在对数据进行运算的过程中,不会出现数据丢失的现象。在大规模数据中,有些数据的应用价值不大,属于垃圾数据,会影响系统的整体效率,利用数据挖掘技术,能够保留精准的数据,摒除垃圾数据,为数据质量提供相应的保证。
1.2缩减数据处理时间
利用挖掘数据技术能够进行数据的转换,将杂乱的数据进行整合与处理,转变为试用形式。从这些数据的角度进行分析,能够进行科学化的调用,在进行数据的挖掘过程中,会对于不清楚的数据进行清理,保证得到数据的科学性。从各个不同的角度,对于数据的真实性进行考核,并将数据进行整合。也就是说,将分析的结果提供给管理人员,合理的运用到软件工程中,进而缩减数据处理时间。
2数据挖掘技术在软件工程中的应用路径
2.1数据挖掘技术在软件工程中的发展
首先,由于数据挖掘技术是立足于数据库进行发展的,随着技术的不断发展与进步,已经从理论转换为实践应用,并且在实际应用中发挥着重大作用。另外,软件工程是工程化的学科,能够根据项目任务的差异、资金及客户需求进行产品的研发。由于原有的工程软件开发较为复杂,但经过发展迅速壮大,实际的应用性较强,会更多的被应用于项目当中,与此同时,利用数据挖掘技术主要就是对软件工程的数据库信息进行挖局,对于软件工程的可持续发展有着重大的意义。
2.2挖掘信息
其次,软件工程能够对信息的挖掘进行掌控,实际的应用范围较广,软件工程能够将软件开发时的信息进行统一,进而保证在进行软件开发的过程中,能够将数据进行及时更新,进而从根本上保证开发的质量,保证项目任务的顺利实施。就目前实际情况进行分析,在数据挖掘中还包含着软件开发更改的数据信息,能够更加直观的看出软件内部的差异,还能够利用这一特点及时发现运用过程中产生的问题,并结合实际情况,及时作出有效的解决措施,保证项目目标任务能够顺利完成。
2.3挖掘软件漏洞
再次,数据挖掘技术中,最重要的一点就是对软件漏洞进行检测,在实际的运用过程中,能够及时发现软件开发中产生的错误,并进行修整与优化,及时找到处理的方法,在一定程度上保证软件工程的安全等级与质量。另外,在利用数据挖掘技术对漏洞进行检测的过程中,相关的技术人员要明确检测的内容,还要立足于客户基本需求,进一步找到相对应的测试内容,利用合理的方式对软件进行测试,进而得到各方面都完美的方案。与此同时,由软件工程对数据信息进行处理,在找到漏洞信息后,对多余的信息进行及时处理,进而从根本上保证数据信息的科学性与完整性。在实际的运用过程中,相关的工作人员要根据科学化的方案,合理的将数据挖掘技术运用到软件工程中,利用合理化的方式对于软件工程中的漏洞问题进行分析,及时找出错误根源,使操作者能够更加容易进进行漏洞的挖掘与修复工作。就目前实际情况进行分析,数据库挖掘技术主要就是将数据信息进行转化,并进行整合存到信息库中,再由相关的工作人员结合实际需求,对于软件进行测试,查看是否存在漏洞,利用这种方式保证后续工作的顺利开展,促进软件工程的健康发展。
2.4挖掘软件执行记录
在数据挖掘技术的应用过程中,软件执行记录尤为重要,在进行数据挖掘的过程中,相关的技术工作人员要对数量进行合理分析,对于不同代码之间的关系进行探究。使相关的工作人员能够利用软件系统的行踪进行管理与探究,进而在一定程度上促进软件工程的稳步发展。
2.5挖掘开源软件代码
最后,对于开源软件代码进行挖掘,能够将其规划到软件工程中挖掘技术要运用的对象挖掘类型房中,由于开源软件代码技术通常都被应用到代码克隆的检测过程中,能够更加简单的对于代码漏洞进行处理,通过这种方式在一定程度上提高了工作的高效性。
3结束语
综上所述,在软件工程项目中,合理化的运营数据挖掘技术,能够有效促进软件工程的发展,结合实际应用状况进行分析,可以了解到数据挖局技术的发展空间广阔,相关的技术人员要认识到其重要程度,并进行不断改进,将内在的理论与外在价值进行充分挖掘。通过这种方式从根本上强化专业素质,将数据挖掘技术的作用发挥到最大化,促进软件工程的健康长远发展。
参考文献
[1]龙艳.分析数据挖掘技术在软件工程中的应用[J].科技风,2019(02):83.
[关键词]电子商务;数据挖掘;路径分析
随着Internet的普及,电子商务的兴起,人们的商务理念正在改变,电子商务的广泛应用使企业产生了大量的业务数据,如何更快、更好地利用各种有效的数据更好地开展电子商务,这是目前电子商务急需解决的问题。
一、数据挖掘技术
20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。面对大规模的海量的数据,传统的数据分析工具(如管理信息系统)只能进行一些表层的处理(如查询、统计等),而不能获得数据之间的内在关系和隐含的信息。为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能地自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。人们认识到数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润。这种从海量数据库中挖掘信息的技术,就称之为数据挖掘。数据挖掘一般有以下四类主要任务:
(一)数据总结
数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
(二)分类
分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
(三)关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。通过挖掘数据派生关联规则,可以了解客户的行为。
(四)聚类
聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
数据挖掘的特点和性质对于企业而言,有助于发现其企业业务发展的趋势,揭示已知的事实,预测未知的结果,并帮助企业分析出完成任务所需的关键因素,以达到增加收入,降低成本,使企业处于更有利的竞争位置的目的。
二、数据挖掘在电子商务中的作用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。电子商务是商业领域的一种新兴商务模式,是指利用电子信息技术开展一切商务活动。当电子商务在企业中得到应用时,企业信息系统将产生大量数据,这些海量数据使数据挖掘有了丰富的数据基础,同时高性能计算机和高传输速率网络的使用也给数据挖掘技术提供了坚实的保障。因此数据挖掘技术在电子商务活动中有了更大的用武之地。下面介绍数据挖掘在以下电子商务几个方面的作用:
(一)客户细分
随着“以客户为中心”的经营理念的不断深入人心,分析客户、了解客户并引导客户的需求已成为企业经营的重要课题。通过对电子商务系统收集的交易数据进行分析,可以按各种客户指标(如自然属性、收入贡献、交易额、价值度等)对客户分类,然后确定不同类型客户的行为模式,以便采取相应的营销措施,促使企业利润的最大化。
(二)客户获得
利用数据挖掘可以有效地获得客户。比如通过数据挖掘可以发现购买某种商品的消费者是男性还是女性,学历、收入如何,有什么爱好,是什么职业等等。甚至可以发现不同的人在购买该种商品的相关商品后多长时间有可能购买该种商品,以及什么样的人会购买什么型号的该种商品等等。也许很多因素表面上看起来和购买该种商品不存在任何联系,但数据挖掘的结果却证明它们之间有联系。在采用了数据挖掘后,针对目标客户发送的广告的有效性和回应率将得到大幅度的提高,推销的成本将大大降低。
(三)客户保持
数据挖掘可以把你大量的客户分成不同的类,在每个类里的客户拥有相似的属性,而不同类里的客户的属性也不同。你完全可以做到给不同类的客户提供完全不同的服务来提高客户的满意度。数据挖掘还可以发现具有哪些特征的客户有可能流失,这样挽留客户的措施将具有针对性,挽留客户的费用将下降。
(四)交叉销售
交叉销售可以使企业比较容易地得到关于客户的丰富的信息,而这些大量的数据对于数据挖掘的准确性来说是有很大帮助的。在企业所掌握的客户信息,尤其是以前购买行为的信息中,可能正包含着这个客户决定他下一个购买行为的关键,甚至决定因素。这个时候数据挖掘的作用就会体现出来,它可以帮助企业寻找到这些影响他购买行为的因素。
(五)个
当客户在电子商务网站注册时,客户将会看到带有客户姓名的欢迎词。根据客户的订单纪录,系统可以向客户显示那些可能引起客户特殊兴趣的新商品。当客户注意到一件特殊的商品时,系统会建议一些在购买中可以增加的其他商品。普通的产品目录手册常常简单地按类型对商品进行分组,以简化客户挑选商品的步骤。然而对于在线商店,商品分组可能是完全不同的,它常常以针对客户的商品补充条目为基础。不仅考虑客户看到的条目,而且还考虑客户购物篮中的商品。使用数据挖掘技术可以使推荐更加个性化。
(六)资源优化
节约成本是企业盈利的关键。通过分析历史的财务数据、库存数据和交易数据,可以发现企业资源消耗的关键点和主要活动的投入产出比例,从而为企业资源优化配置提供决策依据,例如降低库存、提高库存周转率、提高资金使用率等。
(七)异常事件的确定
在许多商业领域中,异常事件具有显著的商业价值,如客户流失、银行的信用卡欺诈、电信中移动话费拖欠等。通过数据挖掘中的奇异点分析可以迅速准确地甄别这些异常事件。
由此可见数据挖掘在电子商务中有着重要的作用。在生活中采用数据挖掘的成功的例子很多。例如总部位于美国阿肯色州的WalMart零售商的“尿布与啤酒”的故事。WalMart拥有世界上最大的数据仓库系统,它利用数据挖掘工具对数据仓库中的原始交易数据进行分析,得到了一个意外发现:跟尿布一起购买最多的商品竟然是啤酒。如果不是借助于数据仓库和数据挖掘,商家决不可能发现这个隐藏在背后的事实:在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,而他们中有30%~40%的人同时也为自己买一些啤酒。有了这个发现后,超市调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。
三、电子商务中如何应用数据挖掘技术
数据挖掘在电子商务中有广泛的应用。那么在电子商务中是如何应用数据挖掘技术的?
首先,从挖掘过程说,对在线访问客户数据的挖掘主要有两部分:一部分是客户访问信息的挖掘,另一部分是客户登记信息的挖掘。面对大量的访问日志,首先要做的就是对数据进行清洗,即预处理,把无关的数据,不重要的数据等处理掉;接着对数据进行事务识别,通过对事务进行划分后,就可以根据具体的分析需求选择模式发现的技术,如路径分析、兴趣关联规则、聚类等。通过模式分析,找到有用的信息,再通过联机分析(OLAP)的验证,结合客户登记信息,找出有价值的市场信息,或发现潜在的市场。
其次,挖掘方法主要有以下几种:
1.路径分析
路径分析是一种找寻频繁访问路径的方法,它通过对Web服务器的日志文件中客户访问站点的访问次数分析,挖掘出频繁访问路径。例如:一客户从某一站点访问到某一感兴趣的页面后就会经常访问该页面,通过路径分析确定频繁访问路径,可以了解客户对哪些页面感兴趣,(下转第78页)(上接第80页)从而更好地改进设计,为客户服务。
2.兴趣关联规则
当客户访问某一网页时,一般会通过兴趣词条找出相关的兴趣网页通过链接继续访问,这种关联产生的数据如果能够按照某种策略进行挖掘分析,统计出客户访问某些页面及兴趣关联页面的比率,就可以很好地组织站点,实施有效的市场策略。
3.聚类分析
聚类分析是电子商务中很重要的一个方面,通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地帮助电子商务的用户了解自己的客户,向客户提供更合适的服务。如通过对众多的浏览“camera”网页的客户分析,发现在该网页上经常花一段时间浏览的客户,再通过对这部分客户的登记资料分析,知道这些客户是潜在要买相机的客户群体。就可以调整“camera”网页的内容和风格,以适应客户的需要。
通过以上几种数据分析的方法可以有效地对电子商务中的信息进行分析,从而更有效地开展电子商务。
目前,数据挖掘技术正以前所未有的速度发展,并且扩大着用户群体,在未来越来越激烈的市场竞争中,拥有数据挖掘技术必将比别人获得更快速的反应,赢得更多的商业机会。现在世界上的主要数据库厂商纷纷开始把数据挖掘功能集成到自己的产品中,加快数据挖掘技术的发展。我国在这一领域正处在研究开发阶段,加快研究数据挖掘技术,并把它应用于电子商务中,应用到更多行业中,势必会有更好的商业机会和更光明的前景。
[参考文献]