HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据挖掘总结

数据挖掘总结

时间:2022-11-25 15:36:49

数据挖掘总结

第1篇

关键词:汽车销售;汽车产业;数据挖掘;模块设计;管理应用

中图分类号:F426.471 文献标志码:A 文章编号:1673-291X(2017)06-0051-03

引言

汽车产业是国民经济的重要产业,因其产业链长、辐射面宽、科技含量高、产业带动能力显著等产业特点,是世界各国家和地区发展的重点产业。本文深入分析和探讨数据挖掘技术在汽车销售中的应用,对于提高汽车营销绩效,促进汽车销售行业发展具有重要的理论意义和实践意义。

一、我国汽车产业发展的现状分析

1.汽车产业总量分析。汽产业因其产业链长、辐射面宽、科技含量高、产业带动能力显著等产业特点,是世界各国家和地区发展的重点产业。美国、德国、日本等世界产业强国在发展汽车产业的过程中,不断实现了经济效益的提升,也带动了整个工业发展水平的提高。

上图显示了1999―2011年间我国汽车生产总量的趋势。从图中可以看出,我国汽车产业呈持续发展态势,汽车生产总量由1999年的183.2万辆增长到2011年的1 841.64万辆。

2.汽车产业销量比重分析。从销量比重角度分析,2000年,我国汽车销量为207万辆,占同期世界汽车总销量5 759万辆的3.59%;2011年,我国汽车销量为1 842万辆,占同期世界汽车总销量8 006万辆的23%。

3.汽车产业经济效益分析。2001―2010年期内,我国汽车工业总产值由2001年的4 433.2亿元提升到2010年的30 248.6亿元。汽车工业总产值占全国工业总产值的比重维持在4%~5%的水平,汽车工业总产值占机械工业总产值的比重维持在20%左右的水平。

二、数据挖掘及其对汽车销售的影响分析

数据挖掘(Data Mining),是以计算机为主要工具,以海量数据为分析基础,综合运用聚类、机器学习、分类、模式识别、专家系统等方法,发现隐藏在海量数据中的信息,以及数据之间的关联规则,从而形成知识发现的基本过程。在经济管理领域,以市场营销为例,以大数据为基础,通过数据挖掘技术的应用,能够发现消费者的消费偏好、消费模式,从而可以在消费者消费偏好和消费模式等信息的基础上进行消费者分类,并根据消费者分类进行产品开发,向消费者提供给个性化和定制化的产品或产品组合,进行实现经济效益。数据挖掘方法对于汽车销售工作的价值主要体现在,通过数据挖掘能够实现企业市场定位、实现消费群体定位和实现营销策略制定等方面。

1.通过数据挖掘实现企业市场定位。目前,汽车产品作为大宗商品其产品价格区间较宽,市场上既有几万元的车型,也有数百万的产品,每种价格区间的汽车产品对应不同的消费者群体和市场竞争。因此,合理定位汽车产品并制定有针对性的营销策略,对于汽车企业发展具有重要意义。应用数据挖掘中的聚类技术,能够以车型价格为特征指标进行汽车销售的市场定位分析,从而为企业制定产品价格决策和新车型产品开发决策提供依据。

2.通过数据挖掘实现消费群体定位。对于汽车销售而言,消费者的受教育水平、收入水平、购车方式等都是汽车销售过程进行产品定价和制定销售策略的重要信息,特别是在消费需求个性化特征日益明显的现实背景下,准确识别用户群体并提供个性化产品和服务对于汽车企业培育客户忠诚度具有重要意义。应用数据挖掘中的分类技术,通过消费者收入水平、消费方式等特征指标实现消费者分类,进行形成各类型消费者群体的消费行为特征。

3.通过数据挖掘实现营销策略制定。随着论坛、博客、微博、微信、电商平台、点评网等媒介在PC端和移动端的创新和发展,消费者的消费过程和消费体验信息不断增长,这些信息涵盖着商家信息、个人信息、行业资讯、汽车驾乘体验、汽车产品浏览记录、成交记录、汽车价格动态等等海量信息,应用数据挖掘中的关联规则提取技术,能够建立消费者特征指标与消费频次、消费产品价格之间的关联规则,从而为制定营销策略提供依据。

三、汽车销售行业中数据挖掘系统设计

建立汽车销售行业数据挖掘模块化系统,是辅助汽车销售决策者通过数据、模型和方法,以人机交互方式进行半结构化决策或非结构化决策的计算机应用系统,为决策者通过分析问题、建立模型、模拟决策过程和方案的环境,调用各种信息资源和分析工具,以提高汽车销售的水平和质量。

1.案例库。对于汽车销售工作而言,在实践中能够积累大量关于消费者的信息,包括消费者学历、收入、工作性质、购车方式等,这些基础数据信息对于进行汽车销售的数据挖掘工作具有较高的借鉴意义,也是后续开展数据挖掘工作的基础。因此,应建立汽车销售案例库,对汽车销售信息进行存储、检索、处理、维护等方面的内容,以有效支持模型库、知识库和方法库的运行。

2.模型库。模型库系统能够灵活地完成模型的存储和管理功能,是汽车销售行业数据挖掘模块化系统的核心,在模型库中应综合集成数据分类、聚类、因子分析、关联分析、决策树分析以及数据可视化等数据挖掘算法,从而提高汽车销售行业数据挖掘的质量和效率。

3.推理机。进行汽车行业销售数据挖掘的价值在于通过数据挖掘形成关于消费者行为的关联规则以及关于消费者偏好等方面的信息,推理机是一种重要的基于知识的问题求解和学习方法,能够以数据、模型等为基础,实现知识获取、知识集成和知识服务等功能。

四、数据挖掘在汽车销售中的应用

利用数据挖掘的方法可以形成关于消费者行为偏好的信息,而这些信息可能成为扩大消费者群体的重要基础。汽车行业销售过程中应用数据挖掘方法,可以利用数据挖掘结果进行消费者群体分类管理,利用数据挖掘结果进行消费者消费偏好提取,利用数据挖掘结果进行消费者个性偏好推送,以及根据汽车营销数据进行数据挖掘模块再优化。

1.利用数据挖掘结果进行消费者群体分类管理。随着中国汽车市场渐入稳步发展轨道、汽车后市场的逐步兴盛以及汽车营销人对于数字化营销决策的日渐渴望,对客户信息的深度分析和应用将成为新常态。利用汽车销售数据挖掘结果,可以对消费者群体进行分类,例如可以将消费者划分为保有客户、增值客户、摇摆客户、流失客户等,从而为加强客户关系管理提供依据。

2.利用数据挖掘结果进行消费者消费偏好提取。网络的交互性特征以及消费者在通过互联网风险消费体现的行为特征形成了关于汽车价格、质量、功能、服务等方面的数据信息,特别是随着各种论坛、微博、微信、电商平台等信息分享渠道的开拓,消费者消费体验的渠道更广,通过数据挖掘中的分词、聚类、情感分析等方法能够了解消费者的消费行为、价值趣向、消费需求和质量等需求,从而进行产品创新和价值提升。

3.利用数据挖掘结果进行消费者个性偏好推送。利用数据挖掘的方法可以形成关于消费者行为偏好的信息,基于这些重要信息,汽车销售过程中可以根据消费者偏好向其推送与其偏好相符的产品价格、质量、服务等信息,在推动方式方面,可以综合领用微博、微信、电子邮件以及客户回访等形式进行产品推送。

4.根据汽车营销数据进行数据挖掘模块再优化。进行数据挖掘工作的价值在于提取关于消费者行为特征的关联规则,进而向消费者提供使其满意的产品和服务。然而,受消费者水平、产品功能、市场结构等各种因素的影响,消费者群体的行为特征也在不断发生变化。因此,汽车行业销售中的数据挖掘工作不是一成不变的,而是必须汽车营销数据为基础,不断对数据挖掘算法和数据挖掘模块进行丰富和优化,从而使建立在数据挖掘工作基础上的关于消费者行为特征的关联规则能够更好地服务于汽车营销绩效的提升。

结论和展望

本文以数据挖掘方法在汽车销售行业中的应用问题为研究对象,通过分析,认为数据挖掘方法对于汽车销售工作的价值主要体现在,通过数据挖掘能够实现企业市场定位、实现消费群体定位和实现营销策略制定等方面。提出了基于案例库、模型库和推理机的汽车营销数据挖掘系统架构设计,进而提出了利用数据挖掘结果进行消费者群体分类管理、利用数据挖掘结果进行消费者消费偏好提取、利用数据挖掘结果进行消费者个性偏好推送,以及根据汽车营销数据进行数据挖掘模块再优化。后续研究中,针对汽车行业的数据挖掘软件开发将是本文进一步的研究方向。

参考文献:

[1] 赵炎,姚芳.创新网络动态演化过程中企业结盟的影响因素研究――基于中国汽车行业创新联盟的分析[J].研究与发展管理,

2014,(1):70-77.

[2] 胡其颖.解读德国“国家电动交通工具发展计划”以及对我国新能源汽车政策的借鉴[J].可再生能源,2010,(5):150-153.

[3] n题组.上海国资引领战略性新兴产业跃迁式升级的架构创新路径研究――以新能源汽车产业为例[J].上海行政学院学报,2012,

(7):85-97.

第2篇

关键词:数据挖掘 数字图书馆 应用研究

中图分类号:G25 文献标识码:A 文章编号:1674-098X(2014)11(a)-0193-01

在现代科技带动下,图书馆也向信息化、自动化与数字化的方向迈进。数据挖掘就是在这个时代应运而生的,如今,它已经在金融业、销售业、建筑业等行业取得了许多成功,为这些领域的更快更好发展立下了汗马功劳。目前,互联网上的数字图书馆数量与日俱增,因此数字图书馆的数据挖掘技术就具有很重要的意义。数据挖掘技术在数字图书馆中的应用,将为数字图书馆在图书资源组织管理、服务质量的提升与服务方式的扩展等方面提供有力的技术支持。

1 数据挖掘概述

数据挖掘这个技术是近几年来从计算机科学研究中发展出来的一个分支学科。具体是指从海量数据中提取或挖掘出隐藏的信息。所有信息载体或信息存储上都可以使用数据挖掘技术。数据挖掘的整个过程是由准备数据、数据采集、显示结果与解释分三个部分组成的。整个采集过程是对数据的循环精练过程,离不开人为的操作。数据挖掘技术大大降低了从大型数据库中挖掘出有用信息的难度,采集人员并不需要有很强的数据分析和数据统计的能力。数据挖掘与知识挖掘既存在一定联系,同时又有一些差别。通常认为数据挖掘是知识挖掘过程的一个基本过程,它采用特定算法把数据从数据库中采集出来的模式,最后再经过系统解释与翻译功能把这种模式变换成用户能够理解的信息。另外,数据挖掘的过程是随机发生的,用户预先不能知道结果;信息检索的初衷是帮助用户从大量数据中挖掘出满足其查询条件的信息,而数据挖掘是把文档内隐藏的知识提取出来。这两个系统是相辅相成的。因此可以利用数据挖掘的研究结果来提高信息检索的效率与准确度,优化检索结果的显示,使信息检索系统更优良、更全面。

2 数字图书馆的定义

如今对掘数字图书馆的定义有很多,总体概括起来,数字图书馆就是依靠计算机互联网络、信息检索技术、图书分类技术、管理等技术,把图书整理、保存、保护、数字信息收集与使用等功能融于一体的综合智能数字信息管理与服务中心,这里包含了计算机网络、人工智能、数据库、图书情报学等最新技术。数字图书馆是基于本着尽最大可能满足用户的所有需要,方便用户使用的宗旨,向用户提供能够满足特定需求的优质服务,同时它又能够培养用户个性,引导用户的需求,这种方式大大促进的现代图书馆的发展。促进人类文明的进步。如今国内外数字图书馆的数量显著增加,对信息服务系统的研究也越来越深入,信息服务的应用也更加广泛。

3 数据挖的功能特性

(1)聚类。聚类就是把所有数据个体根据它们所具有的相同特点归纳在一起,形成一组具有特定属性的数据群组,同种类聚类就是把同一种类的数据放在一起,不同类聚类则是把不同种类的数据放在一起。,这样就能反映出同种事物的共同属性与不同事物间的差异属性。通过这种方式,数据库中的数据就会被划分成许多有特定属性的子集。

(2)关联分析。它反映了各数据单元间关联的信息,如果一组数据多项属性都存在关联,那么其中某一项的属性就可根据其他一些属性来判断分析。

(3)概念描述。概念描述就是对某类对象的本质进行探讨分析,并总结这类对象的相关特点,概念描述有区别描述与特征描述两种,前者描述不同类对象间的差别,后者则是描述某类对象的相同特征,最后形成一个类的特征性描述,并且只涉及这类对象中全部对象的共同特性。

(4)预测趋势与行为。数据挖掘系统能够以时间为依据,从过去或当前的大型数据库中自动挖掘未知信息来预测以后的信息。

(5)偏差检测。数据库中的数据也会发生错误,从数据库中检测这些错误是非常重要的,因为错误中也包括许多隐藏的信息。

4 数据挖掘在数字图书馆中的应用

数字图书馆旨在将不同区域不同属性的数字信息资源进行整合从而达到用户共享的效果。它主要是一种通过数字技术将信息进行整合处理从而使得用户方便浏览。根据处理对象的属性差异,可以把数字图书馆数据挖掘基本分为三类:结构挖掘、内容挖掘与用户使用记录挖掘。结构挖掘是从web文档中结构下手,除文档中的超链接结构,更对文档内部结构以及目录路径结构进行挖掘。内容挖掘即对web文档中的内容信息进行挖掘。而用户使用记录挖掘则是对于一些服务器上的用户注册信息购买记录等数据进行挖掘。

4.1 进行结构挖掘

对数字图书馆等结构挖掘主要是通过网页的链接和组织结构从而能够发现图书馆页面的结构模式并且对此进行分类和聚类并加以分析,这样可以使得更好的对网络建设提供指导以及方便通过超链接等方式从而分析各学术未来发展。

4.2 进行内容挖掘

内容挖掘主要包含如下几点,首先是组织文献数据。通过对数字图书馆内文件的组织分类,将其分为若干个组,充分区分好各个组所涉及的内容。这样就可以大大缩短用户搜索所需时间,用更短的时间找到更准确的内容。第二是对特征的自动提取和描述。可以由一个内容分析器来从中分析并且提取充相关的内容特征,用户采取提取特征后才能更加准确快速的实现信息定位。其三是自动采集整理专题信息。这主要是通过对图书管内的海量信息进行了解,并且能够从中挖掘到一些有规律的信息反映给用户,从而使得用户无需浏览大量无用信息,能够自动捕捉提取概要信息。

4.3 进行用户使用记录挖掘

由数字图书馆的海量访问信息中归纳出图书馆用户的访问规律信息,运用关联性法则与聚类法则,将不同类型用户需求进行分类总结,提供针对服务,从而提高浏览速度优化用户体验。同时还应当鼓励用户建立自己的Web站点从而更好的了解到使用数字图书用户的了解意向,更能由此推析出未来发展趋势,进而研究出其行为规律。

5 结语

通过将数据挖掘技术引入数字图书馆这一举措,能够大大提高数字图书馆的信息资源量,优化图书馆的信息服务的质量,用户可以更方便、更多的获取想要的知识,同时图书馆的业务范围也将得到大幅度扩展,为图书馆带来巨大的经济与社会效益,达到双赢的效果。但数据挖掘终究是一种新兴的智能科技产物,它的发展还是有很多挑战与难题需要面对。如何将数据挖掘系统更好的应用到数字图书馆中还需要进一步的探讨与研究。

参考文献

[1] 周文云.数据挖掘在数字图书馆个性化服务中的研究与应用[J].军民两用技术与产品,2012(1):56.

第3篇

[关键词]数据挖掘;Web信息检索;搜索引擎

[中图分类号]P209[文献标志码]A[文章编号]2096-0603(2017)29-0033-01

Web现已成为一个巨大的知识库、信息库,Web信息检索通过搜索引擎返回给用户成千上万个检索到的网页,但是满足用户检索要求的网页却凤毛麟角,用户无法在第一时间得到满足要求的有价值信息。因此,Web信息检索的精度不能为客户提供准而精的检索信息,需要检索精度更高的数据挖掘技术。

所谓数据挖掘(DataMining)就是从海量的原始数据中提取信息和知识的过程,这些信息和知识隐含在原始数据中,事先未知,但是对用户来说是很有用的。

一般的数据挖掘对象是结构化数据,而Web数据挖掘的对象是非结构化数据,在现有数据挖掘研究成果的基础上,运用Web数据挖掘技术,可以提高信息检索的精准率和有效率,Web信息检索将会达到向一个新的高度。

一、Web数据挖掘技术概述

Web数据挖掘是一项综合技术,是从WWW资源上抽取信息(或知识)的过程,是对Web资源中蕴涵的未知的有潜在应用价值的模式的提取[1]。按挖掘对象来分类,基于Web的数据挖掘分为3大类:基于Web内容的挖掘(WebContentMining)、基于WEB结构的挖掘(WebStructureMining)、基于WEB使用的挖掘(WebUsageMining)。

(一)基于Web内容的挖掘

基于Web内容的挖掘,是在Web文档以及相应的Web文档描述中获取知识。目前,WWW信息资源是网络信息资源的主要组成部分,用户直接从网上抓取这些资源,并为之建立索引,从而实现查询服务,而那些被隐藏起来的数据,用户无法进行有效的检索,这就迫使我们把这些被隐藏的内容(比如数据库系统中的数据,由用户的提问而动态生成的结果等)挖掘出来。此外,Web的信息内容是由文本、音频、视频、图片等非结构化的数据,因此基于Web内容的挖掘也是一种针对多媒体数据的挖掘[2]。

(二)基于Web结构的挖掘

基于Web结构的挖掘,主要挖掘Web潜在的链接结构模式,是从网页上的相互链接和万维网的整体结构中发现知识的过程。这种模式主要采用网页归类技术,在众多的网页中获得不同网页间的信息,比如相似度及关联度。Web结构挖掘主要是帮助用户找到所需要信息的权威站點,同时也会对Web信息检索结果的排序产生影响。

(三)基于Web使用的挖掘

基于Web使用的挖掘,也可以称之为WebLogMining,Web日志挖掘,用户在进行网络访问后,会留下一些重要的第二手数据,它们是Web使用挖掘的主要对象,从而分析用户的网络行为提供依据。

二、Web数据挖掘在Web信息检索中的应用

(一)对Web信息源进行挖掘,形成信息源知识库

对Web信息源内容的挖掘,主要是针对中多媒体数据等Web信息源的内容的特征进行挖掘,统计方法、机器学习、神经网络、人工智能是最常使用的方法,通过抽取、分类、聚类网页内容的特征,形成信息源知识库。

对Web信息源结构的挖掘,主要通过相关算法对Web页面的超链接关系、URL地址结构的进行挖掘,在Web的组织结构和链接关系中发现知识。

(二)对Web结构进行挖掘,形成权威网页

搜索引擎的作用主要有两个,一是搜索与主题相关的内容,二是筛选高水平的相关网页,就是我们所说的权威网页。第二个作用尤其重要,因为用户更希望他们最需要的信息能在最短的时间内呈现在他们面前,而不是浪费大量的精力和时间从大量的检索结果中找寻最需要的信息,采用Web结构挖掘的一些经典算法就能很好地识别出权威网页。

(三)对用户的访问模式进行分析,为用户提供更加人性化的服务

用户在进行信息检索时,会在网站上留下许多信息,比如检索的时间、检索词以及浏览了哪些检索结果等。基于Web使用的挖掘可以对其进行分析,采用各种算法对这些日志展开挖掘,从而延伸出更有价值的内容,形成用户知识模型,并对用户潜在相同的检索行为模式进行归纳总结,对这些模式进行系统的研究,对搜索引擎的检索效果进行反馈,从而改进搜索引擎,让检索结果更加智能化,使单个用户感觉使用Web信息检索更高效。

总之,随着互联网的发展,数据挖掘的一个主要应用领域就是Web数据挖掘,与Web信息检索有着密切的关系,但是又比Web信息检索有着更高的技术层次,可以使基于Web的信息检索发展到一个更高的水平。

作者:屈慧洁

    参考文献: 

第4篇

1.1数据挖掘的概念

数据挖掘(DataMining[1])是从大量的、不完全的、有噪声的、模糊的、随机的数据集中识别有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。数据挖掘可粗略地理解为三部分:数据准备(DataPreparation)、数据挖掘,以及结果的解释评估(InterpretationandEvaluation)。将数据挖掘技术应用到医学信息数据库中,可以发现其中的医学诊断规则和模式,从而辅助医生进行疾病诊断,实现临床决策支持的效果。

1.2数据挖掘的功能[2-6]

1.2.1关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律,就称为关联。关联可分为简单关联、时序关联、因果关联。

1.2.2分类

分类就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别,即将未知事例映射到某种离散类别之一。

1.2.3聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。

1.2.4概念描述

对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述。

1.2.5预测

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。

1.2.6异常检测

一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型,那些不符合大多数数据对象所构成的规律的数据对象就被称为异常数据。

1.3数据挖掘的过程

数据挖掘过程[7-9]是在设计者的主动参与下进行的知识发现过程,是在积累了大量的数据后,从中识别出有效的、新颖的、潜在的、最终可以理解并加以有目的运用的知识。一般分为以下步骤:问题定义:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。数据准备:①数据理解---将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。②数据的选择及简化—是根据用户的需要从原始数据库中抽取的一组数据。③数据的预处理--研究数据的质量,为进一步的分析做准备。数据挖掘:对所得到的经过转换的数据进行挖掘。结果分析:解释并评估结果。知识的优化:将分析所得到的知识集成到业务信息系统的组织结构中去。

2医院信息系统中数据挖掘的研究

2.1医疗数据挖掘主要分类

2.1.1从数据挖掘的处理过程、功能模型、算法研究,可以将医用数据挖掘按功能模型和挖掘对象两个方面进行如下分类[10-14]。

2.1.1.1按照功能模型分类:常用的数据挖掘技术可以分成统计分析类、知识发现类、和其他类型的数据挖掘技术三大类。①统计分析类:统计是数据搜集和描述数学的一个分支。在医疗数据挖掘中的应用如:聚类分析方法可以对DNA分析、医学影像数据自动分析、多生理参数监护数据分析、中医诊断和方剂的研究、疾病危险因素分析等。②知识发现类:知识发现是用一种间接的方式从数据中抽取信息的一种技术,而这些信息是隐含的、未知的,并且具有潜在应用价值。其中可分为:a.关联规则型知识挖掘技术,是医用数据挖掘的一种主要形式。b.神经网络型知识挖掘技术。c.遗传算法型知识挖掘技术。d.粗糙集型知识挖掘技术。如关联分析可以用来分析预测手术术后和药物治疗的效果,可以对某种疾病的相关发病因素进行分析以指导患者如何预防该疾病;可以对带病DNA和健康组织的DNA基因序列进行比较,以识别出两类基因的差别,从而得出致病因素;可以对患者的生理参数进行分析,分析各种生理参数之间的关系进而得出有意义预防与治疗方案等。e.机器学习类,归纳学习方法又可分为决策树、规则归纳等。如决策树用于前庭区与头晕有关的疾病诊断规则的提取。③其他类型:除以上陈述的数据挖掘技术外,近年来,随着各种数据处理工具、先进的数据库技术与因特网技术的迅速发展,还出现了一些其他数据挖掘技术。如文本挖掘技术、Web挖掘技术、分类分析技术、地理信息系统与空间数据挖掘技术以及分布式数据挖掘技术等。

2.1.1.2按照挖掘对象分类:按照不同的数据类型,数据挖掘研究在时间序列数据、空间数据、文本数据、多媒体数据等方面展开。①时间序列数据(TimeSeriesData)是与时间有关的一系列数据。对时间序列数据的挖掘主要是发现序列中事物出现的周期和规律,以及不同时间序列间的同步关系。如应用时间序列预测方法可以对医院药品进、销、存产生的数据进行统计分析。②序列(Sequential)模式序列模式与关联模式相仿,其目的也是为了挖掘数据之间的联系,但是序列模式分析的侧重点在于分析数据之间的前因后果。如:对医院门诊和住院患者量进行预测,可以分析某种疾病发病率的变化趋势,病死率预测等。③文本数据(TextData)就是我们一般的文字,如报刊杂志、设备维护手册、故障描述等的内容。④多媒体数据(MultimediaData)是随着多媒体技术而日益涌现的声音、图形、图像、超文本等数据。应用领域例如针对大量CT、MR图像的存储和查询问题而兴起的基于内容的图像问题。由于与传统的文本数据不同,因此必须采用新的挖掘手段来发现内容和形式间的内在联系。

2.1.2按应用层面可医院数据挖掘可分为诊疗信息挖掘和管理信息挖掘。诊疗应用如:中山大学肿瘤防治中心的研究人员通过肿瘤分子信息和数据挖掘方法可以预测早期非小细胞肺癌5年内是否死亡,这一预测的总正确率达87.2%,该技术一旦成熟,今后每个肺癌患者开刀做完手术后,可借此预测其5年存活情况,而且检测费用远比国外的基因检测便宜;上海同济大学附属医院分析糖尿病患者肌肉组织和脂肪含量与骨密度之间的联系,得出高肌肉和高脂肪含量可以降低患者髋骨骨折的危险性;第四军医大利用数据库和数据挖掘技术建立了恶性血液病数据库分析系统等。管理应用如:北京协和医院开展数据挖掘在临床医疗管理上的研究,为医院业务管理等提供支撑,并辅助领导决策;广州南方医院采用数据挖掘查询系统查询医生有否开大处方,患者是否花了不该花的医药费,且患者有望提前治愈出院。

2.2医疗数据挖掘的应用研究

2.2.1诊疗信息挖掘

诊疗信息挖掘主要目的是通过患者信息分析,提供有参考作用的医疗方案。①建立患者随访信息库。②临床疾病分析、辅助诊断:如:a.判别分析:用于心脏疾病的分类;用于阑尾炎4种不同类型的判别。b.人工神系统网络:用于颅内星形胶质细胞瘤良、恶性的影像诊断;用于肺内孤立结节的影像鉴别诊断。c.决策树:糖尿病分类规则建立;前庭区与头晕有关的疾病诊断规则的提取。

2.2.2管理信息挖掘

2.2.2.1财务管理[15,16]

①患者费用构成分析:患者费用由药品、治疗、检查、手术、化验等组成。利用数据挖掘技术可以分析医院、科室乃至各个病区专科内的患者费用构成,从而能有针对性地控制费用比例,探究医疗费用项目结构的合理性,使医院管理者有针对性的控制医疗费用。②同期费用对比分析:利用数据挖掘技术可以按不同的时间对各个科室或各个病区同期的各种费用进行对比分析,并以各种专业报表、视图的形式反映给医院管理者,分析变化趋势及可能原因。③成本效益分析:利用数据挖掘技术可以把各个不同系统如物资设备系统、财务系统等的数据汇总到数据仓库,然后对医院的成本效益情况进行全面分析,以便能真正把握医院的经营状况,提高医院的经济效益。例如:对医院资金运转情况作财务分析,了解医院财务状况和资金流向,分析医院运营风险,利用数据挖掘中的环基比和定基比技术分析医院财务资金的增长速度,并用曲线拟合来预测未来的资金需求量,为管理者决策和促进资源的有效配置提供依据。④医保费用构成分析:利用医院业务数据结合医保中心返还数据对医保分科的定额结算进行分析,指导医院各科室合理、高效的利用医保资源,在医保定额下提供更好的医疗服务。

2.2.2.2医疗质量管理[17-19]

①单病种分析:以ICDlO疾病分类为标准,利用数据挖掘技术对单病种进行分析,包括住院费用、住院天数、转归、病情、治疗方案等方面,为医疗质量管理提供依据,使医生能够及时总结经验,找出最佳治疗手段,既缩短了患者的就诊住院时间,减轻了患者的负担,同时提高了医疗工作效率,增加了医院经济效益。②手术室感染管理:a.手术室无菌物品及一次性用品智能备库系统;b.总结消毒灭菌工作与消毒效果的规律;c.预测术后切口感染合理安排手术并防止抗生素的滥用;d.利用HIS中知识解决消毒灭菌难点并杜绝差错;e.对参观手术人员和进修生实习生的管理;f.对手术室消毒灭菌和医院感染常规工作动态监测。③药学管理:a.备药量预测:用时间序列预测方法,对HIS中现有的药品用量信息进行计算模拟,得出药品消耗模型。b.制剂最佳批生产量预测:在分析医院制剂历年用量及近期消耗趋势下,得出该制剂效期内用量,并通过计算得出该制剂的最佳批生产量预测模型。c.治疗药物监测:对药物监测(TDM)历史数据分析、提取、加工、整合,更深层次挖掘(或发现)一些新知识,如开展药物群体药动学研究、药物浓度影响因素相关度分析等,为临床提供更多有价值的资料,实现给药个体化、提高药物疗效、降低药物毒副反应等。d.抗生素合理应用自动监控:对HIS中相关信息进行提取、分析、挖掘,对抗生素的用量、耐药性、联合用药、疗程、围手术期用药、预防用药、用药途径及治疗效果等指标实行自动监控,从而实时、有效地监测抗生素使用情况。

2.2.2.3医院经营目标管理[20]

①患者构成分析:运用数据挖掘技术中的秩和比法对医院门诊和住院患者的地区分布、性别分布、身份分布、职业分布、年龄分布等方面进行分析,从而得到不同类型患者的经济状况、需求的主要医疗服务类型等信息,了解患者差异对医院收益的影响,从而能够有针对性的采取措施来提高服务质量,增加门诊量和住院量。②患者流动情况分析:该功能可以分析门诊患者从挂号到取药再到离开医院的时间分布以及住院患者从入院到出院各个就医环节的时间分布。分析出患者的就医瓶颈,掌握影响患者诊疗效率的因素,以便能针对这些因素采取措施来帮助医院管理者进行业务流程的更新和改进,提高患者的就诊效率。

2.2.2.4经营决策管理[21]

①患者就诊时间分析:由于患者的入院季节性较强,可以通过分析每月、每季度的门诊人次、住院人次、床位周转率,通过时间维度分析,建立灰色预测模型,来预测下一时期的门诊和住院人次。根据预测信息,医院管理者可以提出有针对性的措施,确定最优的服务项目时间表,从而作出终止或开拓某种医疗服务项目的决定,实现对人力资源、医疗设施、医疗设备的适当配置。②医疗工作量影响分析:科学合理地评价医疗工作量,找出影响医疗工作量变化的主要因素,是进行医疗工作量影响分析的目的。例如:医院收治患者数是医院工作量的重要指标之一,直接影响医院的经济效益和社会效益。利用数据挖掘技术中的灰色关联分析方法对医院收治患者数的影响因素进行分析:病床周转次数、住院患者手术人次、年收治患者人数、平均开放病床数和年平均医生人数与年收治患者数关联程度等。

2.2.2.5医院资源管理

①科室综合评价分析:利用数据挖掘技术对医院各科室进行综合评价分析,选出代表性强、独立性好,能反映科室工作效率、治疗质量、经济效益、综合管理等的多项指标进行综合评价分析,找到科室的薄弱环节,并采取相应的措施,以提高科室的综合水平。②医疗设备绩效预测分析:从HIS中的患者信息中提取病种、数量、诊疗类别等信息后与医疗设备使用信息相关联,利用数据挖掘技术对所得到的信息进行深层次的数据挖掘,构建数据挖掘模型,利用已建立的数据挖掘模型,在医疗设备购置前对其绩效进行预测,使医院领导的决策更为准确、科学;在医疗设备投入使用后,对其绩效进行准确评价,提高医疗设备的完好率和使用率。通过进一步的数据挖掘,实现对医疗设备从购置前的可行性论证到淘汰报废的全程决策支持,使医疗设备的全寿命期都纳入管理者的统筹管理之中,较好地解决医疗设备效益、代价、风险等互相制约的管理难题,充分发挥医疗设备的社会效益和经济效益。因此本研究具有明确的推广应用前景及重大应用意义。

2.3医疗数据挖掘的热点及前景

当前,数据挖掘的研究方兴未艾,其研究与开发的总体水平相当于数据库技术在20世纪70年代所处的地位,迫切需要类似于关系模式、数据挖掘系统和SQL查询语言等理论和方法的指导,才能使数据挖掘的应用得以普遍推广。其研究可能会集中到几个方面,而生物信息或基因的数据挖掘则是热点之一。数据挖掘在医院管理中的应用将会涉及医疗及管理的各个部分及层面,数据挖掘将形成系统,并通过广泛深入的数据挖掘产生医疗方案数据库,为合理诊断、完善临床路径,提供有效帮助;通过数据挖掘分析达到人力资源合理配置;通过数据挖掘为区域性卫生系统构建提供有效依据等。

第5篇

[关键词]数据挖掘工具个性化营销电子商务企业

一、引言

一个成功的电子商务运作过程,需要完美整合三个要素——网络技术、商业模式和营销(网络营销)。网络营销是企业营销实践与现代信息通讯技术、计算机网络技术相结合的产物,是指企业以电子信息技术为基础,以计算机网络为媒介和手段而进行的各种营销活动(包括网络调研、网络新产品开发、网络促销、网络分销、网络服务等)的总称。

具有交互性、跨时空、低成本、高效性等优点的网络营销这一概念在中国出现才刚刚开展10年的时间,虽然理论体系还不完善,上网的企业数量还比较少,但是,这种基于互联网的新型营销方式已经引起广泛关注,并对企业的经营战略产生越来越大的影响。当前各种形式的网络广告、网络调研、网络分销等网络营销活动正活跃在企业的市场活动中。网络营销使得大公司、小公司“同台竞技”“规模经济”与“小批量、多品种”生产并存。网络营销把企业带入小型化、多样化和复杂化竞争的时代。

随着技术的发展,信息铺天盖地,不仅企业被淹没在大量的信息中,就连顾客也不得不花大量的时间来寻找、浏览自己感兴趣的信息。根据菲利普·科特勒的顾客让渡价值理论,顾客让渡价值=总顾客价值-总顾客成本。总顾客价值是顾客从某一特定产品或服务中获得的一系列价值,包括产品价值、服务价值、人员价值和形象价值。总顾客成本是顾客在为购买该产品或服务所耗费的费用,不仅包括货币成本,还包括时间成本、精神成本、体力成本等非货币成本。可见为了购买特定产品,在电子商务这种特殊市场中,浏览信息所花费的时间成本、精神成本、体力成本等也直接影响着总顾客让渡价值。

Web数据挖掘技术在电子商务上的应用,正是为了更加有效的掌握信息,服务于顾客,Web数据挖掘技术的路径分析、关联规则发现、序列模式发现、分类规则的发现、聚类分析等方法,可以应用于发现潜在顾客、改进站点链接结构设计、对顾客进行聚类分级从而分析组中顾客的共同特征,并为相应的顾客提供优质个性化服务,使顾客在浏览信息时有针对性,节省时间成本、精神成本、体力成本等,最终使总顾客成本得以降低。

二、个性化营销

个性化营销是把一个顾客看成一个顾客群,将锁定销售目标的活动发挥到极致的程度。充分体现了“顾客至上”,“顾客永远是正确的”,“爱你的顾客而非产品”等现代市场营销观念。消费者选购商品时完全以“自我”为中心,现有商品不能满足需求,则可向企业提出具体要求,企业也能满足这一要求,这样既能最大限度满足消费者个性化需求,又能增强企业产品的市场竞争力。同时由于和消费者保持长期的互动关系,企业能及时了解市场需求的变化,有针对性的生产,不会造成产品积压。缩短再生产周期,降低流通费用,从而提高企业经济效益。

在电子商务环境下,实现个性化营销可以利用的资源包括个性化网站、顾客数据库,网络营销工具。即企业在互动式网站和数据库为支撑工具的前提下,整合运用个性化的网站、个性化的E-mail、个性化的网页、顾客的兴趣追踪等相关工具,既可以与顾客建立亲密友好的联系,又可以创建个性化的营销信息,包括每个顾客的喜好、购买模式、针对他的最有效的沟通技巧等,以此来提供个性化的产品和顾客服务,开展个性化营销活动。

下图反映出一个具备个性化营销服务功能的系统功能层次结构。

由图看出,系统要得到上层所提供的个性化营销服务,需要从底层数据库获取交易数据、顾客数据、财务数据、市场数据等,将底层数据析取到数据仓库中,在数据仓库中建立以顾客、销售和财务等为主题的多维数据模型,并在保留原有数据的基础上,不断刷新数据仓库的数据,接着进行指标分析、多维数据分析和数据挖掘。主要内容有顾客分析、忠诚度分析、销售分析、顾客反馈分析、财务分析等。

通过对顾客属性特征、交易行为和资金能力的分析,提取各种与顾客交易之静态特征和动态特征相关的知识,对顾客进行必要细分,从而有针对性地对顾客施加1对1的个性化营销服务,提高电子商务企业的认知能力和服务创新水平,扩大其获利机会。

可见上层的个性化营销功能的获得是底层数据所不能直接提供的,需要经过中间析取到数据仓库中,面向主题对数据进行组织与管理后,再利用数据挖掘技术才能实现的。

三、数据挖掘工具及选择分析

数据挖掘技术让人们有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。它使得许多商业公司充分认识到深层次地分析本公司业务数据库中的数据能够带来更多的商业机会。尤其对于电子商务企业,它很容易满足数据挖掘所必需要因素:丰富的数据源、自动收集的可靠数据,并且可将挖掘的结果转化为个性化网络营销这样的商业行为,商业投资可以直接评价。

在不久以前大部分数据挖掘工具还只能为专门技术人员所操纵,但现在有更多的公司提供了更高级的数据挖掘系统,使得非专业人士也能使用。这些数据挖掘工具所基于的技术主要包括:规则归纳、神经网络、遗传算法、模糊逻辑、规则发现、模糊专家系统规则、决策树、基于实例的推理、归纳逻辑等。

选择一个满足本公司实现个性化网络营销的数据挖掘工具可从以下方面进行考虑:

(1)产生的模式种类

数据挖掘模式一般有以下六种:

①分类模式:表现为一棵分类树,根据数据的值从树根开始搜索,沿着数据满足的分支往上走,走到树叶就能确定类别。

②回归模式:与分类模式相似,其差别在于分类模式的预测值是离散的,回归模式的预测值是连续的。

③时间序列模式:根据数据随时间变化的趋势预测将来的值。

④聚类模式:把数据划分到不同的组中,组之间的差别尽可能大,组内的差别尽可能小,但它与分类模式不同之处在于,进行聚类前并不知道将要划分成同个组和什么样的组。

⑤关联模式:描述事物之间同时出现的规律的知识模式。如购买A产品与B产品之间的关联性。

⑥序列模式:与关联模式相似,它把数据之间的关联性与时间联系起来。

对于个性化营销,公司的需要反映在:跟踪和学习顾客的兴趣和行为;为当前用户寻找k个最相似的邻居来预测当前用户的兴趣;或找出在什么时间,什么样顾客对什么样的产品感兴趣等方面。

以上的六种模式中分类模式可以对顾客进行分类;时间序列模式可在需求量方面给出预测结果;聚类模式可用于顾客聚类.由于它是根据相似顾客来推荐资源的,即根据最相似的邻居来预测当前顾客的兴趣,所以有可能为潜在顾客推荐出新的感兴趣的内容;关联模式找出A产品与B产品之间的关联性;序列模式则可以反映出需求的季节性。

(2)易操作性

当前有的工具有图形化界面,引导用户半自动化地执行任务;有的使用脚本语言,有些工具提供数据挖掘的API,可以嵌入到C、VisualBasic、PowerBuilder等高级编程语言中。

(3)数据存取能力

好的数据挖掘工具可以使用SQL语句直接从DBMS中读取数据。这样可以简化数据准备工作。

(4)与其他产品的接口

在需要其他产品辅助企业理解数据、理解结果时,数据挖掘工具与其他产品的接口就显得很重要了。

总之,数据挖掘工具应具备多种模式、多种算法、良好的数据选择和转换能力、可视化、扩展性等,使之具备更强的解决复杂问题的能力。

当前比较著名数据挖掘工具有IBMIntelligentMiner、SASEnterpriseMiner、SPSSClementine等,它们都能够提供常规的挖掘过程和挖掘模式。

其中IntelligentMiner通过其世界领先的独有技术,例如典型数据集自动生成、关联发现、序列规律发现、概念性分类和可视化呈现,可以自动实现数据选择、数据转换、数据发掘和结果呈现这一整套数据发掘操作。若有必要,对结果数据集还可以重复这一过程,直至得到满意结果为止。根据IDC的统计,IntelligentMiner目前是数据发掘领域最先进的产品。

SASEnterpriseMiner能支持包括关联、聚类、决策树、神经元网络和统计回归在内的广阔范围的模型数据挖掘工具。SASEnterpriseMiner设计为被初学者和有经验的用户使用。它的GUI界面是数据流驱动的,且它易于理解和使用。由于支持多种模型,所以SASEnterpriseMiner允许用户比较不同模型并利用评估结点选择最适合的。SASEnterpriseMiner被设计成能在所有SAS支持的平台上运行。

SPSSClementine是一个开放式数据挖掘工具,曾两次获得英国政府SMART创新奖,它不但支持整个数据挖掘流程,从数据获取、转化、建模、评估到最终部署的全部过程,还支持数据挖掘的行业标准--CRISP-DM。Clementine的可视化数据挖掘使得"思路"分析成为可能,即将集中精力在要解决的问题本身,而不是局限于完成一些技术性工作(比如编写代码)。提供了多种图形化技术,有助理解数据间的关键性联系,指导用户以最便捷的途径找到问题的最终解决办法。

其它常用的数据挖掘工具还有LEVEL5Quest、MineSet(SGI)、Partek、SE-Learn、SPSS的数据挖掘软件Snob、AshrafAzmy的SuperQuery、WINROSA、XmdvTool等。

四、总结

个性化营销一直是网络营销所关注的领域之一,但总的来说个性化营销的思想在网络营销实践中的体现不够明显,效果也难以显著,究其根本原因正是电子商务企业没有很好地利用数据挖掘工具,从底层业务数据中找到知识和信息。论文通过讨论数据挖掘工具及其实现模式,结合个性化营销的实现目标的分析,以期使电子商务企业充分利用丰富的底层数据源,真正把数据挖掘融入到企业的经营决策中。

参考文献:

[1]ClaudiaImhoff,NicholasGalimmo,JonathanG.Geiger(著),于戈,鲍玉斌,王大玲等译.数据仓库设计[M].北京:机械工业出版社,2004.12

[2]王绪林:Web使用挖掘的用户个性化服务研究[J].信息系统,2003,1.

第6篇

[关键词]CRM;数据挖掘;信息技术

客户作为一种企业核心资源,拥有和保持更多的客户决定着企业今后发展的命运,因此有效地开发和利用客户资源,发展和巩固企业同客户之间的和谐关系,在最大程度上满足客户需求的同时实现企业的经济社会效益最大化,已经成为企业界和学术界关注的焦点。信息经济环境中企业客户关系管理是利用IT技术实现对客户的整合营销,是以客户为核心的企业营销的技术实现和管理实现,并在企业与客户之间建立一种实时、互动的交流管理系统,最终目的是通过为客户创造价值,建立个性化、高质量的商品与服务来获得新客户,增加原有客户的忠诚度和提高客户的赢利能力,进而增强企业的核心竞争力。同时随着信息技术的迅速发展,特别是数据库技术和计算机网络的广泛应用,企业所面对的客户数据量、企业内外信息量急剧膨胀,企业如果能够对这海量的数据进行有效、快速和深入的分析和处理,发现有价值的知识,就能为企业作出正确的经营决策、捕捉稍纵即逝的市场机会提供极大的帮助。

一、数据挖掘技术分析

(一)数据挖掘技术的发展过程。数据挖掘是生产发展的必然结果,最初的数据挖掘仅仅是用一些信息储存工具储存一些简单的信息,人们并不去对这些信息进行分析来提取更深层次的、更有价值的知识,而且使用和获得信息的速度也很缓慢,随着生产力水平的极大提高和信息技术的飞速发展,目前已经实现了人们能实时地获得经过深入提炼的知识与信息。数据挖掘的每一步发展,可以说都是建立在前一阶段的基础上,总的来说,数据挖掘分为四个发展阶段:(1)数据收集阶段(Data Col-lection):企业仅仅是简单地整理储存信息,并应用一些简单的运算工具进行数据加工,如对信息的总量计算、平均数计算等;(2)数据追溯阶段(DataAccess)企业开始应用关联模式处理储存信息,在整个企业范围内建立起了数据收集和信息管理系统,管理层可以获得企业的历史信息;(3)数据导航阶段(Data Navigation)、企业内出现了数据仓库,应用多维数据基的处理和储存信息,企业不仅能应用信息管理系统获得企业整体和各个地区经营状况的信息,而且通过应用在线分析系统(OLAP)等手段进行数据对比;(4)数据挖掘阶段(Data Min-ing):也就是通过使用在线分析工具、先进的信息技术以及统计数学等方法为企业提供实时的信息反馈和与合作伙伴的信息交流。数据挖掘使企业管理者更能获得存在于信息之中的深层价值,从而为企业的经营战略决策产生重要帮助作用。

(二)数据挖掘技术的内容。数据挖掘是进行信息处理的系统工具,按照信息处理的流程来分类,一般有三种类型:信息发现(Discovery)、预测模型(Predictive Model)和异常分析(Forensic Analy-山)。信息发现是指单纯地对信息进行处理、整理和分析,以发掘出蕴涵在信息之间的潜在的有价值的知识或者联系,但并不进行对信息处理结果的预测。信息发现包括条件逻辑推理、关联处理和信息规律趋势和变化等;预测模型是指通过上一阶段的信息处理,利用有价值的知识资源和预测模型对其进行发展趋势预测,这包括结论预测和发展趋势展望等;异常分析是指数据挖掘的扩展阶段,对发现的异常情况作出分析,包括偏离侦测和关联分析等。总的来说,数据挖掘技术通常有六种手段进行信息处理:分类、回归模型、时间序列、聚类、关联分析和序列发现。分类和回归模型一般用于趋势预测,关联和序列发现用于分析客户行为,聚类则可用于以上两种情况。

数据挖掘技术按对信息的处理方式分为数据保存技术和数据提炼技术两种方式。数据保存技术主要是能够方便地为企业决策提供信息帮助,在企业决策中应用案例分析(CBR)来保证经营决策的有效性。但是企业要想获得蕴涵在信息之中的有价值的知识,就必须使用数据提炼技术,数据提炼技术包括:逻辑方法是运用多维或者OLAP技术对量化的或者非量化的数据进行统一模式的处理,包括规则公式和决策树;横向对比主要是对定性数据指标进行类比分析,包括类比中介和可信网络;程式分析是能够有效地应用多维模型和数理统计方法对大规模的数据进行处理,包括数理统计方法和神经网络等。

二、数据挖掘在客户关系管理中的应用

在客户关系管理过程中,客户生命周期对企业来说非常重要,因为它直接关系到企业的客户收益和客户利润,一方面客户生命周期提供了客户信息来源,另一方面客户生命周期使得企业明确了为满足客户需求应注重的方面。客户生命周期为数据挖掘在客户关系管理中的应用提供了基础,数据挖掘是建立在数据仓库之上的,通过各种先进的信息技术和数理统计方法挖掘数据仓库中的潜在的、有价值的客户信息,通过运用数据挖掘,企业能把大量的客户记录变成系统的客户信息,提供给决策者,这样不仅解决了企业进行决策时遇到的信息匮乏,也充分发挥了企业实施CRM的效用。

(一)客户分析。CRM系统主要是面向客户,因此对客户数据的分析是极为重要的,通过对客户数据的分析,发现客户需求,调整企业战略并实施相应的措施,客户分析主要有几个方面:(1)购买频率,通过对客户购买频率的分析,企业实施相应的营销活动,可以利用诸如促销、折扣和优惠等手段来刺激消费者的消费欲望;(2)近期消费,通过对客户最近消费时间的分析,可以及时发现客户流失的原因,从而采取相应的措施;(3)客户忠诚度分析,通过对客户交易资料的记录和分析,可以采用序列模式来预测消费者的忠诚度,并据此来调整企业的生产和提供的服务,提高客户的忠诚度并吸引新客户;(4)客户分类,不同的消费者对产品和服务的要求不同,也为企业创造不同的收益,企业根据数据挖掘技术的信息处理分析,对客户采用聚类的方法进行分类,挖掘客户群的需求特征和需求趋势,并发现最有价值和最有盈利潜力的客户群,对这些客户实施“一对一”的市场营销,取得最大的收益;(5)客户购买相关性分析,通过销售记录的信息挖掘,可以发现客户购买相关性,这也是发现客户消费偏好、消费特点的重要方法,据此企业可以积极采用各种手段,如推荐、传单以及网络推广等方式帮助消费者选择商品,增加企业的收益;(6)营销合理化分析,通过分析营销活动的有效性,有助于改善营销效率,多维分析可以实现这方面分析的要求,即通过比较营销改变前后销售状况。

(二)异常偏离分析。企业在对客户数据进行分析时,有可能发现异常数据或者无法解释的现象发生,企业应对此应高度关注,一般的做法是通过使用数据挖掘的各种先进技术,如决策树、神经网络、聚类等来及时分析这些异常情况,使企业能作出快速的反应,并针对处理的结果及时调整企业的营销决策。

(三)趋势分析和预测。数据挖掘的工具为客户需求趋势预测提供了有效的手段,常用的工具是时间序列分析、系统力学和神经网络。这些工具能为企业提供科学、有效的趋势分析,并用于企业的生产和营销决策。具体内容包括:评价产品销售状况,企业通过分析客户数据库中记录每一位消费者的交易信息,可以针对不同的产品、不同的区域采取不同的销售策略,实现盈利最大化;预测销售状况,通过准确的预测,发现隐藏的信息,是把握市场动向,满足客户需求,调整生产结构和营销方法,从而使企业在激烈的市场竞争中立于不败之地。

(四)客户服务支持。客户服务是CRM中的重要组成部分,包括客户信息和服务信息,这些数据既有结构化的也有非结构化的,结构化的数据比较容易分析和整理,如销售状况、客户交易信息等,非结构化的数据如故障信息、故障处理信息以及客户反馈信息等。对结构化数据挖掘的主要过程是:根据相应数据的特点来选择规则模板,对数据进行选取和转换,并应用归纳学习法、决策树、最邻近法、人工神经网络技术等来进行数据挖掘,挖掘得到的结果可以存入数据库,帮助企业决策,非结构化数据由于存在的形式和性质难以进行标准化分析,但是非结构化所隐藏的价值可以通过两种途径来进行挖掘:一是建立全新的数据挖掘算法,直接对非结构化数据进行挖掘,但是由于非结构化的自身特点,使得这样的全新数据挖掘非常复杂,而且难以评估数据挖掘结果的可靠性;二是通过将非结构化数据结构化,而后采用结构化的数据挖掘技术对其进行挖掘,这就需要建立非结构化数据转换技术,而且也是非常复杂。总的来说,结构化数据挖掘技术已经成熟,但是非结构化的数据挖掘尚待进一步发展。

(五)销售管理。销售管理自动化是客户关系管理成长最快的部分,销售人员与潜在客户的互动行为、将潜在的客户发展成真正客户并提高其忠诚度是使企业盈利的核心因素。在此环节中,数据挖掘可以对多种市场活动的有效性进行实时跟踪和分析,数据挖掘不仅使销售人员及时把握销售机遇、提高工作效率,而且企业管理层也可以随时掌握市场动态。

(六)数据挖掘和客户隐私。数据挖掘技术帮助企业能比以往更好地发现客户信息中的隐性知识,但是这也增加了客户隐私被企业侵犯的风险。一方面客户信息挖掘有助于客户与企业之间建立起亲密的关系,另一方面客户信息如果被企业不正当地利用,则会给客户本身带来不利影响。比如客户信用等级、客户交易行为等信息如果不当利用,会给消费者带来推销骚扰,甚至是某种社会歧视或者失业的威胁。客户隐私按其本质来说,更是一个道德问题而非一个技术问题,关键是处理好企业数据挖掘与客户个人信息保护之间的平衡问题,现在世界上好多企业在处理客户交易信息时,采用匿名方式,将客户的个人身份信息隐藏起来,只将交易资料,如客户偏好、消费等级、需求特点和客户价值等资料输入到数据处理模型中。总之,企业在实施客户关系管理的同时,必须注重客户隐私的保护,这样才能给消费者以安全的感觉,才会让客户真正地与企业之间进行交流,才能充分发挥数据挖掘在客户关系管理的作用。

第7篇

关键词 Web数据挖掘;技术模型;具体解析

中图分类号:TP393 文献标识码:A 文章编号:1671-7597(2014)03-0055-01

Web框架下的数据挖掘,主要经由对数据挖掘类技术的现实利用,从网络供应的服务,以及现有的网络文档中,发觉并提炼信息。数据挖掘含有的对象不同,可以将现有的Web挖掘,分为三个类别:Web框架下的内容挖掘、Web框架下的信息挖掘、Web带有的结构挖掘。

1 新颖的内容挖掘

伴随信息技术延展,Web框架下的数据类别也在递增,从本源层级上来讲,主要涵盖了图像类、文本类、声音类、元数据类、视频类等。在不同类别的数据以内进行挖掘,就构造出了多媒体属性的数据挖掘。

1) Web框架下的文本挖掘。数据挖掘,应指代在很不完备的、数目偏多的、很含糊的、带有杂声的、带有随机特性的数据内,将其中潜藏着的各类别信息及关联知识,予以提炼。若数据挖掘的目标对象,只归属于文本,便构造出文本属性的数据挖掘。挖掘对象,涵盖着半结构类、非结构类、结构化框架下的数据;而非结构化属性的数据,是侧重的挖掘成分。

在IR这一领域中,文档采纳了空间向量模型这一独有的形式,空间配有的向量,便归属于文档。对文档含有的特征集,予以提炼时,常常会多遍扫描,而获取到特征向量,其现有维数非常高,这就增添了必备的处理时段。所以,在没能影响到现有匹配结果及关联分类的根基上,需要对原有的特征子集,予以选取。选取时,先对某个特有函数,创设构造,然后对这一子集中含有的特征进行评判,将评判价值偏高的那些特征,选取出来,归结成特征子集。常常见到的评价函数,归属于交叉熵等。

对文本类别的数据去挖掘时,所接纳的模型质量类评价方法,和惯用的挖掘方法很近似,分类算法之内,朴素贝叶斯这一类别的算法,很常见。评判现有的模型质量,主要涵盖着分类带有的准确率、分类带有的正确率、惯用的信息估值。

中文框架下的信息编码,是偏复杂的,这一类别的编码,在Web内,较为常见的,归属于BIG5属性的编码、GB类别的码、HZ类别的码等。对带有中文类码的HTML,采纳数据挖掘,要对这一类别的编码标准予以辨识,并更替成带有统一性的惯用指标,然后才可挖掘。

2)对Web框架下多媒体挖掘,予以解析。在数据挖掘内,多媒体属性的挖掘,是一个凸显出来的挖掘领域,它从多媒体属性的数据库内,提炼出潜藏着的知识。多媒体属性的数据挖掘,带有广义性,涵盖着对声音、多样的视频以及各类别图像的挖掘,同时涵盖着文本类数据挖掘。

进行多媒体属性的数据挖掘,要先凝练得来必备的信息,然后对惯用的挖掘方式,予以挖掘。对网页中潜藏着的多媒体类别数据,凝练属性时,要对HTML类别的标签信息充分利用。

2 Web框架下的结构挖掘

这种构架,被当成Web,因为它没能由HTML类别的页面,单纯堆积而构造出来,而是在Web含有的页面间,有着各类别的关系,而能在现有的Web之间,架设出桥梁,因此归属于超链。超链能对现有的Web类页面关联,选取出适宜的表征形式,如引用类的关系和继承类的关系等。但是对于现有的Web框架下搜索工具,不会顾及到Web结构,仍然把这种Web,当成独立框架下文档的集中。Web现有的结构挖掘,是经由对引用解析类技术与服务类技术的可行利用,对Web框架下的结构衔接进行分析,将其中可用的所有模式,予以提炼。进行这一类别的结构挖掘时,其潜藏着的结构对象,既可以是现有的Web页面构架,也可以是现有Web页面搭配的超链。前者含有针对性,带有特定的应用层级内目的,而后者存在着普遍价值。

Web框架下的结构挖掘,把Web当成了独有的有向图,Web含有的页面,当成顶点,而图含有的边,归属于超链。然后经由对图论的现实利用,对Web框架下拓扑结构去解析。常常见到的算法,归属于发觉相似页面、发觉虚拟社区、分出页面类别、发觉地理位置。结构挖掘算法,通常可分出两类,一类归属于查询无关,一类归属于查询相关。采用查询相关这一算法时,需要对各类别的查询,进行超链解析,获取到一次值的精准指派;接纳查询独立框架下的算法时,要对各类别的文档,去进行一次值的精准指派。

3 Web框架下的信息挖掘

对现有的交易及关联商务,都是经由Web去予以落实。因此,在各类别的服务器方,会产出数目偏多的数据,它们由服务器所产出,并存留在服务器配有的日志文件内,另外,还会产出很多数目的用户信息,如注册类的信息。对这些数据解析以后,可以让现有的商家,更好地明晰客户信息,从而对现有市场以及现有商品,进行更精准的决策;对于供应网络类服务的人员,可以整合起总括的站点,以便供应出带有个性化的新服务。

Web框架下信息挖掘,带有如下特性:当用户访问到既有网络,可对用户现有的活动及关联行为,予以推测。挖掘方法可分出以下两类:

原始数据,经由网络服务器搭配的日志文件,选用独有的处理方法,对其进行归整,然后再去挖掘。

把网络服务类日志,现有的文件,经由图表去展示,然后去挖掘。通常情形之下,只要对原始属性的数据,予以处理后,便可对旧有的数据挖掘,予以采纳,以便获取到挖掘目的。

数据清除流程终结以后,制备出事务标识类模块,对登录项含有的日志,分出逻辑类别。采用这样的事务标识,是为了让各类别的用户,都能产出带有一定含义的聚类。因此,这种事务标识含有的目的在于,将总括的大事务进行归整,以便分出几个分支属性的小事务。在这一过程中,可以分解出多样步骤,或者是接纳合并扩展这样的形式,从而产出最适宜的事务。

4 结束语

Web框架下的数据挖掘,是新产出的技术,关涉到各类别的多样技术,正处于初始时段中。国内对这一层级进行的研究,数目还是偏少,对于Web含有的中文信息的关联挖掘技术,没能制备出完善方案。但是,对Web框架下数据挖掘技术现有的研究,具有明显的实用价值和商业价值。

参考文献

[1]薛鸿民.Web数据挖掘技术研究[J].现代电子技术,2006(08).

第8篇

关键词:数据挖掘;信贷业务;决策树;ID3算法

中图分类号:TP39 文献标识码:A 文章编号:1007-9599 (2012) 13-0000-02

2008年由次级贷款引发的金融危机使得客户的信用问题再度引起了金融界的高度重视。由于银行信贷业务的盈利特点,使得金融机构不仅获得了潜在的高额利润,同时也为金融机构带来了巨大的潜在风险。银行为了规避该种风险就需要对消费客户进行全面客观而准确的还贷能力进行评估。从而,信用评估技术成为了消费信贷的风险管理不可或缺的重要技术。

为了降低银行的经营风险,在银行的信贷业务中,银行贷款员需要分析数据,预测那些贷款申请者是安全的。面对这些海量的信息,如何从中发现有用的价值数据和知识无疑是当前需要重点解决的问题。数据挖掘技术正是在此背景下产生并蓬勃发展起来的。决策树算法是数据挖掘技术中的一项重要实现算法。

一、数据挖掘基本概念

数据挖掘(DM,Data Mining)是集人工智能、机器学习、统计学等科学为一体的新型技术;

所谓数据挖掘是通过分析每个数据,从大量数据中寻找其规律的技术。数据挖掘是一种决策支持的过程,它以人工智能、机器学习、模式识别、统计学、数据库、可视化技术等为基础,通过自动化地分析大量数据,进行总结性的推理,从而挖掘出潜在的模式或者规律,帮助决策者做出正确的决策。它不仅仅是面向某个特定的数据库的简单查询检索调用,而且要对通过分类、估计、预测、聚类、关联分析等方法对这些数据进行宏观或微观的统计、分析、归纳和推理,试图找到事件间的关联关系,以求解实际问题,甚至达到利用现有的数据对未来进行预测的目的。

数据挖掘的过程粗略的可分为五个步骤:确定业务对象、数据准备、数据挖掘算法执行、结果分析、知识同化。在实际生活中,使用数据挖掘模型得到一个直接的结论的时候并不多,更多的情况是,模型得出的是对目标问题多方面地描述,这时就要更好的分析和总结它们的规律,以提供合理的有价值的决策支持信息。

数据挖掘在金融领域中最典型的应用是进行贷款偿还预测和客户信用政策分析。贷款偿还预测和客户信用政策分析对银行业务是相当重要的。有许多因素会对贷款偿还效能和客户信用等级计算产生不同程度的影响。数据挖据的方法,如特征选择和属性相关计算,有助于识别重要因素,剔除非相关因素。

二、决策树基本概念

决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。其主要算法有ID3、C4.5等。

作为分类器,决策树是一棵有向、无环树。决策数的基本组成部分有决策结点、分支和叶子。其中最上面的是根结点,根结点没有父结点,其余结点有且仅有一个父结点;一个结点可以有没有子结点或一或二个子结点。没有子结点的结点称为叶结点;其他的结点称为内部结点。每个叶结点都对应一个类别标示的值;每个内部结点都对应一个用于分割数据的属性 Xi ,称为分割属性;每个内部结点都有一个分割判断规则qj ;如果Xi 是离散属性,那么qi 的形式为 ,其中 ,Yi就成为结点n的分割子集。

下面通过一个信贷客户信用风险分析的例子来说明:

其中债务情况是最重要的属性,因此第一个分支点设在债务情况Debt,第二个判断条件设为工作类型Employment Type。简单决策树如下图 2 所示:

三、决策树ID3算法

ID3算法是由Quinlan首先提出的。该算法是以信息论为基础,以信息熵和信息增益度为衡量标准,实现对对象数据的归纳和分类。该算法是决策树学习算法的一种典型算法,算法的重点部分在决策树的各级结点上,将信息增益方法作为选择属性的标准,来确定每个结点生成的属性均是合适的。这样可使获得的训练样本子集分类所需信息量最下

四、ID3算法的评价

ID3通过不断的循环处理,层层对决策树进行细化,直到形成一个足够准确的完整决策树,其优缺点总结如下:

(一)优点

1.ID3算法的假设空间包含所有的决策树,避免了假设空间可能不包含目标函数的风险。2.通过修改ID3算法可以很容易的扩展到处理含有噪声的训练样本。3.ID3算法非常适合处理离散值样本数据,有效利用树形结构的分层效果,易于提取容易理解的If-Then分类规则。4.引进了信息论中熵的概念,使得算法得到结点数最少的决策树。

(二)缺点

1.计算过程比较繁琐,计算量较大。2.ID3算法是一种贪心算法,重构决策树,易造成极为庞大的开销,不适合于渐进学习。3.建立的决策树层次较多时,决策质量低,倾向于选择取值较多的属性。4.ID3算法对噪声较敏感,容易造成对记录的误分类。5.ID3算法将关注的重点放在了属性的选择上,这种选择收到了一些怀疑,至今该问题。6.ID3算法不能处理属性值缺省的情况,也不能处理连续型属性。

五、结束语

数据挖掘技术已经成为了当今时代不可缺少的一项重要智能应用技术,本文主要针对银行信贷业务和数据挖掘的结合点出发进行研究。介绍了数据挖掘的概念,并着重介绍了决策树ID3算法,并将数据挖掘中的决策树技术应用于银行信贷业务,对ID3算法进行深入介绍,并总结了该算法相对于其他算法所具有了有点和存在的不足,为后人研究决策树算法提供了借鉴。

参考文献

[1]王莉莉.基于数据挖掘技术的银行客户信用评估研究,2008

[2]王睿.基于兴趣度的判定树算法快速分类的优化,2006

[3]洪晶,刘炳祥,程功勋.粗集决策树算法在医院感染诊断中的应用研究,2006

第9篇

关键词:软件工程行业;数据挖掘;应用

数据挖掘在目前的信息社会环境下利用十分的普遍,而所谓的数据挖掘实际上就是利用数据所表现出来的特点以及关联性将其他的因素做带入性分析,这样,无论是产业发展还是产品的生产,其最终的结果都会具有综合性。就软件工程行业的具体实践分析来看,软件开发需要大量的数据,而且数据信息之间的联系需要明确,这样,具体软件开发的时候设计和考虑会更加的全面,最终的软件适用性效果会更加突出。基于此,分析研究软件工程行业中数据挖掘的具体应用有突出的现实价值。

一、数据挖掘的一般流程分析

数据挖掘是一个动态的过程,就目前的分析来看,数据挖掘需要经历三个基本的步骤:(1)数据的预处理。数据预处理是数据挖掘最基础的部分,也是数据挖掘关键性的步骤,其主要包括四项基本的内容,分别是原始数据获取、数据清洗、数据抽取和数据交换。通过数据的预处理,数据之间的逻辑关系会更加清晰,数据的具体利用价值会有明显性提升。(2)数据挖掘。在数据预处理的基础上进行数据挖掘需要经过两个步骤,其一是对挖掘的任务进行明确,具体包括数据的分类、数据总结等等。其二是对数据挖掘的算法进行确定,这样,数据挖掘的效率性和质量性会更好。(3)模式评估和知识表示。在数据挖掘中不同的模式有不同的效果,因此对当前确定的数据挖掘模式做有效性评估,这样可以确定模式利用的最终价值。

二、软件工程行业中的数据挖掘应用

在软件工程行业,数据挖掘的应用十分的广泛,总结分析目前软件工程行业中数据挖掘的主要应用,这可以为数据挖掘的深入推广提供可靠的参考。

(一)软件版本信息挖掘

就当前软件工程行业中数据挖掘的具体应用分析来看,最为广泛的对象之一便是软件工程版型控制信息的挖掘。就现阶段的分析来看,对软件工程版本进行控制,其目的是对软件工程开发人员在软件工程开发过程中所编辑的信息进行统一化的管理,这样,软件开发过程中数据的更新进度可以更好的保持一致性。分析研究当前环境下的软件工程系统版本信息控制,利用数据挖掘技术可以将软件开发过程中的具体变更信息做更加全面的掌握,这样,在探讨同一软件平台不同程序模块的联系和差异方面,具体的信息分析结果会更加的准确,而利用具体的结果对软件开发中需要解决的系统漏洞问题做处理,软件的开发会更具完善性。简言之,在软件版本的更新设计中利用数据挖掘技术,版本更新设计的整体质量会更加突出。

(二)软件漏洞检测挖掘

在软件工程行业,数据挖掘的应用还广泛分布在软件漏洞检测方面。从软件的具体应用来看,漏洞的检测和修复是软件利用需要重点注意的内容,因为这关系着软件利用的综合实效和安全性。就当前软件漏洞具体检测中的数据挖掘分析来看,其主要包括5个方面的内容:(1)软件漏洞检测项目的明确,有了明确的检测项目,具体的数据挖掘范围也会得到确定,这样,数据挖掘的效果会更突出。(2)对软件功能漏洞检测数据信息做深入获取,并就获取的信息做清理和转换工作,这样可以提炼更多有用的知识和信息。(3)对软件工程合适的数据挖掘信息做科学合理的选择,这样可以使数据信息的验证效果更加突出。(4)对软件工程中存在的系统平台缺陷和漏洞做科学划分并予以描述和定位。(5)基于挖掘的信息数据进行系统测试工作。

(三)开源软件代码挖掘

软件工程行业中的数据挖掘应用还体现在开源软件代码挖掘中。从现阶段的分析来看,开源软件代码挖掘可归结为对象挖掘类型,其应用最为广泛的是代码的克隆检测,而克隆检测工程在软件代码以及系统应用数据的复制和拷贝中进行使用。通过系统中具体的代码源检测操作能够将软件工程中存在的代码漏洞问题做有效解决,这样软件工程在后期的运行维护方面效果会有极大的提升。

(四)软件执行记录挖掘

数据挖掘在软件工程行业中的突出利用还体现在软件执行记录的挖掘方面。在软件执行记录当中使用数据挖掘技术,可以借助对软件执行的记录做有效的大数据分析,这样,不同的软件或者是相同的软件在不同模块代码间的关联关系会得到全面性的分析,基于此分析,数据执行的路径等可以得到跟踪,逆向建模的最终效果会更加的突出。简言之,在软件执行记录中利用数据挖掘会对软件的系统代码维护等起到突出的作用,这样,软件工程的稳定性效果会更加突出。

三、结束语

综上所述,在软件工程行业中,具体的软件开发需要对多方面的数据进行利用,更要对各方面数据表现出来的关联性以及数据应用结果做分析,这样,软件最终开发需要考虑的内容和避免的问题会更加的清楚。文章就软件工程行业中数据挖掘的一般步骤和具体内容做分析,最终的目的是为软件工程行业的实践活动开展提供帮助,从而提升软件开发的综合性,提高软件在具体生活实践中的利用价值和效果,达到软件开发的最终目的。

参考文献

[1]吕品,于文兵,汪鑫等.数据挖掘挑战赛驱动的本科生大数据分析能力培养——以上海电机学院软件工程专业学生为例[J].计算机教育,2017(11):36-39.

[2]吴彦彰.数据挖掘技术在软件工程中的应用探究[J].电子制作,2016(6):47-48.

第10篇

数据挖掘的过程可以理解为以下几个步骤。第一步,数据清理,解决数据的不一致问题、平滑噪声、补充缺失数据、识别并删除离群点。第二步,数据集成,把来自多个文件、数据立方或者数据库中的数据组合在一起。第三步,数据选择、分析、提取数据库中与任务相关的数据。第四步,数据变换,通过数据平滑、汇总、聚集、泛化、规范化、属性构造等操作提高对高维数据的理解,把数据变换统一成适合进行数据挖掘的形式。第五步,数据挖掘,选择合适的数据挖掘算法智能的提取出有用的信息或模式。数据挖掘在于发现有价值的模式,总体来说,数据挖掘的目的可以分为两类:描述性和预测性。描述性挖掘任务用于表示目标数据中数据的一般性质,包括分类、聚类、关联分析、异常检测等,预测性任务在汇总后的数据上进行归纳,作出预测,包括回归、分类等。第六步,模式评估,根据某种度量确定出某些有趣的模式,或由专家来评定其价值和正确性。第七步,知识表示,使用可视化等信息表示方法,向用户展示挖掘出的有用信息和结果分析。以上的步骤是进行数据挖掘的一般过程,对于不同的应用分析过程也不尽相同,在商业领域中,面对来自商业的各种不同的分析任务,首先应该理解该应用领域,对数据分析的背景有一个很好的理解,然后尽可能的按照所需信息进行信息的收集工作。

2数据挖掘在商业领域中的重要应用及分析

零售业是非常适合的数据挖掘的商业领域之一,因为它包含了大量的销售记录、顾客购买记录、货物运输记录等大量的原始信息,为数据挖掘提供了丰富的资源。分类和预测技术在市场分析、供应和销售方面为商务智能提供预测分析;聚类可以在客户关系管理方面,根据顾客的相似性把顾客进行分组以便进行更多的后续分析。数据挖掘在商业上的应用具体在以下几个方面:第一,帮助设计和构造数据仓库,由于商业领域中信息范围太大,数据库的设计也存在许多方式,我们可以使用数据挖掘演练结果指导数据库的设计方便以后的使用和后续分析处理。第二,对顾客需求、产品销售、趋势等构造复杂的数据立方体,提供多维分析和可视化工具。第三,根据顾客购买记录,使用序列模式挖掘顾客的消费变化,分析顾客的忠诚程度。第四,产品推荐和商品的交叉推荐,通过销售记录挖掘关联信息,这类信息可以形成产品推荐,也可以根据其他顾客的购买意愿产生个性化购买服务。第五,通过多维分析、聚类分析和林群点分析可以识别可能的欺骗者和他们的习惯模式,检测通过欺骗进入或未经授权访问个人或组织的账户企图,发现可能需要特别注意的不寻常模式。使用数据挖掘技术,可以更好的理解每组顾客的行为特征,开发制定销售计划。

3数据挖掘的典型分析方法

3.1特征化和区分

数据特征化就是简洁的汇总目标数据的一般特征。在商业活动中,公司为保证自己的正常运营和经济效益要保证有一定的客户源。包括不断发展新客户,对已有客户的消费行为和基础信息作为基础综合考虑客户的行为特征,对可能的客户源加强推荐工作。

3.2频繁模式和关联规则

挖掘频繁模式能找出大部分人的喜好,找出适用范围更广的有趣模式的关联性和相关性。关联规则若能同时满足最小支持度阈值和最小置信度阈值,进一步发现关联的属性-值对之间的有趣的统计相关。关联规则最早是用于解决购物篮分析问题,从购物篮数据中发现顾客的购买规律决定商品的摆放位置。还用于医疗中发现某些症状与某些疾病之间的关联,为诊断提供更多依据。

3.3分类与回归

分类可以找出描述和区分数据类的模型,以便接下来实现模型预测类标号以及预测位置类别的数据元素。决策树、神经网络是比较常见的用于分类的方法。相关分析是在分类和回归之前进行,识别出显著相关的属性,其他不想管的属性可以暂时不考虑。分类方法用于金融市场营销、市场预测、信用评估、医疗诊断等方面。分类器还可用于预测某些产品的销售情况、广告的投放区域,以及保险业中评估客户的信用等级。

3.4聚类(cluster)

与分类不同的是,分类需要一个类别属性,而聚类不需要,它是将数据集划分为由若干相似实例组成簇的过程,使得在同一个簇中数据相似程度最大化,簇间数据相异程度最高。是一种无监督的机器学习方法。涉及到的主要算法有K-means,EM算法和DBSCAN算法。聚类分析可以详细的划分市场,比如,基于客户特征把客户群进行划分,房地产行业中对住宅户型、地理位置等特征来鉴定一个城市的房产分组。

3.5离群点分析

前面讨论的聚类、分类、关联分析等方法的重点在于发现大多数数据所适用的常规模式。数据集中的数据中可能包含一些与其他数据一般行为不一致的点,这些数据就称为离群点,大部分的离群点在一些有趣模式的挖掘过程中被丢弃,然而,在一些其他方面,可以直接将离群点单独拿出来做分析。比如应用于灾害气象预报、欺诈检测、药物异常反应、网络安全入侵检测等领域。

4数据挖掘的分析软件和展示工具

无论是数据分析、数据挖掘还是商业智能,在以后的应用中我们都有必要掌握几种高效的软件工具。对于商业领域中数据挖掘工作不仅要收集数据进行挖掘还要将结果以报表的形式展现给客户。数据挖掘的工具可按应用分为几个层次。数据存储层:首先,我们需要存储数据,能够理解数据的存储和数据的基本结构和数据类型以及SQL语句的基本结构和读取等,常见的数据库有Access、MySQL、SQLserver、DB2、oracle。报表层:数据存储以后,我们要制作让大部分人都能报表。比如CrystalReport水晶报表、Bill报表、Tableau报表。数据分析层:从长我们用的统计分析和数据挖掘工具,包括Excel、SPSS、Modeler、SAS、JMP分析。表现层:对分析挖掘以后的结果展现给客户,即使非专业人员也可以明白,这样的表现形式更加有价值,这个领域的软件或工具非常有价值比如PowerPoint、Visio、SwiffChart、ColorWheel等。

5结语

第11篇

关键词:数据挖掘;知识发现;关联规则;决策树

中图分类号:TP311文献标识码:A文章编号:1009-3044(2010)02-266-02

A Brief Analysis on DM Technique

ZHU Yong-chun, WAN Min

(Computer Center, Henan University, Kaifeng 475004, China)

Abstract: Data Mining (DM) is the knowledge discovery from databases. This paper briefly introduces DM technique, including the DM definition, common technology, key applications and its development trends.

Key words: data mining; KDD; association rule; decision tree

数据挖掘DM(Data Mining),又称为数据库中的知识发现KDD(Knowledge Discovery in Database),根据Usama M.Fayyy等[1]给出的定义:就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘其实是一类深层次的数据分析方法,分析组织原有的数据,做出归纳推理,从中挖掘出潜在的模式,为管理人员决策提供支持。原始数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以用于数据自身的维护。简单的说数据挖掘就是从大量数据中提取或挖掘知识。注意不是所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。即使如此,数据挖掘也已被用来增强信息检索系统的能力[2]。

1 数据挖掘中的常用技术

数据挖掘是一门涉及面很广的交叉学科,包括机器学习、数理统计、神经网络、数据库、模式识别、粗糙集、模糊数学等相关技术。就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。常用的数据挖掘技术包括:

1) 统计技术:统计技术对数据集进行挖掘的主要思想是:统计的方法对给定的数据集合假设了一个分布或者概率模型(例如一个正态分布)然后根据模型采用相应的方法来进行挖掘。

2) 关联规则:数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

3) 神经网络技术:神经网络技术是属于软计算领域内一种重要方法,它是多年来科研人员进行人脑神经学习机能模拟的成果,已成功地应用于各工业部门。在DM(KDD)的应用方面,当需要从复杂或不精确数据中导出概念和确定走向比较困难时,利用神经网络技术特别有效。经过训练后的神经网络可以想象为具有某种专门知识的“专家”,因此可以像人一样从经验中学习。它已广泛地应用于各种DM(KDD)工具和软件中。神经网络技术也已广泛地做为一种方法嵌入各种DM成套软件中。其缺点是用它来分析复杂的系统诸如金融市场,神经网络就需要复杂的结构、为数众多神经元以及连接数,从而使现有的事例数(不同的纪录数)无法满足训练的需要。

4) 决策树:决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。在知识工程领域,决策树是一种简单的知识表示方法,它将事例逐步分类成代表不同的类别。由于分类规则是比较直观的,因而易于理解。这种方法一般限于分类任务。

5) 遗传算法:基于进化理论,并采用遗传结合、遗传变异、以及自然选择等设计方法的优化技术。主要思想是:根据适者生存的原则,形成由当前群体中最适合的规则组成新的群体,以及这些规则的后代。它是解决各种组合或优化问题的强有力的手段,这种方法的不足之处是:这种问题的生成方式使估计所得解答的统计意义的任何一种机会不再存在。另外一方面,只有专业人员才能提出染色体选择的准则和有效地进行问题描述与生成。

6) 进化式程序设计:这种方法的独特思路是:系统自动生成有关目标变量对其他多种变量依赖关系的物种假设,并形成以内部编程语言表示的程序。内部程序(假设)的产生过程是进化式的,类似遗传算法过程。当系统找到较好地描述依赖关系的一个假设时,就对这程序进行各种不同的微小修正,生成子程序组,再在其中选择能更好地改进预测精度的子程序,如此依次进行,最后获得达到所需精度的最好程序时,由系统的专有模块将所找到的依赖关系由内部语言形式转换成易于为人们理解的显式形式,如数学公式,预测表等。

7) 基于历史的MBR(Memory-basedReasoning)分析:先根据经验知识寻找相似的情况,然后将这些情况的信息应用于当前的例子中。这个就是MBR的本质。MBR首先寻找和新记录相似的邻居,然后利用这些邻居对新数据进行分类和估值。使用MBR有三个主要问题,寻找确定的历史数据;决定表示历史数据的最有效的方法;决定距离函数、联合函数和邻居的数量。

8) 回归分析:回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型上添加多项式项形成非线性回归模型。

9) 连接分析:连接分析,它的基本理论是图论。图论的思想是寻找一个可以得出好结果但不是完美结果的算法,而不是去寻找完美的解的算法。连接分析就是运用了这样的思想:不完美的结果如果是可行的,那么这样的分析就是一个好的分析。利用连接分析,可以从一些用户的行为中分析出一些模式,同时将产生的概念应用于更广的用户群体中。

10) 粗糙集:粗糙集理论基于给定训练数据内部的等价类的建立。形成等价类的所有数据样本是不加区分的,即对于描述数据的属性,这些样本是等价的。给定现实世界数据,通常有些类不能被可用的属性区分。粗糙集就是用来近似或粗略地定义这种类。

11) 模糊集:模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用0.0和1.0之间的真值表示一个特定的值是一个给定成员的程度,而不是用类或集合的精确截断。模糊逻辑提供了在高抽象层处理的便利。

12) 差别分析:差别分析的目的是试图发现数据中的异常情况,如噪音数据,欺诈数据等异常数据,从而获得有用信息。

13) 概念描述:概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。

2 数据挖掘技术的具体应用

当前数据挖掘应用主要集中在电信、零售、农业、网络日志、银行、电力、生物、天体、化工、医药等方面。而数据挖掘技术最集中的应用领域包括以下四个方面,而且每个领域又都有自己特定的应用。

1) 金融领域:金融事务需要收集和处理大量的数据,通过对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,也可观察金融市场的变化趋势。数据挖掘在金融领域应用广泛,包括数据清理、金融市场分析预测、账户分类、信用评估等。

2) 医疗保健领域:医疗保健业有大量的数据需要处理,但这个行业的数据由不同的信息管理系统管理,数据以不同的格式保存,从总体看,数据是无组织的。在这个行业中,数据挖掘的关键任务是进行数据清理、预测医疗保健的费用。例如,GTE实验室开发的KEFIR,它能进行多维分析,用以分析GTE的医疗保健数据,对比数据和预测数据,在定量范围内解释偏差,生成超文本报表[3]。

3) 市场领域:市场经济中存在形形的经济实体,这些经济实体共同造就并推动市场的繁荣与稳定。应用数据挖掘技术可协助经济实体进行市场定位、消费者分析、辅助制定市场营销策略、销售预测、库存需求、零售点的选择、价格分析等。

4) 科学研究领域:在信息量极为庞大的天文、气象、生物技术、社会学等领域中,所获得的大量实验和观察数据靠传统的数据分析工具难以应付,因此对功能强大的智能化自动分析工具要求迫切,这种需求推动了DM技术在科学研究领域的应用发展。目前己获得了一些重要的研究成果,如Jet Propulsion实验室利用决策树方法对上百万天体数据进行分析,帮助天文学家发现了16个新的星体,效果要比人工更快、更准确。

3 数据挖掘技术的发展趋势

当前,数据挖掘与知识发现研究方兴未艾,与其相关的软件研究与开发的总体水平相当于数据库技术在70年代所处的地位,迫切需要类似于关系模式和SQL查询语言等理论和方法的指导,才能使数据挖掘与知识发现的应用得以普遍推广。预计在本世纪,数据挖掘与知识发现的研究还会形成更大的高潮,研究的总体发展方向可能会集中到以下几个方面[4]:

1) 应用的探索:目前正探索扩大其应用范围,如生物医学、考古、电信、电子商务、保险等领域。

2) 改进数据挖掘算法:为了提高数据挖掘系统的可用性、可扩展性、高效性,我们需要对一批数据挖掘算法进行改进,需要探索新的挖掘算法,以适应新知识环境下的数据挖掘。

3) 数据挖掘与数据库系统、数据仓库系统和Web数据库系统的集成:数据挖掘系统的理想体系结构是与数据库和数据仓库系统的紧耦合方式。

4) 数据挖掘语言的标准化:数据挖掘语言的发展经过了数据挖掘查询语言、数据挖掘模型语言和通用数据挖掘语言或标准数据挖掘语言三个阶段。在通用数据挖掘语言的研究上一样取得了很大的进展,但还远没有达到像SQL查询语言的那种通用程度。实用的业界统一的标准语言将是未来数据挖掘语言努力的目标。

5) 可视化数据挖掘:可视化数据挖掘是从大量数据中发现知识的有效途径。多维数据的可视化、多维数据挖掘任务的可视化、模式可视化、模式比较和趋势分析可视化是进一步的研究目标。

6) 复杂数据类型挖掘的新方法:复杂数据类型挖掘是数据挖掘中一项重要的前沿研究课题。

7) Web挖掘:有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。

8) 数据挖掘中的隐私保护与信息安全:任何事情都有其两面性,数据挖掘领域也不例外,在挖掘数据产生财富的同时,随之产生的就是隐私泄露和信息安全的问题。1995年隐私保护与信息安全成为了数据挖掘的一个研究主题,经过十几年的发展,仍不成熟,在今后将是一个研究的热点方向。

4 结束语

数据挖掘技术是一个年轻且充满希望的研究领域,商业利益的强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法问世,每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。随着数据挖掘的进一步发展,它必然会带给用户更大的利益。

参考文献:

[1] 崔丽群.人工神经网络在数据挖掘中的应用研究[D].辽宁工程技术大学,2004.

[2] 陈立潮.人工神经网络在数据挖掘中的应用研究[D].华北工学院,2001.

第12篇

关键词:数据挖掘;计算机网络;Excel;教学质量;粗糙集

中图分类号:G642 文献标识码:A 文章编号:1009-3044(2012)36-8753-03

计算机网络是高等学校有关专业的重要专业课程,但目前我校计算机网络课程主要采用教师讲授和验证性实验相结合的教学模式,实验教学主要是模仿学习和验证课堂上学过的知识,难以将学过的理论知识应用到实际和解决实际问题,不能充分发挥学生的主动性和创造性。计算机网络的教学目标是使学生能够将理论知识应用到实际中,能做出符合实际的网络实施方案,充分发挥学生的主观能动性,正确安装配置网络设备和各种服务器软件,成为既熟悉本专业业务又掌握计算机网络技术的复合型人才。为提高该课程的教学质量和教学效果,更好地培养学生计算机应用能力,采用数据挖掘技术对多年的考试成绩中现隐含的知识进行分析,为学校计算机网络课程实施教学改革提供决策支持。

1 数据挖掘基本概念

粗糙集理论作为一种处理不精确(imprecise)、不一致(inconsistent)、不完整(incomplete)等各种不完备的信息有效的工具,一方面得益于他的数学基础成熟、不需要先验知识;另一方面在于它的易用性。由于粗糙集理论创建的目的和研究的出发点就是直接对数据进行分析和推理,从中发现隐含的知识,揭示潜在的规律,因此是一种天然的数据挖掘或者知识发现方法,它与基于概率论的数据挖掘方法、基于模糊理论的数据挖掘方法和基于证据理论的数据挖掘方法等其他处理不确定性问题理论的方法相比较,最显著的区别是它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其他不确定性问题的理论有很强的互补性(特别是模糊理论)。完整的数据挖掘过程分为确定业务对象、数据准备、数据挖掘、结果分析。数据挖掘技术的方法主要有数理统计、神经网络、模糊理论、粗糙集理论、遗传算法、决策树方法、统计分析、聚类法等。

2 数据准备

3 基于Excel Ida的数据挖掘

基于Excel Ida的ESX 能帮助创建目标数据,找出数据中的不规则性,执行数据挖掘并提供有关所发现知识实际值的解释。ESX 使用的主要数据结构是一种三层概念的层次结构,如图1所示。树的实例层上结点表示了各个实例,它们定义了概念层上给出的概念类。概念层上结点存放了各个实例层子结点中属性值的汇总统计。树的根层结点存放了这个域中所有实例的汇总信息。将概念层和根层的汇总信息提交给报表生成器,依次输出电子表格形式的汇总报表。

4 结果分析及教学改革

从表4可以看出,在历届考试中,问答题的重要度为2.13,对考试结果影响最大,而问答题的主要考核内容是有关基本功能和基本工作原理,从次可以看出,教学中必须加强对这部知识的讲授,并在实验中体现这部分内容。其次填空题的重要度为1.95,这部分考核的内容主要是计算机网络基本概念,对学生的成绩影较大。最后是判断题和名词解释。而平时成绩对总分的影响很小,可以忽略。究其原因,由于理论考试的知识点较多,并且更侧重于概念方面,部分学生在平时的学习中没有很好地去理解和掌握,因而导致本题得分对考试总分造成了重要影响。基本概念和基本原理一直是教学的重点和难点,尤其是概念,学生普遍感到较难,主要体现在不能正确掌握基本概念和基本原理的实质内容。判断题和应用题得分较高,相差不大,对考试结果的影响很小,这是因为学生对这块内容的学习比较感兴趣,因而能较好地掌握基本的操作。由此可见,为了提高计算机网络的学生考试成绩和应用能力,教师在平时的教学中应加强理论部分的教学,帮助学生理解常见的概念和知识点,在实验任务完成后,学生对实验必须具备基本概念进行描述,这样学生可以通过感性知识来掌握理性知识。

5 结束语

该文以计算机网络课程为例,利用基于粗糙集理论中的属性重要性,并用Excel Ida工具分析了影响学生考试成绩的主要知识点,表明数据挖掘技术在课堂教学中具有重要的作用和意义,通过对考试数据的有效挖掘,进而指导今后的教学工作。使教学模式符合计算机网络课程特点,提高学生解决问题和分析问题的能力。

参考文献:

[1] 王国胤. Rough 理论与知识获取[M]. 西安: 西安交通大学出版社, 2001:3.

[2] 刘宇阳. 数据挖掘技术在高校学生成绩分析中应用[J].交通科技与经济, 2008(4): 65-67.

[3] 柳炳祥, 章义来. 基于数据挖掘的教学评价方法[J]. 计算机与现代化, 2005(4):87-89.

[4] 张文宇. 数据挖掘与粗糙集方法[M]. 西安: 西安电子科技大学出版社, 2007:42-43.

[5] 韩玲, 朱昌杰, 胡国亮. 粗糙集理论在计算机基础教学测评中应用[J]. 电脑知识与技术, 2010,6(12):3064-3065.

[6] 王国胤,安久将,吴渝.Rough 集理论代数观与信息的差异量化分析[J].小型微型计算机系统, 2005,26(7):1187-1189.

[7] Han Jiawei, Kamber M.数据挖掘概念与技术[M]. 范明, 孟小峰,等,译.北京:机械工业出版社,2001.

[8] Quinlan J R.C4. 5: programs for machine learning[M].Morgan Kaufmann.San Mateo, CA, 1993.

[9] Margaret H. Dunham. 数据挖掘教程[M]. 郭崇慧, 田凤占, 靳晓明,等,译.北京: 清华大学出版社, 2005.

[10] 张云涛, 龚玲. 数据挖掘原理与技术[M]. 北京: 电子工业出版社,2004.

[11] Roiger R J.数据挖掘教程[M]. 翁敬农,译.北京: 清华大学出版社, 2003.