HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 数据挖掘

数据挖掘

时间:2023-02-25 05:16:31

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘

第1篇

随着数据库技术的不断发展,数据库和数据仓库已经被广泛地应用于企业管理、产品销售、科学计算和信息服务等领域,数据量的不断增长对数据的存储、管理和分析提出了更高的要求,急需新一代的技术,能够智能化的从大量的数据中提取出有用的信息和知识,于是数据挖掘技术应运而生,且在各行业得到了广泛的应用。如何从海量的数据中找到内在的规律,如何更快更方便地传递、交流、获取有用的信息,挖掘这些激增数据背后隐藏的重要信息并及时进行信息的重组已成为当前我们所探究的热点。

一、数据挖掘概述及分类

数据挖掘是近年来随着数据库技术和人工智能技术的发展而出现的一种多学科交叉的全新信息技术,是指从海量的数据中出潜在的、有价值的知识(模型或规则)的过程,反复使用多种数据挖掘算法从观测数据中确定模式或合理模型。也就是根据预定义的目标,对大量的数据进行探索和分析,揭示其中隐含的规律,并进一步将其模型化的先进有效的技术过程。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要探究的重要课题。

数据挖掘涉及多个学科方向,主要包括摘要:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法和技术以及应用等几方面进行分类。按数据库类型分类摘要:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类摘要:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有摘要:关联分析、时序模式、聚类、分类、偏差检测、猜测等。按数据挖掘方法和技术分类摘要:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。

二、数据挖掘的基本过程

(1)定义新问题。对目标有一个可行、清楚和明确的定义,同时还包含对一个结果进行衡量的标准。(2)建立数据挖掘库。它主要是指收集数据、维护数据等工作。(3)分析数据。找到对新问题解决影响大的数据字段集和决定是否需要定义导出字段。(4)预备建摸数据。根据新问题的定义,对数据库中的字段变量、记录进行筛选,并根据现有的变量进行转换,生成新的变量和字段。它主要是指为建立模型预备部分数据的过程。(5)建立模型。选择一定的挖掘算法来处理数据,它需考察不同的模型用以判定和选择解决新问题最有效、精确度较好的一种数据挖掘模式。(6)模型的评价和解释。模型建立后,必须有一个对它的结果进行评价、对它的价值进行解释的过程。(7)实施。模型建立并验证之后通常有两种使用方法。一种是提供给分析人员作参考和分析这个模型之后的行动方案及建议。另一种是在应用了模型之后,还需不断地监控其效果,因为事物在不断地发展变化,有可能一段时间后,模型就不再起功能川。在以上数据挖掘的基本过程中,其中数据预备、数据选择、预处理、数据缩减的阶段主要以完成数据仓库为主;目标确定、算法确定、数据挖掘、模式识别和知识评价这几个阶段,主要以挖掘有用的知识为主,为知识发现做预备。

三、数据挖据的应用

数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向摘要:

(一)在金融数据分析中的应用。多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋向;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付猜测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。

(二)在电力业的应用。在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、平安管理、资源管理、投资组合管理、活动分析、销售猜测、收入猜测、需求猜测、理赔分析等。而且当使用数据挖掘系统时,用户会对模型进行调优和定制。这将会逐步积累符合企业自身需要的模型库,成为企业知识库的重要组成部分。

(三)在零售业中的应用。零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费和服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和猜测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋向,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满足程度;提高货品的销量比率,设计更好的货品运输和分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。

(四)在医学上的应用。近年来,生物医学探究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别和探究。在人类基因探究领域具有挑战性的新问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。利用数据挖掘技术在DNA数据的分析探究中可以进行DNA序列间的相似搜索和比较,对同时出现的基因序列的相关分析,遗传探究中的路径分析等。近期DNA分析的探究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。

(五)在高校和科研单位以及其他领域的应用。主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。

第2篇

关键词:数据挖掘 大数据 市场营销 企业决策

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2014)02-0080-02

数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题。数据挖掘己广泛地应用到社会的各个领域和行业,如商业领域中的客户关系、产品生产、市场营销等;金融领域中的股票交易市场、投资评估等;天文学领域的气象预报、气象灾害预测等;教育领域的高校学生管理、高校毕业生就业分析、高校教学质量的评估等。可以说,数据挖掘实是处在知识创造过程中最核心的位置,因此做好数据挖掘工作具有十分重要的意义。

1 数据挖掘的定义和本质

对于数据挖掘一般有两种定义,从广义上讲,数据挖掘,又称数据库中的知识发现,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程,就是从大型数据集中挖掘隐含在其中的、人们事先不知道的、对决策有用的知识的过程。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。从狭义上讲,数据挖掘则是指从特定形式的数据集中提炼知识的过程。

数据挖掘的本质是很偶然的发现非预期但很有价值的信息。这说明数据挖掘过程本质上是实验性的。数据挖掘的一个特定属性就是要处理的是一个大数据集。这就意味着,由于可行性的原因,我们常常得到的只是一个样本,但是需要描述样本取自的那个大数据集。数据挖掘所得到的信息应具有先前未知、有效和实用三个特征。

2 数据挖掘的发展背景

在这个信息爆炸的时代,如何从信息的大海中发现及时有用的知识,提高信息利用率呢?要想使数据真正成为一个公司的资源,只有充分利用它为公司自身的业务决策和战略发展服务才行,否则大量的数据可能成为垃圾,甚至成为包袱。因此,面对人们被数据淹没却饥饿于知识的挑战,数据挖掘和知识发现技术应运而生,并得以蓬勃发展,越来越显示出其强大的生命力。

数据挖掘技术是人们长期对数据库技术进行研究和开发的结果。激发数据挖掘的开发、应用和研究有如下四个主要的技术理由:(1)超大规模数据库的出现,例如商业数据仓库和计算机自动收集的数据记录;(2)先进的计算机技术,例如更快和更强大的计算能力和并行体系结构; (3)对巨大量数据的快速访问;(4)对这些数据应用精深的统计方法计算的能力。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。

国内对数据挖掘的研究晚于国外。国家通过自然科学基金对数据挖掘的研究进行支持,很多科研单位和院校都在这个领域获得了丰硕成果,这些单位包括中科院、清华大学、中国科大、复旦大学等,他们的成果为我国在此领域的发展起到了重要作用,得到了学术界的高度重视。

3 数据挖掘常用的方法

利用数据挖掘进行数据分析常用的方法主要有分类分析、回归分析、聚类分析、预警分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

(1)分类分析。客户细分需要进行客户特征分析,即用数据来描述或给出客户或潜在客户特征的分析过程。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

(2)回归分析。如何使用数据挖掘来对不同的旨在保留客户的活动中进行建模将对整个客户保持工作起着重要的作用,这也就是流失模型价值所在。流失模型能预测账号在被激活后减少或停止使用一种产品或服务的行为。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

(3)聚类分析。通过分组聚类出具有相似浏览行为的客户,并分析客户的共同特征,更好地了解自己的客户,向客户提供更合适的服务。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

(4)预警分析。数据挖掘方法可以为风险分析建立分类定位模型。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。风险分析是提品或服务时存在潜在损失的行业所特有的。常见的风险类型出现在银行业和保险业,银行在放贷时存在金融风险。利用风险分析可以预测一个对象如期还贷或不还贷的可能性。一种贷款如抵押贷款或汽车贷款是安全贷款,另一种贷款如信用卡贷款为不安全贷款。

(5)Web页挖掘。Web因其易于导航、方便链接,融图形、音频、视频信息于一体的优越特性,迅速流行于全球,所载信息量巨大。Web页挖掘是利用数据挖掘技术从万维网的海量信息和数据中提取各种有用模式和信息,其中涉及到Web技术、数据挖掘、计算机语言学、信息学等多个领域的专业知识。对于企业而言,可以通过Web页挖掘、收集与企业生存相关的社会环境信息、市场信息、竞争对手信息、客户信息等,及时对外部环境信息和内部经营信息作出反馈和决策,未雨绸缪,以最快的速度解决企业面对的各种危机和潜在问题。

4 数据挖掘的社会需求和应用

人类早已步入信息社会,信息的重要性毋庸置疑。如何能在信息的海洋中迅速提取那些于我有价值的信息是生存的必要本领和竞争的必要手段,这就需要进行数据挖掘。具体而言,数据挖掘的社会需求和应用主要有表现在四个方面,即辅助研究,改进生产流程,优化市场营销,提高竞争优势。

(1)辅助研究。数据挖掘的辅助研究功能主要表现在医药和生物研究领域。数据挖掘技术可以协助研究人员快速分析巨量的医学数据和医生诊断经验,发现隐藏在海量数据背后的新的、具有学术价值的医学信息,为新药的发现提供一种新的思路和方法,帮助科研人员在大的数据库中发现隐含的知识,更好、更快、更有效地决策,加快药物研发速度,提高药物研发水平。此外,数据挖掘理论中的序列模式分析和相似检索技术等,已经被认为是DNA分析的有效工具,研究者们正在研究如何利用该技术从已经测得的基因数据库中找出各种疾病特定基因序列模式。数据挖掘技术还可以应用到医学图像分析中,借助于这一技术,图像特征能够实现自动提取和模式识别。更加令人欣喜的是,数据挖掘技术在医疗行业的应用,不仅可以协助医生更加准确地对病人进行诊断,还能预测医疗试验、外科手术和药物治疗的效果,对于缓和医患关系,节省治疗成本等都能起到积极作用。

(2)改进生产流程。数据挖掘改进生产流程的功能主要体现在工业领域。目前,数据挖掘已经成功地应用于从晶片制造到咖啡烘焙等一般的生产流程,用领域非常广泛。数据挖掘在改进生产流程中的应用概括地讲就是提取出影响生产进度的因素,避免生产的非正常中断,优化成产,从而节约成本。首先是提取数据,这些数据既包括能产生正面结果的数据,也包括产生负面结果的数据。其次是选择决策树算法依据数据判断出最重要的变量,再经过审定保留那些具有预测能力的变量。最后是进行建模与评估,形成生产规则。需要注意的是,由于不同工厂间的具体情况不同,这些规则并不能从一家工厂直接复制到另外一家工厂,因此数据挖掘工作不是一劳永逸的,应在成功的基础上不断进行研究。

(3)优化市场营销。由于信息的爆炸式增长,商业领域累积的数据库越来越大,不仅占用空间,且无法直接增加价值,由此人们认识到大量数据并非就是大量的信息,数据分析与萃取势在必行。因此,数据挖掘技术从一开始就是为应用而产生的,且迅速应用到了市场营销领域。世界上许多具有创新性的公司都采用数据挖掘的方式改进产品的推广模式,改善营销、销售、顾客服务营运上的不足,寻找最有价值的客户,以最小的成本获取最大的利益。例如银行可以通过分析客户的银行账户余额、客户已拥有的银行产品以及所处地点和信贷风险等标准来评价记录档案,这些评价可用于确定客户购买某一具体产品的可能性,使得管理人员不必一一分析基础数据,大大提高了工作效率。对于零售商而言,可以利用数据挖掘技术收集并分析上百万个交易数据,为各分店进行每周和每日的销售预测,还可协助制订季度销售预测、用人计划、存货管理、年度预算等,甚至还能帮助为新的分店选址。以美国拥有1100多家分店、年销售额近110亿美元的Staples连锁零售商店为例,它就是运用数据挖掘方法成功对各家分店进行管理,它采用的数据包括历史销售数据、客户(包括商户和家庭)的统计数据、分店所处的地段特征及该地段的竞争水平等一系列海量数据。卡夫食品公司也是通过对拥有3000万客户资料的数据库进行深入挖掘,得以了解特定客户的兴趣和口味,并以此为基础向他们发送特定产品的优惠券,并为他们推荐符合客户口味和健康状况的卡夫产品食谱。

数据挖掘在市场营销中的应用是基于“消费者过去的行为是今后消费倾向的最好说明”这一基本假定,通过搜集和分析消费者消费行为的大量信息,以确定消费群体和个体的消费习惯、消费热点、消费层次和潜在的消费需求等,以此为基础,有针对性地进行特定内容的定向营销,不仅节约了营销成本,还大大提高了营销效果,为企业带来更多利润。

(4)提升竞争优势。在市场经济比较发达的国家和地区,许多公司都开始在原有信息系统的基础上通过数据挖掘对业务信息进行深加工,以构筑自己的竞争优势。数据挖掘在提升企业竞争优势上主要包括两个方面,一是提升企业自身实力,二是规避外部风险,具体来说主要包括分析企业内部经营信息,搜集外部环境信息,创新优质产品和服务,改善和维护客户关系,进行企业供应链管理,识别风险和欺诈,控制和化解危机等。

5 数据挖掘需要注意的问题

(1)对数据的要求。由于大多数运营商面临的数据在质量、完整性和一致性方面存在很多问题,因此在利用这些数据进行数据挖掘之前,必须先对其进行抽取、净化和处理。

(2)对人员素质的要求。统计数据挖掘分析系统必须与实际紧密相联,在数据挖掘的多个环节中,都要求使用和分析人员不仅仅具备数据挖掘的相关知识,还必须有对企业经营管理流程和行业背景的深刻理解。

(3)数据挖掘的有效性。数据挖掘存在较长的应用周期,数据挖掘所发现的知识和规则必须让决策者理解并采纳,才能将知识转化为生产力,并通过实践不断检验和完善数据挖掘所产生的模型和规则,以使模型更具实用价值。

(4)数据库类型的多样性。一些数据库可能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据,应当构造特定的数据挖掘系统。同样,对于不同类型的数据,应当有不同的数据挖掘系统。

(5)数据挖掘的局限性。虽然数据挖掘工具使用户不必再掌握高深的统计分析技术,但用户仍然需要知道所选用的数据挖掘工具是如何工作的,它所采用的算法的原理是什么。选用的技术和优化方法会对模型的准确度和生成速度产生很大影响。数据挖掘永远不会替代有经验的商业分析师或者管理人员所起的作用,它只是提供一个强大的工具。每个成熟的、了解市场的公司都已经具有一些重要的、能产生高回报的模型,这些模型可能是管理人员花了很长时间,作了很多调查,甚至是经过很多失误之后得来的。数据挖掘工具要做的就是使这些模型得到的更容易,更方便,而且有根据。

6 结语

总之,数据挖掘作为一个新兴的多学科交叉应用领域,正在各行各业的决策支持活动扮演着越来越重要的角色。只有从数据中有效地提取信息,从信息中及时地发现知识,才能为人类的思维决策和战略发展服务。

参考文献

[1]陈文伟,等.数据挖掘技术[M].北京:北京工业大学出版社,2002.

[2]朱明,数据挖掘.合肥:中国科技大学出版社2002.

第3篇

本课的教学对象为七年级学生,这个年龄段的学生自主和独立意识较强,具备一定的信息搜集、处理、表达能力,喜欢在学习的过程中体验和理解事物,但分析思考问题缺乏深度。在日常学习、生活中,学生经常要对数据做搜集、整理、运算、统计和分析工作,但他们的认知大多只停留在表层,仅学会了数据加工的一些基本操作,缺乏从数据挖掘角度分析数据的意识,更不会运用统计学方法寻找蕴藏在数据之中的规律,借助它解决学习和生活中的实际问题。

学习内容分析

本课是苏科版七年级初中信息技术第三章第3节的内容,主要包括“数据挖掘的作用”和“数据挖掘的过程”两个部分,可深入细分为“什么是数据挖掘”“数据准备”“数据挖掘”“规律表示”四个内容。教学中,为了让学生深刻体会数据挖掘的意义和价值,教师应鼓励他们对数据进行多角度加工与分析,找到规律或有用的信息,用恰当的方式直观地表达出来,学会搜集、分析身边的数据,用数据说话,让数据挖掘更好地服务于生活与学习。

教学目标

知识与技能目标:理解数据挖掘的概念,体会数据挖掘的作用。

过程与方法目标:尝试进行数据挖掘,经历数据挖掘的一般过程。

情感态度与价值观目标:树立用数据说话、用数据指导生活的思想意识。

教学重难点

重点:数据挖掘的概念及数据挖掘的一般过程。

难点:数据准备及挖掘的过程。

教学策略

数据挖掘是一种强大的分析数据的方法,因涉及到专业软件和统计学术语、数学模型等,会让学生难以理解。而日常使用的WPS表格,作为数据挖掘的有效工具,可以让学生在分析具体数据的过程中,掌握数据挖掘的方法。因此,本节课教学应让学生从已有经验出发,运用WPS表格中的简单工具,学习数据挖掘的一般方法。

“数据挖掘”对学生而言,是一个全新的概念,概念的建构需要一步步地不断累积,从表层到内涵,逐步深化。学生只有在了解了“数据挖掘”的基本含义,并尝试挖掘的基础上,才能体会其作用和意义。所以,笔者设计了层层递进的学习活动(情境再现,感受数据挖掘―案例研习,认识数据挖掘―比较空气质量,尝试数据挖掘―同比空气质量,再探数据挖掘―畅想未来,展望数据挖掘),并且在活动中适时搭建学习所需的“支架”,来帮助学生完成知识的建构。笔者通过一系列的活动,让学生在做中学,在学中思,在思中用,在情境化的技术活动中,归纳出数据挖掘的方法,从而树立用数据说话、用数据指导生活的思想意识。

教学过程

1.情境再现,感受数据挖掘

活动1:情境再现,感受数据挖掘。

①猜一猜:不同的人群浏览同一个网页时,所看到的内容是否一致。

②观察凤凰网的广告区域截图,在组内交流(如下页图1,不同人群浏览的同一网页,推送的广告不同)。

③京东为什么能够根据个人喜好推送商品?

小结:京东在挖掘和分析用户浏览行为的基础上,进行定向产品推广。

设计意图:思维总是由问题开始的,激发问题,能让学生积极主动地参与到学习活动中。以京东广告推送功能来设置情境,把两种不同的浏览行为对照比较,设置悬念,第一时间抓住学生,激发学生学习新知识、新技术的渴望。

2.案例研习,认识数据挖掘

活动2:学生观看视频,并思考、总结。

①安保为什么使用热力图(如图2)?(对百度的定位数据、搜索数据进行挖掘,把握人群密集点动态趋势,帮助警方提前疏导、化解安全风险)

②百度大数据对旅游有什么作用(如图3)?(对用户搜索数据深入挖掘,预测热门旅游景点)

③导航是如何规划路径的(如图4)?(对道路环境、天气情况、特征日等数据进行挖掘和分析,得出每条道路在不同环境或不同时间的路况规律,确定最优的交通路线)

师生对数据进行分析、总结(如表1)。

小结:数据挖掘是指从大量数据中寻找其规律的技术。数据挖掘的目的主要有三个:把握趋势、预测和求最优解。

设计意图:选取日常生活中运用数据挖掘的三个典型事例视频――热力图、旅游预测、导航,借助半成品表格作为输出支架,归纳出数据挖掘的概念和数据挖掘的三个目的。体会挖掘数据价值性的同时,认识数据加工的重要性,为数据挖掘的学习做好铺垫。

3.比较空气质量,尝试数据挖掘

师:图5中空气质量预报实现了数据挖掘的哪一种目标?(把握趋势)盐城市空气质量如何?借助熟悉的WPS表格工具,尝试挖掘空气质量状况。

活动3:比较盐城、秦州、淮安等周边城市空气质量状况。

①登录中国空气质量在线监测分析平台(http:///historydata/),建立盐城周边三市空气质量状况工作表(如图6)。

影响空气质量的因素很多,AQI指数是衡量空气质量的重要指标。

教师演示:浏览数据,提取数据,组成工作表(如图7)。

②计算各市4月份空气质量指数AQI的平均数。(提示:AVERAGE公式使用方法以及自动填充柄的使用)

③比较4月份空气质量状况。(结论:质量指数平均值大小依次是盐城、秦州、淮安)

师:根据质量指数,利用函数工具计算平均数,得出空气质量状况,其实就是数据的挖掘。数据挖掘的一般过程如图8所示。

设计意图:从全国空气质量在线监测分析平台搜集数据,选择WPS函数工具挖掘数据,并对挖掘结果加以解释,来建构数据挖掘的一般过程。在尝试数据挖掘的过程中,学会运用计算思维解决问题,借助流程图总结挖掘过程,有助于学生从整体上把握知识,进一步促进认知体系的构建。

4.同比空气质量,再探数据挖掘

师:通过挖掘比较,我们得出盐城市4月份空气质量在周边城市当中最好,各市以前的空气质量状况如何?

活动4:比较各市2014年、2015年空气质量数据,说明哪一年空气质量更好(如图9)。

①在选定城市后,思考如何同比质量。

②选取函数或图表工具,完成挖掘。

③规律表示。

④从“我的数据分析报告”中的各组中任选城市,从“2014年数据、2015年数据”工作表中,选取数据到“同比空气质量”进行分析(如下页表2)。

小组汇报挖掘过程和得出的结论,形成对数据挖掘的新认识。

小结:用平均数比较,各市两年的数据基本相同,但是合格月份数不一定相同,同比AQI低的月份数也不相同。学生同比之后发现,2015年空气质量好于2014年。

设计意图:学生借助分析报告,以分组合作的形式,再次经历挖掘数据的过程,找到规律或有用的信息,加深对挖掘过程的理解。鼓励学生对数据进行多角度的加工与分析,选择合适的工具进行挖掘,体现了多元化的思想。

5.畅想未来,展望数据挖掘

观看视频(如上页图10,图10中左图为京东慧眼的视频截图,右图为基因测序的视频截图),想象:数据挖掘技术的广泛应用,对生活会产生怎样的影响?

如今,数据挖掘改变了传统的生活模式,未来将会产生更加深远的影响。因此,我们应学会搜集、分析身边的数据,用数据说话,挖掘数据创造出更智慧的生活方式。

设计意图:通过视频播放,让学生深度感受“数据挖掘”与生活息息相关,挖掘数据将给人们生活带来的改变,培养学生搜集、分析身边的数据,用数据说话的意识。

点 评

如今,数据挖掘已被广泛应用在各个领域。什么是数据挖掘?顾名思义就是从庞大的数据中挖掘宝藏(信息、知识、见解等)的方法和过程。显然,对于初学者而言,这是一个全新的概念,仅靠上述说明难以理解它的含义。在传统教学中,教师往往让学生背诵记忆这些内容,学生并没有形成概念的深层理解。为此,董老师从理解数据挖掘出发,选取数据挖掘的三个典型事例――热力图、旅游预测、导航,精心组织学习活动,在半成品表格的引导下,归纳出数据挖掘的三个目的――把握趋势、预测和求最优解,体会挖掘数据的价值,进而概括出数据挖掘的概念。

第4篇

Abstract: Data mining,also known as knowledge discovery in databases,aims to "dig out interesting understandable knowledge" in large amounts of data.In recent years,data mining has drawn much attention and has been widely used in many ways,and achieved good results. This article focuses on applications of data mining technology in industrial production,business,networking,medical areas,and introduces some successful application cases.

关键词:数据挖掘;知识发现;应用案例

Key words: data mining; knowledge discovery; applications cases

中图分类号:TP39 文献标识码:A文章编号:1006-4311(2010)36-0095-01

0引言

近年来,数据挖掘引起了各界的极大关注,其主要原因是存在大量数据,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理、生产控制、市场分析、工程设计和科学探索等。数据挖掘技术目前在很多领域都有成功的应用案例,具体包括:

1在工业生产方面

工程中丰富的数据资源为数据挖掘的应用提供了广阔的空间,具体应用可以概括为以下三个方面:①故障诊断。故障诊断是数据挖掘在工程领域应用非常活跃的一个方向。基本思路就是利用数据挖掘技术得到产生故障的特征数据、故障规则等,对故障进行检测和诊断。对机器故障进行诊断的过程,其实也就是模式获取及模式匹配的过程。②生产优化。生产优化可概括为:在满足必要约束的条件下,改变生产的工艺参数等,使某种与经济效益相关的目标函数达到极值。在生产优化实施中,对大量生产数据进行挖掘找到产品质量与工艺参数的模型关系,分析在多变量作用下的产品质量规律,帮助质检人员、工艺人员弄清影响产品质量的主次因素,提出相应的对策,进一步调整工艺参数,进行质量控制,为实现生产操作优化提供指导。另一方面也为研发新产品提供了数学模型,可以模拟在不同工艺参数下产品的性能特征。③丰富知识库和决策支持系统。工业生产过程的复杂性和生产企业对自身要求(提高资源利用率、降低成本、降低能耗)的进一步提高,使以计算机为工具的更为先进的智能的决策和控制手段得以推广。但智能的决策和控制通常必须要以知识库作为支持,此时仅仅依靠专家对知识的积累是远远不够的,数据挖掘这一有效的知识获取技术正好可以弥补这一缺失。数据挖掘技术可以将提取的潜在模式、规则评估检验后归入知识库,使得先进控制策略充分发挥作用,进一步提高整个生产过程的控制水平。

2在商业方面

2.1 客户盈利能力计算客户盈利能力有助于挖掘有价值客户,公司各个部门之间对客户盈利能力可能有不同理解。分析顾客的忠诚度,可以利用数据挖掘来挖掘忠诚度高的客户;通过数据挖掘技术可以有效计算客户盈利能力;还可以利用数据挖掘预测未来的客户盈利能力。

2.2 客户的保持和流失企业的增长和发展壮大需要不断获得新的客户并维持老的客户。不论企业希望得到的是哪类客户,数据挖掘都能帮助识别出这些潜在的客户群,并提高市场活动的回应率,做到有的放矢。现在各个行业的竞争都越来越激烈,企业获得新客户的成本正在不断上升,因此建立客户流失预测模型,得出即将流失的客户,对他们采取有效措施进行挽留,从而有效减少客户流失就显得越来越重要,数据挖掘可以帮助发现打算离开的客户,以使企业采取适当的措施挽留这些客户。

2.3 客户获得在没有利用数据挖掘技术时,客户获取的传统方法就是选出一些感兴趣的人口调查其属性,获取这些人口的特征即可。但随着数据量的增大,传统的方法具有不可实现性。利用数据挖掘在扩展客户市场活动时,利用数据挖掘技术挖掘出潜在的客户名单,在客户名单上列出可能对某些产品感兴趣的客户信息,便可更方便的获取更多的客户。

2.4 交叉营销交叉营销是指在向现有客户提供新的产品和服务的营销过程。如那些购买了婴儿奶粉的客户会对你的其他婴儿产品感兴趣。交叉营销的升级形式为:升级营销,指向客户提供与他们已购买的服务相关的新服务。

3在网络方面

随着电子商务的普及,各大商务网站已经大规模使用数据挖掘技术,并且迅速从中取得商业价值。数据挖掘帮助产品经理们改善用户体验,在很多大的互联网公司,这实际上成为了辅佐公司战略的数字神经系统。

在网游业,数据挖掘最成功的应用就是盛大的“平台”战略。也就是把任意一款游戏拿到其从2004年就开始建立的一套“评测”体系去走流程,就可以知道这款游戏到底会不会受到玩家的欢迎。其根据,就来自于盛大在过去运营的上百款游戏的用户数据的记录、分析、关联、最后建立模型。基于这套评测流程,盛大就可以对一款新游戏做出判断,到底该不该运营、如何去改进、潜力有多大,都有了一套从数字出发的答案。

4在医药业方面

近年来,数据挖掘技术在医学领域中的应用越来越广泛。在疾病诊断、治疗、器官移植、基因研究、图像分析、康复、药物开发、科学研究等方面都获得了可喜的成果。南加州大学脊椎病医院利用Information Discovery进行数据挖掘,该技术已应用到肿瘤学、肝脏病理学、肝炎的生存几率预测、泌尿学、甲状腺病例诊断、风湿病学、皮肤病诊断、心脏病学、神经心理学、妇科学、产科学等医学领域。MiroslavKubat等针对心电图、脑电图等医学推测信号的分析,提出使用决策树来初始化神经络,可以大大提高对测试样本的分类准确率。

在国内,中南大学的陈爱斌、夏利民等利用boosting机器学习方法对人脸检测进行了研究。第四军医大的陈雪峰等利用数据库和数据挖掘技术建立的恶性血液病数据库分析系统,不仅可辅助医生做出初步诊断而且对数据具有强大挖掘和分析功能。

第5篇

摘要:随着科学技术的快速发展以及互联网、云计算、数据挖掘等技术的广泛应用,生产过程中的海量数据不再是一种负担,而已经成为了一种资源。物流人逐渐认识到,如果不能对海量的数据进行有效的分析、研究和应用,那将是巨大的资源浪费。本文以数据挖掘技术作为切入点,分析数据挖掘技术的特点及功能,提出了数据挖掘技术在物流主要环节中的应用,对于改良物流企业管理、提高各环节工作效率、搭建信息共享平台充分利用零散数据、降低物流营运费用等方面具有一定影响。

关键词:数据挖掘;物流;应用

随着科技和经济的快速发展,物流市场日趋完善,在国内及国际物流市场的竞争机制的作用下,物流企业对于数据挖掘技术的应用表现出了极大的兴趣。大多数生产型企业与零售企业为了快速发展经营规模、迎合当前物流市场的发展,迫切的需要借助数据挖掘技术来分析企业存在的问题并据此优化企业规划,提升企业的市场竞争力。深入研究数据挖掘技术及其在物流管理、仓储、运输、配送、信息共享等环节的中的应用势必会进一步加快物流行业的快速发展。

一、数据挖掘概述

1.数据挖掘的历史。互联网的快速发展及计算机技术的广泛运用,使人们获取信息及搜集数据的能力得到了极大提高,数以万计的数据库被运用于工程开发、企业管理、政府办公、科学研究等领域,并愈演愈烈,与此同时也产生了一个新的挑战:如何面对信息爆炸时代的海量信息。如果海量信息不能被及时的整理、分析并加以利用,便成为企业的拖累,也将成为新形式下的巨大资源浪费。在人工智能取得重大进展的前提下,数据库中的知识发现(KDD:KnowledgeDiscoveryinDatabases)应运而生,从而产生了数据挖掘技术,并很快得以蓬勃发展,越来越显示出其强大的生命力。1989年8月召开的第11届国际联合人工智能学术会议上首次提出了数据挖掘这一概念。在随后的1991年、1993年和1994年分别举行KDD专题讨论会,集中讨论海量数据分析算法、数据统计、知识运用、知识表示等问题[1]。1998年在美国纽约举行的第四届知识发现与数据挖掘国际学术会议不仅进行了学术讨论,并且有30多家软件公司展示了他们的数据挖掘软件产品,不少软件已在北美、欧洲等国得到应用。2.数据挖掘的概念。数据挖掘(英语:Datamining),又译为资料探勘、数据采矿,它是数据库知识发现(KDD)中的一个步骤[2]。一般是指从大量的数据中自动搜索隐藏于其中的有着特殊关系性的信息的过程,它将人们应用数据的方式从原本简单的查询提升至在数据里挖掘与发现知识以对决策行为提供支持。数据挖掘技术是面向应用的,它不仅是面向特定数据库的简单检索查询调用,而且要对这些数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指导实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。3.数据挖掘的特点。根据数据源挖掘的目的可将数据挖掘的特点总结为:(1)分析的数据信息量非常巨大;(2)面向对象(用户)一般是随机查询,难以达成精确的查询要求;(3)在数据快速变化时,需要反映动态数据,以提供决策支持;(4)数据挖掘服从大样本的统计规律,其分析结果难以适用于所有数据。4.数据挖掘的功能。预测/验证功能:指用数据库的若干已知字段预测或验证其他未知字段值。预测方法有统计分析方法、关联规则和决策树预测方法、回归分析预测方法等。描述功能:找到描述数据的可理解模式。描述方法包括以下几种:数据分类、回归分析、簇聚、概括、构造依赖模式、变化和偏差分析、模式发现、路径发现等。

二、数据挖掘技术在物流主要环节的应用

1.数据挖掘在物流管理中的应用。对于物流管理而言,妥善处理每个环节所产生的大量数据信息,能够让决策者做出更为适合企业发展的决定,掌握更为科学的解决问题的方法。数据挖掘技术的引入,可以通过建立大型数据库,利用数据挖掘技术及时、准确的分析各种信息,并从中获取新颖且有效的信息,再通过可理解的模型进行深层次处理,进而为客户提供个性产品和服务,提高客户满意度。一般应用步骤为:(1)建立大型数据库;(2)搭建相关系统模型;(3)进行大数据分析并获得潜在信息;(4)获得最适合企业发展的决策。2.数据挖掘在物流仓储中的应用。物流仓储涉及入库、出库、盘点、库存控制等多个环节,而这些环节都将产生大量数据,这些数据看似是仓储管理的负担,却也蕴藏着对优化库管极为有价值的信息,利用数据挖掘技术对有价值的信息进行处理,从而解决库存管理中存在的问题。具体表现为:(1)根据总成本最小化原理解决仓库的选址问题;(2)采用关联模式分析解决合理安排货位问题;(3)采用神经网络算法解决拣选最佳路径问题;(4)采用分类算法解决库存成本控制问题;(5)分析客户个性需求解决提高客户满意度问题。3.数据挖掘在运输配送中的应用。物流运输配送管理,包括运输配送计划编制、运输配送路径的选择、车辆的选择、混搭配载等问题,利用数据挖掘技术从运输配送大数据中提取出潜在而有价值的信息,从而指导运输配送各个方面的改进及优化。具体应用的方面包括:(1)通过现有数据进行顾客消费分析及预测;(2)根据历史同期水平比较进行经营成效分析及评价;(3)通过动态数据研究掌握车辆状态及事故预测;(4)通过对线路数据分析优化运输配送路径。4.数据挖掘在信息共享中的应用。物流信息管理系统的建立在物流企业管理中发挥了巨大的作用,但因建设需求、建设时间及管理体制的不同,各物流企业间形成了自成体系、各自独立的信息孤岛,导致信息资源的巨大浪费[4]。数据挖掘技术的引入能够促进建立完善的信息共享机制,进而提高物流企业信息共享程度,可以从以下三个方面来分析:(1)政府牵头搭建基于数据挖掘技术的城市物流资源共享平台,对城市物流进行有效监督,实现一体化规划管理;(2)行业牵头搭建基于数据挖掘技术的行业物流资源共享平台,物流信息及先进技术得以共享,达到提高物流效率的目标;(3)互联网公司牵头搭建基于数据挖掘的大数据共享平台,将政府、企业及客户的信息全部整合,以实现大数据共享要求。

作者:张贵彬 单位:陕西科技大学镐京学院

参考文献

[1]朱扬勇.数据挖掘技术现状[J].中国传媒技术,2006,(12):11-14.

[2]张贵彬,吕纪荣,郭小艳.数据挖掘技术在物流企业信息共享中的应用[J].企业改革与管理,2016,(5X):58-59.

第6篇

数据挖掘技术在商品销售领域得到了越来越广泛的应用。商品销售者不仅明白搜集顾客数据的重要性,而且意识到真正的目的在于能够针对顾客提出科学的、前瞻性的商品销售方案。数据挖掘技术能有效地帮助商品销售工作者透过表面上无关联的顾客层数据,发现数据之间的内在有意义的联系,从而不仅能对顾客需求做出及时反应,还能对顾客需求进行有效的预测。

一、数据挖掘的基本原理

数据挖掘就是利用数学模型、统计和人工智能技术等方法,把一些高深、复杂的技术封装起来,使人们不用自己掌握这些技术也能完成同样的功能,因而可专注于自己所要解决的问题。数据挖掘按其功能可分为:描述性数据挖掘方法和预测性数据挖掘方法。

1描述性数据挖掘

在取得大量的数据之后,首先要对数据进行总结,也即数据的泛化;在泛化的基础上再对数据进行高层次的处理,包括数据的聚集、关联分析等。

(1)数据总结:数据总结的目的是对数据进行浓缩,给出它们的紧凑描述。数据泛化是一种将数据库中的有关数据从低层次抽象到高层次的过程。

(2)聚集:聚集的目的是要尽量缩小属于同一类别的个体之间的距离,而尽可能扩大不同类别个体间的距离。层次法、密度法、网格法、神经元网络和K-均值是比较常用的聚集算法。

(3)关联分析:关联分析是寻找数据的相关性。关联规则是寻找在同一个事件中出现的不同项的相关性,其核心是使用Apriori算法,找出事物的相应支持度和置信度,最后找到相应的关联规则。

2预测型数据挖掘

在预言模型中,把我们要预测的值或所属类别称为响应变量、依赖变量或目标变量;用于预测的输入变量是预测变量或独立变量。主要通过分类、回归分析、时间序列来建立预测模型。

二、商品销售领域数据挖掘的依据

在商品销售领域采用数据挖掘是商品销售发展到一定阶段的必然要求,它有助于提高商品销售效率,降低商品销售成本。其理论依据有消费者消费行为、细分市场理论、顾客关系、顾客数据库和直接商品销售。

在制定商品销售计划之前,商品销售者需要研究消费者市场和消费者行为。在分析消费者市场时,公司需要了解市场情况,购买对象,购买目的等因素。通过搜集顾客消费数据,采用数据挖掘技术,可以简洁、明了地得到这些信息。

三、商品销售中的数据挖掘过程

1商品销售目标理解

在进行数据挖掘之前,必须从商品销售角度去分析要达到的目标和需求,也即要分析什么商品销售问题,达到什么商品销售目标。首先对商品销售现状进行分析,找出存在的问题,并确定需要实现的营销目标,再将商品销售目标转换成数据挖掘目标,然后将这种知识转换成一种数据挖掘的问题定义,并设计一个达到目标的初步计划。

2数据理解

先搜集初步的数据,然后进行熟悉数据的各种活动,包括识别数据的质量问题,找到对数据的基本观察,或假设隐含的信息来检测感兴趣的数据子集。

3数据准备

首先进行数据抽样,从大量数据中筛选出一些相关的样板数据子集。通过对数据样本的精选,不仅能减少数据处理量,节省系统资源,使数据更加具有规律性。然后,进行数据探索,通常是所进行的对数据深入调查的过程,从样本数据集中找出规律和趋势,用聚类分析法区分类别,最终要达到的目的就是搞清多因素相互影响的复杂关系,发现因素之间的相关性。最后,需要对数据进行调整,通过上述两个步骤的操作,对数据的状态和趋势有了进一步的了解,这时要尽可能对解决问题的要求进行明确化和进一步的量化。

4建模

这一步是数据挖掘的核心环节。在建模阶段,可以选择和应用各种建模技术,并将其参数校正到优化值。通常,对同一个数据挖掘问题类型有几种可选用的技术。

第7篇

1数据挖掘技术

1.1数据挖掘相关技术数据挖掘相关技术介绍如下[6]:(1)决策树:在表示决策集合或分类时采用树形结构,在这一过程中发现规律并产生规则,找到数据库中有着最大信息量的字段,从而可建立起决策树的人工智能及识别技术。(2)聚类分析:聚类分析指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。(3)关联分析:关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、因果、关联或相关性结构。也可以说,关联分析是用来发现有关交易的数据库中不同商品(项)之间的联系。(4)神经网络方法:顾名思义,类似于生物的神经结构,由大量简单的神经元,通过非常丰富和完善的连接组成自适应的非线性动态系统,具有自适应、自组织、自学习、联想记忆、分布存储、大规模并行处理等功能。粗集方法:也就是在数据库里把行为对象列视为元素,将不同对象在某个(或多个)属性上取值相同定义为等价关系R。其等价类为满足R的对象组成的集合[5]。

1.2IBMSPSSModelerIBMSPSSModeler是一个数据挖掘工作台,用于帮助用户快速直观地构建预测模型,而无需进行编程。其精密的数据挖掘技术使用户能够对结果进行建模,了解哪些因素会对结果产生影响。它还能可提供数据挖掘相关的数据提取、转换、分析建模、评估、部署等全过程的功能[3]。通常,SPSSModeler将数据以一条条记录的形式读入,然后通过对数据进行一系列操作,最后将其发送至某个地方(可以是模型,或某种格式的数据输出)[3]。使用SPSSModeler处理数据的三个步骤:(1)将数据读入SPSSModeler;(2)通过一系列操纵运行数据;(3)将数据发送到目标位置。

2客户流失预测分析

2.1数据预处理数据预处理[6],将需要的客户投保数据按照业务预测分析的要求,将数据抽取到中间数据中,同时对数据清洗和转换,满足业务预测分析要求。每日凌晨调用存储过程将核心业务系统数据提取到中间数据库,寿险业务数据与其他数据一样,存在不安全和不一致时,数据清洗与转换可以帮助提升数据质量,进而提升数据挖掘进程的有效性和准确性。数据清洗主要包括:遗漏数据清洗,错误数据处理,垃圾数据处理[1]。

2.2数据选取数据预处理后,可以从中得到投保人的投保信息,包括投保人姓名,投保年龄(有效保单为当前年龄,无效保单为退保年龄),保费,投保年期,保单状态等。数据如图1所示。

2.3客户流失预测模型建立寿险业务按渠道来分可分为个人保险、团体保险、银行保险、网销保险、经代保险五类。由于团体保险在寿险公司发展比较缓慢,团险业务基本属于停滞阶段。结合寿险公司的营销特点,选定个人保单作为分析的对象,通过IBMSPSSModeler预测模型工具[3],使用决策树预测模型对客户流失进行预测分析。

2.4结果分析通过使用IBMSPSSModeler决策类预测模型分析某寿险公司2013年个人客户承保情况来看有以下规则:(1)投保年数在1年以内,首期保费在0~2000元或大于9997.130保费的客户比较容易流失。(2)保单终止保单中,女性客户较男性客户容易流失。(3)投保年数在2年以上,湖北及河北分支机构客户流失率比较容易流失。(4)分红寿险相对传统寿险,健康寿险的客户比较容易流失[1]。

3总结

本文在IBMSPSSModeler软件应用的基础上,根据现有的寿险业务数据信息,利用数据挖掘的决策树预测模型,对寿险进行流失规则的分析,比较全面的了解了寿险公司客户流失的原因,并建立客户流失的决策树预测模型,便于公司客户服务部对现有客户采取合适的措施防止客户流失,从而达到保留现有客户的目的。

作者:梁锋单位:北方工业大学计算机学院

第8篇

企业积累了大量的客户信息及资料,但是仍然缺乏对客户的数据、信息加以分析并增值利用的能力。无法有效地对客户潜在需求进行分析和分类,不能深入了解客户群体的特点及其需求的差异,制定出适合于不同客户群的营销、服务模式,并做出快速反应。

企业对客户的流失难以找到很好的管理策略,只了解到客户流失了,并没有全面掌握客户流失的原因、流失的方向和流失客户的构成;也难以对客户的流失采用很好的手段来加以控制和管理。潜在客户的开发上,如何从大量的客户信息中挖掘出潜在的忠诚客户,如何营销开发新客户?企业多么希望有一双慧眼,能洞察这些问题,从而在激烈的市场竞争中立于不败之地。

春秋战国时期,《鬼谷子》符言第十二就提到:“目贵明,耳贵聪,心贵智。以天下之目视者,则无不见;以天下之耳听者,则无不闻;以天下之心思虑者,则无不知”。如果能用全天下的眼睛去观察事物,这样就没有看不到的;如果能用全天下的耳朵去听,这样就没有听不到的;如果能用全天下的心去思考,这样就不会有什么不知道的。在信息封闭的古代,这仅仅是一个梦想。随着计算机技术和网络技术将人类带入信息社会,这一设想的实现逐渐成为可能。

如何综合利用这些数据、信息资源为企业管理服务,已经成为企业的新的核心竞争能力。而利用上述大量信息进行分析的主要的一项技术就是数据挖掘。

数据挖掘是上世纪八十年代人工智能转入实际应用时提出的。数据挖掘(Data Mining)是从大量的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。最大优点在于它以一种更自动化的方式对大量的商业数据进行分析和探索。根据分析内容的类型,对数据进行挖掘的称为数据挖掘,对网页内容、结构、web日志等进行挖掘的称为web挖掘,对文本信息进行挖掘的成为文本挖掘,对图像、视频、声音等进行挖掘的称为多媒体数据挖掘等。尽管挖掘的资料不同,但技术上都有相同之处。

数据挖掘技术包括三个主要部分:算法和技术、数据、建模能力。数据挖掘一般通过关联(association)、分类(classification)、聚类(clustering)、预测(prediction)、相随模式(Sequential patterns)和时间序列(similar time sequences)等手段实现。

关联是寻找某种事物发生时其他事物会发生的一种联系,比如发现啤酒和尿布经常被一起购买的例子;分类方法是确定所选数据与预先给定的类别之间的函数关系,通常用的数学模型有二值决策树神经网络,线性规划和数理统计;聚类是识别出事物之间内在的规则,按照这些规则把对象分成若干类;预测是把握分析对象发展的规律,对未来的趋势做出预见;相随模式和相似时间序列是分析事物间一种纵向的联系,分析预测事物发生后其它事物的发生模式。数据挖掘的各项功能互相联系。

数据挖掘经常采用的技术包括:

关联规则方法(Market Basket Analysis); MBR方法(Memory Based Reasoning); 聚集检测(Cluster Detection); 连接分析(Link Analysis);决策树和规则推理(Decision Trees and Rule Induction); 神经元网络(Artificial Neural Networks); 遗传算法(Genetic Algorithms); 多目标线性规划(MCLP)方法;支持向量机(SVM)方法等。

数据挖掘的实施过程分为如下步骤:

1.确定商业目标

清晰地定义出数据挖掘要服务的商业问题,认清数据挖掘的目的是数据挖掘的重要一步,挖掘的最后结果是不可预测的,但要探索的问题应是有预见的。

2.数据准备

1) 数据的选择

搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。

2) 数据的预处理

研究数据的质量,数据清洗,为进一步的分析做准备。并确定将要进行的挖掘操作的类型。

3) 数据的转换

针对挖掘算法、采用的软件工具,将数据转换成可用于建立模型分析的格式。整理良好的数据是数据挖掘成功的关键。

3.数据挖掘

对所得到的经过转换的数据进行挖掘,得到挖掘结果。

4.结果分析、评估与展示

图1 数据挖掘步骤

解释并评估结果。在所得模型中选取有意义的模型,并且将所得的知识用表格,图表等可视化其使用的分析方法一般应根据数据挖掘的结果形式和商业目标而定,通常会用到可视化技术。数据挖掘一般步骤的这几个环节可用图1表示。

5.知识的同化

将所得的模型、知识应用到实际管理决策中,集成到业务信息系统的组织结构中去。为商业活动中制定决策、措施服务。

近年来,数据挖掘在生物、金融、保险、医疗、零售等行业已在国外得到较为广泛的应用。

美国的许多商业银行,保险公司和证券公司在二十世纪九十年代开始将其数据库改造为数据仓库并从数据中挖掘和产生新的知识,这些新的知识可以被公司用来制定有效的商业战略去吸引新的顾客和维持已有的顾客,Mellon银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款等。

信用卡公司利用数据挖掘确定信誉不好或有潜在信誉风险的客户,规避信贷风险等。在保险业中,保险政策的制定者想知道什么样的保险费能吸引更多的顾客。数据挖掘可用来对个人,团体和企业等进行合理的分类,制定不同的费率,使得每一类顾客的保险费对双方(保险公司和顾客)都有利,这也是保险精算技术力求要解决的问题。由于保险的项目繁多,各公司争相运用数据挖掘的高招寻找合适各类顾客的价格和政策,其竞争相当激烈。通常竞争的成败很大程度上依赖于数据挖掘技术的开发深度和运用广度。

在医疗诊断方面,美国各大医院已开始对数据挖掘技术在医疗领域的运用进行研究。他们组织计算机数据挖掘人员与医疗人员共同攻关,希望通过数据挖掘技术的应用,实现计算机对个性化的病例的检测,并实现计算机对个性化病例治疗方案的预先选择。基于对各类疾病恶化(例如肿瘤或癌症扩散)案例的分析和总结,数据挖掘技术正用于寻找病症质变的关键点,以便为即将质变的病人提供及时的治疗方案。

加拿大某电话公司根据其拥有的十多年的客户数据,总结、分析并提出新的电话收费和管理办法,制定既有利于公司又有利于客户的优惠政策。美国著名的国家篮球队NBA的教练,利用数据挖掘工具临场决定替换队员。大约20个NBA球队使用了IBM公司开发的数据挖掘应用软件Advanced Scout系统来优化他们的战术组合。

目前市场上主要的数据挖掘通用软件有:SAS Enterprice Miner,SPSS Clementine,IBM Intelligent Miner,Oracle Darwin,Angoss KnowledgeSeeker,Cognos Scenario等。

通过数据挖掘,可以为企业理解客户、了解产品、改进业务流程时带来好处:

1、为客户的基础管理提供决策支持

首先,利用大量的历史消费数据挖掘各类客户的消费模式(消费特征),针对不同的消费模式,提出相应的服务策略。客户消费模式分析是企业更进一步了解客户的有力手段,是提供有针对性的特色服务的基础。其次,客户的细分问题一直是企业的一项工作重点,对大量客户信息进行有效的客户细分是制定个性化服务、一对一营销的工作基础,而制定有效的客户细分标准,也是对客户信息进行合理有效地管理和分析的前提条件。通过数据挖掘对客户分类信息进行规范化管理,可以为相关客户分析提供细分客户的标准。按照一定的标准将客户进行分类,识别出每一类客户的基本消费特点。

另外,分析和预测不同客户在不同业务上的消费潜力,为有针对性地制定合理的营销、促销和服务策略提供依据。

2.提高个性化服务,预防客户流失

对一定时间范围内所有客户或某类客户的消费产品构成进行统计分析,从总体和不同种类产品以及不同种类的客户群等角度分析客户的特点(如数量、比例、客户结构等),了解客户的潜在需求,通过挖掘分析客户的流失情况,了解客户流失的原因和流失客户的属性特点等,识别客户群,建立客户流失预警模型。在此基础上建立提高客户忠诚度的客户保留管理体系。

3、为产品分析与研发提供决策支持

分析对不同类别的客户群而言各种产品之间以及客户消费行为之间的关联情况。从不同的客户类型和不同地区来分析各种产品之间的相关性,从而为营销决策和交叉销售提供策略上的依据。做产品与客户的关联分析,分析用户和各类产品之间的相关性,分析哪类产品适合某特定消费模式的用户;从总体和不同种类客户群等角度分析每种产品的消费特点和发展趋势以及对新产品的潜力进行预测,了解各种产品的发展趋势,为企业进一步的产品拓展提供依据。

4、营销模式分析

分析企业对客户的各种营销模式(广告、现场促销、WEB/EMAIL 营销、代销、批销、折扣优惠、促进销售、捆绑销售等)及其各自特点,并分析每种营销模式如何与适当的客户群在适当的时间、地点相结合。从而根据不同客户类型,有针对性地开展个性化的营销行动。

第9篇

本文首先对大数据时代的特点进行了介绍,其次对常用的数据挖掘方法进行了阐述,最后提出了展望。

【关键词】大数据 数据挖掘 分类 聚类

大数据(Big Data),也称为海量数据,是随着计算机技术及互联网技术的高速发展而产生的独特数据现象。现代社会正以不可想象的速度产生大量数据,如网络访问,微博微信,视频图片,手机通信,网上购物……等等都在不断产生大量的数据。如何更好的利用和分析产生的数据,从而为人类使用,这是非常重要的科学研究。在大数据时代,更好的利用云计算以及数据挖掘,显得尤为重要。

1 大数据的概念

大数据,是指无法在一定时间内用常规机器和软硬件对其进行感知、获取、管理、处理和服务的数据集合。IBM将大数据的特点总结为三个V,即大量化(Volume)、多样化(Variety)和快速化(Velocity)。

即产生的数据容量大。数据主要来源如:E-mail、搜索引擎的搜索、图片、音频、视频、社交网站、微博微信、各种应用软件和app、电子商务以及电子通信等等。在实际生活中,电子商务的购物平台数量和种类越来越多,社交网站的典型facebook的数据量大的惊人,以PB计量都不够。数据存储的单位不仅仅是MB、GB等,而是使用了表示更大容量的TB、PB、EB、ZB和YB等,每个单位的关系为后者是前者的1024倍,如1PB=1024TB。同时大数据的增长速度是越来越快,如手机相机的像素数随着新款手机的出现而成倍的增长。

1.2 多样化

从数据组织形式的角度将数据分为结构化数据和非结构化数据。结构化数据,具有一定的规律,可以使用二维表结构来表示,并存储在数据库中,如高校的教务管理系统的数据、银行交易产生的数据。而非结构化数据是无法通过预先定义的数据模型表达并存储在数据库中的数据,如声音、视频和图片等等。当前非结构化数据的增长速度远远超过结构化数据。

1.3 快速化

在当前商业竞争激烈的时代,对实时的数据进行分析和处理,挖掘有用的数据信息,并用于商业运作,对于企业和组织来说非常重要。如现在网络购物会依据多数人的购物组合,分析出大部分人在购买一件物品的同时会同时购买其他的物品,从而在购物选择时给予方便,提高网购的效率,提高效益。

随着互联网技术和计算机技术的快速发展,在产生大数据的同时,人们要能够对这些数据加以利用,得到有用的信息,才是最重要的。为了让海量规模的数据能够真正发挥巨大的作用,需要将这些数据转换为有用的信息和知识,即从传统的数据统计向数据挖掘和分析进行转换。比如沃尔玛超市能够从男人购物时买啤酒的同时会购买小孩的纸尿裤这种关联,并在实际物品摆放时将这两种物品放置在一起,方便用户购物。

2 数据挖掘

随着信息技术应用的广泛,大量的数据产生并存储各个领域的信息系统中,数据呈现了爆炸式的增长。数据挖掘在这种“数据爆炸,知识匮乏”的情况下出现的。数据挖掘(Data mining)是一个多学科交叉的研究领域,它融合了数据库技术、机器学习、人工智能、知识工程和统计学等学科领域。数据挖掘在很多领域尤其是电信、银行、交通、保险和零售等商业领域得到广泛的应用。

数据挖掘也称为从数据中发现知识,具体来讲就是从大规模海量数据中抽取人们所感兴趣的非平凡的、隐含的、事先未知的和具有潜在用途的模式或者知识。

3 数据挖掘的主要研究内容

数据挖掘的任务是发现隐藏在数据中的模式,其模式分为两大类:描述型模式和预测型模式。描述型模式是对当前数据中存在的事实做规范描述,刻画当前数据的一般特性。预测型模式则是以时间为主要关键参数,对于时间序列型数据,根据其历史和当前的值去预测其未来的值。常使用的算法有:

3.1 聚类分析

聚类是将数据划分成群组的过程,根据数量本身的自然分布性质,数据变量之间存在的程度不同的相似性(亲疏关系),按照一定的准则将最相似的数据聚集成簇。主要包括划分聚类算法,层次聚类算法和密度聚类算法等。经典算法有K-Means、K-Medoids。

3.2 特性选择

特性选择是指为特定的应用在不失去数据原有价值的基础上选择最小的属性子集,去除不相关和冗余的属性。特性选择用于在建立分类模型前,或者预测模型之前,对原始数据库进行预处理。常用的算法有最小描述长度法。

3.3 特征抽取

特征抽取式数据挖掘技术的常用方法,是一个属性降维的过程,实际为变换属性,经变换了的属性或者特性,是原来属性集的线性合并,出现更小更精的一组属性。常用算法如主成分分析法、因子分析法和非负矩阵因子法等。

3.4 关联规则

关联规则挖掘是数据挖掘领域中研究最为广泛和和活跃的方法之一。最初的研究动机是针对购物篮分析问题提出的,目的是为了解决发现交易数据库中不同商品之间的联系规则。关联规则是指大量数据中项集之间的有趣关联或相关关系。常用的算法有Apriori算法。

3.5 分类和预测

分类是应用已知的一些属性数据去推测一个未知的离散型的属性数据,而这个被推测的属性数据的可取值是预先定义的。要很好的实现推测,需要事先定义一个分类模型。可用于分类的算法有决策树、朴素贝叶斯分类、神经网络、logistic回归和支持向量机等。

4 结论

随着时代的进步,数据也发生变化,具有各种各样的复杂形式。很多研究机构和个人在对结构化数据进行数据挖掘的同时,也展开了对空间数据、多媒体数据、时序数据和序列数据、文本和Web等数据进行数据挖掘和分析。同时大数据的发展促进了云计算的产生,基于云计算的数据挖掘也在迅速崛起。

参考文献

[1]刘军.大数据处理[M].北京:人民邮电出版社,2013(09).

[2]王元卓等.网络大数据:现状与展望[J].计算机学报,2013(06).

[3]申彦.大规模数据集高效数据挖掘算法研究[D].江苏大学,2013(06).

[4](加)洪松林.数据挖掘技术与工程实践[M].北京:机械工业出版社,2014.

[5]贺瑶等.基于云计算的海量数据挖掘研究[J].计算机技术与发展,2013(02).

作者简介

许凡(1996-),男,江苏省南京市人。现就读三江学院计算机科学与工程学院计算机软件工程专业本科。

孙勤红(1979-),女,山东省临沂市人。硕士研究生学历。现为三江学院计算机科学与工程学院讲师、指导教师。主要研究领域为数据挖掘。

第10篇

关键词:博客;Blog;Web;数据挖掘;算法;热点话题挖掘;现状

中图分类号:TP392 文献标识码:A 文章编号:1009-3044(2013)12-2771-03

1 博客简介

因特网(Internet)和万维网(WWW)的出现,改变了人们的工作方式和生活方式。个人网站、论坛(BBS)等给了人们自由发表信息的途径,而博客(Blog)的出现,使人们更加方便的展示自我。由于具有开放、简便易用的特点,使博客具有独特的魅力,使用博客的用户越来越多。

1.1 博客的定义

博客的英文名字Blog,来源于Web Log这个名称。博客源于RSS技术,作者以日志风格信息,读者以评论方式与作者互动,是一种自由、简单易用的信息传播和互动方式。

一个博客文章就是一个网页,博客作者可以对文章分类。这些文章都按照发表日期的倒序排列,最新的文章在网页最上面显示。博客的内容和题材,在合乎法律的要求下相当广泛,可以是新闻、时事评论、个人生活体验、购物信息、专业技术技巧、学术知识、照片、小说、产品等,有个人博客、公司博客、组织博客等。

1.2 博客的现状

据估计,目前全球的博客运营网站有数十万个,有数亿人使用博客。博客已经成为个人、企业、组织、团队之间常用的沟通工具。2002年,中国大陆开始有了博客服务网站。现在中国大陆已经有大量的博客服务网站,发展迅速。截止到2013年4月,新浪博客服务网站点击数最高的个人博客已经超过了21亿次点击,排在第二、第三的个人博客的点击数均超过10亿次,排在第100名的博客的点击数也高达6千5百万(来自新浪博客总流量排行)。中国互联网信息中心(CNNIC)统计显示,截止到2012年底,我国拥有博客(个人空间)的网民有3.73亿,占网民总数的66.1%[1]。从市场份额看,典型的博客网站有:QQ空间、新浪博客、博客大巴、搜狐博客、和讯博客、博客园、CSDN博客、博客网、网易博客、凤凰博客、中国博客、天涯博客、百度空间等。

2 博客资源挖掘

近几年来,由于博客的快速发展,国内外很多科研人员开始对博客进行研究,获得了丰富的研究成果。目前的研究主要集中在对博客内容进行挖掘、检索等方面。

2.1 国外对博客资源挖掘的研究

IBM的D.Gruhl、R.Guha、D.Liben-Nowell和A. Tomkins从宏观、微观两个层次上研究了博客网站里的主题传播特征和博客用户之间的交互特征,通过数学模型抽取出博客网站里可以表示新主题的关键词,并对不同时期的关键词进行分析,得出一些传播特征[2]。日本的I.Ohmukai、H.Takeda、K.Numa等人利用语义网搜索技术建立一个更加方便发表博客的“语义博客系统”,并对信息的收集和发表的不同层次做了详尽的分析[3]。HP实验室的E.Adar、L.Zhang对博客网站里的信息传播进行分类,设计出可视化的工具软件来动态显示不同博客之间的互相链接,并提出了一种新的Rank搜索算法[4]。

博客上的信息是网络信息的一种,但它又有自己的特点,对博客进行研究,首先需要能够识别博客信息。东京工业大学的T. Nanno、T. Fujiki、Y. Suzuki、M. Okumura等学者提出了基于对日期表示和对HTML文档的分析来自动收集、监控、挖掘博客(Blog)的方法[5]。马里兰大学的Kolari P、Finin T、Joshi A等学者提出了基于向量空间模型(SVM)的博客识别和发现的方法,去掉了较好的效果[6]。博客与传统的个人网页或网络日记不完全相同,T. Fujiki、T. Nanno、M. Okumura等学者通过对自动提取的热点关键词的分类、比较,区别出了博客和个人网站、网络日记的差异[7]。

2.2 国内对博客资源的研究

在博客识别方面的研究,国内已经出现比较可靠的方法或算法。哈尔滨工业大学的张迪通过比较博客网页和普通的Web网页,提取出博客网页的特征,从网络爬虫下载得到的网页中识别出博客网页来,并且作者还对博客网页相关内容进行了抽取[8]。重庆大学的张程、陈自郁等人针对当前因特网上大量出现的博客网页,通过分析博客网页的结构特点、技术特征,结合网页DOM节点特性,提出了基于DOM树分析和模式匹配的博客网页自动识别算法,并通过实验对该算法进行了验证[9]。河南大学的李旻提出了博客综合特征空间的概念,并且详细论述了该空间中三大类共五种博客特征的概念、定义和抽取方法。研究了网页的形式化表示方法,分析了特征项的提取、选择及权重计算的整个过程,在这基础上设计出了基于标签信息的TF-IDF算法及标签权重调整方案。最后提出一种基于综合特征空间的博客网页识别算法,并将该算法运用到基于页面布局特征的博客网页识别阶段和基于文本内容特征的博客网页识别阶段[10]。哈尔滨工业大学的杨宇航、赵铁军、郑德权、于浩提出了一种基于链接分析的对博客信息源进行量化评估的方法,在这个基础上发现重要的博客信息源,既体现了博客信息的特点,又减少了作弊链接对结果的影响。作者用设计的博客信息源重要性评价指标进行评估,证明了该评估方法的有效性[11-12]。

对博客作者的个人信息进行挖掘是博客数据挖掘的一个方面。上海交通大学的倪晓川通过挖掘博客网页的内容来获得博客作者的个人信息,构建博客作者的兴趣集合,为此,他提出了一种采用文本分类技术的自动挖掘博客作者兴趣的方法。该方法使用多分类器连合的技术来提高分类的精度和挖掘结果的可靠性,并且使用自上而下的层次分类方法,挖掘出更具体的博客作者的兴趣,而且兴趣可以用层次结构的形式展现。在此基础上作者还提出了对博客作者、博客文章进行情感型和信息型判定的问题,作者将该问题看作是一个文本分类问题,可以采用文本分类技术解决这个问题[13]。

博客球是包含所有博客的虚拟社区或社交网络的集合名词,可以把它看成是一个超大型的原始数据库。西南石油大学的季文韬通过搭建博客球数据库集群环境,建立了一个大型的博客球矩阵,通过分析博客网页中的各个指标在矩阵中的权重从而确定矩阵元素。由于博客文章往往是个人所发,缺乏规范、约束,导致博客信息中存在不少噪音数据。于是作者采用奇异值分解(SVD)技术来对文本向量矩阵进行降噪,除去噪音数据,并利用k-Means聚类算法对降噪后的数据信息进行聚类分析,从中发现有价值的信息[14]。在论文中,作者通过分析、对比实验结果,找出有效的博客球聚类方法。

哈尔滨工业大学的轩文烽针对现有的博客关键词抽取算法依赖于外部资源和具体的文本格式这个问题,提出了一种基于主题模型LDA(Latent Dirichlet Allocation)的博客文章关键词抽取算法,并通过与TF-IDF(Term Frequency–Inverse Document Frequency)和层次隐马尔科夫模型(Hierarchical Hidden Markov Model,HHMM)的对比实验,对该算法的有效性进行了检验,最后运用皮尔逊相关系数从关键词权重与其词频之间的线性相关程度这一角度分析了该算法优越性的原因。另外,作者通过比较、分析四种典型聚类算法K-means、K-means++、Markov Cluster、和Affinity Propagation,筛选出更适合博客关键词抽取的算法Markov Cluster;以此为基础,设计了一个用于对博客文章进行主题聚类的算法,该算法能自动对聚类结果进行描述。作者还在传统链接分析的基础上,结合博客网页的关键特征,提出一种融合了用户评论和正文相似性信息的博客文章排序算法[15]。

3 博客领域热点话题挖掘

作为互联网的一种应用,博客已经出现了较长时间,但是对博客领域的热点话题挖掘并不是很多。

通常我们所理解的新闻热点话题,一般都是通过该话题新闻报道的数量来表示。比如一个事件发生以后,很多媒体都对该事件进行了报道,那么这个事件可以被认为是热点事件,关于这个事件的所有媒体的相关报道组成了一个热点话题。但是对于博客上的热点话题,则与新闻报道的热点话题不同。因为博客文章是个人所发,一般情况下,不会出现象新闻热点话题那样有大量媒体进行报道的情况,所以,我们判断博客网站上的热点话题,主要是依据博客文章的阅读数量、评论数量、收藏或转载数量及时间等[16]。

运用热点话题检测与跟踪技术,将大量的博客信息按照话题进行归类和分组,对用户感兴趣的某些特定话题进行跟踪,实现个性化的服务,取代人工以简明、概要的方式呈现给用户[17]。这种技术可以使用户在动态变化的互联网环境下找到自己需要的信息,使博客信息更有价值,更加准确、有效地为用户使用。

传统的博客热点话题发现主要是根据阅读数量、评论数量等来得到的,并没有考虑话题内容和评论内容[16]。为此,大连理工大学的时达明、林鸿飞提出了一种基于内容相关度和语义分析的博客热点话题检测方法。该方法在考虑了评论数量的同时,还通过分析评论内容与话题内容的相关度并分析评论中的语义来计算话题在该博客中的热度,最终完成该博客的热点话题发现[18]。实验表明,他们使用的方法是有效的。

华南理工大学的胡方涛在对网络爬虫进行了一定的分析研究之后,通过已有的聚类算法将采集下来的博客数据聚类,形成话题。然后根据博客数据的特有属性,提取出博客话题排序特征,最后通过热点话题计算公式算出每个话题的热度值,发现其中的热点话题。对于热度较高的话题,通过计算评论的情感来进行话题支持度的分析[19]。热点话题支持度的分析能够使得网民在了解该热点话题的同时,还能了解民众对该热点话题所持的一种情感态度。

4 结束语

本文探讨了博客资源数据挖掘、面向博客的热点话题挖掘的研究现状。博客数据挖掘是Web数据挖掘的一种具体应用。虽然有不少研究者对博客数据挖掘进行了研究,但从整体上看,与Web数据挖掘比较,对面向博客的数据挖掘的研究还是很少。笔者以博客(或Blog)加挖掘作为篇名关键词在知网上搜索,截止到2013年4月,只搜索到28篇文献,而以Web(或网络)加挖掘作为篇名关键词进行搜索,搜索到了4057篇文献。关于博客挖掘的文献只占Web挖掘文献的0.69%。这与我国3.73亿网民拥有博客、个人博客网站有21亿的点击数这样的博客使用现状显然不符。对博客数据挖掘,还有很大的研究空间。

参考文献:

[1] 中国互联网络信息中心(CNNIC).第31次中国互联网络发展状况统计报告[EB/OL]. http://.cn/hlwfzyj/hlwxzbg/hlwtjbg/201301/P020130122600399530412.pdf.

[2] Gruhl D, Guha R, Liben-Nowell D,Tomkins A.Information Diffusion through Blogspace[C].ACM WWW, 2004.

[3] Ohmukai I, Takeda H, Numa K.Personal Knowledge Publishing Suite with Weblog, Workshop on the Weblogging Ecosystem[C].Aggregation,Analysis and Dynamics,2004.

[4] Adar E,Zhang L.Implicit Structure and the Dynamics of Blogspace, Workshop on the Weblogging Ecosystem at the 13th International World Wide Web Conference[C].New York,2004.

[5] Nanno T, Fujiki TSuzuki,YOkumura M.Automatically Collection, Monitoring, and Mining Japanese Weblogs[C].WWW,2004.

[6] Kolari P, Finin T, Joshi A. SVMs for the blogosphere: Blog identification and splog detection. In: Proc. of the AAAI Spring Symp. on Computational Approaches to Analyzing Weblogs[C].California: AAAI Press,2006:92-99.

[7] T. Fujiki, T. Nanno, M. Okumura. Differences between Blogs and Web Diaries[C]. WWW2005, Chiba, Japan, 2005,5: 10-14.

[8] 张迪.中文Blog网页识别与内容抽取研究[D].哈尔滨:哈尔滨工业大学,2007.

[9] 张程,陈自郁,古平, 等.基于DOM树结构的Blog网页自动识别[J].计算机应用研究,2008(5):1489-1491.

[10] 李旻.基于综合特征空间的Blog网页识别方法研究[D].开封:河南大学,2009.

[11] 杨宇航,赵铁军,郑德权,等.基于链接分析的重要Blog信息源发现[J].中文信息学报,2007,21(5):68-72.

[12] 杨宇航,赵铁军,郑德权,等.基于链接分析的重要Blog信息源发现[A].孙茂松,陈群秀.内容计算的研究与应用前沿——第九届全国计算语言学学术会议论文集[C].北京:清华大学出版社,2007.

[13] 倪晓川.博客作者兴趣挖掘与博客信息、情感分析的研究[D].上海:上海交通大学,2008.

[14] 季文韬.基于数据挖掘的博客球聚类研究[D].成都:西南石油大学,2011.

[15] 轩文烽.面向主题的博客资源挖掘关键技术研究[D].哈尔滨:哈尔滨工业大学,2011.

[16] 刘旭.博客热点话题挖掘方法[D].哈尔滨:哈尔滨工业大学,2010.

[17] 丁伟莉.中文Blog热门话题检测与跟踪技术研究[D].哈尔滨:哈尔滨工业大学,2007.

第11篇

[关键词] 数据流 数据流挖掘 模型 算法

近年来,随着计算机技术和通信网络技术的蓬勃发展,由于众多应用领域的需求,数据流处理问题,特别是基于数据流的挖掘问题已受到越来越多的研究人员关注。

一、数据流以及数据流挖掘

1.数据流。数据流由一系列按序到达的数据组成,也可看作是信息传输过程中经编码处理的数字信号串。若令t表示任一时间戳,at表示在t时刻到达的数据元素,则数据流可以表示为无限集合{…,at-1,,at,at+1,…}。

2.数据流挖掘。数据流挖掘就是在数据流上发现提取隐含在其中的。人们事先不知道的,但又潜在有用的信息和知识的过程。流数据挖掘方面的研究主要包括多数据流挖掘和单数据流挖掘,挖掘多条数据流的主要目的是分析多条并行到达的数据流之间的关联,对单数据流的挖掘则涵盖了分类、频繁模式挖掘、聚类等多项传统数据挖掘中的主要任务,挖掘变化的数据流是一项特殊的任务,目前主要是以单数据流为对象进行研究的。

二、数据流挖掘的模型

按算法处理数据流时所选取的时序范围,数据流模型可分为以下几类。

1.快照模型:处理数据的范围限制在两个预定义的时间戳之间。

2.界标模型:处理数据的范围从某一个已知的初始时间点到当前时间点为止。

3.滑动窗口模型:处理数据的范围由某个固定大小的滑动窗口确定,此滑动窗口的终点永远为当前时刻,其中,滑动窗口的大小可以由一个时间区间定义,也可以由窗口所包含的数据项数目定义。

典型的数据流挖掘模型如图所示。

三、数据流挖掘算法

目前数据流挖掘方面的研究成果主要集中在数据流的聚类、分类和频繁模式挖掘方面。

1.数据流分类算法。数据流分类就是提出一个分类模型(或函数),并通过单遍扫描数据流,持续地利用分类模型将数据对象(数据流的数据点或元组等)映射到某一个给定的类别中。P.Domingos 和 G..Hulten他们提出了一种Hoeffding决策树分类算法VFDT(Very Fast Decision Tree),使用恒定的内存大小和时间处理每个样本,有效地解决了时间、内存和样本对数据挖掘,特别是高速数据流上的数据挖掘的限制。VFDT使用信息熵选择属性,通过建立Hoeffding树来进行决策支持,并使用 Hoeffding 约束来保证高精度地处理高速数据流。

由于VFDT算法假设数据是从静态分布中随机获取的,所以不能反映数据随时间变化的趋势。因此,P.Domingos和G..Hulten引入了滑动窗口技术,对VFDT算法进行改进,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的优点外,增加了对数据产生过程中变化趋势的检测和响应,使得算法更好地适应对高速时变流数据的分类。

2.数据流聚类算法。流数据本身所具有的特征使得传统的聚类算法不可能直接应用于(甚至不能应用于)流数据聚类, 数据流聚类算法就是通过单遍扫描数据流,持续地将数据流数据对象(数据点、元组等)分组成多个类或簇,在同一个簇中的数据对象之间具有较高的相似度,而不同簇间的数据对象的相似度很小。近年来,学者们提出的应用于大规模数据集的一趟聚类算法,如Squeezer算法和BIRCH算法,也可以应用于某些数据流问题,也有学者提出了针对流数据的聚类算法,典型的有STREAM算法和CluStream算法。

3.数据流频繁模式挖掘算法。数据流频繁模式挖掘就是单遍扫描数据流,来连续地发现其中的频繁项集。频繁项集是满足最小支持度的项集(Itemset)。对于数据流上的频繁项集挖掘的研究方法大多数都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用倾斜时间窗口技术来维护频繁模式以解决时间敏感问题,研究了在数据流中构造、维护和更新 FP-stream 结构的有效算法,提出了计算和维护所有频率模式并动态更新它们。建立一个框架来挖掘带近似支持度的时间敏感模式,为每个模式在多时间粒度上增量维护一个倾斜时间窗口,在这种框架下可以构建和回答感兴趣的查询。

四、结语

由于数据流具有独特的性质,对其进行挖掘是一个挑战性的问题,当前的有关算法的研究有很多是在传统的增量式挖掘技术基础之上发展而来的,探索数据流挖掘技术与传统的静态数据挖掘技术之间的本质区别,提出更有效、新颖、快速挖掘算法是当前研究面临的重要问题。

参考文献:

[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342

[2]金澈清 钱卫宁 周傲英:流数据分析与管理综述.软件学报,2004,15(8):1172~1181

第12篇

近些年来,信息科技和网络的通信技术已经得到了飞速的发展,并且全国的信息基础设施也得到了完善,在全球的数据已经呈现出了极速增长的模式状态。在此种情况下,传统的数据处理方式已经满足不了现代化的处理需求,因此需要利用大数据的自动分析和数据挖掘来实现对数据的有效分享和利用。大数据科学已经成为了一个横跨信息科学、社会科学以及网络科学的新型交叉学科,受到了学术界的广泛关注。

一、遥感大数据的概述以及特征

在现代社会当中,遥感大数据已经成为了大数据的重要代表,成为了科学研究方面的重点研究方面,但是在现阶段当中还需要对其科学理论和方式进行不断的深入研究。遥感大数据具有大数据的特征,并且也具有自身独特的特征。在外部特征方面,首先具有海量的特征。遥感大数据的数据具有海量的特点,并且对着遥感技术的不断发展,在现阶段当中的高分辨率和高动态的新型卫星传感器在单位时间之内可以捕获到更多的数据量;其次还具有数据异构的特点,也就是说在数据生产过程当中所依赖到的业务系统之间会呈现出的不同状态,都需要由不同的数据中心来进行提供的,并且在逻辑结构或者组织方式上也呈现出了不同的特点;另外,还具有数据多源的特点,集中体现在数据的来源和捕获信息的手段方面,是可以拥有多种获取形式的,包括全球的观察网络点接收到的实时信息,以及民众手中的用户端的个性化信息。在内部特征方面,首先具有高维度性的特点,遥感大数据的数据类型呈现出了多样化的特点,因此数据当中的维度也变得越来越高,集中体现在了空间维度、时间维度以及光谱维度等。其次还具有多尺度性的特点,成为了遥感大数据的重要特点,也就是说在进行数据的获取过程当中,可以根据不同的遥感技术和相对应的技术水平,来进行有效的划分,在空间和时间上呈现出多尺度的特点。另外,还具有非平稳性的特点,由于遥感大数据广泛的获取方式和物理意义,在信息理论的角度上来说,就属于典型的非平稳信号,呈现出分布参数或者规律随时发生变化的特点。

二、遥感大数据的自动分析和数据挖掘

2.1 自动分析。首先,需要对遥感大数据的表达进行了解,在这个过程当中需要抽取多元化的特征来进行表示,从而建立起遥感大数据的目标一体化,在研究过程当中主要包括对遥感大数据的多元离散特征的有效提取,形成在不同的传感器当中的提取方式和方法。还要对若干大数据的多元特征进行归一化的表达,从而提升对大数据的处理能力和处理效率。其次就需要对遥感大数据进行相关的检索,在检索过程当中,需要利用网络化和集成化的方式进行检索,制定出基础设施的计划,提升对其数据的访问和检索效率。并且针对海量的遥感大数据来会说,需要检索出符合用户需求和感兴趣的内容和数据,就需要对数据内容进行比对,从而判断出用户所需要的内容,从大量的数据当中进行快速的检索到目标。在检索的过程当中,发展知识驱动的遥感大数据的检索方式是最有效的方式之一,可以分为场景检索服务、多源海量复杂场景数据的智能检索以及信息数据的检索等。另外,就是对遥感大数据的理解的,通过遥感大数据的科学,可以实现数据向知识的有效转变,在这个过程当中就需要根据遥感大数据本身的特征和数据检索的方式来对数据内容实现有效的提取。最后就是遥感大数据云的技术,可以将各种方式的遥感信息资源进行有效的整合,建立起遥感云服务的相关新型业务应用和服务模式,可以将在天空当中的传感器所捕捉到的信息通过软件的计算和整合来实现数据资源的有效存储和处理,从而使得用户可以在很快的时间之内获取到有效的服务。

2.2 数据挖掘。首先需要对遥感大数据的数据挖掘过程进行了解,包括数据的获取、存储以及处理和整合等,在整个过程当中都具有大数据的特点。在进行捕获数据的过程当中可以从各种不同的传感器当中进行获取,然后对数据进行采样和过滤,之后就可以对采集到的数据进行处理和分析,最后将其数据用可视化的模式进行显示,方便了客户的使用和利用。其次,就是遥感大数据和广义的遥感大数据的综合挖掘的过程,利用此种方式,一方面可以与其他的数据方式形成良好的互补关系,另外一方面也可以对其数据当中的变化规律以及其他信息进行更好的挖掘和采集。在广义的遥感时空大数据当中,存储的费用是相当昂贵的,并且在数据的分析能力方面也存在严重不足的现象,因此在现代社会的智慧城市的建设过程当中发挥不了其巨大的作用,因此需要利用其他自动化的数据智能处理和挖掘的方式来对其空间地理分布的数据进行全新的挖掘和过滤。在时空分布的视频数据挖掘过程当中,在对智能数据进行处理和信息提取的同时,还要通过时空当中所分布的视频数据进行自动化的区分,来有效的区分正常和非正常的状态。在对时空数据的挖掘过程当中,主要可以从时空数据当中进行提取出隐藏的有用的信息知识,利用各种综合性的方式和方法,比如统计法、聚类法、归纳法以及云理论等。在遥感大数据的挖掘应用方面,可以适用于地球各种尺度和方位的变化,还可以在很大程度上对未知的信息进行良好的筛选和挖掘,推动国家的科学技术的发展,实现社会的可持续化发展。

综上所述,在不断的发展过程当中,我国的遥感数据的种类和数量将呈现出飞速增长的模式,在很多方面以及领域当中已经开展了遥感大数据的研究工作。值得注意的是,现阶段当中需要将遥感大数据的理论知识进行实践化的转变,从而实现遥感大数据的自动分析和数据挖掘功能,推动科学信息的不断进步。

作者:李安安

参考文献

[1]宋维静,刘鹏,王力哲,等.遥感大数据的智能处理:现状与挑战[J].工程研究-跨学科视野中的工程,2014,(3):259-265.