HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据挖掘技术研究

数据挖掘技术研究

时间:2022-09-07 10:10:47

数据挖掘技术研究

第1篇

关键词:数据挖掘;应用;发展

1数据挖掘技术的概述

数据挖掘是通过对各种数据信息进行有选择的统计、归类以及分析等挖掘隐含的有用的信息,从而为实践应用提出有用的决策信息的过程。通俗的说数据挖掘就是一种借助于多种数据分析工具在海量的数据信息中挖掘模数据信息和模型之间关系的技术总裁,通过对这种模型进行认识和理解,分析它们的对应关系,以此来指导各行各业的生产和发展,提供重大决策上的支持。数据挖掘技术是对海量数据信息的统计、分析等因此数据挖掘技术呈现以下特点:一是数据挖掘技术主要是借助各种其它专业学科的知识,从而建立挖掘模型,设计相应的模型算法,从而找出其中的潜在规律等,揭示其中的内在联系性;二是数据挖掘主要是处理各行数据库中的信息,因此这些信息是经过预处理的;三是以构建数据模型的方式服务于实践应用。当然数据挖掘并不是以发现数据理论为目的,而是为了在各行各业的信息中找出有用的数据信息,满足用户的需求。

2数据挖掘的功能

结合数据挖掘技术的概述,数据挖掘主要具体以下功能:一是自动预测趋势和行为。数据挖掘主要是在复杂的数据库中寻找自己有用的信息,以往的信息搜索需要采取手工分析的方式,如今通过数据挖掘可以快速的将符合数据本身的数据找出来;二是关联分析。关联性就是事物之间存在某种的联系性,这种事物必须要在两种以上,数据关联是在复杂的数据中存在一类重要的可被发现的知识;三是概念描述。概念描述分为特征性描述和区别性描述;四是偏差检测。

3数据挖掘技术的步骤分析

3.1处理过程

数据挖掘虽然能够实现在复杂的数据库中寻求自己的数据资源,但是其需要建立人工模型,根据人工模型实现对数据的统计、分析以及利用等。

3.2关键技术

由于数据挖掘涉及到很多专业学科,因此相对来说,数据挖掘技术融合多门专业技术学科的知识,结合实践,数据挖掘技术主要应用到以下算法和模型:一是传统统计方法。采取传统的统计方法主要有抽样技术,也就是采取相应的策略对数据进行合理的抽样。多元化统计和统计预测方法;二是可视化技术,可视化技术是数据挖掘技术的热点,它是采取可视化技术与数据挖掘过程的结合,以直观的图形等使人们更好地进行数据挖掘技术;三是决策树。决策树需要对数据库进行几遍的扫描之后,才能完成,因此其在具体的处理过程中可能会包括很多的预测变量情况;四是4)聚类分析方法。聚类分析方法是一种非参数分析方法,主要用于分析样本分组中多维数据点间的差异和联系。判别分析法需要预先设定一个指针变量,假设总体为正太分布,必须严格遵守数理依据。而聚类分析则没有这些假设和原则,只需要通过搜集数据和转换成相似矩阵两个步骤,就能完成聚类分析的全过程。聚类分析主要用于获取数据的分布情况,能够简单方便的发现全局的分布模式,识别出密集和系数区域;此外,对于单个类的分析也有很强的处理能力,能深入分析每个类的特征,并找出变量和类之间的内在联系。基于距离、层次、密度和网络的方法是最常用的聚类分析方法。

4数据挖掘技术的实践应用

数据挖掘技术虽然在我国发展的时间还不长,但是其在实践中的应用已经非常的广泛,因为数据挖掘技术在实践中的应用价值是非常大的,其可以提取隐藏在数据背后的有用信息,具体来看,其主要应用在:(1)在医学上的应用。人体的奥秘是无穷无尽的,人类遗传密码的信息、人类疾病史和治疗方法等,都隐含了大量数据信息。采用数据挖掘来解决这些问题,将给相关工作者的工作带来很大方便。此外,医院内部医药器具的管理、病人档案资料的整理、医院内部结构的管理等,也是庞大的数据库。将数据挖掘技术应用于医学领域,深入分析人类疾病间的内在联系和规律,帮助医生进行诊断和治疗,能够有效提高医生诊断的准确率,对人类的健康和医疗事业的发展有十分重要的作用。(2)在电信业中的应用。随着三网融合技术的不断发展,传统的电信业务已经不能满足当前社会发展的需求,而是侧重通信、图像以及网络等业务的融合,而实现“三网融合”的关键技术是实现对数据的分析与统计,因为三网融合会带来更多的数据,这些数据都需要充分的挖掘,以此实现“三网融合”战略的实现。将数据挖掘技术与电信业务有效的结合起来,能够提高资源利用率,更深入的了解用户的行为,促进电信业务的推广,帮助各行各业获取更大的经济效益。(3)在高校贫困生管理的应用。贫困生管理分析系统主要应用了数据仓库技术以及数据挖掘技术,其主要是将高校贫困生的各种信息统一纳入到高校信息管理平台中,然后根据具体的贫困生划分标准,建立模型,进而对学生的信息进行统计与分析,实现对贫困生信息的科学管理,便于高校管理者及时了解学生的信息。

5结语

总之数据挖掘技术在实践中的广泛应用,为我国互联网+战略提供了关键技术支撑,但是由于数据挖掘技术在实践中还存在某些技术问题,比如各种模型和技术难于集成、缺少与数据库系统耦合的通用API或挖掘系统仅提供孤立的知识发现功能,难于嵌入大型应用等问题导致挖掘技术在实践中的应用还存在缺陷,因此需要我们加大对数据挖掘技术的进一步研究,以此更好地实现“互联网+”战略。

作者:陈建伟 李丽坤 单位:安阳职业技术学院

参考文献

第2篇

关键词:隐私保护;数据挖掘;数据关联规则

中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2015)05(c)-0000-00

计算机信息时代的来临在为人们的日常生产、生活带来较大便利的同时,也对个人、群体以及相关组织、机构的隐私产生了较大威胁,因隐私泄露而导致的社会冲突也在不断加剧,故为了在大数据时代下,进一步保护人们的隐私,本文对基于隐私保护的数据挖掘技术做出了系统的分析和研究。

1 数据挖掘技术概述

数据挖掘又称为数据采矿,是通过相关算法在大量的数据中搜索并找出隐藏在其中各类信息的技术。数据挖掘在研究过程中主要借助了以下两方面领域的研究思想,首先是统计学的抽样以及估计与假设检验,通过在大量的数据中挑选出可能蕴含可用信息的数据,进而对数据中蕴含的信息进行假设和检验分析;其次是基于人工智能识别与计算机网络学习的搜索算法,通过对样本数据进行优化、计算和处理,进而得到所需信息[1]。然而,随着数据挖掘技术的日益发展,使得在发现知识和信息的同时,人们的隐私权也收到了严重的威胁。因此,数据挖掘工作者有必要也必须在进行数据挖掘的同时,做好数据源以及相关挖掘结果的隐私保护工作。

2 基于隐私保护的数据挖掘分类

不同的分类标准所对应的隐私保护的数据挖掘技术也存在较大差异,以基本策略为依据,可将基于隐私的数据挖掘方法分为:(1)数据扰乱法。通过在研究过程中对数据进行随机变换,或对数据进行离散与添加噪声,以达到对原始数据进行干扰的目的,其代表算法为MASK法;(2)查询限制法。通过对数据进行隐藏、抽样和划分,以达到尽量避免数据挖掘者拥有完整原始数据的目的,在此基础上,借助分布式计算或是概率统计,获得所需的数据挖掘结果。但在利用查询限制法进行隐私保护时,经常存在一个问题,即所提供的数据全部为真实的原始数据,虽然不完整,但也会降低对隐私的保护效果。以隐私保护的结束为依据,可将相关的数据挖掘方法分为:(1)启发式技术。启发式技术又称为扫描技术,通过将数据挖掘的经验和相关知识移植到检查病毒的软件当中,进而查找出可能存在侵犯用户隐私的恶意程序或代码;(2)密码技术。密码技术是研究如何较为隐蔽地传递信息的一门技术,通过应用分组密码和流密码等相关技术,从而对陌生的数据访问请求进行拦截,以达到保护隐私的作用;(3)重构技术。通过利用数据重构技术,通过结果转换以及格式变换和类型替换等方式对数据空间的结构和格式做出调整,在实现异构数据与多源数据有效融合的基础上,降低隐私数据被篡改或盗用的可能[2]。

3 基于隐私保护的数据关联规则挖掘分析

3.1集中式数据隐私保护

集中式数据隐私保护的关联规则挖掘技术在隐私保护中的应用主要体现在源数据保护和规则隐藏两方面。在源数据的保护方面的数据挖掘技术主要包括了基于数据扰乱以及分布重构关联规则算法,即当前应用较为广泛的MASK算法,此算法通过对数据进行扰乱以及分布重构,来达到隐私保护关联规则挖掘的目的。具体方法为:通过将原始数据作为保密数据(保密目标),使其服从于未知分布U,引入一组扰动数据,令其分布特定分布R,并输入随机扰动后的数据;对随机扰动后的数据进行存储,另引入一组扰动数据,使其仍然服从于特定分布R,作用后,将原始数据U输出。在此过程中,加入随机扰动数据后,在降低了侵犯隐私行为成功的可能性的同时,也使得数据挖掘工作人员获得了其想要得到了目标数据[3]。

在规则隐藏方面,则主要体现在Alog系列的相关算法上,例如MinFIA以及MaxFIA和Native算法等,需要说明的是,各类算法所要隐藏的同一数据库中的不同敏感规则,其彼此间是相互独立的,其大都通过借助降低置信度以及支持度来达到对相关数据挖掘规则进行隐藏的目的。近年来,关于集中式数据隐私保护的规则隐藏方面的研究颇受关注,相关的规则隐藏方法还包括:(1)数据替代法,通过以随机数据代替原始数据,以达到降低隐藏规则中项目支持度与可信度的目的,此外,对数据挖掘后所残留的非敏感性规则还具有较小的影响,进而从整体上提高所挖掘的数据的质量;(2)删除项与增加项的结合。通过将删除项和增加项进行随机结合,从而使原有规则的支持度发生变更,此方法的好处在于,所产出的规则相异度与规则丢失率能够得到有效降低,从而达到对目标数据进行保护的目的。

3.2分布式数据隐私保护

分布式环境中,用户隐私关联规则挖掘的关键在于对全局频繁项集进行计算,同时,加强对加密技术的应用,以确保相关隐私信息不会外泄。就现阶段而言,分布式数据关联规则的隐私保护方法主要包括了安全交集大小运算、安全求并集运算以及安全与运算等算法。而分布式数据的隐私保护主要包括两方面,分别为水平分布下隐私保护的关联规则挖掘与垂直分布下的隐私保护关联规则的挖掘。

在水平分布的隐私保护关联规则挖掘方面,除了需要对结果进行正确挖掘外,还需要对实施保护的相关开销以及通信代价与安全强度进行计算。例如,可先运用数学方法对不同分布站点的数据进行变换,而后,恢复全局计数项集的支持度,以此,来搜索并发现数据挖掘时的全局频繁集,进而找出并确定关联规则[4]。在垂直分布的隐私保护关联规则挖掘方面,在同一时间内,以不同站点的数据为依据,对所有项集的计数进行计算,进而找出超过阀值的支持度全局频繁集,以达到对数据进行保护的目的。

结论:本文通过对数据挖掘的概念以及隐私保护的必要性进行分析,在对不同依据下数据挖掘的隐私保护方法进行分类的基础上,分别从集中式数据隐私保护和分布式数据隐私保护两方面对基于隐私保护的数据关联规则挖掘方法做出了全面的论述和分析。研究结果表明,源数据与隐藏规则保护方法能够较好地满足集中式数据隐私保护的要求,而以数学方法和全局频繁集算法为主的水平分布与垂直分布隐私保护能够加好地实现分布式数据的隐私保护。可见,未来加强对基于隐私保护的数据挖掘技术方面的研究,对于在保证用户隐私的前提下,提高数据挖掘效率,具有重要的历史作用和现实意义。

参考文献:

[1]李学国,冯刚.面向社交网络隐私保护的数据挖掘方法研究[J].科技通报,2013,01(18):128-131.

[2]张海涛,黄慧慧,徐亮,等.隐私保护数据挖掘研究进展[J].计算机应用研究,2013,12(15):3529-3535.

第3篇

    关键词:空间数据挖掘;地理信息系统;研究分析

    随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

    1 空间数据挖掘研究概述

    空间数据挖掘(spatial Data Mining,简称SDM),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

    空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

    空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

    2 空间数据挖掘在GIS中的应用

    空间数据挖掘技术与地理信息系统(GIS)的结合具有非常广泛的应用空间。数据挖掘与GIs集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将GIS当作一个空间数据库看待,在G IS环境外部借助其它软件或计算机语言进行空间数据挖掘,与GIS之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在GIs中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用GIS提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

    利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

    3 空间数据挖掘面临的问题

    (1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、 处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

    (2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

    (3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

    (4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

    (5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

    (6) 空间数据挖掘与其他系统的集成不够,忽视了GIS在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

    上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

    4 空间数据挖掘的发展趋势

    (1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

    (2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

    (3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

第4篇

关键词:空间数据挖掘;地理信息系统;研究分析

随着数据采集技术的成熟和普及,大量的空间数据通过遥感、地理信息系统、多媒体系统、医学和卫星图像等多种形式汇集成庞大而丰富的信息源。面对庞杂、繁多的数据类型,空间数据挖掘技术应运而生,并在地理信息系统、遥感勘测、图像处理、交通管理、环境研究等领域得到广泛应用。

1 空间数据挖掘研究概述

空间数据挖掘(spatial data mining,简称sdm),是指从空间数据库中提取用户感兴趣的空间模式、普遍关系、数据特征的过程。空间数据挖掘技术综合数据挖掘技术与空间数据库技术,可用于对空间数据的理解、空间关系和空间与非空间关系的发现、空间知识库的构造以及空间数据库的重组和查询的优化等,其根本目标是把大量的原始数据转换成有价值的知识,发现大量的地学信息中所隐含的规则。

空间数据挖掘是计算机技术、数据库应用技术和管理决策支持技术等多学科交叉发展的新兴边缘学科,一般来说,空间数据挖掘可分成空间分类、空间聚类、空间趋势分析和空间关联规则四类。空间分类的目的是在空间数据库对象的空间属性和非空间属性之间发现分类规则,是近年来空间数据挖掘领域中比较活跃的一个方向,常用的方法是决策树。空间聚类是在一个比较大的多维数据集中根据距离的度量找出簇或稠密区域,目前提出的空间聚类方法有基于分割的方法、基于层次的方法、基于密度的方法和基于棚格的方法。空间趋势分析指离开一个给定的起始对象时非空间属性的变化情况,例如,当离城市中心越来越远时经济形势的变化趋势,空间趋势分析需要使用回归和相关的分析方法。空间关联规则是指空间邻接图中对象之间的关联,空间关联挖掘多采用逐步求精的优化思想,即首先用一种快速的算法粗略地对初始空间数据库进行一次挖掘,然后再在裁剪过的数据库上用代价高的算法进行进一步精化挖掘。

空间数据挖掘过程一般可分为数据筛选(消除原始数据的噪声或不一致数据)、数据集成(将多种数据源组合在一起)、数据选择(根据用户的要求从空间数据库中提取与空间数据挖掘相关的数据)、数据变换(将数据统一成适合挖掘的形式)、空间数据挖掘(运用选定的知识发现算法,从数据中提取用户所需的知识)、模式评估(根据某种兴趣度度量并识别表示知识的真正有趣的模式),知识表示(使用可视化技术和知识表示技术,向用户提供挖掘的知识)等阶段(见图1)。空间数据挖掘实际上是一个“人引导机器,机器帮助人”的交互理解数据的过程。

2 空间数据挖掘在gis中的应用

空间数据挖掘技术与地理信息系统(gis)的结合具有非常广泛的应用空间。数据挖掘与gis集成具有三种模式:其一为松散耦合式,也称外部空间数据挖掘模式,这种模式基本上将gis当作一个空间数据库看待,在g is环境外部借助其它软件或计算机语言进行空间数据挖掘,与gis之间采用数据通讯的方式联系。其二为嵌入式,又称内部空间数据挖掘模式,即在gis中将空间数据挖掘技术融合到空间分析功能中去。第三为混合型空间模型法,是前两种方法的结合,即尽可能利用gis提供的功能,最大限度的减少用户自行开发的工作量和难度,又可以保持外部空间数据挖掘模式的灵活性。

利用空间数据挖掘技术可以从空间数据库中发现如下几种主要类型的知识:普遍的几何知识、空间分布规律、空间关联规律、空间聚类规则、空间特征规则、空间区分规则,空间演变规则、面向对象的知识。目前,这些知识已比较成熟地应用于军事、土地、电力、电信、石油和天然气、城市规划、交通运输、环境监测和保护、110和1 20快速反应系统等资源管理和城市管理领域。在市场分析、企业客户关系管理、银行保险、人口统计、房地产开发、个人位置服务等领域也正得到广泛关注与应用,实际上,它正在深入到人们工作和生活的各个方面。

3 空间数据挖掘面临的问题

(1) 多数空间数据挖掘算法是由一般的数据挖掘算法移植而来,并没有考虑空间数据存储、处理及空间数据本身的特点。空间数据不同于关系数据库中的数据,它有其特有的空间数据访问方法,因而传统的数据挖掘技术往往不能很好地分析复杂的空间现象和空间对象。

(2) 空间数据挖掘算法的效率不高,发现模式不精练。面对海量的数据库系统,在空间数据挖掘过程中出现不确定性、错误模式的可能性和待解决问题的维数都很大,不仅增大了算法的搜索空间,也增加了盲目搜索的可能性。因而必须利用领域知识发现、去除与任务无关的数据,有效地降低问题的维数,设计出更有效的知识发现算法。

(3) 没有公认的标准化空间数据挖掘查询语言。数据库技术飞速发展的原因之一就是数据库查询语言的不断完善和发展,因此,要不断完善和发展空间数据挖掘就必须发展空间数据挖掘查询语言。为高效的空间数据挖掘奠定基础。

(4) 空间数据挖掘知识发现系统交互性不强,在知识发现过程中很难充分有效地利用领域专家知识,用户不能很好掌控空间数据挖掘过程。

(5) 空间数据挖掘方法和任务单一,基本上都是针对某个特定的问题,因而能够发现的知识有限。

(6) 空间数据挖掘与其他系统的集成不够,忽视了gis在空间知识发现过程中的作用。一个方法和功能单一的空间数据挖掘系统的适用范围必然受到很多限制,目前开发的知识系统仅局限于数据库领域,如果要在更广阔的领域发现知识,知识发现系统就应该是数据库、知识库、专家系统、决策支持系统、可视化工具、网络等多项技术集成的系统。

上述问题使得从空间数据库中提取知识比从传统的关系数据库中提取知识更为困难,这给空间数据挖掘研究带来了挑战。因此,空间数据挖掘在未来的发展中,还有很多理论和方法有待深入研究。

4 空间数据挖掘的发展趋势

(1)空间数据挖掘算法和技术的研究。空间关联规则挖掘算法、时间序列挖掘技术、空间同位算法、空间分类技术、空间离群算法等是空间数据挖掘研究的热点,同时提高空间数据挖掘算法的效率也很重要。

(2) 多源空间数据的预处理。空间数据内容包括数字线划数据、影像数据、数字高程模型和地物的属性数据,由于其本身的复杂性与数据采集的困难,空间数据中不可避免地存在着空缺值、噪声数据及不一致数据,多源空间数据的预处理就显得格外重要。

(3)其他各种空间数据挖掘及其相关技术研究。如网络环境下的空间数据挖掘、可视化数据挖掘、栅格矢量-体化空间数据挖掘、背景知识概念树的自动生成、基于空间不确定性(位置、属性、时问等) 的数据挖掘、递增式数据挖掘、多分辨率及多层次数据挖掘、并行数据挖掘、遥感图像数据库的数据挖掘、多媒体空间数据库的知识发现等。

第5篇

关键词:数据挖掘 学习分析 关键技术 应用探讨

基金项目:本文系河南省软科学研究计划项目(项目编号:142400410263,142400410267,142400410671)”的阶段性研究成果。

大数据时代下信息指数型增长已经成为趋势,对于海量数据的分析及呈现,迫切需要从数据挖掘技术的应用中来获取有效信息。现代教育领域中对信息化技术的应用较为广泛,各类虚拟学习环境的构建需要符合学生的学习特性,这些数据即多又杂,更需要专门的软件工具来进行改善和处理。可以说,学习分析技术是数据分析及数据挖掘技术基础上发展而来的应用,因此,从学习分析定义及数据模型的构建上来增强对学生学习行为的研究,有助于科学的评估和预测学生的表现,改善学生的学习方式。虚拟技术中的学习环境的营造,可以通过数据挖掘技术来实现,特别是对于海量教育数据的有效提取,以帮助教育者进行分析和改进教学决策。

1 学习分析中的关键技术

1.1聚类技术

对于数据挖掘中的聚类,主要从抽象对象的集合分组中来进行归类,聚类是对具有相似特性的多个类或簇进行分组的过程,并利用显性或隐性方式进行描述。在聚类分析中,不同算法下对相关数据的分类集合也是不同的,因此需要结合数据特征来进行有效的聚类操作。在虚拟学习环境中,对于每门课程知识的建构,可以从学生的不同表现上来进行分组聚类。如对于学习积极性高的团体,可以从增强知识拓展及关联度上来满足学生学习要求;对于成绩较低、参与度不高的学生,可以从激励措施的组建上来增强学生的学习积极性。可见,对于聚类技术的运用,关键是要从学生学情的分组上,融入不同的虚拟分组策略,以激发学生能够更好的参与学校,增进小组间学习的交流和协作。

1.2关联规则的挖掘

从大数据环境中对相关联数据的挖掘,主要是通过数据库中各项集的可信度、支持度的取值来进行。对于某数据库来说,利用形式化语言进行描述时,每一个事务都是集合,而每个集合都是M项,X、Y是其中的两项,其关联规则表示为X[?]Y的蕴含式。对于数据库中的各个事务规则来说,其所占的总事务百分比就是该规则的可信度。可见,对于关联规则的挖掘主要是通过对数据库的事务间的关系进行关联。在虚拟网络环境下,对于各类关联规则的挖掘,有助于我们从学生的学习行为中来挖掘关联关系,对于这些关联关系进行关注,从中来转变和调整教学策略,增强学生对知识的学习融合度,更好的提升教学效率。为此,可以通过对课程资源进行关联规则挖掘,通过学生访问量,以及学生的学习成绩进行对比,从中发现成绩与那些资源的访问有关系,并从学习资源的重组中来增强学生的访问量。如对于某些访问量不高的资源,在与学生的成绩关联上作用不大,可以进行有选择性的删除,避免占用学生的学习时间,也提升了资源整合的效率。

1.3分类算法

对于数据挖掘中的数据分类是基于某一共同特性而建立的数据分组,其分类方法可以是基于学生的某类学习行为,也可以是针对某一个体或群体。以决策树为例,对于分类方法的运用主要从分类规则的设定中,以判断各决策树的结构是否健壮,对于分类对象的属性定义是否准确,能否加快决策树的访问速度。对于学习行为进行分析时,分类算法可以预测学生的学习成绩,并从中来关联学习动机。如针对学习积极性较低的学生,可以从补救措施的激励上来增进参与度。对于决策树在构建分层教学模型中,依据决策树的层次关系来优化教学内容,能够更好的促进分层教学效率。同时,对于决策树的D3算法分类,可以从学生数据库进行学习能力分类,便于教师采取相应对策来改善学生的学习态度。

1.4时间序列分析

对于学习环境中的学生学习状态的分析是实时的,其产生的数据量也是按照时间序列进行排列的。因此,在进行学习行为分析时,可以从时间序列来动态的收集学生信息,及时发现学习行为中的问题,并灵活调整教学资源来优化虚拟教学。时间序列是数据挖掘中的重要技术,如在学生课程资源的挖掘中,能够结合访问时间、教育资源的关键词进行检索,以分析学习者的学习行为及趋势,通过反馈来重新编排和优化教学内容,提升教学资源的利用率。如在时间序列分析中可以完成练习作业的布置,结合学习者对相关课程的跟踪数据,从而明确练习的重点。在Moodle平台上,借助于对学习者行为数据的挖掘与分析,可以预测学生对某类知识的掌握程度,从而有针对性的开展作业辅导。另外,在对系统进行检测时,可以利用前馈神经网络(FFNN)、支持向量机技术(SVM)、概率集合SFAM分类器来进行准确分类,提升时间序列的分析优势。

2 基于用户的学习分析技术实践

基于学习管理的各类分析工具的应用,对于提升高等教育,尤其是远程教育改革中发挥了重要作用。以某院校网络教学为例,通过对各指标数据的分类挖掘,如“上网人数”、“登陆次数”、“在线时长”、“浏览资源次数”、“论坛发帖总数”等有关学习行为的汇总,来反映学生网络学习的频度、进度、以及均衡性,并从组织、引导和改进上来优化网络资源结构,跟踪学生的学习行为。通过数据挖掘技术在学习分析中的应用,能够从教学上获取各类活动的总量及平均情况,以监测网络学习工作现状,为教学评估和网络教学实施提供参考。

2.1 课程资源浏览情况分析

结合《开放教育学习指南》要求,对于网络课程模块的监测与分析结果中,能够清晰的反映各类资源浏览的页面个数、各学习者对各模块及内容的关注程度;如对于浏览频次较高的资源页面,表明受到学习者的关注。在课程章节设计、体验区,问题库、以及资料库等模块使用分析中,学生的学习习惯能够从其参与度、个人人均浏览频次等参数中来获得。如对于各章节内的资源访问量较高,说明学生从课程的学习及体验需求较高,学习者在模拟的体验区能够参与到网络互动,激发学习兴趣;对于问题库的访问量也较大,说明学生能够从常见问题的解答中来释疑解惑,便于学习者尽快掌握网络学习方法。

2.2 自主学习路径分析

对于学习过程静态信息的获取,可以帮助我们从中来梳理学生的“自主学习路径”。以聚类算法为例,通过对网络资源模块的访问跳转进行分析,以“浏览时间+学号”作为键值,以“浏览顺序”为序列,以“浏览模块”为预测值来建构挖掘结构,从中来获得各模块信息的转换情况,从中来获得学习者的自主学习路径。如在“课程章节”与“体验区”模块的对比分析中,学习者的跳转访问概率较低,而在“资料库”与“问题库”等辅助模块中,学习者的跳转概率较大,说明学生对学习方法的了解较为侧重,也为我们进一步优化课程链接,拓宽学习资源提出了要求。

3 结语

随着对数据挖掘领域的研究深入,对于计算机技术与心理学、教育学的知识的融合更加紧密,因此从数据挖掘的专业化上,依据现代专门教育理论,从学习分析的心理认知、行为认知中进行阐释将会成为主流。同时,对于现有数据挖掘交互信息的分类,一方面从课程资源的访问上来探索学习规律,另一方面从学生认知、社会层面来对学生的学习行为进行跟踪和提取,加深对其剖析,揭示隐藏的知识信息以改善教育决策。另外,在数据挖掘个性化上,对于传统的依据学生行为的分析,难以从总体情况上来提升教学决策参考,而Siemens教授从构建学习者模型视角,分析学习者的学习过程,从中来获取某一类学生的特征值,以提供个性化的教学服务。对于学习分析技术中的数据挖掘运用,重在从数据误解方法上来提升教育资源的针对性、可操作性和灵活性,满足各类学生的不同需求。

参考文献:

[1] 魏顺平.学习分析技术:挖掘大数据时代下教育数据的价值[J]. 现代教育技术. 2013(02).

[2] 魏雪峰,宋灵青.学习分析:更好地理解学生个性化学习过程――访谈学习分析研究专家George Siemens教授[J]. 中国电化教育. 2013(09).

[3] 孙洪涛. 学习分析视角下的远程教学交互分析案例研究[J]. 中国电化教育. 2012(11).

[4] 吴青,罗儒国.学习分析:从源起到实践与研究[J]. 开放教育研究. 2015(01).

第6篇

云计算、物联网和互联网的快速发展,使得数据量以极快的速度增长,大数据成为研究热点。大数据的价值产生于分析过程,所以大数据挖掘与分析是整个大数据处理流程的核心。本文介绍了大数据数据体量巨大、数据类型繁多、价值密度低、处理速度快的4V特征、以及基于这些特征的大数据挖掘与分析需要解决的关键技术。

关键词:

大数据大数据分析大数据挖掘可视分析

随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。

1大数据的定义与特征

大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。

2大数据挖掘与分析的意义

在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?

3大数据挖掘与分析的关键技术

大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。

3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。

3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。

3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。

3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。

3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。

4结语

传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。

参考文献

[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.

[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.

[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.

[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.

第7篇

一、民营经济和统计数据质量的内涵

(一)民营经济的内涵

关于民营经济的定义,尚未形成一致的观点。一种较为认可的定义是,民营经济是指除了国有及国有控股、集体经济、外商和港澳台商独资及其控股的经济组织,其主要成分是私营企业、个体工商户和农民专业合作社。其中,私营企业和个体工商户在民营经济中占据了绝大部分。在当前有关民营经济的统计资料和研究文献中,基本上也是按照如上的构成成分加以统计和分析研究的。

(二)统计数据质量的内涵

关于统计数据质量的涵义,不同统计机构和学者对此有不同的定义。例如,加拿大统计局确定了衡量数据质量的6个方面标准:即实用性、准确性、及时性、可取得性、衔接性、可解释性;英国统计局提出的数据质量的标准是准确性、及时性、有效性和客观性。厦门大学博导曾五一教授在他的研究中认为,统计数据的质量并不限于通常人们理解的准确性,它的完整内涵应当包括:准确性、适用性、时效性、可比性与可获得性等五个方面的要求。本文就借用曾教授的观点,依照这五个标准来提高统计数据的质量。

二、民营经济统计数据质量的现状

政府对外公布的民营经济相关数据颇多,比如民营经济增加值、民营经济的营业收入、民营经济规模以上企业数、民营经济对GDP的贡献率等。民营经济数据的质量高低对以其为依据所做的有关决策和结论的科学性有重大影响,所以提高民营经济统计数据的质量具有重要意义。从总体上看,目前的统计数据可以反映我国经济发展的大体趋势。由于民营经济统计的对象复杂多变且分布广泛,使得民营经济统计数据的质量还存在诸多问题,不能满足使用者的需求。

(一)民营经济统计数据失真的现象很严重

统计数据失真的现象早已被社会公众所熟知,例如东北多个GDP造假县域经济规模超香港,地方GDP“增速高于全国、总量大于全国”等。统计数据失真主要是由统计制度不够完善造成的。通过对福建省某市统计局的走访,了解到目前民营经济统计没有专门的部门负责,而是将民营经济中的不同行业分给不同的部门负责统计,在统计人员中也分出了调查队和统计组两个队伍,数据的收集主要是由各级政府层层上报。有的政府上报的数据完全是虚假数据,这样的统计制度难免会出现数据失真的现象。统计数据虚假是最常见的统计数据质量问题,也是危害最为严重的统计数据质量问题。这些统计数据完全是虚构杜撰的,根本就没有事实依据。

(二)民营经济统计指标不统一造成各地统计数据难以衔接

目前,从国家层面看,全国没有统一的民营经济定义,也没有统一的民营经济统计口径和统计指标,也没有明确一个部门牵头负责民营经济工作。各省对民营经济统计工作没有参照的标准,只能自成一体。各级政府部门都是根据自身的统计需要来制定各自的统计指标和统计口径,这使得不同省份的民营经济统计数据不具有可比性,相互间难以衔接。以山东省为例,工商联、工商局、中小企业局三个部门都在抓民营经济,而市一级多数由中小企业主管部门负责。从统计口径上看,省工商局所统计的民营经济指标实际上只是个体工商户和私营企业,省中小企业局执行的是以前乡镇企业的指标体系,基本不用民营经济这个概念,但到了市一级,中小企业、民营经济用的都是这个数据,而概念和标准都十分清楚的中小企业从上到下都没有专门的统计。概念界定不清、统计口径不统一、统计体系不健全,给基层工作带来很大不便。对此,山东省宏观经济研究院经济研究所所长高福一认为,面对大数据时代,统计体系不完备,会对政府的科学决策造成一定影响。

(三)民营经济配合统计工作的积极性不高,申报的数据较随意

民营经济的统计工作,仅仅依靠统计部门及其他政府部门远远不够,需要各民营经济实体的积极配合。从当前情况来看,由于缺乏相应的法律约束,民营经济实体在这种“纯义务”的统计工作上,很少采取主动配合的态度,对统计部门需要的统计资料也是敷衍了事,甚至有时要统计人员再三催促,才随意地报上一组数据应付。这种不准确的数据严重影响统计报表的准确性,不利于我国民营经济的统计工作。同时,民营经济体对于涉及企业销售总额与营业利润等企业的敏感性数据,抵触心理严重,这主要是其“怕征税、怕露富、怕泄密”的心理造成的,如此一来,在对待民营经济统计工作的态度上,民营经济体本身就不愿意参与,也不会主动配合,大大降低了民营经济统计工作的效率。由此可见,缺乏相应的法律约束,使民营经济提供的数据与报表资料随意性很大,给我国民营经济的统计工作带来非常大的困扰,这也是我国民营经济统计数据质量不高的重要原因。

三、数据挖掘技术在提高民营经济统计数据质量中的应用

数据挖掘的正式研究开始于1989年举行的第十一届国际联合人工智能学术会议,从数据库中发现知识(KDD)一词首次在该会议中被提出。数据挖掘技术从一开始就是面向应用的,在国外很多领域,如金融、生物、电信、保险、交通、零售等领域,数据挖掘的应用都起到了明显的效果。世界上研究数据挖掘的组织、机构和大学有很多,比如卡内基梅隆大学、斯坦福大学和麻省理工学院等。与国外相比,国内对数据挖掘的研究稍晚,没有形成整体力量,直到1993年国家自然科学基金才首次支持该领域的研究项目,到上世纪90年代中后期,初步形成了知识发现和数据挖掘的基本框架。此后一批研究学术论文逐渐发表,但是基本上还是以学术研究为主,实际应用上处于起步阶段。在大数据时代,利用数据挖掘提升竞争力已成为各行各业都在追逐和挑战的目标,数据挖掘被认为是大数据中最关键和最有价值的工作。目前有研究者提出将数据挖掘技术应用于统计中,为相应的部门提供服务。比如,将数据挖掘应用在政府统计、人口普查、经济普查中。民营经济作为我国的一大经济支柱,其中包含了大量复杂的信息,数据质量高低不容忽视。因此,有必要对数据挖掘技术在民营经济统计数据质量控制方面进行研究。

(一)微观层面

我国民营经济包含的对象复杂多样,各单位的规模大小不一,其分布又十分广泛。面对如此庞大的群体,民营经济统计工作的难度可想而知。我国没有统一的民营经济统计,都是各省各部门根据自身的需要进行相关统计。据某统计局工作人员介绍,在收集民营经济统计数据时,按照企业规模的大小分为两种渠道,规模以上的企业通过网络直报提交数据,规模以下的通过调查队或者当地基层政府提交相关数据。在收集数据时,根据行业不同又分工为不同科室负责,比如有的科室负责钢铁行业,有点科室负责文化产业行业等,这样容易导致重复统计或者遗漏统计。目前我国对于民营经济申报的统计数据没有任何法律约束,导致上报的数据很随意,常常与实际值偏离巨大。在初始环节严把数据的质量,对后期的数据加工具有重要的意义。1.孤立点的识别。孤立点指的是在数据集合中与大多数数据的特征不一致的数据。孤立点挖掘可以描述为,给定一个n个数据点或对象的集合,以及预期的孤立点的数目k,发现与剩余的数据相比是显著不一致的头k个对象就是孤立点。目前挖掘孤立点的算法主要包括七类:基于统计的方法、基于距离的方法、基于密度的方法、基于偏离的方法、基于聚类的方法、基于粗糙集的方法和基于人工神经网络的方法。在民营经济统计数据采集过程中,由于采集的对象庞大,政府统计工作人员无法做到对每次收集的数据一一核实,只能对采集的数据进行一次筛选,将其中可能存在显著差异的数据找出来,然后对这些数据进行核实,剔除一些无效的数据,以保证原始数据的真实性。对于民营经济各个单位上报的统计数据,无论是故意的还是无意的都会出现一些孤立点,这些孤立点的存在无疑会影响数据的质量。我们可以通过基于聚类的方法来找到这些孤立点,首先将民营经济统计数据集利用已经成熟的模型进行聚类分析,使数据集形成簇,而那些不在簇中的数据即被视为异常点,然后对这些异常点进行一一核实,这样工作量就大大缩小了。2.缺失数据的替代。缺失数据是指数据集中某些记录的属性值丢失或空缺,一般缺失的属性值代表了缺失的信息。民营经济统计指标体系涵盖的内容广泛,而民营企业大部分规模较小,数据记录的制度不健全,面对政府部门收集数据的任务,有时是提交空白数据,有时是随便填报个数据敷衍了事。统计部门收集到的空白数据,最简单的办法是直接去掉,这样势必会影响到最终统计结果的真实性。为了提高数据的质量,必须要对这些缺失值找到一个合理的替代值。缺失数据的替代方法有单值替代、类均值替代和回归替代,这些方法都可以解决缺失数据的替代问题。单值替代是使用一个常量代替所有的缺失值,常量的选择由应用的目的而定,可选择平均值、最大值、最小值等统计指标。类均值替代是用缺失数据记录所在类别的属性平均值代替缺失数据。回归替代是应用回归分析技术,对包含有缺失属性值的属性和相关的其他属性建立预测模型,并用相应的预测值代替缺失属性值。3.虚假数据的修正。在民营经济统计中,会收集很多不可避免的虚假数据。造成统计数据虚假的因素多种多样,如一些经济主体受经济利益驱使,捏造虚假数据,在财务报表上大做文章。比如,一些效益好的企业为了偷税漏税故意少报利润和销售收入,而一些效益不好的企业少报亏损或者高账面盈利,以骗取银行贷款并树立企业形象。还有一些企业长期搞多本账,报给财税部门的是“苦账”,报给银行获得贷款的是“喜账”,报给上级主管部门的是应付账,留给自己的才是真实账。虚假数据俗称为含水分的数据,如果这些数据水分不大,可以不去理会,因为统计数据是反映一个大体概况和趋势的,不需要毫厘不差。如果这些数据水分较大,汇总在一起的高水分的数据容易放大或者缩小实际经济状况,这时就必须在初始数据采集时严控数据中的水分。这些数据一般不会像孤立点那样容易被发现,具有一定的隐蔽性,必须要借助于数据挖掘方法才能识别其中的水分,比如数据挖掘中的聚类分析。聚类分析是将一个数据集划分为若干聚类,并使得同一个聚类内的数据对象具有较高的相似度,而不同聚类中的数据对象的相似度尽可能低。在民营经济统计数据库中将具有相似属性的企业归为同一个聚类,对于同一个聚类中某个企业的某项属性明显存在巨大差异,则可以判断此属性数据可能存在严重虚假,然后再进一步调查核实和修正。

(二)宏观层面

大部分地方统计部门在处理和分析统计数据时还处于手工操作或半手工操作,计算机的使用仅限于做一些简单的汇总和指标计算,统计分析也主要是事后分析,没能利用发达的计算机技术通过信息共享等方式进行事前分析和预测。1.关联规则的应用。关联规则是近几年研究较多的数据挖掘方法,具有高度的灵活性和重要性,应用也是最为广泛的。关联规则挖掘的主要对象是事务数据库,在事务数据库中,事务1中出现了属性项甲,事务2中出现了属性项乙,事务3中则同时出现属性甲和乙。那么属性甲和乙在事务中的出现互相之间是否有规律可循就是关联规则要挖掘的隐含信息,以查找容易被忽略或与人们熟知相背离的事件。经济统计中运用关联规则能够挖掘出汇总数据中联系密切的行业,这些关系密切的行业有已知的,也有未知的。尤其在民营经济的统计数据中,有些内部信息汇报人不愿如实填写数据,导致汇总后的数据与实际数据相差甚远,此时可以通过已经建立的规则关系来识别和修正一些水分较大的数据。在实际运用当中,很多属性之间所存在的关系为人们所知晓,被称为平凡规则,如提升工业总产值能够带来生产总值的增加。通过平凡规则,我们能够对数据质量的高低进行判断,以此达到消除虚假数据的目的。2.决策树的应用。决策树是一种用于分类、聚类和预测的建模方法,在民营经济统计数据中可以用决策树进行分类和预测分析。我国民营经济统计没有统一的口径,很多数据是通过统计人员根据收集部分数据推断出来的,所以需要一种有效可行的预测方法。决策树算法十分直观,这一过程的关键是有效构建决策树,主要分为建树和剪枝阶段。通过决策树对数据分类主要由两个步骤组成:其一,决策树模型的构建,即通过训练集实现一颗决策树的构建及精化;其二,将输入的数据通过决策树进行分类处理。当将数据输入决策树时,会由根节点对属性值依次进行测试并记录,然后到达叶子节点,来实现寻找记录所在类。从整体来看,决策树算法属于递归过程,一直进行到满足终止条件为止。分割停止要满足两个条件:其一为某一个节点上数据都同属一类;其二是能够进行数据分割的点已经耗尽。这一过程主要用于解决数据挖掘的预测及分类方面问题。

四、提高民营经济统计数据质量的对策

民营经济统计是一项综合的统计工作,涵盖了民营经济的各行各业,必须着眼于整个统计工作,从政府和企业相结合的角度建立一套行之有效的机制,来切实规范企业的行为,夯实企业的统计基础,并调整部门间的信息共享。

(一)政府应做的工作

1.加大统计执法检查力度,做好统计基础工作。对民营企业中存在的虚报、瞒报、拒报等统计违法行为,要鼓励执法人员勇于执法、善于执法,在保护民营企业遵纪守法正常发展的同时加大对一些典型的统计违法案件的曝光力度,以案说法,扩大教育面,促进这些企业的统计工作正常开展。同时,各级统计部门要重视对民营企业特别是新建的民营企业统计基础工作的指导工作,要组织力量搞好培训工作,督促企业依法建立健全原始记录和统计台账,夯实基础工作,严把统计数字质量关,要优选专兼职统计工作人员,切实做到业务精、责任心强,保证统计数字上报的及时性和准确性。2.将数据挖掘技术嵌入到网上直报系统,增强统计数据的自动化处理能力。在信息技术飞速发展的今天,先进的信息技术已经成为进行统计工作必不可少的工具,利用数据挖掘技术辅助网上直报系统,从而使得原始数据采集、储存加工以及信息传递实现了现代化,这不仅提高了统计数据传递的及时性,而且也提高了统计数据的准确性。同时伴随着信息技术的发展,调查技术也在不断地改善,一些新的调查方法将会逐步代替旧的调查方法,例如计算机辅助调查、计算机输入数据搜集系统等等。与此同时,还要不断推进统计信息自动化建设,提高各级统计部门的配机率和数据信息的处理能力,集中力量做好统计数据处理的软件开发和综合数据库建设,进而提高统计数据的质量。

(二)民营企业应做的工作

1.民营企业的领导层要重视配合政府统计部门的工作。要搞好统计工作必须得到企业领导的支持和其他职能部门的通力配合。统计工作涉及企业的销和人财物各个方面,对一个企业的生产经营活动起到监督、检查和指导作用,因此没有领导的重视和支持,没有企业中各个部门的积极配合,就无法保障统计数据的准确,资料来源渠道的畅通。2.民营企业自身要加强规范化统计基础工作。企业必须要有健全的原始记录、统计台账及财务报表,且能同时满足相关部门的需要,财务报表能满足统计需要的不再布置统计报表,并且根据会计决算的实际期效,统一上报时间。以减轻企业的劳动负担,增强企业积极配合统计的意愿,这样也避免了在财务决算之前“瞎估乱报”的现象。根据企业的实际情况,可以将会计、统计合并为一个综合部门,共同承担会计、统计任务,解决基层企业力量配置及劳务成本的问题。但无论人员如何配置,必须保证提供准确可靠的原始数据,做到不迟报、不漏报,确保源头数据的真实性,以提高民营经济统计的数据质量。

作者:柯芳 单位:福建师范大学协和学院

参考文献

[1]曾五一.国家统计数据质量研究的基本问题[J].商业经济与管理,2010,(12).

[2]高敏雪.从外部监督入手解决统计数据质量问题的努力[J].统计研究,2009,(8).

第8篇

关键词:数据挖掘;可视化;数据挖掘可视化

中图分类号:TP311

胜利油田“九五”以来就着手建立了较为完善的专业管理信息系统,全面覆盖了油田经营管理各项业务,促使信息把握更加及时,管理效率显著提高。近几年油田主要致力于系统间的联动,作为国内应用ERP(Enterprise Resource Planning)系统规模最大的一家企业,2005年胜利油田ERP系统(企业资源计划)正式上线运行,信息系统由过去的“单线应用”转变为“集成应用”,原有的管理模式发生了重大变革,建立了新的管理程序,用标准、优化的流程解决了制度落实过程中存在的不足。由于随着计算机技术在胜利油田的广泛应用,积累了大量的生产信息数据,并且油田开发和生产科研土作中的大量信息已经实现网上传输。在传输数据的过程中,由于各种原因,不可避免地会出现一些错误数据,从而影响到最终的结果而掩盖了正确的生产信息。

根据对油田生产情况的具体分析,可以将生产数据的错误类型分为以下三类:

(1)不符合原始界限(该界限用户己给出)时,有以下几种可能的原因:

1)数据在输入和存储过程中计算机产生的错误;

2)人工输入数据时,以欺诈为目的对数据的恶意修改。

上述情况,不符合用户所给出的最大范围,表明该数据是完全错误的,需要监控人员直接对其进行处理。

(2)数据变化过大,原因如下:

1)数据在输入和存储过程中计算机的错误;

2)人工输入数据时,以欺诈为目的对数据的恶意修改;

3)在生产过程中,人为的影响(例如油井作业、维修时,己停产)。

(3)不符合数据的大体趋势时,原因同(2)。

所以迫切需要一种能及时检测例外数据的方法来提高数据质量,在数据挖掘领域此问题归结为例外数据挖掘问题。针对胜利油田数据库所积累的大量数据,更加需要一种能高效进行例外数据挖掘的方法,并且该方法应具有透明性和可信度高的特点。

可视化的基本思想就是使用图形和图像来表征数据,将隐藏在大量数据中的信息以相对直观、易于领会的图像方式表达出来,从而加快获取信息的速度。数据可视化是对大型数据库或数据仓库中的数据的可视化,是数据分析过程中必不可少的一个阶段。在数据可视化方面,目前的研究方向主要是将关系数据库或数据仓库中的数据,从不同的抽象层次将属性、维度进行联合之后,以不同的呈现形式展现给用户。国内相继开展了数据可视化技术方面的研究,并取得了一些成绩。将数据的各个属性值以多维数据的形式表示,可以从不同的维度观察数据,从而对数据进行更深入的观察和分析。

可视化绘制方法就是把隐藏于大容量计算数据集中的物理信息转化为有组织结构表示的视觉信号集合,如空间几何形状、颜色、亮度等。目前常用的可视化绘制方法有:几何法、彩色法、多媒体法和光学法。

本文基于色彩法提出了一种新颖的方法将油田生产数据进行数据挖掘可视化,使其能直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实的意义。

1 问题提出

在庞大的数据库中,经常有例外异常数据夹杂在数据记录中,一眼分辨实为困难。我们提出了一种新的识别例外数据的方法,就是利用可视化来进行识别。

定理1 数据库中有m条H(H>W>N)维的记录,可以把每一条记录映射成空间中的点,若某点在低维空间中是Outlier(例外异常点),那么这一点在高维空间中必定是Outlier。

证明:假设oi是数据库中的第 条记录(oi1,oi2,…,oim),则映射到N维空间中的一个点o(xi,yi,zi,…Ni)。

设空间中一个点与任意各点的距离大于一个阈值则定义为Outlier,空间中点oi与任意点oj(j≠i)之间的距离定义为:

(1)

N维空间中点oi与任意点oj(i≠j)之间的距离大于一个给定的阈值δ则定义为Outlier:

(2)

如果将数据库中的纪录映射到比N维高的W维(W>N)空间中,则在低维空间的例外点在高维空间中与其它点的距离:

(3)

由公式(2)和 可知:dW(ois,ojs)>dN(ois,ojs)>δ。

所以定理得证。

因此,可视化出的数据库截面把数据库中的数据映射到4维的空间,在图中得出颜色较浅的例外数据在高维数据库中必定就是一条例外异常的记录。

2 试验

由于可视化能清楚直观地看到数据库中的频繁模式与异常模式,本文采用可视化的方法来对油田数据库中的数据做试验。

首先将油田数据库中的数据表中所有的数值型字段按照等距离方法转化成字符形式。这里我们先设定字符表的大小,为4个即{a,b,c,N},N代表该字段的值为空。算法为:求出字段中的最大最小除以3,即将该字段划分为3个区域,每个区域分别代表a,b,c。然后将数据库中的值映射到各区域中,落在哪个区域就用该区域的字符代替该数值。最后将转化好的字符存储成表。

字符转化的方法是,首先在一个字段中找到最大值max和最小值min,定义一个区间段长度为foot:

(4)

字段中任意一个值为y,按照如下公式将其转化为字符形式:

(5)

将转化的字符用可视化的方法显示出来。a,b,c,N分别用不同的颜色表示:a用红色,b用蓝色,c用绿色,N用无色表示;其颜色变化要有范围,即有一个基准色,若有叠加则加一,最后达到颜色变化上限,即使再有叠加,颜色也不再变化。颜色越深,表示该颜色所对应的字符越多,颜色越淡,表示该颜色对应的字符越少。

对于油田数据库某生产表做试验(从第一个字段开始)可以得到如图1结果。在图2圆中可以选择感兴趣的前三个圆环中的任意一个色块,既可再出现关于此色块的第二个圆。例如:根据上图,选择第二圆环蓝色最深的色块,则出现关于这个色块的第二个圆。由图1得知,油田数据库中可视化的表从第一字段到第四字段中,aaaa,bbbb,cccc这三种模式的记录相对多,从图2可以看出数据库表中第一字段到第五字段中aaaaa这种模式较多,所以颜色浅淡的色块对应的记录由定理可知为例外异常记录。

图1 油田数据库可视化图

图2 关于图1第二圆环蓝色最深的第二圆

3 结束语

本文提出了运用在油田数据库中的一种可视化模型的设计方法,取出油田数据库的一个数据截面进行可视化,可以直观清晰的看到数据库中的频繁与例外异常模式,对提高决策的效率具有重大现实意义。

参考文献:

[1]Jiawei Han,Micheline Kamber.范明,孟小峰,译.数据挖掘:概念与技术[M].北京:机械工业出版社,2001:3-4.

[2]于吉红,董久敏.数据挖掘可视化应用与研究[J].海军航空工程学院学报,2006:10-12.

第9篇

[关键词] 数据挖掘; 数字矿山; 灾害预测; 应用; 研究

0 前言

数据挖掘是指从大量数据中找出那些具有一定特征及潜在应用价值数据的技术,相应地,空间数据挖掘技术则是指从空间数据库中提取具有潜在应用价值数据的技术。作为数字地球的重要组成成分,数字矿山既是实现矿区信息化管理的前提基础,也是实现矿区可持续发展的重要决策。然而在矿山数字化过程中必定会产生大量的数据,虽然传统的数据库管理统计分析方法可以实现数据的查询及检索,但是却无法提取数据中潜在的有用知识。[1]我们通常使用的人工智能技术,提取知识必须建立在用户将知识事先输入到知识库的前提上,这不仅需要耗费大量的时间及精力,而且往往会因为用户的主观性而造成错误知识的提取。空间数据挖掘技术涵盖了数据库处理技术、统计学原理、数据可视化技术、模式识别技术以及人工智能技术,能够高效的提取数据中的有用知识。本文以下内容将介绍目前现有的几种空间数据挖掘方法,在此基础上,重点探讨数字化矿山构建过程中急需解决的问题。[1]

1 现有的空间数据挖掘方法

空间数据挖掘方法的主要功能在于对空间数据进行收集、存储、建模及表示,通过运用多种不同的分析方法能够对这些信息进行综合深入的分析,探讨这些空间实体间的内在联系,现简单介绍目前常见的几种空间挖掘方法。

(1)空间统计分析方法:在进行空间统计分析之前必须建立一个统计模型(数学模型),通过这个模型提取出一些有关的知识。作为空间数据常用的分析方法,统计空间数据分析有着扎实的理论基础以及大量的计算方法,能够对数字型数据进行有效地处理,从而为空间现象提供显示的模型。[1]

(2)特征规则挖掘方法:一般来讲,所有的知识都是具有一定粒度的,我们大部分人都希望能够从细节描述角度提升到总结高度,这一过程就是所谓的数据概括,也称之为特征规则挖掘。数据概括是一个由低层次向高层次抽象的过程,面向属性归纳法和空间数据立方体是空间数据概括的两种实现方法。

(3)归纳方法:所谓归纳就是对数据进行综合概括的过程,通过归纳这一过程,提取数据中的特征及高层次模式。[1]归纳法一般都需建立在扎实的背景知识上,经常以“概念树”的形式表现出来。在地理信息数据库中,有空间关系概念树和属性概念树两种类型,用户提供背景知识,在有些情况下也可以作为知识发现任务的一部分自动获取。

(4)空间聚类分析方法:该方法主要根据空间实体的一些特征进行分类,按一定的距离或相似测度在大型多维空间数据集中标识出聚类或稠密分布的区域,将数据分成一系列相互区分的组,以期从中发现数据集的整个空间分布规律和典型模式。[2]

2 数字矿山体系的结构和数据组织

2.1 体系结构

数字矿山是一种以矿山为主要原型,以矿山的地理坐标为主要参考系,以信息科学技术、计算机科学技术、人工智能技术以及矿山科学技术为理论基础,以现代网络技术及矿山观测技术为主要支撑,建立一系列不同层次的原型、物质模型、数学模型、力学模型以及计算机模型等,并借助模拟仿真技术及多媒体技术将其表达出来,其表达出来的结果具有很高的分辨率,基本实现了系统的可视化、智能化及网络化。[2]通过用数字化、信息化的方法对矿山的信息进行构造及研究,从这方面来讲,数字矿山结构体系是矿山地表及地下所有活动经数字化后计算管理系统,是围绕矿山多源信息展开信息化及网络管理的过程,数字矿山体系机构很好的实现了信息的共享、决策服务的辅助以及分析处理过程的职能联机。图1是数字矿山体系结构的具体示意图[2]。

2.2 数据组织

矿山空间数据信息是会随时间变化而变化,因此,在管理及分析数字矿山数据的过程中必须借助空间数据仓库技术,数据矿山的数据仓库主要有两部分组成,他们分别是数据仓库和模型仓库。[3]数据仓库的主要职责在于管理矿山的几何信息、属性信息以及拓扑信息,而模型仓库的主要职责则在于管理各类应用模型,具体包括矿山工程模型、矿山生产模型、矿山安全模型、矿山经营模型、矿山管理模型以及矿山决策模型。

3 数据挖掘技术在数字矿山中的运用

数据挖掘的核心在于从大量的数据中提取有实用价值的信息,其目的在于帮助决策者找出不同数据间的内在联系,发现那些容易被忽视的因素,而这些因素往往对预测数据变化趋势以及做出决策行为是非常有帮助的。下面就探讨数据挖掘技术在数字矿山中的运用。

3.1 运用模糊聚类法评价采动房屋的破坏程度

在评价房屋的破坏程度之前,应该确定造成房屋损坏的因素。建筑物的平面尺寸、开采的深厚比、采空区的尺寸以及建筑物本身的结构都可能是建筑物受损的影响因子。在确定好影响因子后,应该选取一定数量受到损坏的房屋,确定每座房屋受损影响因子的具体数值,然后将这些数据进行标准化处理并建立相应的模糊相似矩阵,从而对建筑物的破坏程度进行分类,并对建筑物的受损害程度进行预测[3]。

3.2 矿井开采的三维模拟

收集矿井开采过程所涉及到的钻孔资料、地震数据以及重磁数据,处理完数据后建立矿区地质三维模型图,由地表收集到的数据为依据建立相应的矿区地表三维模型,在三维可视技术的帮助下可以将采掘过程中矿体的变化趋势形象而生动的表现出来,这样就相当于给矿体损害研究过程提供一个具体的模型,便于我们观察地下矿体的形态,通过这种实体间的动态变化,有助于我们看到矿体开采过程中地表与岩层的坍塌过程,从而为安全开采提供技术支撑。

3.3 矿区数据的时间序列分析

地下采矿作为一个典型的时间序列事件,随着挖掘的不断进行,矿区地表及岩层的破坏也是一个时间序列时间,随着地下采矿的不断深入,地表塌陷的范围及程度会逐渐发生变化。因此可以利用空间数据库来储存这些时刻变化的动态数据,将某一时间段的矿区类型同地表破坏等事件有机联系起来。因此,时间序列分析方法是一种非常有效的矿区土地变化方法。

3.4 基于神经网络的矿区灾害预测

人工神经网络是一种由大量神经元结合而成的非线性动力学系统,该系统具有良好的适应性、自学性以及容错性,也正因为如此,人工神经网络系统引起了外界广泛的关注。当信息不完备的情况下,人工神经网络系统在方案决策、模式识别以及知识处理等方面能发挥很好的作用。[3]将人工神经网络应用到矿区灾害预测领域,有助于我们理解矿区系统的非线性动力学行为。目前神经网络已普遍应用于矿区岩层与地表运动过程预测、矿区地质灾害预测以及矿区采动滑坡预测等方面。

4 结束语

数据挖掘技术已经渗透到地理信息系统的各个方面,这对我们分析及预测各种地理信息变化情况提供了可靠的技术手段。通过空间数据挖掘技术,使我们既快速又准确的分析及处理各种地理学信息。空间数据挖掘技术有效提高了我们分析处理地理学信息数据的能力,[3]对一些新情况的出现提供了一种行之有效的分析研究工具。

[参考文献]

第10篇

关键词:电子病历;数据挖掘;关联规则

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2015)05-0001-04

1 绪论

1.1研究背景

随着计算机技术和数据库技术的飞速发展,各种卫生信息系统在医学领域的广泛应用,由此积累下来的海量医学数据,在此海量的医学数据背后隐藏着许多重要的有用信息,怎样才能把深层次的、隐含的、有价值的知识从数据资源中把挖掘出来,这在当今日趋重要。在国内,数据挖掘技术在医疗服务领域的研究有所报道,但到目前为止,针对于不同的医学目标实现医学数据挖掘应用,怎样科学地选择合适的数据挖掘算法,此类方法学研究在国内尚还较少。

临床信息系统(CIS)中的电子病历系统是以病人为主导,包含所有横向的、纵向的医院信息和临床信息数据的系统。如何从这些数据集中使用不同数据挖掘技术挖掘出各种疾病的成因以及它们之间的相互关系、和各种疾病的发展规律,并总结各种治疗方案的诊疗效果,这对疾病的预防、诊断、治疗和医学研究意义非常重大。本文是基于SPSS Modeler软件平台的基础上对医学数据进行规则的挖掘和知识探索。

1.2 国内外数据挖掘的应用及研究现状

在国外,目前在金融领域、生物工程领域、企业分析以及网络信息搜索等许多领域数据挖掘技术都有了很好的应用[1]。国际知名调查机构通过技术调查,认为未来五年内数据挖掘和并行处理体系将挤在十大新兴技术投资焦点的前列,“数据挖掘和人工智能”将列在首位的。在我国,数据挖掘技术最早在如中国海关集团、人民银行、上海通用汽车等少数实力雄厚的国企或外资企业中得以充分应用。也有少数应用在经济上,如使用一般数量化模型如人工神经网络方法、回归分析法和时间序列方法在经济上对于股价指数进行预测。目前在国内,数据挖掘技术在医疗服务领域的研究已有一些成果,但至今为止,怎样科学地选择适当的数据挖掘算法,针对不同目标的实际应用挖掘,这方面的方法学在国内研究还较尚少。

1.3 研究意义

本研究以某社区医院电子病历作为数据源,对数据挖掘算法在电子病历系统中的应用进行了研究。结合常见高血压病案,通过使用不同的挖掘模型进行比较分析,总结出各种算法的特点及适用范围,得出适合这常见病的挖掘模型,并给医务人员提供简单而有效的数据挖掘模型。同时通过研究探索性电子病历数据挖掘技术的实现,也将进一步做更复杂的数据查询提供参考模式,这也给将来医务人员、科研工作者使用更高层次的数据分析方法解决诊疗水平提供有效的科学的途径,具有极其重要的现实意义。

2 数据挖掘综述

2.1 数据挖掘定义

从技术角度来解释,数据挖掘就是通过自动分化分析数据仓库的大量的、有噪声的、模糊的、不完全的实际应用数据,进行提取人们不知道的隐性的知识和规律,依托于数据库、数据统计和人工智能技术的发展,最大可能地利用已有信息和数据,归纳性推理,挖掘潜在规律[2]。数据挖掘技术主要由三个部分,即数据、算法和技术、建模能力组成。

2.2 常用的数据挖掘算法

2.2.1 神经网络

神经网络是由大量的简单的处理单元组成的,自适应非线性的大规模动力系统,是神经科学、统计学、计算机科学和物理学的交叉学科[3]。神经网络能够有良好的自适应、自学习和高容错能力,并具有分布式存储、并行处理以及联想等特点。目前在常用的多种训练算法和网络模型中,多层前馈型神经网络是应用最广泛的。

BP网络是一种由输入层、输出层和隐含层组成的单向传播的多层前馈网络,如图①所示,是目前在各行各业应用最多的一种模型。

2.2.2 决策树

决策树算法是属于的分类、回归和关联型算法,它主要用于对离散型和连续型的数据进行预测性的建模。

决策树的常用算法有:

1) CART算法

CART算法是一种二分递归分割技术,是结构简单的二叉树,它将总样本集分成两个子样本集,使每个非子结点都有两个分支[4]。

2 )CHAID算法

CHAID提供了一种在多个自变量中自动搜索能产生最大差异的变量方案。

CHAID过程:建立细分模型,根据卡方值最显著的细分变量将群体分出两个或多个群体,对于这些群体再根据其他的卡方值相对最显著的细分变量继续分出子群体,直到没有统计意义上显著的细分变量可以将这些子群体再继续分开为止。

3 电子病历分析数据集的建立

高血压是社区医疗中最为普遍和严重的疾病,其中高血压并发症多,病生理复杂,病症不明显,近年来发病率上升迅猛.社会经济危害性严重.从发展趋势上看尤其值得重视。下面以高血压形成病因作为研究对象,构建一套简单易行的计算机辅助医学数据挖掘系统解决方案。

数据集的预处理步骤主要由:数据集成(dataintergration)、数据清洗(dataClenanig)、数据消减(datareduetion)、和数据转换(datatransformation)几个步骤构成。数据处理是数据挖掘是否能正确得到结果的最重要的一步。本章主要从电子病历中提取原始数据,使用SQL SERVER软件和EXECL软件进行清理数据,筛选,根据数据挖掘所需的字段属性值来分离出不同的分析数据表,再使用SPSS Modeler 14.2软件对数据筛选,不断训练数据集,达到数据挖掘模型的要求。

3.1 数据来源

本数据来源于某社区医院慢性病档案管理系统采集的数据,其中储存的数据库文件为“社区医疗病历.mdf ”文件。本数据库包含有,有”病人”、“病史”、“医生”、“体格检查”、“医院名称”、“用户”“用户权限”、“权限类别”、“用户权限组”等13个数据表表格。本案例主要使用”病人”、“病史”、“体格检查”、“医生”这几个数据表来获取数据源。

3.2 数据预处理

通过SQL SERVER数据库管理系统把存放在Delphi数据环境中的原数据,生成社区医疗病历.mdf 数据库,为了在更好地清洗数据,本文把数据库再转换成EXECL表格。把需要的”病人”、“病史”、“体格检查”、“医生”表格分别转化“高血压分析表”表。

3.3 数据清洗

数据源是数据挖掘的关键,对采集的原始数据进行清洗,这样才能保证信息源的数据质量。首先把其中原数据库中的12个信息表处理成需要使用的两个电子表格“预测数据源”,“高血压预测”,删除不需要的字段,修改录入错,合并相同数据等,考虑到一些没必要的因素,对各个表中删除不必要的字段, 最终变成“预测数据源”表和“高血压预测”表;鉴于线性分析的要求,把高血压中的“初步诊断”字段修改为逻辑型或数据值。

3.4 数据集成和变换

使用SQL SERVER 2000,把这些表格转换成EXECL文件表格形式。

1) 转换数据源:把社区医疗病历数据库.mdf 文件换成EXECL表格研究所需要的数据表格进行研究。转换数据名为:医疗数据库,使用其中的“病人”,“病史”和“体格检查”数据中的数据源作为主要研究对象。

2) 数据分析:使用SPSS Modeler软件对数据表进行分析。经分析,发现原数据的几个表格数据不够连接,没有可比性,再返回EXECL表格进行数据处理,把体格检查表和病人表、病史表的数据源部分数据按“病人编号”排序复制成一个表格,删除“用药”这一列,如图2示:

3) 数据处理:把现“病史”这一列分解成几列,作为以后各个单项研究的基础,数据挖掘的需要,分别生成“预测数据源”表和“高血压相关分析”表。

3.5 数据获取

在EXECL表中对已处理的表应用于SPSS Modeler中作为数据源,其中使用FIND()函数,把原字段“初步诊断”中的结论转换成“布尔”型数据,过程如图3:

数据处理是数据挖掘是否成功或能否挖掘到有用数据结论的一个关键,本章利用数据库软件及表格处理软件对原数据进行采集、清理、排除的研究,得到挖掘SPSS Modeler所需要的数据源,为下一章进行挖掘模型做好准备。

4 几种常用挖掘算法在电子病历数据中的分析研究

4.1 人工神经网络法

4.1.1 建立临界值模型

4.1.1.1采用RBFP神经网络模型对高血压进行预测分析

此模型是用相关的数据来说明其他指标对高血压的成因影响。挖掘过程包括探索、数据准备、训练。

1)探索

表示神经元的数据字段包括:

[病人编号\&年龄\&T(体温)\&P\&R\&身高\&体重\&就诊时间\&主诉\&现病史\&既往史\&是否有遗传\&初步诊断\&]

由于初步诊断对数据进行预测排除,选择“年龄,体重,高压,低压”作为线性数据,测试这些数据与结论是否成线性相关,结果如图4。

3) 训练

将数据导入IBM SPSS Modeler,根据需要建立工程,引入经过处理的数据源,显示数据源视图,定义挖掘模型,最后部署项目并处理挖掘模型。经过字段筛选,再制定训练规则,其训练规则使用如图5所示的规则,规则可以使用的最大时间为15分钟,准确性要达到90%以上。

4) 模型分析

通过执行上面规则的数据流,得到本模型的结果为图6神经网络预测:

从模型分析上显示,身高,体重及年龄对高血压的影响是最大的三个因素,并且结果直观,易懂,从此分析结果看使用神经网络来预测高血压病因是可行的,下面会进一步分析验证其指标。

4.2 高血压病因的决策树-CHAID模型分析

1)系统模型设计

本文要研究高血压的病因与哪些因素相关,因此下面使用决策树中的CHAID算法进行挖掘病案成因。决策树中的CHAID算法提供了一种在多个自变量中自动搜索能产生最大差异的变量方案,其模型需要一个单一的目标和一个或多个输入字,它以因变量为根结点,对每个自变量(只能是分类或有序变量,也就是离散性的,如果是连续变量,如年龄,收入要定义成分类或有序变量)进行分类。

2)模型的训练

高血压的病因CHAID模型挖掘测试,按上面的模型要求,处理好数据源,通过运行,结果显示如图7所示:

图形分析:使用CHAID模型测试的结果发现只有“身高”属性对高血压的病因形成是最主要的, 也就是说由根结点出发,生成的组只有一个,根据属性变量预处理的具体策略,如果仅有一个或两个分组,则不做合并处理至于原因有可能是因为本文的数据源输入及选取有一定的不准确性,故此结果对此病例作用不大,不能为医生提供预防病因的成因研究,所以此法对本病例不适合。

通过上面的挖掘分析结果显示,使用决策树中的CHAID算法对高血压的病因形成在本文的病案中结果都作为不合理处理。

4.3 高血压病因的线性模型分析

若采用线性建模,使用以下字段作为输入和目标, 作为关键输入和输出量,同时把初步诊断字段进行处理,因输出目标只能是逻辑型或数据值,因此把初步诊断为高血压者改为数字1,其他改为数字0,进行预测,结果发现“年龄”字段对高血压是影响最大的,结果如表1:

最终的结果分析图如图8线性结果分析所示,其目标结果的图形表示如图9线性目标结果的图形所示。由此可得知高血压病成因与“年龄”和“体重”是相关性最大的。

4.4模型验证分析

4.4.1 神经网络预测高血压模型分析验证

经过上面的使用神经网络预测高血压模型预测分析,我们得到了以下的预测结果如图10所示:

从图11结果得知,该预测的准确度达到92%,此准确度是可以作为我们评定这个模型是否成功的指标之一,我们在训练模型中规定了大于90%以上的准确度是可行的,同时我们在分析模型时其使用的模型规则,其置信度是基于预测的概率基础上的:从结果中我们可以看到高血压的形成与“身高”、“体重”、“年龄”这三个因素是最密切相关的,这说明结果是有一定的预测意义的。

我们还可以转换其神经元模型显示模式,选择网络图形显示,结果如图12神经元模型所示,根据此图的样式也可看出经过一层隐藏层最后得到跟高血压病症成因相关的比较重要的元素是年龄、体重与身高这几个指标,并且此指标也与线性模型研究结果一致,这些图形的显示直观易懂,因此神经网络模型分析高血压成因的使用是成功的,并且简单可行的。

结果分析: 所以我们可以得到结果该关联规则是“强关联规则”,此其结果直观易懂,操作简单。

5 结束语

通过神经网络模型预测高血压病发病成因,得到了影响高 (下转第6页)

(上接第4页)

血压成病的主要因素。本文通过采用线性回归法、人工神经网络法和决策树算法中的CHAID模型来诊断知识,得出线性回归法与人工神经网络这些模型在本病案中均易被医务人员使用者解读;并总结得出神经网络模型是预测影响高血压的主要因素病因的最合适预测算法,并且所获知识的可靠程度以及准确率明显优于其他算法,决策树中的CHAID算法对高血压的病因形成在本文的病案中结果都作为不合理处理,这是从使用者易理解性、判别分类准确率和可靠性角度综合之结果。

参考文献:

[1] 易静.医院信息数据挖掘及实现技术的探索[D].重庆医科大学博士论文,2007.

[2] 周怡,王世伟.医学数据挖掘--SQL SERVER2005案例分析[M].中国铁道出版社,2008.

[3] 丁小丽,杨涛,周金海. 利用人工神经网络分析疾病的影响因素一一以高血压为例[J]. 医学信息,2009(1):4-5.

[4] 王友仁,张砦,崔江,等.储剑波智能组卷系统的建模与算法研究[J].系统工程与实践,2004(9):85-89.

[5] 魏平,张元.一种求解组卷问题的遗传算法[J].宁波大学学报(理工版),2002,15(2):47-50.

[6] Kayawa M Sugita Y Morooka Sensor Diagnosis System Combining Immune Network and Leaning Vector ,1996,117(5):44-55.

[7] 苏新宁等.数据仓库和数据挖掘[M].清华大学出版社,2006.

[8] 韩力群.人工神经网络教程[M].北京邮电大学出版社,2007.

第11篇

【关键词】数据挖掘;电力行业;检修;预测

1.引言

电力行业信息化的现状。在过去近50年的时间里,电力行业信息化主要可以分为三个阶段:初级阶段,电力信息化较为基础,主要为电力企业利用IT打基础,包括对基础局域网的搭建,计算机的使用普及,以及针对一些简单应用进行的初步系统开发等等;中级阶段,也是我国目前各级电力企业的状总值,在这一阶段,企业中相应的部门、各电力分公司建立了现代化的信息中心,建立了完整的企业主干网,对于生产调度、生产营销等专业领域也构建了专业的业务支持系统。也构建了能满足电力企业的基础需求的电力信息化系统;高级阶段,集中型平台建设.集团网络架设全面业务整合平台。随着电力企业体制改革的推进,信息系统除了提供基础支持,更重要的是为企业的决策、管理、创新提供快速、全面的信息,企业已经不能满足于各个独立电力信息化已经不能仅仅的业务系统,对整合型平台的呼声也越来越高。

从上个世纪六十年代起,我国电力行业开始了信息化建设,电力系统的工程计算,变电站和发电厂的自动监测、监控等方面。到了八十年代,电力系统各个方面都被信息化覆盖,包括电力企业各个层次以及各级电力企业建立的不同的信息系统。随着科学技术的发展,以及信息化建设加快,电力系统的信息化系统产生并累积了大量的数据,有些数据甚至成为了信息孤岛。

电力行业信息化系统每天都在产生大量的数据,尤其是过程控制和数据采集对现场运行设备进行监视和控制,实现数据采集,设备控制采集,测量,参数据调节,以及各种信号报警等,这些数据中蕴藏着重要的信息,但缺乏从数据中提取知识的工具,企业很多重要的决定和决策不是根据数据库中的信息丰富的数据,而是凭经验和直觉做出,数据和信息之间形成鸿沟。

数据挖掘技术是近年来应运而生的一门新兴技术,它能够利用现有的计算机技术和各个相关领域的知识,将其组织成适合决策分析需要的分析数据,挖掘出有用的模式知识和规则,用来提高整个管理系统的决策分析能力,围绕电力企业关键指标体系,应用数据挖掘技术势在必行。

2.数据挖掘技术

数据挖掘又称为知识发现(knowledge discovery)、商业智能(business intellige-nce)、预测建模(predictive modeling)以及预测分析(predictive analytics)等等。这里使用的数据挖掘定义,数据挖掘是一项探测大量数据以发现有意义的模式(pattern)和规则(rule)的业务流程(business process)。从狭义上讲,数据挖掘是工具和技术的集合。它是用来支持以客户为中心的企业的几种必要技术之一。从广义上讲,数据挖掘是一种态度,即业务行动应该基于学习、知情的决定比不知情的决定要好,以及度量结果对业务有益等。数据挖掘也是一个应用分析工具和技术的过程和方法论(methodology)。

2.1 数据挖掘过程

数据挖掘的流程分为以下几个步骤:问题提出,数据收集(预处理),数据挖掘(算法执行),结果的解释和评估,知识,如图1所示。

图1 数据挖掘过程

2.2 数据挖掘的主要方法

2.2.1 关联分析

关联分析是指如果两个或多个事物之间存在一定的关联,那么其中一个事物就能通过其他事物进行预测,它的目的是为了挖掘隐藏在数据间的相互关系。在数据挖掘的基本任务中关联(association)和顺序贯模型(sequencing)关联分析是指搜索事务数据库(transactional databases)中的所有细节或事务,从中寻找重复出现概率很高的模式或规则。其属于灰色理论中的一种分析方法。

2.2.2 时间序列分析

时间序列分析(Time series analysis)是一种动态数据处理的统计方法。该方法基于随机过程理论和数理统计学方法,研究随机数据序列所遵从的统计规律,以用于解决实际问题。

2.2.3 聚类分析

聚类分析指将物理或抽象对象的集合分组成为由类似的对象组成的多个类的分析过程。它是一种重要的人类行为。聚类分析的目标就是在相似的基础上收集数据来分类。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。在不同的应用领域,很多聚类技术都得到了发展,这些技术方法被用作描述数据,衡量不同数据源间的相似性,以及把数据源分类到不同的簇中。

2.2.4 分类分析

主要是研究对有关信息进行分类的方法,分类模型以分析数据集中的某些数据得到另外的数据结果,主要分为预测离散变量的分类,预测的连续变量的回归(Regression),数据挖掘中广泛使用的分类方法有决策树,神经网络、径向基础函数等。

2.2.5 异常分析

一条信息在一定条件下可能是垃圾的信息,而在另一条件下可能是非常重要的数据。异常或孤点是事件过程的各种不正行为的反映,通常用“距离”的恒量,孤点就是离正常状态下的大量状态点较远的点,电力机关在盗电选案的过程中,选取从电力数据仓库中根据用电客户的状况,把客户常年用电量进行收集数据,将这些数据再用数据挖掘查找用电量明显偏离常规用量的客户,可以将这些客户作为有盗电的企业进行稽查。

3.电力行业中数据挖掘的研究

电力系统中,电能的生产和使用可以分为发电、输电、配电、用电四个环节,它主要有以下特点:电能不能大量储存;发电、输电、配电、用电各环节组成统一的不可分割的整体;电能生产、输送、消费工作状态的改变十分迅速;对电能质量的要求颇为严格。因此在这样一个非线性的电力系统中,保证可靠地持续供电,保证良好的电能质量,保证系统运行的经济性是其最终目的,电力行业信息化开启后,在长期的运行过程中,收集了大量的数据,用传统的分析方法,无法完成对数据分析,若要从中发现的规律,提高系统的性能,就必须利用这此后数据为决策提供更快更有效地支持。数据挖掘的应用提供了一个开拓了这样的空间。

3.1 电力行业中的数据挖掘系统模型

数据挖掘系统模型由源数据服务层、数据挖掘服务层、服务接口层、用户层组成,如图2所示。

图2 电力行业中的数据挖掘系统模型

3.2 数据挖掘在电力行业中的应用领域分析

3.2.1 负荷预测

电力调度运行部门在电力系统的运行中始终处于重要地位.电力负荷预测是电力调度系统的最重要工作之一,电力负荷的预测结果将为发电厂为各机组制定发电计划提供数据保障,预测结果的准确度直接影响电力企业的生产效益和经济效益。用户用电负荷规律具有一定的随时间变化规律性,可以采时间序列模型,在对历史用电数据进行挖掘后,对电力负荷进行预测,用决策树按时间,区域、气候等相关因素对用电记录进行聚类分析,可以为调度部门做出相关决策提供有力的帮助。

3.2.2 电力设备状态检修

传统上,电力设备长期实行检修体制是:事后维修、预防性计划检修,主要包括定期维护、临修、小修、大修等形式。这种的主要缺点是:临时检修频繁,维修不足,过剩维修,盲目维修等。为解决这个缺点,电力系统正步向状态检修体制过渡。状态检测与设备故障诊断技术在电力设备上得到推广应用。状态检修是一种通过收集电力设备状态数据,并以数据为基础、预测电力设备状态未来发展趋势为根据的电力设备检修体制。

状态检修通过收集电力设备的日常检查数成、定期重点检查数据、在线状态检测数据、故障诊断数据等,经过数据挖掘系统分析处理,通过挖掘的结果来预判设备的健康和性能优劣状况及其性能发展变化趋势,确定设备的维修状态,有计划地安排检修。

采用数据挖掘技术对设备的检测数、试验数据进行分析,揭示电力设备性能状态渐变和寿命捐赠耗规律,及时、准确地发现潜在的故障的早期征兆,快速地对故障部位的严重程度及发展趋势做出判断,确定科学有效的检修计划。

如在变压器检修中,用回归分析法分析变压器绝缘油运行中开成的各种气体浓度情况,判定变压器的状态。

3.2.3 电力营销策略支持

电力营销主要业务:(1)分析各因素对用电水平的综合影响,做好用电量需求预测;(2)电费回收及欠费风险分析控制;(3)电价制定;(4)客户细分。

利用数据挖掘技术,对一段时间里电力系统中电能用量与时间变化的关系数据进行挖掘,掌握数年内电能需求的时间序列反映的方向和趋势,进行预测和推断。采用聚类技术来进行电力客户细分。分析用户的数据情况和根据分析需要,采取不同聚类算法来进行客户细分。利用关联规则分析市场环境与销售电量水平的关联度,寻找不同市场环境中影响电量销售变化的因素。利用决策树挖掘市场环境内部各个因素之间对电量水平变化的层次关系。

4.结论和展望

电力信息化在电力行业使用越来越广,收集的数所越来越大,数据挖掘技术可以从海量的数据中挖掘出有用的知识和规则,用于电力行业的决策支持,这是传统的工具和方法,无法达到的,因此在电力行业中推广数据挖掘的应用,能有效提高信息系统的效能,提高电力行业决策的准确性,同时我们也发现数所挖掘也存在不足,它需要专业的人员培训,专业的应用软件,以及数据挖掘管理理念的建立的支持,在行业中如何解决这几个问题,是数据挖掘得到充分应用的有力保证,也是数据挖掘能否发挥其能力,开发电力行业信息系统潜能的关键。

参考文献

[1]张志磊电力信息系统中单一登录和访问控制方法的研究[D].华北电力大学(保定),2007.

[2]仇卫东.电网规划基础数据管理分析[J].电力建设, 2011(10).

[3]徐鑫.安徽电力公司ERP项目实施研究[D].合肥工业大学,2011.

[4]史小梅.数据挖掘在电力决策支持系统中的应用[J].上海电力学院学报,2010(4).

[5]西安美林电子有限责任公司,大话数据挖掘[M].清华大学出版社,2013(1).

[6]梁瑜.数据挖掘技术及其在电力系统中的应用[J].内蒙古广播与电视技术,2012,29,3.

[7]Gordon S.Linoff著.巢文涵译.数据挖掘技术(第3版)[M].清华大学出版社出版,2013(3).

[8]邵峰晶.数据挖掘原理与算法[M].中国水利水电出版社,2003(08).

[9]肖峻.基于关联分析的城市用电负荷研究[J].电力系统自动化,2007,31(17).

[10]张哲.基于支持向量机的变压器状态评估和故障诊断的研究[J].华北电力大学(北京)硕士论文库,2009.

[11]李皎.数据挖掘在电力营销中的应用[J].华北电业,2013(1).

第12篇

【关键词】搜索引擎 网络数据挖掘相关技术 研究

在社会的发展之下,网络已经成为人们生活与生产中必不可少的工具,但是网络中充斥的大量繁杂信息也在一定程度上影响着人们的信息获取速度,网络信息检索在检准率与检全率方面依然难以满足人们的需求,而将网络数据挖掘技术应用在其中即可很好的解决这一问题。

1 数据挖掘技术简介

数据挖掘技术就是从大量模糊、随机、不完全、有噪声信息中提出有用信息的一个过程,与数据挖掘技术相关的技术还有数据分析技术、数据融合技术、知识发现技术等等,在技术水平的发展下,统计学方法、决策树、关联分析等一些新型数据挖掘技术也相继出现。与数据挖掘不同,信息检索实质上是一种信息发现任务,也是知识发展过程中的重要环节,信息检索能够帮助人们了解各项静态信息,但是难以分析到数据间的关系及其未来发展趋势。而应用数据挖掘技术则可以有效提升系统检索能力,预测出未来的走势,因此,将数据挖掘技术应用在搜索引擎中也是大势所趋。

2 搜索引擎与网络数据挖掘

网络数据挖掘是一种将数据挖掘技术与网络融合的一种新模式,网络数据挖掘也能够称之为Web挖掘,网络数据的页面复杂、数据内容繁杂,文章也具有不规则性,将数据挖掘技术应用在数据挖掘中可以有效的解决上述问题,根据处理对象,网络数据挖掘任务有三种类型,即网络内容挖掘、网络使用挖掘与网络结构挖掘。

2.1 网络内容的挖掘

网络内容挖掘就是从网络数据、网络内容与网络文档中挖掘信息,很多网络信息是能够在网络中过去的,但是依然有很大一部分数据难以采用该种方法获取,如使用PHP、JSP与ASP的动态网页,拒绝访问的网站,商业数据库中的数据。这些内容都能够使用网络内容挖掘法来获取,这可以使用两个方法:网络页面内容挖掘法与搜索结果再挖掘法。

2.2 网络结构挖掘法

网络结构挖掘法强调挖掘网页中的链接结构,并从中推导相关的知识,这种挖掘法与引文分析有着密切的关系,网络中的链接信息能够为数据挖掘提供全面的支持,为了获取到理想的效果,可以来分析网页链接与链接数量,并建立起链接结构模式。其常用的算法有Propriteary算法、Google算法、HITS算法与PageRank算法四种。

2.3 网络使用挖掘法

网络使用挖掘法就是通过日志发现来访问页面的一种模式,与网络内容挖掘模式和网络结构挖掘模式不同,网络使用挖掘法的挖掘对象非是网络与用户交互中的二手数据,这些数据大多来自Cookies或者Web服务器中的信息、系统交互信息与访问记录。

3 数据挖掘技术在网络信息检索中的应用作用

目前,人们已经进入了一个信息爆炸时代,虽然众多搜索引擎网络可以满足人们对于信息检索的基本需求,但是还是有很多地方不到位,目前,网络挖掘技术已经开始在网络领域中得到了应用,也取得了一定的成效。实践显示,将数据挖掘技术应用在网络信息检索中能够取得如下的效用:

3.1 提升标引准确性

标引能够准确选择出文献的检索标示,网络信息范围广、复杂性高、数量多,使用人工标引很难取得理想的检索效果,因此,必须要使用自动标引。将网络数据挖掘技术应用在其中能够深刻的揭示出相关信息的联系,帮助用户在文档中进行标注,提升信息摄取的准确性。而以此为基础来应用加权算法则能够得出具体的信息关联,对于提升检索效果有着十分积极的效用。

3.2 可以对检索结果进行分类

在网络世界中,各个网站之间的转载情况严重,用户在使用搜索引擎时必然会检索出大量的重复信息,这不仅会降低检索效率,也会浪费资源。将数据挖掘技术应用在检索工作中就能够挖掘出网页中的语义内容,有效提升检索效率。此外,数据挖掘技术也可以有效提升检索质量,该种方法是建立在层次法与划分法基础上,如果检索文档相似性大,即可进行聚类处理,将处理后的信息用层次化方式提供给用户,用户可以根据自己的需要自行选择,这就有效减少了浏览数量。

3.3 能够提升自动摘要质量

自动摘要即利用网络来分析文章结构、主题语句的方式,自动摘要可以有效帮助用户来加工与整合信息,与自动摘要相比,人工编制摘要会浪费大量的时间,将网络数据挖掘技术应用在搜索引擎中能够提升自动摘要的质量,该种技术是通过文档内容来总结文本信息,能够将Web中的重要内容总结起来,并提取出摘要。这对于优化网络信息资源的处理质量有着十分积极的意义。

4 结语

总而言之,将数据网络挖掘技术应用在搜索引擎中已经成为了一个大势所趋,采用该种技术可以有效提升标引、自动分类、自动摘要以及自动聚类的准确性,可以根据用户的具体需求来建立模型,从而为用户提供出更加针对性的信息支持。其中,最为常用的技术就是自由分类法,自由分类法能够将难以用传统方式细化的信息归入熟悉类目中,并在排序检索与信息组织上很好的弥补与了传统搜索方法的缺陷,但是,该种方法也存在一些局限性,多应用在小范围网络中,相信在不久的将来,网络数据挖掘技术定可以在搜索引擎中得到更加广泛的使用。

参考文献:

[1]狄浩林. 面向精确营销基于数据挖掘的3G用户行为模型及实证研究[D]. 北京邮电大学 2012