时间:2022-11-25 15:36:49
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘总结,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:数据挖掘;应用;研究
一 、数据挖掘
随着数据库技术的广泛使用,以及计算技术和计算机性能与网络的迅速发展,人们面临着一个困难的问题,即如何从海量的数据中提取出有价值的信息。查询功能远不能满足人们的需要,数据挖掘应运而生。有人将数据挖掘定义为一个从数据及数据库中抽取隐含的,先前未知的并有潜在价值的信息的过程。但有人认为数据挖掘,即数据库中的知识发现,是从大数据集中快速高效地发现令人感兴趣的规则,数据挖掘是数据库研究的新领域,所挖掘的知识能够用于信息、管理、查询处理、决策支持和过程控制等等。
数据挖掘(DataMining)是通过分析每个数据,从大量数据中寻找其规律的技术,主要有数据准备、规律寻找和规律表示三个步骤。随着计算机网络的发展和普遍使用,数据挖掘成为迫切需要研究的重要
课题。
数据挖掘涉及多个学科方向,主要包括:数据库、统计学和人工智能等。数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几方面进行分类。按数据库类型分类:关系数据挖掘、模糊数据挖掘、历史数据挖掘、空间数据挖掘等多种不同数据库的数据挖掘类型。按数据挖掘对象分类:文本数据挖掘、多媒体数据挖掘、Web数据挖掘。按数据挖掘的任务有:关联分析、时序模式、聚类、分类、偏差检测、预测等。按数据挖掘方法和技术分类:归纳学习类、仿生物技术类、公式发现类、统计分析类、模糊数学类、可视化技术类。
二、数据挖掘的主要任务
(一)数据总结
数据总结目的是对数据进行浓缩,给出它的总体综合描述。通过对数据的总结,数据挖掘能够将数据库中的有关数据从较低的个体层次抽象总结到较高的总体层次上,从而实现对原始基本数据的总体把握。
(二)分类
分类的主要功能是学会一个分类函数或分类模型(也常常称作分类器),该模型能够根据数据的属性将数据分派到不同的组中。即:分析数据的各种属性,并找出数据的属性模型,确定哪些数据属于哪些组。这样我们就可以利用该模型来分析已有数据,并预测新数据将属于哪一个组。
(三)关联分析
数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。关联分析的目的是找出数据库中隐藏的关联网,描述一组数据项目的密切度或关系。有时并不知道数据库中数据的关联是否存在精确的关联函数,,即使知道也是不确定的,因此关联分析生成的规则带有置信度,置信度级别度量了关联规则的强度。
(四)聚类
当要分析的数据缺乏描述信息,或者是无法组织成任何分类模式时,可以采用聚类分析。聚类分析是按照某种相近程度度量方法,将用户数据分成一系列有意义的子集合。每一个集合中的数据性质相近,不同集合之间的数据性质相差较大。
统计方法中的聚类分析是实现聚类的一种手段,它主要研究基于几何距离的聚类。人工智能中的聚类是基于概念描述的。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
三、数据挖据的应用
数据挖掘技术源于商业的直接需求,因此它在各种商业领域都存在广泛的使用价值。现在已经应用数据挖掘技术的领域都是信息量大、环境复杂、需要知识帮助进行管理和决策的领域。下面介绍一些目前比较活跃的应用方向:
(一)在金融数据分析中的应用
多数银行和金融机构都提供了丰富多样的储蓄,信用,投资,保险等服务。他们产生的金融数据通常比较完整、可靠,这对系统化的数据分析和数据挖掘相当有利。在具体的应用中,采用多维数据分析来分析这些数据的一般特性,观察金融市场的变化趋势;通过特征选择和属性相关性计算,识别关键因素,进行贷款偿付预测和客户信用分析;利用分类和聚集的方法对用户群体进行识别和目标市场分析;使用数据可视化、链接分析、分类、聚类分析、孤立点分析、序列模式分析等工具侦破洗黑钱和其他金融犯罪行为。
(二)在电力业的应用
在电力行业中,数据挖掘技术主要用于指导设备更新、业绩评估、指导电力企业的建设规划、指导电力的生产和购买、指导电力的调度等。数据挖掘在电力企业的其它方面也有巨大的用处,比如说指导项目管理、安全管理、资源管理、投资组合管理、活动分析、销售预测、收入预测、需求预测、理赔分析等。
(三)在零售业中的应用
零售业是数据挖掘的主要应用领域,这是因为零售业积累了大量的销售数据,如顾客购买史记录、货物进出、消费与服务记录以及流行的电子商务等等都为数据挖掘提供了丰富的数据资源。零售数据挖掘有助于划分顾客群体,使用交互式询问技术、分类技术和预测技术,更精确地挑选潜在的顾客;识别顾客购买行为,发现顾客购买模式和趋势,进行关联分析,以便更好地进行货架摆设;改进服务质量,获得更好的顾客忠诚度和满意程度;提高货品的销量比率,设计更好的货品运输与分销策略,减少商业成本;寻找描述性的模式,以便更好地进行市场分析等等。
(四)在医学上的应用
近年来,生物医学研究有了迅猛地发展,从新药的开发到癌症治疗的突破,到通过大规模序列模式和基因功能的发现,进行人类基因的识别与研究。在人类基因研究领域具有挑战性的问题是从中找出导致各种疾病的特定基因序列模式。由于数据挖掘中已经有许多有意义的序列模式分析和相似检索技术,因此数据挖掘成为DNA分析中的强有力工具。基因序列的相关分析,遗传研究中的路径分析等。近期DNA分析的研究成果已经促成了对许多疾病和残疾基因成因的发现,以及对疾病诊断、预防和治疗的新药物、新方法的发现。
(五)在高校和科研单位以及其他领域的应用
主要是用于海量信息数据的抽取,提供给教研和科研人员有价值的数据。比如在数字图书馆方面可以引入数据挖掘技术。同时还可以应用的电子商务等等众多领域。
参考文献
[1]邹先霞、王淑礼、魏长华.数据仓库与数据挖掘技术浅谈[J].高等函授学报(自然科学版),2000,(03).
关键词:大数据;数据挖掘;电子商务;教学设计
0引言
近几年,随着互联网技术的发展和对人们工作生活的不断渗透,随着移动互联、物联网、云计算、智慧工程等新兴信息技术的出现和普及,数据在人们的生活中呈爆炸式增长,人们开始进入大数据时代。由于海量数据中记录了企业的发展、运营以及人们生活和行为的点点滴滴,所以,挖掘海量数据背后存在的模式、规律和趋势,并结合各行各业进行创新应用,已经成为这个时代的重要课题。我国电子商务经过近20年的发展和数据累积,已经从用户为王、销售为王进入到数据为王的阶段,如何针对用户消费行为的分析,提升电子商务的运营效率,促进精准营销的开展,增加客户黏性,从而实现电子商务的智能化发展,是当前电子商务发展的重中之重。因此,在大数据背景下,为适应行业发展需求,国内外很多高校,尤其是应用型本科院校,在电子商务专业本科生中陆续开设大数据分析与挖掘系列的课程,其中作为大数据研究与应用的重要支撑技术的数据挖掘,是其中一门重要课程。
1电子商务专业开设数据挖掘课程的必要性
1.1行业发展的必然要求
进入大数据时代,“互联网+”技术与传统行业深度融合,电子商务数据已覆盖了从用户、商家、第三方、物流等一系列商务环节。因此,充分利用大数据,有效分析和挖掘大数据的价值和规律,已成为推动电子商务深化发展的重要引擎。首先,数据挖掘技术是电子商务智能化的基础。由于电子商务的活动从开始就具备了信息电子化的先天优势,所以,用户在电子商务网站上发生的所有行为信息都被日志记录,包括用户对产品的搜索、浏览、在购物车加入或取出商品、收藏产品、对商品的讨论、评价、分享等。对这些用户行为信息进行收集和分析,可以挖掘用户的兴趣特征和潜在需求,实现对用户的个性化推荐。其次,数据挖掘技术支撑电子商务的精细化营销的实现。通过网络爬虫收集用户在消费过程种对商品的兴趣、偏好、评价等数据,并进行分析挖掘,可以更好地对用户进行细分,针对性地制定营销策略,更准确地把握用户态度和对产品的情感倾向,及时控制营销中的不良影响,从而提升用户体验和用户黏性。第三,数据挖掘技术推动电商物流的优化。通过对电商物流数据的分析和挖掘,可以预测市场需求变化的规律,帮助企业合理地进行库存管理和控制,优化配送路线,进行物流中心选址策略分析等。可见,对于电子商务专业大学生开设数据挖掘课程是行业发展的必然需求。
1.2专业人才培养的迫切需求
电子商务是利用信息和通信技术,通过Internet在个人、组织和企业之间进行商务活动和处理商务关系的一种活动。随着云计算、物联网及移动互联等新兴信息技术的迅速发展,大量传感器和监控设备不间断的数据采集和行业数据的持续积累,使大数据成为时代的鲜明特点。教育部电子商务专业教学指导委员会王伟军教授等人对138个电子商务专业本科人才的市场招聘需求进行研究发现,网络营销与数据分析是当前电子商务专业的主要能力需求,而目前我国开设电子商务专业的高校中开设数据挖掘及其相关课程的只有14所。因此,该类别人才缺口目前较为严重,市场需求量较大。为了适应时展需求,高校在人才培养时既要注重电子商务运营管理能力的培养,同时更要注意商务数据分析与挖掘能力培养。培养同时具备这两种能力,并且可以将两种能力有效结合起来的应用型人才,是当前高校电子商务专业发展的趋势和方向。总之,在当前的电子商务活动中,商务管理是核心,数据分析与挖掘是手段。在大数据背景下,要提升电子商务的管理效率,实现电子商务的智能化发展,必须应用好数据挖掘这把利器。因此,在电子商务专业开设数据挖掘课程,是行业发展的必然要求,也是专业发展的迫切要求。
2电子商务专业数据挖掘课程教学思路设计
数据挖掘是一门交叉学科,涉及统计学、数据库、机器学习、高性能计算等多门学科相关内容,要求学生具有较为扎实的基础知识。由于课程难度较大,早期高校都把该课程作为研究生的专业课程。为适应市场需求和行业发展,近年来,也有些高校将此课作为本科生高年级选修课开设。从该课程的传统教学上来看,由于学生理论基础不够扎实,课程教学又多侧重算法的分析与实现,导致该课程存在教学难度大、理论教学过多、学习兴趣难以提高等问题。考虑到传统教学的问题以及电子商务专业培养应用型本科人才的实际情况,笔者认为该课程在教学过程中应“轻算法,重应用”,以启发学生数据思维为主,以理解算法思路为主(忽略细节实现),以合理构建数据挖掘模型、正确解读数据挖掘结果为主。在组织教学时,采用基于场景的启发式教学方式。该课程在讲授每个数据挖掘方法时,都通过一个电子商务问题进行导入;通过本节所授方法,形成解决问题的思路;最后通过专门数据挖掘软件进行方法的应用,通过对挖掘结果的解读分析,为导入问题的决策分析提供依据。通过这种由浅入深,由易到难的方式,引起学生学习兴趣,激发学生主动思考,真正成为课堂的主体。实践环节是学生理论联系实际的关键步骤,选用合适的数据挖掘软件工具非常重要,对于电子商务专业的学生,数据挖掘重在问题的建模和方法的应用,所以,该课程选择的数据挖掘工具是IBM公司的SPSSModeler。SPSSModeler拥有丰富的数据挖掘算法,本课程涉及到的分类、聚类、关联分析、时序分析、社会网络分析挖掘等主要数据挖掘功能均可实现,而且其操作简单易用,分析结果直观易懂,可以使用户方便快捷地实现数据挖掘。学生通过对算法基本思路的了解,针对实验问题设计数据挖掘方案,并通过数据挖掘软件进行算法的应用和结果的分析,理论和时间的顺利衔接,进一步加深学生对数据挖掘方法的认识和理解。
3电子商务专业数据挖掘课程教学内容设计
数据挖掘课程主要讲解数据挖掘的基本概念、主要方法和技术、应用情况及发展趋势,目的在于启发学生的数据思维,提升学生数据分析与挖掘的能力,深入理解电子商务数据在电子商务中的重要地位和作用,实现商务管理和数据挖掘的有机结合。由于数据挖掘课程理论性和应用性均较强,反映在教学要求上,既要重视理论学习,又要重视实践环节。具体来说,就是一方面通过理论教学使学生对理论内容有较深入的理解和领悟;另一方面结合实践教学,鼓励学生多动手,多思考,综合运用所学知识分析和解决实际问题。
3.1理论教学设计
针对大数据时代的数据特点和应用特点,在数据挖掘课程的理论教学设计时,其内容不仅包括传统的基础性的分类、聚类、关联分析、时序分析等数据挖掘方法,还注重根据电子商务行业特点进行知识的拓展介绍,比如在将关联分析的时候,除了传统的购物篮分析,还增加了序列模式分析内容;比如在结合社会化电子商务的发展,对社会网络分析、文本挖掘等前沿数据挖掘知识也进行了一定的拓展介绍。这些拓展内容,不但丰富了学生的知识体系,也为部分学生的课下深度扩展指明了方向。我校电子商务专业的数据挖掘课程总学时为48学时,其中理论教学32学时,主要内容及其学时分配如表1所示。表1数据挖掘课程理论教学安排序号章节标题内容提要学时1数据挖掘概述数据挖掘基本概念与功能;基本流程与步骤;基本方法与应用;拓展:数据库,数据仓库与数据挖掘的关系22数据预处理数据清洗;数据的集成与转换23分类分析决策树分类;贝叶斯分类;分类特点及结果分析64聚类分析K-means聚类;两步聚类;聚类特点与结果分析65关联分析频繁项集;关联规则挖掘;关联分析效果评价;拓展:序列模式分析86时序分析移动平均模型;指数平滑模型;拓展:ARIMA模型67数据挖掘发展趋势社会网络分析;文本挖掘;Web挖掘2理论教学在组织时,基本上以“课堂引例-问题分析-算法思路讲解-课后练习”的方式展开。通过实例分析,给学生介绍各种算法的基本思想和相关概念,引起学生学习兴趣。在讲授算法时,通过具体的简单数据演算实例来分析数据挖掘的过程和结果,使学生在实际案例中明白数据挖掘算法在处理数据过程中的作用和意义。虽然该课程开设在电子商务专业的第六学期,但是,由于数据挖掘课程本身需要多个学科的基础知识,在目前的大学课程体系内,难以在有限的时间内开设全部先修课程。因此,在理论讲解时,对涉及到学生比较生疏的知识点,应根据学生的知识水平,予以补充说明。例如,在讲决策树分类时,对于信息论中信息熵基本概念和计算方法,可以结合实际数据集合,进行讲解和计算。
3.2实验教学设计
数据挖掘是一门紧密结合实际应用的课程,具有较强的实践性。实践教学环节中,首先教师讲解实验步骤,然后安排学生进行实验,并对实验结果做详细分析与评价。每个实验要求学生完成以下几方面的内容:(1)根据实验问题设计数据挖掘方案和实施流程;(2)进行数据预处理,并构建数据挖掘模型;(3)解读数据挖掘结果,并联系实验问题进行具体分析;(4)实验拓展与总结。在实验拓展和总结部分,可以设计一些开放性的题目,比如在进行关联分析时,可以设计这样的问题“如果支持度阈值设置时降低十个百分点,频繁项集会有哪些变化?关联规则的准确性和适用性会有哪些方面的变化?”。在实验环境下,学生可以通过对比实验,比较容易得到结果,而在总结这些变化规律时,又可以强化和巩固对关联规则、频繁项集、支持度、置信度等这些概念和指标意义的理解,从而更好的应用在以后的工作实践中。结合电子商务活动特点以及数据挖掘在电子商务中的应用,该课程的实验是16学时。在实验设计时,共设计了五个单人实验和一个综合性多人实验.由于使用数据挖掘技术处理实际问题时,很多时候需要综合运用一些数据挖掘方法,其设计方案不止一种,分析结果也不一定完全一致。为激发学生的主观能动性,本课程在最后需要每个小组共同完成一个综合性的数据挖掘作业。研究表明,对于本科生来说,指导教师给出一些具体的题目,如大学生消费状况预测、校园共享单车满意度分析等,这些热点问题更容易激发学生的学习兴趣。综合作业从数据挖掘方案的设计、数据采集、数据预处理、数据建模、结果分析以及报告撰写全部由小组成员协作完成,通过这样一个完整的分析问题、解决问题的过程,不但可以锻炼学生综合应用知识的能力,也可以锻炼学生的沟通写作能力。在综合性作业完成的过程中,教师需要给予一定的指导,例如教师可以介绍问卷星等网络调查平台或网络爬虫等工具帮助学生进行原始数据的采集;通过对数据挖掘方案的点评,帮助学生更合理的选取数据分析指标,设计数据挖掘方案;通过报告撰写指导,帮助学生规范化的总结实验分析结果。
4结论
大数据时代的电子商务活动中,对电子商务人才的数据挖掘和分析能力非常迫切,在电子商务专业中开设数据挖掘课程是行业发展和专业发展的必然要求。在电子商务专业开设数据挖掘课程既有别于研究生也有别于计算机等理工科专业,“轻算法,重应用”,以提升学生主动学习兴趣为导向,采用基于场景的启发式教学方法更合适。本文从教学思路、教学方法、教学内容等方面进行了思考和探索,经课程开设两年来的教学实践证明,学生在学习上的主观能动性得到了一定的体现,理论和实践相结合的能力得到了锻炼。激发学生学习兴趣,培养学生的主动性思维,是当前教学中的重要课题,在电商行业不断发展的过程中,如何更好的将最新行业问题融入教学过程,实现理论和实践的有机结合,需要我们进一步深入思考和探索。
参考文献
[1]冯然,陈欣.论数据分析类课程在电子商务专业设置中的重要性[J].河南教育,2015,(2).
[2]黄岚.数据挖掘课程实践教学资源库建设[J].计算机教育,2014,(12).
[3]薛薇.基于SPSSModeler的数据挖掘(2版)[M].中国人民大学出版社,2014.
[4]李海林.大数据环境下的数据挖掘课程教学探索[J].计算机时代,2014,(2).
[5]韦艳艳,张超群.“数据仓库与数据挖掘”课程教学实践与探索[J].高教论坛,2011,(1).
关键词 数据挖掘;关联分析;聚类分析
中图分类号TP311.13 文献标识码A 文章编号 1674-6708(2010)33-0257-02
1 数据挖掘的概念
随着计算机技术的高速发展,互联网技术的风靡,获得相关资料已经是很方便了。但是人们也积累了大量的数据信息,面对这些庞大的数据,如何从中提取有用的信息成为当务之急,为此,数据挖掘技术应运而生。数据挖掘(Data Mining)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的,人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是发现知识的关键步骤。
2 数据挖掘的作用
2.1 关联分析
关联是反映两个或者两个以上事件之间存在某种依赖或联系规律性。关联规则挖掘是由Rakesh Apwal提出来的。在数据库中,如果存在一项或多项之间的关联,则其中一项属性值能够依据其他属性值进行推测。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中所有频繁项目集,这是数据挖掘中最成熟的技术之一。例如:每天购买洗发水的人也有可能购买肥皂,比重有多大。
2.2 聚类分析
聚类分析是把数据按照所选样本的关联相似性划分成若干小组,同一小组中的数据具有较高的相似度,不同组中的数据则相异,即同组中的相似性尽可能大,而组别间的相似性尽可能小。聚类事先不知道组别数和各组的相似特性。聚类分析可以发现数据的分布模式,以及可能的数据属性之间的相互关系。例如:将学生分为成绩优秀的学生,成绩中等的学生,成绩差的学生。
2.3 分类
分类就是按照以前数据库中的数据,分析它们的属性、特征,找出一个类别的概念描述,并利用这种描述构造模型,每个类别都代表了本类数据的整体信息,一般用规则或决策树模式表示。分类事先知道类别数和各类的典型特征。例如:学校根据以前的数据将教师分成了不同的类别,现在就可以根据这些来区分新教师,以采取不同的待遇分配方案。
2.4 预测
预测是利用历史和当前的数据找出变化规律,推测未来数据的种类及特征。预测是以时间为关键属性的关联规则。例如:对未来经济形势的判断。
2.5 偏差分析
数据库中的数据存在很多异常情况,偏差是对差异和极端情况的描述,发现数据库中数据偏离常规的异常现象,揭示内在原因。例如:在本次数学测试中有30%的同学不及格,教师为了提高教学质量,就要找出这30%不及格同学的内在因素,提高及格率。
3 数据挖掘的流程
3.1 定义目标
为了避免数据挖掘的盲目性,首先就必须清晰地定义出业务问题,确定数据挖掘的目标。挖掘的目标明确了,但结果是不可预测的。
3.2 数据准备
1)数据选择。在大型数据库和数据仓库目标中搜索有关的内、外部数据信息,提取适用于数据挖掘的数据;
2)数据预处理。研究数据信息,进行数据的加工、集成等,去除重复的数据信息,选择要进行数据挖掘的数据,并定义数据类型;
3)数据转换。数据转换决定数据挖掘能否成功,数据转换就是将数据转换成一个针对挖掘算法的模型。
3.3 数据挖掘
根据数据功能的类型和数据的特点完善和选择合适的挖掘算法,对所得到的经过转换的数据进行数据挖掘。
3.4 结果分析
解释和评估数据挖掘的结果,最终转换成用户能够理解的知识。
3.5 知识的同化
将分析所得到的知识集成到业务信息系统的组织结构中去。
4 数据挖掘的应用
4.1 数据挖掘技术在市场营销中的应用
数据挖掘技术普遍应用于市场营销中,假定“以往消费者的行为是未来消费者的消费理念的直接解释”,以市场营销学的市场细化原理为基础。通过收集、整理消费者以往的消费信息为数据信息,总结消费者的特点及兴趣爱好,根据不同的属性分类,推测出类似消费群体的消费行为,对不同类的消费群体进行定向营销,这样降低了营销的盲目性,节省了营销成本,提高了营销效率,为企业创造出更多的利润。
在经济发达国家和地区,许多企业都利用数据挖掘技术对数据信息进行加工处理,针对不同的消费群体,发出不同的营销材料,以突出自己的竞争优势,扩大产品的营业额。
4.2 数据挖掘技术在商业银行中的应用
数据挖掘技术广泛应用于金融界,金融事务搜索大量的数据信息,对这些数据进行加工处理,发现其特征,从而发现不同类别客户的特点,评估其信誉,推测其需求。商业银行所作业务的利润与风险是并存的,为了保证最大利润和最小风险,必须对客户的账户进行科学精确的分析归纳。
美国银行使用数据挖掘技术工具,根据不同消费者的特点制定不同的产品,增强其竞争优势。
4.3 数据挖掘技术在医学上的应用
数据挖掘技术在医学上的应用相当广泛,可以利用数据挖掘技术手段来提高从药物的生产制造到医疗诊断等的效率和效益。在药物生产方面,通过对药物分子结构的分析,可以确定是什么成分对病患的治疗发挥了作用,从而推测出该药对什么病有治疗作用;在医疗诊断方面,通过对基因的分析处理,可以确诊是什么发生了病变,属于哪种病毒等。
4.4 数据挖掘技术在欺诈甄别中的应用
银行或者商业上经常发生欺诈行为,给银行和商业单位带来了不可估量的损失。通过数据挖掘可以对这种欺诈行为进行预测,总结各种诈骗的行为特征,提醒广大人们注意。
5 结论
数据挖掘技术是一个全新的研究领域,每年都有新的数据挖掘方法和模型产生,随着数据库等技术的发展,数据挖掘技术的应用领域将会更加广泛和深入。尽管如此,数据挖掘技仍然存在许多问题需要解决,尤其是超大规模数据挖掘的效率有待提高。
参考文献
[1]李雄飞,李军.Data Mining and Knowledge Discovery.数据挖掘与知识发现[M].北京高等教育出版社,2003.
关键词:客户;电信市场;电信客户细分;数据挖掘
中图分类号:TP311.13 文献标识码:A 文章编号:1674-7712 (2013) 24-0000-01
随着通信市场竞争日趋激烈,电信客户的通信需求和消费理念都发生了显著的变化。为满足客户的应用需求、提升市场竞争力,就必须将当代通信服务由以产品为导向以客户需求为导向转变,通过建立客户数据库,对客户的类别属性、消费类型以及消费倾向等进行分析。数据挖掘技术是一种大数据环境下的数据分析方法,其可以在海量数据中建立一种内在的联系,基于该联系对客户进行细分,协助企业制定更具价值的认知体系和决策规则。
一、电信客户细分特点
客户细分包括客户描述与划分两部分内容。前者主要是提取可用于描述客户的特征和属性,以便于可应用该描述内容对客户行为模式进行预测和评估。后者主要是对经过特征化后的客户进行类别划分,使具有共同类别与特点的用户归入同一类别,以便于增强服务和营销的针对性与有效性。对客户进行细分可以调整资源分配结构,满足商业目的,对不同类型的客户指定不同的营销策略。
电信市场是典型的以客户为中心的消费市场,对该市场客户进行细分可以提升企业争取新客户、保留老客户、维护现有客户价值、拓展企业市场份额与经济效益的目的。
总结来看,电信客户细分中需要从以下几方面特征出发:一是电信客户消费具有持续性,为维系客户关系,就需要以该特征为着力点;二是电信客户消费层次和类别更为明显,如电信企业的客户分为具有较强稳定消费能力的集团用户和消费能力差别较大的个人用户;三是客户自身特点占据的权重较大,如客户的消费习惯、个人价值、品牌忠诚度、人际关系等。
二、数据挖掘技术及其在电信客户细分中的应用特点
数据挖掘技术本质是借助大量的知识体系和数据分析技术对海量、无序的数据信息进行整合与关联建立,从中提取可有效反映数据内部规律和模式,并依照所总结出来的规律与模式对未来的发展情况进行预测与评估,帮助决策者制定更有效的执行策略。
传统的电信客户细分方法主要使用资料调查或客户价值分析等两种,前者具有较少的细分维度,调查结果更易理解和应用,但是受调查样本数量的限制,其结果的可靠性和有效性有待进一步确认;后者操作简单,对于高价值电信客户细分具有良好的应用效果,但是在体现不同客户、不同业务、不同消费结构差异性等方面存在一定的缺陷。
在电信客户细分中应用数据挖掘技术可以有效利用企业发展过程中产生的大量数据进行多维度、多层面、多角度的客户细分,并为细分结果提供高可靠性的理论支持。特别是数据挖掘技术中的聚类分析方法可以将客户群按照电信企业最为关注的消费行为和消费价值进行细分,体现出不同客户属性之间的差异性,协助制定更加完备的营销策略。基于数据挖掘的电信客户细分可以分为战略细分和策略细分两类。前者主要是对客户特征进行分析与研究,从中查找适当的营销机会;后者主要是对营销活动进行分析与研究,为其选取最佳的目标人群。
三、基于数据挖掘的客户细分模型分析
(一)细分模型设计
细分模型应该包括三部分内容,即客户部分、市场部分、营销部分。
客户部分可进一步细化为客户分类和客户分析两类。客户细分中应该从客户消费习惯、消费种类、消费频度、消费结构、消费模式等建立模型,以便于电信企业依照这些特征对已有客户的收益率、新客户的定位、现存客户与流失客户特征等进行定义。客户分析模型则需要包括客户的行为、关系、价值属性、利润率、忠诚度以及业务量等内容,通过这些内容,电信企业可以对现有的营销进行效果分析。
市场部分主要体现为市场预测与市场总结等内容。建立可靠、客观的市场模型可以帮助企业制定更精准、分类更清晰、目标性更强的市场策略,并依照所架构的市场模型对用户行为进行解释,对未来用户的行为趋向进行预测。
营销部分可进一步细化为辅助营销、定向服务以及价格定位三部分。辅助营销模型可以针对特定的客户群使用特定的手段进行分析与研究,进而开拓更具针对性的销售渠道和宣传策略,充分满足客户的消费需求,在维持现有客户关系的基础上提升客户价值,拓展客户量。定向服务则是充分听取客户的消费需求,制定差异化服务策略,提供全方位、高质量定制服务。价格定位则是对客户的价格敏感度建立模型并深入分析。
(二)电信客户细分中的数据挖掘技术
目前,电信客户细分中所使用的数据挖掘技术主要分为分类、聚类以及统计分析三类。
分类可以依照预先制定的规则制定清晰的分类标准,并依照该标准对客户进行归类,生成预测模型。分类可以有效反映同类客户中的同属性知识特征和不同客户中的差异性知识特征,其具有非常强的预测性、指导性和方向性。常用的分类数据挖掘算法有神经网络法、决策树法、贝叶斯法以及示例学习法等。
聚类则是在海量的数据中对客户属性进行归纳与总结,将分析对象依照共同的特征分为多个簇,然后再在簇中进行特征提取,生成聚类标准,依照该标准对不同用户进行分类、对不同簇进行更新。该技术无需指导和事先规则的制定。常用的聚类数据挖掘算法有神经网络法、模糊聚类法、统计聚类法等。
统计分析则是直接对客户进行分群或辅助其他数据挖掘技术共同实现电信客户细分。其以一定的方法从数据库中提取样本,并对这些样本进行行为、地域、年龄、需求等进行差异性分析,辅助其他数据分析与处理技术即可实现客户的细分。常用的统计分析方法有交叉分析、相关分析、显著性分析、因子分析等。
参考文献:
[1]蔡宁.基于数据挖掘的电信客户细分研究[D].江西理工大学,2008.
[2]许昌加,高阳.数据挖掘在电信客户细分中的应用研究[J].成组技术与生产现代化,2004(21):43-46.
关键词:数据挖掘; 医保;关联规则;聚类;分类;序列模式
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2014)05-0880-03
Review of Data Mining Application in Medical Insurance in Our Country
FENG Li-yun
(Software College of Jiangxi Normal University, Nanchang 330022, China)
Abstract: Using data mining method to study the data of growing health care in our country is not a lot, but has a certain research. In this paper, the application of data mining in the field of health care are summarized from the association rules discovery, data clustering, classification knowledge discovery, sequential pattern discovery, and other data mining methods are reviewed in the Medicare application areas. Finally, look into the future of application of data mining in health care field.
Key words: data mining; Health care; Association rule; clustering; classification; sequence pattern
医疗保险是我国社会保障制度的重要组成部分,是关系百姓切身利益的一项民生工程。医疗保险自1998年开始在我国实施,经过十多年的发展和不断完善,目前大部分人民已经可以享受医疗保险的优惠政策。随着经济的发展及互联网的普及,信息技术已经逐步渗透到医药行业中,医保信息系统的应用就是医药信息化的一个典型。医保信息化在给我国医保政策的管理和实施带来了很多便利的同时,庞大的数据压力也成为一个有待解决的问题。数据挖掘是一种从数据库中抽取和识别出有效的、新颖的、可理解的、事先不为人知的但又潜在有用的模式或知识的过程或技术,这种技术为我们的决策和管理带来很多便利。近年来,关于数据挖掘技术在医保信息系统中的研究运用与日俱增,该文对这些研究从研究方法进行了概括分析,介绍了数据挖掘在医保行业的已有成果和具有代表性的方法,并对未来的发展作了展望。
1 关联规则发现
Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。算法已经被广泛的应用到商业、网络安全等各个领域。
文献[3] 通过对医院历年医保病人数据采用Apriori数据挖掘的方法,分析医保费用与相关因素间的规则,得出医保费用分析的规则集。该规则集显示与医保病人费用关联最大的是特定出院科室和住院天数这两因素的组合。文献[1]针对医保基金运营过程中出现的就医聚集行为,提出基于频繁模式挖掘的一致行为挖掘算法CBM,实验表明该算法比Apriori和Eclat具有更好的性能,能有效检测就医聚集行为。文献[2]对 Apriori 算法进行的具有针对性的改进,将改进的算法应用于医保稽查工作中, 挖掘算法产生的规则可使稽查人员重点稽查该规则所指向的医保行为, 极大的提高了医保稽查工作的效率。文献[4]对社会医疗保险基金收支情况进行了研究,在建立数据仓库时选用维度建模方法建立星型模型,重新组织了来源数据的
结构关系;数据挖掘阶段选用Apriori算法并对其进行了改进,进行关联规则挖掘。文献[7]在深入分析研究了经典关联规则Apriori算法的基础上提出并实现了关联规则生成算法,通过实验对Apriori经典算法和关联规则算法进行了算法效率的分析比较。将改进的关联规则算法应用于某矿业集团的医疗保险数据中,为矿业集团完善医疗保险制度提供了很好的辅助决策支持。文献[27]针对OLAM兼有0LAP多维分析的灵活性、在线性和对数据挖掘的深入处理数据等特点,在医疗保险系统中设计并实现了OLAM应用模型。该模型使用浙江省某市医疗保险数据库中2005年的医保数据,建立了以医疗保险费用和诊断项目为主题的数据仓库,从多维角度分析数据仓库中的数据,并且运用了Apriori算法挖掘出一些潜在的关联规则例如人们特别关注的“骗保”行为,为医疗决策提供科学有效的依据。
FP的全称是Frequent Pattern,在算法中使用了一种称为频繁模式树(Frequent Pattern Tree)的数据结构。FP-tree是一种特殊的前缀树,由频繁项头表和项前缀树构成。FP-Growth算法基于以上的结构加快整个挖掘过程。
文献[8]将FP-growth算法用于基本医疗保险数据的挖掘,根据课题特点提出了自动确定最小支持度的增量式FP-growth挖掘算法,并用实验验证了改进算法的有效性。文献[5]通过对医疗保险信息系统的数据仓库的设计、数据的整合以及数据挖掘的技术分析,实证研究关联规则挖掘算法在医保信息挖掘的可能性与必要性。利用编码、解码技术和SQL的聚集函数,实现基于SQL的FP-Growth算法,该算法突破机器内存对数据挖掘的处理效率问题,实现了对海量数据挖掘的高效挖掘。
文献[6]基于数据仓库和数据挖掘技术,经过大量重复的数据清洗工作,从医院信息系统数据库中抽取三个医保年度的数据,建立医保费用数据仓库和相应的多维数据模型。对建立的多维数据模型采用关联规则的数据挖掘算法进行挖掘分析,得出结论
文献[9]以广州市某大型三甲医院的信息系统为主要数据源,其后台数据库系统采用 SQL SERVER 2008。建立医保费用分析的数据仓库,采用关联规则的数据挖掘算法进行挖掘分析。
2 数据聚类
聚类就是将数据项分组成多个类或簇,类之间的数据差别应尽可能大,类内的数据差别应尽可能小,即为“最小化类间的相似性,最大化类内的相似性”原则。聚类算法有划分法、层次法、基于密度、网格、模型的方法。其中,划分聚类法比较有代表性,文献[10]在分析了模糊数据挖掘的相关概念和技术的基础上,使用模糊聚类方法进行医疗保险子系统的划分,给出了划分结果,并且将模糊数据挖掘应用到医疗保险系统中,是数据挖掘技术在医疗保险领域应用的一次尝试;文献[11]以贵阳市医疗保险业务为背景,研究运用 O-Cluster 算法,构建数据挖掘模型并对模型进行解释,反映数据间隐含的联系。文献[17] 使用K-均值、K-中心点、Ward等几种聚类算法分析了医保评估模型,并对几种聚类方法进行了比较,实验证明Ward聚类算法成簇效果佳,用户容易理解。文献[14]分析了数据挖掘和模糊数据挖掘的相关概念和技术,开发设计了B/S架构的医疗保险系统,在此基础上尝试使用模糊数据挖掘技术进行医疗保险子系统的划分,给出划分结果。文献[18]使用基于凝聚层次聚类(hierarchieal clustering)的ward方法、K-Means和K一中心点对医保参保人进行聚类,在此之后对得出的聚类模型从健康和经济状况两方面进行了评估。
3 分类知识发现
分类就是构造一个分类函数,把具有某些特征的数据项映射到某个给定的类别上,分类方法可分为单一分类算法和组合单一分类算法。单一的分类方法主要包括:决策树、贝叶斯、人工神经网络、K-近邻、支持向量机和基于关联规则的分类等;另外还有用于组合单一分类方法的集成学习算法,如Bagging和Boosting等。
主要的决策树算法有ID3、C4.5(C5.0)、CART、PUBLIC、SLIQ和SPRINT算法等。它们在选择测试属性采用的技术、生成的决策树的结构、剪枝的方法以及时刻,能否处理大数据集等方面都有各自的不同之处。文献[12]利用决策树C4.5挖掘算法对医疗保险系统数据进行分析,找出影响就医公平的关键因素,辅助决策者进行政策参数的最优化设置。通过数据准备、归纳决策树、决策树剪枝、抽取规则等步骤得出住院费用是决定人员就医压力的最重要因素。文献[13]使用决策树算法及SQL Server 2005中包含的一种混合的决策树算法分析研究了某市的基本医疗保险数据样本,找出隐含的有效信息,并在此基础上提出了完善基本医疗保险的对策建议。文献[32]使用决策树、神经网络等分类算法分析了我国某市的数据挖掘样本,以此作为医疗保险监管部门对各参保单位的账户进行考察的依据。
4 序列模式发现
序列挖掘或称序列模式挖掘,是指从序列数据库中发现蕴涵的序列模式。最早是由Agrawal等人提出的,它的最初动机是针对带有交易时间属性的交易数据库中发现频繁项目序列一发现某一时间段内客户的购买活动规律。
文献[15]将序列模式挖掘算法与医疗保险数据库结合起来,将基于周期时间约束的序列模式挖掘算法应用与医疗保险数据库中。在分析基于约束序列模式挖掘算法的基础上,重点研究了基于时间粒度的挖掘算法PCSmine,并修改优化了算法中的HP.CSB数据结构,使用neucleaning算法预处理医疗保险数据库,实验表明算法提高运行效率。文献[16]首先利用数据抽取、转换及装载工具获取有效数据,通过建立多维模型,运用数据分析和数据挖掘方法生成各种报表及图形,建立了智能医院医保业务决策支持系统架构和数据仓库模型。文中使用第309医院2007、2008和2009三个年度的各科室月度医保病人总费用来预测2010年1月的科室医保病人总费用。采用SQL Server 2008中的时序分析方法来进行数据挖掘。SQL Server 2008 Analysis Services中的时间序列分析使用的算法是决策树算法的特例。在文献[17] 采用自动回归整合移动平均ARIMA(AtoRegression Integrated Moving Average)模型,建立医保结算费用预测模型,实现对医保结算总费用的预测,并能详细到各区县、各级别医院医保结算费用的预测,为医保基金监管提供方向。文献[32]应用了几种数据挖掘的算法分析了我国某市的数据挖掘样本,使用时序算法对各参保单位的账户使用情况进行回归以及预测,以此作为医疗保险监管部门对各参保单位的账户进行考察的依据。
5 其他应用
以下为数据挖掘在社会医保方面的一些研究及应用。一般结合数据仓库,一并分析。
文献[19]基于动态数据仓库和SOA技术,利用数据挖掘分析技术,针对影响基金管理中的主要环节和基金运行中的风险的主要因素,建立医保基金风险防控基础技术平台,对防范和化解基金风险起到支撑作用。
文献[20]基于一个医保基金风险防控平台数据仓库的构建过程,提出一套适应该平台变化需求的元数据管理解决方案,分别从数据源层、数据仓库、分析应用层、ETL过程几方面对元数据进行了分析,探讨了其中元数据集成方案和管理功能的设计。
文献[21]试着应用数据挖掘技术发现医保系统中有用的模式和规则构建现代医院信息平台。经过数据预处理、数据准备、数据挖掘、评估所得到的模式模型知识、发现知识的巩固与运用等过程构建了基于数据挖掘技术的现代医院信息平台。
文献[22]首先阐述了在医疗保险管理上面临的一些问题,针对这些问题采用数据仓库(DW)与数据挖掘(DM)技术,对医保系统、HIS 系统历史的、现在的数据进行过滤、整合、存储以分析使用病提出了相应的实施方法。
文献[23]从采集医疗保险数据信息、建设数据仓库、以及最后的开发和利用三方面进行阐述,探讨在医疗保险管理中数据信息的价值和功能,以及在计算机系统建设过程中应注意的问题,旨在为医疗保险计算机管理系统的建设提供参考意见。
文献[24]用powerbuilder开发工具的分布式对象实现三层结构式的医保数据传输;定点医疗机构的客户端通过互联网访问应用服务器上的数据传输服务端,医保数据库服务器设置为不能访问互联网,也不能被互联网访问。应用三层结构式可以安全地传输医保数据。
文献[25]利用商业智能工具实时提取数据,并建立分析模型及各种分析统计结果的图形和报表。 首先是对医保数据进行预处理,使医保数据属性更完整;然后,利用商业智能系统的ETL功能对数据进行清洗并对原医保中心导出来的数据与南方医院原HIS 系统导出来的相关数据,进行自动的配备、核算和查找;最后,再次用商业智能系统对上面形成的患者数据建模分析。此系统实现了对医保中心数据和医院数据库数据的自动化的抽取、匹配,并对医保收入和工作量、医保患者费用等进行了多维度、多角度的灵活统计和分析。
文献[26]通过对医疗保险系统数据的分析,建立相应的数据模型,为医疗保险系统提供决策支持依据。通过数据挖掘方法为医疗保险系统建立了数据仓库,利用单因素方差分析方法进行数据结构设计,并对其进行分析和研究。这里以医院的综合实力作为方差分析的因素,即影响住院费用的因素。
文献[28]社会医疗保险是社会保险中最复杂的一个险种,医疗保险资金管理的一个关键因素就是在个人、单位缴纳金额和个人享受保险待遇的设定之间构建一种平衡。数据挖掘是信息社会广泛应用的一门技术,我国医疗保险正处在改革的过程中,利用数据挖掘的分类技术对医疗保险的数据进行分析处理,能够更好的把握医疗改革的方向,为医疗保险的决策提供科学有效的依据。
文献[33]以美国 Ox International 公司的医疗保险业务为背景,在已开发的信息系统基础上,提出了面向分析的数据仓库与数据挖掘的解决方案。该方案从决策角度出发,建立多维数据模型,将系统中的历史数据加以处理,并有组织的存放到数据仓库中。在此基础上,利用OLAP 和数据挖掘技术,对数据仓库中的数据进行各种复杂分析。文件[29]亦是。
文献[30]首先描述了数据挖掘可用于医疗保险行业的关键技术现状,其次阐述了数据挖掘技术在医疗保险行业中应用的国内外现状和基于数据挖掘的决策支持系统研究现状,最后进行了总结,讨论和分析了在的医疗保险信息系统中应用数据挖掘技术的工作重点。
文献[31]以贵阳市社会保障局医疗保险业务数据中城镇居民统筹基金支付情况为目标,利用聚类分析法,通过搭建oracle 数据仓库平台,并在此平台上进行主题数据仓库构建与设计,进行联机分析得出城镇居民统筹基金支付情况。
除了以上的研究,目前国内还有些学者从数据挖掘的技术角度对医保管理信息系统进行了实施,主要用到的技术有ETL、数据仓库、OLAP等。
6 总结与展望
本文对数据挖掘技术在社会医保方面的应用进行了分析和总结,分为关联规则发现、数据聚类、分类知识发现、序列模式发现以及数据挖掘在医保中的应用几方面。
在医保领域中数据挖掘技术的研究和应用主要包括数据挖掘技术与领域知识的结合和算法设计与改进两个主要方面。随着医保基金风险防控的需求的不断更新,可以发现更多的数据挖掘应用场景,将数据挖掘技术更广泛地应用到医保领域中。目前就诊序列模式挖掘基于相似度的等长序列模式,可以研究扩展到不等长模式的挖掘;此外可以进一步提高一致行为模式挖掘的效率。
参考文献:
[1] 何俊华,张静谊,熊赟,朱扬勇.医保就医聚集行为挖掘[J].计算机应用与软件,2011,28(7).
[2] 刘凯,赵跃龙.关联规则挖掘在医保稽查中的应用研究[J].科技信息,2007(33).
[3] 黄晶晶.数据挖掘技术在医院医保费用分析中的研究与应用[D].广州:南方医科大学,2009.
[4] 石萌.数据挖掘在医疗保险参保人员老龄化问题中的研究[D].贵州:贵州财经学院,2010.
[5] 简伟光.数据整合与数据挖掘技术在医疗保险信息系统的研究与应用[J].实践与经验,2010.
[6] 朱彦华.医保人群医疗费用的数据挖掘与分析[D].广州:华南理工大学,2012.
[7] 梁爱琴.数据挖掘关联算法在医保系统中的应用[D].北京:北京工业大学,2008.
[8] 刘江超.数据挖掘算法在医保数据上的应用研究[D].湖南:国防科学技术大学,2009.
[9] 朱彦华.医保人群医疗费用的数据挖掘与分析[D].广东:华南理工大学,2012.
[10] 王艳春,秦刚,陈毓.数据挖掘在医保系统中的应用[J].长春理工大学学报,2007,30(2).
[11] 李纳.社会保障体系中医疗保险的数据挖掘与联机分析研究[D].贵州:贵州财经学院,2011.
[12] 张婧,王书海.C4.5算法在医疗保险数据挖掘中的应用研究[J].石家庄铁道学院学报(自然科学版),2008,21(2). (下转第901页)
(上接第882页)
[13] 李冉冉,卢仿先.决策树算法在基本医疗保险中的应用研究[J].企业技术开发,2008,27(5).
[14] 秦刚.数据挖掘在医保系统中的应用[D].吉林:长春理工大学,2006.
[15] 常帅.序列模式挖掘在医疗保险上的应用[D].河南:郑州大学,2011.
[16] 林济南.基于商务智能的医院医保业务决策支持系统的研究[J].计算机与现代化,2009,9.
[17] 高臻耀,张敬谊,林志杰,熊斌,朱扬勇.一个医保基金风险防控平台中的数据挖掘技术[J].计算机应用与软件,2011,28(8).
[18] 何俊华.数据挖掘技术在医保领域中的研究与应用[D].上海:复旦大学,2011.
[19] 秦德霖,高震耀.面向服务的上海医保基金风险防控平台的研究[J].计算机应用与软件,2011,28(4).
[20] 王月,王伟俊,童庆,熊赟,朱扬勇.一个医保数据仓库的元数据管理解决方案[J].计算机应用与软件,2011,28(8).
[21] 王顺民.构建基于数据挖掘技术的现代医院信息平台[J].制造业自动化,2011,33(3).
[22] 张勇,赵峻,于冬.浅谈医保系统与医院信息系统的数据挖掘[J].科学管理,2012,27(7).
[23] 王爱荣.浅析医疗保险数据信息的采集、开发和利用[J].中国卫生经济,2004,23(1).
[24] 韦振锦,方华,成春艳.三层结构在医保数据传输中的应用[J].广西科学院学报,2007,23(4).
[25] 严静东,张才明.依托商业智能系统的医院医保费用分析[J].医院数字化,2009,30(4).
[26] 王春才,韩贵东,杨玉东,李英韬,张羽医.保数据仓库的单因素方差分析与应用[J].长春理工大学学报(自然科学版),2007,30(4).
[27] 张良燕,龚卫华,黄德才,刘端阳.OLAM技术在医疗保险系统中的应用研究[J].2007,35(5).
[28] 石萌.分类模型在社会医疗保险中的应用研究[J].科技与生活,2010,3.
[29] 董韧毅.基于数据仓库的医疗保险信息决策支持系统研究[D].江苏:南京航空航天大学,2008.
[30] 万芳.论数据挖掘在医疗保险决策支持中的应用[J].科技创业家,2011.
[31] 张莎莎,李伟.数据挖掘在城镇医保中的应用[J].电脑知识与技术,2013,8.
关键词:数据挖掘;数据库;预处理技术
中图分类号:TP311.131
随着计算机和互联网的普及应用,由于其能够提高工作的效率,非常受到人们的重视,一些企业甚至在计算机应用的基础上,提出了无纸化办公的理念,在实际应用的过程中,计算机需要存储大量的数据,对于企业用户来说,很多数据具有私密性,如果这些数据泄露出去,将会给企业的发展带来严重的影响,甚至造成巨大的经济损失。受到特殊的历史因素影响,我国的经济和科技起步较晚,与西方发达国家相比,存在较大的差距,虽然经过了多年改革开放的发展,我国已经成为了世界第二大经济体,计算机的应用水平也有了很大的提高,但是在尖端的数据挖掘等领域中,研究的还比较少,而数据挖掘等技术,能够在很大程度上影响数据的利用效率,对于实际的工作来说,具有非常重要的作用。
1 数据挖掘的预处理技术简析
1.1 数据挖掘预处理技术的概念
数据挖掘技术是随着数据库的发展,逐渐形成的一门学科,在计算机出现的早期,受到其性能和体积的限制,能够存储的数据很少,不需要考虑数据的利用效率,但是随着晶体管和集成电路的使用,计算机的性能得到了极大的提高,相应的存储设备也有了很大的进步,计算机能够处理的任务越来越复杂,存储的数据越来越多,现在我国建成了多个大型数据存储中心,存储的数据量非常巨大。对于如此多的数据,如何筛选出自己想要的,成为了很大专家和学者研究的问题,在传统的数据应用中,通常都是利用检索技术,根据输入的关键词,在数据库中进行逐个的匹配,如果数据库的存储量较小,检索的效率就比较高,而对于现在的海量存储来说,逐个匹配显然需要很长的等待时间。数据挖掘的预处理技术,正是在这种背景下出现的,所谓预处理技术,就是在数据挖掘之前,对数据进行一定的整理,通常情况下,数据挖掘主要面对现有的数据库或者互联网上海量的数据,如果在数据库中进行挖掘,那么可以对数据库进行一定的修改,如完善数据分类的方式等,而在互联网上进行数据挖掘,显然就需要优化挖掘的方式,或者缩小数据挖掘的范围等。
1.2 数据挖掘预处理技术的特点
与正常的数据挖掘技术相比,如何增加相应的预处理环节,无疑可以极大的提高数据挖掘的效率,如在数据库中进行数据的挖掘,传统的挖掘方式下,通常都是利用检索技术,输入指定的关键词后,与数据库中的信息进行对比,这样逐条的进行检索,就可以找到自己想要的数据,如果数据库存储的信息量较大,那么利用这样的挖掘方式,显然需要很长的等待时间。如果增加相应的预处理环节,如在数据库中添加索引,对数据库中的数据进行分类,那么在输入相应的关键词后,首先与索引进行匹配,然后在指定类别的数据中进行对比,这样的方式,显然极大的提高了数据挖掘的效率,目前使用的数据库中,大多采用了这样的预处理技术,取得了很好的应用效果。受到特殊历史因素的影响,我国数据库相关技术水平较低,目前我国建设的大型数据库,都是与国外的技术公司合建的,通过实际的调查发现,现在我国还无法自主生产外部存储设备,市面上的存储设备,都是从外国引进的,但是在实际数据库的建设中,在外国存储设备的基础上,我国也进行了大量数据挖掘等技术的研究。
1.3 数据挖掘预处理技术的发展
从某种意义上来说,数据挖掘技术是随着互联网和数据库的应用,根据实际使用的需要,逐渐形成的一门技术,在互联网发展的初期,网络上的资源有限,而且受到计算机性能的限制,没有太多的娱乐项目,只能浏览一些商业网站等,随着计算机的普及应用,互联网有了很大的发展,现在已经建成了覆盖世界范围的因特网。据最新的统计调查表明,我国的网民数量已经超过了6亿,如果庞大的用户群体,为我国互联网的发展,提供了坚实的基础,但是通过实际的调查发现,我国的实际网络带宽,还没有达到世界平均水平,即使实际使用的网络带宽较低,我国互联网内容的发展速度依然很快,现在网络上出现了各种各样的网站,极大的提高了网络建设水平。在实际的网络浏览中,面对如此大的信息量,如何找到自己想要的信息,成为了一个实际问题,为了解决这个问题,出现了搜索引擎,只要输入相应的关键词,搜索引擎就可以很快的找到大量相关内容,然后进行必要的筛选,就能够得到相应的数据,但是随着互联网内容的丰富,除了传统的文字信息外,还有视频和音频等数据,如何在这些数据中,进行相应的挖掘工作,具有较大的难度。
2 影响数据挖掘预处理技术的因素
2.1 预处理的方式
在实际的数据挖掘过程中,能够影响挖掘效果的因素有很多,如数据量的大小、挖掘方式等,从某种意义上来说,数据挖掘就是数据的查找,从指定范围或者未知范围内,找到指定的数据,通常情况下,数据挖掘都具有很强的目的性,但是对于找到数据的量,并没有明确的要求,尤其是随着互联网内容的增加,现在的数据挖掘中,都会附带大量的相关信息。对于数据挖掘的预处理技术来说,预处理的方式,能够在很大程度上影响挖掘的效率,例如在一个一百条数据库中进行挖掘,为了提高实际的效率,通常情况下会采用检索的方式,根据输入的关键词,逐条的与数据库的信息进行比对,这样挖掘的效率具有很大的不确定性,如果要查找的数据排列比较考前,那么就需要很短的检索时间,如果要查找的数据刚好在第一百条的位置,显然就需要进行一百次匹配。如果采用索引的方式进行预处理,将这一百条数据根据自身的特点,分成十个类别,每个类别建立一个索引,那么在实际的匹配中,无论要查找的数据处于哪个位置,最多只需要十次匹配,就可以找到相应的数据,由此可以看出,预处理方式对于数据挖掘效率具有非常重要的影响。
2.2 数据量的大小
计算机经过了多年的发展,其自身的性能有了很大的提高,在实际的数据挖掘中,如果检索的数据较少,即使不经过任何的预处理,仍然可以具有很高的挖掘效率,但是随着数据库自身的发展,企业用户的数据库容量越来越大,在数据库中查找指定的数据,需要较长的时间,要想很好的解决这个问题,必须对数据挖掘的方式等,进行相应的优化。通过实际的调查发现,目前我国使用的数据库,大多都是国外的技术公司设计的,为了方便数据库的使用,大多采用了整体的外包,即软件和硬件都是由同一家公司提供,采用这样的方式,不但能够很好的解决软件和硬件之间不兼容的问题,同时可以提供优质的软件服务。目前市面上的数据库,大多对数据挖掘技术进行一定的优化,如增加索引环节等,通过这些技术的使用,很好的提高了实际的挖掘效率,但是这些预处理技术,并没有考虑到数据量的大小,如一些大型的数据库中,要想建立索引机制,本身就需要很长的时间,虽然在建立索引后,就可以直接的使用,即使数据库中发生变化,也不需要重新建立,只要根据数据的情况,将其存储到指定的分类中即可。
2.3 操作人员自身的素质
对于实际的数据挖掘工作来说,操作人员自身的素质,也可以在很大程度上影响挖掘的效率,经过了多年的完善,数据挖掘技术已经成为了一门单独的学科,计算机专业的学生,要进行相应知识的学习,但是通过实际的调查发现,现在的数据挖掘主要针对互联网上的内容,而互联网日新月异的发展,给数据挖掘带来了很大的难度。在这种背景下,如果没有足够的工作经验,显然很难完成相应的数据挖掘工作,因此刚毕业的大学生,数据挖掘的效果较差,即使能够完成相应的工作,也需要较长的时间,虽然这些学生在学校中,能够学习到大量的数据挖掘知识,为了提高教学的效果,老师还会讲解一些数据挖掘的实例,但是实际挖掘中,具有很多的不可控因素。如果操作人员具有丰富的数据挖掘经验,在实际的工作中,必然会总结一些相应的技巧,这些技巧的使用,可以在一定程度上缩短挖掘的时间,提高数据挖掘的准确性,对于数据挖掘工作来说,具有非常重要的作用,从某种意义上来说,数据挖掘的预处理技术,指的就是这些从实践中总结出来的技巧,然后进行科学、系统的分析,应用到实际的挖掘中。
3 我国数据挖掘预处理技术应用中存在的问题
3.1 没有意识到预处理技术的重要性
在传统的数据挖掘中,由于数据库自身的容量较少,采用检索的方式,就可以轻松的找到想要的数据,因此不需要预处理技术,随着数据库自身的发展,计算机的性能也有了很大的提高,在很长一段时间内,硬件的发展速度都要领先于软件,因此数据检索具有很高的效率,近些年互联网的普及应用,在很大程度上改变了这种现象,尤其是云计算等理念的出现。在互联网海量数据中进行挖掘,依靠单独的计算机,很难具有较高的效率,在这种背景下,如何优化数据挖掘技术,成为了很多专家和学者研究的问题,预处理技术就是根据实际工作的需要出现的,受到特殊的历史因素影响,在数据库的建设等方面,我国要落后西方国家很多,虽然近年来我国投入了大量的人力和物力,研究数据挖掘等技术,但是并没有取得明显的效果。正是受到自身技术水平的限制,使得我国数据建设中,对数据挖掘的预处理技术,没有足够的重视,导致很大数据库中,还采用传统的检索等方式,没有任何的预处理技术,在很大程度上影响了数据挖掘的效率,虽然一些数据库中集成了相应的功能,但是通过实际的调查发现,在实际使用的过程中,并没有启用相应的功能。
3.2 没有针对性的预处理方式
由于现在的数据挖掘,主要针对互联网上海量的数据,而互联网上的数据非常复杂,尤其是近些年网络的发展,出现了文本、视频、音频等各种各样的信息,在这些信息中进行数据的挖掘,显然具有较大的难度,而且互联网的数据量较大,即使借助相应的搜索引擎,依然需要很长的挖掘时间,对于现在使用的一些数据挖掘预处理技术,只有在一些特定的情况下,才能够发挥出一定的作用。数据挖掘预处理技术出现的时间较短,目前还没有形成统一的认识,不同学者根据实际工作的需要,提出了不同的预处理方式,通过实际的调查发现,这些预处理方式的应用,都具有一定的局限性,在特定的数据挖掘中,可以明显的提高挖掘的效率,但是对于其他数据的挖掘,就无法起到相应的作用。受到我国数据挖掘技术水平的限制,并没有意识到这点,在实际数据挖掘的工作中,通常都是随意的采用预处理方式,这样显然无法最大成都上提高数据挖掘的效率,有时候反而会降低工作的效率,目前西方发达国家的数据挖掘预处理中,都会根据每次工作的实际情况,针对性的设计一个预处理的方式。
4 数据挖掘的预处理技术应用措施
4.1 重视数据挖掘的预处理技术
考虑到我国的数据库建设中,很多都没有采用相应的预处理技术,在很大程度上影响了数据挖掘的效率,要想很好的解决这个问题,必须对预处理技术给予足够的重视,在数据库的设计时,就对预处理的方式等进行考虑,如果是购买的数据库服务,那么就要根据自身的实际情况,对预处理技术提供一定的要求,这样可以极大的提高挖掘的效率。通过实际的调查发现,西方国家的预处理技术水平之所以比较高,主要就是由于其重视,在实际的挖掘工作中,对于能够提高工作效率的所有细节进行完善,并总结相关的经验,方便下次的使用,正是这种供求双方的重视,使得西方发达国家的预处理技术快速的发展。我国要想提高自身的数据挖掘预处理技术,必须根据自身的实际情况,借鉴外国一些先进的经验,最大程度上完善预处理技术,要想达到这个目的,首先应该提高对预处理技术的重视程度,无论是实际的操作人员,还是管理人员和开发人员,都应该重视预处理技术的应用,然后从自身的工作角度出发,对其进行一定的完善。
4.2 提高工作人员自身的素质
数据挖掘预处理技术的应用,需要实际的操作人员,而不同工作人员,由于自身经验等不同,工作的效率会有一定的差距,如刚毕业的大学生,即使在学校中的成绩较好,掌握了足够的预处理知识,还是无法很好的完成相应的工作,尤其是近些年信息技术的发展,互联网上海量数据的挖掘,具有很大的难度。而且不同数据的挖掘,预处理方式等也应该具有一定的差异,通过实际的调查发现,目前我国的数据挖掘工作人员自身的素质普遍较低,无法根据实际的工作情况,针对性的选择一种预处理方式,在很大程度上影响了挖掘的效率,要想很好的解决这个问题,必须提高工作人员自身的素质,在实际的招聘过程中,尽量聘请一些具有丰富经验的人员。对于现有的工作人员,可以通过定期培训等方式,让其了解到最新的数据挖掘理念,以及预处理技术的重要性等,如果条件允许,还可以与一些先进的企业进行交流,学习先进的预处理技术,这样在提高预处理技术水平的同时,还可以对数据库的其他的技术,进行一定的优化。
4.3 采用针对性的预处理方式
经过了多年的发展和完善,数据挖掘的预处理技术已经非常普遍,目前的很大数据库建设中,都会采用预处理技术,甚至在日常的数据搜索中,也开始使用预处理技术,但是通过实际的调查发现,根据实际需要数据的不同,数据挖掘的环境、方式等会具有较大的差异,而这些条件的变化,必然需要不同的预处理方式。而目前我国的数据挖掘中,显然还没有意识到这点,为了提高实际的工作效率,虽然会采用一定的预处理方式,但是预处理的方式,并不会根据数据挖掘的不同,进行针对性的变化,没有真正的达到预处理的目的,在一些特殊的数据挖掘中,由于预处理方式的不当,甚至会降低工作的效率。由此可以看出,在实际的数据挖掘中,预处理方式的重要性,要想最大程度上提高工作的效率,必须采用针对性的预处理方式,对目前已有的预处理方式进行总结、分类,根据需要数据的情况,针对性的选择,如果人员的自身素质较高,还可以设计一个新的预处理方式,以此来最大程度上提高数据挖掘的效率。
5 结束语
通过全文的分析可以知道,随着近些年计算机和互联网的普及应用,数据的挖掘、存储、调用等技术越来越重要,受到特殊的历史因素影响,我国科技起步较晚,与西方发达国家相比,在数据挖掘等领域中,具有明显的差异,虽然经过了多年改革开放的发展,这种差距在逐渐的减小,但是很难在短时间内赶上发达国家的技术水平,在这种背景下,要想快速的提高我国数据挖掘预处理技术,必须结合我国数据挖掘的实际情况,借鉴西方国家先进的经验,完善目前的预处理技术。
参考文献:
[1]郑继刚,谢芳.多媒体图像挖掘的关联规则挖掘[J].红河学院学报,2009(05):44-47.
[2]谢邦昌,李扬.数据挖掘与商业智能的现况及未来发展[J].统计与信息论坛,2008(05):94-96.
[3]林建勤.数据挖掘主要问题的对策研究[J].贵阳学院学报(自然科学版),2007(02):1-4.
[4]陈娜.数据挖掘技术的研究现状及发展方向[J].电脑与信息技术,2006(01):46-49.
[5]李菁菁,邵培基,黄亦潇.数据挖掘在中国的现状和发展研究[J].管理工程学报,2004(03):10-15.
[6]郑斌祥,杜秀华,席裕庚.一种时序数据的离群数据挖掘新算法[J].控制与决策,2002(03):324-327.
[7]臧洌.人工神经网络在混沌观测时序数据处理中的应用[J].数据采集与处理,2001(04):486-489.
[关键词] 数据挖掘;名老中医;经验传承
名老中医是中医药学术发展的杰出代表,是联系传统和实现中医发展的灵魂,名老中医经验的总结和传承不仅能丰富中医学的理论体系,还能为中医药学术进步产生巨大的推动作用,也是培养造就新一代名中医的重要途径之一。因此,总结名老中医的临床经验、用药规律和学术思想,对中医药的薪火相传具有重要的理论意义和应用价值,也是中医药创新发展的源泉。数据挖掘(data mining,DM)又称数据库知识发现(knowledge discover in database,KDD),是指从数据库的大量数据中揭示出隐含的、未知的并有潜在价值的信息的非平凡过程。采用数据挖掘技术对名老中医学术思想和临证经验进行研究,可以全面解析其中的规律,分析名老中医个体化诊疗信息特征,提炼出临证经验中蕴藏的新理论、新方法、新知识,实现名医经验的有效总结与传承。自从基于信息和数据技术的名老中医临床诊疗经验研究思路提出以来,利用多种数据挖掘技术对病案进行分析的研究报道与日俱增,在名老中医经验传承领域发挥着重要作用[1-3]。本文中,笔者结合多年从事数据挖掘研究的经验与体会,并借鉴国内同行的相关研究成果,对数据挖掘在名老中医经验传承研究中的应用进行论述,希冀为数据挖掘方法在名老中医经验传承领域的进一步深入应用提供参考。
1 名老中医经验传承研究中数据挖掘方法的应用
1.1 关联规则 关联规则(association rules)是从大量的数据中挖掘发现项集之间有意义的关联,并寻找给定的数据集中项之间的有趣联系的一种算法。常用的关联规则算法包括Apriori算法、FP-树频集算法等 [4-6]。吴荣等采用关联规则算法对名老中医治疗冠心病的用药规律进行数据挖掘。结果显示,治疗冠心病处方中最常用的中药是丹参、瓜蒌、川芎,最常用的方剂是瓜蒌薤白类方、活血通脉剂及生脉散[7]。刘晓怡等采用关联规则方法对李佃贵教授辨治慢性萎缩性胃炎医案进行数据挖掘,得出李佃贵教授诊治慢性萎缩性胃炎最常用的药物是茵陈、黄连[8]。田琳等采用关联规则算法对名老中医诊疗眩晕病辨证思维模式进行数据挖掘,得出眩晕病的证候多为风阳上扰、肝肾阴虚、痰浊上蒙、肝肾阴虚、气血两虚等,病因病机多为虚、风、痰、瘀等,发病与肝、肾、脾三脏关系密切[9-10]。笔者采用关联规则方法对国医大师颜正华教授治疗胃脘痛用药规律进行数据挖掘,得出颜正华教授在治疗胃脘痛过程中常用药物为陈皮、佛手、香附、白芍、煅瓦楞子、赤芍、当归、丹参等,使用频率前3位的药对是佛手、陈皮,陈皮、香附,佛手、香附[11-12]。作为在名老中医处方规律研究中使用最广泛的数据挖掘算法,关联规则具有明显的优点,如它可以产生清晰有用的结果,支持间接数据挖掘,可以处理变长的数据等。但是,关联规则也有其不足,如计算量增长相当严重,难以决定正确的数据,容易忽略稀有的数据等。
1.2 贝叶斯网络的应用 贝叶斯网络(Bayesian network)是一种以贝叶斯公式为基础的概率网络,是一个有向无环图,由代表变量结点及连接这些结点的有向边构成。贝叶斯网络可以将具体问题中复杂的变量关系在一个网络结构表示,通过网络模型反映问题领域中变量的依赖关系[13]。吴荣等利用贝叶斯网络技术对名老中医治疗冠心病辨证规律进行数据挖掘,提取出名老中医诊疗冠心病、心绞痛的8个证候要素[14]。须义贞等采用贝叶斯网络和方剂智能分析软件对沈仲理教授诊疗子宫肌瘤医案进行数据挖掘,得出沈仲理教授诊疗子宫肌瘤善用活血化瘀、清热软坚法,常用治疗药物包括三棱、莪术、丹参、半枝莲、蚤休等[15]。贝叶斯网络具有分类、聚类、因果分析等功能,面对大规模数据有其独特的优势,具体包括:①学习机制高效灵活,可发现潜在的有用的模式或者联系,实现对数据实例的分类、聚类、预测;②语义清晰,易于理解和接受,具有良好的预测能力;③有效避免对数据的过度拟合;④贝叶斯网络可将先验知识、样本,主观、客观有机结合起来,更加全面反映数据对象内在的联系和本质[16-17]。
1.3 神经网络的应用 人工神经网络(artificial neural network,ANN ) 是由大量处理单位(即神经元,neurons)广泛连接而成的网络,是人工建立的以有项图为拓扑结构的动态系统,通过对连续或断续的输入作状态响应而进行信息处理[18]。陈肇文利用人工神经网络建立名老中医中医方剂系统和中医方证医学诊疗系统,可在线根据患者症状自动进行处方[19]。白云静等利用人工神经网络技术开展中医证候非线性建模研究,在充分辨识证候表征信息的基础上,建立证候与症状之间的非线性映射函数[20]。陆萍等基于面诊的证素辨证建立面诊-证素辨证神经网络,对64个病例进行证型辨别,结果表明,神经网络模型构建的中医面诊系统能根据样本值对网络构造和训练,证型辨证结果准确率比较高,是可行的[21-23]。作为最常用的数据挖掘方法之一,神经网络具有很强的非线性拟合能力,可映射任意复杂的非线性关系,而且学习规则简单,便于计算机实现,具有很强的鲁棒性、记忆能力、非线性映射能力以及强大的自学习能力。
1.4 决策树算法的应用 决策树(decision tree)模型是一种自上而下的预测模型,其基本运算原理属于分类规则,也就是说每个决策或者事件都能引出2个或者多个事件,继而产生不同的后果,这种决策分支的图像就像一棵树的枝干,称其为决策树。决策树以样本的根节点开始,如果样本在同一个类,则该结点为树叶,算法选择最有分类能力的属性作为决策树的当前结点,根据信息增益进行分裂,直到给定节点的所有样本属于同一类或没有剩余属性可供划分为止[24]。瞿海斌等采用决策树方法对血瘀证的诊断规则进行归纳,得到血瘀证决策分类模型,结果表明决策树提取的诊断规则与传统的医学统计方法相比,更为简单、方便,为从病例中自动归纳诊断规则提供了一种新的方法[25]。谢雁鸣等从临床流行病学的角度用决策树等方法对原发性骨质疏松症的中医基本证候进行研究,得出原发性骨质疏松症的阴虚和阳虚诊断模型[26]。徐蕾等用信息熵的决策树方法对慢性胃炎的中医辨证进行研究,构建以信息熵减少为特征的决策树分类模型[27]。
1.5 复杂系统熵方法的应用 2004 年,有学者发表了《“熵”在中医方证研究中的运用》一文,在总结熵理论的基础上,首次提出运用熵理论进行中医方证相关研究的设想,并探讨了证、熵、方结合的原理与前景[28]。通过实践表明[29-30],该方法不仅可以应用证候与方剂之间的相关性研究,还可以研究证候与证候之间、证候与症状之间、方剂中药物与药物之间、配伍中成分与成分之间的关系。其后,有学者提出了复杂系统熵聚类的算法,并在疾病、证候、方剂的相关性研究中得到了应用[31]。复杂系统熵聚类方法是一种非监督的模式发现算法,它能自组织地从海量的数据中提取出信息量最大的组合,同时,此方法特别适用于高度离散性类型的数据。相比于经典的统计方法,它有以下几个优点。①不需要数据的一致性,对于各类数据都适合。特别针对具有随机性,模糊性,非平衡性,非遍历性,多维性特点的中医药数据。②它客观地反映数据的情况,聚出来的组合内元素的相关都特别大,是最优的组合,这些组合为新药发现中候选处方的筛选奠定了基础。③相关是不对称的,为定义贡献度奠定了基础。④算法收敛速度快,对于处理大量的数据有优势。此方法具有两方面的显著优势:一方面,不仅可以定性、还可以定量挖掘出药物之间、病-证-症-药之间的相关性;另一方面,不仅可以挖掘出名医名家经验的核心组合,还可以挖掘出隐藏于方剂配伍之中的而没有被临床医家所重视的核心组合。笔者采用该方法对国医大师颜正华教授治疗胃脘痛、失眠等用药规律进行挖掘,得出颜正华教授在治疗胃脘痛、失眠的潜在药物组合和新方,为深入研究和药物开发奠定了基础[11-12]。
2 数据挖掘在名老中医经验传承中的应用展望
如上所述,关联规则、贝叶斯网络、神经网络、决策树等数据挖掘方法在名老中医经验传承研究中发挥着重要作用,是深入挖掘、继承名老中医的学术思想和临床经验的有力工具。然而,每种数据挖掘方法都有其局限性和不足,均有其适应范围,且对数据有一定的要求。中医药数据挖掘的对象是中医药领域中积累的海量数据,这些数据的属性既有离散型的,又有连续型和混合型的特点,挖掘过程需要人机交互、多次反复,在中医药专业背景知识引导下,针对具体问题,选择合适的数据挖掘方法。同时,数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识的过程,融合了数据库、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果,是一个多学科交叉研究领域。因此,数据挖掘具体方法需要有计算机、统计学等多学科交叉人员才能熟练应用,不易被中医药临床人员和学术继承人等所掌握,这给数据挖掘方法在名老中医经验传承中的应用带来困难和挑战。名老中医经验的传承最终的目的是老专家临床经验和学术思想的总结和传播,数据挖掘方法的应用是有力的辅助手段,如何将相关挖掘方法进行集成并形成相应的软件,是数据挖掘方法在名老中医经验传承领域应用的重要方向。
中医药的传承经过了口传心授、纸质文献、电子文献的过程,但是,尚不能有效满足传承的需要。中医传承包括丰富的内容,有多种传承模式,无论何种模式,收集整理临床医案是必不可缺的,因此,基于临床数据的循证传承是核心模式。中医药信息非标准化与个性化的特点,是中医的一大特色,但同时也是中医药传承信息化工作面临的重要瓶颈。数据的零散性与非标准性,从根本上制约了中医药传承信息化工作的效率与质量。为此,中国中医科学院中药研究所与中国科学院自动化研究所联合开发了中医传承辅助系统(traditional Chinese medicine inheritance support system)软件[32]。该软件在全面客观地对中医药传承模式及方法特点进行分析的基础上,采用基于个性化需求的自助式服务平台的构建思路进行系统架构,以人工智能、数据挖掘、网络科学等学科的方法和技术为支撑,围绕临床诊疗和中医传承工作中的继承、发展、传播和创新4个方面的核心需求,分别构建面向临床数据的中医诊疗信息采集模块、面向中医药本体的知识管理和服务模块以及面向传承创新的隐性知识挖掘模块等几大功能模块,有效地解决了上述问题,从而保证了系统功能需求的有效实现。该软件是计算机科学和中医药学的有机结合,它以智能信息处理方面的研究成果为支撑,遵循基于临床数据的循证传承理念,提出并镶嵌了复杂系统熵聚类的挖掘方法,围绕名老中医学术思想总结和经验传承、中药新药处方筛选与处方发现等方面的信息处理进行了积极的探索[33-34]。实现了“数据的录入-管理-查询-分析-网络可视化展示”等功能的中医传承辅助平台软件的开发与应用,在中医传承工作的具有里程碑意义,是中医传承的有力辅助工具,值得进一步推广应用。
[致谢] 该论文撰写得到中国中医科学院中药研究所杨洪军研究员的指导。
[参考文献]
[1] 王映辉,姜在,刘保延,等.基于信息和数据挖掘技术的名老中医临床诊疗经验研究思路[J].世界科学技术――中医药现代化,2005,7(1):98.
[2] 周春祥.名老中医经验总结与传承过程中的问题与思考[J]. 江苏中医药,2004,25(12):1.
[3] 唐仕欢,杨洪军. 中医组方用药规律研究进展述评[J]. 中国实验方剂学杂志,2013,19(5):278.
[4] 曾孝文.关联规则数据挖掘方法的研究[J].计算机与现代化,2006,9:91.
[5] 吴嘉瑞,张冰.试论数据挖掘方法在药品不良反应评价领域的应用[J].中药新药与临床药理,2007,18(6):485.
[6] 曾孝文.关联规则数据挖掘与发展趋势研究[J].电脑知识与技术,2005,35: 4.
[7] 吴荣,王阶,周雪忠.基于关联规则的名老中医冠心病用药规律研究[J].中国中药杂志,2007,32(17):1786.
[8] 刘晓怡,唐晓亮.基于关联规则方法的李佃贵教授辨治慢性萎缩性胃炎医案分析[J].中国外资,2012,264:258.
[9] 田琳,闫英杰,朱建贵,等.整理挖掘名老中医诊疗眩晕病辨证思维模式的思路与探讨[J].中国中医基础医学杂志,2006,12(8):618.
[10] 晏婷婷,吴丽,王旭东.基于数据挖掘的孟河医家治疗痹证的治法及用药规律研究[J].新中医,2012,44(9):98.
[11] 吴嘉瑞,张冰,杨冰.基于关联规则和复杂系统熵聚类的颜正华教授治疗胃脘痛用药规律研究[J].中国实验方剂学杂志,2012,18(20):1.
[12] 吴嘉瑞,张冰,杨冰,等.基于关联规则和复杂系统熵聚类的颜正华教授治疗失眠用药规律研究[J].中国实验方剂学杂志,2012,18(24):1.
[13] Muirhead R J,Pu R D.A Bayesian classi cation of heart rate variability data[J].Physica A,2004(336):503.
[14] 吴荣,聂晓燕,王阶,等.基于贝叶斯网络的名老中医治疗冠心病辨证规律研究[J].中国中医药信息杂志,2010,17(5):98.
[15] 须义贞,姚静,赵莉.沈仲理治疗子宫肌瘤诊治规律的研究[J].陕西中医,2010,31(2):201.
[16] 李艳美,张卓奎.基于贝叶斯网络的数据挖掘方法[J].计算机仿真,2008,25(2):87.
[17] 刘晓洁. 基于PCA的贝叶斯网络分类器研究[J].电子设计工程,2009,9:86.
[18] 岳桂华.人工神经网络及其在中医研究中的应用进展[J].大众科技,2012,14(156):165.
[19] 陈肇文.基于人工神经网络的中医证治模型探析[J].中华中医药学刊,2009,27(7):1517.
[20] 白云静,申洪波,孟庆刚,等.基于人工神经网络的中医证候非线性建模研究[J].中国中药信息杂志,2007,14(7):3.
[21] 陆萍,林坤辉,周昌乐.基于神经网络的中医面诊证素辨证的研究[J].计算机应用研究,2008,25(9):2655.
[22] 施明辉,周昌乐.人工神经网络在中医诊断中的应用现状与趋势[J].中国中医药信息杂志,2007,14(1):2.
[23] 岳沛平.BP神经网络识别在中医脉象信号辨识系统中的运用[J].江苏中医药,2005,26(11):4.
[24] 吴嘉瑞,张冰.试论数据挖掘决策树方法在药物警戒研究中的应用[J].中国药物警戒,2012,9(1):29.
[25] 瞿海斌,毛利锋,王阶.基于决策树的血瘀证诊断规则自动归纳方法[J].中国生物医学工程学报,2005,24(6):709.
[26] 谢雁鸣,朱芸茵,葛继荣,等.基于临床流行病学调查的原发性骨质疏松症中医基本证候研究[J].世界科学技术――中医药现代化,2007,9(2):38.
[27] 贺宪民,孟虹,王忆勤,等.基于熵的决策树理论及其在中医证型研究中的应用[J].数理统计与管理,2004,23(5):57.
[28] 杨洪军,赵亚丽,刘艳骄,等. “熵”在中医方证研究中的运用[J]. 中国中医基础医学杂志,2004,10(9):16.
[29] 赵亚丽. 一类复杂系统的熵方法研究[D]. 北京:中国科学院研究生院,2005.
[30] 孙占全. 复杂系统建模――一类智能计算模型及其应用研究[D]. 北京:中国科学院研究生院,2007.
[31] 陈建新. 中医证候的复杂系统建模及其与疾病的相关性研究[D]. 北京:中国科学院研究生院,2008.
[32] 卢朋,李健,唐仕欢,等. 中医传承辅助系统软件开发与应用[J]. 中国实验方剂学杂志,2012,18(9):1.
[33] 唐仕欢,陈建新,杨洪军,等.基于复杂系统熵聚堆方法的中药新药处方发现研究思路[J].世界科学技术――中医药现代化,2009,11(2):225.
[34] 申丹,唐仕欢,卢朋,等.含人参中成药用药规律分析[J].中国中药杂志,2013,38(12):2029.
Comment on applications of data mining used in studies of heritage of
experiences of national medical masters
WU Jia-rui1,TANG Shi-huan2,GUO Wei-xian1,ZHANG Xiao-meng1,ZHANG Bing1*
(1.Beijing University of Chinese Medicine,Beijing 100102,China;
2. Institute of Chinese Materia Medica,China Academy of Chinese Medical Sciences,Beijing 100700,China)
[Abstract] Data mining,as known as knowledge discovery in databases,is a non-trivial process of revealing the implied,previously unknown and potentially useful information from the massive data. In recently years,the applications of data mining in the field of pharmaceutical research of traditional Chinese medicine have widespread. Especially in the field of the heritage of experiences of national medical masters,data mining plays an important role. In this study,we would expound of the use of methods of data mining in the heritage of experiences of national medical masters,and analyze their advantages and disadvantages,such as association rules,Bayesian networks,neural networks,and decision trees.
[关键词] 企业营销 数据挖掘 决策 数据仓库
一、引言
在市场竞争日趋激烈、商业环境发生巨大变化的时代,社会、技术、经济、政治等环境因素变得越来越复杂和难以预测,任何经济个人或企业单位都面临着一个课题,就是如何想办法采取营销策略把自己的商品推销出去。尤其社会是进入信息数字化阶段后,该问题显得更加突出,因此,如何利用数字化信息决定自己的企业决策方案变得非常重要。数据挖掘是解决该问题非常有效的技术。
二、数据挖掘(data mining)思想
数据挖掘是集统计学、人工智能、计算机等结合的交叉技术。数据挖掘也称为知识发现(KDD―Knowledge Discovery in Database),其主要思想是可以从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识,并通过这些知识指导我们将来的工作,以提高效益。目前该技术在企业营销中的应用也是刚刚起步,但是已经暗示了该技术在商业营销活动中的潜在能力,尤其是在企业营销决策系统当中的应用,将会对企业营销活动和决策和发展起到非常重要的作用。
三、数据挖掘技术简介
数据挖掘是一个从存储在数据库、数据仓库或其他介质种中的大量数据中发现人们感兴趣的知识的过程。其的应用过程可以描述为:按照既定目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法,并且最终将其在实践中应用的过程。
数据挖掘技术大体可以划分成以下四个主要阶段:数据准备、数据挖掘、表示与结果分析、知识应用。其中数据挖掘是很关键的阶段,主要包括:回归分析、统计分析、聚类分析、神经网络、决策树、探索分析等方法,这将决定数据挖掘的思路和最终实现的结果。
四、数据挖掘在企业营销决策中的应用简介
企业营销是企业战略的重要组成部分,营销战略的制定与实施,在企业战略中居于重要地位,是确保企业战略得以实现的重要保证。
市场营销管理,就是由企业市场部门根据战略规划所确定的业务经营范围、目标、业务组合和发展战略,认真识别、分析、评价外部环境等因素。并用其去指导未来的发展战略和计划的过程。
数据挖掘技术在企业营销决策中应用的过程如下:
1.数据准备阶段。数据挖掘的前提是必须要有大量的可靠的数据,这需要企业营销管理者平时对各种数据的积累,所需要的数据包括营销企业内部管理的数据,营销对象的相关信息,影响营销管理和决策的各外界因素及数据。并且对数据要采取分类的方式进行管理,此时数据分类的标准是非常关键的,不但要考虑分类内部数据之间的联系,同时还要考虑各数据之间的关系。
2.数据挖掘阶段。该阶段主要是对存储在数据仓库中的数据进行科学的方法进行分析,关键的数据挖掘方法的使用,常用的数据挖掘方法有:
(1)回归分析,该方法利用一组观测数据之间建立的依赖关系发现数据之间的联系,并作出相关预测的方法。(2)时序分析,该方法注重数据之间时间的前后顺序关系,并找出某事件在某个时间段内发生的频率。例如,某月某顾客在该粮店中购买的大米的次数和数量,这对分析顾客的消费水平和销售数量有着非常大的帮助。(3)分类分析,在前面的数据仓库里,对商品进行准确的描述,包括商品名称,特征,面向顾客,数量等数据项,然后用相应的分类标准将数据进行分类操作和管理。(4)聚类分析,通过分析数据仓库中已经分好类的数据,将其按照预测的结果划分不同的集合,并确定集合划分的标准。
3.表示与结果分析。通过前面的过程,企业营销决策管理者希望通过数据之间的关系得到相互数据的影响和关系,该结果以某种形式表示出来,一般都采用图形、图表或者数据报表的方式表示结果。通过结果进行相应分析,希望得到诸如如何得到最有价值顾客、如何使用组合效果使销售效率最好、如何留住有价值的顾客、以最小的成本发现欺诈行为等结论。
4.知识应用。发现营销规律和知识不是目的,将其应用到企业营销决策中才能够起到真正的作用,并在不断的营销中对所得出的结论进行论证,并不断的修正,使其更加合理,以便更加有利的指导营销行为和决策。
五、未来的展望
【关键词】数据挖掘算法 并行模式
1 数据挖掘的挖掘任务和挖掘方法
跟数据挖掘相关的学科门类较多,其涉及的分类方法多种多样。根据挖掘角度的差异性,可对数据挖掘方法归类。由挖掘任务的不同,可将数据挖掘分为这几种类型:关联规则发现、数据总结、聚类、异常和趋势发现等;由挖掘对象的不同,可将数据挖掘分为:面向对象数据库、文本数据源、异质数据库等;下文根据挖掘任务以及挖掘方法角度,重点对数据抽取、分类发现、聚类和关联规则发现四种非常重要的发现任务进行阐述。一个典型的数据挖掘系统结构一般包括数据库、数据仓库等几个部分。如图1所示。
1.1 数据抽取
数据抽取是对给定数据的紧凑描述,其运用的手段就是对数据进行浓缩处理。其中,最简单的一种数据抽取方法就是对数据库中的各字段上的统计值进行计算,这些统计值一般包括和值、均值、方差值等,另外,使用折线图等图形对数据库字段进行表示也是一种比较传统而简单的数据抽取方法。数据挖掘关注的焦点是以数据泛化的视角来讨论数据总结。所谓数据泛化,把低层次的数据抽象到高层次的一个过程。之所以把低层次的数据抽象到高层次,这是因为大家有对视图从较高层次处理或者浏览有关数据的需要,所以,通过对数据进行多层次的泛化是有其合理的解释的。
1.2 分类发现
在数据挖掘的所有任务中,分类是其中极为重要的任务之一。在所有商业应用的数据挖掘任务中,分类得到了最大范围的应用。我们知道,分类的目标是构造分类函数或分类模型。在数据库中,数据项在分类模型的作用下映射到某一个给定类别。在分类的用途中,预测是其中一个较为重要的用途。通过预测,从历史数据记录中推论得到给定数据的推广描述,最后实现对未来数据的预测目标。在对分类器进行构造的过程中,必须使用训练样本数据集作为输入。训练集一般由数据库记录或元组构成,其中,元组是由特征向量组成的。样本的一般形式为(u1,u2,...,un;c);其中 ui为字段值,c为类别。
1.3 聚类
聚类是把个体依据某种规律归类成为若干类别的过程。其最终目标是使相同类别的个体之间距离最小,而不同类别个体间距离最大化。对于聚类而言,其研究方法一般有四种:统计方法、机器学习方法、神经网络方法和面向数据库。通过对聚类分析方法的应用实践发现,其仅仅适合于数据库较小的情形,这是因为其不具备线性计算复杂度。
1.4 关联规则发现
关联规则发现的主要对象是事务型数据库,针对的应用是货篮数据。一般而言,事务的组成部分不仅包括客户订购的物品,还包括客户的标示号。随着条形码技术不断得到推广和应用,采用前端收款机也可以获得大量的售货数据。所以,通过分析历史事务数据,可从顾客那里得到一些有价值的信息。比如,更好的解决摆放货架商品和规划市场的问题。所以,如果能从事务数据中找到关联规则,这对于零售业等商业活动决策的重要性是不言而喻的。
2 关联规则挖掘的并行算法分析
2.1 并行算法的基本概念
所谓并行算法,即对可同时执行的进程集合,通过进程的协调作用,达到求解问题的目的。并行算法的设计是为了使并行机的众多处理机作用得到最大程度的发挥,这样就能更加快速有效解决问题。一般而言,并行算法对并行机存在非常强的依赖性。并行机的不同算法对其有效性会产生影响。
2.2 并行计算模型
要想对一个应用问题进行求解,那么设计良好的并行算法极为重要。如果想让并行算法作为一个由程序实现结构依赖的算法,那么抽象的并行计算机结构是非常有必要的。这样才能保障并行算法具有更广泛的适应性。并行计算模型作为一种并行计算机的抽象结构,主要考虑到的是为了并行算法的设计。所以,并行计算模型从实质意义上来讲,它是某一类并行计算机的抽象。
2.3 并行挖掘关联规则的算法
在通常情况下,找出频繁项目集的付出的资金要比从频繁项目集中找出关联规则的费用高的多。鉴于此,发现频繁项目集的并行算法就具备了重要的意义。产生候选集的算法的计算工作,通常来讲,可归类为两个步骤。其一为生成候选集,其二为对候选集的计数。为达到处理器间进行工作分配的目的,就需要使事务和候选集分配给各处理器的形式多样化。为达到更优的并发度,候选集可选择并行计算,或者是并行产生,还可以是两者并行完成。
3 小结
数据挖掘算法的并行性可对系统运行速度进行提升,从而提高工作效率,这是因为数据挖掘算法可实现对多个任务的执行。数据挖掘算法并行方式存在差异性,所以,必须根据实际情况使用恰当的挖掘方法,从而让决策的作用得到最大程度的发挥。随着数据量处理规模的逐渐增大,所以,对数据挖掘算法并行性研究的意义是不言而喻的。
参考文献
[1]赵峰,李庆华.并行序列挖掘的一种改进算法[J].华中科技大学学报(自然科学版).2003,31(10):38-40.
[2]陈国良,安虹等.并行算法实践[M].北京:高等教育出版社,2004.
[3]马传香,简钟.序列模式挖掘的并行算法研究[J].计算机工程,2005,31(06).
[4]施建强,刘晓平.基于遗传算法的数据挖掘技术的研究[J].电脑与信息技术,2003(01):9-14
关键词:数据挖掘;通信行业;客户关系;管理工作;开展进程
随着社会经济的快速发展,通信行业的发展规模及数量不断扩大与增多,但在激烈的市场竞争环境下,相关企业的生存与发展均面临着诸多的挑战,为了占领更多的市场份额,实现企业稳定与长足进步,并获得良好的综合效益,客户关系管理得到了人们高度关注。近些年,通过国内外学者的不断努力研究,随之出现了数据挖掘技术,其作为先进的现代化技术,应用日渐广泛与普遍,但关于其在通信行业的研究报道较少。因此,介绍了数据挖掘技术的基本概念,探讨了其有关流程,同时重点分析了其在通信行业客户关系管理中的应用,旨在进一步完善有关理论,并为有关人士提供借鉴。
一、数字挖掘的基本概念探究
数据挖掘可以实现用户的信息资源的相互交流和传递。同时数字挖掘技术的应用,对于信息传递的流程存在着专门的定义和限制,具有强大的信息检索功能。例如,应用数据统计模块查找定向信息,或者应用互联网的搜索功能进行相应的网页或者是网站的查找,则是数字挖掘技术中的信息检索(informationretrieval)领域的技术。随着数据挖掘技术的应用范围和应用种类的不断扩张,当下数据挖掘技术已经被广泛的应用于信息检索工作的开展进程中。根据当下数字挖掘技术的主要应用特点和应用方向,主要可以将技术的类别总结为以下几点:数字挖掘技术中的信息关联技术、数字挖掘技术中的预测技术、数字挖掘技术中的分类技术以及数字挖掘技术中的排序技术。
二、数字挖掘在通信行业中客户关系处理中的具体应用流程探究
数字挖掘技术的应用流程的良好确立,可以使得企业的客户信息管理工作的开展更加具有系统性和全面性,有效的提高了通信企业的市场竞争力。为通信企业的良好发展奠定了稳定的基础和提供了强大的推动力。1.数据库内的数据信息归类。对于营销工作开展进程中的各种原始数据进行统计和收集,尽可能的保障各项数据的归类的有效性和标准性。并且在数据库内的数据信息分类工作的开展进程中,充分的考虑不同的营销数据的格式上的差异性,对于这些营销数据进行统一的调整,实现数据库内的数据的系统性排列。2.数据库内信息的初步分析。按照数据库内的信息种类的不同以及内容的不同,摘取信息内的核心片段,进行数据内容的初步分析,确定通信企业的营销信息的核心,并且注重对于同种数据中所存在的变量的分析,进而初步掌握核心数据的变化情况和变化规律。3.应用数据挖掘技术开展数据记录工作。在明确了数据库内的各项核心数据之后,通信企业在应用数据挖掘技术开展自身的客户关系处理管理工作时,需要进行数据记录工作。通常以客户关系统计树状图的方式进行客户关系的进一步分类和管理,进而确保通信行业的客户管理工作的开展的秩序性。
三、数据挖掘在通信行业客户关系管理中的应用方向探究
开展数据挖掘在通信行业客户关系管理中的应用方向探究,根据数据挖掘技术在通信行业客户管理工作开展进程中的应用流程以及当下的应用状况,主要可以将该技术的应用方向总结归纳为以下几点:1.应用于通信行业客户的信息数据处理工作。通信行业的客户信息量十分巨大,并且存在着较强的复杂性,应用数据挖掘技术开展通信行业客户关系的处理工作,可以实现通信行业对于客户的信息掌握的系统性的提升。在进行通信行业客户的信息数据处理工作时,应当着重开展对于流失的客户的信息的处理,找出客户的流失的根本原因,完善自身营销模式的应用流程中所存在的不足之处,有效的降低客户流失量,尽可能的实现客户的“有效回流”。2.应用于通信行业客户的关系模型建立工作。将数据挖掘技术的应用与于通信行业客户的关系模型建立工作的开展有效的结合到一起,可以实现通信企业对于客户关系的掌握的具体性的进一步提升。通信企业在开展模型的建立工作的过程中,应当同时建立客户的营销模型和客户的流失模型,进行两种模型内的数据状况的有效对比,进而实现通信企业的进一步营销方案的有效的制定。3.加强通信行业的客户管理工作的针对性。在传统的信息行业的客户关系管理工作开展进程中,客户的信息的管理工作的开展往往缺乏针对性,因此通信企业在为客户提供服务的过程中,其服务往往也就无法真正有效的满足客户的各项需求,造成了客户的流失现象。将数据挖掘技术全面应用于通信的企业的工作开展流程中,对于客户的信息和需求进行更加详细的分类和分析,提出具有针对性的特色服务方案,可以实现通信企业的服务的质量的进一步有效的提升,加强通信企业在激烈的竞争市场中的市场竞争力,促使我国的通信企业获得更加广泛的发展空间和更加理想的发展前景。4.加强通信行业客户反馈信息调研工作的开展力度。通信行业客户反馈信息调研工作的开展力度,也是决定通信企业的客户关系管理工作的开展力度的关键性因素之一。应用数据挖掘技术,开展客户信息的挖掘工作,可以实现客户反馈信息的明确性和全面性的进一步提升,有效的加强了调研工作的开展力度,继而可以使得通信企业对于自身所需改进之处具有了更加明确的认知。
四、结语
综上所述,在通信行业客户关系管理中应用数据挖掘技术,彰显了该技术的应用优势,保证了客户关系管理的成效,为了通信行业发展提供了可靠的技术保障。本研究在明确相关概念及开展流程基础上,对数据挖掘技术的应用展开了深入的探究,其主要应用于信息数据处理及关系模型建立等方面,在先进技术支持下,通信行业的客户关系管理具有了一定的针对性与高效性。实现数字挖掘技术的应用与客户关系处理工作的有效结合,以及实现我国的通信行业的整体管理水平的进一步有效提升,相信日后通信行业借助现代化的技术方法及多元化的管理手段,其竞争力将大幅度提高,进而利于企业健康与持续发展。
参考文献:
[1]沈亮.数据挖掘在移动通信业客户关系管理中的应用研究[J].企业导报,2016,(12):28-29.
[2]郑倩倩,智淑敏.数据挖掘在茶叶行业客户关系管理系统的应用研究[J].福建茶叶,2016,(03):98-99.
[3]廉祥丽.数据挖掘在电子商务客户关系管理中的应用分析[J].电子技术与软件工程,2016,(01):179-180.
[4]胡彬.基于数据挖掘的移动通信公司客户关系管理系统的分析设计[J].山东工业技术,2015,(09):148.
[5]杜丽英,赵秀菊.数据挖掘在银行客户关系管理中的应用分析[J].计算机光盘软件与应用,2014,(21):28-29.
[6]欧阳浩1,戎陆庆2,黄镇谨1,陈波1,王萌1.SQLServer2008在煤炭企业智能客户关系管理中的应用研究[J].工矿自动化,2014,(03).
关键词:数据挖掘;图聚类;分布式图聚类
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2015)02-0014-02
分布式图聚类在电子商务数据挖掘中的应用是十分广泛的。国家在网上购物的数量逐渐加大,网上商城的竞争力也逐渐地加大,各个网站都会使出浑身解数去惊醒电子商务数据挖掘,来为商家提供有力的资料来帮助自己进行商业上的改进和整编。但是随着购物的数据的加大,分析数据的信息难度就越来越大,以往的数据类已经满足不了商家们对数据分析的要求,图聚类的产生补充了数据类的不足,图聚类解决了数据庞大的问题,可以说是电子商务发掘的进步。其中,最为代表性的就是分布式图聚类。在我们国家的网上商城比如说;淘宝、天猫、京东、聚美优品、苏宁易购等个大知名网站,据网上的商家们都会对电子商务数据进行挖掘与研究,同时,使用分布式图聚类方法的网站不在少数。分布式图聚类它解决了数据量大难以正确的评估、从而导致计算失误的发生。经过许多次的实验,我们发现分布式图聚类是非常稳定与安全的。分布式图聚类的产生促进了电子商务数据挖掘的发展,在对数据的稳定性与安全性中也有了很大的进步。
1 分布式图聚类的应用
分布式图聚类的应用在我国可以说是被广泛地应用,由于它自身的优点和好处所以备受广大商家采用。分布式图聚类的特点主要是针对相对较大的规模的数据进行分析和处理,这是传统聚图类无法做到的。它既能省去很多商家因为计算数据而产生的极大的成本,还能保证我们所得到的数据的真实和准确。分布式图聚类的发现与应用可以说是电子商务数据挖掘中的一个进步与提高。
1)什么是分布式图聚类
我们可以知道在科技日益发展的今天,越来越多的人在熟用电脑并在网上购物,进行交易。随着数量的日益增加,网上商城的电子商务数据挖掘就愈来愈难,原来传统的数据统计方式很快就跟不上节奏,所以适合大规模的分布时局图类孕育而生。分布式图聚类是大量数据集中的一套编码,编集的一套电子程序。他的规模之大可以把数百台或数千台电脑联系在一起进行计算和研究。分布式图聚类的优点是可以进行大规模的数据计算。
2)电子商务的数据挖掘
电子商务的数据挖掘是在网络当中存在的网络商家在真实的交易中保存下来的数据,然后把这些数据变成数据库。商家要把存留下来的数据库进行计算,整理,然后挖掘出对商家有利的信息。商家再根据数据的显示进行一系列的变动和调整,根据数据反映客户的需要,扩宽自己的市场。聚类分析就是研究数据挖掘后的一个技术性的研究。分析会根据商家的真实存在的问题进行数据上的计算和研究,这种方法备受商家的欢迎,同时也满足了商家对科学的研究自己市场的一种需求。虽然数据挖掘等工作进行十分的顺畅,但是,社会是高速的发展的,更多的问题也会频频的出现。现如今,网络商城的日益丰富,出现了各种各样形式的商城,竞争十分激烈。商家如何把自己的数据库进行严格的分类和整合,如何更加详细的反映出客户的反映,是现在电子商务数据发掘的重中之重。
3)图聚类算法的种类
图聚类算法的种类十分的多,下面我们简单地介绍几个图聚类算法的种类;
第一,谱聚类,它是类似于矩形的一种分类图形。它是通过分割矩形的方法来进行对比与研究。谱聚类的研究主要是如何才能做到把主题矩形划分成最佳的状态,来进行分析。谱聚类是很有研究性的一个聚类法。比如说,我们想构建的这一个矩形是通过什么根据来创建的、又或者是我们有如何通过数据研究进行划分这个矩形等等一系列的问题都值得我们去研究探索。
第二,基于密度的聚类,它是一个使用消耗特别大的一个聚类法。基于密度类聚,顾名思义它是通过数据的密度来惊醒的图聚类。这种算法的好处是,之前不用任何的计算或是安排,直接进行数据的统计。
第三,位置敏感哈希聚类算法,它是通过数据的相识度较高,或是邻近的数据进行计算。通过计算,我们会更加清晰地看出相似的结论,这种方法相对于基于密度的聚类的算法节约成本,也能清楚地反映问题,但是也要因人而异。
虽然有许多这种聚类图,但是也要因事而异。而且要注意的是,每一种聚类图的算法是不同的,所以,他得出的理论也可能是不一样的。我们要仔细的分析,那些数据需要哪种聚类图会更加的合适等等。就比如说,我们需要知道客户在购买时更加倾向于购买哪类的商品比较多一些,再或者说是客户对商品的评价进行统计等等,我们要选者不同的方法,不能一条路走下去,要懂得变通。要知道只有适合的才是最好的。
2 分布式图聚类在电子商务数据研究发掘中的应用
电子商务数据发掘研究是极其复杂的,而分布式图聚类并不是唯一的研究总结数据的方法。但分布式图聚类是十分重要的方式。随着电子网络的迅速发展,网上购物的客户越来越多,数据库的储备量逐渐地加大。电子商务数据研究发掘呈现越来越难的趋势。这些客户的数量要比想象中的要大得多,而且,计算起来十分的复杂。电子计算已经跟不上那么庞大的数量。传统的计算法存在的缺点主要是不能计算数量庞大的数据库,而且计算的事件上加大了时间和精力,也就是效率不高。还有就是,面对相对较大的数据根本做不出处理,他的实用性并不是很高,不能做出我们所期望的数据。这就出现了这样的一个问题,怎样才能把熟练庞大的数据库计算起来,从而更加准确的进行商务数据的挖掘。
由于数据挖掘的需要,图聚类应运而生。图聚类的计算法十分的多样化,相对于数据聚类算法来说大大地提升了效率,节省了时间。同时,面对数量庞大的数据库的时候也能运行,不像以往的计算法那样。图聚类可以说是现在相对较好的计算方法,也是符合许多网络商家的需要。图聚类分很多种类型,其中我们说的就是分布式图聚类在电子商务中的数据挖掘中的应用。对于图聚类来说,分布式图聚类在数据挖掘上的应用还是十分的广泛的。分布式图聚类是一种把数据相互联系的一种计算方式,它可以进行大规模的运算和分析。这种算法被很多商家采用。例如;某网上购物的网站上想要进行一次客户对哪些商品的需求量的调查研究,但是客户的数量大且关系复杂,对于调查研究来说具有一定的难度。这时,分布式图聚类来说就派上了用场,它对于数据之间的关系研究十分的到位,同时数量上也不成问题。运用分布式图聚类计算这种数据是十分的适合的,分析的内容十分的稳定与准确。所以,广大商家十分青睐与分布式图聚类对于电子商务数据挖掘的应用。
3 分布式图聚类分析的结果的表达
分析的结果是对电子商务数据挖掘的总结。不要小瞧这一个部分,虽然看似简单但是如果表达不当,是会影响到数据的评估水平和准确性。正确的表达是准确评估的一部分。我们如何准确结果的表达和分析呢?首先,我们要保证我们数据的准确性和完整性,保证我们现在的数据的时间,内容都十分的重要。这是评估结果是否准确十分的重要。运用正确的图聚类进行分析和统计,一定要是适合我们想要知道的信息相符合的图聚类,不然,运用不当会出很大的偏差。我们可以用图把清晰的条理表达出来。直到让我们更加直观的一眼就看出来关联性的数据。还可以运用表格之类的相对于比较直观的表现形式来表达出来。其实,表达的主要目的就是怎样可以让公司的领导者能够迅速的明白数据所表达的含义和内容。然后才能正确地做出判断,提出帮助公司发展的政策。如果我们能正确地运用数据挖掘技术就能够把复杂,数量繁多的数据信息转变成清晰、直观,让人一目了然的数据或是数据图等等。同时,如果正确地分析了数据还可以让商家找到正确的方式去经营店铺,让后制定出符合科学依据的方案,也会找到商机,创造未来。
我们对数据的研究不是一个简单的过程,而是要一遍一遍的去研究,去探索,去找寻不同的方法,所以,端正我们的态度十分的重要。认真地完成了每一个步骤,我们就离成功不远了。
4 总结
经过研究,分布式图聚类在电子商务数据挖掘中的应用十分的广泛。同时分布式图聚类的优点也是值得我们去运用与学习的。分布式图聚类被许多商家所青睐和认可,分布式图聚类的数据挖掘也为商家带来了很大的收益。也能够真实地反映出数据所涵盖的信息量,并且减少数据统计的成本。由此证明,分布式图聚类在电子商务挖掘信息中是十分重要和有效的。也是电子商务中不可或缺的一部分。但是,在本文中我们也提及了其他图聚类的方法,我想让大家知道,分布式图聚类虽然适合大规模的数据统计,也能清楚,稳定的表现出数据之间的关系和内容。但是,分布式图聚类并不是全部实用,我们要做好电子商务数据挖掘就一定要找到适合数据的图聚类,不要只用一个方法,这样统计出来的数据会大打折扣。希望我们能够正确的运用数据计算分析方式,反映出最全面的信息。
参考文献:
[1] 温菊萍,钟勇.图聚类的算法及其在社会关系网络中的应用[J].计算机应用于软件,2010,29(2):161-162.
【关键词】数据挖掘技术;电信客户流失预警;应用
随着电信企业的发展,企业之间的竞争不断加剧,电信运营商也在不断地推出新的业务与套餐,以此来在占领市场竞争高地。但是,与此同时,也大大增加了客户的不稳定性,而数据挖掘技术的应用,有效地降低了客户离网率。因此,对数据挖掘技术在电信客户流失预警中应用的探讨有其必要性。
一、数据挖掘技术应用的重要性
伴随着经济全球化,市场的国际化,目前我国国内市场的竞争也变得日加激烈,因此,电信企业传统的经营模式已经不能够完全适应市场的需要。为此,电信企业的市场战略定位需要从传统的生产型企业向利润型企业进行转化,从而来求更好的生存与发展。为此,这就要求电信企业必须围绕客户展开市场分析,全面了解客户的实际需求,做到服务的层次化、多样化以及全面化,并且提出个性化的解决方案。但是,在市场发展的过程中,由于市场的饱和以及客户发展的减速,这使得电信企业客户的维系成为一个热点问题。因此,在这样的竞争环境下,企业极需完善业务管理系统以及生产系统,引进数据挖掘系统,加强系统构建,如渠道系统、BOSS系统以及综合结算系统等,通过这些系统,收集大量的数据,对企业的运营情况作出具体性的分析,既可以加强对客户消费行为的了解,而且针对企业某项业务在市场中的运行情况进行预测分析和运行情况分析,以指导企业做出更好的解决方案,为企业创造更大的利润。
另外,集成客户数据是电信企业发展最为宝贵的资源,而数据挖掘技术的应用可以将大量的客户数据提取出来,包括现有的客户数据、流失数据、增加数据等,在此基础上,根据客户行为、客户属性以及服务属性,构建相关数学模型,计算与分析客户流失概率,同时,根据这些数据之间的相互关系,得出相关的数学公式,从而来改善企业的促销手段,提高服务质量以及客户忠诚度,预防客户的流失,更为重要的是解决了电信企业传统运营模式上无法监控客户流失、无法实现客户关怀的难题。
二、数据挖掘技术在电信客户流失预警中的应用
对于电信企业而言,海量的客户数据是企业的一笔巨大财富,简单来讲,企业若是能够及时准确地挖掘出数据中的信息,并且从中分析出隐含的价值信息与知识,就能制定出科学的运营方案,才能更好地为客户提供服务,进而在市场竞争中取得一席之地。而数据是从中大量的信息中挖掘出来的规律、知识以及价值模式等,数据的形成是一个复杂的过程,因此,数据挖掘技术的定义可以通过以下图示具体地反应出来:
而所谓的客户流失预警模型的构建就是基于数据挖掘技术的基础上,对电信运营状态以及客户状态的一种分析与判断系统,从本质上讲,就是对数据特征的一种挖掘,同时,也是一种分类问题。通过其主要将客户信息分为两大类,一种是有离网倾向的客户,一种无离网倾向的客户,以数据挖掘技术为基础,对已离网客户的信息进行特征分析,进行总结归纳,并作为参照,若企业产生新的客户信息时,以此来识别其是否存在离网倾向,确定其是否在企业对客户维护开销范围内,若是低于此开销值,则说明其不具有任何产生价值,自然,相关信息也就应该删除。在这里,主要客户流失预警模型中数据挖掘技术的应用进行具体分析:
首先是客户划分。一般而言,对于电信企业,客户划分方法多种多样,如客户年龄、性别以及信用度和支付能力等,这些都可以作为划分客户的具体参照。但是由于一个企业最为主要的目的就是利润的产生,为此,我们应该以客户对企业贡献大小为主要参考依据进行科学划分,具体为三种,即低价值客户、普通价值客户以及高价值客户。
其次是属性分析。在进行客户流失预警分析中,其影响因素是多方面的,而这些因素之间的关系也或强或弱,若以所有属性为标准,那么分析过程显得过于复杂,这样,在实时环境以及追溯目标的过程中,要想识别是存在着一定难度的,但是,若是从中抽取某几个属性,那么系统的预警效果则会大大降低。因此,最为有效的解决方法就是采用约简算法,将这些相互关联的属性进行融合处理,并从中抽取关键性因素,重新构造关键指标,形成新的线性组合,进而获取最有效的价值信息,取得最为有效的预测效果。本文运用多元统计中的因子分析方法,结合SPSS软件,得到一组流失预警中可用的因子(属性)集合,具体内容如表1所示:
第三是特征挖掘。关于数据特征的挖掘具体包括以下几个内容:一是数据抽取,简单来讲,将业务系统中所储存的离网数据信息,进行分析整合,并作为训练数据集合,同时,进行属性约简,将所得到的相关数据输入数据库中,作为模型数据;二是将输入的数据运用慢启动频繁模式进行数据分析与挖掘,归纳流失客户特征信息,并在此基础上,构建相应的分类器;三是输入测试数据,这一部分数据集合主要是由新的客户数据组成,经过约简后,作为测试模型;四是将分类器中的数据特征与挖掘到的新的客户信息进行模式匹配,以此来确定客户是否存在着离网倾向,若是存在离网倾向,那么需要将这些数据反馈给客户挽留系统或者是客户维护系统,从而为客户开展针对性的服务,一方面,为客户部门的服务工作提供了重要参考依据,另一方面,还可以为企业客户维护工作决策提供参考。
三、仿真及结果验证
基于数据挖掘技术的电信客户流失预警模型,在某地电信运营公司展开实地测试,该企业根据其实际情况,构建了客户流失预警模型,并在此基础上,全面展开客户挽留与客户维护工作,同时,根据系统提供的数据信息,分析流失客户的特征,在每月的月初进提供客户名单,该企业在2012年8月的流失预警客户的具体数据如表2所示:
根据客户流失预警模型的分析,得到的流失预警数据,该企业客户服务部门分别在6、7、8月份对8259户、9001户、8975户客户进行了回访,其回访的成功率分别为90.12% 、89.67% 、88.56%,其中,在这些回访的客户中,将近85%以上的客户表达了自己近期有离网打算,但是经过客户部门的回访,结合针对性的处理措施以及挽留措施,99%以上的客户均打消了离网的意图。
四、总结
总而言之,客户流失预警模型的构建通过对客户所处状态的判断,确定客户是否存在离网意图,并且综合企业维护运行成本、客户消费价值、客户属性以及客户使用习惯等,对客户进行细分,针对不同的客户提出不同的营销方式,并在此基础上,通过反馈数据,完善客户服务,提高产品服务质量,最终达到拘留客户的目的。
参考文献:
[1]蒋亚虎.基于SQL Server的OLAM模块研究[J].制造业自动化.2011(16).
[2]庄仁团.数据挖掘技术在电子政务系统中的应用[J].海峡科学.2011(05).