HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据挖掘论文

数据挖掘论文

时间:2022-08-16 10:32:01

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘论文

第1篇

数据挖掘技术是延伸和扩展了传统分析方法,可以发现传统分析方法不能发现的内容和规律,并且它将人们从单调、枯燥的阅读专利文献的工作中解放出来,使用计算机代替了人类劳动,这样不仅提高了效率,而且提升了准确度。因此,数据挖掘作为一个专利分析的强有力工具被引入到专利分析中来,并且得到快速的发展应用。专利数据挖掘流程应考虑的问题:一是用数据挖掘解决什么样的问题;二是为进行数据挖掘所做的数据准备;三是数据挖掘的各种分析算法。故专利数据挖掘的一般过程通常按照以下步骤来完成:领会数据挖掘的目的,获取分析所用的数据集合,探索、清理和预处理数据,选择要使用的数据挖掘技术,使用算法解决问题,解释算法的结果。而其一般流程可简化为三个阶段:数据准备数据挖掘结果解释和评价。本文采用简化的流程进行实证分析。

二、石家庄地区制药企业专利数据挖掘

本文对石家庄地区制药企业的专利数据进行挖掘分析,挖掘对象是华北制药集团公司、石家庄制药集团有限公司、石家庄神威药业股份有限公司、石家庄四药股份、河北以岭药业股份有限公司、石家庄市华曙制药集团、河北医科大学制药厂、河北圣雪大成制药有限责任公司等地址在石家庄且具有一定代表性的药企,希望通过这些药企数据能够找到石家庄地区制药领域的核心组成,并能为药企更好地发展提供有力的信息支持。IPC号是目前权威的专利技术主题的标识编码之一,基本包含了各行各业的专利信息,是一个庞大的专利信息体系。目前国内外很多分析方法及技术大部分是基于专利的IPC分类号来分析专利技术主题的,此分析方法有一定的参考价值和科学性,而且对于具有大量专利信息的分析具有很好的总结概括效果。本文以专利全部IPC号为分析对象,并且构建IPC号之间的关联规则,在最大程度上揭示隐含的专利技术关联性,从而为石家庄地区制药企业专利技术的发展提供参考。

1.数据准备。数据来源的准确与否是数据分析与挖掘的基础,是数据分析与挖掘的根本。本文所使用的石家庄地区制药领域专利数据由万方数据公司提供,以制药企业地址为石家庄为检索条件,搜索出了包括从1985—2014年间石家庄地区制药领域专利644条,分别分布在A、B、C、D、E、F、G、H八个大部。对专利数据库中的644条专利进行筛选,根据“分类号”字段限制,它涉及专利信息的分类,有些IPC所涉及的范围与石家庄地区制药领域没有联系或联系很小,不宜保留。根据“申请人(专利权人)”字段的限制,剔除与石家庄地区制药不相关或制药企业地址不在石家庄地区的专利。最后筛选出590条最符合该领域特点的专利。由于IPC号在几乎所有现存数据库中均是以一个字段存储一个专利的所有IPC分类号的,形如:A61K38/26、A61K9/08、A61K47/12、A61P3/10,且每个专利一般都有好几个分类号,而每个企业又研究大量的专利,所以在进行专利分析之前,需要对专利IPC号进行数据整理。由于过于细致的IPC分类号并不利于专利主题的分析与揭示,所以本文中采用专利小类分析,就是取IPC号的前4位。并将申请人与其对应的多条IPC号进行拆分,拆分后的数据项有773条,即显示每个申请人对应的一条IPC分类号。

2.数据挖掘。本文数据挖掘过程将采用Excel和SQLsever2005软件,首先对所得到的数据导入SQLserver2005进行挖掘,利用SQLserver2005可以直接进行IPC号的关联规则挖掘,然后对专利信息进行分析。

3.数据挖掘结果与分析。基于关联规则制作依赖关系网络图,可以更加直观地看到各个IPC号之间的关联和依赖状态。

(1)以A61K、C12N、C12P、C07D、C07C为中心的核心专利技术群。这些专利的IPC分类号是关键部分药物组成的各种化合物即药物主要成分的重要聚集组。A61K(医用、牙科用等的配置品)是项集次数最多的,即支持度较高的,C12P(发酵或使用酶的方法合成目标化合物或组合物或从外消旋混合物中分离旋光异构体)、C12N(微生物或酶;其组合物)、C07D(杂环环合物,例如邻氯苄星青霉素的合成)、C07C(无环和碳环化合物)通过专利相关知识我们已经知道这些都是药物的合成成分,即土霉素、链霉素、青霉素等多种抗生素和维生素的主要成分组成,是制药领域的核心。这也是和石家庄地区制药企业的核心领域相符合的。另外这些专利主题的相互关联、依赖说明了石家庄地区制药企业在该领域具有很好的布局网络,在研发数量上也占有一定优势,所以说是石家庄地区制药企业的主要研究领域。

(2)以B65G、C12M为中心的辅助设备专利技术群。药品的生产离不开设备的支持,所以设备方面的专利也能体现制药企业的技术水平。在图1中也能体现出来,专利间有着很强的依赖性和关联性,在核心专利周边有B65G(运输或贮存装置,例如装载或倾斜用输送机、车间输送机系统、气动管道输送机)、C12M(酶学或微生物学装置),这些是制药的辅助技术手段,与中心专利是相互联系的,也是制药过程中必不可少的,在这些方面的提高有利于制药核心领域的发展。先进药品的研制离不开先进制药设备支持,所以设备水平的提高也是关键的。如图3所示,石家庄地区制药企业在这一方面的技术依赖网络也已经形成,说明在此技术领域也已经拥有较强实力。但与中心主要专利相比,辅助设备专利技术还是需要不断提高的。

三、总结

第2篇

1.1数据挖掘技术

关联分析即找出两个或以上变量之间同时出现的规律、因果结构,即通过其他事物可对某个与之相关的事物做出预测。数据挖掘关联分析的主要作用就是分析海量数据中潜在的关联规则,对于高校图书馆个性化服务而言,即从图书馆数据库中发现相关的关联规则,针对用户的信息需求做出准确预测,提高信息推送的针对性,便于用户获取所需的信息。聚类即将数据库中的一组个体按照相似性归结为若干类型,应用于图书馆系统中,就是将相似的文献集中在一起,用户在搜索相关文献时可以查阅更多其他相关内容,便于其总结、归纳;在个性化服务中还可以通过聚类汇总用户所需的特定信息。分类与聚类相似,是按照分析对象的属性建立类组,用户查阅资料的过程中,每种信息的重要程度有所不同,通过分类可以将用户所需求的知识分为高度需求、中度需求及低度需求。在高校图书馆个性化服务中要对用户的使用规律做出预测,即根据用户历史查阅记录对用户所需的文献种类、特征等做出预测。时序模式主要是通过时间段对用户的访问记录、检索过程做出标志,再通过时间序列将重复率较高的内容挖掘出来,以预测其下个信息需求,提高用户查阅资料的便利性。

1.2图书馆中应用数据挖掘的必要性与可行性分析

图书馆应用数据挖掘技术的必要性体现在以下几个方面:首先,信息化需求。用户的借阅记录、检索记录均存储于图书馆数据库中,需要利用数据挖掘技术将这些海量数据转换为有用的知识信息,以便于馆员做出决策。其次,图书馆的管理需求。传统图书馆系统仅能为用户提供简单的访问、检索等功能,这些功能无法满足图书馆个性化的技术要求,因此要利用数据挖掘技术将用户借阅数据中隐含的关联性发掘出来,从中发现有用的知识信息。最后,用户服务的需求。数字化图书馆的发展越来越迅速,用户通过图书馆获得的资源也越来越丰富,如何从海量的信息资源中发掘出对用户有用的知识信息,仅依靠传统的图书馆管理系统无法解决这一问题,因此要利用数据挖掘技术对用户的借阅记录进行分析,从中获得更多有价值的信息,以提高图书馆的服务质量及馆藏利用率。而在图书馆个性化服务中应用数据挖掘技术也是可行的,一方面很多图书馆已具备比较好的物质条件及人才条件,这些均是图书馆个性化服务中应用数据挖掘技术的必要条件,而且政府在经济方面、政策方面也为数据挖掘的应用提供了更多保障;另一方面,近年来数据挖掘技术也有了长足的发展,其足以为图书馆的个性化服务提供必要的技术支持。图书馆数字化发展过程中需要采集、购置更多的数据资源,而利用数据挖掘技术可以为图书馆资源建设提供指导作用,挖掘图书馆的历史借阅记录,可进一步了解用户的借阅习惯、阅读兴趣及信息需求,并且可以对不同图书之间的关联性进行深入分析,图书馆员根据这些信息记录、分析结果等提供指导,可以提高图书资源分配的合理性,对馆藏布局进行优化。由此可见,数字化图书馆个性化服务中应用数据挖掘技术十分必要。

2图书馆个性化服务的具体体现

高校图书馆个性化服务是指根据每个用户的专业、爱好、研究方向、探索领域及特殊服务为其提供更具针对性的信息服务,帮助用户查阅更加完整的信息资料,便于其学习、研究。高校图书馆个性化服务具体体现在以下3个方面:

①用户可根据自己的需求定制相关信息,以保证其在图书馆中能够查阅到相关资料;图书馆利用数据挖掘技术发现用户的兴趣爱好,为其定制个性化的访问空间。用户访问图书馆数据库时会将其兴趣爱好间接地反映出来,如果用户不感兴趣,在页面停留的时间会较短,停留时间较长则说明比较感兴趣;利用用户的浏览路径信息时间即可将用户对信息资源的感兴趣程度发掘出来。

②提高图书馆资源利用率。利用数据挖掘技术可以识别图书馆网站内频繁访问的路径及用户访问次数较多的页面,可以将新书信息、重要的分类信息放在这些路径上,从而向用户主动推送其所需要的信息资源,提高图书的利用率。

③优化链接结构,提高用户应用的便利性。对Weblog进行挖掘,可以发现用户访问页面的相关性,增加联系比较密切的网页之间的关联性;发现用户的期望位置,如果用户访问期望位置的频率高于对实际位置的访问频率,则可在二者之间建立导航链接,优化站点。

④查新服务与定题服务。传统图书馆主要通过查询光盘数据库、文献数据库等进行查新服务,而随着网络技术的不断发展与应用,外部网络信息及更新的速度远远超过图书馆内部网络,因此要加强网络平台的建设,以保证服务结果的真实性与可靠性。数字图书馆在进行查新与定题服务过程中,可以利用可视化技术为用户提供在线即时信息分析。

3图书馆个性化服务中数据挖掘技术的应用

图书馆个性化服务数据挖掘技术的应用流程如下:建立读者数据仓库——数据收集——挖掘算法的选择——挖掘结果的显示——对结果的评价。

3.1建立读者数据仓库

数据挖掘过程中,在确定了挖掘目标后,即开始进行数据准备,从大量数据中选择一个与需挖掘目标相关的样板数据子集。此时需要建立一个数据仓库,其主要作用是将所有挖掘目标所需的数据保存其中,如果未建立数据仓库直接进行数据挖掘,可能会导致挖掘失败,因此数据挖掘的前期工作大部分用于准备数据,因此建立数据仓库是一个至关重要的准备工作。高校图书馆个性化服务中应用数据挖掘技术,第一步就是建立用户的兴趣库及图书馆自身的特色资源数据库。用户使用图书馆的过程中,必然会产生大量的借阅记录,访问图书馆网站会留下访问记录,这其中均潜藏了大量有意义的信息。

3.2数据收集

在建立用户兴趣库及特色资源数据库后,必须对这两个数据库中的数据进行分析、调整,以保证原始数据的质量,从而保证数据挖掘结果的质量。数据收集即数据的分析与调整可以分为数据抽取、数据清洗及数据转换等3个步骤。其中数据抽取的主要作用是将与挖掘目标相关的数据信息搜索出来;数据清洗则是对数据进行噪声消除、重复记录的消除及推导计算缺值数据等。图书馆每天会产生大量的用户相关的数据,并非所有的数据均对整个挖掘处理过程有正面作用,有些数据可能会对挖掘效果产生负面影响,因此剔除这些无用的数据十分必要。数据转换的主要作用是精减数据维数,从初始特征中分析出真正有用的特征,通过数据转换可有效减少数据挖掘时需要考虑的变量数。

3.3选择算法及建立模型

数据挖掘过程中不同的算法可能会实现同一个任务,但过程却大相径庭,因此要根据数据的特点、实际运行系统的要求选择适用的算法。有些用户比较倾向于获取描述型的、容易理解的知识,有些用户则希望获取预测型知识,因此要针对不同的用户选择对应的算法,之后就要进行数据挖掘模型的建立。通过对用户分类、聚类及时间序列的分析,将每类用户的普遍性需求及个性化需求抽象出来,从而建立一系列的关联规则模型。一个模型完成后不一定可以立刻解决问题,需要对其进行反复验证,如果可以解决问题证明模型有效;如模型存在缺陷,则要通过反馈对模型进行修改、调整,或者选择新算法,建立新模型,对不同的模型进行全面考察。

3.4结果解释与知识表示

在建立数据挖掘模型后,可利用建立挖掘模型时所用的算法规则进行运算,即可产生数据挖掘结果,图书馆只需对挖掘结果进行可视化、可理解化处理即可。要将抽象的数据解释成易读、易懂的结果,图书馆决策者及管理者即可根据可视化的挖掘结果进行决策。比如图书馆新引进了一批考古专业的学术论文,由数据挖掘模型分析结果可知,该批论文的查阅者90%均为考古专业的老师与学生,其他专业的师生查阅率不到10%,根据这一结果,即可将论文信息传递给考古专业的相关用户,以提高信息推送的针对性。

3.5结果的验证、应用及评价

产生挖掘结果后需要进一步实践,以验证结果的有效性与可用性,及对模型的实用性进行评价,并且挖掘结果还具备预测未来数据的功能。上一步的结果解释经过实践后,可对应用过程进行跟踪了解,获得用户的反馈信息,对结果的实用性进行验证。需要注意一点,即一个数据挖掘的模型与已有数据完全相符比较困难,且并非所有的环境、每个时间节点均适用于同一个数据挖掘模型,因此要对挖掘结果做出评价,如经过用户的反馈,数据挖掘出来的结果可以解决问题,实现了最初的挖掘目标,满足了用户需求,则可判定该模型是合理的。挖掘结果可以满足用户的要求,用户就会做出满意的反馈,将这一反馈信息提供给决策者即可做下一步的实施,完成该阶段后,图书馆就基本上实现了以用户为中心的个性化服务的数据挖掘过程。不过某些情况下模型的评价结果可能不尽如人意,即数据挖掘的结果无法满足用户的要求,这种情况就要由系统进行重新处理,重复上述步骤,重新抽取数据、选择另外一种数据转换方法、设定新的数据挖掘参数值、选择另外的挖掘算法等。由此可见,数据挖掘的过程是一个不断反馈的过程,体现出反复性的特点。

4结语

第3篇

在电子商务进行应用的数据挖掘技术的实现过程大致要划分为三个不同的阶段:第一部分对需要挖掘的数据信息的准备阶段,第二部分对数据信息的挖掘阶段,第三部分的主要任务是对数据挖掘的结果进行解释与评价.

1.1数据信息的准备准备部分又可以分成数据的选取、数据信息的预处理.对数据进行选取的主要目的就是对操作对象进行确定,即是对目标数据进行确定,所谓的目标数据是在经过对用户的需要进行细致分析之后,对最有可能得到有利用价值的信息的那些从数据库中抽取出来的数据.获取到这些数据以后需要进行预处理,主要包含数据的去噪、计算缺值数据的推导、数据类型的转换,数据类型转换举个例子来说比如把连续型数据转化成离散数据,以方便进行符号的归纳.

1.2挖掘过程数据信息的挖掘阶段是在上一步的基础之上,即在目标数据已经确定,并且已经完成了初始化的基础之上,需要确定数据挖掘的目的与挖掘的类型.在对挖掘任务的目标确定之后,要根据数据挖掘的知识类型选取合适的数据挖掘方法,最终完成数据挖掘具体操作即采用特定的数据挖掘方法从数据仓库中抽取所需的挖掘目标.

1.3挖掘结果的解释和评价数据挖掘的结果的解释和评价是在完成数据挖掘阶段之后对发现的知识,进行评估,对于冗余或者无关的知识要进行删除;对于获得的知识不符合用户的要求的要进行重新的挖掘.与此同时,因为数据挖掘需要面临用户,所以,在得到目标知识以后还需要对所挖掘的知识附加相关解释,来用一种便于用户理解的方式供用户使用.综上所述,整个数据信息的挖掘在实际情况下是一个不断地循环与反复的过程,所以要对所挖掘出来的知识不断求精和深化,最终要获得用户所需要的结果.

2电子商务中数据挖掘的特点

由于电子商务自身的某些独特的特点,同其他的应用于普通商业领域中的数据挖掘相比,应用于电子商务的数据挖掘具有如下几个特点:(1)应用于电子商务的数据挖掘的最终目的主要表现在企业与客户之间的关系管理方面,电子商务利用因特网的技术能够使企业和客户之间的关系处理变得更加方便.所以,其主要的功能是怎样使企业采用这些频繁的交流信息,快速的掌握客户的趋向、改善与客户交流情况或者获取交流方向等;(2)电子商务本身就是一个信息化程度比较高的系统,其自身累积的数据信息会存放在电子商务数据库内,用户可以比较便捷地得到这些信息,所以对于电子商务的数据挖掘的数据信息的准备阶段的相关工作就变得相对容易;(3)电子商务领域的数据挖掘的主要目标一般是使电子商务系统得到有效的改进.例如为客户提供个性化页面、把用户比较感兴趣的信息展现在网站首页或得到哪一些商品比较受到客户的欢迎等.

3电子商务中的数据挖掘运用

首先要讲的是关联规则在电子商务中的运用,利用比较通俗的语言来讲,从一个事件的发生与否方面进行解释,所谓的关联规则法在大量的事件发生或者不发生的条件下,对这些事件中的任意两个或者多个事件提取出来,通过一定的统计分析算法,最终确定两个或者多个事件的发生与否是否存在着某种关系,而这种可能存在的管理,我们称之为关联规则.列举一个有趣的故事,就是在一个超市里面,店家把小孩的尿布同啤酒放到了一起,来供购买者进行购买,结果是二者的销量都提升了一倍,其实这就是因为二者之间有着某种潜在联系,店家通过数据挖掘的方法发现的这个规则,并对这一关联规则进行了实际的运用,从中得到了益处.同样在电子商务中通过数据挖掘得到关联规则,有着类似的意义.其次在电子商务中数据挖掘聚类分析方法的应用.在大量数据仓库中,数据与数据之间,往往会有某些性质的类型相似,同样也会有某些性质或者特点相异,我们把这些性质或者特点称为观察指标,聚类分析就是对于某一个特点指标而言,把指标相差不多的数据划分为同一个类型,若相差较大则要划分为不同的类型、这种操作的主要意义就是将具有某种特定的相似特性的客户或者数据分成一个类.在电子商务活动中,这一方法的应用主要集中在市场细分的工作之中.分类分析系统的建立以生物的遗传算法为基础,属于其中的自学习的一种,它一般会包含三个子系统,第一个是以串规则为基础的并行生成子系统、第二个是规则评价子系统.第三个是遗传算法子系统.分类分析可以说是电子商务中运用到数据挖掘最多的一种挖掘方式.主要原因就是在于其能够形成一种预测模型能够对一些营销方式或者其他的一些商业措施做出正确的预测.

4数据挖掘在电子商务中的应用

更高效的利用企业现有资源以及开发新资源是当代企业发展的关键.电子商务通过采用数据挖掘的技术,能够更加及时和正确的获得企业当前所有资源的具体使用情况,而且通过数据挖掘的技术可以分析以往的各种企业数据,比如说企业财务数据、企业库存数据或者企业交易数据,能够较为及时的发现企业资源过度消耗的主要问题所在,或者能够得到各种商务活动的投入与产出的比例,来为企业领导进行经营决策提供有力的根据[6].另外在企业的经营过程中,人们不断推崇“以客户为中心”的经营理念,在这一趋势下,如何正确快速的分析和了解客户的需求已成为企业提高自身市场竞争力的一大课题.通过把数据挖掘应用到电子商务之中,能够使企业最准确的分析客户资源并最有效的利用企业客户资源,通过对已有客户行为进行相关性分析,可以形成潜在客户资源的预测模型.除此之外在企业经营过程中,利用数据挖掘可以解决另外一个严重影响了商业正常秩序的重要问题.即当前时区商务活动中的地下的信用状况问题,这一问题的严重程度已经引起了人们的广泛关注.在电子商务经营过程中,因为网上诈骗公司或者企业财务的现象屡见不鲜,信用危机已经成为影响其快速正常发展的一个重要因素.而通过在电子商务中采用数据挖掘技术实现对企业经营活动的跟踪,在此基础上实现企业的资产评估、利润收益分析以及发展潜力预测分析等,为电子商务在经营过程中提供了完善的安全保障体系,同时利用数据挖掘实现企业网上全程监控.另外通过实现基于数据挖掘的信用评估模型,可以在很大程度上进行防范或者化解信用风险,从而提高企业的信用度以及应对风险能力.

5结束语

第4篇

1网上银行促销渠道分析系统的设计

网上银行促销渠道分析系统采用C/S架构或者B/S架构,充分考虑系统易用性和投入产出。从维护网上银行的C/S架构和B/S架构角度来分析,使用网上银行促销渠道分析系统的多是管理人员,并且在未来的发展过程中,系统用户数量也不会大幅度上涨,综合网上银行系统的维护成本和开发成本,尽量选择C/S架构。从使用者和系统数据传输的角度来分析,只有银行工作人员才能使用这个系统,而C/S架构具有良好的灵活性。综上所述,网上银行促销渠道分析系统可以使用C/S架构来部署软件模块。由于网上银行系统包含大量的客户信息数据,因此网上银行系统必须具有更高的安全性和保密性,相关操作人员必须强化风险防范意识,规范网上银行系统操作,严格控制系统的数据传输。网上银行系统必须具有良好的扩展性,为数据表和数据查询算法留出充足的软硬件资源。同时,网上银行渠道分析系统要支持工作人员扩展数据查询、数据字典和数据表之前的交叉查询,将用户的查询记录保存在本地网络服务器上,尽量避免重复查询,提高网上银行渠道分析系统的查询速度。

2数据挖掘技术在网上银行促销活动中的运用

随着商业银行的快速发展,网上银行受到人们的广泛关注。网上银行系统以计算机网络为交易平台,各种新型的促销策略,使网上银行业务得到迅速拓展。但是,和四大行相比,一些商业银行的网上银行业务仍然存在很大的差距。同时,近年来,网上银行市场竞争日益激烈,某些网上银行业务在应用过程中出现了促销成本不断增加,而促销效果不理想的状况,数据挖掘技术在网上银行促销活动中的运用,要积极解决这些问题。

2.1提高营销质量当前,很多银行都逐渐加大了网上银行促销力度,但是促销活动的效果却不明显,单纯的依靠赠送礼品或者各种优惠措施,在很大程度上会提升促销成本,并且难以真正地吸引客户。在网上银行促销活动中应用数据挖掘技术,分析不同促销活动的特点,根据网上银行系统自身的特点和优化,对不同客户进行组合促销,将不同的网上银行业务或者产品联系起来,有针对性地对有意向的客户进行促销,合理安排网上银行促销活动内容和时间,尽量在电子商务交易高峰时段之前,实现网上银行促销活动的目标。

2.2优化客户结构一些商业银行不了解客户的真实需求,在发展潜在客户时,缺乏针对性,网上银行促销活动的交易需求较弱。因此要应用数据挖掘技术挖掘一些隐含的信息,明确哪些客户对网上银行的哪些产品或者业务有需求,挖掘潜在的、有实力的客户,将这些客户作为网上银行促销活动的重点客户。

2.3优化促销活动流程在网上银行促销活动中运用数据挖掘技术,采用运用关联分析,挖掘传统银行渠道重点产品和网上银行系统重点产品的业务数据,挖掘非网络银行系统和网络银行系统业务以及网络银行系统不同业务或者产品之间的关联关系,通过数据挖掘技术寻找符合网上银行系统运营条件的关联关系,探索网上银行系统不同产品和业务之间的依存性或者相似性[2],由此将网上银行系统的某一项业务或者产品作为重点促销产品来拉动其他业务和产品的销售,并且可以将一些业务或者产品组合起来进行有针对性的促销,提高网上银行促销活动效果。另外,挖掘优质、有潜力客户特征,优质客户可以银行提供大量的业务收入和交易量,因此可以通过数据挖掘技术的聚类方法分析银行系统的客户构成,挖掘优质客户的共同特征,为网上银行促销活动提供重要的依据。

3结束语

数据挖掘技术在网上银行促销活动中的运用,可以极大地提高网上银行促销活动的效果和效率,利用数据挖掘技术帮助银行系统挖掘一些隐含、有价值的信息数据,结合网上银行系统的特点和优势,帮助银行系统有针对性开展网上银行促销活动,深入挖掘优质客户,增加网上银行业务交易量,提高网上银行系统的经济效益,推动网上银行系统的快速发展。

作者:周骏单位:上海浦东发展银行

第5篇

首先,提高财务信息的利用能力。传统财务数据查询主要面向应用,属于一种支持日常操作的事务处理,没有分析所查询的数据信息的能力,决策者也无法在分析大量历史数据的基础上多维度的比较、分析某个主题的相关数据。而财务分析中应用数据挖掘技术体现出序列导向及多维度的特点,从而有效提高财务信息的应用能力。其次,解决财务信息的噪声问题。网络环境下,企业可以方便、快捷的获取企业内部信息、各关联方及外部信息,这个过程中难免会出现信息过量的问题,如何迅速从海量信息中获取对决策有用的信息成为各决策者及管理者面临的重要问题。这种情况下,数据挖掘技术可以在海量信息中分辨、挖掘出对财务决策有用的信息,最大程度上减少信息噪声的影响。最后,提高财务分析的智能化水平。决策本身体现出动态性、复杂性、多样性的特点,而决策者本身的综合素质也会对决策的准确性产生影响,因此同一种情况可能产生不同的决策结果。随着数据量的不断增加,传统依靠程序人员设计专用程序查询数据的方法已经相对滞后,决策者需要更加智能化的信息分析方法,数据挖掘技术便可满足这一要求,其利用现有数据获取新的、有用的信息,并对信息的查询、存储过程预以优化,体现出强大的自我学习功能,从而最大程度上满足财务信息分析智能化的要求。

二、数据挖掘技术在财务分析中的应用

财务分析的主要目的是改善经营管理,提高企业的经济效益,其主要目的是保证会计信息资料的正确可靠性,以保证企业财产的安全性、完整性。比如某生态园林企业需要投入大量资金完善生产基础设施,并保证现场作业的有序,如有必要还要投资于企业产品周边附属产业的发展,因此财务决策的重要性不言而喻,而在财务决策中应用数据挖掘技术十分必要。财务分析中应用数据挖掘的基本流程包括问题识别、数据准备、数据开采及结果表达与解释等四个步骤,图1可将财务分析数据挖掘的过程直观的表达出来:

(一)问题识别

典型的财务决策包括投资决策、筹资决策、成本决策、销售决策等,企业要进行财务分析前必须识别决策问题,明确需要达到的决策目标等,再将决策目标转换为数据挖掘的目标,最后进行准确的数据定义。如企业需要投资企业产品周边附属产业,则需要利用数据挖掘技术明确以下问题:

(1)企业经营中可随时支配的资金额度,需要财务人员建立数据库模型,将可用于投资的资金情况准确、详细的计算出来;

(2)编制投资方案,即与本企业实际情况相结合,考虑具体投资计划,并对投资方案的可操作性进行分析,比如上述园林生态企业需要投资进口园林机械的项目,就需要在投资前对该项目的大小做出合理评估,了解该品牌园林机械在国际市场的占有份额、品质、成本及销售价格等信息;

(3)投资收益分析,投资的主要目的是获得更高收益,因此在数据挖掘过程中,问题识别时必须做出可靠的收益预算。

(二)数据准备

在完成问题识别后,需要根据不同的需求、从相关数据库信息中选择适用的数据信息,即进行数据准备,该过程需要收集大量与企业财务分析相关的数据信息,以保证数据挖掘的真实性、客观性,比如花卉市场分布信息、装饰装潢市场信息、园林设计与市场销售等信息。通常情况下,数据准备又可分为数据集成、数据选择及数据预处理等三个步骤,其中数据集成是把多数据库运行环境中的数据进行合并处理,去除信息噪声,剔除虚假数据;而数据选择则是分辨需要分析的数据集合,进一步缩小数据处理的范围,提高数据质量,从而保证数据挖掘的有效性;数据预处理的主要目的是解决数据挖掘工具局限性的问题。

(三)数据挖掘

当上述准备工作完成后即可进行深入的数据挖掘处理,挖掘过程中需要注意,必须以财务分析核心思想为指导,明确数据挖掘的目的性,数据挖掘的主要内容包括:选择合适的挖掘工具、具体的挖掘操作及证实发现的知识等,其中选择合适的挖掘工具至关重要,限于篇幅此处对神经网络及决策树两种方法进行简单介绍。神经网络是以自学习数学模型为基础的,利用该方法可以很容易的解决具有上百个参数的问题,为高复杂度的问题提供一种相对简单的方法;视经网络既可以表现为有指导的学习,也可以是无指导聚类,不过输入神经网络中的值均为数值型的。实际应用中通常采用该方法进行财务预警分析。决策树法是现阶段应用最广泛的归纳推理算法之一,其提供了一种展示在何种条件下会获得对应值的规则的方法,是一种简单的知识表示方法,在数据挖掘过程中,决策树法主要用于数据挖掘的分类。

(四)结果表达

结果表达即是在处理数据库信息的基础上客观的表达出数据挖掘的结果,以为企业财务分析提供可靠依据。可以说结果表达是数据挖掘的成果展示,其所表达的是最有价值的信息,如结果表达所提供的信息达不到决策的要求,则可重复挖掘过程,直至决策者满意为止。

三、结语

第6篇

合肥市是安徽省省会,土地面积1.14万km,常住人口755万,其中城镇人口486万,农村人口266万人。依据合肥市主城区用地规划图以及合肥市2014年遥感影像图,确定本文研究区为合肥市市辖区、功能区以及肥西、肥东县的副城区。根据Voronoi图的理论,在ArcGIS中生成现有研究区范围避难场所的责任区划分。其中,老城区的责任区分布较为均匀,而其他区域由于应急避难场所数量少且较为分散,均出现较大面积的多边形,且形变剧烈,说明某些应急避难场所分担的服务范围较大,分配不合理,需要进一步合理规划。

2空间数据挖掘应用模型的实现

2.1模型设计

城市空间布局及发展具有规范性,因此,对避难场所进行选址需要遵循城市发展战略及人口增长规律。

1)数据挖掘预处理。对研究区各行政区划的人口数据、面积、土地利用类型、已建应急避难场所等数据进行统计,建立txt文本,进行空间数据挖掘,创建数据字典。

2)数据矢量化。在ArcGIS10平台中,以合肥市地图为底图,对行政区划进行数字化,并结合合肥市最新规划图及遥感影像图,对元数据进行矢量化,并编辑地物的属性,形成ShapeFile文件。

3)建立数据库。将空间数据中的属性信息录入属性数据库。

4)空间分析。结合矢量化的人口密度专题图和现有场地点状分布图,重点对服务区覆盖范围外人口进行分析,通过对空间数据进行缓冲区分析、栅格分析、重分类、叠加分析、地图运算等过程,确定应急避难场所综合评价方案,最终确定新场所地址。

5)可视化。根据最终新场所的ShapeFile文件,结合人口密度分布图,制作新场所分布图。

2.2文本及地理信息数据挖掘

1)地理空间特征提取。依据《安徽省应急避难场所分级技术标准(试行)》的场所分级和选址要求[1,2],从纸质地图、规划图、统计数据等地理文本中抽取符合条件的元数据。

2)地理数据分类。从挖掘后的地理空间数据中提取道路、土地利用类型、人口密度、新居民地等地物数据及各类地物的空间特征信息。

3)空间数据挖掘:对空间特征信息进行评价,将符合选址条件的用地数据以及影响避难场所选址的主要因素进行分类、提取,建立相应的空间位置、属性信息,并绘制矢量图层。

3数据库的设计与实现

研究模型的数据库由空间数据库和属性数据库组成,统一存放在关系数据库中,实现数据的统一管理。

1)空间数据库的设计与实现。将要矢量化的合肥市地图进行扫描,加载到ArcMap中,打开ArcCatalog,在目标文件夹下新建ShapeFile文件。通过对需要矢量化的地物进行分析,将现有应急避难场所归为点图层,将城市主、次干道、断裂归为线图层,将土地利用类型、河流、湖泊、人口密度、现有居民地等要素归为面图层。

2)属性数据库的设计与实现。在ArcMap中打开表,进行地物属性库的编辑,对照空间属性库表,分别添加地物的属性字段,并输入属性信息。

4应急避难场所的空间优化和选取

4.1影响选址的主要因素

本文依据《地震应急避难场所选址及配套设施要求》,对影响选址的主要因素进行分类、量化。

4.1.1场地的安全性

选址应具有地质、水文及自然环境方面的抗震安全保障。新建场地距离断层必须有一定的距离,利用GIS的缓冲区分析,建立断层的6层缓冲区,分别赋予不同的评价指标。

4.1.2现有避难场地

按照安徽省地震应急避难场所及配套设施要求,地震应急避难场所分为3类,其服务范围分别为5km、1km、0.5km。以此为标准,对研究区现有27个应急避难场所进行类型划分,并建立服务范围属性表。应用ArcMap的缓冲区分析功能,分别建立以5km、1km、0.5km为服务半径的缓冲区,生成服务范围矢量图,并转换为栅格图像,进行重分类。

4.1.3土地利用现状

新选址的区域覆盖合肥市主、副城区范围,城市区域用地多数被建设用地覆盖,其中有些地块不适于建造避难场地,例如工业用地。土地利用现状评价指标

4.1.4现有居民点空间分布

避难场地的位置距离居民点有距离限制。以居民点为研究对象,进行邻近区分析。对合肥市居民点进行以100m为层次的缓冲区分析,并把矢量数据转为栅格数据。

4.2空间数据挖掘结果的可视化

第7篇

1.1较高的有效性数据挖掘技术作为一种数据的深加工技术,其本身是带有鲜明的目的性的,在实际应用活动中能够对长时间积累下来的经济统计数据进行基于数据使用者要求的深入加工。在实践应用活动中主要有两种重要的应用形式,一种是对积累经济统计数据的管理高效化处理,一种是对现有经济数据的目的性分析。其中第一种分析方式是从经济数据管理的角度出发的,在应用中主要是以固有数据信息的统计、分类为基础,将原本混乱的数据库信息进行科学、系统的归类,保证统计数据管理的高效性和使用的便利性。另一种工作方式是一种经济数据的再加工过程,以鲜明的数据统计、分析目标为指引对原有数据的呈现形式、组成内容和关联形式进行重新加工,以保证经济统计数据能够最大限度地服务于管理者的需求。

1.2综合应用性强如前文所述,数据挖掘技术是一个工具系统而不是单一的工具,能够实现使用主体的各种信息需求,随着现代社会经济的快速发展,当前我国经济管理的各个部门都需要大量的经济统计信息来作为经济管理决策的基础。但是因为各个管理部门经济管理的领域不同、经济管理的方式不同、经济的管理权限不同,所以相应的经济统计数据呈现形式的需求就不同。这就为经济数据统计系统提出了更高的要求,其不仅要对符合各个经济管理部门需求的数据内容进行统计,同时要将统计完成的数据换算成各种不同的呈现形式,并根据统计信息的来源和统计信息的计算方式对其可靠性进行评估[2]。最终这些数据信息的输出格式还应该符合所服务的经济管理部门管理系统的格式要求,保证统计数据能够在管理部门的管理系统中正常录入、应用,数据挖掘技术很好地满足了上述的复杂经济数据管理要求,其功能的综合性促进了其应用深度的提高和范围的扩大。

1.3宏观数据库有利于数据挖掘技术的应用当前因为经济管理部门的职权较为分散,各个经济管理部门的经济统计数据需求不尽相同。所以我国的经济统计活动绝大多数还采用传统的经济统计方法,统计收集的经济信息存在一定的局限性,不能够服务于经济管理活动的整体,或者造成一些数据统计工作的重复,对经济数据统计工作造成了一系列的质量和效率上的影响。经济数据统计活动急需一个能够整合各个统计系统,实现统计数据信息融合的新技术。宏观经济统计数据库为数据挖掘技术的开展提供了平台,数据管理系统的经济统计信息要正确无误,然后经过数据挖掘技术的整合,就能得到更加丰富的数据资源[3]。

2数据挖掘技术的应用

在社会经济管理活动中,管理主体对经济统计数据的要求主要有两个。一个是统计数据的真实性、一个是数据统计信息的实用性。单就这两个经济统计数据要求而言,数据挖掘技术能够很好地满足经济统计工作的需求,是适用性极强的一种经济数据统计技术,其在具体的经济数据统计活动中主要有以下三种应用方法。

2.1预处理方法在经济数据统计活动中,最为基础的一种处理方式就是经济数据的预处理方法,因为数据挖掘本身是一种基于提供基础信息的智能分析技术。其本身是受基础经济信息限制的,不可能无中生有代替经济数据收集系统的功能。所以所有作为数据挖掘系统数据基础的经济统计数据信息都应该进行预处理,处理的内容主要包括对这些数据中不正确、不真实、不准确,以及不同经济统计数据信息之间差距较大的现象。对这些基础数据存在的问题进行处理的过程被称为数据清理,当前数据清理主要采用的方法有均值法、平滑法和预测法。其中均值法是现代分析技术中模糊理念的一种应用形式,当基础数据中的一个数据点是空值或者噪声数据的时候,可以采用均值法进行处理,即用数据库中所有该属性已知的属性均值来填补空缺。保证数据挖掘系统对基础数据的分析和整理能够正常进行,得出相对而言准确度较高的统计分析数据。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示当前数据点进行计算所取的参考数据点数量[4]。平滑法依然是对基础数据中空值和噪声数据的计算方法,其与均值法的区别是用加权平均数代替了平均数,考虑了计算过程中提取的每一个数据对数据结果的影响权重,所以计算出的结果往往更加接近真实的数值。其中Ci表示当前数据点的取值,Cj表示当前数据点前后不为空的数据点,K表示为对当前数据点进行计算所取的数据点数量。WJ表示Cj数据点的权值。

2.2集成化处理方法在数据挖掘技术的应用活动中,因为相同地区的数据统计主体不同,或者在不同地区对相同经济数据的统计标准不统一,会产生一系列的数据集成问题,如何对这些调查方向不同或者是呈现方式不同的数据进行有效集成而不影响经济数据统计的准确性,是数据挖掘技术的重要任务。在具体的数据集成过程中主要考虑以下几个方面的问题[5]。

2.2.1模式集成当前因为社会经济活动中经济数据的统计内容过于广泛,很多经济数据统计并不是来自于官方的统计局而是来自一些民间统计组织,或者是由一线社会经济主体直接提供的经济数据,在数据挖掘过程中将这些来自多个数据源存在多种数据呈现模式的经济数据信息进行集成就涉及实体识别的问题。例如在数据挖掘过程中如何确定一个数据库中“std-id”与另一个数据库中的“std-no”是否表示同一实体,当前一般使用数据库与数据库之间的含元数据对比来保证实体识别高效率和高质量[6]。

2.2.2冗余问题数据挖掘本身是对经济统计数据的一种深加工技术,经过其加工的经济统计技术应该在本质上达到最简状态。在数据挖掘过程中要将与其他数据呈现某种正相关关系的数据项目进行精简,以保证数据库中数据量维持在一个较低的水平,为数据管理和应用提供便利。在经济数据挖掘活动中人均国民生产总值就是典型的冗余属性,因为其数值是可以通过国内生产总值和总人口属性计算出来的,所以类似人均国民生产总值这种冗余属性在数据挖掘过程中就应该精简,应用的时候在利用国民生产总值和人口属性计算得出[7]。对冗余属性的判断主要通过相关度对比来实现。其中n表示元组的个数,分别是属性A和属性B的平均值,分别是属性A和属性B的标准方差,在这一公式中如果则表示A、B两个属性是正相关,也就是说A越大B就越大,值越高二者的正相关关系就越密切;如果则表示属性A、B之间没有直接关系,是相互独立的;如果则表示A、B两个属性呈负相关,属性B会随着属性A的减小而增大,的绝对值越大,二者的负相关关联关系就越密切。

2.3决策树方法在数据挖掘技术应用过程中,经过系统的分析和总结以后,分析数据的输出是一个关键的环节,其输出的数据形式会对使用者的经济管理决策产生直接的影响。决策树是一种较为常见的、直观的快速分类方法。其应用的关键是决策树的构建,具体而言主要分为两步:第一步是利用训练集建立并精简一棵决策树,建立输出分析的模型;第二步是利用构建完毕的决策树进行输入数据的分类,这一分类是一个递归的过程,从决策树的根部开始进入到树干、枝丫,直到输入数据的分类满足了某种条件而停止。在具体的应用中停止分割的条件有两个:一个是当一个节点上的所有数据都属于同一个类别的时候;另一个是没有分类属性可以对输入数据进行再分割[8]。在决策树构建完成后,还要根据使用者的具体要求对决策树进行“剪枝”,剪枝的主要目的是要降低因为使用训练集而对决策树本身数据输出产生的起伏影响。

3结语

第8篇

关键词:数据挖掘电子商务数据库

一、引言

电子商务是指以Internet网络为载体、利用数字化电子方式开展的商务活动。随着网络技术和数据库技术的飞速发展,电子商务正显示越来越强大的生命力。电子商务的发展促使公司内部收集了大量的数据,并且迫切需要将这些数据转换成有用的信息和知识,为公司创造更多潜在的利润。利用数据挖掘技术可以有效地帮助企业分析从网上获取的大量数据,发现隐藏在其后的规律性,提取出有效信息,进而指导企业调整营销策略,给客户提供动态的个性化的高效率服务。

二、数据挖掘技术

1.数据挖掘

数据挖掘(DataMining),又称数据库中的知识发现(KnowledgeDiscoveryinDatabase,KDD),是从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取隐含在其中的、人们事先不知道的,但又是潜在有用的信息和知识的过程。数据挖掘是一门广义的交叉学科,它汇聚了不同领域尤其是数据库、人工智能、数理统计、可视化、并行计算等方面的知识。数据挖掘技术从一开始就是面向应用领域,它不仅是面向特定数据库的简单检索查询调用,而且,要对数据进行微观、中观乃至宏观的统计、分析、综合和推理,以指定实际问题的求解,企图发现事件间的相互关联,甚至利用已有的数据对未来的活动进行预测。数据挖掘技术在金融、保险、电信、大型超市等积累有大量数据的电子商务行业有着广泛的应用,如信用分析、风险分析、欺诈检验、用户聚类分析、消费者习惯分析等。

2.数据挖掘过程

挖掘数据过程可以分为3个步骤:数据预处理、模式发现、模式分析。

(1)数据预处理。实际系统中的数据一般都具有不完全性、冗余性和模糊性。因此,数据挖掘一般不对原始数据进行挖掘,要通过预处理提供准确、简洁的数据。预处理主要完成以下工作:包括合并数据,将多个文件或多个数据库中的数据进行合并处理;选择数据,提取出适合分析的数据集合;数据清洗、过滤,剔除一些无关记录,将文件、图形、图像及多媒体等文件转换成可便于数据挖掘的格式等。

(2)模式发现。模式发现阶段就是利用挖掘算法挖掘出有效的、新颖的、潜在的、有用的以及最终可以理解的信息和知识。可用于Web的挖掘技术有路径选择、关联分析、分类规则、聚类分析、序列分析、依赖性建模等等。

(3)模式分析。模式分析是从模式发现阶段获得的模式、规则中过滤掉不感兴趣的规则和模式。通过技术手段,对得到的模式进行数据分析,得出有意义的结论。常用的技术手段有:关联规则、分类、聚类、序列模式等。

三、电子商务中几种常用的数据挖掘方法

1.关联规则

关联规则是数据挖掘研究的主要模式之一,侧重于确定数据中不同领域之间的关系,找出满足给定条件下的多个域间的依赖关系。关联规则挖掘对象一般是大型数据库,该规则一般表示式为:A1∧A2∧…Am=>B1∧B2∧…Bm,其中,Ak(k=1,2,…,m),Bj(j=1,2,…,n)是数据库中的数据项。有Support(A=>B)=P(A∪B),Confidence(A=>B)=P(A|B)。数据项之间的关联,即根据一个事务中某些数据项的出现可以导出另一些数据项在同一事务中的出现。关联分析的目的是挖掘出隐藏在数据间的相互关系。关联规则用于寻找在同一个事件中出现的不同项的相关性,比如在一次购买活动中所买不同商品的相关性。关联分析的典型例子是购物篮分析,描述顾客的购买行为,可以帮助零售商决定商品的摆放和捆绑销售策略。如著名的(面包+黄油牛奶)例子就属于关联分析:在超市中,90%的顾客在购买面包和黄油的同时,也会购买牛奶。直观的意义是:顾客在购买某种商品时有多大的倾向会购买另外一些商品。找出所有类似的关联规则,对于企业确定生产销售、产品分类设计、市场分析等多方面是有价值的。

2.聚类分析方法

类聚分析就是直接比较样本中各事物之间的性质,将性质相近的归为一类,而将性质差别较大的分在不同的类。对变量聚类计算变量之间的距离,对样本聚类则计算样本之间的距离。它的目的是使得属于同一类别的个体之间的距离尽可能小,而不同类别上的个体间的距离尽可能大。

聚类分析用于把有相似特性的客户、数据项集合到一起。在电子商务中,聚类分析常用于市场细分。根据已有客户的数据,利用聚类技术将市场按客户消费模式的相似性分为若干细分市场,以进行有针对性的市场营销,提供更适合、更满意的服务。如自动给一个特定的客户聚类发送销售邮件,为一个客户聚类动态地改变一个特殊的站点等。通过对聚类的客户特征的提取,电子商务网站还可以为客户提供个性化的服务。

3.分类分析

分类系统是基于遗传算法的机器学习中的一类,它包括一个简单的基于串规则的并行生成子系统、规则评价子系统和遗传算法子系统。分类系统正在被人们越来越多地应用于科学、工程和经济领域中,是目前遗传算法研究领域中一个非常活跃的领域。

分类分析是数据挖掘中应用最多的方法。分类要解决的问题是为一个事件或对象归类,既可以用于分析已有的数据,也可以用来预测未来的数据。分类通过分析已知分类信息的历史数据,总结出一个预测模型,预测哪些人可能会对邮寄广告、产品目录等有反应,可以针对这一类客户的特点展开商务活动,提供个性化的信息服务。

4.序列模式

序列模式挖掘就是要挖掘出交易集之间有时间序列关系的模式。它挖掘的侧重点在于分析数据间的前后或因果关系,找到那些“一些项跟随另一些项”,以预测未来的访问模式。序列模式分析和关联分析类似,其目的也是为了挖掘数据之间的联系,但序列模式分析的侧重点在于分析数据间的前后序列关系。它能发现数据库中形如“在某一段时间内,顾客购买商品A,接着购买商品B,而后购买商品C,即序列A-B-C出现的频率较高”之类的知识。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要有用户输入最小置信度C和最小支持度S。

序列模式便于进行电子商务的组织,预测客户的访问模式,对客户开展有针对性的广告服务或者主动推荐客户感兴趣的页面,以满足访问者的特定要求。

四、结束语

第9篇

档案管理对象的数量随着社会的发展而不断增加,仅仅通过传统的管理方式已不能高效管理档案,这就需要充分利用计算机网络技术。在档案管理系统中应用计算机数据挖掘技术可以确保档案信息的安全性,提高管理档案的效率,还能优化档案数据的检索。总之,基于大数据的计算机数据挖掘技术对完善档案管理系统发挥着十分重要的作用。

2基于大数据的计算机数据挖掘技术概述

基于大数据的计算机数据挖掘技术是当代新开发的一种数据处理技术,它可以从大数据中挑选出人们需要的数据。计算机数据挖掘是一个循环往复的过程,如果没有取得预期的效果,计算机数据挖掘信息处理系统就会返回上一层重新工作,直到完成目标任务为止,这种对目标的细化过程可以满足档案数据检索的需要。

3基于大数据的计算机挖掘技术在档案管理系统中的作用

3.1提高档案信息的安全性。无论是文字档案、图片档案还是其他形式的档案,都是一种宝贵的资料。越是意义重大的档案,档案管理人员就越要想方设法将其保存起来。档案的价值随着其保存时间的不断推移而增加,价值越高的档案,被使用的频率就越高,但是如果使用过于频繁的话,就会缩短档案资料的寿命,加大保存难度。除此之外,有的档案信息是保密的,在应用时如果监管不力就会导致机密泄露。由以上可见,档案的保存与使用俨然已互为对立面了。将计算机挖掘技术应用到档案管理中则对档案资料的完整性毫无影响,并且还可以提高档案信息的安全性。3.2提高档案信息管理的效率。在档案管理工作中应用计算机数据挖掘技术,可以极大改变传统档案管理模式低效率的弊端。使用计算机数据挖掘技术,大大提高了工作人员处理档案信息的速度,同样的工作使用的时间极大减少。鉴定档案是档案管理工作中的重要组成部分,传统的鉴定方式是由管理人员根据自己的经验进行主观鉴定,有时会存在有价值的档案丢失的现象。应用计算机数据挖掘技术,档案管理人员就可以利用计算机系统分析档案使用和保存的情况,促进了档案鉴定工作的发展。3.3提高了档案信息的使用效率。大部分档案信息具有一定的机密性,所以档案的借阅并不是向全社会公开的,而是有范围限制的,但是由于档案管理人员和借阅者对档案信息不熟悉,导致双方的沟通存在一定的问题,在借阅者提出申请之后,档案管理人员会将档案资料调出来,有时调出来的资料不是借阅者所需要的,还得重新调阅,类似的过程就严重浪费了双方的时间。应用计算机数据挖掘技术可以促进档案管理人员和借阅者之间的交流,让档案管理者明确借阅者需要的具体档案信息,从而形成专门的档案提供渠道,这就大大提高了档案信息的使用效率。3.4增强档案信息的服务性。加密档案信息会严重缩小它的适用范围,受当代信息化的影响,很多档案信息自身会出现一些问题,并且只能为一小部分人服务。将计算机数据挖掘技术应用到档案信息管理中,可以具体分析档案的使用情况,通过研究发现未来使用档案信息的人群,在此基础上提高档案信息的服务性。

4基于大数据的计算机数据挖掘技术在档案管理中的实际应用

4.1在档案分类管理中的应用。档案管理的基础工作就是将档案进行分类。传统的分类方法既费时又费力,工作效率极低。计算机数据挖掘技术中有一种决策树算法,它可以在最短的时间内按照一定的规则将不同属性的档案信息进行分类和整理,大大提高了档案分类工作的效率。计算机数据挖掘技术在档案分类工作中的具体流程是:从大量不同种类的数据集中选择一些数据组合成训练集,然后应用到没有进行分类的档案管理中,这样可以帮助管理者根据借阅者对档案信息的需求来对档案进行分类,同时还可以根据借阅者的需求为其推荐其他档案信息。通过这些针对性强的数据分析,可以极大缩短借阅者获取档案信息的时间,档案数据的利用价值就能充分发挥出来。4.2在档案收集管理中的应用。计算机数据挖掘技术可以根据数据库内部的数据信息描述来构建一个相应的数据模型,然后比较计算机数据样本和数据模型之间的差异,如果这二者互相吻合,就需要档案管理人员使用测试样本模型来对档案信息进行分类处理。计算机数据挖掘技术需要全面分析档案数据信息库中的数据,建立一个对已知数据有详细描述的概念模型,并与测试样本进行对比,如果一个模型测试通过,就证明这个模型可以应用在档案收集管理中。

5结语

综上所述,在科技技术不断进步的时代背景下,在档案信息管理中应用基于大数据的计算机数据挖掘技术已成为一种必然趋势,它可以极大提高档案信息管理的工作效率,促进档案管理的高效发展。除了在档案信息存储和利用上确保基本的信息查询服务外,还需要应用计算机数据挖掘技术整合档案信息,建立众多档案管理服务数据之间的关联,这样才能为档案信息管理提供更好的服务。

作者:陈皓颖 单位:昆明理工大学津桥学院

参考文献

[1]高燕飞,陈俊杰.试析计算机数据挖掘技术在档案信息管理系统中的运用[J].内蒙古师范大学学报:哲学社会科学版,2012(4):44-46.

[2]曾雪峰.计算机数据挖掘技术开发及其在档案信息管理中的运用研究[J].科技创新与应用,2016(9):285.

[3]李国强,曹巧莲,辛正宇,等.浅谈数据处理的新技术———数据挖掘[J].科技创新与生产力,2010(6).

[4]周碧珍.浅析计算机数据挖掘技术在档案信息管理系统中的应用[J].黑龙江科技信息,2009(1).

第10篇

1.1安全技术资金不足

煤炭的持续开采会受到地质条件的直接影响,过去国家投入众多的设施,使用至今均已出现老化,并且维修量非常大。随着矿井的不断延深,矿压极度强化,巷道的维修任务更是不断的增加,矿井的供电以及通风、提升与排水等都不能适应生产的需要。

1.2安全管理模式传统

与西方发达产煤国家相比较,我国的煤矿使用技术研究起步很晚。并且人力、财力非常缺乏,某些重大的安全技术问题,比如冲击地压以及煤和瓦斯的突出、地热以及突水等灾害不能进行有效的预测和控制。且受到以往传统运营思想的直接作用与影响以及各个企业的经济实力的约束,我国的煤矿生产装备和安全监控设施相对落后。井巷的断面设计以及支护强度的确定、支护材料的型号选择较小。生产设施功率以及矿井的供风量等富余参数非常低,极易出现事故。绝大多数的煤炭企业还是利用以往传统的安全管理模式,各种报表计算仍是靠人工劳动并且精确度很低。信息传送的时间较长,且速度较慢,管理者的工作重复性很大,资料查询十分困难,并且工作效率很低。安全检查以及等级鉴定等总是凭借主观意念以及相关的经验。

1.3安全信息管理体制不健全

安全信息可以说是安全管理工作的重要依据,它主要包括事故和职业伤害的有效记录与分析统计,职业的安全卫生设施的相关研究与设计、生产以及检验技术,法律法规以及相应技术标准和其变化的动态,教育培训以及宣传和社会活动,国内的新型技术动态以及隐患评估与技术经济类分析和咨询、决策的体系。信息体制的健全是安全体制工程以及计算机技术的有效结合,可促使安全工作转型为定性和定量的超前预测,不过大多数矿井还是处于起步与摸索阶段,并未呈现出健全的体制,真正的使用还有待进一步的发展。

2空间数据挖掘技术

数据挖掘研究行业的持续进展,开始由起初的关系数据以及事务数据挖掘,发展至对空间数据库的不断挖掘。空间的信息还在逐渐地呈现各类信息体制的主体与基础。空间数据是一项非常关键的数据,具有比普通关系数据库和事务数据库更丰富、复杂的相关语义信息,且蕴含了更丰富的知识。所以,虽说数据的挖掘最初是出现在关系数据挖掘以及事务的数据库,不过因为空间数据库中的发掘知识,这就很快引起了各个研究者的关注与重视。很多的数据挖掘类研究工作都是从关系型以及事务型数据库拓展至空间数据库的。在地学领域中,随着卫星以及遥感技术的不断使用,逐渐丰富的空间以及非空间的数据采集与储存在较大空间数据库中,大量的地理数据已经算是超过了人们的处理能力,并且传统的地学分析很难在这些数据中萃取并发现地学知识,这也就给现阶段的GIS带来了很大的挑战,急切的需要强化GIS相应的分析功能,提升GIS处理地学实际状况的能力。数据挖掘以及知识发现的产生能满足地球空间的数据处理要求,并推进了传统地学空间分析的不断发展。依据地学空间数据的特性,把数据挖掘的方式融进GIS技术中,呈现地学空间数据挖掘和知识发展的新地学数据分析理念与依据。

3煤矿安全管理水平的提升

3.1建设评价指标体制库

评价指标体制库是矿井的自然灾害危害存在的具体参数式的知识库。模型的组建务必要根据矿井的瓦斯以及水害等自然灾害危害呈现的不同指标体制和其临界值构建一定的指标体制库,危害的警报识别参数关键是采掘工程的平面图动态开采面以及相应的巷道。各种瓦斯的危害以及水害隐患和通风隐患均呈现一定的评价指标库。

3.2构建专业的分析模型库

依据瓦斯以及水害等诸多不同的矿井自然灾害类别构建相关的专业性模型库,比如瓦斯的灾害预测,应根据矿井的地质条件以及煤层所赋存的状况构建瓦斯的地质区分图,再根据采掘工程的平面图动态呈现的采掘信息以及相应的瓦斯分区构建关联并实行相应的比较分析,确定可以采集区域未来的可采区域是不是高瓦斯区域。

3.3构建以GIS空间分析为基础的方法库

GIS空间分析可以说是矿井自然灾害的隐患高度识别的关键性方式,并且还是安全故障警报的主要路径。比如断层的防水层的有效划分,关键是根据断层的保安煤柱来实行可靠的确定。断层的保安煤柱确定可以利用GIS缓冲区域的分析得到。空间的统计分析以及多源信息有效拟合和数据挖掘亦是瓦斯和水害等安全隐患监测经常使用GIS空间分析方式,如物探水文的异常区域确定以及瓦斯突出相应的危险区域确定。

3.4决策支持体制与煤矿管理水平

评价指标体制库以及模型库、方式库与图形库均是矿井的自然灾害隐患识别和决策的最基础。利用矿井的自然灾害隐患识别决策来支持体系具体的功能呈现矿井的自然灾害隐患识别以及决策分析,在根源处提高煤矿的安全管理水平。分类构建矿井的自然灾害实时监控体系,进行动态跟踪相应的灾害实时数据,并事实呈现矿井的自然灾害数据或是信息和自然灾害的指标体系库以及模型库与知识库、空间数据库的合理化比较,并运用图形库的数据再通过GIS空间分析方式来确定安全隐患的,矿井自然灾害的隐患实时警报并进行决策分析,以提交空间数据的自然灾害隐患识别以及分析处理的决策性报告。

4结语

第11篇

关键词:远程开放教育,数据挖掘,应用,智能化

 

1 前言

现代远程开放教育的全过程基本上都是通过浏览网站的形式进行的,学生在Web上的行为都会产生大量的信息,这些信息在远程教育的全过程中十分宝贵,充分挖掘这些信息及其背后潜在的信息,反馈来指导远程教育中的各个环节,以此来为学生提供个性化的服务内容,增强远程开放教育的竞争力。利用数据库技术来存储管理数据,利用网络和计算机学习的方法来分析数据,从而挖掘出大量的隐藏在数据背后的知识,即数据库中的知识发现---KDD(Knowledge Discovery in Databases),其中,数据挖掘技术便是最为关键的环节。论文参考网。基于远程开放教育将是当前和未来教育的重要辅助系统,本文提出并介绍信了把数据挖掘技术应用于现代远程开放教育系统中。

2 数据挖掘概述

2.1数据挖掘(DataMining)定义

数据挖掘就是从大量存储的数据中,利用模式识别、统计和数学的技术,筛选发现新的有意义的关系、模式和趋势的方法。就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它主要依靠人工智能、机器学习和统计学技术,对数据进行归纳推理,从中挖掘出潜在的模式,预测未来趋势,为决策提供支持。

2.2数据挖掘的主要任务

(1)关联分析。两个或两个以上变量的取值之间存在的规律性称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分析的目的是找出数据库中隐藏的关联网。

(2)聚类分析。聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。

(3)分类。分类就是找出一个类别的概念描述,它代表了这类数据的整体信息。

(4)预测。预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。

(5)时序模式。时序模式是指通过时间序列搜索出的重复发生概率较高的模式。它是用己知的数据预测未来的值,但这些数据的区别是变量所处时间的不同。

(6)偏差分析。在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。

2.3数据挖掘对象

根据信息存储格式,用于挖掘的对象有关系数据库、面向对象数据库、数据仓库、文本数据源、多媒体数据库、空间数据库、时态数据库、异质数据库以及Internet等。

2.4数据挖掘技术实施的步骤

(1)确定业务对象。清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有评价,并以用户能理解和观察的方式将发现的知识呈现给用户。

(2)数据准备。这个阶段的工作包括数据集成、数据选择、预分析和转换。要对Web服务器上的数据进行挖掘,必须研究站点之间异构数据的集成问题,只有将这些站点的数据都集成起来,提供给用户一个统一的视图,才有可能从巨大的数据资源中获取所需的东西。

(3)数据挖掘。这个阶段就是利用数据挖掘工具对经过转换的数据进行挖掘和发现知识的过程。不同的数据挖掘工具有不同的算法,面向不同的分析需求,并且当具体使用操作时,也在一定程度上受到数据分析人员的思维方式和行为习惯的影响。数据挖掘利用人工智能领域中一些已经成熟的算法和技术。如:人工神经网络、遗传算法、决策树方法、邻近搜索算法、规则推理、模糊逻辑、公式发现等来进行数据的挖掘。

(4)结果分析。论文参考网。数据挖掘的结果由分析人员根据发现知识的领域重要性、可信度和支持度等阀值来对发现结果进行评价,并以用户能理解和观察的方式将发现的知识呈现给用户。通常会用到可视化技术。

(5)知识的同化。将分析所得到的知识集成到业务信息系统的组织结构中去。

3 现代远程开放教育系统简介

远程开放教育系统能实现个性化学习、实时教学、实时考试和智能答疑。为每一个接受网络远程教育的学习者提供个性化的学习进程。能根据与当前学习者相类似的学生的学习模式自动地对其后继知识的学习进行预测以及合理推荐,并对学习者的学习过程进行分阶段的评价,依据其绩效信息动态调整其学习难度、练习与测试内容,对学生提出的问题实现智能化答疑,对该学习者薄弱环节进行有效指导,做到因材施教和全天候学习。

远程开放教育系统由用户系统、WEB服务器、应用服务器、数据服务器、用户数据库和资源数据库组成。

用户系统用于实现远程开放教育系统的显示功能,其功能是:实现信息的和接受,管理员通过它来实现系统的管理、更新、维护等,主要是通过XML语言和HTTP协议实现WEB浏览器与WEB服务器的链接和信息通讯。WEB服务器用于完成远程开放教育系统的事务处理,用于处理学习过程中的各种事务。应用服务器直接为WEB服务器提供相关服务,处理WEB服务器以及XML文档组成的用户的事务请求信息。论文参考网。数据库服务器用于完成数据处理,为应用服务器提供相关服务,完成数据查询、修改和更新等服务,并把运行结果反馈给应用服务器。资源数据库中主要由远程开放教育系统中要使用的课件库、答疑库、作业库、试题库和必要的超级链接等构成。用户数据库主要用于存储远程开放教育系统中要使用的的注册档案、用户目前的学习内容、学习进展、作业情况和考试情况等信息。

4 数据挖掘技术在远程开放教育中的应用

现代远程开放教育是随着现代信息技术的发展而产生的一种新型教育形式,其基本特征是利用计算机网络和多媒体技术,提供丰富的教学资源供学习者选用,教学形式由原来的以教为主变为以学为主。数据挖掘技术在现代远程开放教育中的应用主要有以下几方面:

(1)在个性化学习方面的应用

由于每个学习者的知识背景、学习习惯和学习目标都不一样,故个性化学习在远程开放教育中就显得非常重要。为了实现此功能,基于WEB的智能远程开放教育系统首先要根据学习者的特点和学习目标来收集学习者的数据信息,然后对收集到的信息进行预处理,再应用一种合理的挖掘算法或综合应用不同的算法,如关联规则分析、聚类和分类技术、统计分析以及时序模式技术等,来处理此数据,最终发现用户的访问模式,但是通过模式挖掘后,生成的规则数目大、表达晦涩且不好用,这时就需要用到智能查询机制、可视化和联机分析等技术对模式进行分析评价,经过模式分析和应用技术处理后,选择一种学习者易于理解和接受的表达方式将知识数据显现出来。利用数据挖掘与学习内容绑定的技术,系统就可以以可视化方式来指导学习者学习和个性化发展,这样系统就实现了个性化学习功能。

(2)在资源库建设方面的应用

资源库建设在整个系统中至关重要,为了建立覆盖面广、功能齐全的资源库,我们就必须编制信息资源目录,征集种类资源信息,并进行资源、资源信息筛选、资源信息整理和存储;同时按学科门类建设积件库。当老师在系统内制作课件,为了有针对性和避免重复,我们可以对所有学习者已选的课程进行聚类,并通过聚类学习算法来自动确定每门课程的类别标记。接着利用数据挖掘中的关联规则,估计出一组相关同位类课程,再利用泛化关联规则,找到其上位类课程,或利用序列模式,预测出与之有关的学生未来可能选择的同级课程,最后围绕学习者的需求权限进行课程设置。

(3)在实时教学方面的应用

在本系统中,由于引入了互联网技术、人工智能技术、数据库技术和知识发现技术,通过机器学习、统计分析等方法设计出了个性化处理引擎,从大量的数据中进行数据挖掘,提取有用的、潜在的信息。学生可以通过网络实现每天24小时的学习,而且本系统可以更多且及时的了解到学生的学习学习进度、需求、能力、兴趣爱好等方面的信息,并动态地根据这些信息调整学习计划和进度,让学生得到针对其“个性”的教育,实现因材施教。

(4)在智能答疑方面的应用

基于WEB的远程教学系统中的智能答疑系统只要用户能上网,就可解答学生在学习过程中产生的问题。它能根据学生用户访问日志、问题记录等数据进行数据挖掘,用智能抽取的方法实现智能答疑。从用户访问日志和提问信息里面可以分析出学生的行为。智能答疑系统后台存储了大量的由经验丰富的教师精心挑选的问题答案,对于用户提出的问题.系统首先通过对问题的分析自动在数据库中寻找最适合的答案。这样通过数据挖掘,针对学生用户提问记录、日志不断更新和调整学生用户知识库,使问题的回答更加精确。

(5)在实时考试方面的应用

本系统的实时考试系统是一个基于数据库和WEB的远程在线式实时的测试系统。它能考虑个别学习者的能力和特性,按照考试的目的和必要性,提供各种问项信息,如难易程度、辨别程度等。并且还能同步打分,提供成绩进展情况,根据个人特性解释问题,按个人及科目对考试结果进行各种统计分析和评价,并存入学生用户数据中。这些功能的实现是由于系统采用关联规则、聚类和分类工具对数据库中抽取的数据进行处理,分析出学生的特性及其对课程各知识点的掌握程度,并结合学生的考试目的恰当地反馈给学生,这样提高了学生学习的效率。

5 结束语

在现代远程开放教育网站设计中,基于XML(ExtensibleMarkup Language,可扩展标记语言)的新一代系统设计环境,可以更好地描述半结构化和结构化的数据,更有利于进行数据搜索和挖掘。如何整合XML和Web服务技术,以此为契机开展数据挖掘和知识获取,在现代远程开放教育网站的设计中以学习者为中心,提供一种基于资源的学习,教学资源可以适应各种学习者的需要和背景进行不同的组合,提供更加优良的、个性化的服务。

参考文献:

[1]李爽,陈丽.国内外网上智能答疑系统比较研究[J].北京,中国电化教育,2003(5)

[2]苏新宁.数据挖掘理论与技术[M].北京:科学技术文献出版社,2003

[3]赵丹群.数据挖掘:原理、方法及其应用[J].现代图书情报技术,2000,(6)

[4]周云真,舒建文,王平根.据挖掘在基于WEB的智能远程教育系统中的的应用[J] .南京:文教资料,2006(10)

第12篇

摘 要 数据挖掘面对海量数据信息进行选择与运用,在软件工程快速发展的潮流中具有举足轻重的作用。数据挖掘应对数据丰富而知识匮乏的挑战,着眼于数据实用性对软件工程知识库的数据进行深度挖掘。关键词 数据挖掘 软件工程 技术中图分类号:TP311

文献标识码:A

计算机领域新技术应用使各行业生成、收集和存储了大量数据。大量信息数据给社会带来方便也带来大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致而难以统一处理。一般数据库系统可高效实现数据录入、查询与统计等功能,却无法发现数据存在的关系和规则。如何辨析信息和如何不被信息淹没已经成为现实问题。一、数据挖掘直面数据丰富而知识匮乏的挑战

面对信息社会带来的“数据丰富而知识匮乏”的现实挑战,数据挖掘(Data Mining,DM)和知识发现(Knowledge Discovery,KD)技术应运而生,伴随计算机新技术和新理论的出现而发展,在电信与银行,生物及大型超市等领域运用效果显著。数据挖掘有时又称作数据库知识发现(KDD),此术语出现于1989年,从数据集识别有效与新颖的,潜在有用的,最终可理解的模式过程。KDD过程常指多阶段处理,包括数据准备与模式搜索,知识评价及反复修改求精;该过程要有智能性和自动性。有效性指发现新数据仍保持可信度,新颖性要求模式应是新的,潜在有用性指发现的知识将来有效用,最终可理解性要求发现模式能被用户所理解,几项综合在一起称为数据的科学性豍。

数据挖掘的界定。数据挖掘是从存放在数据库与数据仓库或其它存储信息库中的海量数据挖掘有趣知识过程。一般的定义是:数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中抽取隐含其中,事先不为人所知、潜在、有效、新颖、有用和最终可理解知识的过程。研究人工智能学术人员和计算机技术专家通常所说数据挖掘名称各异但实质一样。自然世界数据以多种多样形式存放,除最常见数字与字符等类型,还有许多复杂数据。复杂类型数据挖掘包括:空间数据挖掘和多媒体数据挖掘,时序数据挖掘和文本数据挖掘,Web数据挖掘与流数据挖掘等。数据挖掘与传统数学统计分析有区别,数据挖掘在没有明确假设前提下自动建立方程,可采用不同类型如文本、声音、图片等的数据挖掘兴趣模式;统计数据分析工具侧重被动分析,需建立方程或模型来与假设吻合,最终面对数字化数据;数据挖掘是主动发现型与预测型数据分析工具,分析重点在于预测未来未知潜在情况并解释原因。二、软件工程的产生与数据实用性

软件工程概念源自软件危机,20世纪60年代末的“软件危机”这个词语频繁出现计算机软件领域,泛指计算机软件开发和维护所遇到的系列严重问题。在软件开发和维护过程中的软件危机表现为软件需求的增长得不到满足,软件开发成本和进度无法控制,软件质量难保证,软件维护程度非常低,软件成本不断提高,软件开发生产率赶不上计算机硬件发展和各种应用需求增长等。软件危机产生的宏观原因是软件日益深入社会生活,软件需求增长速度超过软件生产率提高,具体软件工程任务的许多困难来源于软件工程所面临任务和其他工程之间各种差异以及软件和其他工业产品的差异,即特殊性。软件开发和维护过程存在的问题,与计算机软件本身特点有关,软件开发过程进度很难衡量,软件质量难以评价,管理和控制软件开发过程困难等。计算机软件专家认真研究解决软件危机方法,逐步形成软件工程概念,开辟工程学新领域即软件工程学。软件工程用工程、科学和数学原理与方法研制与维护计算机软件有关技术及管理的方法。

软件工程针对数据的处理具有系统的规范的系列办法。1993年IEEE(电气和电子工程师学会)给软件工程综合定义为:将系统化、规范和可度量的方法应用于软件开发、测试、运行和维护全过程,即将工程化应用于软件数据等设计中。软件工程包括方法、工具和过程三个要素,方法是完成软件工程项目技术手段;工具支持软件开发、管理与文档生成;过程支持软件开发各个环节控制与管理。软件工程的发展伴随计算机与数据等相关技术的发展而进步。三、软件工程的知识库应用数据挖掘技术

蕴含数据的特殊软件的生命周期也是一个极其复杂演变过程,各个阶段都会产生大量软件数据。在设计文档与程序源代码,交流历史与Bug报告,软件运行日志等方面产生的大量数据,必然存在着对软件开发和维护具有重要价值的信息。如能充分利用数据挖掘技术发现这些数据隐藏的知识,可提高开发效率并避免错误,增强软件系统运行稳定性和可信性。利用数据挖掘技术处理软件产生大量数据想法在上世纪70年代就出现,但直到最近软件数据挖掘领域才受到越来越多学者关注豏。软件工程国际会议出现关于软件数据挖掘研究工作组,许多数据挖掘会议与期刊陆续出现多篇高质量与软件工程相关学术论文,软件数据挖掘已成为越来越关注热点的研究领域。

软件数据挖掘针对软件工程版本控制,设计文档及程序源代码演化历史等进行挖掘,同时,我们也可设计软件工程数据仓库来统一存储这些可利用的大量软件的数据。应用传统数据挖掘的经典算法来处理存放在软件知识库的各种数据,提取有用信息来辅助软件设计、开发与维护。会为开发人员提供有效的帮助。通过利用关联规则挖掘算法寻找那些经常被一起改变的实体如类、变量、函数、数据类型与控制语句等;或者利用关联规则挖掘源代码修改模式,挖掘存放在代码库软件修改历史模式;或者应用关联规则挖掘实体间依赖性,改进系统架构相关研究;或者通过对用户操作日志与系统运行状态日志研究,建立基于用户操作模式系统稳定性预测模型等等。

总之,软件工程数据集软件知识库包含的关于软件工程演化历史大量有价值的信息数据,为研究和利用这两类优质数据,数据挖掘技术大有可为。 注释:连一峰等.基于模式挖掘的用户行为异常检测.计算机学报,第25卷第3期.2002,3.毛国君等编著.数据挖掘原理与算法.清华大学出版社,2007,1.王磊.基于用户操作模式的系统稳定性研究.广西师范大学硕士论文.2009,7.