时间:2022-07-28 10:49:26
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇大数据技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:大数据 数据挖掘 方法
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)04-0222-01
1 大数据时代数据挖掘的重要性
随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC(Internet Data Center,互联网络数据中心)预计,到2020 年全球数据量将增加50倍。毋庸置疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。
如果运用合理的方法和工具,在企业日积月累形成的浩瀚数据中,是可以淘到沙金的,甚至可能发现许多大的钻石。在一些信息化较成熟的行业,就有这样的例子。比如银行的信息化建设就非常完善,银行每天生成的数据数以万计,储户的存取款数据、ATM交易数据等。
数据挖掘是借助IT手段对经营决策产生决定性影响的一种管理手段。从定义上来看,数据挖掘是指一个完整的过程,该过程是从大量、不完全、模糊和随机的数据集中识别有效的、可实用的信息,并运用这些信息做出决策。
2 数据挖掘的分类
数据挖掘技术从开始的单一门类的知识逐渐发展成为一门综合性的多学科知识,并由此产生了很多的数据挖掘方法,这些方法种类多,类型也有很大的差别。为了满足用户的实际需要,现对数据挖掘技术进行如下几种分类:
2.1 按挖掘的数据库类型分类
利用数据库对数据分类成为可能是因为数据库在对数据储存时就可以对数据按照其类型、模型以及应用场景的不同来进行分类,根据这种分类得到的数据在采用数据挖掘技术时也会有满足自身的方法。对数据的分类有两种情况,一种是根据其模型来分类,另一种是根据其类型来分类,前者包括关系型、对象-关系型以及事务型和数据仓库型等,后者包括时间型、空间型和Web 型的数据挖掘方法。
2.2 按挖掘的知识类型分类
这种分类方法是根据数据挖掘的功能来实施的,其中包括多种分析的方式,例如相关性、预测及离群点分析方法,充分的数据挖掘不仅仅是一种单一的功能模式,而是各种不同功能的集合。同时,在上述分类的情况下,还可以按照数据本身的特性和属性来对其进行分类,例如数据的抽象性和数据的粒度等,利用数据的抽象层次来分类时可以将数据分为三个层次,即广义知识的高抽象层,原始知识的原始层以及到多层的知识的多个抽象层。一个完善的数据挖掘可以实现对多个抽象层数据的挖掘,找到其有价值的知识。同时,在对数据挖掘进行分类时还可以根据其表现出来的模式及规则性和是否检测出噪声来分类,一般来说,数据的规则性可以通过多种不同的方法挖掘,例如相关性和关联分析以及通过对其概念描述和聚类分类、预测等方法,同时还可以通过这些挖掘方法来检测和排除噪声。
2.3 按所用的技术类型分类
数据挖掘的时候采用的技术手段千变万化,例如可以采用面向数据库和数据仓库的技术以及神经网络及其可视化等技术手段,同时用户在对数据进行分析时也会使用很多不同的分析方法,根据这些分析方法的不同可以分为遗传算法、人工神经网络等等。一般情况下,一个庞大的数据挖掘系统是集多种挖掘技术和方法的综合性系统。
2.4 按应用分类
根据数据挖掘的应用的领域来进行分类,包括财经行业、交通运输业、网络通信业、生物医学领域如DNA等,在这些行业或领域中都有满足自身要求的数据挖掘方法。对于特定的应用场景,此时就可能需要与之相应的特殊的挖掘方法,并保证其有效性。综上所述,基本上不存在某种数据挖掘技术可以在所有的行业中都能使用的技术,每种数据挖掘技术都有自身的专用性。
3 数据挖掘中常用的方法
目前数据挖掘方法主要有4种,这四种算法包括遗传、决策树、粗糙集和神经网络算法。以下对这四种算法进行一一解释说明。
遗传算法:该算法依据生物学领域的自然选择规律以及遗传的机理发展而来,是一种随机搜索的算法,利用仿生学的原理来对数据知识进行全局优化处理。是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生全局优化方法。这种算法具有隐含并行性、易与其它模型结合等优点从而在数据挖掘中得到了应用。
决策树算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。
粗糙集算法:这个算法将知识的理解视为对数据的划分,将这种划分的一个整体叫做概念,这种算法的基本原理是将不够精确的知识与确定的或者准确的知识进行类别同时进行类别刻画。
神经网络算法:在对模型的预测中,该算法具有很强的优势,利用该算法对庞大的数据信息进行分类,从而对有潜在价值的信息进行定位,这种算法的优势也比较明显,在利用这种算法对数据进行分类时非常迅速,同时描述起来也很简洁,在大规模数据处理时,这种方法的应用性很强。光缆监测及其故障诊断系统对于保证通信的顺利至关重要,同时这种技术方法也是顺应当今时代的潮流必须推广使用的方法。同时,该诊断技术为通信管网和日常通信提供了可靠的技术支持和可靠的后期保证。
参考文献
[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(01):146-169.
2.1 大数据数据库的特点
传统的关系数据库,从其创立至现在,长期占据数据库的绝对统治地位。但是,数据挖掘、商业智能和可视化技术的发展,特别是它们处理非结构化数据的能力,动摇了传统数据库的牢固地位。于是善于处理非结构化数据的种种数据库工具大量产生,这其中必须优先提及的便是NoSQL(意为Not Only SQL)及NewSQL(意为New SQL)两大数据库阵营。
现在随着大数据时代的到来,由Carlo Strozzi开创的NoSQL以其技术上的先进性、方便性得到了越来越多的认可。NoSQL改变了数据的定义范围,其“数据类型”可以是文本、图片、影像、网页,也可以是整个文件;NoSQL数据库是非关系式的、数据间的关系更加复杂、多样,类型和相互关系具有多种扩展可能、存储方式也多采用分布式结构。经过十多年的发展,NoSQL取得了成功,采用NoSQL技术的产品也不断增长,目前NoSQL网站上()已经收集了150余个相关产品,人们也把采用类似NoSQL结构和原理的数据库统称为NoSQL数据库。
最初NoSQL有意排斥关系数据库的ACID规则和SQL特性(后发现其弱点又在一定程度和一定范围内支持数据的一致性要求和SQL特性)。NoSQL坚持分布式领域的CAP理论,CAP的含义为:
Consistency,一致性。数据一致更新,所有节点访问同一份最新的数据副本;
Availability,可用性。对数据更新具备高可用性;
Partition tolerance,分区容错性。能容忍网络分区。
CAP理论主张任何基于网络的数据共享系统,都最多只能拥有以下三条中的两条。而这种“三取二”的法则以及具体理解与执行的争论就一直存在。想同时满足三者,或者过分强化割舍三者之间联系均会破坏数据系统的效率和效果。32岁便获得加州大学伯克利分校终身教授的Eric Brewer提出了BASE理论(Basically Available, Soft state, Eventually consistent;基本可用、软状态、最终一致性),它用一种更注重可用性、更便于理解的方式解释分布式系统的特点。
NewSQL注意到关系数据库的灵活性不足、数据库互锁机制效率低下的特点,同时也意识到NoSQL不支持SQL所带来的不便,它采用了一种近似折中的方案,既支持SQL并保证一定程度的数据一致性,同时也提供NoSQL数据库的非关系数据处理的扩展功能,因而从产生之初便受到业界的喜爱,相关产品不断涌现。NoSQL和NewSQL常见产品及其分类情况如图所示。
2.2 NoSQL及其发展趋势
在NoSQL潮流中,最重要的莫过于Apache基金会的Hadoop。它是一个领导者,是一个典型的分布式文件系统,是一个开源系统。用户可以在不了解分布式底层细节的情况下,借助Hadoop开发分布式程序,它取得了成功,成为分布式数据处理界的巨兽(Hadoop的Logo就是只大象)。 现在甚至出来了“无分布不Hadoop”——每个传统的数据库提供商都急切地声明支持Hadoop。关系数据库的传统霸主Oracle公司也将Hadoop集成到自己的NoSQL数据库中,Microsoft、Sybase、IBM也加入了收纳Hadoop功能的竞赛中。
第二位领导者,MongoDB,是一个成功的文档处理型数据库系统,它被称为“非关系式数据库中最像关系式数据库的产品”。MongoDB查询功能强大,特别适合高性能的Web数据处理。
Cassandra是这个领域中的一个另类产品,它兼有键值数据库和列值数据库两者的长处,它的查询功能很优秀。虽然运行Cassandra集群难度较高,但它升级后的分析能力使得很多人感到惊讶。
Redis也是相当好的一个产品。对故障恢复的良好支持以及使用Lua的服务器端脚本语言是明显区别于其他软件之处。使用Lua确实带来了一些震动,因为更多的人喜欢和习惯JavaScript服务器端语言。但是,Lua是一个整洁的语言,它并为Redis开启了潘多拉盒子。
CouchBase在可扩展性和其他潜在因素,使其看起来是一个很好的选择,尽管Facebook以及Zynga面临着关键开发者离开的风波。CouchDB会变得更好抑或相反?只要数据库做得好受众就会欢迎,现在看来,它确实做的很好。
还需要提及的是Riak,在功能性和监控方面它也有了巨大的提升。在稳定性方面,它继续得到大家的赞美:“像巨石一般稳定、可靠且不显眼……”。Riak 数据模块化方面做得很有特色。
在图中,涉及了多个维度:关系型的与非关系型的、分析型的或操作型的、NoSQL类型与NewSQL类型的。最后的两个分类中,对于NoSQL有著名的子分类“键值类数据库、文档数据库、图存数据库和列存数据库。对于NewSQL本已建立“存储引擎、簇享数据、云服务”等类别。
关键词:烟草;数据中心;大数据;Hadoop;Impala
1.大数据技术现状
当前许多企业都已基本实现了信息化建设,企业积累了海量数据。同时企业间的竞争日益加剧,企业为了生存及发展需要保证自身能够更加准确、快速和个性化地为客户提品及服务。而大数据技术能够从海量的数据中获取传统数据分析手段无法获知的价值和模式,帮助企业更加迅速、科学、准确地进行决策和预测。
1.1大数据技术现状
广大企业的迫切需求反之也促进了大数据技术的飞速发展,涌现出了诸如Hadoop、Spark等实用的架构平台。其中,目前最主流的就是Hadoop。Hadoop的分布式处理架构支持大规模的集群,允许使用简单的编程模型进行跨计算机集群的分布式大数据处理。通过使用专门为分布式计算设计的文件系统HDFS,计算的时候只需要将计算代码推送到存储节点上,即可在存储节点上完成数据本地化计算。因此,Hadoop实现了高可靠性、高可拓展性、高容错性和高效性,可以轻松应对PB级别的数据处理。
1.2大数据技术对烟草数据中心建设的影响
当前,烟草企业基于多年的信息化建设已经积累了海量数据,同时每天还不断有新的各种数据产生。在高并发、大体量的情况下,需要在数据采集、存储和运算方面采用与以往完全不同的计算存储模式,这就不可避免地需要采用大数据技术。同时,除了购进单、卷烟交易数据、货源投放数据等结构化数据外,还产生越来越多的非结构化数据,利用大数据技术,对非结构化数据进行预处理,可为人工判断和机器学缩减范围。对海量数据以及非结构化的信息进行分析统计,仅仅依靠传统的技术手段很难实现,只有引入大数据技术才能充分的将所有的数据资源利用起来,成为企业决策的助力。
2.江苏烟草数据中心应用现状
2.1江苏烟草数据中心体系架构
目前江苏烟草数据中心以一体化数据中心、一体化数据管理和一体化数据分析三个部分为核心,构建了一套完整的数据中心架构。一体化数据中心是整个数据中心最核心的部分。通过数据仓库模型、数据存储、ETL工具等组成部分,构建了业务数据的收集、加工、存储、分发的总体架构。建立了按ODS(SODS、UODS)、DW、DM三层结构设计建设的数据仓库。一体化数据管理通过主数据管理、信息代码管理、ESB平台构建了企业主数据收集、标准化、同步分发过程。结合指标管理,全面管控企业的公用基础信息。通过数据质量管理,全面有效管控数据质量。通过数据服务管理,有效提升数据中心的对外服务能力与水平。通过元数据管理来管理数据中心元数据。一体化数据分析通过构建移动信息、业务分析、数据挖掘三大模块,针对性解决当前不同人员的决策、管理以及操作需求,发挥数据中心的数据、技术、平台优势。通过移动信息模块为各级领导提供决策支持;通过业务分析模块为业务人员的日常工作提供支撑;通过数据挖掘模块,发掘数据所蕴含的隐性价值。基于上述一整套架构的支撑,目前数据中心构建了全省范围的数据集成、交换体系,一方面提升了全省基础数据、业务数据的规范化程度和数据质量,另一方面为在建业务系统的实施、已有系统的改造提供了标准化的高质量数据保障。
2.2大数据技术的应用场景分析
随着江苏数据中心的不断运行,一些基于传统技术架构的功能逐渐暴露出种种问题。其中较为突出的问题有:一是使用者对于大数据量数据的查询需求。基于传统技术架构的查询功能响应较慢;二是分析支持灵活性的不足。传统统计分析应用的数据结构大多是预先定义好的,面对灵活的非传统的统计查询需求难以支撑,需要进行额外的加工处理。江苏烟草数据中心结合互联网大数据技术特性,引入Hadoop平台以及Impala等工具,搭建基于大数据的自定义数据查询平台,以补充基于传统技术架构的功能不足,并为未来进一步发展建设基于大数据技术和云环境的数据中心做好准备。
3.基于大数据的自定义数据查询平台实现
3.1设计思路及架构
基于大数据的自定义数据查询平台是在现有数据中心的建设成果之上,以数据中心的数据存储为基础,以Hadoop、Hive、Impala等大数据技术工具为手段,以简单灵活、快速高效的查询展现为目标,建立的数据查询分析支持平台。
3.2技术方案
自定义数据查询平台的建设主要涉及数据存储架构、后台数据加工准备、前端展现三块内容。自定义数据查询平台的数据存储分为两部分。一部分为KETTLE、Impala等工具以及自定义查询相关的元数据存储,另一部分则是查询所需的各种统计数据的存储。元数据的存储根据元数据库的不同主要分为两部分。第一部分为基于Mysql数据库的元数据存储。这部分元数据主要包括有ETL工具KETTLE的元数据,以及前端自定义查询需要定义的权限、数据源、表、列和表列关系等信息。第二部分为基于Hive的元数据存储。这部分存储的是前端查询需要使用的Impala工具的元数据。统计数据的存储则是使用Hadoop的HDFS实现的。根据Hadoop平台架构,自定义数据查询平台的HDFS建立在6台虚拟主机构建的集群上的。其中:2台虚拟主机作为NameNode,一台为主节点,另一台为备份节点;其余4台虚拟主机都作为DataNode用于存储数据。所有数据将会统一分块自动分配存储到4个DataNode上。自定义数据查询平台的数据加工,是通过开源ETL工具KETTLE实现的。通过KETTLE从数据中心现有数据仓库及数据集市中读取需要的数据,根据自定义数据查询平台的数据模型定义对数据进行处理,最终加载到Hadoop的HDFS文件系统中。自定义数据查询平台的前端展现功能,主要是基于JSP技术实现页面开发,通过JDBC或者ODBC对后台Mysql数据库进行访问。使用者在查询页面中组织定义查询的内容,查询服务自动根据获取的元数据信息将定义的查询内容拼接转换成为查询SQL,之后通过Impala执行查询SQL对HDFS文件系统中的统计数据进行查询。
3.3系统实现效果
利用大数据技术,自定义数据查询平台较好地解决了目前数据中心所面对的问题,满足了使用人员对于大数据量以及分析灵活性的需求。面对使用人员层出不穷的查询需求,自定义数据查询平台通过预先梳理、分类定义各种维度以及统计指标。使用者可以自由的根据实际需求选择分析所需的维度及统计指标,同时还可以基于这些基础的内容更进一步自定义过滤条件以及计算公式,并指定其展现形式。在大数据量查询效率方面,自定义查询平台相比传统架构的查询功能有了较大提升。
4.结束语
大数据技术的发展方兴未艾,应用前景无比广阔,对各行各业的巨大作用正在逐步展现。江苏烟草数据中心的建设既要看到大数据技术未来的前景,更需要明确地认识到大数据平台的建设并非一朝一夕,需要有明确而长远的规划,不断完善数据环境建设、云计算环境的构建以及数据服务的扩展。
参考文献
[1]陈鹏.大数据时代下的信息安全问题研究[J].电子制,2015,18:48
[2]刘忆鲁,刘长银,侯艳权.大数据时代下的信息安全问题论述[J].信息通信.2016,181-182
关键词:大数据技术;计算与数据;协作机制
引言
在现今信息技术发展中,数据同计算可以说是信息技术发展过程中的两个重要主题,在这两个主题的基础上,信息技术也逐渐出现了大数据技术概念。从严格意义来说,所谓大数据技术,即是针对于海量数据的分析、存储以及技术。对于这部分海量数据来说,我们很难直接对其进行应用,在获得数据之后,需要在经过一定处理后才能够获得有用的数据,如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制,则成为了目前非常重要的一项问题。
1 计算同数据协作机制对比
对于面对数据系统来说,其一般为分布式系统类型,即通过将计算向数据进行迁移对系统中数据传递代价进行降低,可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算,实现数据的定位可以说是一项重要的前提,而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此,要想对数据同计算间的科学协作进行实现,就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中,需要对数据冗余、节点失效以及备份等问题进行解决,就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中,数据同计算的一致性可以说是研究重点,需要首先从该方面进行讨论与解决。
1.1 位置一致性映射模型
对于分布式系统中数据同计算的一致性问题,我们可以将其理解为将两者在同一节点位置映射,即在数据存储区域发起计算。以网格计算系统为例,其到达客户节点的数据是计算先于数据,并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说,就是先将数据存储到系统的一个节点当中,当系统发起计算时,再对元数据进行查询后对数据存储位置进行获得,并将计算任务映射到节点当中进行处理。根据此种情况,我们可以将计算同数据间的映射比作是数据到节点的映射过程,在该过程中,数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中,而到该节点失效时,数据片则会按照相应的规则进行数据备份以及迁移,并重新按照规则实现到节点的对应。
在上述模型中,我们可以将计算视作是一种具有特殊特征的数据类型,这是因为对于计算而言,其自身就是程序语言设计的可执行程序片,在系统映射过程中,可以将其同数据进行同等的看待,且在程序中一般也将包括相关数据的逻辑位置信息。在分布式文件中,其中的定位算法也正是数据同节点间的映射功能,即要想对两者的一致性位置进行实现,就离不开分布式文件系统的支持。同时,由于在分布式系统中计算迁移、存储迁移以及数据冗余问题的存在,在具体功能实现时,也将对存储冗余以及均衡调度等技术进行结合性的应用,以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面,则有哈希映射以及元数据映射等。
1.2 元数据映射算法
对于该类算法来说,其可以说是最为基础的对存储位置同计算一致性进行实现的方法,在实际应用中,该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映射,在其对计算同数据的定位实现中,同网络路由表原理较为类似,即两者通过对有路由的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说,其一般为主从结构类型,如果其中出现单点失效情况,则将对整个系统产生较大的影响。对于HDFS以及GFS结构来说,就是以该数据方式构建的。在实际对数据进行存储时,其一般会根据节点目前存储负载情况进行判断,而为了避免结构对失效情况具有过高的敏感性,也有学者通过对元数据进行复制的方式提升系统可用性。
通过该方式的应用,则能够以较为便利的方式对机群系统目前状态进行利用,在以其为依据的基础上对系统的负载均衡进行实现。此时,系统主节点则会通过一定调度算法的应用对数据计算以及存储进行分配,在对系统负载均衡进行实现的同将分配信息作为元数据进行保存。目前,很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其作为对柱节点资源进行分配的依据。在实际应用中,虽然该方式在网络信息搜索以及大量复杂均衡算法的应用方面具有较好的表现,但当系统具有较多数量小文件时,则需要对路由数据进行大量的维护,并因此对数据的查询效果产生影响。
1.3 哈希映射算法
哈希算法是一种从稀疏到紧密值的映射方式,在计算以及存储定位时,可以将其视作路由算法的一种,通过该方式的应用,则能够将目标定位到节点位置。对于传统的哈希算法,其在扩展性以及容错性方面的表现都一般,并不能够较为有效的对面向数据系统节点的动态变化相适应,1997年,学者David Karger提出了使用一致性哈希算法对数据进行定位,并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进行应用之后,则不需要对中心节点元数据进行维护,可以说对普通元数据服务器性能瓶颈以及单点失效问题进行了较好的解决,其实现过程为:首先通过Key值的应用将MD5算法变换成一个32位长度的16进制数值,在以该数值进行232取模后将其映射到环状哈希空间,并以相同的方式将节点映射到环状哈希空间当中,此时Key则会在哈希空间中寻找到节点值作为路由值。
2 计算同数据的流式拓朴协作机制
2.1 Storm系统
流水线技术是对高性能数据进行处理的重要技术类型,其主要技术思想即将一个任务分解成多个具有前后关系的子任务,在流水线模式中,各个子任务的启动同之前顺序任务的完成情况具有依赖,对具有先后相关性数据分析方面具有较好的实用性特征。目前,以分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活性,在本研究中,将以Storm系统为例进行简单的介绍。
Storm是由Twitter所推出的一种流式分布式系统,在该集群中,由多个工作节点以及一个主节点组成,其中,主节点可以说是系统的核心,具有任务布置、代码分配以及故障检测等作用。在该系统中,当其要对实时计算任务进行完成时,需要对一个Topology进行建立,并由该模块对数据处理进行规划。在Storm系统中,元组是基本的数据流单位,可以将其看作是一个被封装的数据结构类型,在Storm系统中,Topology可以说是最高级别的执行单元,其是由很多个节点所组成的拓扑,在拓扑中,由不同节点对相应的计算逻辑进行完成。在该系统中,Spout是系统的数据流生成器,而Bolt则为不同的处理位置。对于数据流来说,由于Spout为数据源头,在实际运行中,其在对数据进行读取之后则会实现向Bolt的传送,其不仅能够对多个输入流进行接收,且能够较好的对数据进行特定处理。在Storm系统对Topology进行应用之后,其则具有了更为强大以及更为灵活的数据处理能力,节点在根据Topology逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从整个架构情况看来,在数据以及计算协作处理方面,系统主要是通过Topology进行分配,并在按照其描述之后由对应的节点程序进行处理,并由主节点将根据一个逻辑实现物理节点的映射。
2.2 流式拓朴映射模型
在Storm系统中,其通过Topology结构的应用,则能够对较为复杂的分布式数据处理任务进行实现,在整个过程中,对于不同计算任务,Topology好比是逻辑规划,并没有对相应的物理节点进行对应,在系统主节点中,可能具有数量较多的该种结构,而对于每一个结构都可以将其视作为对特殊问题进行处理的逻辑规划,可以说,通过Topology结构的应用,则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图1所示。
在图1中,每一个操作就可以将其是作为Bolt,而数据发生器则为Spout,在该系统中,同样由主节点对很多个处理节点进行管理与监控,对于每个任务的逻辑规划,主节点都会在一定策略的基础上对物理节点进行分配,以此对相关的计算恩物进行完成。如上图中,主节点为操作1分配物理节点1,为操作2分配物理节点2,为操作3分配物理节点3,为操作4分配物理节点1,在以该种方式进行分配之后,Topology则能够被映射为集群物理结构,并能够对相应的计算任务进行完成。而作为编程人员,在工作当中仅仅需要对Topology的逻辑结构进行定义即可,其后续相关工作则完全由系统进行维护,作为设计人员,在整个操作过程中也不需要对失效问题进行担心,这是因为当某个节点出现失效情况时,主节点将根据对应操作将其对一个好的物理节点进行重新的映射,以此保证整个规划能够得到顺利的实现。
通过上述的分析可以了解到,通过流式拓朴映射方法的应用,则能够使系统根据Topology描述的情况对不同的集群计算结构进行自动组合,以此以更为灵活的方式对复杂问题进行处理。在整个过程中,系统的主节点具有数据路由以及计算的作用,并通过Topology的描述对协作机制的跟踪定位进行实现。
在此,我们以MPS对Topology到物理的映射过程进行模拟,在节点间,将通过Mpi_Send()函数的应用将流数据元组注入到节点当中,并在该节点上对相关操作进行发起,之后,通过MPI_Recv()函数的应用对前端数据进行接收,以此对节点间通讯进行实现。对于该种方式来说,其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进行了较好的避免,具有较好的应用效果。
3 结束语
在现今大数据时代背景下,数据同计算间的协作具有了更为重要的意义。在上文章,我们对大数据技术中计算与数据的协作机制进行了一定的研究,需要能够联系实际进行系统模式的选择与应用,以此更好的对数据处理任务进行实现。
参考文献
[1]罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012(1):77-79.
大数据商业应用技术与商业思维革命
大数据,又称巨量资料,指的是不用随机分析法(抽样调查)这样的捷径,而采用所有数据的方法,在合理时间内撷取、管理、处理、整理有关数据以帮助用户获取更及时、准确的决策依据。大数据有4V特点:Volume(大量)、Velocity(高速)、Variety(多样)、Veracity(真实性)。
一、大数据技术的商业应用领域
大数据就是全数据,“大数据”到底有多大?据统计,仅在2011年,全球数据增量就达到了1.8ZB(即1.8万亿GB),相当于全世界每人产生200GB的数据。这种增长趋势仍在加速,以后的几年,数据将始终保持每年50%的增长速度。如百度制作的“百度地图春节人口迁徙大数据”就是典型的大数据应用之一。大数据结合可视化分析将大量复杂的数据自动转化成直观形象的图表,将使数据能够更加容易的被普通消费者所接受和理解。从数据库到大数据,看似只是一个简单的技术演进,但细细研究不难发现两者有着本质上的差别。大数据的出现将颠覆传统的数据管理方式,在数据来源、数据处理方式和数据思维等方面带来革命性的变化。大数据技术目前应用在以下几个方面。
第一,数据挖掘算法是大数据分析的理论核心,其本质是一组根据算法事先定义好的数学公式,将收集到的数据作为参数变量带入其中,从而能够从大量复杂的数据中提取到有价值的信息。著名的“啤酒和尿布”的故事就是数据挖掘算法的经典案例。亚马逊的推荐引擎和谷歌的广告系统都大量使用了数据挖掘算法。第二,预测性分析能力是大数据分析最重要的应用领域。从大量复杂的数据中挖掘规律,建立科学的事件模型,通过将新的数据带入模型,就可以预测未来的事件走向。预测性分析能力常常被应用在金融分析和科学研究领域,用于股票预测或气象预测等。第三,语义引擎是机器学习的成果之一。过去,计算机对用户输入内容的理解仅仅停留在字符阶段,不能很好的理解输入内容的意思,因此常常不能准确的了解用户的需求。通过对大量复杂的数据进行分析,让计算机从中自我学习,可以使计算机能够尽量精确的了解用户输入内容的意思,从而把握住用户的需求,提供更好的用户体验。苹果的Siri和谷歌的Google Now都采用了语义引擎。第四,数据质量管理是大数据在企业领域的重要应用。为了保证大数据分析结果的准确性,需要将大数据中不真实的数据剔除掉,保留最准确的数据。这就需要建立有效的数据质量管理系统,分析收集到的大量复杂的数据,挑选出真实有效的数据。
大数据技术的应用中也带来一定的问题。大数据数据量增加并不一定意味着数据价值的增加却意味着数据噪音的增多,因此在找到有用数据之前必须给数据“降噪”。大数据的处理也要求算法在实时性和有效性之间找到平衡,云计算能帮助解决一些问题,那么就要开发基于云计算的新算法框架。数据间的链接需要更创造性的算法创新来找到其中的未知的关联,以放大数据计算的价值。
二、大数据技术应用带来的思维革命
大数据带给我们在研究以及实践上的思维转变。
第一,大数据颠覆统计基础,从数据抽样到数据全样,大数据最大的特点是大而全,我们将改变统计方法。如系统抽样,分层抽样,定额抽样,这些统计方法将会在大数据时代不复存在。大数据的信息化可以统计到一切想要统计的数据,将工业时代的统计方法淘汰掉。
第二,从追求精确到非精确。在传统的搜索时代,当我们去查询某个信息时,我们需要得到的是全部的数据,但是搜索引擎则完全改变了我们这种认识,搜索引擎提供的只是前几项内容,而这几项内容则完全满足了我们的信息需求。搜索引擎其实提供的是一套模糊算法,经过一系列的算法计算,将最优秀的结果带到用户面前,而这种结果上的呈现也颠覆了传统所认知的对于目标的定义,在大数据时代,我们追求的不再是绝对目标,而是一个从宏观趋势下推导出的一些模糊的不精确的未知目标,我们将追求无限的近似而不是绝对的正确。
第三,维逻辑方式将从因果转变为关联。大数据时代导致了西方产生了惊人的言论:“理论已死”。以往的决策决策者要想决定某件事,必须参考各种理论,对其中的因果进行判定后才能达成,但是大数据时代则让决策变得更加容易,比如超市大数据可能会用清晰的图表告诉你每当下雨天时,超市里的蛋糕会卖的多,这时候决策者根本不需要知道任何理论,任何因果,只需要在天气预报预测明天将要下雨时提前准备蛋糕就行了。
大数据技术将引领两个领域共同发展,并带来人类生存环境和人类本身的巨大改变。首先是大数据技术带动物联网技术的延展,物联网可以依靠数据处理技术延伸到每一个角落,帮助人类收集客观世界的一切信息,比如车联网、智能高速公路,智能家居等。物联网还可以延伸到人类自身之上,比如可穿戴设备帮助人类更好地了解自身的健康,慢性疾病或者肿瘤的治愈将成为现实。大数据将使客观世界的全部内容数据化、可记录。另一个领域是大数据技术带动数据分析的发展,当信息获取系统帮助人类获取了足够多的信息,如何处理这些信息将是问题,潜在的技术将把无关联的领域用数据联系起来。最终,大数据带来的将是具有人类智能的世界,客观世界将通过互联与数据处理贡献一种提供实事求是经验的、类似人脑习惯性的真实思维。我们的生活将发生巨大变化,理性与习惯性将增加,不可预测性将降低,包括隐私在内的很多法律问题将被重新定义。
参考文献:
【关键词】云计算技术 大数据 数据处理
随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
1 大数据和云计算的关系
云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
2 基于云计算的大数据处理技术
2.1 大数据的采集技术
目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
2.2 大数据的存储技术
由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。
2.3 大数据的挖掘技术
联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。
2.4 大数据的可视化技术
上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。
3 结语
在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
参考文献
[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146+169.
[2]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.
[3]迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013(12):50-51.
1.1物联网
物联网是可将物与物、人与人、人与物相互关联,实现智能控制的一种网络技术。就是利用局部网络或互联网等通信技术把自来水厂既有的传感控制器、机器、人员等通过新的方式联在一起,实现信息化、远程管控和智能化的网络。
1.2大数据
大数据技术可将水厂内一系列的数据库集成化,抽取挖掘数据信息,并转换成指导企业生产管理的有效信息。大数据,主要就是指数据量巨大、种类多、产生速度快、有创造价值潜力的数据库。被誉为“大数据时代的预言家”的牛津大学维克托·迈尔-舍恩伯格教授解释:大数据分析就是分析全体数据不要抽样数据,要接受数据的复杂多样性不要追求个别类型数据的精确,要事物相关关系不要难以捉摸的因果关系[2]。
1.3机器人
传统一线工人是通过对设备的看、触、听、嗅、测等感观进行巡视判断。而设备巡检机器人一旦投运,将不受环境影响,实现24小时不间断高强度的自动巡检,甚至还可以将每次巡检的内容上传大数据库进行储存,方便以后查阅。
2面向智慧水厂的大数据管理理论
对于智慧水厂而言,其大数据往往是从各种复杂系统中得到的,每一个系统都有着独立的数据集和分散的链接,数据的共性和网络的整体特征隐藏在这些数据网络的集合中,但通过大数据可以将这些反映相互关系的链接整合起来,构成一张完整的大数据关系网。分析大数据也就是分析大数据后面的网络,大数据面临的科学问题本质上可能就是网络科学问题,一些网络参数和性质也许能刻画大数据背后网络的共性[5]。智慧水厂部分大数据及这些数据之间可能的联系,其中包含了来自水厂自身、调度及外部的诸多数据,这些不同数据之间彼此关联、交织成网,以一种现阶段看来无比混杂并且难以准确描述的方式支撑和推动着配水厂的运行与发展。
3面向智慧水厂的大数据分析前景
摘要:贵州智库必须运用贵州领跑大数据的优势加快智库转型升级。大数据时代为贵州智库转型提供技术支撑。贵州借助大数据技术助
>> 大数据加速推进贵州产业转型升级 大数据助推产业升级 军民融合助推贵州工业转型升级 让工业大数据成为制造业转型升级的助推器 国网新疆电力公司大数据智库平台安全技术解析 大数据驱动下的新疆新型智库建设 贵州大数据产业发展与产业结构转型 贵州弄潮大数据 论道贵州大数据 IT助推智库创新 数据库技术在大数据中的应用 大数据助推大格局赛罕区开启食药监管“智”理新模式 信息技术助推传统企业转型升级 BIM技术助推国有大型施工企业转型升级 2016云上贵州・大数据招商引智推介会在京举行 利用大数据技术助推精准扶贫的新探索 创意助推企业转型升级 大数据背景下的高校新型智库信息支持平台构建研究 大数据环境下高校图书馆嵌入智库建设模式探讨 贵州耕“云”大数据 常见问题解答 当前所在位置:
[2].
[3]宗威、吴锋.大数据时代下数据质量的挑战,西安交通大学学报,2013年9月,第33卷,第5期,总第121期.
[4]吴金红、张飞、鞠秀芳.大数据: 企业竞争情报的机遇、挑战及对策研究,情报杂志,第32卷.
[5]中国大数据重点行业应用市场研究白皮书
[6]中国大数据重点行业应用市场研究白皮书
[7]新一轮信息技术革命浪潮对我国的影响(上).
[13]付玉辉、郭燕溪.从社会化大数据传播视角看公关传播,20130603.http://.cn/templates/T_Second/index.aspx?nodeid=43&page=ContentPage&contentid=3041
关键词:网络教育;大数据技术;大数据时代
大数据技术是由信息技术而产生的一种新型的技术类型,它不但带给人们全新的理念、全新的知识,还将人们带进了全新的时代——大数据时代。同时,在我国网络教育领域的学习和管理中,已经将大数据技术引用进来。对数据进行分析,并以此来推动网络教育事业的发展,是大数据时代网络教育的重点工作内容,因此,“对于应用于网络教育中的大数据技术探析”的研究,就具有极大的现实意义。
1大数据时代的影响
近年来,大数据一词被人们广泛的提出和认知,同时,在各个行业中也都对大数据技术进行着行业应用,很多国家和企业也越来越多的提到大数据时代,那么,大数据时代是怎样产生,其发展趋势又是怎样呢,本文在这里作简要说明。首先,大数据时代概念,是由麦肯锡公司提出的。他们指出,由于现今网络时代的发展,使得很多数据成为了超大型数据,这些超大型的数据已经无法用原有设计出的软件进行分析和处理,但作为社会发展中起主要因素的数据信息,仍然必须要经过技术来进行采集和运用,相当于人类要面对一个全新的、巨大的信息浪潮的冲击,这标志着一个新的信息时代的到来,就是大数据时代。其次,大数据时代中,原有的数据量计量单位已经无法满足信息量的需求,统计软件也已经无法完成数据的全部采集和整理,这是一种颠覆性的转变。IBM通过研究后指出,在两年间,人们就能够将以往涉及到人类问题的所有资料和数据信息收集完毕,这是何等庞大的工程,并且有学者预计,世界在5年后,所生成的所有数据将会是现今的近百倍,这说明大数据时代带给的影响将是巨大的、无法想象的[1]。
2大数据技术在网络教育应用中出现的问题
2.1处理及转化问题
将大数据技术应用于网络教育之中,由于数据信息的量极其巨大,要从这些巨大信息量中有效的筛选出可供网络教育平台应用的课程,就具有相当大的难度。而且,由于数据信息还具有多样化的特点,在有限的时间内,进行课程信息的有效分类也成为难点,加之这些巨大的信息中还包含着一些非法信息和病毒,如果不能进行合理、有效的分类、整理,就无法保证这些信息的安全性和完整性。
2.2数据存储问题
当前网络教育进行大数据技术应用,虽会对信息资源的多样化和便捷化起到帮助,但由于信息量的不断增长,网络教育平台的存储空间已经无法满足日益增加的巨大信息量。同时,在信息的存储和导出过程中,由于巨大的信息量,将导致计算机同时运算数据过多,也极易造成计算机死机或宕机等情况发生[2]。
2.3用户信息的安全问题
随着大数据技术应用于网络教育平台,虽使教学形式更加丰富多样,却为用户的个人信息数据带来了安全隐患。很多大数据背景下的网络教育平台,没有较为完善的用户信息数据库和加密保管措施,加之由于计算机在处理网络信息时,巨大的课程信息和用户信息中也会夹杂着部分带有病毒、木马的信息,使得用户在进行网络注册后,填写的个人信息资料很容易被一些病毒信息或木马信息所窃取(包括用户年龄、工作行业、家庭住址等私密信息)。这就使用户信息得不到很好地保密,不仅会对用户的个人隐私带来很大的威胁,也为不法分子进行违法犯罪提供了信息资源。
3网络教育中大数据技术的改善措施
3.1增加运行机组
由于大时代技术应用于网络教育平台,带来了巨大的课程数据信息和用户信息,这些信息会对平台造成不良影响,只有在网络教育平台的线下加入必要的运行机组,才能解决此问题。运行机组的加入,不仅能改善信息分类情况,还能够按照时间分类进行筛选,涉及到哪些学科的知识,就分类到哪里的数据库中,并直接按照课程的先后教学时间进行纵向排列。这样会提高网络教育后台的工作效率,也能对网络教育平台的管理起到一定的作用[3]。
3.2设置网络屏蔽系统
涉及巨大且多样化的数据信息,应利用相关技术设置网络屏蔽系统。用户将信息输送到后台,后台运用此种系统进行分析,通过判读,为用户信息的,则安全放行,判断为病毒信息的,则将其挡在防护系统之外,这样就能够有效的吸收有益信息,使网络教育平台能够进行有效的课程播放或供用户下载,并防止有害信息的侵入,使病毒或木马无法对网络教育平台进行侵害[4]。同时,在接收信息时,还要对较大的数据信息或不满足要求的信息进行筛选和屏蔽,并在网络端进行登记记录,如若此类数据信息还对网络教育平台进行访问,则直接根据历史记录,将之屏蔽在平台之外[5]。
3.3提高防范意识
在大数据的时代背景下,应提高个人及网络教育平台的安全防范意识。大数据带来的信息具有数量大、多样化等特点,这其中必然包含一些影响网络安全的问题,只有人们在网络上进行学习和工作时,提高自身的安全防范意识,才能有效地改变由大数据技术带给的不便。也只有网络教育平台将安全作为重中之重,才能通过网络这种媒介,将教育知识普及给更多需要学习的人。
4结语
综上所述,大数据技术是由于信息技术的发展应运而生的。虽然大数据技术的应用,为网络教育的平台带来了诸多问题,但比较而言,带来的好处则不胜枚举。同时,这种情况的发生,说明大数据技术在网络教育中的应用仅处在初级阶段,随着信息技术的进步和计算机应用的进步,这些问题都会迎刃而解。因此,只有提高对大数据技术的认知程度,相应的对网络教育应用中的大数据技术进行分析和研究,才能使大数据技术在网络教育领域得以成熟和完善,才能为大数据技术更好地运用到其他领域起到一定的示范作用。
[参考文献]
[1]喻长志.大数据时代教育的可能转向[J].江淮论坛,2013(4):188-192.
[2]吴雷.大数据助力高校网络思想政治教育创新的长效机制构建[J].淮海工学院学报:人文社会科学版,2015(3):122-125.
[3]方世敏.大数据时代网络教育创新研究[J].商业文化,2015(12):144-145.
[4]何悦恒.国内基于大数据的网络教育研究分析[J].福建广播电视大学学报,2015(1):16-18.
关键词:大数据技术;电子商务;问题;对策
中图分类号:F713.36 文献标识码:A
收录日期:2016年11月7日
一、电子商务与大数据技术概述
(一)电子商务。电子商务作为当今互联网时代最具发展潜力的一种商业模式,以电子和信息技术为基础,以商务为核心,打破了空间与时间的束缚,使生产、销售、管理各环节的水平得到极大的提高,降低了贸易活动的成本,并且因为服务个性化、方便、快捷等特点,使得客户的满意度大幅度提升。此外,在“互联网+”的时代背景下,新一代互联网技术在电子商务中得到广泛应用,无线互联网功能不断完善,大批优秀的电子商务平台服务功能完成了向移动端的移植。移动终端应用在用户规模和信息交互维度的实时性、实地性、多样性等方面的优势得到了充分发挥。大数据和云计算技术被大型电子商务平台广泛应用,为百亿数量级别的查询以及数十亿级别的各类业务处理提供了良好的支撑。可见,电子商务前景广阔。
(二)大数据技术。大数据技术能够从海量的数据中提取出最有效的信息,在电子商务企业中发挥着至关重要的作用。大数据技术可具体划分为以下几种:
1、数据采集技术。快速而广泛的搜集分布在互联网上的数据,并且将一些其他平台中的数据源中的数据导入到该工具中,对数据进行清洗、转换、集成等。
2、数据处理技术。运用分布式系统对超大规模的数据进行快速统计、归纳、分类,便于高质量、高效率地存储数据和提取数据。
3、数据分析技术。根据单组数据的对应分析和多组数据的聚类分析,通过定量描述对于不同现象的各种利害要素的相关程度,让数据开发更接近人们的应用目标。
二、大数据技术在电子商务领域的应用
大数据技术在电子商务领域的应用主要体现在以下方面:
(一)应用于客户体验。电子商务平台网站的界面结构和功能是吸引大量客户的关键,多数电商企业为提高客户在交易过程的第一体验,根据大数据技术分析客户消费行为的历史记录建模,然后在此基础上使用web挖掘技术改进关键字加权法,有效地将用户输入的关键字合理地拓展延伸,提高商品信息检索功能的精准率,并且针对不同的消费习惯,动态地调整页面布局,全方位地把握客户的实际需求,实现对商品的合理聚类和分类,呈现商品信息的初步浏览效果,如淘宝网根据客户关心某些产品的访问比例和浏览人群的分类来决定广告的排版布局,增加广告的投资回报率。通过大数据技术的应用,能满足消费者个性化的需求,改善了客户的购物体验,有利于提高客户的购物满意度。
(二)应用于市场营销。电商企业引进了先进的大数据技术,在市场营销各环节最大限度地降低人力、财力以及时间成本。技术部门可构建分布式存储系统,运用web数据挖掘技术将客户在不同网络平台上的个人信息以及动态的浏览习惯贴上“标签”,根据不同格式的数据选取不同的存储策略,再针对性、大范围地对潜在的客户进行商品与服务推销。
(三)应用于库存管理。在零售业中,库存销量比是一种重要的效率指标,数据仓库可以使管理人员实时追踪商品库存的流入与流出,并通过在线的市场供求变化数据分析,准确把握预期的市场供求动态,制定合理的生产计划,降低库存积压风险,提高企业的资金周转能力。
(四)应用于客户管理。客户管理的实质是为消费者提供可持续的产品和服务。运用大数据分析的优势,电商可以划分普通用户群和核心用户群,并且建立会员信誉度级别。在各大电商平台的领军企业,技术人员利用大数据技术根据买家的消费行为定量定性地评定买家信用,同时也能够通过跟踪商家的服务质量和产品销量来评定商家的信用,这样买卖双方都能尽可能遵守交易的规范,以此促进电商交易平台的良性发展。
对于客户反馈环节,在传统的市场营销中,采集大量的客户反馈信息工作需要动用较多的人力资源电话回访完成调查问卷表,耗时耗力且结果不佳。国内一些专门将互联网信息分门别类提供给个人和企业单位的公司,如百度和阿里巴巴等,拥有强大的大数据技术和云计算系统,可快速应对海量数据统计、查询和更新操作,加工成具有商业价值的数据,为电子商务企业提供了全面而准确的客户反馈信息。
三、大数据技术在电子商务领域应用中存在的问题
大数据是一个应用驱动性很强的产业,有巨大的社会和商业价值。然而,就国内现阶段的大数据技术在电商领域应用的发展状况而言,仍然存在一些问题。
(一)大数据应用的低效率问题。操作系统和系统集成技术的多元化发展造成国内电子商务系统呈现出数据孤岛和异构等现象,导致不能实现网络业务间的交换、共享、协同和控制。而电商企业的数据和系统独立开发,大数据技术应用所需的海量数据不能在电子商务行业之间共享,不利于大数据在电子商务领域中的多元化和高效率应用。例如,我国目前最大的电子商务平台阿里巴巴,虽然具备较为完善的信息系统基础设施,但是由于其数据的封闭性,与其他的互联网企业难以在业务与安全范围内实现互联互通互操作,尤其是新兴的电子商务企业无法承受系统开发和维护费用给企业带来的巨大成本,因而信息资源的低水平重复开发利用,一定程度上抑制了电子商务行业的协同发展。
(二)大数据技术应用的政策和技术标准不完善问题。虽然大数据技术的应用能够为新兴的电子商务行业发展提供良好的技术支持,但大数据产业仍处于初级阶段,各种良好应用前景的实现还需要国家政策的大力支持。目前,我国大数据技术应用的相关管理政策尚不明确,缺少统一的技术标准,不利于大数据产业统一管理和发展,阻碍了其在电子商务领域应用的进一步革新。
(三)大数据环境下电商企业创新能力较低问题。大数据作为一种极具商业潜力的信息技术,在近年来不断地被电子商务企业广泛利用,但我国当前在电子商务领域应用大数据技术的创新水平较美国、日本等发达国家仍有不小的差距。国内的许多电商企业曾遭受因高强度的数据分析计算导致系统崩溃带来的损失,且大数据资源还不能完全在企业间共享,导致大数据技术在电子商务中的应用受阻且创新能力有限,并没有发挥出大数据技术的全部优势。因此,加快大数据的共享,突破技术的屏障,创新商业模式、产品和服务成为大数据环境下电商企业提高核心竞争力的必要手段。
(四)大数据技术在电子商务应用中的数据安全和个人隐私问题。随着数据挖掘等大数据技术在电子商务领域的广泛应用,电子商务交易过程的前后,网络通道信息交互十分频繁,使得大数据在采集、共享、分析等方面的数据安全和个人隐私问题日益突出。一方面由于各类电商平台信息安全技术的良莠不齐,大量分散的数据中关于企业机密和个人敏感信息记录极易被他人用作不良途径谋取利益,对用户的财产安全和人身安全造成威胁;另一方面对于电商企业而言一些敏感数据的所有权和使用权还没有明确的界定,很多基于大数据的分析都未考虑到其中涉及到的个体隐私问题,因此大数据不被妥善处理会对用户的隐私造成极大的威胁。
四、解决对策
(一)提高大数据技术在电子商务领域的应用效率。在解决大数据应用低效率的问题上,云计算技术具有无可比拟的优势。它可以借助虚拟化技术和大型服务器集群提高后台的数据处理能力,为用户提供统一的、便捷的大数据应用服务平台。不同的互联网合作商的相关数据被部署在云计算服务商的数据中心,进行不同数据整合加工,甚至实现行业共享,最后向用户提供集中式的服务。云计算技术的这些特点可以有效地降低电商企业信息系统开发和维护的成本,同时在降低运行负荷的情况下,能够提高数据中心的运行效率和可用性。
1、建立基于云计算模式下的数据存储业务。建立基于云计算模式下的数据存储业务,不仅通过云端技术能够提供高效率的大数据计算和超大的数据流量支持,避免大量用户访问网站突破峰值造成的网络拥堵和系统崩溃,同时存储在云端的数据便于集中式地进行高强度的安全监控,还可以降低被黑客攻击和窃取商业机密数据的可能性。
2、建立基于云计算模式下的信息共享和业务协作。电商企业、外部供应商、互联网合作企业通过建立基于云计算模式下的信息共享和业务协作,不仅可以实现同步的信息资源共享,提高数据的可重复利用率,降低数据挖掘和数据整合的成本,还可通过企业之间的互通、互联、互操作为消费者的业务需求提供更加方便和高效的服务。
(二)完善大数据技术在电子商务领域应用的政策和技术标准。各级政府应进一步加强信息网络基础设施建设,构筑满足未来社会和经济需要的数据和信息化基础平台,加大财政对于大数据产业的扶持力度,将数据加工处理业务列入享受营业税优惠政策范围,对大数据技术的自主研发项目减免税收,甚至给予一定的补贴,鼓励大数据技术成果产业化,并完善其知识产权保护的法律、法规和政策。此外,还应该成立统一权威的信息管理机构,建立并完善大数据技术应用的统一技术标准,完善大数据技术在电子商务领域应用的法律保证体系。
(三)提高大数据技术在电子商务领域应用的创新能力。我国应该不断加强国内外大数据技术创新交流与合作,通过学习和交流,提升大数据技术在电子商务领域应用的创新能力。电商企业也应该积极地响应国家“十二五”发展规划和创新创业的号召,提高对应用大数据技术改善现有的产品和服务的重视程度,优化电子商务产业结构,提升企业信息管理部门的IT架构承载能力和计算能力,研究新型商业模式,充分应用大数据和云计算技术促进电子商务企业的升级和转型。此外,电子商务企业还需要抓紧时间储备既有过硬的专业技术,又具备市场营销、运营管理和创新能力的大数据管理和分析人才,满足“互联网+”时代的人才需求。
(四)完善大数据技术在电子商务领域应用的安全技术。为了有效解决大数据技术在电子商务领域应用中的数据安全和个人隐私问题,应该完善交易成功前的两层数据传输安全防护技术和交易成功后的保留在服务器中的数据的客户隐私保护技术,不断增强大数据技术在电子商务应用中的安全性。
1、利用身份及设备认证技术确保用户身份和相关设备真实性。身份认证是判明和确认交易双方真实身份的必要环节,也是电子商务交易过程中最薄弱的环节。因为非法用户经常采用窃取口令,修改、伪造信息和阻断服务等方式对网络支付系统进行攻击,妨碍系统资源的合法管理和使用。用户身份认证可以通过三种不同的组合方式来实现:用户所知道的某个秘密信息,如用户自己的密码口令;用户所拥有的某个秘密信息,如智能卡中存储的个人参数;用户所具有的某些生物学特征,如指纹、声纹、虹膜、人脸等。
2、综合利用数字证书和数字签名技术保障报文的机密性以及不可否认性。在电子商务交易的整个过程中,交易各方欲提供自己的真实身份信息必须通过权威的第三方“CA机构”为其颁发身份凭证。数字证书将各方的身份信息结合在一起作为信息加密和数字签名的密钥,通过PKI提供公钥加密和数字签名服务的安全基础平台,管理密钥和证书信息,从而保障电子交易渠道的网络通讯安全和数据报文的机密及不可否认性。
3、利用隐私保护技术来实现大数据的隐私保护。(1)基于数据失真的隐私保护技术。数据失真技术通过扰动原始数据,使攻击者不能发现真实的原始数据,且失真后的数据保持某些性质不变,大数据技术在应用中可以通过该技术实现隐私数据的保护;(2)基于数据加密的隐私保护技术。基于数据加密的隐私保护技术采用加密技术在数据挖掘过程隐藏敏感数据,包括安全多方计算、分布式匿名化等方法,实现数据集之间隐私的保护;(3)基于限制的隐私保护技术。基于限制的隐私保护技术通过有选择地原始数据、不或者精度较低的敏感数据,实现隐私保护。
“互联网+”时代已经到来,大数据技术在电子商务领域的应用是大势所趋。电商企业应该积极应用大数据技术进行产品、市场和客户等信息的分析,通过分析的结果辅助管理者进行经营管理的决策,提高电商企业的市场竞争力。
主要参考文献:
[1]张昶,靳伟,靳艳峰.web数据挖掘在移动电子商务领域的应用研究[J].价值工程,2015.26.
[2]钱敏.数据挖掘与隐私在电子商务的关系[J].中国科技信息,2016.8.
关键词:大数据 数据挖掘 数据分析
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2015)11-0000-00
随着我国网络技术的快速发展,大数据挖掘技术越来越成为影响影响网络信息发展的重要因素,而大数据挖掘技术的主要内容以及经常采用的主要方法直接影响了我国未来网络技术的发展方向。因此,这一技术的发展直接影响了网络的发展。本文从大数据挖掘技术的角度出发,研究大数据挖掘技术的应用情况。
1大数据挖掘技术的概念分析
大数据挖掘及时是KDD的一个重要的过程,这种技术是从许多数据中还有一些不完整的应用中,以及一些比较纯净的应用或者是模糊不清的应用中随机抽取出来的。这些抽取出来的数据都是潜在存在的,但是不为人所发现的信息内容。那么什么叫做KDD(Knowledge Discovery In Database)呢?KDD是发现知识的一个过程。
通常情况下,大数据挖掘系统主要包含七方面的内容:用户图形界面接口、模式评估、数据挖掘引擎、数据库或数据仓库服务器、数据基地、数据仓库以及知识储备库(如图1所示)。由图1可知,数据库还有数据仓库服务器有大量的信息和数据,这些数据对很多用户都有着吸引力。图1中的知识储存库是一个简单的应用,用这个知识储存库来进行知识的探索和评价,从而确定总体的模式是不是有意义。数据挖掘引擎是整个大数据挖掘系统中十分重要的组成内容。它能够对数据的特征、关联、类别、价值等进行分类。模式评估的主要功能是在对数据进行评价的同时还要和大数据挖掘技术相互联系,从而把大数据挖掘的技术全面的应用到系统中。模型的进口是用户图形界面的接口。能够方便使用者使用这一模型。并且利用大数据挖掘技术进行信息的查询和分析。
2大数据挖掘技术的应用与挑战
2.1挖掘对象
大数据的挖掘技术面对的主要对象为大的数据库。这样一来能够有效的进行信息的搜索和查询。
2.2大数据挖掘技术体现形式局限性
当前,大数据挖掘技术在处理数据以及信息的时候所使用的方法比较有限,具有一定的局限性。通常情况下,这种技术能够分析数值型的数据,数据内容比较简单,可是仍然不能够对文本文件、公式、图片等这种没有结构或者是无结构的数据形式开展数据挖掘的工作。
2.3使用人员参加的过程和相关领域的信息
通常情况下,大数据挖掘技术的过程常常要进行信息和数据的交流。当前,所实用的数据挖掘系统很难让使用者参与到信息以及数据的筛选过程中。使用人员自身的知识能力以及经验对挖掘的开展速度有着直接的影响。而且能够顺利的获取大量的利用度十分高的数据信息等。
2.4进行知识的表现和内容的解析
很多应用程序中主要的内容都是用户自己发现并分析出来的知识。这就需要大数据技术在挖掘信息的时候不但要有分析数字还有符号的能力还需要对图片、语言等理解分析的技术。
2.5帮助保护知识内容和信息的更新换代
伴随着知识量的增多,以往旧的知识会逐渐的失去自己的作用,被新的知识内容所取代。所以知识需要不断的保护和进行及时的更新换代。当前采取的主要更新知识的方法包括维护关联规则的增量算法等。
2.6支持局限性的系统发展
当前的大数据挖掘系统还不能够在广大的系统平台上进行推广使用。一些应用程序是应用在PC上面的,还有一些应用是针对大型的主机系统中的。除此之外,还有一些是专门针对用户的。
3结语
数据挖掘技术是近几年新产生的网络技术,可是它的广泛应用性受到了很多公司以及研究人员的喜爱。这些年来,伴随着时间的推移以及网络技术的不断发展大数据挖掘技术不断的被更新,开发,而且在金融、管理、教学等行业中都得到了广泛的应用。我相信随着网络技术的不断发展,大数据挖掘技术的应用面将会越来越广。
参考文献
[1]吕竹筠,张兴旺,李晨晖 等.信息资源管理与云服务融合的内涵即共性技术体系研究[J].情报理论与实践,2012,35(09):26-32.
[2]《中国电子科学研究院学报》编辑部.大数据时代[J].中国电子科技研究院学报,2013(01):41-43.
[3]淮晓永,熊范伦,赵星.一种基于粗集理论的增量式分类规则知识挖掘方法.南京大学学报(自然科学版,计算机专辑),2000,(11):203~209.
[4]方开泰.实用多元统计分析[M].上海:华东师范大学出版社,1992:189~193.
大数据并不是一蹴而就、空穴来风的概念,在它的背后有很多趋势在推动这个概念的到来。简单地说有几个方面推动大数据的到来:
第一是数据化。我们现在有了更多的传感器去记录数据。大家最能理解和最常见的传感器就是手机。有了手机,我们就能通过技术监测知道你生活在哪个地方,有没有网络购物等个人信息。正是有了越来越多的记录数据的传感器,使得我们获得的数据一直在增长。
第二大变化是数据形态发生了变化 。我们现在有了各种各样的数据,既包括传统的结构化数据,例如门店的销售数据、后台数据等也包括互联网的各种数据。
在大数据时代,互联网用户通常作为同一个对象使用多个网络平台。我们通过对特别对象或人物的网络(性格、社交圈等)和行为(购物、评论等)的特征进行分析和挖掘,打破了孤立的个人数据特征,成功建立了以人为对象的跨越多个网络和数据平台的关系数据群,实现个人跨平台数据的打通。
正是在这样的大背景下,2011年5月,麦肯锡麦肯锡全球研究院(MGI)了一份报告――《大数据:创新、竞争和生产力的下一个新领域》,推动了工业界和学术界对大数据的关注,同年11月IBM公司在产品会上推出大数据概念。
大数据有四个特点:规模巨大;产生数据的速度非常快,我们处理它的速度也非常快;数据库的多样性;数据中潜藏价值。
我们认为大数据不是技术的变化,而是全方位理念的变化,它是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式以及生活方式和观念形态上的颠覆性变化的总和。
大数据的创新
整个大数据在商业中的创新体现在数据的外部化。也就是我们如何把自己的业务数据拿出去给别人用或者怎么样把别人的数据拿进来自己用?
一个门店、一个品牌的生存都不能仅仅依靠自己的数据。当下基于互联网基础的社交媒体、论坛、电子商务及移动电子商务数据给我们提供了很多可能的资源。我从不同角度,简单阐释一下这个问题。
如果从大的角度来谈化妆品行业的整体发展趋势及哪些品类会成为消费者期盼的商品,互联网就给了我们很好的答案。
在10年前,中国还没有男士护肤的概念和市场,但是到今天男士护肤品已经是一个很大的市场。如果我们回溯到十年前,互联网的论坛讨论就是男士护肤市场起步的端倪。因为有一些消费者由于和欧美国家的接触,他们比化妆品市场从业人员更敏感,他们首先发现了男士护肤市场的商机与需求。所以通过大数据的检测你可能会遇到行业可能的机会。
从小的角度来看,大数据的运用,我在一个城市开店,我只想知道什么样的东西受消费者的喜爱,未来的市场变化趋势是怎样的?这个时候电子商务和移动电子商务的数据就给了我们很好的答案。
我们可以通过分布式网络爬虫技术,直接爬取互联网数据。当你覆盖足够多的电子商务平台,你就很容易知道哪类产品、哪类品牌甚至某个单品在哪个城市的销售状况。我甚至可以通过精准的计算技术,更好的了解我们商业合作与竞争的利益。
如果再深一层,面对一个个体,我应该给哪些人推送精准营销或者说一个产品面世后它在互联网的美誉度是怎么样的,有没有可能出现重大安全问题,需要产品方做怎样的调整,这些东西都不是我们自身的数据能解决的而是需要外部的数据辅助我们做决策。
举几个非化妆品行业的例子。搜索网站谷歌通过人们在网上的搜索记录完成流感的预测。谷歌每天都会收到来自全球超过30亿条的各种搜索指令,如此庞大的数据资源足以支撑和帮助它预测流感的传染程度。
我们要注意到大数据运用的创新之处。谷歌不是通过疾控中心和医院的数据来预测传染病,它是通过搜索指令的数据资源来预测传染病的流行程度。也就是说谷歌在用自身业务产生的数据,拿出去解决其他地方的重大问题。
再举一个非常典型的例子,告诉大家我们的数据要流动起来,才能发挥更大的价值。
国家电网每年会两个指数一个是重工业用电指数,一个是轻工业用电指数,这两个指数是整个中国工业制造业的晴雨表。如果将国家电网的数据和用水的数据结合起来,这些数据产生更大的价值。如果把用水和用电的数据结合运用到个人住户,则可以给公安部门维护社会稳定起到积极作用。
公安部门可以通过异常的用水及用电数据判断哪些住宅是传销聚集地。因为传销三、四十个人挤在一个小房子里,用水量是超过正常范围的。
同时,用水用电数据为国家安全委员会维护稳定和反恐有重大意义。我们国家有一些被列入黑名单的,这些人一旦发生了不正常的移动或者居住地用水用电发生异常,公安部门需要第一时间实地走访,掌握情况。
此外,用水用电的数据是所有银行为中小企业发放贷款的重要依据。众所周知,中小企业的财报数据都不太真实,银行在为他们做风险评估的时候,基本不看财报,而是看企业的用水用电数据以及交管委的摄像头记录的货车进出数据,判断企业的整体规模及信贷风险。
所以,我再次强调大数据创新的核心是怎么样把自己的数据拿出去支持其他行业以及如何用其他行业的数据支持自己做决策。
大数据的商业实践
将大数据用于品牌商业分析的时候,有三点和以前不一样:
第一,我们所有的分析都是全样的数据而不是抽样的数据。从某种意义上讲,世界上没有全样数据,我们所能掌握的都只是部分,但从另一个意义上讲,我们团队能够监控到大量的电子商务及手机移动终端的数据。这些数据不再与以前做数据分析时,到某几家店,通过某几个产品的试用和观察得出的数据一样。因此大数据时代的数据分析报告,比以前更细、更高速、更高准确率
第二,大数据的分析包括很多非结构化的数据。做移动电子商务的人会知道, 我们除了关注日常销售、生产等结构化的数据之外,还会非常看重商品在社交媒体上的影响力如何,品牌的粉丝影响力如何。所以每一件商品的美誉度如何以及在论坛上遭遇的舆情危机等都可以通过非结构化的数据分析获得认识。
第三,我们所有的数据都是关联的数据。我们要打通一个用户、 一款产品在不同社交媒体上的购买行为、浏览行为及被收藏被评价行为,从而获得更全面的认知,同时发现产品从A平台到B平台的商业机会。
我建议有条件的品牌商及经营者要实现外部数据的战略储备。我们团队的数据其实来自两方面:一个是自有数据的积累,二是公开数据的爬取。现在的这些数据对于我们将来做扩展包括趋势分析、竞争品牌的分析及了解用户做精准营销等意义重大。
在了解用户的时候,我们需要进行全面了解。我们不仅要了解他的购买浏览记录,还要了解他的时间和空间轨迹等。我们给很多品牌商做过服务,你对同一个对象在不同时间点给他推送广告的打开率可以相差10几倍。此外,了解一个用户的行为轨迹,也能让你做到精准的广告投放和店铺选址。
很多人在运用大数据营销的时候,会步入逻辑结构的误区。一般我们理解的大数据营销是产品经理会通过思考去想像,我的产品适合什么层次的消费者,而企业的老总会思考我的产品选择哪个明星做代言。有了这些想法之后,品牌才会根据媒体、销售渠道及电子商务数据找到它们想要的的代言人。这样的大数据营销在逻辑上是不正确的,因为他太强烈的依赖于产品经理对产品的定位。
而正确的大数据营销是首先找到自己产品和竞争产品的已有用户以及对这些产品表达过兴趣、发表过评价的几万人甚至是几十万人。然后在通过分析这几十万人从事的职业、感兴趣的电视节目、关注的明星、日常浏览哪些论坛的数据结论,选择与品牌形象及消费定位匹配的代言人,进行点对点的精准营销。
在这样的设计流程中, 产品经理和企业决策者的重要性体现在他们凭借敏锐的直觉,,将适合消费者使用的产品设计出来。一件产品问世,就像一个小孩出生,他已经是活生生的生命个体,父母已经无法再改变他。在这种情况下,父母对他的理解, 都比不上他在成长过程中自身生命力的勃发。许多父母会希望小孩子做各种事情,为小孩贴上标签。但真正成功的父母,总是会从小孩的成长过程中看到惊喜。 同样的每一件产品有了自己的生命力,它在面对市场的时候会遇到各种评价,我们利用这些大数据的分析能比产品经理更多知道一件产品它真正的目标用户在哪里,它他真正需要的广告投放在哪里。
在这么一套新的逻辑框架支持下,给大家举一个化妆品行业的例子。欧莱雅集团有一款价值千余元的超声波洁面仪。当时这一款产品的产品经理找到我们,给我们提出的是针对20岁至40岁的白领女性的产品定位。超声波洁面仪的产品在电子商务渠道上有很多同类型的品牌,我们通过数据分析得出二三线城市的中小学老师的职业群体是被他们忽略掉的群体。
中小学老师每天接触大量的粉笔灰尘,因此她们对洁面仪器的关注最活跃、使用频次也最高。当我们把这个现象告诉欧莱雅的产品经理时,他们一下子就明白了这个道理。