时间:2023-06-06 09:01:29
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇大数据分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
近年来,业界、学术界兴起了大数据讨论,一夜间大数据时代到来了。大数据给学术界带来了新的思潮,大数据正在颠覆着很多传统行业的模式,带来变革。有人预测,大数据必将成为商业、政府、科研、教育、医疗等各行业面临的一个挑战。在大数据时代,数据分析、数据挖掘工作面临着机遇与挑战,本文从数据分析的角度,结合国内外相关研究,试图回答大数据是什么,如何应对大数据的问题。
一、认识大数据
(一)大数据的宗旨:经过分析的数据才有价值
大数据要发挥作用必须经过分析,这是由大数据的4V特性(数据量大、数据类型多、要求处理速度快、低密度)决定的。也就是说,数据都是高维、低密度的,从单个数据中难以看出规律。因此,必须经过分析,针对高维进行降维,提炼大量低密度信息中的价值,才能发挥作用。否则,大数据背景下,反而更容易使得“活”信息混迹在大量“死”数据中被淹没。面向大数据的分析要“简单、迅速、规模化”。
(二)大数据的目标:实现基于数据的决策与资源配置
大数据最终要实现科学决策,基于信息对称的有效资源配置。随着大数据分析技术的发展,可利用数据来源从线下封闭的数据库、数据仓库扩展到开放性的O2O(Online To Offline)融合数据,可分析数据结构从原来以数值为主的结构化数据发展到涵盖文本、视频、音频等多媒体数据。从而,大数据将逐步改变我们的决策目标和社会资源配置方式。基于数据的科学决策是一贯追求的目标。然而,信息不对称是常态,因此传统决策目标是建立相对满意而非最优(决策科学家Simon提出),资源配置效率基于市场优于基于计划。大数据背景下,迅速获取分析更多辅助决策信息成为可能,因此决策目标可实现向最优的无限逼近,实现基于数据的“计划”资源配置将更有效率。
(三)大数据的角度:个性化服务+中观指数+宏观连结
目前发展大数据,主要有基于数据为客户提供个性化营销服务、预测中观行业或区域趋势指数、基于连结的宏观资源配置方案等角度。这不仅仅体现在阿里小微融资的个性化风控决策、高端品牌在线特卖品牌和定价动态决策(基于阿里巴巴网商活跃度指数和零售商品价格指数)、Discern group企业发展战略咨询报告上,还体现在阿里巴巴商务智能指数(预测经济发展态势)和基于公共气象数据的各行业资源配置优化服务上。
互联网金融是大数据发展各角度的前沿阵地。在金融领域,要实现从金融互联网向互联网金融的快速转型。传统模式下的金融企业开展网上业务,如:网上银行、网上理财,并不是真正的互联网金融。互联网金融是指通过互联网新技术为客户实现搜索或风控等服务增值,比较有代表性的是,消除供求双方结构不对称的P2P贷款,提高存取效率的保值理财产品余额宝。
(四)大数据的关键点:保证数据质量
要发展大数据分析,首先要保证数据质量。错误的输入必然导致错误的输出。没有数据质量,一切都是浮云。数据质量没有保证,是不敢用的。数据质量是一项耗时、费力的基础工作。
保证数据质量要求数据采集与清洗过程中秉持两大原则:相关性和低噪声。第一,大数据,数据并非越“大”越好,而是相关数据越“大”越好。特别是,在数据采集中,要以采集尽可能多的“相关”数据为目标,而非不加筛选越多越好。第二,大数据,首先数据获取时要保证不存在诱导倾向的干扰因素,同时进行去噪处理。
保证数据质量要建立数据的数据。针对数据质量建立数据标签,才有进步。有了对数据质量的数据,数据才能被决策者更为安全科学有效地使用。
(五)大数据竞争的核心:分析人才的竞争
大数据时代,作为一种资源,数据不再是稀缺资源。互联网、门户网站、社交网站、微博、微信等新媒体积累了大量数据,缺乏的是对这些数据的分析人员。缺乏专业的分析人才,即使守着数据的“金山”,也只能望“山”兴叹。因此,美国Turbo Financial Group采用最新的大数据分析技术聚焦被FICO遗忘的15%人群建模,阿里提出建立大数据分析的开放式平台,希望能够集结更多专家智慧,同时培养阿里分析人才,挖掘阿里数据“金矿”。
二、把握大数据
大数据对社会生活带来方方面面的影响,我们如何把握大数据时代的机遇,需要慎重对待大数据带来的挑战。总结起来,主要有三个方面:
(一)大数据时代,数据整理和清洗工作
(1)数据整理和清洗工作是数据分析的基础。大数据专家根据经验,普遍认为该工作是一项基础性工作,耗时多且简单,占到数据分析工作量的60%以上,是数据分析前提和基础。在此基上,数据分析工作需要对数据进行标识,进行深度分析,撰写专题报告,确保结果可以执行,最终落实到决策和实施。
(2)大数据时代,需要充分借助IT技术管理数据质量工作。在大数据时代,人工逐笔发现、解决数据质量问题的方式成本高、效率低,不可持续。要尽量规范化、系统化、自动化管理数据质量工作,将节省下的人力资源投入到新问题的研究中。
(二)大数据时代,数据分析的特点
(1)采用倒金字塔模式分配“思考、工作、分享”的时间比重。数据分析工作包括三部分:“思考”,分析实际问题,将实际问题转化成数学模型,提出解决方案的过程;“工作”,将解决方案程序化,得出结果的过程;“分享”,将分析的结果,转化为决策,付诸实施的过程。在时间分配上,金字塔结构或柱形结构的分布形式不是最佳结构,倒金字塔结构比较合理。即,思考的过程花得时间长些,可以减少后期工作量,少走弯路。
(2)通过数据分析进行科学决策。很多人存在误区,认为数据分析就是做报表、写报告。在大数据时代,数据分析不仅仅停留在此,需要进行深度分析,建立数据化决策的流程。要尊重数据、认识数据,但不迷信数据。在尊重数据、尊重事实的前提下,减少主观因素的干扰,快速做出数据化决策,这是一种能力。
(3)大数据时代,数据分析的要义是――简单、迅速、规模化。数据分析的结果要简洁、易懂;数据分析的时间要短,尽可能的自动化地出结果,要快速的满足客户的需求;数据分析的方法能够实现大批量规模化。优秀的数据分析师应具有全局的预见性,一有问题可以马上把该问题打成很碎、很多的问题,甚至把一个问题克隆出很多问题,从而与业务人员建立信任,降低工作量。
(4)从“死”信息中,分离出“活”的信息。大数据有数据量大的问题――产生大量的“死”数据。错误数据是指数据与实际情况不一致,异常数据是指数据正确但数据远离群体的大多数,这类数据情况的处理手段比较成熟。而大数据时代,大量数据是不活跃主体,即“死”数据。因此,需要从高维低密度数据中,提取“活”的信息,发现规律。防止由于“死”信息的存在,导致分析结果不能正确反映“活”的群体特征。
(三)大数据时代,数据分析师的培养
(1)培养核心技术人才,确保长期竞争力。美国在建立全国医疗系统时,将系统外包给了加拿大的一家公司,系统运行的第一天就出现了崩溃。美国政府为此对该模式进行了反思,概括起来有三点:①外包公司设计时只顾满足甲方的眼前利益,不会为甲方的长远利益考虑;②项目外包造成美国技术骨干人员断层,导致出现问题后自身无法解决;③采用该模式导致美国没有了核心技术。
因此,在采用项目外包模式的同时,需要掌握其核心技术。在大数据时代,从数据分析、信息管理、IT技术三个方面保持核心竞争力。需要培养和保持业务、产品设计、数据分析、数据架构等方面的骨干队伍。
(2)建立专业化的大数据分析团队。大数据分析的核心是数学建模,基础是实际业务,结果是自动化程序。在实际工作中需要正确、合理的使用数学建模的思维,构建以数学模型做为基础的数据分析,建立量化管理风险的理念。深刻认识并正确驾驭大数据分析,大数据分析的方法是处于不断发展过程中的,需要根据实际问题,结合实际数据,灵活构建模型。
参考文献:
[1]朱建平,章贵军,刘晓葳.大数据时代下数据分析理念的辨析[J].统计研究,2014,(2).
关键词:大数据分析;情报;统计分析
中图分类号: F279.23 文献标识码: A 文章编号: 1673-1069(2017)03-14-2
0 引言
大数据分析是当下非常热门的一个话题,各行各业都在炒作大数据概念。仿佛不和大数据发生关系就好像赶不上时代。但是大数据的概念和作用仍然需要澄清,尤其是在特定环境中就一定要说明大数据的作用及如何真正利用大数据。
本文介绍了大数据的概念,大数据分析思路,仅从企业管理的角度去分析大数据的作用,并介绍了大数据分析实施项目注意事项。
1 大数据分析综述
随着信息技术的发展,各行各业都或多或少地应用了信息系统,尤其是20世纪90年代数据仓库技术产生以来,数据规模出现了PB级的增长。以前企业只是把信息系统作为辅助业务管理的一个工具,而不重视数据的作用,而现在,企业发现通过数据分析可以更好地理解用户需求和企业运营,帮助企业持续增长和盈利。在这种背景下,“大数据分析”概念应运而生。大数据分析的本质是从数据中发现价值,通过大数据分析发现新的商业机遇和商业价值。如果仅仅是数据分析和分析数据,将会陷入技术的陷阱,企业会得不偿失。
大数据的“大”取决于数据分析的起点以及数据处理的方式。大数据并不仅仅是大。大数据具有“4V”的特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。
大数据分析并不是一种技术,而更像是一个概念,其核心理念就是从超越传统的数据分析方式,从海量数据中选取与企I有关的价值。摆脱了信息系统的视角,关注点不再是信息系统本身,而是通过信息系统沉淀的数据,从数据中发现用户的行为等信息,从数据的本质上去挖掘价值。
大数据分析是伴随着数据科学的快速发展和数据密集型范式的出现而产生的一种全新的分析思维和技术,大数据分析与情报分析、云计算技术等内容存在密切的关联关系。
大数据的本质是基于大量的多维数据,只针对少量几个目标,在一定范围的时间周期内进行预测,大数据分析过程就是情报收集过程。
2 大数据分析在企业管理中的作用
2.1 使企业内信息统计更加真实
企业内部数据收集可以是跟管理相关的数据,以前的数据都是基于人工统计的,是传统的报表方式,并不能得到管理过程数据,都是结果数据,这种情况下,数据都存在“人为因素”。所以可能给高层决策带来错误的信息,导致错误的决策。而通过大数据分析,可以对数据的结果进行验证,从多个维度对数据的结果进行分析,保证数据的真实性。
以前都是单口径统计数据,各部门为了自己的利益必然会对数据进行加工,因为没有相互制约的方式,最后不同口径的数据会有不同的结果。而通过大数据分析,从对个维度对数据分析,每个口径的数据都相互制约,谁都无法对数据加工。当然,这需要对数据的结果带来的利益进行平衡,实现相互制约的作用。
比如,生产车间要上报产量数据,需要有每天的兑现率,每周兑现率和每月兑现率,为了完成这个数据,就必须按时完成产量。每月上报产量时就会自动将每天的产量求和,如果出现冲突就表名数据由问题,会从财务成本的口径反映出来。
2.2 为企业管理提供情报支持
一般在大型企业中都设有情报部门,主要是研究产业前沿情况,市场竞争信息等。传统的情报分析主要依赖情报人员的专业背景和经验,依靠情报人员主观的洞察力和眼光,通过人的分析和推理做出情报研究的结论。这种情况下,虽然能够取得一定的成果,但风险很大,基本是依赖人的主观能动性。但是随着信息技术的发展,知识越来越广泛,而人的认知能力总是存在一定的局限性,企业对情报人员的要求也就越来越高。
大数据分析的出现为了企业情报分析提供了可能。大数据的“4V”特性与情报分析的要求不谋而合。大规模特性说明了情报分析的广泛性,数据分析要尽可能地多;高速化特性说明情报分析的时间性要求,数据分析要讲究时效性;多样化特性说明情报分析的来源要广,数据分析要从多渠道获得信息,互相印证;价值说明了情报的最终目的,也是数据分析的目的,数据本身没有价值后者分析的结果没有价值都是徒劳。
大数据包括企业内部数据和企业外部数据。通过企业内部大数据分析,可以将企业内部的各项数据都收集起来,包括管理中的数据,制造过程中的数据等,实现通过数据分析获悉企业内部的状态,全方位把握公司内部运行状态,做到“知己”。
通过分析企业外部数据可以获得企业的环境或者竞争情况,做到“知彼”。企业通过大数据分析可以为企业管理提供企业发展所需要的情报,为企业发展做出贡献。
2.3 缩短企业决策周期
企业传统的管理决策主体往往是业务专家和精英高管,都是靠个人的意志和思想进行决策。随着大数据应用的不断深入,大数据分析正在逐步发挥作用,为管理决策提供支持。大数据分析结果能更加准确地反映数据所隐藏的知识,反映数据的内部规律。通过大数据分析正在使决策越来越科学。依据大数据分析进行决策,让大数据主导决策并从中获取价值,是一种前所未有的决策方式,正在推动着企业管理准则的重新定位。大数据分析将直接影响管理决策的变化,传统的管理决策逐渐成为历史。越是数据化管理的公司,越重视数据分析的作用,数据分析的结果对企业管理的决策影响也越来越大,决策周期也将越来越短。
3 企业大数据分析注意事项
3.1 明确用户群体
大数据可能拥有更大、更多样的用户群体。大数据的成功很大部分取决于组织中的哪些人使用系统。大数据成功的最重要方面之一是必须为整个企业带来价值,企业中可能会有专注于战略层的用户,也会有专注于战术层的客户。
大数据分析要针对不同的人群设定不同的数据,因为每个人关心的重点数据都不一样。所以在选定数据范围时要根据不同的用户确定不同的数据范围。
每个人都必然会关心自己的兴趣点,所以要根据每个人的利益值定制用户的报表,只有这样才能让每个人都融入进来。
比如,把生产的每个产品都列出来就没有指向性,因为负责不同产品的管理者不关心别人的完成情况,只关心自己的完成情况,所以就需要将用户个人有关的数据进行整合,在一个报表中就可以得出用户需要的数据结果,满足个体的需要。
3.2 确定数据责任人
数据分析要以源数据为基础,如果源数据就是错误,那么就会导致错误的分析结果,所以,大数据分析对数据的准确性要求也非常高。
建h数据分析过程是由数据中心统一负责,在分析过程中只对数据的规范性修正,而不更改源数据的准确性,满足数据的真实性。
3.3 分析目的要明确
数据分析的目的一定要清楚,目的有两个,一个是作为实时值的结果,是为了及时获取当期的报表值,目的就是与目标对比,是对结果的直接评价。
另一个目的是通过分析获得一定的结论。就是报表本身并不知道结果的好坏,必须通过大量的分析才能得到结论。
前者应该针对管理者,管理者就需要直接对结果进行评价,没有大量的时间去分析结果的好坏。后者是针对辅助决策的人员,这些人需要使用大量的数据分析,形成结果以后再呈现给管理者。
4 结束语
大数据分析将对各行各业产生巨大的影响,对大数据分析的重视程度也将影响了企业的管理水平。大数据分析不是只对电信、互联网等行业有影响,对一般的企业也将会发生作用。现在多数已经把数据视为金矿,从大数据分析中获取对与企业有价值的信息,使数据不再沉睡。
在企业管理中如果也能够引入大数据分析的理念并付诸实施,将会使企业管理水平得到极大提升。在实施过程中,企业需要根据自己的特点,制定实施策略和目标。其中,最核心的就是如何从数据分析中获得企业的价值,或者说,数据分析能够为企业带来哪些提升。不要盲目地为了数据分析而进行数据分析。
参 考 文 献
1综合决策分析缺乏时空维度的支持
煤矿安全生产和管理是一个与时间和空间相关的过程,其综合决策分析离不开时间和空间维度的参与,而现有的煤矿信息系统往往缺乏时空维度的决策分析工具,如拓扑分析、缓冲区分析、密度分析、叠置分析、时间和空间趋势探测分析、时间/空间关联分析、时间/空间自回归分析等。煤矿安全生产内涵丰富,既包含了日常性事务性的风险超前预控管理,又包含即时性的风险识别、监测、预测乃至预警,这就给安全生产管理的各类信息系统建设提出了很高的要求,需要满足监控实时化、系统集成化、数据海量化、分析决策在线化和智能化,这些都是目前信息系统建设的短板。上述问题的存在使得我国煤矿安全生产形势没有本质的好转,诸多信息化建设成果(硬件、软件)在煤矿安全生产过程中也没有起到预期的成效。
2煤矿安全生产大数据分析系统
2.1大数据分析的概念大数据分析
是指数据量急剧积累迅速超出主流软件工具和人类思维处理的极限,大数据与传统数据比较起来,有四大特征:数据体量巨大(Volume)、数据类型繁多(Variety)、数据价值密度低(Value)、更新速度快时效高(Velocity)。大数据分析需要全新的数据处理理念和分析工具,洞察发现海量高速增长信息中潜藏的价值[4]。从理念上,大数据分析与传统数据分析有三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。针对大数据,既有的技术架构和分析工具已经无法满足要求,需要全新的数据分析方法和技术,这其中包括:(1)大数据分析可视化方法;(2)大数据挖掘算法;(3)预测性分析能力;(4)语义处理能力;(5)数据质量和数据管理技术。
2.2大数据分析系统的建设
根据大数据处理和分析的理念,煤矿安全大数据分析系统的建设目标包括:数据综合集成、安全知识集成、三维虚拟可视化展示、煤矿安全动态分析诊断。具体建设内容包括:(1)基于物联网/云计算技术的煤矿安全综合数据库。建设煤矿安全大数据分析诊断系统,首先要利用物联网和云计算技术实现全面综合的数据集成,将基础空间和属性数据、在线监测的实时性数据、专业业务系统的事务性数据综合集成起来,构建煤矿安全综合数据库。(2)基于专家系统的煤矿安全专家知识库。针对知识集成的目标,整理规范规程体系中的经验或者理论知识(煤矿安全规程、煤矿作业规程、三违行为知识、隐患界定知识、评估模型、设备操作规程知识、工种操作规程知识),构建煤矿安全动态分析诊断的专家知识库。(3)建设三维虚拟矿井可视化平台。针对信息和知识三维虚拟矿井可视化展示分析,主要的建设内容是基于高精度地质模型理论研究开发三维虚拟矿井平台,实现地层建模、钻孔建模、断层建模、工作面建模和巷道建模等工作。然后,基于三维虚拟矿井平台,实现数据和知识可视化、煤矿安全生产活动可视化、分析和决策过程可视化。(4)研发煤矿安全动态分析系统。针对基于专家知识库的煤矿安全生产分析决策,需要利用煤矿安全综合数据库中的基础数据、实时监测数据以及事务性数据,根据煤矿安全专家知识库进行煤矿安全生产状况评估、推理和演绎,动态分析诊断煤矿安全生产的现状与趋势、预测未来,并针对煤矿应急现象做出科学合理的响应对策。
3结语
物联网、云计算、大数据分析带来了新的数据处理和分析的视野[5],也必将影响煤矿企业的信息化建设,成为提升煤矿安全生产水平的核心信息技术手段。与互联网、电子商务、电信通信等行业相比,煤炭行业在这方面的发展稍稍晚一些。因此,煤矿科技研究工作者需要抓住时机,在大数据分析处理的研究和应用上付出更大努力,推动煤矿信息化建设发展。
作者:魏忠奎 袁传增 单位:山东能源枣矿集团田陈煤矿
通过一系列收购,EMC已经建立了一条比较完善的大数据产品线。在此基础上,EMC抛出了大数据之旅的三段论。
第一关:构建云基础架构
大数据分析和处理的基础是完善的云基础架构,主要包括大数据存储和大数据分析两个平台。
EMC大数据存储平台的两大支柱产品是Isilon集群NAS以及Atmos海量智能存储。Isilon集群NAS是EMC两年前收购的产品,具有很强的横向扩展能力,使用起来非常方便。目前,Isilon集群NAS被用于许多云存储的项目。Atmos海量智能存储可以很好地支持分布式大数据计算。许多电信运营商基于Atmos构建了公有云系统,其部署非常简单,而且性价比很高。
EMC的大数据解决方案分成纯软件和软硬件一体两种。Isilon集群NAS与Greenplum软件组成了一体化解决方案。蔡汉辉介绍说:“Isilon集群NAS目前主要作为大数据存储平台,可与Greenplum、Hadoop结合,但同时也会兼顾传统存储应用。为了更好地支持大数据和云服务,Isilon集群NAS在今年底还会开放API,让更多第三方的厂商能基于Isilon集群NAS平台进行开发。”
EMC大数据分析平台的核心是两年前收购得来的Greenplum的产品,主要包括Greenplum Database(支持结构化数据库)和Greenplum HD(支持Hadoop)。蔡汉辉介绍说:“Greenplum大数据分析平台可以实时处理任何来源的数据,包括结构化、半结构化和非结构化的数据。Greenplum不仅可以处理PB级的数据,而且处理速度可以达到10TB/h。”
第二关:实现社交化服务
构建高性能、可靠、灵活的大数据分析平台是第一步,接下来,用户要构建数据处理的协作平台,建立自助服务的环境。EMC把这个阶段称为社交化阶段。
2012年3月,EMC了首个用于大数据的社交工具集Greenplum Chorus,使得数据科学家可以通过类似Facebook的社交方式进行协作。Greenplum Chorus是EMC中国研发团队主导开发的产品。Greenplum Chorus基于开放的架构,是一个用于数据挖掘和协作分析的流程平台。Greenplum Chorus包括数据探索、个人项目工作空间(又称个人沙盒)、数据分析和几个主要环节。
Greenplum Chorus开发主管庄富任介绍了Greenplum Chorus的工作流程:Greenplum Chorus提供了强大的搜索引擎,可以快速寻找到数据,并将这些数据进行关联,从而实现数据采集的可视化;采集来的数据被放到个人沙盒中进行处理,这个处理过程不会影响整个数据库的运行;在协作分析阶段,数据分析人员可以共享工作空间、代码,协同工作兼具灵活性和安全性;最后,相关的处理结果被出来。上述处理过程将循环往复。
Greenplum Chorus未来将走向开源。EMC已经了一个名为OpenChorus的计划,其目标是促进技术创新,同时促进那些运行在Greenplum Chorus平台上的协作的、社交化的数据应用的普及。2012年下半年,EMC还将公布Greenplum Chorus源代码,让更多人加入到Greenplum Chorus阵营中来。
第三关:敏捷开发服务
大数据处理的第三个阶段就是构建一个敏捷的开发环境,用于实时决策,并且更好地支持大数据应用程序。
从形式上看,传统的大数据方案包括打包方案和定制化开发两种。打包方案具有高效率、低成本的优势,但是需要精确的数据模型。定制化开发可以实现应用的创新,但是实施起来难度大,周期长,而且价格昂贵。EMC希望为用户提供一种敏捷开发的方式,在充分发挥上述两种方案优势的同时弥补其不足。为此,2012年3月,EMC收购了Pivotal Labs公司。Pivotal Labs是一家私营的敏捷软件开发服务和工具提供商。
关键词:hadoop 大数据 应用
中图分类号:Tp274 文献标识码:A 文章编号:1007-9416(2015)04-0226-01
最近几年以来,大部分企业都开始认识到数据资产规模化能够给企业带来的潜在价值,而这些不断增长的数据资产主要分为非结构化与半结构化两种类型。怎样利用最低的成本和最快的效率来对这些海量数据进行处理与应用,成为摆在我们面前的一大难题。Google公司率先提出了MapReduce编程框架,而GFS文件系统与BigTable存储系统也开始成为了大数据处理技术中的领导者,而这三种技术也成为了大数据处理技术的事实标准,以极快的速度普及到各个互联网企业之中,逐渐变为了PB级海量大数据处理的领先技术。那么Hadoop到底是什么?为什么Hadoop可以成为当今热门的大数据应用的开发平台?
1 Hadoop框架工作原理分析
Hadoop属于开源框架,它的本质是一种能够用于编写和运行分布式应用处理的大规模数据。Hadoop和其他的框架相比,自身具备便捷、可扩展性强、操作便利等特征,特别是Hadoop的便利性让它在编写与运行大型分布式程序的过程中独占优势。用户借助于Hadoop能够在很大程度上领略到分布式计算法则带来的优势。Hadoop利用分布式存储、迁移代码等技术,在进行大数据的处理过程中,可以非常好地解决耗时数据传输问题。更关键的一点是,数据冗余机制能够让Hadoop从单点失效中逐渐恢复[1]。
Hadoop框架基本构成包括了分布式文件系统HDFS以及MapReduce。HDFS主要是利用Master/Slave架构,一个HDFS集群包含了NameNode节点与DataNode节点。NameNode属于中心服务器,其主要作用是对文件系统的名字空间进行管理,同时负责文件访问。在集群系统内部,通常来说在某个节点中运行一个DataNode,主要对此节点内的数据信息进行管理,同时处理客户端发送来的文件读写请求,还能够在NameNode的调度下对数据模块进行创建与复制。另外,Hadoop还能够完成MapReduce分布式计算,Mapreduce能够将总任务划分为若干子任务,而各个子任务能够在任意集群节点中进行处理。HDFS创建了若干数据副本,能够确保每个子任务节点计算的准确性。因为选择分布式文件系统HDFS以及MapReduc模型,从而让Hadoop具备更高的容错率和数据读写吞吐率,可以对失败节点进行自动处理。
2 MapReduce编程模型
MapReduce(映射-归并算法)模型是由Google公司提出的高阶并行函数的抽象模式,根据相关报道显示,Google集群中每小时有数百万个MapReduc处于执行状态。它依靠函数编程的思路,将海量数据集的一般操作抽象化为Map和Reduc两大集合操作,在很大程度上降低了分布式并行计算程序的难度。在这样的计算模型之内主要存在两个关键环节,即是映射Map与聚集Reduc。所以必须要求程序编写人员能够实现上述两个函数,Map函数和Reduc函数对一组输入键值实施计算,从而获得另外的输出键值对[2]。
在Hadoop平台下,MapReduce应用程序由一个Mapper类,一个Reducer类和一个创建JobConf的驱动函数组成。有些时候还可以根据需要实现一个Combiner类,这个类实际上也是Reduce函数的一种实现[3]。
(1)Input:应用程序自动提供Map以及Reduce函数,同时标明输入/输出具置以及其他操作必须的具体参数,这一过程会将目录下的大文件分成一些独立的数据块。(2)Map:该模型能够将用户作业输入当成是一组键值对Key/Value,MapReduce模型能够自动调用Map函数对其中一个键值对进行处理,从而形成新的键值对。(3)Shuffle与Sort:在Shuffle时期利用网络给所有Reduce提供全部Map输出时相匹配的键值对;而在Sort时期,把根据Key值对Reduce输入实施分组。一般来说,Shuffle与Sort是共同执行的。(4)Reduce:对各个Key,执行用户定义的Reduce函数,从而得到新的键值对。(5)Output:把Reduce的结果写到输出目录之内。
3 Hadoop的主要特性及其与大数据应用的关系
简单地说,Hadoop是一个可以更容易开发和运行处理大规模数据的软件平台。而这个平台能够作为当今大数据分析与应用的主流,离不开以下几个主要特性。
(1)低成本:Hadoop的搭建可以通过普通的机器来组成服务集群。为了拥有强大的计算能力,整个计算集群的规模可能有数千个节点。但是,即便如此,其整个集群的成本也要远远小于可以提供相等计算能力的高性能计算机。因此,对于实力并不雄厚的互联网公司,搭建Hadoop集群是一个既节省成本又可以提高服务性能的选择。(2)高可靠性:Hadoop可以自动对数据的复制进行维护,同时在任务失败之后对计算任务进行Redeploy。由于Hadoop常常将硬件错误当作常态,同时利用块的冗余存储机制来确保数据的准确性。在大部分的情况之下,副本系数为3,HDFS存放策略是把一个副本存储于本地机架节点之内,而其他的副本存储于不同的节点。因此,当部分机器出现宕机的时候,整个系统仍然可以保持正常运行,文件的完整性能够在很大程度上得到保证。(3)高扩展性:Hadoop主要是在计算机集簇之间进行数据的分配以及计算,而计算机集簇能够非常容易的扩展到大量的节点之内。当计算服务载荷过大时,可以直接通过增加集群节点数目来达到扩容目的,而当载荷并不大时,可以减少节点数目或是向其他目标提高计算服务[4]。
由此可见,Hadoop软件身上表现出了明显的众包特征与草根特征。使用开源软件最多的要数互联网公司,特别是很多刚刚创建的公司。对于技术选型上,Lamp/Memcache/Hadoop等都是我们的首选。推特的Robe和Pointer等人研究开发的Kestrel队列软件,能够对企业内部业务逻辑的following与befollowed等问题进行更加高效率的处理。而我们知道Kestrel是由Ruby语言编写的开源项目逐渐发展而来的。Twitter必须在500ms之内把相关信息推送到接收者手中。我们可以想象,若存在上亿的用户同时发送信息,可见其难度。因此,国内大数据以及云计算的发展必须要从开源文化中寻求发展路径,从思想上认识到开源软件的重要性。
4 结语
总之,Hadoop属于一种分布式数据处理技术,在系统自身性能以及可扩展性等方面都具有非常大的优势,比较适用于以读取为主的大数据批量处理、查询以及检索等任务。Hadoop还能够让自己成为交易事务处理之外的传统关系型数据库的补充,对于增强企业信息化系统的工作效率、减少系统成本可以发挥出非常重要的作用。正因为如此,Hadoop凭借着这些特性与优势,在如今互联网行业快速发展的大环境下,掀起了一场大数据的浪潮。
参考文献
[1]靳永超,吴怀谷.基于Storm和Hadoop的大数据处理架构的研究[J].现代计算机,2015(04):65.
[2]王宏宇.Hadoop平台在云计算的应用[J].软软件,2011,32(04):37-50.
关键词:大数据时代 数据分析 理念 辨析
中图分类号:C8 文献标识码:A 文章编号:1674-098X(2017)01(c)-0136-02
近年来,对大数据的研究和应用已经受到我国各界人士的广泛关注,国家统计局已经把信息处理技术列为关键性的创新技术工程之一。随着我国大型计算机的迅速发展,处理大规模的复杂数据的能力逐渐提升,从这些大数据中提取有效信息的能力也逐步加强,毫无疑问,我国进入大数据时代的脚步将会进一步加快,人们将会感受到大数据时代下给其带来的生活、工作上的便利。
1 大数据和大数据时代简介
1.1 大数据
大数据是指远大于一般数据的巨量资料,需要人们通过全新的处理模式才能获取其中有价值的数据信息。“大数据”这一概念最早由维克托在《大数据时代》一书中引用得来,最开始对其定义为:不通过传统的随机分析方法直接对所有数据进行分析处理,主要有大量、高速、多样和价值4个特征。
大数据可以分为大数据技术、大数据工程、大数据科学和大数据应用等领域。目前受到最多应用的是大数据技术和大数据应用。人们通过收集数据,提取有效信息就可以为企业发展或者社会活动提供最有效的实施途径。因此,可以这样说,在大数据的王国里,最成功的企业就是那些善于运用机遇的公司。
1.2 大数据时代
大数据时代是建立在信息时代的基础上,通过互联网、物联网等渠道广泛搜集海量数据资源并对其进行存储、提取和展示。在大数据时代,几乎所有人都能够享受从任一数据中获得所需要的信息,大数据时代也具有社会性、广泛性、公开性和动态性4个特征。大数据时代的发展将会引领社会众多领域和行业的变革,对人类的生产、生活方式产生深远影响。
在大数据时代下,传统的数据分析思想已经不再适用,应该做出改变。首先,应该转变抽样思想,大数据时代下的样本即总体,已经不再依靠少量样本分析事物的相关规律;其次,要转变数据精确测量的思想,大数据时代要学会接受繁冗复杂的多样性数据;最后要转变探究事物的因果关系思想,转为研究事物的相关规律。以上思想的转变,均与统计学有关,因此,下面将分析大数据对统计学带来的具体影响。
2 大数据对统计学研究工作的影响
2.1 大稻莘岣涣送臣蒲У难芯慷韵
大数据影响的领域范围非常广泛,在大数据时代,不仅能够对以结构数据为度量单位的客观主体,还可以对不能用数据衡量关系的文本、图片、音像等非结构数据进行分析,大大扩展了传统统计学的研究范畴。
2.2 大数据影响统计学的工作进程
统计学是对所搜集的数据进行整理和归纳的方法论学科。大数据时代的资料十分丰富,分析数据已经不再需要抽取样本了,因为数据总体即是样本。此时,传统的统计学抽取样本分析的工作方法已经不再适用,而是被现代化通过传感器自动采集数据的方法所取代。
3 大数据时代下数据分析理念辨析
3.1 数据分析理念
传统的数据分析是指用统计学方法将收集的数据资料进行系列分析,以便最大化地开发数据中的功能,从中提取有价值的数据,再和未经处理的数据进行对比,发挥数据的作用。大数据时代下的数据分析,由于数据量非常大,数据本身的动态特性使人们要研究的数据难度加大,因此,大数据时代的数据分析一般利用统计学的理念,采用更广泛的方法统计和分析数据,以此摆脱对数据样本的依赖,也可以避免数据的流动性给分析结果带来的不确定性。大数据时代更加注重数据的增值分析工作,研究数据的未来走向,使其中有价值的数据可以增值,将有效数据有机整合,能够及时发现问题和解决问题。
3.2 数据分析的主要程序
3.2.1 数据整理
统计数据的整理主要分为4个步骤:审核统计资料、对资料进行分组、汇总和编制统计表格或图表、保管和公布。当统计对象为数据资料庞大、类型复杂、要求处理速度快的大数据时,这些步骤就显得繁冗了,尤其是图表的绘制是没办法实现的,因此,只需要对资料进行审核和存储。大数据的审核和存储不同于传统意义上的数据审核和保存,大数据时代利用先进的现代化工具进行数据的审核和保存。
3.2.2 数据的开发
传统数据的样本量较小,目的主要着眼于解决问题,数据的时效性较强,数据的使用价值会随时间流逝而降低。而大数据的流动性很强,随着时间的推移会越来越壮大,而且具有推陈出新、价值重塑的可能,因此,在大数据时代,数据是会不断增值的,开发大数据,是一项有重要意义的工作。
3.2.3 数据的应用
其中分别对教育、运输、消费品、电力、石油与天然气、医疗护理、消费金融等进行分析和预测。根据这些行业的特点,可以总结出大数据挖掘商业价值的基本方法为:客户群体细分,为每个群体量定特别的服务;模拟现实环境,发掘新的需求的同时提高投资的回报率;降低部门联系,提高整条管理链条和产业链条的效率;降低服务成本,发现隐藏线索产品和服务的创新。从图1中可以看出,大数据的应用群体十分广泛,能否对获取的数据及时、迅速处理,对该行业的发展具有重要意义。
4 结语
该文主要对大数据时代下数据分析理念进行了相关的分析和研究。首先对大数据及大数据时代的概念做了简要阐述,接着分析了大数据对统计学的两点影响,最后分析了大数据时代下的数据分析理念。总而言之,在现代社会,大数据的应用已经成为时代新的特征,能否从海量数据中提取有价值的信息做出相应的预测,对于企业或者个人的发展具有重要意义。
参考文献
[关键词] 大数据Hadoop;分布式存储;分布式计算;MapReduce HDFS
[中图分类号] G258.6 [文献标识码] A
1 Hadoop的产生
大数据的概念最早是由麦肯锡这家公司提出的,他们指出:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素,人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”
进入2012年,大数据的概念开始被越来越多的提及,甚至已经上了纽约时报和华尔街日报的专栏封面。随着系统信息化的建设,海量数据正呈现井喷式增长,如何消化和分析这些数据从中提炼出有价值的信息是企业所要面临的新的难题和挑战。
首先面临的挑战来自于系统硬件,虽然硬盘的存储容量不断增加,但是磁盘的寻址效率却没有随之提高,因此当数据处于一个较大规模的时候,数据的定位和读取会变得非常缓慢。这是硬件本身的局限性,很难从软件方面得到突破点,然而同样从硬件的角度考虑,虽然磁盘的寻址效率发展缓慢,但是传输效率却相对迅速一些,因此基于大数据的处理,我们可以尝试使用另外一种访问方式――基于流式读取[1]。
两种方式有什么区别,或许有些人还不太清楚,基于磁盘寻址最典型的应用便是关系数据库,首先定位到数据的存储地址,然后从这个地址开始做局部的数据处理;而基于流式访问首先获取数据的输入流,通过该流来读取所有数据,做全局的数据分析,没有数据寻址的过程。
基于流的访问方式虽然可以不用考虑磁盘的寻址时间,但是缺陷也十分的明显,比如会消耗很多的计算机资源(cpu,内存等),针对这些缺陷,我们能想到的最直接的处理方式便是将数据源进行切分,分散到多台机器上进行并行的读取,这样不但加快了数据的读取效率,也缓解了单台机器性能的不足。但是,经过这种方式处理之后,又会带来新的难题和挑战:
首先,数据分散部署之后,有可能会带来数据遗失的风险。
其次,对数据片段的解析需要有一个聚合的操作,来汇总最后的结果。
如何解决这些难题,正是hadoop框架的功能职责。
Hadoop框架提供了一种简单的编程模型,用来对大数据集进行分布式处理;它的处理能力是可扩充的,由一台机器扩充到成千上万台的集群,集群中的每台机器都会参与存储和计算[2]。从功能角度来看hadoop主要具备两方面的特性,存储和计算。存储逻辑用到的是HDFS子框架,计算逻辑用到的是MapReduce子框架,每个子框架分别解决了上述难点。
2 HDFS子框架
2.1 体系结构
由图片可以看到HDFS主要包含这样几个功能组件
Namenode,存储文档的元数据信息,还有整个文件系统的目录结构。
DataNode,存储文档块信息,并且文档块之间是有冗余备份的。
这里面提到了文档块的概念,同本地文件系统一样,HDFS也是按块存储的,只不过块的大小设置的相对大一些,默认为64M。如果一个文件不足64M,那么它只存储在一个块中,而且并不会占用64M的磁盘空间,这一点需要注意,HDFS不适用于小文件存储的原因并不是因为小文件消耗磁盘空间,而是因为小文件占用了太多的块信息,每个文档块的元数据是会存储在namenode的内存里的,因此当文档块较多的时候会十分消耗namenode的内存。
从功能结构来看,namenode提供了数据定位的功能,datanode提供数据传输,也就是客户端在访问文件系统的时候是直接从datanode里面读取数据的,而不是namenode。
2.2 IO操作
2.2.1 hdfs读取文件流程
首先,连接到分布式文件系统,从namenode里获取要访问的文件由哪些块组成,每一个块的存储地址是多少。
然后,定位到指定的datanode去读取文件。
注意:每个块的存储地址是在hadoop启动之后才加载到namenode的内存里的,而不是持久化存储到namenode本地。namenode和datanode具备心跳通信的功能,它会定时从datanode那里收到一些反馈,包括block的存储地址信息等等。
2.2.2 hdfs写文件流程
首先,同样是连接到分布式文件系统,向namenode发送创建文件的命令。
namenode保存文档的元数据信息之后会调度具体的datanode来执行数据流的写入操作,写入成功后,需要执行冗余备份,将Block复制多份,每一分存储到不同的机器节点中,防止单点故障的出现。
使用HDFS来存储数据,每个block至少要备份一份,默认是3份,如果没有指定备份,或者备份的过程中出现了异常,则文件的写入操作不会成功。
2.3 hdfs不适用的场景
2.3.1 低延迟的数据访问
HDFS主要针对大文件来设计的,多用于线下的数据分析,对于线上应用并且及时性要求较高的系统,可尝试使用Hbase。
23.2 大量小文件
消耗namenode内存,可以使用SequenceFile或MapFile来作为小文件的容器
2.3.3 多线程写入,随机写入
HDFS系统中,每个文件只能并发开启一个Writer,并且写入操作只能在文件的末尾进行。
3 MapReduce子框架
MapReduce的大体流程是这样的,如图所示:
由图片可以看到mapreduce执行下来主要包含这样几个步骤:
(1)首先对输入数据源进行切片。
(2)master调度worker执行map任务。
(3)worker读取输入源片段。
(4)worker执行map任务,将任务输出保存在本地。
(5)master调度worker执行reduce任务,reduce worker读取map任务的输出文件。
(6)执行reduce任务,将任务输出保存到HDFS。
若对流程细节进行深究,可以得到这样一张流程图:
角色描述:
JobClient,执行任务的客户端。
JobTracker,任务调度器。
TaskTracker,任务跟踪器。
Task,具体的任务(Map OR Reduce)。
从生命周期的角度来看,mapreduce流程大概经历这样几个阶段:初始化、分配、执行、反馈、成功与失败的后续处理。
每个阶段所做的事情大致如下
3.1 任务初始化
3.1.1 JobClient对数据源进行切片
切片信息由InputSplit对象封装,接口定义如下:
public interface InputSplit extends Writable {
long getLength() throws IOException; String[] getLocations() throws IOException;
}
可以看到split并不包含具体的数据信息,而只是包含数据的引用,map任务会根据引用地址去加载数据。
InputSplit是由InputFormat来负责创建。
public interface InputFormat {
InputSplit[] getSplits(JobConf job, int numSplits) throws IOException;
RecordReader getRecordReader(InputSplit split,JobConf job,Reporter reporter) throws IOException; }
JobClient通过getSplits方法来计算切片信息,切片默认大小和HDFS的块大小相同(64M),这样有利于map任务的本地化执行,无需通过网络传递数据
切片成功后,JobClient会将切片信息传送至JobTracker
3.1.2 通过jobTracker生成jobId。
JobTracker.getNewJobId()
3.1.3 检查输出目录和输入数据源是否存在。
输出目录已存在,系统抛出异常。
输入源目录不存在,系统抛出异常。
3.1.4 拷贝任务资源到jobTracker机器上(封装任务的jar包、集群配置文件、输入源切片信息)。
3.2 任务分配
JobTracker遍历每一个InputSplit,根据其记录的引用地址选择距离最近的TaskTracker去执行,理想情况下切片信息就在TaskTracker的本地,这样节省了网络数据传输的时间。
JobTracker和TaskTracker之间是有心跳通信的逻辑的,通过彼此间不停的通信,JobTracker可以判断出哪些TaskTracker正在执行任务,哪些TaskTracker处于空闲状态,以此来合理分配任务。
3.3 任务执行
TaskTracker接到任务后开始执行如下操作:
3.3.1 将任务jar包从HDFS拷贝到本地并进行解压
3.3.2 创建一个新的JVM来执行具体的任务,这样做的好处是即使所执行的任务出现了异常,也不会影响TaskTracker的运行使用。
如果所执行的任务是map任务,则处理流程大致如下:
首先加载InputSplit记录的数据源切片,通过InputFormat的getRecordReader()方法,获取到Reader后,执行如下操作:
Kkey=reader.createKey();
V value=reader.createValue();
while(reader.next(key,value)){//遍历split中的每一条记录,执行map功能函数。
mapper.map(key,value,output,reporter);
}
3.4 执行反馈
mapreduce的执行是一个漫长的过程,执行期间会将任务的进度反馈给用户。
任务结束后,控制台会打印Counter信息,方便用户以全局的视角来审查任务。
若执行成功:
清理MapReduce本地存储(mapred.local.dir属性指定的目录)。
清理map任务的输出文件。
若执行失败:
(1)如果task出现问题(map或者reduce)
错误可能原因:用户代码出现异常;任务超过mapred.task.timeout指定的时间依然没有返回
错误处理:
首先将错误信息写入日志
然后jobtracker会调度其他tasktracker来重新执行次任务,如果失败次数超过4次(通过mapred.map.max.attempts和mapred.reduce.max.attempts属性来设置,默认为4),则job以失败告终。
如果系统不想以这种方式结束退出,而是想通过Task成功数的百分比来决定job是否通过,则可以指定如下两个属性:
mapred.max.map.failures.percentmap任务最大失败率
mapred.max.reduce.failures.percent reduce任务最大失败率
如果失败比率超过指定的值,则job以失败告终。
(2)如果是tasktracker出现问题
判断问题的依据:和jobtracker不再心跳通信jobtracker将该tasktracker从资源池中移除,以后不在调度它。
(3)jobtracker出现问题
jobtracker作为系统的单点如果出现问题也是最为严重的问题,系统将处于瘫痪。
参考文献:
[1]TomWhite.Hadoop权威指南(第二版)[M].著清华大学出版社2011,7.
[2]chuckLam.Hadoop实战[M].人民邮电出版社,2011,10.
智慧城市建设涉及多个领域、不同层面的数据资源获取、处理和分析。这些数据应用于医疗卫生,能够实现精准医疗;数据应用于教育行业,可以实施个性化教学;而城市监控数据为城市管理者所用,能够提升管理效率、改善民生服务。
目前,以北京为例,覆盖全城、多点布局的摄像头数量达2000万之多,而这些摄像头捕捉到的数据信息往往是在“睡大觉”。一般1~2个星期、最多1~2个月为一个周期, 过往信息就会被覆盖掉。
如何从这些信息中抓取有用数据、扔掉无用数据,是我们当前面临的难题。这类音视频多媒体数据要真正实现有效应用,面临三大挑战,即“存不下”、“看不清”、“找不到”。
优化编码技术研究
这三大挑战背后对应的技术问题是指我们的编码算法技术还有提升的潜力和空间。
一方面,随着摄像头数量不断增加,获取的信息量不断增长,可能导致“存不下”这一问题;另一方面,计算机识别图像与我们人眼看东西不同,需要较高的清晰度。目前,我们城市摄像头的数量基本已达到5米或10米一个,但人脸识别率还是较低,就存在“看不清”的问题。此外,摄像头物理参数的不同也会导致出现这一现象:我们肉眼看某人从A点走到B点,A点摄像头捕捉到这个人,但到了B点可能就“找不到”了,这就存在跨摄像头搜索的问题。
针对这三个问题,我们需要三种不同的技术来应对它。
针对“存不下”问题,我们需要从更新编码技术这个思路去寻找破解之道。高效视频编码是应对这一问题的直接技术手段。因为数字视频其实是一个数字图像序列,数字图像表现的是数字信号,而数字信号我们可以对其进行处理。经过分析,我们发现数字图像序列中有三类信息冗余,一是时间冗余,二是空间冗余,三是感知冗余,当然也有知识冗余等其他冗余。如果我们能够把这些冗余挤掉,就能更有效地压缩数字视频。
针对不同类别的冗余,我们必须采用不同的方法。理论上,我们通过矩阵运算或通过矩阵分析可以找到视频编码的上界即最大压缩程度。例如,针对2000×2000像素这样尺寸的图像,理论上我们能压缩2000倍,即压缩到2000:1,但实际上我们能做到的是600:1,中间还有很大空间,需要采用各种不同技术来突破。
编码技术变革
1993年第一代编码技术通过优化能把高清视频压缩到了1/75,2003年第二代编码技术把编码性能提高了一倍,2013年有了第三代编码技术,压缩能力又提升了一倍。以此类推,2023年将产生第四代编码技术,其压缩能力将达到1/600。我们把这种规律视为编码领域的摩尔定律,十年性能翻一番。
其实,从第一代到第三代编码技术,都是遵循最基本的编码框架结构,即从视频信号进来,切成块变换处理,再进行滤波运能估计。但基于这一架构,编码性能却能十年翻一番。如何实现?主要是采用多种数学工具,如预测编码、算术编码等,或者多种工具混合利用使得编码效率不断提升。通过观察分析,我们看到,在三代编码技术不断演变过程中,真正的变化是在预测与运动估计这一项上,每一代都不一样。这也会给我们提供启发,为寻找更高的编码效率,预测与运动应该是我们关注的重点。那么,为何预测可以得到更高的编码效率?因为预测主要解决的是空域冗余,随着时间推移,它一帧一帧往前处理。我们知道图像处理中很多东西不变化,这些不变化有效利用起来,就能获得较高的编码效率。
以监控视频为例,一般而言,在会议活动中,演讲人只有身体会偶尔摇动;在自然环境中,整片森林除了每天光照变化、叶子生长变化,其他都基本不变。因此,如果针对这些不变的因素实现建模,就能获得很高的编码效率。
因此,针对视频监控应用,我们提出了背景建模技术,通过背景建波计算出背景模型,之后做预测时,用这套模型去做计算效率就会很高。在国际三个主流编码技术团队中,中国技术团队在这一领域作出了较大贡献,并已有了实际应用。
AVS2有效提升编码效率
从性能上来看,以数字视频广播应用为例,中国超高清标准AVS2与目前H.265标准性能相当,而以监控视频应用为例,AVS2标准相比H.265标准,性能为\41.77%,即码率节省了41.77,性能提升了一倍。
对于监控视频而言,AVS2已经迈入新时代。
2015年1月,广电总局广播电视、计量检测中心针对AVS2标准和H.265标准专门做了一个对比实验,并得出这样的结论:AVS做超高清视频很有优势。对比视频编码标准HEVC,图像质量下降的平均值是:AVS2为2.9%,HEVC为3%。一般而言,下降的值越低越好,这也表明了AVS2的优势。
目前,已经有一些主流企业开始布局,准备用AVS2进军全球市场。而AVS2能够有效提高编码效率和精度,能够应对我们提到的第一个挑战――“存不下”。
针对“看不清”即识别不准这一问题,传统的做法是产生编码和识别编码是完全平行的两套,彼此不通气。通过背景建模技术,可以在编码时把前景测出来,这样的好处是可以进行分析、识别、提取。具体如何实现?以监控视频码流为例,我们可以理解为它是由两个码流构成的,一是背景码流,二是前景码流。测出前景后,我们可以处理、识别,并且跟踪分析我们关注的对象。基于这个想法,AVS2也就支持感兴趣区域(RCH),就是语法里面对前景手段你可以对其进行描述,这种描述可以采用特殊参数的编码,背景一次性接过去就可以。基于这样的构建我们可以很好地识别编码模型,从感兴趣的区域可以得到对象,根据对象之间的关联,以及它们失去关系时构建的时间,我们可以在编码的同时做运动分析、目标检测、对象行为分析等。
传统的方式下,识别时我们需要在视频流上找,但是通过背景建模技术,任务就变得简单很多。我们只需要知道背景是什么,就很容易把前景表述出来。AVS2国外版命名为HE1857,基于这一标准,可以对感兴趣的区域提取对于对象的表达,对动作和行为检测等。
针对跨摄像头检索“找不到”的问题,我们采用了CDVS(即紧缩描述式)技术。我们要想办法达成这些目标:描述能力强、紧凑,检索较快,特征规范化。这里面涉及到计算机视觉技术、机器学习技术等,最核心的就是兴趣点提取和表述,一开始我们用的是(SIFT)特征,也是近期最好用的一个特征。
但(SIFT)特征在具体使用中有很多问题,后来我们对其做了改进,改进之后的效果比较好,所以我们把这一特征又分成局部和全局。改进的倍数CDVS比SIFT好三倍,特征大小好一百倍。针对一千万幅图像库进行搜索,采用CDVS只需要500毫秒就能完成搜索,就是说如果我们要在一千万张图片中去找一张图片,半秒钟就能解决问题,搜索速度非常快,这只是在英特尔CPU上面就可以做到的。
关键词:大数据分析; 工程造价; 精确性
一、大数据分析对工程造价精确性的影响原理
(一)工程造价影响评估数据优化处理利用大数据分析技术开展工程造价分析的过程中,需要针对工程收集相关的数据,针对数据进行全面的分析。针对工程确定造价的过程中,可以更好的收集相关信息,实现对于信息的全面管理。利用大数据分析技能够对于工程造价项目进行精准评估,具体应用公式如下X=X-XminXmax-Xmin。根据该公式我们能够看到,利用大数据分析技术减去最低值与最高值,通过这种方式确定工程造价的评估范围,该范围具有很强的适用性。
(二)恢复评估结果原值针对评估结果需要恢复其原值,这样才能进一步缩小工程造价的影响范围。具体的公式如下:X=X′(Xmax-Xmin)+Xmin。通过这一公式针对工程总价结果恢复原则,最终进一步提高评估数据的科学性与合理性,这样工程造价数据更具真实性与可靠性。
(三)建立数据分析机制施工项目应该建立数据分析机制,建立专门的数据分析机构,针对施工项目的特征以及相关数据进行数据分析,全面评估施工项目的相关成本。施工企业应该在内部购入信息化设备,建立符合工程项目的模型,确定粒子群模型,通过建立相关的模型简化计算过程,提升工程造价的核算价值。同时施工项目还要训练相关的工作人员应用大数据技术的能力,这样才能最大限度的保证数据分析工作的顺利开展,提升大数据分析效果。
(四)灵活开展数据分析利用大数据分析技术开展工程造价工作的过程中,应该保证数据分析的灵活性,从不同的角度开展数据分析,全面的分析施工项目中的各种数据,及时发现问题。不同的数据之间能够形成相互验证的关系,这对于提升工程造价工作水准具有积极的效果。
二、大数据分析对于提升工程造价精准性的影响
(一)提升工程造价的合理性。大数据分析能够对于大量的数据进行全面的分析,数据更加全面合理,因此能够全面的提升工程造价的合理性,对于提高工程造价数据的科学性具有积极意义。大数据分析技术的应用能够从不同角度提供工程预算数据,这样能够多方位的印证施工项目工程造价中的相关数据,发现问题能够及时的进行更改,这样才能全面的提升工程总价水平,为施工项目的开展提供更加可靠的数据。
(二)增加工程造价的动态性。传统的工程造价项目数据都是固定的,不会根据工程项目的开展进行变动,这种情况下一旦实际工程中出现一些偏离,工程造价数据的利用价值就会降低。利用大数据分析进行工程造价的过程中,在项目施工的过程中能够根据项目施工情况的变化调整工程施工项目数据,改变前期确定的工程造价。由此我们能够看到大数据分析能够提升工程造价的动态性,对于全面提升工程造价水平具有积极意义。
(三)增加工程造价的全面性工程造价需要对于工程项目各个方面进行数据分析,这样才能全面提升工程造价数据的科学性。大数据分析是对于工程项目的各个方面的数据进行全面的收集,这样工程项目的全面性得以提升。利用大数据分析计算不仅能够分析工程项目数据中的各种财务数据,还会分析一些非财务数据,这些数据非常的全面,能够从不同的角度体现工程项目施工情况,这对于提升工程造价精确性具有积极意义。
(四)增加工程造价的指导作用工程造价是为了更好的指导工程项目的施工工作,利用大数据分析技术能够全面的开展对于工程项目相关数据的收集与分析,提高工程造价的可参考性,因此项目开展施工的过程中会更多的参考工程造价数据进行施工管理,这样能够全面的提升工程造价的实用性,对于提升工程项目管理水平具有积极意义。为了更好的发挥其指导意义,利用大数据分析计算开展工程造价工作的过程中,应该加强数据与施工项目数据之间的联系,这样才能保证工程造价的可参考价值,为施工项目的顺利完成提供可靠的保证。
三、利用大数据分析提升工程造价精准性的措施
(一)优化硬件设施大数据分析的应用需要拥有良好的硬件设置作为保证,为了能够更好地利用大数据分析技术开展工程造价工作,施工项目单位的工作人员应该不断的优化数据分析相关的硬件设施。首先,施工项目应该引进更加先进的设备,通过硬件设备的完善为工程造价工作的开展提供良好的环境。其次,施工单位需要培养大量的优秀人才。大数据分析工作属于一种系统性非常强的工作,需要大量的掌握计算机技术的人才,因此为了能够让大数据分析技术更好地应用工程造价,施工单位内部应该培养与之配套的人才,这样才能让大数据技术真正的应用工程造价工作中去,为工程造价工作更好地开展提供可靠地保证。再次,施工项目人员应该在内部建立一个数据库,把项目施工中的各种数据信息都存在在数据库中,这样能够更方面数据分析人员利用大数据技术开展数据分析,全面提升数据分析水准。
(二)加强软件管理大数据技术的应用不仅需要硬件支撑,还需要与之配套的软件设施,这样才能最大限度的发挥大数据分析的优势作用。因此,施工项目单位开展工程造价工作前应该加强对于单位内部的软件管理。首先,应该优化人力资源,提升员工对数据分析技术的掌握程度,针对工作人员进行技能培训,让相关的工作人员掌握必要的大数据技术开展数据分析。其次,施工单位应该建立与施工项目适应的软件设置,根据施工项目实际情况以及数据分析需要设置必要的数据分析职能,建立属于施工项目自身的软件系统,这样才能更好地发挥大数据分析的优势,让数据分析全面的服务于工程造价工作,全面提升工程总价水准。
(三)建立造价分析工作常态化分工协作体系工程造价分析工作需要各个部门互相配合,这样才能最大限度地提升工程总价工作水平。因此为了能够更好地利用大数据分析技术开展工程造价工作,施工单位应该建立造价分析工作常态化的分工协调体系。优化单位内部工作流程,落实工作责任,把大数据分析的具体职能深入的落实到单位内部的各个人员以及相关部门手中,这样才能最大限度的保证工程施工项目能够更好地开展施工,提高工程造价数据的精确性。在数据收集的过程总,应该让每个工作部门都积极的参与进来,这样能够提升数据的范围,保证数据更加真实可靠。只有真实可靠的数据来源才能更好地保证大数据分析结果更加的科学。另外,还要做好数据的存储与保管工作,把大量数据存储于数据库内部,这样才能够扩大大数据分析的范围,提升分析结果的科学性。
(四)加强对于大数据分析环境下对于工程造价的监督为了能够更好地利用大数据分析开展工程造价工作,施工单位利用大数据分析技术的过程中,应该加强对于大数据分析工作的监督与管理,这样能够及时的发现大数据分析中的问题,针对问题提出有效的解决措施,防止大数据分析技术应用不充分影响工程造价工作的开展。在监督管理工作开展的过程中,需要保证相关工作人员的独立性与专业性,只有保证独立性才能提升监督管理效果。保证专业性是为了更好地发挥监管职能,及时的发现问题,解决问题。
【摘 要】为了解决传统运营商面临的急需提升主动服务能力的问题,研究了大数据分析在客户服务方面的应用,通过大数据分析锁定
>> 电信运营商真正的优势在于大数据分析 通信运营商基于位置信息的大数据安全应用研究 电信运营商大数据对外应用案例分析 电信运营商大数据引入策略分析 运营商大数据安全管理策略研究 运营商基于信令大数据的关系嗅探方案 运营商的大数据机会 大数据运营商们的“绝活儿” 大数据时代下的电信运营商变革 基于大数据分析的政府人事治理研究 基于大数据分析的运营监测信息系统应用 基于大数据分析的智慧仓储运营支撑平台设计 基于大数据的电信运营商业务模式研究 基于个性化服务需求的图书馆大数据分析平台构建研究 运用大数据技术构建运营商网管数据互联中心 提升网管数据服务能力 电信运营商跨行业大数据融合应用场景分析 基于大数据技术的告警日志数据分析 电信运营商大数据应用系统建设方案研究 运营商大数据在旅游行业应用探索研究 运营商大数据业务发展方向及策略研究 常见问题解答 当前所在位置:l.
[4] 华信邮电咨询设计研究院有限公司. 北京移动数据业务客户价值管理及提升项目建议书[Z]. 2013.
[5] 罗旭祥. 产品与数据――基于数据挖掘的产品设计[EB/OL]. (2016-06-26). .
[7] 董智纯,杨林,詹念武,等. 一种基于大数据技术的投诉分析与预测系统[J]. 信息通信, 2015(9): 285-286.
[8] 吴蒙. 主动服务中服务发现及其主动机制的研究[D]. 武汉: 武汉理工大学, 2009.
[9] 林波,丁东辉,郭靖羽,等. 基于投诉文本记录的数据挖掘系统[J]. 中国科技信息, 2015(21): 51-54.
[10] 于爱民. 利用数据挖掘实现电信行业客户流失分析[J]. 广东通信技术, 2004(5): 4-7.
【摘要】我国在90年代就已经开始慢慢的开发智能交通技术,而在“十二五”期间得到了飞速的发展,同时也让我国明确了智能交通发展的目标,并把大数据分析云平台的技术运用到了智能交通的建设之中。在充分发挥大数据分析云平台优势同时,大力发展我国的智能交通。而本文就针对智能交通大数据分析云平台技术进行了简单的分析。
【关键词】智能交通;大数据;分析云平台;技术探讨;分析研究
随着时代的发展和信息技术水平的提高,大数据的发展已经遍布于各行各业,当然在交通运输方面也是如此。而且交通运输部因为运用了大数据分析云平台,在感知识别、网络传输、智能处理以及数据挖掘面都有了非常好的效果。而且在重大工程的实验中,通过加强对物联网、云计算等新技术的研究,还能提高本行业的信息化技术水平。
一、大数据时代智能交通系统的优劣分析
1、大数据时代改变传统公共交通管理路径。大数据的特点是内容丰富和全面,而且还有自己的传输方式,所以不受任何区域的限制。在传统的交通管理中,很容易因为不同区域的信息不够畅通,导致交通管理的效果不是很好,同时经常出现各种信息丢失的情况。而把大数据分析云平台的技术应用到交通管理中,不但能很好的完成不同信息的传递,而且还能最大限度的利用这些数据,发挥他们的作用,提高交通管理的质量和效率。2、大数据下智能交通的优势分析。首先,通过大数据分析云平台的应用,能在很大程度上降低各种费用,而且它还能很好的选择最为行之有效的车辆配置方案,保证道路交通一直处于比较畅通的状态。其次,当出现各种交通问题的时候,通过大数据的分析能给问题的处理和交通的调度提供良好的基础,提高交通的畅通性。最后,在交通监管的系统中,通过大数据分析,还能很好的完成各种事件的预测,降低失误的发生率。3、大数据下智能交通的弊端。由于大数据的应用能提高传递信息的效率,也就间接的会影响到相关安全隐患问题的发生。例如,在大数据下的智能交通,会因为相关人员的位置以及路线信息造成丢失,就会间接的给人们的生命财产造成威胁。除此之外,每个地方都有交通数据,而这些数据还能被大数据管理和应用,而很多车辆计算交通数据都是以静态方式存储,所以使系统所具备的特点无法被除本人以外的事物进行检索。
二、智能大数据的融合
1、关于成熟度的融合。在新时期下,无论是大数据的应用技术还是现代智能交通的技术都发展的非常速度,而且也越来越成熟。在现代化的社会中,无论是智能卡扣电子警察还是智能监控系统,都已经对处理的技术进行了智能化的应用,而且完整度和深度也在慢慢的加深。所以在这种情况下,大数据时代下智能交通很有可能成为新兴的应用领域中最先推广和运用的领域。2、关于技术的融合分析。就目前的大数据分析云计算平台来说,这项技术的应用结构和智能交通的平台系统结构融合度是非常高的,而且的大数据分析云平台技术在智能交通领域中的应用,给社会带来了很大的好处和效应。所以说,这项技术可以作为整个智能建设中的领导者,带领其他的子模块进行很好发展。3、关于群众基础的分析。对智能交通来说,智能交通面向的服务群里就是人民大众,广大人民群众来说,智能交通直接影响着人们的出行,给人们带来非常方面的出行信息,在很大程度上方便了人们的出行,而且也降低了整城市的运营成本。更重要的是,人民群众的生活也越来越有秩序,也会给交通执法人员降低出勤的频率。
三、云平台技术特点的分析
1、可以有效的整合交通大量的数据信息资源。云平台计算技术最大的额特点就是能很好的整合数据信息,将不同系统的信息资源,交通对象信息资源以及和交通工具信息资源等有效的分类和整理,同时还能利用大数据分析处理技术,解决大量信息的时效性。2、可以提高交通数据信息的利用率,将数据信息发辉出最大的价值。因为云计算最大的特点就是整合数据,所以在智能交通的中运用这项技术,能在很大程度上帮助交通部门提取非常有用的信息资源,而且通过描述交通的情况,还能将数据信息发挥出它最大的价值,充分的将交通数据利用了起来。最后在通过大数据的应用技术,还能更好的优化信息的数据,提高云计算的分析能力。3、可以多维度的实时传输,提供个性化服务。在大数据下时代下,随着时代的发展和信息技术水平的提高,并通过云平台的利用,可以将路况信息通过电脑、电话等多种渠道进行传输,而且保证传输的内容是实时的、真实的和准确的,给人们提高非常好的个性化交通信息服务。最终实现道路交通管理的质量和高效。
结束语:
总而言之,随着社会的发展和变化,智能交通已经贯穿于人们的生活中,对人们生活有非常大的影响。而且通过大数据分析云平台技术的应用,还让交通信息的数据变得非常准确、高效、便捷和安全。而且大数据的应用是未来的发展趋势,通过大数据智能交通的建设,还能更好的促进各大城市的交通发展,同时还能对海量的信息资源进行很好的整理,最终通过这些信息数据的处理,帮助交通部门构建一个非常安全、智能、高效而且成本还低的智能交通系统。
关键词:供电企业;信息安全;大数据;分析方法;思路;探讨
前言
智能化的电网正在全面地实施建设。随着以大数据为中心的IT技术的不断融入,当前我国的供电企业展开了大数据分析的研究,以便更好地使得大数据应用到整个配网的规划当中。此外,还要根据电网的实际数据情况,把数据应用到智能变电站的建立、智能电网的调度及供电信息的采集等各个方面。进而有效地提高我国供电企业的管理水平及处理业务的能力。然而,信息化新技术在应用的过程中也具有一定的风险因素,所以需要建立大数据的安全分析结构,进而对数据进行相应的处理并把安全分析方法应用到整个供电企业的信息系统中去,进而更好地为供电企业的数据安全提供保障。
1供电企业的信息完全风险分析
大数据作为供电企业的管理工具是一把双刃剑,给供电企业管理提供了便利,提高供电企业的管理水平和管理能力的同时,也给供电企业带来了一定的挑战和风险因素。使得企业数据处理、收集及传输的风险等级提高。若企业内部的数据出现问题,则会使得数据在进行传输的过程中被盗取和窃听,这给企业的管理带来了很大的风险。除此之外,企业在进行数据中进行一定的储存和利用的过程中,也会由于大数据系统的内部维护不到位而带了很大的风险。若企业的数据被长时间地窃听,就会使得不法分子有机可乘,采用各种方法来对数据后台进行攻击和试探,并寻找系统的薄弱之处。最后实行致命的攻击,并造成系统的瘫痪。所以,大数据给在方便企业的信息管理的同时,也带来了一定的信息安全挑战。
2供电企业信息安全大数据所面临的数据安全的需要
传统的电力信息系统逐渐地走向了信息化处理的进程,智能化的电网模式带给了供电企业信息系统数据安全更大的要求。每次进行数据的访问时,都需要确定数据的访问权限,并核实访问者的身份,并查看是否被授权。供电企业的数据信息需要被完整地保护,并保障其不被删除或者恶意的篡改。一旦供电企业发生一定的突发事件,需要大数据平台对数据进行自动的备份,并使数据得到安全的保护。④要采取一定的措施来保证供电企业的数据在运行过程中的安全性不被破坏。⑤要切实保证整个供电企业的信息系统的网络安全,控制供电企业信息系统的基础安全信息网络和供电企业内部比较重要的业务系统的安全。
3供电企业的信息安全大数据分析思路
当前供电企业内容的安全信息系统逐渐地向着对抗型的信息安全系统方式转变,并使得电力系统的大数据网络可以积极地应对外界的攻击。并对潜在的敌人进行分析和识别,并归纳总结当前的供电企业的信息安全大数据的风险类型,从而采取相应的对策,并先发制人,提高安全大数据系统的防御能力。这就是当前供电企业的信息安全大数据的分析思路。大数据的分析和挖掘技术需要不断地融入到大数据的安全分析中去,下图是大数据的安全结构分析思路。供电企业的信息安全大数据分析思路是基于技术的安全分析和理念,是至今为止比较完善的大数据安全分析办法,是供电企业大数据的核心环节,是对相对分散的信息进行采集并实现存储,并对其进行一定的分析,最后把其分析结果进行分发,把所有的安全分析体系结合在一起,并实现安全技术的互动。
4供电企业信息安全大数据安全分析结构的数据处理
供电企业的信息安全大数据的结构具体根据业务的不同分为不同的数据库进行处理。关系数据库是当前最丰富的数据库,是进行供电企业信息安全处理的主要形式。而数据仓库属于一种多维的数据结构,可以允许用户进行汇总级别的计算,并对数据进行观察。事务数据库中记录了每一个事务,并同时附带了一些相互关联的附加表。文本数据库是对图象进行描述的数据库,文本数据库与图书馆数据库类似。而多媒体数据库则是对图像以及音频和视频的存储,并用于存放内容的检索。供电企业的信息安全大数据的存储往往需要先确定好处理的目标,并对数据进行量化的处理,最后对数据进行一定的评估,最后进行结果的展示。将大量的数据进行集中化的处理可以切实地反映出安全数据的指标,并根据指标对安全数据进行相应的评估。
5供电企业信息安全大数据安全分析方法
当前,进行供电企业信息安全大数据安全分析的方法有很多,随着大数据的技术体系逐渐成熟,目前对安全数据的分析算法也变得多样化,很多分析方法比如分类技术方法、序列分析方法等等对大量的数据的分析具有很好的效果。而对于不同的数据库可以采用不同的分析算法进行分析。比如,当利用关系数据库和事务数据库时,就可以利用序列分析的办法进行数据的挖掘和统计;而数据仓库除了需要进行联机处理以外,还需要进行数据的挖掘;文本数据库则是利用模式匹配以及关联分析等方法相互结合来进行数据的挖掘分析。
6结论
针对供电企业的信息安全的大数据分析有很多的途径,在进行供电企业信息安全的大数据分析时,需要对供电企业的安全数据信息进行全面预测,并利用多种分析办法综合处理。随着当前大数据网络技术的不断发展,根据大数据的分析特点进行安全分析的办法也在不断地完善。基于信息安全的大数据分析方法和思路具有很大的发展前景,安全大数据技术的不断革新,使得供电企业的防护网络更加地发达,并逐渐实现了供电企业的大数据信息安全的评估系统的完善,使得供电企业的信息安全大数据发展更为迅速。
参考文献
[1]钟志琛.电力大数据信息安全分析技术研究[J].电力信息与通信技术,2015(9):45-46.