HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 大数据技术

大数据技术

时间:2022-07-28 10:49:26

大数据技术

第1篇

1.1 大数据及其影响

大数据(Big Data)是目前最重要的科学、技术和社会话题。借用IDC数据公司的定义:“大数据是一种新一代的技术和架构,具备高效率的捕捉、发现和分析能力,能够经济地从类型繁杂、数量庞大的数据中挖掘出色价值。”

大数据定义有着如下的基本前提和含义。

① 大量的数据:大数据概念源于数据的爆炸性增长。用世界著名的咨询公司高德纳(Gartner)研究报告的描述:“同一类型的数据量快速增长;数据增长速度的加快;数据多样性、新数据来源和新数据种类的不断增加。”

② 多种类型数据积累:新的数据存储和数据采集的技术发展使巨量数据的采集、收集、存储成为可能。网络技术、移动设备、数字传感器、数码摄影/摄像、监控影像、卫星定位系统、遥感技术、气候和环境监测技术等等,每时每刻都在各种形式、各种类型的大量数据。

③ 计算技术的进步与发展:现代计算技术、网络技术、多媒体技术和数据库处理技术等可以处理各种形式的海量数据,产生出大量的高附加值的数据、结果、状态和知识。

④ 数据处理能力成为战略能力:数据量的激增、数据类型的多样、技术平台对数据的综合处理,造成了知识边界扩展、知识价值提升、知识衍生能力加快,它极大地影响到了企业、个人、社会和政府的决策,极大地促进了社会生产力的发展,使掌握大数据技术者获得了竞争优势和难于模仿的核心竞争力。因此,大数据技术也成为了国家的核心战略资源。

大数据的含义广博、技术领域广泛、技术平台多样、作用效果巨大、影响意义深远。理解大数据的理论、方法和架构,适应大数据的变革与发展,分享大数据所带来的种种便利和收益,便能够在大数据时代占领先机。

1.2 大数据对数据库技术的影响

大数据的宗旨是处理数据,数据库技术自然占据核心地位。而大数据环境下的数据库技术也具有明显的特殊性。

1.2.1 大数据环境下数据处理技术面临的新特点

数据量宏大。对数据库技术影响最大、最直接的方面莫过于数据的爆炸性增长。即使先不考虑数据类型的变化,需要处理的数据从MB扩展到GB,现在再扩展到TB,不远的将来数据库将经常面对PB量级的数据,这必然对数据库的硬件架构、数据库系统结构和数据库应用产生重大的影响。

数据形式多样。另外一个对数据库技术产生重要影响的因子是数据的多样化,传统数字、图像、照片、影像、声音等多种数据资源需要进行处理,并且和传统关系式数据不同的,许多数据格式中的有价值数据并不多,例如多张图片定对象的变化,连续视频影像中对特殊对象的跟踪等等,其数据抽取方式、过滤方法和存储、计算方式均有别于传统数据库。

单机或小型局域网的数据库处理无法满足。当前,数据量爆炸式增长,数据类型日趋多样,传统关系数据库的处理能力已难于满足,需要新的数据库处理技术。

传统的并行数据库的灵活性具有局限性。并行数据库系统取得了辉煌的成绩,但是它的灵活性不佳,弹性受限,系统规模的收缩或扩展成本非常高。这样的系统适合于“相对固定结构”的计算结构,例如机银行业务管理系统或城市交通管理系统等。

结构化、半结构化与非结构化形式并存。让数据库有能力处理这些半结构化和非结构化(有时不作区分)数据变成了新型数据库技术的一项迫切要求。

对结果要求的模糊化。在大数据的时代,计算技术不仅限于回答“是/非”问题,而是需要更多的模糊化结果。例如,流感有很可能在一周后流行、近期可能发生5级左右地震、近一周国际往返机票将上涨……这些答案并不精确,但足以指导人们的活动。非结构化数据的处理结果常常是给出模糊化的答案。

新数据库技术的出现与挑战。新需求的出现,促使了新技术的产生,为处理非结构化数据,Apache、Google、Amazon等公司分别开发了适应各自需要的新型数据库系统,相关的专家经过分析和总结提出了NoSQL的设计理念,并创建了许多成功的产品。

1.2.2 新型数据库技术的特点

与传统数据库技术相比较,新型数据库技术具有一些明显的特点,具体如下:

可处理的数据总量和数据类型增加。不再为数据结构化或数据代表性而人为地选取部分数据或进行数据抽样;不再靠样本规模的大小来控制结果的置信区间和置信度。新的数据库处理技术试图利用“全部数据”,完成对结果的计算和推断。

使用更多的非结构化数据,而不是片面地强调全部使用结构化数据。在非结构化的高复杂度、高数据量、多种数据类型的情况下,允许结论和结果的“不精确”,允许追求“次优解”。体现大数据技术“以概率说话”的特点。

不再试图避免或降低数据的混杂性,而是把“使用全部数据”作为追求“次优解”的途径。即在复杂、混乱、无结构化与确定、规整、结构化数据之间做出平衡。

在遇到“使用全部数据,得出模糊化结果”与“实用部分数据,得出准确结论”的选择时,新型数据库技术一般会选择前者,从一个更全面的角度利用更多的数据资源去寻找答案。

科学地在因果关系与相关关系中做出抉择。如果数据总体支持因果关系的判别和断言,则像传统数据库那样提供因果关系断语;如果数据计算量宏大、成本高昂或条件不具备,则把关注点由“因果关系”调整为“相关关系”——将追求“最优解”变为追求“次优解”或“模糊解”。自然地,这种相关关系的选择不能是随机的,而是预先设计和规划好的。

不同的数据库开发理念,不同的应用目标,不同的技术方案,早就了新型数据库丰富多彩、特点各异的局面。

1.3 从传统关系数据库到非关系数据

在计算机系统结构刚刚趋于稳定的1970年,IBM公司的Edgar Codd(科德)首先提出了关系数据库的概念和规则,这是数据库技术的一个重要的里程碑。科德定义的关系数据库具有结构化程度高、数据冗余量低、数据关系明确、一致性好的优点。关系数据库模型把数据库操作抽象成选择、映射、连接、集合的并差交除操作、数据的增删改查操作等。而1976年Boyce和Chamberlin提出的SQL结构化查询语言则把关系数据库及其操作模式完整地固定下来,其理论和做法延续至今,被作为数据库技术的重要基石。关系数据库中定义的关系模型的实质是二维表格模型,关系数据库就是通过关系连接的多个二维表格之间的数据集合。当前流行的数据库软件Oracal、DB2、SQL Server、MySQL和Access等均属于关系数据库。

到二十世纪八十年代后期,IBM的研究员提出了数据仓库(Data Warehouse)的概念,4年后Bill Inmon给出了被大家广泛接受的数据仓库定义:“数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理中的决策制定。”数据仓库的进步在于,它把决策支持定为数据库中数据组织和管理的目标,从而把智能性和决策能力融入到数据库中。Inmon之后,Ralph Kimball建立了更加方便、实用的“自底向上”数据仓库架构并称之为“数据集市”(Data Mart),这种技术受到企业及厂家的欢迎并采纳实施。虽然数据集市被归并为数据仓库,但是它的出现诱发了商务智能和联机分析技术的流行。

随着数据库在企业中的广泛应用,企业收集了大量的数据,如何从已有数据中提取对企业运营和决策具有重要价值的信息,成为了数据库使用者和开发者关系的话题。“关系数据库之父”科德再次走在了前面,提出多维数据库和多维分析的概念,这便是“联机分析处理”(OLAP),使得数据库已经显现了“智能性”特点。从数据仓库中产生的OLAP又反过来促进和推动数据仓库技术的更深层的发展。

第2篇

大数据是继云计算、物联网出现后一个十分重要的计算机数据处理的热点问题,它不仅包括了海量的数据容量。还包括了高速的数据处理技术,大数据在互联网中的运用,解决了海量数据的挖掘问题,能够智能提取有用的信息,为用户提供决策服务。由于网络数据库系统与大数据的结构存在不匹配的情况。要想获得有用的数据信息,必须通过大数据并行处理数据平台才能有效的实现。

大数据技术特点

依托大数据的软件得到了广泛的应用,随着大数据技术在各种行业中的运用,促进了信息化社会的发展。在大数据技术的基础上产生的Hadoop分布式处理的数据软件技术、Hhase数据库技术以及网络可视化软件在网络上得到了广泛的应用,

数据智能处理技术的运用,大数据技术主要是从海量的数据中提取有效的数据,并能对数据进行自动化的处理与分析。进而能够发展对人们有用的数据信息、知识等,进而能够解决生活中的实际问题。因此。在大数据的处理中广泛的采用了智能处理技术,来实现大数据的分析与管理,同时大数据与人工智能结合,能够自动实现对海量数据的分析。

分布式处理架构。分布式处理技术在大数据中的运用。改变了传统的数据处理方式,利用分布式处理系统能够快速的提取有用的数据,提高了数据的处理效率,在大数据分布式处理的架构中,主要包括分布式文件处理系统、分布式数据库处理系统以及分布式编程技术等。已经各个行业得到了广泛的应用。

非结构化数据处理技术。在云数据出现之后。以图片、视频、音频等形式出现的数据都是非结构化的数据。而且这种数据也越来越多。大数据采用非结构化的数据处理技术,能够有效的对非结构化的数据进行处理。提高了非结构数据处理的效率。

大数据测试技术分析

大数据测试技术流程图

大数据的测试需要配合相应的数据计算处理平台,才能够有效的实现对数据的挖掘与处理。它从系统的日志文件、流数据、社会数据以及事务性数据等海量数据中,采用数据提取工具提取相应的数据,并将它们传输到相应的预处理数据库中,在Hadoop中,数据进行相互操作与处理,然后将预处理过的数据送入到数据仓库或者大数据处理系统中对数据进行处理。大数据测试技术的流程如下图1所示:

大数据的测试流程分析

测试数据采集。大数据的数据采集主要是运用数据库来接收用户的数据信息,例如APP客户端数据信息。Web客户端数据信息、社会事务数据信息等方面的数据信息。而且客户端的用户可以通过大数据的数据库对信息进行收集、处理、提取与查询等工作,他可以从SOL数据库、Oracle数据库中保存的一些日常事务数据中提取有用的信息,除了从这些数据库中提取数据外,大数据除了技术还能够从网络数据库、Redis等数据库中采集数据。、

导人、预处理数据。大数据在处理数据的过程中会从多个数据库中采集数据,如何对这些海量的数据进行科学分析是不能解决问题的,需要将采集到的数据导入到一个大型的、集中的数据库。对这些数据进行预处理。剔除一些无用的信息。例如采用Sqoop和Flunm等工具就可以在大型数据库中对这些数据进行相互操作,进行预处理。在导入与预处理数据阶段导入的数据量十分巨大。每秒可以达到百兆或者千兆。

统计分析数据。在经过Hadoop预处理的数据之后,需要将这些大量的数据导入到一个大型的集中数据仓库中,在数据仓库中采用分布式技术对数据进行对比分析、汇总与提取之后,然后通过数据挖掘处理等方式对数据进行分析,提取数据的特征。在统计分析数据阶段明显的特征就是数据的查询量比较大。请求的命令也比较多,通过使用分布式技术来对其中的数据进行分析、汇总等。统计分析数据的特点就是导入量大。其查询数据量也大。请求较多。这里Hadoop是常用的数据统计分析工具。

数据挖掘过程。与前面的几个阶段相比,大数据的数据挖掘过程没有预先设定数据挖掘的主题,而是在现有的数据仓库中对数据进行计算与分析,以保证数据的处理能够达到预算的效果,进而能够有效的达到复杂数据处理与分析的要求。用于大数据挖掘常见的算法有K-means(数据聚类算法)。SVM(数据统计学习挖掘算法)、遗传算法以及naive Bayes(数据分析算法)等,用于数据挖掘工具主要以Mahout工具为主,大数据处理技术的数据挖掘的过程最为重要的特点就是保证数据文件格式能否满足数据挖掘的要求。

第3篇

关键词:大数据;智能交通;数据技术

随着国民经济的不断发展,人们生活水平的不断提高,居民购买汽车能力加强。我国的汽车保有量随之增加,在一些大城市机动车拥有量以超过10%的速度加速,机动车成为每个家庭代步的交通工具,在有限的交通资源配置下,机动车的增加缩短了道路使用周期,城市主干道路超负荷使用,违法停车致使道路不能合理使用、行车不文明、乘车环境不良等现象有增无减。大数据时代,如何改善当前的交通状况是本文阐述的核心内容。文章从以下几个方面来阐述:大数据的现状、大数据的概述、大数据的应用、智能交通的需求、智能交通体系的建立、数据技术。

1 大数据的现状

据权威数据显示,大数据应用在我国还处在起步阶段。但在未来三年,通信、金融领域将在大数据市场突破100亿元。市场规模在2012年有望达到4.7亿元,到2013年增至11.2亿元,增长率高达138%,2014年,保持了与2013年基本持平的增速,增长率为114.38%,市场规模达到24.1亿元,未来三年内有望突破150亿元,2016年有望达到180亿规模。自从2014年以来,各界对大数据的诞生都备加关注,已渗透到各个领域:交通行业、医疗行业、生物技术、零售行业、电商、农牧业、个人位置服务等行业,由此也正在不断涌现大数据的新产品、新技术、新服务。

大数据行业“十三五”规划主要目标:在2020年,将大数据打造成为国民经济新兴支柱产业并在社会各领域广泛应用,推动我国大数据产业稳步快速发展,基本健全大数据产业体系,推动制定一批相关大数据的国标、行标和地方标准,引进具备大数据条件的企业,建设大数据产业孵化基地,提高全国信息化总体水平,以跻身世界先进水平。

2 大数据的概述

2.1 大数据定义

大数据即巨量数据集合,目前还没有一个统一的定义。大数据的概念最早是由全球著名的管理咨询公司麦肯锡提出,2011年Mckinsey研究称,大数据通常是指信息爆炸时代产生的海量数据,在各个行业和业务领域,数据已经渗透到行业中并逐渐成为重要的要素,人们能够从海量数据中挖掘出有用的数据并加以应用。对大数据定义的另一说法是利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。

随着信息时代的高速发展,大数据已经成为社会生产力发展的又一推动力。大数据被称为是继云计算、物联网之后信息时代的又一大颠覆性的技术革命。大数据的数据量巨大,一般10TB规模左右,但在实际应用中,多个数据集放在一起,已经形成了PB级的数据量,甚至EB、ZB、TB的数据量。

2.2 大数据的特点

2.2.1 数据量巨大

数据量级别从TB级别跃升到PB级别。随着可穿戴设备、物联网和云计算、云存储等技术的发展,用户的每一个动作都可以被记录,由此每天产生大量的数据信息。据有关人士估算:1986~2007年,全球数据的存储能力每年提高23%,双向通信能力每年提高28%,通用计算能力每年提高58%;2007年,人类大约存储了超过300EB

的数据;到2013年,世界上存储的数据能达到约1.2ZB。

2.2.2 数据类型多样化

即数据类型繁多,产生了海量的新数据集,新数据集可以是关系数据库和数据仓库数据这样的结构化数据到半结构化数据和无结构数据,从静态的数据库到动态的数据流,从简单的数据对象到时间数据、生物序列数据、传感器数据、空间数据、超文本数据、多媒体数据、软件程序代码、Web数据和社会网络数据[1]。各种数据集不仅产生于组织内部运作的各个环节,也来自于组织外部。

2.2.3 数据的时效性高

所谓的数据时效性高指以实时数据处理、实时结果导向为特征的解决方案,数据的传输速度、响应、反应的速度不断加快。数据时效性为了去伪存真,采用非结构化数据剔除数据中无用的信息,而当前未有真正的解决方法,只能是人工承担其中的智能部分。有些专员负责数据分析问题并提出分析后的解决方案。

2.2.4 数据真实性低

即数据的质量。数据的高质量是大数据时代重要的关注点。但在生活中,“脏数据”无处不在,例如,一些低劣的伪冒产品被推上市场,由于营销手段的成功,加之其他因素的影响导致评分很高。但是这并不是真实的数据,如果对数据不加分析和鉴别而直接使用,即使计算的结果精度高,结果都是无意义的,因为数据本身就存在问题出现。

2.2.5 价值密度低

指随着物联网的广泛应用,信息巨大,信息感知存在于客观事物中,有很多不相关的信息。由于数据采集的不及时,数据样本不全面,数据可能不连续等等,数据可能会失真,但当数据量达到一定规模,可以通过更多的数据达到更真实全面的反馈。

2.3 大数据的应用

2.3.1 医疗大数据

利用大数据平台收集患者原先就医的病例和治疗方案,根据患者的体征,建立疾病数据库并对患者的病例分类数据库。一旦患者在哪个医院就医,凭着医保卡或就诊卡,医生就可以从疾病数据库中参考病人的疾病特征、所做的检查报告结果快速帮助患者确诊。同时拥有的数据也有利于医药行业开发出更符合治疗疾病的医疗器械和药物的研发。

2.3.2 传统农牧业大数据

因为传统农牧业主要依赖于天气、土壤、空气质量等客观因素,因此利用大数据可以收集客观因素的数据以及作物成熟度,甚至是设备和劳动力的成本及可用性方面的实时数据,能够帮助农民选择正确的播种时间、施肥和收割作物的决策。当农民遇到技术市场问题可以请教专业人员,专业人员根据实时数据做出科学的指导,制定合理的优化决策,降低农民的损失成本,提高产品的产量,从而为转向规模化经营打下良好基础。

2.3.3 舆情大数据

利用大数据技术收集民众诉求的数据,降低社会,有利管理犯罪行为。通过大数据收集在微博的寻找走失的亲人或提供可能被拐卖人口的信息,来帮助别人。

3 智能交通的需求

随着城市一体化的快速发展,新时代农民工涌入大城市,促使城市人口的增大不断给城市交通带来问题。究其原因主要有:一是机动车的迅猛发展导致城市主次干道的流量趋于饱和,大量机动车的通行和停放占据主干道路。二是城市交通的道路基础设施供给不平衡导致路网承担能力差。三是停车泊位数量不足导致机动车使用者不得不过多依赖道路停车。四是公共设施的公交车分担率不高导致交通运输效率降低。五是城市的土地开发利用与道路交通发展不均衡。六是行人和机动车主素质不文明导致道路通行效率降低。为此,智能交通的出现是改善当前城市交通的必要需求,能够在一定程度上有效的解决城市交通问题。

大数据是如何在智能交通的应用呢?可以从两个方面说明:一是对交通运行数据的收集。由于每天道路的通行机动车较多,能够产生较大的数据,数据的采集并发数高,利用大数据使机动车主更好的了解公路上的通行密度,有效合理对道路进行规划,可规定个别道路为单行线。其二是可以利用大数据来实现主干道根据道路的运行状况即时调度信号灯,提高已有线路运行能力,可以保障交通参与者的生命和提高有关部门的工作效率,降低成本。对于机动车主可以根据大数据随时的了解当前的交通状况和停车位数量。如果交通拥堵,车主则可选择另一路线,节约了车主的大量时间。

4 智能交通体系的建立

4.1 智能交通建立的框架

主要包括感知数据层、软件应用平台及分析预测和优化管理的应用。物理感知层主要是采集交通的运行状况和对交通数据的及时感知;软件应用平台主要整合每个感知终端的信息、将信息进行转换和处理,达到支撑分析并做出及时的预警措施。比如:对主要交通干进行规划,对频发交通事故进行监控。同时还应进行应用系统建设的优化管理。比如:对机动车进行智能诱导、智能停车。

智能交通系统需要在各道路主干道上安装高清摄像头,采用先进的视频监控、智能识别和信息技术手段,来增加可管理的维度,从空间的广度、时间的深度、范围的精细度来管理。整个系统的组成包括信息综合应用平台、信号控制系统、视频监控系统、智能卡口系统、电子警察系统、信息采集系统、信息系统。每个城市建立智能交通并进行联网,则会产生越来越多的视频监控数据、卡口电警数据、路况信息、管控信息、营运信息、GPS定位信息、射频识别信息等数据,每天产生的数据量将可以达到PB级别,并且呈现指数级的增长。

4.2 智能交通数据处理体系的构成

主要包括交通的数据输入、车辆信息、道路承载能力等的数据处理、数据存储、数据检索。其中交通数据输入可以是静态数据或者是动态数据。数据处理是针对实时数据的处理。数据主要存储的是每天采集的巨大数据量。为了从中获取有用的数据,则需要进行数据查询和检索,还要对数据进行规划。

5 大数据技术

5.1 数据采集与预处理

数据采集与预处理主要对交通领域全业态数据的立体采集与处理来支撑交通建设、管理、运行决策。采集的数据主要是车辆的实时通行数据,以实现实时监控、事先预测、及时预警,完成道路网流量的调配、控。这些数据获取可以采用安装的传感器、识别技术并完成对已接收数据的辨析、转换、抽取、清洗等操作。

5.2 数据存储与管理

大数据的存储与管理是把采集到的数据存放在存储器,并建立相应的数据库,如关系数据库、Not Only SQL即对关系型SQL数据系统的补充。利用数据库采用更简单的数据模型,并将元数据与应用数据分离,从而实现管理和调用。

5.3 数据分析与挖掘

数据分析及挖掘技术是大数据的核心技术。从海量数据中,提取隐含在其中,人们事先未知的,但又可能有用的信息和知识的过程。从复杂数据类型中挖掘,如文本、图片、视频、音频。该技术主要从数据中自动地抽取模式、关联、变化、异常和有意义的结构,可以预测模型、机器学习、建模仿真。从而实现一些高级别数据分析的需求。

5.4 数据展现与应用

数据技术能够将每天所产生的大量数据从中挖掘出有用的数据,应用到各个领域有需要的地方以提高运行效率。

6 结束语

大数据时代,能对智能交通信息资源进行优化配置,能够改善传统的交通问题。对非机动车主而言,利用大数据可以更好的规划线路,更好的了解交通状况,在一定程度上可以对问题预先提出解决方案,起到节省大量时间、额外的开支。同时对交管部门而言,能够在限的警力情况下合理配置人员资源和交通设备,主干道路在高峰期出现的问题能够合理利用大数据信息配置资源,在刑事案件侦查中也能发挥更重要的作用。

全国要实现智能交通的联网,依然有问题需要突破,这都是大数据的数据技术应用所在。

第4篇

最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡,现在大数据的概念已经渗透到当今每一个行业和业务职能。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。

水库还是沼泽由分析能力决定

大数据的多样性决定了数据采集来源的复杂性,而如果不加以正确的引导与分析,则可能让你迷失其中。诚如Teradata天睿公司首席技术官Stephen Brobst(宝立明)的表态,当数据积累到后期,会让你深陷其中如同沼泽,也可能变成水库,在其中可以游刃有余的钓到你期望的“鱼”,变成水库还是沼泽则由数据分析能力决定,善加利用则会获益良多。

现在的物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。而且,随着全球范围内个人电脑、智能手机等设备的普及和新兴市场内不断增长的互联网访问量,以及监控摄像机或智能电表等设备产生的数据爆增,如何高效应用这些数据、产生更高价值是非常值得深入思考的。

在“2015 Teradata大数据峰会”上,据Teradata天睿公司首席技术官Stephen Brobst(宝立明)的分析,预计到2018年,90%已经部署的数据湖将被为了未知的使用所获取的信息资产所淹没,从而失去价值。如果没有充分的数据资产创建方式信息,将使得资产价值大幅降低,而完善的生态系统方案将成为行业标准和最佳实践,全新的Hadoop技术、开源和云端环境成为行业趋势。

据Teradata天睿公司联席总裁Hermann Wimmer的介绍,Teradata凭借一流的分析解决方案,与公认的行业领军企业携手合作,比如光大银行、招商银行、西班牙电信、沃达丰、中国移动、台湾远传电信等企业都是Teradata天睿公司的合作伙伴。凭借独特的整合解决方案,能够帮助客户洞悉关键信息,根据有价值的洞见付诸行动,并收获到前所未有的价值。而且Teradata将继续加大在数据分析生态系统中的投资,带领全球企业完成数字转型,增强引领数字时代的领导优势。

Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)表示,Teradata在所有主要行业中拥有超过 2450 个实施案例,凭借超过 30 年的最佳做法和专业知识,为客户提供数据仓库解决方案。大中华区已经成为Teradata全球增长最快的市场,是仅次于美国的第二大市场,Teradata在大中华区都实现了两位数的增长率,并将继续对大中华区进行大力投资。

从行业的角度来看,Teradata有31%的业务收入来自金融行业,零售业和通信业也呈现出很大的增长幅度,医疗及政府领域也保持了快速增长。Teradata期望引领更多行业和企业真正认识到数据分析的价值,释放数据的潜在价值和业务驱动力,提高企业的核心竞争力以实现基业长青,并最终助力实现经济和社会的转型和发展。

从某种意义上说,数据将成为企业的核心资产,现在的信息发展迅猛,结合物联网向万物互联的时代迈进,互联网的应用由消费互联向产业互联网+演进,生产制造向服务型制造演变,通信业结合价值数据与高速网络提供创新业务与服务,加之政策层面的推动,需要思考如何实时地通过各种数据库管理系统来安全地访问数据,如何通过优化存储策略评估当前的数据存储技术并改进、加强数据存储能力,最大限度地利用现有的存储与分析进行投入。

如何才能规避可能摧毁企业的财务和运营风险? 如何优化运营,防止欺诈和威胁?如何创建新业务模式?大数据分析都有一套行之有效的模式与工具。

可穿戴设备

亦是不可遗漏的重点

针对目前火热的可穿戴设备,大数据亦是大有用武之地,可穿戴设备产生的身体数据如何高效应用就是范例。越来越多群体开始关注健康,自然也希望通过更好的形式来了解自己的运动状况。目前,市场中不乏运动监测设备,形式也是多种多样的,包括手环、手表甚至是智能服装。事实上,了解它们之间的区别,才能更好地针对自己的情况进行选择;解析他们的数据,才能够更合理高效的使用可穿戴设备。

比如,只关注日常行进步数、睡眠状态,选择内置加速度及陀螺仪的设备就能够满足需求;如果想要进一步了解运动时的心脏压力,则需要购买配备心率传感器的手环和手表;喜欢越野运动、专业跑步训练、冲浪等户外运动的朋友,则需要一款内置GPS的防水运动手表;对于健身、塑型为主的运动来说,就需要选择配有肌肉监测功能的智能运动服装。而这些设备的数据会反馈给你,使得你可以与实时健康状况信息持续进行无缝交互,告知你是否需要按时看医生、是否需要服用药物、是否需要进行身体状态的调整。

可穿戴设备产生数据差异的关键基本上是由传感器决定的,每种传感器的分布都有固定的产品规律,大数据的关键就在与通过自我追踪获得对自己最真实的认识,以便做出更明智的个人决策。

得数据者得未来

我们知道,IBM、苹果、谷歌都早已开始挖掘大数据的价值,诸如IBM与苹果在健康医疗大数据方面展开合作,推出名为“Watson Health”的健康医疗项目。另外,传统电子商务交易平台企业早已纷纷“抢滩”移动电子商务,数据平台建设成为本轮电商竞争的重头戏。京东豪掷40亿投建两大云计算数据中心,阿里巴巴更将云计算作为集团最重要的业务,马云已经押宝十年之后的云与大数据。数据资源已经成为电商的核心资源,不仅仅如此,智能硬件风潮的兴起,亦使得大数据成为大家关注的焦点,现在的智能硬件大都会留有入口,并匹配有云端服务。

我们相信,商业模式依托数据分析将变得更加智能化,通过精确的数据分析,带来竞争差异、节省金钱、增加利润、愉悦买家、奖赏忠诚用户、将潜在客户转化为客户、增加吸引力、打败竞争对手、开拓用户群并创造市场。这些已经在很多行业领域开始应用。

第5篇

【关键词】大数据;关系数据库;NOSQL

一、大数据

1.大数据产生的背景

大数据(Big Data),也称巨量资料,指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的资讯,通常被认为是PB或EB或更高数量级的数据。

互联网络从上世纪90年代开始,发展迅速,加快了信息传播和共享的速度,尤其是一些社交网站的兴起,数据量更是以前所未有的速度暴增,文字资料、声音、视频、图像等多媒体数据铺天盖地。据资料显示,上世纪90年代,互联网资源不是很丰富的时代,网民月平均流量1MB左右,之后则快速增长,2000年后,逐渐发展为每月10MB、100MB、1GB,据估计2014年可能会达到10GB。淘宝网每日几千万笔交易,单日数据量达几十TB,数据存储量几十PB,百度公司目前数据总量接近1000PB,存储网页数量接近1万亿页,每天大约要处理60亿次搜索请求,几十PB数据。

随着技术发展,大数据广泛存在,如企业数据、统计数据、科学数据、医疗数据、互联网数据、移动数据、物联网数据等等。总之,大数据存在于各行各业,一个大数据的时代已经到来。

2.大数据时代的挑战

大数据特点是容量在增长、种类在增长、速度也在增长,面临如此庞大的数据量,数据的存储和检索面临着巨大挑战。比如2007年时,Facebook使用数据仓库存储15个TB的数据,但到了2010年,每天压缩过的数据比过去总和还多,那时商业并行数据库很少有超过100个节点以上的,而现在雅虎的Hadoop集群超过4000个节点,Facebook仓库节点超过2700个。大量的数据现在已经开始影响我们整个的工作、生活、甚至经济,如何存储和高效利用这些数据是需要我们解决的。

二、关系数据库

1.关系数据库概述

关系型数据库是支持关系模型的数据库系统,他是目前各类数据库中最重要,也是使用最广泛的数据库系统。关系型数据库从上世纪70年代诞生到现在经过几十年的发展,已经非常成熟,目前市场上主流的数据库都为关系型数据库,比较知名的有Oracle数据库、DB2、Sybase、SQL Server等等。

2.关系数据库优势

关系数据库相比其他模型的数据库而言,有着以下优点:

模型容易理解:关系模型中的二维表结构非常贴近逻辑世界,相对于网状、层次等其他模型来说更容易理解。

使用方便:通用的SQL语言使得操作关系型数据库非常方便,只需使用SQL语言在逻辑层面操作数据库,而完全不必理解其底层实现。

易于维护:丰富的完整性大大降低了数据冗余和数据不一致的概率。

3.关系数据库存在问题

传统的关系数据库具有不错的性能,稳定性高,历经多年发展已日臻成熟,而且使用简单,功能强大,也积累了大量的成功案例。上世纪90年代的互联网领域,网站基本都是静态网页,主要以文字为主,访问量也不大,当时用单个数据库完全可以应对。可近几年,动态网站随处可见,各种论坛、博克、微博异常火爆,在大幅度提升交流方式的同时,用户数据量迅速增长,处理事务性的数据关系数据库得心应手,可面对互联网的高并发、大数据量关系数据库显得力不从心,暴露了很多难以克服的问题:

数据库高并发读写:高并发的动态网站数据库并发负载非常高,往往要达到每秒上万次甚至百万次、千万次的读写请求。关系数据库应付上万次SQL查询没问题,但是应付上百万、千万次SQL数据请求,硬盘IO就已经无法承受了。

海量数据的高效率访问:一般大型数据库在百万级的数据库表中检索数据可达到秒级,但面对数亿条记录的数据库表,检索速度效率是极其低下,难以忍受的。

数据库可扩展性和高可用性:基于web的架构当中,数据库无法通过添加更多的硬件和服务节点来扩展性能和负载能力,对于很多需要提供24小时不间断服务的网站来说,数据库系统升级和扩展却只能通过停机来实现,这无疑是一个艰难的决定。

三、NOSQL数据库

1.NOSQL数据库理论基础

NOSQL作为新兴数据库系统概念,由于其具备处理海量数据的能力,近年来受到各大IT公司的追捧。Amazon、Google等大型网商已纷纷斥资进行研究并开发了适用的产品。谈及NOSQL数据库,首先应该了解支持NOSQL的理论:CAP理论、BASE思想和最终一致性。

(1)CAP理论

CAP理论由Eric Brewer在ACM PODC会议上的主题报告中提出,这个理论是NOSQL数据管理系统构建的基础,CAP解释为一致性(Consistency)、可用性(Availability)以及分区容忍性(Partition Tolerance)。具体描述如下:

强一致性(Consistency):系统在执行过某项操作后仍然处于一致的状态。在分布式数据库系统中,数据变更后所有的用户都应该读取到最新的值,这样的系统被认为具有强一致性。

可用性(Availability):每一个操作都能够在一定的时间内返回结果。“一定时间内”是指系统的结果必须在给定时间内返回,如果超时则被认为不可用,“返回结果”同样非常重要,必须能提供成功或失败的信息。

分区容错性(Partition Tolerance):分区容错性可以理解为系统在存在网络分区的情况下仍然可以接受请求。

CAP是在分布式环境中设计和部署系统时所要考虑的三个重要的系统需求。根据CAP理论,数据共享系统只能满足这三个特性中的两个,不能同时满足三个条件。因此系统设计者必须在这三个特性之间做出权衡。例如Amazon的Dynamo具有高可用性和分区容错性但不支持强一致性,也就是说用户不能立即看到其他用户更新的内容。

(2)BASE思想

BASE(Basically Availble),基本可用,强调数据库的最终一致(Eventually consistent最终一致,最终数据一致就可以,而不是时时高一致),不同于传统关系数据库基于的ACID模型。

ACID特性与高性能是不兼容的。比如,在网店买东西,每个客户买东西时都会通过锁来同步数据操作,操作完成每个客户都可以看到一致的数据。也就是说,不允许多个客户同时买的情况。很明显对于大多数网上商城,尤其是大型网商来说,这个方法并不适用。

BASE思想实际上是CAP理论中AP的衍伸。通过牺牲高一致性,保证高可用性和分区容忍性。BASE思想的组成有以下3个部分:基本可用、软状态、最终一致性。BASE模式指的是一个应用在任意时间首先应该能完成最基本化的工作(即基本可用),并不需要总是一致(即软状态),但最终应该是一致(即最终一致性)的。

(3)最终一致性

数据一致性可分别从使用者和提供者角度看:从使用者的角度,如何观察数据更新;从提供者的角度,也就是服务器端,更新如何在系统中实现。

一致性可分为强一致性和弱一致性两种:强一致性要求更新过的数据能被后续的访问都看到,根据CAP理论,强一致性无法和可用性、分区容忍性同时实现;弱一致性,指读取操作能够见到变化的数据,但不是所有变化的数据。

最终一致性属于弱一致性的一种,即存储系统保证如果没有新的更新提交,最终所有的访问都将获得最后的更新。如果没有故障发生,不一致性取决于通信时延、系统负载以及复制策略中涉及的副本数。

2.NOSQL数据库产品

NOSQL(Not Only SQL)数据库是指那些非关系型的数据库。NOSQL数据库分为Key-Value、Key-Document和Key-Column这3类。典型的NOSQL产品有Google的BigTable、基于Hadoop HDFS的HBase、Amazon的Dynamo、CouchDB、MongoDB、Redis等。

NOSQL数据库遵循CAP理论和BASE原则,大部分Key-Value数据库系统都会根据自己的设计目的进行相应的选择,如Cassandra、Dynamo满足AP,BigTable、MongoDB满足CP。

四、结束语

本文首先介绍了大数据概念,分析了关系数据库在存储大数据量方面的不足,并介绍了当前NOSQL数据库的基本理论和当前产品分类。大数据时代的来临,我们忙于如何存储和处理这些数据,但随着计算机互联网、移动互联网、物联网等网络的快速发展,数据量会持续大幅增长,如何长期保存这些数据以及如何处理更大级别的数据量,都需要我们思考并解决。

参考文献

[1]王珊,王会举,覃雄派等.架构大数据:挑战、现状与展望[J].计算机学报,2011(34).

[2]黄贤立.NOSQL非关系型数据库的发展及应用初探[J].福建电脑,2010(7):30.

[3]李莉莎.关于NOSQL的思考[J].中国传媒科技, 2010(4):40-41.

第6篇

关键词:关键字:数据库 ;ORACLE;数据同步;安全

中图分类号:TP393    文献标识码:A    文章编号:

    1. 现状及需求

    1.1现状

    从2008年开始,我市建立了重庆市主城范围内集中统一管理的城镇地籍数据库,实现了城镇土地登记系统和数据的大集中,中心数据库采用ORACLE数据库平台。

    按照我市土地和房屋合一登记的管理模式的要求,从2010年开始,我市各房屋登记中心在全市集中的城镇地籍数据库的基础上,结合原有的房屋登记系统,以宗地为线索开展了房屋登记数据的清理工作,建立了全市集中统一的城镇地房籍数据库和应用系统。

    1.2 需求

    由于我市实行的是大集中的数据管理模式,中心生产数据库在出现故障的情况下如不能得到及时恢复,将导致全市土地和房屋登记业务停顿,因此必须在中心机房建立与生产数据库实时同步的数据库,确保在生产数据库出现较长时间不能恢复的故障的情况下,启用备用数据库,保证业务的连续。

    同时,由于数据在市局统一存放,各单位无数据库。而各单位由于对数据使用的需求千差万别,无法在市局统一的数据库上满足其个性化的需求。因此需将市局集中的数据同步到各区,既可实现数据的异地备份,同时各区可利用改回备数据进行各类统计分析和专题利用。

    2. 技术比较

    目前基于Oracle数据库的数据同步技术大体上可分为两类:Oracle自带的数据同步技术和第三方厂商提供的数据同步技术。Oracle自带的同步技术主要有DataGuard,Streams, GoldenGate三种技术。第三方厂商的数据同步技术有Quest公司的SharePlex和DSG的RealSync。

    本文重点就ORACLE本身提供的DataGuard,Streams, GoldenGate三种同步技术进行比较。

    2.1 DataGuard技术

    DataGuard是Oracle数据库自带的数据同步功能,基本原理是将日志文件从原数据库传输到目标数据库,然后在目标数据库上应用(Apply)这些日志文件,从而使目标数据库与源数据库保持同步。

    DataGuard为源数据库提供了两种日志传输方式,ARCH传输方式和LGWR传输方式,其中,LGWR传输方式可实现同步和异步的传输。在这些日志传输的方式上,可提供三种数据

    保护模式,即最大性能(Maximum Performance Mode)、最大保护(Maximum Protection Mode)和最大可用(Maximum Availability Mode)。

    根据目标数据库对日志应用方式(Log Apply)的不同,该技术可分为Physical Standby(Redo Apply)和Logical Standby(SQL Apply)两种方式。物理同步是指目标库通过介质恢复的方式保持与源数据库同步。逻辑同步是指目标数据库通过LogMiner挖掘从源数据库传输过来的日志,构造成SQL语句,然后在目标库上执行这些SQL,使之与源数据库保持同步。

    2.2 Streams技术

    Streams技术是指利用挖掘日志文件生成变更的逻辑记录,然后将这些变更应用到目标数据库上,从而实现数据库之间或一个数据库内部的数据同步。

    其实现步骤为利用Capture进程分析日志,生成逻辑记录(LCR),将其放入一个队列。Propagation进程将生成的逻辑记录发送到目标数据库中。目标数据库利用Apply进程将LCR应用到数据库中,实现与源数据库的同步。

    Capture进程一般位于源数据库,Capture进程将日志分析后生成的LCR,然后再传输到目标数据库中进行应用。也可将Capture进程配置在目标数据库中,源数据库直接将日志文件传输到目标数据库,然后再利用配置在目标数据库的Capture进程进行分析,生成逻辑记录再利用Apply进程进行应用。

    2.3 GoldenGate技术

    GoldenGate数据同步的基本原理是由Extract进程读取源数据库的事物日志(Oracle中是redo log),将其中的变更操作(insert、update、delete等)按事务执行的顺序组合在一起,直接将其发送到目标服务其上,或者存放到Trails文件中,然后由Data Pump进程将Trails文件传输到目标服务其上,在目标服务器上Collector进程接收从源服务器传送过来的Trails文件,最后由Replicat进程将Trails文件中的数据装载到目标数据库中。GoldenGate通过网络传输的数据量通常是日志量的1/4或更少。

    以下为三者的优劣比较:

    3. 技术选择

    3.1 中心数据库与本地数据库同步技术选择

    为避免中心数据库在出现长时间不能恢复故障引起业务的长时间停顿,我们利用2004年购置的IBM P650小机建立了中心数据库的镜像数据库。考虑到中心数据库和镜像数据库均使用UNIX操作系统,而且都在一个局域网内,为方便配置,我们通过DATA GUARD实现中心数据库与镜像数据库的数据同步。同时,为确保数据数据的零丢失,日志传输采用最大保护模式。

    3.2 中心数据库与区(县)数据库异地同步的技术选择

    由于我市市级集中的中心数据库安装在UNIX操作系统上,而各区只能提供普通的PC服务器均安装的为WINDOWS操作系统进行数据回备,而且单位数量有三十多个,由于DATA GUARD只支持同平台的数据库之间的数据同步,而且只支持最多9个的STANDBY数据库。同时考虑到中心数据库之间与其他单位的数据库分别处于不同地方,之间用6M的网络相连,正常工作时间还需通过网络传输大量的业务数据,而通过STREAM的数据同步技术需占用大量的网络带宽。

    由于中心数据库与区(县)数据库平台操作系统平台异构,同时要实现一个中心数据库与30多个数据库的同步,尽量减少因同步数据对网络带宽的占用,考虑到GOLDEN GATE在这些方面都具有明显优点,因此中心数据库与区(县)数据库的同步采用GOLDEN GATE的技术实现。

参考文献:

第7篇

一、大数据时代银行面临的挑战

(一)银行中传统方式对银行企业文化的冲击

随着大数据的发展,对银行产生很多影响和冲击,对于银行企业文化发展的影响主要包括以下几方面:第一,摒弃偏爱纯净数据和有条理数据,转向接受非结构数据,允许少量不精确数据。第二,逐渐从局部冲击变为全部冲击,因为大数据时代不同于以往的情况,需要大量数据,因此全面冲击企业文化。第三,企业文化与数据逐渐冲因果关系变为相关关系[1]。

(二)银行面临的数字化挑战

大数据分析对于银行决策来说就是一定的扩展数据、快速分析数据的作用,支持银行发展目标。随着大数据时代的发展和进步,银行面临着一些挑战,一方面要使银行内部不断开发新业务和新产品,另外一方面就是传统数据结构性能问题。数字化的发展使得银行需要面对大量的数据,数据增长速度快、规模庞大;类型多,数据类型除了传统的结构以外,还具有语音、视频、文字、图片等形式,结构复杂,内容繁多;分析规则复杂,一般有价值的数据藏的都比较深,需要利用多种算法进行分析;具有很高的实时性,随着数字化发展,数据处理的速度更快,实时性更强,需要及时准确地进行处理[2]。

二、数据挖掘技术

(一)数据挖掘概述

1.数据挖掘技术应用步骤

数据挖掘实际上就是在海量数据中利用各种分析工具来发现数据之间的关系和模型的过程,预测数据关系和模型,以便于可以很好的找到潜在的数据关系,发现被忽视的原因,因此,是目前解决数据爆炸的有效方式,被称作KDD。数据挖掘属于反复的过程,主要包括以下步骤:

第一,定义问题和分析主题。在挖掘数据的时候,需要分析应用领域,主要包括应用目标和知识[3]。定义问题可以适当的充分了解实际情况,熟悉背景以及用户需求,不能定义缺少背景的知识。在确定用户实际需求以后,需要评估历史数据,利用数据挖掘来不断满足用户需求,然后制定合理的数据挖掘计划。

第二,准备数据。数据挖掘需要处理的数据不但具有大量数据,还会存在一些冗余数据和噪音数据以及不完整数据。准备数据主要包括数据清理、集成数据、选择数据、变换数据、归约数据以及数据质量分析。

第三,建立模型。主要就是通过已知知识和数据建立模型,能够有效的分析和描述知识和数据,可以在未知数据中进行应用。建模实际上就是把一般规律、相关经验形成抽象的分析模型,挖掘数据就是依据模型分析、处理、预测数据的过程。

第四,评估模式。评估模式主要就是通过知识来体现用户需求,然后优化挖掘数据过程中的数据,直到符合规范。

2.数据挖掘技术算法

数据挖掘技术算法实际上具体实现数据挖掘方法,主要包括模型表示、模型评价标准以及发现方法三部分。数据挖掘技术算法主要包括决策树、遗传算法、K―近邻算法、神经网络等。具有最佳搜索空间的方式就是遗传算法,利用应用遗传算法的适应函数来合理的搜索方向,然后通过人工算法来模拟一些生物种群的优胜劣汰和多样性,从而进行周而复始的一代代演化。决策树是利用树状结构来体现影响数据变量的分析预测模型,属性就是决策集合或者分类集合,通过自上到下的回归方式,树的叶结点代表不同种类、非终端结点代表属性。合理计算每个树期望值,得到最优解。K―邻近算法是在距离度量分类的基础上进行的,假设所有集合不包括数据集,并且包括很多类别的期望值。神经网络是能够模仿人类大脑思考结构的分析方式,利用非线性预测,来进行识别,从而得到各网络单元的数据。数据挖掘工具核心内容就是算法,主要包括分类分析、聚类分析、关联分析、统计分析、时间序列、相关分析以及值预测。一般比较常用的就是分类算法、值预测和聚类分析[4]。

表一数据挖掘工具比较分析

三、数据挖掘技术在银行中的应用

(一)贷款方进行信用风险评估应用

贷款方进行的信用风险评估是银行应用数据挖掘技术的主要方式之一,可以建立一定的评级模型,例如,神经网络模型、FICO评估模型以及贝叶斯分析模型等来进行贷款方风险评估。在评估银行账户信誉的时候,可以适当的使用直观量化的方式。依据信用评分为基本例子,在确定权重的时候,按照数据挖掘模型,对于申请过程中的每一项进行打分,累加起来就是申请人的实际信用情况。然后银行依据信用评分来确定是否接受申请人的申请以及信用额度[5]。

(二)客户关系管理中应用

客户关系管理也是银行数据挖掘技术应用的重要方式之一。发现以及开拓新客户是银行发展过程中比较重要的部分,利用探索性挖掘数据的方式,可以适当的发现数据中心的特征以及预测营销活动的实际响应率,例如,自动探测聚类。利用聚类分析的方式把客户进行分类,然后依据客户风险、服务收入成本等来分析、预测以及优化相关因素,以便于能够发现并达到盈利的目标。利用决策树的方式来合理计算客户贡献期望值,以此来分类客户,然后依据不同期望值进行分组,可以分为三种类别 ,包括黄金客户、顶级客户以及一般客户。然后依据不同种类客户的实际特点来提供一些特色服务,从而可以有效提高忠诚度。数据挖掘技术运用到银行中,可以适当的预防流失客户,在风险出现流失客户的时候,需要通过特殊待遇、额外增值以及激励忠诚度来对客户进行保留。例如,在预测客户停止在此银行放贷,变为去别的银行,可以利用适当降低利率以及增加额度来保留客户。数据挖掘可以在一定程度上及时转移关联因子,找到客户中比较类似的转移者,然后利用分析孤立点的方式来体现异常客户行为,以便于银行能够最大限度降低客户流失[6]。

(三) 关联规则挖掘在电子银行产品推荐中的应用

随着信息化技术的发展,电子技术也在不断进步,传统的银行柜面服务模式已经逐渐不能符合社会发展需求,电子银行应运而生。在推荐电子银行产品的时候运用关联规则,从大量银行数据中可以适当抽取一些有价值、有效的数据信息来推荐电子银行产品,也是关联技术的具体实践,可以在一定程度上带动销售、挖掘客户以及开发客户等的发展。电子银行发展,在一定程度上改变传统的银行模式,不断提高银行处理系统的智能化水平,让客户充分了解电子产品的优势,满足客户实际需求,建立相应的可以存储大量数据的数据库,利用简单的方式进行操作就可以得到数据信息,需要从多角度、多层次进行关联。关联规则运用到推荐电子产品中,可以在一定程度上调节资源配置,解决人力和资金,提高销售率,科学的进行市场预测,吸引客户,以便于可以获得更多利益[7]。

(四) 金融监管应用

第一,随着金融市场的不断发展和进步,保证金融市场正常运行的就是金融监管,同时也是预防市场风险的主要方式。现阶段,金融监管方式应用数据挖掘及时最主要的就是集中在反洗钱方面。在反洗钱中应用数据挖掘中的分类研究、孤立点分析、聚类等方式具有很大优势,利用上述挖掘数据技术可以保证金融机构可以有效的监测洗钱行为。

第二,监管非现场。在监管非现场的时候,进行数据挖掘,依据实际风险情况、资源情况、流动性情况、应力情况等,利用定量分析以及模型技术来逐渐累积监管模型库,以便于能够及时的计量银行经营情况。客户情况以及风险情况,进行纵向和横向比较,可以从根本上了解现场监督以及警示非现场监督。

第三,数据可视化。数据挖掘最重要的就是大量数据,对数据进行可视化处理可以为分析数据提供可靠图形,为金融监管人员提供保障和基础[8]。

第8篇

在面对大数据业务时,我可以列出九个长久以来一直令人头痛的问题,时至今日它们依然存在并困扰着无数用户。

痛点1 GPU编程仍未得到普及

CPU的使用成本仍然较为昂贵,至少与GPU相比要贵得多。如果我们能够面向GPU开发出更理想的执行标准以及更多表现出色的驱动程序,那么相信 一个新的市场将由此诞生。就目前来讲,GPU的使用成本优势并没能得到很好的体现,这是因为我们难以针对其进行编程,而且几乎没办法在不建立特定模型的前 提下完成这项任务。

这种情况类似于,有些人希望编写出类似于ODBC或者JDBC的代码来处理某些高强度工作,并说服AMD或者英伟达将业务着眼点放在显卡产品之 外。假设我们原本已经习惯了使用Spark实现各类计算任务,而且压根不觉得这么做有什么问题; 但仿佛在一夜之间,其他人都开始构建所谓“GPGPU”集群,这自然会让我们有点措手不及。

不少技术人员都开始在这方面做出探索,但要想真正让成果实现市场化,我们至少需要搞定两大竞争对手――AMD以及英伟达,也许再加上英特尔。除非它们愿意联手合作,否则如果继续像现在这样把技术保密看作市场成功的实现途径,那么问题永远也找不到理想的答案。

痛点2 多工作负载缩放

我们拥有Docker、Yarn、park、Tez、MapReduce以及未来可能出现的一系列技术方案。我们还拥有多种 资源池化实现工具,其中包含各类不同优先级及其它设定。如果大家选择部署一个Java war文件,则可以在PaaS上进行“自动伸缩”。但如果大家希望在Hadoop上实现同样的效果,那么情况就不太一样了。

再有,存储与处理体系之间的交互该如何处理?有时候大家需要以临时性方式对存储资源进行扩展与分发。我应该有能力运行自己的“月末统计”批量任务, 并将Docker镜像自动部署到任意指定位置。而在我的任务完成之后,系统应当对其进行反部署,并将资源重新分配给其它工作负载。应用程序或者工作负载应该根本不需要在这方面浪费太多精力。但目前这些要求尚无法实现。我希望大家习惯了编写Chef方案与脚本,因为这是达到以上目标的惟一办法。

痛点3 NoSQL部署更令人头痛

为什么我已经能够利用ssh与sudo将镜像导入Linux设备、为其指定Ambari并安装像Hadoop这样复杂度极高的项目,但却仍然需要在MongoDB以及大部分其它数据库的部署工作中浪费时间与精力?当然,我也可以编写Chef自动化方案,但恕我仍对此无法认同。

痛点4 查询分析器/修复器

当初在使用JBoss的时候,我曾经对Hibernate以及后来的JPA/EJB3进行过大量调试。具体来讲,主要工作包括查看日志记录、找出存在n+1类查询的位置、将其纳入join并移除可能影响运行效果的糟糕缓存配置。

但有时候情况又完全相反:我们可以将每一套需要的表添加到系统当中,但其返回速度却慢得让人抓狂。有时候,我打算在复杂程度更高的系统之上查看 Oracle Enterprise Manager及其分析结果,但返回的报告却完全是一堆胡言乱语――这意味着其中存在问题。不过我可以同时着眼于两套始终共同协作的表,并据此找到分析当中存在的规律。我甚至考虑过利用编程方式解决问题。

而现在,每次对NoSQL系统进行调整时,我都会发现上述问题以不同形式表现出来:要么是跳转次数太多、要么是查询太过复杂,有时候我们的索引无法与where子句相匹配。我们将大量精力投入到了糟糕或者复杂查询的优化当中,但除了开发者培训课程、我们似乎从来不会对这些 查询本身提出质疑。这套系统似乎有种魔性,它同用户的关系类似于:“嘿,你发来了这些查询,我认为它们看起来应该像这样……”

痛点5 分布式代码优化

我估计Spark当中的大量小功能及小设定会带来第四点里提到的各类问题。在编译器方面,大家可以编写优化器来检测循环内的非依赖性操作,同时自动对其进行提取与并行化调整。我在分布式计算领域经常会见到这类情况。所谓“数据科学家”们编写出的Python代码相当垃圾,根本没办法有效进行问题分配,而且会造成大量不必要的内存浪费。在这种情况下,需要由技术从牛挺身而出,尝试理解前面那位“科学家”的想法并进行优化。

问题在于,上述状况几乎跟大家在编译原理书里看到的反而实例一模一样。我猜随着技术的不断发展,未来Zeppelin甚至是Spark本身会站出来帮助大家修复糟糕的代码,并保证其与集群顺畅协作。

痛点6 分布式名不副实

我得承认,我对Hadoop的第一印象就是在Hive当中输入select count * from somesmalltable。我觉得这种使用方式真的非常差劲。大家会发现其中存在问题,并意识到其分布效果并不理想。有些朋友甚至不必参考其它数据 (例如行数)就能发现我们没办法实现负载分布。

通常来讲,这些只是整体工作当中的一部分,但无论我们实际使用的是Hive、Spark、 HDFS还是YARN,其都会首先假设所有问题都已经得到切实分发。

其中部分工作需要尽可能避免被分发,因为这样能使其运行速度更快。最让我受不了的就是用select * from thousandrowtable这样的操作拖慢MapReduce任务的运行速度。

痛点7 机器学习映射

在具体实例当中,我们都能轻松分清集群化问题、聚类问题或者其它一些归类工作。但似乎没人愿意解决真正有难度的部分――对业务体系中的常见部分进行映射、描述问题并通过描述映射找到应当使用的具体算法。

除了金融行业之外,只有10%到30%的企业能够保持有不同于行业常规情况的特色。这项工作不仅会改变我们处理业务的方式,同时也能极大扩展市场的整体规模。我们可以将其视为一种面向大数据的 设计模式,只不过其更多是在强调业务方面的内容。

痛点8 安全性

首先,为什么我们只能通过Kerberos实现单点登录?云Web环境之下根本没有类似于Kerberos的方案可用。

其次,厂商之间奇怪的竞争方式对Hadoop造成了极大的扭曲,而这对任何人都不是件好事。在涉及到基础性身份验证及授权层面时,我们不得不使用 两套完全不同的堆栈,才能为Hadoop的全部组成部分提供安全性支持。加密方面的产品竞争我还可以理解, 但无论是选择Ranger、Sentry或者是其它什么方案,为什么我们就不能拥有一套足以涵盖全部Hadoop项目的验证机制?公平地讲,大数据领域目 前的状况比NoSQL还要糟糕; 随便拉来一家宣称“我们热爱开源”的企业都能在自己“企业级”专用版本的LDAP集成部分当中塞进几百行开源代码。

第9篇

关键词:大数据;测试技术;发展前景

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)27-0001-02

在互联网、云计算等一些网络技术的推动下,其数据也越发膨胀,规模也呈现几倍上升趋势,目前我们已正式跨入大数据时代,开发其中所蕴含的信息及“宝藏”是我国乃至国外研究人员的目标。如今社会的发展需要大数据技术,因为其数据量大、结构复杂、种类繁多,人们可以从其中获取更多具有价值性的信息。

1 浅析大数据

1.1 大数据的概念

由于云时代的到来,大数据技术也吸引了国内外研究人员的注意力。顾名思义,大数据就是由大量结构化的数据构成的大型数据仓库,是一种观察世界的全新手段和方法,利用其思维与处理技术构成一个数据库,从而创建一个透明化的世界关系结构。从互联网发展至今,大数据是这个过程的一个象征性技术,在云技术不断地创新及改革上,这些难以收集也不好运用的数据被研究人员科学合理地进行利用,随着我国各行各业的不断发展,大数据也会在此过程中为其提供一系列有利的价值。[1]

1.2 大数据的特征

大数据运用现在的软件技术是很难收集及存储、分析共享的,国内外研究人员用了四个V概括了大数据的基本特征。

1.2.1 (Volume)数据体量大。

在此技术的发展过程中,已经由原先的TB级别跃升为目前的PB级别,其数据量最高可达200PB。目前我国普通的计算机容量是TB量级,一些大型企业是EB量级。

1.2.2 (Variety)数据类型多

大数据技术具有多样式的特征,所以主要有结构化数据和非结构数据两种形式。非结构数据与结构化数据相对比,后者是以文本为主,前者的种类则众多,主要有网络中的日志、视频、音频、图片等,这对数据的处理能力也有较高要求。

1.2.3 (Velocity)处理速度快

处理速度快是大数据技术与传统数据技术最明显的特征,具国内外研究学者分析,在2020年,全球数据的使用量可能会达到35.2ZB之多。在这么多数据的面前,大数据就充分地发挥了其自身特性,为企业的可持续发展起到重要作用。

1.2.4 (Value)价值密度低

在大数据中,其价值密度是与数据量成反比的。对于使用现金的计算机算法准确地对数据中的价值进行有效提纯,是目前国内外研究大数据技术的一个难点也要点。

在如今这个发展迅速的时代,大数据技术已经成为了网络技术可持续发展的趋势和要点,在我国各行各业包括研究界都有广泛应用。大数据技术具有高性能、高效率及方便管理等优点,其本身的结构和系统设计的也较为复杂,所以对大数据测试技术的研究还是比较薄弱的。[2]

2 浅析大数据技术的特点

2.1 大数据基础上发明的软件被广泛应用

近几年随着大数据技术在我国各行各业都被广泛应用,使其走向信息化和科技化。其中在大数据技术基础上发明的Hadoop分布式处理软件、Hbase数据库及一些可视化软件都对我国行业的发展有着重要的意义。

2.2 大数据的智能处理技术

大数据技术是从海量的数据中获取有效的数据并且进行智能处理分析,人们可以从中发现对自己有用的信息、知识及创造无穷的智慧,对今后我国社会的发展有重要的作用。在此前提下,就必须在大数据中引进智能处理技术,将大数据的分析、管理等技术与人工智能相融合,目前我国机器的数据自动分析、语言理解及自动识别等一些智能技术已经和大数据技术工作的流程完美融合。[3]

2.3 非结构化数据处理正在迅速发展

上文说到非结构化数据处理与传统的处理技术不同,其是以图片、视频及音频等数据展现的,随着云技术时代的到来,此类信息也越来越多。所以我国目前对非结构化数据处理技术越来越有需求,非结构化数据技术中的采集技术等也正在不断地创新及发展。

2.4 分布式处理架构

上文说到大数据技术有多种处理技术,其处理方法也是随着社会的进步而不断创新的,传统的处理方式已经无法满足现如今社会人们的需求。在人们对此不断创新及摸索的过程中,在大数据技术中发现了分布式处理架构,此时它也成了其的主要处理数据方式,这是时代在发展与进步的表现。在分布式处理架构中,分布式文件系统、处理数据库及编程环境等一系列的技术在今天都被人们广泛应用与各行各业中。[4]

3 大数据测试技术

3.1 大数据测试流程

大数据测试的主要流程如图1。

大数据的分析处理流程主要可分为5个阶段:

1)采集。大数据在分析处理中的采集是运用其中的数据库来进行接收来自客户端的数据,比如Web客户端、App客户端等等,并且客户端用户可以通过大数据中的这些数据库对信息进行收集、查询、处理等工作。[5]比如传统的MySQL数据库及Oracle数据库是用来保存一些日常数据的,除了这些数据库,Redis等一些NoSQL数据库也可采集数据。大数据分析处理中采集的特点就是在并发数高。

2)导入、预处理。大数据处理过程中采集时拥有很多数据库,对于这么庞大的数据进行科学分析远远是不够的,还是要将这些数据导入到一个大型的集中数据库,在此之前将其进行简单的预处理。其中Sqoop和Flunm等一些工具就可以将这些数据进行互相操作。其中导入和预处理的特点就是导入量大,每秒可导入百兆或者千兆。

3)统计分析数据。将大量的数据导入到一个大型的集中数据库中,通过使用分布式技术来对其中的数据进行分析、汇总等。统计分析数据的特点就是导入量大,其查询数据量也大,请求较多。Hadoop此产品是使用最多的。

4)数据挖掘。与前面三个阶段不同的是,数据挖掘并没有预先设定其主题,而是在现有的数据中进行各种计算,以达到预算的效果,从而达到复杂数据分析的要求。比较有名的算法主要有K-means(聚类)、SVM(统计学习)及naive Bayes(分类),工具主要有Mahout。[6]数据挖掘的过程中的特点是看数据中文件的格式是否都达到要求。

5)数据分析。当大数据测试分析过程结束之后,产生的数据会被自动的移至其仓库中或者系统中。然后对其中的数据进行分析,这就是大数据处理技术所要解决的问题。数据分析过程的特点是要在具体的数据下才能使业务更加流畅,并且能够有效的分析其数据,从而得出科学有效的策略。

4 大数据测试技术未来发展前景的分析

对于我国社会技术的发展现状来看,大数据技术在未来的发展前景也是非常可观的,大数据技术在我国各行各业中都得到了广泛的应用。目前我国大数据技术公司有三种:技术类、创新类、数据类,但是不断是那种数据公司,对于我国社会发展都是不可缺少的。其中技术类大数据公司被我们所熟知的主要是一些IT公司,他们注重的是数据的处理;创新类大数据公司注重的是富有想象力的员工,能够面对相同数据拥有自己独特的简介,并且能够有所创新;数据类大数据公司是与我们人类日常生活相关的,比如一些客户端(新浪、百度、淘宝等),或者一些大型的连锁企业、金融企业等,这些企业都有大量的数据,不过其中有价值的信息也比较容易被忽略。[7]不管是哪类数据公司,大数据技术会在今后社会发展中越来越好。

1)在云计算基础上的数据分析测试平台将会更加完善

在社会飞速发展的这几年,其中云计算技术发展也甚是迅速,在此基础上其的应用范围也越来越大,这也包括大数据技术在云计算技术中的应用。云技术的发展也为大数据技术的发展提供了一个较好地处理平台和技术,还为其提供了全新的计算方式、更大的存储空间及资源等等。另外,创新后的云计算技术也具备相对丰富的IT资源,这也为大数据技术的发展提供了良好的资源,在两者都不断创新的基础上,大数据技术平台也会日益成熟,其处理水平也会得到明显的提升。

2)大数据技术中的数据分析将会进一步发展

在大数据技术分析处理中,数据分析有着重要的地位,随着社会的发展,其也将会逐渐成为大数据技术中的核心技术。大数据技术主要是对大量数据进行智能处理,从其中获取有效的信息,要想在今后的发展中实现此功能,就要对数据进行分析处理。此过程则是数据分析的基础,所以数据分析在今后的创新发展中会得到进一步的发展,其大数据测试技术也会得到创新及发展。[8]

5 结束语

总而言之,随着我国社会经济及技术的不断发展与创新,信息化时代也将到来,大数据技术也称为了我国人民在日常生活中不可缺少的一部分,在我国各行各业的发展中都有着重要的作用。在互联网技术和云计算技术发展的促进中,大数据技术在未来的发展也将更加智能、先进,也将会涉及我国更多的行业领域,为我国人民生活中创造出更大的便利,为我国科技的创新及发展提供新的技术。

参考文献:

[1] 飞, 卢瑾, 辛一. 基于专利的大数据技术发展情报分析及战略研究[J]. 情报杂志, 2014(9): 45-50.

[2] 王骁. 基于Hadoop大数据平台资源及用户行为检测技术的研究[D]. 北京: 北京交通大学, 2015.

[3] 李纪舟, 叶小新, 丁云峰, 等. 大数据关键技术、主要特点及发展趋势[J]. 电信技术研究, 2013(3): 58-64.

[4] 代亮, 陈婷, 许宏科, 等. 大数据测试技术研究[J]. 计算机应用研究, 2014, 31(6): 1606-1611.

[5] 吴韶鸿. 大数据开源技术发展研究[J]. 现代电信科技, 2014(8): 17-22.

[6] 郭丽娟. 大数据的特点及未来发展趋势[J]. 信息通信, 2014(10): 195-195.

第10篇

[关键词]:大数据 技术创新 科技服务

中文图书分类号:F204 文献标识码:A 文章编号:

一、引言

当前全球已经全面进入信息时代,云计算、物联网等新兴IT技术的广泛应用,全球数据正以前所未有的速度在剧增,数据类型也变得越来越复杂。数据的深度分析和利用将对推动经济持续增长、提升企业的竞争力起到重要的作用。 大数据产业是基础产业,是国民经济和社会发展信息化的基础,对国家治理现代化、对企业创新决策、组织和业务流程、对个人生活方式都将产生巨大的影响。大数据积累拓展了科技创新的内容、丰富了科技创新的手段、深化了科技创新的应用。

二、大数据的提出与发展

(一)大数据的提出

早在1980年,著名未来学家阿尔文・托夫勒便在《第三次浪潮》一书中,称大数据为“第三次浪潮的华彩乐章”。大数据时代来临首先由数据丰富度决定的,社交网络兴起,大量的UGC(用户生成内容)内容、音频、文本信息、视频、图片等非结构化数据出现了。另外,物联网的数据量更大,加上移动互联网能更准确、更快地收集用户信息,比如位置、生活信息等数据。2012年,英国人维克托・迈尔・舍恩伯格在其著作《大数据时代:生活、工作与思维的大变革》中首次对大数据进行全面详细的阐述,他指出大数据带来的信息风暴正在变革我们的生活、工作和思维,大数据开启了一次重大的时代转型,将为人类的生活创造前所未有的可量化的维度,大数据已经成为了新发明和新服务的源泉,而更多的改变正蓄势待发。对于大数据的内涵,著名研究机构Gartner对于“大数据”给出的定义是:“大数据”是需要新处理技术与模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

(二)大数据对经济社会发展和技术创新影响

2012年7月,联合国了名为《大数据促发展:挑战与机遇》的大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,可以使用极为丰富的数据资源,对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。对企业而言,一方面大数据时代网民和消费者的界限正在消失,企业边界趋于模糊,数据成为核心资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。另一方面,大数据成为许多公司竞争力的来源,未来可能整个行业的结构会发生改变,小企业最有可能成为赢家。如今的核心竞争力在于快速而廉价地进行大量的数据存储和处理。麦肯锡在一份名为《大数据,是下一轮创新、竞争和生产力的前沿》的专题研究报告中提出:“对于企业来说,海量数据的运用将成为未来竞争和增长的基础。”

(三)世界范围内大数据技术创新与发展情况

1. 主要国家积极推动大数据技术创新和产业发展

2012年3月,美国联邦政府就在全球率先推出《大数据研究和发展计划》,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,并将“大数据战略”上升为国家战略。奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分。英国将大数据列为战略性技术,推出一系列支持大数据发展举措。首先是给予研发资金支持。2013年1月,英国政府向航天、医药等8类高新技术领域注资6亿英镑研发,其中大数据技术获得1.89 亿英镑的资金,是获得资金最多的领域。日本政府把大数据作为提升日本竞争力的关键。日本在新一轮IT 振兴计划中把发展大数据作为国家战略的重要内容,新的ICT战略重点关注大数据应用技术。日本总务省2012 年7月推出了新的综合战略“活力ICT日本”,将重点关注大数据应用,并将其作为2013年六个主要任务之一,聚焦大数据应用所需的、社会化媒体等智能技术开发,以及在新医疗技术开发、缓解交通拥堵等公共领域的应用。中国大数据产业紧跟世界发展趋势,提前布局谋划。2011年12月,工信部《物联网“十二五”规划》,把信息处理技术作为4项关键技术创新工程之一,其中包括了海量数据存储、数据挖掘、图像视频智能分析,都属于大数据的重要组成部分。2012 年以来,科技部、发改委、工信部等部委在科技和产业化专项陆续支持了一批大数据相关项目。2013年2月5日,国务院出台了《推进物联网有序健康发展的指导意见》,从政策层面正式把大数据纳入到物联网产业领域。2014年《政府工作报告》明确提出,“以创新支撑和引领经济结构优化升级,设立新兴产业创业创新平台,在新一代移动通信、集成电路、大数据等方面赶超先进,引领未来产业发展。”

2. 数据科学研究不断深入

在大数据应用的技术需求牵引下,数据科学研究和人才培养引起各国重视。在“大数据行动计划”支持下,美国加州大学伯克利分校开发了完整的大数据开源软件平台“伯克利数据分析软件栈(Berkeley Data Analytics Stack),其中的内存计算软件Spark的性能比Hadoop 提高近百倍,对产业界大数据技术走向产生巨大影响。美国哥伦比亚大学和纽约大学、澳大利亚悉尼科技大学、日本名古屋大学、韩国釜山国立大学等纷纷成立数据科学研究机构;美国加州大学伯克利分校和伊利诺伊大学香槟分校、英国邓迪大学、中国香港中文大学等一大批高校开设了数据科学课程。

3. 技术创新出现新的特征

大数据时代,技术创新出现了一些新的特征。一是技术创新模式更加开放。大数据时代,科技创新不再是“闭门造车”,开放式创新是大数据时代下科技创新活动的显著特征,是实现以市场为主导的技术创新的重要途径。创新的“逆向反馈机制”逐步形成,以苹果公司为代表的高新技术产品外观设计和软件开发更加注重消费需求,研发部门设计理念基于庞大消费群体体验数据分析,因而获得更大的市场空间。二是技术创新领域进一步拓展。数据技术从早期在单机上处理单一类型数据,发展到当前在计算机集群上处理多类型数据,实现时间宽松的数据分析应用。随着数据量发展到PB、EB级甚至更大,并且要求更快的处理分析时间,大数据专用计算机、异地分布式计算机集群、多类型多来源数据的处理和分析、数据网络等复杂结构数据的分析、秒级时间分析等通用技术以及各种面向领域的应用技术是大数据技术的发展趋势。

三、大数据技术创新体系和内容

(一)大数据技术创新体系架构

大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。当前,国际上大数据技术创新方面形成了独特的“信息原创――开源扩散――IT 厂商产品化――其他企业使用”特点。正是大数据的技术创新和应用推动相关制造业和软件产业发展。大数据时代下技术创新体系架构如下图:

(二)大数据技术创新内容

根据工业和信息化部电信研究院的《大数据白皮书(2014)》,大数据技术创新内容主要包括技术存储、计算和分析等技术。

1. 大数据存储管理技术

数据的海量化和高速增长特征是大数据对存储技术提出的首要挑战。这要求底层硬件架构和文件系统在性价比上要大大高于传统技术,并能够弹性扩展存储容量。大数据对存储技术提出的另一个挑战是多种数据格式的适应能力。格式多样化是大数据的主要特征之一,这就要求大数据存储管理系统能够适应对各种非结构化数据进行高效管理的需求,在不同应用环境下,将数据以合理、安全、有效的方式保存到存储介质上并实现有效访问,满足用户对数据保存在高性能、高可靠性和高扩展性等方面的需求。

2. 大数据并行计算技术

大数据的分析挖掘是数据密集型计算,需要强大的计算能力。与传统“数据简单、算法复杂”的高性能计算不同,大数据的计算是数据密集型计算,对计算单元和存储单元间的数据吞吐率要求极高,对性价比和扩展性的要求也非常高。传统依赖大型机和小型机的并行计算系统不仅成本高,数据吞吐量也难以满足大数据要求,同时靠提升计算机CPU 性能、增加内存、扩展磁盘等实现性能提升的纵向扩展的方式也难以支撑平滑扩容。

3. 大数据分析技术

在人类社会发展全部数字化数据中,仅有非常小的一部分数值型数据得到了深入分析和挖掘(如回归、聚类),大型互联网企业对网页索引、社交数据等半结构化数据进行了浅层分析。占总量近60%的语音、图片、视频等非结构化数据还难以进行有效的分析。

(三)大数据技术创新的挑战

1. 数据存储挑战

随着大数据应用的爆发性增长,它已经衍生出了自己独特的架构,而且也直接推动了存储、网络以及计算技术的发展。硬件的发展最终还是由软件需求推动的,当前大数据分析应用需求正在影响着数据存储基础设施的发展。从另一方面看,这一变化对存储厂商和其他IT基础设施厂商都是潜在的市场机会。随着结构化数据和非结构化数据量的持续增长,以及分析数据来源的多样化,此前存储系统的设计已经无法满足大数据应用的需要。存储厂商已经意识到这一点,开始修改基于块和文件的存储系统的架构设计以适应这些新的要求。

2. 数据收集的挑战

随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。从海量数据中“提纯”出有用的信息,这对网络架构和数据处理能力而言也是巨大的挑战。大数据将远远超越现有企业IT架构和基础设施的承载能力,实时性要求也将大大超越现有的计算能力。如何将数据信息与产品和人相结合,达到产品设计或服务优化是大数据商业模式延展上的挑战之一。

参考文献:

[1]工业和信息化部电信研究院.大数据白皮书(2014)[R]. 2014年5月.

[2] [英]维克托・迈尔・舍恩伯格,肯尼思・库克耶 著,盛扬燕,周涛 译. 大数据时代:生活、工作与思维的大变革[M]. 杭州:浙江人民出版社,2012年12月.

第11篇

网络化、信息化时代背景下,人们对互联网的依赖程度越来越高,但是网络信息安全问题也变得更为严峻,近些年所发生的网络安全事件屡见不鲜,如2017年老牌信用机构Equifax遭黑客攻击,1.43亿用户信息被盗事件,全球爆发WannaCrypt勒索病毒等。面对愈发复杂的网络环境以及海量增长的数据信息,传统网络安全防护技术已经无法满足实际需求,将大数据技术加以充分应用,构建网络安全平台,能够显著增强网络安全等级,是当下研究的热点。

1大数据技术应用于网络安全分析中的重要性

大数据技术具有有数据量大、种类繁多、速度快、价值密度低等特点,在网络安全分析中有着较高的应用价值,其重要性具体体现在以下几方面。第一,大数据技术可以拓宽数据存储容量,满足海量数据安全分析需求,并且在对多源数据和多阶段组合进行分析时,在保证运算效率的同时,还能确保数据的完整性。第二,大数据技术能够对网络数据进行多层级、多精度分析,理清数据间的复杂关系,找出其中潜在的安全隐患和风险,网络安全分析精度大幅提升。第三,利用大数据分析技术,可以对异构数据进行存储和分析,显著提高了网络安全分析速率,能够在更短时间内发现并解决网络安全问题[1]。第四,传统网络安全平台为结构化数据库,而基于大数据技术的网络安全平台为分布式数据库,具有良好的经济效益,设备成本较低且性能良好,减少了系统维修费用,降低了网络安全平台构建成本。

2网络安全分析的大数据技术实践

将大数据技术应用于网络安全分析方面,可以实现对日志和流量的集中化存储与分析,深层挖掘数据之间的关系,增强了网络安全检测及防防护能力。

2.1数据采集

网络安全分析需要依托全面、完整的信息数据,在应用大数据技术时,应先完成数据采集。对于每秒数百兆的日志信息来讲,可以利用Chukwa等工具对其进行采集;对于全数量数据来讲,可以使用传统数镜向方式对其进行采集[2]。

2.2数据存储

完成数据采集后,需依托数据库对其进行集中存储,在大数据技术的帮助下,数据类型存在差异时,可以采用与其相匹配的方式完成存储,不仅能够保证数据之间的明确分类,又可以方便数据查询。数据类型为即时数据时,可采用列式存储方法,先运用流式计算方式进行分析,然后存储所得结果。数据类型为日志时,为提高数据查询效率,可选用列式存储方法完成存储。另外,当数据经过标准化处理后,需要先对其进行处理,所用方法为分布式计算方法,然后再采用列式存储方法进行存储。

2.3数据查询

将大数据技术应用于网络安全分析中去,就数据查询来讲,可依托MapReduce完成[3]。系统发出查询指令后,在对应的节点位置完成处理,并将多种结果加以整合,然后可以通过检索得到自己所需数据信息。相较于传统网络安全分析平台,这种数据查询方式的指令反应及处理更为迅速,大大提高了查询效率。

2.4数据分析

基于大数据技术的网络安全分析平台,当数据类型不同时,所用分析处理方法也是不一样的。首先,如果数据类型为实时数据时,在对其进行分析和处理时,主要用到了流式计算方式、CEP技术、关联分析算法等,可以及时发现潜在的安全隐患及威胁。其次,如果数据类型为历史数据、统计结果时,在实效性方面要求并不严格,可对其进行离线处理,完成更为深入、全面的分析,所用方法主要为分布式存储与计算,既能够发现其中的风险隐患,又可以找出攻击来源。

2.5复杂数据处理

面对越来越复杂以及关联性越来越强的数据,以大数据技术为依托的网络安全分析平台,也可以更加迅速、精准地对其进行处理,包括多源异构数据、系统安全隐患以及关联性攻击行为等。以网络安全问题中常见的僵尸网络为例,借助大数据技术,不但能够从流量和DNS访问特性出发,而且能进行发散性关联分析,同时结合多方面的数据信息,可对数据进行多维度、深层次、全方位分析,确保了数据处理的有效性。

3大数据技术背景下网络安全平台建设

基于大数据技术所体现出的多方面优势,已经在网络安全分析方面得到了越来越广泛的应用,在构建网络安全平台时,需要科学设计其基础构架,并严格把控关键技术环节,充分发挥其应用价值。

3.1平台构架

以大数据技术为依托,所搭建的网络安全平台分为四个层级,包括数据采集层、数据存储层、数据挖掘分析层、数据呈现层,四个层级功能各不相同,需要分别对其进行分析。首先,数据采集层主要负责采集各种类型数据,包括即时数据、用户身份信息、日志等,实现方式为分布式采集。其次,数据存储层的能够实现海量信息的长期保存,并采用结构化、半结构化、非结构化方式对其进行统一存储,使用均衡算法将现实数据均匀分布在分布式文件系统上[4]。另外,网络安全异常的发现及溯源,则是在数据挖掘分析层完成,具体方法包括特征提取、情境分析、关联分析等,可通过检索查询对异常网络行为进行准确定位。最后,数据呈现层则可以通过可视化形式将大数据分析结果呈现出来,通过多种维度展现网络安全状态。

3.2关键技术

构建网络安全平台时,所用到的关键技术主要有数据采集技术、数据存储技术、数据分析技术等。此次研究所用数据采集技术包括Flume、Kafka、Storm等,Flume能够采用分布式方式,对来源不同的数据进行收集和整理,经过处理后将其传输至定制方。Kafka中应用了Zookeeper平台,可实现数据的集群配置管理,能够作为一个高吞吐量的分布式发布订阅系统应用,平衡数据处理环节的系统负荷。完成数据采集后,采用HDFS分布式文件系统对其进行存储,其容错性和吞吐量都比较高,使用元数据管理节点文件系统对空间命名,数据文件保存至数据节点,基本存储单位为64兆字节的数据块。数据文件会随着元数据节点的增多而减少,两者之间呈反比关系,多个文件同时被访问时,会对系统性能造成影响,而HDFS分布式文件系统的应用可有效避免这种问题。在数据分析环节,该平台所用技术为Hivc,对于非结构化数据的检索,所用语言为HiveQL,与HDFS和HBase匹配性良好。API的封装则是采用Hive完成,使用定制的插件开发和实现各种数据的处理、分析与统计。

4结束语

将大数据技术应用于网络安全分析领域,不仅能够提高分析速率、分析精准度,而且还可以降低技术成本,有着多方面显著优势,是未来网络安全防护的必然发展方向。在实际应用时,应采用层级结构构建网络安全平台,就数据采集、数据存储、数据分析等关键技术环节进行重点把控,以此来改善当前网络安全分析中的缺陷与不足,提高网络安全等级。

参考文献:

[1]孙玉.浅谈网络安全分析中的大数据技术应用[J].网络安全技术与应用,2017.

[2]王帅,汪来富,金华敏等.网络安全分析中的大数据技术应用[J].电信科学,2015.

第12篇

关键词:大数据:软件工程技术:数据分析

1大数据技术和软件工程技术

大数据技术事实上是将人类日常生活中产生的各种数字信息,将这些信息收集起来之后分类处理,设定不同类别的存储空间,按照类别存储。大数据技术从功能的角度出发可以划分为多个类别,诸如分析技术、机器学习技术、遗传算法技术、自然语音处理技术等。应用大数据技术分析,就是基于当前的科学技术发展起来的一种分析技术。它主要依靠现代科技手段发挥技术的作用,特别网络技术发挥着基础性的作用。整理基础数据,对数据信息进行分类整理,应用相应的计算机算法,将相似特性的数据划分为一类,最终得到大量的数据,应用大数据技术对这些数据进行分析。大数据分析应用于互联网行业中,所发挥的优势是有目共睹的,而且还不断地引入新技术,在软件工程技术中应用,对该技术的发展起到了促进作用[1]。大数据时代,社会各个领域都已经实现了信息化发展,人们对软件工程的概念越来越熟悉。事实上,软件工程的历史始于20世纪的中期,其研究重点是软件技术和工程管理。将相关工程内容引入其中,使得工程系统化运行,其中所涵盖的研究内容包括软件的生命周期、软件工程设计、软件的技术维护等方面。因此,在软件设计的过程中,要控制好技术开发成本,保证工程质量,使其生命周期不断延长,不同项目的技术需求和用户的各种技术需求都能够得到满足。

2大数据背景下的软件工程基础

处于大数据时代环境中,软件工程的发展中关乎到不同的领域,需要高度重视。大数据技术具有专业性的特点,还具有很强的实用性价值。在软件工程技术的研究中,要从应用需求出发不断创新软件技术,对于传统的技术要不断摒弃,对软件工程的发展创造良好的客观条件。大数据技术环境下,软件工程基础是基于互联网技术建立起来的,对各种数据信息系统化管理,根据需要进行处理,对工业的发展非常有利[2]。在软件工程技术中,大数据的安全性问题是需要高度重视的,否则,就会对软件工程技术造成不良影响,引起严重的后果。

2.1软件服务工程

在软件工程的研究范畴中,软件服务工程的数量不断增多。软件工程服务化方向发展,就是发挥服务的作用,使其成为软件开发的基本原则,按照服务项目内容为用户展开服务。由于软件工程发展的主题有所,服务内容也要做出相应的调整,同城是对软件工程的进行技术维护。在具体的服务工作中,需要软件开发人员使用分布式应用程序,在管理工作中采用虚拟操作的方法为用户2019.08提供服务[3]。软件工程技术应用中,结合使用大数据技术,可以对网络数据进行编程,使得软件具有互操作性,对于数据主动协调,使其符合动态场景的变化节奏,软件系统的集成度有所提高。

2.2软件开源

软件开源更为注重用户对软件技术的体验。在对软件开源进行研究的过程中,采用常规的方法,虽然获得一定的成果,但是应用价值不是很高。一些研究人员在研究软件工程技术的时候,就是将软件开源作为突破口,将开发项目划分为多个模块,将每个模块分给指定的研究人员进行开发。

2.3群体软件工程

群体软件工程是通过网络发布的方式进行软件开发,具体的实施中采用工程众包的形式,使得软件开发技术发挥作用。群体软件工程是一个分布式软件开发模型,这个工程项目的运行中,可以通过网络实现,对各项任务进行分配,也可以进行创造性的查询,通过众包解决软件开发过程中遇到的一些困难和重要问题。同时,在软件工程开发过程中,软件工程可以在任何阶段通过众包进行开发[4]。

3大数据与软件工程技术的未来发展方向

3.1大数据与软件工程技术开放式的发展

大数据技术的主要前提是大量的数据流,需要技术不断地升级和创新,寻求开发的研究途径是非常必要的。计算机网络的发展意味着计算机可以在开放的环境中相互通信,共享数据资源,软件等信息的有效利用能力也会有所提升。通过网络运行可以增加利润,使得用户的各种需求得到满足,提高资源的利用率。

3.2大数据与软件工程技术融合到其他领域

软件工程技术在当今许多科学领域有着广泛的应用。由于软件工程技术给予各个领域非常大的帮助,从航空到生活中都发挥着软件工程技术的作用[5]。应用程序的运行,可以使用数据平台对信息进行收集并分析。比如,用户在进行股票交易的过程中应用大数据技术,可以使用软件工程技术构建数据模型,通过对数据模型的分析,预测股票的变化趋势。

4众包软件服务工程中的大数据技术

在软件开发过程中,必须有足够的硬件和软件基础来支持数据流,随着数据流的量逐渐增多,对硬件和软件就有了新的要求。专家学者在分析数据流的时候,还对在线服务进行了研究。数据流是重点内容,主要是对数据流的使用方法进行研究,对支撑数据流的软件和硬件进行研究[6]。从软件工程开发的角度而言,软件运行中都会产生大量的数据流,包括服务端、用户端等,都会有很多的数据信息产生,这些数据流对软件和硬件的使用寿命起到了决定性的作用。软件工程的开发中,要做好数据流的管理工作。有必要对原始数据进行深入的研究,为提高软件的使用寿命创造条件,对数据流的分析要高度重视[7]。

5密集型数据科研第四范式

第四种科学研究范式是指根据实际情况建立独立的科学研究方法,探索第四种范式的理论基础,以及大型数据存储设备在发展中的重要性。软件工程中,采用传统的大数据研究方法,大数据的有效分析是不可能的,大数据的研究还没有取得突破性的成果。因此,目前大多数软件不能在短时间内同时实现数据信息的存储、数据信息的传输和有效识别。在探索第四范式理论和研究方法的过程中,首先需要对集成大数据的软件服务价值进行估计,抛弃传统的大数据统计方法,建立新的大数据信息统计方法和分析方法[8]。此外,有必要从多个方面研究大数据的处理,对大数据信息进行管理并深入分析,讨论大数据的价值以及存在的可变性,这对软件工程的发展起着重要的作用。在研究软件工程技术的时候,必须更新传统的软件开发理念,重视软件处理和分析大数据能力的发展,使得软件产业呈现出新的发展面貌。

6结语

在当今大数据时代,软件工程技术的研究已经区域复杂。随着数据的指数的不断增长,软件技术对硬件设备数据处理能力产生一定的影响。因此,在对软件工程技术的研究中,就需要对大数据技术的特点进行研究,基于此研究软件工程技术,使得硬件设备的数据处理能力有所提高。在研发开发软件技术的过程中,要从应用领域的需求出发对大数据技术进行分析,在大数据开发理论的基础上创新软件开发理论,促进软件技术更好地发展。