HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 数据分析分析技术

数据分析分析技术

时间:2023-05-30 09:04:51

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据分析分析技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据分析分析技术

第1篇

数据分析技术给信息安全领域带来了全新的解决方案,但是如同其它领域一样,大数据的功效并非简单地采集数据,而是需要资源的投入,系统的建设,科学的分析。Gartner在2013年的报告中指出,大数据技术作为未来信息架构发展的十大趋势之首,具有数据量大、种类繁多、速度快、价值密度低等特点。将大数据技术应用与信息安全领域可实现容量大、成本低、效率高的安全分析能力。

1.1信息安全分析引入大数据的必要性

大数据具有“4V”的特点:Volume、Variety、Velocity和Value,可实现大容量、低成本、高效率的信息安全分析能力,能够满足安全数据的处理和分析要求,将大数据应用于信息安全领域能够有效的识别各种攻击行为或安全事件,具有重大的研究意义和实用价值。随着企业规模的增大和安全设备的增加,信息安全分析的数据量呈指数级增长。数据源丰富、数据种类多、数据分析维度广;同时,数据生成的速度更快,对信息安全分析应答能力要求也相应增长。传统信息安全分析主要基于流量和日志两大类数据,并与资产、业务行为、外部情报等进行关联分析。基于流量的安全分析应用主要包括恶意代码检测、僵木蠕检测、异常流量、Web安全分析等;基于日志的安全分析应用主要包括安全审计、主机入侵检测等。将大数据分析技术引入到信息安全分析中,就是将分散的安全数据整合起来,通过高效的采集、存储、检索和分析,利用多阶段、多层面的关联分析以及异常行为分类预测模型,有效的发现APT攻击、数据泄露、DDoS攻击、骚扰诈骗、垃圾信息等,提升安全防御的主动性。而且,大数据分析涉及的数据更加全面,主要包括应用场景自身产生的数据、通过某种活动或内容“创建”出来的数据、相关背景数据及上下文关联数据等。如何高效合理的处理和分析这些数据是安全大数据技术应当研究的问题。

1.2安全大数据分析方法

安全大数据分析的核心思想是基于网络异常行为分析,通过对海量数据处理及学习建模,从海量数据中找出异常行为和相关特征;针对不同安全场景设计针对性的关联分析方法,发挥大数据存储和分析的优势,从丰富的数据源中进行深度挖掘,进而挖掘出安全问题。安全大数据分析主要包括安全数据采集、存储、检索和安全数据的智能分析。(1)安全数据采集、存储和检索:基于大数据采集、存储、检索等技术,可以从根本上提升安全数据分析的效率。采集多种类型的数据,如业务数据、流量数据、安全设备日志数据及舆情数据等。针对不同的数据采用特定的采集方式,提升采集效率。针对日志信息可采用Chukwa、Flume、Scribe等工具;针对流量数据可采用流量景象方法,并使用Storm和Spark技术对数据进行存储和分析;针对格式固定的业务数据,可使用HBase、GBase等列式存储机制,通过MapReduce和Hive等分析方法,可以实时的对数据进行检索,大大提升数据处理效率。(2)安全数据的智能分析:并行存储和NoSQL数据库提升了数据分析和查询的效率,从海量数据中精确地挖掘安全问题还需要智能化的分析工具,主要包括ETL(如预处理)、统计建模工具(如回归分析、时间序列预测、多元统计分析理论)、机器学习工具(如贝叶斯网络、逻辑回归、决策树、随机森利)、社交网络工具(如关联分析、隐马尔可夫模型、条件随机场)等。常用的大数据分析思路有先验分析方法、分类预测分析方法、概率图模型、关联分析方法等。可使用Mahout和MLlib等分析工具对数据进行挖掘分析。综上,一个完备的安全大数据分析平台应自下而上分为数据采集层、大数据存储层、数据挖掘分析层、可视化展示层。主要通过数据流、日志、业务数据、情报信息等多源异构数据进行分布式融合分析,针对不同场景搭建分析模型,最终实现信息安全的可管可控,展现整体安全态势。

2安全大数据分析的典型应用

2.1基于用户行为的不良信息治理

中国移动开展了基于大数据的不良信息治理工作,主要针对垃圾短信和骚扰诈骗电话开展基于异常行为的大数据分析。通过开源工具Hadoop、HDFS、Pig、Hive、Mahout、MLlib搭建大数据分析平台,采集用户的行为数据,构建用户行为分析模型;分别提出了异常行为分类预测模型、统计预测分析模型、社交网络分析模型等,将用户的行为数据输入到模型中,可以精准地挖掘出违规电话号码,并且发现违规号码与正常号码之间存在大量相异的行为特征。通过用户的行为,构建多维度的用户画像数据库,支撑全方位的大数据不良信息治理服务,支撑大数据不良内容的智能识别等。实践表明,大数据分析技术能够挖掘出更多潜在的违规号码,是对现有系统的有效补充。除此之外,中国移动还将大数据技术应用在安全态势感知、手机恶意软件检测和钓鱼网站的分析中,提升了现有系统的分析能力。

2.2基于网络流量的大数据分析

在互联网出口进行旁路流量监控,使用Hadoop存储及Storm、Spark流分析技术,通过大数据分析技术梳理业务数据,深度分析所面临的安全风险。主要分析思路是采集Netflow原始数据、路由器配置数据、僵木蠕检测事件、恶意URL事件等信息,采用多维度分析、行为模式分析、指纹分析、孤立点分析及协议还原等方法,进行Web漏洞挖掘、CC攻击检测、可疑扫描、异常Bot行为、APT攻击、DDoS攻击挖掘等分析。

2.3基于安全日志的大数据分析

基于安全日志的大数据分析思路主要是融合多种安全日志,进行数据融合关联分析,构建异常行为模型,来挖掘违规安全事件。主要的安全日志包含Web日志、IDS设备日志、Web攻击日志、IDC日志、主机服务器日志、数据库日志、网管日志、DNS日志及防火墙日志等,通过规则关联分析、攻击行为挖掘、情景关联分析、历史溯源等方法,来分析Web攻击行为、Sql注入、敏感信息泄露、数据分组下载传输、跨站漏洞、尝试口令破解攻击等应用场景。基于安全日志的大数据分析已经在国际上有广泛的应用。如IBMQRadar应用整合分散在网络各处的数千个设备端点和应用中的日志源事件数据,并将原始安全数据进行标准化,以区别威胁和错误判断;IBMQRadar还可以与IBMThreatIntelligence一起使用,提供潜在恶意IP地址列表,包括恶意主机、垃圾邮件和其它威胁等;IBMQradar还可以将系统漏洞与事件和网络数据相关联,划分安全性事件的优先级等。ZettaSet海量事件数据仓库来分析网络中的安全漏洞和恶意攻击;Zettaset主要包括Orchestrator和SDW(SecurityDataWarehouse,安全数据仓库)。Orchestrator是端到端的Hadoop管理产品,支持多个Hadoop分布;SDW是构建在Hadoop的基础上,并且基于Hive分布式存储。SDW于2011年BlackHat网络安全会议面世,SDW可从网络防火墙、安全设备、网站流量、业务流程以及其它事务中挖掘安全信息,确定并阻止安全性威胁。处理的数据质量和分析的事件数量比传统SIEM多;对于一个月的数据负载,传统SIEM搜索需要20~60min,Hive运行查询只需1min左右。

2.4基于DNS的安全大数据分析

基于DNS的安全大数据分析通过对DNS系统的实时流量、日志进行大数据分析,对DNS流量的静态及动态特征进行建模,提取DNS报文特征:DNS分组长、DNS响应时间、发送频率、域名归属地离散度、解析IP离散度、递归路径、域名生存周期等;基于DNS报文特征,构建异常行为模型,来检测针对DNS系统的各类流量攻击(如DNS劫持、DNS拒绝服务攻击、DNS分组异常、DNS放大攻击等)及恶意域名、钓鱼网站域名等。

2.5APT攻击大数据分析

高级可持续性威胁(APT)攻击通过周密的策划与实施,针对特定对象进行长期的、有计划的攻击,具有高度隐蔽性、潜伏期长、攻击路径和渠道不确定等特征。现已成为信息安全保障领域的巨大威胁。“震网”潜伏3年,造成伊朗纳坦兹核电站上千台铀浓缩离心机故障。收集业务系统流量、Web访问日志、数据日志、资产库及Web渗透知识库等,提取系统指纹、攻击种类、攻击时间、黑客关注度、攻击手段类型、行为历史等事件特征,再基于大数据机器学习方法,发现Web渗透行为、追溯攻击源、分析系统脆弱性,加强事中环节的威胁感知能力,同时支撑调查取证。

3总结

第2篇

关键词:联机数据分析;处理数据;分析和转换数据

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)03-0006-03

为了提升大学物理公共课程的教学水平,更好地了解学生的学习情况,需要引用联机数据技术,通过科学建立模型对教学数据进行处理和分析。维度模型的建立是为了能够全方位地剖析数据。

1 建立数据模型

建立模型是为了更加直观地表达数据和事实。对于同一批数据,人们总是会以不同的角度对其进行观察,这就是维度。维度模型从不同的角度分析数据,最终得出一张事实表。

如图1所示,维度模型包括了教材维度表,学期维度表,教师维度表,学生维度表和教学事实表。为了更好地分析教学效果,维度模型从四个不同的角度进行分析,每一张维度表上都注明了详细的数据内容。最后,在总结四张维度表的基础上,概括了最终的教学事实表。

2 OLAP技术

2.1 数据的采集

原有的Visual和SQL数据库上储存了学生的信息,教师的信息以及教学的数据等等。如图二所示,教务数据库中包含了课程信息表,学生信息表以及选课成绩表。DTS工具能够从不同的数据库中自动抽取需要进行分析的数据,并且将其全部集中在一个新的数据库中。新的SQL数据库既可以储存信息,还能够对信息进行管理。联机分析处理技术从不同的角度分析数据,有助于全面了解学生的学习情况和教师的教学质量。

2.2 数据分析的结构

从图2中可以看出,数据分析的结构包括了四层,其中最底层的是各种信息数据库和文本文件,在此基础上建立数据ETL,然后建立相应的维度模型,最后利用联机分析技术对数据进行分析。采集数据和转换数据是使用联机分析技术的基础,也是必不可少的一步。多维度分析是该结构中的最后一步,最终的结果将会把数据转换成图表的形式呈现出来。

2.3 转换数据

由于不同数据的语法可能存在差异,因此,把不同的数据转换成相同的结构显得尤为必要。在联机分析技术应用的过程中,转换数据是关键的一步,能否成功转换数据,决定了维度模型的建立是否具有科学性与全面性。转换数据是为了解决语法,语义结构不同引起的问题。

和数据语义不同相比,处理不同语法的数据显得更为简单。如果数据本身和目标数据之间存在语法结构不同的问题,那么只需要通过函数对其进行转换即可。一般来说,数据本身的内容并不会影响转换过程,只要建立原数据和目标数据之间的对应关系,就能解决数据名称存在冲突的问题。例如,学生数据库本身的信息包括了学生的ID和班级,这就相当于最终目标数据中学生对应的名称和班别。如果数据类型不同,可以运用相应的函数对其进行转换,例如trim()函数就能完成数据的转换。下面是利用函数对原数据中学生的ID,专业以及院名进行转换的过程,其转换代码如下:

Function Main()

DTSDestination(“ID”)=trim(DTSSourse(“名称”))

DTSDestination(“专业”)=cstr(DTSSourse(“专业”))

DTSDestination(“院名”)=trim(DTSSourse(“学院”))

Main=DTSTransformStat_OK

End Function

转换不同语义结构的数据是一个复杂的过程,它需要重视数据本身的信息和内容。因此,仅仅通过一步完成数据转换的过程是几乎不可能的,它需要将原数据进行一次次转换,才能得到最终的目标数据。例如每一个教师都有以及开展项目,在原数据中只能看到项目的名称和论文的名称,如果需要将其转换成教师的论文数量和项目数量,则需要经过两步的数据转换。

2.4 数据结果分析

原数据从SQL中提取出来,然后通过函数对其进行转换,最后利用联机分析技术进行数据管理和分析,从不同的角度研究数据,从而全面分析学生的学习情况和教师的教学情况。数据分析的方法有很多种,其目的都是为了全方位地剖析数据。

2.4.1 高校教师教学质量的对比分析

在教师维度表中,我们已经按照教师的从业年龄,学历以及职称对其进行划分,不同职称的教师,其教学质量有着明显的区别。教师的学历不同,教龄有所差异,这都和教学效果息息相关。

2.4.2 不同时期对教学质量的影响分析

联机分析处理技术能够从多角度分析数据,教学质量不可能是一成不变的,它与多个因素密不可分,时间也是其中一个因素。在不同的时期,由于政策的变动和外界因素的影响,教师的教学质量也会随之而受到不同程度的影响。

2.4.3 教学质量和其他因素息息相关

除了时间和教师的水平会对教学质量造成一定的影响,还有其他因素同样会影响教学效果,例如:学生的学习能力,学校选用的课本等。综合考虑各个因素对教学效果的影响,有利于教育部门更好地作出相应的政策调整。

3 计算机分析处理技术中的数据处理方法分析

无可置疑,计算机技术的出现颠覆了人们传统的思想和工作模式。如今,计算机技术已经全面渗透到我们生活中和工作中的各个方面。不管是在工业生产还是科研数据处理中,计算机技术都发挥着不可替代的作用。如今我们需要处理的数据正与日俱增,这就意味着传统的数据处理方法已经无法满足人们的需求了。仪表生产和系统控制要求数据具有高度精确性,这些数字在显示之前,都必须经过一系列的转换,计算以及处理。首先,数据会以一种形式经过转换器,然后变成另一种新的形式,只有这样计算机才能对数据进行处理和分析。处理数据是一个复杂多变的过程,它的方法并不是单一的,根据数据处理的目标不同,需要选择不同的数据处理方法。例如,有的数据需要进行标度转换,但有些数据只需要进行简单计算即可,计算机技术的不断进步是为了更好地应对人们对数据处理新的需要。

计算机数据处理技术的应用离不开系统,它比传统的系统更加具有优越性:

1)自动更正功能,计算机系统在处理数据时,对于计算结果出现的误差能够及时修正,确保结果的准确度。

2)传统模拟系统只能进行数据的简单计算,而计算机系统则能够处理复杂多变的数据,其适用范围和领域更加广。

3)计算机系统不需要过多的硬件,只需要编写相应的程序就能够完成数据的处理,在节省空间的同时也降低了数据处理的成本。

4)计算机系统特有的监控系统,能够随时监测系统的安全性,从而确保数据的准确度。

对于不同的数据,往往需要采用不同的处理方式,处理数据的简单方法包括查表,计算等。除此之外,标度转换,数字滤波同样是应用十分广的处理技术。

3.1 数据计算

在各种数据处理方法中,计算法是最为简单的一种,利用现有的数据设置程序,然后直接通过计算得出最终的目标数据。一般来说,利用这种方法处理数据需要遵循一个过程:首先,求表达式,这是计算法最基本的一步;其次,设计电路,在此之前必须将转换器的位数确定下来;最后,利用第一步已经求出的表达式运算数据。

3.2 数据查表

3.2.1 按顺序查表格

当需要搜索表格中的数据时,往往需要按照一定的顺序和步骤。首先,明确表格的地址和长度,然后再设置关键词,最后按照顺序进行搜索。

3.2.2 通过计算查表格

这是一种较为简单的方法,适用范围并不广。只有当数据之间表现出明显的规律或者数据之间存在某种关系时,才能够使用这种方法查表格。

3.2.3 利用程序查表格

相比于上述的两种方法,利用程序查表格是一种相对复杂的方法,但是这种方法的优点在于查找效率高,并且准确度高。

3.3 数据滤波处理

采集数据并不难,但是确保每一个数据的真实性却十分困难,尤其是在工业系统中,数据的测量难以确保绝对准确,因为在测量的过程中,外界环境对数据的影响往往是难以预估的。为了提高数据处理的精确度和准确率,需要借助检测系统对采集的数据进行深加工。尽可能地让处理的数据接近真实的数据,并且在数据采集的过程中最大限度地减少外界因素对其的影响,从而提高计算结果的准确度。

滤波处理技术的应用首先要确定数据的偏差,一般来说,每两个测量数据之间都会存在一定的误差,首先需要计算数据与数据之间可能出现的最大误差。一旦超出这一数值,可以认定数据无效,只有符合偏差范围内的数据,才能进行下一步的处理。

为了减少由于外界影响导致数据失真的情况,利用程序过滤数据是很有必要的。滤波技术有几种,根据不同的需要可以选择相应的数据处理技术,每一种数据滤波技术都有其适用范围和优点。数据滤波技术包括算术平均值滤波,加权平均值滤波,中值滤波,限幅滤波,限速滤波以及其他类型的滤波技术。

3.4 转换量程和标度

在测量数据的过程中,每一种参数都有相应的单位,为了方便数据处理,需要使用转换器把数据转换为统一的信号。标度转换是必不可少的,为了加强系统的管理和监测,需要不同单位的数字量。转换方法包括非线性参数标度变换,参数标度变换,量程转换,这几种转换方法在数据处理的过程中较为常见。当计算过程遇到困难,可以结合其他的标度转换方法进行数据处理。

3.5 非线性补偿计算法

3.5.1 线性插值计算方法

信号的输入和输出往往会存在一定的关系。曲线的斜率和误差之间存在正相关关系,斜率越大,误差越大。由此可见,这一计算方法仅仅适用于处理变化不大的数据。当曲线绘制选用的数据越多,曲线的准确程度越高,偏差越小。

3.5.2 抛物线计算方法

抛物线计算方法是一种常用的数据处理方法,只需要采集三组数据,就可以连成一条抛物线。相比于直线,抛物线更加接近真实的曲线,从而提高数据的准确度。抛物线计算法的过程,只需要求出最后两步计算中的M值,就能够直接输入数据得出结果。

3.6 数据长度的处理

当输入数据和输出数据的长度不一,需要对其进行转换,使数据长度达到一致。由于采集数据所使用的转换器和转换数据所选择的转换器不同,因此,当输入位数大于输出位数,可以通过移位的方法使位数变成相同。相反,当输入位数少于输出位数时,可以使用填充的方法将其转换成相同的位数。

4 结语

本文对联机分析技术进行了详细的论述,该技术的应用对于评价教学效果有着重要的意义。在物理公共课程中,教学数据数量巨大,如果利用传统的方法对其进行分析,将会耗费大量的人力物力,而采用OLAP技术则能更加快速准确地分析处理数据。数据分析是评估教学质量必经的过程,而使用QLAP技术是为了能够多层次,全方位地分析各个因素对教学质量的影响,从而更好地改进高校教育中存在的不足。除了分析物理课程数据,联机分析技术同样适用于其他课程的数据处理和分析。

参考文献:

[1] Ralph kimball,Margy Ross.The Data Warehouse Toolkit:the Complete Guide to Dimensional Modeling[M]..北京:电子工业出版社,2003.

第3篇

关键词:数据挖掘;金融数据分析;Analysis Services

中图分类号:TP274文献标识码:A 文章编号:1009-3044(2009)36-10604-02

The Implement of Financial Data Analysis Module Base on SSAS Technology

HE Ying-gang, CHEN Jian-xiong

(Chengyi College, Jimei University, Xiamen 361021, China)

Abstract: Introduces a sample of design method to develop financial data analysis module by using the Data Mining technology. This sample use Microsoft SQL Server Analysis Services technology for analysis and forecasting. In practice, the operation of this module can improve the work efficiency offinancial analysts.

Key words: data mining; financial data analysis; analysis services

目前许多金融交易系统都为用户提供了技术指标的编写工具。在编写指标计算公式时,往往有各种参数需要用户进行选择和设置,合理的参数组合所得出的结果可以使得用户作出正确判断,但是这类金融系统中并未提供最佳参数搜索功能,这使得用户需要耗费许多时间对分析验证参数。随着数据挖掘技术的成熟和发展,为这类问题的解决提供了解决方法和途径。

由于许多金融公司都有使用Microsoft SQL Server系列数据库系统作为内部系统的数据库平台,而微软公司提供的Microsoft SQL Server 2005 Analysis Services (SSAS) 通过服务器和客户端技术的组合为客户提供联机分析处理 (OLAP) 和数据挖掘功能。这使得我们可以在不改变现有数据库系统的前提下,在原有的公司业务系统的基础上开发数据挖掘分析模块。基于SSAS本文提出了一种实现金融数据分析模块的解决方案。

1 金融数据分析模块的数据挖掘功能的设计

1.1 功能设计

金融数据分析模块主要应用于对指标参数的搜索,寻找最合适的指标参数值。所以系统应具有的功能有:1)根据用户的需要,提供指标公式设计和参数设置;2)提供灵活直观的图形显示;3)用户能够指定数据挖掘算法的参数值,并查看数据挖掘生成的规则。

1.2 结构设计

数据分析模块的设计采用了三层体系结构,分别为:1)数据访问层,实现对金融日志数据的采集、清理和转换;2)数据挖掘业务层;3)分析结果表示层,表示层把各种参数组合所对应的数据挖掘分析结果以图形化或表格化的方式展现出来,方便用户能够对比各种参数组合的优劣。为了避免对数据库系统性能造成影响,模块使用独立的数据仓库系统。开发框架如图1所示。

2 金融数据分析模块的数据挖掘功能模块的实现和关键技术

指标公式参数的求解是一类系统优化问题。遗传算法是一种求最优解或近似最优解的全局优化搜索算法。使用遗传算法比传统的枚举算法和启发式算法具有诸多优点,例如:搜索使用评价函数启发,过程简单;搜索从群体出发,具有并行性;与问题领域无关的快速随机搜索能力等等。由于SSAS所提供的数据挖掘算法中没有包含遗传算法,所以为了实现最优参数搜索,必须在数据挖掘模块中加入遗传算法。本文将指标计算公式的参数作为染色体基因,一种参数组合作为一个个体。然后根据个体基因数据生成指标值,并对指标值进行数据挖掘和预测,对预测结果的准确性进行评分,预测效果最好的参数组合将作为最佳选择提供给用户。遗传算法实现可以参考有关文献。本文所设计的主要处理流程如图2所示。

在图2流程中使用SSAS对每一种参数组合计算生成的指标数据进行数据挖掘分析和预测。SSAS是基于数据挖掘模型进行处理的,数据挖掘模型是一个数据结构,包含了数据关系、多维数据的分组和预测分析、数据挖掘算法等。用SSAS进行数据挖掘过程分为三个步骤:创建挖掘模型、训练挖掘模型和利用挖掘模型生成的规则进行预测。

2.1 创建数据挖掘模型

开发人员可以利用Visual Studio 2005内置Analysis Services项目模板快速创建数据挖掘模型,也可以利用DMX数据挖掘查询语言创建和处理数据挖掘模型。下面是一个利用关联规则算法建立的外汇利润预测分析的挖掘模型的例子。选择交易时间做为主键,该字段用来唯一表示某时间段内外汇交易价格。

CREATE MINING MODEL DM (

Ftime Date KEY,

KvalueDoublediscrete,

DvalueDoublediscrete,

…….

ProfitLeveldiscrete PREDICT)

USING Microsoft_Association_Rules (Minimum_Probability = 0.3, MINIMUM_SUPPORT = 0.05)

2.2 训练挖掘模型

SSAS将挖掘模型保存在数据库服务器端,然后训练挖掘模型生成数据挖掘规则。AMO(Analysis Management Object)是微软提供给开发人员使用的管理SSAS的主要接口,开发人员可以使用AMO创建、管理和处理挖掘模型,立方体,分区等Analysis Services对象。以下是在户端程序中使用AMO与Analysis Services进行数据交互,训练挖掘模型的简单例子。

Svr=new Server();

Svr.Connect(@”Provider=SQLNCLI.1;Data Source=SSASDM\Store;……”);

Db=svr.Databases.GetByName(“DM”); //获取数据挖掘模型对象

Db.Process(ProcessType.ProcessFull); //调用训练和处理挖掘模型

Svr.Disconnect();

2.3 预测

挖掘模型训练完后,SSAS生成挖掘规则并可以用来进行预测。本文算法流程中将指标数据预留一部分用于预测,然后使用SSAS提供的SQL扩展语言,实现预测任务。以下是一个客端程序的预测连接例子:

AdomdConnectionConn=new AdomdConnection(……);

AdomdClient.AdomdConnand Comm=Conn.CreateCommand();

AdomdDataReader reader;

mandText=String.Format(@”Select Predict( [profit Level] ) , PredictProbability( [Profit Level] ) From IndexData NATURAL PREDICTON JOIN (Select {0} as [Kvalue],{1} as [Dvalue],… as t”,R1,R2,…);

//构建数据挖掘预测语句

Reader=Comm.ExecuteReader();

上述第四行程序语句涉及数据挖掘模型和数据测试表,使用一个实例集进行预测,返回预测结果数据表格。

3 总结

该文分析了一种金融数据分析模块的设计方法和实现,该模块可以被重复开发和利用。若用户自定义新的指标计算公式,只需要修改数据挖掘模型和预测连接语句即可运行。在实际应用中,该系统模块的原型证明能够帮助金融分析员提高工作效率。

参考文献:

[1] Zhao Huitang.Data Mining with SQL server 2005[M].Wiley Publishing,Inc.2007.

[2] 张涛.基于MS Analysis Services多维分析系统的实现[J].哈尔滨理工大学学报,2003(6):16-18.

第4篇

    论文摘要:电子商务(EC)在现代商务企业的发展中占有越来越重要的地位。如何利用信息技术掌握更多的商务信息已备受商家们的关注,站点分析技术正是为商家和网站提供了这样一种有效的分析工具。

    本文讨论了一些站点分析的相关技术信息和几种网站分析浏览者行为的理论与算法,及数据仓库的相关理论知识。并对站点日志数据进行了实例分析,并指出了站点分析技术发展的方向。

    一、绪论

    互联网技术不断革新与发展,给全球经济带来新的革命,从而也影响着人们的生活。互联网为企业提供了一种真正属于自己并面对广大网民的信息载体,企业通过这一载体,可以自由地将企业的产品、服务等其他相关信息在线。

    电子商务就是网上实行各种商务活动的总包装,种种所谓电子商务解决方案,实际上就是实现各种网上商务活动的硬件与软件系统。它将影响到每一个人、每一个企业。电子商务的主体是我们每一个人、每一个企业,电子商务发展的过程就是对人们的生活、企业的运行的一种模式的一个巨大改变的过程。对于进入虚拟世界的商家而言,仅仅吸引注意力还不行,对它们而言,站点的访问率绝对不仅仅是一个数字,它还是一种信息,如果网站能够从网络中获得网民的信息并从中分析其行为诱因,那么就容易掌握网民的需求,从而利用互联网去创造更多商机。

    电子商务站点用户行为的分析这一问题也因此成为现如今的热门话题,被人们普遍关心起来,尤其是被众商家所重视。Web站点的日志数据正以每天数十兆的速度增长。如何分析这些数据,如何从这些大量数据中发现有用的、重要的知识(包括模式、规则、可视化结构等)也成为现在人们最关注的信息。

    在此情况下,站点用户行为分析就可为网站或商家提供出大量有价值的信息,包括站点的受欢迎度的对比、商业广告点击情况总括、产品的反馈信息、站点各种信息的点击情况等等。另外,还可根据不同的页面内容来分类浏览者,以便做出更合理的页面分类,促使网站逐步向个性化、最优化状态发展。这一技术对互联网的发展壮大有着不可忽视的巨大作用,它的发展对信息技术亦将产生深远的影响。

    在电子商务早期阶段时,Web站点数据流分析通常是在主页上安装计数器以及在一个外部日志文件上运行简单的统计程序记录点击率。但是,简单的点击计数既不准确也远未达到营销目的所需的详细程度。因此,各公司开始寻找更先进的分析工具,这类工具可以提供谁在访问公司Web站点以及访问者一旦进入站点后将做些什么的全面信息。站点开始分析的地方是Web服务器的访问日志。每当用户在站点上请求一个网页时,这个请求就被记录在访问日志中。如:目前有多少用户正在访问站点、他们正在看哪些网页以及他们在站点中呆了多长时间。显然,日志分析和行为概况的正确组合可以对Web站点的成功产生直接影响。此外,从日志分析中得到的信息是很难从真实世界中捕获到的,但这些信息却可以较容易地在线收集到。Web数据流分析工具的这些最新进展可以使网站获得有关上网客户和他们习惯的详细报告。

    二、站点信息统计方法

    Web页面数据主要是半结构化数据,计算机网络技术和信息技术的飞速发展,使得半结构化数据呈现日益繁荣的趋势。半结构化数据,是一种介于模式固定的结构化数据,和完全没有模式的无序数据之间,在查询前无法预先确定其具体的类型和格式;同时它们相应的数据结构是不固定、不完全或不规则的,即这些数据有的本身就没有结构,有的只有十分松散的结构,有的数据的结构是隐含的,需要从数据中进行抽取。而有时,尽管数据本身是有精确结构的,但为了一定的目的,而故意忽视它的结构。半结构化数据具有以下五方面的

    主要特点:

    1.结构是不规则的。包含异构数据、相同的数据信息用不同类型或不同的结构表示。

    2.结构是隐含的。如电子文档SGML格式。

    3.结构是部分的,有时部分数据根本无结构,而部分数据只有粗略的结构。

    4.指示性结构与约束性结构。传统的数据库使用严格的分类策略来保护数据。而指示性数据结构是对结构的一种非精确的描述。它可接受所有新数据,代价是要频繁修改结构。

    5.半结构化数据通常在数据存在之后才能通过当前数据归纳出其结构,称之为事后模式引导。模式有时可被忽略,同时数据与数据模式间的区别逐渐消除。

    三、数据分析的方法

    Web页面的数据通常是利用统计模型和数学模型来分析的。使用的模型有线性分析和非线性分析;连续回归分析和逻辑回归分析;单变量和多变量分析以及时间序列分析等。这些统计分析工具能提供可视化功能和分析功能来寻找数据间关系、构造模型来分析、解释数据。并通过交互式过程和迭代过程用来求精模型,最终开发出最具适应性的模型来将数据转化为有价值的信息。

    知识发现是从数据仓库的大量数据中筛取信息,寻找经常出现的模式,检查趋势并发掘实施。它是分析Web页面数据的重要方法。知识发现与模式识别的算法有以下几种:

    1.依赖性分析

    依赖性分析算法搜索数据仓库的条目和对象,从中寻找重复出现概率很高的模式。它展示了数据间未知的依赖关系。利用依赖性分析算法可以从某一数据对象的信息来推断另一数据对象的信息。例如:在杂货店中,一堆椒盐饼干放在陈列饮料的走道上,这是因为经过依赖性分析,商店认为:很大一部分买饮料的顾客如果在取饮料的路上看到椒盐饼干的话就会购买,因而此种分析影响了商店布局。

    2.聚类和分类

    在某些情况下,无法界定要分析的数据类,用聚类算法发现一些不知道的数据类或怀疑的数据类。聚类的过程是以某一特定时间为依据,找出一个共享一些公共类别的群体,它称为无监督学习。分类过程,这是发现一些规定某些商品或时间是否属于某一特定数据子集的规则。这些数据类很少在关系数据库中进行定义,因而规范的数据模型中没有它们的位置。最典型的例子是信用卡核准过程,可确定能否按商品价格和其它标准把某一购买者归入可接受的那一类中。分类又称为有监督学习。

    3.神经网络

    神经网络通过学习待分析数据中的模式来构造模型。它对隐式类型进行分类。图像分析是神经网络最成功的应用之一。神经网络用于模型化非线性的、复杂的或噪声高的数据。一般神经模型由三个层次组成:数据仓库数据输入、中间层(各种神经元)和输出。它通常用恰当的数据库示例来训练和学习、校正预测的模型,提高预测结果的准确性。

    4.数据挖掘中的关联规则

第5篇

[关键词]电力用户 用电信息 采集系统 数据分析 处理技术

中图分类号:P816 文献标识码:A 文章编号:1009-914X(2015)13-0016-01

一、前言

电力用户用电信息采集系统是国家电网公司实现智能化用电的主要方法,通过采集电力用户的用电信息,能够减少电力公司的运营成本,并且还可以减少设备维护,延长设备的使用寿命。

二、 用电信息采集系统现状与分析

用电信息采集系统一般由主站、远程传输通信通道和本地数据采集通道三部分构成。用电信息采集的实现主要依赖于通信通道的选择,在通信方式上一般采用两级通信方式,一是远程传输通道,是指集中器到主站(供电公司)之间的通信方式;二是本地数据采集通道,即集中器到采集器或电能表之间的通信方式。

1、远程传输通道现状与分析远程通信是指采集终端和系统主站之间的数据通信。通过远程通信,系统主站与用户侧的采集终端设备间建立联系,下达指令和参数信息,收集用户用电信息。远程通信信道可采用光纤专网、GPRS/CDMA无线公网、230MHz无线专网和中压电力线载波等。综合考虑系统建设规模、技术前瞻性、实时性、安全性、可靠性等因素,确定具体通信方式。

2、远程传输通道可以采用以下几种方式:

(一) 借助移动运营商的无线传输方式,如中国移动或中国联通的GSM/GPRS和中国电信的CDMA-1X优点:覆盖面广,接入容易,在一定程度上解决了少量数据采集的需求,按流量计费;缺点:能提供的带宽很低(一般只有几十千比特),且存在不稳定性,满足不了实时采集的要求。在地下配电室、移动电话用户集中区、楼宇密集区对通信质量影响很大。处理网络问题依赖第三方的协调。

(二) 借助于固网运营商的宽带城域网,如ADSL或LAN优点:传输速率高,适用于有网络端口环境下的表计集抄;缺点∶目前运行费比GPRS/CDMA方式贵。处理网络问题依赖第三方的协调。此外还有通过电话线调制的方式上传数据,这种方式曾经用于调度自动化的远动数据传输,但由于接续时间长,容易掉线,与电话用户挤占通道资源、带宽较低、运行不稳定等因素很快就被淘汰。这种方式多用于试点,已陆续转为其他通信方式。

以上几种远程数据通信方式,普遍存在以下问题:通道不能专用用电信息涉及商业机密,公用网络承载业务复杂,用电数据以内网转外网再进入内网的方式进行数据转发,存在着数据泄漏和易被攻击的隐患,难以达到国家电网公司对于生产经营信息安全分区与隔离的要求。易受到天气、地理、人群密度等多方面因素的影响多点间难以实现同步的实时采集与分析,关口电量、大客户与居民用电信息存在比较大的时延差,使线损分析、营业数据动态分析偏差较大。运营成本较高以上海市为例,640万居民用户按照每100户一个集中点计算,70万大用户按照每个用户一个集中点计算,共有76.4万个集中点。按照10元/月进行计算,每年仅运行费用就达9200多万元。基于这一原因,许多供电公司只能采用加大采集间隔,或有选择地抄收部分而不是全部表计参数,牺牲应用性能来维持系统的正常运行。

3、无线宽带通信目前主要的无线宽带接入方案有WiMax和McWill。WiMax支持ATM和IP两种数据接口,主要应用于高速传输的数据业务,同时也支持语音、视频等多媒体业务的传输。McWill是完全基于IP分组交换的宽带无线系统,采用宏蜂窝网络结构。McWill是大唐基于SCDMA衍生出来的宽带无线技术,由大唐旗下的信威公司拥有知识产权。

三、分析电力用户用电信息采集系统不良数据的必要性

用电信息的采集系统建设工作是一项复杂而系统的工程,其涉及到通信体系的建设、信息采集终端的架构、采集系统主站的建设等几个方面。整个采集系统建设工作涉及到复杂的用户类型,而且用户数量众多,同时还需要解决信道不稳定、算法不统一以及公共网络信道故障等问题。在这个过程中,将使得不良数据出现,例如线路的功率异常、电量异常、电压数据异常等现象。采集系统获得的数据中不良数据比例虽然很低,但是其存在直接影响到信息的准确性以及客观性,可能造成计费错误以及用电习惯分析不准确等问题,从而造成不良的社会影响。因此,如何处理好其中的数据畸变问题是当前用电信息采集系统优化及完善的一个重要内容。

四、导致不良数据的主要原因及主要类型

1、导致不良数据出现的主要原因

(一)数据采集、存储过程中的不良数据

电力数据的采集终端主要用于配网的使用,但是配网运行过程中存在诸多的问题,而且用电电压的稳定性不足,造成信息通道噪声较大。所以,在设备的应用过程中就会在数据的采集、传输环节中出现数据遗漏、数据误差等现象。同时,所应用的数据处理芯片中可能存在BUG,从而导致电力数据超出边界,或者电力数据读数偏大等现象。

(二)电力系统故障导致的数据错误

当线路中由于部分故障而导致电流出现不正常时,例如出现了接地问题、连电问题等时,将会导致供电网络的功率数据、用电数据出现故障。

五、电力用户用电信息采集系统不良数据处理方法

不良数据点(包括漏点数据、畸变数据等)若没有进行处理,直接参与统计分析,对系统数据将造成较大的影响,使整体负荷曲线、负荷特性等数据失真。可使用短期负荷预测的方法进行修正。

采用短期负荷预测方法对不良数据进行修正的原理是:辨识出历史日中的正常数据点和可疑数据点;以正常数据点为已知条件,采用短期负荷预测方法完成对可疑数据点的预测,用预测结果修正这些可疑数据点、。其修正步骤如下(适合功率、电压、电流、电量等)。

1、辨识可疑数据点

不良数据点往往具有数值突变的特征。通过这个特征可以辨识出历史负荷数据中的可疑不良数据点。对于采集系统来说,其负荷数据中存在的正常的随机变化量幅度不同,通过提高或降低判断标准,即可收紧或放宽对可疑数据点的认定。任何一种可疑数据判断机制都可能造成一定的误差(误判或漏判),但是,在采用短期负荷预测进行不良数据修正时,由于依据的是有规律的预测结果完成修正,所以所认定的可疑数据点多几个点或少几个点并不会对修正结果造成太大的影响。该算法可满足实际数据估算的要求。

2、修正可疑数据点

修正历史数据中的可疑数据是用电信息采集系统的要点和难点之一。准确修正可疑数据点的数据要比辨识它难得多。因此,传统的负荷预测系统无法很好地处理不良数据修正问题,只能依靠预测人员的人工经验来解决。采用短期负荷预测方案进行不良数据修正则可代替人工修正方式,减少预测人员的工作量,同时减少由于人工修正带来的人的主观因素影响。

根据已运行的采集系统数据分析,实际电力系统中每日不良数据点数一般不超过5%,以每天采集96点为例,不超过5点,即:91。则上述修正方案相当于,在以已知的91点数据为优化目标的情况下,对该日96点数据进行短期负荷预测,统计表明,这样条件下的预测准确度高达97.59%以上。满足系统实用化要求。

六、结束语

通过以上详细的分析以及探讨,我们能够看出电力用户用电信息采集系统数据分析与处理技术在电力公司中的作用。所以,我们必须加大资金投入力度,进行广泛推广以及应用。

参考文献

[1]莫维仁,孙宏斌,张伯明.面向电力市场的短期负荷预测系统设计及实现[J].电力系统自动化.2001(23):41―44.

[2]刘振亚.中国电力与能源[M].北京:中国电力出版社.2012(31):31-32.

第6篇

关键词:信息;税收;数据分析

中图分类号:F812.42 文献标识码:A文章编号:1007-9599(2012)05-0000-02

一、当前数据分析的制约因素

在税收管理信息化技术不断推进的形势下,税收数据的省级集中为税源管理、税收分析决策提供了良好机遇和应用平台,税收数据分析逐步成为税源管理的重要手段。但由于各方面原因,在当前还存在着一些制约数据分析的因素。

(一)对数据分析缺乏认识

数据分析是建立在现代信息化的基础之上,依托信息化平台,采用数据挖掘技术,开展数据分析,其目的在于提高税务内部决策能力,检测纳税异常,预测税源、税收发展趋势。但是有些税务干部,习惯于传统的思维方式,侧重于经验管理,缺乏对信息数据的驾驭和应用,尚未充分认识到数据分析效用。

(二)数据应用系统开发机制不完善

目前,虽然有省局“大集中”征管系统作支撑,但各类功能的应用系统层出不穷,各自独立,互不兼容。开发系统的目标也不够清晰,往往偏重一个特点或区域,缺乏通用性,实用性、可操作性。

(三)数据来源单一,质量不高

“三分技术,七分管理,十二分的数据质量”,这句IT界行话形象地说明了数据质量的重要性。科学、系统、全面的数据分析工作,是建立在全面、准确、有效的原始数据基础之上的。目前各类系统中拥有的海量数据,主要是纳税人提供的基础信息、申报缴纳、财务报表类数据,大量的纳税人生产经营、经济行业指标、第三方纳税人基础信息无法采集。同时,因少数基层干部责任心不强、审核把关不严等原因,也造成了现有数据不准确、逻辑关系错误等问题。

(四)缺乏有效的组织保障和业务支持

当前,由于没有明确定位数据分析的组织机构和岗位职责,也没有制定相应的工作制度,缺乏业务部门、基层应用单位的积极参与和支持,未能对税收数据进行深层次的挖掘、分析和研究。

(五)数据分析效果不明显

一是因数据分析还处于探索阶段,没有形成专业的数据分析队伍,经验积累少,在处理数据分析事项时往往与实际业务需求存在延时和偏差,主要表现在数据分析的模式单一,分析面窄,针对性差等原因。二是部分税务人员尤其领导层人员信息化程度低,对数据平台的作用认识不到位,把大部分精力放在简单的日常申报和事务处理上,而未对其涉税数据进行深入分析。导致数据分析的效果没有得到充分的展现。

(六)数据分析人才匮乏

开展数据分析最关键的环节就是数据的组织和分析,要做好这项工作,需要既熟悉税收业务又熟悉计算机技术的复合型人才。但在现阶段,由于机构机制、人员认识、信息化水平和系统的一些实际情况,在数据分析人才的培养上还存在一定的欠缺。

二、开展数据分析的必要性

数据分析就是利用对“大集中”征管系统和各应用平台提供的海量数据资源进行加工、处理,分析征管现状、研究存在问题、提出整改措施、规避管理风险、掌握税源状况、监控税源动态、预测经济和税收发展趋势,全面监控税收征管质量,逐步实现从经验型管理向理性分析为基础的“信息管税”的转变,有效提高税收管理的整体效能。

(一)有利于提高数据信息的应用能力

在海量的征管数据基础上,汇集所有税源信息和外部经济信息等各类数据,应用税收分析方法和数据挖掘技术加以深度加工和增值利用,把“死”数据转变成“活”信息,为领导决策、税源管理、税收分析提供指导和参考。同时快捷、简便的“活”信息有利于增强各级税务部门分析问题、研究问题、解决问题的意识和能力,有效地解决纳税人的纳税风险和税务干部的执法风险。

(二)有利于提升税源管理效率和质量

通过对数据的加工和分析,各级税务机关既可以对不同行业、不同类型纳税人进行分类量化分析,寻找管理的内在规律性,形成详细的分析报告,制定针对性的管理措施。同时也有利于加大税源分析的力度和深度,将税源基本情况、税源变动情况与税收预测相结合,全面掌握税源的规模与分布状况,从而达到加强税源监控、堵塞管理漏洞的效果。

(三)有利于为税收管理决策提供参考依据

数据分析如同高空俯瞰,通过对各个管理环节、管理层次的数据分析,不仅能从宏观上展现税收工作的各种情况,也能从微观上深查纳税人的具体信息,使各级税务机关能够及时高效地分析数据背后所隐含的信息和规律。通过数据分析,能够及时把握税源管理的重点和方向,采取有效措施规避存在的税收风险,真正利用科学手段将税收工作管深管细。

三、实施税收数据分析的几点思考

税收数据分析是用适当的统计方法对收集来的海量数据进行分析,以求最大化地开发数据资源的功能,发挥数据的作用,是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程,是信息化条件下税收管理工作的眼睛,是应用和服务税收管理的有效手段。随着信息化技术在税务部门的广泛应用,对征管数据的利用也从简单的数据查询发展到了“管税”层面,在2011年国家税务总局工作思路中就明确提出了“以信息管税为依托”的工作要求。

(一)建立数据分析应用系统的开发机制

一是在全省通用的“大集中”征管系统和统一数据综合应用平台上,按照业务需求由省局有计划的扩展系统应用层。二是省级税务部门制定统一标准和数据规范,各级税务部门在此基础上按照工作中的区域性特点以及热点、难点问题,根据实际情况,补充开发具有区域性特点的软件,提高数据处理的针对性。通过数据标准和规范制定便于数据分析时数据的采集、整合和利用。

(二)建立数据分析的管理机制

一是健全组织机构。专职组织机构是开展数据分析的保证,一方面要进一步完善数据分析中心的职责及其内部机构的设置与职能,另一方面要进一步明确数据分析应用在业务、技术等有关部门、岗位、工作环节的职责分工,使数据分析应用工作融入到税收管理的各个方面。二是搭建数据分析平台。整合“大集中”系统及其他应用系统,搭建数据分析平台,以软件分析为主导,人工分析做辅助,进行更加科学、客观、公正的数据分析工作,不断提升信息管税质效。三是健全分析体系。根据各级工作层次和应用范围建立数据分析体系。确保数据分析工作在制定指标、分析处理、结果、问题反馈等方面连贯协调,充分发挥数据分析在税收管理工作中的作用。

(三)建立数据分析的联动机制

一是加强税务部门内部的技术与业务的联动。在数据分析中,融合信息部门的技术资源与业务部的业务资源是极为现实和迫切的问题。由于数据分析工作既要具备全面的税收业务知识和丰富的实际工作经验,又要掌握较高的计算机技术水平,因此,应充分发挥部门优势和联动作用,建立以信息技术人员和各业务等部门参加的数据分析小组,把信息技术与业务需求有机结合,挖掘数据信息潜能,更好地促进税收征管工作。二是加强税务部门与外部门的联动。纳税人有关涉税信息分散在各管理部门。要加强监控管理,提高分析利用的针对性和准确性,就必须多方位采集外部数据,建立与外部门信息化或非信息化的数据交换渠道,及时获取纳税人的涉税信息以及生产经营的相关指标,为数据分析奠定坚实的基础。

第7篇

①大数据分析

②大数据可视化

③BI商业智能分析

④大数据检索

⑤产品大数据分析

⑥大数据预测、咨询

⑦大数据服务支撑平台

⑧机器学习技术

“大数据分析、可视化及BI领域——

虽然这三个领域在功能及应用范围上各有千秋,但实质上可以说是相辅相成:通过大数据的基础分析工具,研究人员可以获得数据内部的逻辑及结果表现,但通常这些结果过于复杂并缺乏合理的表达形式,使数据科学家及企业的管理者无法快速领会并对经营活动进行调整。

因此大数据的可视化方案应运而生,多数可视化方案都作为数据分析工具的延伸而存在,但也有少部分公司另辟蹊径,采用非传统方式将数据的可视化更加贴近需求。BI则是大数据分析和可视化与业务场景的结合,作为企业内部管理工具,使企业的价值有了极大的增长,成为了大数据应用领域重要的一环。

{ 1 }大数据分析领域,在朝向易用、简单化发展

大部分大数据分析企业的现状,可以说是将数据的分析、可视化及数据的采集、治理、集成进行了一体化,以大数据的分析平台形式存在。例如Fractal Analytics除了具备数据分析功能外,还提供自动化数据清理及验证服务,能够返回标准化的结构化数据;Voyager Labs则能够实时采集、分析遍布世界各地的数十亿个数据点,帮助用户进行预测。

上述典型公司主要面向大型企业进行定制化全流程服务,客单价有时高达千万美元级别,例如Fractal Analytics的客户就包括飞利浦、金佰利等大型公司,其高昂的价格及服务令小型企业望尘莫及。

但随着大数据技术的逐渐普及,SaaS化的大数据分析服务将是一个明确的发展方向,而其使用门槛也将大幅降低,从而将大数据分析的能力逐步赋予给中小企业,以真正的实现其基础资源的价值。同时确保企业数据安全的数据脱敏、数据保护市场也会随着SaaS化的到来而逐步拓展出新的市场空间。

目前大数据技术简化、低成本、易用的趋势已经在部分公司的产品策略上有所体现,例如大数据分析公司Domino的产品让数据科学家只需专注于自己的分析工作,而不用关注软硬件基础设施的建立及维护,Datameer更进一步开发出的产品屏蔽了复杂的大数据分析底层技术,通过类似电子表格的可视化数据分析用户界面,让企业的员工能够快速上手使用,RapidMiner Studio可零代码操作客户端,实现机器学习、数据挖掘、文本挖掘、预测性分析等功能。

在大数据分析能力普及的同时,提升数据分析性能、优化数据分析结果的技术研发也在快速进展中。例如SigOpt通过自主开发的贝叶斯优化(Bayesian Optimization)算法来调整模型的参数,获得了比常见的网格搜索(grid searching technique)解决方案更快、更稳定、更易于使用的结果,目前SigOpt的产品不仅可以让用户测试不同变量,还能够提供下一步的测试建议,以帮助用户持续优化改善数据分析结果。

令人感到欣喜的是,在大数据分析领域还存在着一些颠覆了传统数据分析理论,采用独特方式方法进行数据分析的公司。这类公司的技术对传统数据分析方法进行了很好的补充,在特定领域有着成功的应用。

这类公司中的典型之一是由三位全球顶尖的数学家创立的Ayasdi,它利用拓扑数据分析技术和上百种机器学习的算法来处理复杂的数据集,不仅可以有效地捕捉高维数据空间的拓扑信息,而且擅长发现一些用传统方法无法发现的小分类,这种方法目前在基因与癌症研究领域大显身手,例如一位医生利用Ayasdi的数据分析技术发现了乳腺癌的14个变种,如今Ayasdi已经在金融服务和医疗保健行业中获得了相当数量的客户。

{ 2 }可视化技术,逐步实现了自动化、智能化

大数据可视化是连接数据分析结果与人脑的最好途径,因此可视化技术的高低也成为了左右大数据企业获客能力的重要因素。目前可视化的发展方向同大数据分析一致,都是朝着简单、自动化、智能的方向在努力。

典型企业如Alteryx是一个提供一站式数据分析平台的初创公司,旨在让用户在同一个平台上完成数据输入、建模以及数据图形化等操作,将数据运算与精美的图像完美地嫁接在一起,并能够和SAS和R语言一样进行数据的统计和分析。

通过可视化帮助用户实现真正的管理能力提升也是重要的功能之一,德国大数据公司Celonis通过流程挖掘技术,从日常记录中提取数据、发现关键因素,并最终揭示公司在业务中的执行情况,能够帮助客户公司提高30%的工作效率。

发展到如今,可视化技术已经不局限于传统的分析结果展示,而是能够直接转换文本、图片等非结构化的数据并直观展现,例如Quid利用机器智能读取大量文本,然后将该数据转换为交互式视觉地图,以节约过去通常会耗费在阅读检索中的大量时间。Origami帮助营销人员将CRM、社交媒体、邮件营销和调查报告等跨平台的数据整合并进行有效分析,使其简单化、直观化、视觉化,人人都能够高效实用。

同时数据分析及可视化对硬件应用的革新也在进行中,开发GPU关系数据库服务的Kinetica获得了5000万美元A轮融资,采用同一技术路线的MapD也已经能够做到比传统计算内核快100倍的速度对大数据进行查询与可视化。

{ 3 }BI技术摆脱"鸡肋",实时便捷普惠政企效率提升

BI技术的发展已经有了较长的历史,但由于技术因素此前一直被限制于企业内部采集与应用,实际发挥的效果有限并且使用率不高。如今在数据采集与应用范围普及与大数据分析、可视化技术的推动下,通过数据仪表板、智能决策等方式提升企业运营效率利器的BI再次获得了资本市场的青睐,Tableau作为BI的代表性企业已经顺利IPO目前市值超过48亿美元,另一家代表性企业DOMO估值也达到20亿美元,成长速度远超传统商业软件公司。

相比于可视化技术,BI更偏重于实际的应用,通过模板化、SaaS化及去代码等方式,BI应用范围不再局限于数据科学家及企业高管,可预见未来企业内部每个员工都可以通过BI工具获知自己及所处部门的各项数据,并能够有针对性的改进工作方式与方向。

已经累计融资1.77亿美元的Looker令用户能够使用自然语言进行查询,降低了查询大型数据集的门槛;GoodData为企业提供大数据分析SaaS服务,其所有的数据分析服务实现了100%云化,企业可以将公司已有数据导入GoodData的云平台,再对数据做跟踪、切分、可视化、分析等处理。

BI领域一个有意思的应用案例是Qlik公司的产品受到了中国海关总署的高度赞扬。海关总署每天都需要进行庞大的数据分析,Qlik则通过图形化数据展示,使海关管理人员不再受平台和时间的限制,能够多视角长跨度的分析,实现了对于现有海量数据的业务的快速展示,极大地促进了稽查效果。

“企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台及机器学习领域——

企业大数据检索能够充分挖掘并释放企业数据的潜力;产品的大数据分析使用户行为成为了产品设计与运营环节的重要参考因素;大数据技术与咨询业务的结合则对咨询行业形成了很大的影响,数据技术导向的咨询业务将极有可能成为未来行业的主流选择;大数据服务支撑平台类企业则为大数据技术的普及和实用化做了很大的贡献,是大数据技术生态中不可或缺的一环;最后是机器学习,作为大数据分析的底层技术方法也逐渐开始得到广泛应用。

首先将企业大数据检索、产品大数据分析、大数据咨询预测、大数据平台和机器学习这五个领域的典型企业列举如下,接下来将分版块进行详细介绍。

{ 4 }企业大数据检索

移动互联网的普及与SaaS服务的兴起令企业沉淀的数据量呈指数级上升,但目前对企业数据价值的挖掘仅仅停留在较浅层面,真正的大数据分析能力还尚未应用。因此如何做好企业内部数据信息价值的发掘成为了关键的第一步。

提升企业数据挖掘检索能力,并将检索的技术门槛降低的典型企业有Algolia,目前其产品具备关键字输入智能容错功能,并提供搜索排名配置,能够让普通员工也能按需要找到自己所需的数据信息。同时Algolia还为移动设备提供了离线搜索引擎,其C++ SDK可以嵌入到应用服务器端,这样即便没有网络连接应用也能提供搜索功能,适用范围很广。

而在SaaS化服务兴起的同时,企业采用多种软件导致内部数据不联通而形成了数据孤岛。根据互联网女皇Mary Meeker的分析,不同行业的公司平均使用SaaS服务的数量从最低25个至高达91个,需要跨平台数据检索分析服务。Maana开发的数据搜索和发现平台Maana Knowledge Graph,其长处便是收集来自多个系统或者"孤岛"的数据,并将其转换为运营建议,可广泛应用于多个行业。

{ 5 }产品大数据分析

产品大数据分析相对其他应用来说关注度稍低,但其能够发挥的功能并不少。通过收集用户的浏览、点击、购买等行为,不单从宏观上能够察觉用户群体的喜好变化提前应对,微观上还能够构建用户画像,从而做到定制的产品推荐与营销,能够有效的提升用户的消费水平与满意程度。

Mixpanel便是一家提供类似产品的公司,其让企业用户跟踪用户的使用习惯提供实时分析,其产品有用户动态分析(Trends)、行为漏斗模型(Funnels)、用户活跃度(Cohorts)及单用户行为分析(People)等几个模块,全面的覆盖了可能发生的用户行为与场景。

{ 6 }大数据咨询预测

如今大数据技术的发展为事件分析和预测提供了可能,并且准确度和处理速度已经具备了很大竞争力,传统咨询公司的处境类似于现在面对AI威胁的华尔街分析师,或许不久之后就将会被替代。因此随着逐渐出现大数据咨询公司的同时,传统咨询企业也纷纷与大数据技术公司合作,甚至成立了自己的数据业务部门。

Opera Solutions便是一家依托大数据分析的咨询公司,其创始人是咨询行业资深人士,曾创办了商业咨询公司Mitchell Madison和Zeborg。

目前Opera致力于金融领域的数据分析类咨询,通过建模、定量分析给客户提供建议,解决客户的商业问题。例如其计算机系统可以一次性采集数十亿条数据,包含从房产和汽车价格到经纪账户和供应链的实时数据等,通过分析从中获得有关消费者、市场和整个经济体系将如何行动的信号或见解。其客户包含了咨询机构及花旗银行等公司,最近还为摩根士丹利提供了帮助经纪人团队给其客户提供投资建议的业务。

新技术、机器学习与咨询预测行业的结合,相比于仅使用大数据分析技术能够获得更好的效果,也成为了行业内的一个小热点。例如基于社会物理学原理的Endor能够依托少量数据生成统一的人类行为数据集,并比传统海量数据分析方式更早的做出模式识别与判断。在甄别facebook上受ISIS控制的账号的实验中,根据已知少量ISIS账号特性,Endor高效分辨出了新的ISIS疑似账号并且准确度令人满意。

{ 7 }大数据服务支撑平台

目前围绕着大数据技术与大数据产业生态链发展的,还有许多是平台服务型的公司,这类公司具备一定的技术水平,但主要通过服务大数据技术公司及科研人员而存在,是技术生态中不可或缺的一环。

Dataiku创建了一个云平台,旨在使数据科学家和普通员工更容易获得公司收集的大数据,并通过机器学习库缩短了专家以及数据分析师所需要的时间。

Algorithmia的平台上提供包括机器学习、语义分析、文本分析等通用性算法,一旦用户找到想用的算法,只需添加几行简单的算法查询代码到应用中,Algorithmia的服务器就会与应用连接,避免了开发者的重复劳动。

目前部分向开发者社区业务发展过渡的平台型企业,因其资源已经得到行业巨头的青睐,被Google收购的Kaggle便是一例,通过举办数据科学周边的线上竞赛,Kaggle吸引了大量数据科学家、机器学习开发者的参与,为各类现实中的商业难题寻找基于数据的算法解决方案。同时Kaggle为其社区提供了一整套服务,包括知名的招聘服务以及代码分享工具Kernels。

{ 8 }机器学习

机器学习,是模式识别、统计学习、数据挖掘的技术手段,也是计算机视觉、语音识别、自然语言处理等领域的底层技术,在附件的介绍中大家可以看到,微软Azure、Google云平台及AWS都推出了自己的机器学习产品,而众多的机器学习创业公司则通过提供有特色的技术或服务进行差异化竞争。

已累计获得了7900万美元融资的Attivio专注于利用机器学习技术通过文本进行情绪分析,提供有监督的机器学习与无监督机器学习两种技术,帮助企业通过识别企业语料库中的文档进行情绪建模与分析。思科通过Attivio的智能系统令销售人员能够在与客户合作时依据对方的情绪、消费能力等数据推荐合适产品,从而节省了数百万的销售运营费用,同时节约了销售团队15-25%的时间。

第8篇

数据驱动业务

在大数据时代,谁拥有数据,谁能高效分析数据,谁能最充分地利用数据进行创新,谁就是胜利者。这样的例子比比皆是。

沃尔沃是名副其实的创新者,它是最早触及汽车互联网的。它将传统的汽车制造相关数据与汽车行驶数据相结合,进行大数据分析,不仅提供优质的汽车,还能有效减少事故的发生。

西门子亦是如此,它生产火车,同时分析由火车上的传感器收集来的各类数据。对于西门子来说,它销售的不仅仅是火车这一产品,更是一种服务,可以及时发现隐患,提前进行主动维修,尽可能避免灾难的发生。

这些传统行业的变化完全是由数据驱动。“我们与客户一直保持着良好的互动,能够深刻理解客户的这些变化和新的需求,并及时响应,不断加强数据分析的能力,同时扩展业务领域,在数据咨询、数据科学等领域进行大量投入。”Teradata天睿公司国际集团执行副总裁Peter Mikkelsen(彼得・米科尔森)表示,“在大数据时代,企业若想继续生存,就必须改变原有的业务模式,其依据就是数据。”

随着数据分析成为数字化时代业务优化、变革和重塑的强有力引擎,越来越多的企业已经意识到数据分析对企业发展的重要性,正在努力探索并提升数据分析能力,在现有的业务流程中植入数据分析,通过更有效地收集数据、分析数据,获得更深刻的洞察,提高生产效率,并降低运营成本,用数据驱动精准营销,带来更多的创新和价值。

“数据对增强企业的竞争优势,实现良好的客户体验至关重要。数据和分析正成为各个行业的用户促进业务发展和创新的驱动力。”Teradata天睿公司大中华区首席执行官辛儿伦(Aaron Hsin)表示,“我们以客户需求为中心,通过创新的技术、全面的产品选项和卓越的咨询与服务,帮助客户通过数据分析获得洞察,快速适应不断变化的业务需求。”

如今,企业正面临着巨大的数据压力,比如新的数据类型、快速增加的数据量,这就要求企业具备更加快速的分析和决策能力。再比如,物联网的普及带来了大量传感器的数据,对这些数据进行有效的分析,是所有企业甚至个人消费者的迫切需求,这就要求厂商在数据分析工具方面不断创新,将人工智能等新技术与数据分析相结合。企业还必须清楚地认识到,数据分析绝不是IT一个部门的事,公司的高层和业务部门同样需要掌握数据,获得更具价值的分析结果,并以此作为企业决策和促进业务发展的依据。

抓住大数据的机遇

大数据时代蕴含着数据驱动转型的巨大机遇。例如,数据分析正成为银行业未来发展和竞争的制高点,通过建立大数据驱动的银行营销服务体系,引入外部互联网和生活场景数据,将进一步释放和扩大银行自身数据的价值,帮助整个银行业从根本上改变管理思路,增强竞争力。中国光大银行就是一例,它从2006年开始与Teradata合作共建数据仓库,之后又采用Hadoop技术增强历史数据查询能力,到2015年移动应用产品上线后,确立了以大数据分析平台应用为重点。随着金融服务场景多元化,以及大数据技术的发展,在银行业中,数据价值转化从后台走向前台是必然趋势,实现金融服务与产品的创新是必由之路。光大银行当前就将数据产品化转型作为创新的主要途径,经历定制化、规模化生产、智能化决策等若干发展阶段,最终将面向银行整体运营提供服务。用数据分析解决棘手的业务问题,预测客户行为,进行专业的场景化分析,提供精细化的管理建议,数据分析成了光大银行数字化转型的重要抓手。

彼得・米科尔森表示:“企业加快数字化转型的步伐,不仅可以激活数据分析市场的发展,而且带来了新的需求和应用趋势。从全球市场来看,客户对数据分析的需求不仅集中在提高客户体验、实现财务转型和产品创新,以及降低风险等方面,而且也反映在利用数据分析实现决策的自动化,以及服务新的应用领域方面。”

Teradata通过不断提供创新的产品和工具,为复杂的数据分析提供解决方案,挖掘更大的数据价值。同时,Teradata还关注最新的技术发展趋势,积极拥抱开源技术和云计算,目标是建立完整的生态系统,为企业的云化提供支持。

Teradata进入中国已经20年,拥有1000多名员工,其中80%的人员是服务和咨询人员。在中国,Teradata坚定不移地执行全球策略,依托公司40多年的研发和技术积累,提供多元化的数据分析平台,以及专业化的咨询服务,帮助客户改善业务,同时提供创新的定制化服务,实现快速的本地化发展。据辛儿伦介绍,目前Teradata大中华区已经建立了12大行业的数据模型,结合各行业的最佳实践,可以将数据分析快速用于客户的业务,获得大数据洞察,并提升业绩。

数据驱动业务已经有很多成功案例。来自全球不同行业的领导企业的40余位嘉宾,在峰会上分享了他们如何通过数据分析让业务流程更加高效和智慧的经验,同时探讨了金融、电信、医疗保健、航空、物流、制造、零售等行业在数据应用和分析方面的最佳实践。

数据分析同步发展

成立41年来,Teradata只专注做好一件事,就是数据分析。在大数据的概念出现以前,企业也在做着数据分析的工作,只不过那时的数据量没有现在大,而且计算和分析工具的能力和效率不如现在这么高。在移踊チ和社交媒体兴起后,数据呈几何级数增长大数据这一新的概念得到了广泛认同。在大数据出现后,传统的计算和分析工具显得捉襟见肘,人工智能成为一种更有效的增强分析能力的工具。

数据量的增长与数据分析工具的创新形成波浪似的前进。其实,数据与分析是并肩成长的。在大数据概念出现前的30年中,数据与分析一直保持着同步发展。大数据的出现打破了这一平衡,数据量的增长比分析能力的提升要快得多。这时就涌现出许多新技术,比如云计算、人工智能等,而这些新技术最终导致的结果又是让数据与分析回归同步发展。当分析技术跟不上数据的发展,就又会有新的技术冒头。数据与分析就是这样相互促进、共同发展。

面对大数据,企业要怎么办?只有不断整合数据,采用更好的计算和分析方法,快速找到有用的信息,并快速做出决策。以前,企业做出一项决策可能要用一个月的时间,现在利用高效的数据分析工具,时间可能缩短到一个小时,甚至更短。企业必须持续提升信息的获取和分析能力,同时实现对数据的治理。另外,企业要跟踪新的技术发展趋势,云计算、区块链等新技术可能会影响到数据分析。

在本次峰会上,Teradata了诸多新产品,概括起来可归成三大类:Teradata推出业内首创的面向混合云的可移植许可模式;升级Teradata客户体验之旅解决方案;可实现计算与存储独立伸缩的IntelliFlex,以及软硬件集成的IntelliBase。

第9篇

关键词:大数据平台;电网统一数据中心;全业务;数据分析域

中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2016)34-0015-03

稻莘治鲇蚴侨业务、全类型、全时间维度电网数据的汇集中心,是为电网公司各类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境,改变过去分析型应用数据反复提取、冗余存储的局面,实现“搬数据”向“搬计算”的转变,支撑企业级数据分析应用的全面开展。

1 电网全业务数据分析域平台的作用

基于大数据平台的电网全业务数据分析域主要完成ERP、生产、营销、调度等核心业务系统数据的提取清洗、实时采集类、分析决策类相关应用迁移迁移改造;完成统一数据模型及主数据标准验证;完成统一分析服务建设等工作,建成全业务统一数据分析域。

2 电网全业务数据分析域平台接入的业务数据

2.1内部业务系统数据接入

基于电网公司总部数据字典统一梳理成果,以业务系统实际情况,结合统一数据分析服务、采集监测与分析决策等问题,遵循统一数据集成接口规范,统一数据模型(SG-CIM3.0、数据仓库模型),梳理ERP、财务管控、营销业务、营销稽查监控系统、营销档案管理、营销移动作业、一体化缴费接入管理、PMS2.0、OMS、电能质量在线监测、资产全寿命、省级计量中心生产调度、供电电压自动采集、科技与信息化项目管理、项目过程管理、电力市场交易、IMS、TMS、电动汽车智能、干部管理、信息客户服务管理、应急预案管理、车辆调度管理、经济法律、输变电GPMS、双流双控等业务系统,全量接入数据分析域,对于不符合SG-CIM3.0及主数据标准的相关业务数据进行清洗转换,完成数据流转至数据仓库的接口开发,为各类分析应用的实现提供完备的数据资源。

2.2外部数据统一采集

基于大数据平台,根据大数据分析应用业务,完成经济、气象、征信等外部数据采集。

3 电网全业务数据分析域平台分析服务功能设计

3.1统一分析服务

基于统一分析服务功能,开展低电压实时监测、负荷预测及防窃电分析、配网故障量监测分析、临时用电超期未办理合规性监测场景四个应用建设。

3.1.1配电网低电压实时监测

配网低电压监测主要针对目前电网设备发生低电压的程度,从低电压台区和低电压用户两个方面监测低电压的场景研发。运用数据分析域上多源异构数据集成等数据存储技术,实时计算技术,统计分析出低电压的区域分布情况、涉及台区情况、低电压出现频率等,及时将发现的问题通知到相关部门,由相关部门对低电压台区或用户进行现场核实,查找出详细原因,提出改造措施,消除低电压情况。

3.1.2用户侧负荷预测及窃电行为分析场景

用户侧负荷预测及窃电行为分析功能可以提取客户信息、用电量信息、用电负荷、事件异常等数据,从用电概况、负荷预测分析、负荷特性分析、防窃电预警分析等方面,选取相关性最高的影响因素,利用数据挖掘算法构建负荷预测模型、负荷特性分析模型、防窃电预警模型。

3.1.3配网设备状态监测分析场景

通过提取设备台账、用电负荷、用户档案等数据,从配变设备基本概况、配变故障量预测分析及配变重过载的深化研究等方面,选取相关性最高的影响因素,利用数据挖掘算法构建故障量预测模型、农网配变重过载预测模型、迎峰度冬重过载预测模型实现配网设备状态监测分析场景。

3.1.4临时用电超期未办理合规性监测

通过提取临时用电数据,从“退费条件后是否按时退费给用户”和“转收入条件后是否按时进行转收入”两个维度,按单位、按月、按异动项目类型,总体展示临时接电用户目前总体情况及明细数据,并通过提醒、告警等方式监测各单位未及时退费项目、未及时转收入项目的情况,提醒相关人员及时处理,避免造成的合同纠纷或企业损失,有效提升公司临时用电业务合法性、合规性。

3.2采集监测与分析决策类应用迁移改造

3.2.1用电信息采集系统迁移改造

采用分布式消息队列+分布式流计算方式,完成用电信息采集数据访问接口的设计开发,实时同步用电信息采集数据,并基于大数据平台,实现实时采集数据的统一对外共享,为用电信息采集系统前端应用及营销业务、生产管理等系统,提供统一、高效的采集数据访问服提升用电信息采集数据的共享服务能力。

3.2.2输变电在线监测系统迁移改造

通过输变电状态监测数据在线计算、离线计算等程序设计研发,同时完成数据访问接口的设计研发,实现输变电状态监测信息的采集和在线处理,为输变电设备状态监测提供灵活可扩展的数据存储和分析能力,实现通过大数据平台,统一对外提供高效的输变电设备状态采集数据服务。

3.2.3同期线损系统迁移改造

基于数据分析域,通过分析线损系统现有大数据计算框架与大数据平台技术路线的差异,开展同期线损系统中电量与线损大数据计算区功能融入大数据平台的研究及开发,将线损系统Cassandra存储改为HBase存储,对已实现的电量与线损分布式计算服务和提供的电量与线损结果查询服务接口进行改造,完成同期线损迁移改造方案、存储模型设计,实现线损相关存储、计算组件的迁移改造及数据迁移。

3.2.4配电网运营分析应用迁移改造

利用大数据平台,结合用电信息采集数据迁移,完成配电网运营分析应用优化改造,优化并提升数据提取、传输以及单体设备计算能力。结合配电网运营分析应用的数据模型成果,基于大数据平成数据缓冲表、接口表/中间表、计算结果表的模型设计。根据PMS、营销、调度等数据接入需求,基于大数据平台,完成PMS2.0、营销业务系统档案数据定期同步接口开发,完成调度数据采集及解析程序开发。

3.3统一数据模型与主数据标准验证

基于统一数据模型设计成果,在数据分析域上验证数据仓库模型。结合数据提取清洗及统一分析服务建设需求,开展人员组织、财务、物资、项目、电网、资产、客户等主题域的数据模型的差异性比对,对数据仓库模型进行完善及优化。将数据仓库模型部署至数据分析域中,并按不同业务域模型规范将ODS的数据存放至数据仓库中,支撑分析应用场景建设。

4 电网全业务数据分析域平台技术架构

根据统一数据中心总体架构设计,数据分析域是全业务、全类型、全时间维度数据的汇集中心,是为各类分析决策类应用提供完备的数据资源、高效的分析计算能力及统一的运行环境,改变过去分析型应用数据反复提取、冗余存储的局面,实现“搬数据”向“搬计算”的转变,支撑企业级数据分析应用的全面开展。

根据统一数据中心数据分析域总体架构要求,结合电力数据中心、大数据平台的实际建设情况,设计电力数据分析域系统架构,包括数据接入、数据存储、数据计算、统一分析服务、系统管理等5个层次。

平台通过分布式消息队列、ETL、Sqoop、API等各种技术手段,提取结构化非实时数据、实时数据、外部数据,对各类数据按照统一数据规范进行标准化及关联,并按不同时效性的计算及应用需求,分类进行数据存储、流转及管理。

5 电网全业务数据分析域平台采用的开发技术

数据分析域的数据抽方面取采用大数据平台数据加载工具(基于Sqoop优化封装)+文件导入方式。业务系统存量数据接入ODS区,涉及业务系统数据提取至缓冲区、缓冲区数据提取至统一视图区。

大数据平台数据加载组件,基于Sqoop工具优化封装,支持关系型数据库与大数据平台中的分布式数据库之间的数据提取。对于ODS数据加载至数据仓库/数据集市,采用大数据平台中的数据加载组件(基于Sqoop优化封装)。对于ODS缓冲区、ODS视图区、数据仓库、数据集市之间的数据清洗转换,采用大数据平台数据提取组件(基于Kettle优化封装)实现。提取工具(基于Kettle优化封装)基础功能包括数据获取、数据清洗转换、数据加载、任务管理等,支持内部所有异构系统、多数据类型、不同数据提取方式的数据采集,对多种数据库、套装软件、封闭式主机、EAI软件、文本等数据批量提取,实现对数据高效提取、传输和分发,满足对数据提取和数据清洗功能。

电信息等实时类数据采集,采用大数据平台消息队列组件(基于Kafka优化封装)+流计算组件(基于Storm优化封装),实现生产实时数据的高效采集、计算和存储。消息队列组件(基于Kafka优化封装)用于接收来自前端不同实时源的数据,后端则采用流计算组件(基于Storm优化封装)技术对实时数据进行保存及分析。

外部数据采集主要有3种模式,一是线下手工采集,然后文件导入大数据平台;二是通过外部接口采集;三是通过数据爬取程序采集。

数据仓库存采用基于Hadoop HIVE+Impala组件优化封装的分布式数据仓库,存放按业务主题进行划分、归类的历史数据。数据集市的数据由数据仓库的数据经过转换后形成,直接支撑前端的应用需求。数据集市,采用基于开源PostgreSQL优化封装的分布式关系型数据库。在数据集市应用中,对于实时性要求不高的结果数据查询,将通过访问PostgreSQL实现;对于实时性要求高的即时查询应用,则直接通过Impala访问HIVE的明细数据。

面向海量规模的实时采集类数据,采用基于Hadoop Hbase优化封装,Hbase是基于Hadoop的NoSQL大数据平台分布式列式数据库作为存储媒介。为大数据提供实时的读/写操作,能够利用HDFS的分布式处理模式,并通过MapReduce获取强大的离线处理或批量处理能力,同时能够融合key/value存储模式,以实现实时查询能力。热点数据存储在基于Redis优化封装的大数据平台内存数据库中,以供快速读取、应用。

分析服务,采用大数据平台自助式分析工具。大数据平台自助式分析工具提供易用、快速、灵活的可视化设计器和丰富多样化的可视化控件,结合数据建模的数据主题和数据挖掘的业务挖掘模型,业务人员可自定义配置分析界面。

数据分析域的系统管理,采用数据管理服务平台实现,根据各类扩展需求,对数据管理服务平台进行增强开发,以适应统一数据中心分析域的系统管理要求。

6 结束语

通过对大数据技术的研究和应用,开发部署电网统一数据中心全业务数据分析域平台,能够有效支撑电网配、变、过载、预警、分析等场景应用,为数据分析人员提供数据挖掘模型构建能力,满足电网各类业务应用的大数据分析、挖掘需求。

参考文献:

[1] 波,陈乾,眭建新.基于大数据技术的电网运营分析决策系统研究[J].电力信息与通信技术,2015,13(8):128-131.

[2] 王忻.基于大数据技术的电力公司运营系统研究[J].商,2016(4):214-214.

[3] 赵云山,刘焕焕.大数据技术在电力行业的应用研究[J].电力行业信息化年会,2013(30):57-62.

[4] 段军红,张乃丹,赵博,闫晓斌.电力大数据基础体系架构与应用研究[J].电力信息与通信技术,2015,13(2):92-95.

[5] 刁柏青,步万峰.构建集中统一的电网集团数据中心[J].电力信息与通信技术,2004,2(10):57-59.

[6] 姚强,杨志武.基于集中数据中心的统一数据平台建设分析[J].内蒙古电力技术,2010,28(3):3-5.

第10篇

关键词:生物医学;大数据;研究趋势

由于生物医学涉及到了许多学科的理论和知识,因此,在大数据时代下,生物医学研究能够获得更加全面细致的数据支持。随着大数据技术的深入应用,生物医学的数据规模正呈现出不断扩大的趋势。在这样的背景下,生物医学的内涵将变得更加丰富。由此可见,大数据技术和生物医学的有机融合对于生物学规律的研究具有十分重要的积极意义。

1对生物医学大数据的分析研究

大数据分析是生物医学大数据中的重要组成部分之一,大数据分析的深入开展需要大数据储存的强力支持,目前,生物医学大数据分析的内容主要包括以下几个方面:

1.1蛋白质组数据分析研究

经过长时间的发展,蛋白质组质谱分析技术已经逐渐趋于完善,在分析工作开展的过程中,需要使用到大量具备高分辨率的质谱数据,这些数据在蛋白组定性和定量分析工作开展的过程中能够发挥出巨大的作用。当前阶段,蛋白质组学的研究内容得到了极大的扩充,更加强调了对研究规律深入应用。在大数据技术的支持下,很多更加先进高效的数据分析方法得到了有效的应用,蛋白质组学研究的标准朝着更加规范化以及系统化的方向发展,因此,为了保障蛋白质组学研究的顺利发展,必须加快推进不同层面组学数据的综合分析。

1.2单细胞数据的分析研究

单细胞数据分析的细胞数量十分庞大,因此,相应的数据量也十分庞大。单细胞基因组测序中涉及到了DNA扩增技术的应用,这也导致测序深度存在高度不一致的现象,这对相应的基因组分析工作带来了巨大的挑战,加之单细胞的性质存在一定的差异性,因此,单细胞数据分析的难度相对较高。当前阶段,单细胞基因组数据分析所使用的方法较少,比较常见的方法为单细胞基因表达差异化分析方法以及经过完善的velvet基因组拼装方法,同时,在单细胞异质化分析领域仍旧存在大量的空白。

1.3基因组数据分析研究

随着越来越多先进测序技术的推广,高通量数据分析法的应用变得更加完善,为基因组和转录组数据的分析提供了有效的支持。系统化数据分析实现了对基因组、转录组以及的表观基因组等数据的综合分析,促进了生物系统研究朝着的更加标准化以及深入化的方向发展。大量的高通量测序数据的采集推动了基因组的数据的集中整合以及深度挖掘,因此必须使用更加先进的大数据分析硬件以及软件才能保障基因组数据分析的有效推进。

1.4宏基因组数据分析研究

近些年来,与生物医学相关的宏基因组项目的数量正呈现出迅猛增加的趋势,其数量的规模也在不断扩大。同时吗,微生物群落大数据分析项目的数据量也在增加,在这样的情况下,如何保障数据分析的效率和准确性就成了科研人员必须考虑的问题。目前,宏基因组研究领域已经基本完成了数据库的构建,微生物群落研究的流程的规范性得到了极大的提升。同时,一大批微生物群落生物信息学研究网站开始涌现出来,为微生物群落研究提供了更加完善的服务项目。此外,微生物群落数据规模的不断扩展对计算机的性能提出了更高的要求,因此必须研发出更加先进的计算机分析平台,才能更好的应对数据量不断增加的趋势。

2大数据时代下生物医学的研究趋势探究

目前,大数据已经渗透到社会的各个领域,为各行各业的发展提供了更加庞大的数据,在生物医学领域,大数据技术的应用推动了生物医学研究的高速发展,具体表现在以下几个方面:

2.1促进了不同类型生物医学数据的高度整合

通过不同样本的高效整合,可以构建出更加全面完善的数据模型,这样可以实现不同类型、尺度数据的集成化分析。但是需要注意的是,在上述过程中,由于数据的格式等问题,不同数据之间不可避免的会产生一定的矛盾,为了有效的解决这一问题,必须采用更加智能化的数据建模和分析方法。这是生物医学数据研究发展的重要方向这一。

2.2生物医学数据的实时分析和临床处理

随着生物医学研究的不断发展,对样本的迅速提取以及数据的深入挖掘已经成为其必然趋势,因此,生物医学数据的临床处理受到了越来越多的关注,逐渐成为生物医学研究的主要方向之一。

2.3生物医学数据的个性化分析、预测和保存

生物医学数据的采集以及分析处理不仅能够促进数据规模的增大,还能够为相关数据的个性化分析预测提供更加有效的支持,同时,针对个性化数据的分析安全保存也是必须重视的问题。

2.4人体微生物群落研究

生物医学大数据在人体研究领域不仅包含了人体基因型和表型数据,同时还涉及到了人体微生物群落的研究。人体微生物群落对人体健康的影响主要体现在以下几点:其一,通过病原菌数据库的建立能够为患者致病原因的分析提供良好的帮助。其二,通过对人体微生物的检测可以对其健康状况进行科学的预测,及时采取合适的预防措施避免疾病的出现。其三,通过人体有益菌的合理利用能够极大的提升人体的免疫能力。其四,及时发现有害菌,促进预防工作的高效开展。其五,生物医学数据研究方法对于多种类型的基础医学研究的发展具有一定的积极意义。其六,通过对人体微生物群落的研究,可以有效的应对细菌武器的侵害,为有害菌的控制和治疗提供良好的帮助。

3结语

第11篇

IBM大数据分析融入腾讯媒体报道

在世界杯开赛之前,IBM和腾讯“牵手”成为腾讯体育社交媒体数据分析合作伙伴。IBM根据网友和球迷在腾讯网络媒体平台及社交网络上的海量公开信息和数据,通过大数据分析技术,获得球迷话题、球迷类型、球迷个性分析等一系列洞察;同时还能根据这些信息得出网友心中真实的球队支持率。而腾讯则通过这些分析得出的洞察来指导内容报道,细分受众,制作球迷更加喜欢的内容。

比如,IBM基于典型球迷在微博等社交媒体上所内容的综合分析,并对比心理学上的任务性格分析模型,通过大数据技术进行球迷的性格分析,勾勒出不同球星的典型球迷形象,不仅是球迷的兴趣爱好,连性格特点和行为方式都刻画的十分详细。如内马尔球迷的关键词为“阳光活泼、爱凑热闹、爱找乐子、喜欢悠闲生活”等等。

从世界杯看社交大数据分析如何为行业客户创造价值

通过大数据分析,媒体能够了解网友和球迷的喜好和关注点,就能够有针对性的制作内容并进行推荐,这大大改善了网友的体验。作为一名媒体人,笔者经常会为找到读者喜欢的话题而头痛,往往精心制作的选题却反映冷淡,其原因在于媒体认知和读者需求出现了脱节。大数据分析改变了媒体传统的单向式传播模式,让读者变成内容制作的“参与者”,从而更加贴近读者的需求。“大数据”开启了媒体报道的新模式,据悉,众多媒体集团都表现出兴趣,希望能和IBM进行类似的合作。同时,在本届世界杯上,大数据和媒体的结合,也为球迷送去了一场与众不同的“足球报道盛宴”。

行业CMO最关注大数据和社交网络对营销的影响

IBM在本届世界杯和腾讯的合作只是IBM在体育行业大数据分析的一个缩影,此前IBM大数据社交分析已经在网球四大大满贯赛事、橄榄球、高尔夫球等赛事中也发挥着巨大作用,为球迷带来了更佳的观赛体验,为球员和教练合理制定训练和比赛计划提供着参考,同时也助力主办方创办世界顶级赛事也帮助转播机构传递精彩比赛。事实上,其它行业的企业CMO也正越来越重视大数据和社交网络在企业营销中的价值。

图注一:中国的CMO已经意识到营销管理在将来的巨大变化,并且已经开始在投资/整合技术与分析方面做出相应的准备

根据IBM年度的全球和中国CMO调查报告,在被认为对营销管理产生重要影响的13中因素中,数据爆炸和社交媒体被认为是最重要的两种因素。其中,85%的CMO都选择企业应对数据爆炸做出市场营销的改变;71%的CMO则选择了社交媒体。

IBM大数据社交分析已有成熟的方法论

移动技术和社交业务正在催生着很多新的IT服务来与被数字化武装的个体进行交互。对于企业而言,构建一套全方位的互动参与体系,在员工、合作伙伴和客户之间建立参与机制将尤为重要。而IBM在社交大数据分析方面不仅有SoftLayer等云计算基础设施的支撑,还通过多年积累形成了一套为企业提供社交环境下客户全生命周期支持的完整方法论,使大数据社交分析能充分挖掘到在媒体行业、电信、金融、交通运输、零售、快速消费品等不同行业的客户价值。

图注2:IBM社交大数据分析解决方案为企业提供社交环境下客户全生命周期的支持

第12篇

数据化是传统企业与互联网企业的本质区别。过去,数据仅仅是信息技术处理的一个符号或标识;现在,数据是业务发展的必备伙伴,是驱动企业数字化转型和业务创新的核心要素。互联网+时代,数据是企业的战略资产,如何充分挖掘数据资产的价值?不仅需要构建企业数据分析技术平台,更重要的是通过建设根植于企业的数据分析文化,形成数据分析运营机制。

数据分析驱动的业务模式

数字化时代的卓越绩效企业,都把数据分析视为企业战略竞争能力,正在探索以创造性的方式来构建集战略治理、数据管理、数据分析、技术与工具、组织与人员管理一体化的数据分析驱动体系,以提升数据应用速度与价值实现。数据分析驱动型业务转型,实际是构建一个连接数据、技术、工具、人员和流程的生态系统,包括信息管理、定量分析、预测模型、绩效管理,以及业务决策和行动管理等活动的组合,用于解决业务问题和提升决策有效性的商业洞察体系。这种商业洞察体系关键特征是聚焦业务关键问题是什么?需要如何改进等?通过“问题驱动”的方式,分析管理和业务问题的解决方式,如营销业务重点要解决如何准确洞察消费者需求、如何提升渠道关系、如何实现精准营销等;所以,企业在数字化转型过程中,需要我们具备发现各种问题的敏锐、正视问题的清醒、解决问题的自觉。通过准确的问题定义、清晰的问题分析及关键成功因素的识别,借助数据分析驱动的实施模式,实现从问题到成果的优化和变革。文/福建中烟工业有限责任公司吴正举数据分析驱动的价值实现数据分析驱动模式价值的实现,需要以问题驱动,在“管理数据”的基础上,“获悉洞察”优化决策,进而“采取行动”成就业务绩效,从每一次业务结果中获得反馈,改善基于洞察的决策流程,创造突破性业务成果。数据分析驱动的价值实现路径,是基于清晰的数据驱动型业务愿景,通过构建问题与价值驱动的“问题-分析-决策-行动-评价”业务闭环管理,以数据分析运营体系、数据分析主题体系及大数据技术平台为支撑,以独立的“数据分析服务中心”,作为数据与技术平台服务提供者、数据分析项目组织者、数据分析价值管理者的模式,构建一套完整的商业体系,使企业获得有形和无形的价值,这些价值包括解决业务问题、提升业务价值、优化分析投资、提升分析能力、驱动分析文化等。

数据分析驱动的业务实践

问题场景:鉴于社会库存过高且市场趋势下行的现状,针对品牌之间过度竞争的现状,需要针对特定的目标市场,制动适合的营销策略。分析方法:“一项目标”:构建完整的产品/市场矩阵来“选择目标市场”;“双模权重”:以“顾客资产价值模型”和“八维市场细分模型”对市场进行权重调整;“三维细分”:以“消费者市场细分”“零售户市场细分”“商业公司市场细分”三维顾客市场进行分级分类;“四级界定”:以“竞争对手界定”——“战略集团分析”——“市场结构分析”与“市场地位三四律”——“产品生命周期”+“品牌价值评估”推导“业务组合BCG分析”。分析主题:通过消费者市场细分——零售户细分——商业公司细分三维顾客市场细分,通过构建顾客资产模型和八维市场细分模型来进行权重调整,形成初步的多维市场细分,找到“消费者在哪里”。通过竞争对手界定来初步区分和界定不同的竞争对手,通过战略集团分析来认识企业自身的竞争能力构成与战略倾向,进行前两层级的竞争对手划分。通过市场占有率分析,包括在每个细分市场的相对市场占有率、累计市场占有率、阶段市场占有率,正确衡量企业品牌的竞争实力和盈利能力,进而结合市场细分分析与竞争对手划分,在细分市场上进行市场结构分析,并依据市场地位三四律综合判定企业在每个细分市场的市场份额的对应地位指标。通过产品生命周期判断,不单判断企业自身各品牌的产品生命周期,还需要判断阶段性竞争品牌在细分市场的产品生命周期,通过品牌价值评估模型一一对标衡量各个品牌在各个细分市场的权重,从而综合性地进行业务组合波士顿分析(不仅分析企业自身品牌,也分析竞争对手品牌)。综合前三层级的竞争对手分析与业务组合分析,通过竞争性路径分析法来评估判定竞争对手的当前目标、当前策略、竞争能力、市场意愿、未来策略,从而正确选取企业的相应应对策略。在竞争性路线分析基础上,结合每个细分市场的市场潜力分析,针对性地评估相应的目标市场,构建完整的产品/市场矩阵,进而锁定目标市场,告诉企业“应该去哪里”,将营销理论与企业营销实际充分结合、将行业范例与企业经验相结合,形成营销策略的方向性建议。技术平台:从企业业务蓝图中分析目前已具备或可获取的数据源,结合企业战略规划的企业级指标分解,选择适应业务需要的市场营销分析模型与方法,进行分析落地的十六个主题。针对每一个主题设计,构建相应模型,筛选对应指标,研究相应算法,设计展现方式,反复讨论验证,持续改进优化。

大数据时代,随着企业将越来越多的资源投入到应用数据的过程中,未来在数据采集、处理、平台、工具、技术等等方面都将有完整的产品和解决方案,但如何让数据转变成资产?如何让数据从“大”到有“价值”?如何实现从认识数据的“因果关系”到“相关关系”的思维模式变革?我们借助技术驱动和人工协作的有机结合,将有无限可能性!

作者:吴正举 单位:福建中烟工业有限责任公司