时间:2023-06-01 09:32:54
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据分析的方法,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
一、看数据分布
最简单的拆分方法就是不看平均值,看数据分布。因为凡 是“总和”或者“平均”类的统计数据都会丢失掉很多重要的信息。例如李嘉诚来我们公司参观,这一时间我们公司办公室里的“平均资产”就会因为李嘉诚一个人 被抬高到人均几亿身家。如果有人根据这个“平均资产”数据来判定说我们办公室的人都是豪华游艇的潜在顾客,这自然是荒谬的。
可实际上,我们每天都在做着类似的判断,比如当我们听到说顾客“平均在线时间”是3分34秒,就可能根据这个时间来进行业务决策,例如设置“停留时间超过3分34秒为高价值流量”,或者设置系统,在用户停留了3分34秒还没有下单的话就弹出在线客服服务窗口。我们设置这些时间点的根据是“平均停留时间”,在我们的想象里,我们的每个顾客都有着“平均的”表现,停留时间大致都是3分34秒,可实际上真正的顾客访问时间有长有短,差别巨大:
在一些数据中我们可以看得出来,访客平均停留在页面的时间非常的短暂,具体的也就是说,问需要在淘宝数据分析上面下工夫的,那么,究竟该怎么弄才能比较好的呢?这个就看个人是怎么想的了,这里也就不多说了。
再举一个例子,比如我们看到上个月平均订单金额500元/单,这个月也是500元/单,可能会觉得数字没有变化。可是实际上有可能上个月5万单都是400~600元,而这个月5万单则是2万单300元,2万单400元,5千单500元,5000单超过2500元 ——客户购买习惯已经发生了巨大变化,一方面可能是客户订单在变小(可能是因为产品单价下降,采购数量减少,或者客户选择了比较便宜的替代品),另一方面 出现了一些相对较大的订单(可能是中小企业采购,或者是网站扩充产品线见效了)。——看数据分布可以让我们更容易发现这些潜在的变化,及时的做出应对。
二、拆因子
很多时候我们很难直接从数据变化中分析出具体的原因,这时可以考虑拆分因子,将问题一步步细化找寻原因。
例如网站转化率下降,我们要找原因。因为“转化率”=“订单”/“流 量”,所以“转化率”下降的原因很可能是“订单量下降”,“流量上升”,或者两者皆是。按照这个思路我们可能发现主要的原因是“流量上升”和“订单量升幅 不明显”,那么
下面我们就可以来拆解“流量”的构成,例如拆成“直接访问流量”、“广告访问流量”和“搜索引擎访问流量”再看具体是哪部分的流量发生了变 化,接下来再找原因。这时我们可能看到说是搜索引擎访问流量上升,那就可以再进一步分析是付费关键词部分上升,还是自然搜索流量上升,如果是自然流量,是 品牌(或者网站名相关)关键词流量上升,还是其他词带来的流
量上升——假如最后发现是非品牌类关键词带来的流量上升,那么继续寻找原因——市场变化(淡季旺季之类),竞争对手行动,还是自身改变。假如刚好在最近把产品页面改版过,就可以查一下是不是因为改版让搜索引擎收录变多,权重变高。接下来再分析自己到底哪里做对了帮助网站SEO了(比如把页面导航栏从图片换成了文字),把经验记下来为以后改版提供参考;另
一方面还要分析哪里没做好(因为新增流量但是并没有相应增加太多销售),研究怎样让“产品页面”更具吸引力——因为对很多搜索引擎流量来说,他们对网站的第一印象是产品页面,而不是首页。
三、拆步骤
还有些时候,我们通过拆分步骤来获取更多信息。
举两个例子:
第一个例子:两个营销活动,带来一样多的流量,一样多的销售,是不是说明两个营销活动效率差不多?
如果我们把每个营销活动的流量拆细去看每一步,就会发现不一样的地方。营销活动B虽然和营销活动A带来了等量的流量,可是这部分流量对产品更感兴趣,看完着陆页之后更多的人去看了产品页面。可惜的是虽然看产品的人很多,最后转化率不高,订单数和营销活动 A一样。
这里面还可以再深入分析(结合之前提到的分析方法,和下一章要说的细分方法),但是光凭直觉,也可以简单的得出一些猜测来,例如两个营销活动的顾客习惯不太一样,营销活动 B的着陆页设计更好,营销活动 B的顾客更符合我们的目标客户描述、更懂产品——但是我们的价格没有优势等等这些猜想是我们深入进行分析,得出行动方案的起点。至少,它可以帮助我们
更快的累计经验,下次设计营销活动的时候会更有的放矢,而不是仅仅写一个简单report说这两个营销活动效果一样就结案了。(注:这是个简化的例子,实际上还可以分更多层)
第二个例子可能更常见一些,比如网站转化率下降,我们可以拆成这样的漏斗:
这样拆好之后,更能清楚地看到到底是哪一步的转化率发生了变化。有可能是访客质量下降,都在着陆页流失了,也可能是“购物车–>登录”流失了(如果你把运费放到购物车中计算,很可能就看到这一步流失率飙升),这样拆细之后更方便我们分析。
曾经有一个例子就是转化率下降,市场部查流量质量发现没问题,产品经理查价格竞争力也没问题——最后发现是技术部为了防止恶意注册,在登录页面加了验证码(而且那个验证码极度复杂),降低了“登录页面–>填写订单信息“这一步的转化率。
四、细分用户族群
很多时候,我们需要把用户行为数据拆分开,看不同族群的人有什么不同的表现,通过比较异同来获取更多的洞察。从实践出发,客户族群细分的方法主要有三种:
Abstract:In view of the problems of the social survey data processing and analysis, this paper establishes the mathematical model of three dimensional matrix which is based on the three dimensional matrix.On the basis of the established three dimensional matrix model,we can use the properties of three dimensional matrix to deal it with a variety of mathematical methods, and use the hypergraph theory for further analysis. This enriches the method of the survey data processing greatly.
Key Words:Social survey data;Three-dimension matrix;Hypergraph
社会调查是了解各方面信息的重要途径之一,社会调查数据主要是通过调查问卷的方法得到的。由于社会调查数据的维数较高,加上人为主观因素,数据类型主要为二元变量、离散变量、序数变量等为主,所以对于社会调查数据的分析和处理大都基于统计学,只对单一题目进行统计学分析,其分析方法主要是基于题型进行处理的,对于题目和题目之间的关系很少关心[1]。许多数据挖掘算法因为种种限制无法在社会调查的数据分析中得到应用。因为方法的限制,所以现在很多社会调查只能验证事先想好的内容和假设,很少可以对高维数据进行相对复杂的回归分析处理。
根据以上存在的问题,该文建立了基于三维矩阵的数学模型,将单选题、多选题和排序题用向量形式进行表示,每一题定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份问卷的信息用一个M×N矩阵表示。这样表示可以将所有问卷内容当作一个整体,作为后续算法的基础。
1 社会调查数据的特点
通常情况下,社会调查数据特点如下。
(1)相关性。对于一个样本个体而言,它具有本身的多个特征,这些特征之间就具有一定的相关性。对于多个样本而言,个体与个体的特征之间具有相关性。如果样本随时间而变化,那么该样本在不同时刻的特征之间又具有相关性。因此,由于上述多个原因使得社会调查数据具有了复杂的相关性,传统的统计学调查难以解决这样的问题。
(2)离散性。因为社会调查数据是通过自填式问卷、网络调查数据库等方法得到,所以社会调查数据一般以离散变量为主,且这些数据之间只有标示作用,并没有严格的逻辑关系。
(3)模糊性。社会调查数据当中不可避免的会接触到各种表达方式和概念,因此,它具有模糊性。
因为由自填式问卷或结构式访问的方法得到的社会调查数据具有以上特点,所以在实际应用中基于统计学的处理方法只能笼统的显示数据的部分特性,如频数、离散程度等[2]。对于数据之间的关系只能分析出维数极少的大致的关系。
而且利用软件进行数据挖掘时,因为现有的软件中的数据挖掘算法对于数据类型和格式要求较高,所以能应用到的数据挖掘算法很少。就算是数据要求较低的关联分析,其结果也存在大量的冗余。因此,我们需要建立一个合适的社会调查数据的数学模型来完善原先的方法并使跟多的数据挖掘方法可以运用到其中,使得结果更准确。
2 社会调查数据的建模
研究中我们发现,三维矩阵可适用于社会调查数据的建模。
2.1 三维矩阵的定义
三维矩阵的定义:由n个p×q阶的矩阵组成的n×p×q阶的矩阵A称为三维矩阵,又称立体阵。Ak,i,j表示三维矩阵A的第k层,第i行,第j列上的元素。其中n,p,q分别表示三维矩阵的高度,厚度和宽度。
2.2 三维矩阵模型的建立
调查问卷的题目一般有三种类型:单选题、多选题和排序题。这三类题目都可以表示成向量的形式,其中每一道单选题、多选题可以表示成一个向量,排序题可以表示成多个向量组成的矩阵。对于单选题和多选题,可以按选项的顺序可以表示成一个向量,其中选中的项用“1”表示,未选中的项用“0”表示。对于排序题,可以表示成一个n×n的方阵,其中n表示该排序题的选项个数,。这样,每一题就可以定义为空间中的一个维度,从而所有的题目就可以构成一个N维空间。每份调查问卷的信息用一个M×N矩阵表示(M为题目的最大选项数),其在每一维上的选择称之为一个元素,这样每份问卷的信息就包括了N个元素。以第1,2,3题数据为例,其中第1题为单选题选择“B”,用向量表示为一个元素,第2题为多选题选择“ACE”,用向量表示为一个元素,第3题为排序题顺序为CBADEFIHG,用矩阵表示,每一个列向量是一个元素,如图1所示。
那么,假设有一问卷信息用一个大小为M×N的矩阵表示。K份的问卷信息就可以用K个大小为M×N的矩阵表示。将这K个矩阵叠加,形成一个三维矩阵。这个三维矩阵就是我们建立的三维矩阵数学模型,如图2所示。
在图2中我们看到,该三维矩阵数学模型有三个坐标轴,它们分别是题目,人数,选项。题目轴以每一道题为一个单位;人数轴以每一份问卷为一个单位;选项轴的刻度为A,B,C,D,E,F等题目选项,其个数为该调查问卷中选项最多的题目的选项个数。
在此基础之上,这样的三维矩阵具有以下性质。
(1)在题目轴中选取对应的题目,将三维矩阵面向竖切得到截面1(如图2中01所示),截面2表示每一道题所有人选择的信息。
(2)在人数轴中选取对应的人,将三维矩阵横切得到横截面1(如图2中02所示),横截面1表示对应的人选择所有题目的信息。
在得到三维矩阵后,可对它进行像素化处理,置1的元素用黑点代替,置0元素的则空白,在得到像素化三维矩阵后我们可以将三维矩阵沿着人数维度上向下投影,这样就可以得到一个具有浓黑不一的点的平面。通过这些点的浓度,可以知道每一选项选择的人数。接下来我们可用灰度级表示点的浓度,筛选出浓度大于一定程度的点,在此基础上进行后续算法处理。
上述三维矩阵数学模型具有数学三维矩阵的所有性质,可依据调查问卷的需求进行转置,加权、相乘、筛选等数学处理,另外在数学处理的基础上,采用超图理论可以大大丰富了调查问卷的处理方法。
3 基于超图算法的调查问卷分析技术
超图是离散数学中重要的内容,是对图论的推广[3]。超图是有限集合的子系统,它是一个由顶点的集合V和超边集合E组成的二元对,超图的一条边可以有多个顶点的特性,这与一般的图有很大不同。超图分为有向超图与无向超图两类,在无向超图的每条超边上添加方向后得到的有向二元对就是有向超图。超图在许多领域有广泛的应用。
大家可以利用无向超图表示每一道题的选择情况,先将这每一题的每一个选项设成一个节点,然后将三维矩阵从上向下投影,如果某一题的若干个选项同时被一个人选择,就用一条超边包围这些节点,那么选这些选项的人越多,投影得到的超边就越浓。这样就用超图表示了问卷中每道题的信息,可以进行聚类处理。
利用有向超图,可以将关联规则表示成有向超图的形式,在得到了关联规则后,设实际中得到的关联规则的形式为:,前项和后项都是由多个项组成的集合。该文定义一条关联规则由一条有向超边表示,有向超边的头节点表示关联规则的前项,有向超边的尾节点表示关联规则的后项。每条有向超边的头节点和尾节点均可以为多个,如此便成功表示了复合规则,从而可以使用相关算法进行冗余规则检测。
通过基于有向超图的冗余规则检测就可以将关联规则之间存在着的大量冗余检测出,减少挖掘资源的浪费,从而增加了挖掘结果的有效性。
传统的聚类方法都对原始数据计算它们之间的距离来得到相似度,然后通过相似度进行聚类,这样的方法对于低维数据有良好的效果,但是对于高维数据却不能产生很好的聚类效果,因为高维数据的分布有其特殊性。通过超图模型的分割实现对高维数据的聚类却能产生较好的效果。它先将原始数据之间关系转化成超图,数据点表示成超图的节点,数据点间的关系用超边的权重来表示。然后对超图进行分割,除去相应的超边使得权重大的超边中的点聚于一个类中,同时使被除去的超边权重之和最小。这样就通过对超图的分割实现了对数据的聚类。具体的算法流程如下。
首先,将数据点之间的关系转化为超图,数据点表示为超图节点。如果某几个数据点的支持度大于一定阈值,则它们能构成一个频繁集,就将它们用一条超边连接,超边的权重就是这一频繁集的置信度,重复同样的方法就可以得超边和权重。
然后,在基础此上,通过超图分割实现数据的聚类。若设将数据分成k类,则就是对超图的k类分割,不断除去相应的超边,直到将数据分为k类,且每个分割中数据都密切相关为止,同时保持每次被除去的超边权重和最小,最终得到的分割就是聚类的结果。
如图3所示是基于超图算法的选题型调查问卷的分析技术的流程图,主要包括4个主要部分,一是用向量表示调查问卷结果,二是将向量表示的调查问卷转化为三维矩阵数学模型表示调查问卷结果,三是使用超图算法进行优化,四是根据要求显示调查问卷结果。
【关键词】大数据 网络规划 用户价值 用户感知
doi:10.3969/j.issn.1006-1010.2015.10.004 中图分类号:TN929.53 文献标识码:A 文章编号:1006-1010(2015)10-0022-06
引用格式:李梅,杜翠凤,沈文明. 基于大数据分析的移动通信网络规划方法[J]. 移动通信, 2015,39(10): 22-27.
1 引言
随着移动通信网络的发展和移动互联网业务的增长,移动通信网络的各类相关数据呈爆炸式增长。借助大数据强大的数据处理能力和数据挖掘技术,通过分析用户行为、基于用户价值和用户感知规划设计网络,成为运营商提升网络竞争力的关键环节。
传统的移动通信网络规划需要借助海量的测试,分析总结网络存在的问题,再基于对市场和业务的经验预测,制定规划方案。该过程中,测试结果的普遍性和业务预测的准确性制约了规划方案的合理性,高昂的测试成本和冗长的测试工期影响了规划效率。
基于此,提出了基于大数据分析的移动通信网络规划方法,通过大数据工具分析海量数据,实现用户业务趋势预测、用户价值挖掘、用户感知评估分析,进而能够以用户为中心、面向具体业务场景展开通信网络规划。同时,该方法能够综合分析CQT(Call Quality Test,呼叫质量拨打测试)、DT(Drive Test,路测)等多种前端测试数据和信令数据、位置数据、用户业务信息等大量后台数据,克服单一数据分析的局限,不仅能够大规模降低测试成本、缩短方案制定时间,而且还提高了方案的科学合理性。
2 基于大数据分析的移动通信网络规划
体系
如图1所示,本文提出的移动通信网络规划体系可分为数据层、管理层、业务层和展示层,各层均与大数据密切相关。
2.1 大数据数据层
该层采用HDFS数据库和Hbase数据库管理通信网络相关的结构化、非结构化数据。数据主要来自于网管侧和计费侧,包括:核心网管数据、详单数据、网优平台数据、投诉数据、用户信息表等,这些数据经过预处理、算法处理后,按照标准数据格式存放在Hbase里面。
2.2 大数据管理层
该层基于Hadoop管理平台建立特定的数据预处理脚本和算法模型,实现对用户价值和用户感知数据的分析管理。
数据的预处理主要包括确实数据处理以及噪音数据处理。为分析用户价值和用户感知,本系统用到的大数据分析算法模型主要有层次分析法和聚类阈值法。
2.3 大数据业务层
该层是对用户价值和用户感知业务实施梳理与管理,对影响用户价值和感知业务的各维度进行分析并找出其关联关系。例如:用户价值与收入、终端、业务、套餐的各维度关联关系的梳理;用户感知与回落之间的关系梳理等。
2.4 大数据展示层
该层是以图表进行展示数据分析结果,辅助开展通信规划,重点是对用户价值与感知进行地理化展现、相关图表的输出。
3 用户价值与感知评价分析方法构建
3.1 用户价值评价体系构建
通信领域中的用户价值评估是一个多层次、多因素的问题,需要针对相关的业务构建评价指标体系,能够全面考虑用户的收入特征、层次结构、业务特征相互联系。
(1)建立用户价值评价体系结构模型――AHP分析法
采用AHP法评价用户价值时,首先是把用户价值进行梳理,建立出以业务为基础的层次结构模型,然后将用户价值分解成收入、套餐、业务和终端4部分。具体如图2所示:
用户价值评价模型的层次一般分为:
最高层:用户价值。
中间层:用户潜力和消费能力。
最底层:用户潜力包括用户的套餐指标与终端指标;消费能力包括用户的收入指标与业务指标。
基于以上的维度进行评分,可将评分落到各基站扇区,根据评分做出扇区化的图层,并将网络的价值扇区进行地理化呈现。
(2)确定用户价值评价模型各指标权重
以AHP法确定用户价值评价模型各指标的权重分为以下两步:
首先,构建递阶层次结构。如图2所示,目标层是用户价值,该层是建立评价模型的目的和追求的最终结果。一级指标层为{用户潜力,消费能力};二级指标层包括套餐、终端、收入、业务等。
其次,要建立判断矩阵。根据模型同一层级的相关指标体系指标可构造判断矩阵,将同一层次的指标元素按照其上层指标元素的重要性进行两两比较,判断相对重要程度。一般都会邀请通信专业人士和资深人员组成专家小组,依据他们的通信专业知识和研究经验进行评估,构造判断矩阵。
(3)综合权重计算用户价值
针对移动通信系统,服从一定社会(地理和逻辑)分布的具有不同消费能力、行为和移动特征的客户群体,在通信过程中形成的具有运营价值的业务活动区域叫做价值区域。
价值区域可以采用收入、终端、用户、业务(数据和语音)“四维度”,基于各自评分标准进行评分;将评分落到各基站扇区,再根据评分做出扇区化的图层,就可以将网络的价值扇区进行地理化呈现。
根据AHP法得出的权重以及各维度的评分标准,可以算出各小区的综合评分;再根据综合评分,可定义TOP30%为高价值扇区,TOP30%~TOP50%为中价值扇区,TOP50%~TOP80%为一般价值扇区,TOP80%以上为低价值扇区;最后,根据高低价值区域的评定,可以将网络的价值扇区进行地理化呈现。
该价值分析结果在规划中可进一步拓展到区域层面、微网格层面,从而实现网络建设目标精准定位,以更好地指导网络资源投放。
3.2 用户感知分析方法
(1)建立用户感知评价体系结构模型
如图3所示,与用户价值评价体系结构模型建立的方法相似,仍采用AHP分析法,用户感知评价模型可分为:
最高层:用户感知。
中间层:网络覆盖和网络质量。
最底层:网络覆盖主要为MR(Measurement Report,测量报告)覆盖指标;网络质量包括HSDPA(High Speed Downlink Packet Access,高速下行分组接入)用户速率与3G回落指标。
(2)确定用户感知评价模型各指标权重
与用户价值评价模型各指标权重计算方法相似。
首先,构建递阶层次结构。如图3所示,目标层是用户感知,该层是建立用户感知评价模型的目的和追求的最终结果。一级指标层为{网络覆盖,网络质量};二级指标层包括MR覆盖指标、HSDPA用户速率、3G回落指标等。
其次,建立判断矩阵。由专家根据经验确定权重。
(3)综合权重计算用户感知
用户感知可以采用MR覆盖指标、HSDPA用户速率、3G回落指标“三维度”,按照评分标准进行评分,再将评分结果落到各基站扇区,做出扇区化图层实现网络感知的地理化呈现。
3.3 价值与感知联合评估
为了更好地指导网络规划建设,可将用户价值分析方法和用户感知分析方法联合起来,建立4×3的价值与感知联合评估矩阵,针对不同矩阵中的网格分别制定对应的资源投放策略。
价值与感知联合评估矩阵中,不同网格的资源投放策略建议如表1所示(红色、绿色区域为重点投资区域)。
4 应用案例
在某运营商本地网的无线网络规划中,运用上述的分析方法对2014年6月的7 000万条语音原始详单、5亿条数据原始详单、238万条用户原始信息详单进行了大数据分析。
4.1 价值区域分析
(1)终端分布分析
网上现有用户约110万户,其中支持3G业务的终端56万户,占比50.7%,仅支持2G业务的终端54万户,占比49.3%;约一半用户终端不支持3G业务,3G终端使用者中有一半终端使用的是2G套餐。
(2)业务分布分析
现网用户的业务分布统计情况是:语音业务63%承载在2G网络上,37%承载在3G网络上;数据流量2G承载24%,3G承载76%。考虑到3G网络的业务体验更好,且网络资源更为丰富,应通过各种措施加快业务的迁移,促进2G/3G网络的融合发展。
(3)套餐分布分析
现有用户的套餐数据统计结果如图4所示:
从图4统计分布可知,低端用户贡献了61%的收入,但占用了73%的流量资源和65%的语音资源。低端用户单位收入消耗的网络资源更高,说明高流量不一定带来高收入;市场营销策略是影响用户规模、用户行为以及网络资源使用的主要因素,为此,建议规划与市场应紧密结合,以计划为先、网络先行,市场与建设互相配合、逐步推进。
(4)用户收入分布分析
从用户收入角度分析,结果如表2所示:
从表2统计分析可知,使用2G套餐2G终端ARPU(Average Revenue Per User,每用户平均收入)值低于2G套餐3G终端,3G套餐2G终端ARPU值低于3G套餐3G终端,3G套餐ARPU值整体高于2G套餐,3G终端ARPU值整体高于2G终端。
从以上“收入、套餐、终端、业务”四维度进行扇区化统计,各扇区统计结果如图5所示:
从图5统计分布可知,高价值小区数占比为30%,收入占比达到72%;中价值小区数占比为20%,收入占比达到16%;高/中价值全网小区数占比为50%,收入占比达到88%,高价值小区各维度占比均接近70%,各维度评估合理。
4.2 用户感知分析
(1)用户速率分析
网络单用户下载速率统计分布如图6所示:
从图6统计分布可知,全网速率大于1Mbps的扇区占比为90.3%,需重点关注低于1Mbps区域的速率改善。
(2)3G用户回落分析
3G用户回落指标统计分布如图7所示:
从图7统计分布可知,全网回落评估指标差的扇区占比为23.2%,需重点关注回落评估指标差的扇区的深度覆盖问题。
(3)用户感知MR覆盖分析
对MR数据中扇区级的RSCP(Received Signal Code Power,接收信号码功率)进行统计,其分布如图8所示:
从图8统计分布可知,全网MR覆盖指标差的扇区占比为20.87%,需重点关注MR覆盖指标差的扇区的深度覆盖问题。
4.3 价值与感知联合分析
综合以上价值区域及用户感知分析,按照专家法取定的权重对各维度指标进行综合评分,得到全网各小区的综合评估分析结果,统计各类小区占比如图9所示:
从图9统计分布可知,全网综合评估高/中价值扇区中感知中/差的扇区占比为34%,这部分区域将是本次规划中需要重点投入网络资源的区域。具体分布如图10所示:
5 结束语
综上所述,通过对现网用户的收入分布、终端分布、套餐、业务、用户感知等多维度分析,可精准定位高价值扇区及高价值区域,以进一步指导网络的精准化规划设计,引导投资的精准投放。除此之外,基于用户价值和用户感知的多维度分析还可以应用于市场营销、渠道规划等领域。
基于大数据的价值分析对运营商而言,是市场驱动、精细化管理的重要途径,有利于改变传统的经营模式,改善用户感知、增强自身竞争力,从而能够有效应对来自于虚拟运营和OTT业务的冲击。
参考文献:
[1] 黄勇军,冯明,丁圣勇,等. 电信运营商大数据发展策略探讨[J]. 电信科学, 2013(3): 6-11.
[2] 刘旭峰,耿庆鹏,许立群. 运营商获取移动互联网用户价值的策略研究[J]. 邮电设计技术, 2012(8): 9-12.
[3] 袁首. 多网协同下的电信无线网络规划方法研究[D]. 北京: 北京邮电大学, 2012.
[4] 曹艳艳. 3G无线网络规划[D]. 济南: 山东大学, 2005.
[5] 李勇辉. 大数据概念辨析及应对措施[J]. 互联网天地, 2014(1): 11-14.
[6] 龙青良,李巍,吕非彼. 基于用户感知的WCDMA无线资源效能评估方法研究[J]. 邮电设计技术, 2014(9): 33-39.
[7] 朱强. 3G无线网络规划和优化的探讨[J]. 通信世界, 2005(30): 57.
[8] 任毅. 3G无线网络规划流程[J]. 电信工程技术与标准化, 2005(11): 15-18.
[9] 郭金玉,张忠彬,孙庆云. 层次分析法的研究与应用[J]. 中国安全科学学报, 2008(5): 148-153.
完整的数据分析主要包括了六个既相对独立又互有联系的阶段,它们依次为:明确分析目的和思路、数据准备、数据处理、数据分析、数据展现、报告撰写等六步,所以也叫数据分析六步曲。
明确分析目的和思路
做任何事都要有个目标,数据分析也不例外。经常有一些数据分析爱好者,向数据分析高手请教以下问题:
这图表真好看,怎么做的?
这数据可以做什么样的分析?
高级的分析方法在这里能用吗?
需要做多少张图表?
数据分析报告要写多少页?
为什么这些数据分析爱好者会提出这些问题呢?原因很简单,就是他们没有明确的分析目的,为了分析而分析,而且一味追求高级的分析方法,这就是数据分析新手的通病。
如果目的明确,那所有问题就自然迎刃而解了。例如,分析师是不会考虑“需要多少张图表”这样的问题的,而是思考这个图表是否有效表达了观点?如果没有,需要怎样调整?
所以在开展数据分析之前,需要想清楚为什么要开展此次数据分析?通过这次数据分析需要解决什么问题?只有明确数据分析的目的,数据分析才不会偏离方向,否则得出的数据分析结果不仅没有指导意义,甚至可能将决策者引入歧途,后果严重。
当分析目的明确后,我们就要对思路进行梳理分析,并搭建分析框架,需要把分析目的分解成若干个不同的分析要点,也就是说要达到这个目的该如何具体开展数据分析?需要从哪几个角度进行分析?采用哪些分析指标?
同时,还要确保分析框架的体系化,以便分析结果具有说服力。体系化也就是逻辑化,简单来说就是先分析什么,后分析什么,使得各个分析点之间具有逻辑关系。如何确保分析框架的体系化呢?可以以营销、管理等方法和理论为指导,结合实际业务情况,搭建分析框架,这样才能确保数据分析维度的完整性、分析框架的体系化、分析结果的有效性及正确性。
营销方面的理论模型有4P理论、用户使用行为、STP理论、SWOT等,而管理方面的理论模型有PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。
明确数据分析目的以及确定分析思路,是确保数据分析过程有效进行的先决条件,它可以为数据收集、处理以及分析提供清晰的指引方向。
数据准备
数据准备是按照确定的数据分析框架,收集相关数据的过程,它为数据分析提供了素材和依据。这里所说的数据包括第一手数据与第二手数据,第一手数据主要指可直接获取的数据,如公司内部的数据库、市场调查取得的数据等;第二手数据主要指经过加工整理后得到的数据,如统计局在互联网上的数据、公开出版物中的数据等。
数据处理
数据处理是指对采集到的数据进行加工整理,形成适合数据分析的样式,保证数据的一致性和有效性。它是数据分析前必不可少的阶段。
数据处理的基本目的是从大量的、可能杂乱无章、难以理解的数据中抽取并推导出对解决问题有价值、有意义的数据。如果数据本身存在错误,那么即使采用最先进的数据分析方法,得到的结果也是错误的,不具备任何参考价值,甚至还会误导决策。
数据处理主要包括数据清洗、数据转化、数据抽取、数据合并、数据计算等处理方法。一般拿到手的数据都需要进行一定的处理才能用于后续的数据分析工作,即使再“干净”的原始数据也需要先进行一定的处理才能使用。
数据分析
数据分析是指用适当的分析方法及工具,对收集来的数据进行分析,提取有价值的信息,形成有效结论的过程。
在确定数据分析思路阶段,数据分析师就应当为需要分析的内容确定适合的数据分析方法。到了这个阶段,就能够驾驭数据,从容地进行分析和研究了。
由于数据分析大多是通过软件来完成的,这就要求数据分析师不仅要掌握各种数据分析方法,还要熟悉主流数据分析软件的操作。一般的数据分析我们可以通过Excel完成,而高级的数据分析就要采用专业的分析软件进行,如数据分析工具SPSS、SAS等。
数据展现
通过数据分析,隐藏在数据内部的关系和规律就会逐渐浮现出来,那么通过什么方式展现出这些关系和规律,才能让别人一目了然呢?一般情况下,数据是通过表格和图形的方式来呈现的,我们常说用图表说话就是这个意思。
常用的数据图表包括饼图、柱形图、条形图、折线图、散点图、雷达图等,当然可以对这些图表进一步整理加工,使之变为我们所需要的图形,例如金字塔图、矩阵图、瀑布图、漏斗图、帕雷托图等。
多数情况下,人们更愿意接受图形这种数据展现方式,因为它能更加有效、直观地传递出分析师所要表达的观点。一般情况下,能用图说明问题的,就不用表格,能用表格说明问题的,就不用文字。
报告撰写
数据分析报告其实是对整个数据分析过程的一个总结与呈现。通过报告,把数据分析的起因、过程、结果及建议完整地呈现出来,以供决策者参考。所以数据分析报告是通过对数据全方位的科学分析来评估企业运营质量,为决策者提供科学、严谨的决策依据,以降低企业运营风险,提高企业核心竞争力。
一份好的分析报告,首先需要有一个好的分析框架,并且层次明晰,图文并茂,能够让读者一目了然。结构清晰、主次分明可以使阅读对象正确理解报告内容;图文并茂,可以令数据更加生动活泼,提高视觉冲击力,有助于读者更形象、直观地看清楚问题和结论,从而产生思考。
另外,分析报告需要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为最初就是为寻找或者求证一个结论才进行分析的,所以千万不要舍本求末。
【摘 要】 在高等教育领域已经储备有海量教学过程数据的背景下,强调了教学过程数据的价值,提出了大数据思维下基于教学活动
>> 通信行业大数据分析及应用研究 大数据时代电子税务数据分析与应用研究 大数据时代下数据分析理念研究 信息时代背景下数理统计在大数据分析中的应用研究 大数据分析 炼钢―连铸生产过程数据分析及在仿真中的应用研究 大数据分析方法及应用初探① 大数据分析与应用问题研究 教育大数据分析研究与典型应用 极课大数据及教学应用研究 基于大数据分析评测电网调度能力的方法研究及应用 电信企业大数据分析的应用及发展策略研究 基于大数据分析的低压台区降损系统研究及应用 油田生产中大数据分析技术的研究及应用 基于大数据分析下的数学课堂教学研究 基于大数据的学业、教学过程评价系统的应用与研究 探究大数据下的智能数据分析技术 大数据时代下数据分析理念框架探讨 大数据时代下数据分析的主要变化 大数据时代下数据分析理念探究 常见问题解答 当前所在位置:l Chen, E., Heritage, M., & Lee, J. 2005. Identifying and Monitoring Students’Learning Needs With Technology[J]. Journal of Education for Students Placed at Risk, 10(3),309-332.
Duhon, R. 2014. Mapping Learning into the Experience API. Retrieved May 13, 2016, from https:///Publications/Magazines/TD/TD-Archive/2014/01/Mapping-Learning-Into-the-Xapi
Global Pulse. 2012. Big Data for Development: Challenges & Opportunities. Retrieved May 13, 2016, from http:///upload/2012-07/12071822344575.pdf
Glossary of Education Reform. 2013. Learning Experience. Retrieved May 13, 2016, from http:///learning-experience/
《义务教育教学课程标准(2011年版)》将原来的“统计观念”改为“数据分析观念”,并把“数据分析观念”作为数学学习的十个核心观念之一,指出了统计的核心就是数据分析。通过学习,我对数据分析观念的内涵有了更深刻的认识:使学生了解在现实生活中有许多问题应当先做调查研究,收集数据,通过分析做出判断,体会数据中蕴涵的信息;了解对于同样的数据可以有多种分析的方法,需要根据问题的背景选择合适的方法;通过数据分析体验随机性,一方面对于同样的事情每次搜集到的数据可能不同,另一方面说明只要有足够的数据就可能从中发现规律,数据分析是统计的核心。
如何发展学生的数据分析观念,培养他们对数据的分析与判断能力?下面谈谈我个人的粗浅看法。
一、让学生参与数据搜集的全过程
统计学的一个核心就是数据分析。不论是统计还是概率,都要基于数据,基于对数据的分析;在进行预测的同时,为了使预测更合理,也需要搜集更多的数据。培养“数据分析观念”最好的办法是让学生经历数据的搜集、整理、描述、分析的全过程,让学生亲身体验进行数据分析的必要性。学生通过大量重复试验,在头脑中再现知识的形成过程,避免单纯地记忆,使学习成为一种再创造的过程,数据分析观念也得到了初步培养。
例如,“组织比赛”的情境,学生在操场上讨论:“组织什么比赛好呢?”“去问一问同学,他们最喜欢什么活动?”这就使学生认识到统计对决策的作用,引起学生进行调查的愿望。教材紧接着安排小调查,“调查你们班的部分同学,他们最喜欢什么活动,在下图中涂一涂。”这就要组织学生搜集数据、整理数据,用在方格纸上涂一涂的方式呈现数据。最后安排学生说一说:
(1)一共调查了几个同学?喜欢什么比赛的同学最多?喜欢什么比赛的同学最少?
(2)喜欢足球的同学比喜欢跳绳的同学多多少个?
(3)如果你们班有一名同学没来,猜一猜他(她)最有可能喜欢什么活动。
(4)你认为你们班最好组织什么比赛?
(5)根据统计图,你还能提出什么数学问题?
这就是引导学生分析数据,做出合理的决策。上面的例子就是根据低年级儿童的特点,组织学生经历统计活动的全过程,发展学生的数据分析观念。
二、引导多角度分析数据
义务教育阶段的统计学习要让学生有意识地、正确地运用统计来解决实际问题,并理智地分析他人的统计数据,以作出合理的判断。稻莘治龅墓程应该把重点放在怎样分析数据上。教师要启发学生自己想办法,多角度全方位分析数据,让学生感悟到我们做统计的目的是解决问题。
案例:《认识中位数》教学中有以下环节:
(课件出示)例题5,出示场景图,同学们正在进行跳远比赛,看看他们的成绩:
五年级(2)班7名男生的跳远成绩如下表。
(1)分别求出这组数据的平均数和中位数。
(2)用哪个数代表这组数据的一般水平更合适?
(3)如果 2.89m以上为及格,有多少名同学及格了,超过半数了吗?
(4)如果再增加一个同学杨冬的成绩 2.94m,这组数据的中位数是多少?
首先让学生分组讨论: ①表格中的数据有什么特点,有几位同学的成绩,最高是多少,最低是多少?②求数据的平均数和中位数,看看几位学生的成绩与平均数和中位数之间的大小有何关系? ③选择哪两个统计表示数据的一般水平比较合适呢?
(5)学生汇报:7名男生跳远成绩的平均数是2.96,中位数是2.89,有5名男生的成绩低于平均值,这说明在这里用平均数来代表该组成绩不太合适,应选用中位数。
强调:①中位数的求解方法,首先将数据按照大小顺序排列好;②找到最中间位置的数据2.89;③矛盾:当数据增加一个后,一共有偶数个数,中间位置出现两个数据:2.89和2.90,最中间的数找不到怎么办?学生展开讨论。讨论结论:一组数据中有偶数个数的时候,中位数是最中间的两个数的和除以2计算出中位数来。也就是需要求两个数的平均数,即这组数据的中位数。
数据分析应该把重点放在怎样分析数据上。因此,我们要启发学生自己想办法,让学生感悟到我们是为了解决问题而来做统计的。通过数据分析,学生从中提取相关信息,根据不同的背景,选择不同的方法,从而培养学生思维的灵活性。学生从中发现问题,并且思考解决问题的办法。
三、体验数据分析的随机性
数据的随机性主要有两层含义:一方面对于同样的事情每次搜集到的数据可能会不同;另一方面只要有足够的数据就可能从中发现规律。
史宁中说:“统计与概率领域的教学重点是发展学生的数据分析意识,培养学生的随机观念,难点在于,如何创设恰当的活动,体现随机性以及数据获得、分析、处理进而作出决策的全过程。”
如二年级有这样一个课堂教学片段:
组织小组活动:盒子里有3个黄球、3个白球。每次摸出1个,摸之前先猜猜你会摸到什么颜色的球,每次你都猜对了么?
活动结束时,老师询问:有没有每次都猜对的同学?(全班只有2人举手)
师:为什么我们那么多的同学都没有猜对呢?(此时,两个猜对的同学急于向大家介绍方法)
生1:黄球和白球摸在手里的感觉不一样!
师:(饶有兴趣地问)真的吗?让我们见识一下!
生1:(摸出一球,没看前猜测)黄色!(拿出后是白色,生1低头坐了下去)
师:怎么不试了?
生1:没有信心了。
师:怎么就没有信心了?
生1:摸在手里分辨不出来。
生2:我发现了,如果第一次摸出来的是黄球,第二次就猜是白球,是交错出现的。
师:你刚才就是这样猜的,结果都对了吗?
生2:连连点头。
师(半信半疑):还有这个规律?摸1个!
(生2摸出1个白球,放回)
生2:第二次一定是黄球。
(第二次生2果真摸出一个黄球)
师:看来,下次……
生2:第三次该是白球了!
(第三次生2摸出个黄球)
师:这个规律还成立么?
学生直摇头。
师:通过刚才的摸球游戏,你发现了什么?
生:盒子里有黄球又有白球,摸出一个球,可能是黄球,也可能是白球。
通过学生操作实验,用实验获得数据,再对数据进行分析,这种通过对数据进行分析处理,让学生体会了数据的随机性,从而发展了学生的数据分析观念。
【关键词】箱线图;幂变换;展布水平图;降水量
一、研究背景及发展
数据分析分为两大阶段,探索阶段和实证阶段。探索性数据分析可以分离出数据的模式和特点,把它们有力地给分析者。探索性数据分析(exploratory data analysis,简称EDA)于上世纪六十年代被提出,并逐步发展,现今已经应用非常广泛。具体来说,是对调查者观察得到的原始数据直接进行预处理净化,做出箱线图、茎叶图等等,直观展现出数据的结构等。并没有先做出相关的假定或者在部分假定条件下进行分析。即在对数据的基本特点还没有认识的情况下,无法选取相应的统计方法进行相关分析,此时可以应用探索性数据分析,挖掘数据之间的相关特征,给出之后实证分析的大致方向,此时再运用统计方法则会显得更加合理,更科学有效。为后来的数据实证分析做铺垫。
二、实例研究
如下,选取数据为中国16个大城市三月到10月的降水量,数据显示如下,可知,若直接运用统计方法,如大海捞针,不知何种假定下,选取何种统计方法较为合理。则先运用探索性数据分析中的相关方法。为使结果直观显示,运用箱线图作图,结合R软件编写代码。
(一)未作幂变换前的箱线图
箱线图是一批数据的五数总括的图示,展现了这个批的数据结构要点。从箱线图我们可以发掘出一个批的某些特性:位置、展布、偏度、尾长、边远数据点(离群点)。
但是初始箱线图也有缺点,如远离原点的批可能比靠近原点的批,有更大的展布,体现在图形上则会出现有些箱线图挤在一起,较为扁平,不利于数据分析。因此,若用同一尺度来绘图,将难以看出靠近远点的批的细节。
为了改善箱线图的这个缺点,我们可以做一些适当的变换,使得这些批的变异性更加一致。我们要从数据本身得到关于数据变换的一些指导,一个比较适合的标准就是“展布对水平图”,它能够建议一个幂变换,有助于把跨越这些批的不同水平的展布变成相等。
用箱线图比较几个批的数据,三搜集中国16大城市3月到10月的降水量数据,单位为毫米,由于数据庞大,不在此列出。数据来源于2012年统计年鉴。
构造出的箱线图可以看出位置,展布,尾长和离群值截断点。图中四分数相对于中位数的位置,可以看出偏度,若中位数离下四分数,比离上四分数近得多,则表明这个批是正偏的,反之则为负偏。由以上箱线图可知,效果不是很好,有较多的离群值截断点,不便于我们对数据的分析。
由上图可知,第13个箱线图(广州),距离远点较远,其降水量不仅有较大的展布,且分布较均匀。第16个箱线图(乌鲁木齐),其降水量展布较小,距离远点较近。由此可见,箱线图的局限性,为了解决展布对水平的依赖,以及离群值对数据分析的干扰,下面将对其进行改进。做相应的幂变换。
(二)幂变换(改善箱线图)
用R对所有数据进行平方根变换,得到新的展布对水平图。
则与前一个展布对水平图比较得知,此图没有明显的趋势,展布对水平不再有依赖性,则说明变换有效,达到了目的。
改善之后的展布水平图与箱线图如下。
可知,这个变换确实在几个重要方面改善了数据。我们可以知道,第13个箱线图(广州)的降水量普遍较高,其最小值都高于第2个箱线图(天津),我们得出,即使是在雨季,天津降水量都比广州要小,地域差异使得降水量有如此大的差异。第11个箱线图(武汉)的降水量有一个离群点,是在7月,降水量为389.7,可见武汉的雨水集中在7月,在夏天是一个降水量较大的城市。
三、结论分析
通过运用探索性数据分析和R软件结合的方法,数据被有效地处理与改善了。可见,探索性数据分析技术能帮助我们正确的处理数据,与R软件结合以后,拥有更加强大的功能,通过幂变换,箱线图得到了明显的改善,减少了离群值,展布也不再依赖于水平。总之,探索性数据分析在当今软件计算机如此发达的时代,其作用得到了越来越充分的体现,没有探索性分析,证实性分析往往是盲目的, 缺乏根据的; 没有证实性分析, 探索性分析则永远是一次不完整的的统计分析。正确运用探索性数据分析与R软件结合的方法,对数据进行处理与分析,可以带来很大的便利。
参考文献:
[1] David C Hoaglin Frederick Monsteller.John W.Tukey著,链、郭德媛、杨振海翻译校订.探索性数据分析[M].中国统计出版社,1983.
[2]李世勇,胡建军,熊 燕,欧阳虹.2004年我国卷烟焦油量的探索性数据分析[J].2005年第7期.
关键词个性化服务需求大数据分析平台决策支持数据质量控制
分类号G250.76
Construction of the Big Data Analysis Platform for the Library based on the Personal Services Requirements
Ma Xiaoting
AbstractCurrently, big data is the best way to make well-informed decisions for personal services in library. This paper firstly describes the analysis requirements about demand of library customer based on the big data. And then, according to the personal services requirements analysis of customer based on the big data, it constructs the big data analysis platform for the library, which can help librarians to make scientific analysis and decisions.
KeywordsPersonal services requirements. Big data analysis platform. Dicision support. Data quality control.
据美国麦肯锡全球研究院2011年6月的《大数据:下一个创新、竞争和生产力的前沿》研究报告分析,“大数据已成为与物质资产和人力资本相提并论的重要生产要素,大数据的使用将成为未来提高竞争力的关键要素”。随着大数据时代的到来,图书馆用户服务保障能力建设重点已从以提高数据中心基础设施结构科学性和运营效率为中心,向以满足读者需求为核心的用户个性化服务转变。图书馆有效采集、存储和管理数据中心的系统运营与监控数据,用户服务与业务管理数据,图书馆与客户关系数据,以及读者的个性化服务需求、阅读模式、阅读活动和情感、阅读社会关系等数据,并对海量数据进行科学的分析、评价和决策,是关系图书馆全面、系统和深入了解用户需求,并将运营与服务决策方式由传统的管理层主观经验式决策,向依靠大数据的科学、定量化决策方式转变的重要保证。图书馆只有坚持以用户需求为中心构建大数据分析平台,并采用科学的分析与管理策略,才能保证图书馆管理与用户服务决策内容全面、准确、连续和可评估[1]。
1图书馆大数据的环境特征、存在问题与分析需求
1.1大数据时代图书馆数据结构的特征分类
大数据时代,图书馆数据主要由结构化数据、半结构化数据和非结构化数据组成。结构化数据主要是指关系模型数据,即以关系型数据库表形式管理的数据,主要由图书馆数据中心系统管理数据、监控数据和部分符合关系模型数据特征的服务数据组成。半结构化数据主要指那些非关系模型的、有基本固定结构模式的数据,包括图书馆应用日志文件、XML文档、JSON文档和电子邮件等。非结构化数据主要指除去结构化和半结构化数据以外的数据。此类数据没有固定的结构模式,主要由WORD、PDF、PPT、EXL文档及各种格式的图片和视频等服务、监控数据组成。在图书馆的大数据资源中,非结构化数据约占据数据总量的80%以上,并以成倍的速度快速增长,大幅度增加了大数据系统的结构复杂度,以及数据采集、存储、处理、分析过程的难度与成本,严重影响了图书馆对用户个性化服务进行大数据分析与决策的科学性、准确性、可用性和可控性[2]。
1.2图书馆的大数据分析环境十分复杂
大数据时代,图书馆通过数据中心系统监测设备、阅读传感器信息接收、射频ID数据采集、移动阅读终端识别、用户阅读行为和数据流监控等方式,获取关于用户服务过程和读者阅读行为的数据。
首先,图书馆数据中心的运营数据和庞大读者群阅读行为数据,具有海量、复杂、随机、低价值密度和不可预测的特性,大幅度增加了数据的采集、存储和标准化难度。其次,图书馆的大数据资源通常从多个用户对象和数据源采集,数据类型包括图像、文本、声音、视频等多种格式。同时,数据内容涉及读者的阅读模式、阅读关系、阅读爱好、地理位置和时间等信息,具有多源异构的特性。第三,图书馆所采集的数据中心系统和读者行为数据,具有即时、海量的特点。要求大数据分析系统可通过在线实时分析过程,为用户个性化服务提供快速的决策支持,满足用户个性化阅读活动的实时性需求。第四,对杂乱无章的大数据资源进行深度挖掘和价值提取,并准确发现关系,是提高图书馆服务有效性和用户满意度的深层次知识,是建设智慧图书馆和为读者提供智慧服务的关键。
1.3大数据分析的个性化服务需求
图书馆通过对系统管理与运营、用户服务和读者行为数据的分析,才能获取大量有深度和有价值的信息。此外,利用大数据的支持可提高图书馆服务系统的管理和运营效率,保证读者个性化阅读服务过程安全、高效、满意。
首先,图书馆在管理、运营和服务过程中,不同的应用项目对大数据分析过程的数据处理性能、数据量、运算速度、精确性、实时性和多样性要求不同。因此,在大数据分析过程中应结合不同分析对象、过程的特点,采用恰当的大数据分析方法与系统资源分配策略。其次,大数据分析过程应紧密结合读者个性化服务需求,在对读者个性化阅读需求和阅读行为分析深度价值挖掘的前提下,根据服务场景特点实现精确、即时的个性化服务推荐。第三,大数据分析结果应根据分析对象特点实现可视化的表现。图书馆可以交互的方式管理和分析数据,分析结果须反映用户个性化阅读活动和服务的多个属性与变量,并以多种方式直观、可视化地表现。
1.4大数据分析的数据质量保证需求
图书馆大数据环境具有数据海量、类型复杂、处理速度高和价值密度低的特点,因此,在大数据采集、存储、处理和分析过程中,如果不根据分析需求采取有效的质量控制策略,则可能导致数据分析过程成本投入过高和分析效率下降现象发生。
首先,图书馆应制定科学、可控的大数据分析管理策略,提高数据采集、处理与分析过程的效率与管理有效性,实现数据对象、分析技术与决策结果应用三者的统一。其次,大数据主要由海量数据采集、存储、管理、分析与挖掘、可视化表示和决策等技术组成,应根据图书馆数据分析对象和质量要求,选择正确的大数据技术标准和大数据处理平台,实现大数据分析资源、策略和平台的最优化结合。第三,大数据分析过程应重点加强对数据可视化分析、数据挖掘与分析算法、预测性分析能力、数据采集质量和分析过程科学性的管理,最终实现大数据分析过程的质量可控[3]。
1.5大数据分析的目标定位
传统IT环境下,图书馆在对读者阅读需求分析和服务模式定位时,通常会以自身工作经验、感性认识和知识积累为依据,而不是依靠大数据分析结果为基础获得科学、理性的实证分析,因此分析过程和知识获取具有较强的盲目性和局限性。随着大数据技术在图书馆应用的不断深入,图书馆应通过科学采集和分析大数据资源提升自身的运营效率、服务质量和竞争优势。
图书馆大数据分析的目标首先应是对读者阅读需求、大数据服务环境、读者阅读行为和阅读模式变革、个性化服务风险的精确定位和预测,为读者个性化阅读服务内容、方法与模式的变革提供可靠的数据支持。其次,可通过大数据挖掘来发现、优化图书馆服务资源的配置,不断提高服务管理质量、决策水平、系统运营效率和用户满意度。第三,大数据分析应准确定位用户服务的风险和市场竞争环境,及时分析、发现和预测用户个性化服务过程中存在的安全威胁与不稳定因素,提高读者个性化服务的安全性和可靠性。
1.6大数据分析的风险可控需求
大数据时代,图书馆大数据资源主要由传感器设备采集数据、网络监控和读者服务调查数据、移动服务商共享数据、阅读终端反馈数据、射频ID数据等组成。首先,图书馆大数据资源呈现数据总量快速激增、分散存储和异构数据协同整合的趋势,导致数据管理、存储、传输与分析难度增大。其次,随着数据源的不断扩展和结构复杂性增强,大数据资源呈现多样性、低价值密度、价值挖掘难度大、错误或无用数据占数据总量比例上升现象。第三,数据分析师的专业素质、大数据平台结构科学性、预测与分析软件的可用性、分析结果对图书馆服务与读者满意度提升有效性等因素,也是关系图书馆大数据分析效率和风险可控的重要因素[4]。
2图书馆大数据分析流程与数据分析平台构建策略
2.1图书馆大数据平台数据分析的流程
图书馆大数据平台信息分析流程图主要由数据源、数据采集与存储、数据过滤与价值提取、知识发现、预测分析与决策五部分组成,如图1所示:
图1图书馆大数据平台信息分析流程图
图书馆大数据资源主要由系统监控器、视频监控、射频信号识别、阅读终端设备、网络监控器和阅读传感器等数据源组成。数据采集与存储平台利用云计算、数据集成等技术,对数据源进行数据的采集与存储,为上层提供高效的数据存储与管理服务。数据过滤与价值提取层,可对底层采集的海量数据进行数据过滤和价值提取,并在减少所采集大数据资源总量和提高价值密度的前提下,降低大数据挖掘与分析系统的负荷。知识发现层可对下层传输的信息进行深度挖掘,并从信息中发现知识,实现读者需求、阅读行为、系统管理和读者群关系的精确发现。预测分析与决策层是分析流程的最高层,可对用户需求、未来阅读模式发展趋势、服务系统运行、安全隐患和市场环境变化进行智慧分析和预测,并对图书馆个性化智慧服务的模式、策略、内容和安全防范措施进行决策与评估[5]。
2.2图书馆大数据分析平台的构建策略
2.2.1增强图书馆对大数据资源的智慧分析能力
增强对大数据资源的智慧分析能力,是图书馆树立以“智慧分析和决策”为核心的大数据战略思想,以及高效整合大数据平台价值体系和科学分配、调度系统资源,利用大数据支持提高图书馆读者个性化服务风险预测、分析与决策、读者阅读体验、系统运营整体效率和市场竞争力的重要内容。
首先,图书馆应依靠大数据资源的支持,提高对读者阅读需求、内容、方法和模式的预测和判断能力,明确读者未来个性化阅读活动的时间、地点、对象、方法和内容,并在提高个性化服务针对性和质量的前提下,降低用户服务的成本投入。其次,增强图书馆大数据的智慧分析能力,就是要将以大数据资源为核心的图书馆服务能力建设,转变为以大数据资源采集、处理、建模、分析和系统反馈、优化全过程为核心的综合保障,确保大数据智慧分析过程安全、高效、可用和可控。第三,图书馆应根据大数据分析的对象、内容和质量要求,选择科学、高效、快速和经济的分析算法,确保对大数据资源有较高的质量和知识提取效率,并且分析平台可自动、智能地从数据中提取高价值密度的信息。第四,图书馆大数据的智慧分析平台应具备实时分析和可视化分析能力,可将分析结果准确、快速、友好和多模式地表示,确保读者个性化阅读服务过程具有较强的前瞻性、即时性和可控性[6]。
2.2.2大数据分析应以读者个性化服务需求为中心
大数据时代,图书馆应以读者个性化需求与服务为中心,逐步建立依据用户需求、业务优先等级和服务收益为标准的大数据战略目标,才能有效提高大数据采集、处理、整合、分析和决策的效率。
首先,图书馆应通过对用户阅读反馈与服务系统运营大数据信息的监测、分析,提高大数据平台对用户个性化服务安全隐患、突发事件、服务质量潜在风险的预测、判断和评估能力,为安全防范策略的制定与实施提供科学的数据支持。同时,还应通过对用户阅读需求、阅读内容和阅读环境的准确预测,提高读者个性化阅读满意度并降低客户流失率。其次,大数据分析过程应以绝大多数读者的海量阅读行为数据为基础,不能为了降低数据采集、存储、处理和分析成本而采取用户抽样的方法,避免因所采集的个别读者最小量行为样本数据的片面、局限性,而影响分析结果的全面性和准确性。第三,大数据分析应以读者阅读时限需求为依据,对于用户多媒体阅读需求预测、用户行为即时分析、安全风险监控与评估等大数据应用,应采用海量数据实时分析的方法,确保大数据服务过程具有较高的安全性、质量保证和可靠性。而对于离线统计分析、机器学习、服务策略评估与优化等实时性要求不高的大数据分析,则可采用离线数据分析的方法,在保证满足系统管理和服务需求的前提下大幅度降低大数据分析成本[7]。
2.2.3构建科学、高效和经济的大数据分析中心
图书馆构建科学、高效和经济的大数据分析中心,重点应加强大数据分析中心架构科学性、数据存储效率和数据分析能力建设三部分内容。
首先,图书馆大数据信息具有数据源多样性、数据海量、数据传输时效性要求高和处理速度快的特点。因此,大数据分析中心架构必须科学、开放、异构、透明、跨平台和具备智能化管理的功能,并拥有较高的IT架构智慧管理、智能计算和低碳运营能力,可通过智慧管理实现数据采集存储、计算、分析、决策的精细化管理与资源最优化配置。其次,随着图书馆大数据资源总量和存储标准的增长,图书馆应依据大数据源位置、数据分析流程和数据流传输时延,构建高性能的光纤通道存储区域网络,满足大数据平台实时分析过程对数据高速即时传输的需求。同时,数据存储应采用虚拟化和分布式多节点存储方法,将大数据资源存储在位于不同地理位置的图书馆子数据中心里,在保证大数据资源准确、可控和可快速更新的前提下,确保大数据资源存储管理安全、高效、快捷和经济。第三,图书馆大数据分析能力的提升,是一个关系数据中心IT基础设施架构科学性、数据分析算法有效性、数据中心系统整体优化、数据分析过程可视的综合问题。因此,图书馆应重点解决好大数据平台计算资源管理与分配、分析算法科学性与可扩展性、分析系统安全性与稳定性、数据传输网络效率、数据分析平台的能耗与低碳等问题。此外,还应加强大数据分析平台的智能化与机器自我学习能力,保证分析系统可根据分析对象和内容的变化,对分析算法和过程进行智能的调整与优化[8]。
2.2.4确保大数据资源具有较高的安全、可用性
大数据环境下,只有保证大数据资源具有较高的安全、可用性,才能保证图书馆大数据分析过程安全、高效、可控和经济,才能保证分析结果全面、准确、可用和可对系统管理与用户服务进行实践指导。
首先,图书馆在用户行为与阅读社会关系数据采集过程中,应将读者的个人隐私保护放在首要位置。读者必须拥有对自身数据采集、存储、分析和共享的知情权与决定权,图书馆不能随意监测、采集、使用和泄露用户隐私数据。其次,图书馆应建立科学的大数据资源采集、存储和分析流程,不断提高存储架构科学性和分析过程可行性。同时,应通过对大数据资源的过滤和价值挖掘,不断降低大数据资源总量并提高数据的价值密度,最终建立与读者个性化服务相匹配的数据分析流程。此外,还应防止大数据分析过程出现经验主义和长官意志现象。第三,大数据资源的安全与可用性保障内容,应重点放在提高数据准确性、存储适用性、可搜索与查询性、数据集可扩展性与稳定性四个方面,这样才能确保数据采集、抽取、清理、分类管理、转换和加载过程规范、标准化[9]。
3结语
大数据时代,读者对图书馆个性化服务的内容、模式和服务质量有了更高的要求。同时,大数据环境数据量与数据结构复杂度的快速增长,也给图书馆大数据的准确、高效、快速和深度分析带来了挑战。图书馆在大数据平台数据分析能力建设中,应坚持以用户需求和服务质量保障为中心,重点加强在大数据资源采集、存储、处理、分析和决策过程中的数据管理科学性与效率。同时,在大幅度降低大数据资源总量和数据分析平台系统负荷的前提下,不断提高大数据分析平台的系统结构科学性、分析系统运行效率、分析算法可用性和大数据资源的价值密度,确保大数据分析过程安全、高效、快速和经济,为读者个性化服务和图书馆智慧管理提供科学、全面、即时和可靠的大数据分析与决策支持[10]。
参考文献:
[ 1 ][英]维克托・迈尔-舍恩伯格,肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].盛杨燕,周涛,译.杭州:浙江人民出版社,2013:1-15.
[ 2 ]李晨晖,崔建明,陈超泉.大数据知识服务平台构建关键技术研究[J].情报资料工作,2013(2):29-34.
[ 3 ]张延松,焦敏,王占伟,等.海量数据分析的One-size-fits-all OLAP技术[J].计算机学报,2011,34(10):1936-1946.
[ 4 ]覃雄派,王会举,杜小勇,等.大数据分析:RDBMS与MapReduce的竞争与共生[J].软件学报,2012,23(1):32-45.
[ 5 ]漆晨曦.电信企业大数据分析、应用及管理发展策略[J].电信科学,2013(3):12-16.
[ 6 ]沈来信,王伟.基于Tree-Lib的大数据实时分析研究[J].计算机科学,2013,40(6):192-196.
[ 7 ]Russom P. Big Data Analytics[R].Tdwi Best Practices Report. Fourth Quarter,2011:15-21.
[ 8 ]王柯柯,崔贯勋,倪伟,等.基于单元的快速的大数据集离群数据挖掘算法[J].重庆邮电大学学报:自然科学版,2010,22(5):673-677.
[ 9 ]唐杰,杨洋.移动社交网络中的用户行为预测模型[J].中国计算机学会通讯,2012,8(5):21-25.
[10]王珊,王会举,覃雄派,等.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.
一、以“复合型”人才培养为目标创新教学培养模式
应用统计专业学位的设立是为了适应现代统计事业发展对应用统计专门人才的需要而设置的,它的培养目标主要是让学生掌握扎实的理论基础和系统的专业知识和技能,具备数据采集、整理、分析和开发的能力,能够从事统计调查咨询、数据分析等“应用型”统计专门人才[5]110-111。然而,在大数据环境下实现的数据分析已不再局限于某一类特殊的行业统计分析需要,各行各业的运作发展都越来越依赖于大数据环境的存储、计算、统计分析与决策。对于多样化的大数据集,其所涉及的内容和知识结构必然是不同学科的交叉应用。大数据时代的数据分析专业人才的培养目标并不仅仅是传统的数据收集、整理与分析,而是需要掌握能适应大数据特点的新的研究方法和独立分析的能力,能很好地融会贯通其他专业的知识内涵,成为真正意义的专业大数据分析人才。然而传统的统计学人才培养目标和教学模式并不符合社会对大数据分析专业能力的要求。参考和借鉴文献[6-7]8-9,226提出来的一些建议,笔者探索从以下几个方面对人才培养目标和教学培养模式进行改革:(一)走出校园,深入社会,挖掘并归纳出社会用人单位对数据分析专业职位技能和能力素质要求,进而制定符合社会需求的人才培养目标,以市场需求为导向更好地指导教学实践活动。为了更好地为用人单位输送符合大数据时代需求的专业数据分析人才,尝试对高年级学生的培养方案设计中考虑以岗位需求为标准灵活调整和制定相应的培养目标和内容。(二)参考国外本科生专业人才培养的先进理念,引入“协作式”培养模式,大力支持大型企业与高校合作或高校与高校合作培养复合型和开发型人才。各个高校、企业可以发挥各自专业特长来实现合作,高校的不同专业之间也应该加强沟通和协作,例如在制定应用统计专业数据分析人才培养方案及实施过程中,可以以统计学科所在的学院为主导,让计算机学科、经济、金融及管理学科等相关学院协作参与完成[8-9]60-64。(三)总结教学过程存在的不足,探索新的知识学习和能力培养的创新模式。目前的教学活动主要以老师独立授课,学生被动接受知识为主的方式,培养过程计划性强,缺乏弹性,培养的评价也过于单一。在本科生培养中可以引入课程学习、导师指导和科学研究三个阶段,考虑采用导师指导与集体培养相结合的方式,一门专业课程的讲授不再局限于单个老师完成,在培养方案中考虑主题分组方式,鼓励授课教师根据自己的专业特点和知识背景共同参与一门课程的教学活动。多名教师协同工作的模式可以取长补短,在大数据分析的实际案例设计及课程内容上都更加贴近实际需求,产生更好的教学效果[6]8-9。
二、基于大数据分析的特点科学构建课程体系
大数据背景下,人们可以通过互联网、数据库以及各种通信工具获得海量数据,人们日常生活、学习和工作的各类事物都可以实现信息化,世界几乎是由各种信息和数据所构成的。大数据的特点可以归结为四个V,数量大(Volume)、类型繁多(Variety)、价值密度低(Value)、速度快时效高(Velocity)[6]8-9。大数据的真正意义不在于能提供庞大的数据量,而是对海量的数据进行专业的处理和分析,并从中获取用户关注的信息。结合当前互联网应用中大数据本身的特点,从大数据中挖掘出重要知识并对之深度学习和分析的工具和方法也应与时俱进地发生改变,传统的统计方法和统计分析工具已无法满足大数据分析的需要。然而,在大多数高等院校中,统计学专业人才培养的课程体系并没有考虑社会的实际应用需求,仍然停留在以传统的统计模型框架为主导的课程体系设置,本科生教育的主要专业课程包括:数学分析、高等概率论与数理统计、应用随机过程、回归分析和多元统计分析等[10]248-249,这些课程内容和知识结构还不足以满足大数据时代对数据分析专业人才知识结构的要求,课程体系设置中缺少能有效整合的数据分析能力培养模块[11]66-68。因此,有必要针对各类院校师生各自的专业特点和学科基础,分层次、分阶段地展开课程体系改革。(一)参考国内外先进高校大数据分析专业的课程设置,结合本校的师资和专业结构特点采取灵活的策略制定课程计划,在实施学分制改革的高校中各类学生可以在学业导师指导下实施符合学生自身特点的课程学习方案。(二)以大数据分析人才需求驱动的课程体系改革要考虑市场的行业需求变化、大数据应用中跨学科的特点。素质好的数据分析人员不仅仅要具备专业的数据分析能力,还应该对具体数据中涉及的学科知识有较好的储备,能将不同行业的专业知识与数据分析紧密关联起来,实现大数据分析的效用最大化。此外,在充分借鉴国内外大学成功经验的基础上,课程设置应该与学生的学术倾向和基础能力紧密结合,注重基础课程教育的同时强调文理渗透,同时要兼顾学生的兴趣与学习的联系,在课程体系的设置中需要增设一些多领域、跨学科的选修课程,如经济学、金融学、保险学、管理学和会计学等。因此,校内跨学科或高校与高校之间联合培养是实现跨学科课程建设的有效方法之一。(三)科学构建课程体系的主要思路还包括根据大数据时代需求,对专业必修和专业选修课程在课程时间、顺序及内容等方面进行改革。专业必修课程重点内容为统计学和计算机科学的交叉部分,在讲授统计基础理论(如多元统计、决策树、时间序列等)课程基础上设置大数据案例分析课程,在案例分析过程中让学生实际操作企业当前应用的大数据计算平台[6]8-9,从而增强学生大规模分布式计算技能。为提高学生的实际动手和二次开发能力,专业选修课程需更多地开设与数据挖掘及面向数据的编程语言相关的课程,如数据挖掘算法、C++、Java和Python等课程,强化学生的数据挖掘和分析能力。
三、基于协同创新的理念开展实践教学改革
近几年,随着应用型、创新型人才培养目标的提出,学校越来越重视和加强对各类专业人才实践教学能力的培养,以“数据分析”为方向的专业人才需要运用统计分析软件对数据进行分析和决策,其实践教学的重要性更是不言而喻。然而,在大数据被广泛应用的时代背景下,高等院校中的实践教学仍然是培养高层次“大数据分析”人才的薄弱环节,实践教学教材及内容不规范、教学方法单一、软硬件的更新以及师资储备等方面都存在着一些问题[12]96-97。例如以模型驱动为主的实践教学模式已不适应大数据时代的要求,大数据时代数据是海量且复杂的,用简单的SPSS、Eviews为主的软件教学已无法处理大数据[5]110-111。因此,学习其他知名高校构建的协同创新的理念,结合财经类院校的统计学科及人才培养的特点,开展实践教学改革[13]248-249。对“数据分析”专业人才实践教学改革,笔者的建议如下:(一)根据协同创新理念,解决实践教学环节存在的实验教材(教学内容)缺乏实用性的问题,一方面可以参考企业对数据分析师、调查分析师资格认证相关培训教材,开发实用性强的《数据分析》实践教材,另一方面学校可以和企业或其他高校定期举办交流座谈会,面向企业需求甄选实践教学内容。(二)高素质的师资队伍对人才的培养无疑起着至关重要的作用,在提高指导教师理论和实践能力方面,借鉴协同创新联合培养的模式可以有效充分地利用企业、学校的各方面师资资源。例如北京大学、中国科学院、中国人民大学、中央财经大学、首都经济贸易大学5所高校已经与政府部门和产业界签署了联合培养大数据分析应用人才的合作协议[14]。广东财经大学也可以参照类似联合培养的做法,和广东其他高校、政府和企业合作。一方面企业或政府可以利用自身的资源为高校提供人才培养实习基地,并且引荐相关的技术人员聘为校外实习导师,指导学生在实习实践中建立以问题为导向,以项目为牵引的运作机制,让学生能够理论联系实际,切身体会数据分析的商业操作体系。另一方面,由于高校的专业教师缺乏社会实践的机会和经验,高校应该制定政策鼓励并推荐相关专业教师走出学校、走进企业,密切与企业合作交流,从而更进一步地提高教师对复合型专业学位人才培养的能力[15]29-32。(三)为了激发学生的学习热情,减少对实践操作的畏难情绪,实验课程的教学方法也需要探索创新性实践教育模式。教学过程可以考虑灵活的制定团队教学计划、案例实战分析、模拟实训等多样化的方式,减少单一的课堂内容讲授,在理论和实践教学环节中积极调动学生的主观能动性,提供更真实的企业大数据应用环境,并以学生为主完成实际案例分析。此外,基于不同的授课对象的特点,老师在教学过程中也要适当考虑学生的兴趣和需求,随时调整实验教学策略[9]。
大数据时代,人类的工作和生活都与大数据息息相关,各类行业的发展也和大数据中的海量信息密切相关,数据及其分析将成为决策唯一的依据。因此,各行各业都将需要拥有大数据分析能力的统计学专业人才。各类高等院校作为人才培养的重要载体,更是承载了培养能适应大数据环境下数据分析专业人才的重要使命。文章从完善人才培养的目标出发,总结和分析了传统的统计学及数据分析人才培养在大数据环境下存在的问题,并基于大数据的特点提出了课程体系和内容的改革思考,并在此基础上提出了面向大数据分析的课程实验教学方法,探讨如何提高本科生理论与实践结合的综合能力,为大数据时代下数据分析专业人才培养改革提供新的思路和参考。
作者:温雅敏 龚征 单位:广东财经大学 华南师范大学
与此相适应,会计信息管理专业的人才培养课程体系体现为会计学基础课程、数据分析技术课程以及决策能力提升课程等三个层次。
0 引 言
2012年以来,铺天盖地的大数据进入了我们的视线,各种流行书籍,各大网站、媒体都在谈论大数据,一时间成为这个时代最热门的话题。同时,这也引起了我们的关注。我们说,大数据,不单纯是数据规模上的大,还在多样性、速度、精确性上都有突破性增长。更重要的是,这种数据的潜在价值也是旧有数据难以企及的。我们这里暂且不论如何驾驭大数据以及有什么样的技术要求,它给我们的一点重要启示就是要注重数据分析的重要性。在此背景下,深圳信息职业技术学院会计信息管理专业积极探索满足新形势下人才需求的培养模式,使人才更好地满足当前企业的实际需要。
1 大数据时代背景引发对人才需求的变革
可以说,在未来的竞争领域,“占领市场必须先占有数据”,也就是要做到基于信息的决策——“用数据说话,做理性决策”,即进行数据分析。数据分析是从海量的数据中提取和挖掘出对企业有价值的规律和趋势,为企业的决策提供支持,这些支持体现在四个方面:①行为预见镜——帮助企业识别机会、规避风险;②问题良药——帮助企业诊断问题、亡羊补牢;③跟踪检测——帮助企业评估效果,提升效益;④引力动力器——帮助企业提高效率,加强管理。
不可否认,个别公司的决策人具有超人的战略眼光以及敏锐的洞察力,单靠直觉也能给公司带来巨大价值。那么究竟靠数据分析的决策能否优于直觉决策,我们这里也要靠数据说话。有学者比较了组织中用直觉决策以及用数据分析决策的可能性,研究发现,业绩优秀的组织更多地倾向于采用分析决策,尤其是在财务管理、运营、战略等方面。因此,可以推断,用数据分析决策比直觉决策能给企业带来更大的价值。与此同时,根据智联招聘网站显示,短短两年时间,珠三角地区数据分析人才需求已接近了需求量旺盛的传统会计专业。可见,越来越多的公司需要能够对公司财务等相关信息数据进行处理、加工、分析以为公司管理层决策提供信息支持的人才。
可以说,传统会计专业注重会计核算,即财务报表编制的整个流程及环节的掌握,而会计信息管理专业更注重对财务报表数据以及其他有用信息数据的再加工、处理、分析及呈报,以满足管理层经营决策的需要。 可以说,不同的社会发展阶段和发展水平要求有不同的专业设置及专业培养目标与之适应。从会计电算化到会计信息管理背后的推动力是时代的变革引发的对人才的需求。
然而,从当前会计信息管理专业的建设情况来看,多数院校存在培养目标不清晰、没有明确的专业定位、与会计电算化等专业没有明显区分以及缺乏明确的专业核心课程等突出问题,尤其是对会计信息管理专业名称中“信息”二字究竟如何体现没有清晰的把握和界定。 因此,会计信息管理专业的人才培养模式亟需变革。
2 大数据时代背景下会计信息管理人才工作岗位及能力分析
深圳信息职业技术学院2012年成功申报会计信息管理新专业,并于2013年下半年开始首届招生。与此同时,会计信息管理的专业定位、培养目标、课程体系也成为摆在专业任课教师面前的重大课题。近几年来,全体专任教师围绕会计信息管理专业建设展开了一系列的咨询、调研、走访,并定期进行讨论、交流,扎扎实实了解实际中的人才需求,实现专业人才供给与人才需求无缝对接。到目前,初步形成了具有专业特色的会计信息管理专业建设思路与方法。
首先,会计信息管理专业人才就业岗位主要集中在账务处理、管理会计、财务数据分析、预算管理、成本管理、资金管理及内部控制等方面。具体工作任务体现在:会计核算,纳税申报,管理会计,财务数据处理、加工、分析及呈报,以及预算、成本、资金管理等。
其次,在新形势下会计信息管理人才的工作岗位领域,会计信息管理专业人才应具备如下三方面能力:
①会计核算能力,指的是熟悉并掌握会计信息生成系统,运用财务信息对企业经营活动进行评价;②数据分析能力,指的是掌握一定的数据分析方法,运用Excel、数据库等现代信息技术手段对数据进行采集、处理、分析及呈现;③辅助决策能力,指的是能够依据相应的数据分析结果,为公司日常财务等管理决策提供支持。
3 大数据时代背景下会计信息管理人才培养目标
在当前互联网时代及大数据时代,对财务人才的要求,已经不局限于传统账务处理,更倾向于对决策相关信息数据的处理和分析。“占领市场必须先占领数据”,公司财务和经营决策的制定更多的是基于信息的决策,即“用数据说话,做理性决策”,而数据分析即是从海量的数据中提取和挖掘出对企业有价值的规律和趋势,为企业的决策提供支持。因此,在新形势下,会计信息管理专业的人才培养目标可以确定为数据分析引领财务决策信息化。
为了实现这一培养目标,需要三个层面的支撑体系,即基于财务会计、强化数据分析、服务管理决策。
4 大数据时代背景下会计信息管理人才培养课程体系
在以数据分析引领财务决策信息化的人才培养目标指引下,我们初步形成了如下三个层次的课程体系。
(1)会计学基础课程:会计信息管理源于会计,不能脱离财务会计,仍然要以财务会计为基础。专业学生要了解财务报表的生成过程及会计账务处理流程、能够对一般企业常见经济业务进行会计处理、进行企业纳税申报等。
这方面课程主要有:会计学原理、财务会计、纳税实务。(2)数据分析技术课程:对信息的把握体现在两个层面,其一是与企业信息化相适应的一般管理软件、财务软件的使用及熟练操作以及简单维护,能够作为关键人物辅助中小企业实现财务信息化;另一层面通过对数据的采集、整理、分析报告,满足管理层基于信息的决策以及决策的科学化。数据的来源可以来自公司内部的管理信息系统,根据需要也可以来自企业外部的国家经济产业政策、行业市场信息等。
其中,对数据的分析能力又从两方面进行培养,一方面是分析思维方式的培养,这是起主导作用的层面;另一方面是分析工具运用的培养,信息化时代,数据量的加大要求借助于一定的分析工具才能实现数据分析。企业信息化实施及数据分析方面的主要课程有:财务报表分析、财经数据分析、应用统计学、数据库原理及应用、数据处理软件应用、商务智能等。
(3)决策能力提升课程:新形势下财务人员面对和服务的更多是企业的管理层和决策层,会计信息管理专业学生要清楚公司管理层和决策层需要哪方面的决策信息支持,并通过数据分析方法进行提供,同时给出合理化建议。这方面课程主要有:管理会计、财务管理、成本管理等。
具体课程名称及课程目标见表2。
其中,财经数据分析课程能够使学生掌握系统的数据分析方法,包括数据收集、数据处理、数据分析、数据展现及报告撰写各环节的基本理论及操作技能,同时熟练地运用数据分析的思想和方法分析企业的财务数据,为管理层决策提供信息支持。数据分析软件应用课程能够让学生熟练运用Excel等常见数据分析工具、软件进行数据录入、数据整理和数据分析的方法和技巧,培养学生操作Excel等数据分析软件的基本技能。商务智能(含数据挖掘)课程依托商务智能平台,从商务智能概念、商务智能结构、多维数据集内容、数据挖掘、交付等主要内容,使学生在了解如何运用商务智能的工具、架构以及规则的基础上,分析企业数据,为企业管理层提供信息化决策支持系统。
5 结 语
不同的社会发展阶段和发展水平要求有不同的专业设置及专业培养目标与之适应。从会计电算化到会计信息管理背后的推动力是时代的变革引发的对人才的需求。大数据时代下会计信息管理人才培养目标为数据分析引领财务决策信息化。 相应课程体系为财务会计基础课程、数据分析技术课程、决策能力提升课程。我们共同期待,会计信息管理人才将通过数据分析对企业财务等管理决策带来价值增值。
[关键词] 审计;大数据;数据模型
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2017. 13. 023
[中图分类号] F239.1 [文献标识码] A [文章编号] 1673 - 0194(2017)13- 0056- 03
1 大数据环境下的审计特征
传统审计过程中最困难的就是对被审计对象原始数据的获取,在信息数据未归集的条件下,如何准确获取审计所需数据一直是困扰审计信息化的难题之一。
随着信息化时代的来临,审计数据发生了根本性的变化,具有分布广、数据量大、集成度高、更新快等特征。在大数据环境下,非现场审计将逐渐成为主要工作方式。审计不再局限于凭证、账面、财务系统等信息,信息化审计极大地拓展了审计视角,能更快地挖掘出被审计单位的全部业务信息。审计方法从“抽样审计”逐渐转变为“全面审计”,建立在大数据基础上的审计变得更加简便,数据更加准确、全面。大数据环境下持续性审计将成为现实,审计人员可以利用云数据掌握公司的运营状况、风险变化等情况,对内部风险及时分析预警,将风险隐患消除在萌芽状态。
因此,积极应用“云计算”、数据挖掘、智能分析等技术,能提高审计效率;而探索多维度、智能化数据分析方法,加强对各层级、各系统间数据的关联分析,更能增强感知风险的能力。
2 审计数据分析类型
审计数据分析按照其操作方法、实现工具、与审计经验结合程度等方面的不同,可以分为以下三种类型。
查询型分析:审计人员借助业务信息系统或财务总账,访问和查询数据记录,进行筛选、查找、排序、核对、抽样、统计等操作性分析。这是对审计项目进行总体分析,具有直观、简易的特点,但缺点是审计思路呈线性结构,数据量较大,不易发现问题线索。
验证型分析:审计人员借助工作经验首先提出风险点,然后根据相关数据来检查风险点,从数据中确定审计事实。验证型分析的关键,是要能提出合理的风险点,这与审计人员的职业判断和经验积累息息相关。
挖掘型分析:审计人员以海量数据为基础,进行深层次数据分析,从不同的角度对被审计单位的业务数据进行挖掘,并以直观易懂的形式展示分析结果。
3 审计数据分析模型
根据审计数据分析类型,通过对数据的查询、验证和挖掘,建立更直观的数据模型,结合审计目标寻找疑点,进而评估被审计单位控制风险、揭示制度问题等。建立数据分析模型,主要通过以下几个步骤。
3.1 采集数据,掌握整体情况
采集被审计单位数据,对被审计单位的财务收支、物资出入库、经营管理、内部控制等进行总体分析,把握全局,形成对被审计单位的财务、物资、内控的整体印象。
3.2 发现问题线索,确定审计重点
在整体掌握的基础上,通过复核、对比、计算等数据分析手段,对采集的数据进行整合,建立数据分析模型,从而发现问题线索,确定审计重点。
3.3 核实问题线索,评估控制风险
对数据模型分析中发现的异常情况,通过现场审计获取证据予以证或者排除,进而评估控制风险、揭示制度问题。
以上三个方面是紧密联系的,只有在掌握整体情况的基础上,才能建立数据分析模型确定审计重点,并对审计重点进行核实,进而实现风险评估。
4 实例分析
2016年8月,对X省电力公司所属集体企业A、B公司总经理任期经济责任履职情况进行了审计。此次审计按照标准审计流程,结合已有审计数据,对各系统间数据进行智能化分析。通过审计软件及业务信息系统获取更直观的数据,建立了“三重一大”事项、物资采购及合同管理、薪酬福利管理、固定资产管理、财务管理、三公费用管理等审计数据分析模型。
4.1 采集数据,掌握整体情况
审计组根据经济责任审计要求,采集营业收入、利润总额、资产总额等数据,掌握被审计单位整体情况。将采集的数据导入Excel,运用其各种功能,得出如图1、图2所示结果。
4.2 发现问题线索,确定审计重点
在总体掌握的基础上,对采集的数据进行整合,通过对数据进行指标分析、对比,建立数据分析模型,发现问题线索,确定审计重点。
分析结果如图3、图4所示。
从分析结果看出,A公司资产负债率不高,但负债总额较大,存在一定的风险;销售净利率较高,说明该公司收益水平较高;资产净利率较好,资产的利用效率较高,该公司在增加收入和节约资金等方面取得了较好的效果。B公司资产负债率较低,该公司成本较低,风险小,偿债能力强,经营较为稳健,投资行为比较谨慎;销售净利率较高,收益水平较高;资产净利率较好,资产的利用效率较高。
4.3 核实问题线索,评估控制风险
在总体分析的基础上,结合审计重点建立数据分析模型,发现问题线索,进而评估风险,揭示制度问题。分析结果如图5、图6所示。
从审计问题分布图中可以直观地发现,A公司在物资及合同管理方面的问题涉及的金额比重较大,其次是财务管理、三重一大、三公费用、薪酬福利方面的问题。因此,该公司在关注各方面问题的同时,应重点关注物资及合同管理方面的问题。
从图6分析结果发现,B公司在财务管理方面的问题涉及的金额比重较大,其次是三重一大、物资及合同管理、薪酬福利、三公费用方面的问题。因此,该公司在关注各方面问题的同时,应重点关注财务管理方面的问题。
5 结 语
在大数据环境下,运用审计数据分析的前沿理念和技术,开展数据分析和挖掘,致力于构建审计数据分析模型,可以有效降低审计人员的工作量,提高审计的效率和质量。审计人员通过总体分析、关联分析、趋势分析、多维分析等,从整体上把握被审计单位的财务状况、审计重点和疑点,为客观、真实评价企业领导干部经济责任履行情况提供了数据支撑。利用审计数据分析模型,可以使审计报告更有说服力,问题定性更加准确、审计效果更加明显。
主要参考文献
[1]马滢,乔羽.大数据环境下企业内部审计面临的机遇和挑战[J].新经济,2016(27):73-74.
关键词:移动信令数据;大数据中间件;研究
现阶段,我国有很多企业都对移动信令数据进行研究分析,而且大多数企业都有自己的算法库,但是因为没有统一的规范与标准,移动信令数据的挖掘与分析存在着重复性,同时算法库管理水平也不高,最为重要的是项目模块几乎没有共享性,这使得很多资源没有得到充分利用,大数据库的管理工作也十分不方便。基于就这个现状来说,企业的确应该制作大数据中间件。
1 移动信令数据分析的大数据中间件研究必要性
移动信令数据分析问题将是未来各界人士只要研究的问题,这主要是由于现代企业希望通过对移动信令数据的挖掘,来获得更多更有价值的信息,从而推动企业发展。移动信令数据分析与研究的必要性体现如下:
首先,现代企业所使用的数据分析方法比较落后,已经不能满足大批量数据分析的要求,尤其是在互联网时代,企业所需要的数据几乎都来自于移动互联网,而互联网上的信息非常多,现有数据分析方式已经不能达到要求,因此企业有必要建立更先进的数据分析框架,以能够满足移动大数据快速有效的分析要求;其次,移动信令数据分析既可以为用户提供更具权威性的感知,也可以为用户提供实时的设备监测数据。新型技术的应用可以提高企业精细化管理的水平,为企业提供决策正确率奠定基础;再次,现阶段移动运营商正在努力的挖掘移动大数据但是并没有形成系统,而此时,各个厂家也都在发挥自己的效能进行研究与信令监测,这就导致研究资源的大量浪费,同时无论是投资、研究,还是开发都具有重复性,因此需要大数据中间件进行研究,以减少这种浪费;第四,现阶段各个企业所进行都没有统一的标准与规范,所以有很多开发项目都不够规范,尽管有很多厂家都具有自己的算法库以及场景库,但是却没有统一的标准来规范,所以管理比较混乱,而大数据中间件建立之后,标准与规范相对都比较统一,这为各个厂家也提供参照标准;第五,大数据分析由很多模块构成,但是很多处理模块却没有达到统一,也没有实现共享。无论哪一类项目,挖掘数据、分析数据等都需要算法,但是现阶段却没有统一标准来实现算法,再加之,项目与项目之间没有进行良好的沟通,所以项目中的模块只能在本项目中应用,无法应用在其他项目中,即共享性非常弱。
基于上述几点,企业有必要对移动信令数据进行深入的分析,制作出共享性强、标准统一的中间性软件,这样才能实现大数据处理,便于大数据科学合理的管理与应用。
2 基于移动信令数据分析的大数据中间件
2.1 大数据中间件架构
企业在进行移动信令数据分析时,为了确保网络与营销分析更加真实可靠,研究人员尝试着在制作大数据中间件,将其放于应用层与共享层之间。有关人员在共享层中挖掘数据,而应用层通过中间件,共享数据。中间件既要模型库,也有算法库,同时还有大数据分析系统化做支撑,所应用的模式,既有语言,也有接口。这种中间件,功能强大,尤其是共享性突出。
中间件具体的处理流程如下:应用类型分析。针对具体应用场景,对共享层的输入数据进行抽样,对抽样数据进行主成分分析,提取感兴趣的字段,遍历模型库,若存在该应用类型的应用模型,将感兴趣的字段与模型库中对应的应用模型关键字进行匹配,根据匹配结果进行下一步相关处理;按已确定的关键字提取原始数据,对提取的数据进行清洗、审核,输出审核通过的数据;对海量原始数据进行分布式存储,根据目标用户,进行数据抽取,得到用户数据文件,然后对用户数据文件进行文件合并;在算法库中选择不同的算法对样本数据进行挖掘分析,计算其准确率,用遗传算法对算法进行组合,得出近似最优解,并对组合分类算法进行预评估;对组合算法模型进行初始参数配置,对样本数据进行相应的数据变换。
2.2 并行数据挖掘算法库
数据挖掘算法库是大数据中间件的核心组成部分之一,它包括各类数据挖掘算法的实现以及组合算法的实现。其中,算法的并行化是算法库的核心。为实现对多种并行数据挖掘算法的管理,更好地利用算法本身并行性以及整个数据挖掘算法流程上的并行性,在上述计算框架下增加对数据挖掘算法与服务管理,对数据挖掘算法的工作流进行定义,增加对各种数据挖掘算法的扩展性支持,灵活配置各种数据挖掘算法,对算法整个计算流程进行管理,优化算法各个流程所需要的计算框架的分配方式,实现对批量计算的流水并行。
2.3 大数据中间件应用效果
2.3.1 有效降低移动大数据研究项目的重复投资、重复研究和重复建设,为应用层决策提供强大的数据支撑,为后续大数据分析的发展提供基础平台。移动大数据分析处理中间件预计每年为湖北移动分公司网管中心节省大数据研究项目经费30万。
2.3.2 大幅减少人力投入。本项目构建的移动大数据处理中间件,具有高效准确的数据挖掘算法支持,数据处理智能高效,提供各种大数据分析挖掘服务,提高应用层业务分析人员的工作效率,从而有效节省人力资源。应用层业务研究分析人员通过使用移动大数据分析挖掘服务,能够快速、准确地进行移动信令大数据的统计、挖掘等功能,能提高数据分析人员工作效率一倍以上。
2.3.3 大幅提高大数据营销的效率。本项目提供先进的数据挖掘算法和算法组合方法,为移动信令大数据分析挖掘提供快速、准确、全面的算法支持,提高营销分析速度和成功率。以终端营销为例,能将营销成功率提高百分之六十以上。
结束语
综上所述,可知对移动信令数据分析的大数据中间件研究十分重要。如果大数据中间件研究成功,并且应用在实际工作中,企业的潜在价值将会被充分的挖掘出来,不仅能够提高算法效率,同时能够提高算法的准确率。通过实验研究,企业应该自大数据中间件之后,不仅减少了重复投资与研究,同时也减少了人力投入,另外,大数据营销水平也得到了非常大提高,因此,大数据中间件完全值得尝试应用。
参考文献
[1]左超,耿庆鹏,刘旭峰.基于大数据的电信业务发展策略研究[J].邮电设计技术,2013(10).
[2]俞国红.智能化数据库中间件的设计与实现[J].廊坊师范学院学报(自然科学版),2010(1).
[3]潘琛宇,唐晓梅,陈家训.基于平台中间件的自助式缴费系统[J].微型机与应用,2002(12).