HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 大数据分析论文

大数据分析论文

时间:2022-05-24 20:01:46

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇大数据分析论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

大数据分析论文

第1篇

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

 

第2篇

[关键词]Hadoop;大数据;分布式计算;HDFS;MapReduce

doi:10.3969/j.issn.1673 - 0194.2015.20.032

[中图分类号]TP308;TP311.13 [文献标识码]A [文章编号]1673-0194(2015)20-0041-01

1 大数据

大数据需要新处理模式才具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的核心是预测,它把数学算法应用到海量数据上来预测事件发生的可能性。大数据同时意味着思维的变革:①小数据分析的是随机样本,而大数据分析的是全体数据,全面展示样本无法表达的细节信息;②小数据分析追求精确性,而大数据分析具有混杂性,这意味着大数据的简单算法比采样数据的复杂算法更有效;③小数据分析关注因果关系,而大数据分析更关注相关关系,通过分析事物之间的关联性,来预测事件的发展趋势。

2 Hadoop大数据平台

Hadoop是Apache的开源分布式计算平台。受Google大数据论文的启发,Doug Cutting用JAVA实现了以MapReduce和HDFS为核心的Hadoop,并将源代码完全贡献出来。Hadoop充分发挥集群的计算和存储能力,快速完成海量数据的处理。Hadoop采用分布式存储来提高读写速度和扩大存储容量;采用MapReduce整合分布式文件系统上的数据,实现数据高速处理;采用存储冗余数据来保证数据的安全性。

2.1 HDFS

HDFS是基于流模式访问和处理超大文件的需求而开发的,它可以运行于廉价的商用服务器上,HDFS的主要特点有以下3个方面。①处理超大文件:在实际应用中,HDFS已经能够用来存储管理PB级的数据了。②流式访问数据:请求读取整个数据集要比读取一条记录更加高效。③运行于廉价的商用机器集群上:HDFS对硬件要求较低,无需昂贵的高可用性机器。

HDFS体系结构中有两类节点:NameNode和DataNode,NameNode负责管理集群中的执行调度,DataNode是具体任务的执行节点。当执行任务时,客户端访问NameNode获取文件数据信息,与DataNode进行交互以访问整个文件系统。HDFS向用户提供类似POSIX的文件接口,开发者在编程时无需考虑NameNode和DataNode的实现细节。

2.2 MapReduce

MapReduce是Google公司的核心计算模型。在Hadoop中,用于执行MapReduce任务的机器有两种角色:JobTracker和TaskTracker,一个Hadoop集群中只有一个JobTracker,用于任务管理和调度。一般来说,为了减轻网络传输的压力,数据存储在哪个节点上,就由哪个节点进行这部分数据的计算。JobTracker监控任务运行情况,当一个TaskTracker出现故障时,JobTracker会将其承担的任务转交到另一个空闲的TaskTracker重新运行。TaskTracker用于执行具体的工作。

3 大数据在智能电网中的应用构想

通过Hadoop大数据平台,技术人员可实时观察到全网范围内的电能流动状态、电能负载热区、设备故障高发区和客户集中区等数据,实现更加智能化的电网。具体包括以下4个方面。

3.1 电网数据可视化

在未来智能电网中,通过大数据分析融合调度、配电、输电、发电和用电客户数据,实现实时和非实时数据的高度信息化集成,通过实时可视化运算分析,全面展示完整和精细的电网运行状态图,为管理层提供辅助决策支持和依据。

3.2 电网负载趋势预测

在未来智能电网中,通过大数据分析电网负载的历史数据和实时数据,展示全网实时负载状态,预测电网负载变化趋势,通过现代化管理技术的综合应用,提高设备的使用效率,降低电能损耗,使电网运行更加经济和高效。

3.3 设备故障趋势预测

在未来智能电网中,通过大数据分析电网中部分故障设备的故障类型、历史状态和运行参数之间的相关性,预测电网故障发生的规律,评估电网运行风险,开展实时预警,提前做好设备巡检和消缺工作,为电网安全稳定运行保驾护航。

3.4 客户电力需求预测

在未来智能电网中,通过大数据分析电网客户的用电数据,预测区域用电和大客户用电需求变化趋势,针对客户需求提前制订高质量的服务计划,提升社会满意度。

4 结 语

Hadoop充分发挥集群的计算和存储能力,完成海量数据的实时处理。在未来的智能电网中,大数据分析可以应用到电网运行全景可视化、电网负载预测、设备故障趋势预测和客户需求趋势预测等需求,充分挖掘海量数据的价值,为智能电网提供技术参考。

第3篇

(湖南城市学院图书馆,湖南 益阳413000)

【摘 要】在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。在大数据时代下,图书馆应该进行服务模式创新与重构、服务内容创新与重构,从而解决发展瓶颈。

关键词 大数据;图书馆;云计算

0 引言

在云计算、物联网等技术的推动下,世界已经进入了一个“大数据”时代。如何有效地利用大数据成为政府公共管理和企业界共同关注的问题,但这些数据集的规模往往超出数据处理者的能力。图书馆主要工作为实践,研究和教育。以最大限度地利用人类的知识,促进专业的交流为责任。图书馆职业无法离开专业知识和信息,影响人类社会的可持续发展。数据是图书馆藏书的重要组成部分。数据作为原始类的产品,可以加工、整理、分析,最后提炼成人与人之间的生产和生活中发挥更大作用的信息和知识。因此,大数据主题是图书馆行业内应当研究的问题,展示了图书馆界在信息社会求生存,谋发展能力的提升。本文旨在讨论大数据时代下,图书馆与大数据相关的研究内容、发展存在的问题以及总体发展趋势。

1 图书馆学研究教育与大数据现状

图书馆已有的研究中有文献计量学等和大数据有关。研究人员为了促进信息科学与社会科学的进步,通过大型网络规模的收集获得数据和分析数据得出相关结论来实现目标。由于大数据技术的应用,传统的文献计量学的研究从过去只有简单的描述性研究扩展到评估和预测的研究。图书馆学研究人员参与了很多相关的项目,例如,新西兰的奥塔哥大学的图书馆承担了研究数据管理项目的任务,在麻省理工大学设立项目研究图书馆数据存储、需求分析数据的管理,和传播数据,并完成数据收集保存标准的制定工作。乌里韦和麦克唐纳在认为数据监测工作将从传统的信息技术受益。Huwe建议采取政治手段,以促进图书馆和数据中心的发展,他认为高等教育机构应该认可图书馆对学术研究的支持。通过分析2008非常流行的“数字化监控中心的生命周期模型”,希金斯提出,图书馆的“数据保留计划”的生命周期可以被纳入其数字机构库文件管理实体。此外,美国学者对馆员在大数据环境中的作用和专业知识进行了调查,他们一致认为图书馆可以在大数据时代承担数据管理职责。谢菲尔德大学还安排了基础的信息学专业课程。 2011年6月伦敦国际监护教育论坛投入使用的,也给数字监控领域的发展提供了一个机会。

国内目前的相关研究课题还处于刚起步的状态,CNKI与该主题相关的文章也只有寥寥几篇。相比之下,国内对“数据监护权”的关注度更高这,主要是针对大学图书馆在这个专业领域展开更多的研究。这方面的论文在2012年之后有一个井喷式的增长,但总体来说,国内相关文献还相对较少,研究项目也几乎没有。

2 图书馆的大数据特征

在数字化时代,数据处理更容易、更快。图书馆的数据资源种类多、数量大、形式多样。截至2008年底,CALS的文档数据量达到180T,2010年底的国家图书馆数字资源总量达到480 T。目前,国家博物馆进行维护之后,数字图书馆的非结构化数据的存储容量将非常大。总数字资源工程也达到108TB。由此看来,图书馆的数字资源总量已聚集为一个大的数据集。再次,图书馆自动化服务水平已发展到了一个新的阶段。此外,用户服务信息每日激增,用户对服务的要求越来越高,图书馆要根据用户的服务信息,做出相应的调整。因此,根据各自限定的环境和条件,从大量的数据分析中挖掘出用户当前和未来的需求都非常迫切。

3 大数据背景下图书馆发展趋势

3.1 服务模式创新与重构

目前,随着科学技术的不断发展,传统的纸质图书馆向电子、数字图书馆的转变,因此图书馆服务的性质已经发生了很大的变化。传统图书馆是点对点的服务,而目前数字图书馆已经成为综合,服务的风格和方法等方面都发生了很大的变化。在服务理念上,数字图书馆是基于数据服务的基础上,在大数据的基础上,从数据采集,智能服务,提供综合服务,创新了服务模式。在大数据时代,数据资源是丰富的,每个图书馆可以利用网络来收集大量的数据资源,基于资源共享提供各种数据管理的资源之间的无缝连接。

3.2 服务内容创新与重构

在大数据时代背景下,竞争已经不再是一个简单的数据资源所有权的竞争,而是在数据的结构以及类型上、数据的开发以及利用上的竞争。从图书馆的角度来看,它是在大数据背景下,为了避免自己被边缘化,就必须分析数据,来进行相关的数据分析服务。分析数据库业务有以下几个方面:首先,图书馆需要建立自己的大数据分析,数据分析通常在现有的数据,如读者爱好的书籍等。另外是对读者的分析,这类似企业和其他客户群体参考提供的数据分析、竞争情报分析,但也有很大的区别,不同之处在于数据分析对象、用于数据分析和数据分析的目的等。对于这样的数据,可能不会被图书馆所拥有,所以它必然成为在这个行业发展的瓶颈限制,我们应该想办法解决这些问题。

参考文献

[1]刘琼.大数据环境下图书馆面临的影响与挑战[J].理论观察,2013(8):112-113.

[2]孙琳.大数据时代图书馆服务体系创新研究[J].理论观察,2013(4):99-100.

[3]李立.大数据在数字图书馆中的应用分析[J].高校实验室工作研究,2014(3): 35-37.

第4篇

关键词:大数据时代;地方应用型高校;软件工程专业;课程体系

0引言

大数据作为继云计算、物联网之后IT行业又一颠覆性的技术,备受人们的关注,大数据技术正从概念转向实际的应用,涌现出越来越多的大数据技术应用成功案例,大数据的价值也在迅速增长。2015年,中国大数据市场规模达到115.9亿元人民币,增速达38%,预计2016~2018年中国大数据市场规模将维持40%左右的高速增长[1]。大数据时代的到来,使得软件行业对人才的应用能力和综合素质提出了更高的要求。咸阳师范学院作为咸阳市地方应用型高校以服务咸阳地区经济社会发展为己任,肩负着培养满足咸阳地方社会需求软件人才的使命,需要把培养面向大数据时代的软件工程专业人才作为战略任务来抓。而课程体系的建设是软件工程专业人才培养体系最重要的一个方面。本文通过分析我院传统软件工程专业课程体系,以及大数据时代下企业对软件工程专业人才要求,找出大数据时代下软件工程专业应用型人才中课程体系存在的问题,探索出我院面向大数据环境的应用型软件工程人才中课程体系的建设。

1我院软件工程专业传统的课程体系

自我院计算机系成立以来,软件工程专业一直是我院重点建设专业。2013年,“‘3+1’校企合作软件人才培养模式创新实验区”被确定为省级人才培养模式创新实验区。一直以来,该专业以培养“厚基础、强能力、高素质”应用型人才的为培养目标,以企业、市场需求为导向,重视实践、技能和应用能力的培养,与尚观科技、中软国际、华清远见、蓝鸥科技等西安多家企业联合,采取3+1嵌入式校企联合教育培养模式,将课程教学、工程实践、行业理念进行无缝结合。课程体系是一个专业所设置的课程相互间的分工与配合[2],主要反映在基础课与专业课,理论课与实践课,必修课与选修课之间的比例关系上[3]。地方应用型本科院校的课程体系设计既要体现基础知识的传授,也要体现实践能力的培养,同时还要考虑学生的职业能力规划发展问题。我院2013-2015级软件工程专业课程体系结构图如图1所示。图12013-2015级软件工程专业课程体系结构图从图1可以看出通识教育必修课程的教学阶段共3个半学年,主要涉及思想政治基础知识、体育、人文历史、外语应用能力等;相关学科基础类课程主要包括高数、线性代数、数字逻辑等数学类课程;本学科基础类课程主要涉及程序设计语言、计算机网络、操作系统、数据结构、计算机组成原理等;专业技能教学阶段强调对学生工程性、实用性、技术性和复合型能力的培养,主要安排专业必修课程和专业选修课程。专业必修课程包括面向对象程序设计、软件工程、数据库原理与应用、软件设计与体系结构、算法分析与设计等,专业选修课程包括Web软件开发、Linux系统应用程序开发、移动终端开发等。根据教育部专业教学指导委员会软件工程行业规范[4],本着“轻理论,重实践”的原则,我院在一定程度上压缩理论课课时,增加实践课课时,优化专业课程体系结构。我院2015级软件工程专业的人才培养计划中,各类课程学分设置与所占比例。

2大数据时代企业对软件工程专业人才的要求

大数据时代所需要的人才是一定拥有数据处理、分析技术的,也就是对数据有敏锐的直觉和本质的认知、能够运用统计分析、机器学习、分布式处理等技术,从海量、复杂的数据中挖掘出有用的信息,以清晰易懂的形式传达给决策者,并创造出丰富有价值的专业人士[5]。在大数据时代下,对软件专业人才培养,应具备以下四个方面的技能。(1)具有厚实的数学、统计和计算机学科的相关知识,能够根据具体案例大数据分析任务的要求,运用大数据处理、分析平台,收集整理海量数据并加以分析,挖掘出有价值的信息。(2)掌握大数据处理技术及可视化工具,能根据具体任务的需求,对数据进行选择、转换、加工等处理操作,采用有效方法和模型对数据进行分析并形成数据分析报告,用易于用户理解的方式,提供科学的决策依据。(3)熟悉行业知识、专门业务及流程,将大数据技术和企业文化相结合,充分利用大数据分析处理的结果,挖掘出海量数据中隐藏的价值并应用于企业市场领域。(4)团队合作精神,大量数据的收集整理、存储、分析和处理,一个人是很难完成的,需要一个由团队成员合理分工、共同协作完成。

3大数据时代我院软件工程专业传统的课程体系存在的问题

地方高校一直以来受传统的“学术型”、“研究型”人才培养模式的影响较大,形成了适合于“精英教育”为培养研究型人才的课程体系,无法适应以工程实践能力、创新创业意识、新技术新方向为目标的人才培养,课程体系中理论教学占主导地位,实践教学往往处于次要地位[6]。而目前处于大数据时代,信息技术的不断创新、企业需求不断变化、综合型人才需求巨大等因素的影响下,传统的培养研究型人才的课程体系,无法适应大数据时代以工程实践能力、创新创业意识、新技术新方向为目标的人才培养。通过了解大数据环境企业对软件工程人才的要求,分析我院2013-2015级软件工程专业人才培养课程体系结构,发现存在以下问题:(1)缺少大数据技术方面的课程。传统的课程体系中主要包括软件工程专业一些传统的课程,如数据结构、软件工程、软件体系结构等,而且课程内容较陈旧,所开设的一些应用软件的学习不能紧密贴合行业和技术发展,软件工程专业教育必须适应互联网时展和大数据技术的需求,关注企业发展及大数据系统的建设问题,以满足企业对应用型人才的需要。(2)实践类课程学时所占比例较少。我院2015级软件工程专业实践类课程占总学时的10.8%,是因为传统的课程体系注重知识传授,而忽略了学生解决问题、动手能力的提高。地方高校在人才培养中重视理论内容、计算机编程能力,而忽略学生探索能力的培养,这些都不利于学生对新技术、新方向发展的把握,学生难以应对各种层出不穷、错综复杂的海量数据,很难挖掘出隐藏的数据价值并有效利用。(3)课程体系结构设置方面,一是存在通识教育类课程教学阶段持续时间长,一直到第7个学期,这就影响了后面专业类课程的学习;二是专业基础类分为专业必修和选修,没有从课程教学阶段不同来划分,不能体现课程先后的衔接关系。

4大数据时代我院软件工程专业课程体系建设改革

在大数据时代,软件工程专业教育必须适应企业发展和大数据行业的需求。教学内容的设置应与行业需求接轨,根据我院学生特点调整2016级软件工程专业课程体系。具体做了以下几点的调整。(1)课程体系结构更合理。一是通识教育类课程的调整。一方面将教学阶段全部调整到第1、2学年完成,这样在第3学年学生就可以重点学习专业类技能课程;另一方面此部分增加了大学生心理健康和创新创业教育课程,主要可以加强学生团队合作精神的培养。二是专业类课程结构的调整。将专业类课程分为专业(学科)基础课程和专业技能课程两大类,专业(学科)基础课程主要包括数学类课程、计算机导论、程序设计语言、数据结构、操作系统、软件工程、运筹学、数据分析与处理。专业技能课程又分为专业核心课程和专业方向课,专业核心课程包括面向对象程序语言类、软件设计模式、算法分析与设计、软件测试等软件工程专业要求的核心课程,而专业方向课分为3个方向:大数据分析、Web技术应用、移动终端开发,鼓励学生在学好专业基础和核心课程的同时,发现自己专业类的兴趣,选择一个自己感兴趣的方向集中学习,大数据分析方向是重点向学生推荐。在教学阶段安排上,一般专业(学科)基础课程要优先于专业技能课程,这样可以让学生在掌握了学科、专业基础上,充分了解软件工程专业技能的训练。(2)增加了大数据技术方面的课程。在新调整的课程体系中,专业(学科)基础课程和专业技能课程都增加了大数据相关内容。基础课设置增添运筹学、数据分析与处理等,使学生了解大数据行业基础知识,激发学生对大数据行业发展及大数据应用前景的兴趣;专业技能课设置了数据仓库与数据挖掘、大数据统计分析与应用、数据挖掘算法与应用等前沿科学技术相关课程以满足大数据系统建设与应用的需要,培养更多企业需要的大数据管理分析软件专业人才。院级选修课鼓励研究大数据方向的教师积极申请大数据案例分析、大数据安全与隐私保护、HadoopMap/Reduce技术原理与应用等实用性强的课程,以补充对大数据方向特别感兴趣学生的学习内容。(3)增加实践类课程所占比例。相比较2015级,以培养地方应用型人才为总目标,实践类课程课时由19课时增加到28课时,所占总课时比例提高了约50%。实践类课程包括校内(课程设计和实训)和校外(见习、实习、实训、毕业论文),种类多样化,使得学生多方面提升自己解决问题和动手操作能力。针对校内实验我院教师结合大数据教学实验平台,根据课程内容设计实验项目,从初级到高级,安排合理的阶梯式学习,实验内容持续更新,加入最新、主流的分析建模工具和挖掘算法,学生在免费、开放的平台环境下进行大数据构建、存储、分析统计等实验内容,使学生熟练掌握Ha-doop、HBase、Spark等关键技术,提高大数据理论分析及技术应用的能力。做好校内实践的同时,校外实践更是尤为重要,首先在实习、实训企业的选择上,尽量选择“口碑好、技术强、理念先进”的单位,目前我院已与邻近城市西安与尚观科技、中软国际、华清远见、蓝鸥科技等西安多家企业联合,第四学年分批组织学生到合作企业的实训基地参加真实的实训项目,体验IT企业真实的工作环境、工作流程和企业文化,了解互联网大数据、零售大数据、金融大数据等领域知识,学习海量数据搜集、分析、存储技术,引导学生按照项目的需求、总体设计、详细设计、编码、测试等流程完成实践内容,规范化文档和代码的编写,培养学生的行业、职业素养。

5应用效果

目前应用此方案有2016和2017级两级学生,虽然这两级学生都还没有就业,但在创新应用能力方面都较2015级之前学生有显著提升。近两年有10余组学生团队获得国家级、省级、校级“大学生科研训练项目”立项资助,有8名同学获得“蓝桥杯”程序设计大赛国家级二等奖、三等奖,省级一等奖2项,二等奖、三等奖多项。2016年有两队学生获得陕西省高校“互联网+”创新创业大赛三等奖,一队学生获得咸阳市青年创业大赛二等奖。数十名学生在核心期刊上公开发表学术论文。从目前取得的成绩来看,课程体系结构的调整,使得学生不仅获得扎实的理论知识,而且具备了过硬的实践和创新能力,我院软件工程专业毕业生一定会深受用人单位喜欢。

6总结

针对大数据时代下地方本科院校软件专业人才培养中课程体系存在的一些问题,笔者分析了大数据环境对软件工程专业人才的要求,以地方本科院校咸阳师范学院为例,改革调整了课程体系,主要在在理论教学和实践教学中增加大数据相关理论及技术内容,通过近年来的探索与实践,此课程体系结构有效提高了学生的创新应用能力,为大数据时代企业发展培养了高水平、高素质的大数据分析人才,新的课程体系适应了大数据环境下软件工程人才的培养。

参考文献

[1]孙琳.大数据应用的创新路径[N].人民政协报,2016-05-17.

[2]潘正高.地方应用型高校软件工程专业课程体系的研究[J].西昌学院学报,2017,31(3):94-97.

[3]潘怡.应用型本科院校软件工程专业课程体系设置探讨[J].长沙大学学报,2008,22(5):98-100.

[4]教育部专业教学指导委员会.高等学校软件工程专业规范[M].北京:高等教育出版社,2011.

第5篇

用户如何从这庞大的数据库中提取对自己有用的信息呢?这就需要大数据分析技术和工具,而传统的商业智能(BI)工具已经抵挡不住企业如此庞大的数据信息。提到大数据,不得不说的是与大数据相关的技术名词:Hadoop、MapReduce、HBase、NoSQL等。业界的众多厂商也都开始从技术入手,打造各自的大数据解决方案。一时间,Hadoop红遍了全球,就像当年的Linux开源软件系统一样,成为了研究和设计大数据解决方案的主流平台。

华丽的变形

Hadoop的发展基本上经历了这样一个过程:从一个开源的Apache基金会项目,随着越来越多的用户的加入,不断地被使用、贡献和完善,逐渐形成了一个强大的生态系统。

随着云计算和大数据的发展,如今Hadoop已经是一个能够让用户轻松驾驭和使用的分布式计算平台。用户可以在不了解分布式底层细节的情况下,轻松地在Hadoop上开发和运行处理海量数据的应用程序,并能充分利用集群的威力实现高速运算和存储。Hadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFS。HDFS有着高容错性的特点,并且设计用来部署在价格低廉的硬件上,而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求,这样可以用流的形式访问文件系统中的数据。

Hadoop最受欢迎的是在Internet上对搜索关键字进行内容分类的工具,但它也可以解决许多要求极大伸缩性的问题。例如,如果您要grep一个100TB的巨型文件,会出现什么情况?在传统的系统上,这将需要很长的时间。但是Hadoop在设计时就考虑到这些问题,采用并行执行机制,因此能大大提高效率。

如今,基于Hadoop的应用已经遍地开花:Yahoo通过集群运行Hadoop,以支持广告系统和Web搜索的研究;Facebook借助集群运行Hadoop,以支持其数据分析和机器学习;百度则使用Hadoop进行搜索日志的分析和网页数据的挖掘工作;淘宝的Hadoop系统用于存储并处理电子商务交易的相关数据。

九年的长跑,Hadoop已从初出茅庐的小象华丽变形,成为了行业巨人,但还需戒骄戒躁、不断完善。

性能大提升

Hadoop还是一个能够对大量数据进行分布式处理的软件框架。Hadoop是以一种可靠、高效、可伸缩的方式进行处理的。

Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。

Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。Hadoop可以将数千个节点投入计算,非常具有性能潜力。但并非所有的工作都可以进行并行处理,如用户交互进行的数据分析。如果你设计的应用没有专门为 Hadoop集群进行优化,那么性能并不理想,因为每个Map/Reduce任务都要等待之前的工作完成。

英特尔针对大数据的开放架构核心产品线,推出了英特尔Hadoop分发版,让用户可以实现“软硬协同,体验至上”的创新效果。例如,利用英特尔至强处理器平台对网络和I/O 技术所做的优化,与英特尔Hadoop分发版进行强力组合,以往分析1TB的数据需要4个多小时才能完全处理完,现在仅需要短短的7分钟即可完成,极大地提升了大数据分析的速度。

Hadoop还是可伸缩的,能够处理PB级数据。由于批量处理功能,Hadoop最好部署在这些场合:索引编制、模式识别、推荐引擎建立和情绪分析。在所有这些场合下,数据大量生成,存储在Hadoop中,然后最终使用MapReduce函数来进行查询。但是这并不意味着,Hadoop会取代数据中心里面目前的组件。恰恰相反,Hadoop会集成到现有的IT基础设施里面,以便充分利用进入到该企业的海量数据。

曾听过这样一则案例:Hadoop集成到一家企业网站后,情况较之先前大有改观:大大节省了时间和精力。来自Web服务器的日志数据不用经历ETL操作,而是直接被完整地发送到了Hadoop里面的HDFS。然后,对日志数据执行同样的清理过程,现在只使用MapReduce任务,一旦数据清理完毕,随后被发送到数据仓库。这个操作要迅速得多,这归因于省去了ETL这一步,加上MapReduce操作速度快。而且,所有数据仍然保存在Hadoop里面,网站操作人员后续所需数据都可以查询到。

开源的典范

Hadoop依赖于社区服务器,任何人都可以自由的下载、安装并运行。由于它是一个开源项目,所以没有软件成本,这使得它成为一种非常吸引人的解决方案。Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++。

Hadoop称得上开源创新领域的杰出典范。思科的James Urquhart曾经这样说过:“Hadoop可以说是不涉及任何现有专利的开源项目在企业软件方面所取得的首个里程碑式成功”。尽管里程碑不只这么一个,但能够以这样的规模将成功果实迅速扩展的例子还真不多见。

虽然大量的行业用户开始学习Hadoop的技术架构,但在真实的生产环境中,依然显得相当谨慎,很大一部分也是因为开源。Google虽然公开了MapReduce论文,但底层的GFS、BigTable等技术都不是开源的,因为这是互联网的核心竞争力。很多企业的确想用这个技术,但是技术门槛比较高,前期投入非常之大。一旦进入维护和开发阶段,Hadoop的真实成本就会凸显出来。

群体的智慧

Hadoop作为海量数据分析的最佳解决方案,已经受到众多IT厂商的关注,并由此而锤炼出风格迥异的Hadoop发行版以及支持Hadoop的产品。

例如,IBM在Hadoop系统领域的代表产品InfoSphere BigInsights,它是基于开源Apache Hadoop框架实现,增加了包括管理能力、工作流、安全管理等能力,并融入了IBM研究实验室的数据分析、机器学习技术以及文本数据分析挖掘;IBM在流计算领域的代表产品是InfoSphere Streams,是目前业界独有的流数据处理技术。Streams能够在对诸如气象信息、通讯信息、金融交易数据的管理中动态捕捉信息、进行实时分析,能够对静态数据的处理提供有效补充;在数据仓库方面是InfoSphere Warehouse和etezza。Netezza克服了传统数据仓库在面临大数据挑战时的瓶颈,可以将大量数据整合到统一的平台上,计算能力高达TB级。

第6篇

关键词:实践教学;统计学;高校

中图分类号:G642.3 文献标识码:A 文章编号:1002-4107(2017)04-0036-03

“大数据”是时下全球热议的话题之一,数据无处不在,涉及各个行业领域。大数据技术研究与价值应用已成为新一轮科技竞争的战略制高点,它给科学和教育事业带来了新的生命力,同时对传统教育也提出了新的挑战。2014年中国大数据技术大会上了《中国大数据技术与产业发展白皮书(2014 年)》和《2015 年大数据十大发展趋势预测》,指出“跨学科领域交叉的数据融合分析与应用将成为今后大数据分析应用发展的重大趋势”[1]。在这种背景下,统计学专业应顺应社会发展,探索教学模式,融合计算机、数据分析、统计等相关学科,引导学生认识和掌握数据处理的新技术,推动交叉学科应用型本科人才的培养。本文探索提升本科生的智能数据分析实践能力的培养模式,以便提高其就业竞争力,满足社会需求。

一、大数据新形势对统计人才的新需求

统计学作为一个与大数据密切相关的学科专业,其需要及时调整和优化课程结构,改变教学内容与手段

等,以满足社会人才需求和适应外部变化的环境。华东师范大学副校长朱自强接受光明日报采访时指出:大数据技术会通过“学科交叉”战略,为相关学科向更高层次的发展提供历史性机遇[2]。据调查报告指出,数据科学家需要扎实的教育背景,其研究领域分布为数学与统计学(32%),其次是计算机科学(19%)以及工程学(16%)[3]。该领域中跨界融合型人才是未来的人才培养趋势,统计学专业有独特的优势。据不完全调查发现,涉猎网站上谷歌、百度和格力等部分大公司对于大数据人才岗位需求及相关技能提出各自具体要求(见表1)[4]。

从表1中可以看出:数学和统计学功底、建模能力、运用R,SAS,Python等辅助软件及掌握大数据平台是大数据岗位的基本要求。处理数据是为了应用,无论哪一个岗位都会要求分析数据,包括需求分析、特征提取、结果分析与关联分析。因此数据分析最重要的可能并不是软件、算法,而是熟悉整个流程,例如数据清洗、分析工具的选取、参数的设置及原理、结果价值分析与解释等。这要求统计专业的学生精通相关的软件与编程的同时,还要熟练掌握本专业知识。因此,学生只有经历过一套完整的程序过程,才能懂得如何从数据中发掘知识的原理及技术流程。

目前高校数学系开设的统计学专业主要是数理统计方向,重视统计推断,进行各种证明,但案例教学较少,淡化了培养学生分析社会经济现象的能力,其不利于学生应用统计知识解决实际问题。本文从分析当前的社会需求出发,借鉴“设计型学习”模式探索实践教学改革,以此来提升培养学生认识数据和理解数据的能力[5-6]。

二、新需求导向下的统计学实践教学改革

(一)重新定位人才培养目标

在网络、大数据、云计算等新技术不断发展的背景下,社会人才需求、教学资源和外部环境都在迅速发生改变,其促使各专业进行教学改革。对于统计学而言,统计数据已完全突破了传统统计学所涉及的统计数据概念内涵,统计数据从数量、结构、类型上已经完全不同于魍骋庖逑碌耐臣剖据,其更具有现代“信息”的含义[7]。相应的统计数据收集技术,整理、传输和存储管理方法、指标体系、分析方法等内容已发生根本变化。“懂数据、会分析”的复合型人才缺乏是当下国内外面临的共同困难[8]。统计学专业应具有国际视野,重新定位培养目标、教学理念与机制,结合区域经济发展为学生提供未来职业规划指导服务,在各个环节中提升学生的数据处理能力,培养具有高阶思维和高阶能力的应用型人才。

(二)优化课程设置与教学手段

统计学本科专业课程设置要体现大数据时代对统计人才培养的要求。大数据背景下数据的管理、分析与挖掘类课程需要增加,尤其是实践类课程,形成突出实践能力培养的课程群或课程模块。最主要的是针对社会需求,依托学校与数据相关的优势学科,通过学科交叉和行业、企业、实务部门开展深度合作建设实践教学基地,集聚相关资源协同创新,提升本科生数据分析能力。通过设计实践课程的模块,以产教融合、协同育人方式形成有效的课本知识与实践操作的衔接,为学生创造理论与实践相融合的社会情境。

当下,知识更新较快,需要课内和课外相互配合完成教学任务。慕课、微课、翻转课堂已成为重要的课堂教学补充资源和课外自学学习平台。丰富形象的图片和视频等教学材料,多感官的刺激不但符合现代学生的学习特点,而且能够极大地激发学生的学习动力[9]。教师应积极应对这些新变化,及时学习新知识、新技术,调整教学观念、教学内容、教学方法,更多地开展实践教学。教师也应瞄准国际前沿,采取先进的教学理念,有效利用优秀的网络资源开展课前和课后辅助教学和互动交流,引导学生逐渐实现自主发现式学习。在实践教学手段中,重视高阶思维和高阶能力的培养,借鉴国外的先进实践教学模型,改变实践层面以尝试和经验总结为主的教学手段。例如设计型学习正在国际教育界兴起,其强调学生在具体的任务或挑战情境中主动探究,具有设计性、整合性、迭代性、反思性等品质特征。在分析和解决问题的能力、合作能力及创新能力等实践上,设计型学习彰显了其独特价值。与过去那种单纯强调知识呈现与传递的教学方式不同,设计型学习蕴含着新的学习和教学设计假设,其有效地融合了自主、协作、探究等新型学习方式。因此,设计型学习可以为当前教学方式改革提供一种新思路。借助于这一先进的实践教学手段,引导学生注重“功在平时”。在课前教师帮助学生甄别选择合适的资源,如问题背景、相关知识讲解的网络资源等。在课堂上,教师掌握课堂教学和学生自主学习结合策略,针对学生遇到的问题进行讲解,小组之间进行交流、分享成果。然后让学生在课后进行反思、修改、再设计,同时注意引导和关心后进生的学习状态和方法,直到任务圆满完成,从而形成线上线下相互配合的教学手段。

(三)强化校内实验与实践环节

以专业实验室和教师科研课题为载体,依托学校相关的优势学科,对接社会需求,利用学科交叉和对外合作机会汇聚各种创新要素,践行协同创新理念,构建适合本科生的多层次的实践教学体系。针对不同年级的学生,制订不同的进实验室计划,一年级学生以认知教学为主,开拓其对理论基础课的应用性和数据分析价值的认知视野。二、三年级的学生已经开始学习统计学专业基础课和统计软件,在相关课程实践环节中以大作业形式,设计与课堂教学相关的扩展数据分析主题,引导学生对生活中的数据分析问题进行深入分析、寻找合适的选题,并依托各类相关科研课题达到对实际背景数据的理解、推理、发现和决策。例如:网上调查是一项重要的社会活动,用其得到的数据来分析和反映人们的活动规律及观点。引导学生针对分析某类现象等进行设计问卷、发放问卷、回收统计和统计分析等活动。这一完整的环节让学生了解调查过程中统计误差成因及控制手段,加深对统计过程、数据质量的理解。鼓励四年级学生利用实验室、实习基地与专业教师的各类科研项目的资源,开展毕业论文工作,并独立完成有关的实验,全面培养学生的数据处理能力。例如,可以引导学生对某门课程辅助教学App需求统计分析、智能测试系统设计、代码编写。通过实践活动,引导学生自主地基于已学的专业知识去学习新知识,自主走进数据世界、探索数据王国。

与此同时,学分设置、考核评价体系也要做出适当的调整。在实践教学方面,积极推动“大学生创新创业训练计划”和“优秀本科生走进实验室计划”等创新实践活动保障机制。在总学时不增加的前提下,施行大学生创新实践学分确认制度,对学生在各种学科竞赛、创业竞赛及学术研究中获得的成绩给予学分认定。考核注重“功在平时”,评价学生的多方面能力,尤其是应用相关理论处理实际问题的能力。具体可以采用多种考核方法相结合的方式。如:增加平时的考核力度、增加实践项目的考核、通过布置适当的项目论文,采用答辩的形式,以锻炼学生独立分析解决问题的能力[10]。

(四)注重校外实践学习

目前统计学课程的校内实践教学过程中,由于实践资源不够的限制,所涉及数据处理及统计建模等活动较多地使用统计年鉴或其他公开数据集,这种学习模式与真正的实际应用还有一段距离。为了更大程度上调动学生的学习积极性来接触科技前沿,应充分发挥学科竞赛与社会创新模式和平台优势,形成校扔胄M馐导教学协调促进的模式。

目前与统计学相关的竞赛受到大型互联网企业、学术团体及政府部门的关注,不定期举办开放型竞赛为选手提供施展才华本领的机会。例如有全国大学生统计建模大赛、全国大学生大数据挖掘竞赛和阿里巴巴大数据竞赛等。这些竞赛一方面是为高校学子提供接地气的大数据实战机会,推动高校和研究机构对大数据和算法的研究发展;另一方面也是为了加快相关领域的人才成长。这些竞赛主题及选题、难度均适合统计学专业学生参与,其可以让学生和教师接触前沿的应用方向、有机会学习和尝试解决真实的业务与社会问题。跟踪这样的竞赛有助于提高学生的学习兴趣,进而促进实践教学方法的改革、提高创新人才培养的质量。

在大众创业、万众创新的时代背景下,社会创新模式与平台有助于开阔师生的视野,并可以为校内实践学习与实践应用提供有针对性的引导。因此在统计实践过程中,嵌入创客教育的模式,与相关的创客平台合作建立实习基地,让学生接触社会决策活动,拉近学习者与生活的距离[11]。创客教育强调的创新精神和综合运用知识技能解决实际问题的能力,是将来学生在求职和就业中必不可少的能力,其可为学生创造理论与实际相结合的认知机会、促使学生形成以自身专业特长与兴趣爱好结合的主动学习模式。

针对社会对人才的新需求,通过设计不同模块的实践活动对统计学专业实践教学环节进行改革,其有利于发挥学生的特长,调动学生的学习兴趣,为学生的职业发展做好充分的准备,从而顺应大数据时代的发展,进而促进人才培养质量、促进专业办学特色、促进经济社会发展。

参考文献:

[1]2015年大数据十大发展趋势预测[J].中国教育网络,

2015,(Z1).

[2]朱自强.高校可借大数据自我提升[N].光明网,2013-

11-12.

[3]九个成为数据科学家的必备技能[EB/OL].[2016-09-03].

http:///archives/38264.

[4]数据科学领域的职位划分以及职责技能[EB/OL].

[2016-09-03].http:///archives/37376.

[5]李美凤,孙玉杰.国外“设计型学习”研究与应用综述

[J].现代教育技术,2015,(7).

[6]丁美荣,陈壹华.基于设计型学习的计算机网络实验教

学研究[J].计算机教育,2011,(1).

[7]张维群.大数据时代统计学科建设与教学改革专家研讨

会纪要[J].统计与信息论坛,2015,(2).

[8]徐宗本.用好大数据须有大智慧――准确把握、科学应

对大数据带来的机遇和挑战[N].人民日报,2016-03-15.

[9]谢小芸,李立清.项目教学法在独立学院统计学实践教

学中的应用[J].中国农业教育,2007,(4).

[10]王丽丽,杨帆.“互联网+”时代背景下大学英语教学改

革与发展研究[J].黑龙江高教研究,2015,(8).

[11]李小涛,高海燕,邹佳人等.“互联网+”背景下的STEAM

第7篇

关键词:智慧管理;云计算;大数据;物联网;能耗增值服务;智慧校园

一、引言

随着信息技术的飞速推进,已然进入一个互联网的时代。社会中,各方的发展也已是几何级速度的发展,在这个物联网、云计算和大数据推动社会前行的大潮中,对高校后勤集团能源管理也提出了更高的要求。节能管理由“绿色环保,打造节能型社会”作为一项国策写入“十二五”规划起进入了一个全新的时代。目前,科技创新管理的概念普遍被大众所认知。管理中有一个被一再提及的词语――量化,其归根结底是对数据的需求体现。即量化要求的结果是数据的产出,这里的数据既包括管理中表面的数据,如被管理对象的数量、状态等属性基础数据,也包括对基础数据通过管理模型分析后所得到的具有决策依据功能数据,数据是实现管理智慧化关键。

高校后勤集团能源管理智慧化即利用大数据、云计算、物联网等新一代信息通信技术,并通过这些技术变革原有的管理模式。[1]具体表现为,建立基于互联网的开放系统,通过云计算技术实现能耗大数据潜在价值的挖掘,随后,通过数字化和智能化技术应用决策数据进行实际的管理工作。这对高校后勤集团能源管理工作提出了更高的要求,以往的能源管理信息系统的设计已经远远不能适应发展的需要,其能力尚停留在能耗数据的采集、存储、统计以及初级的简单报警上,对于管理智慧化显得力不从心。为了适应高校后勤集团能源管理的需要,应以物联网、云计算技术、大数据分析技术为核心,以移动互联网为有益补充,建立具备对能源,特别是能对水电能源具有监控、预警、测算、系统联动和消费支付等管理决策及服务延伸能力的高校后勤集团能源管理智慧系统。这将是高校后勤集团能源管理由传统的信息化管理转型为能源管理智慧化的初期阶段,两种管理方法对于数据的处理及运用理念是截然不同的。

二、能源管理现状分析

随着教育的普及,学校需要不断地提高教学质量和管理水平,而学校后勤管理就是对在校后勤情况的全方位管理。[2]其中,能耗管理是工作的难点与重点,学校是否以资源的高效利用和循环利用为核心,以“减量化、再利用、资源化”为原则,以低消耗、低排放、高效率为基本特征,符合可持续发展理念的经济增长模式运行,[3]均与后勤集团能耗管理有着密不可分的关系。节约型校园概念的提出使得学校在办学及校园设施建设、运营管理中遵循科学发展观,充分体现节能、节水、节地、节材、环境保护建设及运营的管理思路和节约教育理念、形成良好节约型校园文化的校园。[3]目前,高校后勤集团能源管理主要依托于多年完善的管理制度,以及在这套制度上经过业务流程提炼后所开发的管理信息系统。

(1)管理制度化。各地高校后勤集团能源管理工作经过多年经验累计,在校园能耗统计、校园能源审计、校园能效公示、需求管理、分项计量等方面均建立了较为完善的管理制度,并做到了不同部门、单位间的有效协调。在管理模式上采用了根据学科门类、各单位性质、事业发展情况、使用水电需求,科学合理定量,将水、电能源消耗指标分配到各有关学院和部门,对运行情况进行跟踪分析,统筹协调,兼顾利益,量化管理,促进节约水电长效管理机制的形成。能耗管理制度的完善进一步推进了管理信息系统的建立与运行。

(2)管理信息化。随着计算机及通信技术的不断发展,结合自身管理的需要,高校后勤集团对于能源管理工作也做了业务的流程化定制,并依托物联网工程、通信工程、计算机工程、工业设计、环境工程等学科,自主创新、自主研发了数字化能源监管系统。数字化能源监管系统分为计量采集部分、数据传输网络、数据存储系统,以及用户交互系统等几个主要部分。完成了能耗数据的采集、传输、存储与展示,有效地数据处理方法提高管理中对于数据统计的需求。数字化能源监管系统的建立有效地提高了高校后勤集团能源管理水平,通过系统实现了能耗数据的实时性、完整性和准确性。即通过科技手段,实现高效管理,提高社会效益。

(3)存在的问题。如上,简述了高校后勤集团能源管理的两个主要方面,即制度与监管系统。制度与监管系统有效的提高了管理的水平与准确性,但在实际的工作中依然存在很多问题,如下列举最为表层的三种。第一,设备的改造优化。高校中诸如学生宿舍、教学楼、实验室等用能热点比比皆是,仅就采用何种照明器具一项,就存在不同的说法,但很大一部分取自于照明器具厂家的宣传与器具参数,没有一个科学有效的方法能够给出设备改造优化的决策方案。第二,消缺的即时高效。在能耗估计的过程中,由于设备和人为的因素会造成故障的出现,即时做出故障报警,迅速消除缺陷是节能的重中之重。举例而言,校园供水会存在水管爆裂故障、笼头节点故障、人为使用浪费等问题,这些问题单靠人员巡检和制度约束是无能为力的,只有采用更新的技术手段,才能做到有效的管控。第三,用能指标的制定。在上文中提及高校后勤集团能源管理模式是根据学科门类、各单位性质、事业发展情况、使用水电需求,科学合理定量,将水、电能源消耗指标分配到各有关学院和部门,超标自负。实际上这里所谓的科学合理定量并没有可靠的数据作为支撑,最常见的方法就是根据上一阶段的用能历史数据“大致”确定现阶段的用量,看似合理,但并不科学,缺少合理的指标定制模型。

二、管理系统的智慧化变革与应用

对于高校后勤集团能源管理而言,仅就目前的数字化能源监管系统已经不能满足发展的需要。高校后勤集团能源管理智慧化的设计目的是在与管理制度不断的交互完善中,利用大数据、云计算、物联网等新一代信息通信技术,并通过这些技术变革原有的管理模式,[1]这也包括原有数字化能源监管系统的功能,但绝不是简单的系统升级。所有的管理变革均以建立新的管理智慧化平台为基础,提供“能源管理+能源便利+校区通信”的高校能源管理云服务。

(1)信息系统的变革。第一,系统架构的改变。高校后勤集团能源管理所采用的传统C/S或B/S架构已经不能适应智慧化的需要。智慧化是建立在大数据分析的基础之上,通过海量的数据分析,提炼决策数据。传统的系统架构,能耗数据的采集密度对于分析工作远远不能满足。加之,高校的扩招、扩建,分校机构的设立都对高校后勤集团能源管理的信息化系统提出了改变需求。就目前发展而言,其系统架构应该包含:数据采集服务、数据存储服务、关系型数据库服务和模型计算服务等部分,以及任务调度、安全管理和资源管理等方面的底层支持。第二,存储方式的更新。系统架构的变革,为了适应更多的数据需求服务,这势必产出海量的能耗数据,随之而来的将是数据存储问题。以往的数据库服务器及热备方式很难适应海量数据的压力,建立或委托数据云存储业务将是最终的出路,有效的数据存储将是后期大数据分析的坚实基础。第三,大数据的分析,如上一、二小节所讲,系统架构的变革与存储方式的更新皆是为了海量的能耗管理数据而进行。对数据做了如此之多的支持最终为了什么?这些数据有何意义呢?答案就是大数据分析。例如,Google通过全美各地区搜索H1N1及流感相关关键字频率和分布,得出疫情暴发警报;对冲基金通过全球Twitter用户每天关于情绪的关键字进行以亿为单位的数据分析,用以为买入和抛售股票做参考依据;波士顿马拉松爆炸案,警方通过数据分析,第二天抓获嫌疑犯,制止再次作案;这些都是根据大数据分析的结果做出的决策。预测,是大数据的核心,准确的预测是最大的竞争力。高校后勤集团能源管理智慧化的核心就是对用能做出分析,根据结果做出科学的预测及决策。这也是智慧化与信息自动化的区别。

(2)应用功能的变革。目前,高校后勤集团能源管理的数字化能源监管系统具备实时监测用能情况的功能。智慧化依托于大数据分析及高效的分析模型为平台带来更多功能。能耗报警方面将不完全依附于计量终端的硬件功能,而是通过特定时段的用能数据分析,确定问题,并通过监控页面、短信等方式推送报警信息。例如,用水管线的查漏报警和超指标报警等。节能测算,为用能改造提供依据。通过对实验对象更换用能设备前后的数据对比分析,可以得出该改造方案及所采用的设备是否真正做到了节能。指标规划,高校能耗管理的终极目标之一是能耗定额管理。通过能耗历史数据的环比、同比,分析能耗大户用电趋势,结合人员设备总量,为能耗指标的合理分配提供支撑。系统联动,管理智慧化要求系统与其他系统的联动响应,如能耗监管系统与课表系统、宿管系统的联动数据共享,达到根据课程及生活作息数据,利用能耗模型控制重点部位大型仪器开启与关闭时间,通过能耗合理性分析,加强重点部位能耗监控。

(3)管理的最终蜕变。大数据分析带来决策与预测依据,可以对特定用户提供用能合理性分析服务;通过对线路负载数据的分析,判断线路负荷是否正常,做出警报预测,即时整改。多系统协作,将延伸能耗系统的增值服务,如用能消费的支付手段,可以结合第三方支付系统完成用能的缴费。这样,无论是实体充值点,或是移动支付,都能方便快捷完成支付动作。高校后勤集团能源管理智慧化带来高校能源工作由管控到服务的最终蜕变。

三、新技术驱动下的发展方向

高校后勤集团能源管理是智慧校园的数据核心区域,其发展中涉及的互联网(数据通讯)、移动互联网(支付)、物联网(采集传感器)、安全监控、电信(通话、短信)都在产生海量数据。半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念。再则,云计算已经成为当今信息技术领域中最重要的新概念,正在成为未来互联网和移动互联网结合的一种新型的计算模式。[4]

高校后勤集团能源管理将依托物联网、云计算、大数据等技术,变革原有的管理模式。最终形成能耗云平台,提供大数据分析服务,能源监管将以大数据分析的结果作为决策的依据,逐步演进为智慧化能源服务。

参考文献:

[1] 黄念根.雾霾锁城倒逼传统能源智慧变革[J].智慧城市,2014

(3):60.

[2] 谢珊.学校后勤管理信息系统的设计与应用[D].成都电子科

技大学工学硕士学位论文,2010.

[3] 中华人民共和国住房和城乡建设部、中华人民共和国教育部.高

等学校节约型校园建设管理与技术导则(试行)[Z].2008.

第8篇

(一)大数据思维的内涵

对于大数据思维的诠释有多种说法,《大数据时代》的作者维克托•迈尔-舍恩伯格认为:所谓大数据思维,是指一种意识,认为公开的数据一旦处理得当就能为千百万人急需解决的问题提供答案[1]。王建华认为:大数据思维,指的是用大数据思想文化去思考解决问题的一种方法。大数据思想文化也就是用大数据去反映事物发展过程的环节、要素等,在此基础上通过建立多种模型模式加以控制,以达到精准解决各类问题的目的[2]。黄欣荣认为:人们迅速地以数据的眼光来观察世界和理解、解释这个纷繁复杂的世界,就是所谓的大数据思维[3]。不管哪一种诠释,都包含两层意思:数据可以反映问题、数据可以指导问题的解决。借助大数据思维,开放教育教学工作者能够进一步靠近并挖掘教育教学的潜在现实,有机会深入探索教育教学的变革与发展。

(二)大数据思维的特征

维克托•迈尔-舍恩伯格从数据本身出发,认为大数据有三个主要特点,分别是全体、混杂和相关关系。全体,指的是收集和分析更多数据,通过这种方式可以看到很多随机抽样得不到的细节。混杂,指的是接受混杂,大数据时代追求的,是在宏观上失去精确性,在微观上获得准确性。相关关系,则是指应该关注“是什么”,而非“为什么”[4]。黄欣荣将大数据思维与小数据思维相比较,从数据的增长速率、使用范围考虑,认为大数据思维具有整体性、多样性、平等性、开放性、相关性和生长性等六大特征[5]。周世佳从数据产生的状态、处理的模式、结果的呈现样式出发,认为大数据思维的特征是:整体性与涌现性、多样性与非线性、相关性与不确定性、并行性与实时性[6]。大数据思维是大数据时代形成的特定思维方式,与传统的数据思维有所差别。本文从数据对象、关注点、数据处理方式、支撑技术等方面总结归纳了大数据思维与传统数据思维的差异,如表1所示。

(三)大数据思维的教育应用

大数据思维在商业、金融、通讯、经济、医疗等行业的应用已有较长时间,近期伴随着移动互联网、云计算、物联网的发展而引起国内外广泛关注[7]。然而大数据在教育领域的应用并不深入,“教学应用大数据分析处于起步阶段,还需要几年才能成熟。”[8]2012年10月,美国教育部了《通过教育数据挖掘和学习分析促进教与学》的报告,宣告了“数据驱动学校,分析变革教育”的教育大数据时代已经来临,掀起人类教与学的又一次变革[9]。目前,大数据分析已应用到美国公共教育领域,成为教学改革的重要力量[10]。美国教育部门创造了“学习分析系统”——一个数据挖掘、模化和案例运用的联合框架,旨在向教育工作者提供更多、更好、更精确的信息,从而了解学生到底是“怎样”学习的[11]。美国的新兴企业“希维塔斯学习”(CivitasLearning)运用预测性分析、机器学习来提高学生成绩。加拿大“渴望学习”(Desire2Learn)教育科技公司的“学生成功系统”(StudentSuccessSystem)通过监控学生阅读电子化课程材料、提交电子版作业、在线与同学交流、完成考试与测验,让其计算程序持续、系统地分析每个学生的教育数据[12]。2013年是中国的大数据元年,也是我国大数据在教育领域应用研究的起步阶段[13]。国内教育技术领域掀起了基于大数据技术促进教育改革和创新发展相关研究的热潮,大数据的教育应用研究迅速发展起来。部分高校开始实践对教育数据的挖掘与利用。清华大学的“大规模在线教育研究中心”,通过大数据技术对众多学习者在平台留下的学习行为数据进行分析,得出学习者对哪些知识点比较感兴趣、哪些学习工具和学习资料使用频率最高等规律[14],进而打造更具适应性的智能学习平台。华东师范大学对校园网站数据进行分析,从而改善用户体验[15]。浙江大学通过对资产的归纳、整理,最终形成权威、全面的资产数据,并基于资产数据提供数据查询和分析服务[16],帮助教务处更好地利用教室、实验室等资源。

二、开放教育领域教育教学数据应用现状

(一)开放教育领域教育教学数据类型

随着互联网技术的发展与应用,远程开放教育领域部署了众多学习管理系统,比如三级“电大在线”远程教学平台、形成性测评系统、国家开放大学学习网,除此以外,还有招生、教务、考试报名等信息管理系统,这些系统经过多年的教育实践,不但存储着海量学习者信息及学习过程数据,还存储着大量的管理数据。2012年,葛道凯等人根据教育活动中技术手段的差异,将教育数据来源划分为传统教育数据和远程教育数据。根据业务活动的不同,将教育数据挖掘的数据来源划分为教学数据、管理数据、科研数据三大类。[17]1.教学数据挖掘远程教学数据主要来源于各类数字化学习环境,既可以是保存在服务器和客户端上的日志数据[18],还可以是图片信息、动画、视频、地理位置信息等,前者多为结构化数据,后者多为半结构化或非结构化数据。随着智慧课堂等信息化项目的建设,各种电子教具、智能设备逐渐进入课堂,课堂教学过程也会产生并保存丰富的数据。对教学数据进行挖掘,对学习过程中产生的各类信息进行深度分析,能够实时洞察学习者的行为,从而预测和把握每一个学习者的学习需求、学习风格、学习态度乃至学习模式,学校、教师可以为不同学习者提供合适的学习内容与指导,实现真正意义上的个性化教育。2.管理数据挖掘管理数据主要来自于教育机构、部门使用数字化管理系统过程中录入、保存和管理的数据,主要表现为结构良好的报表形式。比如人事管理、招生管理、学籍管理、教务管理、师资管理等常见系统。在现今管理中,学校决策很多时候仍然主要依赖领导的经验和直觉,而非基于客观的数据。大数据思维可以重构决策路径。挖掘并分析管理数据,能够为教育管理人员提供参考,实现对管理对象(学生、教职工)及各种业务流程的更好理解,并据此优化各项管理工作。3.科研数据挖掘目前许多与科学研究有关的信息资料已被转换为数字形式,存于数据库中,并可通过各类检索系统检索使用。科研数据结构良好,非常适合进行数据挖掘。将科研数据库,如文献数据库、政策数据库、语料库等的原始数据转换为有用信息,可提高研究效率,优化研究成果的呈现方式,实现全面、快速、准确地了解某一研究领域的现状,并预测未来的发展方向。比如,基于CNKI期刊论文数据库的“终身教育与远程教育”之关系的文献研究[19]。

(二)开放教育领域教育教学数据应用现状

尽管开放教育领域早已形成了“大数据仓库”,但学校缺乏对数据的集中管理与有效利用,对数据的应用相当有限,绝大部分数据只是沉寂在数据库中,很难从中发现规律和有价值的信息,这种情况主要表现为以下几方面:1.业务部门难以提出数据的准确需求学校的业务部门对数据的采集、整理、分析主要出于业务驱动,业务流程结束后,数据也随之沉睡,数据分析处于被动状态。此外,很多业务部门不了解大数据及其应用场景和价值,尚未形成大数据思维来指导各项工作的开展,在实际工作中难以提出大数据的准确需求:要优化某项业务,到底需要哪些数据?这些数据应当如何获取?采集的数据要按什么标准进行整理、挖掘和分析?数据的可视化处理应做到什么程度?2.对数据的应用受制于平台和技术学校各级各类学习系统、信息管理系统的数据产量很大,但对数据的保存和利用率总体偏低。就数据的存储和处理来说,存在数据类型多样化、数据读写瓶颈、存储压力、系统性能瓶颈、数据分析效率低、数据安全等问题。比如开放教育的教务管理系统,庞大的学生成绩数据已超出传统系统的存储和分析能力,导致对成绩数据的处理停留在简单的查询、统计、打印和报表阶段,未能对数据进行深入分析,获得有利于教学工作的信息[20]。3.现存的数据分析是零散的、割裂的大数据时代,强调形成机构内部各模块数据、数据库网、多媒体数据、各类平台数据、各类信息载体数据之间的互联,力求最大限度地利用数据。但现有的教育数据存在机构化、部门化问题,数据呈现割裂、零散状态,数据分析也较少关注数据之间的相关性。比如,教务处会有意识地整理每学期的在籍生人数、各专业人数、开设课程明细、学期选课人次、学生到课率、按期毕业率、学位获取率、退学率、终结性考试及格率等数据,但却很少挖掘这些数据之间的相关性和影响关系,更不用说不同部门数据之间的联动关系。4.缺乏专门的数据分析岗位及人才大数据时代带来很多新的理念和技术,拥有与过去完全不同的数据存储和处理模式,但现有的系统管理员、数据库管理员仍然习惯使用传统关系数据库管理系统,短期内很难具备面向未来的数据分析技能。究其原因,一方面在于学校对数据分析相关岗位和人才的需求态度尚未明朗,另一方面,新技术应用门槛较高,许多大数据技术在成熟度和可访问性方面暂时不及传统数据库和数据管理套件,可用于帮助系统管理员熟悉这些环境的补充分析工具也非常有限。

三、大数据思维对开放教育数据挖掘的若干启示

(一)自上而下,形成教育教学管理的数据思维

随着广播电视大学向开放大学的转型,成人院校在办学种类、办学规模、专业结构和数量、师生来源、甚至所处环境都会发生变化。对开放教育数据进行挖掘与分析,有助于成人院校找准办学定位,提高教育、教学、管理的科学性,也为学校改进和加强宏观管理提供了有益的检测模式和评估技术。大数据思维的推广应用,需要学校的管理方式、架构、技术均与大数据时代相适配。因而有必要在区域或学校层面形成整体的大数据战略,并将此作为学校的重要任务,通过大数据思维将信息化教学、信息化管理、远程教育支持服务与学校日常工作相整合,通过协调化方式,所有部门共同培养和提高收集、存储、管理、分析和共享海量数据所需的思维与技术,逐步实现数据管理的常规化、即时化、网络化、公开化。

(二)从智慧校园建设入手,为数据挖掘与分析创造充分条件

随着云计算和物联网的出现,校园信息化建设应尽快从数字校园向智慧校园过渡。智慧校园建设通过把传感器嵌入到校园的各种系统中,将校园管理的众多软件系统平台融入到校园云,实现云、物联网、互联网的串通联接,由此可实现校园实时数据的获取、存储和加工分析,从而为学校发展和教学应用提供有效的决策依据,智慧校园作为教育信息化建设的一个实体,对实践大数据的价值提纯有重要的现实意义[21]。此外,智慧校园还包括大数据的标准体系、校园数字化生态环境以及相应的信息化组织管理体系等方面的建设[22]。从基础设施建设着手,逐步开展基于云计算的大数据应用,实现对教师网络教学行为、学生远程学习行为、学生个性特征等的分析和预测,为促进学生身心发展提供适时引导和帮助,提供学校运转的实时动态数据,助力教学管理科学化、智能化。

(三)脚踏实地,充分挖掘和分析现有数据

大数据时代,数据类型丰富,除结构化数据以外,还混杂着大量的半结构化和非结构化数据。掌握分析半结构化和非结构化数据的能力对大多数学校来说是一个持续的挑战。学校应将结构化数据挖掘作为大数据思维应用的切入点,注重收集和存储用户信息和行为数据,为将来各项应用做好充分准备;与此同时,借助已有的数据分析手段和研究方法,借助数据指导开放教育的发展。在初级应用阶段,可以考虑从教学数据、管理数据两方面进行教育数据挖掘:1.基于网络教学平台的数据挖掘(1)学习者特征识别:识别学习者特征,特别是学习者群体的特征,并依据某些关键特征对学习者群体加以细分,有助于做好前期的教学设计,并为个性化学习的实施提供依据。比如“学生数量统计与趋势预测”和“学生特征分类与相关分析”。(2)学习者在线学习行为分析:基于网络教学平台中师生学习过程的数据,针对教师和学生的行为方式,如登录、浏览资源、发帖、练习等行为和行为发生时间,以及各类资源、课程模块的使用情况进行统计、可视化和挖掘。比如“学生登录行为分析”、“学生资源浏览模式分析”、“师生交互论坛分析”和“学生行为影响因素分析”等。(3)师生交互分析:对网络教学平台交互论坛中的数据进行分析,帮助教师诊断学生对教学目标的掌握程度,以便给学生提供及时的反馈和指导。2.基于教育管理信息系统的数据挖掘(1)教职工管理:从人事信息数据库、后勤信息系统、师资管理和测评系统挖掘现有数据,对学校在人才引进、教师绩效评价、教师发展、职业规划、后勤管理、教育决策支持系统等方面提供快速、准确的决策帮助。(2)学生管理:基于学籍数据库、招生数据库开展数据挖掘,优化学生管理工作,为学校的招生决策、就业指导、毕业生追踪、课程设置等提供有益帮助。比如挖掘学生修业结果数据,开展毕业生(辍学学生)特征分析、毕业(辍学)结果影响因素和毕业(辍学)时间影响因素分析,进行毕业(辍学)结果预测规则和毕业(辍学)时间预测规则等。

(四)着眼未来,做好数据型人才储备

大数据时代,学校的管理决策、课堂的教学决策和对成人学习者的学习支持服务决策都将依赖于海量数据的分析结果,数据分析与挖掘将逐渐成为学校的常规工作,除了注重提升各部门人员的数据分析能力外,成人院校还需有意识地培养和储备以下人才:1.大数据管理人才在大数据教育应用的萌芽阶段,学校对大数据管理人才需求的迫切性要远超对技术人才的需求。信息技术发展日新月异,过去的教学、管理经验甚至可能成为现在的束缚。为了应对新时代的挑战,除设立专门的数据管理岗位外,管理者必须要有意识地转变思维方式,学会用数据思考、说话和管理;必须学会用大数据的方法,去寻找合适的解决方案。2.大数据技术人才[23]要想对教育教学数据进行充分挖掘,成人院校无疑需要一批懂得大数据,且善于研究大数据、深挖大数据的专家。这部分人才要综合掌握数学、统计学、数据分析、机器学习和自然语言处理等多方面知识。(1)数据科学家:具有数据分析能力,精通各类算法,能够直接处理数据的人。(2)数据架构师:精通开放教育各项业务,了解业务需求和业务系统架构,能够把数据和业务进行对接的人。(3)数据工程师:能够搭建数据存储、管理以及处理的平台,并支撑数据科学家提出的数学模型或算法的运行。

四、小结

第9篇

关键词:大数据;发展脉络;营销趋势;研究评析

一、问题的提出

云计算、移动互联网等新信息技术的广泛应用及社会化网络的兴起,使信息数据产生机制更复杂、传播速度更快、类型更多样,全球进入信息数据量“井喷式”增长的大数据时代。国际数据公司(In原ternationalDataCorporation,IDC)指出:全球创建和复制的数据量五年内增长近九倍,预计将以每两年至少翻一番的速度继续增长。仅2013年,世界范围存储的数据就达1.2ZB(1ZB抑1021B),将这些数据刻录到CDR只读光盘并堆起,其高度将是地球到月球距离的五倍[1]。生产和信息方式的变革引起管理规范及其深层次上价值观的转变。传统企业营销中,为避免无法获取整体数据的弊端,多依据小样本采样统计推断以形成所谓“科学决策”。然而采样分析的成功取决于样本的绝对随机性,大数据时代,营销调研建立在对大样本持续收集数据的基础上,实时分析和输出调查结果将为营销决策提供及时判断临界值。在大数据背景下对营销活动进行研究,具有聚焦数据,提高营销决策科学性;强调洞察,增强营销活动“预见性”;重视创新,增强营销理论“前瞻性”等研究价值[2]。特别是中国具有众多人口和庞大市场,也使中国成为最为复杂的大数据国家之一。那么,大数据对营销活动究竟会产生怎样的影响?其内在机理是什么?通过文献综述,对大数据概念进行界定,梳理其发展的历史脉络,在此基础上分析大数据对消费者行为、营销决策模式、营销战略、营销要素等的影响表征及其机理,最后对大数据的营销应用研究做出述评。

二、大数据的发展脉络及概念界定

(一)大数据的发展脉络

大数据的概念最早要追溯到上世纪,只是在互联网时代,大数据才从规模、类型等方面得以实现。早在1981年,美国著名未来学家Toffler在其著作《TheThirdWave》中,提及“大数据”,并称之为“第三浪潮的华章”[3]。2001年,META集团(现为Gartner)的分析师Laney指出数据增长带来规模性(Volume)、高速性(Velocity)、多样性(Variety)等变化[4]。《Nature》则在2008年9月开设“BigData”专刊[5-7],同时《Sci原ence》也推出数据处理研究专刊“DealingWithDa原ta”,对数据洪流(DataDeluge)所带来的社会变革及影响做出讨论[8]。大数据研究的开创性论文是Gins原bergetal(2009)的“DetectingInfluenzaEpidemicsUsingSearchEngineQueryData”,该文探讨了如何利用谷歌搜索引擎查询词来预测流行病[9]。只是在最近几年,大数据才成为高频词。2011年5月,麦肯锡公司《大数据:创新、竞争和生产力的下一前沿》报告,指出“在数据渗透于各领域并成为生产要素的背景下,对海量数据挖掘应用,将带来新的生产增长和消费者盈余浪潮”[10]。2012年3月,美国开始实施“大数据研发计划(BigDataRe原searchandDevelopmentInitiative)”,将大数据喻为“未来新石油”,并视为与互联网、超级计算机同等重要的国家战略,这也是美国在“信息高速公路”计划后所实施的又一国家级重大科技战略。日本紧随其后,推出“新ICT战略研究计划”。同年,世界经济论坛《大数据、大影响》报告,从多个行业领域阐述大数据给世界经济带来的发展机会[11]。就国内而言,2011年12月,国金证券开创国内大数据研究先河,将其研究成果引入资本市场[12]。2012年5月,香山科学会议组织“大数据科学与工程:一门新兴的交叉学科”为论题的会议,同年6月,中国计算机学会青年计算机科技论坛(CCFYOC原SEF)举办“大数据时代,智谋未来”会议,对大数据挖掘技术、组织架构、平台治理等展开探讨。2013年6月,国家自然科学基金委管理科学部、美国营销科学学会(MSI)、南京大学商学院(管理学院)和香港中文大学工商管理学院联合主办“2013营销科学与应用国际论坛”,也将“大数据、社会化、移动化对市场营销的新挑战”作为主要议题之一。2014年2月,北京银行与小米科技就移动支付、便捷信贷、产品定制、渠道拓展等签署协议,表明国内企业运用大数据战略进入实质性阶段。2014年3月5日,总理第一次把大数据写进政府工作报告,阐明了国家对大数据产业鼎力支持的政策,随后一系列公开讲话进一步明确了这一战略部署。2015年2月,百度公司利用百度迁徙、百度指数等大数据产品直观地呈现了春运“景观”,把大数据研究成果可视化地展示在电视屏幕上。2015年3月,政府工作报告中进一步提出“互联网+”计划,推动大数据与现代工业相结合。

(二)大数据的概念界定

大数据本身就是抽象的概念,当前对其概念界定尚未达成统一,不同组织及学者给予不同的表述,见表1。尽管各方对大数据概念并不统一,但其中“大规模数据”“体量、复杂性及速度超越传统数据”“超越现代技术手段处理能力”等观点得到基本认可。IBM公司及Laneyetal(2001)认为大数据具有“3V”特征:规模性(Volume),数据量一般要达到TB级甚至PB级;多样性(Variety),数据结构类型包括结构化数据、半结构化数据和非结构化数据;高速性(Ve原locity),产生、处理、分析数据的速度加快。国际数据公司(IDC)在此基础上,增加“价值性(Value),即“大数据价值很大但呈现低密度性”的特点,从而形成大数据的“4V”特征[16]。而NetApp公司认为大数据具有“ABC”三特征:大分析(BigAnalytic),通过对大数据实时分析构建新的业务模式并更好地了解顾客需求;高带宽(BigBandwidth),快速有效地对数据进行处理分析;大内容(BigContent),包括各种类型数据,同时对数据存储、扩展、安全等管理的高要求[17]。

三、大数据对未来市场营销的冲击

根据(移动)互联网时代大数据的特征、消费者行为变化及营销模式的可能演变,通过相关文献梳理,勾画的大数据对未来营销活动的影响趋势,见图1。

(一)大数据对消费行为的影响

1援消费行为更理性。工业化时代,信息不对称的客观存在,消费者易受各种如低价促销、广告宣传等影响。而大数据时代,消费者有更多、更方便的途径获取更详细的商品价格、成本、产地、质量等信息,并可更方便地搜寻、比对和遴选,从而做出更理性的选择[18]。2援消费行为幂律分布。大数据时代,消费者评价系统更广泛,先前购物者的购后评价及经验对新消费者具有重要参考。相比先前购物者的好评,消费者则会更关注其差评,以便做出正确的消费决策。同类产品中,质量好、价格有优势、服务好的产品受到越来越多的青睐,并不断吸引新的消费者,形成“滚雪球式”的“马太效应”,消费行为呈现幂律分布。3援消费行为更个性化。工业化时代,商家追求规模经济的考虑,只能在有限范围满足消费者个性化消费。而大数据时代,信息广泛并快速传播,消费者的消费认知及创造力大大提升,消费异质性不断增大,对产品或服务的关注并不仅限于以往的质量、品牌、价格、售后等,更关注其个性化的满足程度。

(二)大数据对营销决策模式的影响

大数据时代,思维方式发生三个变革:其一,要分析与事务相关所有数据而不是少量数据所构成的样本;其二,要接受数据纷乱复杂的事实,而不能过于苛求精确;其三,更加主动地分析相关关系而不再探究难以捉摸的因果关系[19],可以说,数据驱动型决策(Data‐drivenDecisionMaking)是大数据背景下决策的特点[20],以“数据化、智能化、实时化垣经验”将成为大数据时代的营销决策范式。1援数据决策技术升级,注重实时处理及相关分析。传统分析多基于多元统计、计量经济学模型等方法,对大量一手和二手结构化数据实施分析,从中寻求研究对象的内在联系,常用方法有:聚类分析、因子分析、相关分析、回归分析、A/B测试、数据挖掘等。大数据背景下,数据规模大、传递速度快、非结构化数据多等特点,使得传统数据分析及数据库管理手段很难适应时代要求。数据产生及传播速度加快,要求数据应用实现从离线(Offline)向在线(On原line)的实时处理转化[21]。数据关联成为大数据的主要价值来源,但数据间交互广、价值密度低、碎片化严重,也使决策重点从以往因果关系分析向相关关系分析转变。2援决策参与主体向社会大众倾斜,数据分析师地位加强。大数据使营销决策越来越依赖于数据分析而非经验或直觉[22],直觉判断将被精准的数据分析代替。管理者决策重心在于正确发现并提出问题,一线员工对决策参与度将大大提升,决策主体从社会精英向社会大众倾斜,扁平化组织架构、学习型企业文化将得到加强。同时,能综合运用数据分析、分布式管理的数据分析师,将为企业营销决策提供更多智力支持。

(三)大数据对营销战略的影响

1援激发协同营销的竞争格局。大数据环境下企业与行业的边界日趋模糊,营销系统开放性更明显。企业竞争不再局限于个体之间或供应链的链条间,而是向多主体所构建的商业生态系统间延伸[23]。企业营销战略的设计应打破传统的个体竞争思维,在不断提升自身营销网络化和动态化能力基础上,利用外部资源,形成协同营销格局。2援一对一营销的精准定位。大数据背景下,企业可以记录消费者在产品各个生命周期阶段的品牌偏好、口碑评价等行为数据,基于社会学、心理学、营销学、传播学等相关理论,并借助数据挖掘、统计计量等,按一定的细分标准进行消费行为细分,从而结合自身资源优势,形成目标市场的选择和一对一营销的精准定位。

(四)大数据对营销要素的影响

1援产品:顾客参与式的产品设计和个人定制。大数据背景下,虚拟企业和智能车间将会越来越多地被采用,顾客参与式的产品设计和个人定制将大行其道。那些市场价值在较短时间发生贬值的短生命周期产品的时效性更强、需求波动大,与外界存在着复杂非线性关系[24]。而长周期产品特别是其中生产工艺复杂、流程管理复杂、客户需求复杂的复杂品(ComplicatedProduct)将实现供应链纵向一体化整合及全生命周期数据整合[25]。“全息”生命周期的完整大数据可帮助企业构建消费者兴趣图谱,从而应用于营销和新媒体关系定位中。2援渠道:渠道缩短及渠道多元化。大数据背景下,信息技术更为成熟,经由中间商的渠道模式将让位于直销,渠道长度越来越短。特别是具有及时反馈交互关系平台技术的实施,使企业可开发出更多、更便捷的渠道与顾客连接,实现多渠道及跨渠道营销。诸如微商等“屏幕+手指+快递”的购物方式,配合超低的价格,使营销渠道更趋多元化。3援价格:透明度更高,基于支付意愿的差异化定价。传统营销定价多从产品成本、利润率、顾客接受度等简单因素考虑,并依据先前相关销售经验建立精算模型。大数据背景下,传统精算模型将被颠覆,价格不对称性有所改善,定价透明度越来越高,明智的价格策略是企业“阳光”定价,基于支付意愿的差异化定价将成为主导,电子支付成为主流。4援促销策略:促销手段的数字化、互动化趋势。大数据背景下,传统电视、报纸、广播等大众传媒的传播效率不断下降,而建立在数据库基础上的移动互联网将成为促销信息的重要传播手段,促销手段更具数字化。同时,促销手段更新颖,目标受众被多元化数据锁定,并特别强调与顾客间的互动和情感沟通。

四、大数据研究在营销中的应用评析

(一)研究层次:偏宏观层面研究,轻微观分析

当前对大数据的相关研究,更多从宏观层面对其概念内涵、形成脉络及其对社会所产生的影响方面展开描述,而对大数据所形成各种影响的内在机理缺少必要的微观分析。大数据为未来营销带来深刻影响,但机会和挑战并存,其合理利用前提是必须拥有准确、可靠、及时的高质量的数据[26],只有在此基础上,才能提炼出有效的营销决策信息,才能帮助企业实现精准定位。

(二)研究视角:多立足于信息科学视角,缺少管理视角

当前,国外从管理学视角应用大数据技术来支持管理决策已成为商科教育的热点[27]。相比之下,国内相关研究还处于起步阶段,数据驱动决策的管理模式还有待形成,现有的相关研究则更多立足于对数据信息的采集、处理、检索、挖掘及离线分析等信息科学视角。而只有立足管理决策的视角,探讨大数据对现代经济组织的战略定位、架构设计、营销实施等实时问题,才能真正发掘大数据的“资源”价值,建立起信息引导决策的机制。

(三)应用范围:国内多理论研究,实践广度、深度不够

第10篇

统计学论文2300字(一):统计学方法的发展及其在大数据中的应用论文

【摘要】现阶段,统计学方法在我国企业管理中有广泛应用。本文尝试对统计学方法的诞生以及发展情况进行了简要的分析,同时还对统计学方法在现今大数据时代的应用情况进行了探索。

【关键词】统计学方法发展大数据应用

对于统计学方法来说,诞生的最初只是为了进行单纯的计数以及描述,随着统计学方法的不断发展,其所涉及到的内容更加多样化。在统计学家以及各个领域专家的不懈努力之下,统计学方法正在不断的进步以及完善,在实际应用的过程中也发挥出了较为理想的效果。在现阶段大数据的时代背景之下,对统计学进行深入探究是非常重要的,会对今后多个行业的快速发展起到促进作用。

一、统计学基本发展探析

对世界统计学的发展情况进行分析,会发现,其与科学界的发展趋势较为类似,随着统计学的不断完善,也开始与其他科学进行融合发展。对统计学进行总结,可以发现,其主要具备两个基本结合趋势,即与实质性学科结合的趋势以及与计算机学结合的趋势。对于统计学来说,其与经济学结合发展我国有广泛的应用,并且产生了经济统计这一专业;而统计学与教育的结合产生了教育统计。对于这些分支学科来说,其具有双重属性。一方面是统计学的分支;另一方面是实质性学科的分支。随着计算机信息技术的不断发展,其运算能力不断提升,这也使得大规模的统计调查工作在实际展开的过程中取得了理想效果,不仅保证了数据计算的准确性,同时也保证了计算的高效性。因此,在进行统计学技术研究发展的过程中,与计算机技术的深入结合应用是重要发展途径。通过对计算机软件的有效应用可以使统计计算过程中一些疑难的部分得到有效解决,同时也使得统计计算的展开更加方便。从现阶段我国经济类统计专业的教育情况来看,一方面在对统计方法进行创新教育,另一方面在对学生利用商品化统计软件包装能力进行提升。由此我们可以看出,在今后统计学的发展过程中,势必不能离开计算机技术的支持。在今后统计学相关专业的教育过程中,应该对学生的计算机程序设计以及利用能力进行培养提升,使得在展开统计工作的时候可以通过统计模型的编程来实现。

二、统计学方法在大数据中的应用趋势

(一)统计学方法及相关领域的动态分析

目前,国内外对统计学都有较为广泛的应用,主要应用在教育行业、生产制造行业以及企业管理当中,取得了较为理想的应用效果。根据CNKI数据库中统计方法、机器学习分布情况可以看出,在机器学习领域的论文数量从2013年以后一直呈现出持续增长的势头,并且在2016年超过了统计方法领域的论文数量。由此可以说明,我国在机器学习领域的发展速度正现出稳定提升的趋势,反映了我国在大数据领域研究方面越来越深入,所应用的研究方法也开始呈现出多样化的特点。从总体上来看国内在统计学方法研究过程中已经取得了阶段性的成果,并且其所面临的拐点与国家上的统计学发展拐点基本保持一致,大概都是在2013年开始对大数据以及将其学习等方面有了深入的探究,并且开始逐渐取得突破性的成果。而机器学习方法的论文数量都是在2016年开始超过统计方法的论文数量。但是与此同时,我们也看出其差异性也很明显,国内在统计方面研究的论文以及在机器学习方法方面研究的论文与国际相比较尚且存在较为明显的差距,并且这种差距呈现出了持续性的特点,这也使得我国在这两个领域方面还有很大的发展空间。

(二)统计学方法及相关领域研究方向分析

经过对CNKI数据库中的统计方法以及大数据领域期刊论文分布情况进行分析之后,可以看出,统计方法领域中出现频次最高的是“统计分析”以及“数理统计”、“人工智能”;在大数据领域出现频次较高的是“云计算”、“图书馆”以及“物联网”等关键词。通过上述关键词来看,其所涉及到的内容都是反映当前我国统计以及大数据技术所研究的重点以及热点,同时我们也可以看出,现阶段我国在统计与大数据领域方向的研究存在着一定的重合。在进行的数据研究的时候,需要应用到统计学方法,同时统计学方法在利用的时候往往也需要与大数据进行结合。

(三)统计学方法的发展展望

有数据的地方势必就会涉及到统计学。从17世纪开始,国势学派以及算数学派的争论到今天大数据计算、计算机技术的相互作用,使得统计学的内容正在不断完善,并且其应用领域也在不断扩大,随着大数据时代的来临,使得传统的统计学发展方向发生了一定转变,开始从小样本的统计推断分析走向大数据量的挖掘分析,从而使其所掌控的数据量不断提升。在未来统计学方法发展的过程中,应该注意将统计学与新的数据思维相结合,从而产生一种新型的、应用范围更广的大数据算法。从现阶段我国大数据方法创新发展的情况来看,其与国际研究在深度以及广度上还存在不小的差距,这也恰恰说明了我国在大数据统计学方面还有很大的进步空间。现阶段,国内的大数据研究更多的是停留在信息化产业上,与其他行业的融合发展趋势尚且不明显,这也使得信息服务以及数据产业的创新发展受到了一定影响。在今后统计学发展的过程中,其研究热点势必会从数据分析以及数据发掘向算法方向转移,这样也使得大数据技术与统计学方法二者之间的联系更加紧密。

结束语

综上所述,我国统计学方法在今后发展过程中应该充分考虑到实际需求,积极适应时代变化,现阶段大数据时代已经全面到來,并且大数据技术在我国有广泛应用,在实际应用的过程中取得了较为理想的效果。将大数据与统计方法进行结合可以使统计学方法的作用得到更好的体现,也使得统计学方法不断的进步以及拓展,在大时代背景之下,其功能性得到了更加充分的展现。

统计学毕业论文范文模板(二):线上线下混合式教学在生物统计学教学中的实践与研究论文

[摘要]为提升生物统计学课程的教学水平,针对传统生物统计学教学中的局限,分析和实践基于线上网络教学+线下面授教学的混合式教学模式在生物统计学教学中的应用策略和方法。实践表明,通过线上+线下的互动与教学,能激发学生学习的兴趣与动力,丰富生物统计学的教学形式与内容,促进生物统计学教学质量的提升。

[关键词]线上线下;混合式教学;生物统计学;实践

[作者简介]严明(1981—),女,重庆人,博士,讲师,研究方向:生物技术。

[中图分类号]G642[文献标识码]A[文章编号]1674-9324(2020)25-0273-02[收稿日期]2020-03-18

生物统计学是生物医学类专业的必修课程,学生通过学习本课程掌握实验设计的原理和方法,并学会对实验数据进行统计分析和处理。然而,生物统计学涉及到大量基础理论,单纯通过教师讲解,学生理解度较低,学习效果不佳。如何在有限的课时内,改革传统的以讲授为主的教学方式,有效提高教学效果是生物统计学教学亟待解决的难题。

近年来,随着互联网信息技术的发展,一种基于线上网络教学+线下面授教学的混合式教学模式应运而生。该模式可避免传统教学模式中以教师为主导,学生学习主动性差的缺点,又可克服学生完全在线学习缺乏监管、学习效果不佳的困难。本文尝试将混合式教学方法运用到生物统计学教学中,以期在有限的教学时间内最大限度实现教学目标,提升课程教学效果。

一、线上线下混合式教学的概念及内涵

线上线下混合式教学是一种新兴的教学模式,授课教师利用网络教学平台向学生提供教学视频和课件等教学资源,并设置作业、调查等互动模块,学生利用课外时间自主完成学习任务,并通过平台与教师交流。在线下课堂,教师根据学生在线学习的情况,对疑难问题进行有针对性的讲授,帮助学生理解、掌握教学难点。

线上线下混合教学模式打破了教学的时空限制,学生可以灵活安排学习时间,通过学习在线资料提出问题,并带着问题进行课堂学习,有效提升学习效率。线上线下混合教学还可帮助教师动态掌握学生学习情况,生成客观的过程性评价材料,并丰富课程的教学形式,拓宽教学路径,因此正逐渐成为高等教育领域的一大趋势。

二、生物统计学课程教学面临的困境

1.教学时长受限。目前,本校生物统计学面向生物医学工程和医学信息工程专业开设,每学期共32个课时。由于教学内容抽象,而且学生要通过大量实践才能掌握统计学原理在生物研究中的应用,因此,教学难度高,课堂教学时间很难满足教学需求。

2.教与学不同步。传统教学模式下,教师与学生之间的沟通以课堂为主,教师按照教学安排按部就班地进行教学,对学生需求重視不足;学生缺乏主动反馈的意识,教师很难掌握学生的真实学习状况,教与学处于不同步状态。

上述困境对如何拓展教学时间,完成课程教学并指导学生学以致用提出了新的挑战。

三、线上线下混合式教学在生物统计学教学中的实践探究

1.构建线上教学平台,实现课前线上自主学习。授课教师首先以超星泛雅平台和学习通APP为依托构建线上教学平台。教师在平台上将课程每章的重难点列示出来,搭建课程框架体系,并上传包括课件和教师根据课程知识体系录制的教学视频等资料。教学视频时长控制在15分钟以内,并保证精炼、易懂,让学生不会因视频过长而放弃观看,提高学习时效。同时,在教学平台提供视频配套的课件资料,方便学生下载并配套观看。教师还在平台设置了视频弹幕问答和闯关式章节测试,学生通过答题和测试后才能进入后续章节的学习。

在教学实践中发现,线上教学平台还可以为理论教学提供良好的拓展实践平台。教师可以在线上平台提供实验设计及实验数据分析的实例供学生练习,实现对课时压缩的有效弥补。学生普遍反映网络教学平台十分有利于自主学习,尤其是遇到知识难点时,学生可以通过反复线上观看教学视频来帮助理解,能达到较好的学习效果。

此外,线上教学平台可以通过视频回放次数、测试完成程度等数据统计帮助教师了解学生之间的差异性,既方便教师掌握学生学习状态,分析存在的问题,也为线下课堂教学提供依据,在后续教学中因材施教,满足不同层次学生的个性化学习需求提供依据。

2.线下检测自主学习效果,实施针对性教学。采用线上线下混合模式教学,课堂教学的任务发生转移。教师要集中精力对知识点进行梳理和归纳,并针对重难点以及学生在线上学习过程中的困难进行答疑解惑和查漏补缺。在教学实践中,为完成上述任务,在每个章节的线上学习完成后均安排答疑和小组讨论,让每位学生通过多种方式修正和完善遗漏或理解错误的知识点。全部授课结束后,授课教师向学生发放了关于教学效果的调查问卷,结果显示,78.2%(18/23)的学生认为采用混合式教学方法可以把重要知识点学透,在课堂上有更充裕的时间进行消化吸收,更有利于教学内容的掌握。

在线下教学中,教师还对教学场景进行了编排和优化。教师提供具体的实验案例,并以某一具体实验案例(如抗癌药物筛选)为背景贯穿整个课程教学始终,模拟真实实验场景,让学生从实验参与者的角度设计实验流程、整理实验数据、统计分析和解读呈现的全部流程。帮助学生实践生物学研究提出假说—实验验证—得出结论的基本流程,理解生物统计学对生物学研究的重要指导作用,培养学生知识迁移、应用和分析并解决科学问题的能力。

3.课后回顾学习并提升。在课堂教学完成后,师生的教学活动都还没有结束。教师要对线上线下教学过程中容易出现的问题进行整理总结,并将解决方案到网络平台,供学生回顾性学习。学生要对课堂上遇到的问题,搜集学习资料进一步思考和巩固。教师还要对学生课后学习情况进行挖掘,并根据学生的不同情况进行个性化的学习支持。对于有困难的学生,教师要单独辅导和监管,帮助学生完成课程学习;对于学有余力的学生,可以鼓励学生走进实验室,跟随教师的科研工作,完成真正的动手实践,实现素质提升。最终通过师生配合,完成对课程教学效果的提升。

4.教学考核。由于教学形式发生变化,课程的教学考核模式也要随之做出调整和改变。在实践中,教师改变传统的期末考核模式,充分利用线上线下教学记录,实现全过程考核。考试成绩包含网络平台学习考核(25%)、线下课堂表现(25%)和期末闭卷考试(50%)三部分。其中网络平台学习考核由系统根据学习时间、频率以及测试情况生成;课堂表现根据学生听课及参与讨论情况,综合学生互评和教师考核给分。上述考核方式,降低了期末考试在总成绩中的比重,更加侧重于学生的平时学习积累和实践能力的培养。因此,可避免学生“突击考试”的侥幸心理,促进学生向平时主动学习转变,更符合现代教学模式和人才培养的需求。

第11篇

[关键词]大数据;决策树;价值率;保险

[DOI]10.13939/ki.zgsc.2017.02.071

1 引 言

随我国经济快速增长,人民收入不断增加,保险业也呈现出高速发展的趋势,自国内恢复业务以来,保险业相比金融领域的其他行I,取得了不小的成绩。新时代背景下的保险业所呈现出的信息多元化、海量化等特点,使得大量用户信息以指数级增长趋势存在于保险行业,多元化的媒体介质输入导致数据预处理难度加大,用户的兴趣迁移导致构造用户画像模糊,而保险行业竞争日趋激烈,高风险性条件情况下保持客户黏性,降低流失率对企业竞争就显得尤为重要。

传统的商业情报分析往往结合数据挖掘技术对历史数据和已有的用户信息进行挖掘,发现潜在的未知的具有一定商业价值的信息,但由于以往的客户数据信息量较小,信息量更换慢,现有的保险业使用的传统的运营环境和模型难以适应海量数据,以及传统模型运行速度慢,运行代价高,准确率低,挖掘深度不够等都是不容忽视的弊端。近些年,随着大数据技术、人工智能、机器学习在工程和学术界的火热发展,相关的数据模型都发展得十分完善充分,而决策树其良好的鲁棒性,全样本挖掘性,准确度高,实施快捷,运行速度快,实现成本小都是它的优势所在。

故本文首先引入“数据湖”的概念以缓解传统数据处理处理异质数据问题,适应不同数据源存储介质的需求,引入使用可扩展性大数据分析模型获取用户的兴趣迁移特征,应用算法基于CART决策树算法模型并以某保险公司具体用户数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长、效率较低、准确度不高等问题。

2 基于决策树C4.5算法的数据模型

2.1 模型生成描述

数据基本处理:原始用户数据录入,形成基础数据湖,并将数据导入HBase和Oracle数据库中,对数据选取加工预处理并对数据进行选表、选键、连接器层选择以匹配数据模型,通过数据表的前期基本处理清洗筛选形成基础宽表,在形成宽表基础上再对数据清洗机进行标准化处理,对样本数据做简单的描述统计、缺失值处理以及标准化(分层处理)工作。

模型生成:调用Apache Spark 中的Mllib决策树中的类库,根据样本数据和用户情景生成初始模型,对生成的模型进行训练集和验证机选取,我们此处以7/3原则进行选取,对大数据模型进行训练,将数据抽样导出到数据中介Oracle中,将传统的SAS数据挖掘模型训练导入JAR中以便对比,至此基本的模型池生成,经训练测试后的用户反馈信息对模型的各个参数进行调试,并对外服务模型,模型中所设计重要参数如表1所示。

数据预测:根据服务模型和用户输入的基本信息属性进行加工,并对模型的预测产生结果集,再根据结果集进行场景信息预测并生成用户画像。

2.2 决策树C4.5算法

3 实证研究

3.1 实验数据

基于某保险公司的用户数据,由于数据本身来源差异和获取方式的不同,导致“数据湖”中本身存在大量的不完整、不一致、含噪声和冗余数据,所以需要对数据进行一个简单的处理分析工作,其一,减少数据集变量间的冗余,方便模型挖掘数据的效率和输出预测信息的简洁;其二,提高数据属性列间的相关性,去掉关联性较高的数据属性列,如保险缴费与收入属性具高相关性;其三,由于决策树模型运行时离散型数据进行处理速率较快,故多连续性数据进行离散化处理。

数据选取基本上对宽表的行列维度数据进行处理,由于在实际过程中对数据生成一个大约20个属性列的宽表,数据选择可以避免数据处理时发生高维数据灾难,并且在数据处理过程中进行部分数据归一化处理,以适应模型的匹配度。见表1。

3.2 分析工具和平台

本模型运行平台基于Hadoop分布式文件系统,其良好的高容错性和高吞吐数据访问比较适合大规模数据集的应用,本模型应用的环境基于HDFS的基本运行环境,使用Python数据处理语言,操作系统版本:CentOS release 6.5(Final),搭建集群6台,各个设备相关信息:Intel(R),E5606,@2.13GHz,2128.000MHz,cache size:8192KB。

3.3 模式评估与应用

算法模型的运行结果展示出哪些因素影响客户流失的决策,通过评估可以得到更为有价值的客户信息,评估方法有准确率,召回率,F1-score,PR,ROC等,其中,真正TP:样本类型被数据模型正确归类预测命中正确类的数量;假负FN:样本类型被数据模型误判为其他类型的数量;假正FP:样本不属于正确类别被数据模型误判为正确类别的数量;真负TN: 样本类型属于正确类别被数据模型误判为其他类型的数量。

全样本数据运行模型的结果展示见表2。

经结果发现这里采用准确率、召回率以及F1_score,抽取用户的预测值与评分值进行模型检验,得到值均在合理值范围,模型运行时间2320.34s,较传统的SAS跑出的34min23s,较为高效,据此此模型可以投入运用。

4 结论与展望

论文借助“数据湖”挖掘模型实现了保险业的用户流失率检测,取得了以下结论。第一,论文建立在HDFS运行环境中,一方面,通过对决策树基本特点的研究,找到了决策树与保险业用户流失率的结合点,建立了基于用户数据湖的大数据模型;另一方面,模型基于开源HDFS环境中,具有良好的可扩展性。第二,根据信息论的相关理论概念引入信息熵和客户价值率,提高对客户数据属性分类的准确性,本文最后结合实例对所提出的模型进行验证,证明数据模型的可靠性。

本文引入“数据湖”的概念以缓解传统数据处理异质数据问题,极好地适应不同数据源存储介质的需求,并引入使用可扩展性大数据分析模型以便适应用户的兴趣迁移,通过数据挖掘技术提高销售净利率,扩大企业市场所占份额,识别客户等级,诚信度和价值率,降低企业风险,预测预警以及制订相应的决策计划,降低用户流失率提高忠诚度,本文基于CART算法模型以某保险公司用户数据具体数据为实例构建应用场景进行模型训练和数据预测,并创新性地引入价值率对用户进行分类解决公司所面临的处理用户海量数据时间较长效率较低准确度不高等问题。

由于时间和硬件环境的制约,本文仍存在一些有待进一步改进和深入研究的地方。第一,论文对于数据挖掘算法采用较为经典的决策树方法,在数据处理时采用常规处理方法难免会导致部分数据的缺失和预测准确率的下降;第二,本文研究中数据均居于有限的数据集,随传输媒介的变化,用户的时间维度并未良好地考虑进去,对用户仍旧缺乏较时间维度及其用户标签等级的良好划分。

参考文献:

[1]孟小峰,慈祥. 大数据管理:概念、技术与挑战[J]. 计算机研究与发展,2013(1):146-169.

[2]王艳. 中国保险公司制度变迁与创新研究[D].长春:吉林大学,2014.

[3]丁兆云,贾焰,周斌. 微博数据挖掘研究综述[J]. 计算机研究与发展,2014(4):691-706.

[4]Quinlan J R.C4.5 Programs for Machine Learning[M].California:Morgan Kaufmann,San Mateo,1993.

[5]赵强利,蒋艳凰,卢宇彤. 具有回忆和遗忘机制的数据流挖掘模型与算法[J]. 软件学报,2015(10):2567-2580.

第12篇

1数据智能分析师培养

就业前景分析方面,谷歌首席经济学家哈尔•瓦里安预计,未来即将出现一类新型的专业人才和职业岗位——数据科学家,当然数据智能分析师也会应运而生。现下时代是数据时代,甚至称之为大数据时代,企事业单位面临大量数据如互联网数据、医疗数据、能源数据、交通数据等,实际应用中普遍遇到分析能力弱、噪声数据多、缺少分析方法、分析软件能力差、模型可信度低等问题,其主要原因在于传统数据分析方法不能满足需要,而数据挖掘技术、机器学习技术、模式识别技术、知识发现等智能技术可以为数据智能分析方法与工具提供技术支撑。2014年4月24日,百度高级副总裁王劲在第4届“技术开放日”上正式宣布推出“大数据引擎”,数据智能概念由此产生。数据智能分析是指通过数据挖掘技术、机器学习、深度学习、模式识别与分析、知识发现等技术,对数据进行处理、分析和挖掘,提取隐藏在数据中有价值的信息和知识,从而寻求有效解决方案及决策支持预测。目前社会急需懂得智能技术的各层次数据智能分析人才,可以预计,熟练掌握智能技术的数据科学家、数据分析师、数据挖掘人员将有广阔的用武之地。培养手段探索方面:①以“点—线—面”结合的方式横向纵向设置课程群,面向数据智能分析,以案例为导向贯穿“线”上的各关节点课程,比如以数学基础课(线性代数、概率统计、数学分析)大类专业课(程序设计、数据结构、数据库技术)数据智能分析专业课(数据挖掘、机器学习、多维数据分析)为主线,理论与实践齐头并进;②立足培养“计算技术+智能信息+知识技术”的高级数据分析师,理论学习—随课实验—集中实践—科技活动—企业实习—毕业设计等教学环节协调配合,“资格认证—竞赛获奖—奖学资助”激励培养;③以大数据智能分析为契机,积极培养本科生的大数据计算思维和认知能力,使其掌握大数据智能分析方法、机器学习数据挖掘工具和开发环境。政策导向分析方面:建议中国计算机学会与中国商业联合会数据分析专业委员会等机构紧密协调合作,设立适应新时代社会与经济发展的“数据智能分析师”认证[6],当然将大数据智能分析纳入计算机水平考试的可选项也是当前的一种解决方案,提高智能科学与技术专业社会认可度,增强本专业学生的归属感,更好地培养各层次的数据智能分析人才。

2创新型智能技术人才培养

智能科学与技术的发展与计算机技术几乎同时起步,但其进展比计算机技术要慢许多,根本问题在于高级智能的载体——“人脑”是世界上最复杂的系统,人类对它的认识和了解仍然处于初级阶段。近年来通过智能技术解决实际应用问题有了长足进步,国内已相继有20多所高校面向市场变化和未来需求,自2004年以来陆续开办了智能科学与技术本科专业。尽管大多数智能技术的理论基础还不完备,但实际应用的强劲需求与问题解决能力超越了薄弱理论基础的约束。本专业课程的教学内容与课程实践都适合教师与学生以研究者的身份参与到“教”与“学”的活动之中。1)研究型教学。蓬勃发展中的智能技术需要教师启发式、创造式、批判式地“教”,学生也要创造式、批判式地“学”。教与学要能够从研究思维、问题探索、模型改进、算法优化、脑认知和自然智能指导的角度推进教学活动,进行创新性教学和研究型学习。教学实践活动中应强调学生半监督式学习与自监督学习为主导,鼓励引导深度学习,经典案例、前沿讲座、讨论探索贯穿课堂教学,课程考核注重创新科技实践、问题探索、课程内容探索、课程研究性专题报告、以课程为基础的作品开发等创新效果和教学效果。2)“研究型分组”培养。智能科学与技术专业开办时间不长,成熟教材不多,课程体系需要不断适应学生和社会的需求做出调整,又加上智能科学专业课程本身的发展探索与实际应用现在处于同步发展阶段,决定了专业老师大力推进“研究型班级教学”,在教学过程中实施“大班基础讲授”+“小班研究型讨论”+“小组探索型课题实施与报告”的教学体系,同时来自相关研究方向的研究生也作为助教协助专业老师对小班(组)课题讨论进行引导。3)科研训练提高学习积极性。大类培养模式下实施科研训练引导学习,大一、大二年级主要学习公共基础课程和大类专业基础课程,其中的数学基础课,如线性代数、高等数学、概率统计、离散数学等,由于缺乏实际应用案例支撑,很多学生会怀疑这些知识在将来本专业学习中的用处,课堂课后处于被动学习状态,个别学生还会由于认识滞后,产生厌学情绪甚至放弃基础知识学习,以致于专业分流后表现为学习能力严重不足。通过吸收本科生参加科学创新实践和科技活动,使他们发现数学知识能够用来解决实际问题,有利于提高本科生学习基础知识的积极性,变被动学习为主动学习。同时,教师也能从中发现部分优秀本科生的创新潜力和研究能力,激发他们科学研究的兴趣,引导他们把智能科学技术作为研究方向并致力于攻读相关方向硕士研究生、博士研究生,进一步强化其科学创新能力,势必会使其获得高水平创新性成果。大类培养模式下强化专业教育与实践,专业老师要积极主动引导学生,变被动地等待学生选专业转变为吸引优质学生,以大二上学期为主要时间点,引导大类专业学生对特色专业的兴趣,通过科学研究和学生科技活动吸引选拔学生进科研团队,同时实施科研成果进课堂、进教材、进学生活动。专业教师、班导师可宣讲专业特色和就业前景,指导本科生申请大学生科研训练计划、参加科技竞赛、开发智能技术特色作品。大类培养模式下实施科研训练计划,需要本科生积极主动地理解大类下各子专业的特点和特色,结合自己的兴趣爱好和实际情况,在大类培养结束时分流到各特色专业。因此,本科生参加科研实践和专业科技活动的时间点很重要,从大一结束后的暑假开始,一直延续到本科毕业,同时实施“泛毕业设计”(即大二选方向并实施课题基础储备,大三实施课题,大四结合专业实习完善毕业设计)[3],这样既充分利用了本科生大二大三充裕的课后时间,也缓解了大四本科生面临就业、考研、出国等问题的突出矛盾。

3智能系统开发人才培养

智能技术已成为当前技术革命创新的源泉,智能系统广泛应用于工业、农业、服务业等各领域,比如2014年11月2日开始处女航的皇家加勒比邮轮公司“海洋量子号”邮轮也因为大规模运用了高科技智能系统而号称“世界上第一艘智能邮轮”。智能系统是建立在“智能技术+计算技术”基础上,结合了控制技术、信息技术的软硬件系统。智能系统开发人才培养目标是社会急需的智能系统开发工程师,其从事的工作主要包括智能系统的设计、开发、维护、运营、服务及相关的技术指导。为了适应智能系统开发人才的培养,应该建设智能终端实验平台、计算智能实验平台、脑认知实验平台、高性能计算平台等人才培养基地与实训基地,推进实施智能终端软件开发技术、智能系统应用课程设计、智能系统与工程课程设计、智能游戏开发与设计、人机交互系统开发与设计等教学实践活动。

4复合型智能技术人才培养

智能科学与技术是一门综合学科,智能技术也广泛应用到智能交通、智慧城市建设、电子信息、信息安全、电子政务、电子商务、工业制造、教育、医疗、管理、农业现代化、国防现代化等众多领域,需要大量复合型智能技术人才。笔者认为,以下4条措施是智能科学与技术新兴专业培养复合型人才切实可行的培养方案:①充分发挥大类培养特色明显的人才培养优势,开放“全校特色专业选修课”,跨专业、跨学院科教团队,与大学生科技创新计划融合,重点培养学生的综合性、复合性、应用性;②引导并严格要求B学分课程学习,特别是设计规划实施好“科技创新”、“文体活动”、“技能认证”、“企业实习”、“暑期社会实践”等综合能力提高计划;③交叉融合办好本科生二专业,鼓励学有余力的本科生对知识的渴求,允许学生在本专业的基础上再辅修另一个专业,并提供配套措施,保证二专业学生能获得优质教育,发挥学科交叉融合优势,使本科生形成宽广深厚的知识结构,培养有特色的智能科学技术专业复合人才;④通过与企业横向合作,建立校企实训基地,紧跟企业和市场需求,与企业联合培养复合应用人才。

5结语