时间:2023-05-29 18:25:36
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据分析的前景,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
随着数据的爆炸式增长,“大数据”一词受到了越来越多的关注,很多领域已经开始应用大数据。大数据技术不仅能应用于数字出版中,在传统的纸质出版中也有应用前景。本文拟以医学出版为例,探讨大数据时代下,医学出版选题策划的思路转变,以及面临的问题与挑战。
一、大数据时代素描
“大数据”是人们给信息爆炸所产生的巨量数据起的一个简单的名字。一方面,这些数据蕴藏着巨大的潜在价值,人们迫切需要更先进的技术,对其进行实时处理;另一方面,技术的进步,包括云计算、分布式计算等方法的应用,极大地提升了信息处理能力,提供了广阔的研究空间,使大数据分析成为可能。
很多人认为“大数据”就是指数据量大,这是一个误区。大数据的本质是发现和理解了信息与信息之间的关系,是思维的变革,而这种变革主要表现在以下三方面。首先,大数据强调的不是随机样本,而是全体数据。为了实现“全体数据”,需要我们尽可能多地搜集、保存与行业相关的各类数据和信息。其次,大数据时代,人们不再一味追求精确,而是承认混杂性。因此,人们需要对于非结构化数据给予更多的关注。也就是说,我们不仅要关注图书销量、读者群构成、直接反馈;也要关注鼠标点击、驻留在一本书的时间,后续购买、关联购买情况,购买地点等。这些看似杂乱的信息,可能蕴藏着巨大的商机和价值。再次,大数据不再追求因果关系,而是关注事物之间的相关性。例如,沃尔玛通过数据分析发现,在飓风来临的季节,不仅手电筒的销量增加了,某一种牌子的蛋挞的销量也增加了,因此,沃尔玛在飓风季节来临时,将库存的蛋挞摆放在靠近手电的位置,以增加销量。在医学出版中,我们也可以通过数据分析,找出与读者的购买行为或阅读需求相关的要素。
二、大数据在医学出版选题策划中的应用前景
1. 教材出版
各个出版社都很重视教材出版。不管是新编教材还是修订教材,调研都是启动编写的基础。教材调研,需要先搜集开设本专业学校的名单,逐个寄出调研函。学校的名单主要来源于相关学会、教职委、行职委提供的资料,但需结合前一版教材或相关书籍发货的省市分布数据,有些时候这两者有较大出入。例如,提供的名单中,河南省没有学校招生,但出版社前三年的发货资料中,河南省每年的教材发货数很大。另外调研函发出后,回收也存在一定困难,通常只能做到部分回收。正因为学校的名单很难搜集齐全,调研函也不能全部回收,这种传统方式上的调研,虽然力求全面,但仍是一种抽样调查,很难涵盖整个行业的样本量和全部信息。
在大数据时代,一切都可以被数据化,大数据强调的不是抽样样本,而是全体数据,因此将数据分析引入教材调研,可以对互联网上有关专业的开设省份、招生学校、招生人数等信息进行分析,得出更全面的数据分析报告。在教材修订、搜集反馈意见时,也可以通过搜集论坛、网购机构的销售记录、读者评论等,分析需要增加、删减及修改的内容。在遴选主编、副主编及编者时,编辑同样可以通过分析网站上的会议情况、会议日程、发言频率和题目、各领域专家的专业特长,确定其学术影响,以及在教材中适合担任的角色,并将这些信息形成分析报告,供决策者参考。
2. 学术专著
在传统出版模式下,学术专著的选题方式属于经验型,由策划编辑提出选题,报出版社选题会讨论。选题委员会由社领导、经验丰富的老编审、生产及销售部门负责人等组成。选题会上讨论的依据主要是以往选题的销售情况及市场反馈,当前市场同类书的情况,以及其他出版社类似图书的销售情况。这种选题论证方式所参考的数据,只是整个出版市场数据的一部分。而利用大数据,人们可以获得整个医学图书市场的书目信息、销售情况,并进行分析。通过数据分析得出的报告,可以形象地理解成一批有无限经验的策划编辑、生产人员和销售人员讨论后得出的结论。理论上,这种论证模式更客观、更有说服力。
现有的医学相关网络社区、数据库的资源已经十分丰富,通过对诸如丁香园医学论坛、中国期刊网(CNKI)、PubMed等的搜索记录、浏览记录、用户留言,以及对亚马逊、当当网的专业图书购买记录的分析,可以筛选出各个专业领域的热点,并对相关用户的地理位置、年龄、职称等信息进行分析,准确定位读者人群,并预测市场容量,为图书选题提供参考。
3. 应急出版
应急出版对于医学出版社来说是一个很重要的部分,在遇到较大的公共卫生事件或异常天气时,公众很需要专业出版社出版的相关预防书籍普及防范知识,医师也需要专业书籍补充相关知识,专业出版社有义务为他们提供高质量的出版物。例如人民卫生出版社在2003年“非典”暴发时紧急出版的SARS诊治、防范等方面的图书,以及在2013年出版的《实面“霾”伏――“雾霾”中的生活与健康》。如果等到公共事件或异常天气已经暴发再组织编写,出版时间容易滞后。
大数据分析在应急出版方面将会有明显的优势。例如,谷歌公司通过对检索词条的分析,提前几周时间预测甲型H1N1流感爆发。这个案例对于应急出版是一个很好的启示。编辑可以通过类似的数据预测方式,如在流感暴发前,即组织编写流感预防及治疗相关的书籍。再如,如果能够通过网络的搜索词条,或者同诸如中央气象台等单位合作,共享数据库,提前预测会有严重雾霾天气出现,就能提前组织专家编写,为书籍出版赢得宝贵的时间。同时,可以通过搜索频率预测印刷册数,避免过多的库存。
三、医学编辑应对大数据时代的策略
1. 医学编辑应做好基础工作
一是立足自身,做好医学编辑出版的大数据基础工程建设。例如进一步实现网络化、电子化和标准化,为实现大数据的应用打好基础。只有将出版物网络化、电子化,才能使与出版相关的信息和数据成为可以搜集的资源;大数据技术可以分析杂乱的数据,数据的标准化可以为数据分析提供更多便利。
二是学习借鉴,建立基于云计算等先进信息技术的新型工作模式。例如民生银行开发的小微金融数字地图平台,通过这种地图将数据可视化,由此提供相应的信息分析、营销实务等服务。出版社如果建立类似的平台,将销售数据可视化,就能为选题策划工作提供更多的服务。
三是寻求协作,引接信息产业界力量。例如一些新兴的提供数据分析技术服务的公司,同它们积极合作开展大数据分析研究工作,推动研发基于大数据的智能选题策划系统。
专注大数据咨询服务
Think Big公司是Teradata于2014年9月并购的大数据服务公司。Think Big公司联合创始人兼国际业务高级副总裁里克・法内尔(Rick Farnell)介绍,成立于2010年的Think Big公司专注于开源数据服务,其愿景是帮助客户运用新的开源技术,与现有技术优势互补,从各种类型的数据中挖掘分析价值。
Teradata大中华区首席执行官辛儿伦(Aaron Hsin)介绍,自从成立以来,Teradata在过去40多年中一直专注做好一件事,那就是数据分析。Teradata帮助客户通过有效的数据分析获得业务洞察力,从而实现业务增长,提高利润,为客户提供更好的服务。
他强调,在过去的5到10年里,开源技术的发展和广泛运用,使得半结构化、非结构化数据分析成为可能。为此,作为数据分析领域的全球领导者之一,Teradata积极跟进,除了自身研发以外,非常开放地融合优秀的开源数据分析技术,并形成了高效的统一数据架构(UDA)。据悉,Teradata 统一数据架构整合了Teradata 数据仓库、Teradata Aster大数据探索平台和开源Hadoop。
辛儿伦认为,在大数据生态系统建设中,客户认识到需要整合不同技术架构的优势,特别是在已有数据仓库系统中融合开源技术,需要更好的工具来管理、访问和利用这些平台,尤其是需要具有实际经验的团队来指导Hadoop等复杂的开源系统的延伸部署。随着客户开始应用,或者开始尝试应用诸多不同的技术架构或版本,它们面临着很多技术选择和路线图规划等实际问题,这往往会导致项目偏离既定的大数据战略目标和业务目标。
“随着各种规模的企业在落地大数据战略时选择不同的开源分析系统,客户对开源系统咨询服务的需求快速上升。我们致力于实现最新开源技术同现有成熟技术的优势互补,借助我们优秀的数据科学家、数据工程师和咨询团队,帮助全球的客户更快速、高效和便捷地获取大数据价值。”里克・法内尔表示。
据悉,目前包括Intel、Facebook、NetApp、纳斯达克(NASDAQ)、美国运通公司(American Express)和eBay等在内的知名企业,均是Think Big公司的客户。正因为如此,Teradata收购了Think Big公司。
“Teradata拥有完整的大数据分析生态系统,借助统一数据架构实现Hadoop等开源分析系统、Teradata Aster大数据探索分析技术和数据仓库环境的完美整合。”辛儿伦说,“借助Think Big专业的咨询服务,Teradata将能够向客户提出多元化大数据的卓越咨询建议,降低大数据分析系统部署和应用的难度,进一步强化统一数据架构的优势,推动大中华地区客户数据驱动转型的实现。”
提供四大核心服务
记者在沟通会上了解到, Think Big在大中华区将广泛支持厂商中立的开源解决方案,根据客户实际的业务需求,推荐基于现有技术和解决方案的最佳技术和方案组合。Think Big致力于帮助客户通过应用最新数据分析技术来获得大数据的价值,提升竞争力和利润。其核心咨询业务包括:
其一,大数据战略咨询服务。根据客户业务需求和战略目标,制定符合企业需求优先等级和能力的大数据战略,帮助企业更快地获取大数据价值。里克・法内尔认为,现在很多客户制定大数据战略时有个误区,就是尽可能采用最新的开源技术,事实上企业应该先考虑建立一个平台,然后在这个平台上建立、充实相关的能力。辛儿伦介绍,Think Big可给客户制定一个为期6周的启动数据分析应用的路线图,帮助客户确定流程和数据选择的优先级,及其对业务的影响,并帮助客户构建最佳数据架构;在此基础上,还可给客户提供为期12个月的发展路线图,其中涵盖Think Big的方法论。
其二,数据工程服务。根据客户的业务目标,设计、开发和交付最适合的解决方案,提供现有分析架构优化和数据湖治理等服务。Think Big可提供数据湖的优化服务,以满足客户对生产系统、生产环境的数据服务需求。
其三,分析和数据科学服务。通过广受认可的数据分析方法论,帮助客户解决现存的业务问题,通过创新的数据分析方法,发掘全新的业务机会。
其四,管理服务和培训。提供大数据分析系统的管理和优化,助力企业提高数据分析效率和洞察力,通过各种形式的培训帮助企业真正获得能力,提高数据和分析系统的采用和普及。人才短缺是客户应用大数据的一大挑战,而Think Big特别重视大数据战略和专业技能的培养,尤其强调培养优秀的团队是大数据战略的最佳实践。Think Big拥有强大的专家团队资源和“Think Big大数据学院”,致力于为客户和合作伙伴提供全面的人才培养服务,通过授人以渔的方式帮助企业实现数据驱动的业务成功。
已经有具体项目在开展
辛儿伦表示,Teradata在大中华区推出Think Big的全面服务,不仅体现了公司对高速发展的大中华区市场的重视,而且反映出客户对Teradata和Think Big服务和能力的高度认可。
“自从有了Think Big团队之后,客户跟我们合作得更加紧密了。”辛儿伦表示,Teradata已经在华发展了20多年,积累了很多合作时间长达15年甚至20年的客户,Think Big的业务能够让Teradata引入更多开源技术和解决方案,帮助客户解决更多的业务痛点。
辛儿伦非常看好Think Big在中国市场的前景。他透露,尽管Think Big的业务刚引进中国,但是用户对相关业务的需求却非常迫切,Teradata已经获得了多个行业的客户合同,并且已经有具体的项目在开展。
电商营销。营销策划。大数据分析。
的大数据分析基于现代社会中成熟的商业系统和日益成熟的电子商务系统。在整个电子商务社会体系中,消费者将逐步完成从传统消费行为到对电子商务的理解和热衷的转变。在此过程中,大数据分析对消费者的心理特征和行为逻辑进行统计分析,并形成相关结论。为了在未来的业务发展中取得进一步的发展,电子商务营销必须把握大数据的特点进行分析并实现合理的应用。
。在2019年的天猫“双11”购物嘉年华中,11月11日,全球消费者在淘宝网电商平台上购物,仅在凌晨96秒的时间内就在人民币完成了100亿元的营业额。这些数据的背后,反映了电子商务营销对现代消费者心理和消费行为的准确把握指导。在中国电子商务发展过程中,逐步完成了第一代消费者进入电子商务平台的培训。这意味着国电商平台大学的建设已经进入了一个相对稳定的发展时期。当“数量”不再是电子商务营销的焦点时,如何确保电子商务平台提供的商品和服务的“质量”已成为下一个潜在的出口。
毫无疑问,中国电商平台近年来的突破和快速发展是惊人的,但在这种发展的背后,仍然存在许多问题电子商务平台在商品质量、服务准确性和消费者需求控制方面有提升空间。在国内电子商务普遍反思自身营销质量、优化策略的情况下,大数据分析已成为当前背景下电子商务营销领域中一种适用性较高的应用技术。
2.1实现了目标受众的第一次模拟考试。在传统的电子商务营销过程中,
通常被视为从单一企业到庞大消费者的扩散型销售。然而,在模式判断中,很容易忽视电子商务本身在调节产品质量、价格和销售组合方面的灵活性。“电商营销是代表海盗,销售广泛,盲目追求销售”大数据分析可以帮助电商在平台上搜索、收集、浏览、购买和售后的全过程中比较各类消费者行为信息的细节,使电商平台能够完成对平台上巨大消费流的宏观调查,最终确定待营销商品的目标受众形象。Sri Lanca 2.2促进服务的准确交付。在
·
的电子商务营销活动中,最重要的是优化售后服务链。如何提高用户对产品的满意度,降低用户对电子商务营销的警惕性,有效降低用户的产品退货率,正是传统电子商务营销规划师在电子商务结束时所坚持的,大数据分析从源头上提供了另一种解决方案,即:,通过对消费者心理预设和消费习惯的分析,明确适合每个消费者的产品和服务类型,从而增加电商平台上的产品和服务与消费者的对应,也就是减少消费者的“试错”提高电子商务平台服务质量所需的时间成本。
23。有利于产品效果的长期跟踪。在
,长期以来,电子商务产品一度被公认为“效果夸大”的代表还有长期价值低。电子商务营销也被认为只重视诱惑和招揽,而忽视了后期的产品质量跟踪。大数据分析只是为电子商务平台提供了一个跟踪产品效果的工具。消费者完成购买行为后,通过各平台消费者活动和行为的变化,分析消费者对产品效果的满意度,并根据消费者满意度的量化评价,完成产品效果的评审和下一步迭代计划的制定,有利于电子商务经济的长远发展。
3.1关注消费者保留率的统计
在传统的传播和营销策划中,我们经常关注链接或广告的点击率和点击转化率的统计,相信电子商务经济通过大规模流失互联网用户群体实现贸易优化。但是,随着消费者网购体验的深入,点击一次与最终购买的直接联系逐渐减弱,消费者越来越关注电商平台上的商品质量,这也意味着大数据分析的方向需要挖掘消费者购买行为背后的新逻辑关系。消费者保留是指消费者点击一次电子商务产品后,选择点击两次进入商户的店铺或进入同一商户的另一商品链接,最终完成关注或收集的过程。这一过程意味着消费者通过自己的体验和判断,已经认识到电子商务平台的营销,并完成了对相关商品的价值感知。在消费者保留率统计中,我们必须使用大数据统计来比较消费者在每个页面上的评论偏好以及不同图片和信息的浏览时间,从而判断消费者是否成功理解和同意预设的电子商务营销策略。在这一过程中,大数据分析不仅成为企业了解目标受众特征的工具,而且成为电子商务的重要工具自我营销策略是分析电子商务营销策略优缺点的工具,有利于电子商务营销策略的进一步调整。
3.2分析消费者偏好和挖掘潜在消费热点
在电子商务平台上的运营基本上可以及时切入和分析。例如,以自由鱼APP的rudder UI设计为例,电商平台已经完成了每个功能块的内容划分,消费者进出功能模块的时间记录可以作为消费者对该类产品偏好的有效参考。同时,结合搜索引擎在电子商务平台数据库中的应用,可以记录消费者输入的相应关键词,使电子商务能够进一步控制消费者在一定类型下的产品特性需求方向。例如,一个25岁的白领可以输入保暖、隔音办公等关键词,电商平台可以得到“白领-隔音办公、保温操作、高性价比-隔音盖耳式耳机”的营销理念。通过对同类型消费群体的行为比较,可以推断出该消费群体未来消费需求的发展方向,为电子商务营销策略和产品迭代开发提供可靠的依据。
3.3阐明了消费者个人需求的重要性。
-
-大数据分析绝不是一刀切的“数据网络-整体考量地区”。其实质在于对无限个个体数据进行有效叠加分析,然后通过各种数据之间的比较完成宏观分析。这也决定了大数据分析应用于电子商务营销后,企业必须关注消费者的个性化需求,避免因牟利心理造成的盲目调整行为。例如,当数据分析显示有大量消费者也购买衣服时衣架在购买热水杯时,不能将其捆绑促销,以吸引新的消费热点。消费者的购买行为是复杂的。企业越是使用大数据分析统计消费者行为,就越需要客观看待消费者在消费过程中的各种特征,在分析相似消费群体共性的同时,分析消费者的个性化需求,避免对群体消费需求的误判,导致错误营销策略的出现,使大数据分析指导下的电子商务营销始终处于灵活、灵活的营销状态。
。大数据分析为其提供了从数量到质量改进的可能性。企业必须对目标受众的消费行为、消费习惯和消费心理进行有针对性的分析,调整营销策略,实现营销目标,同时提高电商品牌的美誉度,实现企业与消费者的双赢。
引用
[1]徐丽的新著作。CRM分析与大数据背景下的电子商务前景[J]。现代营销(下一期十天版),2017(06)。
[2]王振江。大数据环境下电子商务精准营销策略分析[J]。经济特区,2018(06)。
[3]张龙辉。大数据背景下电子商务企业个性化精准营销策略研究[J]。辽宁科技学院杂志,2019(03)。
科学评测
《网络传播》:能否请赵总简单地介绍一下CR-Nielsen的背景状况?
赵舸:大家对华瑞网标这个名字可能还有些陌生,但如果提到华瑞网标的合资方以及合作伙伴的话,想必大家就都很了解了。华瑞网标(CR-Nielsen)是国际领先的市场咨询公司――尼尔森集团旗下负责在线业务的中国合资公司,CR-Nielsen的数据合作伙伴是中国网站排名网(.cn)。依托如此雄厚的背景和丰富的资源,我们对CR-NetRatings的市场前景有着充分的信心。
《网络传播》:提到新推出的CR-NetRatings这个产品,赵总能否介绍一下?
赵舸:准确地来讲,我们新推出的CR-NetRatings这个产品的内容不仅限于提供网站排名的数据,更多的则是数据分析方面的服务。
大家部知道,针对网站排名方面的数据,目前国内有很多数据研究机构都有涉足,但是在数据分析服务方面,整个行业当前依然面临着缺少有权威、公正、科学的数据分析服务提供者的局面。CR-NetRatings新产品的推出,彻底地打破了这个局面,为中国互联网行业的快速、健康、可持续发展,提供了贴心的服务。
《网络传播》:既然这样,那么CR-NetRatings这个新产品中,都包括哪些数据和相应的数据分析服务内容呢?
赵舸:CR-NetRatings当中,共有七个大的功能模块,分别为网站全国排名、流量趋势分析、用户重合度分析、人口特征分析、目标群体匹配分析、网站省级排名和网络应用市场分析。从指标上来看,CR-NetRatings中提供了包括UB(独立访问用户)、TS(总访问次数)、UB Freq(访问频率)以及ASD(平均访问停留时间)在内的多项指标,这些模块中使用的各种数据指标,完全符合了国际上通用的指标定义,从定义上严格把关。此外,无论是对于网站主还是网络从业人士而言都有着很重要的意义。
《网络传播》:据我所知,NielsenOnline有一个类似的产品叫NetRatings,那么此次这个CR-NetRatings和它有什么区别和联系呢?
赵舸:CR-NetRatings和Nielsen在各种指标的数据当中,还提供了网站的全流量和样本流量的各自状况,方便用户进行对比分析。
以“网站全国排名”这个模块为例,在这个模块中,用户可以选取“按品牌”、“全部排名”、“分类排名”以及“分类总体指标”等多个方式来定制自己需要的网站排名数据。此外,数据分析的时间段落也可以自行设定,用户可以查看周报、月报或季报等多种报告模式。使用这些功能,用户不仅可以查看到某个品牌网站下的各级子站点的流量数据明细。还可以查看到某个时段内各行业网站的总体流量数据状况以及变化程度等多种信息。
这些只是一些相对简单的数据服务,CR-NetRatings这个新产品中涉及到的数据分析服务还包括很多,其中很有特色的一个就是“人口特征分析”,在这个模块中,用户可以分析访问某网站用户的具体状况、与目标客户群体之间的差异和重合度等,这些分析Online在海外现有的NetRatings之间有着一定的联系,CR-NetRatings是在NetRatings的基础上,针对国内互联网行业和网站主的需求,加入了本土化的数据以及更契合国内实情的数据分析服务之后,整合而成的一个新产品。在CR-NetRatings当中,我们加入了国内的网络数据,在充分了解国内网络流量以及互联网从业者需求的基础之上,根据国内互联网行业的现状设计了全新的分析计算体系,它集国际上先进的数据分析方法和本土化的现状为一体,能够更好地为中国互联网从业者提供服务,促进中国互联网行业健康而又快速地发展。
《网络传播》:CR-Nielsen采用了哪些手段和方法来确保数据和分析结果的权威性、公正性和科学性呢?
赵舸:很高兴你问到了这个问题,实际上,这也是目前国内互联网数据分析行业当中普遍存在而又难以解决的一个问题,
首先,我们知道,数据采集工作是数据分析的基石,否则再科学的算法也只能是无米之炊。CR-NetRatings的数据首次采用了三位一体的模式,这三种数据获取模式包括:Toolbar客户端数据、在重点网站加码以及部分sP运营商提供的原始流量数据。我们在分析过程中将这三个渠道所获取的数据进行对比分析,打破了单一数据采集模式,从而保证了客观、科学的分析结果。
其次,科学的统计算法是数据分析行业的核心。作为在数据研究市场上有着80多年历史的公司,尼尔森集团拥有成熟的统计方法论与算法,而华瑞网标也对CR-NetRatings做了大量的本地化开发工作,以适应中国市场的需求。很多人通常会把数据分析等同于数据统计,实际上这是一项结合了行业经验、专业知识、本土化开发的综合业务领域。如果仅仅是算数并不难,但要是涉及如何建立模型、如何判断原始数据的偏差、如何从统计结果中发现规律、如何积累出新的算法结论等问题时,就需要有雄厚的专业知识和技术经验为基础,才有可能完成,而这些恰恰是CR-Nielsen最宝贵的财富之一。
最后,在数据分析过程当中,审核管理机制是客观、公正的保障。做排名分析既是引人注意又是容易引发争议的事,所以公正与客观是我们的命根。恪守职业道德是做这一行的基础,科学的审核管理流程则是客观保障。在中国做排名分析是一场博弈,其中涉及很多因素。技术可以提高审核效率和准确度,但无法代替科学的管理流程。为了保证对分析过程不受干扰以及对数据的异常变化做成正确的判断,CR-NetRatings在数据收集、统计、三个环节相互独立、相互制约,任何一个环节发现问题立即封冻数据,宁肯推迟或者不数据,也不会让错误的分析结论流向市 场,从而又为数据和分析结果的权威、公正、科学加上了另外一层保护。
挖掘价值
《网络传播》:目前国内有很多公司和很多专家一直在为人们提供数据分析服务,对数据分析也有一些了解。您对数据分析服务的方法和用途有哪些见地?能否举一些实例来进行说明呢?
赵舸:很高兴知道如此多的人对数据分析这项工作如此感兴趣,在这里我就以广告主制作网络广告投放策划这个例子来与大家交流一下数据分析方面的心得和体会吧。
我们知道,在广告行业中有这么一段名言――“Half of my advertisingbudget is wasted,I just don't know whichhalf.”(我花在广告上的钱有一半被浪费掉了,糟糕的是,我不清楚是哪一半。)但是,就算我们知道了钱浪费在哪里,又能怎样呢?很多时候,对于广告主而言,不得不白花这些钱。其原因就是因为很多广告主还没有意识到广告投放是一份技术含量很高的工作,忽视了“分析”这一重要的步骤。在很多人的观念中,广告投放工作目前还只停留在看看媒体情况,听听广告公司意见,抓抓广告创意这种浅层次水平上。
实际上,广告投放的过程,需要我们依据客观的依据,参照精准的数据做分析,理性地制定出投放策略,再进行详尽的效果监测。目前很多广告主都忽视了广告投放过程中重要的分析工作,或者他们分析工作做得还不够透彻,不到位。
本行业广告状况如何?竞争对手的广告怎样?我要花多少钱做广告?我该在哪里做广告?我该做什么样的广告?我做的广告效果如何?在确定要投放网络广告之后,这些便是随之而来的一系列问题。如果将这些问题按照类别划分,我们可以将它们归结为以下几种情况:本行业广告投放分析、同行业竞争投放分析、投放预算分析、广告创意分析以及广告投放效果分析。问题已经确定,接下来的任务就是逐个细化并解决这些问题。
首先,本行业广告投放分析中除了需要了解整体广告投放趋势之外,还要知道目前广告的形式、活动以及投放平台分布情况。
其次就是分析竞争对手的广告投放行为,从大到小,从行业分析细化到直接会影响到自己的竞争对手身上来。
接下来,就是广告投放预算了,本行业中都有哪些大的网络广告主,他们的广告花费怎样?竞争对手花了多少钱做广告?参考这些数据,再对比自身需要达到的目标和实际状况,我们就可以预估出自己的广告投放预算。
想必大家都会想到,再往下的工作就是要决定在哪里做广告,做什么样的广告,做多少广告等实际问题了。在选择投放媒介的问题上,我们不仅需要考量目前的客户群,还要考虑不同媒体之间的用户情况差异,将这些差异量化,以数据来辅助决策的制定。至于广告创意的问题,我们可以将行业内和竞争对手的优秀广告创意汇集起来,进行综合的分析,根据自身、媒体和竞争对手的状况,决定特定的广告创意及形式。
最后的工作就是对广告投放效果进行详尽、科学的评估分析。虽然这项工作看似很简单并且很繁琐,但是这些工作却对日后广告投放工作有着很大的帮助。
《网络传播》:在听过您的介绍后,我才发现原来我对互联网数据分析行业还如此地不甚了解,那么能否问一下赵总,您为什么会想起做互联网数据分析服务这个行业呢?
赵舸:随着中国互联网行业近几年的快速发展壮大,各种新鲜的网站以及各种全新的网络服务模式层出不穷,伴随着中国互联网行业的快速发展,针对权威、公正、科学的第三方数据监测服务需求的呼声也越来越高。我们知道,一个行业的快速发展,特别是新生的互联网行业的快速发展,无论是国家还是业内人士,都需要用到相应的数据分析服务,来对整个行业的发展现状加以评定,同时,还可以根据针对这些数据的分析,结合国内外此行业的发展历程,来对未来这个行业的发展方向和规模有一个清晰地认识。正是出于此种原因,我们才会瞄准这个市场,适时地为中国互联网行业的提供权威、公正、科学的数据分析服务,实际上,我们所做的工作都是在为促进中国互联网行业发展而努力。
计算机审计是一种以计算机为先进的审计工具来执行经济监督、鉴证和评价职能的审计方法。我国相关部门曾经对计算机审计作如下描述:“简单地讲,计算机审计包括对计算机管理的数据进行检查和对管理数据的计算机进行检查。”根据日本会计检察院计算机中心的观点,计算机审计有两方面的含义:一是对计算机系统本身的审计,包括系统安装、使用成本,系统和数据、硬件和系统环境的审计;二是计算机辅助审计,包括用计算机手段进行传统审计,用计算机建立一个审计数据库,帮助专业部门进行审计。 李学柔和秦荣生编写的《国际审计》中作如下定义:“计算机审计与一般审计一样,同样是执行经济监督、鉴证和评价职能。其特殊性主要在两个方面:一方面是对执行经济业务和会计信息处理的计算机系统进行审计,即计算机系统作为审计的对象;另一方面,利用计算机辅助审计,即计算机作为审计的工具。概括起来说,无论是对计算机进行审计还是利用计算机进行审计都统称为计算机审计。”至于电算化审计与计算机审计在内涵上人们的理解基本相同。
可见,对“计算机审计”一词的理解普遍存在两个方面,即对计算机进行审计和利用计算机进行审计。1 计算机审计理论文献综述 国内学者对计算机审计的研究是多方面的,从计算机审计理论到具体的计算机审计技术都有研究。
在计算机审计理论研究方面,傅元略在《会计发展的新领域——Cyber Accounting(计算机网络会计)》中提出了计算机网络会计的概念,以反映会计电算化的发展趋势。吕博的《在信息技术环境下审计理论的基础研究》从信息技术环境下审计理论基础的认定分析入手,对审计理论基础与审计理论以及审计基础理论之间的辩证关系进行了探讨,并分别就信息技术环境下审计理论基础的特点、内容和研究方法加以综合论述等。来明敏在《浅谈计算机审计模式》中介绍了可以从国际上借鉴的四种计算机审计模式,分别是绕过计算机审计模式、穿过计算机审计模式、利用计算机审计模式、在线实时(网络)审计模式;并认为应寻找对策,从促进审计人员更新观念、积极应用审计新技术、大力培养计算机审计人才、加快计算机信息系统环境下审计准则的制定、规范会计软件设计,以及加大审计软件开发力度等方面努力,尽快建立新的审计模式,从绕过计算机审计转变为穿过或利用计算机审计,最终建立在线实时审计模式,加快我国审计现代化进程。唐飞兵在《关于构建我国计算机审计理论体系的探讨》中系统地阐述了计算机审计理论体系的整体框架及各组成要素之间的相互关系,详细地分析了审计环境和审计本质作为计算机审计理论逻辑起点的合理性,并对计算机审计基本理论内部层次关系的构建进行有益的探讨。
也有不少学者在审计的技术应用方面做了研究。譬如,黄永平提出在计算机审计中,利用孤点分析法进行数据挖掘,发现一些特殊现象,比其他数据挖掘方法发现一些规律性的知识更有意义。何玉洁等在《计算机审计中的数据库技术》中介绍电子数据的特点开始,讨论SQL查询和OLAP分析这两种技术在实际审计中的应用成果,展示它们在计算机审计实践中的特性和前景。
此外,学者们还对计算机审计的其他方面进行了研究。陈峰在《计算机审计方式下的数据分析报告》中分析了数据分析报告的作用及其必要性,并对数据分析报告的基本框架作了数据分析报告的文档结构,就其要素内容做出了规范建议。还分析了当前审计实践中对存在的一些认识上的误区,并就规范撰写数据分析报告的行为提出“制度形式对数据分析报告加以规范”和“审计组的讨论和审核来保证数据分析报告质量”的建议。罗莉等在《计算机审计中内部审计与外部审计的分工协作》中认为,尽管计算机审计内容、方法与手工审计有很多不同之处,但从性质、目的、职能等属性看,并没有本质区别。由于信息技术具有很强的渗透性,很难将计算机审计与具体审计业务分离出来,因此,计算机审计不可能独立于内部审计与外部审计之外。本文从审计主体的角度,综合考虑计算机审计的界定,提出在计算机环境中内外部审计既要分工又要协作的观点,并分析了分工协作的原则、内容等相关问题。赵辉在《计算机审计方式下的人员资源管理》中提出,在计算机审计方式下,一个单位的管理除了培养良好的单位文化,进行各种规章制度的建设之外,如何对审计人才进行管理,以适应这种革命性的变化显得至关重要;而对审计人员而言,又应该如何加强自身的素质,提高自身的能力,适应计算机审计的需要,这是一个亟待探讨的问题。 注册会计师审计风险的成因与对策探析
浅析风险导向审计理论在我国的运用
关键词:民办院校;法学教学改革;机遇
一、“大数据”简介
大数据给法学教学带来了对于如何分析学生学习情况的全新认知方式。
二、大数据为民办院校法学教学改革带来的新的发展机遇
民办院校的教师师资力量弱,学苗差,学生考研率低,就业率低。长春财经学院在法学教学改革中,引入翻转课堂教学模式。而大数据作为一种新的研究方式,可以为翻转课堂提供更好的数据分析。(一)辅助提升法学学情分析。利用大数据可以从海量的数据分析中,提供教学需要的学生学习情况的信息。促进教师进行教学改革,提升教学效率。1.大数据对学习过程进行监控大数据则可以通过对学生线上学习过程进行监控,为教师提供数据帮助教师掌握学生学习情况。如为了防止学生观看视频的学习过程中有偷懒行为,保证学生学习的效果以及成绩的真实性,超星等网络平台也采用了许多新的手段。2.大数据对学生学习效果提供统计数据大数据可以帮助教师对学习效果进行统计。如,提供随堂测验的统计数据等。在教学实践中,如何对学生的学习效果进行合理的评价,仍是一个需要进一步改革的问题,尤其是采用翻转课堂教学模式下。(二)辅助配置教学资源。大数据可以辅助教学资源的优化配置。在当前的教学改革工作中,要注重大数据的分析,特别是对于学情的分析,确保教学改革取得应有的效果。通过利用大数据对学生学习情况进行分析,查找规律,辅助教师评估每个学生的学习质量、效果及学习的困难点,从而合理分配教学资源。(三)促进教师和学生的良性互动。在网络信息时代,学生对于知识的需求量越来越大,社会对于学生的能力的要求也越来越高,要求上岗即能上手,因此,学生需要真正能够利用所学知识解决问题。而大数据可以更好的促进二者关系的良性互动。
三、大数据时代民办院校法学教学改革面临的主要挑战
在大数据时代,法学教学改革迎来了新的问题。当前,法学教学改革中面临着许多与大数据时代相关的挑战,其中较为典型的问题包括如下几个方面:(一)大数据对真实学情的掌控上,仍需完善。目前,超星尔雅平台已经建立起了教学互动平台,利用大数据对学生的网络学习过程及效果,及时进行统计分析。然而,在实践中,依然存在大数据无法掌控的问题,如不能真实的反映学生的学习效果。(二)如何运用大数据分析学情,仍需论证。目前,大多数的教师认为,目前大数据可以作为学情分析的参考,如分析学生的学习习惯,但不能以此作为认定学情分析的标准。综上,在不断的深入法学研究的方方面面,大数据为法学研究提供数据参考,也为我们法学教学提供数据分析,为法学教学的现代化提供有益的辅助支持。我们要提升重视现代化科技力量的运用。利用大数据对海量数据分析、整合,从而发现学生学情的新规律,提升法学教学水平,在运用大数据时,需要注意数据固有的局限性,对数据分析进行恰当合理的利用。
[参考文献]
[1]JohnGantzandDavidReinsel,“ExtractingValuefromChaos”,IDCiView[J],(Jun.,2011),pp.1-12.
【关键词】大数据 聚类分析 行为分析模型 CELL ID OD调查
中图分类号:TP391 文献标识码:A 文章编号:1006-1010(2014)-13-0038-04
1 大数据发展现状和发展前景
1.1 大数据发展现状
大数据(Big Data)具有4V特征,一是数据体量巨大(Volume),数据正在以指数级速度增长,一些行业每天产生的数据量达到TB级;二是数据类型繁多(Variety),包括以文本为主的结构化数据,以音频、视频、图片、地理位置信息等为主的非结构化数据;三是价值密度低(Value),以视频为例,在连续不间断的视频监控中,有用数据可能仅有一二秒;四是处理速度快(Velocity),这是大数据区分于传统数据挖掘的最显著特征,面对海量的数据,处理数据的效率非常关键。
近年来,大数据应用随处可见。谷歌通过分析人们在谷歌的搜索关键词,提供再捕捉服务,通过这种服务谷歌每年可以获得10亿美元的收入,亚马逊通过对其平台上互动交易的数据进行挖掘,使其在交易当中获得更好的收益。多国政府部门将大数据技术应用到便民服务和政府执法领域,例如当一辆套牌车开往某个停车场,基于大数据分析的车牌识别系统可以很快通知最近的交警前往执行处罚,交通部门开放运营车辆GPS数据,向市民道路实时路况。
1.2 大数据的发展前景
随着技术创新和行业需要的推动,大数据产业已步入了快车道。IDC报告称,在中国,与大数据建设相关的硬件软件服务在2016年将超过6亿美元。
维克托・迈尔在《大数据时代》一书中指出:大数据开启了一次重大的时代转型。就像望远镜让我们能够感受宇宙,显微镜让我们能够观测微生物一样,大数据正在改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,同时更多的改变正在蓄势待发。
大数据以一种前所未有的方式,通过对海量数据进行分析,获得具有巨大价值的产品和服务。数据是信息社会的根本要素,挖掘多变的、海量的数据,不仅能为全社会提供创新的信息服务,而且能够为各行业创造价值,因此大数据应用前景非常广阔。
2 移动通信大数据在城市人口管理中的
应用
2.1 移动通信网络数据的价值
运营商的数据十分宝贵,包括网络数据、用户数据、位置数据、用户行为数据、设备终端数据等。
(1)运营商拥有海量的网络资源数据,全国数以百万计的基站形成了LBS应用需要的CELL ID(CELL Identity)数据,CELL ID是指移动通信无线网络上报终端所处的基站小区号。
(2)2010年9月1日实施手机实名制之后,在保障通信安全的同时,运营商拥有了较为准确的用户资料和消费信息数据。
(3)根据移动通信原理,网络需进行小区切换和周期性位置更新,这种定期产生的大量位置更新信息就形成了位置和轨迹数据。
(4)用户在进行发送短信、通话、数据上网、开关机等行为时,会产生大量的用户行为数据。
(5)所有终端在建立与网络的连接时,均会上报终端的IMEI号,形成了丰富的终端设备数据。
上述5类数据,经过数据分析和数据挖掘,为行业研究和服务创新提供可靠的依据,为城市人口管理和公共安全提供决策数据支持。
2.2 需求分析
随着城市经济水平的不断发展,城市人口呈现数量多、增长快、流动大等特点,给经济社会发展和社会治安带来巨大的压力,给城市人口管理和服务工作带来前所未有的挑战,政府主管部门积极探索城市人口管理的新模式。如何准确地分析城市人口分布和流动情况?如何采用创新手段提升管理和服务水平?采用科学的方法和先进的技术对移动通信网络数据进行数据分析和数据挖掘是一个非常好的突破口。据工信部的通信行业统计数据,2014年5月底中国移动电话用户总数达到12.56亿户,移动电话普及率达92.3部/百人。由此可见,移动通信网络大数据将在城市人口分析和管理工作中显示出独到的优势和价值。
通过移动通信网络大数据挖掘和分析,能方便快捷地获取以下信息:城市人口分布及流动情况、城市居民OD调查、城市人口异常聚集、特定区域的经济发展状况等。
2.3 系统架构
基于移动通信大数据的城市人口管理系统架构分为4个部分,如图1所示,功能描述如下:
图1 基于移动通信大数据的城市人口管理系统架构
(1)数据层,负责从外部系统获取基础数据,包括全网的话单、短信、上网流量数据,以及移动通信网络的信令数据。外部系统在向本系统输出基础数据之前,需要开发一套程序完成原始数据的格式转换和数据处理。首先要屏蔽用户隐私信息,即用户号码信息全部剔除,输出时采用经过加密的IMSI号码。其次需要筛选出关键字段,每条记录都是从原始数据的几十个字段抽取出几个关键字段,这样能大大减少数据存储量。
(2)处理层,负责对获取的结构化和非结构化数据进行处理,并准确匹配到上层定义好的各类计算模型。数据处理层采用了基于开源的Hadoop分布式架构,将传统ETL的数据提取、数据清洗、数据转化、数据校验工作承载在云计算平台上,大大降低了大数据的处理成本,提升海量数据处理的及时性。
(3)模型层,定义了与需求相关的3大模型:
位置分析模型:负责存储对城市地图处理后的信息数据,包括了网格的经纬度信息和对应的基站信息。结合GIS地图信息,获取用户位置。
用户分析模型:负责存储用户信息,重点包括了用户在城市生活中重要的“居住点”和“工作点”的经纬度信息。通过该模型可以分析用户在城市的生活轨迹。
用户拨打重点电话模型:负责存储城市内拨打110、119、120、122等电话的时间、地点。通过该模型可以分析出城市的安全、消防、交通报警电话的时间、区域以及趋势。
(4)应用层,基于B/S架构,采用模块化独立封装技术与标准化应用接口,功能强大且扩展性强,可平滑扩展到城市人口管理以外的其他行业。
2.4 算法描述
在进行移动通信网络海量数据分析和数据挖掘时,主要采用了聚类分析计算方法,包括地图网格算法、人口分布算法、人口流动模型算法。聚类分析指将对象的集合分成由类似的对象组成的多个类的分析过程,聚类分析的目标就是在相似的基础上收集数据来分类。
(1)地图网格算法:首先针对城市地图建立坐标系,将地图空间划分成为有限个单元的网格结构,所有的处理都是以单个单元为对象。单元网格面积大于基站平均覆盖范围,因此定位精度能满足城市人口出行信息分析的技术要求。具体方法如下:
针对城市地图建立坐标系,按基站小区平均半径250m,建立网格。
为城市的所有基站分配经纬度,从而把基站全部匹配到网格。
对跨行政区域的网格,在数据分析时做特别处理。
根据用户发生通信行为时所在的网格,精确计算用户位置和轨迹。
(2)人口分布聚类分析算法:根据用户发生通信行为所在基站位置数据和网络发起的周期性位置更新数据,以加密后的IMSI号作为分析对象。在时间上,按时间段计算出每个加密IMSI号出现的次数;在空间上,将加密的IMSI号匹配到叠加了网格数据的城市行政区域分布图,挖掘出每个区域某个时段的人口数量。具体步骤如下:
确定移动通信网络活跃用户总数。
设定居住地时间为18点至次日8点,工作地时间为8点至18点。
根据用户发生通信行为所在的基站经纬度,计算所在网格的位置。
计算居住地和工作地网格内的用户数量,为了数据的准确性,以3个月为一个数据采集周期,如果一个用户出现在多个地点则以出现次数最多的地点为准。
根据用户网格归属统计用户的区域分布。
(3)人口流动模型算法:本项目需设置多个聚类分析对象,我们给每一个聚类设置了一个模型,然后计算满足这个模型的数据集。主要的3个模型为位置分析模型、用户分析模型、安全监测模型。如图2所示:
图2 基于移动通信大数据的城市人口管理分析3个模型
2.5 结果输出
本项目利用移动通信网络语音、短信、上网数据及网络信令等海量数据,通过特定的算法,建立分析模型,输出了以下城市人口管理分析成果:
基于移动通信网络数据的城市各区域人口数量分布;
城市人口居住地、工作地分布;
城市居民OD调查(Origin Destination Survey),即交通起止点调查;
城市人口连续出行轨迹;
城市人口异地出行量、出行目的地分布;
特定区域人员聚集分析;
城市各区域经济发展情况。
3 结束语
大数据被誉为“21世纪的新石油”,运营商拥有海量的网络数据、用户数据、位置数据、用户行为数据、设备终端数据。通过搭建大数据基础平台,进行数据分析和数据挖掘,开辟创新应用的蓝海,为相关行业提供新型信息服务从而实现价值创新,为政府的城市管理提供决策支持,运营商的数据十分宝贵,早挖掘,早受益。
参考文献:
[1] 维克托・迈尔-舍恩伯格, 肯尼思・库克耶. 大数据时代[M]. 盛杨燕,周涛,译. 杭州: 浙江人民出版社, 2012.
[2] 涂子沛. 正在到来的数据革命[M]. 桂林: 广西师范大学出版社, 2013.
[3] 涂子沛. 数据之巅:大数据革命,历史、现实与未来[M]. 北京: 中信出版社, 2014.
[4] 刘军. Hadoop大数据处理[M]. 北京: 人民邮电出版社, 2013.
[5] IT架构设计研究组. 大数据时代的IT架构设计[M]. 北京: 电子工业出版社, 2014.
[6] Anand Rajaraman, Jeffrey David Ullman. 大数据:互联网大规模数据挖掘与分布式处理[M]. 王斌,译. 北京: 人民邮电出版社, 2012.
作者简介
HANA数据分析平台在软件方面,通过内存技术,应用程序能直接处理电力企业数据库中的各种数据,并直接在主内存中处理。主要技术包括行+列的存储、压缩、数据分区、增量数据更新等。平台采用的软件包括数据抽取工具、内存数据库(含数据库服务器、建模工具Studio、客户端工具)、报表展现层BusinessObjectsBI组件。在硬件方面,通过预配置的软硬件结合体,提供高性能的数据读写操作,并在内存数据库里采用列式存储从而将更多的数据存入(列式存储方式更适合数据压缩)。
2HANA数据分析平台实施过程
数据分析平台建设应遵循最大限度的考虑应用实用性、缩短实现周期、降低技术风险等因素。
2.1需求分析
需求分析是要对用户的诉求或需求进行深入了解,并在需求的基础上对整个平台进行一致约定。因此以重要性、分析的复杂性、数据量大小、以及快速见效为原则,需求分析需要明确下面的内容。
1)选择需要分析的主题,结合当前电力营销业务在计量、业扩、抄表、电费核算、电费缴纳、账务等工作职能的划分,也要考虑分析的主题具有针对性的业务场景,这些场景往往跨越多个职能。
2)分析并描述各个主题的业务背景,包括使用的用户角色,使用的业务场景。以电费出账异常为例:电费出账异常主要是由于用户档案错误、抄表错误所引发的,涉及到业扩、抄表、电费核算等多个职能部门。以电费出账异常作为分析的主题,其业务场景主要用于电费发行后,对引发电费异常的用户档案数据、计量信息、抄表信息进行检查并按职能需求进行分别展示。
3)分析各个主题间的关系,在这个平台上用户的所有活动信息,如用户请求的数量,用户对这些数据的访问频率、时间、数据细节层次、请求多大的数据量等之间的关联。
4)分析主题所涉及的表的目录、表的内容、表的容量、每个表的平均行大小、表的记录数、表的增长情况等。
2.2平台规划
HANA数据分析平台应用架构一般采用四层:数据源层、数据抽取及复制层、HANA数据集市层以及报表展示层。
1)数据源层:作为平台的分析对象,提供报表分析所需的数据,数据源层可同时支持各种类型的数据库,数据源层为营销系统(管理库),生产库到管理库之间采用SharePlex复制工具实现数据同步,以避免数据抽取对生产系统的影响。
2)数据抽取和复制层:数据抽取和复制层负责将数据源层中源系统的数据抽取和复制到HANA分析数据库中,主要构成是数据抽取和复制工具,可以分别采用实时同步服务(SLT)以及非实时同步的数据服务(DataService)两种不同的复制工具来满足不同特征的源数据要求。在确定采用哪种工具前,需要对每个数据源的大小、变更时间、变更频繁度、增量大小等信息做详细了解,对不同数据源表选择合适的复制工具。
3)数据集市层:数据集市层是整体系统架构的核心,负责分析数据的储存、报表模型的建立以及数据计算。该层包含分析数据库以及虚拟模型架构两个主要组成,所有需分析展示的数据在数据集市层通过集市层进行储存、压缩、建立逻辑模型并计算,通过该平台特有的内存计算技术可以使这个过程的效率大幅提升。
4)报表展示层:报表展示层负责将HANA数据库中的数据运算结果按照报表需求进行展示,采用SAPBusinessObjectBI4.0以及EXCEL作为展示工具。
2.3平台实现
2.3.1模型设计
依据报表的需求分析、功能需求、性能需求、模型扩展性、模型的灵活性、实现成本进行平衡,在达到性能要求的前提下,设计出可以重用的模型,HANA平台不同于传统的数据仓库需要物理化模型设计,HANA采用了逻辑视图模型设计的概念,逻辑视图从表面看体现的是传统的星型、雪花型模型设计,但这些模型中的数据并不是物理存放的。HANA提供了属性视图、分析视图、计算视图三种模型设计,属性视图实现对维度的设计,分析视图则实现传统的星型模型设计,计算视图实现更复杂的雪花型模型设计。模型设计时是先将需求阶段所确定的分析主题作为分析对象,梳理每个主题展示所需的事实表数据内容和数据粒度、分析维度、分析的数据指标。例如:一个以分析电费构成为主题的业务场景,该主题分析当期电费的构成情况,并同期比较各个电费构成的变动情况,那它的指标可以为目录电度电费、峰谷品跌、丰枯品跌、基本电费、力调费、代征费、电度电费、结算电费等指标。分析的维度可包含:时间维度、用户维度、组织维度、用电服务维度、抄表维度、计收维度等。并在此时完成对事实表和维度表的逻辑数据模型设计。
2.3.2表样及功能设计
报表的样式和功能应当考虑用户对数据进行分析的使用习惯,借鉴数据仓库中的多维数据可视化方法,通过对报表的上钻、下钻、切片等展示功能技术的利用,实现对汇总性数据、明细类数据、核心数据的快速查看和分析。以上述的分析电费构成主题为例,其展示需求决定表样的设计采用图型混合表格的方式,功能上采用按照组织维度进行上钻、下钻功能可查看不同供电区域的电费构成情况和各个指标的排名情况,前端展示采用了BOWebintelligence嵌入DashBoard图表设计实现。
2.3.3数据抽取及复制设计
为确保数据质量,应当进行数据抽取和复制的规划设计。首先,根据模型设计中指标、维度信息分别列举出其相应的数据来源,即营销系统的物理表和字段,指标来源于营销系统的交易数据,而维度来源于营销系统的主数据。其次,根据逻辑数据模型和数据来源确定营销数据库到HANA数据库的ETL规划,根据数据的质量规则(包括:数据清除、空值处理、数据替换、规范化数据格式等),确认营销系统源数据到HANA目标数据库数据的转换规则,同时依据数据大小、数据变更时间、数据变更频繁度、数据增量大小要求确定采用的实时工具SLT还是定时抽数工具BODataService,例如:收费账务相关的交易数据存在记录基数大、变更频率很高等特征,采用实时复制增量数据更合适,而账务的月结数据仅在每月初产生且数据量非常巨大,因此采用定时批量复制更合适。
2.3.4模型及报表开发
模型及报表开发共分为数据装载、HANA建模、定义语义层(IDT)、报表开发、数据校验五个步骤,这五个步骤相互交叠与重复,直至到达最优化设计。其中数据装载的方式利用了SLT的实时同步技术,SLT同步技术其核心是基于数据库的触发器模式实现对源数据的增量复制,最大限度的避免了对源系统表结构的改变,同时采用的多任务复制机制使得实时复制的效率可保持在5~10秒内的数据延迟,装载后的HANA数据的大小比较源数据库数据大小可压缩30%~70%的容量。
3发展前景
不断的完善HANA数据分析平台的分析主题,不仅是基于电力营销系统,还可以基于用电采集系统等构建起电力企业的大数据分析平台。利用HANA内置的PAL(预测分析库)对海量电量数据、客户服务数据实现数据高级分析,建立其有效的事前预测、事中控制、事后改善的企业快速辅助决策模式。营销业务可以在客户服务中对受理业务的情况信息、执行过程、执行结果进行深入分析、对客户需求进行快速响应,改进服务质量、提升电网服务建设。更可以利用海量电能量数据对偷窃电稽核、客户用电行为、能效管理等进行过分析和应用,助力营销辅助决策与分析能力的快速提升。
4结论
关键词:大数据;客户诉求;客户分群;交互服务
1智能分析系统技术组成
1.1系统技术路线
基于Redis缓存开源技术,实现多类别的数据结构以及功能丰富的String支持。采用EPOLL实现可扩展IO事件处理机制,显著提高程序在大量并发连接中只有少量活跃的情况下的系统CPU利用率。通过自动分库分表,无缝隙的扩展数据节点,实现数据随着数据量的扩展而扩展。
1.2系统原理架构
大数据的分析处理需经过数据采集、数据管理、数据计算、业务应用4个阶段。因此大数据分析平台业务架构也相应地按照4个层面进行设计。
1.3系统数据分析
基于95598客户服务中心每天下发的大量工单数据,进行高频词分析提取,汇总高频词出现率,形成客户当前关注热词指数排行榜。a.数据模型。获取业务服务记录,经过分词处理后使用VSM模型衡量关键词权重,得到业务内容中的关键词语。经过一次聚类(LDA算法)转化得到短语,二次聚类(LDA算法)得到事件列表,最后经过热点度量后进行可视化展现。从而实现客户关注热点的自动获取,为事件监控、服务改善、工作调度提供帮助。b.数据处理。采集原始数据中文分词按主题聚类提取热词形成用户行为分析热点诉求分布图。
2智能分析系统实施方案
系统实施方案有4部分组成,可以有效利用先进大数据技术,实现大数据分析辅助营销优质服务决策。a.基于营销95598系统的基础上,扩展系统数据挖掘与分析功能,实现对业务工单信息的按主题分析,准确定位各类业务的分布规律、专业存在的突出问题。b.通过95598停电信息、故障报修和供电质量投诉诊断电网供电能力中的问题:依托三级标准地址与配电台区的关联关系,准确定位上述客户诉求的区域、供电线路、台区信息,为制定配网规划、开展设备治理提供信息。c.通过营业服务投诉诊断营销管理中存在的问题,客户反映的业扩报装超期、无票白条收费、估抄漏抄电表、营业厅不开门、服务态度等问题是监督制度落实的有效手段,为改进专业管理指明了方向。d.通过及时解决客户的需求,主动的去了解客户的关注热点,从客户最关注的方面进行服务和管理的提升,根据客户关注点及请求频率等客户特征,按照偏好标签库和交互频次设置,自动识别客户的偏好标签和交互频次类型,形成一定用户量的客户分群,为该群体提供更多个性化的交互服务和营销服务。
3智能分析系统应用效果
该系统目前已完成上线运行,已在国家电网有限公司系统范围内开通省、市、县应用账号262个,实现系统应用。应用效果有以下几个方面。a.实现客户诉求可视化展示。对客户诉求发生趋势、重复拨打情况、台区停电等多维度可视化展示,直观展现优质服务薄弱环节。b.实现客户诉求趋势预判。通过分析客户诉求“热词”、“主题”等方面,精准定位客户诉求关注热点,实现客户诉求区域、时间等维度预判。c.实现客户标签化管理。对客户用电性质、诉求内容等客户属性进行标签化,分析客户的用电量、拨打偏好、关注热点,实现客户群体的分群、分级管理。d.经济效益及推广前景。该系统投入使用后,2017年上半年电网建设投诉同比下降57.5%,营业投诉同比下降37.3%,故障报修工单下发数量同比降低30%,有效提升人员工单流转效率40%,客户满意率达99.18%,达到国家电网有限公司A类水平。
4结束语
本系统利用先进的大数据分析技术手段,使海量的数据资源价值得到有效利用。精准的客户个性化服务,加强了客户服务粘性,提升客户忠诚度,切实提高企业经济效益。构建的客户诉求风险防控预警体系,切实提升服务风险防控,降低负面舆情及企业服务风险,提升客户满意度。为开拓电力市场,应对电力市场改革打下良好基础,可在国家电网系统内全面推广应用。
参考文献:
[1]杨丽霞.95598系统运行数据分析及改进建议[J].科技创新及应用.2014(15):144.
[2]程超,张凯,程慧.95598系统数据的分析方法及其应用[J].河北电力技术.2015,34(3):37-38.
关键词:大数据;分析及挖掘;交通行业
1技术背景
21世纪,伴随着信息技术和互联网的爆发式发展,人类进入大数据时代。数据成为国家核心战略资源和社会财富[1],全球范围内研究发展大数据、运用大数据推动经济发展成为大势所趋。IBM公司研究报告表明,当前各行业数据的分析利用率极低,仅为1%。交通行业数据虽然由于细粒度、连续性及信息丰富等优势具备大数据分析挖掘基础,但也由于数据增长快、覆盖面广、数据深度高、格式不统一、信息孤岛等原因,致使其分析挖掘比例更低。因此,加快交通大数据的清洗、分析挖掘及应用等关键技术攻关,对积极响应国家大数据战略、交通强国战略,促进山西经济转型意义深远。
2现有基础
2.1政策保障
山西省通过加快组织建设与政策保障推动大数据技术推进,给予大数据产业系列政策支持,发展潜力指数位居全国前列。2016年,山西省《山西省国民经济和社会发展第十三个五年(2016—2020年)规划纲要》和《山西省“十三五”战略性新兴产业发展规划》,明确构建现代综合交通运输体系,推动大数据、云计算等战略性新兴产业在交通运输、环保、国土资源等行业领域应用;2017年,山西省《山西省大数据发展规划(2017—2020年)》,力求在大数据战略实施上取得突破,促进全省经济转型发展;2019年,《山西省促进大数据发展应用2019年行动计划》再次明确“推进大数据在交通、旅游等民生领域应用不断深入”;2020年4月,山西省《山西省大数据发展应用促进条例》,要求推动经济社会各领域的数字化、网络化、智能化发展。因此,山西省交通大数据产业化发展符合政策导向。
2.2数据基础
自大数据国家战略实施以来,山西省积极推进山西联通、山西移动、山西电信、百度(阳泉)公司、吕梁军民融合研究院、北斗山西分公司等大数据中心建设,推动浪潮集团、华为公司、新华三通信公司等互联网企业数据中心和云平台项目在山西省落地建设。2019年,山西交通控股集团着力打造了自己的数据中心。山西省交控集团数据中心的建设使山西省交通大数据分析及挖掘工作成为可能,为深化大数据在交通行业的示范应用奠定了数据基础。
2.3技术基础
山西省交通科技研发有限公司致力于交通运输行业的科学研究与技术咨询,近五年,交研公司智能装备、智慧交通、交通安全及桥梁与隧道工程等研究院累计承担国家、省部级大数据相关科研项目7项。同时,项目开展过程中形成了由3名博士牵头、10余名硕士为技术骨干的“大数据分析与应用”“数据挖掘”“数据可视化展示”等跨院技术合作团队。
2.4人才资源
截至2019年底,全国共477所高校本科专业获批,山西省以14所高校的总量位居全国第五,如太原理工大学、山西大学、中北大学等。数据科学与大数据技术专业的设立培养了大批社会急需的具备大数据处理及分析能力的高级复合型人才,为交通行业数据分析及挖掘奠定了人才基础。
3研究方向
3.1研究内容
基于交通行业大数据规模大、速度快、多样、价值密度低等特点,建立大数据处理技术体系[2],并开展存储及融合、分析及挖掘、可视化决策、数据应用等研究工作。
3.1.1多源异构数据的混合存储及融合技术交通行业在生产、设计、施工、经营及管理过程中会产生大量异构数据,多源异构数据的统一存储及融合技术是首先要解决的关键问题,也是对交通大数据进行充分挖掘和应用的前提。开展数据存储技术及融合算法研究,并建立适用于交通行业的数据模型,实现异构数据的快速存储及查询、录入数据的统一标准化,是当前交通行业大数据分析工作的重点之一[3]。
3.1.2基于云计算的数据分析挖掘体系建立基于云平台的数据分析挖掘体系,提高非向量数据的挖掘能力,开展基于分类、回归分析、Web数据挖掘等方法的数据分析研究[3],并建立各类型数据挖掘模型,实现各结构类型数据的分析与深入挖掘,进一步提高交通行业大数据的服务价值。
3.1.3数据的可视化决策基于新型数据可视化决策技术,将复杂的数据信息以图、表形式直观显示,并动态呈现数据变化趋势,提高管理人员依据数据进行生产经营管理决策的科学性[4]。
3.1.4提升数据应用水平积极响应国家大数据发展战略,借助物联网、云计算等技术[5],切实推进大数据技术在交通产业的应用,打造深度融合数据存储、分析、挖掘、加工处理和应用展示的高度集成平台,从而促使交通行业的信息化管理水平取得全面提升。
3.2典型应用
基于现有数据开展面向交通运营的数据分析与挖掘技术研究工作,列举几个典型应用:(1)基于集团业务数据及战略布局,建立集团统一数据标准,通过数据清洗实现不同数据互联互通。基于大数据挖掘技术,建立业务数据模型,充分绘制潜在客户画像,为集团提供针对需求的预测数据进而驱动业务增长。(2)基于视频监控系统积累的海量数据,开展高速公路视频大数据挖掘分析与应用,构建以交通流大数据为特征的数据处理模型,解决道路拥挤、车辆稽查、交通安全等问题,提升高速公路整体营运管理和服务水平。(3)交控集团管理运营高速公路超5000km,占全省高速公路总里程95%以上,基于高速公路收费系统积累的海量数据,开展高速公路货运/客运情况的大数据分析,预测山西省经济景气情况,助力山西经济转型发展。(4)基于交控集团在高速公路等重大交通基础设施开展的全过程业务,创新型引入大数据能源管理,在设计规划、施工段、运营等多个阶段通过数据化的能源管理系统实现基础设施建设的安全、绿色、智慧,积极响应国家发展战略。(5)基于集团在高速公路路面、隧道、桥梁等开展的检测、监测及养护业务,开展病害数据、养护数据的分析与挖掘,为交通基础设施建设和养护提供全方面的决策信息支持,提高服务水平。(6)紧跟技术前沿,开展面向交通安全等相关领域的数据分析与挖掘技术研究。
4发展前景
【关键词】大数据;智慧酒店管理;酒店管理;策略研究
数据的开发和应用,对于酒店智慧化的发展有着非常重要的现实意义。在大时展的背景下,大数据应用在酒店管理或是传统酒店运营模式的转变中都受到了相关专家的热切关注。近年来,大数据应用与酒店布局管理一直保持着密切的交流,这对于酒店管理来说也将迎来一个以大数据开发应用为核心的酒店管理时代的到来[1]。
一、大数据与智慧酒店管理
(一)相关概念阐述 大数据具体是指以多元化的形式,从众多来源中搜集而成的一个巨大的数据组,所以通常情况下它具有一定的实时性特征。这些数据可能从社交网络、电子商务网站以及顾客来访纪录作为主要来源,所以它并不是公司与顾客关系管理数据库的常态数据[2]。
上世纪八十年代初,未来学家阿尔文・托夫勒在《第三次浪潮》一书中,将大数据热情地赞颂为“第三次浪潮的华彩乐章”。大数据蕴含着这些数据生产者的真实意图、喜好、目的的非传统结构和意义的数据,他们从海量数据中提炼出有用的信息,这些信息的有效处理对于网络架构和数据处理能力的挑战也是全新的。
(二)智慧酒店管理 智慧酒店是指酒店拥有一套完善的智能化体系,通过数字化与网络化实现酒店数字信息化服务技术。智慧酒店管理则是借助数字化与网络化的平台,在酒店管理的过程中开发相关的系统,形成牵一发而动全身的局面,智慧酒店管理有利于降低酒店管理成本,减少不必要的劳动力,更重要的是可以帮且开发客户群,更有针对性、个性化的对客服务,满足客人对酒店标准化服务基础上建立的个性化、焦点式、延伸性的服务。
二、大数据应用于智慧酒店管理的现状
(一)在酒店管理方面对大数据的认识不够全面 在不同的发展进程中,酒店行业发展就会遇到不同的机遇和挑战。在新时期大坏境中,伴随着大数据的产生为酒店管理行业的发展带来了更好的发展平台。大数据就是把酒店客户的资料信息进行有效的综合整理,以便于酒店在布置布局方面有了更好的数据基础,促进了酒店行业的经济快发展[3]。
在客户信息采集方面,于酒店而言是非常容易就可以进行的。但在实际的操作中,酒店在客户有效信息采集方面还存在有很大的漏洞和不重视,缺乏对客户信息有效性以及相关信息的印证。这就导致了数据库基础看起来数量规模庞大,大往往都是涂有华丽的外表,没有实际的作用。酒店方面对于大数据的认识不足,认为数据的采集仅仅就是为了酒店入住率的核算,在意识中尚未对大数据应用做出正确的定位。
(二)数据分析方面 经过调查分析不难发现,大多数酒店在客户信息数据的整理利用方面都存在不同程度的缺陷。仅仅用于酒店内部的销售营业报表以及酒店盈利年度预算方面,没有对这些数据进行更进一步的开发分析。严重的浪费了大数据在酒店运营市场开拓、行业市场分析以及客户需求整合这些方面的重要作用。大数据在酒店行业中使用较为成熟的依然是华东地区,而西北地区则使用较少,为了全面展现大数据的分析作用,在此仅以苏州酒店数据开发为例:
苏州某时段酒店客户数据分析比较
该地区在全国的酒店总数量排名中仅次于超级大都市北京、上海,在酒店运营方面有自身本来的地理环境优势。但我们从表格中可以分析到:该地区对于酒店客户数据的分析很大程度上都是运用在了报表制作当中,对于市场及客户方面的工作少之又少。除却相对高端的五星级酒店在市场开拓和客户需求查询方面做了相应的努力,但还是没能将大数据的作用完全开发出来。
(三)酒店基本的服务设施配套不够全面 酒店的服务除了体现在优质的餐饮方面,还在酒店客房的设计方面有着很大的要求。对于相对发达的地区而言在酒店基础服务方面做的相对较好,但不同积层类型的酒店设备也是参差不同的。建设智慧型的酒店,不仅要在客户数据处理方面做足功夫深入分析,在酒店服务方面也要实现智慧智能化。酒店服务管理智能化是发展的一个不断丰富、领域。酒店作为直接面对客人提供服务的场所,应充分的考虑个人隐私、个性化的需求,以及感受到高科技带来的舒适和便利。同时,酒店物耗、能耗、人员成本,也应考虑降到最低,创造效益。例如:智能的门禁系统、智能的取电开关、以及智能的交互视频体系、智能的电脑网络展示体系、和智能的信息查看体系,客人在房间内可实现天气、航班动态、列车时刻、轮船时刻、客车时刻、市区公交、高速路况、市区路况等等,这些都是智能酒店应该必备的基础服务。
三、大数据于智慧酒店管理进行的应对策略与行业前景
大数据本身具有数据体量巨大、数据类型繁多、价值密度低、处理速度快的特点运用与酒店行业的价值作用更是突出。它最核心的价值就是在于对于海量数据进行存储和分析。相比起现有的其他技术而言,大数据的“廉价、迅速、优化”这三方面的综合成本是最优的。大数据应用与酒店管理与酒店智慧化建设互为表里,借助于大数据对酒店管理行业的推动,以更好的实现酒店企业的经济价值和社会效益。
(一)在数据信息采集方面 客户信息数据采集是实现智慧型酒店建立的根本基础,夯实的数据基础在行业的规则制度、工作流程确定下才能在后期的大数据分析中实现其作用。酒店行业或是相关的政府单位可以为他们建立相应的数据采集基础模板,前台客服人员在进行客户信息采集的时候严格按照这个模板的工作流程进行,从根本方面保证所采集信息的有效性和准确性。行业之间可以建立数据信息共享的网上资源平台,这既方便了顾客的需求又实现了企业的经济效益。
(二)数据分析系统的功能研究 在酒店客户信息的有效采集基础上,应用Tableau 这一设计软件做相关的数据分析。主要通过对数据的总结分析以及关联数据分析进行相关的数据分析研究。对客户的入住信息做以分析,总结住房消费的生成规律,以开发潜在的客户资源。
(三)在酒店住房预定方面 入住客户通过电话预约或是网上预约的形式来实现住房预定。这是继客户充分了解酒店之后的又一项步骤。大数据可以更全面的分析客户的需求和以往入住经验总结,帮助酒店前台服务人员为顾客推荐更合适的房间类型。
(四)在酒店顾客入住阶段 客户入住是顾客完成住房预定之后的又一项重要工作。对于首次入住的顾客来说,这是他对于该酒店进行深入了解的第一步。这一阶段过程中,最重要的就是应用大数据分析顾客入住阶段的顾客类型分析,以提升酒店的专业水准。在互联网大时代背景下,顾客采取网上预定消费的群体越来越广泛。在互联网上进行该酒店的预定消费,从另一方面来讲这也是该酒店的企业外在形象的维护阶段,是品牌效力影响下的入住消费。所以更应该加强酒店的整体服务水平,为酒店吸纳更多的消费者,并尽可能发展成为酒店会员。在整体顾客选择的住房类型来看,一般顾客对于经济房的需求量所占的比重稍大一些。说明该酒店的消费群体主要以大众消费为主,所以在酒店管理配置方面可以加大该类型客房的建设,方便 客户使用。在贴心周到的基础实施服务方面,比如有带小孩的顾客,酒店前提服务人员在进行入住手续办理的时候可以为小孩提供玩具、家庭套房的服务,婴儿床等配套服务设施,在整个过程中要最有先考虑顾客入住酒店的舒适感。同时,还要强调客人入住酒店的安全感,尤其是信息安全方面。但是大数据已经是未来经济发展过程中必不可或缺的预测工具,所以酒店行业应在各方面做好准备,迎接大数据时代的到来。而且在国家的统筹规划与政策扶持的支持下,加之各地方政府结合实际制定大数据产业发展的策略,再通过国内外IT大企业以及众多创新企业的积极参与,大数据产业未来发展前景十分广阔。
结束语
总而言之,酒店管理依附于大数据的应用,智慧型酒店对大数据的依赖更是与日俱增。大数据帮助酒店整合客户信息,为酒店在顾客来源方面提供了便利,帮助实现酒店顾客消费的最大化。它不仅在酒店管理和与顾客双方沟通方面有着至关重要的作用更实在酒店与其他合作关系方面为酒店争取了一定的主动,改善了传统的酒店运营和消费交易模式。通过大数据的分析,酒店能够更为快捷的了解顾客的入住需求,在提升自身档次的同时又实现了良好的酒店企业经济效益。
参考文献
[1]杨宏.大数据与智慧酒店管理[J].科技创新与应用,2015,19:259-260.
关键词:大数据;决策支持;数据分析
中途分类号:TP393 文献标志码:A 文章编号:1673-8454(2017)05-0051-05
随着信息化建设的不断推进,高校建设正由数字化校园向着智慧校园的方向迈进。信息化高度发展,给教学、科研、学习、生活带来了高速便捷的服务,同时也长生了大量记录高校日常管理和教学工作的数据,这些数据随着时间的积累构成了一个庞大的大数据资源。这些资源具有很高的价值,如何让这些数据发挥价值,为高校各项工作提供服务,是值得每一个学校思考的课题。
一、信息化发展现状
公安教育信息化是培养高素质公安人才的根本要求,是开展教育训练工作的实际需要,是顺应公安信息化发展趋势的必然选择。上海公安高等专科学校作为上海公安教育训练工作的主阵地,在校园信息化建设方面进行了积极的探索,由数字化校园正逐步向智慧校园迈进,在服务公安教育培训、指导公安实战等方面发挥了重要的作用。
1.信息化基础设施建设
自2005年启动第一个信息化五年规划以来,我校信息化基础设施水平不断提升。目前公安网和教科网两套网络均成熟应用,公安网成为日常办公的主要载体,无线网络在校内已实现了全覆盖,广大师生均可免费使用。此外学校率先使用虚拟化等先进技术,运行了各类实体服务器107台、虚拟服务器289台,以及各类信息系统102个,其中邮件系统为全市5万多名公安民警提供服务,是上海市公安局首个面向全局民警应用的邮件系统。
2.建成公安教育云服务平台
2011年被评为上海市10家云计算应用培育单位之一,我校开启了公安教育云服务平台的建设工作。在综合考虑公安实战及公安教育的业务需求基础上,云平台建设分为两个方面,一方面是建立数据中心,将已有的物理资源、虚拟资源、数据及应用资源进行整合,形成云资源池,通过云资源管理软件对计算资源进行统一管理;另一方面,建立虚拟云桌面,将应用封装为各类云服务集中到云数据中心,用户可通过多种联网终端接入云门户获取相应服务。云服务平台作为上海市经信委云计算培育项目在学校得到广泛使用,其提供的云盘、虚拟云桌面、云应用等功能有效地解决了教学资源异地访问受限的问题,也为未来移动教学提供了一个优秀的支撑平台。
3.自主研发信息系统集成平台
学校采用SOA等先进技术自主_发了信息应用系统集成平台,将校内主要74个信息系统纳入平台进行统一管理。此外,上海公安教育训练管理平台作为公安行业内第一个覆盖民警终身培训全过程的管理系统,其16个培训管理子系统也纳入了统一的信息化流程,为上海公安每一位民警形成了一份完整的教育训练活动电子档案。信息系统平台目前集成了学校80%的应用软件,当前用户56000人,日均在线1000人,为全局教育训练工作提供了强有力的支撑,也成为大数据分析最重要的数据来源之一。
4.建成上海公安远程教育网
我校率先在全国公安院校建立“上海公安远程教育网”,通过研发网络学习平台、领导干部在线学习平台、在线考试系统、在线答疑等辅助模块,探索远程教育应用于公安教育训练的新模式。学校教师教官均参与到公安网络课程、公安微课程的建设中,形成了人人有课程教学网站、时时可布置在线作业,处处可进行在线答疑的良好教学互动局面,打破了学员学习的时空限制,有效拓宽了学院获取教学资源的渠道,使上海公安教育在使用教育信息技术方面成为全国的排头兵。
二、信息化建设中的大数据
我校在信息化建设过程中,已部署了众多软件系统,如信息系统集成平台、教学管理系统、OA办公系统、后保综合系统、远程教育、数字图书馆等,这些系统每天都在产生大量数据,并且产生的速度越来越快。这些数据来源于不同的应用和层次,既有教学、科研、人事、财务、资产等常规管理型业务所产生的结构化数据,又有课件、图片、视频等多媒体教学资源产生的非结构化数据,同时还有购物、吃饭、洗浴等一卡通消费行为数据,以及无线网络、RFID、GPS等物联网感知的位置数据。这些数据在系统运行中不断积累,目前学校各业务系统已有结构化数据表约1000多个,记录约5千万条,数据规模接近200G,初步积累了“公安教育大数据”。这些数据得到了有效的存储和管理,但囿于技术限制以及数据应用经验的不足,这些数据在分析挖掘、充分利用方面还不够。如何利用这些数据,使这些数据变为有价值的信息和知识,为公安教育训练工作提供决策成为摆在我们面前的一道亟需攻克的难题。
通过对信息系统和数据进行梳理,我们发现当前系统中还存在一些问题:
(1)信息孤岛现象仍然存在。虽然学校的信息集成平台集中了绝大部分管理类的应用,但是远程教育、数字图书馆等专业应用仍有较强的独立性,信息并为充分集中和互通,数据之间无法动态关联,降低了数据的使用效率;
(2)技术难点需要突破。由于数据类型繁多,类型不一,传统的数据挖掘算法无法满足这些结构化和非结构化数据的处理要求,传统数据挖掘技术面临巨大的挑战;
(3)缺乏数据分析的模式和方法,数据需求不够强烈,数据价值难以体现。
同时为了解学校对数据服务的需求,探索大数据应用的解决方案,我们还对学校的教学部门及管理部门进行了走访调查,听取了各部门对信息化工作的意见和建议,并对日常教学、科研、管理等方面存在的数据应用需求进行了归纳:
(1)校办公室提出,希望通过数据掌握学校总体运行情况,但目前无法实时了解在校培训总人数,教室、宿舍使用率,教师教官教学状态等,缺乏相关数据支撑,为领导提供决策支持方面工作收到较大局限。
(2)政治处要时刻掌握民警的出勤情况、人员结构、思想状况等,但目前考勤系统还未能实现对各种出勤数据的自动统计,人事数据变动也无法做到即时的自动分析,工作人员则希望系统产生的数据可以通过统计和分析来得到有用信息从而降低人工统计的工作量,并能够通过人员结构变化进行各种趋势分析。
(3)教务处目前已提供了各专业课程数据、师资情况、学校教室使用分布数据、学生实习实训等情况,工作人员希望能通过利用已有数据、分析排课规律来实现自动排课功能。学管处在现有录入数据的基础上,希望通过学生在校考试成绩、德育表现、获奖情况等在学员毕业前自动为每个学员形成综合画像。
(4)后保处表示对于学校日常管理的数据需求日渐增大,如对于能源消耗管理、车辆运行管理、经费管理等应用大数据分析,将大大提高后勤管理的工作效率。
(5)教学部门的工作人员提出希望能通过数据自动分析出网络课程各模块学员参与度及掌握情况,以及在线考试题目的错误率等,从而为网络课程的设计提供参考,并为教学创新提供重要依据。
我校数据来源广泛、数据类型繁多,数据量随着信息化建设的推进日益增加。基于目前的数据现状,以及学校各部门对于数据应用的需求,我们考虑建立公安教育大数据分析平台,对学校人事、课程、资产、档案等方面的数据进行收集、存储、分析,把得出的知识再反过来服务于管理、教学、科研、后勤等各项工作,通过系统的整合以及数据的互联、共享,提高数据的利用效率,从而推动数据在公安教育中的智能化运用。
三、公安教育大数据分析平台的构建方案探索
我校100多个信息应用系统,在日常教学和管理中积累了大量历史数据,但这些海量数据却没有得到有效的分析和利用,各部门人员在日常数据录入和维护中只是通过统计和排序对数据进行简单的功能操作获得一些表面、浅显、价值不高的结果。构建一个大数据分析平台,从学校其他应用平台中抽取海量数据进行管理、整合、分析和利用,从中发现潜在问题和有价值的规律,并通过可视化的方式进行展示,能够为学校管理层提供科学决策的支持,并满足教师教官、学员的个性化需求,从而提高我校信息化服务的质量。
1.构建目标
(1)实现数据的共享和交换。将学校各应用系统的数据进行集成和整合,使来源各异、种类不一的各类数据可以相互使用,丰富数据的来源,打破系统间的信息孤岛,实现数据的共享和应用。
(2)大数据的采集和存储。研制数据适配接口,对接校内各应用系统获取各类异构数据,并采用大数据主流的框架和系统对数据进行统一存储,为数据的挖掘和分析打好基础。
(3)大数据分析与决策。采用数据挖掘、数理统计等相关技术,构建大数据分析框架,提取数据中隐含的、未知的、极具潜在应用r值的信息和规律,为学校的教务管理、科研管理、学员管理、后勤管理等各项工作提供决策和指导。
2.构建原则
(1)安全性。公安教育训练工作中有许多保密性内容,大数据分析平台依托公安网进行部署,应采取安全性高的访问认证机制,同时在平台建设中要充分重视系统自身的安全性以及其他应用系统的安全性。
(2)可扩展性。对公安教育大数据的分析和应用是一项长期持久的工作,随着管理工作的重点、教育训练工作的变化推进,对于分析平台的规模和要求也会不断变化。因此,要求平台的设计和实施要具有良好的扩展性,以满足不断发展变化的要求。
(3)灵活性。在平台的设计和实施中要考虑到与其他应用系统的整合,开发出多个类型的接口,能够灵活接入其他系统、拓展服务类型。
3.总体框架
平台应适应于大数据处理要求,能支持PB级数据管理。系统架构应高安全性、易扩展性,能够支持各类主流开发语言,并提供丰富的接口。同时能够支持结构化和非结构化数据的存储和应用。Hadoop作为开源的大数据处理平台和工具,其提供的HDFS分布式文件系统和MapReduce模型能够很好地满足以上的要求。系统的总体架构图如1所示。
基于Hadoop技术的公安院校大数据分析平台自下而上分为三个部分,分别为:数据层、大数据采集与存储、数据分析及展示。
(1)数据层,针对不同系统进行分析,制定系统数据采集范围与目标,收集本校在日常管理和教学中的产生的各类数据,将各种结构化和非结构化数据进行整合,为大数据的分析提供支撑。
(2)大数据采集与存储旨在为各类异构数据研制适配接口,与校内其他各系统对接,并为数据提供适配、转换、存储等基本管理功能,基本步骤包括:
a.数据抽取:针对大数据分析平台需要采集的各类数据,分别有针对性地研制适配接口。对于已有的信息系统,研发对应的接口模块与各信息系统对接,不能实现数据共享接口的系统通过ETL工具进行数据采集,支持多种类型数据库,如SQL SERVER, ORACLE, ACCESS等学校系统数据库,按照相应规范对数据进行清洗转换,从而实现数据的统一存储管理。对于其他数据,需要具体根据数据情况实现相关接口,利用对应接口获取相关数据信息,进而完成数据的抽取。
b、数据预处理:为使大数据分析平台的MAPREDUCE算法能更方便对数据进行处理,同时为了使得数据的存储机制扩展性、容错性更好,需要把通过数据按照相应关联性进行组合,并将据转化为文本格式,作为文件存储下来。
c、数据存储:为了提升数据存储的扩展性和容错性,采用主流的大数据框架Hadoop的HDFS文件系统对学校的各类数据统一进行文本化存储,数据按相应规则存储,实现每日保存一套完整数据文件集,形成数据仓库。
(3)数据分析和展示是核心业务层,通过数据报表工具,根据需求制定多样的,针对性的数据报表。通过基于的Hadoop的MapReduce编程模型实现的数据分析系统,针对存储的数据进行数据处理、算法运行、结果转换操作,将结果保存为报表文件,每日形成的报表文件集。报表展现系统将生成的报表文件以可视化方式进行展现。
4.大数据分析平台中的关键技术
大数据平台的构建借鉴了开源系统的先进理念,采用了Hadoop开源系统,充分利用 HDFS的可靠性,MapReduce的引入大大加强了平台在数据分析方面的弹性,使平台在可扩展性、可靠性、易用性和性能方面都有良好的表现。
(1)Hadoop技术
Hadoop框架是一个开源的大规模数据处理平台和工具,主要来源于Google公司提出的MapReduce编程框架,GFS文件系统以及BigTable存储系统等技术[1]。Hadoop具有庞大的家族体系,本平台的构建主要涉及到Hadoop框架的分布式文件系统HDFS和MapReduce模型。分布式文件系统作为Hadoop框架的底层,主要负责分析数据的分布式存和管理,MapReduce模型主要是负责对大规模数据集进行计算处理。Hadoop用HDFS文件系统子框架来实现其所具有的存储能力,用MapReduce编程模型框架来实现其计算能力,二者的巧妙结合使得Hadoop拥有高效的存储和计算能力。
(2)HDFS技术
HDFS分布式文件系统是对大规模数据实现分布式存储和管理的有效工具,也是分布式计算的存储基础,具有很高的容错性和扩展性,并且对数据读写提供了的高吞吐率[1]。HDFS实现了数据的分布式存储,使得应用程序能够更加灵活地访问大规模的数据集,同时也为后续对大规模数据的分析提供了数据平台[5]。HDFS分布式文件系统用的是典型的主/从结构,这种结构极大的简化了系统的架构,使得系统更加简洁,方便系统的管理。Hadoop的分布式文件系统HDFS主要由主控制器和数据节点组成,主控制器管理名字空间和数据节点,同时管理数据块到数据节点DataNode的映射等。文件系统中的DataNode作为数据节点,主要存储实际的数据,主要负责所在的物理结点上的存储管理,执行主控制器下达的命令。数据节点能够及时接收客户发送的读写请求,并针对这些请求完成相应的操作。从分布式文件系统的结构内部来看,数据文件被存储分割成多个数据块存储在每个数据节点上,每个数据节点存储着来自多个文件的数据块,同时每个数据节点上也会存储这些数据块的多份副本,保证后续数据操作的准确性。
(3)MapReduce技术
MapReduce技术基于分布式文件系统,通过编写相应的处理过程能够实现对大规模数据集进行并行计算和处理,通过对不同分析模块编写相关的MapReduce处理函数能够实现对大规模数据的精确分析,同时能够控制各个节点之间完成高效的任务调度[5]。MapReduce通过将操作分发给网络上的各个节点,每个节点会周期性的返回它所完成的工作和最新的状态,从而实现对大规模数据集的操作,这种处理方式保证了操作的可靠性[5]。MapReduce技术处理的方式是,首先将一个具体的任务分解成为若干个很小的任务,然后将分解后的任务分配到各个分节点,通过主节点来对分节点的任务进行管理和调度,然后得到分节点处理后的结果,再将结果整合,得到最终结果,通过多个节点之间的相互合作和调度,从而实现对大规模数据集的计算和处理。总的说来,MapReduce就是基于“分而治之”的思想实现“任务的分解与结果的汇总”。
四、利用大数据,实现教学和管理的全面创新
构建公安院校大数据分析平台是以我校战略发展规划为蓝本,以我校信息化建设纲要为依据而进行的创新性探索。以大数据建设顶层设计为基础,收集整合公安教育各方面所产生数据,从数据中提取出有价值的信息和模型,推动公安教育的全面创新。
1.开展大数据顶层设计,以大数据应用全面推进学校发展
大数据将成为推进学校发展的新动力,通过开展大数据顶层设计,对大数据获取、收集、整理、利用进行全面规划,从应用需求出发,明确建设目的和路径,明确什么要做,什么不要做,什么应该先做,什么应该后做,用什么模式做,做到什么程度,达到什么效果,以指导学校未来3-5年的大数据建设。
2.快速推进教学和管理工作的信息化,建立丰富的数据来源
用大数据方法全面分析现有教学和管理工作,新建或升级信息系统,对教学和管理实现全过程记录,建立丰富的数据收集渠道。如通过对现有远程教育系统进行全面升级,跳出远程教育的概念,实现对教学过程的全面支持,详细记录每个学生的学习行为数据,包括课程学习数据、视频观看数据、资料查阅数据、作业完成数据、互动交流数据、成绩数据等,将数据细分到每个行为细节,以提供超越传统系统的数据精细度,客观地反映出学习的实际状况。通过建立物联网应用,实现对物品、人员、安全等各方面管理的强大支撑,提升管理质量的同时积累大量管理数据和行为数据。
3.基于个性化服务需求,建立大数据分析模型
提供优秀的个性化服务是教育和管理的重要目标之一,大数据应用则是提供规模个性化服务的必要条件,而大数据分析模型的质量决定了数据的价值。一个平时被忽略的数据在好的模型中,会产生难以想象的作用。我们可以通过对学习行为数据的分析,了解学生的学习兴趣和学习效果,研究哪些学习方式是最容易被接受的,哪些课程的设计是最受欢迎的,或具体到某个作业问题回答的正确率以及横向和纵向的比较,并深层次的展现出其中的原因。这些数据被提供给教师,将对教学创新提供最为直接的支撑。通过对一卡通行为数据的分析,可以了解学生的日常行为规律和消费规律,了解学生行为与学习成绩、学校效果之间的关联关系,提供学生管理创新的依据。
4.综合应用大数据成果,推动学校全面创新
通过大数据的综合应用,可以建立对各项教育和管理工作的分析和判断,应用到实际工作中,从各个方面推动学校全面创新。
通过对教学过程、学习行为、学习成绩、教学满意度、教师需求量、专业师资质量、专业成熟度、行动轨迹等综合分析,建立教师画像、学生画像、专业画像,直观了解优势和不足,预测发展状况。
通过对学生人数、宿舍分配、教室使用、能源消耗、网络消耗、食堂消费、图书馆利用等进行综合分析,建立各资源利用率指数,实现数据可视化,引导管理工作的精细化和管理的扁平化。
通过对一卡通、图书借阅、专业分布、课程分布、成绩、学习行为等进行聚类分析,发现具有某些特征的特殊群体及其独有的行为方式,并利用相关性数据进行挖掘,从中发现规律。
通过对教学数据、教学效果、考勤记录、个人数据、管理数据进行综合分析,建立科学的、真实客观的教师绩效评价体系,改变传统人为评价的主观性,让大数据选出真正优秀的教师。
五、结语
构建高校大数据分析平台是个具有开拓性的实践探索,在高校中具有广阔的应用前景。我校目前还处于初步规划的阶段,我们将加强与行业公司、科研机构的合作,在大数据分析平台构建方面进行深入探索,从公安教育信息化发展的实际出发,采用当前先进的工具和技术,构建出体现上海公安教育特色,同时在普通高校又具有通用性的大数据分析平台。
参考文献:
[1]赵刚.大数据:技术与应用实践指南[M].北京:电子工业出版社,2013:4.
[2]周飞,石晋杰,崔磊.“大数据”时代的公安工作初探[J].上海公安高等专科学校学报,2013,23(2):34-37.
[3]宓,赵泽宇,大数据创新智慧校园服务[J].中国教育信息化,2013(24): 3-7.