HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 计算机大数据论文

计算机大数据论文

时间:2023-03-27 16:59:48

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇计算机大数据论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

计算机大数据论文

第1篇

1.计算机网络安全概述。

计算机网络安全,是指利用相关网络管理控制与技术,确保在一个网络环境中数据的完整性、保密性及可用性。计算机网络安全,主要包括逻辑安全与物理安全两个方面,其中,逻辑安全包括数据的保密性、完整性及可用性,防止没有经过授权对数据进行随意篡改或破坏的行为;物理安全包括相关设备与设施在受到物理保护的条件下保护设备上的数据免于丢失、破坏。

2.计算机网络存在的主要安全问题。

目前,计算机已经广泛应用于各行各业,人们对计算机网络的认识与利用水平也显著提升,办公、社交、生活等方方面面都离不开计算机网络。计算机网络在丰富和改变人们生活的同时,其存在的安全问题也不得不让人们警醒,经过笔者梳理,计算机网络安全问题主要存在以下几个方面:

1)网络病毒所导致的安全问题。

在计算机网络技术快速发展的过程中,也出现了越来越多、感染力越来越强的新病毒,它们无时无刻地影响着计算机网络的安全。由于计算机网络病毒具有复制性,能够感染其他程序和软件,因此,一旦计算机中了病毒,其所运行的每一步都将是危险的,都会存在让病毒也随之运行并产生破坏行为,然后应用程序被破坏,机密数据被盗用或被破坏,甚至让整个计算机系统瘫痪。

2)人为操作失误所导致的安全问题。

在人们进行计算机相关操作过程中,人为操作失误可能会引起计算机的安全漏洞,或者泄露了某些重要的信息,而这些信息一旦被不发分子所利用,便会造成难以挽回的损失。

3)网络黑客攻击所导致的安全问题。

在大数据时代下,网络黑客对计算机网络的攻击具有更隐蔽、破坏性更强的特点。由于在大数据时代下,网络黑客通过非正常手段窃取到某一重要数据时,一旦其利用这些数据进行非法行为时便会引起巨大的波及。同时,在海量的数据中,难以及时识别网络黑客的攻击行为,对于计算机网络安全而言是一种严重的威胁。

4)网络管理不到位所导致的安全问题。

在网络安全维护中,网络安全管理是非常重要的环节,但是目前很多使用计算机的个人乃至企业、政府部门并没有对网络安全管理引起足够的重视,从事使得计算机网络的安全受到各种威胁,最终导致大量的计算机网络安全事件频繁发生。五是,网络系统自身的漏洞所导致的安全问题。理论上而言,一切计算机网络系统都存在某些漏洞。同时,在用户使用各类程序、硬件过程中由于人为疏忽也会形成一些网络系统漏洞。二者相比,后者的破坏性常常是巨大的,很多不法分子通过非法途径给用户造成计算机系统漏洞,进而窃取用户信息,给用户造成巨大的损失。

二、大数据时代下的计算机网络安全防范对策

1.加强病毒治理及防范工作。

在大数据时代,计算机病毒的种类与数量与日俱增,对其进行治理与防范是较为困难的。在对计算机病毒进行治理与防范时,笔者认为最重要的是防范,这种防范是一种主动的、积极的治理,可以通过加强计算机防火墙部署来提高网络环境的安全性,将那些不稳定的、危险的网络因素隔离在外,进而实现对网络环境的安全保护。同时,计算机使用者树立正确的病毒防范意识,在计算机日常使用中,能够定期利用杀毒软件对所使用的计算机网络环境进行杀毒,并更新病毒样本库,进而确保对计算机网络的扫描能及时识别计算机病毒并进行及时的处理。

2.加强黑客防范工作。

隐藏在大数据背后的网络黑客一旦实施其不法行为,常常会产生巨大的安全问题,因此,为了防范计算机网络安全,应当积极整合大数据的海量信息优势,建立科学的网络黑客防范攻击的模型,以此来提升识别网络黑客的反应速度。通过加强计算机网络的内外网的割离、加强防火墙配置,能够有效降低黑客攻击的可能性。同时,还可以大力推广数字认证技术,加强对访问数据的有效控制,并合理认证,有效避免非法目的用户的非法访问,进而提升对网络安全的有效保护。

3.加强网络安全管理。

使用计算机的个人及机构,需要从思想上高度重视网络安全管理的重要性,在熟悉大数据的特征与性能的基础上采取安全的管理措施,时常关注网络安全管理,从技术上给予网络安全保障的同时,还需要通过有效的网络安全管理来实现大数据时代下计算机网络安全的防范目的。对于机构而言,需要从宏观上认识到网络安全管理的重要性,并建立动态的、有序的、系统的管理规章,依托于云计算技术构建一个更加高级的智慧平台来加强网络安全的防范,进而确保网络安全。对于个人而言,需要从主观上认识到网络安全的重要行,在进行计算机操作中,要养成规范化的、文明的使用计算机网络的习惯,尤其是对于一些钓鱼网站、非法链接,要从主观上认识到其危害,并做自我做起,将网络安全问题尽可能消灭,不传播有安全隐患的信息或链接。

4.加强网络系统漏洞的修复工作。

第2篇

摘要:基于信息时代背景下,随着计算机技术和信息网络技术的不断发展,大数据时代下人工智能也得到快速进步且与人们的日常生活息息相关。人工智能逐渐的走进人们的日常工作生活中。因此,基于大数据时代下展开对人工智能在计算机网络技术中的应用价值的分析显得非常必要。论文对大数据时代下人工智能在计算机网络技术中的应用价值进行了探讨,并且主要针对数据挖掘技术、入侵检测技术和防火墙技术的相关应用,希望为有关专业人士带来一定的参考与借鉴。

关键词:大数据时代;人工智能;计算机网络技术;应用价值

21世纪以来,世界都已经进入大数据发展时代,人工智能的应用与居民生活息息相关。人工智能就是模仿人类的行为方式和思维模式进行工作处理,它比计算机技术更加具有实用价值。所以,为了迅速提高我国大数据时代人工智能在计算机网络技术中的应用,论文基于此展开详细分析探讨,深入研究人工智能在计算机网络技术中的应用价值。以下主要针对于人工智能计算机的基本内容展开简单分析与探讨:

一、人工智能计算机的概况

利用计算机技术来模仿人类的行为方式和思维模式就叫做人工智能。人工智能,技术的涵盖内容广泛,且创新性高、挑战力度大,它的发展与各学科知识包括信息与计算科学、语言学、数学、心理学等都有关联。人工智能的发展目标是通过计算机技术让本该由人工操作的危险或复杂的工作由人工智能机器代替,从而额实现节约劳动力、减少事故危害发生的情况,进而提高工作效率和工作质量。人工智能的发展形式多样。第一,人工智能可以帮助完善某些较为复杂的问题或是当前还无法解决的问题,若是发生由计算机运算都还无法获得正确模型的情况,此时就可利用人工智能来对该项问题进行有效解决,针对模糊的问题和内容,利用人工智能模式来不断提高网络使用质量。第二,人工智能可以将简单的东西或知识复杂化,得到人们想要的高级程序和数据,从而节约实现,提高工作效率。

二、大数据时代人工智能在计算机网络技术中的应用

(一)数据挖掘技术在计算机网络技术中的应用数据挖掘技术在近几年来越来越受到人们的重视,因为数据挖掘技术是大数据时展的关键技术。利用人工智能技术可研究外界不安全因素的入侵频率,并在网络安全运行的前提下结合网络存贮状态,将研究结果记录保存。之后的工作中,若计算机处于运行情况时发生安全问题,系统会立即给予警告提示,并及时拦截入侵对象。数据挖掘技术其实从根本上来看,就是由人工智能技术和大数据技术的综合发展而来,模仿人类处理数据信息的特征和方式,让计算机实现对数据的批量处理。此外,数据挖掘技术还可与各种传感器融合工作,从而实现技术功效的最大潜力,不断增强计算机系统的功效和实用价值。

(二)入侵检测技术在计算机网络技术中的应用现展迅速,网络科技已成为人们日常生活中至关重要的组成成分,给人们的生活工作带来极大便利,但是其中也潜存很多不稳定因素。所以,网络安全技术的发展是保证网络使用正常工作的重要前提。当前,已经有很多网络机制被运用到保护网络安全的工作中,但是在对网络安全管理时发现仍旧有很多不稳定因素的存在,尤其是现在网络技术的发展迅速,很多手机支付等网络支付方式中会存在支付密码泄露的情况。基于此,在网络计算机安全使用过程中起到良好作用的是入侵检测技术。该技术被使用时,可以对网络中潜存的安全隐患信息及时侦查处理,对其数据信息进行检测,最后将检测结果的分析报告反馈给用户,实现有效检测。入侵检测技术的不断发展和完善,让计算机网络的安全运行得到极大保障,在对计算机网络进行安全检测的条件下,防止网络受到外界环境的干扰。人工智能技术中还可结合人工神经系统高和专家系统网络,实现对实时变化信息的即时监控,切实保障计算机网络技术的安全发展。

(三)防火墙技术在计算机网络技术中的应用计算机的硬件与软件相结合才能让防火墙技术发挥功效,为计算机的安全运行构建一个完整的保护盔甲。防火墙技术的应用是针对整个计算机网络的使用安全,极大的降低了由于外界非法入侵带来的不稳定因素,让计算机的安全得到保障。尤其是在现在大数据时代的发展背景下,防火墙技术的优点更加明显,防止计算机被非法入侵是防火墙技术的最重要功效。当前,人们每天都会收到很多封垃圾邮件和短信,部分邮件和短信还携带有危害性质的病毒,一旦点开这些垃圾信息和短信就会造成病毒入侵,让计算机中原本的私人信息遭到泄露。因此,需要人工智能技术来帮助人们进行信息识别,扫描邮件中是否有不安全因素的存在,找出后还可立即进行排除,防止安全事故的发生。根据以上内容的分析得出,在当前的计算机网络系统应用过程中,人工智能技术已成为主导技术之一,它能够结合其他任何智能技术实现创新发展和进步,以促进计算机网络系统的安全使用,让计算机网络系统高效、安全的发展,这也让人们的生活、工作水平进一步提高。

三、结语

总而言之,科学技术快速发展背景下,人工智能的发展在大数据时代背景下有了新的突破,计算机网络的安全系数以及运行效率都得到稳定提升和进步。这些进步离不开人工智能中优秀的技术的大力支持,包括数据挖掘技术、入侵检测技术和防火墙技术,它们保障了计算机网络系统的安全运行,给社会公民提供了一个稳定、安全、开放的网络平台,也为我国计算机网络技术的进一步发展奠定了良好的基石。

第3篇

1 前言

信息管理与信息系统专业虽然属于管理学,但其主干学科包括计算机科学与技术、经济学、管理学等三个,该专业的综合性、实践性很强,但是目前各高校该专业的实践教学体系不完备,还未自成一家、各具特色,以致毕业生实践能力不突出,特色彰显不够,就业竞争力不强,培养应用型人才是当务之急,核心是要培养学生的应用能力、创新能力和工程素养。要达到本目标,就要大力加强和完善实践教学环节,建立多层次、一体化的实践教学体系。

曲靖师范学院信息管理与信息系统专业从2008年开办至今,已经培养5届学生,一直以来,我们不断加强和完善该专业的实践教学环节,形成了四位一体的实践教学体系,取得了良好的效果。

2实践教学体系的“硬件位”

实践教学体系的“硬件位”强调实验室建设。实验室是开展教研的硬件基础,没有这个基础,一切教研工作就是空中楼阁。我们一直重视信息管理与信息系统专业的实验室建设。采购实验设备的指导思想是实验设备要先进、实用,充分满足学生的学习和教师的教学科研的需要。

该专业已经建成硬件实验室有2个:计算机组成原理实验室、计算机组装与维护实验室,通信与网络实验室有2个:计算机通信实验室、计算机网络实验室,信息管理类的实验室有3个:数字库应用实验室、信息管理与软件实验室、信息技术创新实验室。同时为适应当今云计算、大数据的大趋势,我们投资200多万建立了云计算平台。

这些实验室的更新及新建,能充分满足学生的学习和教师的教学及科研的需要。

3实践教学体系的 “抓手位”

专业技能训练提升学生实践能力的抓手,在学生的整个大学四年期间,为了在不同学期提升学生的综合实践能力,我们开展了贯穿大学4年的专业技能训练。

专业技能训练是实践教学体系的抓手,专业技能训练的目的是根据训练大纲,我们应以项目为驱动来创新该专业的实践教学体系[1],提升学生应具备的专业素养和能力,形成几大子抓手,再作专项的打造。

我院的专业技能训练主要包括两个级别,一是课程设计训练,本训练以课程为依托,制定课程级别的训练大纲和测试方案;二是综合设计训练,训练学生综合能力,要求学生能灵活应用所学课程,完成一个综合性、设计性项目。

3.1 课程设计训练

“课程设计”一个多义词词条。它可以指“为掌握某一课程内容所进行的设计”[2]。课程设计是课程实验的高级环节,课程实验是提升学生立体实践能力的根本,课程实验分为验证性实验、综合性实验和课程设计实验,我们在传统验证性实验的基础上开展课程设计实验,提升学生的课程综合实践能力。

信息管理与信息系统专业的核心课程有6门,分别是:Java程序设计、管理信息系统、数据库原理、计算机网络及实验、管理学、经济学。我们针对这些课程,在编写实验大纲时,就要求编写课程对应的课程设计,设计方案要经过教研室的审核和信息工程学院教授委员的讨论及审定。以审定通过的课程设计为依托,为后续综合实践能力的提升打下坚实的基础。

以《Java程序设计》课程设计为例,课程设计的目的:利用Java语言的语法特性,结合数据结构算法、网络知识、文件处理和数据库等知识完成综合题目的设计和代码实现,并培养锻炼分析程序、撰写报告等能力。

3.2 综合设计训练

综合设计训练的目的是锻炼学生综合所学知识,设计和开发一个小项目的能力。这些项目有“ERP企业应用”、“Oracle运维管理”、“大数据管理”、“Java Web开发”等,这些小项目的训练要基于几门课的知识和技能,如“Java Web开发”就需要学生综合数据库、数据结构、软件工程、计算机程序设计等知识与技能。

综合设计训练要与毕业设计区别开来,此训练的主要目的是让学生体验和掌握项目开发流程,同时锻炼综合应用所学课程来完成一个具体的小项目。

3.3 信息管理与信息系统专业技能训练安排

为鼓励学生多渠道获得技能分,我们规定,学生在校期间,通过全国计算机技术与软件专业技术资格(水平)考试的中级资格、全国计算机等级考试的四级证书、思科(微软、ORACLE、华为、H3C或锐捷)的工程师级别认证、中级会计师,可获得3个学分;通过全国计算机技术与软件专业技术资格(水平)考试的高级资格、思科(微软、ORACLE、华为、H3C或锐捷)的高级工程师级别认证,可获得4个学分。

4实践教学体系的“信息系统开发能力位”

本专业的学生要求具体一定和信息系统开发能力,该能力通过毕业论文(设计)来炼成。毕业论文(设计)是教学过程的最后阶段采用的一种总结性的实践教学环节。通过毕业设计,学生可以综合应用所学的各种理论知识和技能,进行全面、系统、严格的技术及基本能力的练习。[3]毕业论文(设计)是实践教学体系的技能整合,我院对毕业论文(设计)作重大改革,着力打造学生综合实践能力

参加毕业论文(设计)的学生分两部分,一部分在公司实习,同时要在公司完成毕业设计工作,余下的学生在校内完成毕业论文工作,为提高毕业论文(设计)的质量,经向教务处请示,允许我院结合专业实践性强的实际,改革本专业毕业论文(设计)工作。改革思路包括三点,一是我院学生的毕业论文(设计)以毕业设计为主,弱化对学生文本的要求,强化对实践动作能力的提升和检查,二是做好规范管理工作,制定相关文件,如:“信息工程学院毕业论文(设计)工作规定”、 “信息工程学院毕业设计开发文档的撰写与打印规范” 、“信息工程学院毕业设计开发文档”等。

5实践教学体系的“校企合作位”

为提升学生的实习水平,满足用人单位的需求。我们自2013年开始,与四川华迪信息技术有限公司开展毕业实习合作,该公司是一家集软件外包、信息服务、学生专业技能培训为一体的软件公司,在全国小有名气。学生参加校企合作实习有两种类型,一是为期三个月的专业实习,二是为期四个月的就业培训。三个月的专业实习分为软件开发方向和网络方向,软件开发实训重点是提升学生的软件开发实践能力和水平,网络方向的实训重点是提升学生的网络设计、实施、部署能力。

从2013年开始,每年大概有一半的学生参加校企合作的实习,取得了良好效果,学生的专业实践能力提升了,就业质量明显提高,很多学生就在四川成都就业、创业。

第4篇

关键词 大数据应用背景 超级计算机 数据处理

在电子信息技术的推动下,大数据已成为了当代潮流前线的主流技术,所谓大数据,从狭义上理解主要是指各种大规模的数据,具体来说是指难以在既定的时间范围内使用常规软件以及技术进行收集、统计、储存以及管理的数据集合,必须通过新型处理模式才可将其决策力、洞察力、发现力以及流程化进行充分发挥、具有规模大、复杂程度高、实时性强、高增长率以及多元化等特征的信息资产。由此可见,大数据是一种不同于传统数据的信息化数据资产,仅仅应用传统的软件或工具进行统计或管理是难以显效的,我们必须针对大数据的特征以及需求设计一款超级计算机,用于满足大数据的计算需求。

通过超级计算机来构建大数据处理中心,是现阶段最为主流的应用趋势。相比于传统计算机来说,超级计算机在性能方面具有显著优势,可以为大数据提供高效的计算以及处理服务。超级计算机早在二十世纪七十年代初就已被很多国家作为了一种战略性资源而进行使用,在国家经济建设、国防安全、社会发展、科学研究等方面得到了广泛的应用,并作出了极大的贡献,因此现阶段,超级计算机技术基本已经成为了衡量国家科技水平以及国防力量的重要指标之一。天河二号超级计算机是由我国国防科学技术大学研制而成的,它实现了每秒钟三点山九亿亿次的浮点运算速度,并以此成绩蝉联五次夺得全球运行速度最快超级计算机奖项。但是,超级计算机虽然具有如此高效的运行速率,它仍然只能在自己所擅长的以科学与工程运算为主的领域中发挥作用,例如一些计算密集型的任务中。此外,超级计算机具有计算模式单一的特点,它的处理过程通常由批量处理计算、流式运算、迭代运算、图运算等数据密集型运算方式组成,因此传统上的超级计算机很难直接被应用在大数据的计摘 要 在大数据应用时代背景当中,超级计算机迎来了前所未有的挑战,这些挑战主要体现在数据的计算、存储、通信以及编程方面,因此基于大数据的实际特征以及需求来设计一个超级计算机系统是十分有必要的。本文围绕如何基于大数据特征以及需求进行超级计算机设计、大数据时代应用背景下编程模型的设计两个方面展开讨论,对大数据应用背景下的超级计算机设计进行了分析,并提出了一些笔者自己的见解,希望能够对大数据应用背景下的数据处理问题提供一些对策建议。

关键词 大数据应用背景 超级计算机 数据处理算以及处理中。

1如何基于大数据特征以及需求进行超级计算机设计

显而易见,大数据的出现给人类技术带来了极大的挑战,而超级计算机具有十分强大的计算能力以及极其高效的数据处理能力,它将海量的信息高度集中在自己的系统当中,并通过工具媒介、数据存储等多元化角度对这些庞大的数据进行处理、分析以及应用,由此可见,不同的超级计算机在对信息处理以及计算时所呈现出的性能水平也是有所差异的。我们之所以要通过超级计算机来实现高性能数据计算,主要目的就在于提升数据计算效率,并通过对大数据的应用来增强通信效率。在本文中,笔者将围绕硬件和软件两个层面来设计大数据应用背景下的超级计算机。

1.1硬件体系结构

信息量大以及操作简单是大数据应用的显著特征,大数据应用能够确保计算指令维持在一个相对来说较低的状态,实际上间接增加了数据访问所需的成本,由此可见,在使用超级计算机管理大数据的过程中主要存在的问题在于数据吞吐率与数据计算效率之间的失衡性。针对这一问题,我们可以重点以两个切入点进行解决,一是针对片上缓存实施彻底优化处理。大数据应用指令等级相对较低,跳转频率较高,且不具备充分的局部性,再加上大数据通常只能使用一次,我们可以基于上述特点来降低指令缓存,并构建一个连接处理器与二级缓存的通道,以确保数据吞吐率与计算效率之间的失衡状态得到相对改善;二是提高大数据计算能力。在大数据的影响下,信息逐渐呈现出高密集化状态,这使得传统的处理器已无法满足信息处理需求。因此必须通过超级计算机来部署一个具备良好实时性的处理器,其中异构并行处理器是一项很好的选择,具体来说,也就是把R档募铀倨鞯既胫镣ㄓ么理器核心当中,在加速器的推动作用下,使数据处理过程中能够实现数据并行的效果。大数据应用过程中,对于数据的处理频率相对较高,因此必须想方设法改善节点计算效率并强化通信效率。顾名思义,大数据就是代表庞大的数据信息量,因此相应的储存模式也较为复杂,种类繁多,其中最为常见的数据储存模式为集中式存储模式以及分布共享式存储模式。为了较好地应对大数据通信频率较高这一问题,必须通过合理的手段来提高节点与节点或与设备之间的连接效率以及。对上文内容进行总结后得知,要想有效解决大数据应用中存在的问题,其中最关键的环节在于加大互联通信技术层面的研究开发力度,提高在节点连接效率优化方面的研究力度,一般可以通过两种方式来实现,一种为研发一款软硬件结合的多借口网络芯片,另一种为通过光互连技术来改善数据传送过程中的问题。

1.2硬件体系架构

在大数据中包含着海量的结构化数据、非结构化数据以及半结构化数据。这三种数据类型对应的存储方式也各不相同,结构化数据通常使用数据库结构实现存储,而非结构化以及半结构化数据的存储则更多地以依靠于不同文件与系统之间的协调与配合来实现。数据处理与数据计算是两个完全不同的过程,在数据计算的过程中,当数据加载已经结束时,则需要对各系统之间的交互频率进行合理地调整和控制,所以说应该选择单一的分布式文件系统来实现。而针对大数据的处理方式则相对来说更为丰富,同时也更加复杂,其中使用频率最高的数据处理方式有图处理以及批处理两种,这样据必须得到不同文件与系统之间的良好配合已结支持。由此可见,在设计超级计算机时,单一的文化系统完全不能满足计算机运行需求,应将多种文件组合在一起进行超级计算机系统的设计。

通过对非结构化数据的存储模式进行深入研究后可以发现,它所使用的存储结构通常为分布式文件系统。为了能够进一步提升大数据的处理效率,Google对大数据储存的文件系统进行了一定的创新,在原有基础上设计了一款具有扩展功能的GFS文件系统,创新后的文件系统在对应用层的运用下实现了对控制流以及数据量进行分离的目的,可以说是一个真正意义上的分布式文件系统,即使面对规模庞大的数据信息,该文件系统也能够实现高校的储存以及处理。GFS文件系统由以下三个基本部分构成,分别为若干块服务器、单一的主控服务器以及客户端。本论文以GFS文件系统为出发点,对目前已研发上市且具有代表意义的阿里巴巴分支ADFS系统进行了分析。在阿里巴巴的ADFS系统中,主要针对HDFSNameNode在使用过程中暴露出来的单点故障以及内存不足等一系列问题实施优化,工作原理主要为将内存中不属于热点范围内的数据转移至外部数据库当中,通过这种方式来缓解NalneNode所承受的内存压力,从而提升数据的处理质量以及效率。而在对半结构化数据以及结构化数据进行研究后发现,半结构化数据以及结构化数据在存储方式上有着十分显著的共性特征,他们通常都优先选择数据库以及分布式表结构作为存储方式,只有一些结构相对较为简单的半结构化数据更倾向于选择Key/Value分布式系统,其中较为典型的为亚马逊公司的Dynamo系统以及Facebook的Cassandra系统,亚马逊的Dynamo主要是运用Key/Value作为数据存储模式,这一存储模式相比于其它模式的优点在于具有强大的可扩展性以及可用性。Facebook的Cassandra系统同样也是采用Key/Value作为数据存储模式,通过对这一存储模式的运用进一步实现了数据存储可扩展性以及一致性的增强。

2大数据时代应用背景下编程模型的设计

在大数据时代@一背景下,编程模型所面临的挑战也是日益凸显出来,传统的编程模型也开始表现出一定的动力不足趋势,并无法满足大数据的编程要求,为了有效解决这一矛盾,必须基于大数据的特征以及需求来设计一种有别于传统编程模型的全新的编程模型。大数据时代下的编程模型必须满足简单易操作的基本原则,并在此基础上尽可能提高性能水平,构建一个清晰明确的编程抽象,确保程序员的编程工作能够更加顺畅,在这一过程中,程序员并不需要关注程序在集群中运行的具体状态以及情况,只需要针对每一项问题进行一一解决即可。在新的编程模型中,程序员的主要工作与任务在于关注一切有待解决的问题,以此来确保编程过程中各项任务的清晰化、明了化,同时还可以使代码后期的维护管理工作得到极大程度的简化,使程序员的工作更加方便、简洁、高效。此外,在构建编程模型时还应考虑到系统数据计算能力以及处理能力提升的目的,我们不仅要确保程序能够在集群上实现高效稳定的运行,同时也要保证不同类型的作业与任务能够在集群上并发运行,这样可以大大提高集群内部资源的共享有效率。但是在这一模型下,我们也会面临许多新的问题,需要后期通过探索与研究进行慢慢攻破,例如如何有效处理异构性问题、如何提升本地数据的有效利用率等。因此在基于大数据应用背景下进行新编程模型构建的同时,我们的考虑内容不能过于单一,必须综合衡量各方面的影响与利弊,在此基础上作出适当的取舍以及判断,从而构建一个简单、便捷、可靠、高效的大数据编程模型。

为了使效率得到进一步提升,超级计算机一般来说都会选择应用并行编程模型,例如Open MP以及MPI,其中,Open MP通常会与共享存储模式的融合而被广泛地应用在对称多处理器等架构的相关设备当中,而MPI所涉及的编程模型则相对来说更为复杂,一般来说需要在切换至信息通信计算模型下,要求编程工程人员针对所有的程序问题根据一定的规则进行一一分类,随后再将这些分类号的问题映射至分布式进程集合当中。Open MP以及MPI等并行编程模型并不适用于大数据的计算以及处理过程中,因此一些规模较大的互联网企业会根据自身公司的实际情况以及需求来研制具有针对性的大数据处理模型,这样一来不仅可以使工作人员的工作效率得到提升,同时也在很大程度上促进了大数据应用的有效实现。

3结语

综上所述,在大数据应用背景之下,对于超级计算机的设计可以适当导入一些高效模块结构,例如多核结构以及众核结构等。此外,宽带网络速度的提升也有利于超级计算机运行速度的改善,为其提供基本的保障条件。总而言之,在大数据时代背景之下,要想使数据处理以及计算速率得到有效提升,超级计算机的应用是必然的趋势所在,并取消以往计算机系统中的计算密集模式,取而代之的是数据密集模式。笔者相信在大家的共同努力之下,大数据应用背景下的数据处理以及计算问题自会得以有效解决。

参考文献

[1] 张听,袁晓如.树图可视化[J].计算机辅助设计与图形学学报,2012(9):1113- 1124.

第5篇

关键字:计算机;物联网;网络;应用领域;大数据

既然计算机物联网技术对于社会发展、科技进步、人类生活等多个方面都有积极的影响,那么当下我们就应该将物联网技术的进一步发展作为科研重点。物联网技术的运用不能是盲目的,它的目的是为了在满足市场需求的前提下、建立更为完善的技术产业。只有这样,才能进一步推广物联网技术。另外,物联网技术的普遍应用并不是没有生活问题的,为了使其发展的更为快速,我们需要认清当下物联网运用的特点,分析物联网包含的主要技术,还要了解当前物联网技术的一些应用领域。

一、计算机物联网概述

计算机物联网就如其名称所示的一样,是在大数据时代,将有形物体接入互联网的一种技术。计算机物联网包含两个含义,第一方面,计算机物联网技术以网络为核心。在某种程度上,计算机物联网是互联网络的扩展。众所周知,计算机物联网是在大数据时代下应运而生的,因此其另一方面的含义就与计算机信息化有关,具体来说,就是计算机物联网可以通过大量的数据,促进与客户信息交流和沟通。计算机物联网技术在世界上被公认为最有发展前景的先进创新,它就像是一笔无形的财富。

(一)从技术层次看待计算机物联网

计算机物联网仅从字面上分析是无法真正理解的,还需要从计算机物联网的技术结构、关键技术、应用领域等方面来深入探究。从技术层次上来看,计算机物联网包含感知层、网络层和应用层三大层次。计算机物联网技术的三个技术层即相辅相成。每个技术层次都包含其特有的技术的,例如,其中网络层还可以分为两大层次,即传输层和处理层,主要负责信息数据的传输工作,由私有网络、互联网、有线和无线通信网组成。感知层就如同人体的神经末梢,负责信息资料的采集,其包含的技术最为丰富,有条形码、传感器、智能机械、识别码等。网络层是信息交换与通讯的重要平台,应用也最为广泛,其中的传输层包括卫星通信、移动通讯网等技术,处理层包括GIS/GRS技术、云计算等技术。另外,计算机物联网的技术层次上还包括一些常见的感知终端,例如二氧化碳浓度传感器、温度、湿度传感器、RFID标签和读写器、摄像头、GPS等。

(二)计算机物联网关键技术

在近几年来,物联网所涉及的领域面越来越广。其实现的基础是计算机物联网所包含的一些关键技术。具体有传感器技术、RFID标签、嵌入式系统技术。所谓传感器技术,是计算机能够处理海量数据的关键,也是计算机的主要应用程序。我们知道,计算机处理的数据需要时数学信号,这就要求计算机具备将模拟信号转变为数据信号的功能,故有了传感器技术。近些年来,随着计算机物联网的发展,另一种传感器技术得以问世,即RFID标签,其是一种整合技术,主要应用于自动识别、物品物流管理等领域。计算机信息化建设使得物联网技术也在不断发展,目前已经形成一种集信息技术设备、传感器技术、一体化技术为一体的尖端技术,即嵌入式系统技术。其是计算机物联网技术发展成熟的体现,在长期的的演变、法杖过程中,嵌入式系统得以广泛运用,涉及到工业生产和国防工业,小到人类的生活,大到可以运用在卫星系统。

(三)计算机物联网的应用技术

除了传感器技术、RFID标签、嵌入式系统技术之外,计算机物联网的核心技术还包括RFID等标识技术以及云计算技术,而其应用技术的发展也尤为迅速,较为成熟的包括无线传感网络技术、射频技术、网络通讯技术等。我们知道,随着社会的发展,要想利用计算机技术更好的服务于人类,必须考虑技术的功能性,保证其能适应科技时代的进步。传统的传感器并不成熟,其无法实现功能多样性。发展至今的无线传感网络技术已经能够满足军民,主要由许多个不同的无线传感器节点组成。为了顺应科技潮流,无线传感网络技术已经在努力向微型化、智能化的目标发展。相信在不久的将来,无线传感网络技术能够实现从传统传感器到智能传感器的完全蜕变。近些年来,计算机物联网技术的发展还体现在射频技术的应用上,较常见的应用有无线射频识别技术。这类技术主要用于电子晶片、感应卡。射频技术的原理比较难以理解,需要为由扫描器发射以特定频率进行无线电波能量的发射,还要驱动接收器电路将内部的代码送出。射频技术的先进在于其接收器的特殊性,且其晶片密码为世界唯一无法复制,安全性高、长寿命。除此之外,计算机物联网的应用技术还有网络通讯技术,具体是指利用现有的计算机设备,在相关网络通讯设备的辅助下,进行图文数据的采集、存储、处理和传输。网络通讯设备可以使资源实现其效用最大化,使信息资源达到充分共享。

二、物联网的应用

(一)城市交通管理

物联网技术最初就运用在交通行业,在其技术支持下,交通管制实现智能化。例如,物联网技术可以使交通管制系统更加自动化、智能化,能进行道路交通的实时监控。能在短时间内,对公路、桥梁、公交、停车场等场所进行系统管理。可以在任意时段估测道路交通流量,及时发现事故、交通堵塞等情况,并进行快速的自动判断,从而利于采取有效的解决措施。相信在不久的将来,全世界的交通都能实现智能化。

(二)家庭生活

科学技术的发展使得社会经济发展的速度越来越大,在计算机技术的推动下,我们来到了数字化的二十一世纪。在物联网技术的带领下,我们不管是在家庭生活,还是工作中,都感受到了巨大的便捷。通过计算机物联网技术,我们过上了智能化生活。可以通过手机来职能的控制家里的电器设备。通过手机端传送指令,来远程控制电器工作、监控家里的一切。近些年来,随着物联网生活生产领域的应用,其长足发展已成必然。

(三)节能减排

计算机物联网的发展,势必会使人类的生活发生改变。因此,一些由于人类生活方式而造成的空气污染、资源浪费问题将迎刃而解。我们知道,空气污染一直是全球环保工作的棘手难题。计算机物联网技术在应对空气污染上正好发挥了是特有的功能。近些年来,已经有科研学者针对空气污染进行了合理的分析,并认为,可以通过计算机物联网技术来改善。具体是通过物联网技术,对反应空气质量的数据进行收集。与此同时,要研发出一种新型的空气实时监测系统。这样就既能通过智能的实时监测系统来进行检测工作,又能物联网技术下对空气质量数据进行自动分析、统计。

三、结论

综上所述,计算机物联网的优势显而易见。其包含多种功能,符合大数据时代的先进科技技术。就目前来看,计算机物联网在人类生活和工业中都发挥着巨大的作用。其带动着多个行业的发展,使得智能化产品走向多样化。另外,从计算机物联网在多个领域的应用可以看出,物联网技术已经逐渐成熟起来,其在未来的发展趋势十分良好。作为计算机行业的工作者,我们应该永不止步,全身心的致力于更多像物联网技术的科技项目研究。希望在不久的将来,我们能让物联网在未来发展的更为快速,让我国所自主研发的智能化设备越来越多,给我们带来更多高科技体验。

作者:谭秦红 单位:贵州省铜仁职业技术学院

参考文献:

[1]朱顺强.中国物联网发展状况分析[A].中国通信学会2010年光缆电缆学术年会论文集[C].2010年.

第6篇

关键字:大数据 情报研究 情报研究技术

中图分类号: G250.2 文献标识码: A 文章编号: 1003-6938(2012)06-0001-08

1 引言

当数据和黄金一样,成为一种新的经济资产[1],当科研处于以数据为基础进行科学发现的第四范式[2],当数据开始变革教育[3],这些无不宣告着我们已经进入了大数据(big data)时代。不同的学科领域,正在不同的层面上广泛地关注着大数据对自己的研究和实践带来的深刻影响,情报研究领域也不例外。

大数据,顾名思义是大规模的数据集,但它又不仅仅是一个简单的数量的概念,IBM公司指出,大数据的特点是4个V:Volume(大量)、Velocity(高速)、Variety(多样)及Veracity(真实),它提供了在新的和正在出现的数据和内容中洞悉事物的机会,使业务更加灵活,并回答以往没有考虑到的问题[4]。Gartner公司的报告也提出,大数据是大容量、高速和多样化的信息资产,它们需要新的处理方式,以提高决策能力、洞察力和流程优化[5]。

由此可见,大数据强调的不单纯只是数据量多少的问题,其背后隐藏了更为复杂和深刻的理念,这些理念包括:①将对数据和信息的分析提升到了前所未有的高度。这里的分析不是一般的统计计算,而是深层的挖掘。大数据时代,如何充分利用好积累的数据和信息,以创造出更多的价值,已经成为企业管理者、政府机构以及科研工作者首要关注的问题。“业务就是数据”、“数据就是业务”、“从大数据中发掘大洞察”等意味着对数据分析提出了新的、更高的要求。可以这么说,大数据时代就是数据分析的时代。②多种数据的整合和融合利用。大数据时代,数据的多样性是一种真实的存在,数据既包括结构化的数据,也包括非结构化的数据,表现方式可以是数据库、数据表格、文本、传感数据、音频、视频等多种形式。同一个事实或规律可以同时隐藏在不同的数据形式中,也可能是每一种数据形式分别支持了同一个事实或规律的某一个或几个侧面,这既为数据和信息分析的结论的交叉验证提供了契机,也要求分析者在分析研究过程中有意识地融集各种类型的数据,从多种信息源中发现潜在知识。只有如此,才能真正地提高数据分析的科学性和准确性。③更加广泛地应用新技术和适用技术。数据量大(Volume)、类型多样(Variety)、增长速度快(Velocity)是大数据的突出特点,这必然会带来数据获取、整合、存储、分析等方面的新发展,产生相应的新技术或者将已有的技术创新地应用于大数据的管理与分析。同时,大数据的这些特点也决定了传统的、以人工分析为主的工作模式将遇到瓶颈,计算机辅助分析或基于计算机的智能化分析,将成为大数据时代数据与信息分析的主流模式。

对于在数据分析领域扮演重要角色的情报研究工作而言,大数据的理念和技术既带来了机遇,也带来了挑战。一方面,在大数据时代,情报研究工作正在得到空前的重视,大数据为情报研究的新发展提供了机会,从更为广阔的视野来看待情报研究的定位,研究新技术新方法,解决新问题,将极大地促进情报研究理论与实践前进的步伐。另一方面,大数据时代本身也要求各行各业重视情报研究工作,这就必然使得众多学科有意识地涉足到以往作为专门领域的情报研究之中,并将其作为本学科的重要组成部分加以建设。文献分析(本质是文本分析)不再为情报研究所独占,以往情报研究领域积累的相关理论和方法很有可能优势不再。因此,如何把握住自身的优势,并抓住机会有所拓展,是情报学在大数据时代需要思考的问题。

2 大数据环境下情报研究的发展趋势

大数据带来的新观念,正在引报研究的新发展,而且,研究人员也在不断地从情报研究的实践中总结经验教训,引导情报研究的未来走向。英国莱斯特大学的Mark Phythian教授在2008年10月作 了题为“情报分析的今天和明天”的报告[6],指出:①获知情境是至关重要的。忽略战略环境、领导风格和心理因素等更为广泛的问题,将导致情报研究的失误;②要加强信息之间的关联。美国政府部门内部的信息共享障碍,致使分析人员无法获取充足的信息来支持分析活动,导致情报研究中的预测失败;③要汲取更多外界的专业知识。这一举措虽然不能保证分析的成功性,但将是竞争分析的重要信息来源。

综合大数据背景的要求和以往情报研究的经验教训,结合国内外同行的研究成果,本文将情报研究的发展趋势总结为以下五个方面:单一领域情报研究转向全领域情报研究;综合利用多种数据源;注重新型信息资源的分析;强调情报研究的严谨性;情报研究的智能化。

2.1 单一领域情报研究转向全领域情报研究

随着学科的深入交叉融合及社会发展、经济发展与科技发展一体化程度的增强,情报研究正从单一领域分析向全领域分析的方向发展。

首先,表现在各领域中的情报研究从视角、方法上的相互借鉴。从方法上看,社交网络分析方法、空间信息分析等其他学科的分析方法,广泛应用于军事情报、科技情报等领域,心理学等领域的理论也用于情报分析的认知过程,以指导情报分析及其工具的研发。同时,情报学中的引文分析等文献计量方法也被借鉴用于网站影响力评估。从技术上看,可视化、数据挖掘等计算机领域的技术,为情报研究提供了有力的技术视角,情报研究获得的知识反过来又给予其他技术领域的发展以引导。可见,无论从思想上、方法上、技术上,各领域之间的交叉点越来越多,虽然这种相互借鉴早就存在,但现在意识更强、手段更为综合。

其次是分析内容的扩展,这也是最为重要和显著的变化。在情报研究过程中,不仅仅局限于就本领域问题的分析而分析,而将所分析的内容置于一个更大的情景下做通盘考虑,从而得出更为严谨的结论。联合国的创新倡议项目Global Pulse在其白皮书“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是关键,基于没有代表性样本而获得的结论是缺乏外部合法性的,即不能反映真实的世界。在情报研究领域,一些数据往往因为一些不可抗力的原因而不完整,如早期的科技数据,可能由于国际形势等外部因素,导致一些国家的科技信息无法获取,基于这样缺失的分析样本来评估该国的科技影响力,如果仅就数据论数据,无疑是会得“正确”的错误结论,这时应针对这样的异常情况,将研究问题放置在当时的时代背景下,揭示背后的原因,从其他方面收集信息来补充,才能得出符合实际的结论。也就是说,必须要考察不同时间戳下的相关信息,再对分析内容加以扩充,这实质是一种基于时间轴的扩展。另外,将内容扩展至本领域的上下游则是一种更为重要的扩展。例如,考察某项技术的发展前景,如果仅就该技术本身来讨论,可能会得出正面的结论,但如果结合特定地区人们对该技术的态度、当地的技术水平、物理条件、发展定位等,却可能会得出相反的结论。这就说明,在很多领域中,环境不同,发展程度不同,要解决的问题也就不同。一些地区当前关注的问题不一定就是其他地区要关注的问题,某些欠发达地区当前不一定就必须照搬另一些所谓发达地区的当前做法。这需要通盘考察,分析相关思想、观点和方法产生的土壤、使用的条件,结合当前环境再做出判断,否则可能会对决策者产生误导。

2.2 综合利用多种数据源

综合利用多种信息源已经成为情报研究的另一大发展趋势。Thomas Fingar[8]从军事情报角度指出,军事情报界需要综合利用人际情报、信号情报、图像情报和外部情报,进行全资源分析(all-source analysis),即利用多种不同的信息资源来评估、揭示、解释事物的发展、发现新知识或解决政策难题。科技情报界也是如此,如利用科技论文和专利,发现科技之间的转换关系、预测技术发展方向,综合利用政府统计数据、高校网站、期刊、报纸、图书等来评估大学等科研机构。可见,综合利用多种信息源是从问题出发,系统化地整合所有相关信息资源来支持情报研究,信息源可以是学术论文、专利等不同类型的文献集合、文本和数据的集合也可以是正式出版物与非正式出版物的集合等。

这一发展趋势是由几大因素决定的。一是情报研究问题的复杂性。在大数据背景下,情报不再局限在科技部门,而成为全社会的普遍知识。公众对情报的需求使得情报研究问题更为综合,涉及要素更为多元,同时也更为细化。这导致单一数据源不能满足分析的要求,需要不同类型的信息源相互补充。例如要分析科技之间的转换关系,就避免不了涉及科技论文和专利这两种类型的信息源。二是各种信息源的特性。不同信息源可以从不同角度揭示问题,如专利、研究出版物、技术报告等,可以较为直观地反映研究者对某科技问题的理解与描述,而评论文章、科技新闻、市场调查等,可以反映出社会对该科技的观点、认知情况[9]。因此,各类信息自身的特性就说明他们之间可以、也需要相互补充。此外,从现实角度来看,通常会遇到某些信息无法获取的情况,这就需要别的信息加以替代,这就从实践角度说明了综合利用多种信息源的必要性。三是分析结果的重要性。以评估大学为例,评估的结果会引导各学校在比较中发现自身优势和差距,指导未来发展定位,同时也为广大学生报考提供参考。可见,研究结果对社会的影响是广泛而深远的,要做到分析结果的可靠性、科学性,必然先要从源头上,即分析数据上加以丰富完善。

综合利用多种信息源也意味着诸多挑战。首先分析人员要熟悉每一种信息资源的特性,了解相似信息在不同资源类型中是如何表现的,不同信息源相互之间的关系是怎样的。其次,针对待分析的问题,要选择适合的信息,并不是信息越多越好,类型越全越好,尤其是当问题含糊不清时,可能需要不断地调整信息源。再次,情报研究人员要能有效地综合、组织、解释不同信息源分析出的结果,特别是当结论有所冲突的时候,识别不当结果、保证分析结果的正确性是很重要的。

2.3 注重新型信息资源的分析

随着网络应用的深入,出现了许多新型的媒体形式。Andreas M. Kaplan等人将构建于Web2.0技术和思想基础上,允许用户创建交换信息内容的基于网络的应用定义为社会化媒体(Social Media),包括合作项目(如维基百科)、博客、内容社区(如YouTube)、社交网站、虚拟游戏世界和虚拟社会世界(如第二人生)等六种类型[10]。这类媒体形式依托于Web2.0等网络技术,以用户为中心来组织、传播信息,信息可以是用户创造性的言论或观点,可以是围绕自己喜好收集的信息资源集合等。由于社会化媒体的易用性、快速性和易获取性等特点,它们正迅速地改变着社会的公共话语环境,并引导着技术、娱乐、政治等诸多主题的发展[11]。这些通过庞大的用户社区来传播的高度多样化的信息及其网络结构,为洞悉公众对某一主题的观点、研究信息扩散等社会现象[12]、预测未来发展方向[11]等提供了机会,有助于发现有共同兴趣的社群、领域专家、热点话题[13]等,带来了网络舆情分析等研究内容。此外,这类信息结合其他类型的数据,产生了新的情报研究领域。例如,智能手机的普及和GPS的广泛应用,使得可以从社交网络和网络交互数据、移动传感数据和设备传感数据中获取社会和社区情报(social and community intelligence,SCI),揭示人类行为模式和社群动态[14]。

此外,机构知识库等作为一种反映组织或群体知识成果的智力资源,也正引报界的重视。网络信息联盟的执行董事Clifford A. Lynch[15]从大学的角度指出,成熟完整的机构知识库应包含机构和学生的智力成果(包括科研材料和教学材料)以及记录机构自身各项事件和正在进行的科研活动的文档。这暗示着学术界从过去只关心科研成果正逐步转向关注科研过程。从机构知识库中,可以发现隐藏其中的科研模式、揭示目前科研状况的不足,引导机构未来科研的发展走向等。但现有的机构知识库工具还缺乏帮助人们理解和分析这些资源的机制[16],在大数据环境下,加强这方面的研究也是必然趋势。可以预见,随着科技的发展和应用的深入,还会不断的有新型资源出现,并不断促进情报研究的发展。

2.4 强调情报研究的严谨性

情报研究活动在宏观层面上是一种意义构建(sensemaking)[17],依赖于分析人员根据已有知识构建认知框架(frame),通过对认知框架的不断修正来达到理解的目的[18]。这意味着情报研究活动本身带有很大的不确定性,很多因素影响着情报研究的有效性。如何使情报研究工作更加严谨,减少情报分析的不确定、提升情报成果的质量,正成为学术界当前普遍关注的问题。情报研究严谨性(rigor)不等同于分析结果的正确性,它衡量的是情报研究的过程,是指在情报研究过程中“基于仔细考虑或调查,应用精确和严格的标准,从而更好地理解和得出结论”[19]。美国俄亥俄州立大学的Deniel Zelik[20][21]从评估角度,给出了8个指标来衡量分析过程的严谨性:假设探索、信息检索、信息验证、立场分析、敏感度分析、专家协作、信息融合和解释评价。从这几项指标看,信息检索和融合是从分析信息源上消除不全面性;假设探索是要使用多种视角来揭示数据和信息;信息验证侧重于数据的溯源、佐证和交叉验证;立场分析强调分析的情境性;敏感度分析指分析人员要了解分析的局限性,目的是从分析方法上消除主观影响;专家协作是防止分析结果受分析人员自身的学科背景或经验带来的偏差;解释评价是要正确对待分析结论。可见,情报研究的严谨性意在消除人的主观偏见,用更为客观的视角对待情报研究。如果说之前的情报研究活动依赖专家的个人判断,带有较为强烈的主观色彩,那么走向严谨性的情报研究活动正逐步转变为一门科学。

在大数据背景下,情报分析的严谨性,不仅体现在理念上,还暗含了对技术的要求。面对海量数据,自动化的技术手段必不可少。当信息的检索更多的是借助检索系统,而不是人工的收集,信息融合更多依赖数据仓库等技术手段,如何在这样的分析环境中将情报研究的科学性落到实处,是需要关注的问题。可以看到,利用技术本身已经在一定程度上避免了人的主观性,但面对同样一个问题,可以有不同的技术手段,也可能产生不同的结果,如何避免由技术产生的偏见,也许通过多种技术手段或采用不同的算法,全方位地展示信息内容及其之间的关系,从而避免产生信息的误读,是一个解决方案。可见,在大数据时代,情报研究需要多种手段来加强其分析过程的科学性,而这又需要多种技术方法加以支持。

2.5 情报研究的智能化

大数据背景下的情报研究,对技术提出了更高的要求。正如美国国家科学基金会(NSF)的报告[22]所说,美国在科学和工程领域的领先地位将越来越取决于利用数字化科学数据以及借助复杂的数据挖掘、集成、分析与可视化工具将其转换为信息和知识的能力。对于情报研究来说,应用智能化技术能自动进行高级、复杂的信息处理分析工作,在很大程度上把情报研究人员从繁琐的体力劳动中解放出来,尤其在信息环境瞬息万变的今天,及时收集信息分析并反馈已经变得非常重要,这都需要智能化技术加以支撑。从信息源来讲,情报研究对象得以扩展,其中可能包含微博等社会化媒体信息,可能包含图片、新闻等,大量非结构或半结构化数据的涌入,必然需要技术将这些数据转化为结构化数据,以供后续分析。同时,多元化的信息,需要根据分析需求加以融合,这可能需要语义层面上的技术支持。从分析需求来讲,简单的统计分析已不能满足现在社会的决策需求,需要从大量信息中发现潜在模式,指导未来的发展,这就涉及数据挖掘、机器学习等技术。此外,要寻求情报研究的客观性,摒除过多的主观意愿,也需要多种技术来支撑。可见,这一发展趋势是大数据时代下的必然。而各国在积极建设的数字化基础设施,也在推动着情报研究的智能化,如欧洲网格基础设施(European Grid Infrastructure,EGI)[23]项目就致力于为欧洲各领域研究人员提供集成计算资源,从而推动创新。

目前,对情报研究中的智能化技术没有统一的界定,但概观之,可以将情报研究智能化的本质概括为定量化、可计算、可重复。定量化是针对过去情报研究更多的是依赖人的主观判断,即基于已有文字材料或数据,根据研究人员的经验等给出粗略的结论,如果说这是一种定性化分析,现在更多地依赖通过计算机自动化处理原始材料并获得潜在数据,并在此基础上辅以人的判断,可以说是一种定量化的分析。可计算是指将各种信息资源转化为计算机可理解、处理的形式,如从新闻、论文、专利等中,提取出科研组织、科研人员等实体,再基于这些结构化的、富有语义的信息,采用统计、数据挖掘等方法加以计算,获取隐含的知识。可重复是指自动化分析技术消除了许多主观因素,从理论上讲,如果分析数据等条件一致,分析结论也应该是一致的,这也体现了智能化技术为情报研究带来客观性的一面。

3 情报研究中的技术问题

情报研究的上述发展走向,决定了情报研究既不能仍然停留在定性分析上,也不能仅仅靠简单的统计替代情报研究中的计算技术,由此对情报研究技术提出了新的要求。美国McKinsey Global Institute在2011年5月了研究报告“大数据:创新、竞争和生产力的下一个前沿领域”(Big data: The next frontier for innovation, competition, and productivity)[24]。报告分六个部分,其中第二部分讨论了大数据技术,并围绕大数据分析技术、大数据技术和可视化三方面进行了阐述。在大数据分析技术中,列举了26项适用于众多行业的分析技术,包括A/B测试、关联规则学习、分类、聚类分析、众包(Crowdsourcing)、数据融合和数据集成、数据挖掘、集成学习、遗传算法、机器学习、自然语言处理、神经网络、网络分析、优化、模式识别、预测建模、回归、情感分析、信号处理、空间分析、统计、监督学习、模拟、时间序列分析、无监督学习和可视化。这些技术绝大部分是已有的技术,也有部分是随着互联网的发展以及对大规模数据挖掘的需求,在原有技术的角度发展起来的,如众包就是随着Web2.0而产生的技术。

根据我们的理解,这些技术大致可以划分为可视化分析、数据挖掘以及语义处理三大类。这三大类技术也是当前情报分析领域应予以关注和深入研究的技术。

3.1 可视化分析

可视化分析(Visual Analytics)是一门通过交互的可视化界面来便利分析推理的科学[25],是自动分析技术与交互技术相结合的产物,目的是帮助用户在大规模及复杂数据内容的基础上进行有效的理解,推理和决策[26]。它不同于信息可视化,信息可视化关注计算机自动生成信息的交互式图形表示,关注这些图形表示的设计、开发及其应用[27],而可视化分析在此基础上加入了知识发现过程,关注自动分析方法及其选择,以及如何将最佳的自动分析算法与适当的可视化技术相结合,以达到辅助决策的目的。

目前的情报分析系统,虽然也提供了多种视图来揭示信息,但更多的是一种分析结果的呈现,系统内部分析、处理的机制对分析人员来讲是个黑匣子,分析人员无法了解分析方法、分析结果的局限性或者有效性,这无疑不符合情报研究严谨性这一发展要求。同时,现有的分析工具需要分析人员输入各种繁杂的参数,又缺乏对情报分析认知过程的支持,这就对使用人员的专业化程度提出了较高的要求,增加了分析的难度。而可视化分析则可以较好地解决这一问题,它整合了多个领域包括采用信息分析、地理空间分析、科学分析领域的分析方法,应用数据管理和知识表示、统计分析、知识发现领域的成果进行自动分析,融入交互、认知等人的因素来协调人与机器之间的沟通,从而更好地呈现、理解、传播分析结果[28]。佐治亚理工学院的John Stasko等人应用Pirolli 等人提出的情报分析概念模型[29],建立了一个名为Jigsaw(拼图)的可视化分析系统[30],并将其应用于学术研究领域(涉及期刊和会议论文)以及研究网络文章(如网络新闻报道或专题博客)领域,也说明了将可视化分析技术应用于情报研究的可行性。

将可视化分析技术应用于情报研究领域,有众多问题要解决。首先,在情报研究工具中,是以自动化分析为主,还是以可视化为主?Daniel A. Keim等人将待分析的问题分为三类,第一类是在分析过程中可视化和自动化方法可以紧密结合的问题,第二类是应用自动化分析潜力有限的问题,第三类是应用可视化分析潜力有限的问题。在研究这三类问题中交互程度对分析效率影响的基础上,Daniel A. Keim等人指出,应分析如何通过考虑用户、任务和数据集特点,来确定可视化和自动分析方法的优化组合,从而达到最佳的效果[31]。可见,要将可视化分析技术应用于情报研究领域,需要明确每类问题适用哪种组合方式。其次,情报研究领域适合使用哪些可视化交互手段?这可能包括原始分析数据、析取出的关系数据、深层挖掘的模式数据等的可视化手段,分析人员与系统交互的方式,分析过程的可视化展示等。第三,情报研究领域中的认知过程是什么样的,关注哪些问题,涉及哪些实体,在大数据环境下面临哪些认知困难,需要在哪些环节加以支持,这些困难能否通过技术来解决。此外,从现有的可视化分析技术来看,主要是将各个相关领域的技术以优化的方式整合起来,但在将来会产生一体化的可视化分析解决方法[32],这种一体化的方法可能是什么形式,又会对情报研究带来怎样的影响等等,都是在情报研究中引入可视化分析技术需要关注的。

3.2 数据挖掘

广义的数据挖掘指整个知识发现的过程,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它涵盖了数据分析和知识发现的任务,从数据特征化与区分到关联和相关性分析、分类、回归、聚类、离群点分析、序列分析、趋势和演变分析等,吸纳了统计学、机器学习、模式识别、算法、高性能计算、可视化、数据库和数据仓库等领域的技术,并可以用于任何类型的数据,包括数据库数据、数据仓库等基本形式,也包括数据流、序列数据、文本数据、Web数据、图数据等其他类型的数据[33]。

从数据挖掘的涵义看,它与情报研究有着天然的联系;从数据挖掘的方法看,有其特定的含义和实现过程,可以有效地解决情报研究的问题。例如,情报研究可以借鉴关联规则发现的成功案例——超市的“啤酒+尿布”,尝试用关联规划来分析研究主题的相关性,从科技论文与专利的关联中发现科技的转换关系等等。但从目前的情报研究成果看,许多还仅仅停留在简单的频率统计、共词计算层次上,在知识发现的过程中,这些工作仅仅是数据挖掘的数据准备,还有待于更为深入的发掘。可见,数据挖掘能够也应该应用于情报研究领域,这不仅是数据挖掘应用扩展的结果,也是情报研究自身发展的需求。此外,由于较少有专门针对情报研究领域研发的挖掘工具,现有情报分析通常借助于其他工具,不同工具的功能不同,这就导致常常同时使用好几个分析工具,如在使用SPSS进行聚类分析的同时,还使用Ucinet分析社会网络。这带来的问题是,分析缺乏完整性,可能社会网络和其他信息之间有关联,因为工具的分割性,就导致潜在模式的丢失。由此,研发适用于情报研究的挖掘工具,是必要也是紧迫的,尤其是面对大数据的挑战,智能化地辅助分析人员,减少认知压力,是亟待解决的问题。

要解决以上的问题,首先需要研究情报分析任务,分析哪些问题是可以使用数据挖掘技术来支持的,这类问题有哪些共同点、特殊性,能否对未来可能的情报分析问题进行扩展,哪些问题不适用于数据挖掘技术,原因是什么等。其次,对于某类或某个分析问题,使用哪种数据挖掘技术或几种技术的组合才能有效地解决,涉及的算法是否需要针对该问题进行适应性改造,如何评价挖掘的结果等。第三,数据挖掘出现了交互挖掘这一发展趋势,即构建灵活的用户界面和探索式挖掘环境[33],这与可视化分析在某些方面上也不谋而合,这样的趋势会对情报研究带来哪些影响,如何在这一背景下,探索情报研究工具的新发展,寻找情报分析的新模式,值得我们关注。

3.3 语义处理

语义是关于意义(meaning)的科学,语义技术提供了机器可理解或是更好处理的数据描述、程序和基础设施[34],整合了Web技术、人工智能、自然语言处理、信息抽取、数据库技术、通信理论等技术方法,旨在让计算机更好地支持处理、整合、重用结构化和非结构化信息[35]。核心语义技术包括语义标注、知识抽取、检索、建模、推理等[34]。语义技术可以为信息的深层挖掘打好基础,即通过对各类信息的语义处理,在获取的富有语义的结构化数据上使用各种数据挖掘算法来发现其中的潜在模式。数据的语义性支持了机器学习等技术的内在功能[36]。

从现有的情报研究实践和工具看,语义支持的缺失是一个普遍问题,这其中又可划分为两个层次。对于传统的情报研究对象,如科技论文、专利等,有较为成熟的分析工具,但这些工具往往缺少深层次的语义支持。例如,要分析论文的内容主题时,需要从摘要等自由文本中提取出主题信息,在数据处理时,常常无法识别同义词、近义词等,需要人工干预。一些工具虽然在语义方面做了努力,但仍然存在诸多不足,例如在形成的主题聚类结果上,缺乏有效的主题说明,自动形成的主题标签不具有代表性,需要分析人员深入其中重新判断等。这在小数据集环境下,还可以接受,当面对大数据的冲击,这种半自动化的处理方法无疑是耗时又费力的。此外,对于新型情报研究对象,如网络新闻、博客等,已有如动态监测科研机构等的系统工具,但总体来说还处于起步状态,目前较多的还是依赖人工筛选出所需信息,并整理成结构化的数据,同样也不利于大规模的数据分析。这些问题的存在,使得消除语义鸿沟(semantic gap)[37],应用语义技术成为广泛需求及必然。

将语义技术应用于情报分析,需要关注以下几方面的内容。首先,分析情报研究任务的特点,了解它的语义需求,是否存在规律性的准则以供指导分析工具的研发,这既需要原则性和方向性的准则,也需要为针对多维度划分出的各类任务给出详细的规范,例如,对微博等社会化媒体,其中既存在高质量的信息,也存在辱骂等低质量的信息,区分这些信息并筛选出高质量信息,就成为在分析社会化媒体中的语义任务之一。其次,语义资源建设问题,即在情报分析领域中,要实现语义层面上的理解,是否需要建设语义资源,如果不需要,哪些技术手段可以代替,如果需要,哪种类型的语义资源可以便捷、快速、高效地构建,并且这种语义资源应该如何构建,如何使用才能有效地服务于情报研究工作。第三,信息抽取问题。科技信息涉及众多学科的专业术语、各种科研机构、组织等,如何使用语义技术将这些信息准确地提取出来并加以标注,尤其是针对不同类型的信息源,采用什么样的抽取策略等。第四,信息整合问题,即如何使用语义技术,把不同来源的数据对象及其互动关系进行融合、重组,重新结合为一个新的具有更高效率和更好性能的具有语义关联的有机整体,以便后续分析。

4 结语

正如本文引言中所谈到的那样,大数据的理念和技术为情报学领域中情报研究的理论和实践带来了机遇,也带来了挑战。机遇巨大,挑战更大,需要我们对此有清醒的认识。本文分析了大数据背景下情报研究的若干发展趋势,总结了情报研究中值得关注的技术问题,以期能为促进情报研究的理论和实践的发展添砖加瓦。

参考文献:

[1]Big Data,Big Impact[EB/OL].[2012-09-06]..

[27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,

2(4):387-403.

[28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.

[29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL]. [2012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.

[30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012

-09-16].http:///fil

es/Sandbox/victor/jigsaw-VAST07.pdf.

[31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.

[32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.

[33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.

[34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.

[35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images

/studien/proceedings-common-value-management.pdf#page=19.

[36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.

第7篇

关键词 大数据时代 研究生培养质量 反馈

中图分类号:G643 文献标识码:A DOI:10.16400/ki.kjdkz.2015.08.023

Postgraduate Education Quality Feedback Thoughts in Big Data Era

ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao

(Harbin Engineering University, Harbin, Heilongjiang 150001)

Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.

Keywords: big data era; postgraduate training quality; feedback

近年来,随着信息技术的飞速发展,大数据、云计算、慕课、翻转课堂、颠倒教室等信息化时代的新名词如雨后春笋般不断涌现出来,2013年被媒体称为“大数据元年”,大数据时代已经来临。数据科学家舍恩伯格提出:“现有的认知和体系是建立在稀缺数据上的成果,人们思维和工作方式必须发生变革以适应大数据时代的到来”。①在新时代来临之际,教育的各个环节面临着重新洗牌的可能。

1 大数据时代

1.1 大数据

“大数据”概念源于20世纪90年代,随着互联网技术的发展,大数据的内涵由“无法用传统方法进行分析的数据集合”逐渐转变为“具有超强决策力、洞察力和流程优化能力,与先进数据处理方式紧密相关的海量、多样的信息资产”。②在一定条件下,可通过先进计算机技术,对此类信息资产进行有目的的设计与分析,揭示隐藏其中的各类信息,为我们进行研究、决策、管理提供可靠依据。

大数据具有以下特点:(1)大量性。大数据的数据信息量巨大,有人称其起始计量单位至少是P(1000个T)。(2)价值性。大数据具有很高价值,但其价值密度低,通过先进技术在海量信息中提取高价值信息是大数据发展的关键。(3)繁杂性。大数据的类型多样,包括文本资料、网络日志、图片、音频、视频、搜索信息等各类结构化、非结构化及半结构化数据。(4)高时效性。很多大数据信息要求处理速度快,高时效性是大数据区别于传统数据挖掘的显著特征。

1.2 大数据时代

大数据时代是指基于大数据的各类信息及其相关技术发展与创新的信息时代,社会各领域的决策逐步由传统的经验决策转变为数据决策、由注重因果关系转变为相关关系。大数据时代开启全新的时代,逐步影响着我们的生活、工作和思维,并且正在深刻改变传统社会的商业、教育模式。

大数据时代具有以下特点:③(1)信息生产泛在。信息的产生无时不有、无处不在,存在人类生产生活的各个领域,大数据的生产过程以及相应挖掘技术呈指数增长。(2)信息民主公开。绝大多数的数据产生于公共开放的网络环境中,所有人可以是信息数据的生产者也可以是消费者。(3)反馈信息及时丰富。各类新型信息分析技术可对巨量数据及时分析判断,为信息反馈工作提供了无尽可能。(4)信息具有相关性。数据信息在理论上能在各个维度无限使用与传播,能在各种不同系统与应用中传递,在不同的环境中与不同数据有机结合能表达完全不同的涵义。(5)引导社会发展无限可能。如果说工业化时代使得机械力迅速增长,拓展了人类体力边界;那么大数据时代使得智力无限增长,让人类社会与处理信息充满了无尽的想象空间。大数据时代,人类社会的各个领域即将或正在发生变革,以“慕课”为代表的教育领域也正在经历一场革命。

2 研究生培养质量反馈工作

研究生培养质量是指在一定环境下研究生培养工作的各类特性总和,主要由培养过程质量(如教师授课质量、导师指导水平等)和产出成果质量即教育产品或服务的质量(如研究生科研成果质量、创新能力以及服务社会的质量等)有机组成。④研究生培养质量反馈机制指对研究生培养工作起调节指导作用的机制,即研究生培养“输出”的研究生培养质量“反作用”于研究生培养工作各环节,指导研究生培养工作的过程。

我国研究生培养单位历来重视研究生培养质量反馈工作,各个培养单位做法不尽相同,或成立研究生培养质量管理部门管理或邀请校外专业评估机构或相应管理部门开展以座谈、问卷调查等方式的基于样本数据形式的质量评价工作。目前,研究生培养质量反馈工作普遍存在以下问题。

(1)反馈主体相对单一。一方面,在研究生培养质量反馈工作中,研究生培养单位是质量反馈工作的实施者,政府、行业机构或者专业的调查机构参与较少。另一方面,在研究生培养单位中,实施培养质量反馈工作的部门主要是就业和研究生管理部门,而这些部门的职能很多,难以投入大量精力从事培养质量反馈工作。缺少社会参与、培养单位精力有限,难免出现反馈工作不科学,反馈信息不全面、不准确的现象。

(2)质量反馈意识不强。多数研究生培养单位的工作重心在研究生的过程管理以及就业管理方面,注重研究生的培养过程质量和产出成果质量,对培养质量反馈工作的重要性认识不足,未能系统全面思考研究生培养质量反馈工作,常常造成研究生培养质量反馈工作流于形式,导致反馈信息不够全面及时,无法有效指导研究生培养管理工作,研究生培养工作与社会需求脱节。

(3)反馈机制不系统。目前,各个研究生培养单位在研究生培养的日常工作中,对研究生培养质量反馈工作进行了许多有益尝试,如采取研究生评教、专家评教、座谈、问卷调查等方式来改进管理工作,但这些工作多数停留在“头疼医头脚疼医脚”的层面,各项工作相对独立,反馈结果难以有效利用,效率低下,反馈机制不成体系。往往是就业部门的反馈工作仅限就业部门使用,未能将反馈信息及时应用到研究生培养及其他相关部门,各部门间的质量反馈工作相互脱节。

(4)信息采集方式落伍。现行的信息采集方式一般为调研,是培养质量反馈工作的重要内容,现行调研工作一般采用问卷调查、座谈会以及电话调研等传统方式进行,但传统调研形式存在以下局限性:一是被调研者当时状态影响调研结果,不同环境下被调研者的状态也有不同,造成调研结果与实际情况存在误差;二是调研群体代表性不强,传统调研方法选取一定数量样本进行调研,其必然无法代表全体;三是信息调研工作量较大,信息采集费时费力,同时要对采集到的信息进行分析研究;四是信息采集量不全面,调查问卷、座谈等调研不能设计太多问题,许多被忽视的信息可能对研究生培养质量有重大影响;五是传统调研工作过分强调因果关系,不注重相关关系。

研究生培养质量反馈工作与数据紧密相关,而大数据时代则为研究生培养质量反馈工作的研究与发展提供了无限可能。

3 大数据时代下研究生培养质量反馈工作的变革方向

大数据时代的特点决定了现阶段研究生培养质量反馈工作存在的问题将逐步解决,同时,研究生培养质量反馈工作的深度与广度必然将逐步发生相应的转变以适应形势发展。

(1)反馈信息数据采集方式不断拓展。传统研究生培养质量反馈机制相关数据一般来源于调查问卷、座谈会、访谈以及相关信息统计等经典调研手段,大数据时代的数据采集工作不仅可以使用传统调研手段获取,绝大多数是从研究生的日常学习、生活信息以及身体信息中获取,将来有可能出现从研究生幼儿学会说话的时间来判断研究生的创造潜力,也有可能从研究生中学时期的习惯、爱好来判断其科研潜力。同时,以往研究生培养工作尤其是课程教学工作中,由于缺乏相应数据支撑特别是对研究生数据的全面、深入分析,研究生培养工作往往形成整齐划一的“工业流水线”,培养的是“标准件”,研究生的个性差异和创新能力培养得不到充分体现,而在大数据时代,研究生的所有学习行为都被网络“神不知鬼不觉”地采集下来,研究生培养单位依据采集的数据对培养过程实时进行动态调整,针对每位研究生的不同特点实施个性化培养。⑤

(2)数据分析统计方法不断改进。一般质量反馈工作常采用传统统计方法通过普通计算机或手工方式来处理结构化数据,而大数据时代的数据可以是半结构、非结构数据,其统计分析以相关关系为基础展开,数据分析统计方法也随着现代计算机技术的发展而不断改进。⑥

(3)研究生培养质量反馈机制逐步深化。随着大数据时代的来临,研究生培养管理过程与现代计算机网络技术的联系愈加紧密,不断发生变革,如研究生课程教学的慕课冲击、研究生学位论文的要求、研究生学位论文盲审系统的开发使用等,研究生培养管理过程的“在线化”变革必然导致相应的研究生培养反馈机制的逐步深化。同时,对于实施培养质量反馈工作的管理者来讲,应提高个人数据素养,努力学习数据分析的基本原理和方法,发现并搜集反映研究生培养各个环节运行状态和存在问题的状态数据,加强其基于数据来进行决策和采取相应措施来保证研究生培养质量的自主性。

(4)教育第三方全面介入。大数据时代,数据挖掘分析技术飞速发展,研究生培养单位已没有能力依靠自身实力对研究生培养质量的大量相关数据进行深度挖掘。而作为数据挖掘分析见长的第三方,如专业数据挖掘公司、专业研究生培养质量评估机构甚至是学校计算机网络中心必将不断开发技术、拓展业务,与研究生培养单位围绕研究生培养质量反馈工作开展全面合作,担负研究生培养质量数据的挖掘与分析工作,为研究生培养质量反馈工作提供技术支持。

(5)研究生培养工作各单元逐步融合。对于国家的教育系统来讲,研究生教育属于顶层教育,前期各层次的教育质量无不对研究生培养质量产生重要的影响,大数据时代将使得研究生培养质量反馈工作不再单纯局限于研究生培养阶段,应将整个教育过程如幼儿教育、小学、初中、高中以及大学等个层面的教育纳入其中,将其作为一个系统来通盘谋划。对于研究生培养单位来讲,研究生培养质量反馈工作不应局限在研究生管理部门,应结合研究生的招生、培养、就业乃至校友沟通等各个层面,加强研究生各层面研究生培养数据资源的整合是大数据时代研究生培养单位在研究生培养质量反馈工作的重点。

注释

① 舍恩伯格.大数据时代[M].袁杰,译.浙江人民出版社,2012.

② 杨旭,汤海京等.数据科学导论[M].北京理工大学出版社,2014.

③ 郑毅.大数据时代的特点[J].新金融评论,2012(1).

④ 占志勇,侯彦芬等.基于系统论的研究生课程教学机制探讨[J].黑龙江高等教育研究,2013(9).

第8篇

(1武汉轻工大学数学与计算机学院 湖北 武汉 430023 2重庆交通大学 重庆 400074)

摘 要:针对桥梁健康监测获取海量数据却无法实时精确地监测评估桥梁结构状态的困难性,本立足数据挖掘算法理论,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,通过实验室缩尺模型工程实例验证了理论的有效性。实验结果表明,与传统的串行分类算法相比,基于Hadoop平台的并行分类算法具有较好的扩展性,并取得了基于大数据理论的桥梁监测技术研究的革新。

关键词 :Hadoop平台;大数据;KNN文本分类算法;HDFS

中图分类号:U445 文献标识码:Adoi:10.3969/j.issn.1665-2272.2015.05.036

0 引言

随着桥梁事业的蓬勃发展,多数桥梁上建立了健康监测系统,可以通过传感器获取各种环境下的反映结构响应行为的信息,期间从各个监测点收集的数据量可达到GB级,而面对海量数据却不能及时得到反映桥梁结构状态的有效信息,桥梁结构监测系统的分析与处理不能及时完成,大数据概念和大数据技术的适时出现提供了一个分析处理桥梁监测历史数据的途径。Hadoop作为一个开源的云计算平台提供了分布式文件系统HDFS和并行编程模型Map/Reduce,以其高容错性、高伸缩性等优点允许用户将Hadoop部署在大量廉价的硬件上,人们可以充分利用集群的存储和高速运算能力,完成海量数据的处理,其中包括海量文本数据的分类问题。分类算法是一种重要的数据挖掘算法,该模型通过对海量样本数据进行训练能把未知类别的样本映射到给定类别中的某一个,以此判别桥梁状态所属类别,K近邻(K-Nearest Neighbor,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。

云计算提供的海量数据存储和分布式计算能力在数据挖掘以及相关领域中是一种非常受青睐并且有效的方法,结合大数据技术和数据挖掘算法—KNN文本分类算法进行桥梁健康监测,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,使用分布式文件系统Hadoop Distributed Filesystem来存储原始文档(已分类的数据)和待分类文档(监测数据),将文件读写和分布式并行计算框架MapReduce相结合实现KNN文本分类,将监测点的监测数据分到已有的工况中,并据此判断监测点属于何种工况,以便采取相关措施对桥梁进行维护,以此来探索基于大数据技术的桥梁监测分析处理的方法。

1 大数据及其应用平台

“大数据”是一个体量很大,数据类别多样的数据集,并且这样的数据集无法用传统数据库工具对其内容进行抓取、管理和处理,主要具有数据体量巨大;①数据类别大; ②数据来自多种数据源, 囊括了半结构化和非结构化数据; ③数据处理速度快,在数据量非常庞大的情况下, 也能够做到数据的实时处理;④数据价值密度低,价值密度的高低与数据总量的大小成反比。如何通过强大的机器算法更迅速地完成数据的价值“提纯”并通过对海量数据进行分析获得有价值的数据成为目前大数据背景下亟待解决的难题。

Hadoop是Apache软件基金会旗下的一个开源分布式计算平台及分布式处理的软件框架,主要用来处理大量数据,它实现了MapReduce一样的编程模式和框架,能在由大量计算机组成的集群中运行海量数据并进行分布式计算。处理的海量数据能达到PB级别(1PB=1024TB),并可以让应用程序在上千个节点中进行分布式处理。以Hadoop分布式文件系统(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的开源实现)为核心的Hadoop为用户提供了系统底层细节透明的分布式基础架构。HDFS的高容错性、高伸缩性等优点允许用户将Hadoop部署在低廉的硬件上,形成分布式系统;MapReduce分布式编程模型允许用户在不了解分布式系统底层细节的情况下开发并行应用程序,所以用户可以利用Hadoop轻松地组织计算机资源,从而搭建自己的分布式计算平台,并且可以充分利用集群的计算和存储能力,完成海量数据的处理。MapReduce 是大规模数据(TB级)计算的利器,Map和Reduce是它的主要思想,来源于函数式编程语言,Map负责将数据打散,Reduce负责对数据进行聚集。它的流程如图1所示。

2 K近邻文本分类算法

K近邻(K-Nearest Neighbor,KNN)文本分类算法是基于训练集的文本分类算法,是一个理论上比较成熟的方法,也是最简单的机器学习算法之一。该方法的思路是:计算一个点A与其他所有点之间的距离,取出与该点最近的k个点,然后统计这k个点里面所属分类比例最大的,则点A属于该分类。根据加权距离和判断测试样本所属的类别的具体过程如下:

假设给定有m个训练样本集D,每个样本具有n个属性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第几个训练样本。

(1)设定k的值,k最近邻的数量;

(2)把测试样本表示成测试文本向量X(ω1,ω2,…,ωn);

(3)根据下式计算测试样本与训练集中所有样本的相似度:

公式(1)中di为训练样本,X为测试样本。

(4)对根据步骤(3)计算出的m个相似度进行排序,选出k个最大值,作为X的近邻;

(5)根据公式(2)收集这k个最近邻的类别,

公式(2)中X表示测试样本,sim(X,di)为相似度计算公式,y(di,Cj)为类别属性函数,即如果di属于类别Cj,那么函数值为1,否则为0。

(6)对步骤(5)计算出的值排序,将测试样本分到值最大的类别中去。

3 工程实例

3.1 实例模型

本次工程实例根据云南黑冲沟特大桥全桥作为原型建立,使用的数据是由桥梁实验室的缩尺模型上建立的监测系统收集到的,原型立面图(见图2)。

试验获得以下三种工况的加速度时间序列:工况一,跨中无裂缝,模拟无损伤情况;工况二,跨中具有0.1mm裂缝,模拟有损伤情况;工况三,跨中有0.12mm+0.03mm两条裂缝情况,模拟损伤加剧情况。

根据本次动力学试验的研究目的,确定试验的主要测试内容为模型结构关键部位加速度,该测试项目可采用压电加速度传感器进行量测,采用重锤敲击的方式,给模型提供激励,来模拟完成脉动试验,采样频率为18.8Hz,在激振器开始激振5s后进行采样,采样时间为50s,获取各个测点的加速度数据,特征选择方法采用文档频率,k取30。

3.2 文档预处理

本次工程实例的样本数据是通过缩尺模型重锤敲击获取的加速度数据,监测系统收集了不同工况下的监测数据,对损伤前即健康状况,损伤后0.1mm裂缝和损伤加剧0.12mm+0.03mm裂缝进行样本数据训练分析,获取不同的损伤情况下各个监测点的分类情况,得出每个监测点的损伤情况,实验选定0.12mm+0.03mm两条裂缝情况下采用小车激励的方式获取该工况下的加速度时程信号作为待分类数据,通过对监测数据的分类,判定其是否存在损伤。

待分类文档节点中,WCDMapper继承hadoop平台的Mapper类,并重写map方法对待分类文档进行读取,并统计每个词出现的次数;WCDReducer继承hadoop平台的Reducer类,并重写reduce方法对待分类数据进行写操作。WCDMapper类的map方法和WCDReducer类的reduce方法分别如下,处理后的待分类文档如图3所示,前面一个是数据,后一个数字是该数据出现在待分类文档的次数。后面的原始文档经过预处理后也与此相似。

由于MapReduce只输出一个结果,而每个原始文档都采用MapReduce处理会增加代码量和内存的消耗,所以本文采用Hadoop平台提供的FileSystem、FSDataInput-Stream、FSDataOutputStream类来对原始文档进行相应的读写,最后输出到文档中的内容与图4.2相似,而文件读取方式不同。最后需要将它们合并到一个文档中,采用Hadoop平台提供的FileSystem、FSDataInputStream、FSDataOutputStream类来对文件进行读写。输出的matrix文件如图4.3所示,每一行的第一个数为监测的数据,后面的数字为该数据在每个文档中出现的次数。

3.3 特征选择

根据上一步得到的文件,计算每个数据的增益值,对每一个数据的信息增益进行从大到小排序,最后把增益值最大的个特征项输出到文件。本次设计中选取的为100,输出到文件的内容如图5所示,每一行只显示1个数据。

3.4 文档向量化

原始文档和待分类文档都需要向量化,原始文档向量化之后需要归一,而待分类文档向量化之后不需要归一,所以给他们分别提供了一个向量化的类。从文件中读入特征项。参数文件存储经过特征选择后剩下的特征项。

原始文档经过向量化之后,输出到每个文档的内容不一样,图6是文档名为0向量化后的部分内容。待分类文档的向量化后不需要归一化,输出到文档的内容如图7所示。

3.5 分类

此步骤计算原始文档和待分类文档向量两个向量的夹角的余弦。最后的绝对值越大,说明夹角越小,越相似,距离越近。在训练文本集中选出与新文本最相似的个文本,这个文档中属于哪一类的文档最多,则待分类的文档就属于哪一类。map( )方法获取待分类文档的向量,reduce( )方法输出结果到文件中。分类的结果表示待分类的文档属于哪一类,也即是该监测数据来源的监测点的损坏情况属于哪一类。本次实验选定0.12mm+0.03mm两条裂缝情况,采用小车激励的方式获取该工况下的加速度时程信号,数据分类结果如图8所示,该结果显示待分类的文档属于损伤0.1mm这一类。

3.6 结果分析

在上一步中已经获得了待分类文档分类的结果,此分类结果的数据只是监测数据的一部分,而且在分类中由于KNN分类的值选取没有较好的方法以及其他影响因素,获得的结果可能有误。因此将监测点传来的数据拆分到若干个带分类文档中,同时对这些文档进行分类。分类完成之后再对分类结果进行整合分析,获得最终的有效的结果即该监测点准确的损伤情况。Map( )方法读取各个待分类文档分类的结果,并对结果汇总加以分析,获得监测点数据最后的分类结果,reduce( )方法将最后的有效结果写入文件。最后的输出结果如图9所示。

综上所述,基于MapReduce编程模型的桥梁监测信息分类技术可以有效判别桥梁状态所属类别,由于HDFS将大数据分割成了若干个blocks存储在不同的节点上,这样KNN分类算法由一个主机的运算分散到多个节点并行处理,每个节点完成T个任务,时间复杂度为O(ns)/T,其中n为训练样本的总数,s为特征属性数模,应用HADOOP平台的分布式处理框架大大降低了算法的时间复杂度。

4 结论

本文针对桥梁健康监测系统历史数据无法有效利用,无法通过海量数据实时精确地监测评估桥梁结构状态的困难性,基于数据挖掘算法理论,提出了基于大数据的桥梁健康监测信息分类研究技术的革新,在Hadoop平台下运用KNN文本分类算法对桥梁结构缩尺模型加速度数据进行分类分析,采用分布式文件系统HDFS对监测数据进行存储和访问,应用Map/Reduce并行计算框架对桥梁各环境参数进行计算,将文件读写和分布式并行计算框架MapReduce相结合实现KNN文本分类,将监测点的监测数据分到已有的工况中,并据此判断监测点属于何种工况,实现了桥梁监测海量数据的存储、访问、分类以及桥梁结构健康状况的判别,Hadoop平台下的KNN算法实现了分布式并行计算,提高了算法运行时间效率,降低了时间复杂度,通过实验室缩尺模型实验验证了方法的有效性。

存在的不足之处是值的选择,值选择过小,得到的近邻数过少,会降低分类精度,同时也会放大噪声数据的干扰;而如果值选择过大,并且待分类样本属于训练集中包含数据数较少的类,那么在选择个近邻的时候,实际上并不相似的数据亦被包含进来,造成噪声增加而导致分类效果的降低。如何选取恰当的值也成为KNN的研究热点,尚需进一步改进。

参考文献

1 黄荷.大数据时代降临[J]. 党政论坛,2012(11)

2 金鹏. 基于Hadoop的SINN文本分类算法的设计与实现[D]. 武汉:华中师范大学硕士学位论文,2013

3 李登荣.文本分类及其相关技术研究[D].复旦大学博士论文,2005

4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)

5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)

6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)

7 (英)维克托·迈尔-舍恩伯格,肯尼思·库克耶著.大数据时代[M]. 北京:人民出版社,2012

8 向小军,高阳,商琳,等.基于Hadoop平台的海量文本分类的并行化[J].计算机科学,2011(10)

9 (美)Tom White著. 周敏奇,王晓玲,金澈清,钱卫宁译. Hadoop权威指南(第2版) [M]. 北京:清华大学出版社,2011

10 万川梅,谢正兰. 深入云计算:Hadoop应用开发实战详解[M]. 北京:中国铁道出版社,2013

11 张宁,贾自艳,史忠植.使用KNN算法的文本分类[J].计算机工程,2005(6)

第9篇

关键词:大数据;高校应用;发展方向

1大数据概要

近年来,当人们还对物联网、云计算、移动互联网等热词感觉新颖的时候,大数据(BigData)也横空出世并呈燎原之势。大数据是一个体量大、数据类别多的数据集,并且这样的数据集不能用传统数据库工具对其进行处理。如果说传统数据库时代的数据管理方式是“池塘捕鱼”,那么大数据时代的数据管理方式则是“大海捕鱼”,大数据管理方式,不仅在数据规模、数据类型、数据模式、数据对象处理工具上和传统数据模式有着明显的差异,它还能让我们以一种从未涉足过的方式,对巨量数据进行分析,从而能帮助我们获得更有价值的产品和服务,最终形成影响社会发展的变革之力。

2高校管理中的大数据初步应用

据教育部统计截至2013年,全国共有普通本科院校879所、普通高职(专科)院校1266所、国家批准设立的独立学院287所(不含军事院校和港澳台院校),每所高校学生人数都破万,每名学生都存在学籍、选课、考试、考勤、学费、学分等各种数据;对于教师有教师基本信息、职称、论文、课件、考题等数据。故高校信息系统是数据生产大户,长期运营积累下来的数据就是高校中的大数据,合理利用这些数据,不仅可以帮助教学管理,减轻教学工作中的事务性工作,更能提高招生推广活动,改变教学领域的授课和学习模式,不论高校自身,还是社会各界,都能从高校中的大数据应用受获益匪浅。

2.1个性化学习

从孔孟时代开始,我们就提出了因材施教,个性化学习也是教育所追求的最高目标。要实现这目标,首先要了解受教育对象的长处、短处,各种特点。但目前高校扩招,一个教师教多个教学班,很难去了解每一个学生的特点实施教学,将大数据挖掘技术与日常教学相结合,通过可视化的在线学习平台,学生自主选择自己感兴趣的课程学习,就能够实现满足个性化学习的功能。学生在自主学习平台上的学习资料,交流互动信息,每个知识点不同的学习进度等,通过大数据技术对这些个性化信息的分析拓展,不仅能帮助学生完善知识结构,更能加快学生对自身兴趣爱好的挖掘和特长的培养,在整个教育信息化的大背景下,只有基于大数据技术才能更好地实现这种学习方式,充分利用大数据技术,可以为各地高校带来更具有针对性的教育方式,能够实现尽可能早的将学生的天赋创造力释放出来。

2.2教学质量评估

教学质量评估是全国每个高校定期要做的事务性工作,其目的是通过不同渠道,包括老师,同学,行政部门等不同角度对教学评估,以期发现教学工作、管理工作中存在的各类问题,并及时地通过调整教学方案等手段来改正完善,达到提高教学质量的目的。在教育评估系统中引入大数据技术,不仅从时间成本上节约,更能加强评估的科学性,增强了教育数字化建设的实效性。在教学质量评估中利用基于大数据挖掘的智能算法,我们就可以根据教师教学互动、多媒体课件的效果、学生积极性等因素中找出其中的内在联系,就能为教学评估部门提供客观的、科学的、符合实际的决策支持信息,为教师提供准确的反馈信息,使之更好地开展教学工作,提高教学质量。

2.3专业培养方向拓展

大数据技术是新兴的,但它却又发展迅速,朝夕之间,大数据技术应用到了各行各业,面对大数据带来的挑战与机遇,国内各大高校根据各个行业的大数据分析,可准确评估出未来几年社会需要的专业性人才方向,如数据采样量大,完整,还能直接分析出各个专业的需求人数,从而更好地开设专业培养方向,适当调整专业招收人数,以免再现前几年出现的入学时,专业很火爆,到学生毕业时,却又人才过剩。

2.4分析决策

一切要拿事实说话,在做重大决策时候,我们更需要用事实,用数据来参考。在实际运用中,我们通过高校业务管理方面的专家,在不考虑数据结构化问题的前提下,将理念累积的管理知识整理,并转化成数据知识,形成数据中心知识库,再利用大数据技术,对数据进行收集、分类、抽取、清洗、转换,提取出我们需要的数据,以新的组合形式储存到数据仓库中。在数据仓库的基础上,建立通用的和面向主题的分析平台,实现从不同的维度进行统计分析,最终实现为不同层次决策者们提供数据支持。

2.5心理咨询

互联网移动应用的普及,学校论坛、微博公共平台上每天都会产生主题,评论等数据,对这些数据进行科学的存储分析,可从中分析出师生的思想情况、情感走向和行为动态,再利用这些行为动态,建立师生情感模型,便可以掌握师生的心理健康程度,有针对性地加强对师生的心理辅导。目前高校信息系统数据因早期规划,数据平台不一致等问题,普遍存在数据的质和量都不高,许多高校的数据仅停留在记录保存上面,对数据很难分析和利用而想要充分利用大数据技术,提升高校的信息化水平,就必须要有保质保量的数据来源,这就要求高校业务必须和计算机技术紧密结合,并且需要不断迭代更新,跟上技术发展的脚步。目前的情况来看,高校大数据应用还存在着一些问题,还需要进一步地修正和探索。

参考文献:

[1]维克托迈尔舍恩伯格.大数据时代[M].杭州浙江人民出版社,2013

第10篇

1大数据背景下中国当代文学的现状

经数据研究表明,海量数据主要是通过云计算技术进行处理,该技术当前在当代文学研究中得到广泛应用,比如中国知网,论文标题中包含有“大数据”字眼的数据明显增加,2013年以前,数据变化并不十分明显,在2013到2016年之间,论文数量高达10000篇,增长明显。国务院对社会发展中大数据的应用予以重视,并坚持认为,在现代化发展中,大数据技术已经成为必然的选择。大数据技术不仅给社会经济发展带来影响,同时也带动了人文社会科学的研究,国外许多发达国家早已利用大数据技术进行文学研究,例如通过统计数据来对文学图标进行绘制,从而揭示出文学秘密[2]。当前,中国许多学者也纷纷展开利用大数据技术来进行当代文学的研究,主要是通过两个方面展开:第一,探讨在大数据时代背景下当代文学的研究方法,在对文学作品进行阅读和阐述时,人脑和电脑之间的合作性和交融性。第二,在大数据时代下各学科之间的研究关系分析。在2005年,《文学遗产》中指出,“在文学研究领域中应该借鉴社会学中先进的数据统计方法,比如开设统计学、电子信息等课程,在路径研究、知识结构方法的设计中弥补学科欠缺之处[3]。计算机真正在社会普及之前,早已有相关文学研究者在对《红楼梦》研究中通过大数据进行分析,对于《红楼梦》小说前八十章与后四十章节的内容是否为同一人所写提出有价值的问题,并通过数据加以论证,说明数据分析方法早在古代文学领域中进行了研究。而与此同时,利用大数据技术对语言学、文艺学及网络文学等领域的学术研究已经成为术界的热门话题。经过对中国知网的检索发现,在大数据背景下关于中国当代文学研究和发展的论文数量仍然较少,从文章内容上来看,大部分仅对中国当代文学研究和大数据之间的一般问题进行讨论,缺乏深入的研究。在中国当代文学研究中,研究方法和研究思维一直都具有创新性和先进性,学者们将西方新思想和理论在文学史研究中加以应用,但在大数据时代下,给当代文学的研究带来了新的机遇和挑战。

2大数据背景下中国当代文学的发展

2.1中国当代文学的数字化

大数据时代背景下,首要的是建立数据库,目前我国在文学领域中的数据库建设方面仍然较为落后,目前常用的数据库包括中国知网、上海图书馆等,这些大型数据库中所包含的专业与学科较为广泛,对于古代文学专题研究数据较多,如《全唐诗》《四库全书》等,但对与当代文学学科专业研究很少,因此对于当代文学数据库的建设是必然的,也是必要的[4]。从当前已经建设的数据库来说,仅仅是完成了从纸质图书向图像转变的过程,可以根据关键词搜索,但无法对全文进行检索,仅仅完成了数字化的转变。在谷歌服务器中,将文本数字化扫描,并存储到高分辨率的图像文件中,使纸质图书内容转变成数字文本,但这些数字文本并不能通过关键词搜索查找,也就不能直接进行分析,只能通过人为阅读的方式才能对信息进行转化。随着大数据技术的进一步发展,谷歌浏览器通过采用光学字符识别软件,即可以对数字图像进行在线识别,从而完成对数字图像文件的数据化转变。但就目前而言,当前中国许多数据库仍然停留在数字化发展时期,并没有深入地完成向数据化转变的过程,进而对中国当代文学的研究带来了深远的影响[5]。

2.2大数据时代背景环境下中国当代文学新的发展路径

在传统数据下,主要是通过局部或是抽样数据的方式来研究人文、社会及自然科学,凭借以往的经验或是理论方法进行假想和推测,难以获得实证数据,同时存在一定的滞后性[6]。大数据时代下,在文学研究领域中主要是通过对字频或词频进行统计,通过搜索关键词进行检索和研究。例如在当代文学研究中,通过检索“反封建”“新思想”“启蒙运动”等关键词,利用数据统计这些关键词的使用频率,从而分析出我国文学观念演变的过程。例如在2013年,在研究文学和历史之间的发展问题中,通过检索“资产阶级”“影响”等字词的出现和使用频率,利用大数据进行统计分析,从而体现出资产阶级文学的更替和变迁。这种研究方式是一种复杂的文学史研究问题,即不仅是通过统计思想关键词,另外还可以统计诗歌意象,或是文学意象等,分析出文学史实变化情况。“大数据+文学”是一种以别样姿态发展的过程,人们在对当代文学中更应该看到文学本质属性,以及在文学作品中所蕴含的文学精神,并以更丰富的思想面貌呈现出来,从精英化向大众化意识形象进行转变,给当代文学的生存和发展模式带来多样化的影响。例如在互联网时代下,互联网技术给人们的政治、文化与生活等都带来了巨大的变化,知识分子从社会中心地位逐渐走向社会发展边缘,给当代文学的创作方式也带来了冲击,逐渐向商业化、娱乐化等方向发展,如何能够被消费者和市场所接受成为作家首要考虑的问题,呈现出严重商业化倾向[7]。其次,大数据技术和互联网技术打破了空间和时间限制,网络文学点击量明显增长,网络文学作品的数量也随之增加,和传统文学作品相比较而言,虽然网络文学带来了新的突破,实现了创作自由化,文学创作空间得到拓展,文学承载方式不再是通过文字来进行描写,也不仅是通过单一的流通渠道,网络数据已经成为文学领域在运营中的重要环节,说明大数据作为一种新兴力量,逐渐从文学外延向中心扩展,产生新的文学形态。而大数据背景的发展加快了网络信息的传播速度,目前网络信息已经构成文学领域的重要维度,不再只是文学的一种传播渠道,而成为当代文学活动中的重要组成。有学者认为,我国的当代文化已经逐渐从印刷文化改为视觉文化,海量的网络数据在文化领域中以一种新的文学形态出现,大数据已经渗透当代文学的内部。

3结语

在大数据背景下,大数据技术、互联网技术和中国的当代文学领域之间具有复杂的联系,对中国当代文学的发展带来了新的机遇和挑战,使原有文化结构发生改变,推动了文学传播,拓展了文学研究深度和广度。总体而言,大数据技术已经成为当代文学的重要组成,大数据背景下所带来的新的思维方法,给中国当代文学的发展带来新的革命,在新环境下,未来必然是要对自身进行重构与发展,对原有的文学形态进行重新塑造。

第11篇

云计算、物联网和互联网的快速发展,使得数据量以极快的速度增长,大数据成为研究热点。大数据的价值产生于分析过程,所以大数据挖掘与分析是整个大数据处理流程的核心。本文介绍了大数据数据体量巨大、数据类型繁多、价值密度低、处理速度快的4V特征、以及基于这些特征的大数据挖掘与分析需要解决的关键技术。

关键词:

大数据大数据分析大数据挖掘可视分析

随着云计算、物联网和互联网等技术的快速发展,各种移动设备、传感网络、电商网站、社交网络时时刻刻都在生成各种各样类型的数据,大数据时代已经到来。大数据即数据体量巨大、数据类型多样、数据的质量低、处理速度迅速的数据。大数据分析的核心是从大量数据中获取有价值的内容,更准确、更深层次的知识,而不是对数据简单的统计和分析。

1大数据的定义与特征

大数据已经进入了我们每个人的生活,各行各业都在讨论如何发展和运用大数据,那么什么是大数据,大数据的特征是什么?大数据是指所涉及的数据规模巨大到无法通过目前主流的软件工具在合理时间内撷取、管理、处理、挖掘这些数据,并整理成为企业经营决策有用的信息。IBM提出大数据的4V特征,得到了业界的广泛认可。第一,数量(Volume),即数据巨大,从TB级别跃升到PB级别;第二,多样性(Variety),即数据类型繁多,不仅包括传统的格式化数据,还包含来自互联网的大量视频、图片、位置和日志等;第三,速度(Velocity),即处理速度快;第四,价值性(Veracity),即追求高质量的数据。大数据具有4V特征,给人们带来了新的机遇与挑战。

2大数据挖掘与分析的意义

在大数据处理的过程中,数据分析是核心,因为大数据的价值全部在数据分析过程中产生。互联网、硬件等技术迅猛发展,加深了人们对数据分析的需求。如果大数据是一种产业,赚钱的重点在于如何提高数据的分析能力,通过分析发现数据的更多潜在的价值。在大数据时代,数据分析是数据价值发现的最重要环节,也是决策的决定性元素。传统的数据分析主要针对结构化数据,且已经形成一整套非常有效果的分析体系。但是在大数据时代,半结构化和非结构化数据量的快速增长,给传统的分析技术带来了巨大的挑战和冲击。大数据分析于传统数据分析有哪些区别呢?

3大数据挖掘与分析的关键技术

大数据挖掘与分析的关键技术一般包括:大数据采集、大数据预处理、大数据存储及管理、大数据实时处理、大数据可视化和应用等。

3.1大数据采集技术大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层重点攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层重点攻克提供大数据服务平台所需的虚拟服务器、数据库及物联网络资源等处理技术。

3.2大数据预处理大数据预处理是指在大数据挖掘前期对大数据进行的一些提前处理。预处理包括数据清理、数据集成、数据变换和数据归约等几种方法(表1)。大数据的特点是数据量大,但并没有增加数据价值,相反增多了数据噪音,有很多数据放在存储器里就没再用过。数据量的突然增加,各种媒体数据被任意碎片化。在应对处理大数据的技术挑战中,大数据的降噪与清洗技术值得高度重视。早期主要是结构化数据的挖掘,可从数据库中发现时序知识、关联知识和分类知识等。在大数据时代,数据库已经不能满足人们的需求了。大数据中数据类型繁多,我们进入了一个非结构化数据挖掘时代。因此,非结构化数据模型是大数据预处理的重要研究方向。

3.3大数据管理大数据不断地从复杂的应用系统中产生,并且将会以更多、更复杂、更多样化的方式持续增长。多样化的物联网传感设备不断地感知着海量的具有不同格式的数据。物联网系统中大数据的复杂化和格式多样化,决定了物联网系统中针对大数据的应用场景和服务类型的多样化,从而要求物联网大数据管理系统必须采用特定技术来处理各种格式的大数据,而现在针对特定数据类型和业务的系统已经无法满足多样化需求,因此,设计新的具有可扩展性的系统架构已经成为大数据管理的研究热点。

3.4大数据实时处理根据大数据速度快的特点,时间越长,数据的价值也在不断衰减,因此很多领域需要对数据进行实时处理。大数据时代,伴随着各种应用场景的数据分析从离线转向了在线,实时处理的需求不断提高。大数据的实时处理面临着一些新的挑战,主要体现在数据处理模式和算法的选择及改进。

3.5大数据可视分析大数据可视分析是指在大数据自动挖掘的同时,融合计算机的计算能力和人的认知能力,利用人机交互技术和可视化界面,获得大规模复杂数据集的分析能力。在大数据时代,大数据可视化是必须尽快解决的关键问题,为大数据服务的研究指明了方向。

4结语

传统数据处理方法已经不能满足大数据挖掘与分析的需求。近年来,大数据挖掘与分析领域已经出现了很多新技术,并成为大数据采集、存储、处理和呈现的坚实基础。但是对大数据分析的价值尚缺少深入的理解,大数据分析中的很多重要技术还不成熟,还有很多其他关键技术难题需要去继续研究。

参考文献

[1]韩晶.大数据服务若干关键技术研究[D].北京邮电大学博士学位论文,2013.

[2]程学旗,靳小龙,王元卓等.大数据系统和分析技术综述[J].软件学报,2014,25(09):1889-1908.

[3]任磊,杜一,马帅等.大数据可视分析综述[J].软件学报,2014,25(09):1909-1936.

[4]McKinseyGlobalInstitute。Bigdata:Thenextfrontierforinnovation,competition,andproductivity[J],2011.

第12篇

关键词:科技期刊;媒体融合;知识服务;精准传播

近年来,随着计算机技术的进步,科技期刊出版正在经历着前所未有的巨大变革。目前,信息技术已呈现出“人-机-物”三元融合的态势,数据分析工具和基于云计算的数据资源成为期刊出版的重要特征[1],期刊出版的数字化和集群化发展成为当下期刊发展的主流趋势,人工智能也将在学术期刊的出版、存取、质量评价等多个环节上得到广泛应用,并推动科技期刊出版方式的变革[2]。目前,在科技期刊界,学者们就如何促进科技期刊媒体融合发展开展了大量的研究,既包括理论层面的探讨,又包括从实践和案例的角度开展的应用研究[3-6]。与此同时,我们注意到,全球的科学产出以极快的速度增长,从第二次世界大战结束以来,全球的科学产出相当于每9年就会翻1番[7],读者也更容易被无用的信息轰炸,难以在期刊论文的海洋中高效准确地找到自己需要的内容,科技期刊要想扩大自身的影响力也愈来愈难。信息爆炸时代,科技期刊关注读者“需要什么”比“提供了什么”更重要。在智能技术变革的时展潮流中,科技期刊应如何顺应时展趋势,利用智能技术整合资源,更好地满足读者的需求,扩大期刊的影响力,创造科技期刊人、出版商、作者、读者的共赢局面?本文从以上问题切入,尝试从扩展学术搜索的路径、构建个性化的精准推送平台和多元化的传播模式、向用户提供有针对性的服务方面探索在媒体融合形势下如何提升科技期刊的精准传播能力,以期为我国科技期刊媒体融合建设增瓦添砖。

1借助人工智能,扩展学术搜索的路径

互联网时代改变了人们获取信息的方式,搜索引擎在促进科技期刊的传播、提高影响力等方面的功能逐渐凸显。虽然现有的一些搜索门户网站诸如Webofscience、PubMed、谷歌学术、各图书馆网站、中国知网、万方数据知识服务平台等搜索引擎可以帮助读者检索科技论文,但是仍不能满足用户多样化的检索需求。Tancheva等[8]针对康奈尔大学图书馆开展的一项调查研究发现受访者“往往既对搜索方法的效率感到满意,同时又对搜索的棘手和费力感到不满……当研究人员无法完成一个特定的搜索任务,他们很可能放弃现有的方法(或工具或技术),而不是找出如何使它工作”。为了解决这一问题,需要开发新的模式解决学术出版的过量负载,利用智能技术优化搜索引擎的现有功能。目前很多科技公司都在探索开发基于人工智能的学术搜索引擎和知识服务。例如Springer网络平台不断对其功能进行集成,并提供个性化服务功能;Elsevier等出版商为用户等提供搜索引擎培训课程;微软学术(MicrosoftAcademic)通过在实体之间建立有意义的关联,自动生成可视化的知识图谱,引导学者阅读[2];2014年,Wiley线上图书馆为用户提供了增强型HTML文章服务(AnywhereArticle),它将可读性、交互性和可移植性设为用户体验的核心,使读者能够在页面中快速找到最重要的信息[9]。一些关于科学出版的新模式和平台被相继开发,如Chorus[10]通过集成服务和开放APIs,优化了科技论文被搜索的路径,并为政府机构、出版商、研究人员、图书馆员和作者提供可持续的解决方案。目前我国已经形成一些专业的期刊集群,一部分学术期刊数据库平台也开始进行语义出版形式的探索,对科技期刊内容进行深度加工和挖掘。不同的科技期刊具有不同的特点,在学术期刊的数据库平台建设过程中需要平台开发团队与期刊编辑充分交流[11],发挥编辑的优势和主导作用,凸显本学科的学科特色。

2利用智能算法,构建个性化的精准推送平台

技术是科技期刊创新发展的重要推手,技术应用能力也成为科技期刊发展的竞争资源,充分利用技术强化科技期刊的知识服务和加工能力,创新出版和传播模式,满足数字化时代的读者需求,对于科技期刊的精准传播和融合发展非常重要。在人工智能背景下,可以借助于算法实现科技期刊出版的智能化。算法的设计程序与设计者的思维密不可分,设计者选择数据样本、赋予数据意义、设计模型与算法,拥有数据并设定算法的智能化平台具有很强的主导性[12],因此设计者需要尽可能考虑并消除算法偏见和利益冲突对精准传播带来的负面影响。日前,腾讯研究院和腾讯AILab联合的人工智能伦理报告指出“人工智能等新技术需要价值引导,做到可用、可靠、可知、可控”[13]。目前“智能算法+学术期刊”已成为创新趋势,学术期刊可构建信息数据基础环境,进一步完成动态精准信息推荐,最后以传受关系交互实现长期有效的黏性连接[14]。一方面可以通过算法整合资源,实现大量科技期刊的数字资源的聚合;另一方面可以通过算法分析用户的阅读兴趣、研究领域,基于用户的需求建立相关用户数据信息,从而进一步将数字资源和用户数据相匹配,实现科技期刊的智能化精准传播。如中国知网推出的“CNKI全球学术快报”整合全球文献和超星集团推出的“域出版”超星学习通学术平台[15],用户不仅可以在其App上进行文献检索、分版阅读、专题阅读等,还可以与作者进行互动交流。此外,还可以利用智能算法设计追踪用户的信息反馈,通过学术平台进一步增加用户的体验感,提升科技期刊的精准传播能力。

3创新知识加工,构建多元化的传播模式

在人工智能和融媒体时代,除了运用智能技术构建个性化的知识服务平台,科技期刊也需要充分发挥社交媒体的作用,通过加强期刊网站建设、建立App客户端、微信、微博等新媒体传播平台,可以根据各自领域的特点,对科技论文进行多次加工和编辑,构建个性化的传播方式。如论文编辑平台Kudos为作者提供了一种利用社交媒体使他们的论文更易下载和传播的工具,通过为作者已发表的文章创建介绍并添加简短的标题、易懂的摘要和补充内容,可以使他们的文章对读者更具吸引力[16],学术出版平台也可以通过建立二维码,为读者提供开放增值服务,使读者进一步了解论文的数据、图片等资料,实现与用户的精准对接。如中国煤炭行业知识服务平台为该平台上的每篇论文制作了二维码,用户阅读纸刊论文时,通过扫描其中的二维码可以免费下载PDF、HTML文件,此外读者还可以通过扫描二维码向作者提问或向责任编辑反馈意见[17]。目前,邮件推送也正在成为科技期刊提升精准传播能力的一个重要手段,国内一些期刊在这方面做了大胆的尝试。例如:《计算机工程》基于语义分析和智能分词等技术,设计了一套期刊内容精准推送系统,将读者—文章—标准关键词进行匹配,通过邮件为潜在读者推送与其研究方向相关的最新研究论文[18];《应用生态学报》通过运用大数据和数理统计方法,构建了科技期刊论文单篇推送客体指标体系,通过邮件对读者进行单篇精准推送,取得了较好的传播效果[19]。此外,利用音频、视频、科学可视化等多媒体技术可以在短时间内表达丰富的科学信息,增加科技论文的广泛传播。如虚拟现实/增强现实(VR/AR)为读者提供沉浸式的阅读环境,提升读者的体验感,从而吸引了更多读者的关注。中国科学技术大学王国燕博士及其团队开展的前沿科学可视化研究和设计,使科技论文通过图像的形式向读者展现,提高了科技论文的交流和传播,她通过对顶级科技期刊《Nature》《Science》《Cell》的一项实证研究发现,科技期刊封面故事和封面图像的使用可以提高论文的引用率[20]。《上海大学学报(自然科学版)》借助第三方AR展示平台实现了学术期刊的多模式AR融合出版,取得了很好的效果[21]。

4满足用户需求,提供有针对性的服务