HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 大数据分析论文

大数据分析论文

时间:2022-05-24 20:01:46

大数据分析论文

第1篇

[关键词]CSSCI引文分析科学计量学可视化图谱

[分类号]G306

1、导言

科学知识可视化图谱是在信息技术的推动下发展出来的一个新领域,当前已经成为科学计量学的一个新热点。陈悦和刘则渊认为科学知识图谱是显示科学知识的发展进程与结构关系的一种图形,它是揭示科学知识及其活动规律的科学计量学从数学表达转向图形表达的产物,是显示科学知识地理分布的知识地图转向以图像展现知识结构关系与演进规律的结果。Katy Borner等综述了知视可视化历程,对引文分析领域进行了可视化研究。安伟峰、熊润芝、周云平等、徐佳宁等、刘艳苏等以及叶协杰众多学者也利用不同的中文数据库、不同的方法以及不同时期对我国的引文分析研究状况进行了研究。虽然中外学者都从不同角度研究了引文分析领域,但是中文引文分析领域的可视化研究几乎还没有开展。本文拟对中文引文分析这个领域运用可视化工具来做一个清晰的描绘。

2、数据及方法

本论文研究所用的数据来源于CSSCI数据库。笔者于2008年4月24日以“引文分析”为检索词在CSSCI中检索到1998-2007年间527篇文献,共得到3 328条引文。

下载这些检索记录,通过对数据进行仔细辨认和合并,利用大连理工大学刘盛博编的中文处理软件对CSSCI数据进行格式转换,变为Bibexcel、UcinetCitespace等软件可处理格式,然后利用这些软件对记录中的关键词、作者、来源期刊、被引作者、被引期刊等进行分析或绘图。

3、统计结果与分析

3.1关键词分析

527篇论文中,共有2133个关键词,对出现3次以上的97个关键词进行共现分析,利用Ucinet,计算中心性,再利用Netdrw绘制这些关键词共现网络,得到图1。通过对关键词的分析,可得出我国引文分析领域的主要研究内容。

从图1可以看出,节点越大,表示中心性越高。中心性较高的一些词有引文分析、SCI、CSSCI、文献计量学、影响因子,期刊评价等。两个节点之间的连线粗细代表关键词共同出现的次数,连线越粗,就是共同出现的次数越多。与引文分析共同出现次数较多的词有文献计量学、期刊评价、载文分析、作者分析等。

3.2作者分析

在527篇论文中,共有682名作者,表1是发表4篇以上的作者及其工作单位。

从表l可以看出,引文分析领域发文4篇以上的作者有29人,其中24人是与图书情报信息有关的,1人与医学有关。南京大学有9人,中国科学技术信息研究所4人,中国科学院文献情报中心有2人,北京大学有2人,浙江大学科技部2人,其余各1人。

3.3来源期刊分析

527篇论文分布在106种杂志中,发表在前20种杂志中的论文数为390,占总论文的74.7%,也就是说20%左右的杂志中包括了大约80%的有关引文分析的论文,基本符合“二八”律,可以认为这些杂志是发表引文分析论文的核心期刊。可以看到前20种期刊大都是图书馆学、情报学的核心期刊。表2显示出引文分析领域的文章除了多数发表在图书情报类的杂志上外,还有很多发表在与科学学、科技管理有关的核心期刊上。

3.4被引作者分析  对527篇论文的3 328条引文进行分析,发现有1280位作者被引证,平均每位作者被引频次2.6次。在这庞大的作者群中,被引频次最高的30位作者的总被引频次为731次,占总被引频次的21.97%,平均每位高被引频次作者被引频次24.37次。利用Citespaee软件绘图,得到图2,显示了我国引文分析领域的高频被引作者情况,图3显示了引文分析领域的重要文献。

从图2和图3中可以看出,较大节点的作者是在引文分析领域有突出作用的作者。影响最大的是武汉大学中国科学评价研究中心的邱均平,其主要代表作是1988年出版的《文献计量学》一书。王崇德、罗式胜、丁学东三人也出版了有关文献计量学的专著。庞景安《科学计量研究方法论》一书,详细介绍了引文分析在科学计量学中的应用。梁立明、蒋国华也出版了有关科学计量学的专著。有些集体作者,如中国科学技术信息所、中国社会科学索引课题组、中国科技论文统计与分析课题组、南京大学中国社会科学研究评价中心,这些课题组对我国的引文分析研究也有极大的影响和促进。金碧辉、武夷山、孟连生、朱献有、马费成等人也有突出的贡献,他们的单篇论文的被引频次也很高。姜春林、邹志仁、程刚、袁培国、钟旭、党亚茹、崔雷的研究也各有特色。

3.5被引期刊分析  3 328条引文分别来自918种杂志和其他类型文献,包括专著、报告、网页等。但是被引前20种杂志中的引文有1 346条,占总引文的40.4%,表3显示被引前20种期刊大多都是图书馆、情报学的核心期刊。《科学学研究》、《科学学与科技管理》等杂志的被引用说明科学学也对引文分析有较大的影响。有380条外文引文,占总引文的11.4%;有160条网页引文,占总引文的48%,其中680条引文都只被引一次,以上说明引文分析对别的学科的知识吸收还是相对较少,吸收较多的还是图书情报学、科学学、科学计量学、管理学、编辑学的知识。

4、我国引文分析存在问题及对策

4.1 中国引文分析存在问题

4.1.1 引文分析研究缺乏核心作者 引文分析在我国的研究历史只有30多年,还没有引文分析的核心作者,虽然有许多专家学者,也有很高的被引频次,但是他们都是图书情报领域的先贤,而引文分析则是依附于文献计量学存在的,大部分的著作都与文献计量学和科学计量学研究相关。因此,表现出引文分析理论研究少,应用研究多,方法简单;方法研究上简单统计多,指标模型少;应用研究用于评价的多,管理的少;研究图情、医药领域较多,其他领域少。

4.1.2数据样本的选择缺乏科学性引文分析是力图根据统计特征找出文献生产、传播等规律,从而进行更深入的研究,为决策提供量化依据。统计特征的出现要求有足够的样本量,足够明确的研究对象,足够大的时间跨度。而国内正式发表的有关引文分析的论文普遍存在着样本量小、时间跨度短、学科代表性差等问题。

4.1.3 中文引文分析可视化困难我国的引文分析可视化的进展不大,虽然近年来掀起了引文分析可视化的热潮,但是大多是对来自Web of Science数据的可视化,而以中文出现的知识图谱则不是太多。

4.1.4 中文的引文数据局限性 中文引文数据库有一定的局限性,如CSSCI中的数据从格式到录入出现了很多不统一及错误,如有的引文写错著者姓名、发表年份、出版社等等。在本研究中对这些现象作粗略的统计,其中年份写错或不写的占总引文的3.1%,不写出版社或期刊的占6.2%,不计算其他格式不统一,引文的错误总计在数据库中几乎达到10%。这样就给研究的统计工作带来很大的困难。

4.2 中国引文分析现状成因

4.2.1 理论基础薄弱首先,引文分析起初是当作文献计量学的一种方法被引入的,由于其使用起来简单易行,大多数学者只是把其当作一种工具来使用,究竟其包括什么样的原理,其使用的前提条件、使用原则、形成机制,并没有人去深入地探究;其次,引文分析理论在国外也进展不大,到目前为止,大多数的引文分析还是以传统的文献数理统计和共引理论为基础进行研究,没有更进一步突破;第三,我国的研究者重视应用研究、忽略理论研究。

4.2.2 中文引文数据库不完善为了更好地发展我国的图书馆事业和文献研究工作,我国科研人员不断努力,开发了许多相关的引文数据库,如CSCD,CST―PC,CSSCI等。这些数据库与SCI数据库相比,不论是在数据套录功能还是数据收录年代或期刊收录范围上都有所欠缺。为了进行引文分析,用户不得不把需要的文献记录和它们引用的参考文献题录一一手工摘取,再导入自建的小型引文库中通过编制计算机程序才能获得需要的统计数字。这无疑极大地阻碍了研究人员利用国内引文数据进行分析的积极性。

4.2.3 没有适合的分析软件 由于我国引文分析发展的较晚,一些引文分析的技术都是来自于国外。国外有很多专家学者利用计算机编程,开发了许多文献计量学软件,进行引文分析。例如:Bibexcel就是OllePersson为文献计量学专门编制普遍适用的、统一格式的数据处理软件,可以处理来自Web of Science等数据库的数据,不但能够进行统计处理,还可以分析数据,形成所需要的关系矩阵。而我国文献计量学、科学计量学的学者目前还没有开发出普遍适用中文数据格式的软件,对于一些不懂数学、计算机编程的学者,要靠最原始的手工来进行计数,所以他们花费在数据处理上的功夫可想而知。

4.2.4不规范的引文行为 目前我国的科技论文在引文规范上普遍存在着一些问题,主要表现在以下三方面:“用而不引”和“不用而引”;对参考文献的标注不规范;“引文复制”与“引而不注”;著录失误。此外,一些由于情报交流的障碍,如语言障碍、编译代码转换的障碍、检索工具的障碍、理解水平与能力的障碍等等,都是造成引文错误的直接客观的原因。

4.3 中国引文分析的对策建议

4.3.1 加强引文分析的理论建设首先,大力开展引文分析的理论研究,对引文分析的原理、规律、研究对象以及与引文分析相关的概念假设、环境、适用范围进行深入和系统的讨论,力图形成引文分析的研究范式;其次,加强和国外同行的合作交流,力图自主创新,发展适合我国学者的引文分析方法和理论;再次,引文分析有很强的交叉学科的特点,交叉学科的特点就是容易吸取其他学科的先进理论,要想在理论上有所突破,可以借鉴其他学科的理论方法;第四,提倡研究者进行理论研究,改变研究作风;第五,提高研究者和使用者综合素质,使他们能够敏锐地发现引文分析的问题,合理利用引文分析进行科研评价,提高科研活动的效率。

4.3.2完善发展各种引文数据库首先,优化数据库结构,加强数据规范管理工作,改善数据库检索性能;其次,借鉴美国ISI的Web of Knowledge(WoK)的经验,对我国各类引文数据库进行重组、加强和完善;可以把CSCD和CSTPC整合起来,成为中国的“SCI”,把CSSCI建成中国的“SSCI”,把各种引文数据库的资源集成为强大的引文网络平台;再次,及时和数据库用户沟通和交流,获得有益的反馈信息。

第2篇

关键词: 图书馆学研究方法方法论调查分析

中图分类号: G250文献标识码: A 文章编号: 1003-6938(2010)01-0111-04

A Statistical Analysis of the Library Science Papers Research Methods

Jia ErpengYi Jinghan(Department of Information Management, Zhengzhou University, Zhengzhou,Henan, 450001)

Si Miaomiao(Library, Hubei Vocational College of Bio-Technology, Wuhan, Hubei, 430070)

Abstract: Relevant scientific research methods support the completion of the science research. So library science research methods are an important component of the library science system. Through a statistical analysis to the research methods of the academic articles published in 11 library journals, this article sums up the current condition of method application in library science in our country, and prospects for the future of library science research methods in our country.

Key words: library science; research methods; methodology; survey analysis

CLC number: G250Document code: AArticle ID: 1003-6938(2010)01-0111-04

工欲善其事,必先利其器。科学研究是富有创造性和艺术性的活动,方法是科学研究的工具和途径,图书馆学研究过程也与科学的研究方法不可分离。图书馆学研究方法是在继承一般科学研究方法的基础上,根据自身的研究对象、学科性质而进行融合与发展,形成自己学科的研究方法体系。随着图书馆学情报学研究范围的扩大、研究对象的复杂,其研究方法呈现出多样性特点。从多个角度对其进行研究,既促进了我国图书情报事业的发展,反过来又进一步刺激了研究方法的多样化。本文以11种图书馆学专业期刊2006~2008年所刊载论文为数据源,分析论文的研究方法,试图总结出图书馆学研究方法的规律及其发展趋势。

1我国图书馆学方法论的研究

图书馆学研究方法,是图书馆学学科体系的重要组成部分,一方面,它使得图书馆学研究能够准确、充分地揭示研究对象的本质与规律,是图书馆学研究的保障;另一方面,整个图书馆学的研究中对方法的研究不能偏废,方法研究是学科研究内容的一部分。[1 ]我国图书馆学方法论研究开始于20世纪80年代。1981年刘迅先生在《图书馆学通讯》上发表了《要重视图书馆学方法论的研究》一文。紧接着乔好勤先生在该刊1983年第一期上刊登了《试论图书馆学研究中的方法论问题》,[2 ]运用统计方法对《图书馆学通讯》等三种专业刊物1980~1981年发表的学术论文研究方法进行分析。并提出了图书馆学方法论的三层次说法,即图书馆学的研究方法可以分为哲学方法、一般科学方法和专门科学方法。随后出现了有关图书馆学方法的大量学术论文,还有一些著作,如王崇德的《图书情报方法论》。[3 ]

从宏观上看,图书馆学方法论的三个层次基本得到认同。对一般科学技术研究方法的探讨,也分为三个层次,最底层是具体的技术层次,中间层是一般的研究方法层次,最高层则是哲学层次。[4 ]图书馆学的一般科学方法,主要是指引进和移植相关科学的研究方法和研究成果运用于图书馆研究,可分为:信息获取方法(主要指调查法、统计法、试验法和历史法等),信息加工方法(主要指老三论、新三论等)。[5 ]对图书馆学专门方法探讨的文章很多,虽然还没有统一的认识,但是普遍认为文献计量学方法和引文分析法是典型的图书馆学专门方法。另外从研究的性质来分,图书馆学的研究方法也可以分为定性和定量方法。随着对此研究的深入,图书馆学方法论体系会不断地得到完善。

3数据来源

在数据收集中,笔者选取了11种图书馆学专业期刊:《中国图书馆学报》、《大学图书馆学报》、《图书情报工作》、《图书馆杂志》、《图书情报知识》、《图书馆》、《图书馆论坛》、《图书与情报》、《图书馆理论与实践》、《图书馆建设》、《图书馆工作与研究》作为调查对象,具体统计了2006年~2008年间各期刊学术论文使用研究方法的情况。数据主要来源于中国知网,小部分数据来源于各期刊主页。在数据统计中,去除了一些信息资料类文章,如征文通知、会议通知等(见表1)。

4数据统计分析

本文总共统计了8159篇学术论文,通过对所选的各篇学术论文,逐篇分析其篇名,个别文章查阅了摘要、正文等详细信息,根据各科学研究方法的含义,归纳每篇论文采用的科学研究方法,并将其研究方法归纳为15小类(见表2)。由于每篇文章采用方法很难准确判断,有的文章采用了多种研究方法,所以从表2中可以看出,最后的论文合计总数(8273篇)大于调查的论文总数(8159篇)。在计算各类研究方法的论文占调查总数的百分数时,是除以调查总数(8159篇),所以百分数之和是(101.3997%)而不是100%。

(1)理论分析法

运用理论分析法的主要是一些分析归纳与概念推理类研究,以及思辨类的学术论文。从表2中可以看出,采用理论分析法的学术论文共2904篇,占调查论文总数的35.593%,理论分析法是我国图书馆学研究中最常用的方法。研究方法的运用主要受到学科性质和研究任务影响,图书馆学从目前来看应该属于社会科学,而且人文色彩比较浓厚;我国图书馆界也有重理论的现象,这与国外主要以定量方法为主、重应用有很大不同。随着其它学科背景研究者的加入,看问题的视角会有所变化,相应的研究方法也会多样化。社会科学的发展是由定性方法向定量研究过渡的过程,图书馆学科也要注重定量分析方法的应用。

(2)操作实验法、调查研究法

在调查的学术论文中,运用操作实验法的共有830篇,占到总数的10.173%。这类论文主要研究技术性的问题,比如系统开发设计、数字图书馆建设、网络信息资源开发组织等。随着图书情报工作环境、研究对象的变化,图书馆学研究关于技术的内容会越来越多。

调查研究法是社会科学常用的一种研究方法。图书馆学是一门实践性很强的学科,调查是获取原始数据的一个重要的方法。图书馆学研究中主要进行抽样调查,通过问卷、网络来收集数据资料。采用调查研究方法的学术论文一共745篇,占总数的9.131%,调查方法的运用在调查数据中占有很大一部分,说明研究更贴近实际问题。

(3)实例分析法、历史方法

实例分析法通常是以具体的实例来介绍经验或说明问题,论文中主要是以国内比较著名的大学或科研院所图书馆、国外有名的图书馆等为例子进行分析,对于其它图书馆的建设、信息资源开发服务起到了借鉴作用。

历史方法主要用于论述关于图书馆事业史、人物评价、文献学、目录学等内容的论文,是一种传统的研究方法。有的期刊专门开辟了关于图书馆事业史、文献学的专栏,历史方法的论文在调查论文中占到了7.501%。

(4)系统方法、管理学方法

系统方法主要是用系统的思想,从整体的角度来观察问题,这种方法对我们认识研究起到很大作用。虽然有的文章不能明显地看出是运用了系统方法,但是系统方法贯穿于观察问题的整个过程。管理学方法是将管理学的方法移植在图书情报学的研究中,图书馆在机构建设、运营方面都要运用到管理学的知识方法。

(5)数理方法、文献计量学方法、比较法、经济分析法

数理方法主要是数学方法在图书情报学研究中的应用,是一种定量的研究方法。采用数理方法的学术论文有304篇,占调查论文总数的3.726%。数学方法的运用,也说明图书馆学研究者正在试图定量地揭示研究对象,随着本学科逐渐走向成熟,这一方法将继续普遍化。

文献计量学方法是用数学和统计学方法,对文献量、作者数、词汇数等的定量化研究。调查的论文中运用此方法的占到3.199%,在调查论文中占到的比例比较低。文献计量学方法也应用于其它学科研究,从CNKI数据库中我们以“文献计量”为题名,可以粗略地检索到600多篇论文,内容涉及很多其它学科研究。

比较方法也是比较常用的一种研究方法,通过对多个相关事物或事物的各部分之间进行比较,揭示其共同点和差异点。

经济分析法是将经济学的方法运用到图书馆学的研究当中,研究内容包括图书馆营销、资源共享效率评价、纸质资源与电子资源的经费问题、资源服务的经营模式等等。

(6)控制论方法、引文分析法、内容分析法

明显运用控制论方法的论文很少,调查中只有79篇。占到总数的0.968%。但是控制论的思想在很多论文中都有所体现。

引文分析法是利用各种数学及统计学的方法对科学期刊、论文、著者等的引用和被引用现象进行分析,以揭示其数量特征和内在规律的方法。在所调查的论文中,明确使用引文分析法的有23篇,占总数的0.282%。引文分析法作为图书情报学科的一种专门方法,运用也很广泛。在CNKI中用“引文分析”作为题名可以检索到1200多篇论文。

内容分析法产生于传播学领域,是一种客观的量化方法,是从大量样本进行特征识别的系统方法,具有统计性,是一种从公开资料中萃取情报的重要方法。因为它是新方法,统计中只有6篇。

(7)其它

其它中包括有专利分析方法、社会网络方法、SWOT分析法、法律分析方法、心理学方法、美学方法、传播学方法、医学理论方法等等。

5我国图书馆学研究方法的发展趋势

5.1定量分析与定性分析相结合

根据表2数据,我们可将研究方法大致分为两类:第一类是定性方法,包括理论分析法、实例析法、历史方法、系统方法、管理学方法、比较法、经济分析法、控制论方法,百分比总共占到61.62%;第二类是定量方法,包括操作实验法、调查研究法、数理方法、文献计量学方法、引文分析法、内容分析法,百分比总共占到26.584%。从数量来看,定量研究方法所占比例比起定性方法还很小,这是由于理论分析法的比例太大。对于图书馆学的科学研究,目前来看定性方法用的多一些。但对于具体问题,定性方法和定量方法各有特点,用哪种方法要根据具体情况而定。

理论分析法是一种定性研究方法,在学科研究中发挥了重要的作用。由于定性方法缺乏科学的数据支撑,其理论分析就显得没有深度和广度。随着学科的发展,定性与定量研究方法相结合是发展的趋势。图书馆学情报学领域已经大量采用定量的研究方法,如调查研究法、数理方法、文献计量学方法等。定量方法的运用使研究更精细、更科学,站在定量的角度解释图书馆学情报学的内在规律,从而在广度和深度上推动学科的发展。[6 ]

5.2现代信息技术的影响越来越大

随着信息技术、网络技术的发展,图书馆学的研究内容产生了巨大变化,与网络信息、信息系统等有关的技术性研究论文数量会不断增多。在表2中,操作实验法所占比例为10.173%,我们可以清楚地看到这一点。

新技术的发展还为经典的研究方法提供了新的实现工具。[7 ]研究这可以通过互联网进行数据采集,以网页形式的网络调查、用即时通信(instant messaging)软件(如QQ)的调查、[8 ]电子邮件调查等,这些都为更好地完成调查提供了多种途径。随着搜索引擎的运用普及,搜索引擎的服务器记录和保存了用户与搜索引擎的交互过程,这种数据称为使用记录(transaction log),使用记录分析(transaction log analysis)成为一个研究热点。另外,计算机还可以辅助研究者进行定性数据分析等。在文献计量学的基础上产生了网络信息计量学方法,在引文分析方法的基础上出现了链接分析方法,这都是现代信息技术对研究方法的影响。

5.3吸收其他学科的研究方法

表2中的管理学方法、数理方法、经济学方法、内容分析法等都属于移植其它学科的方法,占10.85%。“其它”占7.185%。这些都说明了图书馆学研究中移植了许多其它学科的理论或方法。

在学科的发展中,一方面要具有从其它学科吸收养分的能力;另一方面要能为其它学科提供养分。随着图书馆学科研究队伍的壮大,研究者会大量借鉴其它学科的研究方法,会产生新的研究方法,如内容分析法、情景分析法等。当然我们不能盲目地去移植新的研究方法,而要与图书馆学情报学本学科的实际情况相结合,将其融入本学科研究之中,通过适当的研究方法来为研究服务。

5.4实证方法的应用

调查研究法、实例分析法就属于实证性研究方法,从表2中的数据中就可以看出,共占到17.061%。近些年来研究者也开始注重实证研究(evident-based studies)方法,[9]它是在获取研究对象客观数据材料的基础上,通过数据分析,考察研究对象各有关因素的相互影响及其影响方式,从个别到一般,归纳出事物的本质属性和发展规律,它是观察法、实验法、统计法等的综合运用。实证研究通过实际数据分析,连接了理论与实践,一定程度上有利于图书馆学研究水平、学术地位的提升。

总之,方法都不是万能的,各种研究方法都有自己的优点和缺点,或者是有适用的条件。定性与定量研究方法的结合将成为图书馆学方法的主流,新的方法与新的技术将得到更多的应用。利用多种先进技术手段来收集数据、分析数据,综合多种研究方法来探讨复杂的研究问题将会越来越多。所以研究方法的运用将是多元化发展,合理的研究方法体系应该是多种研究方法的有机结合与互补,从各个不同的角度对研究对象进行分析。

参考文献:

[1]邓小昭.信息管理研究方法[M].北京:科学出版社,2007:1-33.

[2]乔好勤.试论图书馆学研究中的方法论问题[J].图书馆学通讯,1983,(1):54-62.

[3]王崇德.图书情报方法论[J].北京:科学技术出版社,1988.

[4]杨建军.科学研究方法概论[M].北京:国防工业出版社,2006:1-24,395-409.

[5]罗方等.我国图书馆学方法论研究的现状及趋势[J].图书馆建设,2006,(2):19-20.

[6]邱均平.文献计量学[M].北京:中国人民大学出版社,2007:260-283.

[7]华薇娜.我国80年代图书馆学情报学研究状况的定量分析[J].情报学报,1995,14(3):218-225.

[8]金武刚等.图书馆员网络社区信息交流行为实证研究――“大旗底下”QQ群个案分析[J].大学图书馆学报,2008,(5).

第3篇

关键词 Meta-分析 网络灰色文献 发表偏倚

分类号 G253

DOI 10.16603/j.issn1002-1027.2016.04.008

1 灰色文献的内涵

灰色文献(Grey Literature,Gray Literature,简称GL),是相对于白色文献和黑色文献而言的,它介于白、黑文献之间,是指不具有国内统一刊号(CN)或国际标准刊号(ISSN)的文献。1997年在卢森堡召开的“第三届国际灰色文献会议”,赋予灰色文献的定义是:灰色文献是指出版商不以营利为目的,由各级政府部门、学术机构、工商业界等所推出的各类电子和印刷形式的资料。目前,灰色文献的“卢森堡定义”已被广泛接受。

灰色文献主要包括政府报告与文件、技术档案(技术规范、标准和工具手册等)、科研数据、科技报告、调查报告、政策文件、内部刊物、私人信件等。有的灰色文献属于内部发行,未公开发表的研究结果和数据也被认为是灰色文献。灰色文献具有出版灵活,内容丰富,分布广泛、分散,不定期、半公开出版等特点。在当今网络时代下,互联网是推出和获取灰色文献的一个重要的、广泛利用的平台,例如博客、微博、电子出版物、开放获取和数字文档等,称为网络灰色文献(以下简称e-GL)。网络灰色文献相对印刷型灰色文献而言,具有便利、检索快捷、内容丰富、信息量大等特点。灰色文献晦涩难懂、类型繁多、涵盖面广,而且缺乏书目控制,流通面窄,发行和收集也缺乏系统化手段,质量审核和生产标准也各不相同,往往难以获取、访问和评估。

灰色文献是科学研究的重要信息源,是最原始的、第一手的信息,是信息时代推动科学研究、经济发展以及社会文明进步不可缺少的重要信息资源。其相对重要性很大程度上取决于学科的研究方式及其对资源的需求。例如,医学就需要大量灰色文献,灰色文献可为医学政策的制定和医学研究提供珍贵信息。临床实践指南、医学研究报告、医疗项目评估材料、医疗法规等,都属于灰色文献,可以为医务工作者和临床决策提供宝贵的、客观的、全面的信息资源。

2 Meta-分析的内涵

Meta-分析(Meta-analysis),又称汇总分析、荟萃分析,是以同一课题的多项独立研究的结果为研究对象,在严格设计的基础上,运用适当的统计学方法对多个研究结果进行系统、客观、定量的综合分析,Meta-分析是一种定量合成的统计学方法。

Meta-分析的步骤是:提出研究问题、检索相关文献、提取数据、选择并且合并效应量、进行异质性分析、进行敏感性分析和进行发表偏倚分析等。在“检索相关文献”阶段,包括制定检索策略,全面、广泛地收集与研究对象相关的随机对照试验(Ran-domized Controlled Trial,简称RCT)的所有文献。对于研究数据的全面性和准确性要求较高。

3 常用适于Meta-分析的网络灰色文献资源分布

近年来,国外专门从事灰色文献研究与开发的机构纷纷成立,尤其是欧美国家。Meta-分析中的e-GL可以提供最原始的文献,是重要的、珍贵的信息源,可以拓宽研究的视野,为Meta-分析提供更完善、更全面、更客观的证据,为各种决策提供帮助和参考。

3.1 国内适于Meta-分析的e-GL资源分布

适于Meta-分析的e-GL可以通过综合性搜索引擎的学术搜索来进行筛选、获取,比如:必应学术搜索(http:///academic)、百度学术搜索(http:///)、谷粉搜搜(ht-tp:///)、谷歌学术搜索(http://scholar.google.corn/)等。

国内至今还没有专门检索灰色文献的数据库或网站,更没有专门检索用于Meta-分析的e-GL数据库或网站,用于Meta-分析的e-GL可以通过检索国内循证医学的相关网站来获取,比如:中国cochrane中心(http:///)、中国临床试验注册中心(http://.cn);通过天津中医药大学、北京大学、复旦大学、兰州大学等循证医学中心网站,也可以获取适于Meta-分析的e-GL。

2015年12月25日,北京大学开放研究数据平台测试版(简称北大数据平台)上线运行。提供研究数据的保存、管理与、共享、下载等服务。开创了国内获取科研数据中的灰色文献的先河。通过综合性搜索引擎的学术搜索服务,来检索适于Me-ta-分析的e-GL,不够系统、全面,检索效果也不是很理想。此外,也可以通过某些博客或微博、微信等来获取灰色文献,但是通过这些方式获取灰色文献的难度较大,可靠性也有待考证。

3.2 国外适于Meta-分析的e-GL资源分布

国外拥有比较成熟的灰色文献管理和服务体系,主要分布在欧美国家。

3.2.1 国外重要的e-GL

国外常用的灰色文献网站主要有(详见表1):

(1)国际灰色文献(GreyNet International,简称GreyNet),或灰色文献网络服务组织(Grey Litera-ture Network Service),成立于1992年,致力于网络灰色文献的研究、出版、开放获取,是国际灰色文献研究的权威机构。GreyNet网站的主页上,点击“OpenGrey Repository”链接,进入Open Grey检索界面。

(2)欧洲灰色文献信息系统(SIGLE)

目前在灰色文献的开发与利用方面,以欧洲灰色文献利用协会(European Association for GreyLiterature Exploitation,简称EAGLE)推动的合作计划“欧洲灰色文献信息系统”(OpenGrey Reposi-tory-System for Information on Grey Literaturein Europe,简称SIGLE)最为重要。SIGLE始建于1980年,由法国提议,共有17个成员国,均是重要的情报中心或文献提供中心。截至2005年2月,SIGLE的书目数据库共有85.5万条记录,年增6万条,月更新。SIGLE和GreyNet都收集自然科学、社会科学及工程技术等领域的灰色文献。

(3)欧洲灰色文献信息系统(Open Grey,简称OG),是由欧洲推出的包括70万条灰色文献的参考书目数据库,通过开放获取的形式,用户可以查找文献并导出记录。系统涵盖科技、生物医学、经济学和人文社科等学科。收录技术报告、研究报告、博士学位论文、会议论文、政府出版物和其他类型的灰色文献。该网站包括GreyNet会议文献的全文预印本,是SIGLE开放存取的窗口。

另外,还有其他常用的灰色文献网站:美国国家技术研究报告(National Technical InformationService,简称NTIS);不列颠图书馆(The British Li-brary,http://WWW.b1.uk/)等,通过上述这些灰色文献网站,可以筛选出适于Meta-分析的e-GL。还有其他一些免费提供全文的网站,如:DOAJ(ht-tps:///)和PLOS等,也可以检索到灰色文献(详见表2)。

3.2.2 国外重要的适于Meta-分析的e-GL网站

检索国外适于Meta-分析的灰色文献网络资源,可通过医学灰色文献网站和循证医学网络资源来挖掘(详见表3和表4)。

4 灰色文献对Meta-分析结果的影响及对策

决策需要考虑多种影响因素:出版语种、出版状况、出版质量和个性化研究水平等。关于出版状况方面,需要考虑的主要因素是纳入灰色文献(例如,未公开发表的研究,或发表受限、内部交流和/或不列入书目检索系统的文献)。

4.1 纳入灰色文献,减少Meta-分析的发表偏倚

Meta-分析中,阳性结果的论文(结果具有统计学意义的研究,P0.05)更容易被接受和发表,阳性结果的论文被引频次也高于阴性结果的论文。总之,阳性的Meta-分析结果比阴性的更容易发表,这种现象称为发表偏倚。发表偏倚的存在可能会影响数据的可用性和可信度,严重地威胁Me-ta-分析的有效性。发表偏倚所带来的直接后果是对现有的研究进行过度评价,使得Meta-分析的阳性研究结果过分夸大,或者夸大危险因素的强度,甚至得到相反的结论。

发表偏倚对Meta-分析结果的真实性、全面性和可靠性的影响正越来越受到关注与重视,纳入了灰色文献的Meta-分析可能有助于克服发表偏倚的一系列问题,为解决这些问题提供更全面和客观的参考。然而,Meta-分析所纳入的灰色文献,大部分都局限在正式发表的范围,许多有意义的灰色文献因未正式发表、未公开出版而被忽略,这样就存在结论偏倚的风险,甚至可能会改变整体的结论。据报道,已经发表了的采用Meta-分析的文献只有31%包括了灰色文献。69%的灰色文献被排除在Meta-分析之外。积极鼓励和指导研究者采用灰色文献,对减少Meta-分析的发表偏倚尤为重要。当具有某种学科特色的灰色文献数据库或研究数据管理系统建立之后,要利用尽可能多的途径加强宣传,积极动员相关领域的研究者试用,使用户了解、熟悉、掌握乃至喜欢并主动推广这些灰色文献数据库和研究数据管理系统。应关注用户的使用感受,根据他们反馈的意见逐步完善数据库及其检索系统,使数据库更加适合用户使用。

4.2 建立灰色文献数据库,增加Meta-分析的文献完整度

Meta-分析结果的影响因素是多元化的,其中一个重要因素是未能全面广泛地收集与课题相关的RCT。Meta-分析有个重要步骤是“提取数据”,其中包括RCT原始实验的各种数据结果、图表等。Me-ta-分析的结果高度依赖这些基础数据,这就要求Meta-分析的研究者要尽可能多地获取相关研究的RCT实验数据,以便进行准确、全面、客观的统计分析。目前一些健康研究的证据也支持这个观点,这表明如果Meta-分析忽略未公开发表的研究,可能会夸大治疗效果。但是一般情况下,研究者所获得的是已经公开发表的论文数据,还有许多实验数据处于半公开或未公开状态。最佳的检索策略是结合异构数据库检索平台,提高收集数据的完整性。与课题相关的灰色文献的缺失始终是课题研究的缺憾,这与灰色文献的流通面窄、分散,难以收集、管理、检索等因素有关。由于灰色文献的不易获得性,给图书馆提供了针对灰色文献进行研究数据管理的契机。图书馆应该发挥文献资源管理方面的优势,结合本校优势学科或本地的区域特色,收集科研人员,特别是知名专家的灰色文献。应多方面与研究专家积极沟通,采取捐赠、购买、代藏、版权合作等方式收集特色学科的研究资料,建立特色数据库或科研数据管理系统。图书馆可以从建立本校科研人员的特色研究数据管理系统入手,逐步扩展到联合其他同类高校图书馆建立联合特色研究数据管理系统,为广大研究人员服务。为研究人员做Meta-分析的时候提供这些灰色文献的研究数据,能进一步提高Meta-分析的研究质量,增加Meta-分析所需文献的完整度。

5 结论

第4篇

关键词:档案大数据;数据分析师;岗位需求;岗位职责;素质要求

Abstract:In the big data era, data analysis can affect the development of archival cause. At present, the benefit of data analysis is dissatisfactory because of lacking settled analysts in archival field. This paper addresses the post requirements, the post duties and the quality demands of data scientists in archival field.

Keywords:big data of archive; data scientist; post requirements; post duties; quality demands

大数据时代,数据成为重要的战略资源。在电子办公深度与广度不断拓展的进程中,人类对数据“精、准、深”的要求日益突出。在基于数据决策、依赖数据管理等“以数据说话”的理念日益深入人心的大环境下,作为大数据的关键组成部分――档案大数据的地位和作用也逐渐凸显出来,它是大数据重要维度即历史维度数据的核心,在各个领域都有很好的应用前景。但是,应该看到,受保密、档案管理机制等因素的制约,档案大数据的应有价值还没有得到充分发挥,档案大数据与其他数据的整合还有一段很长的路要走。为提升档案资源建设与利用效益,对档案大数据进行分析,优化档案事业发展方案,更好地为领导决策和各领域工作的开展提供数据支撑,成为档案工作的重要组成部分,这就需要档案资源和档案事业数据的鼎力支撑。虽然从国家主管部门到各级档案馆(室),都在开展档案数据的统计和分析工作,但是,由于缺乏固定而专业的分析人员,从数据统计和分析的全面性、系统性、多维性、深入性和规范性等方面看,仍有待进一步增强。在此种形势下,档案大数据作用的发挥和档案事业发展的科学性很大程度上取决于档案部门自身结构的优化和管理资源使用效益的提升。

1 档案领域数据分析师岗位设置的意义

大数据时代,数据分析在各领域有着十分重要的意义,各行业对数据分析师的需求与日俱增。与其他数据相比,档案大数据很大一部分源于政府、军队等组织机构的活动,具有权威性和凭证性等不可替代的价值特点,虽然有着服务社会、服务百姓的义务,但又必须确保国家利益不受侵害。因此,在行业内部设立数据分析师岗位不仅是社会需求、也是档案行业组织机构结构优化的内在需要。

1.1 优化档案资源体系建设的需要。从局部看,各级档案部门都不同程度地存在着档案收集不齐全、著录不规范等问题。从整体看,各档案部门之间存在着档案资源交叉重复、数据异构等问题。系统地设置统计项目,全面地对档案资源建设现状进行分析,就可以准确地发现档案资源体系建设中的弱项和“瓶颈”。通信网络和数字设备发展实践告诉人们:当今,电子文件的增长几乎达到了几何级。例如,阿富汉战争期间,美军为打击一小股,其情报侦测、监视系统24小时产生的数据量就达53TB。在如此大的数据量面前,如何分类电子文件、确定保管期限?网站、微博、通讯交友软件等产生的数据,哪些是需要作为电子文件保存的、又该如何保存?现有馆(室)藏档案资源,哪些方面需要丰富、哪些方面需要“瘦身”?如何从国家层面调控档案资源体系建设?这些均有待于档案领域数据分析师从“保存历史、服务社会”视角、以可靠的数据和科学的分析给出建设性的解答。

1.2 分析和把握档案利用规律的需要。档案资源的利用是有规律可循的,掌握了这个规律对于提升档案资源利用率是十分有益的。有的档案资源,其利用具有扩展效应,即一次成功利用可能会激发人数更多、范围更广、程度更深的利用,例如名人档案、著名战役档案、历史典故档案等;有的档案资源,其利用具有递减效应,即一次成功利用之后可能很长时间内不会再有第二次利用,例如事关普通百姓的个人档案。如果机械地根据其前段时间的关注热点推荐档案信息服务产品,则不仅达不到理想效果甚至还会引起用户反感。依托数据分析师的科学分析,有助于档案部门聚焦服务热点,提前做好档案信息服务预案,根据用户需求方向准确提供档案资源及其编研产品服务。

1.3 推动档案管理科学发展的需要。近年来,档案事业出现了一派欣欣向荣的景象,尤其是档案信息化建设、民生档案的收集与管理等得到了长足发展。但是,无论是硬件建设、还是软件建设,离精细式、集约化科学发展尚有一定距离,这就需要发挥档案大数据的决策助手作用。对于不同学识背景、不同工作经历、不同职业精神的数据分析人员来说,同样的统计数据得出的结论也是不尽相同的。设置固定的数据分析师岗位,则有益于提升数据统计和分析工作的科学性。通过数据分析师对档案事业分门别类的统计和分析,可以有效地冲破经验主义思维的“篱笆”,发现和把握新形势下档案管理工作的发展规律,更加统筹、协调和集约化地利用管理资源,构建档案事业发展的良好生态。

1.4 更好地服务社会发展的需要。如果说“读史可以明智”只能模糊地形容档案的作用,档案大数据在金融、医药、卫生、交通、安全和军事等领域的成功应用,已经很好地量化和解释了档案大数据的价值。它是转换思维方式、科学决策的直接支撑,是引领社会更快、更好发展的“催化剂”。设置档案大数据分析师,无疑会有助于提升档案信息服务于社会的广度与深度。同时,也有助于档案部门把握契机创新服务社会的模式与内容。

2 档案领域数据分析师的岗位职责

档案领域数据分析师,可以依据各级主管部门、档案馆(室)的编制和事业发展状况合理配置,其职责主要是从档案资源建设、档案利用、档案事业综合发展以及档案文件内容等方面进行数据统计和分析,并制定优化方案和提出发展规划建议。

2.1 档案资源数据统计和分析。档案资源数量统计和分析,主要是对馆(室)藏或者主管范围内的档案资源数量情况进行统计和分析,包括对各全宗文件数量的分类统计和分析、同类全宗文件数量的对比分析、现行全宗文件产生量与归档量的对比分析、永久档案与定期档案数量的对比分析、不同类型载体档案数量的对比分析、不同地域不同系统档案移交数量对比分析、不同时期档案数量对比分析、不同密级档案数量对比分析等。

档案资源质量统计和分析。主要是对馆(室)藏或者主管范围内的档案质量情况进行统计和分析,包括档案资源载体和信息完好度分析、档案资源结构分析、档案著录情况分析、档案信息化建设情况分析、档案目录数据库质量分析、档案全文数据质量分析、档案缩微情况分析、档案修复情况分析等。

档案资源优化方案的制定。基于馆(室)功能,在科学分析的基础上,提出一定范围内档案资源体系建设优化方案。主要是从档案资源结构和数量视角,有重点地对现有档案资源进行丰富、再鉴定工作。对明显存在缺失的馆(室)藏方向,分析档案资源可能的分布点,为收(征)集工作提供指导。具体分析档案著录、目录数据库构建情形,提供档案著录尤其是电子文件著录以及档案目录数据库优化方案。必要时,对全文数据质量进行优化。根据档案完好度统计,制定档案修复计划。

2.2 档案利用数据统计和分析。档案利用人群统计和分析。主要是对用户基本情况进行统计和分析,包括用户职业、单位、年龄、学历、档案专业知识、兴趣点、档案意识等,从共性和个性等方面进行分析和研究。

档案利用目的、利用效益统计和分析。主要是对档案利用目标和用户所获得的收益进行分析。从编史修志、工作查考、解决个人问题等方面对档案利用目的作进一步细分,分别进行统计和分析,并关注其利用效益。同时,分析一定时期内得到用户关注和利用的档案资源,尤其是得到用户重点关注或利用的档案资源。

档案检索效率统计和分析。主要是对档案目录和全文的检索效率进行分析,与图书情报资源等相关领域的检索效率进行对比,考虑其是否满足用户需要,有无改进策略。密切跟踪信息和知识领域的发展前沿,将先进的技术和工具应用到档案检索效率的提升上来,主要是对档案信息组织和检索模式提出创新方案。

档案利用发展趋势预测。由于社会和国家发展的需要,人们会在一定时期内有重点地开展某个或某些方面的工作。数据分析师应密切关注某个系统、国家乃至整个人类社会的发展形势,科学地统计和分析用户的潜在需求,准确地预测出档案利用的重点方向,从而有针对性地做好档案利用准备工作。例如,编史修志工作往往在国家层面、某一系统或行业层面进行统一行动,有的又会与编制体制调整、大型纪念活动、大项任务开展等时机紧密结合;个人利用档案,往往会与国家出台某项政策、某一年龄段人群的成长经历、某些文化活动的开展等密切关联。根据档案利用历史数据的分析、当前社会热点、用户关注方向等,引导档案信息资源的开发,借助大数据工具,利用档案信息资源整合平台,充分地进行知识挖掘,高效地构建专题数据库,向用户推送档案信息资源。

2.3 档案事业数据综合统计和分析。档案人才队伍建设情况统计和分析。当今时代,不仅要求档案工作者具有较高的信息素养,而且需要档案工作者转变理念,从知识管理视角出发,为用户提供问题解决方案。档案领域数据分析师应该对档案工作者个体素质和整个队伍建设情况进行统计和分析,要重点关注专业学历、知识储备、年龄结构、管理能力、信息素养和职业精神等方面。

档案事业组织领导形势统计和分析。组织领导是档案事业发展的关键。档案领域数据分析师,应可以系统地设置档案事业各类统计表格,并根据形势发展创新地设置统计项目和衡量指标。不仅要分析档案主管部门对档案工作的组织领导情况,还要分析各级组织机构对档案事业的组织领导形势,包括工作规划、经费投入和对档案事业的关注度等。

档案专业硬件、软件建设情况统计和分析。在国家大力倡导档案信息共享平台建设的情形下,对行业内硬件、软件建设情况进行统计和分析,要重点对档案馆(室)库房建设、档案安全体系建设、业务设备建设、档案软件系统建设等方面进行统计和分析,避免低水平重复建设、提升管理资源利用效益。

制定档案事业科学发展方案。档案领域数据分析师要适应大环境的需要,从档案工作者个体出发,提出人才培养和培训方案。从档案人才队伍整体建设出发,合理提出编制调整、人才配备和人才发展等建议。在硬件建设方面,从档案事业整体发展视角提供指导意见,合理配置各类设备设施。在应用系统开发方面,针对技术发展形势及时提供建议,为颁布软件系统需求标准、协调资源做出贡献。

2.4 档案文件内容大数据的分析和知识挖掘。无论是科技档案、专门档案,还是文书档案,其利用都是围绕着组织机构(或个人)的业务行为开展的。因此,从业务层面对档案内容大数据进行分析,是档案大数据分析的重要内容。根据各专业发展的需要,利用高效、可视化的图形分析工具,对档案文件内容大数据进行分析,挖掘出其中蕴含的知识点,以指导各领域业务工作的科学开展。

3 档案领域数据分析师的基本素质要求

数据分析师肩负着对档案事业各类数据进行统计和分析的职责,并且要根据分析结果制定出推动各行业科学发展的、切实可行的方案,这就要求其具有高度的事业心和责任感,具备档案、计算机、数学和管理等领域专业知识和技能。

3.1 思维开阔,开拓精神强。无论是统计项目的设置、还是优化方案的制定,都要求档案领域数据分析师关注相关领域前沿发展形势,具有开阔的思维和较强的创新意识,能够敏锐地捕捉到档案事业发展中的主要矛盾,打破旧的思维和工作运行模式,为建立起切合实际的、具有前瞻性的档案工作机制贡献力量。

3.2 档案专业功底扎实。档案领域的数据分析,其出发点和落脚点均在档案收集、管理和利用。因而,数据分析师应具备系统的档案专业理论知识。不仅要熟知档案领域基本理论,而且要掌握领域前沿发展和理论创新情况,密切跟踪行业发展实践,能够科学地设计好统计与衡量指标、优化和促进档案事业的综合发展。

3.3 掌握计算机应用专业知识。数据分析师经常要与计算机网络、多种软件工具打交道,必须具备较高的信息素养和扎实的计算机应用专业知识。档案领域数据分析师,应了解机器学习、人工智能和自然语言知识,能够结合领域实际,提出具体的统计、分析软件系统需求;能够熟练操作基本分析软件,掌握大数据分析工具的使用(如R软件、SPSS、MATLAB),准确地采集、处理数据,必要时进行数据迁移;能够在看似无关的数据中挖掘出蕴含的关联、发现档案资源建设和档案事业发展内在规律。

3.4 熟悉管理学基本理论。无论是档案资源管理、还是档案事业的综合管理,都离不开管理学基本理论的运用。因此,档案领域数据分析师应熟悉现代管理学基本理论,具有严谨的逻辑思维能力和较好的文字表述能力,能够运用管理学前沿理论来指导档案资源建设和档案事业科学发展方案的制定。

3.5 灵活运用统计和分析基本方法。在可视化需求不断增长的今天,人们需要数据分析师能够直观地将统计和分析结果呈现出来。这就要求档案领域数据分析师熟练掌握数据分析与建模方法,牢记统计、分析的基本程序和原则,将分析结果以图形化方式表述出来,必要时加以创新和发展,从定性分析和定量分析两个视角,为档案事业的科学发展提供数据支撑。

此外,在对档案文件内容大数据进行分析和挖掘时,还要求数据分析师了解相关领域的专业知识,或者与相关领域专业人员密切协作,以确保分析过程和结果的质量。

参考文献:

[1]丁世飞,靳奉祥,赵相伟.现代数据分析与信息模式识别[M].北京:科学出版社,2012.

[2]金光.数据分析与建模方法[M].北京:国防工业出版社,2013.

[3]郑毅.证析――大数据与基于证据的决策[M].北京:华夏出版社,2012.

第5篇

浅谈工程管理理论研究主流可视化分析

工程管理作为工程科学和管理科学相融合的结晶是面向工程的管理学科,是为了更加有效地利用资源,实现预期的目标,而对工程进行的决策、计划、组织、协调等工作。发展工程管理学科需要深刻的认识工程管理的发展规律,借助可视化信息分析技术,可以进一步明确工程管理理论的主流研究。

一、工程管理和可视化研究的概述

工程管理发轫于上世纪50年代,将网络技术应用在工程项目的控制中,取得了很大成功。工程管理的研究领域比较广泛,具体来说包括了建设施工、工程设计、工业工程、制造和技术生产等等方面。在最初,工程管理只是一个比较狭窄的领域,随后逐渐的扩展到公共政策、组织、技术、网络等领域[1]。50多年来,工程管理的研究历经了从工程管理、研发管理再到创新管理的嬗变历程。在我国,工程管理作为一门学科也具有比较久远的历史,最初只有单纯意义上的土木工程管理,现在已经扩展到更加宽泛的意义上的工程管理。

可视化技术是随着计算机技术的发展而涌现出来的新技术,就是在计算机图形学以及计算机图像处理技术快速发展的基础上逐步发展而来的。这种技术将数据转换成为图形,并且能在计算机屏幕上表现出来,进行交互和处理。可视化技术有着广阔的应用前景,尤其是在图书情报领域应用非常广泛。引文可视化分析技术是可视化技术的重要分支,将大量的抽象数据用直观形象的方法展现出来进行引文分析,使人们直观的观察引文内容。将可视化技术和信息科学、应用数学、共现分析等理论和技术结合起来,就能够用可视化的图谱形象直观的展示学科的核心内容,发展历程、前沿理论以及学科整体的知识架构。

在工具方面,能够进行理论知识图谱可视化分析的软件和程序比较多,但是citespace软件相对来说更容易获取,使用也更加便捷。这种软件不需要把下载下来的原始性文献转换相关矩阵,而是可以对数据库保存下来的数据格式进行直接分析,这样就使数据的处理加工变得更加简单快捷[2]。一般来说,进行工程管理理论研究主流可视化分析都会采用这款软件。

二、数据来源和研究方法

在我国,目前工程管理科学已经形成了比较庞大的学科体系,知识架构也比较复杂,新的理论、新的技术和新的研究方法不断涌现出来,一方面这为我国工程管理理论研究带来重要机遇,另一方面也对工程管理学科进行清晰划分带来了一定难度的挑战。伴随着工程实践和工程管理理论的研究不断深入,工程管理的界限也变得越来越模糊[3]。正因为如此,本文用工程管理的相关期刊对工程管理本文由毕业论文网收集整理学科进行界定和相关研究。由于对数据的分析和处理时进行研究工作的前提,因此对数据来源的界定和遴选需要格外重视。本文分析所使用的是中文社会科学引文索引,也就是cssci,这个引文索引是由南京大学中国社会科学研究评价中心研制和开发的,另一个重要数据源是中国期刊网,是由清华大学中国学术期刊电子杂志社主办。这二者都是我国目前在该领域最为重要的引文信息源。对cssci来说,它遵循的是文献计量学的规律,它的信息源头是在全国2700多种中文社会科学学术期刊中,综合运用定性和定量的方法,精心挑选出那些学术性比较强、编辑规范的期刊。这些期刊中包括了25个大类的500多种学术期刊,涵盖管理学、经济学、历史学、政治学、法学、文学等领域。而中国期刊网是按学科进行划分的,收录了5300多种学术期刊的全文或者是引文,主要划分为理工类、文史哲类、农业类、政治经济和法律类等领域。

在进行工程管理理论研究的时候要综合采用定量和定性的方法,并且更加重视定量的方法,注重用绘制图谱的方式来展现。科学图谱就是包括了共被引分析和词频分析等,对于读者了解学科演进非常方便。词频分析指的是对出现的关键词进行频率上的统计和分析,以查找该领域的研究热点,通过观察关键词的演变分析学科的发展趋势。所谓共被引分析是值得两种文献之间,同时被引用的频率和次数,次数越多,说明这两种文献的关系越密切,背景也越相似。

三、可视化分析的结果

首先是对《管理工程学报》的分析。首先从cssci数据库上下载2008至今的文献数据,在同一个文件夹中用纯文本的方式进行保存,再利用数据转换器将下载下来的文件数据转换成为citespace识别并可以分析的格式。数据来源是文献标题、文献摘要和关键词、主题词类型,在主题词类型项选择名词性短语,开展聚类分析,节点类型上选择主题词和被引用文献,通过运行软件得到了该期刊的共被引和主题词网络图谱。通过这个图谱,我们可以看到,关键节点包括了博弈、物流、协调激励、供应链等词汇,这说明该领域的研究热点是这些关键词背后的课题。研究方法囊括了遗传算法、模型等。另外,委托、自主创新、知识转移等词汇出现的频率也比较高。通过对可视化图谱的分析可知,该期刊作为工程管理理论的重要期刊研究的主题主要涉及了供应链、物流、博弈理论、技术创新等。供应链研究显然是主流性研究;委托、物流等方面也在研究者的视角逐渐受到重视。

其次是对《建筑经济》等其他期刊的关键词分析。在中国知网下载《建筑经济》自2008年以来的文献数据,利用citespace软件在数据转换的基础上进行分析。通过分析可以看出,全过程造价、bt模式、信息化、全寿命周期等词汇是研究工作的关键词,说明这期间的研究热点在这些领域。

不同的期刊往往刊文重点有不同,体现了一本期刊的研究视野各有侧重,因此,工程管理理论研究领域的不同期刊进行可视化分析,能够更加客观全面的掌握工程管理理论研究的主流。对不同期刊的关键词汇内容进行分析,体现了这种相互补充性。《工程管理学报》也是工程管理领域的重要学术期刊,在中国知网上下载2008年以来的文献题录,用纯文本的方式进行保存,再通过citespace软件进行格式转换,最后用citespace进行分析,得出来的结果就是《工程管理学报》在这个期间的研究主流。建筑企业、竞争力、实证研究等词汇出现在结果统计的前列,这与该期刊侧重建筑业工程项目和政府投资项目管理的研究侧重点相吻合。此外,在方法论的层面,层次分析法、模糊性综合评价、系统动力学等成为研究方法的热点,这也体现了《工程管理学报》在研究方法上的独特性。用同样的方法对《科技进步与对策》期刊进行分析,得到的出现频率较高的词汇是自主创新、科技创新、知识产权、知识共享、低碳经济等。这体现了技术创新、知识管理等依旧是该刊关注的前沿。工程管理是一门与时俱进的学科,随着研究的深入新的研究内容会逐渐进入研究者的视野,新的研究方法也会得到更多运用。

第6篇

关键词:数理统计;国际关系研究;定量分析

一、数理统计分析的目的与意义

数理统计就是通过对随机现象有限次的观测或试验所得数据进行归纳,找出这有限数据的内在数量规律性,并据此对整体相应现象的数量规律性做出推断或判断的一门学科。它不仅可以对所需研究的内容进行描述与分析,还可以对已有命题进行验证,是应用数学在自然科学和社会科学中的重要应用方法。目前,中国的国际关系研究,主流的理论研究方法仍然是历史的和逻辑的方法,其他的一些方法如系统论、计量分析、社会学、心理学等则极少在国际关系理论研究中出现 。因此运用数理统计进行国际关系研究还有待进一步探讨。

在国际关系研究中,数理统计分析可以对国际关系中的某类具体事件或事实进行分析和检验,比如利用各类统计数据对国家的综合实力进行比较研究和分类研究、对影响一国外交政策的影响因素进行检验以及对国际冲突行为进行研究等。而统计分析的方式主要有两种,一是运用较大样本数据进行统计描述,二是运用来自部分样本的数据进行统计推论。

二、数据来源

国际关系领域的定量数据,种类繁多,涉及政治、经济、军事、社会、地理等等各种类别,这些量化数据对于国际关系的定量研究具有重要的利用价值。刘丰、陈冲(2011)对国际关系的定量数据进行了划分,他们把国际关系研究的定量数据分为:冲突数据、国际经济政治地理数据、组织数据和调查数据等几种主要类型,并对每一种数据的获取及信息作了详细的介绍,比较可靠。郭锐、王箫轲(2011)提出中国建立国际关系定量数据库的建议,具有开拓意义。国际关系领域的数据类型较多,按照数据来源,可以分为三类:官方数据;研究机构数据;新闻媒体数据等。

第一类,官方数据主要是指各国政府和国际组织公布的相关国际关系类型的数据。比如在中国国家统计局网站上公布的世界各国主要的经济和社会发展数据;美国美国国际开发署公布的历年美国对外援助数据;世界银行网站公布的世界各国经济社会发展指标数据;国际货币基金组织网站公布的国际金融统计数据等。这些官方网站公布的数据可信度高,可以直接利用进行各种分析研究。

第二类,数据来源是一些国际关系领域研究机构所的数据,这些数据有些是历史收集整理的数据,有些是采访调查的一手数据,这类数据专业性和针对性强,具有重大参考和利用价值。如密歇根大学国际政治学教授J. David Singer1963年开始组建的“战争相关指数(Correlates of War,COW)”项目,其中的国际军事争端数据(MID Data)可以免费下载使用。美国国际和平科学学会(The Peace Science Society International,PSSI)的“国家间军事争端(Militarized Interstate Disputes,MID)”数据库。

第三类,数据来源于新闻媒体的数据。新闻媒体十分关注一国的对外政策,对公众舆论也有塑造额引导作用。美国众多新闻媒体都热衷于进行各种社会调查、民意测验(public opinion poll),以此来了解“舆情”,顺应“民意”。自1935年美国心理学家G.H.盖洛普创立美国舆论研究所开始,民意测验便广为流行。现在媒体也广泛参与到民意活动中来,主要的民意测验机构有专业的盖洛普公司(Gallup Inc)、皮尤研究中心(Pew Research Center)、哈里斯民意测验(Harris Interactive)等。新闻媒体类往往进行一些民意调查,以了解民众对外部世界的态度,比如对中国崛起的态度。这些机构的网站上都会公布他们民意测验的结果数据,具有较高利用价值。

三、数理分析应用

定量分析大都属于专家评估类型,通常是在确定研究内容之后,对需要量化的数据,根据事实由专家进行赋值。比如,而不同的专家学者对不同的事件所赋的分值则会有差异,因此会带有一定的主观性。但是有些直接由数理统计分析软件进行分析或检验的定量分析数据则可以排除主观的偏见或不足。如秦亚青在《霸权体系与国际冲突》一文中就利用已有的国际冲突数据和国力数据,利用数理统计分析,得出分析结果检验命题:霸权与大国间冲突频率的关系。

目前,在国际关系研究中,统计分析主要是统计描述和统计推论。统计描述,主要是对所收集的相关数据进行频数分析、集中趋势分析、离散程度分析等。统计推论不仅有相关分析、回归分析还有聚类分析、主成分分析、时间序列分析等。数理统计分析通常需要相应的软件,Excel可以进行一些简单的频数统计和图形生成,复杂的统计推论分析的软件如SPSS、SAS、STATA、DPS、Matlab等也应用较多。统计推论是比较复杂的数理统计分析过程,相关分析和回归分析是在国际关系研究中比较普遍使用的方法,下面介绍几种其他方法:

主成分分析法,是指在众多因子中找出主要因子,以便对事件进行更容易操作的方法。比如要评估一个国家的综合国力会有许多因子,包括:经济实力、军事实力、人口数量、国土面积、资源储量、科技实力、文化实力等等许多因子,这个时候如果要求评估准确,面面俱到则很难操作,因为有些数据是无法量化的,数据众多,操作起来便很困难。而更为精确的方法是,可以采用SPSS分析软件对各数据进行主成分分析以确定决定综合国力的主要因子和次要因子。

聚类分析法,聚类分析的基本原理,根据样本自身的属性,用数学方法按照其某种相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。在国际关系中应用,谱系聚类方法可以把不同的国家类型按照不同的要素进行排列分类。如按照发动战争的次数分为好战国家、非好战国家;按照国家实力大小,将国家按照不同层次进行聚类。而这种聚类可以采用把所采集的数据导入计算机里进行聚类,得出一系列有用的结论。

四、总结

数理统计分析作为一种应用数学分析工具,对于更加准确地去描述和分析国际关系中的具体事物和事件具有一定功效。而当下,中国在国际关系领域中的定量分析研究明显不足,在国际关系研究中还略显不足,有待进一步的挖掘。由于数理统计研究需要用到很多定量数据,而中国在这方面又做的十分不足,没有建立一个数据库,因此只能利用国外已有的数据库,这无疑限制了我们的研究范围,不可长久。因此,为建立中国的国际关系学派,需要在这方面做一些有用的尝试。而另一方面,目前国际关系研究还是集中于统计描述,而在统计推论中也多采用相关分析和回归分析,许多其他的研究方法也不被运用,比如时间序列分析、主成分分析、谱系聚类分析以及一些预测性方法都运用不足,有待于进一步发展。(作者单位:贵州财经大学国际经济学院)

参考文献:

第7篇

关键词:高校 科研统计 数据

中图分类号:G46 文献标识码:A 文章编号:1674-098X(2014)09(b)-0239-01

高校是我国科研创新的重要基地和主力军。我国62%的国际重点实验室、35%国家工程研究中心均设在高校。而科研统计是高校科研的一面镜子,是其科研创新力的有效测度。它通过对高校科研规模、学术水平、增长速度和效益产出等方面的定量测量,反应高校科研工作现状和发展趋势,为高校科研部门制定检验、调整科研方针、政策规划和计划提供依据,[1]是高校科研管理制度化、规范化的基础。

1 高校科研统计工作存在的问题

在当前国家创新的大背景下,国家科技投入不断增加,高校科技活动迅猛发展,对科研统计也提出了更高的要求。因此,在科研统计中也暴露出不少的问题,主要表现在以下几个方面。

1.1 统计人员流动性大

科研统计工作是一项基础性工作,不像项目管理、成果管理那样具有产出性,其成果、绩效额度不宜测量和隐性化容易被忽视[2],导致统计工作人员热情不高;另外,一些科研管理者也对该项工作重视不够,认为只要完成上级单位布置的统计任务即可,对于统计人员没有实施积极的鼓励措施,导致科研统计人员很容易流失。北京2009年调查显示,北京高校共有科研人员137人,其中首次承担科研工作人员达52位,占总人数38%。这反映出科研人员流动性大,队伍不稳定。新接触科研统计人员对学校整体科研工作的了解、统计指标的理解都不如有经验者全面、准确,反映在统计表中的数据逻辑性和合理性差、数据库不全、数据库不能定期维护等,影响数据质量,不能真实反映学校科研工作现状。

1.2 数据收集精准度不高

科研统计工作相当复杂,涉及到科技投入、产出、项目分类、科研支出等上百个具有相关性的指标,如何正确理解这些指标范围和相关性每个统计工作者都是挑战。且在数据采集时涉及个人信息、机构信息、项目信息、经费信息、论文等多方面信息,这些信息在指标设置、分类标准、计算方法等方面有较大差异[3],这给数据统计的准确性和真实性都带来困难。因此,科研统计人员在填表中很多指标仅能凭感觉申报,造成上报统计数据失真,使得报表对决策工作不但无帮助反而带来不利影响。

1.3 科技统计数据分析不足、利用率低

科研统计工作最终目的是为管理者提供可靠依据。因此,仅做好基础数据的收集是不够的,科技统计报表只有通过专业数据分析才能发挥作用,只有专业数据分析结果才能对科研政策的制定和决策起到支撑作用。目前,我国许多高校还没有组织力量进行数据分析建模工作,未对统计结果进行科学统计分析、未建立合理的指标评级体系,没有让数据“说话”。而且,我国科研统计工作自20世纪70年代以来经历了近30年的发展[3],积累了丰富的历史数据,这可以为当前科研管理提供宝贵参考信息。但目前尚未对这些信息进行有效的利用,且在数据保存、使用过程中还存在众多问题。

2 提升科研统计工作效果的对策和建议

2.1 加强科研统计人员培训,搭建交流平台

从补充科研统计人员科研统计知识和加强对科研状况掌握入手,对统计人员加强培训,并为各高校科研统计人员间建立交流平台,促进他们的互相学习和交流。可以采用主题报告会、专项工作答疑会、基础统计知识培训、科研数据库建立和维护培训等,并引导、鼓励统计工作这撰写科研统计相关论文、参加相关项目科研团队[4],通过多种方式提高统计人员专业水准,提高科研统计人员的工作积极性,才能保证数据的采集、处理、分析、审核的精准性。

2.2 提高数据的分析和利用能力

数据的简单存在并不具备价值,只有得出分析结果才能体现其价值。数据分析可以从科研人员论文、专利、专注等信息与其年龄、学历、职称等基本信息相匹配,进行相关性分析,找出成果的产出与年龄、学历、职称等的关系,由此指导教师、科研人员的绩效考核或人才引进;项目相关成果分析可以为项目评估提供借鉴,科技成果的相关分析是科研活动最好的体现,为科研工作者或教师科研绩效评价和评估提供依据;通过对科研经费数据的分析,可以得出经费分布的主要方向、项目类型、年龄及职称分布等特征性信息,为经费配比提供依据;另通过对历年课题分析可以知道新项目的申报等。有条件的高校,可采用大数据技术驱动的数据流程,即通过基础数据的采集后,从主管部门提取拨款等宏观数据,从Web数据库提取成果信息,而后建立数据库,再利用相关性等技术对数据库进行分析,得出结果,提高对数据的分析和利用能力。

2.3 统计指标与科研评价体系相匹配

科研统计在科研评价中占有重要地位,通过数量、论文引用次数、高被引论文数、热门论文数、高被引论文占有率、专利数等指标能够科学反映出科研生产里、影响力、创新力和发展力等核心价值。论文被引总数和高被引论文是论文质量高低的指标;高被引论文数反映了科研质量的高低;高被引论文占有率反应单位可持续创新力和领先能力[5]。国外指标评价体系,如Garnatje等从“积极科研评价是否能促进科研质量提升”问题入手[6],明确科研评价中评价指标,提出深入研究建议。由此可见准确、适用的统计指标是科研评价结果的保障,这提示我们在统计工作中不但要关注数据的分析、利用,还要对统计指标的纳入和筛选等给与关注,并关注国际科研统计和科研竞争力进展[7]。

参考文献

[1] 宋秀兰,草耀艳.提高高校科研统计工作效能的对策[J].高教与经济,2010(6):61-64.

[2] 赵胤慧,张豫,王占武,等.北京高校科研统计工作研究[J].北京科技信息大学学报,2010(12): 1-4.

[3] 许哲军,蔡庆.大数据驱动的高校科技统计新模式探索[J].科技管理, 2014(3):16-19.

[4] 岳秀飞.高校医学科研机构综合管理系统建设策略[J].科技信息,2014(5):119-121.

[5] 楼雯.中国与世界:一流大学科研竞争力的差距及实证分析[J].重庆大学学报, 2014(1):104-108.

第8篇

2.水资源安全保障湖北省协同新中心,武汉大学,湖北 武汉 430072)

摘要:在当前大数据时代,高校教学中应能充分体现时代的变化与需求,将先进理念与技术带头引入实践教学中。本文结合国内外实践教学的特点,依据如今大数据迅速发展的现状,讨论将大数据的优势充分运用到二元实践教学中来,使传统的教学方法发生改变,并更加适应学生的个性化发展,培养实践创新型人才。基于大数据的二元实践教学体系能够打破传统教学体系固有的短板,更加适应时代与社会发展的需要。

关键词:大数据;二元;实践教学体系

中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)50-0001-03

随着网络信息技术的高速发展,大数据已经对社会的各个领域产生重要影响,并且掀起了新的变革。在大数据的影响下,传统教学模式存在的各类阻碍将被突破――与以往的“被动式”、“填鸭式”教学不同,进入高校学习的大部分学生具有学习自主性、偏好性的特点,同时由于大数据时代知识资源的易得性,来源渠道的多元性,导致传统的教学方式受到极大的冲击与挑战。同时,国内高校教育正日益普及,如何提高教学质量成为高等教育界广泛关注的问题。经过多年的教学实践证明,实践教学环节的质量是培养创新型人才的关键。由于高等学校大多具有学生众多、教育层次多元和学生学习能力差异大等特点,高校实践教学呈现教学资源不平衡、利用效率较低、创新性和针对性不强等问题,迫切需要采用现代化的教学手段,为提高实践教学质量探索新的途径。大数据分析技术的运用为探索以学生为中心的、使学生获取知识、提高能力、掌握学习方法的新的教学方式成为可能。本文基于大数据分析技术,结合笔者提出的“二元实践教学体系”,探索大数据环境下的实践教学体系,创新教学理念、丰富教学内容、改变教学方式,为提高教学质量和复合型、创新型人才培养提供基础。

一、大数据的内涵

大数据是IT界继云计算和物联网之后的又一场技术革命,维克托・迈尔-舍恩伯格是最早洞见大数据时展趋势的数据科学家之一,随后学术界、政府机构和工业界等各行各业开始密切关注大数据,大数据也终将引起教育界的新革命。《Nature》和《Science》等就相继出版专刊来探讨大数据带来的机遇和挑战;世界著名管理咨询公司麦肯锡于2011年6月发表了关于大数据的报告,详尽描述和分析了大数据的关键技术和应用环境;2012年初美国奥巴马政府已启动了“大数据发展计划”,将大数据比作“未来的新石油”,对数据的占有和控制将成为国家间和企业间新的争夺焦点,“大数据时代”已经来临。高等教育必须紧跟时代的脚步,高等教育工作者也应该积极把握大数据时代的机遇与挑战,开创新型的教学模式。大数据也可理解为需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。相较于传统的数据,大数据具有4V特点,即Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)。大数据的基本特征具体体现在:(1)要求较高的时效性,对于数据的及时分析与有效分析要求较高;(2)庞大的数据量,数据从TB级别跃升到PB级别;(3)数据价值密度低,因此需要通过合适的算法从中抽取有用的信息;(4)数据类型繁多,要求对数据的分类处理能力较高。

二、大数据处理模式与一般流程

由于大数据有其自身的特性,因此其处理模式与传统的处理数据的理念有所不同。对大数据的处理形式目前主要包括:对静态数据的批量处理,对在线数据的实时处理,以及对图数据的综合处理,而在线数据的实时处理又包括对流式数据的处理和实时交互计算两种。其中,批量数据处理适合大型的相对比较成熟的数据操作,在物联网、云计算、互联网以及车联网中均有应用。大数据的处理流程与一般的数据处理流程相类似,可以定义为:应用合适的工具对大量的、广泛异构的数据源进行抽取和集成,并遵循既定的标准,将得到的结果统一存储,选用数据分析技术分析并存储数据从而获取有价值的知识,并且将这些知识以可视化的方式展示给终端用户。总之,大数据处理的一般流程为数据的抽取与集成、数据存储、数据分析和数据展示。

三、二元实践教学体系

实践教学体系研究是高等教育教学改革研究的重要内容之一,如何应用系统科学的理论和方法,通过整体设计,对实践教学的各个要素进行组合优化,形成结构和功能最有效的实践教学系统,成为实践教学体系研究的热点问题。实践教学体系根据内容和范围,可分为广义实践教学体系和狭义实践教学体系。广义实践教学体系一般包括实践教学目标的设定、实践教学内容与范围的划定、实践教学过程的管理和实践教学条件的保障等要素,是由实践教学活动的各要素构成的有机联系整体,具有指导作用。狭义实践教学体系则指围绕专业人才培养目标,在制定教学计划时,通过合理设置课程数量和类型,合理配置实验、实习、实训、课程设计、毕业设计、创新制作、社会实践等各实践教学环节,建立与理论教学体系相辅相成的具体的实践教学内容体系。广义实践教学体系和狭义实践教学体系均包括软件和硬件两个方面。软件方面是指为适应课堂理论教学和学生动手能力、创造能力培养而制定的相对完善的实践性教学计划或方案、实习指导书、实验室管理规章制度等。硬件方面是指为完成实践性教学计划而配套的实习场所、仪器设备、实验装置、生产工艺流程、实验材料和相关辅助设施等,包括教学实验室、科研实验室、野外实习地区等。文献采用系统论和逻辑分析的方法,研究了实践教学的系统性与系列性,提出了由相关实践教学子系统和独立实践教学子系统组成的“二元实践教学体系”,该体系包括相关实践教学子系统和独立实践教学子系统两个子系统。相关实践教学子系统以上机实践、课程实验、课程设计、实习、毕业设计等与理论教学紧密结合的环节构成;独立实践教学子系统则由小组讨论与案例教学、竞赛(如全国水利设计大赛等)、结合科研项目独立设计实验方案和提供多实习方案等多种创新性和设计性实践教学方式组成。“二元实践教学体系”中的相关实践教学子系统的教学内容一般在理论教学之后进行,作为对理论教学内容的实践和探索,加深对理论教学内容的理解和掌握,与理论教学关系紧密相关;独立实践教学子系统具有独立性、多选择性、多方案等特点,独立实践教学子系统的教学内容和方式不局限于理论教学的内容,更注重培养学生独立思考、团队合作、综合运用知识和创新研究的能力。“二元实践教学体系”充分体现了实践教学的系统性、系列性和独立性,加深了对实践教学体系的内在结构、各环节的内在联系和如何发挥实践教学在培养学生创新创业能力中的作用等问题的认识。研究表明,在实践教学过程中,相关实践教学子系统和独立实践教学子系统存在交叉和互补,不是两个相互独立的子系统,两者是相辅相成的。相关实践教学子系统和独立实践教学子系统是实践教学体系的重要组成部分,相关实践教学子系统和独立实践教学子系统的有机结合,对改革现有实践教学体系,提高实践教学质量具有重要的理论和实际意义。例如,在课程设计中引入讨论课和案例教学,能够充分发挥学生的主观能动性和团队合作精神,既达到通过课程设计扩展对已有理论的实际应用训练的目的,又能加深对理论教学的理解,达到培养学生创新创业能力的目的;另外,还可以根据“二元实践教学体系”,对毕业设计从时间、内容、形式等多方面进行改革,提高毕业设计的深度和广度。

四、基于大数据的二元实践教学体系实例

囊陨下凼隹芍,大数据的应用,可以帮助教学工作者快速、准确和全面地发现问题、解决问题,更好地为教学服务。“二元实践教学体系”更注重理论与实践的结合、教学与科研的结合,更强调学生学习上的差异性,对在实践教学过程中如何根据学生的学习特点,有目的性和针对性地设置不同的实践教学内容,提出了更高的要求,大数据则为“二元实践教学体系”提供了方法支撑。大数据分析在教学领域中的应用表明,通过广泛收集每个学生的学习特点和需求,采用数据分析技术分析获取关于学生学习特点的有价值的信息,并及时反馈给教师,形成针对性强的实践教学内容。本文结合《工程水文学》课程,具体探讨大数据分析在实践教学中的应用。《工程水文学》在武汉大学本科教学中已有近60年历史,在继承优良传统的基础上,在二元实践教学新体系的理论指导和大数据的环境背景下,应用先进的信息化技术,建设《工程水文学》精品资源共享课,该课程于2013年获批国家精品资源共享课程建设资助,2016年建设成果通过了验收审核,正式获得国家精品资源共享课程称号。课程建设在教学模式和方法手段方面具有创新性,对推动教学资源开放共享、提高教学质量、拓展实践教学、推广网络在线教育具有重要意义,课程关系见图1。基于大数据分析的《工程水文学》二元实践教学体系的构建主要包括两个方面,一是通过大数据可以收集学生的学习习惯和偏好性等信息;另一方面通过对数据的分析,改革教学方法,针对不同的学生制定不同的培养目标,给予不同的引导。以学生为本,根据学生自身的特性和特长,培养适应不同需要的人才。最后,通过因材施教的反馈,再不断地改进方法,教学相长。

五、结论

教学是一个教师与学生互动、相长的过程,需要激发学生积极参与的热情,才能取得良好的教学效果和教学质量。本文基于大数据理论和分析技术,通过教学实践,在广泛征询学生对实践教学新体系的意见和建议的基础上,提出了大数据环境下的“二元实践教学体系”,是对过去“二元实践教学体系”的进一步发展和完善。实际分析表明,在大数据理论与分析技术的支撑下,“二元实践教学体系”更能有针对性地满足学生对实践教学的需求,而更开放、更灵活的科研与教学相结合的实践教学模式为提高实践教学质量提供了新的途径。

参考文献:

[1]程学旗,靳小龙,王元卓,郭嘉丰,张铁赢,李国杰.大数据系统和分析技术综述[J].软件学报,2014,25(9):1889-1908.

[2]维克托・迈尔・舍恩伯格,肯尼思・库克耶.大数据时代:生活、工作与思维的大变革[M].杭州:浙江人民出版社,2013.

[3]郭鑫.大数据教学资源共享系统的研究[J].电脑知识与技术,2014,10(3):446-447.

[4]李国杰,程学旗.大数据研究:未来科技及经济社会发展的重大战略领域[J].中国科学院院刊,2012,27(6):647-657.

[5]王元卓,靳小龙,程学旗.网络大数据:现状与展望[J].计算机学报,2013,36(6):1125-1138.

[6]张超,盛绍顶,汪晓华.浅谈大数据在高校教学中的应用[J].安徽化工,2015,41(2):97-99.

[7]黄晋.关于大数据人才培养的思考与探索[J].教育教学论坛,2014,(45):201-203.

[8]徐玮.大数据对高等教育的影响和挑战[J].教育教学论坛,2013,(37):4-5.

[9]屈莉莉,陈燕.大数据背景下数据挖掘课程的教学改革与探索[J].教育教学论坛,2014,(16):57-58.

[10]袁露,肖志勇,王映龙.论大数据的现状及其发展研究[J].教育教学论坛,2014,(44):86-87.

第9篇

关键词:商务平台;数据分析;电子商务

中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)30-0211-02

随着电子商务的发展,越来越多的实体商户转向网络虚拟网店,“淘宝网”的店铺数呈指数增长;消费者也越来越疲于花大量时间在海量的信息中寻找自己需要的商品[1]。由此衍生出以团购为生存方式的电子商务平台,如“折800”、“一淘网”等依赖于“淘宝网”的团购网站。这些团购网站经过通过“淘宝网”从中获取折扣商品[2]。但折扣的商品有质量质疑,团购网站需要重视上线商品的质量数据问题,对网站上线商品进行售后监控,优胜劣汰。商务平台商品数据分析系统基于此开发。

1 商务平台商品数据分析

商务平台商品数据分析系统集数据获取、数据统计和分析,系统设计有如下考虑[3-4]:

1)商品ID号:根据上线商品的ID号直接获取商品的评论,并对评论进行等级评定;

2)评论平均分:计算评论平均分,据此可判断商品是否合格;

3)评论分分布:计算评论的合格数及其比例。

等级评定时是多个操作人员同时对同一商品数据进行评论操作,评论评分定级是人工进行的,操作人员的主观对商品评论操作有一定影响。因此需要将所有操作人员的评论评分数据进行统计对比分析,以控制整个评定的有效性。

2 系统设计

本系统根据MVC的三层框架,利用JSP技术制作动态网页,通过JDBC技术访问数据库,使用JSP作为服务器端应用程序处理客户端的请求并在Web服务器中进行业务逻辑处理并返回客户端请求的结果。在JSP里嵌套HTML以及CSS对WEB页面进行设计,引入Bootstrap封装的样式,达到系统数据呈现的设计要求[5-6]。

页面数据呈现与后台数据交互是整个系统的核心,对数据进行归纳计算和整理并呈现到用户界面上。用户只需获取到公司平台上线商品的ID号就可以通过系统抓取商品评论数据;同时对数据进行整理分析得到评论平均分、评论分数比例等数据;同时可以系统整理分析出整体上线商品的整体趋势,通过饼状图直观地看出商品的品质分布。

2.1 系统功能结构设计

商务平台商品数据分析系统分为三个模块,八个基本功能,分别是管理员登陆、用户登陆、用户注册、商品评论抓取评分、商品评论数据的统计和分析、用户管理和修改密码等,根据分析,本系统的功能结构图如图1所示。

1)管理员登陆:管理员输入用户名和密码,数据经由UI Servlet传递给Controller Servlet,再到数据库中验证身份,将结果返回给JSP,成功登陆就可进入系统,不成功则重新输入。用户名只可能是字母,密码字母和数字皆可。管理员是系统指定的,不可以注册。

2)用户登录:普通用户输入用户名和密码,数据经由UI Servlet传递给Controller Servlet,再到数据库中验证身份,将结果返回给JSP,成功登陆就可进入系统,不成功则重新输入。用户名只可能是6-20位字母,密码是6-15位字母和数字组合皆可。若没有账号,可以在用户登录JSP页面点击注册,通过UI Servlet跳转到注册页面。

3)用户注册:用户注册需要输入Email、用户名、密码等信息,Email有格式判断,必须输入正确的格式,用户名必须是6-20位字母,密码是6-15位的字母数字组合皆可。输入正确后可以成功申请新用户,随后跳转到普通用户登录界面登录系统。

4)商品评论抓取评分:普通用户与管理员皆可操作,在输入框中输入商品的id号,点击查询,就可获取到“淘宝网”中商品的前一百条评论,并且按照评论时间顺序进行呈现。其后的评分框,按照规定只能输入1-5的数值,同时点击保存,数据就会存入数据库中。

5)商品评论数据统计:此功能方便普通用户清楚的跟踪自己的工作进度,对于管理员可以掌控平台上线商品的商品质量,会显示出该操作人员所操作的所有商品的平均分、合格率,可以看出该操作人员操作的商品评分状态详情。

6)商品评论数据分析:此功能为管理者观察网站整体上线商品的质量分布,点击查询,会统计所有使用系统的普通用户操作过的所有商品数的评论数据。如此管理者可以通过这些数据对网站上线商品进行调整。以操作人为条件,区分每个人的操作数据,可以控制一定的主观误差,还有整体的上线商品的趋势。普通用户可以看出自己的主观意见和其他用户的差别。

7)用户管理:管理员可以对普通用户进行增加和删除,用户管理界面对普通用户不可见。管理员有权限重置普通用户的密码。

8)修改密码:管理员和普通用户都可以自行更改密码。

2.2 系统数据库设计

数据库能够对商务平台商品数据分析系统的后台数据进行添加、删除、查询,修改。本系统采用MySQL数据库设计,分别是用户信息表、评论评分信息表、商品数据分析表和商品数据统计表。用户信息表主要保存管理员和普通用户的登录信息:用户的用户名、密码、级别还有Email。评论评分信息表主要保存评论内容、评论的时间、评论评分、商品id、操作人员、商品名称等。商品数据分析表主要保存操作人员、操作商品总数、平均四分以上的商品总数及其比例、合格率大于80%的商品总数及其占比、合格率大于60%的商品总数及其占比、不合格商品总数及其占比等内容。商品数据统计表主要保存商品id、操作人员、商品名称、评论平均分、评论合格率、评论不合格率等信息。其设计分别见表1-表4。

3 结束语

互联网电子商务企业需要处理大量的数据。商务平台商品数据分析系统基于JAVA语言和MVC设计思想,在My Eclipse的开发环境开发,完成了淘宝商品评论数据基于商品ID号抓取、评论五等级评分、针对不同操作人员评分的合格率、平均分4分以上商品总数、合格率大于一定比例的商品总数等数据统计和分析以及用户管理等功能;商务平台商品数据分析系统前台利用Bootstrap框架和BUI框架进行开发,将后台功能进行呈现。系统操作简单,界面简洁、美观交互速度快,有效降低了商品数据分析的繁琐度提高效率。

参考文献:

[1] 谢恩宏, 石宇良. 我国城市电子商务发展特点和趋势[J]. 电子商务, 2010(10): 13-15.

[2] 许小平. 大学生网上开店品牌建设研究[J]. 中国电子商务, 2012(8): 26-29.

[3] 崔志刚. 基于电商网站商品评论数据的用户情感分析[D]. 北京: 北京交通大学, 2014.

[4] 马广松, 方宇, 徐辉. 心电网络信息系统的设计及应用[J]. 中国医疗设备, 2009(7): 55-56.

第10篇

[关键词]体育综合评价;误差分析价值;误差研究现状

在体育综合评价实施过程中,误差存在于多个环节,如:评价理论准备阶段、评价数据获取阶段及评价数据处理阶段。展开来说,在体育综合评价理论准备阶段误差有指标初筛选误差、指标赋权误差、评价指标选择误差,评价数据获取阶段误差包括主观评分误差和客观测量误差,评价数据处理阶段提出评价数据的审核及定性指标量化和指标无量纲化误差。因此,本课题对体育综合评价中引入误差分析的意义和价值、研究现状及误差分析现阶段面临的问题作出了简要阐述。

1体育综合评价中误差分析的意义和价值

1.1误差分析的理论意义

在理论研究领域,体育综合评价中有关评价误差的相关研究还处于起步和探索阶段,尚未引起广大专家和学者的普遍关注,体育评价实施开展的科学性问题并未在体育学术界引起足够重视,还没有研究者系统地对体育综合评价过程中误差存在问题进行较为详细的探究分析和讨论。

1.2误差分析的应用价值

在体育综合评价过程中,通过误差分析旨在:评价理论准备阶段,使得评价指标的初选、筛选,评价指标的赋权,评价标准方法的选择更为简明合理;评价数据获取阶段,使得主观评分获取的评价数据、客观测量获取的评价数据更加接近评价对象的真实情况;评价数据处理阶段,使得定性指标的量化过程、评价结果的标准化过程更加科学可靠。

2体育综合评价实施开展中误差分析研究现状

有众多学者从不同视角对体育综合评价实施开展中的一些评价问题进行分析研究,且成果丰富,有较强的应用价值,但是部分学者撰文过多集中于对评价本身的阐述和使用方法的讨论层面,其中有:

郭亚军在其编写的《综合评价理论与方法》(科学出版社)一书中指出:构成综合评价的要素有:被评价对象、评价指标、权重系数、综合评价模型、评价者。综合评价的一般步骤是明确评价目的、确定被评价对象、建立评价指标体系、指标的若干预处理、建立与各项评价指标相对应的权重系数、选择或构造综合评价模型、计算各系统的综合评价值并进行排序或分类、结合各评价阶段找出评价指标选择、赋权的方法等。

厦门大学苏为华教授在其博士学位论文《多指标综合评价理论与方法问题研究》(2000年)一文中,对近些来多指标综合评价理论研究与应用成果进行系统全面的总结,同时对多指标综合评价技术中的有关理论与方法给予了理论意义下的论证。对评价的物理过程、评价指标的构建方法、评价指标赋权方法及各种常用的多元统计方法作出了较为详细的阐述。

北京体育大学赵书祥在其博士学位论文 《我国体育领域中综合评价理论与方法及实证的研究》(2008年)一文中利用多指标综合评价这一学科领域的基本理论和方法对体育综合评价领域的基本问题和现状进行深入全面的研究,构建了体育领域综合评价学科的基本研究内容与整体框架,论文提出:通过文献资料研究找出体育综合评价存在的具体问题;体育领域研究中各种类型指标数据的一致化方法的比较;体育领域研究中各种常用综合评价方法的比较;体育领域研究中各种常用综合评价方法的实证分析与比较。

西北师范大学刘著在其硕士学位论文 《陕西省高校男子短跑运动员专项心理能力与运动成绩的相关研究――兼论专项心理能力选材指标体系和评价标准的建立》(2004年)一文中综合运用因子分析法、灰色关联分析法、回归分析法等对陕西省高校男子短跑运动员的专项心理能力指标与运动员成绩的相关性进行分析讨论,建立了陕西省高校男子短跑运动员专项心理能力选材指标体系及相应的评价标准。

通过这些书籍资料的整理:在体育综合评价实施开展的过程中,有关评价指标选择、指标处理、评价实施等讨论的文献众多,这里不再一一例举。但是,值得注意的是,在现有文献资料中,集中于讨论评价各环节所采用方法选择,提到了因使用的不同方法在应用中存在的局限性及注意事项,但是缺乏因方法使用的局限性而产生的误差存在的原因、误差处理及误差控制手段进行更深层次的讨论。

3体育综合评价中误差分析面临的问题

翻阅中国期刊网及专业文献书籍资料发现:目前体育综合评价实施过程中有关误差分析研究的内容较少,且成果不多。经过多次较为细致的筛选,安徽师范大学王运良在其硕士学位论文《体育评价中值得注意的问题及处理措施》(2007年)中指出:体育评价大多是多指标的综合评价,但在多指标综合评价中,有关评价指标筛选、权重分配以及评价标准是否客观、有效,评价方法应用的是否恰当以及应用的局限性和其改进办法等方面缺乏必要的研究,重点提及:评价误差和评价质量方面以及评价误差的检验与控制方面的问题。提出评价误差主要包括评价体育测量过程中的误差(第Ⅰ过程误差)和评价判断过程中的误差(第II过程误差)。并对这两种误差含义给予了一定的描述,对第I过程误差和第Ⅱ过程误差的种类、误差的检测提出了相应方法。但是有关误差分析部分在其硕士学位论文中仅占较小篇幅,并且没有对两个过程中关于误差的来源、度量及减小或控制误差方法进行过多讨论。

本课题针对以上所述研究现状及问题,根据误差理论知识,依据体育综合评价开展实施的过程,对体育综合评价开展实施的主要阶段产生的误差原因、误差度量及误差控制等进行讨论分析,试给出相应环节误差的处理方法,目的在于提高体育综合评价各环节的准确性、客观性和有效性,以增加体育综合评价的科学性。

4结论

课题明确了现阶段体育综合评价开展实施中引入误差分析是必要的也是可行的,给出了体育者评价开展实施过程中引入误差分析的理论意义和应用价值,同时对体育综合评价实施开展中有关误差分析的研究现状和面临问题作出了阐述。研究结果表明,体育综合评价实施过程中有关误差分析部分应当引起专家学者足够的重视。

参考文献:

[1]费业泰.误差理论与数据处理[M].合肥:合肥工业大学出版社,2004:1-4.

[2]郭亚军.综合评价理论与方法[M].北京:科学出版社,2000:3.

[3]苏为华.多指标综合评价理论与方法问题研究[D].厦门:厦门大学,2000.

[4]赵书祥.我国体育领域中综合评价理论与方法及实证的研究[D].北京体育大学,2008.

第11篇

[关键词]研究生开题 信息源 信息检索 信息分析 信息利用

研究生开题是研究生位论文工作的起始,开题前需要收集整理大量文献信息与资料,充分了解国内外相关领域的研究动态与进展,掌握前人的研究成果,寻找课题设计的科依据和思路。这就需要研究生能准确描述课题背景的信息需求,广泛识别和选择合适的信息源,巧妙运用各种检索技巧,获取所需文献;经过分析、对比与综合,挖据文献信息中的精华,解决课题研究中的实际问题,创造性地完成科研究的任务。

本文以生命科研究生开题为例,介绍了研究生如何快速、准确、全面地获取信息资源,如何独立、有效、准确地解决研究中的实际问题,同时,根据开题阶段的特点,将研究生开题之信息基础技能和晋级技能融入实践中,描绘开题的信息技能导航图,为开题提供充分的准备。

1 研究生开题之信息基础技能

研究生开题阶段必须具备的信息基础技能包括准确界定与表达研究背景的信息需求,识别和选择合适的信息源,综合运用多种检索技巧,从而准确获取所需的文献信息。

1.1 准确描述研究背景信息需求 20世纪90年代以来,生物信息资源飞速发展,生命科也由传统的生物研究转变为一门实验性的科。研究生在开题阶段,需要大量阅读相关文献,深入了解研究课题的背景信息,为课题的创新提供基础。在了解研究背景信息的过程中,要注意以下几个方面:①要重点关注国内外的同行与相关研究机构。要深入一个研究领域,了解哪些人正从事此项研究,以便进行相关信息跟踪,也可将他们进一步发展成为合作对象或竞争对手。一般情况下,第一作者是文章的执笔者和研究工作的主要完成人,而通讯作者则是整个研究的策划者、指挥者和术带头人。从第一作者可以了解最新的实验技术和方法,从通讯作者则可了解整个研究的思路。除了这些在公开出版物中能找到的研究者外,还有一些正在从事相关研究但尚未有成果发表的研究者,他们或是团队新成员,或是交叉研究的执行者,从他们所在的研究机构可挖掘相关信息。②要了解整个领域研究的热点与趋势。借助文献计量和可视化工具,通过信息的比较分析,发现研究的热点与趋势,跟踪研究的最新进展,进而认真策划自己的研究,使成果富有创新性。③要详细了解国内外相关或相似研究中所使用的材料与实验方法。生命科是一门以实验为主的科,实验材料的优劣、实验方法的好坏是决定研究生位论文能否顺利完成的关键。相同的方法应用于不同的材料,实验结果不尽相同;相同的方法,稍加改造,移植于不同的材料,尤其是同种属间的材料,可以为研究成果的创新提供途径。研究背景信息需求的描述如图1所示:

1.2 识别与选择合适的信息源

信息源是指获取信息的来源。随着科技术的发展,信息源的表现形式多种多样,生命科研究中常用的信息源有:①期刊文献。通常为原始文献,研究成果的直接报道;信息更新快,如月刊、半月刊、周刊,甚至有些生物期刊每天会有部分online而未正式出版的文献;信息量大;比较分散,每篇文献都自成一体。最有影响的综合性期刊有Nature、Science、PNAS、Cell等;会的期刊有JBC、Microbiology、Plant Physiology、Neurology等。②专著。专著的内容比较详尽、系统,但出版周期长,新颖性不够。在研究生开题阶段,专著不失为了解研究背景与经典实验操作的捷径。常见的专著有《分子克隆实验指南》、《基因工程原理》、Gene、Genome等。在Springer link、Science Direct、Wiley和Netlibrary等数据库中有很多的电子图书,缩短了专著的获取周期,为信息的快速更新提供了条件。Springer电子图书(Springer-Ebook)每年收录约3 000种新出版的专业图书,Wiley在线实验指南中则包含了14类实验室操作指南,涉及生命科、医药与健康、化等科领域。③会议文献。定期举行的国际国内大会,是以一个研究为主题,召集国内外的顶级专家来探讨交流,如国际生化大会每三年举行一次,国际遗传大会每五年举行一次,国际动植物基因组大会则每年在美国举行,研讨国际动植物和微生物功能基因组研究的最新进展。因此,会议文献标示了一个研究领域的“风向”。④专利文献。一般指专利说明书,详细阐述发明的目的、用途、技术梗概和专利权限。从专利文献中可以了解某领域的技术水平及发展的最新动态…。全世界每年发明成果的90―95%在专利文献中可以查到,其他文献中只能反映这些成果的5―10%,因此,专利文献是查找技术应用及数据的重要文献信息源。生命科领域常见的有基因或序列专利、技术方法专利和药物专利等。⑤专业数据库。是以专业数值、数据为收藏对象的数据库。专业数据库更新快,数据量呈指数增长,数据库使用频率高,应用性强。生命科领域的专业数据库很多,如各种基因组数据库、蛋白质数据库,各个模式生物数据库等。专业数据库中的高通量信息也是其他资源所无法取代的,如美国国立生物技术信息中心(NCBI),是一套生物信息整合系统,既有PubMed和PMC等文献数据库,又有GenBank和EMBL等核酸数据库、MMDD等蛋白质和大分子结构数据库,可以从中获取蛋白质/核酸序列信息以及基因组图谱信息。⑥科研基金资助信息。科研基金对促进科技术发展有着积极的作用,基金资助项目是科研活动中常见的重要形式,往往反映着某一领域前沿的热点问题、研究动态和最新的研究成果。在研项目表明了国内外同行正在或将要进行的工作,这比公开发表的术成果或会议信息要提前不少时间。国内常见基金项目有国家自然科基金、863计划、973计划和重大专项等;国外常见的基金项目有美国国家科基金(NSF)、美国农业部基金、美国国立卫生研究院基金(NIH)、德国国家科基金(DFG)和日本振兴协会的项目等。⑦实验记录。是实验设计、操作与结果的完整记录,既有成功的经验,又有失败的总结,是不可多得的重要信息源。由于实验记录是各个课题组内部的资料,只能通过同组成员之间的传递,因此,外界较难获取。⑧术论坛。网络技术的飞速发展,为术论坛的搭建提供了很好的平台。国内比较好的生物论坛有小木虫、丁香园、生物通、生物谷等,国外比较好的论坛有bioforum、biology online等。论坛中可以就自己关注的信息发表评论,跟同行进行交流。生命科研究

常用信息源如图2所示:

1.3 综合运用检索技巧,制定检索策略

常用的信息检索途径有关键词、主题词、题名、作者、研究机构和出版项检索等,但这些检索途径不是完全独立的,可利用信息检索技术进行相关组配,缩小或扩大检索范围。常用的检索技术有三类:①布尔逻辑组配检索,如and,or,not;②字符串匹配检索,如精确检索、模糊检索和截词检索;③位置逻辑检索,如邻近关系、字段关系和从属关系。通过对作者名字和研究机构或主题词/关键词进行相关组配,找到所需的文献。

检索策略是指为实现检索目标而实施的方法。制定检索策略需要:①进行研究课题分析,弄清检索目的及需要解决的问题,确定检索词如关键词或主题词等;②选择合适的信息源,如期刊文献、会议文献、专业数据库等;③确定检索途径,可以选择主题词/关键词检索、研究机构或来源出版物检索等;④科合理地安排检索词之间的逻辑关系、位置关系及相应的检索步骤。检索策略的制定不是一劳永逸,需要在实践中检验,并不断修改与完善,直至查出的信息尽可能地全、准,尽可能地贴近课题研究的需要。检索策略的制定过程如图3所示:

1.4 多途径获取研究所需文献

面对如此众多的信息来源,如何快速高效地锁定所需文献?文献的获取途径有多种方式,一般情况下先中文后外文;先文摘数据库后全文数据库;最后再在其他数据库、基金、个人或机构网页以及一些科研社区或论坛中补充相应信息。文献检索结果可借助工具或软件进行相关分析,以便优化检索与利用。

生命科研究中重要的文摘数据库主要有ISIWeb of Science、Biosis Preview、Medline、Pubmed、Facultyof 1000 Biology,这些数据库涉及的科比较全面,信息的质量比较高。ISI Web of Science(SCIE)收录了6 800多种核心期刊,涉及自然科、生物医和工程技术等170多个科领域,数据回溯至1900年,每周更新;Biosis Preview是国际公认的查阅生命科最权威的文摘索引数据库,收录了会议、报告、评论、图书和专论等多种文献,期刊论文来源于100多个国家的6 000多种期刊;Faculty of 1000 Biology荟萃了2 300多位全球顶尖科家对生物领域24个专题论文的评估、推荐、分析和评比,提供了目前世界上最重要的生物论文信息及研究趋势。文摘数据库的检索结果,初步比较后筛选出比较重要的文献,可在全文数据库中获取全文或申请文献传递。常用的全文数据库有Springerlink、Elsevier、Wiley Interscience、Oxford University Press(OUP)、Nature,Science、PNAS、Annual Review、CSHL、BMC、PLOS、中国知网和维普科技期刊数据库等。其中,Annual Review系列刊为每年一期的综述,对于快速把握某一研究领域的动态非常有效;Springerlink检索结果可以按出版日期、内容类型、科、语种等再次分类;Elsevier检索结果可以按内容类型、期刊名/书名、主题、年份等限定或排除相关文献。常用会期刊有PlantPhysiology、JBC、Microbiology、Neurology等。

不论全文数据库还是文摘数据库,都是收录了已经公开出版的期刊文献。由于写作、投稿、出版、,需要经历较长时间,因此,期刊文献具有一定的时间滞后性,这不能完全满足科研的需要。会议报道、大会交流及术沙龙PPT等弥补了这一缺陷。会议摘要或会议录,按主题汇聚了同一领域的众多专家的研究成果,尚未发表,具有很强的时效性。国际会议信息可在Conference Proceedings Citation Index―Science(CPCI.S)即ISTP和EI中检索,中文会议可在CNKI中检索。

从国内外的基金资助信息中,可以了解国内外同行已经完成、正在或将要进行的工作,挖掘某个主题研究的发展方向和研究热点,从而预测未来的发展趋势,尤其在研项目信息,是非常重要的信息来源。

对于特定的数值数据,如基因信息、蛋白质结构、基因组信息可在科专业数据库中检索,常用的专业数据库有核酸序列数据库、大分子结构数据库、基因组数据库、模式生物数据库等。Wiley Interscience在线实验室指南中提供了部分实验操作的技术参数与步骤,特定的研究内容与技巧方法还可以查阅相关位论文、专利和标准文献。网络信息与灰色文献如社区论坛、个人主页等则是对以上所有资料的补充。文献信息的获取途径如图4所示:

2 研究生开题之信息晋级技能

研究生的信息晋级技能,主要表现为利用前期获取的信息,准确解决课题研究中的实际问题。这些技能包括科研信息的跟踪能力、管理能力和分析能力。

2.1 文献信息的跟踪

信息检索后,检索策略可以保存,用于信息跟踪。数据库中的信息跟踪主要有两种形式:Alert和RSS。Alert是重要的网络信息定制与通报服务,用户需要注册登录,选定研究主题领域或设定关键词,当有相关最新文献出版时通知用户;也可选定期刊,及时了解最新出版的期刊文章,跟踪某篇特定文章,获取最新的引用信息及研究进展。定制信息可以html或text发送至E-mail中。RSS也叫聚合内容(Really Simple Syndica-tion),是站点用来和其他站点之间共享内容的一种简易方式,RSS订阅可以获取一些时效性比较强的文献信息。研究生在开题阶段可根据检索需要建立RSS文件订阅,利用自己的RSS阅读器自动获取数据库中更新的文献信息。

2.2 文献信息的管理

信息管理可借助于文献管理软件(Endnote)完成。Endnote可与文献数据库平台相结合,用于组织和管理术文献,辅助科研究。Endnote中可以按照研究专题将文献分成多个不同的组,便于管理与查找;可记录文献阅读心得,如技术方法与研究思路,便于研究过程中的利用;可在写作过程中根据目标期刊参考文献的规范格式(style)生成论文的参考文献列表。除了End―note外,还有一些常用的管理软件,如医文献王、NoteExpress、RefWorks、Quosa等。

2.3 文献信息的分析

信息分析是基于信息的知识生产和智能活动。信息分析存在于科研究中信息活动的各个阶段,如信息需求的产生、信息的获取和信息的挖掘等。信息分析的目的在于获取研究的背景与概况、国内外研究进展以及研究中使用的技术方法,分析可以继续的研究和拓展的内容等。信息的分析、利用和创造极具个性,不同的分析方法,产生的信息增值不同。

信息分析按内容可以分为信息联想、信息综合、信

息预测和信息评估。具体来说,信息联想,是从表层信息中识别出潜在的信息,发现文献信息之间的相互联系,从而产生新的信息;信息综合则是在分析各种文献的基础上,对信息进行科概括与有机组合,从整体上把握研究的本质和规律;信息预测是根据已经掌握的信息,运用科的理论和方法,对相关研究的发展做出科预测;信息评估指对大量的文献信息进行综合分析,经过选择和比较,最终产生满足科研需要的新信息的过程。

信息分析按处理方式可分为数据库分析、文献管理软件分析和专业软件分析。数据库分析是指充分利用一些文摘数据库的附加功能,如ISI Web of Science的“分析检索结果”和EI的“精练检索结果”,进而将文献信息中的作者、关键词、地址、出版物和出版年代等相关信息提取,借助于excel图表的直观显示,发现研究的重点和趋势、国内外同行和研究机构。数据库分析的局限性在于只能对本库检索的信息分析处理,对于其他来源的文献信息,可以借助于文献管理软件,如Endnote,点击subject bibliorgraphy,也可按作者、关键词、出版年代、地址等进行相关分析。专业软件分析则是指借助于Citespace,Refviz,Omniviz,TDA等进行的科文献可视化分析,从原始数据中挖掘出有用的信息,为洞察研究或技术的发展趋势、确定研究战略和发展方向提供有价值的线索。文献信息分析情况如图5所示:3构建开题之信息技能导航

研究生阶段的教育重在培养研究生的研究能力,位论文则是全面衡量研究生综合研究能力的重要标准。开题是位论文管理的重要方面,开题阶段的关键在于文献调研,因此,快速提高研究生开题的信息基础技能和晋级技能至关重要。在前期研究的基础上,构建了研究生开题之信息技能导航图,以方便研究生在信息收集、整理和应用的过程中比对、参照,进一步提高他们的信息技能。信息技能导航如图6所示:

从图6可以看出,研究生准确描述自己的信息需求后,要综合运用多种基础技能,广泛收集信息,然后充分利用信息晋级技能,对信息进行高效管理、分析与归纳、演绎与综合,对最新的研究信息进行及时跟踪,吸取文献信息中的精华,从而理清研究思路,制定合理的研究计划与研究策略。只有经过不断的实践、总结,再实践、再总结,循环往复,螺旋上升,研究生才能真正提高自己的信息技能,为位论文的顺利开题与进行奠定良好的基础。

参考文献:

[1]秦殿启.文献检索与信息素养教育.南京:南京大出版社,2008:174―176.

[2]张帆.发现与创新――ISI Web 0f Knowledge在科研究全程中的应用.[2010一12一11]..

第12篇

关键词:中长期水文预报预报方法水文要素

中图分类号: P331文献标识码: A

1 前言

中长期水文预报是根据前期和现实的水文、气象等信息,运用天气学、数理统计、宇宙-地球物理分析方法,对未来较长时间内水文情势做出定性或定量预报。中长期水文预报具有较长的预见期,能够使人们在解决防洪与抗旱、蓄水与弃水及各部门用水之间矛盾时及早采取措施进行统筹安排,以获取最大的效益。近年来,随着新的数学分支和计算机技术的发展,为中长期水文预报拓展了新的研究途径。随着社会的不断发展,国民经济各个部门对水文预报提出的要求越来越高,要求水文部门能提供预见期长、准确性高的中期与长期预报,要求有定性分析及有定量的预报。显然,积极开展中长期水文预报是非常必要的。

2 传统的预报方法

中长期的水文要素受天文、气象、地理等多因素的影响,是多个因素共同作用的结果,因此应从历史资料中挑选多个与预报要素具有物理成因相关的因子作为预报因子,通过统计分析等数学方法建立预报因子与预报因素间的定量或定性关系从而进行水文要素预报。

2.1 成因分析法

成因分析法主要侧重于水文现象物理形成过程的描述与分析。它的主要思想是根据前期的大气环流特征以及表示这些特征的各种高空气象要素,直接与后期的水文要素建立起定量的关系进行预报。

成因分析法有以下几类:①应用前期环流进行预报;②应用前期海温特征进行预报;③根据太阳黑子相对数n年周期中的相位或分析黑子数与江河水量变化之间的关系,对后期可能发生的旱涝进行定性预测;④分析地球、行星、火山运动、臭氧的多少等与水文过程的对应关系,对后期可能发生的水文情况作出定性预估;⑤概率统计预报。

2.2 数理统计方法

在中长期水文预报中,数理统计方法占有显著地位。应用数理统计方法从大量历史资料中去寻找分析水文要素变化的统计规律以及与其他因素的关系,然后应用这些规律来进行预报。该方法又可分为单要素法和多要素综合法,其中单要素法是通过分析预报对象自身随时间变化的规律作为预报的依据,如历史演变法、滑动平均法、周期叠加、时间序列分析法等;多要素综合法是从分析影响预报对象的因子中挑选出一批预报因子,建立其统计规律作为预报的依据,如多元线性回归分析、逐步回归分析、聚类分析、自然正交分解等方法。

3现代预报方法

水文过程是一个非常复杂的高度非线性过程,采用传统的数学方法进行预报时难以达到理想的效果,与实际应用的差距还较大,因此,迫切需要引入新的理论与方法以丰富水文中长期预报方法,以期提高预报精度并为实际生产服务。随着人类对自然界规律认识的不断深入与现代科学技术的发展,涌现出了许多新理论与计算方法,丰富了传统的水文预报方法并为新预报方法的发展提供了必要的理论基础。

3.1 模糊分析方法

水文现象是一种自然现象,除具有确定性与随机性外,还具有模糊性,陈守煜等在水利、水文、水资源与环境科学领域中进行了模糊集的应用研究,并将模糊集分析与系统分析结合起来,形成了新的模糊随机系统分析体系,建立了模糊模式识别预测模型。模糊分析方法的引进,丰富了中长期水文预报理论,但由于其信息带有明显的主观性,因此应用受到了一定的限制。

3.2 人工神经网络方法

人工神经网络 (ANN)是对人脑若干基本特性通过数学方法进行的抽象和模拟,是一种模仿人脑结构及其功能的非线性信息处理系统。人工神经网络按拓扑结构分为前馈网络、反馈网络和混合网络。BP 网络是由Rumelhart和Mccullane针对含有隐层的、具有非线性连续函数的多层前馈网络权值调整问题而提出的误差反向传播算法。它是人工神经网络中最为重要的网络之一,也是迄今为止应用最为广泛的网络算法。

3.3 灰色系统理论方法

由于水文中长期预报内含的不确定性成份较多,如系统动力学本身的复杂性、变化的随机性以及人类认识的不完善性等,且各种成分难以严格区别,即部分信息清楚部分信息不清楚,基于这一事实,可以将水文过程看成一个含有灰信息和灰元素的多因素影响的灰色系统。灰色系统理论的特点较适合于预报具有指数增长趋势的问题,将其应用于非线性变化的水文时间序列预报中则会受到一定的限制,该理论目前还在发展中,以期将来的研究能够更好的为水文预报服务。

3.4 混沌理论方法

混沌理论认为,客观事物的运动除平衡态、周期、准周期运动之外,还存在着一种更加普遍的运动形式-混沌运动,即一种由确定性系统产生的、对初始条件具有敏感依赖性、永不重复的回复性周期运动。大多数水文现象的运动特征都具有确定性的一面,又具有随机性的一面,应用混沌理论将能打破传统分析中单一的确定性分析和随机性分析,建立将两者统一起来的混沌分析法。国内外文献表明,混沌理论在水文中的应用还只是进行了一些初步探索工作,大多数新方法还未涉及。

3.5投影寻踪方法

投影寻踪(PP)是统计学、应用数学和计算机技术的交叉学科,是用来分析和处理高维观测数据,尤其是非线性、非正态高维数据的统计方法。它的原理是把高维数据按照一定的方向投影到低维子空间上,以投影指标函数来分析原始数据结构特征,并寻找使投影指标函数达到最优的投影值,以达到分析研究高维数据的目的。它具有稳健性、抗干扰性和准确度高等优点,并且在水文预报方面的研究也起到了显著的成果。

3.6 小波理论方法

小波分析是源于Fourier(傅里叶)分析的新发展。从时频分析的角度出发,任一水文序列均含有多种频率成分,每一频率成分都有自身的制约因素和发展规律,因此仅从水文序列本身出发构造模型,难以把握水文序列的内在机制,有必要对水文序列进行分频率研究,而小波分析方法正好提供了一种便利的时频分析技术。

3.7多元线性回归方法

在水文中长期预报中,由于影响因素的复杂性,需要考虑多个预报因子对预报对象的影响,并建立预报对象与预报因子间的线性方程,这就是多元线性回归。多元线性回归是假定在各预报因子和预报量之间呈线性关系的情况下,使预报值和实测值之间误差达到最小,并认为未来是按这种关系发展,从而进行预报。它是中长期预报的一个重要手段。