HI,欢迎来到学术之家股权代码  102064
0
首页 精品范文 数据挖掘技术探讨论文

数据挖掘技术探讨论文

时间:2022-12-25 11:10:22

开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇数据挖掘技术探讨论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。

数据挖掘技术探讨论文

第1篇

大数据背景下的机器算法

专业

计算机科学与技术

学生姓名

杨宇潇

学号

181719251864

一、 选题的背景、研究现状与意义

为什么大数据分析很重要?大数据分析可帮助组织利用其数据并使用它来识别新的机会。反过来,这将导致更明智的业务移动,更有效的运营,更高的利润和更快乐的客户。

在许多早期的互联网和技术公司的支持下,大数据在2000年代初的数据热潮期间出现。有史以来第一次,软件和硬件功能是消费者产生的大量非结构化信息。搜索引擎,移动设备和工业机械等新技术可提供公司可以处理并持续增长的数据。随着可以收集的天文数据数量的增长,很明显,传统数据技术(例如数据仓库和关系数据库)不适合与大量非结构化数据一起使用。 Apache软件基金会启动了第一个大数据创新项目。最重要的贡献来自Google,Yahoo,Facebook,IBM,Academia等。最常用的引擎是:ApacheHive / Hadoop是复杂数据准备和ETL的旗舰,可以为许多数据存储或分析环境提供信息以进行深入分析。 Apache Spark(由加州大学伯克利分校开发)通常用于大容量计算任务。这些任务通常是批处理ETL和ML工作负载,但与Apache Kafka等技术结合使用。

随着数据呈指数级增长,企业必须不断扩展其基础架构以最大化其数据的经济价值。在大数据的早期(大约2008年),Hadoop被大公司首次认可时,维护有用的生产系统非常昂贵且效率低下。要使用大数据,您还需要适当的人员和软件技能,以及用于处理数据和查询速度的硬件。协调所有内容同时运行是一项艰巨的任务,许多大数据项目都将失败。如今,云计算已成为市场瞬息万变的趋势。因为各种规模的公司都可以通过单击几下立即访问复杂的基础架构和技术。在这里,云提供了强大的基础架构,使企业能够胜过现有系统。

二、 拟研究的主要内容(提纲)和预期目标

随着行业中数据量的爆炸性增长,大数据的概念越来越受到关注。 由于大数据的大,复杂和快速变化的性质,许多用于小数据的传统机器学习算法不再适用于大数据环境中的应用程序问题。 因此,在大数据环境下研究机器学习算法已成为学术界和业界的普遍关注。 本文主要讨论和总结用于处理大数据的机器学习算法的研究现状。 另外,由于并行处理是处理大数据的主要方法,因此我们介绍了一些并行算法,介绍了大数据环境中机器学习研究所面临的问题,最后介绍了机器学习的研究趋势,我们的目标就是研究数据量大的情况下算法和模型的关系,同时也会探讨大部分细分行业数据量不大不小的情况下算法的关系。

三、 拟采用的研究方法(思路、技术路线、可行性分析论证等)

 1.视觉分析。大数据分析用户包括大数据分析专业人士和一般用户,但是大数据分析的最基本要求是视觉分析。视觉分析直观地介绍了大数据的特征,并像阅读照片的读者一样容易接受。 2.数据挖掘算法。大数据分析的理论中心是数据挖掘算法。不同的数据挖掘算法依赖于不同的数据类型和格式来更科学地表征数据本身。由于它们被全世界的统计学家所公认,因此各种统计方法(称为真值)可以深入到数据中并挖掘公认的值。另一方面是这些数据挖掘算法可以更快地处理大数据。如果该算法需要花费几年时间才能得出结论,那么大数据的价值是未知的。 3.预测分析。大数据分析的最后一个应用领域是预测分析,发现大数据功能,科学地建立模型以及通过模型吸收新数据以预测未来数据。 4.语义引擎。非结构化数据的多样化为数据分析提出了新的挑战。您需要一套工具来分析和调整数据。语义引擎必须设计有足够的人工智能,以主动从数据中提取信息。 5.数据质量和数据管理。大数据分析是数据质量和数据管理的组成部分。高质量的数据和有效的数据管理确保了分析结果在学术研究和商业应用中的可靠性和价值。大数据分析的基础是前五个方面。当然,如果您更深入地研究大数据分析,则还有更多特征,更深入,更专业的大数据分析方法。

四、 论文(设计)的工作进度安排

2020.03.18-2020.03.20 明确论文内容,进行相关论文资料的查找与翻译。2020.04.04-2020.04.27:撰写开题报告 。

2020.04.28-2020.04.30 :设计实验。

2020.05.01-2020.05.07 :开展实验。

2020.05.08-2020.05.15 :准备中期检查。

2020.05.16-2020.05.23:根据中期检查的问题,进一步完善实验2020.05.24-2020.05.28 :完成论文初稿。

2020.05.29-2020.06.26 :论文修改完善。

 

五、 参考文献(不少于5篇)

1 . 王伟,王珊,杜小勇,覃雄派,王会举.大数据分析——rdbms与mapreduce的竞争与共生 .计算机光盘软件与应用,2012.被引量:273.

2 . 喻国明. 大数据分析下的中国社会舆情:总体态势与结构性特征——基于百度热搜词(2009—2 012)的舆情模型构建.中国人民大学学报,2013.被引量:9. 3 . 李广建,化柏林.大数据分析与情报分析关系辨析.中国图书馆学报,2014.被引量:16.

4 . 王智,于戈,郭朝鹏,张一川,宋杰.大数据分析的分布式molap技术 .软件学报,2014.被引量:6.

5 . 王德文,孙志伟.电力用户侧大数据分析与并行负荷预测 .中国电机工程学报,2015.被引量:19.

6 . 江秀臣,杜修明,严英杰,盛戈皞,陈玉峰 ,郭志红.基于大数据分析的输变电设备状态数据异常检测方法 .中国电机工程学报,2015.被引量:8.

7 . 喻国明. 呼唤“社会最大公约数”:2012年社会舆情运行态势研究——基于百度热搜词的大 数据分析.编辑之友,2013.被引量:4.

六、指导教师意见

 

 

 

 

 

 

 

 

签字:                  年     月    日

七、学院院长意见及签字

 

 

 

 

 

 

 

第2篇

【关键词】 共享数据时代; 数据挖掘; 应用统计

【中图分类号】 C81 【文献标识码】 A 【文章编号】 1004-5937(2016)22-0024-02

第八届国际数据挖掘与应用统计研究会年会于2016年7月23―26日在油城大庆隆重召开。本届会议由国际数据挖掘与应用统计研究会主办,东北石油大学、厦门大学数据挖掘研究中心、台北医学大学大数据研究中心、重庆允升科技大数据研究中心和重庆誉锋宸数据信息技术有限公司联合承办。会议主题为“卓越数据共享统计的理论及应用研究”。来自国内外近百所高校、政府和企事业单位的200多位专家学者参会。

会议开幕式由东北石油大学数学与统计学院院长王玉学教授主持。东北石油大学副校长吕延防教授介绍了大庆市貌、学校环境和铁人精神等,对本次会议的作用和意义进行了高度评价。教育部统计学类专业教学指导委员会主任、厦门大学曾五一教授从统计学科如何适应大数据时代的发展角度,对会议的召开提出了进一步的期望。台北医学大学谢邦昌教授结合大庆石油,畅谈了大数据的应用前景。厦门大学朱建平教授从学会的起源到现状,对学会未来的发展前景作了展望。

本届大会除特邀报告外,入选论文52篇。按照论文所涉及的理论领域和方法应用,将入选论文分为数据挖掘与大数据应用、统计理论、统计方法应用及实证分析等专题进行了分组交流讨论。主要学术观点综述如下:

一、数据挖掘与大数据研究现状及未来趋势研究

谢邦昌教授在《大数据发展现况与未来发展趋势》中首先阐述了何谓BIG DATA。当你连上脸书按赞打卡、上传照片到网络相簿与朋友分享、上班收发e-mail、用悠游卡买杯咖啡、通过ATM领钱、走进大卖场刷卡购物甚至是进家门开灯,都正在源源不断地创造“海量数据”。这正是云端时代的新金脉。其次是BIG DATA的理论及其应用。最重要的是如何对大数据进行分析,其基本方面如下:(1)数据可视化分析。决策者需要的不是数据本身及分析后的数值,而是庞大数据经分析之后的结果、趋势或现象,利用可视化效果易于被接受。(2)Data Mining算法。这是大数据分析的理论核心,而深入挖掘和快速处理是两大重要课题。(3)预测性分析。如何找出特性、科学建模、预测未来。(4)语义引擎。非结构化数据的多元化给数据分析带来新的挑战,要提高语义引擎设计的智能化水平。(5)数据质量和数据管理。高质量的数据和有效的数据管理可保证分析结果的真实和有价值。最后,真正制约或者成为大数据发展和应用的三个瓶颈:数据收集的合法性、产业链各个环节企业的均衡、大数据有效解读。

国家统计局潘[博士在《我看当前对大数据的一些非议――兼议大数据应用面临的问题》中指出近几年中国的大数据应用取得了一定的进展,但面临的诸多障碍依然存在,且不断出现一些对大数据的非议之声。这些非议有的有一定道理,有的则失之偏颇。潘[博士针对这些非议指出大数据是科学技术及社会生产力发展到特定阶段的必然。尽管其发展进程中确实出现了失密、造假等严重问题,但这正说明必须正视大数据的扑面而来,并尽快制定各种应对措施,抓住机遇,保存价值,着力解决出现的各种问题。最后,提出完善法律法规、明确牵头单位、统筹各部门和规范标准等措施。

重庆工商大学李勇在《网络舆情数据挖掘方法及其在意识形态传播新特点中的应用研究》中系统研究了当前网络舆情数据挖掘的主要方法,并将这些方法应用于网上意识形态传播新特点的研究中。对互联网出现前后意识形态传播呈现的不同特点进行了对比分析,提炼出意识形态传播在当前DT时代的本质特征,结合主流意识形态提出相应的有效传播方式和防范措施。

东北石油大学辛华博士在《基于密度分布的聚类算法研究》中通过密度聚类方法DBSCAN二次聚类提高了聚类精度。湖北经济学院陈战波、陶前功、黄小舟和王磊的《基于阿里云音乐平台大数据的歌手流行趋势预测及推荐研究》,山西财经大学舒居安、赵丽琴、刘逸萌的《基于网络舆情的居民购买力倾向指数构造研究》和重庆工商大学李禹锋的《基于网络团购的重庆火锅消费行为分析》等进行了大数据的应用研究。光环国际杨恩博的《大数据人才发展与培养》、广州泰迪智能科技赵云龙的《大数据形势下数据科学人才培养初探》和刘彬的《大数据双创实践探索与服务体系》,从业界不同角度探索了大数据人才培养。

二、统计基本理论及应用研究

台湾淡江大学蔡宗儒教授在《Accelerated Degradation Tests》中,回顾了可靠度分析近期的发展,指出随着制造技术的进步,产品可靠度大幅提升,进而提升了对产品可靠度分析的难度。而传统设限方法和近代加速寿命测试法具有一定局限性,通过研究加速退化测试方法,指出如何针对加速退化数据进行统计推断、评价其可靠度,如何在成本的考察下对加速退化测试实验进行设计,以利后续的测试实验参考。

北京大学房祥忠教授在《EM算法及其在置信推断中的作用》中指出医学或产品试验费用昂贵等小样本情况,其精确置信推断尤为重要;Buehler置信限在多维参数或删失数据时,难以计算,并将EM算法用于求精确置信限,给出了可靠性领域中的实证。

重庆工商大学李勇在《灰色统计基本理论及其应用》中系统研究了灰数的统计学基本理论和方法。他从随机样本产生灰色估计量和直接从灰色数据开始,构建了一套从数理统计逐步过渡到主要以灰色系统为研究对象的灰色统计方法,如灰数的区间估计、灰数的假设检验、灰数的相关分析和回归分析等,并进行了实例分析。

哈尔滨工业大学张孟琦、田波平在《空间模型参数拟极大似然估计量的渐近性和实证》中提出了双权重矩阵空间回归模型参数的极大似然估计量,包括对数似然函数、集中似然函数和参数估计;证明了相合性和渐进分布性质,并实例进行了空间自相关检验和空间计量模型分析。

天津财经大学杨贵军、于洋、孟杰的《基于AIC的粗糙集择优方法》和杨贵军、孙玲莉、董世杰的《三种线性回归多重插补法的模拟研究对比分析》分别从粗糙集择优和回归插补进行了研究。云南财经大学张敏博士在《基于高层次结构的多水平发展模型的统计建模及应用》中研究了拟合高层次嵌套数据的多水平发展建模问题。集美大学纪的《模糊数据Jonckheere-Terpstra检验法及应用》探讨了模糊数据检验。广东财经大学的刘照德、林海明在《因子分析五个争议的解答》中定量分析了因子分析的争议问题。湖南大学周四军、王佳星、罗丹在《基于门限面板模型的我国能源利用效率研究》中,基于柯布―道格拉斯生产函数理论构建了我国能源利用效率门限面板模型,并进行了实证分析。

三、统计方法及实证研究

天津财经大学杨贵军、孟杰、邹文慧在《基于模型平均的中国总和生育率估计》中指出目前国内学者对中国总和生育率的估计尚未形成一致性的结论,缺少高质量的数据源以及不完善的估计方法是影响总和生育率估计的主要问题;提出使用社会和经济等“人口系统”外部数据,引入当前统计学和计量经济学前沿的模型平均方法对中国总和生育率进行估计。

华侨大学项后军和浙江财经大学何康在《自贸区的影响与资本流动――以上海为例的“自然实验”估计》中,从自然实验角度考察了样本期内上海自贸区的设立对上海地区资本流动的影响。得出:基于双重差分模型估计的自贸区对上海资本流动的影响显著;基于改进后合成控制法得到的“合成上海”对上海设立自贸区之前的模拟程度更高;基于安慰剂检验,证实了自贸区政策的有效性。

湖南大学晏艳阳、邓嘉宜、文丹艳在《邻里效应与居民政治信任――基于中国家庭追踪调查(CFPS)的证据》中,指出近年来居民对政府的信任危机频发,矛盾不断出现,严重制约着政府的行政效率;基于中国家庭追踪调查(CFPS)截面数据,建立回归模型进行实证分析,证实了其他信息获取渠道与社会互动之间具有相互替代的关系,有效解决了关联效应和反射性问题对邻里效应估计带来的影响。

中国南方电网科学研究院冷媛、傅蔷、陈政和厦门大学范新妍在《基于MCP,Group MPC的先行、一致、滞后指标筛选》中,提出了基于MCP惩罚法的单一指标先行、一致、滞后性的判定方法和基于Group MCP的多指标系统下各个指标的先行、一致、滞后性的判定方法。冷媛、傅蔷和厦门大学孙俊歌、梁振杰在《经济景气指数研究比较及思考》中梳理了国内外景气指数的研究状况。辽宁大学马树才、宋琪在《中国人口年龄结构变动对资本投入及经济增长影响研究》中通过构建数理模型,就人口年龄结构对资本投入及经济增长的影响进行研究,得出充足的劳动供给会提高教育人力资本和物质资本的使用效率,促进经济增长,政府公共教育支出增加会提高教育人力资本对经济增长的贡献;并对面板数据进行实证分析。厦门大学刘云霞在《我国高技术产业创新绩效影响因素动态比较研究――基于状态空间和门槛模型相结合的研究》中确定了反映创新绩效的指标以及影响创新绩效的因素,再将状态空间模型和门口模型进行有机结合,找出了各影响因素对创新绩效的动态影响轨迹以及轨迹改变的关键点,并提出对策建议。

第3篇

2Web数据挖掘

2.1Web数据挖掘概述

数据挖掘(DataMining)是从大量的、不完全的、有噪声的、模糊的和随机的数据中提取人们事先不知道的、潜在有用的信息和知识的非平凡过程。

Web数据挖掘(WebMining)是从Web文档和Web活动中抽取感兴趣的、潜在的有用模式和隐藏的信息,是数据库、数据挖掘、人工智能、信息检索、自然语言理解等技术的综合应用,是在一定基础上应用数据挖掘的方法以发现有用的知识来帮助人们从WWW中提取知识。Web数据挖掘可以分为Web内容挖掘(WebContentMining)、Web结构挖掘(WebStructureMining)、Web使用记录挖掘(WebUsageMining)三类。Web内容挖掘是指从文档内容或其描述中抽取知识的过程,又可以分为基于文本的挖掘和基于多媒体的挖掘两种。Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析等。Web结构挖掘是指从Web组织结构和链接关系中推导知识。通过对Web结构的挖掘,可以用来指导对页面进行分类和聚类,找到权威页面,从而提高检索的性能,同时还可以用来指导网页采集工作,提高采集效率。Web使用记录挖掘是指从服务器端记录的客户访问日志或从客户的浏览信息中抽取感兴趣的模式。

基于Web的数据挖掘技术的出现不仅为商家做出正确的商业决策提供了强有力的工具,也为商家更加深入地了解客户需求信息和购物行为的特征提供了可能性。

2.2电子商务中Web数据挖掘的步骤

电子商务中Web数据挖掘的步骤如下:

①明确数据挖掘的对象—业务对象,确定商业应用主题,不能盲目地进行挖掘;

②将与业务对象的各类原始数据收集起来作为挖掘的数据源泉;

③对收集的数据进行预处理,一般包括数据净化、用户识别、会话识别、路径补充、事务识别和格式化等阶段,以提高挖掘效率,剔除无用、无关信息并对信息进行必要的整理。

④根据需要解决的问题建立合适的数据挖掘模型,然后利用已知数据对模型进行训练和测试,并应用该模型得到挖掘结果;

⑤利用可视化技术,验证、解释挖掘的结果,并据此做出决策或丰富知识,即进行模式分析与应用。

在整个Web数据挖掘的过程中,被明确的业务对象是挖掘过程的基础,它驱动整个Web数据挖掘的全过程;同时,也是检验挖掘结果和引导分析人员完成挖掘的依据。

2.3电子商务中Web数据挖掘的数据源

在电子商务中,可以用来作为数据挖掘分析的数据量比较大,而且类型众多,总结起来有以下几种类型的数据可用于Web数据挖掘技术产生各种知识模式。

①服务器数据。客户访问站点时会在Web服务器上留下相应的日志数据,这些日志数据通常以文本文件的形式存储在服务器上。一般包括serverslogs、errorlogs、cookieslogs等。

②查询数据。它是电子商务站点在服务器上产生的一种典型数据。例如,对于再现存储的客户也许会搜索一些产品或某些广告信息,这些查询信息就是通过cookie或是登记信息连接到服务器的访问日志上。

③在线市场数据。这类数据主要是传统关系数据库里存储的有关电子商务站点信息、用户购买信息、商品信息等数据。

④Web页面。主要是指HTML和XML页面的内容,包括文本、图片、语音、图像等。

⑤Web页面超级链接关系。主要是指页面之间存在的超级链接关系,这也是一种重要的资源。

⑥客户登记信息。客户登记信息是指客户通过Web页输入的、要提交给服务器的相关用户信息,这些信息通常是关于用户的人口特征。在Web的数据挖掘中,客户登记信息需要和访问日志集成,以提高数据挖掘的准确度,使之能更进一步的了解客户。

2.4Web数据挖掘能够获取的知识模式

运用Web数据挖掘技术能够对站点上的各种数据源进行挖掘,找到相关的一些知识模式,以指导站点人员更好地运作站点和向客户提供更好的服务。一般运用Web数据挖掘可以在站点上挖掘出来的知识模式有以下几个:

①路径分析。它可以被用于判定在一个Web站点中最频繁访问的路径。通过路径分析,可以得到重要的页面,可以改进页面及网站结构的设计。

②关联规则的发现。在电子商务中关联规则的发现可以找到客户对网站上各种文件之间访问的相互关系,可以找到用户访问的页面与页面之间的相关性和购买商品间的相关性。利用这些相关性,可以更好的组织站点的内容,实施有效的市场策略,增加交叉销售量,同时还可以减少用户过滤信息的负担。

③序列模式的发现。序列模式的发现就是在时间戳有序的事务集中,找到那些“一些项跟随另一项”的内部事务模式。它能够便于进行电子商务的组织预测客户的访问模式,对客户开展有针对性的广告服务。通过系列模式的发现,能够在服务器方选择有针对性地页面,以满足访问者的特定要求。

④分类和预测。分类发现就是给出识别一个特殊群体的公共属性的描述,这个描述可以用来分类新的项。分类的目的是通过构造分类模型或分类器,把数据库中的数据项映射到给定类别中的某一个,以便用于预测;也就是利用历史数据记录自动推导出对给定数据的推广描述,从而能对未来数据进行预测,进行适合某一类客户的商务活动。

⑤聚类分析。聚类分析可以从Web访问信息数据中聚集出具有相似特性的那些客户。在Web事务日志中,聚类顾客信息或数据项能够便于开发和执行未来的市场策略。这种市场策略包括自动给一个特定的顾客聚类发送销售邮件、为属于某一个顾客聚类中的顾客推荐特定的商品等。对电子商务来说,客户聚类可以对市场细分理论提供有力的支持。通过对聚类客户特征的提取,电子商务网站可以为客户提供个性化的服务。

⑥异常检测。异常检测是对分析对象的少数的、极端的特例的描述,以揭示内在的原因,从而减小经营的风险。异常检测在电子商务中的应用可以体现在信用卡欺诈甄别、发现异常客户和网络入侵检测等方面。

Web数据挖掘的各项功能不是独立存在的,而是在挖掘过程中互相联系,发挥作用。

3Web数据挖掘在电子商务中的应用

3.1数据抽取方法在电子商务中的应用

与传统商务活动相比,电子商务具有更多的虚拟和不确定的因素:如客户购买的心理、动机、能力、欲望等。Web数据挖掘要解决的问题就是如何从零散的无规则的网络数据中找到有用的和有规则的数据和知识,基本方法之一就是进行数据抽取,以期对数据进行浓缩,给出它的紧凑描述,如方差值等统计值或用直方图等图形方式表示,从数据泛化的角度讨论数据总结,把最原始、基本的信息数据从低层次抽象到高层次,以便于企业决策。

3.2基于Web数据挖掘的智能化搜索引擎

电子商务企业在活动过程中面临的问题之一是如何通过Internet全面、准确、及时地收集到企业内、外部的环境信息,尤其是一些隐性的、关系到企业经营成败的关键信息,以提高竞争力。目前的搜索引擎存在着查准率低、返回无用信息多的问题,使企业无法得到优质的信息。鉴于此,将Web数据挖掘技术应用于搜索引擎,使之成为智能搜索引擎,从而提高性能,满足电子商务企业的需要。Web挖掘技术主要在以下几个方面对搜索引擎有借鉴作用:文档的自动分类、自动摘要的形成、检索结果的联机聚类和相关度排序及实现个性化的搜索引擎。经过文档的分类处理,可以对搜索结果进行分门别类,可以通过限制搜索范围来使文本的查找更为容易,帮助用户快速的对目标知识进行定位,从而提高用户进行网上信息搜索的效率;自动摘要能够解决大部分搜索引擎机械地截取文档的前几句和固定字数的摘要使信息反映不完整的缺陷,使用户能较准确、快速、方便地了解检索信息;通过对检索结果的文档集合进行聚类,可以使得与用户检索结果相关的文档集中在一起,从而远离那些不相关的文档,将处理以后的信息以超链结构组织的层次方式可视化地提供给用户,由用户选择他所感兴趣的那一簇,将大大缩小所需浏览的页面数量;将Web使用挖掘中的个性化技术应用在搜索引擎中,可以在大量训练样本的基础上,得到数据对象间的内在特征,并以此为依据进行有目的的信息提取,使得搜索引擎可以按照用户的兴趣偏好扩充用户搜索的关键词,以使得检索结果更接近用户要求,或者根据用户历史浏览信息的分析获得用户兴趣库,调用个性化的搜索引擎可以提高用户检索的查全率与查准率。通过借鉴Web挖掘技术可以提高查准率与查全率,改善检索结果的组织,从而使检索效率得到改善。

3.3Web数据挖掘在客户关系管理中的应用

①客户关系管理的核心

客户关系管理(CustomerRelationshipManagement,简称CRM)的核心是通过客户和他们行为的有效数据收集,发现潜在的市场和客户,从而获得更高的商业利润,通过完善的客户服务和深入的客户分析来满足客户的需求,保证实现客户的终生价值。可以说CRM能给传统企业带来在网络经济时代谋取生存之道的管理制度和技术手段。它要求企业从“以产品为中心”的模式向“以客户为中心”的模式转移。

②Web数据挖掘在客户关系管理中的应用

Web数据挖掘能够帮助企业确定客户的特点,使企业能够为客户提供有针对性的服务。将Web数据挖掘用在电子商务CRM中主要体现在客户的获取和保持、价值客户鉴别、客户满意度分析及改善站点结构等几方面。

通过Web数据挖掘,可以理解访问者的动态行为,据此优化电子商务网站的经营模式。通过把所掌握的大量客户分成不同的类,对不同类的客户提供个性化服务来提高客户的满意度,从而保持老客户;通过对新访问者的网页浏览记录进行分析,就可以判断出该访问者是属于哪一类客户,是有利可图的潜在客户还是毫无价值的过客,达到区别对待、节省销售成本、提高访问者到购买者的转化率的目的,从而挖掘潜在客户;通过对具有相似浏览行为的客户进行分组,提取组中客户的共同特征,从而实现客户的聚类,这可以帮助电子商务企业更好地了解客户的兴趣、消费习惯和消费倾向,预测他们的需求,有针对性地向他们推荐特定的商品并实现交叉销售,可以提高交易成功率和交易量,提高营销效果。

此外,站点的结构和内容是吸引客户的关键。利用关联规则的发现,针对不同客户动态调整站点结构和页面内容,把具有一定支持度和信任度的相关联的物品放在一起以有助于销售;通过路径分析等技术可以判定出一类用户对Web站点频繁访问的路径,这些路径反映这类用户浏览站点页面的顺序和习惯,将客户访问的有关联的文件实现直接链接,让客户容易地访问到想要的页面。这样的网站会给客户留下好印象,提高客户忠诚度,吸引客户,延长他们在网站上的驻留时间以及提高再次访问的机率。

通过挖掘客户的行为记录和反馈情况,进一步优化网站组织结构和服务方式以提高网站的效率。通过Web数据挖掘,可以得到可靠的市场反馈信息,评测广告的投资回报率,从而评估网络营销模式的成功与否;可以根据关心某产品的访问者的浏览模式来决定广告的位置,增加广告针对性,提高广告的投资回报率,降低公司的运营成本。③维护客户的隐私权

维护客户的隐私权是商家在商业运作过程中不能忽视的一个基本组成部分。因此,作为电子商务企业,应该尽量避免对单个客户数据进行挖掘。企业管理客户隐私权的保护应该从技术和管理两个方面来实现:技术上,通常是采用加密标志符,并且尽量避免对单个客户数据进行挖掘;管理上,很多电子商务企业现在已经增设了首席隐私官(CPO,ChiefPrivacyOfficer)职位,隐私官将能在个人对隐私的需求和公司以合理手段使用隐私材料的权利之间,建立适当的平衡关系。这种平衡关系的大成,需要以长期的实践和经验为基础。除了电子商务企业以单独的主体身份进行客户隐私权保护的管理之外,行业自律也是保护客户隐私权的一个行之有效的手段。目前,电子商务网站越来越倾向于通过行业自律的方式来树立其在客户心目中的形象,让客户放心地提交数据。

3.4Web数据挖掘在个性化服务推荐系统中的应用

电子商务个性化服务推荐系统是向站点企业提供在电子商务中更好地运作CRM,建立良好客户关系的一种解决方法,是“以客户为中心”、“一对一”的行销的坚实执行者。

该系统主要是将数据挖掘的思想和方法应用到Web服务器日志及Web数据库等资源上,挖掘出客户的访问规律;然后将在线访问客户归结到某一类中去,根据该类用户的访问规律进行Web页面的推荐;并且系统还可以通过不断地跟踪用户的当前访问,实时调整推荐集,为用户提供个性化的访问。该系统由五大模块组成:数据收集模块、数据预处理模块、数据存储模块、离线挖掘模块和在线推荐模块。其系统结构模型如图1所示:

图1基于Web数据挖掘的个性化服务推荐系统结构模型

数据收集模块主要用于收集Web数据库、使用日志等数据,形成数据采集库,为以后的挖掘做准备;数据预处理模块主要是对所收集的数据进行预处理,数据预处理的质量与挖掘的效率和结果紧密相关;数据存储模块将预处理后的数据存入用户事务库;离线挖掘模块中的挖掘引擎使用挖掘算法库中的数据挖掘技术如统计分析、关联规则、聚类分析、序列模式等,来发现用户浏览模式,并通过模式分析对其进行分析与解释,根据实际应用,通过观察和选择,把发现的统计结果、规则和模型转换为知识,经过筛选后得到有用的模式用来指导实际的电子商务行为;在线推荐模块在Web服务器前端设置了推荐引擎,它将用户当前的浏览活动与浏览出的页面推荐集结合起来考虑,生成相应推荐集,然后在用户最新请求的页面上添加推荐集的页面,再通过Web服务器传递到用户端的浏览器,为用户实现实时个性化服务;同时将推荐结果送往网站管理中心,以便调整网站设计,优化网站结构,提高网站效率。

总的来说,在个性化服务推荐系统中运用数据挖掘技术有两个阶段:第一个阶段是学习阶段,离线进行。第二个阶段是模式的使用阶段,在线进行。挖掘和在线推荐的特征获取和规则生成是离线处理的,而当用户访问该网站时通过在线推荐引擎进行在线服务。离线模块和在线模块相互联系,在线模块主要是利用离线模块提供的规则模型对在线用户推荐(推荐引擎);离线模块主要是利用在线模块积累的数据运用系统推荐算法形成相应的规则。挖掘算法和推荐策略可以根据不同类型站点的要求来具体选择,挖掘结果和推荐集通过推荐引擎反馈给用户。电子商务网站的客户登录网站以后,其访问信息将会被记录到服务器端。这些数据将在经过预处理后,在专用的数据挖掘模块中,通过具体的挖掘算法和推荐策略来进行模式识别和模式分析。用户访问信息也会传到推荐引擎,推荐引擎根据客户的会员标识,向挖掘模块抽取对应客户的挖掘结果和推荐集,将其可视化地反馈给用户,达到个性化服务的目的。

3.5基于Web的数据挖掘在商业信用评估中的应用

发达的社会信用水平是发展电子商务的重要基础,通过Web数据挖掘对站点数据统计和历史记录之间的差别,结果与期望值的偏离以及反常实例进行充分的分析,可以有效地防范投资和经营风险。另外,通过数据挖掘技术对企业经营进行跟踪,开展企业的资产评估、利润收益分析和发展潜力预测,构建完善的安全保障体系,实施网上全程监控,监督网上言论,维护企业信誉,强化网上交易和在线支付的安全管理,利用数据挖掘的信用评估模型,对交易历史数据进行挖掘发现客户的交易数据特征,建立客户信誉度级别,有效地防范和化解信用风险,提高企业信用甄别与风险管理的水平和能力。

4结论

本文对Web挖掘技术进行了综述,介绍了其在电子商务中的典型应用。Web数据挖掘高度自动化地对电子商务中的大量信息进行分析和推理,从中挖掘出潜在的模式,预测客户行为,帮助企业的决策者调整市场策略,减少风险,做出正确的决策。Web数据挖掘是近几年来数据挖掘领域的探讨热点,利用它的技术知识将它运用到电子商务,将会解决许多实际问题,具有丰富的学术价值。将Web数据挖掘技术和电子商务两者有机结合,将会为企业更有效的确认目标市场,改进决策,获得竞争优势提供帮助,有着很广阔的应用前景,使电子商务网站更具有竞争力,从而为企业带来更多的效益。面向电子商务的Web数据挖掘能发现大量数据背后隐藏的知识,指导商家提高销售额,改善企业客户关系,提高网站运行效率,改进系统性能,具有良好的发展和应用前景,必将得到越来越多的关注。

参考文献:

[1]毛国君.数据挖掘原理与算法[M].清华大学出版社.2005(07).

[2]张冬青.数据挖掘在电子商务中应用问题研究[J].现代情报.2005(09).

[3]李凤慧.面向电子商务的Web数据挖据的研究[D].山东科技大学硕士学位论文.2004(06).

[4]杨风召,白慧.异常检测技术及其在电子商务中的应用[J].情报杂志.2005(12).

第4篇

摘要:文章探讨高校图书馆开展文献计量服务的基础、内容、模式及业务框架,提出文献计量服务作为拓展延伸图书馆服务的新生长点,能够很好地适应当前高校及其科研工作者的需求,是图书馆转变其职能角色,构建主导型服务模式的重要途径,是实现高校图书馆可持续发展的需要。

中图分类号:G251.5文献标识码:A文章编号:1003-1588(2015)03-0113-03

服务是图书馆永恒的主题,程焕文提出图书馆精神为“智慧与服务”[1]。2008年孙浩在论文《关于文献计量服务的研究》首次提出文献计量服务(Bibliometric Service)的概念以及相关理论。文献计量服务工作是促进知识生产的配套措施,是采用数学分析工具和计算机技术对各类文献计量特征进行统计分析,从而发现文献情报规律、文献管理方法以及学科发展趋势的情报服务工作,向读者和社会提供全方位的文献分布蓝图[2]。文献计量服务理念恰好符合图书馆智慧服务的精神,迎合了图书馆深层次、学科化服务的理念,作为拓展延伸高校图书馆科研支持服务的新生长点,在一定程度上能够很好地适应当前高校及其科研工作者的信息需求,为图书馆转变职能角色以及深化学科服务提供了切实可行的理论、方法和途径。

1开展文献计量服务工作的基础

随着网络信息技术的飞速发展以及全面的数据库资源的开发,分析型数据库也随之出现,其中比较著名的有SCI、SSCI、ESI、CSSCI、EI、Scopus、Incites等,这些数据库可以为文献计量服务提供全面而可靠的统计源,即硬件条件。文献计量服务要求图书馆员掌握一定量的数学分析工具和计算机技术方法来对各种类型的文献计量特征进行统计分析,这项工作具有很强的知识性与技术性。高校图书馆近年来引进大量高素质高水平人才,其中包含一批既具有学科背景又有图书情报专业知识的全能型馆员,虽然目前他们暂时分布在各个业务部门,但经过专业训练,就会形成一支能够开展文献计量服务的队伍,因此目前高校图书馆已经具备开展文献计量服务的技术保障与人员力量,这为文献计量服务工作的开展奠定了坚实的基础。

2文献计量服务的内容

文献计量服务是使用文献计量(信息计量)分析方法和工具,通过一定的情报分析和文献数据挖掘技巧,对文献进行深层次的加工,技术含量较高,属于高层次的知识服务工作。在高校开展文献计量服务,通过对各类文献计量特征进行统计与分析,从而发现文献情报规律、文献管理方法以及学科发展趋势,达到对研究机构、科研工作者或学科科研竞争力以及学科发展态势发展状况等进行客观评估及分析[3],以评估科研绩效和检测科研发展态势,从而辅助科研管理者进行科研决策,包括学校人才的整体状况分析以及各学科师资力量的分布、科研课题的申报与奖励,科研基金分配、成果奖励、人才选拔与引进等。辅助研究者的科学研究包括分析本学科的发展态势、个人的科研业绩以及在同行中的竞争优势、研究前沿、趋势、引领学科发展等。具体可以通过对学术期刊、文献的统计分析,了解研究机构分布、学科的成长阶段判断、发展趋势预测等,以此作为评价学科发展的依据。通过对科研能力、优势学科分布、发展状况、人力资源状况、科研效率等进行统计分析,可以对学术机构进行评价。还可以通过某一著者的科研论文及专著发表情况、研究领域与专长、学术贡献、科研潜在能力等进行著者评价。文献计量服务在很大程度上是以大型分析数据库作为依据,主要以科研论文作为学科分析与评价统计源,具体的基于论文数据平台的学科分析见表1。表1学科分析常用论文数据库平台

数据库名称评价指标评价内容评价维度ESI数据库国际论文总量排名总体科研表现国际论文总被引排名总体学科影响力学科综合实力Incites数据库WOS数据平台论文占全球的比例科研活跃度论文总被引占全球的比例科研影响力学科H指数学术综合实力学术影响力Incites数据库ESI数据库WOS数据平台篇均被引的全球均值比科研平均质量ESI高被引论文或热点论文比例科研前沿性顶级期刊论文的国际份额同行认可度基金项目的论文质量项目完成质量学术质量Incites数据库国际合作论文占全球的比例国际科研合作国际会议论文占全球的比例国际学术交流国际合作与交流WOS数据平台跨院系的合作论文比例学科交叉活跃度跨院系的合作论文的学科分布学科交叉的聚度跨院系的合作论文的期刊及被引学科交叉的质量学科交叉王芳,庞德盛,杨错:高校图书馆开展文献计量服务的探索与思考王芳,庞德盛,杨错:高校图书馆开展文献计量服务的探索与思考学校的职能部门即科研管理者和科研机构及科研工作者对文献计量服务的关注侧重点各有不同,因此文献计量服务针对不同的对象采取不同的服务内容,这样服务才更合理、更具针对性。

3文献计量服务的模式

根据文献计量服务的特点,将服务模式分为两种,主动推送和用户个性化定制。主动推送就是定期通过微博、微信、图书馆主页、简报等平台主动推送服务产品,或通过培训讲座、问卷调查、读者沙龙等形式让大家充分了解图书馆馆员所做的工作及其价值,特别是工作开展初期,在用户对文献计量服务不了解的情况下,这种模式可以让用户了解文献计量服务人员所能做的科研服务内容及服务价值。图书馆可以提供个性化服务,年龄在40岁以上的副教授和教授由于在业界已经有了一定名誉和地位,可以对他们进行团队学术影响力的分析(包括团队科研成果的产出情况、被引用情况及影响力、H指数以及与其他团队合作情况进行分析),同时也关注教授个人在全球、国内、同行中的位置,如某教授本人的科研状况分析,某教授科研论文发文量和被引情况分析。而对于刚进入科研领域的年轻教师,文献计量服务就要重点关注学者个人学术影响力的分析和所在学科领域的发展态势,还可以对教师本人在本学科领域的成就和影响力进行分析评价。文献计量服务的个性化科研分析,不仅有利于挖掘学科领域中坚力量和有潜力的科研人才,还可以挖掘某一领域的知识渊源、演进脉络、热点研究等内容。通过对高校及其内部的各种计量对象进行统计分析,可以为高校管理者的科研决策提供参考。

4文献计量服务的业务框架

通过分析文献计量服务的对象、模式及核心业务流程,并将这些流程与服务业务框架有机融合在一起,初步建立起文献计量服务的业务框架。文献计量服务工作首先要确定服务对象的层次进而选择相应的服务模式,然后找出与之相匹配的服务方法,再根据文献计量服务的核心业务流程进行有效文献计量产品的创造,最后综合反馈的结果,进行数据的综合分析,形成最终的文献计量服务报告。

5讨论

5.1文献计量服务是图书馆构建主导型服务模式的途径

近年来,随着图书情报事业外部发展环境的不断变化以及图书情报学新理论、新思想的不断呈现,图情专家开始从广义的服务视角,思索探讨发挥图书情报机构的文献计量功能。高校图书馆新时期提升工作水平的一个重要突破口就是着力强化决策服务功能,显著提升参考咨询工作水平。高校图书馆特别是研究型高校图书馆拥有丰富的文献信息资源优势,又集合了专业学科馆员力量,大多具有调研课题的成功经验,完全有条件建立文献计量服务部门。图书馆应加快情报服务水平的提升,提供与教学科研相关的信息和情报研究产品,构建主导型服务模式。

5.2文献计量服务是实现高校图书馆可持续发展的选择

将文献计量服务理念引入高校图书馆,更好地实现智慧服务,不仅可以提高图书馆对高校教学和科研的影响力,而且可以为图书馆寻求和发展服务新的生长点提供有力支持。随着现代信息技术的不断发展,图书馆情报学的技术含量也相应地提高,赋予其全新内涵,可以说,加强并大力发展图书情报领域学科化服务必然成为高校图书馆可持续发展的要求。文献计量服务为高校图书馆在大学中的角色转变打开一扇新的大门,使图书馆参与到高校的科研发展、政策制定和学科引领之中,转变其在高校发展中的边缘角色。通过创新服务,真正迎合用户科研支持服务需求,探索有效的文献计量服务模式,建立可持续发展的长效服务机制,真正实现图书馆服务的不可替代性,实现高校图书馆的可持续发展[5]。

5.3文献计量服务是高校发展的需要

学科建设是高等院校提高教学质量和科研水平的重要基础,而学科发展策略的制定首先需要对自身的学科发展情况进行客观准确的评估和分析,进而合理地完善自身的学科体系、加强重点学科的优势。国内外高校也越来越重视通过各种类型的学科评估把握自身的学科发展态势、本学科的优势和劣势、重点研究方向、资源分配方案等,从而对高校的学科发展战略提供重要依据和指导意义。通过文献计量和相关统计数据的分析能帮助科研人员很好地判断出某一学科的发展现状、发展趋势及潜力,同时也能在一定程度上判断出科研人员的科研能力、学术水平及影响力。随着文献计量理论研究和应用的不断深入,适时在高校图书馆推出文献计量服务模式是一种必然趋势。在信息化大环境下,面对新的机遇和挑战,高校图书馆必须积极分析自己的优势并加以充分利用与发挥,提升图书馆的软实力。

参考文献:

[1]程焕文.实在的图书馆精神与图书馆精神的实在――《图书馆精神》自序[J].大学图书馆学报,2006(4):2-14.

[2]孙浩.关于文献计量服务的研究[J].现代情报,2008(6):64-66.

[3]孙玉伟,刘昌荣,朱玉强.大学图书馆文献计量服务实践探索[J].图书馆杂志,2014(1):56-61.

[4]孙玉伟.面向科研决策的信息服务框架探析[J].情报杂志,2013(6):167-171.

第5篇

关键词:软件工程;面向数据的软件工程;面向数据的体系结构

一、软件工程的发展历程和研究现状

软件工程这一术语,是在上世纪70年代末在一次会议上被提出来的,其设立的目的就是为了规范整个软件行业,从而进一步促进软件行业的经济效益,节约了大量的人力物力成本。现在公认的软件工程的发展历史包含以下四个时期。首先诞生的是面向过程的软件工程。这一阶段主要是采用结构化的方法,对软件整个生命周期的过程进行设计、优化和测试[1]。随着技术的发展,研究也在不断推进,面向对象的软件工程也被提出,其主要是对面向对象进行分析、设计、编码、测试和软件的后期维护等等,在当时这一理念比较先进,所以其很快被广大从业者接受,并且推广开来。但是面向对象的软件工程仍不能很好地解决软件在使用当中存在复用性低这一问题,因此有人提出了采用组件技术对软件工程进行进行优化,经过实践证明这一技术确实能够提高复用率,降低软件开发过程中的经济成本。而后随着软硬件技术的提高,经济的发展,用户的商业需求也越来越高,软件开发者提出了面向服务的软件工程。时至今日,整个软件开发行业仍是以面向服务的软件开发为主导[2]。可是科技的发展不会一直止步不前,软件工程也一样,随着这些年大数据、云计算思潮的影响,很多学者开始构思能不能开发出一种基于大数据的软件工程。现在国内外已经有不少的学者提出了设计理念和相关模型,例如:我国学者何克清就详细分析了大数据影响下的软件工程的研究方向和一些关键技术。可是这一思想在现实的软件工程中还没有大范围的应用起来。因为其存在两个主要缺点:(1)现在的数据不仅形势复杂,而且增长速率也十分迅速,不仅包含着数据,还包含数据集[3]。因此在数据的储存、管理、分析和挖掘方面,相关的信息技术和软件技术更是难以招架。而且随着社会变革的加快,用户理念也在不断的转变之中,这就为整个软件的开发过程带来了更多的问题。(2)当下的软件开发方法存在一定的缺陷,例如开发复杂、生命周期短、维护难等问题导致软件成本高。

二、面向数据的软件工程的内涵和优势

面向数据的软件工程是基于面向数据的结构体系,然后对软件进行开发。以数据为核心是此类体系的最大特点。整个体系结构以数据生态系统为基础,构建的软件体系能够包含整个数据的生命过程,从保护到授权。相比较现在广泛采用的面向服务的软件工程来说其主要存在以下几个优点:(1)两者核心不同。一个是以数据为核心,具有一定的逻辑性,被数据驱动,可以根据用户的具体需求来进行具体的服务。一个是以服务为核心,是典型的通过模型来驱动的,整个过程中服务不仅可以被发现而且是无状态的[4]。(2)面向数据的体系结构在数据管理方面有着明显的优势,能够通过数据注册中心对数据完成有效管理、挖掘和分析,并且能够在不同结构的系统中实现信息的分享,其相较于当下主流的软件开发方式可以有效地解决信息数据的管理问题。(3)这两种软件工程所采用的软件开发方式都能够有效地提高软件的复用率。以数据为基础的软件能够满足不同用户的需求,追求用户个人体验的满足,但是以服务为基础的软件开发方法却受限于服务重用这一缺陷,没法追求个性化定制。(4)这种面向数据的软件工程能够在数据未被使用时对数据进行加密保护,能够在一定程度上对数据安全进行保护,提高软件的安全性能。

三、结语

目前已经有研究人员提出了面向数据的软件工程的具体方法,例如徐良在2014年设计的毕设管理系统就是采用了此类思想。清华大学的张桂刚教授就提出了一种以现有的软件工程为基础的大数据软件开发过程和相关编程语言,最后还提出了软件的设计模型。相信随着研究的进一步深入,研究人员会更加深入的推进这个方向的发展。

参考文献

[1]王雅怡.数据挖掘技术在软件工程中的应用分析[J].科技与创新,2018,08:155-156.

[2]宋阳.基于物联网和云技术的软件工程实验室架构设计[J].软件开发,2018,04:48-49.

第6篇

关键词:大数据;发展脉络;营销趋势;研究评析

一、问题的提出

云计算、移动互联网等新信息技术的广泛应用及社会化网络的兴起,使信息数据产生机制更复杂、传播速度更快、类型更多样,全球进入信息数据量“井喷式”增长的大数据时代。国际数据公司(In原ternationalDataCorporation,IDC)指出:全球创建和复制的数据量五年内增长近九倍,预计将以每两年至少翻一番的速度继续增长。仅2013年,世界范围存储的数据就达1.2ZB(1ZB抑1021B),将这些数据刻录到CDR只读光盘并堆起,其高度将是地球到月球距离的五倍[1]。生产和信息方式的变革引起管理规范及其深层次上价值观的转变。传统企业营销中,为避免无法获取整体数据的弊端,多依据小样本采样统计推断以形成所谓“科学决策”。然而采样分析的成功取决于样本的绝对随机性,大数据时代,营销调研建立在对大样本持续收集数据的基础上,实时分析和输出调查结果将为营销决策提供及时判断临界值。在大数据背景下对营销活动进行研究,具有聚焦数据,提高营销决策科学性;强调洞察,增强营销活动“预见性”;重视创新,增强营销理论“前瞻性”等研究价值[2]。特别是中国具有众多人口和庞大市场,也使中国成为最为复杂的大数据国家之一。那么,大数据对营销活动究竟会产生怎样的影响?其内在机理是什么?通过文献综述,对大数据概念进行界定,梳理其发展的历史脉络,在此基础上分析大数据对消费者行为、营销决策模式、营销战略、营销要素等的影响表征及其机理,最后对大数据的营销应用研究做出述评。

二、大数据的发展脉络及概念界定

(一)大数据的发展脉络

大数据的概念最早要追溯到上世纪,只是在互联网时代,大数据才从规模、类型等方面得以实现。早在1981年,美国著名未来学家Toffler在其著作《TheThirdWave》中,提及“大数据”,并称之为“第三浪潮的华章”[3]。2001年,META集团(现为Gartner)的分析师Laney指出数据增长带来规模性(Volume)、高速性(Velocity)、多样性(Variety)等变化[4]。《Nature》则在2008年9月开设“BigData”专刊[5-7],同时《Sci原ence》也推出数据处理研究专刊“DealingWithDa原ta”,对数据洪流(DataDeluge)所带来的社会变革及影响做出讨论[8]。大数据研究的开创性论文是Gins原bergetal(2009)的“DetectingInfluenzaEpidemicsUsingSearchEngineQueryData”,该文探讨了如何利用谷歌搜索引擎查询词来预测流行病[9]。只是在最近几年,大数据才成为高频词。2011年5月,麦肯锡公司《大数据:创新、竞争和生产力的下一前沿》报告,指出“在数据渗透于各领域并成为生产要素的背景下,对海量数据挖掘应用,将带来新的生产增长和消费者盈余浪潮”[10]。2012年3月,美国开始实施“大数据研发计划(BigDataRe原searchandDevelopmentInitiative)”,将大数据喻为“未来新石油”,并视为与互联网、超级计算机同等重要的国家战略,这也是美国在“信息高速公路”计划后所实施的又一国家级重大科技战略。日本紧随其后,推出“新ICT战略研究计划”。同年,世界经济论坛《大数据、大影响》报告,从多个行业领域阐述大数据给世界经济带来的发展机会[11]。就国内而言,2011年12月,国金证券开创国内大数据研究先河,将其研究成果引入资本市场[12]。2012年5月,香山科学会议组织“大数据科学与工程:一门新兴的交叉学科”为论题的会议,同年6月,中国计算机学会青年计算机科技论坛(CCFYOC原SEF)举办“大数据时代,智谋未来”会议,对大数据挖掘技术、组织架构、平台治理等展开探讨。2013年6月,国家自然科学基金委管理科学部、美国营销科学学会(MSI)、南京大学商学院(管理学院)和香港中文大学工商管理学院联合主办“2013营销科学与应用国际论坛”,也将“大数据、社会化、移动化对市场营销的新挑战”作为主要议题之一。2014年2月,北京银行与小米科技就移动支付、便捷信贷、产品定制、渠道拓展等签署协议,表明国内企业运用大数据战略进入实质性阶段。2014年3月5日,总理第一次把大数据写进政府工作报告,阐明了国家对大数据产业鼎力支持的政策,随后一系列公开讲话进一步明确了这一战略部署。2015年2月,百度公司利用百度迁徙、百度指数等大数据产品直观地呈现了春运“景观”,把大数据研究成果可视化地展示在电视屏幕上。2015年3月,政府工作报告中进一步提出“互联网+”计划,推动大数据与现代工业相结合。

(二)大数据的概念界定

大数据本身就是抽象的概念,当前对其概念界定尚未达成统一,不同组织及学者给予不同的表述,见表1。尽管各方对大数据概念并不统一,但其中“大规模数据”“体量、复杂性及速度超越传统数据”“超越现代技术手段处理能力”等观点得到基本认可。IBM公司及Laneyetal(2001)认为大数据具有“3V”特征:规模性(Volume),数据量一般要达到TB级甚至PB级;多样性(Variety),数据结构类型包括结构化数据、半结构化数据和非结构化数据;高速性(Ve原locity),产生、处理、分析数据的速度加快。国际数据公司(IDC)在此基础上,增加“价值性(Value),即“大数据价值很大但呈现低密度性”的特点,从而形成大数据的“4V”特征[16]。而NetApp公司认为大数据具有“ABC”三特征:大分析(BigAnalytic),通过对大数据实时分析构建新的业务模式并更好地了解顾客需求;高带宽(BigBandwidth),快速有效地对数据进行处理分析;大内容(BigContent),包括各种类型数据,同时对数据存储、扩展、安全等管理的高要求[17]。

三、大数据对未来市场营销的冲击

根据(移动)互联网时代大数据的特征、消费者行为变化及营销模式的可能演变,通过相关文献梳理,勾画的大数据对未来营销活动的影响趋势,见图1。

(一)大数据对消费行为的影响

1援消费行为更理性。工业化时代,信息不对称的客观存在,消费者易受各种如低价促销、广告宣传等影响。而大数据时代,消费者有更多、更方便的途径获取更详细的商品价格、成本、产地、质量等信息,并可更方便地搜寻、比对和遴选,从而做出更理性的选择[18]。2援消费行为幂律分布。大数据时代,消费者评价系统更广泛,先前购物者的购后评价及经验对新消费者具有重要参考。相比先前购物者的好评,消费者则会更关注其差评,以便做出正确的消费决策。同类产品中,质量好、价格有优势、服务好的产品受到越来越多的青睐,并不断吸引新的消费者,形成“滚雪球式”的“马太效应”,消费行为呈现幂律分布。3援消费行为更个性化。工业化时代,商家追求规模经济的考虑,只能在有限范围满足消费者个性化消费。而大数据时代,信息广泛并快速传播,消费者的消费认知及创造力大大提升,消费异质性不断增大,对产品或服务的关注并不仅限于以往的质量、品牌、价格、售后等,更关注其个性化的满足程度。

(二)大数据对营销决策模式的影响

大数据时代,思维方式发生三个变革:其一,要分析与事务相关所有数据而不是少量数据所构成的样本;其二,要接受数据纷乱复杂的事实,而不能过于苛求精确;其三,更加主动地分析相关关系而不再探究难以捉摸的因果关系[19],可以说,数据驱动型决策(Data‐drivenDecisionMaking)是大数据背景下决策的特点[20],以“数据化、智能化、实时化垣经验”将成为大数据时代的营销决策范式。1援数据决策技术升级,注重实时处理及相关分析。传统分析多基于多元统计、计量经济学模型等方法,对大量一手和二手结构化数据实施分析,从中寻求研究对象的内在联系,常用方法有:聚类分析、因子分析、相关分析、回归分析、A/B测试、数据挖掘等。大数据背景下,数据规模大、传递速度快、非结构化数据多等特点,使得传统数据分析及数据库管理手段很难适应时代要求。数据产生及传播速度加快,要求数据应用实现从离线(Offline)向在线(On原line)的实时处理转化[21]。数据关联成为大数据的主要价值来源,但数据间交互广、价值密度低、碎片化严重,也使决策重点从以往因果关系分析向相关关系分析转变。2援决策参与主体向社会大众倾斜,数据分析师地位加强。大数据使营销决策越来越依赖于数据分析而非经验或直觉[22],直觉判断将被精准的数据分析代替。管理者决策重心在于正确发现并提出问题,一线员工对决策参与度将大大提升,决策主体从社会精英向社会大众倾斜,扁平化组织架构、学习型企业文化将得到加强。同时,能综合运用数据分析、分布式管理的数据分析师,将为企业营销决策提供更多智力支持。

(三)大数据对营销战略的影响

1援激发协同营销的竞争格局。大数据环境下企业与行业的边界日趋模糊,营销系统开放性更明显。企业竞争不再局限于个体之间或供应链的链条间,而是向多主体所构建的商业生态系统间延伸[23]。企业营销战略的设计应打破传统的个体竞争思维,在不断提升自身营销网络化和动态化能力基础上,利用外部资源,形成协同营销格局。2援一对一营销的精准定位。大数据背景下,企业可以记录消费者在产品各个生命周期阶段的品牌偏好、口碑评价等行为数据,基于社会学、心理学、营销学、传播学等相关理论,并借助数据挖掘、统计计量等,按一定的细分标准进行消费行为细分,从而结合自身资源优势,形成目标市场的选择和一对一营销的精准定位。

(四)大数据对营销要素的影响

1援产品:顾客参与式的产品设计和个人定制。大数据背景下,虚拟企业和智能车间将会越来越多地被采用,顾客参与式的产品设计和个人定制将大行其道。那些市场价值在较短时间发生贬值的短生命周期产品的时效性更强、需求波动大,与外界存在着复杂非线性关系[24]。而长周期产品特别是其中生产工艺复杂、流程管理复杂、客户需求复杂的复杂品(ComplicatedProduct)将实现供应链纵向一体化整合及全生命周期数据整合[25]。“全息”生命周期的完整大数据可帮助企业构建消费者兴趣图谱,从而应用于营销和新媒体关系定位中。2援渠道:渠道缩短及渠道多元化。大数据背景下,信息技术更为成熟,经由中间商的渠道模式将让位于直销,渠道长度越来越短。特别是具有及时反馈交互关系平台技术的实施,使企业可开发出更多、更便捷的渠道与顾客连接,实现多渠道及跨渠道营销。诸如微商等“屏幕+手指+快递”的购物方式,配合超低的价格,使营销渠道更趋多元化。3援价格:透明度更高,基于支付意愿的差异化定价。传统营销定价多从产品成本、利润率、顾客接受度等简单因素考虑,并依据先前相关销售经验建立精算模型。大数据背景下,传统精算模型将被颠覆,价格不对称性有所改善,定价透明度越来越高,明智的价格策略是企业“阳光”定价,基于支付意愿的差异化定价将成为主导,电子支付成为主流。4援促销策略:促销手段的数字化、互动化趋势。大数据背景下,传统电视、报纸、广播等大众传媒的传播效率不断下降,而建立在数据库基础上的移动互联网将成为促销信息的重要传播手段,促销手段更具数字化。同时,促销手段更新颖,目标受众被多元化数据锁定,并特别强调与顾客间的互动和情感沟通。

四、大数据研究在营销中的应用评析

(一)研究层次:偏宏观层面研究,轻微观分析

当前对大数据的相关研究,更多从宏观层面对其概念内涵、形成脉络及其对社会所产生的影响方面展开描述,而对大数据所形成各种影响的内在机理缺少必要的微观分析。大数据为未来营销带来深刻影响,但机会和挑战并存,其合理利用前提是必须拥有准确、可靠、及时的高质量的数据[26],只有在此基础上,才能提炼出有效的营销决策信息,才能帮助企业实现精准定位。

(二)研究视角:多立足于信息科学视角,缺少管理视角

当前,国外从管理学视角应用大数据技术来支持管理决策已成为商科教育的热点[27]。相比之下,国内相关研究还处于起步阶段,数据驱动决策的管理模式还有待形成,现有的相关研究则更多立足于对数据信息的采集、处理、检索、挖掘及离线分析等信息科学视角。而只有立足管理决策的视角,探讨大数据对现代经济组织的战略定位、架构设计、营销实施等实时问题,才能真正发掘大数据的“资源”价值,建立起信息引导决策的机制。

(三)应用范围:国内多理论研究,实践广度、深度不够

第7篇

我从事计算语言学教学和研究已经50多年,在这半个多世纪的漫长岁月中,针对计算语言学的跨学科性质,我在北京大学学习过语言学,在中国科学技术大学研究生院学习过信息科学,在法国格勒诺布尔理科医科大学学习过数学,前后花了将近20年的时间更新自己的知识,成为跨学科背景的计算语言学家。现在我们已经进入了信息网络时代,以自然语言信息处理作为研究目标的计算语言学正越来越受到语言学家的关注。然而,由于大多数语言学家仅具有文科背景,他们对于计算语言学中涉及的数学知识和计算机知识了解不多,尽管他们怀着关注计算语言学的强烈愿望,可是一旦看到计算语言学的专业文献、接触到其中的数学和计算机方面的问题,往往望而生畏,敬而远之。他们精研通达的语言学知识,难以与数学知识和计算机知识融会贯通起来,这是十分可惜的!

我常常想,如果有计算语言学家能够用一般语言学家可以理解的方式,深入浅出地阐述计算语言学的原理和方法,一定会吸引更多的语言学家参加到计算语言学的队伍中,更好地推动我国计算语言学的教学和研究。

2004年我在英国伯明翰大学访问时,在伯明翰市中心的一个书店里偶然发现了Ruslan Mitkov主编的《牛津计算语言学手册》,很快就被它简洁明了、深入浅出的写作风格吸引住了。我觉得这本书就是我多年来梦寐以求的深入浅出的计算语言学著作,非常适合文科背景的语言学家阅读,决心把这本书引进到国内来。

2005年回国之后,我马上找到外语教学与研究出版社的朋友,向他们介绍这本书的价值。他们被我的诚意感动,很快就决定引进这本书,并且与牛津大学出版社商量,双方一致同意合作在国内出版。2009年9月,《牛津计算语言学手册》正式在国内发行。这是一件大快人心的好事!

本书由Ruslan Mitkov教授主编,收录了包括语言学家、计算机专家和语言工程人员在内的49位学者撰写的38篇针对计算语言学主要领域的综述性文章,各章的写作风格力求一致,使得全书前后关联、浑然一体、可读性强。《牛津计算语言学手册》内容丰富、深入浅出,全面地反映了国外计算语言学的最新成果,是我们了解国外计算语言学发展动向的一个窗口,正好满足了我国语言学界学习和了解国外计算语言学的研究成果和最新动态的要求。

本书主编Ruslan Mitkov是计算语言学家及语言工程专家,毕业于德国德累斯顿大学(Dresden University),现为英国伍尔弗汉普顿大学(University of Wolverhampton)教授。他的研究兴趣是回指消解、机器翻译和自动索引,曾于2002年出版过名为《回指消解》(Anaphora Resolution)的专著。著名计算语言学家Martin Kay(马丁?凯伊)为本书作序。Martin Kay是美国斯坦福大学语言学教授,曾任计算语言学会主席、国际计算语言学委员会主席,是国际计算语言学界的领军人物。

二、内容简介

本书内容分三大部分:1.与计算语言学有关的语言学基础理论(1~9章);2.计算语言学中自然语言的处理、方法与资源(10~26章);3.计算语言学的应用(27~38章),几乎涵盖了计算语言学的所有领域。书末有按照字母顺序编排的计算语言学术语表,每个术语均有简要的定义和解释,便于读者查询。下面分别介绍各章的内容。

第1章“音系学”(phonology)介绍了描写音系学和计算音系学的基本知识,着重介绍了非线性音系学中的有限状态模型、音位的特征-值矩阵描述方法以及音系学研究中的计算工具。

第2章“形态学”(morphology)介绍了诸如语素、词、屈折、派生等形态学的基本知识,分析了形态学对于音系学的影响,着重介绍计算形态学中的有限状态分析方法,并介绍了双层形态学和双层规则的形式化描述方法。最后介绍了结构段形态学。

第3章“词典学”(lexicography)首先简要地回顾了词典学的发展历史,接着讨论了人编词典在计算机应用中的不足,说明了计算词典学对于传统的词典编纂技术提出的挑战。本章着重讨论了词汇在计算语言学中的功能以及计算技术在词典编纂中的作用;说明了计算技术改变了词典编纂工作的面貌,为新型词典的编纂提供了有力的技术手段。本章强调指出,计算机辅助的词典编纂应该成为今后词典编纂工作的发展方向。

第4章“句法学”(syntax)首先列举了一些有趣的句法现象,分析了这些现象在计算上的意义,接着介绍正则语法和有限状态语法、上下文无关的短语结构语法、转换语法、扩充转移网络、各种基于约束的特征结构语法(功能语法、词汇功能语法、中心语驱动的短语结构语法、PATR语法)。最后,介绍了两种在语言学和计算上有意义的句法框架(广义短语结构语法、树邻接语法)。

第5章“语义学”(semantics)集中介绍了计算语义学的基本内容。首先讨论语义的表示问题,介绍了语义的高阶逻辑(higher-order-logic)表示法和语义的特征值矩阵(Attribute-Value Matrix)表示法。其次讨论句法语义接口,介绍了“并行对应模型”(Parallel Correspondence Model,简称PCM);针对 Frege的“组成性原则”(principle of compositionality),介绍了“非组成性的语义学”。最后介绍了语义解释的动态模型。

第6章“话语”(discourse)首先列举了一些话语平面的现象,阐明“话语”研究的对象是句子之间的关联问题,计算语言学中的话语研究要揭示句子之间关联的机制。接着讨论参照表示(referring expressions)和话语结构(discourse structure),说明参照表示的工作原理和参照表示的选择方法,并讨论主题(theme)与述题(rheme)、话题(topic)与焦点(focus),以及预设(presupposition)、蕴含(implicature)等问题。最后讨论“话语树”(discourse tree),介绍了“修辞结构理论”(rhetorical structure theory)和“中心理论”(centering theory)。

第7章“语用学和对话”(pragmatics and dialogue)讨论语用学及其在计算机对话模型中的应用。首先介绍言语行为(speech act)、言外语力(illocutionary force)、合作原则(cooperative principle,简称CP)、关联(relevance)等语用学的基本概念,并且介绍了意图(intention)、信念(belief)、知识(knowledge)和推论(inference)等与概念表达有关的问题。着重讨论了计算语用学中的对话模型(dialogue model),说明了从话语行为到对话行为的计算机制,并介绍了对话的管理模型(dialogue management models)。

第8章“形式语法与形式语言”(formal grammars and languages)介绍形式语言理论的基本知识,分别论述了形式语法和自动机,把形式语法看成是语言的生成装置,把自动机看成语言的识别装置。为了便于文科背景的读者理解本章的内容,对于一些基本概念都给出了定义和实例;为了避免抽象的数学推理,对于一些基本的结论不在数学上加以证明。首先介绍了Chomsky的形式语法,给出了形式语法的Chomsky分类,分别讨论了上下文无关语言(context-free languages)、线性和正则语言(linear and regular languages)、半线性语言(semilinear languages)、上下文有关语言(context-sensitive languages)、柔性上下文有关语言(mildly context-sensitive languages)。接着介绍自动机理论,分别讨论了有限自动机(finite automata)、下推自动机(pushdown automata)、线性有界自动机(linear bounded automata)、图灵机(Turing machine)。

第9章“计算复杂性”(complexity)介绍自然语言处理中的计算复杂性问题。首先介绍计算复杂性的度量方法和计算复杂性的类别,分别讨论了多项式算法(Polynomial algorithm,简称P)和非确定多项式算法(Nondeterministic Polynomial algorithm,简称NP),并介绍了自然语言处理中关于“NP完全问题”(NP-complete problem)的一些研究。接着讨论正则语言问题的计算复杂性,介绍了确定性(determinism)和非确定性(non-determinism)的概念、线性(linearity)和有限状态特性(finite-stateness)的概念,说明了有限状态方法的可应用性。然后讨论上下文无关语言的计算复杂性,介绍了基于搜索的上下文无关识别(search-based context-free recognition)、自顶向下识别(top-down recognition)、线性时间与空间中的确定性语法识别(deterministic grammar recognition in linear time and space)。最后讨论了概率语法和启发式搜索、并行处理和实际效用等问题,说明计算复杂性分析在理解自然语言的复杂性以及在建立实际的自然语言处理系统中的用途。

第10章“文本切分”(text segmentation)介绍两方面的内容:一方面是“词例还原”(tokenization),一方面是“句子分离”(sentence splitting)。词例还原的目标是把文本中的单词、标点符号、数字、字母数字字符切分出来,以便进行进一步处理。本章分别介绍了单词自动切分、缩写切分(例如:“Mr.,Dr.,kg.”中的小黑点)、连字符处理(例如:“self-asessment,forty-two,F-16”中的连字符)的技术,并且讨论了汉语和日语等东方语言中有关“词例还原”(也就是“切词”)的特殊问题。句子分离的目标是把文本中的句子分离出来,在很多自然语言处理系统中,都需要进行句子分离。本章介绍了基于规则的句子分离、基于统计的句子分离、非规范输入文本中的句子分离等技术。

第11章“词类标注”(part-of-speech tagging)介绍了词类标注器(POS tagger)的设计技术以及兼类词的排歧(disambiguation)方法。简要回顾了词类标注发展的历史,介绍了基于局部性手写规则的词类标注器、基于n-元语法的词类标注器、基于隐马尔科夫模型(Hidden Markov Models)的词类标注器、基于机器学习的词类标注器、基于全局性手写规则的词类标注器、基于混合方法的词类标注器,重点介绍了手工排歧语法(handwritten disambiguation grammars)。

第12章“句法剖析”(parsing)介绍了自动句法剖析的基本概念和关键技术。句法剖析的深度因自然语言处理的具体要求的不同而不同,有浅层的句法剖析(shallow parsing),也有深层的句法剖析(deep parsing)。本章首先介绍了浅层句法剖析,这种剖析只要把句子剖析为语块(chunks)就可以了。之后,介绍了依存剖析(dependency parsing)。在介绍上下文无关剖析(context-free parsing)时,比较详细地讨论了CYK算法、自底向上剖析、左角分析法、自底向上的活性线图分析法(bottom-up active chart)。在介绍基于合一的剖析(unification-based parsing)时,讨论了特征-值矩阵。剖析时可能得到若干个结果,因此,本章还讨论了剖析结果的排歧问题。最后,讨论了剖析算法准确性的评测、剖析程序的效率以及剖析语法覆盖面的度量方法等问题。

第13章“词义排歧”(word-sense disambiguation,简称WSD)讨论如何利用上下文来确定多义词的准确意义。首先介绍了在计算语言学研究早期所提出的WSD优选语义学方法、词专家剖析方法。这些方法由于缺乏可供使用的词汇资源,出现了“知识获取的瓶颈问题”(knowledge acquisition bottleneck)。这些问题由于大规模词汇库和知识库的出现而得到缓解,又由于统计方法和机器学习方法的应用而可以从语料库中获取精确的数据。近年来,在WSD中普遍使用基于词典的方法、联结主义方法(connectionist)、统计方法、机器学习方法,取得了很大的进步。最后讨论WSD的评测,介绍了SENSEVAL的评测活动,并介绍WSD的一些实际应用。

第14章“回指消解”(anaphora resolution)首先列举了一些回指现象,说明了回指现象的各种变体。接着讨论回指消解所需要的知识源、回指消解的过程、回指消解在自然语言处理中的应用。最后回顾了回指消解研究的发展历史和现状,讨论了今后回指消解研究中应当注意的问题。

第15章“自然语言生成”(natural language generation,简称NLG)介绍了自然语言生成研究的理论和实践问题,力图说明在人们的心智上以及在计算机中,语言究竟是怎样产生出来的。自然语言生成是一个知识密集的问题,可以从语言学、认知科学和社会学的角度来探讨。可以把自然语言生成看成一个映射问题,也可以把它看成一个选择问题,还可以把它看成一个规划问题。自然语言生成可以分为四个问题:宏观规划(macroplanning)、微观规划(microplanning)、表层实现(surface realization)、物理表达(physical presentation)。对于宏观规划,介绍了说话内容的规划、文本的规划,以及使用修辞结构理论的规划方法;对于微观规划,着重介绍了词汇生成的问题。最后介绍了表层生成的技术。

第16章“语音识别”(speech recognition)研究如何把作为声学信号的声波转换为单词的序列。现在,最有效的语音识别方法是语音信号统计建模的方法。本章简要地介绍了语音识别中的主要方法和技术:声学语音信号的建模、语音识别中的词汇表示、语音识别中的语言模型和解码。重点介绍独立于说话人的大词汇量连续语音识别(large-vocabulary continuous speech recognition,简称LVCSR)的最新的技术。目前,语音识别主要应用于自动听写机的设计、口语对话系统、语音文献的自动转写、语音信息检索等领域中。最后讨论了语音识别技术未来的研究前景。

第17章“文本-语音合成”(text-to-speech synthesis,简称TTS)介绍文本-语音合成的最新成果。TTS既涉及自然语言处理技术,也涉及数字信号的处理技术。本章主要从自然语言处理的角度来介绍TTS。首先介绍TTS系统的概貌以及它的商业应用价值。然后描述TTS系统的功能结构以及TTS系统的组成部分,TTS系统中的自动形态-句法分析、自动语音分析、自动韵律生成,说明了如何从文本中近似地计算语音的声调和时长。最后介绍了声波生成的两种技术:规则合成技术(synthesis by rules)与毗连合成技术(concatenative synthesis)。

第18章“有限状态技术”(finite-state technology)首先举例介绍有限状态语言、词汇转录机、重写规则等基本概念,然后介绍基本正则表达式的运算方法和复杂的正则表达式,最后讨论有限状态网络的形式特性。

第19章“统计方法”(statistical methods)介绍了计算语言学中的统计方法。目前,统计方法已经成为自然语言处理的主流方法。本章首先介绍数理统计的基本概念(如:样本空间、概率测度、随机变量、条件概率、熵、随机过程)以及如何把它们应用于自然语言的模拟问题,分别介绍了隐马尔科夫模型(hidden Markov models)和最大熵模型(maximum-entropy models),最后介绍了这些模型的一些技术细节,如:韦特比搜索(Viterbi search)、最大熵方程(maximum-entropy equation)等。

第20章“机器学习”(machine learning)介绍了如何通过有指导的训练实例(supervised training examples)来自动地获取语言资源中蕴含的决策树(decision-tree)和规则(rules),描述了怎样从经过标注的训练实例中进行推理的各种算法和知识表达技术,并介绍了如何使用已经获得的知识来进行分类的基于实例的分类方法(instance-based categorization),较详细地介绍了k-邻近分类算法(k nearest-neighbour categorization algorithm)。这些机器学习的技术可以应用来解决计算语言学中的形态分析、词类标注、句法剖析、词义自动排歧、信息抽取、前指消解等各种各样的问题。

第21章“词汇知识的获取”(lexical knowledge acquisition)首先介绍了词汇知识自动获取的一些背景,包括词汇知识的形式、词汇知识获取的资源和工具、单词的共现和相似度。然后介绍了从语料库中自动获取词汇的搭配关系(lexical collocation)和联想关系(lexical association)的方法,词汇相似度(similarity)计算与叙词表(thesaurus)构建的方法,动词的次范畴框架(subcategorization frame)的获取方法;分析了词汇语义学(lexical semantics)和词汇知识获取的关系。最后介绍了从机器可读的词典中获取词汇知识的方法。由于在自然语言处理中越来越重视词汇知识的作用,自然语言处理的形式模型中越来越多地采用“词汇化”(lexicalized)的方法,词汇知识的自动获取是当前计算语言学研究的亮点之一。

第22章“评测”(evaluation)专门讨论自然语言处理系统的评测问题。评测是推动自然语言处理研究发展的一个重要手段,评测的结果对于自然语言处理系统的投资者、开发者和使用者都是很有价值的。在自然语言处理技术发展的早期主要使用基于技术的评测(technology-based evaluation),在自然语言处理技术比较成熟时,就可以使用以用户为中心的评测(user-centred evaluation)。根据评测时的输入与输出,评测技术又可以分为分析成分的评测(evaluation of analysis components)、输出技术的评测(evaluation of output technologies)和交互系统的评测(evaluation of interactive systems)。分析成分的评测把语言映射为它的内部表达作为输出(例如:有标记的片段、树形图、抽象的意义表达式等)。输出技术的评测要把处理的结果用具体的语言表示出来(例如:文摘、生成的文本、翻译的译文等)。这种评测可以分别使用内部评测指标(intrinsic measures)和外部评测指标(extrinsic measures)来进行。交互系统的评测容许用户与系统进行交互。本章总结了评测的各种技术,并指出它们的优点和缺点。

第23章“子语言和可控语言”(sublanguage and controlled language)首先讨论了在限定语义领域中的计算语言学,指出了在当前的水平之下,在某些限定领域中应用自然语言处理技术的必要性。然后举例说明了某些自发形成的子语言,分析了子语言的特性,讨论了子语言在机器翻译、文本数据抽取、自然语言生成、自动文摘中的应用问题。接着讨论可控语言,分析了使用可控语言的必要性和局限性,介绍了可控语言的一个实例――简化英语AECMA。最后讨论子语言与可控语言的关系,分析了把子语言转变为可控语言的途径。

第24章“语料库语言学”(corpus linguistics)主要讨论了语料库在自然语言处理中的应用问题。首先从语料的抽样框架、语料的代表性、语料的平衡性等方面说明了建立语料库的基本要求,简要地回顾了语料库的发展历史,然后着重地讨论了语料库的标注(annotation)问题。标注过的语料库的优点是:开发和研究上的方便性、使用上的可重用性、功能上的多样性和分析上的清晰性。学术界对于语料库标注的批评主要来自两方面:一方面认为,语料库经过标注之后失去了客观性,所得到的语料库是不纯粹的;另一方面认为,手工标注的语料库准确性高而一致性差,自动或半自动的标注一致性高而准确性差,语料库的标注难以做到两全其美,而目前大多数的语料库标注都需要人工参与,因而很难保证语料库标注的一致性。在分析了语料库在自然语言处理中的应用问题之后,作者指出,不论标注过的语料库,还是没有标注过的语料库,在自然语言处理中都是有用的,语料库语言学有助于计算语言学的发展。

第25章“知识本体”(ontology)讨论了知识本体及其在自然语言处理中的应用。首先,分别介绍了哲学传统的知识本体、认知和人工智能传统的知识本体、语言学传统的知识本体,并讨论了语言学中的知识本体与词汇语义学的关系;然后,说明在自然语言处理中,知识本体可以用来帮助系统进行语言的结构分析(例如:英语中的PP附着问题、错拼更正、句法检错、语音识别),也可以用来进行局部的自然语言理解(例如:信息检索中的问题搜索、文本分类),并具体说明了知识本体在信息检索、信息抽取、自动文摘、语义相似度计算、词义排歧中的应用。

第26章“树邻接语法”(tree-adjoining grammar,简称TAG)介绍一种局部化的语法形式模型:树邻接语法(TAG)和词汇化的树邻接语法(lexicalized tree-adjoining grammar,简称LTAG)。首先讨论上下文无关语法CFG的局部化问题,说明TAG与CFG的不同:TAG以句法结构树作为核心操作对象,在树的基础上来组织语言知识,它的产生式规则也对应着树结构,它以线性的一维形式来表达二维的树结构;而CFG以符号串作为操作对象,CFG是一个基于符号串的形式语法,而TAG是基于树的形式语法。然后讨论上下文无关语法CFG的词汇化问题,介绍了LTAG。LTAG对于TAG的扩充主要在于把每一个初始树(initial tree)和辅助树(auxiliary tree)都与某一个或某一些叫作“锚点”(anchor)的具体单词关联起来。最后讨论LTAG的一些重要特性及其与别的形式系统的关系。

第27章“机器翻译:总体回顾”(machine translation:general overview)介绍了从20世纪50年代到90年代的基于规则的机器翻译系统(rule-based machine translation,简称rule-based MT)的主要概念和方法:直接翻译方法、中间语言方法、转换方法、基于知识的方法,并介绍了主要的机器翻译工具,简要回顾了机器翻译的历史。

第28章“机器翻译:新近的发展”(machine translation:latest developments)介绍了当前机器翻译系统的研究、开发和应用的情况,讨论了经验主义的机器翻译系统:基于实例的机器翻译(example-based MT)和统计机器翻译(statistical MT),并把它们与传统的基于规则的机器翻译系统进行了对比,同时还介绍了把各种方法融为一炉的混合机器翻译系统(hybrid MT)。当前基于规则的机器翻译的开发中,回指消解的研究以及基于中间语言和基于知识的机器翻译的研究取得较大进展,本章也做了介绍;此外,还介绍了口语的机器翻译,讨论了少数民族语言和不发达语言的机器翻译前景,讨论了因特网上的机器翻译(特别是网页翻译)问题。最后,本章介绍了译者的电子翻译工具,特别讨论了双语语料库、翻译记忆、双语上下文索引等问题,并介绍了一些面向译者的词处理工具。

第29章“信息检索”(information retrieval)主要介绍了文本的信息检索。信息检索系统的任务在于,对于用户提出的提问或者命题,给出与之有关的文献集合,作为检索的结果。首先分析了信息检索系统的软件组成成分,包括文献处理、提问处理、检索匹配技术。然后讨论自然语言处理技术对于信息检索的推动和促进作用,讲述了如何使用自然语言处理所得到的形态信息、短语信息、句法信息来改进信息检索中的索引技术,并且指出,当前的趋向是使用语义信息来进行信息检索。最后展望信息检索的发展前景。

第30章“信息抽取”(information extraction,简称IE)讨论如何从自由文本中自动地识别特定的实体(entities)、关系(relation)和事件(events)的方法和技术。本章主要讨论两种类型的信息抽取:一种是名称的自动抽取(extraction of names),一种是事件的自动抽取(extraction of events),并介绍书写抽取规则的方法。对于名称的自动抽取,本章介绍了名称标注器(name tagger);对于事件的自动抽取,介绍了事件识别器(event recognizer)。同时,还介绍了如何从已经标注了有关名称或事件信息的文本语料库中自动地学习和抽取规则的方法,这种方法也就是信息抽取的统计模型。最后,介绍了信息抽取的评测和应用。

第31章“问答系统”(question answering,简称QA)讨论如何从大规模真实的联机文本中对于指定的提问找出正确回答的方法和技术,这是文本信息处理的一个新的发展趋向。由于QA要对指定的提问给出一套数量不多的准确回答,在技术上,它更接近于信息检索(information retrieval),而与传统的文献检索(document retrieval)有较大的区别――QA要生成一个相关文献的表作为对于用户提问的回答。与信息抽取相比,QA要回答的提问可以是任何提问,而信息抽取只需要抽取事先定义的事件和实体。在开放领域的QA系统中,使用有限状态技术和领域知识,把基于知识的提问处理、新的文本标引形式以及依赖于经验方法的回答抽取技术结合起来,这样,就把信息抽取技术大大地向前推进了一步。本章首先介绍了QA系统的类别和QA系统的体系结构,接着介绍了开放领域QA系统中的提问处理、开放领域QA系统中的提问类型以及关键词抽取技术,并讨论了开放领域QA系统中的文献处理方法和提问抽取方法,最后展示了QA系统的发展前景。

第32章“自动文摘”(text summarization)介绍对单篇或多篇文本进行自动文摘的方法。首先讨论自动文摘的性质和自动文摘的过程。接着介绍自动文摘的三个阶段:第一阶段是主题辨认(topic identification),第二阶段是主题融合(topic fusion),第三阶段是文摘生成(summary generation);并介绍了多文本的自动文摘。最后,介绍自动文摘的评测方法,讨论了自动文摘评测的两个指标:压缩比(compression ratio,简称CR)和内容保留率(retention ratio,简称RR)。

第33章“术语抽取和自动索引”(term extraction and automatic indexing)介绍术语自动处理的技术。术语广泛地出现在科技文献中,术语的自动识别对于科技文献的分析、理解、生成、翻译具有关键性作用。随着网络的普及和数字技术的发展,出现在互联网、政府、工业部门和数字图书馆中的专业文献日益增多,术语的自动处理对于这些文献的信息检索、跨语言问答、多媒体文本自动索引、计算机辅助翻译、自动文摘等都具有重要作用。本章把面向术语的语言自动处理分为术语发现(term discovery)和术语识别(term recognition)两个部门,分别介绍了主要的技术和系统,最后介绍了双语言术语的自动抽取技术。

第34章“文本数据挖掘”(text data mining,简称TDM)介绍了本文数据挖掘技术。文本数据挖掘的目的在于从大规模真实文本数据中发现或推出新的信息,找出文本数据集合的模型,发现文本数据中所隐含的趋势,从文本数据的噪声中分离出有用的信号。本章首先讨论文本数据挖掘与信息检索的区别,分析了文本数据挖掘与计算语言学和范畴元数据(category metadata)的关系。本章举出实例,具体说明了怎样使用生物医学文献中的文本数据来推测偏头痛(migraine headaches)的病因,怎样使用专利文献中的文本数据来揭示专利文本与已经发表的研究文献之间的关系,并介绍了LINDI(Linking Information for Novel Discovery and Insight)系统。这个系统的软件能够根据大规模的文本集合来发现文本中蕴含的重要的新信息。

第35章“自然语言接口”(natural language interaction简称NLI)介绍计算机自然语言接口系统。这样的NLI系统可以把用户使用的口头自然语言或书面自然语言提出的问题转化为计算机可以处理的形式。首先介绍了NLI系统的基本组成部分、意义表达语言(meaning representation language,简称MRL)、同义互训软件(paraphraser)、问题生成软件(response generator)以及可移植工具(portability tools)。然后介绍口语对话系统(spoken dialogue systems,简称SDS),分别介绍了SDS的单词识别软件、任务模型、用户模型、话语模型、对话管理软件、消息生成软件、语音合成软件。最后讨论SDS系统的灵活性、现状以及将来的应用前景。

第36章“多模态和多媒体系统中的自然语言”(natural language in multimodal and multimedia systems)讨论自然语言在多模态系统和多媒体系统应用中的重要作用,说明了怎样把自然的口语或书面语与多媒体输入协同地融合为一体,怎样把自然语言与其他的媒体结合起来以生成更加有效的输出,怎样使用自然语言处理技术来改善多媒体文献的存取。首先介绍包含自然语言的多模态和多媒体输入的分析问题,讨论了怎样把自然语言处理技术作为多模态分析的基础,怎样把不同的模态结合起来的技术。接着介绍包含自然语言的多媒体输出的生成问题,讨论了怎样把自然语言处理技术作为多媒体生成的基础,并讨论了不同模态的协调问题(包括不同模态的配置、不同模态输出的裁剪、模态输出中空间和时间的配合)。还讨论了用于多媒体数据存取的自然语言处理技术(包括基于自然语言处理的图形和图像检索、图形和图像数据库的自然语言接口、多媒体信息的自然语言摘要)。最后讨论在多媒体环境中使用语言的问题。

第37章“计算机辅助语言教学中的自然语言处理”(natural language processing in computer-assisted language learning)介绍在计算机辅助语言教学(computer-assisted language learning,简称CALL)中使用自然语言处理技术的问题。首先介绍CALL的发展历史,接着介绍在自然语言处理背景下的CALL,语料库与CALL,双语语料库,讨论自然语言处理技术在形态学教学、语法教学、偏误的识别与诊断中的应用。最后讨论自然语言处理技术在CALL中应用的评估问题。

第38章“多语言的在线自然语言处理”(multilingual on-line natural language processing)讨论在因特网上的多语言处理问题。因特网现在已经发展成多语言的网络,英语独霸互联网天下的局面已经成为历史,非英语的网站越来越多,语言障碍日益严重。为了克服语言障碍,机器翻译当然是一个最重要的手段,除了机器翻译之外的各种使用自然语言处理技术的多语言处理工具也雨后春笋般地开发出来。本章介绍了语种辨别(language identification)、跨语言信息检索(cross-language information retrieval,简称CLIR)、双语言术语对齐(bilingual terminology alignment)和语言理解助手(comprehension aids)4个方面的研究情况。语种辨别的目的在于让计算机自动地判断书面文本是用什么语言写的,这显然是多语言自动处理必须经过的第一步。跨语言信息检索CLIR的目的在于使用一种语言提问来检索其他语言文本的信息。本章介绍了在CLIR中的译文发现技术(finding translation)、翻译变体的修剪技术(pruning translation alternatives)和翻译变体的加权技术(weighting translation alternatives)。在这些应用中,双语言词典或多语言词典是最重要的资源,而这些词典的覆盖面可以通过使用双语言术语对齐的技术来加以提升。语言理解助手的功能在于给用户提供软件工具来理解外语书写的文本,而不必使用全自动机器翻译的技术。本章介绍了施乐公司欧洲研究中心(Xerox Research Centre Europe,简称XRCE)的语言理解助手LocoLex和语义模型,并介绍了施乐公司使用语言助手来改善数字图书馆Callimaque的技术。

本章最后附有各章作者简介、计算语言学术语表、作者索引和主题索引,便于读者查阅。

三、简评

本书是手册性的专著,有如下三个明显特点:

1.深入浅出。本书各章写作风格一致,内容协调,浑然一体,特别适合对计算语言学感兴趣和初入门的读者阅读。本书使用流畅的文笔和有趣的实例来介绍艰深的技术问题,尤其适合文科背景的读者阅读。

2.专家执笔。本书的38章分别由各个领域内的46位知名专家执笔,由于这些专家具有所属领域的精湛知识,对于自己的领域有深刻的理解,有力地保证了本书的学术质量和专业水平。

3.涵盖全面。本书几乎涵盖了计算语言学的所有领域,反映了当前计算语言学的最新成就,使我们对计算语言学能够获得全面而系统的认识。

我国曾经翻译出版过有关计算语言学和自然语言处理的大部头专著,如冯志伟和孙乐翻译的《自然语言处理综论》(电子工业出版社,2005)被称为自然语言处理教材的“黄金标准”。但是,这部专著主要针对理工科背景的读者而写,数学公式较多,文科背景的读者阅读和理解起来常常会感到困难。与《自然语言处理综论》相比,本书尽量避免使用繁难的数学公式,文笔浅显而流畅,内容新颖而有趣,更适合文科背景的读者阅读。目前,计算语言学这个新兴的学科不仅吸引了大量理工科背景的研究人员,同时也有不少文科背景的研究人员投身到计算语言学的研究行列中来。本书的上述特点正好可以满足文科背景研究人员的需要。当然,由于本书内容涵盖面广、专业性强,对理工科背景的研究人员也有很大的参考价值。

第8篇

关键词:地理信息系统;空间数据仓库;数据仓库;认知过程

0引言

进入21世纪后,对空间数据仓库的研究方兴未艾,在许多次的国际学术会议上都有相关[1~3]。例如在泰国召开的ISPRS第三届动态与多维GIS会议暨CPGIS第十届地理信息年会、北京召开的第20届国际制图协会国际学术会议、南非召开的第21届国际制图协会国际学术会议等。还有一些ESRI公司的白皮书、全球性用户大会、SSD国际会议、数字地球国际会议、GIS国际会议等也开始讨论空间数据仓库问题[4~8]。将空间数据仓库技术引入到我国大概是20世纪90年代末,文献[9~14]的发表开创了我国空间数据仓库理论与技术研究的新局面,此后又陆续出现了一些这方面的论文。

总体说来,上述工作对空间数据仓库的理论和方法进行了初步研究,在概念、原理、结构、操作与算法等方面进行了初步论述,已取得了卓有成效的成绩。但是到目前为止,空间数据仓库的概念框架和认知过程等方面还是缺乏系统的论述,没有形成一套比较完整的空间数据仓库概念框架体系和认知过程体系。

1概念框架

空间数据仓库是GIS技术和数据仓库技术相结合的产物,其定义很多,但中心思想包含三方面内容:①空间数据仓库是在网络环境下,实现对异地、异质、异构不同源数据库中地理空间数据、专题数据及时间数据的统一、整合、集成处理,形成用户获取数据的共享操作模式;②空间数据仓库可根据需求对这些数据再进行测绘专业处理,提供多种空间数据产品,满足用户更高层次——对数据产品的需求;③基于空间数据产品,空间数据仓库可从多维的角度进行空间数据立方体分析和空间数据挖掘分析,提供综合的、多维的、面向分析的空间辅助决策支持信息,满足用户空间决策分析的需求。

空间数据仓库的概念框架分为外部结构、内部结构。外部结构主要描述空间数据仓库与外部系统的关系;内部结构主要描述空间数据仓库的内部功能模块组成。

1.1外部结构

数据库系统处于空间数据仓库系统的最底层,管理着若干种不同的地理空间数据库和专题数据库,它们各自独立,形成了各式各样的异地异质异构的数据库系统,它们主要为空间数据仓库提供数据源。应用系统处于空间数据仓库系统的最上层,它通过一个标准的接口从空间数据仓库中提取地理空间数据、空间数据产品和空间辅助决策分析信息,为应用系统服务。其具体外部结构如图1所示。

1.2内部结构

空间数据仓库的内部组成应由八个独立功能模块构成,分层次实现空间数据仓库系统。其中,第一层次的功能模块是空间数据仓库的基础处理模块,由多源空间数据抽取、多源空间数据整合、多源空间数据统一、空间数据仓库元数据组成;第二层次的功能模块是空间数据仓库的服务模块,由空间数据产品服务、空间数据立方体分析、空间数据挖掘分析组成;第三层次的功能模块是空间数据仓库的对外数据接口模块,由对外数据交换格式组成。第一层次的功能模块为第二层次的功能模块服务,第二层次的功能模块为第三层次的功能模块服务。其具体内部结构图如图2所示。

当应用系统提出需求时:①多源空间数据抽取功能模块从各源数据库系统中抽取出相应地理范围(矩形、多边形、椭圆)的不同种类的地理空间数据、专题数据;②多源空间数据整合功能模块对这些由图幅范围组织的地理空间数据进行相应地理范围的裁剪、拼接、接边、图形编辑、拓扑重组等整合处理,形成裁剪拼接和接边好的、具有完整拓扑关系的、物理上无缝的、按区域范围组织的地理空间数据;③多源空间数据统一功能模块对这些整合处理好的地理空间数据进行数学基础、数据编码、数据格式、数据精度等方面的统一处理,形成能相互叠加的地理空间数据;④将经抽取、整合、统一处理好的地理空间数据提交给空间数据产品服务功能模块,经过集成、融合、派生和关联等测绘专业算法处理,生成应用系统所需的各种空间数据产品;⑤基于已生成的空间数据产品,进行空间数据立方体分析和空间数据挖掘分析,得到面向空间辅助决策分析的结果;⑥将这些空间数据产品和空间辅助决策分析结果,以对外数据交换格式的形式提交给应用系统使用。

2认知过程

2.1认知过程概念图

空间数据仓库是描述地理现象的一个重要分支,其认知过程应与地理空间信息的认知过程基本一致,不同之处在于其描述的内容和范围大小的区别。因此,建立空间数据仓库的认知过程,实际上是要经过一个地理现象认识、抽象、组织、分析和应用的过程。其具体的认知过程概念框图如图3所示。

2.2认知过程描述

这14个世界模型和13个转换算子的组合构成了三个层次世界,即实体世界、目标世界和产品世界。其中,现实世界、地理现实世界、地理工程现实世界和地理工程概念世界这四个世界模型,以及命名、选择、抽象这三个转换算子,共同构成实体世界;地理工程尺度世界、地理要素分类世界、地理要素编码世界、地理要素几何世界和地理要素集合世界这五个世界模型,以及度量、分层、编码、测量和聚集这五个转换算子,共同构成目标世界;地理空间抽取世界、地理空间整合世界、地理空间统一世界、地理空间产品世界、地理空间决策世界这五个世界模型,以及提取、处理、变换、计算、分析这五个转换算子,共同构成产品世界。

数据库概念设计阶段、地理空间数据库实现阶段和空间数据仓库实现阶段构成了空间数据仓库系统实现过程的三个阶段,这三个阶段分别对应着三个层次世界,即实体世界、目标世界和产品世界。其中,前两个阶段是为地理空间数据库的建立服务的,由它们实现实体世界向目标世界的转换;后一个阶段是为空间数据仓库的建立服务的,由它们实现目标世界向产品世界的转换。

由此可见,空间数据仓库的认知过程主要就是这14个世界模型通过这13个转换算子的转换实现三个层次世界的过程。这个认知过程指导了空间数据仓库的实现。

3认知的概念定义

3.1世界模型

实际上,这些世界模型主要是依靠具体的实体模型或数据模型描述来实现的。每个世界模型均有其描述的地理空间对象,因此这些世界模型描述的内容大不相同,必须定义出这些世界模型。

3.1.1现实世界模型

现实世界中,人们能看到一系列物质和现象,对于这些物质和现象,不管是否能叫上名字,它们都是客观存在的,并且相互之间通过它们的关系组成了自然界的千差万别。由此可见,能将现实世界中所有物质和现象集合以及它们之间的相互关系用一定的形式进行描述就是现实世界模型。

现实世界的物质和现象集合中,隐含着许多不同的地理现象类,如地质、矿产、石油、自然地理等地理现象类。地理现象类是现实世界的一个子集。由此可见,能将现实世界中所有地理现象类集合以及它们之间的相互关系用一定的形式进行描述就是地理现实世界模型。

本文原文

3.1.3地理工程现实世界模型

地理现实世界的地理现象类集合中,特指一个或若干个地理现象就是地理工程现实世界,如自然地理等。地理工程现实世界是地理现实世界的一个子集。由此可见,能将地理现实世界指的地理现象以及它们之间的相互关系用一定的形式进行描述就是地理工程现实世界模型。

3.1.4地理工程概念世界模型

要用计算机来描述地理工程现实世界中的地理现象,就必须对它们进行抽象描述,形成地理现象在人们头脑中的反映,生成概念模型。由此可见,能将地理工程现实世界指的地理现象以及它们的内部关系用一定的形式进行抽象的概念描述就是地理工程概念世界模型。

3.1.5地理工程尺度世界模型

将地理现象抽象成概念模型,仅有这些还远远不够,因为现实世界中的所有地理现象均是有度量的,所以用计算机描述这些地理现象时,也必须是可度量的。度量主要包括描述地理现象的欧几里德几何坐标系和数学单位尺度。由此可见,对地理工程概念世界中的抽象地理现象进行欧几里德几何坐标系和数学单位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分类世界模型

按照GIS理论,概念中的地理现象最终都是通过多种地理要素来表达的,因此如何对地理要素进行合理的设计和划分就显得十分重要。根据ARC/INFO的分层理论,只有将这些地理要素进行分类分级,才能高效地处理它们。由此可见,对地理工程尺度世界中具有尺度度量的地理现象进行地理要素的分类分级描述就是地理要素分类世界模型。

3.1.7地理要素编码世界模型

要使计算机能识别和处理地理要素,就必须给这些地理要素进行分类分级编码,即用一串数字来表示它们,该分类分级编码就成为该地理要素在计算机中的唯一标志符,以便计算机能识别和处理。由此可见,对地理要素分类世界中具有明确分类分级定义的地理要素进行分类分级编码描述就是地理要素编码世界模型。

3.1.8地理要素几何世界模型

为了便于计算机的存储和管理,必须将地理要素细分为几何目标。地理要素几何目标包括基本目标和复合目标。基本目标按地理要素的空间特征划分为点状目标、线状目标、面状目标、体状目标和表面状目标等五种;复合目标由基本目标集合嵌套构成。由此可见,对地理要素编码世界中具有明确分类分级编码的地理要素进行几何目标的划分和描述就是地理要素几何世界模型。

3.1.9地理要素集合世界模型

因为地理要素在一定的条件下由相同或不同的点、线、面、表面和体等五类空间目标组合而成,所以在实际使用中,必须通过计算机系统把数据库中存储的基本目标、复合目标还原成地理要素。由此可见,对地理要素几何世界中具有基本目标、复合目标描述的地理要素进行数据库的几何目标集合操作就是地理要素集合世界模型。

定义9地理要素集合世界模型。设Con中地理要素点状目标、线状目标、面状目标、体状目标、表面目标集合分别表示为Po、Lo、Ao、To、So,Atr为地理要素的某一地理特征集合,则地理要素集合世界模型为Ent={e|(Po,Lo,Ao,To,So)∈Atr}。

3.1.10地理空间抽取世界模型

地理空间抽取的主要功能就是从源数据库中按地理区域范围(矩形、椭圆、多边形等)抽取出满足一定条件的不同种类的地理空间数据。由此可见,对地理要素集合世界中的地理空间数据按一定地理区域范围和地理特征进行抽取的操作描述就是地理空间抽取世界模型。

3.1.11地理空间整合世界模型

数据库中存储的地理空间数据是以图幅为单位组织的,但应用系统使用数据是无图幅概念的,是以地理区域范围为组织的。由此可见,对地理空间抽取世界中抽取出的地理空间数据进行图形裁剪、图形拼接、图形接边、图形编辑和拓扑重组等整合处理,形成以地理区域范围为组织的无缝数据集合操作就是地理空间整合世界模型。定义11地理空间整合世界模型。设Con中图形裁剪、图形拼接、图形编辑、图形接边、拓扑重组功能分别表示为Cut、Stitch、Meet、Edit和Topology,整合功能集合表示为Fun={Cut,Stitch,Meet,Edit,Topology},则地理空间整合世界模型Pro={e|(e∈Ext,e∈Fun)}。

3.1.12地理空间统一世界模型

实现地理空间数据整合后,必须对来自不同源数据库中的地理空间数据进行统一,因为地理空间数据存在着差异。这些差异表现在如下方面,即数学基础差异、数据编码差异和数据格式差异、数据精度差异。由此可见,对地理空间整合世界中的地理空间数据进行数学基础、数据编码、数据格式、数据精度的统一操作和描述就是地理空间统一世界模型。

3.1.13地理空间产品世界模型

随着应用的深入,单纯的地理空间数据已越来越不能满足用户的需求,用户更加希望使用的是经过测绘专业处理的、经过二次加工处理的地理空间数据产品,后者在实际中具有更大的应用价值。由此可见,对地理空间统一世界中的地理空间数据进行测绘专业处理生成空间数据产品的操作就是地理空间产品世界模型。

定义13地理空间产品世界模型。设Con中单一、集成、融合、派生和关联的功能分别表示为Single、Integrate、Fuse、Derive和Relate,测绘专业处理算法集合为Fru={Single,Integrate,Fuse,Derive,Relate},则地理空间产品世界模型Pdu={e|(e∈Uni,e∈Fru}。

3.1.14地理空间决策世界模型

建立空间数据仓库的最终目的是为空间决策支持服务,为用户提供大量的具有空间决策支持的信息,这可通过空间数据仓库中的空间数据立方体分析和空间数据挖掘分析来实现。由此可见,对地理空间产品世界中的空间数据产品进行空间数据立方体分析和空间数据挖掘分析,生成空间决策支持信息的操作和描述就是地理空间决策世界模型。

定义14地理空间决策世界模型。设Con中的空间数据立方体分析和空间数据挖掘分析分别表示为Scube、Smine,空间决策分析算法集合为Sdss={Scube,Smine},则地理空间决策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。

3.2转换算子

在空间数据仓库的认知过程中,14个世界模型的变换离不开13个转换算子,即命名、选择、抽象、度量、分层、编码、测量、聚集、提取、处理、变换、计算和分析,由它们实现每两个世界模型的转换。这些转换算子主要是依靠元数据来实现的,因为每个世界模型均有描述它的元数据,要实现两个世界模型的转换,通晓这两个世界的元数据是转换的前提。虽然这些转换算子的具体定义不同,但它们都是实现每两个世界模型的转换,从数学的定义上说就是由某个世界模型通过函数转换到另一个世界模型上,因此这些转换算子的宏观数学定义是一致的。

4结束语

目前,空间数据仓库理论和技术研究才刚刚起步,其目标是支持数字地球发展、空间数据集成、空间决策支持发展的需求。因此应该抓住这个千载难逢的好机会,将我国的空间数据仓库研究与建立迈上一个新台阶,以支持我国的空间数据基础设施建设。本文对空间数据仓库的概念框架和认知过程体系进行了一定程度的技术探讨,希望能起到抛砖引玉的作用。

参考文献:

[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.

[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.

[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.

[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.

[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.

[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.

[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.

[9]赵霈生,杨崇俊.空间数据仓库的技术与实践[J].遥感学报,2000,4(2):157-160.

[10]李琦,杨超伟.空间数据仓库及其构建策略[J].中国图像图形学报,1999,4(11):984-990.

[11]杨群,闾国年,陈钟明.地理信息数据仓库的技术研究[J].中国图像图形学报,1999,4(8):621-626.

[12]周炎坤,李满春.大型空间数据仓库初探[J].测绘通报,2000,22(8):22-23.

第9篇

关键词:统计学专业;应用型人才;实践教学

随着我国高等教育从精英教育向大众化教育的转变,应用型人才培养已经成为课程建设及其一般本科院校特别是新建地方本科院校的必然选择,也是我国经济社会发展的必然要求。所以,探索、创新应用型人才培养模式和培养体系,建立起促进应用型人才培养的体制机制,以更好地适应地方经济建设和社会发展对人才的需要,这是高等教育人才培养工作面临的重要课题。近几年来,作为新建地方院校的广西财经学院对此进行了积极探索,本文结合该校统计学专业应用型人才培养实践进行了较深入的探讨。

一、围绕应用型人才类型定位,科学制定统计学专业人才培养方案

1.统计学专业应用型人才的培养目标定位

根据教育部统计学专业教学指导委员会对经济管理类统计人才培养目标的界定,结合广西财经学院实际,我校统计学专业培养目标定位为:以满足市场需求为导向,培养具有良好的数学和经济学、管理学素养,掌握统计学的基本理论、方法和思想,能熟练运用现代信息技术进行数据处理和统计分析的复合型、应用型、创新型经济管理类专门人才。具体表现为“宽口径、厚基础、重应用、高素质”培养目标要求。“宽口径”是指所培养的学生有广泛的适应性,既是统计人才又是经济管理人才,其知识结构能够适应现代市场经济发展对“复合型”人才的要求;“厚基础”是指所培养的学生有较扎实的经济管理的理论基础、统计学基础、计算机基础和数学基础,增强学生对经济发展和社会需求的适应性;“重应用”指所培养的学生主要是应用型经济管理统计人才,要着重培养学生应用经济理论和统计方法去处理现实问题的能力,包括调查研究、分析和预测和参与政策咨询和决策的能力等,体现了作为方法论、管理工具的统计学学科性质;“高素质”是指所培养的学生有较高的综合素质,包括专业素养、品德素质、心理素质和较强的获取知识、更新知识和进行知识创新的能力、适应社会的能力。

2.以“双体系、双平台、多模块”框架构建应用型统计学专业课程体系

按照知识、素质、能力一体化教育的思想,在课程体系设计过程中,我们注意把握以下几方面:一是保证统计学专业基础课程的学时、学分,夯实专业基础;二是给足统计学专业主干课程学时、学分,力求专业主干课能讲深讲透;三是强化实践教学,课内与课外、校内与校外实践相结合;四是突出统计学专业“市场调查与定量分析”核心竞争能力培养要求;五是邀请用人单位参与人才培养方案的制定,以更好地适应生产实践、社会发展需要。从2006级统计学专业开始,我们按照学校的统一架框要求,按照“双体系、双平台、多模块”框架构建了应用型统计学专业课程体系。“双体系”是指在人才培养中坚持理论教学和实践教学的有机统一,构建教学与科研互动、理论教学与实践教学并重的教学体系。理论课程体系包括公共基础课、专业基础课、专业主干课和选修课,其中的专业基础课程包括数学、计算机和经济学、管理学等重在夯实专业基础;实验实践课程体系分为两个模块:模块一为学校各专业统一规定的军训、就业指导等实践课程,模块二则是根据统计学专业要求设置的独立实践实验模块。“双平台”是指加强通识教育、提高学生人文精神和修养的公共基础理论课程平台,以及帮助学生拓宽口径、加厚基础,以适应专业和人生发展的统计学专业基础核心课程。专业主干课程有概率论与数理统计、多元统计分析等8门,约占理论课程总学分的25%,该模块作为统计学专业核心内容,既保证了统计学专业的基本理论、基本方法教学,也突出了统计学专业的核心知识、能力培养。“多模块”是以“双体系”、“双平台”为基础支撑,按照统计学科专业的服务方向和人才规格要求以及学生的兴趣特长、人生志向等,从理论和实践两个维度设计多个不同的学习模块,即“社会经济统计”、“市场调查与数据分析”、“风险管理与精算”三个专业方向,让学生自主选择,因材施教。三个方向的课程设置,既突出本方向的知识、能力要求,也考虑到了统计学与经济学、管理学的结合,有助于提高学生的专业技能和实践创新能力。

二、加强实践教学和职业素养,提高学生的综合素质和实践创新能力

1.整合、优化实践课程体系设计,突出统计应用主线

从2005级到2009级,我们每年都在不断总结、逐步完善实践课程体系设置,到2008级形成了比较完整的实践课程体系,实践实验课程学分超过总学分的26%。实践实验课程包括两方面:一是独立实验实践课。以ERP(企业资源计划)为平台,构建以统计核算、分析为主,会计核算、业务核算相互支持的企业实践课程群,使学生了解、把握企业的创办与整体运作,用数据解读企业经营,此课程群包括ERP沙盘模拟对抗、创业计划实训等。同时,结合统计工作过程,设置了SPSS软件应用、统计分析综合实训等独立实训课程,从应用计算机技术处理数据到分析报告撰写进行强化,加强统计学专业核心能力的掌握。二是课内同步实验实践课。主要包括专业主干课程的课内同步实验实践课,如多元统计分析、计量经济学等课程的课内实验,一般安排本课程总课时的1/4课时,主要实训内容为EXCEL、SPSS应用、课程论文等。

2.加强实践教学的基础建设,为学生提供实战型实训平台

实践教学的基础建设重点是实践教学基地建设。一是校内实验室建设。这几年来,我校重点建设了一批专业实验室和综合实验室,并努力使其成为集实践教学、科学研究及社会服务为一体的产学研创新实践基地。统计学专业建成了自治区级重点建设实验室――财经科学实验中心分室的统计实验室、数学建模实验室,以及目前广西高校唯一的市场调查与数据挖掘中心,配备了SPSS、CATI(计算机辅助电话调查系统)等先进统计教学软件。二是校外实践基地建设。目前已经建成了国家统计局广西调查总队实践教学基地等多个实践实训基地,每年安排统计学专业学生到基地实习,参与实习单位研究项目的数据收集、数据处理等工作。在校外实习基地建设和运行过程中,在共同合作、互惠互利的基础上,我们一方面吸引和聘请基地依托单位的专家和相关人员一起参与实习教学计划的制定与管理;另一方面充分发挥我校作为广西高校唯一经济管理类统计学专业的学科专业优势,积极帮助基地依托单位开展职工统计业务及软件应用培训等,合作开展项目研究与开发,使实习基地同时成为人才培训和师生科研的基地。

3.充分利用好课外实践创新平台,课外实践创新活动纳入本科教学全过程

统计学专业应用型人才培养,不仅需要理论教学和实验、实训教学等第一课堂,还需要结合统计学专业特点,积极指导、组织学生开展学术讲座、创业大赛、市场调查和数学建模等课外实践活动,使课外实践活动成为第一课堂的延伸和拓展,这对于促进统计学专业课程教学改革,明确统计学专业学习目标,学会如何做人做事、增强社会责任意识和培养大学生的团队精神和实践创新能力等具有积极意义。这几年来,我们组织学生开展的主要课外学术科技活动有:一是开展学生科研项目立项,探索以问题和课题为核心的探究性教学模式。另外,也吸收了一些优秀学生参与教师科研项目研究。二是积极组织学生参加“挑战杯”全国大学生创业计划大赛和课外学术科技作品大赛、数学建模大赛等科技创新活动。三是组织学生参与广西统计信息服务中心、中国-东盟博览会等实习单位的数据收集、处理和分析等统计工作,积累实际工作经验,培养了实际工作能力。四是开展职业技能教育,增强学生的就业技能和职业素养,如会计从业资格、统计职称等,邀请政府部门、企业高管或相关业务专家到校开展专题讲座、职业生涯规划、就业创业指导。此外,为了更好地贯彻因材施教原则,指导学生学习和成才,我们实施了本科生导师制,从学生的思想、生活、学业和就业等各方面进行更系统、更有针对性的指导,起到了教学相长的作用。

4.改革毕业实习方式,强化毕业论文(设计)的现实性和专业特色

针对近年来高校毕业生毕业实习难、分散形式效果较差的现实,我们在加大实践基地建设力度的同时,逐步改革毕业实习方式,变“放羊式”毕业实习为集中实习为主、集中与分散实习相结合,切实提高实习效果。对于毕业论文(设计)工作,一是改革毕业论文指导方式,将社会实践、学年论文、毕业实习和学生平时的一些竞赛活动与毕业论文紧密结合,使学生较早了解毕业论文的有关要求及素材积累;二是向实习单位或用人单位征集部分毕业论文(设计)现实问题选题,并且适当邀请实践基地部分专家或业务骨干参与学生毕业论文指导,通过毕业论文撰写为实际工作部门解决一些实际问题;三是进一步强调统计学的专业特色,要求论文必须用数据说话,以检验学生综合统计分析能力,减少抄袭现象的发生。

三、整合教学内容,加强课程建设,突出实践应用

根据统计学专业的知识结构和能力培养要求,以打破“学科本位”,突出应用能力培养为主线,我们对课程体系的各知识点进行合理梳理、归类,特别是对统计专业课程中内容交叉重复部分进行整合,进一步明确各门课程内容归属,合理确定各门课程的教学内容,使课程体系中的知识点不重不漏,课程内容更科学适用。之后,将各门课程按照内在联系和教学要求归并成若干个课程模块,分块建设。制定分阶段课程建设规划,重点是专业主干课程建设,明确课程建设的目标和具体内容,包括教学大纲、教案、电子课件、参考材料、试题库、课程网站等内容,进而形成了每一门课程完整的课程档案。

在教材的选用与建设方面,对于专业课程,选用理论内容体系较完整、丰富,与经济社会实际紧密结合、实践性强,面向21世纪的优秀新教材、国家“十一五”规划教材或国外优秀教材;对于实践课程,目前部分选用兄弟院校现成教材、实验指导书,部分实训教材通过自编完成。下一步,我们计划用1-2年时间完成本专业完整的实践教材体系建设,形成本专业特色系列实践教材,如统计学案例教程、商务研究方法与应用等。这些实验(实训)教材可作为一些专业主干课程的同步实验教材,也可作为统计学专业独立实验教材。

四、以人为本,改革教学方式方法,进一步提高课程教学质量

在教学内容、课程体系确定后,如何教成为提高教学质量的关键环节。我们鼓励教师探索不同教学方式方法,激发学生学习的主动性、创造性,提高课堂教学效果。近年来,我们尝试对《统计学》课程内容进行分模块、与非统计专业的专业教师合作进行教学,即将非统计学专业的《统计学》课程分解为“统计学基础理论和方法”、“统计理论与方法在本专业中的应用”两大模块,前一部分内容由统计专业教师上课,后一部分内容由统计专业教师和非统计专业的专业教师合作上课,将统计方法教学与各经济管理类专业课程教学过程中的应用分析结合起来。在《统计学》(或《统计学原理》)教学过程中,试行“读(阅读)写(写作)议(讨论)讲(讲课)”教学模式改革。“读”是指在课外阅读统计教材及相关教学资料,通过教师引导,使学生读好书、会读书,奠定学生良好的理论素养和数据意识;“写”是指学生在阅读基础上,结合专业课程教学内容,有计划、有目的地撰写读书笔记、调查报告、课程小论文等;“议”是组织学生开展案例讨论、课堂辩论,实施交互式教学;“讲”是让学生充当教师角色,就统计教材或现实某一问题进行讲解,之后教师进行评议。分模块教学、“读写议讲”教学方式充分体现了“以人为本”的教育理念,把统计理论方法与非统计学专业的专业学习、课内教学与课外学习有机地结合起来,有利于引导学生主动参与和自主学习,培养学生创新思维和发现问题、解决问题的能力,所以分模块教学、“读写议讲”教学方式改革得到了学生普遍好评,教学效果显著。《多元统计分析》、《市场调查与分析》等专业主干课程也借鉴此思路进行了教学改革,采取“课堂讲授+实验(实践)教学+课程论文”教学方式,重点培养学生“写”(分析)的能力,强调统计理论方法在社会实践和现代经济管理中的运用。目前,我们正在针对不同课程特点,分别制定各门专业主干课程的教学方案,将“重思想、重应用”的教学理念贯彻到每一门主干课程教学过程中。经过上述训练,学生应用统计理论方法解决实际问题的能力大大增强,研究能力也有不同程度的提高。

参考文献:

[1] 陈相成.经济管理类统计专业的改革发展思路[J].统计研究,2008,(5).

[2] 蔡敬民,魏朱宝.应用型人才培养的思考与实践――以合肥学院为例[J].中国大学教学,2008,(6).

[3] 曾五一.关于经济与管理类统计学专业教学规范的若干问题[J].统计与信息论坛,2004,(4).

第10篇

肖文杰(1985-),男,助教,主要从事计算机网络教学,研究方向为计算机网络,数据挖掘。

摘 要:《数据结构》在传统教学模式的教学过程中,存在诸多现实问题:学生与老师的互动性较差,学生自觉参与意识不强和学生实践动手能力差等。针对以上问题进行分析,结合《数据结构》课程特点,论文提出了“PBL与CBS相结合的教学模式”。从教学应用和实践效果看,采用这一教学模式后,学生不仅在笔试成绩上有大幅度提高,而且实践能力也得到大幅度提升,同时对提高学生的综合素质有很好的帮助。

关键词:数据结构;PBL教学法;CBS教学法;教学模式

《数据结构》课程,既是计算机专业核心的专业基础课,同时也是众多其它专业的重要的选修课程[1]。在采用传统教学模式进行教学时,笔者发现教学过程中,学生无论是在课堂还是课外,学习自觉性和主动性不是很高,教学间缺少有效的互动环节等。这种教学模式,学生很容易产生了消极态度,最终导致教学效果不是很理想。

为了解决这些问题,笔者结合自己多年教学经验,在借鉴前人研究成果基础上,利用基于问题学习法(Problem-based Learning,PBL)和基于案例学习法(Case-based Study,CBS)相结合的教学模式运用在《数据结构》课程教学中,希望通过此教学模式的运用,能改变这种现状。PBL和CBS两种教学模式,最初都是运用在医学教育中的教学方式。其中PBL是起源于20世纪50年代,是近年来比较流行的一种新型教学模式[2-3]。PBL强调以问题为学习主轴,以学生为主体,以教师为导向的启发式教育,以培养学生的能力为教学目标[4-5]。基于案例学习的教学法,强调以案例为教学核心,是一种对案例进行分析的教学模式[6]。

1.研究对象及实施过程

对于具体教学活动的实施,分别在南昌工学院和南昌师范学院(原江西教育学院)两个学校同时进行。

1.1研究对象

在南昌工学院选取2012级软件技术专业三年制专科学生,共106人和2012级网络工程专业四年制本科

学生,共84人。在南昌师范学院选取2012级软件技术专业三年制专科学生,共122人。具体实施教学过程中,将学生随机进行分组教学,即分成传统模式教学组和PBL与CBS相结合教学组。

1.2授课教材和教师

授课教材的选择:相同专业学生选用同种教材。而参考书学生根据需要自己选择。授课教师都为具有多年教学经验的双师型教师。另外,在进行PBL与CBS教学之前,首先对授课教师进行PBL和CBS教学模式的相关培训,对PBL和CBS教学理念和方法进行了系统学习。

1.3教学模式实施过程

1.3.1传统教学模式

《数据结构》的传统教学方法,主要采用“多媒体+黑板”方式进行课堂授课,在此教学模式中,整体采用“预习-课堂授课-课后复习-考试”的一个教学思路,即在实施过程中,要求学生对上课前对课本进行预习,正式上课过程中,主要以教师为主进行授课,授课过程中,适当安排提问和互动环节,在课后,也同样要求学生对课堂所学的进行复习,最后进行期末考试。

1.3.2PBL与CBS相结合的教学模式

PBL与CBS相结合的《数据结构》课程教学,是

指在《数据结构》教学过程中,授课教师采用PBL教学理念,同时结合CBS教学法,采用“设置问题―小组讨论―问题总结”三段式,展开教学活动。教学中,

以学生为主体、以问题为基础、以案例为载体,进行引导式的综合教学。教师具体实施教学过程中,将引导同学们按如下步骤学习:

(1)设置问题和资料准备阶段。在这个阶段,授课教师在授课前一段时间内,事先按照《数据结构》课程的教学大纲和授课计划要求,结合学生学习层次和现有的知识水平结构,对将要学习的知识点进行提炼,同时配合使用具体案例,设置好若干个问题点,并同时为学生提供必要的教学素材,以供学生学习使用。学生在收到这些问题后,对其进行分组参与学习。各小组之间,进行协调分工,根据设置的问题和教师提供的素材,进行预习,借助于网络资源、图书馆资源,查阅相关资料。

(2)小组讨论和交流阶段。在这一教学活动环节中,以学生为主体、教师辅助参与。授课教师首先利用简短时间对本堂课程知识进行简单介绍,对基本定义、算法和应用进行概括性的点拨。然后各小组进行交流和讨论。讨论中,通常会要求每组选出小组代表,进行小组发言,同时与教师和其它各小组进行交流。

(3)问题总结和教师评价阶段。在课堂规定的时间内,完成交流和讨论后,这时,再由授课教师对本次课堂学习进行总结和归纳。首先,授课教师对各小组对问题的讨论结果、解决问题的方法和存在分歧给出点评。其次,在实施PBL与CBS相结合的教学模式下,授课教师还应对各小组在解决问题过程中的方法和表现情况等进行总结和点评。

2.考核与评价

为了比较传统组和PBL与CBS相结合教改组在《数据结构》教学过程中的实施情况,采用笔试+实践、学生自我评价和教师评价三种考评方式。

2.1笔试、实践考核设计及效果

教学考核设计,建立由笔试和实践操作组成的考核办法。为了保证试题的公平性和客观性,笔试题均从学校试卷库中随机抽题组成试卷,题型包括:单选题、填空题、综合应用题和算法设计题等;而实践考试包括课程设计和小型项目实践操作等题。

通过笔试和实践操作考试,经统计和整理,得出传统组和PBL与CBS相结合教改组(简称教改组)的考核结果。笔试成绩情况如表1所示;实践操作考核情况如表2所示。(注:实验组和传统组,每组人数总数为30人)

从表1和表2中,我们可以发现,无论是笔试成绩还是实践操作成绩,教改组学生都明显高于传统组学生。

2.2学生自我评价与问卷调查分析

另外,在考核中我们增加了学生自评考核手段。为此,我们设计了614份调查问卷,实际发放了610份,最后收回有效的调查问卷为598份。经对调查问卷整理和统计,得出了教改组学生的一些自我评价结果。调查中发现,在运用PBL与CBS相结合教学模式下教学的学生(即教改组),对于学习积极性、学习兴趣和自学能力提高等方面都表示更多的赞同和支持。

2.3教师评价分析

本次调查中,也对参与教学实践的授课教师采取了座谈和调查。据授课教师的普遍反映,在《数据结构》课程教学中,运用PBL与CBS相结合的教学模式进行授课,学生们自觉参与教学过程的热情大幅度得到提高,学生与老师、学生与学生之间的交流和互动机会明显增多。同时,学生对于作业的完成情况也比原来有很好的改善和进步。

3.PBL与CBS相结合教学模式在《数据结构》教学中的理性总结

3.1有效的提高了学生的学习成绩

从考核的结果来看,在PBL与CBS相结合教学模式下授课的学生(教改组),对于《数据结构》这门课程的成绩,无论是笔试成绩,还是实践考试成绩都比传统模式下授课的学生有较大的提高。教改组学生在综合应用题和算法设计题得分率,明显高于传统教学模式下的学生。

3.2有利于促进学生学习动机的形成

《数据结构》是一门理论和实践结合比较紧密的课程。在传统教学模式下的“灌输式”授课,学生缺乏实践及亲身体验的过程,老师通常讲什么学生就去学什么,完全处于一种被动学习状态。学生主动学习意识和主观能动性无法得到很好的好培养和训练。PBL与CBS相结合教学模式通过“问题+案例”为核心,学生以问题为基础,学生带着问题去查询资料、学习、实践、最终去解决问题。这种模式,倡导以教师为主导、以学生为主体,能够充分调动学生主动能动性。

3.3促进批判性思维和质疑精神的培养

在《数据结构》课程中,批判性思维主要体现在对数据结构问题的确定、分析及问题的解决的能力。学生只有具备良好的批判性思维,才能对问题进行界定和分析,利用数据结构的知识解决实际问题。在以教师为主体的传统教学模式中,学生无法发挥主动探索性和对问题的质疑性。PBL与CBS教学模式,对于学生的批判性思维和质疑的培养具有明显优势。

3.4对学生综合能力的培养和训练有帮助

PBL与CBS相结合的《数据结构》教学实践中,采用小组的方式进行学习,无论对问题分析、问题讨论和问题的解决过程中,都需要小组成员的共同努力和协作去完成。在这种以团队形式教学实践中,学生要学会与人沟通、交流和和合作。在这种不断以小组形式的学习过程中,学生们的信息获取能力、与人交流能力和团体协作能力等都会得到较好培养和训练。

4.结束语

笔者将PBL与CBS相结合的教学模式运用于《数据结构》课程教学,将近有两年的时间。结合考核结果、学生自评和教师评价来看,该组合模式在《数据结构》课程教学中,取得了良好的效果,学生对于《数据结构》课程学习的兴趣有了很大提高,考试成绩也有比较好提高,另外,学生问题分析与解决能力、团体协作能力等综合素质都有不同程度提升。

另外,在运用PBL与CBS相结合进行《数据结构》课程教学中,我们也发现存在一些问题,有部分学生反应对该授课模式不太适应和缺乏系统性等。这对授课教师提出了更高的要求:

(1)授课教师在授课前应有充足的备课基础。不仅包括对课程的授课知识有充分熟悉,而且要求对授课中的问题设置、计划安排、节奏的控制等都要有很好的把握等。

(2)授课教师要有更强的自我学习能力。要能够主动地自我学习,不断地加强对新知识、新技术、新观念、和新方法等的学习,以提高自身的综合素质。(1.南昌工学院信息学院;2.浙江大学计算机系统工程研究所;3.吉首大学旅游与管理工程学院)

基金项目:2012年江西省教学教育改革研究课题(基金号:JXJG-12-24-2)。

基金项目:吉首大学2013年实验教学改革研究项目2013SYJG038资助

参考文献:

[1] 宁子岚.PBL教学法在《数据结构》课程中的应用[J].现代计算机(专业版),2011,9:30-31.

[2] 万里勇,徐新爱.基于PBL的《数据库原理及应用》教学实践研究[J].江西教学学院学报(综合版),2012,33(3):70-72.

[3] 李东,张英涛,宋颖慧.“基于问题的学习”及其在计算机组成技术教学中的应用[J].计算机教育,2011,22(11):43-46.

[4] 叶晓鸣,杨力.PBL与CBS相结合的软件测试课程教学模式研究[J].科教文汇(下旬刊),2011,02:44-45.

第11篇

关键词:智慧景区; IT能力; 服务感知; 游客服务

收稿日期: 2013-03-18; 修订日期: 2013-11-13

基金项目: 北京市教委重点项目 “基于Web 2.0的首都高新技术产业决策机制研究与应用”(SZ201311417001)

作者简介: 陈建斌(1970-),男,博士,北京联合大学商务学院教授,研究方向为知识管理、商务智能等。郑丽(1966-),女,北京联合大学商务学院教授,研究方向为旅游电子商务。张凌云(1960-),男,北京联合大学旅游学院教授,研究方向为旅游经济、旅游地理与旅游管理。2008年国际商用机器公司(IBM)基于物联网、云计算等概念提出了“智慧地球”战略①后,得到全球产业界的热烈响应和快速推广,从而引发了“智慧城市”、“智慧旅游”等系列概念的诞生。2009年11月1日,国务院下发《关于加快发展旅游业的意见》,决定把旅游业培育成国民经济的战略性支柱产业和人民群众更加满意的现代服务业,为我国旅游业跨越式发展提供了政策支持。景区作为旅游产业的核心要素,它的智慧水平决定了服务质量和游客满意度,并极大地影响着产业战略目标的实现。一般认为,智慧景区就是结合景区特点,将物联网、云计算等新兴信息技术集成起来构建信息与决策网络,增强人类感知、控制和管理的能力,更加精细和动态地管理景区,达到“智慧”状态(李洪鹏,等,2011) 。智慧景区受到政府主管部门、行业协会及各地景区的重视,在国内掀起了建设热潮。但是,由于智慧景区的研究刚刚兴起,其权威性阐释尚未树立,建设理论尚未完善,并且这些关键问题尚未引起人们的充分关注,导致实践层面的形式化和无序化。本文从“智慧”的本质出发,首先探讨智慧景区的实质内涵;然后以企业IT能力理论为指导,构建智慧景区的IT能力系统框架;最后,提出智慧景区建设的核心系统,用于支持智慧目标的实现。本文力图在理论层面阐释智慧景区的概念和能力建设的本质要求,为景区信息化建设和向智慧状态的演进提供指导。1智慧景区研究现状关于智慧景区的研究尚不多。国外与“智慧景区(Smart Famous Scenic Sites)”相关的研究主要是探讨景区的智能服务系统,如为旅游景区提供决策支持、行程规划和解说服务的专家系统(Venturini,Ricci,2006;Kramer,et al.,2007) 、目的地的推荐系统和基于上下文感知的移动式旅游服务系统(Fesenmaier,et al.,2006;Martin,et al.,2011)等。从中国知网检索到的智慧景区论文仅有数篇,主要是探讨智慧景区的内涵与总体框架(邵振峰,等,2010;党安荣,等,2011)、从数字景区向智慧景区的转型探索(李洪鹏,等,2011)等。关于智慧景区的内涵,党安荣等(2011)认识到要利用现代信息技术实现对景区全面、系统、及时的感知与可视化管理;李洪鹏等(2011)进一步明确智慧景区是利用最新技术“增强人类感知、控制和管理的能力,实现更加精细和动态的方式管理景区,达到智慧状态”。显然,这些理解已经注意到了“智慧”的实质是能力的增强。张凌云等(2012)进一步围绕能力建设,提出了智慧旅游的CAA框架:智慧旅游的能力(Capabilities) 、属性(Attributes) 以及应用(Applications),定义了智慧旅游的核心能力模型。该文虽然明确提出智慧建设是能力建设,但对核心能力的讨论并未深入。

从相关文献来看,多数智慧景区的理解存在着技术驱动的偏好,少数文献涉及IT内化为能力建设的必要性。智慧景区建设,并不仅仅是技术及其系统的堆砌,而是需要从技术到人到企业运营管理的全面的变革,特别需要强调人的重要地位以及流程变革的关键作用。2智慧景区建设理论

2.1智慧景区的内涵阐释所谓智慧,是指对事物能迅速、灵活、正确地理解和解决的能力(《新华字典》第10版,商务印书馆)。智慧景区,当然强调的是景区具备了对旅游资源和游客及其活动等要素迅速、灵活、正确地理解和解决的能力。因此,本文认为,智慧景区是指能够应用物联网、云计算等现代信息技术整合景区资源,在游客感知、决策支持和游客服务方面具备了独特的企业能力,从而提升景区竞争优势、实现景区战略的高度信息化的景区,是基于数据集成、流程优化后实现了“以游客为中心”管理模式的景区。智慧景区的实现路径必须遵循信息化建设理论与方法。利用IT整合组织资源,建立竞争优势,这是基于资源观的企业IT能力理论核心思想。

2.2企业IT能力理论基于资源理论提出的“IT能力理论”认为,每个企业的IT资源和IT能力应该是独特的、复杂的、难以模仿的。并且,已有学者提出,信息技术发挥效能的关键在于集成(彭赓,霍国庆,2004)。单一IT能力成分,可以轻易被竞争对手获取、模仿,不符合战略性企业资源的特性。相比企业的其他能力,IT能力更强调各成分的协同效应,更强调IT资源和能力作为一个紧密的系统被使用。因此,“企业IT能力系统”是企业IT资源与能力的集成体,反映了企业IT能力的个性特征和竞争力特性(陈建斌,等,2010)。根据Bharadwaj(2000)的分类,IT能力系统的基本构成包括IT基础设施、人机综合资源和无形资源。(1)IT基础设施(IT Infrastructure)属于有形资源,包括计算机、通讯产品与其它共享技术平台以及数据库。(2)人机综合资源(Human IT Resources)包括技术性的信息技术技能(Technical IT Skills)与管理性的信息科技技能(Managerial IT Skills),前者是指系统分析设计、编写程序等信息技术应用能力,后者指企业信息部门的管理能力、统合最终用户需求的能力,以及为了达到以上目标必备的管理与领导技巧。(3)无形资源是指信息技术内嵌的无形资源与能力(ITEnabled Intangibles),可分为顾客导向、知识资产、协同效应等3个维度。协同效应(也称“综效”)指的是企业内资源与功能能够实现跨部门的共享,知识与信息的共享使企业能够更迅速地响应顾客需求。相应地,IT能力系统可以包括3个层次的能力:IT基础设施能力、IT人本能力和IT驱动的无形能力。其中,IT基础设施能力更可细分为共享能力、服务能力和柔性能力(张嵩,等,2004)。

2.3智慧景区IT能力系统企业IT能力理论为智慧景区的建设提供了理论依据。一方面,信息化实践证明,信息技术必须与业务紧密融合和集成,才能发挥其技术优势,铸造企业竞争能力;另一方面,智慧景区本身需要管理和服务能力的提高,而不仅仅是技术装备性能的提高。在技术采纳和效能的浸延过程中,人作为能动要素发挥关键作用,所以,在IT能力系统中,有专门的人本能力体现。智慧景区强调景区在履行各项职能过程中表现出足够的“智慧”。因此,景区信息化的过程,就是通过现代信息技术在景区管理与服务中的应用,实现数字化、信息化、智能化和智慧化,从而实现管理水平和服务质量的提升,实现服务模式和业态创新。其中,智能化强调景区结构化、程序性决策的自动化;智慧化强调决策的柔性、灵活性和主动性。景区信息化的过程,是景区IT能力不断培育和成长的过程;智慧景区的形成,是景区IT能力成为一种体系、对景区管理和服务实现高效支持的结果。

2.3.1智慧景区的IT能力及其系统框架智慧景区的IT能力主要包括以下3种能力。(1) IT基础设施能力 IT基础设施能力是智慧景区的IT能力体系中最基础的部分,也是景区数字化和信息化的基础条件。IT基础设施能力包括以下3个层面。第一,共享能力,反映IT基础设施覆盖的物理区域和信息范围。覆盖区域由计算机和传感器网络的配置和布设范围决定,反映景区能否实现部门内部、部门之间、景区与游客、景区与供应商、景区与政府和其他合作者的连接;信息范围反映能够处理的信息类型,如门票信息、办公文档、设施实时状态信息等,反映业务信息的数字化、结构化程度。第二,服务能力,反映IT 基础设施的服务能力,表现为服务的数量和深度。从服务数量来看,一般包括业务系统管理、通信管理、数据管理、IT培训与教育、IT研发与管理、安全管理、体系结构与标准管理、渠道管理等IT治理层面的内容;从服务深度来看,表现为选择性提供和广泛性提供,即某种服务是所有部门都需要的,还是部分部门选择性使用的,反映了这种服务的需求强度。第三,柔性能力,反映IT基础设施应用层面的灵活性,与业务流程紧密相关,也是某个景区具有个性和竞争力的IT应用层。其中应用逻辑(业务逻辑) 的组件化及其之间接口的标准化是关键。IT基础设施柔性的程度依赖于每一项IT基础设施应用所包含的业务流程的特征。(2) IT人力资源能力 景区的IT人力资源能力包括IT的技术技能和管理技能两个方面。IT的技术技能是指景区信息技术部门或业务部门的信息化岗位员工所掌握的IT技能,主要包括技术人员的软硬件技术方面的能力,如数据库管理能力、程序编写和修改能力、(网络)操作系统的使用和维护能力、服务器及各种网络产品的使用能力等。它体现了景区通过建设业务信息系统或电子商务平台,提高景区工作效率和服务质量的能力。IT的管理技能是指景区规划、开发和应用信息技术来支持和提高景区服务能力的技能,如景区信息管理部门的战略规划能力,与顾客、供应商互动整合其需求的能力,以及为了达到以上目标所具有的管理与领导能力(战略分析能力、技术管理能力、项目管理能力、业务需求识别能力、跨部门协调能力以及各种业务管理能力等)。上述两者,技术能力是基础,管理能力是关键。一般说来,企业信息化与管理标准化是互相促进、相互依赖的关系。智慧景区的建设,实质上是景区利用信息技术促进“保护、管理和服务”三大职能持续改善的过程,最终表现为景区管理的高度智能、服务的高度智慧和保护的高度有效。因此,IT人力资源能力中,管理能力是最重要的,体现在管理业务的嵌入性。游离于业务流程之外的人力资源,无法形成企业能力。(3) 基于IT的智慧能力景区基于IT的无形能力可以称为智慧能力,是集中体现景区信息化建设成果的层面,也是实现技术应用与流程变革协同效应的层面。基于IT的智慧能力可从3个方面进行考查。第一,客户导向能力。包括对游客偏好的挖掘与跟踪能力、整合各部门信息满足游客需求的能力、IT部门与业务部门合作决策的能力。这种能力要求景区建立客户导向的管理机制,培养以客户为中心的经营理念,实施以客户为中心的业务流程,并以此为手段来提高景区的获利能力、收入以及游客满意度。第二,知识管理能力。是指衡量信息技术推动景区各种知识的集约、应用、传播和创新的能力。景区的智慧性,更重要的是决策能力的智慧性。决策依赖于对游客行为的准确感知和对游客需求的正确把握,这些都属于游客知识。而游客知识更多地分布在一线员工头脑之中。智慧景区要求建立合理的知识治理机制、高效的知识管理制度和有效的知识管理系统,并把知识管理融入业务处理,建立知识密集的景区服务与管理流程。第三,景区协同能力。通过信息系统实现资源共享、及时沟通、跨部门协作,低成本高效率研发新产品/新服务,高度响应游客需求的能力。协同是指系统的各个个体通过协作导致新的空间结构、时间结构和功能结构形成的过程或状态(Haken,1978)。基于IT的景区协同,是在景区战略指导下,实现了技术应用创新、流程创新和管理创新后,把景区相关资源全面集成一体,构建成一个以游客需求为驱动力的能力系统,实现了全面的时空和功能重构,表现为高度智慧的经营实体。这种景区协同能力,由诸多IT资源与业务资源全面整合形成,具备了战略竞争资源所需要的价值性、稀缺性、不可模仿和不可替代性等特性(陈建斌,等,2007)。

2.3.2智慧景区的IT能力系统框架景区的功能有三大类:资源保护、运营管理、游客服务。景区三大功能决定了它必须具备3个核心能力,即资源保护能力、运营管理能力和游客服务能力。而IT能力则是服务于3个核心能力,并高度嵌入这些核心能力,最终实现景区的高度智慧化。智慧景区的IT驱动的整体能力模型如图1所示。

图1智慧景区IT能力框架

3智慧景区的建设内容智慧景区的建设内容应该遵循能力建设路径,着重于“智慧”能力的培育和加强。智慧是一种理解和解决问题的能力,并且是“迅速、灵活、正确”的理解和解决。那么智慧的景区,就应该具备突出的理解游客、服务游客的能力。理解的前提是敏锐的感知和深邃的思考,服务的前提是快速的反应和有效的实施。因此,本文认为,“游客感知系统、决策支持系统和游客服务系统”是智慧景区的建设核心。

3.1游客感知系统游客感知系统是一个综合性、灵敏性要求较高的神经网络,既要把“神经末梢”通过互联网、物联网等伸展到游客可能到达的各个接触点,也要把游客信息尽可能全面和及时地传递给数据中心和决策中心。这需要基于位置信息、数据仓库、数据挖掘技术和人工智能对游客行为进行详尽分析,并进行全面的信息资源规划和感知网络建设规划。游客感知系统包括由传感器感知旅游资源的ID、属性、状态、位置等各类信息的神经末梢、由无线传感自组网络技术与互联网传递信息的神经网络,以及GIS、商务智能、信息资源整合技术进行数据分析和再利用的大脑系统组成。景区对游客的感知,可以分为游前、游中和游后3个阶段。游前,游客基于互联网的信息查询和预订,能够让景区感知到游客的基本身份信息和游览需求;游中,根据移动通信、GPS、RFID等,可以感知到游客的来源、游览路线、交通工具和关注的景点、游览内容等;游后,可以根据游客反馈获得游览的体验信息和改善信息。

3.2决策支持系统景区的决策支持是景区信息化研究的热点,成果比较多,如景区的专家系统、推荐系统、导览系统等(Venturini,Ricci,2006;Kramer,et al.,2007;Fesenmaier,et al.,2006;Martin,et al.,2011),应用范围主要有旅游监测和预测(杜军平,周亦鹏,2009;江兵,等,2011),也有面向游客的规划系统(李强,等,2008)。其中,人工智能是智慧旅游用来有效处理与使用数据、信息与知识,利用计算机推理技术进行决策支持并解决问题的关键技术(张凌云,等,2012)。智慧景区的决策支持,应该包括景区管理决策和游客个人决策两个方面。这两层决策又相互联系、相互支持。因此,智慧景区的决策支持系统就是集成应用多种决策技术(人工智能、数据仓库、数据挖掘与OLAP、Agent技术等),基于多种数据(传感器数据、移动通信数据、网络访问数据、景区资源)建立景区游客行为模型和管理决策模型,并根据个性化推荐系统和实时监测系统,动态响应游客的个人决策请求(预订决策、路线决策、购物决策等),并辅助景区管理者做出调度决策(客流控制、资源调配、应急救援等)。智慧景区的决策支持系统是大脑中枢,负责集中处理游客感知系统采集到的大量数据,根据算法和模型进行仿真、挖掘,并驱动游客服务系统实施决策结果,为游客行为决策和景区管理决策提供支持,因此它是智慧景区的核心。

3.3游客服务系统游客服务系统是一个高集成度的信息系统,既包括基于互联网的旅游信息查询、个性化推荐等数字服务,也包括为游客提供实体服务的信息管理系统(如门禁系统、导览系统、解说系统、餐饮管理系统、交通管理系统、住宿管理系统、娱乐设施管理、购物管理系统等)。游客服务系统是游客实际游览过程中食、住、行、游、购、娱等实体服务的神经系统,应具有以下特征。(1)高度集成性。即以“游客”及其行为为主体,通过建构游客全生命周期模型,集中管理和调度景区资源,为游客提供全方位一致性的跟随服务。(2)高度智能性。即由于有了决策支持系统的内核驱动,服务系统具备了一定的“智能”性,能够感知到游客的个性化需求,并提供相应的个性化服务。(3)高度响应性。即通过广泛分布的游客信息感知单元,能够及时感知和响应游客需求并实现快速调度设施和服务,让游客感受到无所不在的即时服务。4结论与展望智慧景区建设是一个渐进的发展过程,任重道远,不可能一蹴而就。智慧景区的实现,与信息技术应用效果、面向游客的流程重组、景区信息化的努力程度和科学态度密切相关。智慧景区并不是技术构架起来的物理系统,而是一个由“人、机、物、活动”构建起来的包括制度创新在内的社会系统。智慧景区的建设要点是,IT投入以后的景区智慧能力的培育与增强,以及各种IT资源和能力集成后形成的协同效应,从而构建独有的企业IT能力系统。本文从企业IT能力理论出发,初步探讨了智慧景区的能力内涵和IT能力体系,并提出了围绕智慧能力需要建设的3个核心系统:游客感知系统、决策支持系统和游客服务系统,为智慧景区的建设提供了一定的理论基础。关于智慧景区建设能力模型的进一步研究和应用,以及建设内容的细化,或许是智慧景区未来的研究重点和发展方向。

参考文献:

[1]陈建斌,方德英,汪惠.企业IT能力系统动态演变的分析模型研究[J].管理评论,2010(3):6368.

[2]陈建斌,方德英,黄爱华.多元化企业IT协同能力的构成及其形成研究[J].外国经济与管理,2007(10):2631.

[3]党安荣,张丹明,陈杨.智慧景区的内涵与总体框架研究[J].中国园林,2011(9):1521.

[4]杜军平,周亦鹏.基于数据的旅游管理决策支持系统研究[J].自动化学报,2009(6):834840.

[5]江兵,刘健康,胡崇德.太白山自然保护区旅游监测决策支持系统研究[J].计算机工程与设计,2011(8):28972900.

[6]李强,卫海燕,王威.面向游客旅游决策支持系统的设计与实现——以西安翠华山国家地质公园为例[J].测绘科学,2008(6):211213.

[7]李洪鹏,高蕴华,赵旭伟.数字景区转型智慧景区的探索[J].智能建筑与城市信息,2011(7):112113.

[8]彭赓,霍国庆.企业信息系统进化中的信息集成轨迹[J].管理评论,2004(1):1520,63.

[9]邵振峰,章小平,马军,邓贵平.基于物联网的九寨沟智慧景区管理[J].地理信息世界,2010(5):1217.

[10]张凌云,黎巎,刘敏.智慧旅游的基本概念与理论体系[J].旅游学刊,2012(5):6674.

[11]张嵩,李文立,黄丽华.电子商务环境下企业IT基础设施能力的构成研究[J].计算机集成制造系统,2004(11):14591465.

[12]Bharadwaj A S(2000).A resourcebased perspective on information technology capability and firm performance:An empirical investigation[J],MIS Quarterly,March,24(1),169196.

[13]Fesenmaier D,Werthner H,Wober K(2006).Destination Recommendation Systems:Behavioral Foundations and Applications[M].Cambridge,MA:CAB International.

[14]Haken H(1978).Synergetics[M].SpringesVerlag,Berling Hoidelberg,NewYork.

[15]Kramer R,Modsching M,Ten Hagen K(2007).Development and evaluation of a context driven,mobile tourist guide[J].International Journal of Pervasive Computing and Communication,3(4),378399.

[16]Martin D,Alzua A,Lamsfus C(2011).A contextual geofencing mobile tourism service[C].Information and communication technologies in tourism:191202.Vienna,Austria:Springer Verlag.

[17]Venturini A,Ricci F(2006).Applying Trip@dvice recommendation technology to [C].4th prestigious applications of intelligent systems(PAIS2006).The 17th European Conference on Articial Intelligence,Riva del Garda,Italy,Aug 28thSept 1st.

A Study on the IT Capability Model of Smart

Scenic Area and Its Core Components

CHEN Jianbin1, ZHENG Li1, ZHANG Lingyun2

(1.Business College of Beijing Union University;

2.Tourism Institute of Beijing Union University, Beijing 100025, China)

第12篇

(中国石油大学(北京)信息学院,北京102249)

摘要:针对当前计算机基础教学的现状,分析石油院校计算机基础教学发展与改革的历程及面临的困境,提出在当前以计算机思维为导向的计算机基础教学改革目标指导下,如何面向专业应用能力培养计算机思维,阐释其课程体系及其运行机制。

关键词 :大学计算机基础教育;计算思维;程序设计

文章编号:1672-5913(2015)17-0076-03

中图分类号:G642

基金项目:中国石油大学(北京)本科教学改革项目( 2014yb098);中国石油大学(北京)研究生质量与创新工程项目( 2013yb039)。

第一作者简介:王新,女,副教授,研究方向为数据库、数据挖掘,xinwang@cup.edu.cn。

0 引言

随着计算机技术的飞速发展和广泛应用,计算机科学与多种学科相互渗透,产生了多种边缘学科。计算机基础课程内容不断地改革和调整,教学理论和教学目标也在发展和深化,其中有几次重大改革:①1997年提出的计算机文化基础课程体系,以计算机技能培养为主;②2004年提出的大学计算机基础课程体系,以计算机应用能力培养为主;③2010年,以《九校联盟( C9)计算机基础课程教学发展战略联合声明》为标志,以计算思维培养为主的新一轮课程改革开始了。

1 计算机基础教育现状与面临的困境

随着互联网的应用与发展,计算机基础教学产生了越来越多的困境。其主要原因:中小学信息技术教育的普及,入校的新生对计算机操作的技能大幅提升,使得计算机科学与技术具有平民化的趋势,部分专业人士认为计算机基础教育可弱化或取消;按教育部要求,高校各专业总学分大幅缩减,计算机基础课的教学学时被压缩,教学资源配置不充分;很多人将计算机科学等同于计算机编程,淡化了计算机的科学意义,削弱了计算机学科的内涵。计算机基础课程教学内容过分偏重计算机工具及其使用方法;教材基本上是有关领域的浓缩版,学生进入大学后,对第一门计算机课程兴趣不大;课程教学在分层次、分类别上也存在明显不足,使得计算机基础教育教学自身的地位也有所降低;更为关键的是信息化素养与专业技能融合缺少具体的实施方案和有效的实现途径。基于上述原因,2010年,教育部高等学校计算机基础课程教指委明确提出:计算机基础课程应成为大学通识类课程;与大学通识类课程地位相适应,大力推动以计算思维为导向的计算机基础课程的教改;持续开展在计算机基础课程教学中体现计算思维能力培养的一系列研讨、立项和交流培训工作。

2 石油高校计算机基础教育重在计算思维的培养

众所周知,石油、石化行业是计算机技术广泛应用的领域,石油高校计算机基础教学承担着培养石油、石化专业人才计算机应用能力的重任,而信息技术与专业技术相融合是提升学生专业应用能力和创新能力的迫切需求。培养创新型人才,首先要培养人才的科学思维方式,即训练人才的实证思维、逻辑思维和计算思维。由此可见,训练计算思维是培养复合型人才的需要。

3 面向专业应用能力,培养计算机思维

大学计算机课程的改革进程可分为4个层面:理论层面上研究计算思维的内涵与表现形式;系统层面上规划大学计算机课程的知识结构和课程体系;操作层面上将大学计算机课程作为培养计算思维能力的有效手段;实践层面上探索不同层次培养目标、不同专业应用需求的途径。

鉴于以上指导意见,明确计算机基础教育的总体目标和课程的知识结构、构建课程体系、建设教学资源是我们深化大学计算机课程改革的总体思想。

计算机基础教学的总体教学目标分为3个层次,即“普及计算机文化,培养专业应用能力,训练计算机思维能力”,为此需明确石油高校计算机基础教学的基本要求和课程体系。

(1)计算机基础教学的要求。面对石油各专业,计算机基础教育总体上应使学生了解计算机科学,会构建计算环境,熟练掌握数据处理方法与表达方式,提高计算机应用能力,善于灵活运用计算机解决问题。这就要求学生具体达到以下要求:比较系统地了解和掌握计算机系统与网络、程序设计、数据库以及多媒体技术等方面的基础概念与基本原理,了解信息技术的发展趋势;熟悉正确的程序设计方法与思想,具有初步的应用软件开发基础;具有数据库应用系统的初步设计、开发与应用能力;能利用常用工具处理多媒体数据,初步掌握多媒体应用系统的集成与开发能力;培养良好的信息素养,训练计算思维,能够利用计算机手段进行问题表达与交流,学会像计算机科学家一样思考与解决问题;利用Internet进行主动学习,增强专业应用能力,为专业学习奠定必要的计算机基础。

(2)计算机基础教学的知识结构。按照教育部的指导意见,我校计算机基础教育的知识结构应满足3个层次、4个知识领域。

3个层次:①概念性基础,要求学生掌握计算机学科的基本概念和主要的基本理论知识,是各专业学生必学的内容;②技术与方法基础,要求学生掌握本专业常用的计算机应用软硬件技术和相关理论方法,不同类别的专业有不同的侧重点;③应用拓展技能,结合各专业、各知识领域中有较大共性的、最主要的一些应用性技能,使信息技术与专业技能相结合,不同类别的专业各有侧重。

3个层次的教学过程始终贯穿一条主线:网络数据库多媒体,以计算思维训练为导向。

4个知识领域:计算机系统与平台、程序设计基础、数据分析与信息处理、信息系统开发与应用,使学生充分了解计算机软硬件系统的基本结构和工作原理,问题分析与表示方法,系统设计与实现的主要算法,数据的组织、管理以及处理过程,应用系统实现与平台构建的流程。

(3)构建计算机基础教学课程体系。①课程设置指导思想:根据我校不同专业对计算机应用的不同要求,从知识、能力、素质要求出发,计算机基础教学课程设置的原则是:以训练计算机思维为导向,重基础、强实践,培养学生的综合应用能力;②计算机基础教学的典型核心课程主要包括大学计算机基础(大学计算机基础理论+大学计算机基础实践)、算法与程序设计基础、计算机硬件技术基础(微机原理与应用、单片机原理与应用)、数据库技术与应用、网络技术与应用、多媒体技术与应用,不同类别的专业可根据学分要求选取不同的知识模块(见表1);③课程设置方案:各专业采用“1+X”的方案,即大学计算机基础+若干必修/选修课程,而将大学计算机基础实践作为独立设置的实践环节,以满足各专业认证的实践需求。对本校各类专业选修计算机课程的建议见表1。

4 主要的改革措施和成果

(1)加强师资队伍建设。在各高校中从事计算机基础教学的教师通常被认为是“没有前途的”,导致基础教学的师资不稳定。我校2010年之后经过院系调整,明确了由软件工程系组织管理计算机基础教学,基础课教学由计算机学科教师共同承担,形成了稳定的基础课教师队伍,教师均为计算机学科的硕士、博士,年龄在35~50岁之间,精力充沛、教学经验丰富。

(2)激励教学研究,鼓励发表教改论文。计算机基础教学内容更新快、变化大,授课对象层次参差不齐,必须不断地研究教学内容、教学方法与教学手段、考核与评价方式、教材选用与教材建设以及教学过程的内在规律。近年来学校对大班授课、小班讨论,卓越班和创新班的培养方案,研究型、研讨型、MOOCs、翻转课堂、知识碎片化等授课方式,以及任务驱动、项目管理、案例化教学等教学改革项目予以大力支持,鼓励教师发表高水平的教学改革论文。

(3)教学团队建设。计算机基础课程授课面大,上同一门课程的教师较多,教学团队的管理极为重要。团队发展规划是否科学、日常教学活动组织安排是否合理,关系到每个教师的成长。重点建设公共基础课教学团队是学校团队建设的原则。目前计算机软件基础课程教学团队为北京市优秀教学团队,C语言教学团队为校级优秀教学团队,大学计算机基础教学团队为校级培育教学团队。

(4)积极辅导学生参加学科竞赛。学科竞赛是展现学生应用能力的平台,也是促进学生学习兴趣的有效途径。计算机基础课教师承担着全校学生参加全国信息技术应用水平大赛(原ITAT大赛)、蓝桥杯大赛(全国软件专业人才设计与创业大赛)以及各种计算机相关应用学科竞赛的课外辅导工作,承担校内C语言程序设计大赛的考试与评审工作。

5 结语

鉴于计算机基础教学的学时被逐渐压缩的事实,提高各专业相关人员对计算机应用能力和计算思维的认识极为重要,这是信息社会中培养具有科学思维的创新人才的要求,而构建与学校特色、学生层次相适宜的课程体系和运行机制是培养计算思维的有力保障,研究并实施新的教学方法与手段是训练计算思维的有效途径,探讨并执行信息素质与专业素质相互渗透的实施方案是培养具有综合应用能力的复合型创新人才之有效途径。

参考文献:

[1]陈国梁,董荣胜,计算思维与大学计算机基础教育[J].中国大学教学,2011(1): 7-11.

[2]刘桂松,李茂国.大学计算机系列课程改革思考[J].中国大学教学,2012(11): 39-41.

[3]教育部大学计算机课程教学指导委员会,关于申报大学计算机课程改革项目的通知[Z],2012.

[4]教育部高等学校计算机基础课程教学指导委员会,高等学校计算机基础教学发展战略研究报告暨计算机基础课程教学基本要求[M].北京:高等教育出版社,2009: 21-23.