时间:2023-07-18 17:24:05
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇统计学决策分析,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
只有在同一时间同一地区大量采集样本,才有可能满足RCT随机对照实验的样本要求。RCT样本问题可望在大数据时代得到解决,随着泛在随时采集样本的大数据时代的到来,以及不间断采集医疗数据的可佩戴设备出现,样本数据的稀缺等问题将随巨量数据消失。而随着新型大数据分析挖掘工具的出现,特别是深度学习技术的不断发展和应用,证据及其结论的准确可信性必将大大提高。目前,深度学习识别5749个人脸的精度已达99.15%,其准确程度已经超过人眼和大脑。因此,深度学习必将为循证医学带来一场新的革命。本文将分析循证医学在数据证据获取、分析、制作等方面所面临的挑战,介绍医疗大数据时代的数据采集、整合、分析和处理方法,介绍面向医疗大数据的深度学习技术自动提取疾病特征的原理和方法,以及医疗大数据及基于云计算的深度学习对循证医学所带来的各种变革。面向大数据的深度学习将特征提取与决策分析过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。结合医疗大数据、云计算和深度学习的循证医学,将克服过去数据证据稀少、偏颇、失信、不公、过时等不足,将具有更加广阔的推广应用前景和发展动力。
1循证医学与数据证据
循证医学,简之就是“遵循证据的医学”,又被称为实证医学。循证医学重视医生的临床经验,即传统意义上的经验医学,同时又强调诊断、治疗等决策应在临床证据最为符合病症的基础上作出[1]。在循证医学的创立、发展与传播方面,英国的科克伦(ArchiebaldL.Cochrane)、美国的费恩斯坦(AlvanR.Feinstein)以及萨克特(DavidL.Sackett)做出了重大贡献,成为循证医学的奠基人。科克伦强调大规模随机临床试验的重要性。他认为只有在大规模临床试验中使用随机分组策略,才能避免因样本分组而产生的选择性偏差,保持对照组和试验组样本的背景因素平衡,从而才能做出最终正确的比较与评价。他建议及时将切实医学证据传播给使用者,接受专家评估并对可信度进行适当分级,以使医学证据能被及时整理、归纳与更新。费恩斯坦奠定了现代流行病学的数理统计与逻辑基础。从1970年到1981年,他在美国《临床药理学与治疗学》杂志(ClinicalPharmacologyandTherapeutics)上,以“临床生物统计学”(ClinicalBiostatistics)为题连续发表了57篇论文,将数理统计学和逻辑学导入到临床流行病学,科学系统地建立了临床流行病学的有关理论体系。萨科特则为循证医学的传播与发展做出了巨大贡献。他发起并主编了与循证医学有关的两本著名杂志:《美国内科医师学会杂志俱乐部》和《循证医学》。
1997年,他还主编出版了《循证医学》一书,该书被译为多种文字并在世界上广为传播。正是在《美国内科医师学会杂志俱乐部》上,加拿大盖亚特(rdonH.Guyatt)于1991年首次提出了循证医学一词[3]。从循证医学与数理统计和逻辑学的渊源,便可以看出循证医学注重证据的内涵。它是一门非常强调证据制作的学科,同时又非常重视医学证据的传播和评估,这正是它区别于以往医学的特点。通过评估产生可信证据,通过传播发挥证据价值。医生在诊断与治疗过程中,不仅基于经验直观判断,而且结合证据科学决策,更加客观地进行诊断与治疗。短短十多年的时间,在世界各国医学研究与临床实践中,循证医学得到了广泛深入的应用。科克伦最初创建的世界循证医学协作网已经包括约50个专业协作小组,所收集的医疗证据几乎覆盖所有临床医学领域。1996年,我国华西医科大学建立了中国循证医学中心,并于1999年正式加入世界循证医学协作网;2001年,中国循证医学中心创办了《循证医学》杂志,发表在各类杂志的循证研究论文达45842篇。但是,循证医学也有其面临的问题,如对证据进行科学评价等问题。临床证据目前还没有完整、科学的定义,证据评价标准及推荐级别尚未完全统一,不同国家不同疾病的证据质量分级不尽相同。而且,随着人类对疾病认识的加深以及诊疗手段的革新,评价标准还会随这些因素的变化而变化。
循证医学的基础是数理统计学,要求RCT的实验样本及环境一致,以便排除个体差异及环境干扰,但这在现有条件下近乎不可能实现。号称大规模随机对照实验的样本偏少,对照组和试验组难有条件一致的个体,环境随时间空间变化造成实验对照控制困难。目前,大规模的医学样本采集困难,几百个样本已经算是比较大的样本了;而根据统计理论如要达到90%的敏感度,至少需要约1300个的数据样本。为了克服RCT样本不足的问题,Meta分析方法得到了广泛应用:通过综合已有研究多个样本集的结果,可以推得大规模样本集的综合结果。Meta分析取得了很多有价值的研究成果,但是,Meta分析的基础也是数理统计学,其运用的前提是样本及实验环境一致,正是在这一点上它备受质疑。首先,不同样本集的权重控制难于完全公正,因为其实验环境难于恰当评价和把控,实验结果难免有过度包装和偏颇之嫌。Meta分析存在的另一个问题是:它所依赖的数据往往不是最新的即时案例,制作的证据可能因环境与气候的变化而失去应用价值。总之,循证医学所面临的问题包括:证据的稀缺性、偏倚性、可靠性、及时性、公正性,以及环境的一致性等方面的问题。由于证据的一致性和及时性存在问题,基于历史数据进行Meta分析备受质疑。2014年,《英国医学杂志》在名为《循证医学濒临破产》的文章中指出[5]:循证医学的证据属于间接证据,基础建立在已经发表的研究文献上,利益冲突容易影响证据的公正性,证据环境与临床决策环境存在距离;循证医学助长了过度诊断、过度治疗,并可能存在沦落为利益集团代言人的危险。
2大数据对循证医学的影响
大数据(Bigdata)又称巨量或海量数据,是指数据规模巨大以至在合理时间内,无法通过当前主流软件工具,获取、处理、分析以便决策的结构复杂的数据[6]。大数据如下具有4V特点:Volume(巨量)、Velocity(瞬速)、Variety(多样)、Value(价值)。巨量是指已经不能再用GB(即1024MB)和TB(即1024GB)为单位,来衡量大数据的存储容量或规模,而要以PB(即1024TB)、EB(即1024PB)乃至ZB(即1024EB)为单位来计量数据容量。在巨量的医疗大数据中,各种条件的样本都会存在,因此,证据的稀缺已经不是问题。瞬速是指兼具方向的快速变化,即数据随时间和空间快速变化。大数据中的样本通常是全空间的、多维度的、全时间的及瞬时变化的。由于大数据地域环境广,数据样本量巨大、正反样本齐全,证据的“制作”已不再必要,而是随时随地客观地存在。瞬速性通过可佩戴健康监测设备体现,这为及时获取病患信息提供了极大便利。多样是指数据的种类繁多、结构复杂、因果并存、甚至同一数据表现出不同形式。数据的多样性对数据的理解和分析是一个巨大挑战,但同时也为样本分析结果的验证带来便利。因此,在医疗大数据环境下,不仅随时可以采集样本进行分析处理,还能对分析得到的结果马上进行验证,从而能够保证医学证据的可靠与可信。
价值是指相比小规模、历史数据而言,大数据具有更高的研究和使用价值。由于任意时刻任意地点都有大量样本,样本的稀缺性和及时性已经不是问题,这为医学研究扫清了采样障碍;同时由于样本丰富冗余多样,也为研究结果的验证提供了便利;大数据除具有巨量历史数据外,还有不同地域环境的巨量即时数据,这使循证决策更具应用价值和时效性。大数据将首先改变医学数据的采集方式。大数据的形成往往依靠自动采集技术,随着可佩戴监测设备如iWatch等的出现,医学数据的采集及积累速度将出现爆炸性的增长。以往的数据同大数据相比,如同沧海之一粟。且以往的数据往往靠手工采集完成,普遍存在稀缺、偏倚、可靠、及时、公正等问题,这样采集的证据必然会影响医学研究的结论。基于手工证据进行决策,其结论未必准确及时公正可靠。医疗大数据不间断地在不同地点同时采集,不仅包含历史数据以及即时数据,甚至还可能包含未来需求信息,例如,ogle就是通过人们对感冒药品的搜索来预测流感的。大数据的出现将改变医学数据的管理方式。在网络数字化高度发达的今天,尽管已经出现了电子病历,但纸张病历在数据管理中仍然重要。然而,纸张病历有其固有缺陷,如容易破损或丢失、整理归档的周期过长、借阅的时间成本极高、研究采样的工作量巨大等等。伴随大数据出现的数据融合技术能将不同医院的电子病历整合在一起,并同可佩戴健康监测设备的数据及时集成,大大减少了电子病历的整理、借阅和数据采集时间,这不仅对病人的疾病诊断和预警监控更加有利,同时也对医生的临床及医学研究更有帮助。通过语音和可视眼镜等现代化的数据浏览设备,医生在查房间隙就能获知下一病人既往病情,从而能大大减少医生的劳动强度,使医生有更多时间治疗病人,有更多的时间进行医学研究。
大数据的出现将改变医学数据的分析方式。以往在收集样本数据以后,通常使用SAS或SPSS等软件,对采集的数据进行统计分析,发现相关病因或建立决策模型。这些软件受计算能力及内存容量的限制,只能处理样本量不大的数据,并且处理的数据维数有限,例如,SPSS不能超过40维,而医疗大数据的维数成千上万。通过手工或统计软件的计算方法,将无法满足医疗大数据的分析需要。
当维数超过30个致病因素时,可能要考虑230种因素组合,普通统计软件已无法计算和处理,必须依靠内存及速度“无限”的云计算。必须研究与开发基于大数据和云计算的分析与挖掘技术如深度学习技术,使其能够自动完成高维病因数据的分析与主要病因的提取。总之,医疗大数据的采集、整合、分析、处理、研究完全靠人工完成已极其困难,没有利用云计算的统计分析软件也难于完成医疗大数据的分析和处理。在大数据时代,必须借助深度学习等技术完成医疗大数据的分析和挖掘。虽然医疗大数据能够弥补数据样本的不足和不公,但只有借助更为先进的分析工具和软件,才能为循证医学带来进一步的变革和发展。
3大数据对循证医学的变革
证据制作是循证医学的核心,证据能为医生的诊治提供参照,因此,循证医学得到了快速发展。但是,矛盾、偏颇、过时的证据也使循证医学备受质疑。首先是证据及其结论存在大量的矛盾,使人们对循证医治的结果产生怀疑;其次是证据偏颇使其成为利益代言人的工具;其三是证据时过境迁使医治达不到预期效果。而医疗大数据的出现恰好能够弥补以往证据采集与制作的不足。首先,医疗大数据使证据的稀缺问题得到解决;其次,随大数据广泛汇集的医生及病人评价,可有效避免证据成为利益代言人的工具;其三,可穿戴等自动采集设备可保证证据的时效性。这将有助于循证医学同中医的结合。中医的治疗过程通常比西医长,其证据采集及疗效评估存在很大问题,而随着可穿戴健康监测设备等技术的发展,长期持续采集治疗证据及疗效将不再困难,从而有助于循证医学在中医等领域发展壮大。此外,随大数据兴起的先进数据分析与挖掘技术,将对循证医学起到巨大的推进作用。临床决策分析评价是确定循证治疗方案的关键步骤,现有的决策分析评价模型包括决策树、Markov过程等一系列模型,这些模型在面临高维大数据时力不从心,难于继续提供较高的决策精度,使医生对医治方案是否有效失去信心。随着大数据深度学习技术的出现,病因的分析和提取已完全自动化,且大大降低了建立决策分析模型的工作量,提高了治疗方案的决策精度。对于任何疾病诊治方案,考虑的疾病致病因素越多,即证据或特征维数越多,得到的参考信息就越多,诊治的准确性就会相应提高。但是,医生在遇到大量高维的证据数据时,往往面临从中选择少数有效证据的难题。例如,假定要考虑30个致病因素或检验指标,建立决策模型就要考虑230种因素组合,从中筛选一个最优因素组合作为模型输入的工作量是巨大的。因此,要得到由若干最优证据构建的最佳决策分析模型,医生们所投入的研究精力可想而知。
筛选最优因素组合是医生们最费精力的工作,目前这项工作可以被深度学习自动完成了。深度学习最早由Hinton等人在2006年提出,它是一种无监督的特征学习和提取技术,它通过低层特征的组合构建更加抽象的高层特征。2012年,Lecun等人利用卷积神经网络真正实现了高效的多层深度学习。传统的神经网络学习只有单向认知过程,通常只包含一个隐含层,因层数较少而被称为浅层学习。深度学习则包含认知和生成两个过程,并且每个过程都包含多个隐含层,其模型的总体框架如图1的虚框部分所示。如图1所示,深度学习的“输入层”可以理解为各种致病因素以及各种检查化验结果,例如遗传环境因素以及肝功全套指标等;自底向上的箭头表示认知过程,自顶向下的箭头表示生成过程,即深度学习由两个互逆的过程构成;认知权重向量WnT和生成权重向量Wn表示深度模型的知识。原始“输入层”经“隐含层H0”认知得到输出,输出又经“隐含层h0”生成得到新“输入层”,如果原始“输入层”和生成的“输入层”完全一致,则说明认知产生的输出是完全正确的。根据信息论的有关理论,学是会产生损失,新旧输入不可能完全一致。因此,只要两者近乎一致就可以了。认知和生成权重同隐含层的每个输出相关联,wake-sleep深度学习算法用于双向调节权重:(1)利用下层输入和认知权重向量WiT产生输出表示,然后使用梯度下降法调节生成权重向量Wi;(2)利用输出表示和生成权重向量Wi产生输入表示,然后使用梯度下降法调节认知权重向量WiT。通过逐层学习最终得到顶层的认知和生成权重向量WnT、Wn。在深度学习完成后,如果要建立决策分析模型,只需将顶层输出即自动提取的特征,作为分类模型如支持向量机的输入,并用类别标记如肝硬化分级训练支持向量机,就可以得到用于决策分析的精确分类模型,分类模型如图1的虚框外部所示。2014年,香港中文大学汤晓鸥教授领导计算机视觉研究组(mmlab.ie.cuhk.edu.hk),开发了一个名为DeepID的深度学习模型,在LFW数据库上识别5749个人脸的准确率已达99.15%,其精细和准确程度已经超过了人眼和大脑。医疗大数据及深度学习必将为循证医学带来一场新的革命。不仅数据缺失、偏颇以及过时等问题会被迎刃而解,而且证据收集、制作以及诊治方案的决策都将会自动化,这将扩大循证医学在所有领域包括中医等领域的应用范围,大大降低医生在证据制作、治疗方案决策与疗效评估等方面所付出的精力,推动循证医学向更深更广更加现代化的方向发展。
4总结
医疗大数据带来的变革将是全方位的,它不仅为医学研究和证据制作带来便利,同时也将促进中医等替代和补充医学的发展。作为大数据采集的一项关键技术——便携式/可佩戴健康数据自动采集技术,将大大提高医疗数据采集以及证据制作的效率,解决中医等疗效数据需要长期采集观测的难题,弥补循证医学存在的证据偏颇、不公、过时等缺陷,促进循证医学更加客观、公正、可靠地在临床治疗中应用。在循证医学的证据评估以及利用方面,伴随大数据出现的云计算能够提高证据分析与处理的效率,大大节省医生临床应用和医学研究所需要花费的时间;面向大数据的深度学习能够从浩瀚的高维医疗数据中,自动完成疾病致病因素及环境因素等的筛选与提取工作,并能建立精度远远超过人脑的决策分析模型,从而大大提升医生建立和应用循证治疗方案的信心,有助于循证医学被各科医生更加广泛地接受和应用。尽管深度模型包含更多的隐含层,其学习时间要远远长于浅层学习,但两种模型的决策时间相差不大,因此,这并不妨害深度模型的有效应用。特别值得一提的是,深度学习将证据提取与决策分析两个过程合二为一,大大降低了医生在临床及医学研究中应用循证医学的劳动强度。基于大数据、云计算和深度学习的循证医学,由于能够降低劳动强度、提升工作效率、提高决策精度,因而将具有更加广阔的应用前景和发展方向。
5展望
关键词:银行数据挖掘;理论分析;典型算法;应用及效用
中图分类号:TP311.13
银行是现代经济的标志,也是现代经济活动中不可或缺的环节和工具,从银行诞生应用以来,银行业就需要处理大量的经营数据,银行数据记录手段也经历了数个阶段,从白纸黑字的账本到计算机信息化时代的银行数据信息系统,银行数据业务可以在业务交易流程、数据库建设、金融风险评估和经营决策分析等方面发挥极其重要的作用。从银行业本身的发展来看,商业银行的规模和类型都在逐年丰富,信息化和数字化的银行业务模式也逐渐成为商业银行的运行模本;现代银行更加重视客户本位思考,通过多样化的市场需求分析手段,可以为客户提供极具个性化的银行业务产品服务,吸引更多的潜在客户群;同时现代银行的风险管控意识更强,在市场经济节奏更快的当今社会,银行经营决策的风险评估效果决定了现代银行的经营走向;再者是网络终端服务和移动终端服务的迅猛发展,银行交易手段更加丰富,网上银行、手机银行、移动证券交易等等电子支付交易方式的发展给现代银行带来了新的机遇和挑战,这一切都需要现代银行在数据处理分析能力上有新的应对措施。
1 数据挖掘和数据效用理论基础
数据挖掘的通用定义指的是从现有的大量存储数据中,采用数据撷取的方式,搜寻出感兴趣的、有价值的数据点或数据模块的数据处理技术。数据挖掘广泛地应用于商业金融领域,基于既定的商业化分析目标,可以依托于企业内部的金融数据系统进行数据分析,最终获得需要的商业经营规律和市场发展规律,并且能够在成熟的数据挖掘模型的支持下与其他分析工具和分析技术相结合,形成商业化的数据挖掘分析系统和分析软件。数据挖掘的功能需求决定了数据挖掘是一个典型的学科交叉项目,现代银行受到业务拓展发展的需求,在其数据挖掘技术的运用中广泛地的结合了数据库技术、智能学习技术、统计分析技术、模式识别技术、人工智能技术和神经网络技术,数据挖掘常分为六个技术类别:聚类、分类、估值、预测、相关性分组和关联规则分析、描述和可视化分析。
对数据资料的重视性促使了现代银行对数据利用效率的不懈追求,现代化经营模式中,数据已经成为最为重要的无形商品,作为商品的数据资料,其资本性和营利性决定了信息数据的效益最大化,由于数据资料的复制成本低、附加值高且利润丰厚的特点,数据信息价值理论已经成为数据效用分析的主要理论模式。
2 银行数据挖掘的应用分析
2.1 数据挖掘在银行客户需求分析中的应用
现代银行针对客户资料和消费记录都建立了功能庞大的消费市场数据库系统,对银行客户的个人资料、账户信息、交易历史记录、业务服务历史记录、理财数据和个人理财风险评估等进行了数据库仓储式分析,基于成熟的数据仓库逻辑分析模型,可以对每一个银行客户进行多维度消费分析,以交易历史纪录为例,交易历史纪录作为该分析维度下的分析主键字段,在其下端进行次元维度分析,对交易类型、交易金额、消费地点、存贷款交易、电子银行消费、手机银行消费、证券消费等进行子健分析,但是也要考虑到不同主键之间存在着较大的关联性,此时可以考虑在客户数据仓库分析中建立星形数据模,在关联数据子健上进行数据溢出处理。在数据挖掘中主要采用的是聚类算法,在对客户数据进行详细的数据仓库建立之后,可以对客户进行数据特征值标定(如商业价值、交易类型、风险倾向等),以便于进行客户分类,在用户细分时,行为特征是主要的特征,自然属性是辅助的特性。
表1 聚类汇总表
业务类型 纸黄金 基金理财 外汇 个人金融 债券 贷款
业务渠道 柜台 电话银行 网上银汉 手机银行 自主服务 中间交易
由此可以得到详细的客户聚类,例如以年龄段为标准的20-30岁阶段用户(业务类型为纸黄金,业务渠道为网银和自助服务)、30-40岁阶段用户(业务类型为外汇和金融,业务渠道为柜台和自助)、40-50岁阶段(业务类型为基金债券,业务渠道为柜台服务)。
基于SQL Server Analysis Services分析工具,在银行原始交易数据库中进行聚类分析,选用Microsoft聚类算法对交易日志中的指定页进行类型搜索,在后处理模块中可以查看聚类分析结果。聚类算法进行数据挖掘时需要原始数据具有较强的分类性和数据关联性,才能在数据挖掘中针对特定数据属性和数据聚类进行分析,并且获得该属性在任意聚类中的数据分布情况,由此可以精确的知道特定类型客户的银行消费习惯和消费倾向,有助于银行稳固现有客户群,吸引潜在客户群体。
2.2 数据挖掘在银行决策分析中的应用
银行经营的各个环节都基本实现了信息化管理,银行综合业务系统为其提供了基础业务操作平台和统一账务处理系统平台,能够帮助银行实现有效的资源整合和集中管理。数据挖掘技术的应用能够全面提升银行系统的内控管理和风险管控水平,为银行的内部决策提供有效的数据支撑。
表2 数据挖掘与银行决策关系
数据源 数据处理 数据存储 决策分析
交易数据
客户信息
管理信息
外部信息 数据抽取
数据整合
数据加载 数据仓库 经营状况决策分析
数据监控 数据节点1 资产负债决策分析
数据刷新 数据节点2 风险管理决策分析
数据包装 数据节点3 客户需求决策分析
数据公布 数据节点4 银行财务决策分析
为了保障银行的经营效益、提升业务覆盖范围并预防经营风险,银行需要及时掌握市场动态并且做出经营调整,数据挖掘技术能够跟踪分析银行经营过程中的各个基本要素环节,通过比对分析自身产品的营收现状、竞争对手的经营现状,以及对资产负债率、银行坏账率和金融产品的销量,可以及时为决策层提供参考数据。商业银行的风险管控是其保障经济效益的关键,数据挖掘系统的关键性作用体现在对银行业务的全方位、多角度的可靠性分析和风险评估,基于银行内部的风险模型参数,在成熟的模式识别技术和智能分析技术的辅助下,可以提前对经营风险进行预判,以减少成本损失为风险数据挖掘模型约束,以保障经营效益最大化为风险决策目标,以调控决策方式为风险决策手段,可以进一步提高银行的资产质量。财务风险控制中数据挖掘的具体应用如下图所示:
图1 数据挖掘在银行财务决策分析中的应用分析
3 银行数据挖掘的效用分析
3.1 数据挖掘在银行风险控制中的效用
风险控制是银行日常经营活动中的核心内容,通常来看可以分为定性控制和定量控制两种方式,定性控制的关键是建立一套有效的风险控制管理体系,在多流程决策体系的协作下,构成风险管理知识,以非结构化数据的形式保存并流转使用;定量控制则更看重对经营实时数据的管理效率,建立一个基于客户需求和市场规律的量化风险控制体系统框架。银行信用评估体系要求银行用于信用评级的数据必须具备一定年限和质量标准,对数据样本量、样本时效性、业务覆盖范围、数据来源都有明确的要求。数据挖掘对于银行风险控制的关键性作用主要体现在对于银行信用风险控制、银行市场风险评估和银行操作风险管理上。
在信用风险控制上,数据挖掘主要是针对信用关键指标:违约率、违约损失率、违约暴露和违约期限进行针对性的数据挖掘分析,结合银行的信用评级动态变化和银行信用置信度的波动规律,在银行交易数据库中采用数据关联分析方法,对概念分层数据进行多层挖掘,提高数据挖掘的精准度;在对市场风险控制上,数据挖掘技术主要集中在市场风险识别和市场动态分析两方面,通过分析银行特征值数据在各种风险环境下的数据概率分布值,可以构建银行内部的市场风险模型,结合遗传算法和智能分析,可以针对市场发展规律进行智能风险评估决策;对于市场的偶然和不确定行为,通常数据挖掘会采用预测(predication)、时序分析模式(time-series model),通过遍历历史交易数据,能够对偶然性市场行为进行概念排序,采用模糊分析(fuzzy method)、证据理论(Evidence theory)等方法进行决策分析。
3.2 数据挖掘在银行产品创新中的效用
产品创新是提升银行市场竞争力的根本手段,数据挖掘的重要性则体现在数据分析准确性和有效性上,首先是对业务流程效率的数据分析,对于总行、分行、支行和营业网点的银行结构进行业务处理效能分析,通过实际交易数据和历史交易数据进行比对分析,可以有效的找出实际业务模式中的最大风险点,设计或优化业务流程,明确录入、审核、授权各岗位的职责,从而运用创新手段控制流程风险;采用产品规划的方法指导新产品的设计流程工作,则需要在产品设计理念、产品市场定位、产品竞争优势分析和产品风险控制上进行数据分析,通过数据挖掘技术可以在银行内部历史数据、行业共享数据和商业数据的基础上进行特征属性挖掘,并最终为新产品的量化定型提供有效的数据参考,并未新产品的市场价值进行定性和定量预测分析。
4 结束语
信息化时代背景下金融业的供需地位发生巨大转变,金融数据也从经营资料开始向数据商业化发展。基于详尽的量化数据系统,现代银行可以在高效数据分析模型的基础上对银行数据进行二次开发,提供数据分析服务。本文通过阐述银行数据的数据结构,分析了对银行海量数据进行数据挖掘的主要方法和应用模式,并评估现行银行数据挖掘方法的有效性和经济效益价值,为进一步提升银行数据挖掘的效能提供了新的思路。
参考文献:
[1]丁剑敏.数据挖掘技术及其在商业银行中的应用[J].市场周刊・财经论坛,2013(04).
[2]宓文斌.数据挖掘在银行信贷业务中的应用[M].上海:上海交通大学,2012.
[3]王佳丽.财务诊断中的数据挖掘运用研究[D].南宁:广西大学,2012(05).
关键词:地理计算课程;地理信息统计;地理计算学
收稿日期:2007―09―15
项目:黑龙江省新世纪教改工程第四期项目。
作者简介:张丽娟(1965―),女,河北唐山人,副教授,博士。主要从事地理信息统计与运筹、非线性模型等教学研究。
一、计量地理学课程的兴衰
1963年,鲍顿(I.Burton)使用了“计量地理”这一词语,对自20世纪50年代末期开始,以数学方法在地理学中的应用为内涵的计量运动加以形容,并认为从这以后不再是革命了,因为数学方法已经成为现代地理学的主要方法之一。从此,国际地理学界掀起了声势浩大的计量运动“或称计量革命”。不过,这在地理学界并未完全达成共识,因为现代地理学中的数学方法的引人,一方面,推动了传统地理学研究方法的变革;另一方面,却产生了重定量分析,轻区域、生态研究的问题。由此产生了一场波及整个地理学界的大辩论①。以至到了20世纪70年代后期,有人提出要重新评价计量运动,重新认识地理学中的数学方法。有人认为,数学方法只能用来研究地理要素之间的数量关系及地理事物的分布形态,而不能揭示复杂的地理现象形成的机制。1976年,在莫斯科举行的第23界国际地理学大会上,成立于1964年第20界国际地理学大会议程中的“地理学计量方法委员会(CQMG)”被宣布解散,这标志着轰轰烈烈的地理学的计量地理革命的呼声到此濒于沉寂②。我国由于受到“”的影响,未经历国外20世纪六、七十年代地理学的计量革命时代,随后在20世纪八十年代,我国地理学界也开始了计量地理运动,其标志是各高等师范院校把计量地理学引入了地理科学专业,有的学校设为必修课,有的学校设为选修课③。但绝大多数高等师范院校在开设了2~3届后,便取消了。因此可以说,我国的地理学界也重演了计量运动的兴起和终结②。
计量地理运动所经历的兴衰,其关键在于计量地理所采用的数学方法,基本上是统计方法。之所以遭到部分地理学家的反对,其主要原因为:一地理现象的非欧几何性质,决定了统计方法不能解决空间问题;二是地理现象是复杂的非随机现象,不能用解决随机现象的多元统计学进行系统分析,不能借助线性化技术拟合非线性系统。
尽管上述观点在地理学界具有一定的代表性,而且也直接影响了计量地理学课程在我国高校的开设,但随着数学学科的发展,数学方法已远远不限于统计分析方法,针对不同地理现象、地理过程、地理事件,均有相应的数学方法去解决,因此,在计量地理运动经过了兴衰之后,地理学中的数学方法的应用已经又进入了一个快速发展的时期,于之相对应的,地理学也进入了现代地理学阶段。重新评价和构建计量地理课程,是非常必要的而且是必需的。
二、高等师范院校地理科学专业地理计算课程体系的构建
我国高等师范院校在20世纪80年代后期,随着计量地理学课程的取消或改为选修课,在我国地理科学专业保留计量地理学及相近课程的高等师范院校已经廖廖无几了,一些地方师范院校更是从来就没开设过类似课程。而我国高等师范院校地理科学专业的培养目标是:培养具备地理科学的基本理论、基本知识和基本技能,能在科研机构、学校、企业从事科研、教学、管理、规划与开发及在行政部门从事管理工作的高级专门人才。那么在地理学发展到现代地理学阶段的今天,面对数学方法已经广泛应用于地理学中的现状,高等师范院校地理科学专业如何构建地理计算课程体系,成为了当前必须解决的现实问题。
1.重新编制地理信息统计学教材,代替原来的计量地理学
统计学是是研究客观现象数量关系及其变化规律的方法论科学,是一门关于统计资料的收集、显示、描述和分析方法的学科。统计学形成于19世纪初期到今天已经有100多年的历史,是一门系统的科学④。各个学科根据各自学科的特点与统计学相结合,就形成了专业统计学,与地理信息相结合,形成地理信息统计学。它从地理数据的收集到分析方法均有系统的解析。学生只需要最基本的概率论基础和线性代数基础,就能轻松掌握此课程的理论部分,而不需要另外设置数理统计方面的课程。数理统计属于数学学科,偏重于数学理论的讲解,如不能结合专业性质,学生很难接受,也直接影响应用效果。
我国原有的计量地理学的教材内容,虽然与专业知识结合紧密,但数理统计的基础知识讲解的太少⑤,如果学生没有概率论基础,很难接受教材。实际上,只要在前面补充统计学中的抽样分布和理论分布、假设检验、方差分析、参数估计等内容,就能解决这一问题。这样,既不需要单独由数学老师开设概率论和数理统计的课程,又能紧密结合地理学科,既加强了学生数据处理的基础技能,又使地理计算学科课程更加具有层次性和系统性。我国现有少数高等师范院校开设了概率论和数理统计课程,进而取代了计量地理学课程,笔者认为是不可取的,脱离了专业的纯粹的数学课程与和专业相结合的课程所起的作用是不可比拟的。由于地理信息统计学中的回归分析需要线性代数做基础,因此需要在基础课程上安排线性代数这门课程。
2.引进地理学中的数学方法这门课程
在地理信息统计学的基础上,依靠学生已经具有的处理地理问题的定量化基础,引入地理学中的数学方法这门课程。从以上分析可知,可以纳入这门课的内容很多,有的方法需要较高的数学理论基础,因此,笔者建议将学生容易接受的有马尔可夫过程、线性规划、投入产出分析、多目标规划、动态规划、非线性模型、网络分析、层次分析法、风险型决策分析法、非确定型决策分析法、模糊数学方法、灰色系统方法,做为地理学中的数学方法(一);其它的控制论、信息论、突变论、耗散结构理论、协同论、系统动力学方法、分形理论、小波分析、人工神经网络、遗传算法、细胞自动机则属于难度较大的数学方法,可做为地理学中的数学方法(二)。在讲解过程中地理学中的数学方法(一)可以采用理论和应用相结合,而地理学中的数学方法(二)则注重应用。地理学中的数学方法(一)可在本科生阶段开设,地理学中的数学方法(二)在研究生阶段开设。
3.计算机技术的发展为地理计算课程的开设提供了先决条件
统计学的计算软件开发已非常成熟。世界上最著名的数据分析软件SAS和SPSS、浙江大学开发的DPS数据处理系统、MATLABV4.0软件包,都是目前很受欢迎的统计软件。因此,统计学软件与统计学理论的结合,提供了设置地理计算学课程的先决条件。
4.高等师范院校地理科学专业地理计算课程体系的构建
综合以上分析,提出高等师范院校地理科学专业开设地理计算课程体系为:大学一年级的第二学期,在第一学期开设高等数学的基础上,增设线性代数,学时为60学时;大学二年级的第二学期,开设地理信息统计学,学时为64学时(54学时的理论课,10学时的上机操作);大学三年级的第二学期,开设地理中的数学方法(一),学时为60学时;在研究生一年级的第二学期,开设地理学中的数学方法(二)。
三、结论
1、计量地理运动的兴衰影响了我国高等师范院校地理科学专业开设计量地理学课程的现状。随着地理学中研究问题的广泛性,数学方法已应用于地理学中的多个方面,培养和提高地理科学专业学生的定量分析问题的能力和素质,已是刻不容缓。
2、用地理信息统计学代替计量地理学,增加统计学中的概率论、理论分布和抽样分布、假设检验、方差分析、参数估计等内容,加强学生的数学基础。
3、引进地理学中的数学方法这门课程,根据内容的难易分成两个系列课程,即地理学中的数学方法(一)和地理学中的数学方法(二)。
4、提出了高等师范院校地理科学专业开设地理计算课程体系:大学一年级的第二学期开设线性代数,学时为60学时;大学二年级的第二学期,开设地理信息统计学,学时为64学时(54学时的理论课,10学时的上机操作);大学三年级的第二学期,开设地理中的数学方法(一),学时为60学时;在研究生一年级的第二学期,开设地理学中的数学方法(二)。
参考文献:
〔1〕徐建华.现代地理学中的数学方法〔M〕.高等教育出版社,1995,1-5.
〔2〕陈彦光.地理学:计量运动的失败与分形研究的崛起〔J〕.信阳师范学院学报(自然科学版),1999,12(3):310-314.
〔3〕许峰宇,戴先杰.高等教育地理学专业课程体系研究〔J〕.煤炭高等教育,2004,22(3):83-86.
〔4〕何宁,吴黎兵.统计分析系统SAS〔M〕.武汉大学出版社,2005.
【关键词】稽查选案 逐步判别分析 选案模型
一、稽查选案的案源及目前存在的主要问题
(1)选案来源。目前,通过以下五种形式发现的案源是确定稽查对象的主要来源:根据选案部门掌握的信息资料,根据人工经验,选择设定的条件,如按纳税人行业、登记注册类型、隶属关系、经营规模确定检查对象或随机抽样选择案件,安排稽查任务,根据选案结果选择输出待查的案源;根据举报,这是税务机关发现案源最多的一种途径。举报是指群众或单位通过口头、书面等形式向税务机关报告偷、逃、骗税情况的一种形式,各级税务机关都建立了税务违法案件举报中心,设在所属税务稽查机构,受理公民举报,并为举报人保密;转办是指同级政府的各个部门接到的反映偷、逃、骗税的人民来信来访,或其他部门发现的偷、逃、骗税行为的信函、电话、口头等形式反映给税务机关的各种案源;交办是上级党政机关或上一级税务机关交办查处的各种偷、逃、骗税案件;情报交换是通过国际间的情报交换得到的偷、逃、骗税的信息。
(2)目前存在的主要问题。目前选案工作中存在的问题主要有:稽查选案缺乏科学性和准确性,选案带有盲目性;选案工作缺乏计划性,检查随意性大;税务稽查信息来源少,渠道不畅;稽查选案的监督制约机制尚未健全。
二、税务稽查选案模型
税务稽查选案属于判别问题,我们可以充分利用统计学知识,从已知的诚实纳税人和不诚实纳税人中找出他们的统计学特征,根据待判断样本到此特征的距离判断样本属于哪个总体,从而区分出诚实纳税人和非诚实纳税人。
税务稽查选案问题也属于分类问题,根据纳税人的纳税信息,把他从诚实纳税人和非诚实纳税人中区分开来,可以运用统计学中的聚类的方法,但在以往实际运用中常用的是判别分析的方法。
税务稽查选案问题也属于多目标决策问题,随着近年来决策学的兴起,可以很好的把他应用到稽查选案中来,起到对纳税人的纳税信息进行决策的目的。
(1)TOPSIS模型。主要采用有限方案多目标决策分析中的TOPSIS 模型对稽查选案进行综合评价与排序, 从而找出重点稽查对象。这种方法的优点是应用灵活方便, 对样本量和使用者均无特别要求, 与其它方法相比, 具有不受参考序列选择的影响, 不受数据样本多少的影响, 应用范围广, 几何意义直观, 信息失真小, 简单易行等优点。需要引起注意的是, 该方法无量纲化合成公式、有关阈值、每个指标的权数等均是由模型自动生成的, 所以其选案结果是依据实测数据而得, 可避免主观因素的干扰, 从而客观地进行综合稽查选案评价。
(2)TOPSIS模型在SAS中的应用及结果分析。运用TOPSIS选案方法,结合逐步判别法的指标分析结果,取43家企业的纳税数据对模型进行验证,其中诚实纳税户33家,非诚实纳税户10家。
从计算的结果中,我们选取排在前10位的纳税户作为选案结果与实际选案结果相比较,从而可以得到以下结论:
从模型分析的结果可以看出,运用TOPSIS模型选案的正确率达到了96.97%,一方面说明了可以把该方法运用到稽查选案中,另一方面也充分说明了运用逐步判别分析法筛选出的指标完全能够对企业的纳税信息进行判别,从而达到选案的目的。
[关键词] 新生儿;坏死性小肠结肠炎;外科手术;时机;决策分析
[中图分类号] R722.1 [文献标识码] A [文章编号] 1674-0742(2016)10(c)-0092-03
[Abstract] Objective To analyze the surgical timing and surgical procedures of neonatal necrotizing NEC. Methods Using the method of digital randomly selected from our hospital in February 2014 to February 2015 in receiving treatment of necrotizing enterocolitis, randomly select 50 cases study, 30 cases of male children, women with 20 cases; Children aged 3~27 d, analysis the reaction index of intestinal necrosis and metabolic disturbance frequency for surgical intervention for children. Results The study of 50 cases of children with necrotizing enterocolitis, 10 cases received surgical treatment, of which 5 cases underwent pneumoperitoneum belonged to the late operation; Five cases, there was no intestinal perforation, single belongs to early surgery have bowel necrosis, late operation case fatality rate of 20.0%, the incidence of complications was 60.0%; Early surgical mortality was 0, the incidence of complications was 20.0%, early surgery, compared with the results of the late surgery has significant difference was statistically significant (P < 0.05). Conclusion Pediatric clinical, can according to neonatal necrotizing enterocolitis with 12 indexes of bowel necrosis reaction and reflection of the metabolic disorder of seven frequency, to provide children with the best operation time and operation method, high application value, to actively promote and use.
[Key words] Newborn; Necrotizing; Surgical operation; Opportunity; Decision analysis
NEC属于新生儿常常患的一种肠道炎症,该验证的临床症状心显示患儿小肠结肠未出现坏死、出血现象,且该疾病患儿中有90%甚至以上者为早产儿。该炎症疾病属于新生儿外科常见的一种急重症,可对患儿的多个器官以及系统等造成严重影响,其致死率最高可达50.0%,这部分患者大多在发病7 d内死亡。生存者容易并发肠狭窄、短肠综合征以及胆汁淤积性肝病,早期手术治疗可显著降低其死亡率,降低并发症的发生几率。文章随机选取该院2014年2月―2015年2月收治的50例NEC患儿展开研究,研究患儿外科手术的时机以及术式决策,现报道如下。
1 资料与方法
1.1 一般资料
利用数字随机抽选的方法,从该院2014年2月―2015年2月接收治疗的坏死性小肠结肠炎患儿当中,随机选择50例展开研究,男性患儿30例,女性患儿20例;患儿年龄最小为3 d,最大年龄是27 d,平均年龄是(15.0±2.5)d;患儿的最大体重是3 800 g,最小体征是1 510 g,平均体重是(2 500±205.5)g;患儿胎龄最长为44周,最短为33周,平均胎龄是(39.5±2.0)周,其中有30例
1.2 治疗方法
50例NEC患儿均行常规治疗,确保患儿机体内循环稳定。对符合手术指征的患儿实施外科手术治疗, 主要包括了肠切除手、肠造瘘术、肠修补术。
1.3 疗效判定
观察患儿治疗后的病死率与并发症发生率等。
1.4 统计方法
数据均用SPSS 18.0统计学软件处理,其计量数据用标准差(x±s)表示,计数资料用百分率(%)表示,若P
2 结果
50例患儿治愈48例,内科治愈38例,外科治疗10例。5例出现气腹属于晚期手术、5例未发生肠穿孔但肠坏死属于早期手术;晚期手术一共治愈4例、死亡1例,患儿的死亡率是20.0%;术后有1例患儿发生短肠综合征,2例发生胆汁淤积症,术后并发症的发生几率为60.0% 。早期手术一共治愈5例、死亡0例,术后1例患儿发生胆汁淤积,发生并发症的几率是20.0%,早、晚期手术结果对比差异有统计学意义(P
3 讨论
NEC患儿常常并发肠穿孔、肠坏死以及败血症、腹膜炎等,部分患儿则会发生肠狭窄及短肠综合征、胆汁淤积性肝病,所以应用正确手术方式及把握治疗时机极为重要,且合理的治疗方法可有效地避免患儿并发症的发生,达到改善预后效果,降低死亡率的效果。在传统的NEC治疗处理中,仅将肠穿孔当做一个手术绝对指征不但使很多患儿失去治疗的机会,与此同时也使得手术死亡率较高的局面。近年来,该院对于NEC患儿最佳手术时机,手术方式的研究发现,早期手术干预,尤其是当患儿全层肠壁发生缺血坏死,但是未穿孔,或某段肠壁发生全层坏死之前进行治疗,可显著提升质量疗效,减少死亡率及发生并发症的几率。文章通过5例行早期手术的新生儿,均属于在某段肠坏死、未穿孔的时候进行治疗,而穿孔之后肠液弥漫使得患儿全身代谢出现紊乱的现象得到有效控制,而且还大幅度降低了患儿发生肠狭窄、胆汁性肝病、短肠综合征等并发症的几率,取得了满意的治疗效果。有研究报道指出,把12项反映肠坏死的指标分作4个级别,第1级包括了气腹,这是反映患儿肠坏死的指标;第2级包括了门静脉积气、腹腔穿刺阳性,该指标可反映患儿肠坏死情况; 第3级别包括了肠壁积气、固定肠袢以及腹部包块、腹壁红斑,可以反映肠坏死情况;第4级别包括消化道严重性出血、腹胀、呕吐以及腹部压痛,均属于反映肠坏死情况。
NEC手术的主要目的是,尽可能完整切除患儿坏死的肠道组织而减轻其腹腔炎症病情,进而减少并发症发生的几率;同时又尽可能保留患儿肠道组织,避免发生短肠综合征。临床上的主要手术包括肠造瘘术以及肠切除等,根据患儿特殊情况来看,需尽可能保留术中诊断有争议的坏死肠,结合患儿损伤控制手术进行进一步的治疗,可以采用肠造瘘术治疗效果最佳。患儿最佳手术方式为:局部病灶坏死者,其的内环境比较稳定,远端肠管正常状态时则可应用切除肠吻合术,反之则实施远端肠管双腔造瘘术治疗。对于多病灶坏死者,其远端肠管属于良好状态,病情稳定,可采取肠切除、肠吻合术反之则选取近端造口治疗。对坏死广泛者可用近端空肠造瘘、封闭术治疗72 h之后再探查;对于全肠壁均坏死者则可放弃治疗机会。手术要点主要包括了一下几点:①不可遗漏患儿病情,所有患儿的整个肠道需要进行系统地检查,例如直肠、小肠以及结肠等,该次研究中有2例患儿为结肠坏死且小肠出血点为点灶状,主要的临床表现是患儿腹部不胀,但大便量多且呈红色、腥臭味;②判断患儿de肠壁坏死与否,通常情况下苍白区域则提示肠管彻底缺血、坏死、肠壁变薄、球状隆起以及表面覆盖较薄的半透明状浆膜;③手术过程中只切除患儿已经明确坏死以及穿孔的组织,需要尽可能多地保留患儿肠管,避免发生短肠综合征,并且积极保留患儿的回盲瓣。该次研究中,晚期治疗死亡率是20.0%;术后并发症的发生几率为60.0%;在早期手术发生并发症的几率是20.0%,死亡率为病死率0.0%,此结果与李红卫等人[8]的新生儿坏死性小肠结肠炎外科手术时机和术式的决策研究中,晚期治疗病死率25,并发症发生率为60.0%,早晚病死率为0等结果相似,可见早、晚期手术结果对比差异有统计学意义(P
综上,根据患儿12个反应肠坏死指标、7项反映代谢紊乱频数,为NEC患儿的手术时机、方式提供参考与决策,应用价值较高。
[参考文献]
[1] 王瑞芹,郑冬凌,赵晓忠,等.新生儿坏死性小肠结肠炎危险因素研究[J]. 中国妇幼保健,2014(2):225-227.
[2] 曾振华. 新生儿坏死性小肠结肠炎研究现状及发展趋势探究[J]. 中外医学研究,2014(27):152-154.
[3] 陈锦金. 酚妥拉明泵维持治疗新生儿坏死性小肠结肠炎的临床分析[J]. 当代医学,2013(7):84-85.
[4] 张爱梅. 新生儿坏死性小肠结肠炎研究趋势的共词分析[J].临床儿科杂志,2015(1):78-82.
[5] 党坚. 新生儿坏死性小肠结肠炎45例分析[J]. 中国保健营养,2013(2):173-174.
[6] 邹晓妮,苏育敏,卢小娟,等.微生态制剂预防极低出生体重新生儿坏死性小肠结肠炎的效果[J].实用医学杂志,2015, 31(23):3932-3935.
[7] 廖东.综合治疗新生儿急性坏死性小肠结肠炎的临床疗效分析[J].吉林医学,2015,36 (12):2506-2507.
随着计算机的普及、网格技术和通讯水平的不断提高,人类已经超越了时空的限制走进了全球一体化的信息社会。Internet技术的腾飞和广泛应用对我国社会、政治、经济、文化等,产生了广泛而深远的影响。办公自动化、网络化已经成为各行业改革的方向和发展的目标,信息化程度成为了衡量行业发展的重要标准之一。信息技术对统计的发展将产生深远的影响,具体表现在以下方面。
1.现代管理的变革与统计需求
首先,电子政务、商务是现代组织管理观念与信息技术的必然产物。随着计算机的广泛应用网络互联技术日趋成熟,电子商务时代已经来临,统计信息的采集过程明显复杂化,采集范围大大扩展,同时也对统计部门提出了更严密和科学的组织要求。因此,统计信息化改革的战略,就是广泛采用现代信息技术、专注于自己的职能业务,通过统计工作网络化进程,把包括组织资源、人力资源、业务资源(含调查方法、统计报表、统计标准、数据质量控制体系)、数据资源、统计调查对象(客户)等统计资源,建成一个有机的统一体。要通过统计工作信息化平台的建设,使统计工作的标准化、规范化、网络化和社会化程度有明显的提高,使统计部门能在政府职能转型过程中继续走在前面,进一步提高统计工作的核心竞争力和社会公信度。
其次,统计信息系统软硬件建设。在任何改革中硬件是基础,正所谓“工欲行其事,必先利其器”只有基础设施建设好了才能保证在往后的改革中不处于被动状态。虽然,近年来在基础设施改革中投入了大量的人力物力,但微机的配置、网络的规模、带宽、技术标准、安全管理与实际需要和办公自动化的目标仍存在较大差距。而且广域网的建设是由各地自行组织,技术规程不统一,联网方式五花八门(有DDN、ISDN、ADSL、帧中继等)。因此,要提高统计的信息化程度加快网络化建设还必须制订统一技术标准和安全管理模式。完善的硬件设施还需要配套的应用软件才能充分发挥它的作用。统计信息化建设要考虑的是大量数据如何组织、以什么样的标准、采用什么样的数据库管理系统、如何保证数据的开放性和安全性等,这都是信息化改革中亟待解决的技术难点和重点。由于统计信息化建设正处于起步阶段,软件开发相对滞后,没有形成行业规范,软件的推广和更新较慢,难于跟上国际信息技术的发展。因此,懂得计算机技术又精通统计专业知识的复合型人才的培养变得尤为重要。
从统计信息来源看,主要是由社会的统计调查人员和统计人员,按时间、按地点通过不同的方式来完成定期报表和不定期的专项报表的填报工作,报送方式各种各样,数据的格式也各不相同,大大增加了统计整理和分析的难度,严重制约了信息化发展,只有通过继续教育和培训不断的提高基层统计人员的信息处理技术,才能真正使每一个成员都成为统计信息化建设者的推进者。
2.信息技术对统计创新发展的要求
随着计算机技术的飞速发展和企业界不断提出新的需求,数据仓库技术应运而生。传统的数据库技术是单一的数据资源,即数据库为中心,进行从事事务处理、批处理到决策分析等各种类型的数据处理工作。近年来,随着计算机应用,,网络计算,开始向两个不同的方向拓展,一是广度计算,一是深度计算,广度计算的含义是把计算机的应用范围尽量扩大,同时实现广泛的数据交流,互联网就是广度计算的特征,另一方面就是人们对以往计算机的简单数据操作,提出了更高的要求,希望计算机能够更多的参与数据分析与决策的制定等领域。特别是数据库处理可以大致地划分为两大类:操作型处理和分析型处理(或信息型处理)。这种分离,划清了数据处理的分析型环境与操作型环境之间的界限,从而由原来的以单一数据库为中心的数据环境发展为一种新环境:体系化环境。
数据库系统作为数据管理手段,从它的诞生开始,就主要用于事务处理。经过数十年的发展,在这些数据库中已经保存了大量的日常业务数据。传统的业务系统一般是直接建立在这种事务处理环境上的。随着技术的进步,人们试图让计算机担任更多的工作,而数据库技术也一直力图使自己能胜任从事务处理、批处理到分析处理的各种类型的信息处理任务。后来人们逐渐认识到,在目前的计算机处理能力上,根本无法实现这种功能,而且,另一方面,事物处理和分析处理具有极不相同的性质,直接使用事务处理环境来支持决策是行不通的。随着数据库技术的不断发展及数据库管理系统的广泛应用,数据库中存储的数据量急剧增大,在大量的数据背后隐藏着许多重要的信息,如果能把这些信息从数据库中抽取出来,将为公司创造很多潜在的利润,而这种从海量数据库中挖掘信息的技术,就称之为数据挖掘。
数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策,比如,经过对公司整个数据库系统的分析,数据挖掘工具可以回答诸如“哪个客户对我们公司的邮件推销活动最有可能作出反应,为什么”等类似的问题。有些数据挖掘工具还能够解决一些很消耗人工时间的传统问题,因为它们能够快速地浏览整个数据库,找出一些专家们不易察觉的极有用的信息。数据挖掘的核心模块技术历经了数十年的发展,其中包括数理统计、人工智能、机器学习。今天,这些成熟的技术,加上高性能的关系数据库引擎以及广泛的数据集成,让数据挖掘技术在当前的数据仓库环境中进入了实用的阶段。商业数据库现在正在以一个空前的速度增长,并且数据仓库正在广泛地应用于各种行业;对计算机硬件性能越来越高的要求,也可以用现在已经成熟的并行多处理机的技术来满足;另外数据挖掘算法经过了这10多年的发展也已经成为一种成熟,稳定,且易于理解和操作的技术。
目前统计应用的应用趋势是宏观统计应用逐步完善、微观统计需求快速发展,主要特征是:(1)数据量越来越大,需要广泛使用计算机数据库技术和数据仓库技术。(2)数据分析方法更加丰富,需要广泛使用计算机统计分析软件和数据挖掘软件产品。(3)与统计业务长期紧密联系:单纯的一次性统计分析报告不能满足市场化运营的统计应用的要求,需要广泛使用计算机信息系统技术,将大规模数据量、统计分析软件和统计业务管理集成为客户长期可用的产品形式。
3.信息技术对统计教育的挑战伴随着信息技术的变革和统计应用的发展、推广,统计作为处理和分析数据的方法和技术已成为现代社会中每个人必备的知识。然而,高等学校统计学的教育始终面临着三大挑战:第一,统计学方法不断在应用中的创新与发展导致统计学内容体系的变化;第二,信息技术发展导致的统计学软件工具的不断创新;第三,以学生发展及及社会需要为中心的教育理念变革。这些挑战要求高等学校的统计教学要通过案例教学吸收新方法、使用新工具、面向应用与实践。近年来,在总结高校统计学教学改革与实践的基础上,一批高质量的教材已先后出版使用,但由于缺乏配套的实验教材,教学实践中的效果受到很大局限。鉴于以上情况,应尝试通过实验设计、案例分析介绍基础统计方法的应用技术,培养学生的实践应用能力。教学的内容按照数据的收集、整理、显示、分析和解释的过程来组织,重点在于加深对概念、原理的理解,掌握统计方法的应用和统计分析工具的使用。#p#分页标题#e#
摘要:大数据给应用统计学专业带来机遇与挑战。本文针对应用统计学专业的自身特点和大数据下的新特点,剖析了现有教学体系中存在的问题,探讨和改革了应用统计学专业人才培养目标定位、课程调整与设置、教学内容、教学手段等。
关键词:大数据;应用统计学;教学改革
中图分类号:G642.0 文献标志码:A 文章编号:1674-9324(2016)43-0101-03
一、研究背景
自2002年桂林理工大学在广西开办了第一个统计学本科专业以来,针对当时理学学位的统计学专业培养的学生虽然数理基础相对扎实,但普遍统计思想不够,实际应用能力较弱的现状和特点,对统计学专业进行了全方位的改革研究,确立了"数学与统计学相融,从培养学生扎实的数理基础和极强的统计分析应用能力有机相结合的理念出发,构建了新的课程体系和教学内容,取得了系列研究成果。2009年研究成果开创“应用性、实验性、案例性”一体化的统计学专业课程体系和教学模式,获得广西高等教育自治区级教学成果二等奖[1],并在其后分别把统计学学科建成广西重点学科和广西高等学校优势特色专业,以及把应用统计实验室建成广西高等学校重点实验室。
虽然我校统计学专业的教学改革和建设取得了许多成果,但近几年,我们也逐渐感觉到在大数据新形势下,我校应用统计学专业的教学体系还有一些不适应的地方,且某些问题还有日益凸显的趋势,我们原来的某些研究成果已不再适应新时代的要求,这就迫使我们继续进行改革研究,探讨在大数据背景的新形势下,如何培养统计学专业复合型和应用型人才,如何准确把握统计学的发展方向与发展形势,如何调整人才培养模式,如何调整相关课程和课程内容,以培养适应大数据背景下社会经济发展需要的统计学专业人才。
许多国家越来越重视数据在大数据时代重要作用,我国也不例外,2012年9月,国家统计局第7次局务会提出,尽快开展在政府统计中应用大数据的研究。2013年可以看作是我国政府统计之大数据元年。2015年9月《国务院关于印发促进大数据发展行动纲要的通知》(国发〔2015〕50号)[2]颁布,标志着我国正逐步进入大数据建设的新时代,为此,国家统计局积极推动大数据在各方面的应用与实践。而大数据的核心是数据,应用统计学学科是与数据分析处理联系最为紧密的应用性学科,因此,应用统计学专业的教学体系应顺应大数据发展的趋势。在大数据背景下,应用统计学专业在继承传统数据分析技术的基础上,对所需的数据处理技能提出的需求更高了。这就是说,大数据对应用统计学的培养目标,以及教学内容等的冲击无疑是最大且不可避免的,这给应用统计学专业带来了巨大的挑战,同时也为应用统计学学科的发展带来了前所未有的机遇。
大数据逼迫人们改变分析、处理数据的手段、思维和理念,这就逼迫应用统计学专业改革必须引入新手段、新思维和新理念。培养应用统计学人才必须与时俱进,才能不断适应大数据新时代的要求,这关系到应用统计学专业培养的人才能否适应和满足社会的需求,因此,这一研究是十分必要、十分迫切且有着重要的理论和实际应用意义。
二、大数据背景下应用统计学专业的改革探讨
1.培养目标的转变。大数据时代给应用统计学带来机遇与挑战,同时引发了对应用统计学培养目标的新思考。目前应用统计学专业教学体系的培养目标是,培养学生收集、整理和分析数据的能力的“应用型”专业人才。然而,在大数据背景下,除了要求学生具备数据收集、处理和分析的能力外,还要对其应用领域的背景知识有所了解,这就要求应用统计学培养“复合型”专业人才。因此,如何从培养“应用型”向“复合型”人才进行转变,是在大数据背景下应用统计学专业培养目标必须解决的首要问题。在定位应用统计学专业的人才培养目标是培养“复合型”专业人才后,就得重新探索教学体系的调整和设计。传统的应用统计学专业教学体系专业的主干课程有数理统计、抽样技术与方法、回归分析、计量经济学、多元统计分析、统计软件等。而在大数据下,强调对全数据开展分析,不需进行随机抽样,即不是在给定的精确下,利用样本推断和分析总体;同时,大数据注重数据之间的相关关系,而不是像传统统计那样强调数据之间的因果关系。现有的教学体系没有涉及这些内容,与大数据时代的要求有些不相适应。因此,我们必须创新传统的应用统计学专业教学体系,重视大数据的不同的分析方法、分析技术,在课程设置、教学内容等都要围绕着数据的分析方法和技术展开。
2.教学内容改革探讨。虽然在大数据时代下,必然要对数据收集、分析方法等进行改革和创新,但与此同时我们也清楚地意识到,对大数据的搜集、分类、分析等都仍需要依赖传统的统计学方法,因此,大数据分析离不开传统统计学,大数据分析是对传统统计学的补充而不是替代,建立在样本统计和预测分析之上的传统统计学仍发挥着主导作用。所以,在应用统计学专业的改革中,我们强调深化基础,培养拥有厚基础、宽口径的学生。加深应用统计学基础理论知识学习,夯实数学基础知识,让学生学好数学分析、高等代数、概率论、数理统计等基础课程,打好理论基础,通过这些课程的学习不但打好学生的数理基础知识,培养他们的抽象思维能力和逻辑推理能力,因为只有理论基础打牢了,才有后劲,才能更好地学习新知识,适应新形势下的要求。同时,在大数据背景下,应用统计学专业课程教学要培养宽口径的统计学复合型人才,由于一些大数据充满了各种随机的、非随机的误差和偏倚,不满足传统的统计方法和理论对数据的苛刻要求,不能用传统的统计方法进行分析。因此,必须对现有的应用统计学专业的课程体系、教学内容等作出相应的调整和改革。这就需要对应用统计学专业课程内容进行协调和整合,在精选知识、内容衔接与交叉融合上狠下工夫。探索在一些课程中,增加介绍一些大数据方面的概念和应用,例如在时间序列分析、多元统计分析、统计预测与决策分析等课程内容中引入大数据分析的理论和实践案例。大数据对统计学专业人才提出了更高的要求,除了应具备数据收集、处理和分析的能力以外,还应具备很强的自我学习、自我提高的能力,以适应大数据时代数据量大、总类繁多、时效性高等发展特点。这就要求学生自主学习、阅读大数据等相关资料,掌握国内外最新动态和进展,这可通过布置课外作业、课外读书报告和课外论文检查学生自主阅读学习的效果。同时,特别要注重课程的开放性教学和研究,以适应大数据时代的要求。(1)样本概念的深化。全样本(总体)研究是大数据方法的重要特点。过去,由于缺少收集和分析数据的各种工具,数据收集、处理能力受到限制,因此,产生了随机抽样的理论方法,从而达到用较少的样本推断、预测总体的目的。然而,大数据时代数据收集、处理的方式和技术都发生了翻天覆地的改变,现在我们可以通过数据库、互联网、各种通讯工具等获得各种各样的海量数据。这时,随机抽样在某些情况下就失去了它原有的意义、地位和作用。方便、廉价的数据收集,数据处理、存储能力的提高,使得全数据分析模式成为可能。因此,大数据背景下不需随机抽取,可用总体进行分析,也可用与分析目的相关的数据进行分析。所以,在大数据时代,传统应用统计学面临着新的任务和挑战,首先要改变对样本、对不确定性等的重新认识,转变抽样调查的功能和地位,建立新的收集、梳理、分类数据的方法。大数据的分析和处理与传统样本数据的分析和处理的方法有许多不同,传统的统计学的理论和方法是以随机样本来推断总体,即它的理论和方法几乎都是建立在样本的基础上的,是建立在随机抽样基础之上的统计推断,其理论基于"样本数据-分布理论-概率保证-总体推断",这种用样本推断总体的理论和方法,不可避免的会出现误差。而大数据时代的特点是信息处理迅速、获得途径广泛、价值密度低,这样在处理数据时就不需要进行随机抽样,可以全体数据作为样本,而即大数据关注的不是随机样本,而是总体,这不同于传统的统计推断分析,大数据时代可以收集全数据进行分析,这一特点刚好能弥补样本统计必然会带来误差的劣势。因此,应用统计学应该补充、适应大数据时代的全数据分析模式,将大数据总体统计的思想、思维和方法纳入到教学体系和教学内容,从传统的样本统计转向样本统计和总体统计相结合,这是应用统计学发展的必然趋势。探讨在什么课程、如何引入全样本统计尤其重要。我们研究实践了在抽样技术与应用等课程教学中,新增大数据背景下的全样本理念,阐明样本统计和总体统计的差别、如何搜集大数据,以及大数据样本常存在缺乏代表性、信息冗余、存在噪声、呈现重尾分布、长相依和不平稳性时如何选用合适的统计分析方法,以尽量避免分析结果的系统偏差等。(2)相关分析与因果分析并重。在传统统计分析中,因果关系占据重要的地位。我们可以根据概率P值进行因果关系检验,从而确定两个变量之间是否存在着显著的因果关系。即传统统计分析是建立在假设的基础上揭示数据相互之间是否存在因果关系,因此,传统统计分析比较注重因果分析。但大数据时代由于数据海量、结构复杂、要求数据处理速度快等特点,造成因果分析往往不可行。而相关关系分析不需要建立在假设的基础之上往往可行,且相关关系分析不易受偏见的影响而发生错误。因此,大数据改变了传统统计注重因果关系检验的思维,注重相关关系分析,而不是因果关系分析,大数据时代的重要特点是注重相关分析,以及建立在相关分析基础上的预测分析。侧重相关性研究的思想是大数据方法的重要特点,大数据时代相关分析方法的重要性日益凸显。大数据时代,相关分析的运用范围之广、重要性之大引起了我们的重视和研究,我们在教学中从传统的注重因果分析向相关分析与因果分析并重转变。传统的相关分析基本上是线性相关分析,大数据研究的相关分析不仅是线性相关,更多的是非线性相关关系。传统的统计研究方法,如建立各种回归方程、估计模型参数、假设检验等因为大数据的特点而无法实施。针对大数据的相关关系分析不同于传统的相关关系的分析,我们在教学中重点不是做传统的逻辑推演,而是重点阐明如何搜索、分类、归纳、分析大数据,以及如何找出数据之间的相关性并据此进行预测。阐明大数据时代相关分析思维的重要性,以及相关分析在特征选择、变量依赖关系识别中的实用性。
[关键词] 经济预测 风险决策 概率统计 期望值
近几年来,全球经济存在着诸多不确定因素,我国经济也面临严峻的风险,企业的生存发展面临着巨大的考验。企业要想在激烈的竞争环境下生存壮大,必须不断强化概率统计在企业决策中应用,并对其进行分析,有效提高企业的经济效益和管理水平。
一、风险决策概率的应用
风险就是指未来的不确定性,它对于企业而言就是损失发生的可能性。企业投资一笔资金,开发一个项目或者生产一个产品,但它在未来所能产生的经济效益或者投资回报是不确定的,有可能在客观环境、技术水平、经营理念、投资方向等各个环节上遇到挫折、发生损失的可能性。风险决策是指一个事件存在一定的不可控制因素,并且事件的结果会根据这些因素的变化出现不同结果的可能性,要冒一定风险进行的决策。为了能够不断降低投资风险,投资人在作出决定前,往往会采集信息,并对其进行加工处理,找出其中的关联,概率统计就是解决这些问题的办法。
二、风险决策中的概率应用方法
一个事件出现的几率是衡量该事件风险大小的基础,几率值离公司的期望值越接近,就越能够准确的预测到事件的风险程度,为公司投资决策提供参考依据。但是我们并不能单纯的以期望值的高低来作为判断标准,因为它通常是不充分的,收益的期望值所反映的只是一种平均的趋势,我们在进行决策的时候还应充分考虑到其离散的程度。再计算变异系数,帮助我们进行判断。
1.概率统计在质量控制方面的应用
在数学中,我们把需要进行质量检查而收集的样品中有不合格产品出现所占的比率情况,称之为该事件发生的频率,如何才能让这一比率更加的接近于客观事实,更真实的反映该批次产品的合格率?我们以下面一个例子进行分析说明概率的应用。
以花生牛奶产品为例,每生产完10000瓶,进行一次抽检,规定合格批次中的问题产品要控制在10瓶内(即千分之一的概率),否则,产品就是不合格。每次抽检10瓶,若在抽检的10瓶中发现有4瓶是有质量问题的(不合格概率为百分之四十),则就有理由怀疑该批次产品的合格率。
2.概率在公司决策中的应用
企业在作出一项重大的决策时,其方法与企业的惯有准则有着直接的关系。其中期望值准则是惯用的一种准则。期望值准则的计算方法:根据收支明细计算每一方案的期望值,从中选择一项最佳方案。
我们再以花生牛奶为例,假设公司准备推出一款新的市场推广方案,有在电视台投放广告和有奖销售两种方法可供选择。通过市场调查两种方案的可行性数据如表1所示,两种方案显然都存在着一定的不确定性,我们根据公司期望值进行计算,通过在电视台投放广告可每月增加E(X) = 4%×4+ 32%×10+ 38%×14+18%×18+8%×21=13.6(万瓶)的销量,而有奖销售则每月可增加E(X) = 20%×2+20%×8+20%×15+20%×22+20%×25=14.4(万瓶)的销量,从这个数据上显示,明显的有奖销售方法更为有利。
但是,在实际决策中,企业却往往会选择通过插播电视广告的促销手段来达到提升销量的目的,这是因为通过电视广告增加的销售量的88%的概率集中于10万到18万,这个数值更接近于公司13.6万的期望值,而接近于有奖促销期望值14.4万的销售量集中于8万到22万,这个数值出现的规律为60%,还有28%的可能性会出现每月增加2万销售量的可能,相较于有奖促销,投放电视广告的投资风险明显小的多,还可以提高公司知名度和受欢迎度,更多的抢占市场份额。
三、概率统计在风险决策中的应用
投资者冒险投资的报酬超过无风险所获得的报酬的部分就是投资风险价值。投资风险程度和投资风险价值成正比关系。投资风险程度就是指我们现金(广义上的)的实际流量和预期流量之间的差异程度。现金的流入与流出的差额就是现金的净流量。现金的流入是指所投资的项目在周期内的流入量,主要是指营业收入、其他收入。现金的流出是指所投资的项目在周期内为该项目所支付的现金量包括投资及营业成本等。
1.对所需的成本进行预测
我们要想以最小的成本代价获得最大的利益,又要保障安全,只有使用科学、正确的决策。我们可以用概率统计学的知识来对风险进行分析评估以得到风险决策。
2.对贷款的回收率进行预测
通常情况下,我们把事物分为定型和不定型状态。这两种状态在经过了无数次的转移后已经形成了各自的转移概率矩阵,我们可以通过运用这种转移概率矩阵来和金融机构中的各种贷款的金额的向量进行乘积,通过乘积的结果来预测这些贷款可以收回的金额以及不可以收回的金额。如某商业贷款按时间的长短分1年内、1年~5年内、5年以上三种贷款方式。现在其1年可以收回20%,剩余则转成1年~5年内;1年~5年内能收回50%,剩余则转成5年以上;5年以上能收回90%,剩余不能收回。假定三种贷款额度分别为:400万元、300万元、300万元。将一年内的贷款定为状态“1”,将1年~5年内的贷款定为状态“2”,将5年以上定为状态“3”,将5年以上能收回的部分定为状态“4”,把不能收回部分定为状态“5”。运用马尔柯夫预测法,经定型和不定型状态转移,最后同三种贷款金额相乘。可预测能收回9万元,剩余61万元不能收回
3.对工期进行预测
对风险型决策的决策分析通常分为先验分析、后验分析。一般只要补充信息准确,后验分析所得结论更可靠。如某公司拟对河流截流施工工期作出决策。方案有三种:分别在8、9、10月进行施工。假设影响施工因素是天气。8、9月份天气好,将在月底截流,提前工期,分别比10月份施工多得利润1000万元、800万元;若坏天气则比10月份分别增加500万元、300万元的损失。10月份可以保证截流。据经验,8、9月份好天气可能性0.7,坏天气可能性0.3。公司拟向气象站购买气象预报的资料。该气象站预报好、坏天气的准确率分别为0.9,0.7。
三种方案的期望值分别为:
E(Q(a1))=0.7×1000+0.3(-500)=550(万元),
E(Q(a2))=0.7×800+0.3(-300)=470(万元),
E(Q(a3))=0(万元),
按照期望值准则,我们发现方案a1(在8月进行施工)为最优。
参考文献:
[1]陈丽,许艳芳.概率统计理论在风险决策中的应用[J].长春理工大学学报(高教版),2009,(2).
[2]李富江.概率统计在管理决策中的应用[J].中国乡镇企业会计.
【关键词】 手势识别 虚拟现实 人机交互
一、引言
人与计算机的交互活动越来越成为人们日常生活的一个重要组成部分,特别是近年来虚拟现实技术的迅猛发展,为人机交互技术的发展提供了全新的技术支持。目前,人机交互已经摆脱了传统技术手段的限制,开始“以人文本”越来越注重用户自身的体验。在人类的自然信息交流中,手势是语音之外的一种最为常用的、自然直观的交流方式,如果能利用手势代替传统的计算机输入硬件对机器进行控制,那么人与机器的交流将更加流畅自然。针对多媒体的发展潮流以及人机交互的创新技术开发一套基于手势识别的多媒体交互系统。
本文实现了通过手势识别来操作计算机的人机交互系统,通过摄像头采集使用者的手势,并传输给计算机进行处理,通过对手势几何特征的分析和决策来判定手势类型,最后驱动多媒体的效果表现,进而控制计算机。
二、系统实现
系统的基本原理是利用摄像头采集方式获取使用者的手势,并将该动作传输绐计算机进行处理,计算机内的应用程序则根据所捕捉的画面进行分割、识别、处理,最后驱动多媒体的效果表现。
2.1手势输入与识别
使用高清摄像头作为采集单元,保证在合适的视野和景深范围内对目标(手势)的检测和识别。检测过程采用非接触方式,目标(手势)识别检测率高。然后采用模式识别算法,对输入的手势图像进行分析与处理,来进行目标(手势)的检测。
通过高清摄像头获取视频数据流,将数据流分割、识别、处理从而将交互手势从数据流中剥离,然后将输入手势与预先手机的手势命令库进行特征配准,最后,形成驱动相关应用的交互指令。
2.2噪声去除与信息增强
从视频流的输入,到手势识别,再到信息转换,这些过程的每一个环节都有可能受到设备电磁干扰、算法局限性等各方面的影响,这些干扰与影响最终将形成数据噪声,对噪声的处理不当将使手势图像产生畸变,从而影响最终的交互指令。
因此,在手势图像处理之前,本文加入了一个图像平滑/锐化处理的噪音过滤预处理,其目的是尽量消除噪声保证手势图像的质量。
2.3手势分割与特征提取
通过实现建立手势模型数据库,然后根据数据库对数据流中的手势进行分割与特征提取。本文主要采用串行边界分割技术和并行区域分割技术实现手势模型的特征参数提取,并最终依据手势模型数据库特征配准形成最终的交互命令。在手势识别过程中,可以根据图像边缘像素值、手势轮廓、手势形状、运动方向、骨骼等数据建立手势特征向量。首先,通过背景分离算法将图像背景与手势图像进行分离,然后根据数据流中剥离的手势图像与特征库中的手势图片中的各维属性映射到特征向量中从而完成手势图像的特征提取。
2.4特征分类
手势特征被提取出来后,通过模式识别智能算法对手势进行分类,并最终对应到一组具体的功能命令。本文采用基于统计学的决策树做分类器,决策树实际上利用了“分治”的思想,结合建立的手势-命令对照表,使用决策树算法对数据表经行遍历从而将手势特征与功能命令进行匹配,最终完成从手势到制酸剂指令的转换。
三、结语
基于虚拟现实与手势识别的人机交互系统计算机通过摄像头理解人们的手势并做出相应的反应,从而使人们摆脱了传统键盘和鼠标的种种束缚和弊端,以达到更加方便、人性化的交互方式。该系统可用于家庭娱乐,会议展示,商品展示,校园展示。在众多公司产品展示中应用广泛,但以往很多传统展示系统难以达到人们要求,该系统更人性化,更美观,更直观。
详细通讯地址:四川省南充市顺庆区师大路一号西华师范大学实验中心 邮编:637002
联系电话:13890857890
参 考 文 献
[1]童小念,刘娜.一种基于遗传算法的最优阈值图像分割算法[J].武汉理工大学学报. 2008.32(2):301-304.
[2]郑友莲.钢筋自动计数系统中图像识别算法的研究[J].武汉工程职业技术学院学报. 2008.20(1):31-34.
关键词:多粒度;属性子集序列;距离函数;近似精度
中图分类号:TP18
文献标志码:A
文章编号:1001-9081(2016)11-2950-04
0 引言
粗糙集理论[1]是由波兰学者Pawlak于1982年提出的一种能够有效处理不精确和不确定信息的数学工具, 目前, 由于它在神经网络、数据挖掘、 决策分析、 机器学习和知识发现等领域[2-6]有着广泛的运用, 使得研究逐渐趋热。粗糙集理论是建立在分类机制的基础上, 通过等价关系将知识空间进行划分。其主要思想是保持分类能力不变的前提下,通过上、下近似去刻画知识不确定性程度,并且通过知识约简、规则提取去挖掘数据中潜在的信息, 粗糙集理论最大的特点就是不需要数据集之外的任何先验信息, 因此对于不确定信息进行分析处理还是比较客观的。近年来, 为了从多粒度、多层次的角度去处理和分析问题, Qian等[7-9]提出了多粒度粗糙集模型, 其主要思想是将属性集构建成一组属性子集序列, 通过这一系列属性子集来对论域进行划分, 构成了多粒度的论域空间, 然后在多粒度论域空间中对目标概念进行近似逼近。随后, 一些学者在Qian等基础上对多粒度粗糙集做了许多扩展和改进[10-13]。但是在多粒度粗糙集模型的研究中, 对于如何构建一个较好的属性子集序列, 目前并没有给出一个很好的方法。
本文针对多粒度粗糙集模型中关于属性子集序列的构建问题, 提出一种较好的构建方法, 其主要思想是引入统计学中关于变量间的相似系数来刻画属性间的距离[14-15], 通过属性间距离的远近来对属性进行区分归类, 进而构建一组属性子集序列。由于目前的多粒度粗糙集模型中分为基于等价关系的多粒度粗糙集模型和邻域多粒度粗糙集模型[12], 因此本文分别定义了符号型属性间的距离和数值型属性间的距离。最后通过实验分析, 验证了本文构建的属性子集序列具有更好的近似效果。
从定义8可以看出, 本文构造的多粒度属性子集序列是将属性之间距离较小的属性归类成一组, 由于数据集之间的差异, 这里无法给出具体的邻域半径取值, 但是通常可以取[0,0.5]。由于属性间的距离是根据统计学中变量之间相似系数[14]得来, 因此通过这种方法构造出的多粒度属性子集序列, 其每个属性子集内的属性之间依赖程度较高, 这样更具一定的合理性。最终构建的属性子集序列形成的是属性全集上的一个覆盖。为了验证本文构造的属性子集序列更为优越, 下面将通过实验来具体分析。
3 实验分析
为了验证本文方法性能,这里从UCI Machine Learning Repository获取了4个数据集进行实验分析和评估。具体信息描述如表2所示。
在表2中, 编号为1、3和4的数据集属性均为数值型属性, 编号为2的数据集属性为符号型属性。根据定义7中属性间距离的定义方式, 这里可以得出4个数据集属性间的距离矩阵, 其分别表示为:
对于数据集中的每个类, 分别计算出它们在构造的属性子集序列下多粒度粗糙集模型中的近似精度。为了作对比, 本实验另外随机构造了3个属性子集序列作为参照, 并且计算出每个类在各个参照序列下的近似精度。最终每个数据集的实验结果如图1所示。
由于数据集1、3和4属性均为数值型, 因此计算的为每个类在邻域多粒度粗糙集模型下的近似精度。
通过实验结果可以看出, 对于数据集中每个类, 本文方法构造出的属性子集序列(即实验序列)相对于随机生成的参照序列, 其近似精度均更高一点,因此, 本文方法构造出的属性子集序列在其多粒度粗糙集模型的近似方面具有一定的优越性。
4 结语
针对目前多粒度粗糙集模型中属性子集序列的构造问题, 本文通过引入属性间距离函数的方法, 定量地刻画了属性之间距离的远近, 并将距离较近的属性归为一类, 从而构造出一组多粒度属性子集序列。通过实例分析可以看出, 本文中构造出的属性子集序列在其近似对象的近似计算方面具有更高的精度。由于本文未给出属性邻域半径λ的选取方法, 因此在接下来的工作中需要探索如何去选取合适的属性邻域半径。
参考文献:
[1] PAWLAK Z. Rough sets[J]. International Journal of Computer & Information Sciences, 1982, 11(5): 341-356.
[2] WANG D L, SONG X F, YUAN J Y. Forecasting core business transformation risk using the optimal rough set and the neural network[J]. Journal of Forecasting, 2015, 34(6): 478-491.
[3] CHEN L F, TSAI C T. Data mining framework based on rough set theory to improve location selection decisions: a case study of a restaurant chain[J].Tourism Management, 2016, 53:197-206.
[4] ZHANG H D, SHU L, LIAO S L. Generalized intuitionistic fuzzy soft rough set and its application in decision making[J].Journal of Computational Analysis & Applications, 2016, 20(4):750-766.
[5] SARAH V, LYNN D, YVAN S,et al. Applications of fuzzy rough set theory in machine learning: a survey[J].Fundamenta Informaticae, 2015, 142(1/2/3/4):53-86.
[6] RAHMAN A, MUHAMMAH H, SUNGYOUNG L, et al. Rough setbased approaches for discretization: a compact reviews[J].Artificial Intelligence Review,2015,44(2):235-263.
[7] QIAN Y H, LIANG J Y, YAO Y Y, et al. MGRS: a multigranulation rough set[J]. Information Sciences, 2010,180(6): 949-970.
[8] QIAN Y H, LIANG J Y, DANG C Y. Incomplete multigranulation rough set[J]. IEEE Transactions on Systems, Man, and Cybernetics, Part A: Systems and Humans,2010, 40(2): 420-431.
[9] QIAN Y H, ZHANG H, SANG Y, et al. Multigranulation decisiontheoretic rough sets[J]. International Journal of Approximate Reasoning, 2014, 55(1): 225-237.
[10] 张明, 程科, 杨习贝,等.基于加权粒度的多粒度粗糙集[J].控制与决策, 2015, 30(2):222-228.(ZHANG M, CHENG K,YANG X B, et al. Multigranulation rough set based on weighted granulations[J]. Control and Decision, 2015, 30(2):222-228.)
[11] YAO Y Y, SHE Y H. Rough set models in multigranulation spaces[J].Information Sciences, 2016, 327(C):40-56.
[12] LIN G P, QIAN Y H, LI J J. NMGRS: neighborhoodbased multigranulation rough sets[J]. International Journal of Approximate Reasoning, 2012, 53(1): 1080-1093.
[13] SUN B Z, MA W M. Multigranulation rough set theory over two universes[J].Journal of Intelligent & Fuzzy Systems, 2015, 28(3):1251-1269.
[14] 高惠璇.应用多元统计分析[M].北京:北京大学出版社, 2005:218-228.(GAO H X. Applied Multivariate Statistical Analysis[M].Beijing: Beijing University Press, 2005:218-228.)
[15] 贾俊平, 何晓群, 金勇进.统计学[M].北京:中国人民大学出版社, 2012:226-230.(JIA J P,HE X Q,JIN Y J. Statistics[M]. Beijing: China Renmin University Press, 2012:226-230.)
[16] HU Q H, YU D, LIU J F, et al. Neighborhood rough set based heterogeneous feature subset selection[J].Information Sciences, 2008, 178(18): 3577-3594.
2012年学校财务信息管理专业成功申报后,前后已经迎来了2013、2014两届学生,作为一门融合财务会计与信息技术相交叉的新专业,专业建设不仅要秉承传统的财经学相关理论,而且还要适应信息化时代的市场需求,培养企业需要的人才。时值今日,具备“智能化行为”特征的“智能化企业”成为大多数传统企业的需求。在经过专业内全体教师多次反复调研、考察、研讨、学习后,2014级财务信息管理专业人才培养目标初步确定为:数据分析引领财务决策信息化。在此基础上,专业定位设计提出三个层次要求:基于财务会计、强化数据分析、服务管理决策。
二、商务智能课程定位
课程定位需要与课程体系相辅相成,要思考并把握本门课程在课程体系中的地位与作用。财务信息管理专业课程体系建设基本遵循“三步走”思路,即第一学期注重财务会计基础理论知识的教授、第二学期突出数据分析核心知识的教授、第三学期侧重决策智能前沿知识的教授,形成的梯队知识体系助力本专业人才培养方案实施。
(一)从跨学科特性来看
商务智能课程是一门集管理科学、信息技术、数据统计和人工智能等多个前沿领域的交叉性学科课程,顺利完成该门课程的授课需要前导课程的支持,因此,商务智能课程在以上三层梯队知识体系中位于最后一层。
(二)从其最早的概念阐述来看
美国加特纳集团分析师HowardDresner认为商务智能描述了一系列的概念和方法,通过应用基于事实的支持系统来辅助商务决策的制定。可见,商务智能是商务分析中辅助决策的有效利器。
(三)从大数据时代背景来看
各国政府都在强调“基于数据驱动的决策方法”,商务智能与生俱来采用的数据仓库、联机分析处理和数据挖掘等核心技术体系有效地支持了数据驱动全过程,合理利用并可以成功将数据转化为价值。综上,结合专业定位,商务智能的课程性质是专业核心课,其课程定位设计为“基于数据驱动的决策方法,变数据为价值。”
三、先修/后续课程衔接设计
目前,在全国,商务智能课程主要在计算机类、经管类(信管、电商、物流)等本科层次以上专业开设;在财经类专业且面向高职层次开设商务智能课程,还属罕见;这是本校适应“后信息经济时代”市场需求、实施专业创新与课程改革方面的具体表现。作为一门面向财经类高职生开设的新兴发展课程,如何区别于计算机、软件等专业已开设的类似课程,如何贴近财经类高职类学生的注重动手能力、掌握关键核心技术等特点来开设这门课程将面临着众多挑战。但是,在大数据时代,如果将大数据看成是一种资源,商务智能则是一种驱动力,二者已成功且广泛地应用于金融服务业、交通运输业、通讯业、零售业、能源与公共事业等各行各业中;而且,财务分析已然成为商务智能在众多行业中一个重要的应用领域。因此,在财经类专业开设注重数据驱动财务决策过程的商务智能课程已势在必行。只是,在开设这门课程时,要从实际情况出发,既要考虑当下财经类专业全局课程体系安排,又要兼顾商务智能课程本身的特点,充分思考商务智能课程与先修课程和后续课程之间的逻辑关系和衔接要求。
(一)先修课程
商务智能的先修课程安排可以从以下五个层次分析。第一,商务智能作为计算机、数学、统计等基础学科相交叉的前沿学科,需要学生能够综合运用这些基础理论知识,因此,从学生知识能力的层次要求来看,计算机应用基础、经济数学、应用统计学属于第一层次;第二,商务智能要整合企业的业务系统数据,作为数据加工厂需要学生充分领会“数据收集———数据处理———数据分析———数据展现———报告撰写”的完整数据加工过程,本专业课程体系内设计的“财务数据分析”课程属于第二层次;第三,商务智能作为多种技术综合应用的解决方案,需要学生至少掌握一种主流软件厂商提供的解决方案,并且要求学生能够领会完整项目交付的全过程理念,数据库原理及应用和项目管理两门课程属于第三层次;第四,商务智能作为决策工具,要求学生主要从财务层面学会运用企业经营领域内的决策支持理论,财务管理、财务分析与决策、管理会计等专业课程属于第四层次的先修课程;第五,商务智能作为决策工具,学生仅从财务层面掌握决策分析的理论还是不充分的,还需要学生能够了解企业经营全貌,增强学生对企业业务的理解能力,因此,作为第五层次的课程———企业经营沙盘课程恰好可以实现此衔接要求。
(二)后续课程
在大数据时代,几乎每个人都生活在数据中,几乎所有人都在制造和分享数据。“大数据如何让商业更智能?”对这个问题的思考与回答成为引发商务智能后续课程开发的源动力。大数据要让商业更智能,需要从流程优化、客户洞察、营销规划、产品创新、物流管理、人力资源管理、风险控制七个方面提升大数据对企业竞争的影响力。而作为商务智能后续课程的专业拓展课程其课程性质界定了其后续课程设计不能从这七个方面全面铺开来讲授商务智能的应用。因为,对专业拓展课程的范围设计,需要对专业(群)进行相应分析,根据拓展课程对应岗位群的具体要求,确定与其相关性较强,交叉较多的领域进行。因此,我们选择了从流程优化的角度去拓展商务智能的应用,选择以“流程优化”为主题的“流程智能”课程作为商务智能的后续课程,通过这门课程拓展培养学生深入理解运用商务智能核心技术实现流程优化方面的能力。
四、今后努力方向
关键词:数据库技术;联机分析
中图分类号:TP311 文献标识码:A文章编号:1007-9599 (2011) 16-0000-01
The Analysis of Data Warehouse Technology and Application
Fu Shuguang
(Qingdao Hismile College,Qingdao266100,China)
Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.
Keywords:Database Technology;Online Analysis
数据仓库技术作为一门计算机应用技术,是新兴的技术,也是这个时代对信息化管理发展的一个产物,数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合数据仓库,英文名称为Data Warehouse,可简写为DW。在市场竞争日益加剧的今天,不管是企业还是社会团体,都需要把市场经营或者社会服务同各种需求相联系起来,把市场上的各种数据进行有效的统计和分析,从而做出科学正确的决策。所以,对于数据仓库技术在各个企业和社会团体进行收集、存储和研究各种数据的环节就起到了尤为重要的作用。
一、数据仓库技术概述
(一)含义
数据仓库概念创始人W.H.Inmon对数据仓库的定义:数据仓库是面向主题的、集成的、相对稳定的、随时间不断变化(不同时间)的数据集合,用以支持经营管理中的决策制定过程、数据仓库中的数据面向主题,与传统数据库面向应用相对应。
(二)数据仓库的发展
数据仓库技术是信息化高速发展的产物,它是基于信息系统业务发展的需要,基于数据库系统技术发展而来、并逐步独立的一系列新的应用技术。它是在传统的数据库技术的基础上发展而来的新的应用技术,传统的数据库技术是一种单一的数据资源,是以数据库为中心,进行事务处理以及批处理再到决策分析的各种类数据处理工作。而数据仓库技术不单单是这种单一的数据资源,实现了对决策主题的存储和综合等特点。随着数据仓库技术在应用过程中的不断深入,近些年,数据仓库技术得到了长足的发展,各行各业已经能够接受“整合数据,从数据中找知识,运用数据知识、用数据说话”等新的关系到改良生产活动各环节、提高生产效率、发展生产力的理念。
(三)数据仓库的作用
建立数据仓库系统,可以更加科学的收集、存储以及管理业务中的各种数据,从而不断分析市场已经各种因素,不断改善和提高工作人员的工作效率,更科学的分析数据用来指导管理过程中的各种行为,如在客户的研究方面,在应用系统和企业行为方面,以Internet和电子商务、专家系统、多媒体数据挖掘和人工智能以及呼叫中心等信息技术为基础,从而实现企业识别、保留以及挽回最具价值的客户,从而提升企业的核心竞争力。
二、企业数据仓库的应用
数据仓库的应用主要表现在数据的抽取、数据的存储和管理、信息的探索、集成和转换以及避免脏数据的进入、质量的管理和数据。总的来说,企业数据仓库是一个环境,是通过有效的信息来不断满足企业的决策的制定过程,换言之就是通过企业数据仓库来对企业的一些决策进行指导。也可以说是一个企业的数据库的平台,这些数据来源于各种各样的数据源,并经过一定的过程如抽取筛选清晰以及转换后根据用户的查询适时的提供给用户的这么一个平台。企业数据仓库包含综合数据、分粒度的数据、历史数据、共享数据,是一个企业决策的基础,拥有大的存储量,对企业来说具有极其重要的作用。
数据仓库应用在不同的企业和单位,在资源环境企业中的应用,能够利用空间数据仓库技术不断规范、提炼和集成环境数据,按照不同的决策主题来组织数据,而且还能用于支持环境管理制定决策,使相关部门利用决策支持分析工具从资源环境的信息池中提取、分析数据,为资源环境的发展做出有利的贡献。在公路交通方面的应用,公路数据仓库是一项综合且复杂的信息化系统工程,是公路工程、大地测量、地理学、计算机科学、系统工程、统计学、管理学等学科还有技术的结晶,它改变了传统的信息处理的方式,使交通规划、建设、运营和管理变得直观、轻松和高效。可以说数据仓库是公路交通管理步入数字化的标志。数据仓库在医院中的应用,现代医院中,电子病历广泛使用,,挖掘海量病案数据中所潜藏的信息进行支持决策是医院提高管理水平的一个重要的手段,通过数据仓库在病案数据的分析中的应用,如,根据某医院常发疾病的治疗和新生儿出生的情况,建立病案数据仓库,借助联机分析技术来对对病案中的发病率、治愈情况等进行分析,为疾病的预防、医院的管理决策,提供可靠的数据支持。数据仓库技术在银行业的应用,解决客户关系以及企业在收入、成本、预算方面的分析,一些收入的发展、项目的状况及预算状况进行全面分析,使领导能够及时的得到企业发展情况报告。
三、结论
随着数据仓库技术应用的不断扩大,各行各业都已经通过数据仓库技术来对各种数据进行分析以不断地提升自身的各种竞争力和竞争水平。在信息化如此发达的今天,数据仓库技术已经作为一门新兴的技术在各个领域内发挥着极其重要的作用,企业如何根据自己企业自身的情况来应用这种技术,如何在竞争如此强烈的市场占有一席之地,应用好数据仓库不断解决企业发展中遇到的问题,将对企业有着积极的作用。
参考文献:
[1]张维明等.数据仓库原理与应用[M].北京:电子工业出版社,2002
[2]彭木根.数据仓库技术与实现[M].北京:电子工业出版社,2002