HI,欢迎来到学术之家,期刊咨询:400-888-7501  订阅咨询:400-888-7502  股权代码  102064
0
首页 精品范文 数据分析方法

数据分析方法

时间:2022-05-09 09:08:15

数据分析方法

第1篇

句法分析任务是对文本进行分析,将输入句子从序列形式变为树状结构,从而刻画句子内部词语之间的组合或修饰关系。这是自然语言处理领域的核心研究课题,已经广泛应用到其它自然语言处理任务中,如机器翻译、自动问答、信息抽取等。和其他句法分析形式如短语结构句法分析相比,依存句法分析具有形式简单、易于标注、便于学习、分析效率更高等优点[1,2]。另外,依存句法描述词和词之间的关系,因此更适合于表达非连续的、远距离的结构,这对于一些语序相对自由的西方语言非常重要。依存语法历史悠久,最早可能追溯到公元前几世纪Panini提出的梵文语法。依存语法存在一个共同的基本假设:句法结构本质上包含词和词之间的关系。这种关系称为依存关系(Dependency Relations)。一个依存关系连接两个词,分别是核心词(Head)和修饰词(Dependent)。依存关系可以细分为不同的类型,表示两个词之间的句法关系(Dependency Relation Types)。目前,依存语法标注体系已经为自然语言处理领域的许多专家和学者所采用,并应用于不同语言中,且对其不断地发展和完善。研究者们提出并实现了多种不同的依存分析方法,达到了较好的准确率。近年来,依存句法分析多已广泛用于统计机器翻译[3]、自动问答[4]和信息抽取[5]等任务,并取得了良好的效果。

依存句法分析任务的输入是一个已完成分词的自然语言句子。形式化地,输入句子可以表示为:x=W0W2…Wi…Wn,其中,wi表示输入句子的第i个词;W0表示一个伪词,指向整个句子的核心词,也就是根节点(ROOT)。图1表示输入句子“刚满19岁的欧文现在效力利物浦队。”的依存树。

[JZ][HT5”H]图1 依存树示例[ST5”HZ][WT5”HZ][JZ]Fig.1[ST5”BZ] Example of a dependency parse

最一般地,一个依存句法树由多个依存弧构成,表示为:d={(h,m,l):0≤h≤n,0

依存句法分析的目标是给定输入句子x,寻找分值(或概率)最大的依存树d*,具体公式为:

因此,依存句法分析存在四个基本问题:

(1)如何定义Score(x,d),即采用哪种方式将依存树的分值分解为一些子结构的分值。这是模型定义问题;

(2)采用哪些特征来表示每一部分子结构,即特征表示问题;

(3)如何获取特征的权重,即模型训练算法问题;

(4)给定模型参数,即已知特征的权重,如何搜索到分值最大的依存树。这是解码问题。

2依存句法分析的方法

数据驱动的依存句法分析方法主要有两种主流的方法:基于图(Graph-based)的分析方法和基于转移(Transition-based)的分析方法。这两种方法从不同的角度解决这个问题。CoNLL上的评测结果表明这两种方法各有所长,并且存在一定的互补性[2,6]。下面对各类方法展开细致分析。

2.1基于图的依存句法分析方法

基于图的依存分析模型将依存句法分析问题看成从完全有向图中寻找最大生成树的问题。一棵依存树的分值由构成依存树的几种子树的分值累加得到。模型通过基于动态规划的解码算法从所有可能的依存树中搜索出分值最高的依存树。相关的研究工作主要包括:

(1)模型定义。根据依存树分值中包含的子树的复杂度,基于图的依存分析模型可以简单区分为一阶、二阶和三阶模型。一阶模型中,依存树的分值由所有依存弧的分值累加得到,即依存弧之间相互独立,互不影响[7]。二阶模型中,依存树的分值中融入了相邻兄弟弧(Sibling)和祖孙弧(Parent-child-grandchild)的分值[8,9]。三阶模型中,进一步增加了祖孙兄弟弧(Grandparent-parent-sibling)等三条依存弧构成的子树信息[10]。

(2)特征表示。在上述模型定义的基础上,研究人员也提出了相应的一阶、二阶、三阶子树特征[7-10]。每种子树特征考虑句子中的词语和词性信息、依存弧的方向和距离信息等。随着高阶子树特征的使用,依存句法分析模型的准确率也有较大幅度的提高。

(3)训练算法。基于图的依存分析方法通常采用在线训练算法(Online Training),如平均感知器算法(Averaged Perceptron)[11]、被动进取算法(Passive-Aggressive)[12]和Margin Infused Relaxed算法(MIRA) [13]。在线学习算法以迭代的方式训练特征的权重。一次迭代中遍历整个训练数据集合,每次根据一个训练实例的分析结果对当前的权重向量进行调整。

(4)解码算法。一阶模型对应的解码算法为Eisner算法[14]。Eisner算法的本质是动态规划,不断合并相邻子串的分析结果,直到得到整个句子的结果,其时间复杂度为O(n3)。进而,McDonald和Pereira (2006)对Eisner算法进行扩展,增加了表示相邻兄弟节点的数据类型,时间复杂度仍为O(n3)。Carreras (2007)同样对Eisner算法进行扩展,得到面向二阶模型的基于动态规划的解码算法,时间复杂度为O(n4)。Koo和Collins (2010)提出了面向三阶模型的解码算法,时间复杂度为O(n4)。一些研究者提出采用基于柱搜索的解码算法,允许模型方便地融入更高阶的解码算法,同时保证较低的时间复杂度[15,16]。

2.2基于转移的依存句法分析方法

基于转移的依存分析模型将依存树的搜索过程建模为一个动作序列,将依存分析问题转化为寻找最优动作序列的问题。模型通过贪心搜索或者柱搜索的方式找到近似最优的依存树。其优点在于可以充分利用已形成的子树信息,从而形成丰富的特征,以指导模型决策下一个动作。相关的研究工作主要包括:

(1)模型定义。基于转移的依存句法分析方法提出早期,研究者们使用局部分类器(如最大熵分类器)决定下一个动作,选择概率最大的动作[17,18]。这样,一个依存树的概率由其对应的动作序列中每一个动作的概率累乘得到。近年来,研究者们采用线性全局模型来决定下一个动作,一个依存树的分值为对应动作序列中每一个动作的分值的累加[19-21]。

(2)特征表示。基于转移的依存句法分析方法的优势在于可以充分使用已构成的子树信息。Zhang和Nivre (2011)在前人工作的基础上,提出了丰富的特征集合,如三阶子树特征,词的配价信息等[21]。

(3)训练算法。早期,研究者们在训练语料上训练出一个局部分类器,在解码过程中重复使用,决定下一个动作。通常采用的分类器有基于记忆的分类器、支持向量机等。近年研究发现采用全局线性模型可以提高句法分析的准确率,通常采用平均感知器在线训练算法。

(4)解码算法。其任务是找到一个概率或分值最大的动作序列。早期采用贪心解码算法,即每一步都根据当前状态,选择并执行概率最大的动作,进入到下一个状态。如此反复直至达到接收状态,形成一棵合法的依存树[17,18]。进而,研究者们提出使用柱搜索的解码方式扩大搜索空间,即同时保留多个分值最高的状态,直到搜索结束时选择最优的动作路径[22,19]。Huang和Sagae (2010)提出在柱搜索中加入动态规划,通过合并等价状态进一步扩大搜索空间[20]。随着搜索空间的增大,依存句法分析的准确率有显著提高。

2.3模型融合的方法

基于图的方法和基于转移的方法从不同的角度解决问题,各有优势。基于图的模型进行全局搜索但只能利用有限的子树特征,而基于转移的模型搜索空间有限但可以充分利用已构成的子树信息构成丰富的特征。McDonald和Nivre (2011)通过详细比较发现,这两种方法存在不同的错误分布。因此,研究者们使用不同的方法融合两种模型的优势,常见的方法有:stacked learning [2,23];对多个模型的结果加权后重新解码[24,25];从训练语料中多次抽样训练多个模型(Bagging)[26,27]。

2.4词性标注和依存句法分析联合模型

依存句法分析模型中,词性是非常重要且有效的特征。如果只使用词语特征,会导致严重的数据稀疏问题。自然语言处理中,词性标注和依存句法分析这两个问题通常被当成两个独立的任务,以级联的方式实现。即对于一个输入句子,假定其分词结果已知,先对句子进行词性标注,然后在词性标注结果的基础上进行依存句法分析。这种级联的方法会导致错误蔓延。也就是说,词性标注的错误会严重影响依存分析的准确率。由于汉语缺乏词形变化信息(如英语中的词后缀变化如-ing,-ed,-es,-ly等),因此汉语的词性标注比其他语言如英语更具挑战性。近年来,研究者们通过建立词性标注和依存句法分析联合模型,在同一个模型中解决这两个紧密相关的任务,允许词性信息和句法结构互相影响和帮助,取得了不错的效果。一方面,联合模型中,句法信息可以用来指导词性标注,从而帮助解决一部分需要句法结构才能够消解的词性歧义。另一方面,更准确的词性标注,也可以反过来帮助依存分析。Li等通过扩展基于图的依存句法分析模型,首次提出汉语词性标注和依存句法分析联合模型[28],并且提出了适用于联合模型的训练算法[29],显著提高了词性标注和依存句法分析的准确率。进而,一些研究者们提出基于转移的词性标注和依存句法分析联合模型[30,31]。Ma等(2012)尝试了基于Easy-first的汉语词性标注和依存句法分析联合模型[32]。

2.5基于多树库融合的方法

对于统计的数据驱动的分析模型而言,标注数据的规模很大程度上影响着分析结果的准确率。依存句法分析是一种结构化分类问题,比二元分类和序列标注问题更具挑战性,因此依存句法分析更容易受到数据稀疏问题的影响,树库规模对依存句法分析的准确率影响很大。然而,标注树库是一件艰巨的任务,通常需要耗费很大的人力和物力。目前的研究结果表明在一个树库上训练出的句法分析的模型似乎很难进一步提高句法分析的准确率。然而,汉语存在多个树库。这些树库由不同的组织或机构标注,遵循不同的标注规范,面向不同的应用。尽管各个树库遵循不同的标注规范,但却都是根据人们对汉语语法的理解而标注,因此包含很多共性的标注结构。同时,不一致的标注结果应该也是有规律可循的。所以,一些研究者们尝试同时利用多个树库,帮助句法分析的准确率。李正华等(2008)曾尝试统计和规则相结合的方法,将短语结构的源树库CTB转化为符合CDT标注规范的依存结构,然后将转化后的树库和CDT合并,提高训练数据的规模,以提高依存句法分析准确率[33]。Niu等(2009)提出一种基于统计的树库转化方法,将依存结构的CDT树库转化为满足CTB标注规范的短语结构树库,进而使用语料加权的方式增大训练树库的规模,提高了短语结构句法分析的性能[34]。Li等(2012)提出一种基于准同步文法的多树库融合方法,不是直接将转化后的树库作为额外的训练数据,而是使用准同步文法特征增强依存句法分析模型,从而柔和地学习标注规范中规律性的不一致,提高依存句法分析的准确率[35]。

3依存句法分析面临的挑战

自从2006年开始,CoNLL国际评测一直关注依存句法分析,不但提供了多语言、高质量的树库,并通过对各种方法的比较分析,让研究者们对依存分析问题的理解更加清晰,极大地促进了依存句法分析的发展。依存分析已经成为自然语言处理的一个热点问题,方法也越来越成熟,并且在许多领域得到了应用。然而,目前依存句法分析还存在很多挑战,这些挑战也可能是未来依存分析发展的趋势。具体分析如下:

(1)提高依存分析准确率。目前主流的两种依存分析方法都存在一定的缺陷。基于图的方法很难融入全局特征。而基于转移的方法虽然原理上可以利用丰富的特征,但是实际使用的特征还是属于局部特征,另外也还存在错误级联的问题(柱搜索只能缓解这个问题)。融合不同依存分析模型的方法可以提高分析性能,但是提高幅度比较有限。研究可知,只有从新的角度理解这个问题本身,提出新的建模方法,或者应用新的机器学习方法,才有望大幅度提高依存分析性能。一些学者提出的利用未标注数据帮助依存分析模型是一个很好的思路,值得深入研究。

(2)提高依存分析效率。基于图的依存分析方法融入高阶特征可以提高性能,但是效率很低,无法适应实际应用的需求。在不明显降低分析性能的前提下,如何提高依存分析效率也是一个很有实际价值的问题。

(3)领域移植问题。研究发现,当训练数据领域与测试数据领域不相同时,即使差距不大,也会导致句法分析性能下降很大。以英语为例,从华尔街日报树库移植到Brown语料时,句法分析性能下降近8%。目前依存树库所覆盖的领域、规模都很有限,而标注树库的代价很大。因此解决领域移植问题,对于依存分析的实际应用至关重要。

(4)语言相关的依存分析。目前最主流的两种依存分析方法都是语言无关的,纯粹依靠机器学习方法从数据中学习,加入人类知识只能限于特征选择。然而,每种语言都有其特点。因此语言相关的依存分析研究,如针对每种语言的特点设计更有效的模型和算法,利用一些语言特有的资源等,也是很有必要的。近年来,国内学者已经在汉语依存句法分析上做出了很多成绩,然而如何利用汉语的特点,提高汉语句法分析的准确率和效率,仍然是一个开放的问题。

第2篇

【关键词】数字电视;地面覆盖;测试

1.测试方案的制定

数字电视测试方案制定时,第一步是确定选择多少个地点进行测试,以及它们的特定位置。被选定的地点在数学统计上必须是相关的,通常应超过100个(最好超过200个)。在给定方向上最远的测试地点距离通常由F(50,90)曲线确定,FCC过去使用的确定NTSC频率规划的方法也被用于DTV的频道分配。发射机的ERP和HAAT首先影响最远距离的测试地点的确定。另外, 如果在数字电视发射机附近有模拟NTSC发射机且频率接近,则测试计划还应包括测量模拟信号,比较模拟电视的数值和数字电视的数值。

2.数字电视场强测试数据分析方法

标准的归一化的数据采集方法对于结果的分析来说是非常重要的。尽管对一个广播公司而言,特定的地理环境可能会有一些唯一的与其它地方不同的测试结果,但是,测试中的一些关键参数,是非常重要同时又是必须测试的。

例如,有不同的服务区域预测技术要考虑。旧的基于统计测量的方法所得到的F(50,50)和F(50,10)曲线,从50年代起在约50年的时间内,被用作预测场强数值(dBmV/m),这两条预测曲线,在FCC规则的73.699节中出现(参考资料5),给出了预测的50%的地点在50%或10%的时间概率下的最小场强电平,通常使用的F(50,90)曲线是从F(50,50)和F(50,10)采用下式计算得到:

F(50,90) = F(50,50)-[F(50,10)- F(50,50)]

就是说,F(50,90)场强电平值高于F(50,50)值,F(50,10)场强值低于F(50,50)值。这些FCC的标准曲线是基于发射机的ERP和HAAT、接收装置的天线高度、发射机与测试地点之间距离而确定。通过在每一个测试地点应用这些曲线,场强电平可以被预计并且与测量的场强电平相比较。同样,可以计算出超过最小场强电平的被测地点的百分比,按照统计规律,这些地点能基于F(50,90) 曲线成功地接收数字电视信号。可以直接比较在最小场强电平以上的测量地点数量和成功地接收数字电视信号的地点数量。

另一种场强电平预测技术是Longley-Rice算法,在FCC的工程技术部门(OET)公告69号(参考资料7)中有详细的描述,不仅用到发射机的ERP,HAAT和接收装置天线高度,而且涉及到在发射机和接收装置之间的地面的类型。应用这种算法可以预计每个测试地点的场强电平,这些预测值也应与测量的数值进行比较。对于F(50,90)曲线,基于Longley-Rice算法,可以计算出最小场强电平以上的地点的百分比,以给出能成功地收到数字电视信号的地点的百分数。这能直接与成功地接收数字电视的地点的测量数字进行比较。

两种场强电平预测方法不仅能评估数字电视的场强分布曲线和效果,也能评估成功地进行数字电视服务的区域和效果。随着更多的数字电视发射机投入使用,进行覆盖状况的试验和分析,将会有更好的统计曲线来预测数字电视的覆盖曲线。实际上,原有的F(50,50)曲线与实际的对于数字电视覆盖的要求是不同的,数字电视要保证可靠接收,要求是F(90,90)。

还有几个其它的参数被用于数字电视场强测试评估:服务有效性、系统性能指标、造成误码的极限电平、场强电平、C/N门限值、接收机灵敏度、地形轮廓及高度变化的统计等。并且每个参数在数字电视的系统构成上提供宝贵的信息,并且被分别描述。

服务有效性是指所有的可成功地接收数字电视信号的测试地点的百分比,包括那些场强电平较小但又可以成功解码的所有的地点,对广播公司来说是重要的,在测试的期间给定发射机ERP和HAAT,它是表示覆盖区域的大小和服务有效性的主要参数。

另一方面,作为数字电视场强的测试手段,系统性能指标是其效果如何的一种表示方法。即,接收S/N在15dB(误差极限)以上的站点的百分比。这种统计分析所确定的距离,对于那些低于接收门限的数字电视信号测试点(如严重的地形遮挡或天线增益过小)无效。在场强测试期间,在非白噪声干扰情况下(如多径反射、脉冲干扰或模拟电视与数字电视同频干扰),系统性能指标可从本质上得到很好的反映。

对于数字电视的接收而言,接收机的灵敏度同样影响到接收的效果,实际上是覆盖范围的大小。接收机的最小接收门限值越低,越容易收到数字电视节目。反过来,在许多高于接收门限电平的地点并非一定能很好地接收,还受到载噪比门限的限制,只有载噪比门限超过所要求的数值,才能可靠地对数字电视信号进行解码。可靠接收取决于两个条件,一是接收的场强大于接收机的最小输入门限电平,二是接收信号的载噪比大于可靠解码所要求的数值。

场强电平统计显示出所有测试地点的场强电平百分比(dBmV/m),作为成功接收的条件,要求场强电平值大于接收机的门限。基于现场试验车的接收机参数(例如天线增益,同轴馈线损耗,系统前置放大器增益和噪声系数,以及在误差极限S/N以上的比率)。这是能成功接收数字电视地点的最大的百分比,并且能与实际的服务效果比较。当然,也能与从F(50,90)曲线和从Longley-Rice算法得来的场强电平预测数据相对比。这些场强电平并不能显示出在这些地点存在的频道失真量(频道的背景噪声与接收到的射频频谱形状)。基于这个原因,建议所有的数字电视现场试验不仅仅只进行数字电视的场强测试,同时,也应进行包括频道失真和专业解调器误码率的测量。

第3篇

· 为什么要做数据分析?

· 数据分析的目的是什么?

· 数据分析的一般过程是怎样的?

· 有哪些数据分析方法?

· 在服务性行业里,数据分析方法有哪些需要特别注意的地方?

· 在国内最容易犯哪些数据分析的错误?

因笔者能力和精力有限,文章中存在错误或没有详尽之处,还望各位读者见谅并恳请及时指正,大家相互学习。

(一)数据分析的核心作用

根据国际标准的定义,“数据分析是有组织、有目的地收集并分析数据,通过将数据信息化、可视化,使之成为信息的过程,其目的在于把隐藏在看似杂乱无章的数据背后的信息集中和提炼出来,从而总结研究对象的内在规律。”在实际工作中,数据分析能够帮助管理者进行判断和决策,以便采取适当策略与行动。

这里需引起关注的是任何没有目的或结果的分析报告都是“忽悠”,都仅仅是没有灵魂的躯壳!我们经常看到国内的同事们忙于各种所谓的“数据分析报告”,堆砌了大量的图表和文字,显得“专业”、“美观”,但认真研读后却发现缺乏最关键的“分析”过程,更别说什么分析结果了。显然大家只是把对事实的原始描述当成了数据分析,而实际上描述原始事实只是数据分析过程的一项内容而非全部。数据分析不能仅有报表没有分析,因为“有报表不等于有分析,有分析不代表有效执行”,报表只是数据的展现形式;数据分析也不能仅有分析没有结论,没有结论的分析无疑“差了一口气”,对实际业务工作无法产生价值,唯有通过分析得出结论并提出解决方案才能体现数据分析协助管理者辅助决策的核心作用。因此数据分析来源于业务,也必须反馈到业务中去,没有前者就不存在数据分析的基础,没有后者也就没有数据分析的价值了。

(二)数据分析的分类

最常见也是最标准的数据分析可分为三大类:描述性数据分析、探索性数据分析以及验证性数据分析。

所谓描述性分析是对一组数据的各种特征进行分析,以便于描述测量样本的各种特征及其所代表的总体特征。这种分析要对调查总体所有变量的有关数据做统计性描述,主要包括数据的频数分析、数据的集中趋势分析、数据离散程度分析、数据的分布以及一些基本的统计图形,比如上个月的平均通话时长是多少,员工离职率是多少等等。

探索性数据分析是指对已有数据(特别是调查或观察得来的原始数据)在尽量少的先验假定下进行探索,通过作图、制表、方程拟合、计算特征量等手段探索数据的结构和规律的一种数据分析方法,侧重于在数据之中发现新的特征,比如呼叫中心的一次解决率和哪些因素相关?他们背后的驱动因素又有哪些?哪些因素是“因”、哪些又是“果”等等。

而验证性分析是依据一定的理论对潜在变量与观察变量间关系做出合理的假设,并对这种假设进行统计检验的现代统计方法,侧重于验证已有假设的真伪性。验证性分析是在对研究问题有所了解的基础上进行的,这种了解可建立在理论研究、实验研究或两者结合的基础上,比如从调研的结果来看本月的客户满意度比上个月高出2%,是否真是如此;男性客户的满意度是否高于女性客户等等。

(三)数据分析的一般过程

通常来讲完整的数据分析过程可分为以下几步:明确数据分析的目的、采集并处理数据、分析及展现数据、撰写分析报告。

现实情况中人们往往在做数据分析时陷入一大堆杂乱无章的数据中而忘记了分析数据的目的,数据分析第一步就是要明确数据分析的目的,然后根据目的选择需要分析的数据,明确数据分析的产出物,做到有的放矢、一击即中!

其次,在做数据分析时要根据特定需求采集数据,有目的地采集数据是确保数据分析过程有效的基础,采集后的数据(包括数值的和非数值的)要对其进行整理、分析、计算、编辑等一系列的加工和处理,即数据处理,数据处理的目的是从大量的、可能是难以理解的数据中抽取并推导出对于某些特定人群来说是有价值、有意义的数据。

接着是对处理完毕的数据进行分析和展现,分析数据是将收集的数据通过加工、整理和分析、使其转化为信息,数据展现的方式有两类:列表方式、图形方式。

最后,整个数据分析过程要以“分析报告”的形式呈现出来,分析报告应充分展现数据分析的起因、过程、结果及相关建议,需要有分析框架、明确的结论以及解决方案。数据分析报告一定要有明确的结论,没有明确结论的分析称不上分析,同时也失去了报告的意义,因为整个数据分析过程就是为寻找或者求证一个结论才进行的。最后,分析报告要有建议或解决方案,以供管理者在决策时作参考。

(四)客户中心常用的数据分析工具及简介1 Excel

Excel是微软办公套装软件的一个重要组成部分,它可以进行各种数据的处理、统计分析和辅助决策操作,广泛地应用于管理、统计财经、金融等众多领域。Excel提供了强大的数据分析处理功能,利用它们可以实现对数据的排序、分类汇总、筛选及数据透视等操作。

2 SPC

SPC(Statistical Process Control)即统计过程控制,是一种借助数理统计方法的过程控制工具。实施SPC的过程一般分为两大步骤:首先用SPC工具对过程进行分析,如绘制分析用控制图等;根据分析结果采取必要措施:可能需要消除过程中的系统性因素,也可能需要管理层的介入来减小过程的随机波动以满足过程能力的需求。第二步则是用控制图对过程进行监控。

3 SAS

SAS是用于决策支持的大型集成信息系统,但该软件系统最早的功能限于统计分析,时至今日,统计分析功能仍是它的重要组成部分和核心功能。在数据处理和统计分析领域,SAS系统被誉为国际上的标准软件系统,SAS提供多个统计过程,用户可以通过对数据集的一连串加工实现更为复杂的统计分析,此外 SAS还提供了各类概率分析函数、分位数函数、样本统计函数和随机数生成函数,使用户能方便地实现特殊统计要求。

4 JMP

JMP是SAS(全球最大的统计学软件公司)推出的一种交互式可视化统计发现软件系列,包括JMP,JMP Pro,JMP Clinical,JMP Genomics,SAS Simulation Studio for JMP等强大的产品线,主要用于实现统计分析。其算法源于SAS,特别强调以统计方法的实际应用为导向,交互性、可视化能力强,使用方便。JMP的应用非常广泛,业务领域包括探索性数据分析、六西格玛及持续改善(可视化六西格玛、质量管理、流程优化)、试验设计、统计分析与建模、交互式数据挖掘、分析程序开发等。 SPSS(Statistical Product and Service Solutions)“统计产品与服务解决方案”软件,是世界上最早的统计分析软件,基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Logistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数,SPSS也有专门的绘图系统,可以根据数据绘制各种图形。

6 Minitab

Minitab软件是为质量改善、教育和研究应用领域提供统计软件和服务的先导,是全球领先的质量管理和六西格玛实施软件工具,具有无可比拟的强大功能和简易的可视化操作,对一般的数据分析和图形处理都可以应付自如。

第4篇

【关键词】数据分析;数据整理;土工实验数据

前言:土工实验的结果对岩土工程的施工方案和设计的精度具有重要影响,实验结果的可靠性越强,岩土工程的施工方案和工程设计就会越加科学合理。因此,加大对土工实验数据整理和分析方法的研究成为目前土工领域亟待解决的问题,对于土工的施工工程的正常运行具有重大意义。

1 土工实验数据整理

1.1Excel图解法整理土工实验数据

在对土工实验数据整理的过程中会遇到不合理的实验数据,这时就需要工作人员对实验数据进行改正和取舍。在实验数据的舍弃过程中,舍弃的标准要按照概率或误差分析中的标准差的3倍设置,对于不在标准范围内的实验数据就要选择舍弃,然后对实验进行重新计算和整理。土工实验的数据的土性指标主要有两种类型,一种是以水溶盐、有机质、塑限、液限、颗粒组成、土粒比重、天然含水率、天然密度等为主要类型的一般特性指标,主要作用是用来对土性进行分类和定名,以及说明岩土的物理化学特征。另一种是以岩土的渗透系数、变形模量、压缩系数、内摩擦角、粘聚力等为主要类型的主要计算指标,主要用来确定土体的稳定性、变形、强度。在对这两种土工数据指标进行整理的时候,通常使用Excel图解法,利用这种方法整理实验数据,能够简化大量繁重的数据计算工作,为分析数据节约更多的时间,从而提高计算的准确率和土工实验数据整理的效率。Excel图解法主要是根据图表制作的功能,进行相应的功能设置。如表1土工实验数据所示利用Excel进行整理[1],

表1 土工实验数据

压实系数 0.77 0.82 0.87 0.92 0.95 0.97

数 0.5 15.0 14.8 17.2 19.1 22.5 18.2

1.0 29.7 27.5 28.6 32.7 37.4 30.0

1.5 38.9 42.4 39.0 44.8 44.3 45.6

2.0 55.7 44.3 55.8 52.8 61.5 55.8

具体的操作方法是:首先打开Excel,将表格中的数据输入其中;其次选择x y散点图选择图表类型,修改相应指标名称,最后生成图表,相关工作人员可以根据整理好的数据图像分析土体的强度。如图1所示,

图1 Excel整理之后的数据图形

1.2取样法校核土工实验数据

对土工实验数据的取样校核主要有室内取样和室外取样两种形式,校核的目的是分析数据产生误差的原因,提高整理的效率。室内取样过程中对进行实验的土样妥善保管,避免土样的误动影响数据的真实性。另外使用不同的测试仪器、人们视觉效果的不同和绘图的质量都可能影响数据的真实,因此要具体情况具体分析,对实验数据进行多方检验,确保土工实验数据的精确度。而在室外取样的过程中,土样的保管要注意失水、日晒、风吹等影响,以免影响数据的真实性,因此在土样的运输、储存、封装的工作中应安排专门的工作人员进行防护,在长途运输土样的情况下,应将其装箱并填塞相应的缓冲物品,防止土样震动而影响实验数据的准确度。通过取样来解决土工实验数据的不确定性问题[2]。

2 土工实验数据分析方法

2.1最小样本数分析法分析数据

在实验中样本数多少直接影响实验结果,而样本数多少容易受多方面因素的影响,例如从统计学角度分析,在某项土工中对粘土进行实验,选取四种土样进行不排水三轴实验得出Cu值,分别为109、95、97、101(KN/m2),将实验结果控制的平均值控制在5%之内,计算出最小样本数,因土样数量只用四个,少于30,于是用t分别对土样进行计算,u=3,根据统计表查出相应的数值范围100.5±2.35×6.19÷=93.27-107.77(KN/m2),其中0.95,其中t=2.35,对应Cu值为100.5(KN/m2),σ=6.19.而平均值范围计算得到的数据为7%,超出了5%的范围,因此还需要增加土样样本的数量,假设增加到七个样本数,t=1.94,0.95,v=6则平均值的范围通过计算得出,在5%的范围内,因此可以得出七个样本符合土工实验数据对精确度的要求[3]。

2.2采用贝叶斯法分析实验数据

贝叶斯法的计算公式为,将实验数据分别带入公式进行计算,它可以有机的结合不同时间阶段测得土工数据,它不是简单的加权平均算法,通过贝叶斯法计算得出的数据可靠性更强。贝叶斯法分析实验数据以其可靠性强的优势被广泛应用到大型工程的设计指标研究中,利用土性的含水量、密度等物理性质指标,丰富工程的指标验前概率。另外它还可以对不同实验结果的合并问题进行更精确的处理,保证土工的实验数据的合理性[4]。

2.3加权平均法分析实验数据

利用土体相关距离的测值点相关的特性,采用加权平均值的方法法分析试验数据,从而进一步分析岩土的平均土性,计算公式为,样本 的权值是,k是土样相关区域内样本的点数,当是以组的形式出现且0≤≤1时,可以利用相应的方程式计算权值的最小值,另外还可以根据土工的实际情况进行计算过程的简化和省略,如果简单计算就可以判断实验数据的确切数值,则可以不采用加权平均值算法,视具体情况而定[5]。

结论:综上所述,通过对土工实验数据整理和分析方法的研究,从中可以了解到对实验数据的正确处理有利于提高土工的数据的准确度,为土工的施工设计提供有效的信息数据参考,推动土工的进一步发展。

参考文献:

[1]钱红萍,史贵才. 土木工程专业实验教学新体系的构建与实践[J]. 实验室研究与探索,2012,10:122-125.

[2]张永兴,高雪超. 土木工程综合实验模块式教学改革初探[J]. 实验室研究与探索,2011,07:155-182.

[3]李黎. 土木工程实验教学体系与实验项目改革探索[J]. 高等建筑教育,2010,06:141-143.

第5篇

关键词:聚类分析;数据挖掘

中图分类号:TP311文献标识码:A文章编号:1009-3044(2008)12-20ppp-0c

Cluster Anlaysis Methods of Data Mining

HUANG Li-wen

(School of Science, Quanzhou Normal University, Quanzhou 362000, China)

Abstract: Cluster analysis is one of the important methods of multivariate statistical analysis, and this method has a wide range of applications in many fields. In this paper, the classification of the cluster is introduced briefly, and then gives some common methods of cluster analysis and the advantages and disadvantages of these methods,and these clustering method were compared and anslyzed so that people can chose suitable clustering methods according to the actual issues.

Key words: Cluster Analysis; Data Mining?

1 引言

聚类分析是数据挖掘中的重要方法之一,它把一个没有类别标记的样本集按某种准则划分成若干个子类,使相似的样品尽可能归为一类,而不相似的样品尽量划分到不同的类中。目前,该方法已经被广泛地应用于生物、气候学、经济学和遥感等许多领域,其目的在于区别不同事物并认识事物间的相似性。因此,聚类分析的研究具有重要的意义。

本文主要介绍常用的一些聚类方法,并从聚类的可伸缩性、类的形状识别、抗“噪声”能力、处理高维能力和算法效率五个方面对其进行比较分析,以便人们根据实际的问题选择合适的聚类方法。

2 聚类的分类

聚类分析给人们提供了丰富多彩的分类方法,这些方法大致可归纳为以下几种[1,2,3,4]:划分方法、层次方法、基于密度的聚类方法、基于网格的聚类方法和基于模型的聚类方法。

2.1 划分法(partitionging methods)

给定一个含有n个对象(或元组)的数据库,采用一个划分方法构建数据的k个划分,每个划分表示一个聚簇,且k≤n。在聚类的过程中,需预先给定划分的数目k,并初始化k个划分,然后采用迭代的方法进行改进划分,使得在同一类中的对象之间尽可能地相似,而不同类的中的对象之间尽可能地相异。这种聚类方法适用于中小数据集,对大规模的数据集进行聚类时需要作进一步的改进。

2.2 层次法(hietarchical methods)

层次法对给定数据对象集合按层次进行分解,分解的结果形成一颗以数据子集为节点的聚类树,它表明类与类之间的相互关系。根据层次分解是自低向上还是自顶向下,可分为凝聚聚类法和分解聚类法:凝聚聚类法的主要思想是将每个对象作为一个单独的一个类,然后相继地合并相近的对象和类,直到所有的类合并为一个,或者符合预先给定的终止条件;分裂聚类法的主要思想是将所有的对象置于一个簇中,在迭代的每一步中,一个簇被分裂为更小的簇,直到最终每个对象在单独的一个簇中,或者符合预先给定的终止条件。在层次聚类法中,当数据对象集很大,且划分的类别数较少时,其速度较快,但是,该方法常常有这样的缺点:一个步骤(合并或分裂)完成,它就不能被取消,也就是说,开始错分的对象,以后无法再改变,从而使错分的对象不断增加,影响聚类的精度,此外,其抗“噪声”的能力也较弱,但是若把层次聚类和其他的聚类技术集成,形成多阶段聚类,聚类的效果有很大的提高。

2.3 基于密度的方法(density-based methods)

该方法的主要思想是只要临近区域的密度(对象或数据点的数目)超过某个阈值,就继续聚类。也就是说,对于给定的每个数据点,在一个给定范围的区域中必须至少包含某个数目的点。这样的方法就可以用来滤处"噪声"孤立点数据,发现任意形状的簇。

2.4 基于网格的方法(grid-based methods)

这种方法是把对象空间量化为有限数目的单元,形成一个网格结构。所有的聚类操作都在这个网格结构上进行。用这种方法进行聚类处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。

2.5 基于模型的方法(model-based method)

基于模型的方法为每个簇假定一个模型,寻找数据对给定模型的最佳拟合。该方法经常基于这样的假设:数据是根据潜在的概率分布生成的。该方法主要有两类:统计学方法和神经网络方法。

3 常用的聚类算法

目前,已经提出的聚类算法很多,常用的聚类算法主要有以下几种:系统聚类法、动态聚类法、CLARANS、CURE、DBSCAN、STING和模糊聚类法(FCM)。

3.1 系统聚类法

系统聚类法[5]是将n个样品看成n类,即一类包含一个样品;然后将性质最接近的两类合并成一个新类,这样就得到n-1类,再从这n-1类中找出性质最接近的两类加以合并,成了n-2类;如此下去,最后所有的样品均成一类;将上述类的合并过程画成一张图(这图常称为聚类图),这样便可决定分多少类,每类各有什么样品。

系统聚类法的计算简单,而且其聚类结果给出一个谱系图,因此,可以根据该图选择所需要的聚类结果。但是,它也有不足之处,其主要表现在以下几个方面:1)当样品数量很多时,而且只需要划分为较少的类别时,这种聚类方法的重复计算量很大;2)当某一样品划归某一个类后,其属性不变,若分类方法的选择不当,对聚类的精度影响很大;3)对大数据量进行处理时,计算机内存开销很大,有时,计算机受此限制而无法进行聚类分析,而且其速度很慢;4)抗干扰的能力很弱。

3.2 动态聚类算法

动态聚类法[5]就是在开始时先建立一批初始中心,而让待分的各个样品依据某种判别准则向初始中心凝聚,然后再逐步修改调整中心,重新分类;并根据各类离散性统计量(如均方差)和两类间可分离性的统计量(如类间标准化距离、J-M距离等)再进行合并和分裂。此后在修改调整中心,这样不断继续下去,直到分类比较合适为止。

动态聚类法使用随机方式选择 作为初始聚类中心,按照算法的迭代执行,整个算法的结束条件是类的重心(或凝聚点)不再改变,它的计算复杂性是O(nkt),其中,n为样本数量,k为聚类数,t为迭代次数。与系统聚类法相比,动态聚类法明显的优势是运算量小,能用于处理庞大的样本数据,也为实时处理提供了一定的可能性,但其也存在一些缺点,主要表现在以下几个方面:(1)动态聚类法要求用户必须事先给出聚类的数目,选择初始划分的最佳方向、更新分区和停止准则,且其结果与数据输入顺序有关,不同的初始值可能会导致不同的结果;(2)对于噪声和孤立点敏感,很容易受例外情况的影响,适用于发现球状类,但不适合发现非凸面状的簇,不适合大小差别较大的簇;(3)一个对象只能属于一个类中,不能多维揭示其多重属性。

3.3 CLARANS算法

CLARANS[2,6,9]也叫随机搜索聚类算法,是一种分割聚类方法。该算法是基于CLARA算法的改进,与CLARA算法不同的是:CLARA算法在每个阶段都选取一个固定样本,而CLARANS在搜索的每一步都带一定的随机性选取一个样本,在替换了一个中心点后得到的聚类结果被称为当前聚类结果的邻居,搜索的邻居点数目被用户定义的一个参数加以限制。如果找到一个比它更好的邻居,则把中心点移到该邻居节点上,否则把该点作为局部最小量,然后再随机选择一个点来寻找另一个局部最小量。

该算法能够探测孤立点,并适用于大型数据库,但其计算复杂度复杂度较高,大约为O(n2);此外,该算法对数据输入的顺序敏感,适用于凸形或球形数据。

3.4 CURE算法

CURE[6,7,8]算法是一种使用代表点的聚类算法。该方法首先把每个数据点看成一簇,然后再以一个特定的收缩因子向中心“收缩”,即合并两个距离最近的代表点的簇,直至达到预先给定的聚类个数为止。它回避了用所有点或单个质心来表示一个簇的传统方法,将一个簇用多个代表点来表示,使CURE可以适应非球形的几何形状。另外,收缩因子降底了噪音对聚类的影响,从而使CURE对孤立点的处理更加健壮,而且能识别非球形和大小变化比较大的簇。

该算法采用随机抽样与分割相结合的方法来提高聚类效率,对于大型数据库,它也具有良好的伸缩性,运行速度很快,而且有较好的聚类效果,其计算复杂度为O(n)。

3.5 DBSCAN算法

DBSCAN算法[6,7,8,9]是一种基于高密度连接区域密度的聚类算法。该方法将密度足够高的区域划分为簇,并可以在带有“噪声”的空间数据库中发现任意形状的聚类。其主要的思想是通过检查数据库中每个点的ε-邻域来寻找聚类。如果第一个点p的ε-邻域包含多于MinPts个点,则创建一个以P作为核心对象的新簇,否则先把它暂时标为噪声点,跳到下一个点,并判断它是否为核心点。然后反复地寻找从这些核心点直接密度可达的对象,当没有新的点可以被添加到任何簇时,该过程结束。

该算法可以数据集中的所有簇和噪声,但其不对数据集进行预处理而直接进行聚类操作,当数据集很大时,占用内存很大,而且I/O消耗也很大,如果采用空间索引,其计算复杂度为O(nlogn),否则,其计算复杂度为O(n2)。

3.6 STING算法

STING算法[2,3,8]是一种基于风格的多分辨率聚类技术,它将空间区域划分为矩形单元。针对不同级别的分辨率,通常存在多个级别的矩形单元,这些单元形成了一个层次结构,高层的每个单元被划分为多个低一层的单元,高层单元的统计参数可以很容易地从低层单元计算得到,而统计信息的查询则采用自顶向下的基于网格的方法。这些参数包括:属性无关的参数count;属性相关的参数m(平均值)、s(标准偏差)、min(最小值)、max(最大值)以及该单元中属性值遵循的分布(distribution)类型。该算法预先计算和存储每个单元的统计信息,它不依赖于查询的汇总信息。

该算法主要优点是效率高,有利于并行处理和增量更新;它通过扫描数据库一次来计算单元的统计信息,因而其计算复杂度为O(n)。在层次结构建立后,其查询处理的计算复杂度为O(m),其中m为最低层网格单元的数目。其缺点是聚类质量取决于网格结构最低层的粒度,粒度的大小会明显影响处理代价,特别是当数据集的维数较高时,由于生成网格层次及每一层的单元数较多,算法的效率会降低。

3.7 模糊聚类算法(FCM)

传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某类中,具有“非此即彼”的性质;而在实际中,大多数对象并没有严格的属性,它们在性态和类属方面存在着中介性,具有“亦此亦彼”的性质;鉴于此,人们开始用模糊的方法来处理这类问题,从而产生了模糊聚类的方法,也就是说,模糊聚类法[5]是将模糊数学的思想观点用到聚类分析中产生的方法,其关键是隶属函数的确定。该方法多用于定性变量的分类。其主要算法如下:

(1)选择一个初始模糊分类方案,将n个样本分成k个模糊类,得到一个模糊隶属度矩阵U={uij,i=1,2,…,n;j=1,2,…,k},其中uij表示样本Xi对模糊集Cj的隶属度,uij∈[0,1];

(2)利用矩阵 计算模糊评判函数的值,模糊评判函数通常是一个与对应的分类相联系的加权平方误差和

是第k个模糊集的中心,重新分配样本到各模糊集以减少评判函数的值并重新计算U;

(3)重复(2),直到矩阵U不再有较大的变动。

模糊聚类解决了一些混合对象的归类问题,同时,当样本数较少的时候,应用该方法的优越性也比较明显,另外,其抗干扰的能力也较强;但是,它对一些隐含类的提取能力还有待于进一步的改进,除此之外,预定的分类数目一般也是人为决定的,同动态聚类一样,就可能出现人为预定的分类数与实际存在的类数不相符这种情况,从而影响分类的结果。

4 聚类的性能比较

基于上述的分析,现从可伸缩性、类的形状识别、抗噪声能力、处理高维能力和算法效率五个方面对常用聚类算法的性能进行了比较,结果如下表。通过这些比较,可以给聚类算法研究和应用的选择提供参考。

5 结束语

目前,已经提出的聚类算法很多,每种方法都有其优缺点和不同的适用领域,可以根据上述的分析,选择适合特定问题的聚类方法;但是,在实际应用中,由于数据的复杂性,往往用某种聚类算法进行聚类划分得到的效果不佳,可能要综合多种聚类方法才能得到较好的聚类效果。因此,在将来的研究中,需要做好对现有聚类算法的改进和融合,以便得到更好的聚类方法。

参考文献:

[1] 孙孝萍.基于聚类分析的数据挖掘算法研究[D].硕士学位论文,2002.4.

[2] 覃拥军,刘先锋.数据挖掘中的聚类研究[J].科技咨询导报,2007(16):28-30.

[3] 梁志荣.数据挖掘中聚类分析的技术方法[J]. 电脑开发与应用,2007,20(6):37-39.

[4] 谷淑化,吕维先,马于涛.关于数据挖掘中聚类分析算法的比较[J].现代计算机,2005(3):26-29.

[5] 黄利文.基于几何概率的聚类分析[D]. 硕士学位论文,2006(1).

[6] 张红云,刘向东,段晓东等.数据挖掘中聚类算法比较[J].计算机应用与软件,2003(2):5-6.

[7] 王劲波,翁伟,许华荣.数据挖掘中基于密度的聚类分析方法[J].统计与决策,2005(10):139-141.

[8] 刘泉凤,陆蓓. 数据挖掘中聚类算法的比较研究[J].浙江水利水电专科学校学报,2005,17(2):55-58.

[9] 丁学钧,杨克俭,李虹等.数据挖掘中聚类算法的比较研究[J].河北建筑工程学院学报,2004,22(3):125-127.

收稿日期:2008-02-17

第6篇

经整理发现,不少的医学论文在数据、资料的统计分析方式的使用上存在一定的问题。尤其是一些刚接触医学论文写作的人,对统计分析方法的选择更是一团糟。就这种情况,为大家奉上医学论文统计分析方法总结,助大家通过这一难关。

关于医学论文数据、资料的统计分析方法,总结如下:

1.定量资源

对于定量资料,应根据所采用的设计类型、资料所具备的条件和分析目的,选用合适的统计分析方法,不应盲目套用t检验和单因索方差分析;

2.定性资源

对于定性资料,应根据所采用的设计类型、定性变量的性质和频数所具备的条件以及分析目的,选用合适的统计分析方法,不应盲目套用X-检验;

3.回归分析

对于回归分析,应结合专业知识和散布图,选用合适的回归类型,不应盲目套用简单直线回归分析,对具有重复实验数据的回归分析资料,不应简单化处理;

4. 多因索、多指标资料

对于多因索、多指标资料,要在一元分析的基础上,尽可能运用多元统计分析方法,以便对因索之间的交互作用和多指标之间的内在联系作出全面、合理的解释和评。

以上医学论文统计分析方法总结由整理所得,更多医学论文统计分析方法总结的相关知识欢迎登陆咨询、查看。

第7篇

关键词:环境空气检测;数据分析;处理方法;异常数据

Abstract: with the rapid development of society, people's living standard is getting higher and higher, at the same time, with the coming of the decline in quality of the environment, now the city air quality problems frequently bright red light, people pay more and more attention to the quality of the environment. The rapid development of modern technology, the air environmental detection of artificial detection is less and less, more and more automatic detection, bring people a lot of convenience. This paper analysis the ambient air monitoring data, to detect abnormal data analysis, as well as to these abnormal data how to correctly handle.

Keywords: environmental air monitoring; data analysis; data processing method; abnormal

中图分类号:F205文献标识码:A文章编号:2095-2104(2013)

环境空气自动检测系统早已在空气质量检测中运用娴熟,在我国的各个城市的空气质量检测得到广泛的运用。环境空气自动监测系统是基于干法仪器的生产技术,利用定电位电解传感器原理,结合电子技术和网络通讯技术,研制、开发出来的最新科技产品,是开展城市环境空气自动监测的理想仪器。

目前,我国有上百个城市都运用了此系统来进行城市空气质量的检测。但是,这个系统也并不是百利无一害的,因为检测中会面临一些气候异常现象、还有设备的维修、断电现象,诸如此类的现象会导致环境空气自动检测系统出现一些异常数据,这就需要工作人员对这些异常数据进行分析探讨,促进环境空气质量检测数据的标准化。

1环境空气自动检测系统的组成部分

环境空气自动检测系统可对环境空气质量进行24小时自动连续检测。该系统由检测中心站、检测子站和质量保证实验室组成。其中空气环境检测子站包括采样系统、气体分析仪器、校准装置、气象系统、子站数据采集等。子站检测的数据通过电话线传送至环境检测中心站进行实时控制、数据管理及图表生成。

检测的项目为:SO2、NO、NO2、NOx、CO、O3、PM10、气象的五个参数(即:风向、风速、温度、相对湿度、大气压力)子站计算机可连续自动采集大气污染监测仪、气象仪、现场校准的数据及状态信息等,并进行预处理和贮存,等待中心计算机轮询或指令。采样集气管由采样头、总管、支路接头、抽气风机、排气口等组成。远程数据通讯设备由调制解调器和公用电话线路组成,有线调传或直接使用无线PC卡(支持GPRS)。

2异常数据

环境空气自动检测系统在24小时无人值班的情况下检测中,经常会出现一些异常数据。据统计,我国每年实时检测的上万个检测数据中有0.95%——3.18%的异常数据,这些数据主要表现在一下几个方面:

2.1可预知的异常数据

有的异常数据是因为仪器自身出现的故障、断电等问题产生的,这种可预知的数据一般而言是不需要进行分析的,这种可预知的异常数据被视作为无效数据,不参与均值计算。

2.2数据出现负值

出现负值的数据会有两种情况,第一种是:检测的环境中气体浓度极低,接近于仪器的零点值,这个时候会因为仪器的零点漂移而产生负值的数据。第二种是因为仪器本身的故障导致的负值,这种就作为无效数据,不予分析。

2.3数据在零值附近徘徊

单个检测子站的某项污染物的浓度出现极高值时,就会导致数据在零值附近徘徊5个小时以上。这个时候,要根据周围的环境、气象、风向等来分析判断。

2.4突然产生的异常数据

有的时候,当外界环境发生急剧的变化时就会导致检测的数据突然的发生异常情况,一般情况下只有当发生突然的空气污染问题时才会出现这种情况,也就是空气中某一种或者几种大气污染物的浓度突然的急剧增加。这种情况需要工作人员根据当地的环境和以往的经验进行判断分析数据,对出现的异常数据进行正确的取舍,将无效的数据不参与均值计算。

3处理方法

子站临时停电或断电,则从停电或断电时起,至恢复供电后仪器完成预热为止时段内的任何数据都为无效数据,不参加统计。恢复供电后仪器完成预热一般需要0.5~1 小时。

对于低浓度未检出结果和在监测分析仪器零点漂移技术指标范围内的负值,应该取监测仪器最低检出限的1/2 数值,作为检测结果参加均值计算。

有子站自动校准装置的系统,仪器在校准零/跨度期间,发现仪器零点漂移或跨度漂移超出漂移控制限,应从发现超出控制限的时刻算起,到仪器恢复到调节控制限以下这段时间内的检测数据作为无效数据,不参加均值计算,但要对该数据进行标注,作为以后的参考数据保留。

对于手工校准的系统,仪器在校准零/跨度期间,发现仪器零点漂移或跨度漂移超出漂移控制限,应从发现超出控制限时刻的前一天算起,到仪器恢复到调节控制限以下这段时间内的监测数据作为无效数据,不参加统计,但对该数据进行标注,作为参考数据保留。

在仪器校准零/跨度期间出现的异常数据作为无效数据,不参加统计,但应对该数据进行标注,作为以后仪器检查的依据予以保留。

结束语

随着社会的发展,环境保护工作受到的关注越来越多,城市规模的不断扩大给城市环境带来了各种各样的问题,人们对环境质量的要求也越来越高。对环境的保护很重要的根据就是环境空气检测的数据,这些数据是做好环境保护工作的依据。而在环境空气检测系统中经常会出现一些异常数据。对这些异常数据,先判断是否是因为仪器自身的故障而产生的数据,排除这些无效的数据之外的异常数据,要根据具体情况进行分析,寻找出出现异常数据的原因,然后找出解决问题的具体方法,保证环境检测系统能够健康安全的运转下去,为环境保护工作贡献自己的一份力量。

参考文献:

[1]杨亚洋.环境空气监测数据分析及处理[J].中国新科技新产品,2011(23)

[2]娄明军.环境空气监测全程质量控制分析[J].科技致富向导,2012(33)

[3]王志新.城市环境空气质量监测数据管理系统的建立及应用[J].化学工程与装备,2010(08)

第8篇

【关键词】企业并购;目标企业;数据包络分析方法

【Abstract】With the vigorous development of China’s economy, the development of modern enterprises in mergers and acquisitions played a pivotal role, and also an important way to the development of enterprises mergers and acquisitions. M & A target company’s choice is a key part of mergers and acquisitions, Acquirer when choosing target enterprise for its particular advantage the target enterprise, to eliminate or control to improve the competitive power of itself. Companies usually choose the target company in the implementation of M & A process methods are: corporate indicators and data envelopment analysis (DEA) methods. Through a comprehensive analysis and comparison, the data envelopment analysis (DEA) method is a more efficient method of choosing the target company.

【Key words】Mergers and acquisitions; Target company; Data Envelopment Analysis

0 引言

目前企业产业化加剧集中,为使企业能够更快地发展,企业并购已成为一种必然趋势。企业并购的实质是企业控制权的一种权利变迁。并购过程需要在特定约束条件下才能够进行,在并购中一部分权利所有者通过让出所拥有的控制权,而另一部分权利所有者则付出某些代价来分别换取相应的利益。实际上,企业并购的过程是权利主体不断变换的过程。

目标企业的选择是一项复杂的工作,通过多角度全方位衡量一个企业的运营管理、财务管理、人力资源管理、企业文化管理等不同方面, 才能判断是否该企业能够实施企业并购。当前企业并购过程中,目标企业的选择方法层出不穷,有的甚至是面向企业并购后的一些活动研究,但其大多数都是运作性和实践性较差。以往企业实施并购过程选择目标企业一般会运用指标评价法,而指标评价方法的核心是根据理论研究和实践经验,制定出的一系列指标, 依据这些指标对企业进行评估,但在这种评价方法的指导下, 并购之后企业的运营绩效可能并不理想, 甚至许多企业会发现这样的是错误的。因此为解决上述问题,一种新的企业并购方法即数据包络分析(DEA)方法被提出。稻莅络分析(DEA)方法是同时考虑多个输人指标和多个输出指标, 判定哪些企业符合并购的条件和标准,对于那些不符合并购标准的企业给出改进的意见。

1 数据包络分析(DEA)评价方法

1.1 DEA评价方法的概述

数据包络分析(Data Envelopment Analysis,简称DEA)由查恩斯等学者提出,通过不断地运算研究,把单输入单输出的理论演变到多输入多输出,尤其是多输出的同类型决策单元(DMU)的有效性评价中。DEA 是运用数学模型来评价具有多个输入和多个输出的“部门”或“单元”的相对有效性。依据DMU的每个观测数据判别其是否有效,实际上是判别各DMU 是否位于生产可能集的“前沿面”上。DEA方法的基本思想是,一个决策单元的输出矢量是由其他DMU输出向量从“顶”包络,输入向量是从“底”的其他输入向量包络,如果某个DMU 的输人和输出向量不能同时被包络时, 认为决策单元DEA为有效决策单元,否则是无效决策单元。

1.2 DEA基本模型

在实际市场运营中,企业常会遇到多输入多输出情形,尤其是针对多输出的生产过程,方法解决很难找到。在1978年,运筹学家查恩斯等运用数学模型得出最基本的C2R模型。C2R 模型有两种形式,一种是分式规划,另一种是线性规划,这两种形式是等价的。考虑到计算方便本文将采用线性规划形式。

依据凸性、锥性、无效性和最小性的定理假设,可以得出以下带有非阿基米德无穷小量ε的C2R模型:

1.3 输入、输出指标的选择

DEA方法的输人、输出指标的选择必须遵循以下的原则:(1)指标是可获取的;(2)该指标是可测量的;(3)该指标能够反映企业的实际情况。根据以上标准, 综合考虑企业在实施并购过程中的特点和要求, 制定出以下DEA评价方法的输入、输出指标,如表1所示。

表1 DEA方法的输入、输出指标

1.4 DEA模型在企业并购中的应用及其结构分析

假设有n 个待评价的决策单元(DMU),有n个输入指标,有s个输出指标。如果这是用来评估的输入输出线性组合之比决策,其输出的决策单元的线性组合的比值小于或等于1,从而构成一个相对有效评价的DEA计算模型, 即CCR模型:

从以上结果, 可以看出: 企业1 和企业2 对应的有效值分别为0.946 和0.9 52, 均属于非DEA有效。企业3 的有效值为1 , 属于DEA 有效。表中松弛变量反映了各企业的输人变量和输出变量的调整程度。举例来说, 企业2 需要增加42 名员工, 增加63万元的财政拨款, 并降低39%的资产负债率, 才能够达到DEA有效。因此,企业3是理想的并购对象。

2 结论

根据上述的分析,在企业的并购过程中采用数据包络分析(DEA)方法能够有效的解决目标企业的评估和选择的问题,通过DEA方法的指导,并购的企业可以在众多的目标企业中选择出较为理想的并购企业。与企业的指标评价法相比较,数据包络分析(DEA)方法的优点:

(1)多个输入和多个输出可以同时考虑,而不用确定单个输入和输出的权重;

(2)DEA方法不但能够处理组内信息,还能够处理组间信息,在给出评价结果的同时,还可以给出具体的改进意见;

(3)“局部优化的思想”―求现实中的最优解,而非理想中的最优解。

【参考文献】

[1]马占新.数据包络分析方法的研究进展[J].系统工程与电子技术,2002,3(24):42-46.

[2]李亮,崔晋川.DEA方法中输入输出项目的选择和数据处理[J].系统工程学报,2003,6(18):487-490.

[3]张俊荣,郭耀煌.评价指标与DEA有效性的关系,系统工程理论与方法应用,2004.12.

[4]李美娟,陈国宏.数据包络分析法的研究和应用,中国工程科学,2003.6.

[5]魏权龄.数据包络分析,科学出版社,2004.8(1).

[6]张雯,孙茂竹.企业并购及其绩效.经济与管理研究,2012(8):5-13.

[7]姜付秀,张敏.并购还是自行投资:中国上市公司扩张方式选择研究.世界经济,2008(8):78-84.

[8]吴文江.只改变输出使决策单元变为DEA有效.系统工程,1995,13(2):17-20.

第9篇

关键词:透明数据加密 性能 SQL Server

中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2013)03-0237-02

1 引言

数据库的安全性对数据库的管理工作是非常重要的内容,通过网络防护,设置身份验证和授权机制,可以防止外界对数据库的攻击。但是,在设计某些应用系统时,并不希望数据库的合法用户甚至数据库管理员能够看到所有的数据内容,这就需要我们应用数据库的加密技术。加密可以放在前台应用程序,也可以放置于后台数据库。目前,SQL Server数据库提供了多种层次的加密方式供选择,在SQL Server2008之后引入的透明加密技术,能够防止恶意破坏方对数据库文件的直接访问,对于之前数据加密方式进行了有效补充,可以更好的满足程序开发和数据库管理的需求。

2 透明数据加密技术

透明数据加密(TDE)是对整个数据库文件进行保护,不局限于数据库表的字段和记录,而是整个数据库和日志文件。它是应用于页面级别的,数据在从磁盘上写入之前和读取之后分别进行加密和解密。这些加解密操作,对于数据库应用程序来说是完全透明的,不需要对应用程序进行升级。

SQL Server的加密是基于密钥层次的。在结构的顶部是一个唯一的服务主密钥,对于TDE所使用的加密密钥采用如下的层次进行保护的,服务主密钥数据库主密钥证书数据加密密钥。 SQL Server提供以下几种加密算法:DES、RC、AES以及其加强算法。它们在速度和强度上都不一样。

3 实现

数据库加密密钥受主密钥和证书的保护,如果要使用透明数据加密,首先需要确定已创建了主密钥和受主密钥保护的证书,接着才能生成受证书保护的数据库加密密钥,然后使用加密密钥保护数据库。

下面以加密MyDatabase数据库为例。

--创建主密钥和证书。

USE master;

GO

CREATE MASTER KEY ENCRYPTION BY PASSWORD = 'pwd#$12345';

GO

CREATE CERTIFICATE MyServerCert WITH SUBJECT = 'DEK Certificate';

GO

--生成数据库加密密钥。

USE MyDatabase;

GO

CREATE DATABASE ENCRYPTION KEY WITH ALGORITHM = AES_128

ENCRYPTION BY SERVER CERTIFICATE MyServerCert;

GO

创建密钥后,使用alter命令或者数据库属性来设置数据库加密或解密。

--加密数据库。

ALTER DATABASE MyDatabase SET ENCRYPTION ON;

GO

如果尝试在另一个SQL Server上还原或者附加该数据库时,会出现以下错误,这说明数据库的保护是有效的。

Msg 33111, Level 16, State 3, Line 1

在正常备份或者还原数据库的同时,就需要附带生成的证书。

--备份证书。

BACKUP CERTIFICATE MyServerCert TO FILE = 'C:\ MyServerCert.cert' WITH PRIVATE KEY

FILE = 'C:\ PrivateKey1.key',

ENCRYPTION BY PASSWORD = 'pwd#$987654'

);

GO

--恢复证书。

CREATE CERTIFICATE MyServerCert FROM FILE = ' C:\ MyServerCert.cert ' WITH PRIVATE KEY

FILE = 'C:\ PrivateKey1.key',

DECRYPTION BY PASSWORD = ' pwd#$987654'

);

GO

4 分析

透明数据加密可以保证数据库文件的安全性,但对于性能要求比较高的应用程序来说,不得不考虑由此带来的额外性能消耗,一些实验表明访问加密数据库的平均消耗时间成本增加了6.36%[3], 如果采用强度更高的算法和密钥,消耗可能会继续加大。

另外,使用透明数据加密时,还需要考虑以下限制因素:当进行数据库加密操作的重新加密扫描时,将禁用对数据库的维护操作;如果将数据库中的任何文件组标记为 READ ONLY,数据库加密操作将会失败;数据库加密会显著降低压缩率;复制不会以加密形式从启用了 TDE 的数据库中自动复制数据;即使启用了TDE,也不会加密 FILESTREAM 数据。

在实际应用中,需要综合考虑安全性和实用性的要求,采取适当的策略,比如增加硬件投入,只加密关键数据库,降低加密算法的强度,结合其它数据加密方法等,以达到最佳的应用效果。

5 结语

SQL Server的透明数据加密方法,是一种简单实用的全数据库加密方法,能够有效保护数据库文件。对于它的一些限制以及少量增加的性能消耗,需要选择合适的加密策略,以平衡对应用程序带来的影响。

参考文献

[1]刘云.筹划和实施SQL Server 2008透明数据加密[J].计算机光盘软件与应用,2012(2).11-12.

第10篇

关键词:地理信息系统;数据采集;方法

中图分类号:P208文献标识码:A文章编号:

1 地图数据采集

在我国现今的状况下,地图数据采集应用的范围很广。它可以充分利用现有数据,提高效率,因此本节就该方法进行详细介绍。

1.1 地图矢量化

纸质地图经扫描仪扫描后,初步保存为栅格图像(常见的格式有TIFF、BMP、PCX、JPEG等)。栅格图像,也称光栅图像,是指在空间和亮度上都已经离散化了的图像。栅格图像在地理应用领域有着这样的缺陷:首先,栅格图像文件对图像的每一像素点(不管前景或背景像素)都要保存,所以其存储开销特别大。另外,我们不能对图像上的任一对象(曲线、文字或符号)进行属性修改、拷贝、移动及删除等图形编辑操作,更不能进行拓扑求解,只能对某个矩形区域内的所有像素同时进行图像编辑操作。此外,当图像进行放大或缩小显示时,图像信息会发生失真,特别是放大时图像目标的边界会发生阶梯效应,正如点阵汉字放大显示发生阶梯效应的原理一样。而矢量图形则不同。在矢量图形中每个目标均为单个矢量单位(点、线、面)或多个矢量单位的结合体。基于这样的数据结构,我们便可以很方便地在地图上编辑各个地物,将地物归类,以及求解各地物之间的空间关系。并有利于地图的浏览、输出。

1.2 地图数据采集方法

在地图数据采集中,又分为以下两种方法:

1.2.1 手扶跟踪数字化

手工数字化时,是将地图固定在数字化桌上,用固定设备跟踪地图特征,数字化桌可以做到1m×1.5m或更大。三个主要步骤:第一步是连接数字化仪,第二步是图板定向,将图板上地图的图廓点或大地控制点作为定向的地面坐标(Xi,Yi),用数字化仪的游标十字丝对准相应的图廓点或控制点,系统自动读取这些坐标(xi,yi),将这两组坐标按照下列方程式列出误差方程:

采用最小二乘法可解算变换参数。第三步是图形数字化。手工数字化是一项枯燥的工作,操作员的情绪会严重影响数据质量,工作计划应限制在每个独立工作日几个小时,应有适当的质量保证措施,以确保数字化的数据和与之相联系的属性数据满足精度标准。通常用于质量检查时的方法是绘制检查图与原图进行比较。

1.2.2 扫描矢量化

扫描矢量化是先把地形底图用自动扫描仪扫描输入计算机,然后进行矢量化。自动扫描仪对图形扫描时,从光源发出的光照射在图片上,光电转换接收从图像反射回来的光,并把它转换成模拟电信号,经过转换变成数字信号送入计算机。具体地说,具有感应功能的扫描头按规定的间隔作机械运动,其路径遍布整个带扫描的图形区域,一系列连续扫描线由栅格的基本单元(像元)组成,这些像元记录图像存在或不存在,以光栅图形存入计算机。光栅图经变形纠正后在软件平台上作为背景,在屏幕上对其进行分类、跟踪和捕捉。首先用“细化”处理的算法在像元形成的粗线划中贯通一条细线,这线被认为是原图上的线;其次用“剔除”算法抽掉细线上比实际需要多的多余点,以限制文件长度,节省存贮空间;最后生成分层矢量图。这就是图形矢量化的过程。这种方法的优点是精度高,扫描得到的栅格数据便于空间定位分析。

1.3 地图扫描矢量化法

基于二者采集过程中的优缺点,再结合实际,因此,在内业的数据采集过程中一般采用扫描矢量化的方法进行。在基于地图扫描矢量法、基于数字正射影像提取法、基于摄影测量法中,因基于地图扫描矢量法所占比重最大,而且步骤较其他两种更为复杂,所以下面就其加以着重介绍。在进行扫描矢量化的过程中应注意到以下几个要求:

1.3.1 基础资料的质量:基础资料分为纸质图和薄膜图。复制薄膜图必须符合作业规程中的要求,当原图确有质量问题,要进行处理才能使用。

1.3.2 预处理图的质量:经过预处理后的地图必须符合规程中的要求。

1.3.3 扫描地图的质量:扫描地图是否按要求的格式命名和文件组织存储,它的完整性和地图质量是否达到要求,不粘连,不发虚。

1.3.4 矢量化:在屏幕上将矢量数据和栅格影像叠合显示,检查应数字化的要素是否有遗漏,是否存在短小毛刺,高程赋值有无粗差,补绘的等高线是否合理,要素之间是否有不合理的粘连或打结并且不应该有多边形错误和不合理的悬挂节点。

1.3.5 数据转换建立拓扑关系:在建立前必须检查以下几点:图廓点的坐标值及点号是否正确,坐标转换误差是否符合精度要求,各数据层的正确性,每一层的拓扑关系是否正确,每一个属性表是否正确,属性项的名称、定义和顺序是否符合规定要求,属性值是否超过值域范围,各属性项的值的正确性。以上内容可利用程序检查和人机交互检查,也可绘图输出进行检查。

1.3.6 接边检查:检查各要素是否与本图图廓线严格相接和相邻图幅要素是否全部接边,属性值是否一致。以上使用程序检查或交互式检查。

1.3.7 位置精度和属性精度检查:即检查位置精度、属性代码的正确性和属性精度的完整性与逻辑一致性。绘图检查也是一种可行的方法,可以充分利用人力资源。

1.3.8 产品归档检查:检查各种数据资料、图形资料、文档资料是否齐全,存储数据的

介质和规格是否按规定要求,数据是否可用,文件组织、文件命名是否按规定要求和备份的数量。

2 利用GEOWAY进行数据采集

2.1 Geoway产生的背景及功能从传统测绘产品到数字化制图,从全新4D基础地理信息产品生产模式再到空间数据基础设施建设,数字化技术的飞速发展极大地丰富了空间数据的产品内容和形式,信息化社会对地理空间信息的应用深度和广度提出了越来越高的要求。在现今的数据生产流程中,数据采集、数据处理和产品制作往往是在同一个软件内完成的。一种数据采集软件生产一种或多种特定用途的数据成果,不同的数据采集软件具有不同的数据采集方式、数据处理方式、数据产品形式或数据成果格式。数据采集与数据处理以及产品制作的一体化,虽然保证了单个软件数据生产的独立性和完整性,但数据处理 的多样化势必导致生产过程的重复和浪费,生产技术规范的不统一,也给生产管理带来困难。

2.2 Geoway工作流程

Geoway的操作过程如下:

图1 地图扫描矢量化法流程图

2.2.1 建立工程

a.纸图图像预处理:扫描时要调整好扫描仪,使图纸的扫描尽量清晰。b.方案设计:方案为软件进行矢量化提供前提,因此方案的设计应该符合实际操作的需要。c.以矢量化任务新建工程:设置创建工程所需的各种参数(如图像路径、工程路径、比例尺等)图像单点配准(如果背景图已纠正,但不含坐标信息),还原大地坐标。d.采集作业:使用线跟踪、边角提取等快速矢量化命令交互式采集纸图中原有的地物图形。在采集图形过程中运用“属性同步输入”或在采集后批量输入图形属性。

2.2.2 质量控制

在GIS数据的生产过程中,总是会产生一些不可避免错误。错误的原因和形式是多种多样的,Geoway根据现象大致分为:图形检测、属性检测、拓扑检测、其他检测。因此,数据采集完毕以后,作业员要进行作业初期自查。

2.2.3 图幅接边

由于不可避免的原因,两个独立采集的相邻图幅地图在结合处可能出现属性裂隙(同一个物体在两个工程中具有不同的属性信息)和几何裂隙(由两个工程边界分开的一个地物的两部分不能精确的衔接),因此在GIS和机助制图中,需要把相邻的图幅之间的空间数据在属性和几何上融成一个连续一致的数据体,这个过程就是接边。

2.2.4 制图

a.图幅整饰:图幅整饰包括图名、方里格网、图幅外注记、比例尺、坡度尺等内容,对地形图来说,图幅整饰的内容和注记的大小等均有严格的规定,必须符合规范和图式的要求。b.符号属性编辑。c.符号表现属性设置。d.打印出图或者执行符号化输出命令后导出交换格式文件。Geoway数据格式是以层格式存储的,对图层的卸载与加载非常方便。符号化输出,就是把一个作为整体的符号打散为基本的几何单元,如点和线,以便于在其它图形环境中,没有相应符号库的情况下,符号的式不至于改变。将矢量数据符号化,形成各行业特有的地物符号。

3 结语

数据采集中的地图矢量化很符合现代社会信息的要求,是现代测绘的发展方向。而数据采集中的矢量化已成为各个领域特别是测绘行业的一个很重要的工作。为尽快解决矢量化中存在的一系列问题,使矢量化逐步社会化。

参考文献:

第11篇

    面板数据模型是当前学术界讨论最多的模型之一。传统的面板数据模型实际上是一种条件均值模型,即讨论在给定解释变量的条件下响应变量均值变化规律。这种模型的一个固有缺陷是只描述了响应变量的均值信息,其他信息则都忽略了。然而,数据的信息应该是全方位的,这种只对均值建模的方法有待改进。Koenker等提出的分位回归模型是对均值回归模型的一种有效改进,该模型可以在给定解释变量后对响应变量的任意分位点处进行建模,从而可以从多个层次刻画数据的分布信息[1]。同时,分位回归的参数估计是通过极小化加权残差绝对值之和得到,比传统均值回归模型下二次损失函数获得的最小二乘估计更为稳健[2]。

    对于简单的线性模型,与分位回归方法相对应的参数点估计、区间估计、模型检验及预测已经有很多成熟的研究结果,但有关面板数据模型的分位回归方法研究文献还不多见。Koenker对固定效应的面板数据模型采用带Lasso惩罚的分位回归方法,通过对个体固定效应实施L1范数惩罚,该方法能够在各种偏态及厚尾分布下得到明显优于均值回归的估计,然而惩罚参数如何确定是该方法的一个难点[3];罗幼喜等也提出了3种新的固定效应面板数据分位回归方法,模拟显示,这些新方法在误差非正态分布情况下所得估计优于传统的最小二乘估计和极大似然估计,但新方法对解释变量在时间上进行了差分运算,当解释变量中包含有不随时间变化的协变量时,这些方法则无法使用[4];Tian等对含随机效应的面板数据模型提出了一种分层分位回归法,并利用EQ算法给出模型未知参数的估计,但该算法只针对误差呈正态分布而设计,限制了其应用范围[5]。以上文献均是直接从损失函数的角度考虑分位回归模型的建立及求解;Liu等利用非对称拉普拉斯分布与分位回归检验损失函数之间的关系,从分布的角度建立了含随机效应面板数据的条件分位回归模型,通过蒙特卡罗EM算法解决似然函数高维积分问题[6];Luo等则在似然函数的基础上考虑加入参数先验信息,从贝叶斯的角度解决面板数据的分位回归问题,模拟显示,贝叶斯分位回归法能有效地处理模型中随机效应参数[7];朱慧明等也考虑过将贝叶斯分位回归法应用于自回归模型,模拟和实证显示该方法能有效地揭示滞后变量对响应变量的位置、尺度和形状的影响[8]。

    然而,上述方法均不能对模型中自变量进行选择,但在实际的经济问题中,人们在建立模型之前经常会面临较多解释变量,且对哪个解释变量最终应该留在模型中没有太多信息。如果将一些不重要的噪声变量包含在模型之中,不仅会影响其他重要解释变量估计的准确性,也会使模型可解释性和预测准确性降低。Park等在研究完全贝叶斯分层模型时提出了一种新的贝叶斯Lasso方法,通过假定回归系数有条件Laplace先验信息给出了参数估计的Gibbs抽样算法,这一工作使得一些正则化的惩罚方法都能够纳入到贝叶斯的框架中来,通过特殊的先验信息对回归系数进行压缩,该方法能够在估计参数的同时对模型中自变量进行选择[9-10]。Alhamzawi等将贝叶斯Lasso方法引入到面板数据分位回归模型中来,使得在估计分位回归系数的同时能够对模型中重要解释变量进行自动选择[11-12]。但是,上述研究中均假设回归系数先验分布所依赖的条件参数对所有解释变量都是相同的,也即对所有分量压缩程度一样,正如Zou所指出,这样得到的回归系数估计将不是无偏估计[13]。为了改进这一缺陷,本文拟构造一种自适应的贝叶斯Lasso分位回归方法,即假定回归系数的每个分量先验分布都依赖不同的条件参数,从而对不同的解释变量施加不同的惩罚权重,这不仅能够改进回归系数估计偏差,而且能够自动压缩模型中非重要解释变量回归系数为0,达到变量选择的目的。虽然面临需要估计更多参数的困境,但本文通过对Laplace分布的分解和引进辅助变量构造的切片Gibbs抽样算法能够快速有效地解决这一问题[14]。

    二、模型及方法

    (一)面板数据的贝叶斯分位回归模型

    定义1 考虑含多重随机效应的面板数据模型,定义给定τ时的条件分位回归函数如下:

    F104Y501.jpg

    为从贝叶斯的角度估计(1)的条件分位回归函数,我们假定响应变量F104Y502.jpg服从非对称Laplace分布(Asymmetric Laplace Distribution,ALD),即其密度形如:

    F104Y503.jpg

    F104Y504.jpg

    (二)非对称Laplace分布分解与自适应先验信息的选取

    显然,给定适当的先验信息后,上述模型(4)即可以通过一般的MCMC方法进行求解。然而,考虑到非对称Laplace分布没有共轭先验,这将为MCMC算法的估计带来极大的计算负担,为此给出非对称Laplace分布的一个重要分解:

    F104Y505.jpg

    利用引理1,ALD分布可以表示为正态和指数两个常见分布的混合,这为后面建立未知参数的Gibbs抽样算法带来了极大方便。关于先验信息,选取的方法很多,其中共轭先验信息选取法由于其计算推导简洁应用最为广泛。对于随机效应通常假定F104Y506.jpg;对于尺度参数F104Y507.jpg,其中IG(a,b)表示参数为a,b的逆Gamma分布。

    对于参数β,如果按照通常共轭先验信息的选取方法则为正态分布,但这一先验分布无法起到变量选择的作用。Alhamzawi等将Laplace先验引入到贝叶斯分位回归模型中来,使得在估计分位回归系数的同时能够对模型中重要解释变量进行自动选择,改进了正态分布先验的缺陷。需要指出的是,虽然他们提出的先验能够对解释变量系数进行压缩起到变量选择的作用,但其所依赖的条件参数λ对β的所有分量都是相同的,也即对所有分量压缩程度一样,这显然会限制了β变化的灵活性,与实际中不同的解释变量应该有不同的权重也不符。为了改进这一缺陷,本文在其基础上提出一种自适应的β先验信息分布假设:

    F104Y508.jpg

    由式(3)及式(6)不难得到β的后验分布为:

    π(β|y,σ,λ)

    F104Y509.jpg

    于是极大化β后验对数密度函数等价于极小化:

    F104Y510.jpg

    从而可以获得与自适应Lasso惩罚相对应的贝叶斯自适应Lasso分位回归方法。另外值得一提的是,式(6)中先验条件依赖于σ也很重要,正如Park等所指出,它能够保证后验密度是单峰的。如果没有条件依赖于σ,则后验密度可能不再是单峰的,缺少单峰性质不仅会使得后面的Gibbs抽样 算法收敛速度变慢,而且所得估计结果意义不大[9]。

    (三)参数估计的切片Gibbs抽样算法构造

    上述提出的自适应β先验虽然具有自动的对模型中解释变量进行选择且考虑到了不同的解释变量应该对应不同的权重两大优点,但同时也带来了两个难题:一是条件Laplace分布不是共轭先验,从而其后验密度的推导及计算均较为复杂;二是每个解释变量都引进了不同的压缩参数,待估计的未知参数增多,从而加大了计算量。下面将通过引进辅助变量构造一种易于实施的切片Gibbs抽样算法来解决推导及计算上带来的困难[14]。

    F104Y511.jpg

    从式(10)可以看到,通过引入辅助变量S,将(β,S)的联合先验变为了正态与指数分布的混合,假定F104Y512.jpg,则构造了一种易于实施的切片Gibbs抽样算法,该算法中所有未知参数均来自常见分布,从而可利用专门的Gibbs抽样软件WinBUGS来实现后验样本的抽取,而且速度快、操作方便,很容易从抽取的后验样本获得各待估参数的点估计和区间估计以及响应变量预测值。WinBUGS还提供了各种诊断和监视抽取样本是否收敛的图形和方法。

    (四)切片Gibbs抽样算法中各参数条件后验密度的推导

    实事上,与李翰芳等提出的贝叶斯Lasso方法相比,此处切片Gibbs抽样算法中条件后验密度首先发生改变的是参数F104Y513.jpg,模型的似然函数可重写为:

    F104Y514.jpg

    其中GIG(ρ,m,n)表示广义逆高斯分布(generalized inverse Gaussian,GIG)。

    F104Y515.jpg

    另外,与李翰芳等只考虑含随机截距的面板数据模型不同的是,本文考虑了含多重随机效应的面板数据模型,于是对于β:

    F104Y516.jpg

    F104Y517.jpg

    F104Y518.jpg

    由式(11)~(17)得到的各参数条件后验分布有如下Gibbs抽样算法:

    F104Y519.jpg

    9.用每次上步生成的数据值代入下一步生成新的数据,重复2~8步直至收敛。

    三、蒙特卡罗模拟

    Luo等在假设固定效应系数先验为正态分布的情况下对贝叶斯分位回归估计(BQR)、混合数据普通最小二乘估计(LS)、考虑固定效应的最小二乘估计(LSFE)、限制极大似然估计(REML)、混合数据的分位回归估计(QR)、个体效应惩罚的分位回归估计(PQR)进行了比较,结果表明BQR方法均优于其他方法,特别是当误差分布为非正态分布时,分位回归估计明显优于传统的均值估计[3]。李翰芳等在BQR的基础上改进固定效应系数先验分布假设,提出了与Lasso方法等价的贝叶斯Lasso分位回归估计(BLQR),使得在建立面板数据分位回归模型的同时能够对模型中解释变量进行自动选择,通过蒙特卡罗模拟比较发现,BLQR较BQR有更强的排除无关解释变量的能力[12]。考虑到BLQR方法对所有解释变量的压缩权重均相同的缺陷,本文提出了一种贝叶斯自适应Lasso分位回归法(BALQR)进行改进,即对不同的解释变量实施不同的压缩权重。下面将通过蒙特卡罗模拟来比较BQR、BLQR以及本文提出的BALQR在固定效应系数估计、随机效应方差分量估计及排除模型中无关解释变量的能力。另外,比Luo等的研究更进一步的是,前两者均只考虑了含单个随机截距的面板数据模型,本文则将其推广至含多重随机效应的面板数据模型[12]。

    下面利用如下含多重随机效应的面板数据模型生成数据:

    F104Y520.jpg

    F104Y521.jpg

    F104Y522.jpg

    F104Y523.jpg

    首先从表1中4个相关解释变量在模型中权重系数均不相同的情况来看,显然无论是在中位点处还是极端分位点处,本文提出的BALQR法MSE值均是最小的,也即其整体估计效果最优;从对取值不为0的4个权重系数估计准确性来看,BALQR和BQR法相当,且偏差及标准差都明显小于BLQR法,这是因为BLQR法和普通的Lasso方法一样,对模型中所有解释变量的压缩程度都是一样的,而本模拟中各个相关解释变量在模型中权重系数均不相同,这种采取同样策略的压缩显然会给估计带来较大的偏差。而本文提出的具有自适应性的BALQR法则克服了该缺点,对每个权重系数都引进一个单独可以灵活变动的压缩参数,从而使得估计精确度大大提高;从对4个无关解释变量的选择来看,BLQR和BALQR明显优于BQR法,两方法对无关解释变量的权重系数估计都与0非常接近,也即这两种方法都具有变量选择的功能,从而验证了Laplace先验比正态先验有更高的概率使得变量落在0周围的性质;从对随机效应方差分量φ的估计来看,3种方法估计精度几乎相当,即他们在处理随机效应干扰方面的能力一致,这也是因为理论上3种方法对于随机效应的先验假设均是一致的。另外,从中位点和极端分位点的估计对比来看,3种方法在中位点处的估计精度较极端分位点要高。

    从表中4个相关解释变量在模型中权重系数都相同的情况来看,BLQR法在两个分位点处对固定效应系数总体估计精度均是最高的,BALQR法次之,BQR法最差。这一点其实不难理解,因为BLQR法将所有解释变量都同等对待,而本模拟中真实参数的设置即所有相关解释变量权重系数相同,这正好满足其理论假设,从而获得比较优良的估计。虽然本文提出的BLAQR法在这种情况下精度逊于BLQR法,但不难看到它们之间的差距并不明显,且BLAQR与BLQR法一样,在对无关“噪声”解释变量的排除能力上都优于BQR法。

    总结以上模拟分析结果可知:1.3种贝叶斯分位回归法均能够有效处理面板数据模型中的多重随机效应,即能够有效解决个体样本之间相关对模型估计带来的影响这一问题,并且对解释变量间存在的相关性并不敏感;2.本文提出的BALQR法与李翰芳等提出的BLQR法一样,不仅能有效地处理模型中随机效应带来的影响,而且能够在估计固定效应系数的同时对模型中解释变量进行自动选择,即通过对非重要解释变量系数实施更大程度的压缩,使之与0较为接近,从而排除其对建模时带来的不利影响和干扰,也正是由于这一点,使得BLQR法和BALQR法能够在模型的整体估计效果上明显优于BQR法;3.相比BLQR法,本文提出的BALQR法能够对模型中不同的解释变量实施不同的惩罚权重系数,从而获得更为精确的估计,即使对于具有相同重要程度的解释变量,其也能够获得与BLQR法相当的估计结果。另外,由于本文构造的一种易于实施的切片Gibbs抽样算法可在专门的抽样软件WinBUGS中实现,所以虽然待估参数较BQR法和BLQR法多,但在计算时间消耗上并无明显差别。

    四、真实数据分析

    为了 便于与李翰芳等研究结果比较,下面以1998—2009年中国各个省市地区的宏观经济指标面板数据为例,利用本文提出的贝叶斯自适应Lasso分位回归方法对近些年来各宏观解释指标与GDP关系进行建模分析,探讨各指标对GDP的贡献程度。根据GDP的主要内在和外在影响因素,并考虑到中国目前的经济结构,初步选取了以下8个宏观解释指标:总固定资产投资额(Finvest)、城镇居民全年平均消费性支出(Consume)、进出口总额(Imexport)、财政支出(Finac)、外商直接投资(FDI)、就业总人数(Employ)、R&D经费支出(R&D)、能源消耗(Energy)。数据来源于《中国统计年鉴(1999—2010)》,其中由于西藏缺少数据较多故删去。为了降低各时间序列的不稳定性并使模型各解释变量系数之间有可比性,分别对GDP和所有宏观指标取对数后并标准化,为方便起见,经变换后各指标的记号不变。

    李翰芳等研究发现,如果直接将所有数据混合建立简单的线性回归模型,虽然可以得到较高的模型拟合优度,但有众多解释变量系数为负无法通过显著性检验,进一步的研究还发现,各个宏观经济变量之间的相关性比较强,存在着严重的共线性,因而通常的最小二乘估计已经失效。李翰芳等考虑了带个体随机效应的面板数据模型并利用贝叶斯Lasso分位回归法来解决解释变量之间的多重共线性问题[12]。考虑到中国各地区经济发展极不平衡,各个指标均存在较大的地区效应,建立如下更一般的多重随机效应面板数据模型:

    F104Y524.jpg

    该模型是一个既含随机截距也含随机斜率的面板数据模型,假设随机效应向量F104Y525.jpg。下面利用本文提出的贝叶斯自适应分位回归法对上述模型进行估计。取τ=0.1,0.5,0.9分别计算3个分位点处的估计结果,其中各个参数先验与蒙特卡罗模拟中一样,均取弱先验信息,Gibbs抽样共迭代40000次,舍弃前面的20000个点,取后面的20000个点用于计算各参数的估计值,估计结果如表3。

    F104Y526.jpg

    表3的结果表明,各个宏观指标对GDP的贡献度都不一样,且在高、中、低分位点处也都不尽相同。首先与李翰芳等给出的中位点处后验均值估计结果对比来看,虽然各个指标系数估计差别不大,但从第二部分的模拟分析来看,当各个解释指标所占权重系数不同时,本文提出的自适应Lasso方法精度更高一些[12]。外商直接投资和R&D经费支出对GDP贡献度最小,其次是进出口总额,特别是在低分位点处,0均包含在这3个指标的95%置信区间内,即相比其它指标,这3个指标为非重要指标。

第12篇

[关键词] 单核苷酸多态性;聚类分析;基因;数据挖掘

[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210(2015)09(a)-0036-06

[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.

[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining

在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotide polymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。

科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(cluster analysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。

目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latent class analysis,LCA)模型、结构方程模型分析(structural equation modeling,SEM)、以决策树为基础的分类回归树(classification and regression trees,CART)和随机森林(random forest,RF)算法的分析[4]、基于贝叶斯网络(Bayesian networks,BNs)模型的分析、基于神经网络(neural networks,NNs)模型的分析和支持向量机(support vector machine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。

1 潜在类别分析

诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latent class model,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。

完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。

1.1 概率参数化

潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:

在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:

条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:

1.2 参数估计与模型拟合

在潜在类别模型的参数估计过程中,最大似然法(maximum likelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaike informationcriterion)和BIC评分(bayesian information criterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。

1.3 潜在分类

完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:

潜在类别分析虽然理论建立时间较早,但是一直依靠着自身的优势在聚类分析领域有一席之地,其计算思想中融合了结构方程模型与对数线性模型的构思。该算法的目的明确,即数量众多的显变量之间的关系,可以用最优化的组合模式,使用最少的潜变量来解释。结构方程模型只能够对连续型潜变量处理的缺陷,在潜在类别模型问世后得到了相当程度的弥补,特别在设计思想范围中,使得研究者以概率论为基础,能够通过数据对分类结果之后所隐藏的因素做更为深刻的了解,这些都要归功于分类潜变量的引入这一有效提高分类效果的方法[12]。

但是,由于该方法的分析原理比较简单,只是脱胎于贝叶斯概率理论的概率参数化,所以使得该方法在聚类分析过程中,如果SNPS数量较少,则表现出不错的聚类效果,但如果SNPS数据维度过高,则有失水准。具体表现在高维度高通量的SNPS数据聚类分析过程异常复杂,时间消耗过长,而最终得到的聚类结果也容易在解释时发生阻碍。

2 分类回归树模型

CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splitting rules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:

L={X1,X2,…,Xm,Y}

其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。

2.1 分类回归树的构建

将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:

其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。

2.2 树的修剪

当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。

2.3 决策树评估

测试样本评估法(test sample estimates)与交叉验证评估法(cross-validation estimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:

式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts (TK)。

作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。

但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。

3 贝叶斯网络潜变量模型

BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。

网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latent structure model)或潜类模型(latent class model)。

3.1 模型参数

在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。

3.2 模型选择

与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。

3.3 模型优化

在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hill climbing)[18]。

利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。

但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。

4 BP神经网络模型

BP(back propagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(input layer)、隐层(hide layer) 和输出层(output layer)。

BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。

BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。

非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。

但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。

5 支持向量机

1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。

SVM的计算流程为:

在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:

其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:

其中,K(x,xi) =φ(xi)・φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:

在上述条件下,求下式目标函数的最小值:

在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。

SVM模型作为一种经典的处理小样本的自我学习、自我组织的分类方法,虽然其基础理论依然与神经网络模型类似,均为通过对给定样本的统计学习,建造模型,而且对非线性数据的处理能力很强,但是很大程度上避免了陷入局部最优化,维度过高限制,拟合过度等缺陷,拥有更广阔的发展空间[26]。虽然该方法出现时间比较晚,但是研究者已经在包括预测人口状况[27]、婴儿死亡率前瞻[28]、金融产业[29]和工业产业[30]前景推断等方面进行了有效使用,当然也包括在高通量SNPs数据聚类,均取得了不错的效果。

但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。

6 讨论

不仅上述5种具体方法,而且在前文中所提出的几大种类中的具体聚类分析方法都各有其优缺点,研究者们已经针对上述几类聚类方法的缺陷进行了深入的研究,并提出了许多改进方法,提高了在高通量SNPs数据聚类分析时的计算效能。董国君等[31]提出了将仿生学算法中的退火算法引入到神经网络模型中,能够有效地避免该模型收敛到局部最优的状态。胡洁等[32]更是经过改进,建造了一种能够快速收敛而且全局最优的神经网络模型算法,将BP神经网络的计算效率大为提高。而Leo Breiman在2001年提出的随机森林(random forest)算法,本质上就是对分类回归树算法的一种组合改进,其计算原理为:利用多个树的模型对数据进行判别与分类,其在对数据进行处理的同时,还可以给出各个变量的重要性得分,评估变量在分类中所起的作用[33]。2012年提出了混合潜变量模型(structural equation mixture modeling,SEMM),本质上是一种结构方程模型衍生出的改进版,其设计思想中汇合了潜在类别分析、潜在剖面分析以及因子分析的因素,将潜变量分析与结构方程进行协调组合,创造出的一种新型SNPs分析方法。这种新的方法,将结构方程的缺点――只能分析连续潜变量和潜在类别分析的缺点――只能分析分类潜变量,进行有效的补充,而且把一种全新的探索式的思路引入了高维数据分析的领域。在实际进行聚类分析时,也可以将几种方法结合使用,分别在计算的不同阶段利用效能最高的方法,做到优势互补。现已经出现基于神经网络算法和蚁群算法进行结合使用的报道。

尽管用于高通量SNPs数据聚类分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况。因此,研究者们依旧没有停下寻找更为合适的方法的脚步。不可否认,在基因组相关研究中,SNPs数据的分析对于研究复杂性疾病和遗传因素的联系是一项挑战,但也是机遇。如果能正确合理地运用各种复杂的统计学方法,就可以提高聚类分析的效能,提示研究者们未来应在寻找更适用的高通量SNPs数据聚类分析方法方面付出更多努力。

[参考文献]

[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.

[2] 马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.

[3] 张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.

[4] 袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.

[5] 张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.

[6] 曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.

[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.

[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.

[9] 邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.

[10] 张岩波.潜变量分析[M].北京:高等教育出版社,2011.

[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.

[12] 裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.

[13] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.

[14] 王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.

[15] 温小霓, 蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16

[16] 符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.

[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.

[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.

[19] 张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.

[20] 张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.

[21] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6) :561-563.

[22] 马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.

[23] 任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.

[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.

[25] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.

[26] 解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.

[27] 刘崇林.人口时间序列的支持向量机预测模型[J].宁夏大学学报:自然科学版,2013,27(4):308-310.

[28] 张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.

[29] 陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.

[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.

[31] 董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.

[32] 胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.