时间:2023-06-05 10:17:48
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇模式识别技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式(pattern)。而针对现代信息科技的狭义领域内,模式可以说是为了能让计算机执行和完成分类识别任务,通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息。从这些大量的信息及数据出发,模式识别(Pattern Recognition)便是用计算机实现人对各种事物或现象的分析,描述,判断,识别的过程。模式识别技术的发展是从1929年G. Tauschek发明数字阅读机开始的,直到20世纪70年代,一些发达国家开始将模式识别应用到刑事侦查部门。随着科技的不断进步,模式识别在刑事科学技术方面的应用越来越广泛,发挥的作用也越来越大,从某种意义上说模式识别促进了侦查和刑事技术手段的发展。
一、模式识别系统
模式识别是解决如何利用计算机对样本进行模式识别,并对这些样本进行分类。执行模式识别的计算机系统被称为模式识别系统。一个完整的模式识别系统,由数据获取、预处理、特征提取、分类决策和分类器设计5部分组成。可以分为上下两部分:上半部分完成未知类别模式的分类;下半部分完成分类器的设计训练过程。
1.数据获取及预处理
数据获取是通过传感器,将光或声音等信息转化为计算机能够识别的电信息的过程。为了更准确有效的读取信息,对由于信息获取装置或其他因素所造成的信息退化现象进行复原、去噪,从而加强信息的利用率,这个过程就是预处理。
2.特征提取
由于数据获取部分所获得的原始信息数据量相当庞大,为了将这种维数较高的模式空间转换为维数较低的特征空间,从而实现分类识别,得到最能反映分类本质特征的向量,这个对特征进行抽取和选择的过程即为特征提取。
3.分类器设计和分类决策
分类器设计的主要功能是通过训练来确定判决规则,它属于训练过程的一部分,其主要目的就是针对训练样本来按其判决的规则进行分类,以建立错误率最低的标准库。分类决策便是以分类器设计所建立的标准库为标准对特征空间的待识别对象进行分类,这样不仅能够使错误识别率降到最低,还能极大的提高数据利用率,最大程度的减少客观的信息损失。
二、模式识别在刑事科学技术中的应用
近几年,作为新生现代科技手段,模式识别技术被广泛应用于生活中的各个领域,如:字符识别、医疗诊断、遥感控图、环境监测、语音识别和产品检测等。模式识别技术极大的提高了人们的工作和生活质量,不断推动着社会的发展。在刑事科学技术方面,模式识别已经处于举足轻重的地位,特别是在指纹识别、人脸识别、虹膜识别等生物识别技术方面极大的提高了刑事侦查水平,为寻找犯罪证据和破获案件提供了强有力的技术手段支持,促进了刑事科学技术现代化建设。
1.指纹识别
由于指纹具有唯一性、方便性和终身不变性,我国早在两千年前就曾使用指纹来破案。替代了传统的人工识别指纹的方法,指纹识别技术已成为目前刑事侦查部门进行认定识别工作的主流技术,同时也是证据鉴定和侦查破案的有力保障。
如在20年前漳州商业大厦电梯杀人一案中,现场的线索少之又少,唯一有价值的线索是民警通过仔细勘查所提取到的一枚残缺指纹。在当时指纹识别技术还未完全成熟的年代,仅仅通过这枚残缺指纹找到凶手是相当困难的。然而,随着指纹识别技术的成熟,这件在当时看来无法破解的谜案,却在2011年全国公安系统的“清网行动”中发现08年嫌疑人于上海斗殴的指纹与95年杀人案的残缺指纹认定同一。20年前的谜案被轻松告破,嫌疑人蔡某伟终被缉拿归案。
指纹识别系统是一个典型的模式识别系统,其主要分为指纹数据获取、指纹区域分割、指纹图像预处理、特征提取和匹配五个过程。凭借着可靠性强、速度快、操作简便等优点,指纹识别技术将继续作为刑事科学技术里进行生物识别的主要技术手段不断成熟发展。但是,小几率的错误识别和模糊难成像等问题仍是指纹识别技术进行改进需要考虑的首要问题。
2.人脸识别
人脸识别是目前模式识别领域中被广泛研究的热门课题,相比传统的身份识别方式,人脸识别凭借着其身具有的安全性、保密性和方便性等优势,在近几年来得到了飞速发展并广泛应用于社会中的安全和经济领域。目前,人脸识别技术已经成为刑事科学技术工作中较为成熟的鉴定技术之一,在刑事侦查实际工作中,人脸识别技术落实到身份认证、视频监控、视频资料分析等具体工作上,使得在进行布控排查、人像识别、犯罪嫌疑人认定以及门禁等方面都得到了良好的应用效果。
关键词:模式;模式识别;模式识别的应用
1 引言
人们在观察事物或现象的时候,常常要根据一定需求寻找观察目标与其他事物或现象的相同或不同之处,并在此特定需求下将具有相同或相似之处的事物或现象组成一类。例如字母‘A’、‘B’、‘a’、‘b’,如果从大小写上来分,会将‘A’、‘B’ 划分为一类,‘a’、‘b’划分为另一类;但是如果从英文字母发音上来分,则又将‘A’、‘a’划分为一类,而‘B’、‘b’则为另一类。人们也可以正确地区分出它们,并根据需要将它们进行准确归类,当然, 前提条件是人们需要对‘A’、‘B’、‘a’、‘b’一般的书写格式、发音方式等有所了解。人脑的这种思维能力就构成了“模式识别”的概念。那么,什么是模式?什么是模式识别呢?
2 模式和模式识别
从以上的例子可以看出,对字符的准确识别首先需要在头脑中对相应字符有个准确的认识。当人们看到某物或现象时,人们首先会收集该物体或现象的所有信息,然后将其行为特征与头脑中已有的相关信息相比较,如果找到一个相同或相似的匹配,人们就可以将该物体或现象识别出来。因此,某物体或现象的相关信息,如空间信息、时间信息等,就构成了该物体或现象的模式。Watanabe定义模式“与混沌相对立,是一个可以命名的模糊定义的实体”。比如,一个模式可以是指纹图像、手写草字、人脸、或语言符号等。广义地说,存在于时间和空间中可观察的事物,如果可以区别它们是否相同或相似,都可以称之为模式;狭义地说,模式是通过对具体的个别事物进行观测所得到的具有时间和空间分布的信息;把模式所属的类别或同一类中模式的总体称为模式类(或简称为类)。模式识别则是在某些一定量度或观测基础上把待识模式划分到各自的模式类中去。计算机模式识别就是是指利用计算机等装置对物体、图像、图形、语音、字形等信息进行自动识别。
模式识别的研究主要集中在两方面,一是研究生物体( 包括人) 是如何感知对象的,二是在给定的任务下,如何用计算机实现模式识别的理论和方法。前者是生理学家、心理学家、生物学家、神经生理学家的研究内容,属于认知科学的范畴;后者通过数学家、信息学专家和计算机科学工作者近几十年来的努力,已经取得了系统的研究成果。
3模式识别的方法
现在有两种基本的模式识别方法,即统计模式识别方法和结构(句法)模式识别方法。统计模式识别是对模式的统计分类方法,即结合统计概率论的贝叶斯决策系统进行模式识别的技术,又称为决策理论识别方法。利用模式与子模式分层结构的树状信息所完成的模式识别工作,就是结构模式识别或句法模式识别。
4.模式识别的应用
经过多年的研究和发展,模式识别技术已广泛被应用于人工智能、计算机工程、机器学、神经生物学、医学、侦探学以及高能物理、考古学、地质勘探、宇航科学和武器技术等许多重要领域,如语音识别、语音翻译、人脸识别、指纹识别、手写体字符的识别、工业故障检测、精确制导等。模式识别技术的快速发展和应用大大促进了国民经济建设和国防科技现代化建设。
4.1 字符识别
字符识别处理的信息可分为两大类:一类是文字信息,处理的主要是用各国家、各民族的文字( 如: 汉字,英文等)书写或印刷的文本信息,目前在印刷体和联机手写方面技术已趋向成熟,并推出了很多应用系统;另一类是数据信息,主要是由阿拉伯数字及少量特殊符号组成的各种编号和统计数据,如:邮政编码、统计报表、财务报表、银行票据等等,处理这类信息的核心技术是手写数字识别。
4.2 语音识别
语音识别技术技术所涉及的领域包括:信号处理、模式识别、概率论和信息论、发声机理和听觉机理、人工智能等等。近年来,在生物识别技术领域中,声纹识别技术以其独特的方便性、经济性和准确性等优势受到世人瞩目,并日益成为人们日常生活和工作中重要且普及的安全验证方式。而且利用基因算法训练连续隐马尔柯夫模型的语音识别方法现已成为语音识别的主流技术。该方法在语音识别时识别速度较快,也有较高的识别率。
4.3 指纹识别
我们手掌及其手指、脚、脚趾内侧表面的皮肤凹凸不平产生的纹路会形成各种各样的图案。而这些皮肤的纹路在图案、断点和交叉点上各不相同,是唯一的。依靠这种唯一性,就可以将一个人同他的指纹对应起来,通过比较他的指纹和预先保存的指纹进行比较,便可以验证他的真实身份。一般的指纹5个大的类别:左旋型(leftloop),右旋型(right loop),双旋型(twinloop),螺旋型(whorl),弓型(arch)和帐型(tented arch),这样就可以将每个人的指纹分别归类,进行检索。指纹实现的方法有很多,大致可以分为4 类:基于神经网络的方法、基于奇异点的方法、语法分析的方法和其他的方法。
4.4细胞识别
细胞识别是最近在识别技术中比较热门的一个话题。以前,对疾病的诊断仅仅通过表面现象,经验在诊断中起到了主导作用,错判率始终占有一定的比例;而今,通过对显微细胞图像的研究和分析来诊断疾病,不仅可以了解疾病的病因、研究医疗方案,还可以观测医疗疗效。如果通过人工辨识显微细胞诊断疾病也得不偿失,费力费时不说,还容易耽误治疗。基于图像区域特征,利用计算机技术对显微细胞图像进行自动识别愈来愈受到大家的关注,并且现在也获得了不错的效果。但实际中,细胞的组成是复杂的,应该选择更多的特征,建立更为完善的判别函数,可能会进一步提高分类精度。
参考文献:
[1] 边肇祺,张学工等编著. 《模式识别》(第二版). 北京:清华大学出版社,2000.
[2] 王碧泉,陈祖荫. 《模式识别理论、方法和应用》. 北京:地震出版社,1989.
【关键词】模式识别;特征提取;遗传算法;支持向量机
0 引言
模式识别诞生于20世纪20年代,是对表征事物或现象的各种形式的信息进行处理和分析,以对事物或现象进行描述、辨认、分类和解释的过程。该学科主要研究使机器通过学习能做以前只能由人类才能做的事,具备人所具有的、对各种事物与现象进行分析、描述与判断的部分能力。模式识别所研究的理论和方法在很多科学和技术领域中得到了广泛的重视,目前已成功应用于指纹识别、印刷体字符识别、语音识别、车牌识别、人脸识别、手写体字符识别、自动文本分类、多媒体数据挖掘等领域。
本文基于统计模式识别方法来研究车辆识别问题。对待定的区域应用特征提取、特征选择的方法提取统计特征,根据统计模式识别原理对候选车辆区域行识别确认。特征提取采用PCA(主成分变换法),特征选择采用遗传算法,分类器设计是SVM(支持向量机)。
1 统计模式识别方法
基于统计方法的模式识别系统由四部分组成:数据获取、预处理、特征提取和选择、分类器设计和分类决策。
1.1 数据获取与预处理
数据获取就是通过一定的技术和手段对个别事物进行观测,从而获取该事物的时间和空间分布信息。这里需要将各种测量的量转换成计算机可以直接处理的数据。测量到的信号通常有一维信号,二维信号和逻辑信号。预处理阶段就是要将数据获取阶段所引入的噪声进行滤除,并对数据获取阶段所造成的信号退化进行复原,并为下一步特征提取提供必要的基础。
1.2 特征提取与特征选择
通常情况下,在数据获取阶段获得的数据量是相当大的。直接应用这些数据进行模式识别,数据量大,计算复杂。当向量维数达到一定维数时,就必须采取一定的措施能使系统能够处理这些数据和正常工作,即特征降维,模式识别中称为特征提取和选择。一般来说,特征提取和选择是模式识别系统中关键的一步,其好坏直接决定了模式识别系统的性能。
1.2.1 主成分变换法
主成分分析方法是应用最广泛的一种特征提取方法之一,它是一种统计学方法,在信号处理、模式识别、数字图像处理等领域得到了广泛的应用。主成分分析基本思想是提取出空间原始数据中的主要特征,减少数据冗余,使得数据在一个低维的特征空间被处理,同时保持原始数据的绝大部分的信息,从而解决数据空间维数过高的瓶颈问题。
所谓主成分就是原始数据的m个变量经线性组合后得到的变量,该变化使得其变换后的变量方差为最大(第一主成分)的部分。各个主成分之间是相互线性无关的(正交的)从第一主成分往后,主成分按方差大小的顺序排列。
1.2.2 遗传算法
遗传算法是建立在自然选择和遗传变异基础上的自适应概率性搜索算法,在该算法中,染色体是二进制字符串编码,每一编码字符串为一候选解,这种染色体有多个,即有一群候选解。染色体像生物进化一样有繁殖、交叉和突变三种现象,这些现象称为遗传算子。在每一代中,保持一定数目M为定值的解群,经过对各解的适应度值计算,使解群中的各个解得到评价,各个解的适应度值的大小作为染色体复制机会大小的先决条件。
遗传算法中有一个很重要的概念,称为适应度函数。如何将遗传算法中的不断进化的染色体与现实问题中的优劣选择相联系是该算法成功的关键。一般的方法是构造一个与现实问题相联系的适应度函数。
1.3 分类器
从数学观点来看,分类决策就是找出决策函数。当已知待识别模式的完整的先验知识时,可据此确定决策函数的数学表达式。如果仅知待识别模式的定性知识,则在确定决策函数的过程中,通过反复训练、调整,以达满意的决策函数表达式,从而作为决策分类的依据。
支持向量机是一种基于统计的学习方法,它是对结构化风险最小化归纳原则的近似,由于其出色的学习性能,使得SVM具有较好的推广能力。其原理是针对二值分类问题提出的,其核心思想是将结构风险函数引入到分类中。支持向量机通过引入结构风险函数恰恰能完成这个任务,从而提高了机器学习的泛化能力。这些特点使支持向量机能有效地克服高维问题。
2 实例分析
为了检验各个主成分变换特征提取方法和支持向量机分类器对车辆检测的识别率和有效性,我们进行了对比实验:特征提取和特征选择的方法与不同分类器方法进行组合测试。
为了检验本论文中提出的车辆检测方法,我们进行了实验测试。道路取景的来源国内城市道路。实验中选用的训练样本为3000,其中车辆为1500,其余为背景样本。
利用前文描述的方法,获得的特征提取器为:
T=[t(1),t(2),t(3)]
其中,特征向量为:
t(1)=(-0.5346,-0.0804,-0.8329,0.0444,-0.0794,-0.0224,
-0.0652,0.0317)
t(2)=
(-0.2102,0.8256,0.0754,0.4899,0.0516,0.0196,0.0355,0.0872)
t(3)=(-0.0812,-0.5261,0.1491,0.8244,-0.0161,0.0933,
-0.0048,0.0754)
同时增加了其它分类器配合进行测试,选用的分类器有KNN(K最邻近结点算法)、QDF(二次判别方程)、COS(基于朴素贝叶斯分类器)。测试样本为600,其中车辆300,背景300。测试结果为:SVM的车辆识别率为85.3%,背景识别率为94%;KNN的车辆识别率为82.6%,背景识别率为76.6%;QDF的车辆识别率为42.6%,背景识别率为79.3%;COS的车辆识别率为52%,背景识别率为97%。
通过对实验数据的分析,可以得出,特征提取的算法中,采用主成分变换法进行特征提取是所实现的特征提取算法中性能较优。同时,SVM分类器具有是具有最高的识别率。所以最终选择的是主成分变换法、遗传算法支持向量机的车辆识别算法组合。
3 结论
本文分析并实现了基于车辆统计特征的车辆识别算法。算法包括三个部分:特征提取,特征选择,和分类器设计。利用特征提取方法(PCA)对待确定的区域应用特征提取的方法提取统计特征,应用遗传算法对特征提取阶段的结果进行选择,其选择结果用于训练SVM分类器。最后应用训练好的SVM分类器进行分类识别检测。此外,还将此算法与其它车辆识别算法进行比较,实验结果表(下转第183页)(上接第99页)明,基于车辆统计特征的车辆识别算法不仅具有较好的有效性,而且能有效的提高识别率和降低误识别率,具有很好的应用前景。
【参考文献】
[1]边肇祺,张学工.模式识别[M].2版.北京:清华大学出版社,2007.
关键词:CDIO;工程教育;主动学习;经验学习
作者简介:袁立(1978-),女,河北邢台人,北京科技大学自动化学院,副教授;李晓理(1971-),男,辽宁沈阳人,北京科技大学自动化学院,教授,博士生导师。(北京 100083)
基金项目:本文系教育部第五批高等学校特色专业建设项目“自动化CDIO特色专业建设”(项目编号:TS2422)的研究成果。
中图分类号:G642.0 文献标识码:A 文章编号:1007-0079(2013)04-0051-02
CDIO是由美国麻省理工学院、瑞典皇家技术学院、瑞典查尔姆斯技术学院、瑞典林克平大学等四所大学从2000年起合作研究探索的一种新型的工程教育模式。CDIO教育模式力图培养学生能够在现代的、基于团队的环境下构思(Conceive)—设计(Design)—实施(Implement)—运行(Operate)复杂、高附加值的工程产品、过程和系统,让其成为成熟、有责任感的人。[1]CDIO改革有三个总体目标,即教育学生,使他们能够更深层次地掌握技术基础知识,不是通过被动的听讲过程获取知识,而是让学生自己构建他们的知识,面对和纠正自身的错误理解;教育学生能够领导新产品、过程和系统的创造与运行,在此过程中培养学生的个人能力和人际交往能力,个人能力包括工程推理和解决问题的能力、科学探索、系统思维和批判性及创造性思维,人际交往能力包括交流沟通和团队工作能力;第三个目标是使学生能够理解和研究技术发展对社会的重要性和战略影响。可以看出,CDIO模式注重扎实的工程基础理论和专业知识的培养,并通过贯穿整个人才培养过程中的团队设计和实践环节的训练,从而培养既有过硬的专业技能又有良好综合素质的国际化工程师。[2]
作为高等工程教育的一种新的教育理念,CDIO模式受到越来越多工程学科的重视。北京科技大学(以下简称“我校”)自动化专业在2009年以自动化专业工程化、钢铁流程自动化为工程背景和专业特色加入了CDIO项目。“模式识别”课程是模式识别与智能系统学科的基础课,是一门基础理论与工程实践相结合的课程。本课程主要讨论统计模式识别的分类和识别基本原理、方法。要求学生掌握统计模式识别的基本概念、基本识别原理和方法,了解其发展动态,有效地运用所学知识和方法解决实际问题,为研究新的模式识别的理论和方法打下基础。[3,4]那么如何在该课程的教学过程中培养学生的综合素质,满足学科学习和能力学习的双重目标,成为需要迫切思考的问题。本文在深入研究和分析“模式识别”课程现有教学模式的问题和不足的基础上,探索将CDIO教育理念引入该课程,进行教学设计、规划教学方案、确定教学手段、安排教学内容和考核方式,以促进学生综合能力的培养。
一、“模式识别”课程传统教学模式中存在的问题
“模式识别”课程从应用角度来看,属于人工智能、机器学习的领域,从学术内涵角度来看是进行数据处理、信息分析的学科。该课程在纵向上与概率论、数理统计密不可分,在横向上注重与数字图像处理、信号处理、通信原理等专业课程有关联。可见,该课程对于巩固已学知识、开展后续专业课学习及未来工作具有积极的指导意义。
该课程内容本身比较抽象性,其概念、原理和方法都隐藏在数学符号中,讲课过程中学生往往会感到枯燥、难懂。教师的讲解和学生的学习难度都比较大,理论知识学完后学生对于其实际应用有时仍是一头雾水。传统教学模式下存在以下一些问题:在教师的授课环节中,往往以教师的授课为中心,而不是以学生为主体,这种重“教”轻“学”的模式不利于学生对基础知识的掌握;课时的安排上,总课时(32学时)中28学时为理论授课,4学时为实验。在实验环节中,学生上机动手编程,根据课上内容设计相应的分类器实现。这种课时安排不利于充分开展工程项目实践活动,使学生失去了了解模式识别在工程项目中真实应用的机会,限制了其对专业技能的掌握;在实验环节中,实验内容的安排基本上以个体为单位的验证性实验为主,缺乏多人合作的设计性、综合性及创新性的实验,不利于学生团队协作能力、批判思考能力、综合解决问题能力及创新能力的综合培养。
可见,以上重理论轻实践、强调个人学术能力而忽视团队协作精神、重视知识学习而轻视开拓创新的培养模式与CDIO理念还有很大差距。
二、基于CDIO的“模式识别”课程教学改革探索
针对目前“模式识别”课程教学中存在的问题对原有的课程体系进行改革,以适应CDIO教育模式下的人才培养目标。我校按照CDIO教学大纲的标准来进行教学设计和教学活动的安排,进行如下一些主要的变革:
第一,从教学内容的安排上进行改革。在教学过程中优化、精选教学内容,确保教学内容相对稳定而又不断地更新,保持内容的先进性。对基础理论部分如贝叶斯决策理论、线性与非线性判别函数、近邻法和集群、聚类分析、特征提取与选择等知识单元,将主要精力放在精讲、训练与总结这三个环节,对重点、难点讲深讲透。此外,还根据模式识别领域最近的发展,引入最新科技成果,为学生适当补充统计理论与支持向量机、流行学习理论和稀疏编码理论等知识。另外,还从横向上注重与同一层次相关课程(如“数字图像处理”)的关联性,使学生把从不同课程上学到的知识整合起来,为将来从事工程项目活动打下基础。
第二,从教学方式上进行改革。传统授课方式的一般模式是:教授、复述、周作业、期末一个小的设计项目和最终笔试。要改变这种以教师为中心的教学方式,按照CDIO专业计划中提倡的一体化学习的思想来完成教学任务。为了考试而死记硬背理论知识会使学生对学习内容理解肤浅,缺少长期学习的积极性。所以在教学中采用主动学习方式使学生直接参与思考和解决问题的活动,让学生思考概念,特别是新的想法,并要求他们做出明确地反应,使他们明白学到了什么和怎样学习的。
主动学习方法在课堂教学中有许多灵活的手段,比如授课疑点卡、概念问题、小组讨论等等。授课疑点卡通过收集课堂上的反馈来测定学生在理解方面的不足。针对学生提出的问题,教师可以在课程的网页上回答,也可以在下次课的开始时回答。对学生来讲,写下问题的过程有助于他们组织思路并进行更有效地学习;对教师来讲,这些疑点卡能及时纠正学生的错误的理解,并帮助教师改进后续的内容。概念问题是一个多项选择题,用来收集学生对课堂上的反馈,从而了解学生是否理解教学内容并纠正学生的误解之处。教师在课前把“模式识别”的重要概念以及通常可能的错误理解准备成问题,在课堂上适时提出来,学生通过举手来回答即可。根据回答情况,学生可进行讨论或由教师进行点评。小组讨论:对于一些相对简单的内容,让学生提前预读,在课上采用分组讨论、学生讲解、教师总结的方式进行。
第三,采用经验学习法为学生创造建立信心的机会。工程教育的CDIO教学模式正是基于经验学习理论的。经验学习让学生能够在模拟工程师角色和工程实践的环境中进行教学活动。对大多数学生而言,学习和理解理论的动力就是应用理论并与实践相结合。通过实践学习能激发他们更大的积极性,并使他们认识到所学的知识是有用的,学习积极性的提高使他们对所学的知识和即得能力更有信心。其结果是让学生有能力胜任未来工程师的角色。
常用的经验学习方法就是基于项目的学习。在授课过程中增加模式识别应用项目的内容,如字符识别、车牌识别、人脸识别、肤色分割、图像检索等,通过项目讲解帮助学生回顾所学的知识,并将理论与实际相结合,使学生学会分析和解决实际问题的方法。另外,还将教师从事的与“模式识别”相关的科研项目介绍给学生,拓展学生的知识面。从实际效果来看,有些学生对实际工程案例和科研工作很感兴趣,主动申请“模式识别”方向的本科创新项目和发表学术论文。
对于一些典型的“模式识别”工程项目,学生分团队后选择某个工程项目,以团队合作方式收集和整理有关信息资料,提出解决方案,研究结束后做出演示系统并在课堂上进行讲解。
第四,对学习效果的评估方法进行改革,采用多种方法来收集学生在课程学习期间和学习之后等不同时期的学习证据,全面了解学生的学习成绩和学习态度有何转变。第一种方式仍然是传统的笔试。第二种是口试,可以用于概念问题来判定学生对知识的理解层次。口头考核能从深层次上反映学生对概念的理解和应用,因为现实中工程师每天都会应用基础概念进行理性表述,这种方式可以评估学生进行理性表达的能力。第三种是表现评分,通过学生在口头演讲和团队工作等特定任务中的表现情况来进行评估。第四种是项目审查,对团队完成的项目进行评估。模式识别项目主要是从分类性能上对学生完成的项目进行评估。
结合CDIO教育模式,通过以上四方面的改革,能够创设积极的学习情景,激发课堂活力,调动学生的积极性和主动性。这套新的教学体系可以用图1来描述。
三、结束语
本文在CDIO工程教育模式下,探讨了如何对传统“模式识别”课程教学方法进行改革,提出了一种新的教学体系。近两年的授课结果表明,新授课体系在CDIO模式下对激发学生学习兴趣、明确学习方向、转变学习态度、提高专业基础水平和团队合作意识及提高教学效果等方面发挥出了明显的积极作用。
参考文献:
[1]顾佩华,沈民奋,陆小华.重新认识工程教育——国际CDIO培养模式与方法[M].北京:高等教育出版社,2009.
[2]陆鑫,任立勇,王雁东.CDIO模式下软件工程专业课程的教学评价方式[J].计算机教育,2011,(16):64-67.
目的: 探讨模糊k最近邻算法运用于葛根类药材模式识别的可行性。方法:选择6种化学成分的含量,对不同产地的多种葛根类中药的药理抗内毒素活性建立了模糊k最近邻规则识别模式。结果: 模糊k最近邻规则对葛根类中药的药理抗内毒素活性识别正确率达100%,优于经典k最近邻法与Bayers判别法。结论:模糊k最近邻算法可用于中药模式识别研究。
【关键词】 模糊k最近邻算法; k最近邻算法; 模式识别; 葛属
模式识别技术是一种借助数学方法和计算机技术来对样品的内部规律及隐含性质进行分析的综合技术,包括判别分析、聚类分析、机器学习等多种方法。该技术已经广泛应用于各个领域,随着中药现代化进程,该项技术逐渐在中药领域深入应用。k最近邻法已被广泛应用于模式识别的分类器设计,所谓k最近邻法(KNN)就是取未知样本的k个近邻,看这k个近邻多数属于哪一类,就把其归于哪一类,在分类过程中KNN是采用简单多数投票法来确定未知样本的分类[1]。问题是,当学习样本类别分布不均的时候,如果仅考虑排序后的k个最近邻而忽视样本间的不同距离,势必会降低KNN的分类精度[2]。模糊k最近邻算法(FuzzyKNN,FKNN)就是将模糊理论与k最近邻法相结合的一种监督学习技术,它有效解决了上述问题,它将未知样本与k个最近邻的距离模糊化,并为每个类别都设置了相应的隶属度,而不象KNN那样简单的将未知样本的归类定为“属于”或者“不属于”[3]。FKNN已被成功的应用于多个领域,在蛋白质结构预测[3]及文本分类[2]都有着不错的性能,本研究将FKNN应用于中药的模式识别,目前国内尚未见报道。
1 FKNN算法的原理及实现
本研究的FKNN算法[4]不同于聂生冬等[5]将模糊c均值聚类与KNN简单结合,而是在KNN的基础上结合模糊理论进行归类决策实现的,其具体算法安排如下:
⑴ 设已知样本集合P={p1, p, …pn},n为已知分类的样本数,c代表分类数,u代表一个c×n的矩阵;
⑵ 确定未知样本的最近邻数k的值;
⑶ 选择欧式距离范数d作为距离测度;
⑷ 对每个未知样本x:
① 计算n个距离d=d(x,pj),并对其进行排序:
pi∈P,且x P
d(1)≤d(2)≤d(3) ……≤d(k)≤d(k+1) ≤…≤d(n)
其中d(1)到d(k)是未知样本x的k个最近邻与x的距离。
② 在u中找出对应于k个最近邻距离的k个列{uj},其中j=1,2, ……k。
③ 利用上一步从u中获得的k个列{uj},计算[4]:
ui(x)=kj=1uij1d(x,pj)2m-1 kj=11d(x,pj)2m-1
其中m为模糊权重调节因子,对于z=1,2, …,c,如果ui(x)=max{uz(x)},z≠i,则x属于第i类。取下一个未知样本转到(4)继续,上述算法不是迭代过程,每个未知样本都必须按照上述算法处理一遍。
转贴于
2 中药葛根类药材的模式识别
中药模式识别通常是根据中药所含化学成分的整体进行分类或描述,识别该中药的真伪与优劣。葛根为豆科植物野葛或甘葛藤的干燥根,全世界已知的葛属植物大约有18种,我国是葛属植物的原产地之一,分布极其广泛,葛属植物有9个种和2个变种,其中7种与药用有关,研究结果表明,不同葛属植物中药用成分异黄酮含量和组分差异显著。曾明等[7]对8个来源共17个药材样本的葛属植物的总黄酮X1、葛根素X2、大豆苷X3、大豆苷元X4、3’甲氧基葛根素X5及多糖X6,6个化学成分进行了测定[6],并测定了相应的抗内毒素活性强度,按照文献[8]方法对各药材的抗内毒素活性强度进行分类,强度较弱者记为1,强度较强者记为2,结果见表1。本研究运用模糊k最近邻算法以6个化学成分的含量为输入变量,药理活性强度分类为目标类别建立模式识别模型。
从表1原始数据随机选取5个作为未知数据进行测试,剩余12个作为已知数据进行学习,将各数据进行归一化处理后,运行FKNN算法,算法实现语言为MATLAB。对于FKNN,k值对分类器的性能有显著影响,表2是不同k值下FKNN的分类精度。由表2结果可见当k值大于等于7时,FKNN具有最好的分类精度,对未知数据集及整个数据集的识别正确率都达到了100%,在本例中k取7进行建模识别,识别结果见表1。我们也尝试用经典KNN法对数据进行分类,结果见表3,可见,在相同k值下FKNN都要比KNN表现出更好的分类性能。就本例数据而言,无论我们怎么调整参数,KNN法的分类精度都不能令人满意。张汉明等[8]也对同样的数据进行了Bayers判别分析,结果回判的识别正确率也仅有88%与94%。
表1 17个药材样品的化学与药理模式数据(*为测试数据)(略)
表2 不同k值下FKNN的分类精度(略)
表3 不同k值下KNN的分类精度(略)
3 结果与讨论
FKNN作为一种监督学习技术,将对每一个未知样本进行相同的算法处理,且由于其算法不是迭代过程,因此也不存在不收敛的现象。另外,对于模糊权重调节因子m的取值,理论上可以是任意的,根据文献[4],本研究取值m=2,我们也对m在[1,3]范围内,以0.1为步长考察了不同m值对FKNN分类精度的影响,结果发现并无差异。在m=2,k=7时FKNN对17种葛根类中药的药理抗内毒素活性识别正确率达100%,识别精度要优于k最近邻法及文献[8]的Bayers判别法,FKNN可以用于中药的模式识别研究。
【参考文献】
1 Jiawei Han,Micheline Kamber. 著. 范明,孟晓峰,等译. 数据挖掘概念与技术. 北京:机械工业出版社,2001:209.
2 Shang Wenqian,Qu Youli,Huang Houkuan,etal. Fuzzy knn text classifier based on gini index. Journal of Guangxi Normal University:Natural Science Edition,2006,24(4):87~90.
3 Rajkuar Bondugula,Ognen Duzlevski,Xu Dong. Profiles and Fuzzy knearest neighbor algorithm for protein secondary structure prediction. AsiaPacific Bioinformatics Conference, 2005:85~94.
4 J. M. Keller,M. R. Gray,J. A. Givens. A fuzzy knearest neighbor algorithm. IEEE Trans on SMC, 1985,15(4):580~585.
5 聂生东,聂斌,章鲁,等. 基于模糊k近邻规则的多谱磁共振脑图像分割方法的研究. 中国生物医学工程学报,2002,21(5):471~477.
6 曾明,张汉明,郑水庆,等. 葛属植物根的异黄酮类成分分析. 第二军医大学学报,1998,19(2):189~190.
7 曾明,张汉明,郑水庆,等. 葛根及同属植物根的抗内毒素作用比较. 中国中药杂志,1997,增刊:178~179
关键词:模式识别;图数据;图匹配;核方法
中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2014)20-4802-02
The Research of Graph Matching Based on Kernel Method
LI Yin-hu
(Department of Information and Control Engineering Institute, Xi’an University of Architecture and Technology, Xi’an, 710055, China)
Abstract: With the development of computer technology and network technology,our word is full of large number of data. It is a challenge thing that how to recognize and analyse these data. In the field of computer, graph is a flexible data structure and Learning graph that structured data is becoming an important problem. This article focuses on kernel method to settle down the pattern recognition problem and put forward an efficient kernel method to solve pattern recognition problem. Experimental results demonstrate the effectiveness and feasibility of the proposed algorithm.
Key words: pattern recognition; graph data; graph matching; kernel method
模式识别伴随着计算机技术和网络技术的快速发展,在许多领域得到了成功应用如数据挖掘、文献分类、财政、多媒体数据库的组织和检索、生物(比如根据人的物理特征,如人脸、指纹等识别人)、医学(医学图像分析)。其中图的顶点表示对象的各个组成部分,图的边表示各组成部分之间的关系,以这样的表达方式图就可以很容易地捕捉到物体的关系与结构信息。因此,基于图的描述是一种非常有效的表达方式。而当前模式识别领域中大多数工具却不能直接以图为其处理对象,这严重影响了基于图方法的发展。研究复杂模式分析和分类方法是有必要而且有意义的。其中基于核方法的学习方法是一种比较新的学习方法,它是从统计学习理论中发展出来的,并且有效地克服了传统模式识别方法的局部极小化和不完全统计分析的缺点。
现实世界中的数据往往具有数据量多、高维、动态、不完全(缺值)、不确定(包含噪声)以及稀疏性等特性。对于从事模式识别、信号处理以及数据挖掘的研究者来说,核方法是一个强有力的分析工具。该文主要研究并实例化了一种核方法来模式识别中的图匹配问题,也就是通过在一个图中匹配另一个图中的某个相似的子结构来计算两个图的相似性的过程。
1 核方法
在近几年的机器学习和数据挖掘领域中,核方法成为一种非线性数据处理的新方法。它避免了神经网络和决策树中典型的局部极小化问题和过拟合问题。因此,它可以看成是经典线性方法的扩展,也可以认为它等效于使用非线性映射将样本变换到希尔伯特特征空间,随后在该空间中实施线性特征抽取的方案。
定义1(图核)图G1和G2间的核函数K (G1, G2)称为图核。映射?将原始空间中的图映射到高维甚至无穷维向量空间(特征空间)中去,使得
K (G1, G2) = < ? (G1), ? (G2)>
由于映射?的选取,如 ? (G)的分量可以是两图中某一公共子路径的条数等,核k:G×GR可以看成是两个图G1和G2间的相似性度量。
核方法作为一种非线性方法可以解决这些问题。这将使得原来用于向量表示的标准算法也适合图,它可以把统计模式识别和结构模式识别有机地结合起来。
2 图核
一般常见的图核可分为三大类:基于路径的核方法如随机游走核、最短路径核;基于有限规模子图的核方法;基于树模式的核方法如树模式图核、快速子树核、Weisfeiler-Lehman图核等。本节重点深入研究快速子树核和Weisfeiler-Lehman图核及其在解决图匹配问题时的算法复杂程度。
定义2 (快速子树核)图G和图G’之间快速子树核
通过分析比较,两图之间的快速子树核的计算复杂度是[O(n2h4d)],其中包括n2个节点对的比较和在[O(4d)]范围之内,邻居节点的所有匹配次数。重复h次,其中h是一个多分类因子而不是指数。以k1为起是点,经过kh-1到kh递归地计算子树核。
定义3(Weisfeiler-Lehman图核)图G和图G’之间的WL图核定义为:
其中Si(v)为节点v在第i次迭代中的多分类标签集,f是一个映射标签压缩函数,对于所有的[i≠j],集合[f(si(v))|v∈V?V']和集合[f(sj(v))|v∈V?V']是不相交的。S0(v)是在标签图v和非标签图中的初始标签并且[f(s0(v))=s0(v)]。
3 实验论证
3.1 数据准备
实验数据集主要包括MUTAG, NCI1,NCI109,ENZYMES,D&D。其中MUTAG是一个根据是否对革兰氏阴性菌鼠伤寒沙门氏菌有突变作用的含有188个突变芳香和杂环硝基化合物。NCI1和NCI109分别代表两组平衡的化学混合物数据集,它们来自于非小细胞肺癌细胞和卵巢癌细胞系。ENZYMES 是一个具有三层结构的蛋白质数据集,它包含从酶蛋白质数据库中获取的600个蛋白质酶。这种情况下的主要任务是正确给每个蛋白质添加一个6层结构的类。D&D是一个包含有1178个蛋白质结构的数据集。每一个蛋白质可以看做一个图,图中的节点表示氨基酸,两个节点之间的边小于埃则可以用一条边连接。所有节点在数据集中是被标记的,预测的任务则是区分蛋白质结构中的酶与非酶。
数据集中节点数、边数和度数的分布表1所示。
3.2 仿真实验
图是一种特殊的结构化数据表达形式,许多经典的学习算法不能用于图形数据的分析。因此,本实验主要围绕对图形数据的分析展开寻找适合图形数据后续分析的向量表示方法,以扩大传统学习算法在图形数据中的应用。实验硬件环境是Intel Core 2 双核CPU 2.2GH,内存2G。软件环境是美国The Math Works公司推出的Matlab软件,其中支持向量机SVM的实现采用的是Libsvm工具箱。实验方法采用十倍交叉进行,其结果如图1所示。
4 结束语
本文针对模式识别中的图匹配问题,主要研究了通过核方法来解决现实世界中的模式识别与分类问题。接着对两种图核的实例快速子树和与Weisfeiler-Lehman图核进行深入深入研究和分析外,着重探讨了其在解决大规模、复杂、高维数据上所具有的优越性。从实验结果可以看出,这两种图核解决模式识别问题时具有的高效特点,且Weisfeiler-Lehman图核比快速子树具有更优的匹配精度和更少的运行时间。随着经济社会的高速发展,在生物、数据挖掘领域越来越多的图数据(如分子结构、蛋白质交叉网络)变得越来越多。核方法将会受到更多学者们的青睐,希望今后能构造出分类精度更高效果更好的图核来解决其他领域中的分类和识别问题。
参考文献:
[1] Shervashidze N, Borgwardt K. Fast subtree kernels on graphs. In Neural Information Processing Systems, 2009.
[2] John S T, Nello C. Kernel methods for pattern analysis[M]. China machine press,2005.
关键词: 旋转机械; 故障分析; 诊断; 局限性
中图分类号: th165 文献标识码: b 文章编号: 1009-8631(2013)01-0038-01
1 引言
旋转机械如:汽轮机、发电机、离心压缩机、风机等,是工业部门中应用最为广泛的一类机械设备,在电力、能源、交通、国防及石油化工等领域发挥着无可替代的作用。随着科学技术的发展,旋转机械正在向大型化、综合化(在同一台设备中多种技术的应用)、连续化(从投料到产品整个过程的连续化)、自动化(操作、检测等的非人工化)、严格化(如技术指标严格化)的方向发展,造成设备构造复杂,零部件之间的联系更加紧密。在设备复杂化的同时,发生故障的潜在可能性和方式也在相应增加,且故障一旦发生,就可能引起连锁反应,导致设备甚至整个生产过程不能正常运行乃至破坏,轻则造成巨大的经济损失,重则导致灾难性的人员伤亡和社会影响。近年来,国内外因设备故障而引起的灾难性事故仍时有发生,如2003年,国内某钢铁企业高线初轧机因一齿轮箱主输出轴轴承破碎,造成设备紧急停机68小时,直接经济损失1500万元以上。2001年阜新电厂2号机组断轴事故的发生,给电厂带巨大的经济损失。1988年我国秦岭电厂zoomw汽轮发电机组因振动引起的断轴毁机事件。灾难性事件的不断发生,使人们认识到对大型机械装备实施在线监测与故障诊断的必要性。
2 现行故障识别与诊断分析方法简介
当前,故障识别与诊断决策过程中采用的方法较多,按照它们隶属的学科体系,大体可分为三类:基于控制模型故障诊断、基于模式识别故障诊断及基于人工智能故障诊断。它们具体的诊断方式如下:
2.1基于控制模型的故障诊断。对于一个旋转机械系统,若通过理论或实验方法能够建立其模型,则系统参数或状态的变化可以直接反映该系统及其动态过程,从而为故障诊断提供依据。基于控制模型的故障诊断方法主要涉及到模型建立、参数与状态估计和观测器应用等技术。其中,参数与状态估计技术是该方法的关键"参数估计的参数包含两类:第一,系统参数,即描述系统动态特性的参数。基于系统参数估计的故障诊断方法与状态估计方法相比较,前者更有利于故障的分离,但是它也存在不足之处:求解物理元件参数很困难;系统故障引起系统模型结构和参数变化的形式是不确定的,目前还缺少有效的方法。第二,故障参数,即用于描述系统出现的故障时信号自身特性的参数。其基本思想是:对故障系统构造适当形式的包含有可调参数的状态观测器,并使其处于零状态"当系统发生故障时,用观测器中的可调部分来补偿故障对系统状态和输出的影响,使得观测器在系统处于故障状态下仍然保持零状态观测误差,此时观测器中可调部分的输出即为故障参数的估计结果。使用该方法的优点是可对故障信号进行在线建模,但是当系统出现强非线性时,目前仍无有效算法。
2.2基于模式识别的故障诊断。故障诊断实质上是利用被诊断系统运行的状态信息和系统的先验知识进行综合处理,最终得到关于系统运行状况和故障状况的综合评价过。如果事先对系统可能发生的故障模式进行分类,那么故障诊断问题就转化为模式识别问题。当系统的模型未知或者非常复杂时,模式识别则为解决故障诊断问题提供了一种简便有效的手段。基于模式识别的故障诊断方法主要分为统计模式识别和句法模式识别两大类,它们在旋转机械故障诊断领域中得到广泛应用。基于bayes分类器的统计模式识别法是旋转机械故障诊断中一种经典方法。
2.3基于人工智能的故障诊断。基于人工智能故障诊断的研究主要分为两类:基于知识(符号推理)的故障诊断和基于神经网络(数值计算)的故障诊断。首先,基于知识的故障诊断大致包含两种情况:基于浅知识的专家系统和基于深知识的专家系统。前者是以领域专家和操作者的经验知识为核心,通过演绎推理来获取诊断结果。其特点是利用领域专家的知识和经验为故障诊断服务,但是这种方法具有较大的局限性,如知识集不完备,过于依赖领域专家等。而后者则要求诊断对象的每一个环节具有明确的输入输出表达关系,诊断时首先通过诊断对象的实际输出与期望输出之间的不一致,生成引起这种不一致的原因集,然后根据诊断对象领域中
第一定律知识(具有明确科学依据知识)及其内部特定的约束关系,采用一定的算法,找出可能的故障源。它比前者具有更大的优越性,但其搜索空间大,推理速度慢。其次,基于神经网络的故障诊断作为一种自适应的模式识别技术,人工神经网络以其全新的信息表达方式、高度并行分布处理、联想、自学习及自组织等能力和极强的非线性映射能力使它渗透到科学技术的各个领域。人工神经网络在机械故障诊断中的应用主要集中在三个方面:一是从模式识别角度应用神经网络作为分类器进行故障诊断;二是从预测角度应用神经网络作为动态预测模型进行故障诊断;三是从知识处理角度建立基于神经网络的诊断专家系统。如采用径向基函数网络、概率神经网络和自适应特征映射网络作为分类器对旋转机械故障进行研究。
3 现行故障信号诊断分析方法的局限性
大型旋转机械在运行过程中易受到噪声、速度突变、结构变形及摩擦的变化等因素影响,尤其是在发生故障的情况下,从机械设备测得的振动信号往往表现出非线性非平稳特征,深入考虑目前用于旋转机械振动信号处理的前述方法,对于全面提取旋转机械振动特征信息而言仍然存在着一定的局限性:首先fft谱分析仅反映了振动信号整体的统计特性,频谱中无法体现非平稳时频细节,且频谱分辨率受到限制;其次、arma时序模型虽然可以推广应用于某些非线性、非平稳振动信号的特征提取,但应用中建模复杂、阶数选择和计算量之间矛盾等问题,制约了该方法的实用性,不宜在大型旋转机械状态监测和故障诊断中应用;对于短时傅里叶变换通过对信号的分段截取来处理时变信号,是基于对所截取的每一段信号认为是线性、平稳的。因此,严格地说,短时傅里叶变换是一种平稳信号分析法,只适用于对缓变信号的分析;最后,小波变换虽然在机械故障诊断领域得到了成功应用,但由于存在小波基等参数的选择敏感性、非自适应性等特点,制约了小波变换的应用性能。此外,小波变换本质上是窗口可调的傅立叶变换,其小波窗内的信号则视为平稳状态,因而没有摆脱傅立叶变换的局限。
参考文献:
关键词:神经网络 图像识别 企业应用
中图分类号:TP183 文献标识码:A 文章编号:1007-9416(2016)10-0124-01
1 神经网络的发展、应用及其特点
现代计算机的应用前提下,计算和信息处理能力均较高,但感知能力和驮踊肪持械呐卸夏芰均不如人类,并且短期内难以实施。特别是,缺乏在特定环境的学习和适应能力,只能按照一定的程序进行分解及工作、执行。本世纪初,人们对于人类大脑的工作方式已经有了一定程度的了解,有着非常大的规模的基本单元,被称为神经元,这些经过高度复杂的统一结合,形成复杂的、非线性、平行处理的信息综合处理系统,这和当代的计算机处理方式是完全不同的。单个的神经元的反应速度比起类似计算机的基本单元逻辑反应时间,是毫秒级别的。
1.1 图像识别及分类技术概况
随着计算机技术和数字图像处理技术的发展,为了满足当前迫切需要,通过对机器视觉设备所获得的图像识别和分类,己成为当前的迫切需要。研制机器的视觉系统是图像识别的最终目的。因此,他们自行区别分类是可能的。通过一些手段使各类图像的重要显性数据通过一定的数值来表示出来,除了对图像进行数据化处理之外,通常特征范围的提取工作也是必要的。但反应某一类特征时,计算工作的繁杂、内容的庞大,为计算带来了很大压力的同时,产生了不精确的可能,难免有一些误差。所以进一步的工作量需要对特征进行选择与处理,减小特征值的误差而保留图像特征信息,这种找出比原来特征数目少而精的综合指标的方法称之为特征选择。
1.2 神经网络应用于图像识别技术的现况
在世界范围内掀起了探索和研究神经网络的热潮,来自发展了的学习算法。目前国内外研究较多的有字符识别技术、车牌识别技术、脸部识别技术、各种纸币识别技术、印章识别技术及对一些军事目标的识别等方面。人工神经网络的发展己渗透到各种研究领域,特别是在模式识别的图像分类技术方面,所取得的应用也日益增多。
2 图像识别原理简介
2.1 图像识别系统
图像模式识别系统的三个重要组成部分,有如下三种,第一是图像有关信息的采集和收集,他等同于对被研究对象的深入了解和调查,取得有关数据后,进行整体的加工、修改、归纳、整合,并且进一步提出反应其点的一些潜质。最重要的一部分特点是将类似空间的映射量折射到空间中。相当于人类的感性和理性认识的转换,并作出结论的过程。图像识别系统如图1所示。
2.2 模糊模式识别法
模糊特征,本质就是根据一定的模糊化规则,经过多重加工后,将图像的一个特征或者一组特征分成多个模糊变量,使每个模糊变量能表达原特征的一部分特性。这些新的模糊特征取代原来的特征进行模式识别,提高了分类器的性能。
2.3 人工神经网络模式识别法
图像输入预处理特征提取神经网络识别识别结果。
3 神经网络图像识别系统设计
3.1 网络分类器的设计
新的性能指标函数,通过反复使用,可以在保证网络误差尽可能小的情况下使网络具有较小的权值,使得网络的有效权值尽可能少,这实际上相当于自动缩小了网络的规模。
3.2 样本的选择及组织
选择标准且合理的样本,对提高网络的学习速度、使网络具有良好的识别精度都有着举足轻重的作用。本实验中,样本的选择可以遵循以下原则,当网络用于分类属性时,首先选取各类的样本进行训练,在使网络的总体性能不高时,另一方面可以大幅度提高训练程序速度,避免网络陷入瘫痪。如此反复,结果会使网络产生振荡。要使网络对模式的旋转、伸缩等具有不变性,因为网络并不具有不变识别的能力,所以就要选择各种可能情况的样本,这样可以保证网络具有比较高的识别率。
4 传统企业应用技术分析
无限制地共享数据和业务处理是企业应用集成(EAI)是指企业内部和企业之间的任何相连的应用之间。公共对象请求体系结构(CORBA)、分布式组件对象模型(DCOM)和远程方法调用是传统的系统集成方式。目前用的比较多的集成方式是 Web Services。
5 结语
本文首先综述了人工神经网络的发展、应用、特点和神经网络应用于图像识别技术的现况。重点介绍了目前在目标识别中用的最多的前馈神经网络模型及其采用的算法的同时,介绍了图像识别原理和几种模式识别常用的神经网络模型。
随着有关研究的不断深入、计算机运行技术、数字图像处理技术的发展,对机器视觉设备信息操作,所获得的图像识别和分类已成为当前的迫切需要。
目前所做的工作离实用要求的距离还有很大的距离。不过,结合企业实际情况设计了基于ESB的企业应用集成技术。这一课题必然会得到较好的解决。
参考文献
[1]袁建国,高亮,刘向军等.需求链管理的研究.中国机械工程,2003,14:89-93.
[2]孙晋文,肖建国.企业应用集成与基于Web Services 的构架应用.计算机工程与应用,2003,8:25-29.
收到日期:2016-09-02
关键词:云计算;安全性;可信云;安全云
中图分类号:TP393 文献标识码:A 文章编号:1007-9599 (2012) 15-0000-02
1 引言
随着网络带宽的提升、移动互联网的不断发展、数据中心对于全新的结构和管理理念的需求,以及各行业对于IT需求的增长和相关技术的不断成熟,基于云计算的各种应用在社会的众多领域不断被推广展开。很多企业和机构都部分或全部应用云计算技术来部署其信息系统并提供相关服务,如今云技术已经渗透到国家关键部门应用中。基于云计算的应用使得用户能够最大限度的利用计算、交互、存储乃至应用等IT资源,灵活的计算能力和高效海量数据管理分析方法,更方便的获取各类信息服务。然而尽管云计算系统功能强大,且可无限虚拟服务资源、可按定制服务需要进行交付服务计算,但假冒电子签名、木马攻击与病毒损毁、电子签名的抵赖等都在威胁着互联网云计算的安全性。因此从云计算诞生以来,国内外的众多学者便对云的安全性进行了很多研究。
2 云计算安全性的相关概念
2.1 云安全概述
云安全(cloud secarity)是一个综合的概念和问题。研究的是云计算过程涉及的环境、流程、技术、管理、服务(service)等各个层面的安全问题,如果单纯从某一层面去定义,无意是片面的。云安全领域研究的努力目标是达成安全云或安全云计算。
2.2 云计算服务的安全现状
在云计算被企业接受使用的同时,一直困扰网络用户的安全性问题也被提上云计算使用用户的日程上来。安全性是一个很受争议的问题。根据IBM的调查显示,阻碍用户选择使用云计算的一个重要的原因就在于云计算的服务质量以及数据安全性、私密性。在这项调查中,48%的企业认为在使用云计算时数据的可用性和可靠性是很重要的,33%的企业用户认为云计算的法规限制是值得关注的。而在这些使用云计算的企业用户中80%的企业认为云安全是企业的第一优先考虑因素。而纵观Gartner、ENISA、CSA、IBM X-Force安全组织的调查报告可以发现,云计算的安全性问题涉及很多方面,其中包括:用户数据存取权限的管理;数据存放的物理位置管理,云计算的滥用、优先权问题、访问权限问题以及法规的适用性等。因此,在云安全问题方面,云安全技术不但要考虑技术层面的问题,还要关注管理、流程、法规等层面。
云安全面临的技术危机包括以下几个方面:假冒电子签名、伪造和变造电子签名、电子签名的抵赖、木马攻击和病毒损毁等。近些年来,云服务提供商频频出现各种不安全的事件。
云安全通过网状的大量客户端对网络中软件行为的异常监测,获取互联网中木马、恶意程序的最新信息,推送到服务端进行自动分析和处理,再把病毒和木马的解决方案分发到每一个客户端。云安全的策略构想是:使用者越多,每个使用者就越安全,因为如此庞大的用户群,足以覆盖互联网的每个角落,只要某个网站被挂马或某个新木马病毒出现,就会立刻被截获。据统计,云安全可以支持平均每天55亿条点击查询,每天收集分析2.5亿个样本,资料库第一次命中率就可以达到99%。借助云安全,现在每天阻断的病毒感染最高达1000万次。
3 可信云安全技术
虽然云计算产业具有巨大的市场增长前景,但对于使用云服务的用户而言,云计算存在着多方面的潜在风险和各种安全问题.在客观分析了当前云计算领域发展中面临的安全挑战问题基础上,总结了云安全领域的最新研究进展,最后指出了云安全领域的主要研究方向.云计算与可信计算技术的融合研究将成为云安全领域的重要方向.
可信云安全技术采用的技术路线是互联信息的可信云技术和安全云技术。这两项技术的支撑是可信模式识别技术、可信密码学技术、可信融合验证技术。可信云安全技术还涉及云用户端制作技术、云服务中心制作技术以及可信计算技术、云安全技术。
3.1 可信云技术
可信云技术及其可信根计算认证技术包括:针对可信云用户加密、解密密钥和算法的管理进行可信密码学技术计算;针对可信云用户端的用户身份进行可信模式识别技术计算;针对可信云、端互动的“零知识”挑战应答认证进行可信融合验证技术计算。
3.2 安全云技术
安全云技术包括:形成结合传统模式识别技术及行为密钥技术两大技术的可信模式识别技术;形成基于传统密码学技术并具有系列连续变换的可信密码学技术;形成结合“云端零知识证明”技术的可信融合验证技术。
3.3 可信云安全技术的关键技术
可信云安全的技术即可以是可信云技术、安全云技术的组合使用,又可以是两者的独立使用,可信云安全的关键技术支撑是:可信模式识别技术、可信密码学技术、可信融合验证技术,包括系统软、硬件及其应用层、驱动管理层、物理逻辑层,形成可信根计算认证的内容。
(1)可信模式识别技术。鉴于传统模式识别技术因为“拒识率”和“误识率”的缺陷而导致的认证误判,可信模式识别技术将传统模式识别技术和模式识别行为密钥技术相结合,从而使得可信云用户端只需要到可信云服务数据中心下载该可信云用户端软件即可达到零“拒识率”和零“误识率”以及防范假冒登录等功能。
(2)可信密码学技术。传统密码学在当今社会面临的危机是安全通信定义与密码学技术固有属性的矛盾冲突,加密方法的可认证性依赖于密钥的可认证性,而密钥的安全性又依赖于密钥的隐密性,在非对称密钥算法中,常用的一些算法又是潜在的攻击手段。可信密码学技术则对传统密码学技术结合点“拓扑群”变换运算技术进行扩展,从而具有了用户密钥管理和可信验证的功能。
(3)可信融合验证技术。可信融合验证技术将传统的融合验证技术作为一个子集,采用可信模式识别技术和可信密码学技术,结合“云端零知识证明”方法,具有云、端互动“零知识”挑战应答认证功能,并可实现云、端PKI技术的功能。
3.4 可信云安全的非技术手段
在云计算的使用过程中除了技术方面的因素会阻碍云计算的推广,还有一些非技术方面的因素,例如:云计算供应商与用户之间是否具备严格的安全保密协议,云服务商与用户的权利义务等等。针对这些因素,可信云安全可以采用一些非技术手段去加强云安全:选择信誉好、有公信力的公司作为云服务提供商,保障云端用户的数据安全;对于云计算的实施流程进行安全规划,每一个步骤都明确人员的权与责、制定合理的管理机制及响应办法;安排专职人员负责防护系统、安全审核、定制安全基础设施等。
3.5 可信云安全的发展历程
伴随着网格技术、云计算技术、物联网技术等的混合发展,可信云安全技术经历了三个阶段:可信计算与云安全技术初级发展阶段、可信计算与云安全技术高级发展阶段、可信云安全技术发展阶段。在可信云安全技术发展阶段可信计算被应用在云计算数据中心内网,可信模式识别技术、可信密码学技术、可信融合验证技术在云、端互动中实施。
4 结语
云计算自提出以来,因其依靠基于互联网的强大计算能力,使得成千上万的终端用户都能够云端互动、有效连接,同时依靠强大的管理平台和超级计算模式去实施多种应用,而安全性问题则是用户选择云计算的一大阻碍。因此,云计算的安全性研究对于云计算的推广应用有着极为重要的意义。物联网通信时代即将到来,而云计算技术、云安全技术也必将会随着这场技术变革逐渐完善。
参考文献:
[1]吴吉义,平玲娣,潘雪增.云计算:从概念到平台[J].电信科学,2009,12:23-30
[2]朱近之.智慧的云计算[D].电子工业出版社,2011,4
[3]Armbrust M.Fox A,Griffith R,et a1.Above the Clouds:A berkeleyview of cloud computing,2009[2010-l1-11]
[4]李虹,李昊.可信云安全的关键技术与实现[M].北京:人民邮电出版社,2010,6
[5]王舒榕.基于云计算平台的安全性及信任模型研究[D].南京邮电大学硕士论文,2011,2
【关键词】机车滚动轴承;故障诊断;特征提取;模式识别
滚动轴承是机车行走部件中应用最为广泛的机械零部件,滚动轴承的好坏直接影响到列车行走的安全。因此,滚动轴承故障诊断的研究成为至关重要的研究点。基于数据驱动的滚动轴承故障诊断的研究步骤分为:信号的采集;信号的低通滤波、离散化和降噪等预处理;故障特征提取;故障的模式识别与分类。本文主要介绍故障的特征提取和故障的模式识别与分类方法。
1 机车滚动轴承故障诊断机理
由于机车车辆长时间工作在恶劣的天气和环境下,运行中会存在着滚子与滚道不够,而且长时间处于高负荷、重载的运行状态下,运行时间长,会出现滚动轴承的温度上升、轴承的表面出现腐蚀和裂痕以及滚动体松动等,这些都是由滚动轴承的非正常磨损而造成的故障。而由轴承安装不当造成的严重后果也不少,但滚动轴承的具体故障形式有:疲劳剥落、磨损、塑性变形、腐蚀、断裂、胶合、保持架损坏。任何一种故障现象如果按其发生在滚动轴承的位置来分的话,可以分为:外环故障、内环故障、滚动体故障和保持架故障。
2 机车滚动轴承故障特征提取方法
传感器采集到的机车滚动轴承振动信号往往是连续的而且含有大量的白噪声,为了更好的分析滚动轴承的振动信号,从而有效的诊断滚动轴承的故障,首先应该振动信号进行离散化和低通滤波等预处理。为了提高信号的信噪比,目前采取的方法有时域平均法、小波滤波降噪法和AR模型提取故障脉冲冲击信号法等。在进行预处理之后,将对振动信号进行故障特征提取,目前特征提取的分类方法没有统一的形式,大致从以下几个方面进行考虑:
2.1 时域分析法
时域分析法是在时间域对振动信号进行分析的方法,也是最早提出的特征提取方法,目前广泛应用在机车轴承故障诊断仪器设备以及在线监测诊断系统中。主要是提取时域特征量,分为有量纲与无量纲。其中有量纲包括:均值、均方根值、峰值和峰峰值;无量纲包括:峰值因子、峭度(归一化的四阶中心矩)、偏度(歪度)和裕度指标。其中峰值和均方根值应用比较广泛,通过多次试验证明,时域特征量的优点表现为计算简单,只需几个特征量就能诊断滚动轴承有无故障,但其缺点为:缺乏早期报警能力、不能准确诊断滚动轴承的故障的具置,而且不同的特征量所能反映的轴承的故障形式也不同。只能对机车轴承故障做出初步的诊断。
2.2 频域分析法
为了更加准确的描述滚动轴承故障的具置,提出了频域分析法。频域分析法是将传感器采集到的时域振动信号转换到频域,再提取其信号的频域特征。而轴承信号的频域特征主要表现为其故障频率,可以根据轴承的参数以及轴承的旋转频率确定轴承的外环故障频率、内环故障频率以及滚动体故障频率。通常是采用不同的频域分析方法来确定轴承振动信号的振动频谱、功率谱或者是包络谱的故障特征频率处的峰值来确定轴承的故障频率。目前采用的方法有:1)快速傅里叶变换(FFT):将信号从时域变换到频域,获取信号的频域信息,提取其振动故障频率;此方法只适用于于平稳信号的处理。2)Hilbert变换、经验模式分解(EMD):由于滚动轴承振动信号是一种典型的非线性、非平稳振动信号,而Hilbert变换、经验模式分解能较好的分析非线性、非平稳信号,弥补了FFT的不足。通过获得原始信号的Hilbert的包络谱,从而实现振动信号的Hilbert的包络解调,从高频的固有频率中分离出低频的故障频率。3)高阶谱、双谱分析:高阶谱是分析非高斯信号的有力工具,能完全抑制高斯噪声,检测二次相位祸合,是提取轴承故障特征信号的有力工具;但是高阶谱对非高斯信号的处理能力较差,而双谱分析方法是处理旋转机械中大量的非高斯信号的有力工具,特别是在理论上能够完全抑制高斯噪声的干扰,从而解决了轴承振动信号的非高斯性。
2.3 小波域分析法
小波分析法是目前分析非平稳信号的有效方法,广泛应用于机车滚动轴承故障特征提取中。它是一种典型的时-频域分析方法,能将信号分解到不同的频带上,在不同频带范围内反映原始振动信号的信息。目前小波域特征提取的方法主要为:1)小波归一化能量特征提取方法:将振动信号进行小波或小波包变换,然后对其不同尺度下的分解系数进行信号重构,对重构信号的幅值进行归一化处理;或者将小波变换的分解系数、小波包变换的节点系数归一化处理作为表征滚动轴承的运行状态信息。2)小波域的频谱分析法:利用正交小波基将轴承故障振动信号变换到时间-尺度域,对高频段尺度域的小波系数进行包络细化谱分析,检测机车滚动轴承故障的不同故障频率,有效识别轴承的故障模式。3)混合小波特征提取方法:小波变换与统计分布模型相结合的方法,首先将振动信号进行小波分解重构,对重构信号建立对应的统计分布模型,求取模型的参数作为滚动轴承的特征向量;小波AR参数模型、小波域高斯分布模型参数等。
除以上介绍的特征提取方法之外,还有分析非线性特征的Wigner分布算法,利用二维、三维的Wigner分布图对滚动轴承进行故障诊断;奇异值分解技术和为了降低特征参数的维数,寻找更有效的特征参数,缩短智能模式识别器的训练时间,可采用主元分析方法(PCA)对特征参数进行降维处理。
3 机车轴承故障智能诊断技术
机车轴承故障智能诊断是指结合信号处理方法,将提取的特征量训练故障模式识别分类器,利用分类器测试滚动轴承故障,识别去属于哪种故障类型。目前应用最广泛的识别方法有:神经网络、专家系统、灰色系统理论、模糊理论、高斯过程、支持向量机、最小二乘支持向量机等。本文具体介绍神经网络和支持向量机故障识别方法:1)神经网络:神经网络具有独特优点,如容错、联想、推测、记忆、自适应、自学习和处理复杂多模式,因此,对于突发性故障或其他异常现象,可以利用神经网络的联想、推测及记忆对其进行推理和诊断。由于神经网络具有很强的鲁棒性和容错性,能对不十分准确和含有噪声的数据进行处理,但其具有陷入局部最小值的缺点。2)支持向量机:支持向量机是统计学模式识别方法的一种,它较好地解决了小样本、非线性和高维模式识别等实际问题,而且只需要较少的样本对模型进行训练。因此,SVM的研究成为目前热点研究问题。但是SVM也存在着计算复杂、怎样选择和优化核函数的问题,如今计算机水平的不断提高计算复杂问题已经解决,但怎样选择和优化核函数仍然成为研究的热点。而为了更好的提高SVM分类器的性能,提出了最小二乘支持向量机分类器。
4 展望
目前仍然找不到一种通用而有效的特征提取方法应用于机车轴承故障诊断中。而且大部分的智能诊断还处于离线状态研究中,因此,在今后的研究中应该找到一种通用而且有效的特征提取方法实现滚动轴承故障的在线监测和诊断,更进一步能实现故障的预测。
【参考文献】
[1]吴俊伟.Laplace小波在机车轴承故障诊断中的应用研究[D].北京:北京交通大学,2009.
[2]项斌.基于小波包与支持向量机的机车轴承故障诊断研究[D].甘肃:兰州交通大学,2011.
【关键词】BP神经网络;数字识别;价值
一、数字识别研究的实用价值
1.数字识别应用在大型数据统计。在大型的数据统计(如:工业普查、农业普查、三产普查、人口普查等)中,输入数据量特别大,曾经的手工输入,耗时、耗资、需要的人力大。如今在类似工农业普查及人口普查工作中,数字识别技术已解决了效率优先的根本问题。
2.数字识别应用在金融等领域。金融等领域中涉及到大量的数字运用,因此,数字识别在其中的优势尤为凸显。伴着国家经济的迅猛发展,越来越多的各种金融票据需要人们予以快速有效的处理。所以,使用系统自处理,显然可以节省大量的人力、物力和财力。比较上面涉及到的统计报表处理,在金融领域的实践难度较大,究其原因有三:其一是金融领域的各种票据要求识别精确度更高;其二是在表格处理过程中经常涉及到多种表格需要同时处理,这样一来,必须要求一个系统能同时有效地处理多种表格;其三是因为在日常的工作过程中,数据处理无时无处不在,书写字符过程中必须尽量按常规习惯,这显然提高了识别及预处理核心算法的要求。
3.数字识别应用在身份证字符识别。数字字符识别与身份证字符识别有很多共同点,身份证字符识别将数字字符直接运用在身份证字符识别中,可以做到资源的有效共享。也可以配合公安机关对每一个人的身份进行有效监控,这样,一些不法分子在违法犯罪之后将寸步难行,从而有效的维护了社会治安。
二、数字识别研究的理论价值
1.阿拉伯数字有其明显的优越性,因为它是世界各国唯一被通用的符号,所以,在对数字识别的研究上,与世界各国的文化背景毫无关系,所以,在数字识别的研究领域,为世界各国的研究人员提供了一个平等的施才舞台。同时,各研究专家、有识之士可以在此领域予以有效探讨,共同进步。
2.数字识别中,其识别类别数不大,这样有利于我们做更深层次的分析及检验某些新的理论。比如:人工神经网络(ArtificialNeuralNetworks)――其中有较大一部分的ArtificialNeuralNetworks模型及算法全以数字识别当成全面的实践平台,检验其中理论的有效性,评议各方法的优势和不足。
3.虽然人们研究数字的识别历时已久并已获取了众多成果,但是直至今天为止,系统的识别能力还远不及人脑的认知及判断能力,所以,高精度的数字识别研究依然是一个难度相当高且待进一步深入研究的重大课题。
4.数字字符的识别方法研究能进一步外延到很多相关问题的研究中,并且对一些相关问题的研究具有重要的借鉴作用。例如:在英文二十六个字母扩展成的拼音文字的识别就是一个很好的个案。实际上,在字符识别领域的研究中,很多学者已经把数字识别和英文字母识别放在一块进行比较研究。
三、神经网络的数字识别的研究优势
对于曾经风靡的传统模式识别,如今人们对其低正确率的识别方法已深感不满,涉及到巨额经济的账目核算等问题时,低正确率的识别方法甚至让人惶恐不安,早在二十世纪中期诞生的神经网络使模式识别的发展产生了引领和推动作用,发展前景广阔。这些年来,模式识别领域对刚发展起来的神经网络理论给予了人们的高度关心和注意,究其原因主要是传统模式识别方法不如神经网络方法好,神经网络较传统模式识别方法具有很多的优点,比如:神经网络方法对新样本训练效果的自适应性、学习能力良好,同时,任意拓扑结构的模式空间能被其非线性及多层网络结构能划分,且神经网络的容错能力、推广能力让神经网络在模式识别的使用中具有较高的识别效率,神经网络的运算速度很快。
四、数字识别研究的发展趋势及现实意义
在国内外研究现状资料及现实调查显示,很多基于数字识别的研究都取得了突破性的进展,提出并解决了数字识别的正确率问题,然而,数字没有上下文关系,每个单字的识别都事关重要,而且数字识别经常涉及到财会、金融领域,其严格性更是不言而喻的。因此,用户的要求不是单纯的高正确率,更重要的是极低的、千万分之一以下的误识率。此外,大批量数据处理对系统速度要求又相当高,许多理论上很完美但速度过低的方法显然是行不通的,因此,研究高性能的数字识别算法是一个亟待解决且具有相当挑战性的重大现实课题。
神经网络具备有学习能力高、泛化能力强、快速并行实现等诸多特点,用于解决以上问题具有一定指导性意义。由Rumelhart所涉及到的多层前馈神经网络模型,因利用了误差反传的BP学习算法,被称为BP网络。由于其高度的非线性映射能力,BP网络的应用极广。为此,基于神经网络的数字识别系统设计研究将对社会、经济发展及科技进步具有重要的现实意义。
参考文献:
[1]许颖泉.用神经网络进行数字图象识别研究[J].应用科技,2008(24).
【关键词】版面分析;模式识别;应用
1 模式类区分方法[1]
对于图文混排的复杂度高的文档图像一般采用自底向上的版面分析策略,在通过连通区搜索算法(包括二次分析)获得版面全部连通区信息后即面临文本区域和图像区域的连通区信息区分问题。为方便讨论,依模式识别理论我们称文本区域和图像区域的连通区为不同的模式类对象。由于文本区域和图像区域不能出现交叠(这种交叠情况我们结合后续相同模式类对象合并过程称为合并或聚类风险),但试验表明即使在刚刚获得版面全部连通区信息,即在尚未展开后续合并等处理过程就已经存在文本区域和图像区域交叠的情况,或者说存在合并风险问题。所以有理由说合并风险将是伴随相同模式类对象合并过程始终的。由于问题的复杂性,受二分法思想启发,我们把问题逐步分解,即确立图文分解的方法。
对于一个待分析图像文档,我们将图像中的图像模式类对象:边框线和标题在原图像中滤除,同时将所提取的文字图像部分就其在文档中区域信息(该信息由对原图像的连通区搜索得到)规范化为图像文档,即作为原始文档的伴随图像。由于生成伴随图像,初步排除图像模式类对象的干扰,从而就其文字图像的版面分析的复杂度大为降低[2-3]。
需要说明的是这仅是初步做到图文分解,就是说在伴随图像中仍可能存在图像模式类信息,为此我们采取“渐进合并,特征凸现”的策略在后续处理中解决(对此将作另文详述);另一方面的关键问题是仍无法保证对不同图像模式类对象(如文字、图像甚至表格)分析的互不干扰性,而这一点正是我们要求系统所能体现出的智能性,它是由聚类稳定性算法保证实现的。
2 辅助功能模块的运用
承前所述,随着并行合并过程进行,由于对模式类对象是采用“渐进合并,特征凸现”的策略,模式类对象的确定要建立在一定前提条件上,即要待其模式类特征从不明显到明显之后,但在此过程完成时会有相互冲突情况产生。尽管上述算法的采用极大提高了系统的版面分析质量,但必须佐以其他功能模块的运用来处理这种更复杂的情形。该模块的功能将分别不同情况实现:1)择取强势特征模块,该情况下将保留取强势特征对象同时舍弃异类对象;2)折中退让,该情况下将根据冲突的情形做单方面的退让,如可以是文本类对象退让图像类对象(简称“文退图”)等,由于该情况较复杂,鉴于篇幅作者只做一般情形解释。
3 结论
对于模式类区分方法可以做策略层面的理解,这对于整个版面分析系统的质量是举足轻重的,但没有其他方法的辅助则很多具体问题仍不可得以完善和解决,因为版面分析要面临很多复杂的模式识别问题。本文正是探讨通过两者的融合从而是系统最终能体现出智能性的特点,进而获得实际应用的价值。
【参考文献】
[1]周长岭.中文OCR中的版面分析算法初探[C]//第六届全国汉字识别学术会议论文集,重庆,1996:137-142.