时间:2023-09-14 17:43:41
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇计算机视觉感知技术,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:双目视觉;匹配算法;计算机视觉;立体匹配;相位一致性
1.计算机视觉系统分析研究
1.1计算机视觉技术及双目立体视觉
计算机视觉是通过计算机技术实现对视觉信息处理的整个过程,是一门新的学科。视觉是人们认知事物的重要途径,视觉是人们对视觉信息获取、处理和存储的过程。随着计算机技术的发展,信号处理技术的应用,人们通过照相机来把实际的事物拍摄下来转变为数字信息,并通过计算机信号处理技术队获取的视觉信号进行处理。计算机视觉技术对图像的处理分为获取图像、特征抽象选取、事物识别及分类和对三维信息的理解。获取图像主要是通过摄像机和红外线等技术对周围视觉事物进行获取,并通过计算得到和真实事物相应的二维图像,二维图像主要是数字图像。计算机视觉系统的最基本的功能是数字图像的获取。可以看出计算机视觉研究最基本内容是三维场景距离信息的获取。在计算机被动测量距离方法中,有一种重要的距离感知技术叫作双目立体视觉。双目立体视觉技术是其他计算机视觉技术无法取代的一种技术,对双目立体视觉技术的研究在计算机视觉技术和工程应用方面都是非常重要的。
1.2计算机视觉理论框架
第一个视觉系统理论框架的提出是以信息处理为基础,综合了图像处理和神经生理学等研究内容而建立的。这个视觉系统理论框架是计算机视觉系统的基本框架,与计算机视觉技术有着密切的关系。视觉系统的研究是以信息处理为基础的,从理论层次、算法层次和硬件层次3个层次进行研究。计算机理论层次主要是表达系统各个部分计算的目的和方法,对视觉系统的输入和输出进行规定,输入作为二维图像,输出是以二维图像为基础建立起来的三维物体,视觉系统的目的就是对三维物体进行分析和识别,通过计算对二维物置和形状进行重新建立。算法层次对计算机规定的目标进行计算,算法和计算机表达有关,不同的表达可以通过不同的算法进行实现,在计算机理论的层次上,算法和表达比计算机理论的层次要低。硬件层次是通过硬件来实现算法的一种表达方法。计算机理论层次在计算机信息处理中时最高的层次,取决于计算机的本质是解决计算机的自身问题,不是取决于计算问题的计算机硬件。要更好地对计算机系统和框架进行理解最好的方法就是要区分3个不同的层次,计算机理论的含义和主要解决的问题是计算机的目的,表达算法含义和主要解决的问题是实现计算理论的方法和输入输出的表达,硬件的实现的含义和主要解决的问题是如何在物理上对表达和算法进行实现。计算机视觉处理的可以分为3个阶段,对视觉信息的处理过程从最初的二维图像的原始数据,到三维环境的表达。第一阶段基元图的构成,基元图是用来表示二维图像中的重要信息,主要是图像中亮度变化位置及其几何分布和组织结构,图像中每点的亮度值包括零交叉、斑点、端点和不连续点、边缘等。第二阶段2.5维图描述,在以观测者为中心的坐标中,表示可见表面的方向、深度值和不连续的轮廓,基元是局部表面朝向离观测者的距离深度上的不连续点表面朝向的不连续点。第三阶段三维模型表示,在以物体为中心的坐标系中,有由体积单元和面积单元构成的模块化多层次表示,描述形状及其空间组织形式,分层次组成若干三维模型,每个三维模型都是在几个轴线空间的基础上构成的,所有体积单元或面积形状基元都附着在轴线上。视觉理论框架图如图1所示。
2.基于计算机的视觉立体匹配算法研究
视觉立体匹配算法是基于人类视觉系统的一种计算机算法。立体匹配算法作为计算机立体视觉问题研究的重点,快速地实现图像对应点的匹配来获得视差图是当今研究的热点问题。立体视觉匹配算法根据基元匹配的不同可以分为相位匹配、区域匹配和特征匹配3种,其中区域匹配算法可以减少计算负担,区域匹配算法实时性高,应用前景广阔。计算机立体视觉通过对人的双眼进行模仿,在双眼的立体感知中获得信息,从摄像机拍摄的图像中获取物体的三维深度信息,这就是深度图的获取,把深度图经过处理得到三维空间信息数据,二维图像到三维空间实现转换。深度的获取在双目立体成像视觉系统中分为两步,首先在双目立体图像与图像之间建立点对点的对象关系,双目立体视觉算法研究的重点问题是解决对应点之间的匹配问题。其次以对应点之间的视差为依据对深度值进行计算。双目成像是获取同一场景中两幅不同的图像,两个单目成像模型构成一个双目成像模型。双目成像示意图如图2所示。系统的基线B是两个镜头中心的连接线,空间点w(z,y,z)作为世界坐标的值由(x1,y1)与(x2,y2)进行确定,如果摄像机的坐标位置和空间点w世界坐标的位置重合,图像平面和世界坐标轴xY的平面就是平行的。如果两个摄像机在坐标系统中的原点不同但是它们的光轴平行,那么双目成像计算人们可以看图3所示,图3表示的是两个摄像头连线在平台xY的示意。
立体视觉的成像过程是成像的逆过程,具有一定的不确定性。大量的数据信息在从三维影像向二维图像进行投影的过程会出现丢失的现象,所以视觉系统要通过自然的约束条件才能保证获取正确的解。这些约束条件在减少匹配的计算量方面可以提供有利的帮助。针对基于区域匹配快速算法,还可以应用基于视差梯度的匹配算法,这种匹配算法应用较大的搜索范围在边缘的特征点上进行搜索,采用视差梯度在非边缘区减少搜索范围。应用计算机视觉立体匹配算法可以减少成像匹配时间,大大提高了工作效率。计算机立体匹配算法征点的提取是算法的关键问题,今后的研究方向重点是对有效特征点提取方法的研究。
【关键词】农产品 计算机视觉技术 品质检测
农产品品质检测工作中除了采取人工检测法以外,还可以采取半自动或自动检测法,如在水果分级检测工作中的质量分级检测法、光电分选法以及大小分级法等。然而农产品品质会受到自然生长环境或人为因素等方面的影响,农产品的色泽、大小及形状等并不相同,无法采取单一指标进行检测。因此充分应用计算机视觉技术,对农产品的品质进行检测,极为重要。
1 计算机视觉技术
计算机视觉技术又被称为机器视觉技术,指的是通过人类设计,在计算机环境下,达到再现或模拟人类视觉相关的职能行为的一种技术,包括了印刷和手写文字的识别技术,图像模式识别技术,物体三维表面形状识别技术、距离识别以及速度感知等技术。该技术是诸多学科的结合与交叉,涉及到数学、生理学、信息处理、物理学、光学以及计算机等多种学科。探究计算机视觉技术的目的在于实验人类视觉的再现及延伸,即再现高等动物的视觉系统,并对物体形状以及类别进行识别。
此外,计算机视觉技术处理的原始资料多是图像,所以该技术和图像处理以及模拟识别等有着紧密的联系。现阶段,计算机视觉技术在诸多领域有着较为广泛的运用,包括了医学辅助诊断、资源调查、卫星图像解释、军事指导、灾害监测、气象以及工业产品的外观筛选及检测等。同时研究该技术在农业工程领域中的应用,也成为了热门话题。
2 在农产品品质检测中,计算机视觉技术的具体应用
笔者在查阅相关文献资料的基础上,探究在农产品品质检测工作中,计算机视觉技术在产品表面缺陷以及损伤识别工作中的具体应用;果形识别工作中的具体应用;农产品尺寸以及面积检测工作中的具体应用。
2.1 在产品表面缺陷以及损伤识别工作中的具体应用
在对农产品进行分级的过程中,依然存在着一大问题,即农产品表面缺损以及损伤识别。而早在1984年就已经出现了采取线扫描和模拟摄像机针对苹果表面损伤进行检测的实验报道,实验结果显示,采取数据技术能够检测出苹果表面损伤,其检测结果完全能够达到人工分级的精度。与此同时,还出现了一种机器视觉系统,该系统将不规则的图像信息与正常的图像信息区分开来,在去除蔬菜内的杂物以及检测农产品的污点等方面能够取得较好的应用效果。此外,在1989年,国外出现了一种全新的计算方法,即运用红外线扫描摄像机,处理苹果表面的灰度图像,既能够确定苹果表面的损伤面积,还能够区分不同损伤区。然而还技术是以机械装置的设定为基础,需要消耗2s的时间,对一个苹果进行检测,苹果表面缺陷分级精度以及损伤分级进度并不高。
我国在1997年,出现了运用计算机图像处理技术对苹果损坏自动化检测的试验研究,该试验结果显示,该技术的损坏检出率较高,能够规避果梗区以及花萼区对于坏损区域识别的具体影响,且该检测技术的鲁棒性较强。
2.2 在果形识别工作中的具体应用
果形识别是影响水果质量的重要因素之一,对于水果品质检测有着重大意义。当水果成熟后,水果的外形将会发生巨大的改变,且无法采取数学方法进行鉴别,采取其他方式进行果形识别极为重要。
在1981年,有研究人员就针对形状识别中的图像特征进行了探讨,提倡采取结构分析法以及外形轮廓曲线检测法,针对水果外形进行识别。并在1985年,以数字图像分析技术以及模式识别技术为依据,针对番茄定向、番茄形状、表面缺陷以及尺寸进行分类的特殊算法,运用灰度梯度曲线,明确番茄表面缺陷以及花萼位置等。而我国则在2000年,按照果实形状分析,通过连续性指标、半径指标、连续指标对称性、半径指标对称性等特征参数,表示果形,并首次采取参数形状分析法。
2.3 在农产品尺寸以及面积检测工作中的具体应用
农产品分级中,以农产品外形尺寸为依据。在1987年,国外就已经开始研究机械视觉技术在牡蛎肉分级以及尺寸检测工作中的具体应用。并在1992年,针对人工检测以及机器视觉检测进行进行了对比分析,试验结果显示,和人工检测技术相比,采取视觉检测技术,能够提高检测的精确度,减少检测消耗时间;同时在评价以及推广种质资源中,准确的测量以及详细的记录种质形态的指标,有着极为重要的意义。为了能够精确、快速地计算出玉米种质尺度,在1995年,有研究人员就提出了自动化选择技术,该技术在处理玉米种质图像中,其辨别精度极高。
而我国在2002年,有研究人员就针对水果品质进行动态、实时监测的智能化分级生产线进行了研究,该生产线,首先通过水果输送翻转系统,利用滚筒式输送翻转装置,将水果往前输送,在输送过程中,以水平轴为中心,保证水果表面能够被系统检测到,以此获得图像信息。然后利用计算机视觉识别系统,对水果等级进行判断,明确图像信息。该系统具备了视觉识别功能。最终通过分级系统,完成水果分级工作。
3 结语
在二十世纪七十年代以后,计算机视觉技术就已经得到了较为迅速的发展,在我国,该技术在农产品品质检测中的具体应用也得到了人们的高度关注,同时也取得了一定的成效。计算机视觉技术作为人眼的延伸技术之一,其具备了人脑功能,运用该技术代替以往的人工操作技术,已经成为了农产品品质检测工作的必然发展趋势。
参考文献
[1]朱从容.计算机视觉技术在水产养殖中的应用[J].浙江海洋学院学报(自然科学版),2008,10(04):191-192.
[2]王勃,徐静.计算机视觉技术在苹果叶片营养诊断上的应用[J].农机化研究,2008,(03):887-888.
[3]李朝东,崔国贤,盛畅,等.计算机视觉技术在农业领域的应用[J].农机化研究,2009,10(12):667-668.
作者简介
陈超(1995-),男,福建省福州市人。现为北京交通大学在校学生。研究方向为电子科学与技术。
【关键词】计算机视觉 运动目标 跟踪算法
在计算机等现代科学技术尚未出现以前,人们在获取外界信息时往往主要依赖视觉,而在我国计算机技术水平不断发展提升的背景之下,计算机视觉技术的出现使得人类肉眼视觉得到了进一步的发展延伸,尤其是在各种传感器技术的帮助之下,使得人们能够对保持运动状态的目标进行实时跟踪,从而准确掌握目标的具体形态属性。在此背景之下,本文将运动目标设定为运动的人脸,通过探究基于计算机视觉的运动目标跟踪算法,希望能够为相关研究人员提供相关参考和帮助。
1 Kalman filter目标跟踪算法的简要概述
Kalman filter目标跟踪算法是当前众多跟踪算法当中使用范围较广、使用频率比较集中的一种跟踪算法,这一算法最早可以追溯至上个世纪六十年代,人们通过将滤波理论与状态空间模型相集合,从而得到的一种递推估计的算法也就是卡尔曼滤波理论。其通过利用上一时刻获取的预估值以及当下获取的实际观测值,在信号与噪声状态空间模型当中不断更新状态变量,进而顺利完成估计预测并获得当前时刻估计预测值。经过不断的发展,在计算机图像处理以及其他运动目标跟踪当中经常会使用Kalman filter算法。如果在k时刻系统下的状态向量用xk表示,那么在t0时刻下初始化的状态预测方程为;在tk时刻下更新系统状态的具体方程为
,其中Hk、Zk分别表示测量矩阵m×n维以及转移矩阵n×n维的状态向量。但在跟踪计算机视觉运动目标譬如说视频目标时,由于相邻的两帧视频图像本身时间间隔非常短,因此目标在这一时间内难以发生明显的运动状态变化,此时我们可以通过将此间隔时间设定为单位时间,同时目标在单位时间内一直保持匀速运动状态,这时我们可以得到一个状态转移矩阵且
,定义系统观测矩阵即为
,定义噪声Wk以及Vk协方差矩阵则可以分别用
和表示。
如果在滤波器在经过若干次卡尔曼滤波后仍然能够恢复至原始状态,则其具有较好的稳定性,但如果在进行运动目标跟踪实验的过程当中,对于处于运动状态的被跟踪目标,一旦出现遮挡行为则将在第一时间内暂停估计参数,并将这一参数估计值直接代入到状态方程当中,使得运动目标无论是否被遮挡均可以对其进行精确跟踪。
2 基于计算机视觉的运动目标跟踪算法
2.1 建立颜色概率模型
颜色囊括了诸多的信息量光柱点,尤其是在人类的视觉世界从本质上来说也是一种用过感知自然界色彩以及明暗变化的世界,因此人们可以通过使用三基色原理获得RGB颜色空间。考虑到颜色与计算机视觉场景当中各个场景和目标之间有着紧密的关系,同时不同于目标的大小、形态等其他视觉特征,颜色特征鲜少会受到包括观察视角等在内各因素的干扰影响,从某种角度上来说基于颜色特征的运动目标具有较好的稳定性。为了能够保障目标跟踪既稳定又迅速,需要选择合适的颜色特征,否则将极有可能导致出现跟踪失败。在这一环节当中人们通常使用的是RGB颜色空间以及HSI颜色空间,但由于二者均具有一定的局限性,因此本文在对人脸特征尤其是颜色特征进行选取时,选择了rgI颜色直方图的方法,在解决两N颜色空间自身缺陷的同时,尽量避免目标人脸运动位置以及尺寸等变化因素对目标追踪造成的干扰影响。在rgI颜色直方图当中
,,,L=r+g+I其中R、G、B就是RGB颜色空间当中的三原色,r、g、I有着相同的取值范围即在0到1之间。保持间隔相等的情况下划分L值即可得到rgI颜色直方图。虽然rgI颜色直方图与物体相对应,但如果目标只是位置以及尺寸等出现变化,rgI颜色直方图并不会受到任何实质性影响,因此在理想情况下,利用rgI颜色直方图能够对视频图像中不同运动位置以及不同尺寸的人脸进行目标追踪。
2.2 跟踪算法
运动目标的不断变化将会使得模板图像随之发生相应变化,因此需要不断更新模板图像才能够有效完成对运动目标的连续跟踪,本文在对运动目标的实际运动范围进行预测过程中选择使用卡尔曼滤波,之后利用rgI颜色直方图在预测运动范围之内搜索和匹配相应目标,从而通过此举获得与目标模板有着最小欧式距离的区域,在此过程当中存在一个特定阈值T,如果两者的欧氏距离在进行相减时差值没有超过这个特定阈值,那么此时该区域就是运动目标所在的实际位置,利用在这一区域当中的rgI颜色直方图并将其充当下一帧运动目标的匹配模板,在不断重复的过程中模板能够实现不间断地更新。由于相邻的两帧视频图像之间,时间间隔并不长,因此目标人脸在极短的时间间隔当中基本上不会出现突然变化,此时我们可以认为运动目标人脸的运动连续性比较强,此时利用公式
可以进行欧式距离的计算并用以衡量匹配的模板。其中匹配区域和模板的rgI颜色直方图分别用l和l'表示,而rgI颜色直方图中的维数则用n进行表示。根据相关视频图像显示,通过不断更新模板确实可以对目标运动人脸进行实时跟踪显示。
3 结束语
总而言之,本文通过选择当前比较常见的目标跟踪算法即Kalman filter算法,利用卡尔曼滤波以及rgI颜色直方图完成对运动人脸的跟踪。事实证明,Kalman filter算法确实能够在对各目标之间的干扰进行明确区分的基础之上,准确描述运动人脸目标,从而较好地跟踪运动目标,但由于人脸之间本身存在一定的相似性,因此本文只是对理想状态下的运动人脸进行跟踪实验,日后还需要对计算机视觉技术和Kalman filter算法进行进一步优化以妥善解决多人脸目标以及相似性问题。
参考文献
[1]郑薇.基于双目视觉的运动目标跟踪算法研究及应用[D].哈尔滨:哈尔滨工程大学,2014.
[2]李慧霞,李临生,闫庆森,周景文.基于Mean Shift算法的目标跟踪综述[J].计算机与现代化,2017(01):65-70.
[3]李寰宇,毕笃彦,杨源,查宇飞,覃兵,张立朝.基于计算机视觉的运动目标跟踪算法研究[J].电子与信息学报,2015(09):2033-2039.
[4]陈曦,殷华博.基于计算机视觉运动目标跟踪技术分析[J].无线电工程,2014(06):22-24+39.
生活中,每个人都问过别人“这件衣服是从哪买的?”“这双鞋是什么牌子的?”这一问题很快会被AI技术解决,只需要拿出手机对着物品拍照,就会得到商品的各种信息,并且能一键买买买。这就是美国著名图片社交网站Pinterest(拼趣)即将推出的应用图片识别购买业务。
Pinterest总裁Tim Kendall表示,“Pinterest可以即刻在存储750多亿张图片的巨大网络空间内进行搜索,从而为用户找到与所拍摄照片相似的配对图片,以及查找到哪些地方能够买到他们所需的商品。”
目前,Pinterest的估值已经达到了110亿美元,该公司的专注点正在向营收增长和创收方面转变。相比Facebook、Twiter等社交网站,Pinterest已经率先找到了一条清晰的创收道路。
从兴趣到产品
亚里士多德曾经说过,古往今来人们开始探索,都应起源于对自然万物的惊异。科技的进步也是如此,就像微软研发主管和项目负责人Mitch Goldberg所说:“我们想通过该应用向人们展示识别技术的无限魅力。”
今年2月,微软旗下的Garage实验室了一款名为“Fetch!”的应用,它可通过机器学习系统识别照片中宠物狗的品种并用文字对该品种进行简单的介绍。
随着计算机视觉领域开始利用深层神经网络这种模仿人类大脑生物过程的系统来从事机器学习,识别的精确度实现了巨大飞跃。也就是说通过机器学习技术,Fetch!识别的准确度会越来越高,随着大量图片的涌入,Fetch! 可以自我修复错误,从而更加精确地识别每一只狗的样貌、形态、动作。除了测试狗类品种以外,你还可以把朋友的照片上传至平台,看看他们能够对应出哪种宠物。
微软的这款产品基于目前最为热门的一种图像识别技术――“深度神经网络”,同样基于这种技术,微软还有另一款有趣的产品:。去年5月,有超过5.75亿图片被提交到,超过8500万来自世界各地的使用者访问了这个网站,只为寻找一个简单问题的答案――颜龄机器人认为我看起来像几岁?如果是合照,并且颜龄机器人识别出的自己比周围人年龄小,则更能引发用户的兴趣,这种“损人利己”的识别应用着实在社交媒体上火了一把。
另一让计算机视觉研究技术人员特别感兴趣的领域是生物识别,当下最为火爆的莫过于人脸识别技术了。早期的人脸识别技术多为安防领域,如海关识别走私犯、商店识别小偷等。近年来,深度学习的研究与应用使得人脸识别和人工智能的核心技术得到了极大的提升,摄像头等图像硬件的发展为人脸识别提供了很好的图像基础,如今人脸识别技术应用更加广泛,比如公司可以使用刷脸打卡来杜绝代人打卡签到现象。
其实早在2012年,谷歌就开发出了安卓系统的“刷脸解锁”技术,但因安全问题未解决,该技术一直未能得到普及。
而今年3月,电商巨头亚马逊提交了一项针购物付费的专利技术,即消费者在亚马逊网站购物时可以通过自拍或者视频来进行付费,无须再输入账号密码。在消费时系统会提示用户表现出特定的行为、情绪或手势来证明消费者就是本人,而不是拿着照片的冒名顶替者。
亚马逊表示,这项技术能使消费者更加安全地进行网上购物,因为很多用户为了省事会把所有账户都用同一个密码,或者把密码记在手机里,一旦遭遇“撞库”或者手机被盗,后果不堪设想,而刷脸技术则没有这个风险。
除了识别人脸,在识别其他生物方面也有了突破性进展,比如识别寄生虫。疟疾,是一种由疟原虫造成的全球性急性寄生虫传染病,据统计,2015年有大约有2.14亿人受疟疾的影响。
一直以来,医疗工作者是通过肉眼观察采样玻片来确定采样对象是否被疟原虫感染,这不但是对医疗工作者经验的考验,而且工作效率也十分低下,而贫困地区一直都缺乏有经验的医疗工作者。
今年2月,根据MIT Technology Review报道,Intellectual Ventures Laboratory(智能事业实验室)开发出了能够检测和评估疟疾感染的便携式显微镜。这种显微镜采用的是一个名为“Autoscope”的系统,通过计算机视觉和深度神经网络技术,采用深度学习算法来鉴别疟原虫。这款便携式显微镜今年在泰国实地测试,成功鉴别出了 170块玻片中的疟原虫如果这项技术得到普及之后,只要诊所有一台Autoscope显微镜和一些载玻片,就可解决疟疾的诊断问题,这将使疟疾诊断不再依赖于有限的专业医疗人员。
技术转化为产品
新技术的出现,让计算机不但“看见”这个世界,更能“看懂”这个世界,可以代替人眼甚至超越人眼。
人的视野是有限的,并且会受到周边条件的影响,驾驶员在开车时会有视野盲区,还会受到光线的影响,并且大雾、暴雨等极端天气也会严重影响驾驶员的视线。而计算机视觉技术就不一样了,视野会更开阔,受限制更小。根据汽车媒体《Leftlane》报道,福特公司最新的无人驾驶汽车研究计划是由激光感应(LiDAR)和雷达、摄像头形成一张周围环境的高清3D地图,不但让无人驾驶汽车看到摄像头视野范围之外的物体,而且并不受光线限制。在夜间试驾后,福特工程师Wayne Williams说:“坐在汽车里,我能感到它在走,但是我往车外看,只能看到一片漆黑。结果令人惊喜,车辆准确地沿着蜿蜒的道路行驶。”
识别场景这一领域技术的发展,使得计算机不但能当机器的眼睛,还能变成人类的眼睛。
对于双目失明的人来说,能亲自感知这个世界是梦寐以求的事,而微软2016 Build开发者大会上Seeing AI项目正是要帮助盲人实现这一愿望。
Seeing AI项目是通过计算机视觉和自然语言去形容一个人的周围环境、朗读文本、回答问题以及识别人的面部表情,可以在手机上使用,也可以在Pivothead的智能眼镜上使用。如果投入使用,将有助于为视障人士营造更公平的环境,是一款能够真正改变人们生活的产品,就像此项目的高级项目经理Anne Taylor所说的,这是“为真正重要的场景寻求解决方案”。也许不久微软能开发出一种仿生眼,直接发送视觉信号到大脑,让盲人真正看到这个世界。
关键词:运动目标跟踪;生成方法;图像感知哈希;OPENCV
中图分类号:TP392 文献标识码:A 文章编号:1009-3044(2016)14-0179-03
随着计算机信息技术的发展,计算机视觉已经成为研究热点之一,运动目标跟踪更是计算机视觉领域的热门课题。如今运动目标跟踪技术已经广泛用于监控、交通、军事、医疗的等领域。视频是一帧一帧连续播放的图像序列,目标跟踪是指从视频的某一帧开始,通过目标检测方法找到到运动目标或者人工指定跟踪目标,在之后的连续图像序列中持续对目标进行识别和跟踪。
目标跟踪方法通常分为判别方法和生成方法两种。判别方法把跟踪看成一个二分类的问题:以目标物体作为正样本,背景作为负样本,通过训练分类器可以把目标从背景中分离出来,从而实现对目标的跟踪。目前很多判别方法提出,其中STRUCK是判别方法中最杰出的[2],但是此方法需要大量的计算,速度较慢,并不能满足实时跟踪的需求。生成方法首先学习外观模型来表示目标,然后在搜索区域的候选模型中选择出与目标模型误差最小的一个作为跟踪结果。生成方法最早可以追溯到Lucas和Kanade提出的基于原始图像的整体模板法,即LK方法。仅仅使用原始图像作为模板,不能很好地提取目标外观特征,适应目标外观变化,且需要的计算量较大。Hager和Belhumeur 等人改进了LK方法,对原始图像进行降维,使用对光照不敏感的低维特征作为目标外观的表示。在此基础上,Black和Jepson又提出了使用一定的学习策略进行模型更新,从而更好的处理目标外观的变化。此时生成跟踪方法的框架已经形成。随后很多模型的不同特征被用于跟踪。如Comaniciu人等结合颜色直方图和数学上的均值偏移方法,提出了meanshift方法。Collins 拓展了可自适应尺度变换的改进方法camshift。为了更好的处理遮挡和提升实时性能,局部稀疏表示(PCA、稀疏编码等)和多种特征的联合表示也被用于目标跟踪。[1][2]
跟踪的过程中会出现众多的干扰因素影响跟踪的性能,如尺度变换,光照变化,偏移,遮挡等问题。处理这些因素的关键在于构造有效且鲁棒的外观表示模型。文献[1]证明了模型表示的选择对于跟踪性能的影响最大。于是近些年来,跟踪问题更多的焦点集中在寻找有效的表示模型上。本文提出了一个有效的生成方法,使用图像感知哈希作为模型表示进行跟踪,
具有尺度不变性和运算速度快的优点,并且引入了模型更新策略,从而解决了目标跟踪中出现的偏移、遮挡问题。
1图像感知哈希
感知哈希是指将具有相同感知内容的多媒体信息映射为一段数字摘要,用来对媒体信息进行比对。图像感知哈希则是对数字图像的感知信息进行摘要。传统的哈希技术仅仅简单地把图片看作一个二进制文件进行处理,而没有考虑到图像上的感知信息。随着网络上有损压缩格式的使用,传统的哈希算法如MD5、SHA1等方式不再适用于图片的匹配,于是提出了图像感知哈希技术,利用的图片的感知特征作为摘要信息来进行图像的识别和认证[4]。
在MD5、SHA1这样的加密哈希方法中,得到的哈希值仅仅是一段固定长度的二进制数字,和其本身的内容没有关系。单向性和抗碰撞性要求它对输入的二进制数据的比特变化敏感,也就是说,即使输入数据一位的比特变化,也会导致输出哈希值的明显的随机变化。
对于数字图像而言,图像数据格式的变化,普通的图像润饰或者加工操作,图像通信的信道噪声等在剧烈改变图像二进制数据的同时,一般都只会影响图像呈现信息的质量,而不会改变其内容。因此大部分感知哈希算法都具有共同的基本特性:图像可以放大缩小,可以有不同的方向、角度,甚至可以有细微的颜色差别,其哈希值都应该保持不变或者在一个指定的阈值内变化。而以上的特性也正好适用于目标跟踪中用来匹配目标。
2提出的算法
近些年来,已经有很多不同的图像感知哈希算法提出[5]。其中包含很多复杂的甚至可以加密的方法,但是经测试,即使将很简单的感知哈希算法作为特征使用到跟踪中,也能起到很好的效果。
2.1模型表示
本文中采取的感知哈希作为跟踪目标的模型表示,计算方法如下:
1)将原图像转化为灰度图,灰度图就可以很好的保存图像轮廓和细节,减少计算量,提高速度。
2)缩小图像尺寸,把原大小转化为8*8的方形图像。缩小尺寸可以大幅度减少图像的高频信息,保留低频信息。低频信息反映了图像的整体框架,具有对放大、缩小、平移、模糊的不变性,这也是图像哈希可以作为目标跟踪匹配特征的关键原因。
3)计算所有像素灰度的平均值,用于和每个像素比较。
4)将所有的像素值与平均值进行对比,大于等于平均值记为1,小于平均值记为0。
5)把这64个2进制位由在原图像从左到右从上到下的顺序排列,形成哈希值。
以Lena图为例,计算图像感知哈希的步骤如图1所示:
2.2 运动模型和观察模型
跟踪算法使用图像感知哈希作为模型特征,以两个哈希值之间的汉明距离作为评判相似度的标准(观察模型)。汉明距离表示哈希值中对应位置二进制位不同的个数,汉明距离越大,说明图像越不相似,反之则越相似。
汉明距离的计算:d(x,y)=∑x[i]y[i],如下所示。
由[1]我们得知,在选取合适特征情况下,即便是用很简单的跟踪框架也能够实现很好的跟踪效果。本系统在第一帧使用人工标注的方法圈定要跟踪的目标,之后的每一帧使用滑动窗口作为运动模型搜寻目标:在当前目标2*2的范围内寻找目标,使用汉明距离作为观察模型来从候选的模型中选取最接近目标的一个。如图2。
2.3偏移问题
在模型更新的过程中,由于误差积累,会导致跟踪结果偏移。对于此问题,本算法采取使用第一帧和上一帧的权重共同跟踪的方法,第t帧的模型M(t)=αM(0)+(1-α)M(t-1),其中α表示第一帧中目标模型所占的权重。随着时间变化,第一帧的权重应逐渐减小。本方法中取α=1/(1+t)。
2.4 遮挡问题
当模型被遮挡时,如果继续更新,会导致更新到覆盖物更新到了错误的模型。所以本方法中的模型更新针对遮挡也提出了解决方法。d(h)表示汉明距离,当0
2.5算法流程
1)在视频的某一帧使用鼠标拖拽圈定要跟踪的目标,作为模型T,大小为p*q,左上角像素的位置为(m,n)。
2)计算选中窗口区域的感知哈希值H(T)。
3)下一帧F中使用在当前位置的2*2大小的窗口中滑动,计算每个大小为p*q的子窗口Fi,j的哈希值H(Fi,j)。i,j为子窗口Fi,j 左上角的像素在F图中的坐标,称为参考点。i,j的取值范围:m-p/2
4)比较搜索窗口和模型窗口的哈希值的汉明距离D(H(T),H(Fi,j)),选取所有子窗口中汉明距离最小的子窗口作为跟踪结果。
5)根据提出的模型更新机制决定是否将跟踪结果Fi,j作为下一帧的跟踪模型T,重复步骤2到步骤5。
3 基于Opencv的系统实现及仿真实验
Opencv是一个开源的数字图像处理和计算机视觉的函数库,实现了图形图像处理和计算机视觉方面的很多通用算法,方便开发人员将注意力集中于算法的实现而不需要自己写一些底层操作代码,避免造成时间和精力上的浪费。
Opencv提供了数组、序列、矩阵、树等基本结构,也包含了差分方程求解、傅里叶分析、积分运算、特殊函数等众多高级数学计算函数,以及各种图像处理操作和目标跟踪、摄像机校准、三维重建等高级视觉函数。本设计中的基本功能如读取视频,鼠标选取操作,缩放图像,彩色图像转化为灰度图像等基本功能都由opencv提供的函数实现。
本设计基于windows10+visual studio 2013+opencv2.4.11环境,实现了在固定的背景的情况下进行稳健的目标跟踪,具有尺度不变性和光照不变性,达到不需要预先训练的每秒30帧以上的实时跟踪效果。图3为程序在第82、269、550、736帧跟踪到的结果。
4 结论
实验结果表明,在目标跟踪中引入图像匹配中的感知哈希方法作为跟踪特征,有较快的运行速度、准确度和鲁棒性,可以作为一种良好的特征用于目标跟踪。虽然与Object Tracking Benchmark[2]中排名靠前的算法相比,本设计仍然有差距,但是提出了一种将图像感知哈希引入跟踪的概念。近些年来还不断有新的感知哈希算法提出,不乏兼具尺度不变性,旋转不变性等良好特性的感知哈希算法,试想将这些方法用于运动目标跟踪,会具有更好的跟踪效果,可作为目标跟踪发展的下一步研究方向。
参考文献:
[1] N Wang, J Shi, DY Yeung, J Jia. Understanding and Diagnosing Visual Tracking Systems[C].International Journal of Computer Vision, 2015.
[2] Wu Y, Lim J, Yang M H. Object Tracking Benchmark[J]. Pattern Analysis & Machine Intelligence IEEE Transactions on, 2015.
[3] 徐光柱,雷帮军.实用性目标检测与跟踪算法原理及应用[M].北京,国防工业出版社, 2015.
[4] Schneider M, Shih-Fu Chang. A Robust Content based Digital Dignature for Image Authentication[C]. Proc of IEEE International Conference on Image Processing, Lausanne, 1996.
关键词:高速铁路 路基 沉降 沉降观测 预测模型
中图分类号:U215
文献标识码:A
文章编号:1007-3973(2012)005-037-02
1 前言
铁路路基暴露在室外,加之我国地域广阔,地形、地质、水文、气候等情况复杂:路基边坡和坡脚受坡面雨水冲刷、日晒雨淋将引起土的干湿循环、气温变化将引起土的冻融变化、河水对边坡或坡脚处地基不断的冲刷和淘刷等,使路基常年处于升降动态循环之中,路基附加应力受其很大影响。路基填料级配不良、排水失效、过渡段碎石级配失效或不养生、路基横向碾压、填料含水率超标等将引起路基沉降。铁路两旁新修建的建筑物尤其是特大型建筑也会对路基产生影响,所以铁路路基沉降在一定意义上讲不可避免。但过大的变形沉降将直接影响旅客舒适度以及行车安全,所以必须对高速铁路路基沉降加以防治。本文着重介绍高速铁路路基沉降观测及预测技术。
2 高速铁路路基沉降测量控制要求
只有做好高速铁路路基沉降测量工作,才能保证沉降控制工作的顺利完成,为接下来的工作提供数据资料。所以工程技术人员要采用科学正确的方法,高效的完成测设工作,要保证测量精度要求,利用配套计算机对所有观测值进行严密平差,保证整个控制精度完全能够符合国家工程测量技术规范和工程设计要求。
2.1 设备要求
高速铁路沉降观测要求高精度,为了精确测量路基的沉降情况,一般规定测量的误差应小于变形值的1/10—1/20。采用一般仪器,会受到周围环境的影响而导致误差过大,所以对观测仪器的精度要求极高。观测时应优选受环境影响小的仪器,比如精密水准仪。
2.2 观测人员要求
高速铁路沉降观测要求高精度,工程技术人员应该有较高的职业技术水平和职业道德。观测人员应该专业、准时、高效的完成测量任务,对观测数据认真负责,坚决杜绝补测或修改数据等恶劣行为。
2.3 实际观测的具体要求
观测前,要对观测地点的地形、地貌、地质、水文以及气候等情况加以调查,联系实际情况选择最适宜的观测方法,既要保证观测的高效,又要保持正精度的要求。
2.4 观测点的选取
高速铁路沉降观测精度高,所以对观测点的选取要求也很高,在保证方便观测的前提下,选择合适的观测点,最好是视野开阔,地势平坦的稳定位置。
2.5 观测周期及观测时间
施工阶段,应随施工进度及时进行。观测次数与时间间隔应视地基与加荷情况而定。在观测过程中,如有路基附近荷载突然增减、长时间连续降雨等情况,均应及时增加观测次数。若路基发生大量沉降、不均匀沉降或严重裂纹时,应该立即进行逐日甚至一天数次的连续观测。
3 路基沉降预测模型的应用
对高速铁路路基沉降进行预测传统的方法有三种:(1)采用分层总和法计算最终沉降量,利用简化固结公式计算固结度,然后推算沉降的发展规律与趋势。(2)根据固结理论,结合室内试验获得土的各种本构模型,利用有限元方法预测最终沉降量以及其发展规律。(3)基于前期沉降量实测资料来建立沉降量与时间关系数学模型的预测方法。
3.1 曲线拟合法
曲线拟合,就是通过实验获得有限对测试数据(xi, yi),利用这些数据来求取近似函数y=f(x)。式中x为输出量,y为被测物理量。即通过分析实测资料与时间的关系,建立适当的沉降与时间的函数关系,进而推测沉降的发展规律。曲线拟合法是将沉降近似看做按照某种规律变化的过程,对实际测量的沉降数据进行拟合,建立某种相适应的曲线模型,采取适宜的优化方法,反推出计算公式所需的参数,在运用于后期的沉降预测。此方法参数较少并且易于确定,所以应用广泛。工程中常用的曲线拟合法包括:双曲线法、星野法、指数曲线法、三点法、沉降速率法、Asaoka法、S形成长曲线模型。
3.2 灰色系统理论
灰色系统理论是20世纪80年代,由中国华中理工大学邓聚龙教授首先提出并创立的一门新兴学科,它是基于数学理论的系统工程学科。灰色系统理论,是一种研究少数据、贫信息不确定性问题的新方法。灰色系统理论以“部分信息已知,部分信息未知”的“小样本”、“贫信息”不确定性系统为研究对象,主要通过对“部分”已知信息的生成、开发,提取有价值的信息,实现对系统运行行为、演化规律的正确描述和有效监控。
3.3 人工神经网络
人工神经网络是一种应用类似于大脑神经突触联接的结构进行信息处理的数学模型。在工程与学术界也常直接简称为神经网络或类神经网络。神经网络是一种运算模型,由大量的节点和之间相互联接构成。每个节点代表一种特定的输出函数,称为激励函数。每两个节点间的连接都代表一个对于通过该连接信号的加权值,称之为权重,这相当于人工神经网络的记忆。网络的输出则依网络的连接方式,权重值和激励函数的不同而不同。而网络自身通常都是对自然界某种算法或者函数的逼近,也可能是对一种逻辑策略的表达。利用人工神经网络理论建立预测路基沉降的BP模型和Elman模型,两种模型在预测路基沉降时,不需要建立任何土工模型,只要采集训练网络的样本就可以比较精确的预测路基沉降。
3.4 遗传算法
遗传算法是由美国的J.Holland教授1975年首先提出,是一类借鉴生物界的进化规律(适者生存,优胜劣汰遗传机制)演化而来的随机化搜索方法。其主要特点是直接对结构对象进行操作,不存在求导和函数连续性的限定;具有内在的隐并行性和更好的全局寻优能力;采用概率化的寻优方法,能自动获取和指导优化的搜索空间,自适应地调整搜索方向,不需要确定的规则。
路基沉降预测模型的建立对于高速铁路沉降预测与控制至关重要。适宜的预测模型可以很好地预测路基沉降的发展趋势,对于工程施工以及线路运营阶段的管理都有指导作用。通过路基沉降预测模型与实测数据,推算最终沉降量,若预测沉降超限,应及时采取相应的工程措施。
4 一种新的沉降测量方法:计算机视觉测量技术
计算机视觉测量技术是近年来测量领域中迅速发展起来的崭新技术,它是以现代光学为基础,融合计算机技术、激光技术、图像处理与分析技术等现代科学技术为一体,组成光电一体化的综合测量系统。视觉测量技术的检测仪器设备能够实现智能化、数字化、小型化、网络化和多功能化,具有精度高、非接触、在线检测、实时分析与控制、连续工作等特点。计算机视觉也称为机器视觉,是指利用计算机对采集的图像或者视频进行处理,从而代替人眼的视觉功能,实现对客观世界的三维场景的感知、识别和理解的技术。计算机视觉使用计算机及相关设备对生物视觉进行模拟。其主要任务是通过对采集的图像或视频进行处理,以获得相应场景的三维信息。计算机视觉使用的理论方法主要基于几何、概率、运动学计算和三维重构等视觉计算机理论,其基础包括摄影几何学、刚体运动学、概率论与随机过程、人工智能等理论。运用计算机视觉测量技术,可以实现高速铁路沉降的远程自动化观测,方便、快捷、实时性强,即可以保证测量的精度,又减轻了工程技术人员的负担,是一项有待发展的新兴测量技术。
5 结论
综上所述,高速铁路路基沉降对于工程建设、旅客舒适度、运营安全有着致命影响,所以路基沉降观测是必须采取的。采用正确的观测方法,严格按照基本要求和规范观测,建立正确的陈建预测模型,保证路基沉降在标准的允许范围之内是高速铁路建设的关键。随着新兴技术的发展,沉降观测及防治措施必定越来越多,越来越精确,我国的高速铁路事业也必将更上一层楼。
参考文献:
[1] 仝校涛.试论高速铁路路基沉降控制方法[J].黑龙江科技信息,2011,(27).
[2] 李春光.高铁路基沉降分析及控制[J].建筑科技与管理,2011,(3).
[3] 易思蓉.铁道工程(第二版)[M].中国铁道出版社,2009.
【关键词】 计算机视觉 嵌入式 双目立体视觉 物体大小 opencv
引言
随着计算机计算能力的提高,图像分析越来越凸显出其在各个领域的优势,而单摄像头所得到的单张平面图像已经满足不了人们在各个领域内对图像处理的要求,双摄像头的图像处理技术应运而生。人眼对世界的感知就是通过双眼得到的,图像工程领域模仿人眼的结构,设计了双目摄像头,在二维图像的基础上将图像拓展成为了三维。
本文基于OpenCV库,OpenCV是一个开源的计算机视觉库,可以运行在Linux、Windows和Mac OS操作系统上,它轻量级而且高效――由一系列 C 函数和少量 C++ 类构成,实验平台为Exynos 4412开发板,是一款基于ARM Cortex-A9架构的嵌入式开发平台,从双目测距的原理开始,使用了canny算子等算法实现了对双目摄像头中物体的提取和识别,并通过轮廓检测实时计算出物体的尺寸大小。经实验验证,计算结果准确,具有很高的实用价值。
一、双目测距的原理
1.1基本原理
双目测距是基于视差的原理,该模型是基于一套无畸变、对准、已测量好的完美标准立体实验台的数学模型,即两摄像头所得图像无任何畸变,完全基于小孔成像原理,两图像平面完全在一个平面内,每一行像素点平行且对其,两摄像头参数完全相同,如下图。
深度与视差成反比,两者是明显的非线性关系,当视差接近0时,微小的视差变化会导致很大的深度变化;当视差较大时,微小的视差变化几乎不会引起深度多大的变化。因此,立体视觉系统仅仅对于物体与摄像机相距较近时具有较高的深度精度。
1.2相机的标定的基本原理
对摄像机进行标定,其实质是求解摄像机成像模型中的相关参数。在众多摄像机模型中,最简单的是针孔模型。但是摄像机镜头都是采用的透镜成像,并不是理想的针孔模型,透镜的使用带来了透镜畸变。[1]在opencv中,常用的摄像头畸变模型为
其中,R为两摄像头间的旋转矩阵,T为两摄像头间的平移矩阵。Rr为右摄像头经过张氏标定得到的相对标定物的旋转矩阵,Tr为右摄像头通过张氏标定得到的相对标定物的平移向量。Rl为左摄像头经过张氏标定得到的相对相同标定物的旋转矩阵,Tl为左摄像头经过张氏标定得到的相对相同标定物的平移向量。
在opencv中,可以利用棋盘格标定盘进行标定,使用FindChessboardCorners()抓取角点。获取亚像素角点坐标 FindCornerSubPix(),单目标定,求取摄像机内外参数ClibrateCamera2()。双目标定,求取两摄像机相对位置关系StereoClibrate()。
图为立体标定后的修正图。
二、物体识别
2.1物体识别的基本原理
首先对双摄像头得到的图片进行立体匹配,然后对原始图片进行二值化处理、高斯模糊、canny算子轮廓检测,寻找物体轮廓并用最小四边形将物体完整框出,通过计算四边形四个顶点的坐标得到物体的像素大小。
2.1物体识别的opencv的实现
Opencv提供了BM算法、SGBM算法、GC算法三种立体匹配算法,三种算法的匹配速度从高到低,匹配质量从低到高,出于匹配速度和匹配质量的考虑,在这里使用SGBM算法进行计算,在opencv中提供了cv::Ptr类,运行效果如图。
三、物体实际大小的计算
3.1物体实际大小的计算原理
获得景深图后,对物体轮廓进行检测,并用最小四边形框出物体的轮廓,通过计算四边形四个顶点的坐标得到物体中心点的像素坐标,通过双目测距的原理获得物体中心点距离摄像头的距离。根据三角形原理,可以计算出物体的宽度和高度,实现物体大小的测量。
3.1计算物体实际大小的实现
首先使用reprojectImageTo3D生成三维点云,使用findContours获得物体轮廓,遍历删除最大最小的轮廓,使用minAreaRect获得轮廓的最小矩形并得到矩形四个顶点的坐标,通过三角函数计算出物体的大小,并通过雷达扇形图显示在屏幕上。
四、结束语
通过对opencv平台的利用,可以将注意力完全集中到图像识别的算法上去,本文基于Exynos 4412开发板,所编写的程序具有很高的可移植性和运行实时性。全文对双目摄像头物体大小识别的各个步骤进行了概括性的介绍,包括双目测距的原理、摄像头的标定、物体轮廓的识别等方面,并对各个步骤的原理做了简要介绍。本文基于算法的实时性和准确性考虑,经过多次实验选取了相对符合要求的算法,保证了实验结果的稳定性。尽管如此,本套研究成果在算法的优化上仍有提高的空间,后面会继续完善算法从而扩大算法使用的领域和准确性。
参 考 文 献
[1](袁 利 刘海华 陆雪松. 基于 OpenCV 的双目摄像机标定. 现代科学仪器 2013.4)
关键词:计算机视觉;视觉检测系统;四足机器人
1引言
运营商巡检任务,主要有设备的外观、温度、噪音状况巡视,其中包括变压器、网络交换设备、母线、隔离开关、路由网关等,巡检任务量大,并且要在雷雨等特殊天气和用电高峰期时增加特殊巡检,但目前主要方式为人工巡检,巡检效果因人而异,与巡检人员对设备的了解、人员的责任心等有很大关系,还存在一定危险性[1]。因此,急需打造基于智能机器人的视觉检测系统,采用AI技术对通信设备关键零部件图像进行实时分析,判别设备零部件的状态故障与关键参数变化,并结合5G的高带宽低时延高并发特性,以5G网络进行“云-端”高分辨率图像传输和智能控制,持续提高协同运营水平,保证制造企业安全运转[2-3]。
2功能介绍
天津移动AI实验室主持研发了面向智慧巡检的机房巡检四足机器人“赤骥”。“赤骥”取名来自“穆王八骏”,传说为周穆王八骏之首,代表了四足机器人如骏马一般快如闪电。为了解决人工巡检强度大、质量不均衡、轮式机器人无法适应狭窄空间和复杂地形等问题,打造了以四足机器人为平台的检测系统,以5G网络实现4K级高清图像的实时传送,在移动云高性能GPU集群完成处理和分析,并指挥机器人实时响应后台指令,从而完成图像自动存储对比分析、红外精确测温、巡检及告警等作业,探索智慧工业、指挥园区、智慧安防场景下的四足机器人巡检。如图1所示。
2.1构建基于四足机器人的视觉安全巡检系统,驱动智慧化变革
机房巡检四足机器人在机房环境中巡检,需要满足运动、障碍规避的能力和导航精度,携带有相应的摄像头和传感器,具有配电设备检测功能。机器人完成图像采集后,高清视频通过5G-CPE经高速网络传递到云端GPU集群,进行目标检测和异常识别,检测场景包括:工程人员合规性检查、电子屏及仪表读数检测、热成像测温检测、异常侵入检测等情况,自动触发告警,提醒运维人员进行检查。
2.2打造多模数据融合的四足机器人检测平台,支撑巡检新方法、新流程
机房巡检四足机器人主要由运动底盘、控制管理系统、监控管理系统、网络模块组成。运动底盘是巡检系统的四足平台,上面搭载着多种传感器,比如激光雷达、姿态传感器、超声波传感器等用于定位和导航,另外上层搭载众多智能设备如可见光摄像机、热成像测温摄像机、拾音器装置等,将视觉数据采集完毕后,配合GPU集群部署的计算机视觉深度学习框架,完成配电站的巡检任务。
2.3构建四足机器人控制管理系统和软件环境,实现“5G+AI”技术融合赋能
控制管理系统,通过网络系统连接四足机器人软件环境,进行巡检任务中的环境地图建立、巡检路径点部署、设备状态信息记录和巡检任务启动等管理过程。按照预设的巡检路线到达位置后,以多种视觉传感器采集视频,以目标检测、图像分割和异常分类等方法,自动检测电气化设备是否安装正确,是否存在异常连接、关键原件缺失、设备安装错误等问题,检测结果可以在控制管理系统的手机APP中查询。监控管理系统用于巡检任务下达,并远程观测巡检任务的执行情况,必要时可以通过远程点检方式,由人工和智能方式协同检测。网络模块包括机载路由器、局域网交换机和无线CPE(5G模组),车载网络路由器和局域网交换机通过有线以太网连接,多种高清视觉设备为了传输稳定也采用有线连接,四足机器人系统局域网交换机通过无线CPE,以5G高速网络实现和GPU集群进行数据交互,以即时控制。如图2所示。
3应用情况
机房巡检四足机器人“赤骥”,除了应用在运营商机房,也可应用于工厂、园区、变电站、城市地下管廊、电力隧道管井及其他重要场所,通过上述区域的例行检查和定点巡查,获取环境信息以及传感设备的识别信息。一台机器人可覆盖2万5千平米的巡检区域,巡检时段可达2小时/日,异常识别精准度90%,相比人工巡检效率提升2倍。目前,四足机器人是机器人巡检领域的发展新趋势,也存在续航能力不足、自动回充能力不足、负载设备重量限制等问题,天津移动将不断解决问题,加强四足机器人的实际应用效果。系统目前已在天津移动公司内全面推广,在智慧工业行业拓展、5G基站施工巡检、统一资源池机房巡检、通信机房巡检,在天津移动移通大厦、曹庄枢纽等重要机房场景内累计试运行5个月,单次巡检面积2000平方米,累计巡检面积达30万平方米,巡检次数25轮次。本成果适用于智慧工业、智能制造企业的巡检管理,可以显著加强工业互联网发展背景下创新管理的主动性,精确性和互动性,提升了客户满意度,探索了面向工业应用的人工智能赋能新模式,形成强大的精细化管理能力。
4推广价值
四足机器人“赤骥”填补了中国移动在机器人控制和计算机视觉技术领域的空白,相关人工智能技术(计算机视觉,级联神经网络、目标检测)在集团内处于领先地位,具有非常好的产品可持续性、推广性和示范效应。
4.1构建行业标准,降本增效成果显著
利用现有通信机房、电气机房采集的80万张设备检测图像库,对深度学习模型的准确率和误识别率进行测试,平均正样本率98.8%,负样本率97.9%。显著高于外部开源视觉框架系统在天津移动设备图像库的表现。通过机器人的摄像头采集,到识别出温度异常、设备缺陷或者异常人员,全流程仅3-5秒,处理效率高。单个图像视界内支持同时100个小目标的识别和比对,多任务多目标处理能力强,准确度不下降。对于单次比对,基于级联神经网络实现微小目标识别和分类,无延迟,无漏检。
4.2填补技术空白,获得认证及资质
此系统在数据、模型、技术方法三个方面均填补了集团空白,具有非常好的技术可持续性。已获得国家AI行业联盟、天津市科委和集团公司的技术、研究、应用、自主性认证,核心价值非常高。入围中国移动自主开发大赛决赛获得总决赛铜奖和最佳商用推广奖,已通过中国移动全网测评中心的检查,自主研发能力获得集团认证。同时,也在天津市科技成果转化中心获得科技成果鉴定,水平为“国际先进”。
5结束语
机房巡检四足机器人“赤骥”,实现了中国移动机房环境巡检效率提升。替代机房巡检作业人员的日常例行巡检任务,包括设备检测、温度检测、烟雾检测、仪表读数检测,湿度检测、螺栓脱落检测、异常电压检测、网络设备光口电口检测等。替代机房巡检作业人员对工程作业的生产合规性检测任务,包括身份合规性审查安全帽检测、安全带检测等,以人工智能技术代替人力,尤其是以计算机视觉实现高清摄像,后端打造多个目标检测、物体识别模型,实现运营商机房设备的看护。替代机房巡检作业人员的周期抽检任务,机房巡检人员无需每个作业周期都到现场进行检测,仅需要查阅机器人巡检后的计算机视觉检测结果,并适当使用远程点检功能进行设备抽检即可,可靠度高,实现了降本增效。
参考文献
[1]许威,闫曈,许鹏,梁振杰.特种机器人行业的新锐——四足仿生机器人[J].机器人产业,2021(04):50-57.
[2]高子航.基于5G通信的四足机器人控制系统设计[J].电子技术,2021,50(05):140-141.
关键词:计算机立体视觉;双目立体成像;视差
中图分类号:TP37文献标识码:A文章编号:1009-3044(2011)12-2929-03
Binocular Stereo Imaging Based on the Computer Disparity Mapping for Stereoscopic 3D
YANG Fu-bao
(Hefei University of Technology, Hefei 230009, China)
Abstract: Binocular stereo imaging which based on the computer disparity mapping forstereoscopic 3D, deals with many challenging problems in computer vision,pattern recognition and computer graphics. The main problems are that the stereo visions are not vivid and natural enough, people don't have a thorough knowledge of the functions of their eyes and the binocular stereo visions and there are still some problems to solve in the getting of stereo images. This article proposes a new method to create stereo images based on a certain 3D model that already been built, introduces a method to creat binocular stereo visions by cameras, studys several important factors that affect stereo effects ,including the relationship between the targetcamera and the 3D models, cam wide and the control of the position of the screen, etc. These studys are based on the deep study of the binocular stereo vision of computer disparity mapping for stereoscopic 3D and provide theory and technical support for the application of binocular stereo imaging in visual stereo displays.
Key words: computer stereo vision; binocular stereo imaging; parallax
随着《阿凡达》的热映,立体3D现在已经成为大众消费的一个主流产品。电影院线越来越多的电影都加入到3D立体的行列,电视频道也开始尝试推出三维广播节目,越来越多的公司开始提供3DTV和蓝光3D的播放设备。尽管这些技术的进步在不断的进步,但是在立体内容的实际生产中,如何让观众在一个自然、舒适的环境中观看立体视频仍然是一个很大的挑战。
最根本的问题在于,在人类复杂的视觉感知和显示设备限制的相互作用。因此,视觉内容必须适应特定应用的特殊性场景。对于立体3D视频领域,在计算机图形学对此内容重定向或映射的问题进行了广泛的研究。虽然今天的3D显示技术可以重构双目立体视觉,但是受深度信息的影响,不能在一个平面上真实地再现图像的深度。当屏幕上显示一个遥远的对象时,这种冲突会造成严重后果,强烈的负视差可能会导致不舒服的观看的经验,可以引起暂时性复视,无法融合立体图像。
1 国内外3D视频产业发展现状
1.1 国外3D产业现状
随着《阿凡达》的大热,消费者对3D的狂热在国际上掀起一轮3D热潮。美国、日本、欧洲纷纷加大3D产业的投入力度,加紧研发3D立体视频产品,并积极参与相关国际3D标准的制定。一些国家已经开播3D频道。英国天空电视台正式启播SKY3D电视频道和美国ESPN 3D频道直播南非世界杯足球赛之后,日本天空完美卫星通信公司联手索尼公司将在其卫星高清电视中推出一个专门的世界杯3D频道,为日本电视家庭提供南非世界杯足球赛3DTV直播。
美国作为全球3D产业的领跑者对于3D产业自然不遗余力,但之前的重点一直集中在3D动画上。而与之前不同的是,此次的3D热潮,带动起从内容商到传输商到设备商这一整条产业链的热情。
1.2 国内3D产业现状
与国外的3D产业发展相比,我国的3D产业起步相对较晚,3D内容不多,在技术方案及产业链方面还不成熟,但是目前国内的3D产业也已步人快速成长期。在索尼、松下等国外企业纷纷推出相关产品的同时,国内各家电企业相继推出了3D立体现实产品,并已上市销售。
国内相关企业和科研院所在3D内容制作、3D编解码技术、3D传输与存储、3D显示终端等方面已经拥有一定产业基础。很多高校都已开展3D立体显示方面的研究。据了解,在我国进行3D技术研究和产品研发的企业也越来越多。
2 双目立体成像研究
在现实生活中,人们通过眼睛观察的周围环境之所以是立体的,是因为人的两只眼睛所处的空间位置不同,可以从两个不同的视角同时获得两幅不同的场景图像,如图1所示,左眼仅能够看到AB面,右眼仅看到AC面,经人脑判断后就能感知到完整的物体ABC的形状和距离。人的大脑对这两幅图像进行处理后,根据两幅图像的差异判断出物体与双眼的距离等空间信息,形成一幅立体的画面就呈现在脑海中。
理论和实验表明,两个目标摄像机与三维模型的位置关系、两个目标摄像机之间的距离、会聚角变化值等,是影响立体效果的重要因素,下面就定性地讨论这些因素。
IBM认为,在下一个计算时代,硬件和软件将获得人脑所具备的、令人震惊的新能力,即学习、适应和感知的能力。这将从根本上改善人们生活、工作和人际交往的方式。IBM将这样一个时代称为认知系统时代。
2013年,IBM的5 in 5技术预测正是讨论了关于计算机模仿人类的看、听、触、味、嗅等五感,在大数据感知环境下,如何帮助人类更好地进行认知的话题。尽管这样的预测听起来令人难以置信,但想想在10年前尚未出现而如今已成为人们必备品的东西(比如智能手机、平板电脑),我们有理由相信这个预测成为现实,具有助力条件。
计算机具备人类五感
——深远影响人类生活和行业发展
很快,计算机将能够“看到”。目前,我们使用Watson等系统的深入分析能力应对人类语言的复杂性,并极为高效地分析海量非结构化数据。但是,这些数据局限于文本和数字形式的信息。科学家们相信,在未来5年内,系统不仅能够看到和识别可视数据的内容,而且将把像素转化为含义,开始像人类观看和解析图片那样从中理解其意义。 在计算机视觉提升方面,未来,“类似人脑”的能力将使计算机能够分析颜色、纹理、材质或边缘信息,并能通过解析图像得出图片的意义。这将对医疗、零售、农业等行业产生深远影响。
在医疗领域,解析MRI、CT扫描结果时,图像中至关重要的内容可能极为细微,难以被人眼观察到,能“看”的计算机将从MRI、CT和X光图像中提取细微数据,甚至评估皮肤上斑点的图像。其提供的评估、分析和建议将是医生及时开处方并进行高效治疗的有力工具之一。所以,能够“看到”内容的计算机系统将帮助医生更快、更准确地探测医疗问题。还曾有报告预测,全球医疗诊断影像市场预计到2016年增至266亿美元,该数字也从某中程度上预示着相关产业的规模前景。
公用事业可以利用这项技术更好地管理电网,并且在发生自然灾害的情况下,分析从无人驾驶的飞行器上安装的摄像头获得的大量视频,以评估受灾最严重的地区,并且为确定优先救灾顺序而提供建议。
计算机将能够“听到”。比如它们能探测到可能有死亡征兆的树木的活动,提示相关人员在树木倒掉之前修剪或者砍伐这些树木,从而保护人们的安全与财产。再比如它们能探测到火灾中风向的改变,帮助消防人员确定后续行动,从而控制火灾。
此外,计算机还将能听到并理解对我们至关重要的声音。例如,IBM与医疗专家和学术机构合作收集数据,将婴儿声音与身体内部状况和行为关联起来,并且开发了先进的翻译系统,将来会在婴儿和幼儿身上使用。这种工具将识别并理解婴儿的咿呀学语,并根据学到的声音含义而让我们知道他们真正想表达什么,这样我们就可以区分婴儿的饥饿、过热、疲劳还是难受。
计算机将拥有触觉。从本质上来讲,触觉是一种物理体验。但是,借助红外线和触觉反馈技术,人们已经开始在游戏行业中模拟触觉。通过振动形式重新创造一种触感,并且用在移动设备和游戏机上,玩家能够在赛车游戏中获得驾驶感受。同样,一旦计算机拥有触觉,在线购物时,商家将使用触觉技术让客户在购买之前“触摸”商品。购物者通过在有衣物图像的屏幕上滑动手指,系统就可以模拟出衣物的纹理,使客户即可感受到衣物的质地。将来,如果您希望在线购买一件毛衣,您就可以抚摸手机屏幕表面,感受其纹理、织物结构、重量、织法,并且感受穿在身上的样子。 味觉和嗅觉通常是联系在一起的,尤其是对于食物。未来,计算机的定制食物配对能力将使我们感到震惊,因为这种能力将最大程度改善我们喜爱的风味和质地。计算机甚至还能够提供最佳配对建议,最大程度降低我们的饥饿感,并优化可用食物的营养价值。
拥有强大嗅觉功能的计算机也可以让人们感觉更安全,例如计算机可以探测到全球主要城市的空气污染等级。此外,计算机也可以安放在艺术馆中,嗅出人的鼻子无法感觉到但有可能破坏重要艺术品的气体。在未来5年内,计算机或手机中嵌入的微型传感器将“嗅出”您是否患感冒或其他疾病。通过分析呼吸中的气味、生物标记或者数千个分子,医生能够通过侦测哪些气味正常以及哪些不正常而诊断和监控疾病的发作,例如肝病和肾病、哮喘、糖尿病和癫痫。
认知系统时代下的认知型计算机
——可归纳、演绎,并理解人类体验
认知系统时代下的计算机将具备一套更加智能的系统,该系统一直处于不断学习和提高的状态。但要开始学习,首先要拥有“感知”能力。因此,模仿人类感知是认知型计算系统的要素之一,它使得计算机可以以自己的方式拥有触觉、视觉、听觉、味觉和嗅觉功能。这些计算机将帮助人类在环境、经济、社会和天气等相关事件中进行决策。
在认知系统时代,拥有人类五感的计算机将不再局限于演绎推理,或者从更普遍的数据中得出结论,而是模拟人类使用基于特定的、有情景的归纳推理能力,同时也具备学习的能力。我们将从那些能够理解人类的体验,并且采取措施的计算机中获益,从而改善我们的生活、工作和娱乐方式。
当然,科学家们并不期望计算机完全替代人的功能。IBM认为,认知型计算机的真正成功,并不在于它替代人脑的功能,而在于它提供的创新能够为人们带来更好的生活质量,而且为我们应对最严峻的挑战提供关键的信息,使我们能够提出创新的解决之道。认知型计算机的诞生,即是为了令人类和计算机在认知系统时代强强联合,完成更优秀的工作。
IBM曾多次成功预测未来科技成果
IBM每年都会对未来5年的科技做若干预测,并且绝大多数都已经成功实现,预测的准确性较高。比如2006年,IBM预测3-D互联网将会出现。
2007年,IBM预测人们的驾驶方式将与之前的截然不同。语音启动系统和车尾备用摄像头等司机辅助技术已不再是豪华车的专利。
关键词: 体育赛事图表设计 信息可视化 形象化呈现 动态展示
当下,科技正以前所未有的速度迅猛发展,信息、知识充溢于社会,生活节奏越来越快,我们已进入“读图时代”。数据可视化已发展成为研究教学与发展的热门领域,是结合了科学与信息形象化的综合领域。对信息进行更为有效的梳理和表达成为当今社会信息传达的一个迫切需要,也成为今天的信息课题。在这种背景下,图表设计在视觉传达设计中扮演了越来越重要的角色,它是在社会信息大量冲击下产生的视觉传达的新形式,无论是在自然科学、社会科学领域,还是在传播、商业领域,图表都发挥着重要的作用。图表设计也以更加新鲜、活泼的形式出现在人们的视野中,并日渐成为一种流行的信息表达方式。
体育赛事图表设计是体育运动会形象开发的重要组成部分,是为了实施各种管理、配合生产经营的需要而进行的,其功能超越了一般语言文字,尤其是在信息化社会迅速发展的今天,图表这种准确、形象、快捷的传达方式已经显示出它独特的优势。它清晰地表现运动会各个比赛项目的内容、特点,不仅具有很强的功能性,而且是传达体育运动会举办理念、国家文化和综合国力的主要载体。可视化理论的介入,为实现体育赛事图表设计的价值提供新的路线图,通过图示、表格表示某种抽象的信息,塑造出简洁、直观、形象、有趣、易于理解的视觉方式,让受众快速地获取真实而丰富的信息,以满足需求,优化信息的传递。
一、信息可视化
信息可视化(Information Visualization)是一个跨学科领域,是计算机图形学应用领域的一个重要成果,是指运用计算机图形学和图像处理技术,将信息转换为图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。它通过形象化的手段传达知识、信息,充分利用人们对可视模式快速识别的自然能力,将人脑与计算机这两个最强大的信息处理系统联系在一起,通过平面设计与信息设计的相互融合阐释概念、功能,使受众快速地感知、识别,并提供一种归纳整合信息的方法,兼具艺术性与实用性,旨在研究大规模非数值型信息资源的视觉呈现,如软件系统之中众多的文件或者一行行的程序代码,以及利用图形图像方面的技术与方法,帮助人们理解和分析数据。与科学可视化相比,信息可视化侧重于抽象数据集,如非结构化文本或者高维空间当中的点。
可视化提供了一种新的信息展示方法,丰富了科学发现的过程,开阔了视野。它涉及计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。信息可视化技术不仅在医药学、生物学、工业、农业、军事等领域被广泛应用,近年来还进入金融、通信领域。信息设计的过程是将信息转化为“形”,即将信息可视化。当下,信息可视化备受关注。Otto.Neurath提出:记住简明的图形要比忘记精确烦琐的数字好得多。国际地图学会(ICA)于1995年成立了一个可视化委员会(Comm ission on V isualization),开始了一个名为“Carto 2 Project”的研究项目,其目的是探索计算机图形学的技术与方法如何更有效地应用在地图学与空间数据分析方面,促进科学计算可视化与地图可视化的连接与交流。
我国古代的制图思想大部分是对空间的归纳,西晋地图学家裴秀总结了6条原则,分别是分率、准望、道里、高下、方邪、迂直,称之为“制图六体”,都是关于面积比例、起伏高低和相对距离的总结。有时间线索的图表很少,即使有,时间表现也不明显,自然缺乏相应的论述。即使是手艺流程图,也是按照阅读顺序布置关键的操作动作,“图”的意义远超过“表”。古人早就有对时间的表现,沙漏、日晷、钟表等都是将抽象的时间形象化的过程,沙漏是通过容量的变化来显示的,日晷、钟表则利用了角度的变化。图表对时间的表现则略有不同,它不需要及时记录时间的动态,其目的是将有长度、有密度的时间在有限的二维空间中展现出来。在时间轴上还要有条件、事件或是数据的表现,它往往是串起整个图表的视觉线索,是图表中的结构性要素,非常关键。
二、信息的形象化呈现
形象化表达是一种直观的表现形式,是一种开门见山的手法,它借助生动的图形、图像直接表达信息,使人一目了然,并给受众一种真实的感受。这不仅可以增强文本信息的可读性,而且可以超越语言文字壁垒,实现更深刻意义和更广范围的信息交流。在形象化表达作品中,人们对所表达的内容更容易理解和接受。所选取的视觉形象应具有一定的代表性和可视性。一般认为,形象化表达多选取具有代表性的具象图形,将抽象的文本信息引人入胜地呈现出来,给受众以直观的现实感,使文本信息的含义更明确,使视觉传达更快捷。形象化表达由于将文本信息通过形象化的表达方式呈现给受众,能选用恰当的表达方式有效地表达文本信息。所以要十分注意画面上图表的视觉设计,应着力突出信息的内容展示,运用图形、色彩和背景进行烘托,使抽象的信息置身于一个具有感染力的空间,这样才能增强图表的视觉感染力。
体育赛事图表设计的重要特征是直观、形象,运用形象化表达方式可以通过简明直观、形象生动、概括性强的图形,把各种信息展示给受众。在体育赛事图表设计时,要善于在衬托、对比和夸张等多种表现形式上寻求变化,标新立异,创造出独特的视觉效果。以2010年南非世界杯赛程图表为例,该信息图表生动展现了2010年南非世界杯的比赛时间、分组、流程等信息。整个表格是一个圆形的构图,图形中间醒目地呈现出一个形象的圆形“足球”,圆形足球明确了图表的表达内容,同时,圆形的使用也具有很深刻的含义。圆在图表设计中一般以直接圆、间接圆、复合圆等几类形式出现,具有信息的高承载性、视觉认知的直观性和良好的信息连续流等优势。整个图表设计成多个可视化同心圆,采用可视化的同心圆一般不会有过多冗余的复述,信息面也较为适中,因此大部分阅读者不会对此类的图表有过大的解读压力。在图表设计中还使用了不同的色彩层级强化信息,将参赛的国家队等分为A、B、C、D、E、F、G、H八个区显示不同的赛区,线条粗细的层次用鲜艳的色彩传达,易读性很好。图表中间是用鲜艳的粗彩条穿插在相邻的两个区域,用这种方式表明相邻两个区之间的赛事。由此可见,这个图表设计对于信息处理来说确实具有很强的探索性,并充分考虑了信息传递的效能,通过视觉元素组构的秩序化、简约化,使造型语言具有鲜明的指向性;通过图示所具有的直观性、形象性和易读性,消除文字符号中晦解和枯燥的成分,强化图表信息的认读优势,以便将清晰的思想可视化。
三、信息的动态展示
图表是通过视觉的传递完成信息的传递,图表按其呈现形态分为静态图表和动态图表两大类,一般认为,静态的图表不及动态的图表容易引起受众的注意,好的动态图表能像动态画面一样吸引观众注意,它可为指定的报告提供针对所有指标的多维度分析。因此,为了更加有效地传递信息,必须考虑到受众的欣赏和审美情趣,提高信息传达的感染力、丰富性及交流的效率。
动态图表是图表分析的较高级形式,一旦从静态图表跨入动态图表,则分析的效率和效果都会进入另一个境界,可以让用户进行交互式的比较分析。比如2009年欧洲杯信息结构设计得非常有特点,图表设计以表盘为基本形态,图表中间背景为世界地图,整个图表设计成动态赛程图表信息结构,在图表中整合了多个维度的信息。12点方向是比赛的具体时间,在特定日期举办的比赛,对应的其他3个方向的列表中的焦点都会发生相应的变化。3点方向是比赛的球场,按球场查看特定球场举办的比赛,对应的其他3个方向的列表中的焦点都会发生相应的变化。6点方向是比赛的阶段,分为小组赛、半决赛、决赛等,对应的其他3个方向的列表中的焦点都会发生相应的变化。9点方向是参加比赛的队伍,在任何一个坐标上做出选择,对应的其他3个方向的列表中的焦点都会发生相应的变化。观众可以随意地按队伍、场地、时间、赛事阶段查知所要的信息。这样的图表营造了动态的可视化感官体验,帮助受众快速浏览,数倍地提高信息的使用效率。这样的图表很适于表现体育赛事的赛程,充分体现了信息图表设计的可视化的表达。
由此可见,这份图表充分发挥了图表动态表现的优点,让数字和图像交织在一起。搭建逻辑结构需要对信息层次进行划分,并营造一种动态的可视化感官体验。这种可视化以图形形式记忆复杂计算的结果,帮助受众快速浏览并达到目的,数倍提高信息的使用效率,使这个可视化作品达到一定高度。
四、结语
信息图表的可视化是当前一直在讨论的问题,但可视化并不意味着信息的装饰,过多地强调图形的趣味性,不尊重信息自身的逻辑和讲述的逻辑,图表的作用也就丧失了。张衡的“心之谋,书之谋”对当前的图表设计来说是很有意义的总结。信息图表是人们应对信息社会的一种手段,可以让世界秩序化、条理化、可视化。图表成为体育赛事传播信息不可或缺的方式,它在体育赛事的各类图形、文字及其数据结构中寻求突破点,把人们熟知又多见的种种视觉元素进行重新组合,取得形象化、个性化、趣味性强的可视化的视觉效果。它在高效、快速传播信息的同时还能给受众带来视觉和心理上的愉悦,清晰的图表设计强化了受众的感知,满足了受众的阅读需求。21世纪是信息的时代,信息可视化为信息时代的人们开辟了广阔的道路,在人们直接、快速、高效地获取信息的同时也为人类走向非物质社会奠定了坚实的基础。信息可视化的目标是帮助人们增强认知能力,这也是信息可视化的意义所在。
参考文献:
[1]席涛.信息视觉设计[M].上海交通大学出版社,2011.5.
[2][英]卡罗琳·奈特,杰西卡·格拉泽.新图表设计[M].上海人民美术出版社,2011.1.
[3]肖勇,张尤亮,图雅.信息设计[M].湖北出版集团、湖北美术出版社,2010.3.
[4][美]尤尼·利普顿.信息设计实用指南[M].上海人民美术出版社,2008.1.
[5]赵燕伟.机械产品可拓概念设计研究[J].中国工程科学,2001,VOL3,(5):67-71.
[6]叶苹,段佳.图表设计[M].江西美术出版社,2006.6.
[7]覃京燕,朱向未,李丹碧林.信息可视化中交互设计方法探议[J].装饰,2007,(3).
目前,全球正在兴起新一轮数字化、智能化制造浪潮,“3D打印”作为其中的一个标志性概念,在最近几年正获得越来越广泛的关注。作为快速成形技术的一种,3D打印以经过智能化处理后的3D数字模型文件为基础,运用粉末状金属或塑料等可粘合材料,通过逐层打印、迭加成形的方式来增量构造物体。3D智能数字化与3D打印就像一对孪生兄弟,相辅相成、密不可分。
3D智能数字化软件是3D打印的核心,其利用计算机来生成数字化的3D图纸模型。正所谓“巧妇难为无米之炊”,缺少数字化文件支持的3D打印机将会变得毫无用处。3D数字化目前有两大类的方法。第一大类是使用3D设计软件,由设计师从无到有地设计数字化产品。当然,并非人人都有能力自己设计3D形状,因此第二大类的3D数字化就是3D扫描(俗称3D照相),基于计算机视觉、计算机图形学、模式识别与智能系统、光机电一体化控制等技术对现实存在的3D物体进行扫描采集,以获得逼真的数字化重建。
在获得初步的数字化模型之后,往往还需要进行个性化编辑定制,才会最终输出到3D打印机。这种追求高附加值的个性化定制,之前都是以较大的手工工作量为代价的,尤其是当需要“大批量定制”时。因此,为提高效率,3D智能数字化技术将发挥关键的作用。比如,需要为一万名用户定制个性化的眼镜、服装、帽子、鞋子,如果使用人工逐一为每位用户进行手工测量和手工设计,工作量和成本都将变得不可接受。而应用智能数字化技术,如采用视觉计算方法,利用摄像头自动采集、分析提取每位用户的体貌个性特征,并自动根据视觉美感进行形状设计、颜色肤色搭配等,可极大地缩减定制周期。
之后的一切都交给3D打印机,其无需机械加工或任何模具,就可加工任意复杂的中空形状,解决了许多过去难以制造的复杂结构的成形问题。目前,3D打印机已经能够使用各式各样的新材料(如液体、粉末、塑料丝、金属、沙子、纸张、甚至巧克力、人体干细胞等),通过喷墨沉积、熔融沉积成形、激光烧结、立体光刻等工艺将三维数字模型变成实物,从玩具、工具,到厨房用品、建筑、时尚衣服应有尽有,甚至还可直接打印具备触感的人造耳朵、人体骨骼、人造假牙、鲜肉,以及枪支、跑车、无人飞机等。以通过“智能云网”模式定制一双鞋子为例,普通用户只需在手机上下载一个App应用,给自己的双脚拍几张照片,并指定喜欢的款式和颜色。然后,位于云端的智能计算服务将根据重建出的3D脚形把鞋子设计出来,并在云制造集群中搜索到邻近的打印地点,以便快速送货上门。
目前的3D 打印技术,在很多基础研究领域已取得了突破,如对金属熔敷成形技术的研究,解决了钛合金、超高强度钢等难加工大型复杂整体关键构件激光成形工艺问题。但仍有不少复杂工艺问题需要解决,如多种材料的混合制造问题。只有实现了混合材料打印,多元结构的部件才能一次制造出来,以避免传统的首先制造单个(不同材料)零件再组装在一起的弊端。当前,3D 打印技术的攻关难点主要集中在设备和功能材料的制备、智能控制问题的解决、激光器/喷嘴等核心元部件的研制等方面。
通过智能感知设备,3D打印机还可控制制造的行为,对打印的过程进行实时监控,如监测产品的质量和强度,然后根据反馈信息随时做出调整,以实现闭环控制。也就是说,这台3D打印机具有学习和控制的能力。可以想象的是,会有专为糖尿病患者推出的食品打印机,通过微型皮肤植入物监测病人的血糖,依据每日不同的身体状况为其量身打印食物。在将来,通过把人工智能从计算机拓展到现实世界,还可打印具备感知和学习能力的智能物品,达到“机器制造机器”的新境界。