时间:2023-01-25 21:24:34
开篇:写作不仅是一种记录,更是一种创造,它让我们能够捕捉那些稍纵即逝的灵感,将它们永久地定格在纸上。下面是小编精心整理的12篇解码技术论文,希望这些内容能成为您创作过程中的良师益友,陪伴您不断探索和进步。
关键词:RGB YCbCr FPGA 色彩空间转换
中图分类号:TN911 文献标识码:A 文章编号:1672-3791(2014)09(a)-0023-01
1 常见色彩空间
我们主要介绍RGB和YCbCr色彩空间。RGB色彩空间是一种常用的色彩空间。它可以实现不同平台的映射而不严重损失颜色信息。任何一种颜色都可以由三基色红、绿、蓝混合叠加而成。RGB三个分量彼此相互独立,三个分量的值越小所代表的亮度越低。RGB色彩空间它所占用的带宽和存储量是很大的,如果使用该色彩空间进行图像传输,非常不利于图像的处理。所以引入另一种色彩空间YCbCr。该格式的色彩空间是演播室编码方案中使用的颜色模型。Y,Cb,Cr分别代表亮度、蓝度分量和红度分量。YCbCr色彩空间有以下优势。首先它的构成原理符合人类的视觉感知过程,再次它可以实现亮度和色度的分离,由于人眼对亮度的变化更敏感,所以我们在传输图像时减小带宽的同时引起的颜色损失小,人眼几乎无法察觉。
2 总体设计方案
系统的总体设计框图如图1所示。
基于FPGA的色彩空间的转换过程可以描述为:首先通过CCD摄像头进行视频图像采集,采集来的RGB图像为NTSC或PAL制式的,接着我们会把视频数据送到解码芯片TVP5150,它会将信号变为ITU-R BT.656格式的数据流。我们选取的TVP5150芯片是和FPGA主控芯片集成在一个开发板上,它的功耗非常低,芯片小巧利于便携。视频解码芯片在对视频信号处理之前总线会对其进行配置。从解码芯片出来的信号便进入FPGA芯片,进行串并转换、解交织等操作最终实现色彩空间的转换。最后信号送到ADV7123芯片进行编码,并通过D/A转换芯片在VGA显示器上显示出来。
3 仿真与硬件验证
硬件部分我们采用了Alera公司的FPGA芯片EP2C8Q208C8N作为核心处理芯片,该芯片内部含有丰富的可编程逻辑资源,可以非常方便的完成相关乘法器的例化。在使用乘法器IPCore时,我们需要进行优化设置。硬件部分包括CCD摄像头、FPGA主控芯片、视频解码芯片TVP5150、视频编码芯片ADV7123等。最终将VGA线和显示器的VGA口相连接,便可以通过显示屏观察结果。
硬件实物图如图2所示。
软件部分采用Quartusii 9.1进行Verilog语言的编写,并进行时序仿真。进行时序仿真的结果图3所示。
4 结语
生活中存在多种色彩空间,它们各自具有不同的特点。但是在很多情况下我们又得在它们之间进行转换,这无论对于科研研究还是消费市场都是很有必要的。本篇论文是通过硬件实现的RGB色彩空间到YCbCr色彩空间的转换,采用的Alera公司的FPGA芯片EP2C8Q208C8N作为核心处理芯片,利用其内部丰富的可编程逻辑资源实现空间的转换,并采用Quartusii 9.1进行软件编程与仿真,验证了模块的功能。
参考文献
[1] 唐晓燕,贾锋,韩磊.基于FPGA的视频颜色空间转换电路设计[J].电子与电脑,2006(8):47-49.
[2] 吴康,刘耀元,胡民山.用FPGA实现色彩空间RGB到YCbCr的转换[J].南昌高专学报,2007,22(6):140-142.
统计机器翻译在短时期能够得以迅速发展,除了技术进步外,很大一方面要归功于很多开放源码的统计机器翻译工具,有些时候,正是因为这些开放源码的工具才使得某项技术被广泛接受和使用。例如,20世纪90年代初IBM公司的Brown等人提出了5个模型来刻画统计机器翻译,取得了不错的效果,但是在此之后很长一段时间内都没有被大家认可和接受,原因是他们的模型非常复杂,难以理解和实现。直到1999年,开源软件包Egypt的出现,才使得IBM的模型被广泛研究和使用。可以说Brown等人的工作为现代统计机器翻译奠定了深厚的基础,但其影响却是通过开源软件才得以实现,由此可见开源软件对于统计机器翻译这样一个复杂的研究课题的重要性。
1. 首个开源统计机器翻译工具包Egypt
Egypt是在1999年约翰霍普金斯大学统计机器翻译夏季讨论班上,由一些研究人员共同合作开发的统计机器翻译工具包。它包括4个模块;
Whittle: 语料库预处理模块;
GIZA: 用于从句子对齐的双语语料库中训练词语对齐;
Cairo: 词语对齐的可视化工具;
Decoder: 解码器,用来执行具体的翻译过程模块,这一模块没有开放源码。
其中,用于训练词语对齐的模块GIZA现在仍然被广泛使用,利用它能够非常方便地从大规模的双语文本中获得统计知识。GIZA++是GIZA的改进版,GIZA++实现了IBM公司提出的5个模型,其主要思想是利用EM算法对双语语料库进行迭代训练,由句子对齐得到词语对齐。GIZA是独立于语言的,能够对任何两种语言进行训练,这也是统计机器翻译的优点之一。现在几乎所有的统计机器翻译系统都利用这一工具进行词语对齐的训练。
2.语言模型训练工具SRILM
SRILM是一个建立和使用统计语言模型的开源工具包,从1995年开始由SRI 口语技术与研究实验室(SRI Speech Technology and Research Laboratory)开发,现在仍然不断推出新版本,被广泛应用于语音识别、机器翻译等领域。这个工具包包含一组C++类库、一组进行语言模型训练和应用的可执行程序等。利用它可以非常方便地训练和应用语言模型。给定一组连续的词,调用SRILM提供的接口,可以得到这组词出现的概率。
3. 机器翻译的自动评测工具Mteval
在一些著名的统计机器翻译国际评测中普遍使用自动评测与人工评测相结合的方法,例如美国国家技术和标准研究所(NIST)举行的评测。Mteval便是他们开发的自动评测工具,最新版本是mteval-11b.pl,是用Perl语言写成的。
4. 首个基于短语的统计机器翻译系统“法老”(Pharaoh)
“法老”是较早公开的统计机器翻译系统,由美国南加州大学信息科学实验室(Information Science Institute)的菲利普•科恩(Philipp Koehn)在2004年做博士论文期间编写的。“法老”包括两大部分: 训练和解码。训练过程用来从语料库中获得统计知识。它利用了已有的开源软件GIZA++和SRILM,GIZA++用来训练词语对齐,SRILM训练语言模型,但解码没有公开源代码。“法老”原理简单,易于使用,它的出现对于推动机器翻译研究起到了非常大的作用。
5. 中国首个开源的统计机器翻译系统丝路(SilkRoad)
“法老”的出现揭开了统计机器翻译的神秘面纱,然而其核心部分――解码器的源码仍然没有公开。为此,中国的研究人员联合开发了一个完全开放源代码的统计机器翻译系统――“丝路”。该系统由中国的五家研究机构和高校(中科院计算所、中科院自动化所、中科院软件所、厦门大学、哈尔滨工业大学)联合开发,并在2006年中国第二届统计机器翻译研讨会上。“丝路”包括以下模块: 语料预处理及后处理模块“仙人掌”、词语对齐模块“楼兰”、短语抽取模块“胡杨”、以及三个解码器(“骆驼”、“绿洲”和“商队”)。这是第一次将一个完整的统计机器翻译系统公开,极大地促进了国内统计机器翻译的快速发展。
6.摩西(Moses)
“摩西”是“法老”的升级版本,它增加了许多功能,是由英国爱丁堡大学、德国亚琛工业大学等八家单位联合开发的一个基于短语的统计机器翻译系统。来自这些单位的研究人员于2006年在约翰霍普金斯大学召开了一次研讨会,利用6个星期的时间共同开发了这一系统。整个系统用C++语言写成,从训练到解码完全开放源代码,可以运行在Windows平台和Linux平台。
7. 基于句法的统计机器翻译系统GenPar
GenPar工具包实现了一个基于句法的统计机器翻译系统。基于句法的方法将句法结构信息引入到统计机器翻译中来,目前已成为统计机器翻译领域的研究热点。但是构建基于句法的统计机器翻译系统远比构建基于短语的要困难得多,为了让研究者们很快进入这一领域,在JHU2005夏季研讨会上,由纽约大学艾•丹•米拉姆德(I. Dan Melamed)等人组成的统计机器翻译组开发了GenPar。
GenPar的基本原理是利用多文本语法(Multi-Text Grammar)实现多语言的句法分析、结构对齐和翻译。多文本语法是一种多种语言的同步语法,理论上比较完善,功能强大。GenPar有很多特点:首先,该系统是一个纯粹基于句法的模型,在翻译过程中充分利用了句法结构信息; 其次,它具有很好的定制能力,可以实现各种不同类型的基于同步语法的统计机器翻译,很适合于作为实验各种理论的研究平台。总的来看,该系统功能比较强大,但由于其比较复杂,掌握起来比较困难,性能比现有的基于短语的模型稍差。(本文作者米海涛为中科院计算所博士研究生)
链接
统计机器翻译第一人与Google
在统计机器翻译中有一位颇具传奇色彩的人物,就是毕业于德国亚琛工业大学的博士生弗朗茨•约瑟夫•欧赫(Franz Joseph Och)。在1999年他开发出了著名的IBM模型训练工具Giza。在2002年NIST评测中,取得第一名的亚琛工业大学的机器翻译系统也是由他开发的。2002年,欧赫从亚琛工业大学毕业后进入美国南加州大学信息科学研究所(ISI/USC)工作,同时作为Language Weaver公司的顾问,后来于2004年加盟了谷歌(Google)公司。
他所工作的每一个单位都稳拿当年NIST机器翻译评测的第一名。尤其是2005年的NIST评测中,他所在的谷歌公司开发的汉英机器翻译系统取得了0.35的BLEU值,比第二名的南加州大学(即他原来所在的单位)系统的性能提高了近5个百分点。在2006年评测中,除了汉英机器翻译的受限语料项目,其他所有项目的第一名都是谷歌公司。
IPTV(Internet Protocol Television)即交互式网络电视,是一种利用宽带有线网络,集互联网、多媒体、通信等多种技术于一体,向家庭用户提供包括数字电视在内的多种交互式服务的新技术。其传输过程首先是把电视信号编码转化成适合INTERNET传输的数据形式,然后通过互联网传送,最后解码通过电脑或是电视播放。IPTV的关键技术包括音视频编解码技术、流媒体传送技术、数字版权管理(DRM)技术、IP机顶盒技术等。
编解码技术。多媒体通信的一个显著特点就是要传输的信息量非常大,尤其是视频数据,其编解码技术在较大程度上影响着业务的质量。IPTV采用了先进高效的视频压缩编码技术,使得视频流在800Kb/s的有限带宽上接近DVD(MPEG2)的视觉效果(DVD的视频传输带宽通常为3Mb/s)。目前主要编解码技术是MPEG4、H.264与AVS三种。MPEG系列是重要的视频编码标准,所有的视频编码技术都参照了MPEG技术。H.264是新一代视频编码标准,H.264的压缩率是MPEG-2的2倍以上,是MPEG-4的1.5至2倍,这样超高的压缩率是以牺牲编码运算量为代价的,但其解码的运算量涨幅较小,比较容易实现用户接收播放。AVS是中国拥有自主知识产权的第二代信源编码标准音视频编码技术标准,是高清晰度数字电视、宽带网络流媒体、移动多媒体通信、激光视盘等数字音视频产业群的基础性标准。
流媒体传送技术。对于传送IPTV音视频数据流而言,流媒体传送技术极其重要,先进的技术可以节约系统带宽、减轻系统负担、优化系统。流媒体传送系统主要设备是中心/边缘流媒体服务器与存储分发网络。流媒体服务器具有较高的稳定性,支持多个并发流和直播流的需求,而存储分发网络由多个服务器组成,通过负载均衡(如CDN)来大规模组网。CDN网络除了提高用户响应速度之外,还有一个更为重要的作用,就是减轻巨大的数据流量对骨干网的压力。
数字版权管理(Digital Rights Management,DRM)。它是保护多媒体内容免受未经授权的播放和复制的一种方法,为内容提供者提供视频、音乐、彩铃、论文、图片等数字数据免受非法复制和使用保护的一种手段。数字多媒体内容是IPTV中最为关键的节目来源。有了DRM技术,可使各个平台(无论是因特网、流媒体还是交互数字电视)的内容提供商们放心地提供更多的内容,采取更灵活的节目销售方式,同时有效地保护知识产权。
IP机顶盒技术。IPTV系统的接收端包括计算机、电视机与手机。由于电视机本身并没有存储功能,不支持软件安装,也无法像手机那样加装流媒体支持功能,因而无法实现IP的支持功能,必须加装一个IP数据流转换成电视机可以接收的信号的机顶盒才能收看IPTV节目。机顶盒应具备数据转换、接入支持、协议支持、业务支持、解码支持等功能。
在广电系统数字电视平移模式中,杭州模式对IPTV技术的应用最为成功。杭州数字电视模式实质上就是用以太网接入,只是最后一段线路即楼道交换机到户内终端使用的是同轴电缆,它成功地将IPTV技术和广电的数字电视进行了结合。现在,其他省市的广电系统已经在以杭州模式为示范建设自己的广电网络。江西省的情况和杭州的实际情况有差别,不具有发展IPTV业务的优势平台,所以我们不能停留于模仿层面,而应该在总结先行者的经验中,寻找更好的在广电网络中运用IPTV技术的方法。
一、数字电视平移是广电网络追求效益的增长点。IPTV能够提供多种形式的内容服务,传输电视节目只是其功能应用的一部分,它还可以提供其他的电视类业务、通信类业务和各种增值业务,满足我们的各种需求。
二、增加多种形式的内容服务要求更宽的带宽来进行传输,IPTV采用的编码和压缩技术是最新的高效视频压缩技术,它压缩了数据,节约了带宽。同时IPTV可以在传输的过程中把视频内容按IP协议封装成数据包,能根据用户不同的需要,灵活解决网络传输的问题。如果用户的频带宽,就可以压缩率低一些,传的包多一些,质量好一点;如果用户对节目的清晰度没有太高的要求,可以采用压缩率高一些,传的包少一些。这也解决了江西省现有SDH网络带宽不足、无法继续添加业务的问题。
三、真正实现互动是IPTV最重要的一个优势。IPTV不仅能满足受众观看节目的个性化需求,而且能让受众参与到电视节目中来,与电视台一起完成节目。
“三网合一”是大势所趋,IPTV的出现,加速了三网融合的步伐。无论是电信还是广电,都在期望自己成为未来三网融合后的主导者。在这种形势下,广电网络要想继续发展就必须广泛、科学地运用IPTV技术。(作者单位:江西省广播电视网络传输有限公司)
栏目责编:肖月
[关键词]图像压缩;图像编码;压缩标准
中图分类号:Tp311 文献标识码:A 文章编号:1009-914X(2014)45-0358-01
0 引言
当今社会正处于高速发展的信息时代,而信息本身就需要进行存储、图像信息是人类认识世界和感知世界的重要源泉。图像具有确切性、直观性、高效性、时空性等特征,图像信息的这些特性导致它的数据量特别庞大。图像压缩就是对数值矩阵进行处理,用相对少的数据来表示这个数值矩阵。这个过程要在图像数据存储、处理和传输之前进行,在这之后要对压缩过的图像进行解压缩来重建图像,这就是图像压缩和解压缩,也称图像编码和图像解码。
1 图像压缩的原理
从信息论的观点来看,图像作为一个信源,描述信源的数据是信息量和信息冗余量之和。所以在图像数据的表示中存在着大量的冗余,如时间冗余、空间冗余、知识冗余、视觉冗余等,可以利用图像本身的一些特点和人眼的视觉特性,去除这些冗余数据就可以使原始图像数据量极大的减少,从而解决图像数据量庞大的问题,实现图像数据压缩。
2 经典图像编码
2.1 变换编码
很多图像编码的原理是通过消除图像的冗余度来达到压缩的目的,而变换编码则是改变了冗余度的表达方法,将原始数据用另一种更加紧凑的方法表示,有时可以实现更高的数据压缩。离散余弦变换(DCT)即是一种分形变换编码。DTC的出色之处是能将大部分图像分成像块,使像块的能量集中到少数低频DTC系数上,这样一来DCT可以将图像的能量很大程度的集中在一起,为压缩打下了基础。
2.2 嫡编码
嫡编码的原理是根据消息或消息序列出现概率的分布特性来寻找概率和码字长度间的最优匹配。游程编码、霍夫曼编码和算术编码等都是目前使用较多的嫡编码。
3 现代图像编码
现代图像编码和经典图像编码的区别之处在于它不是像经典图像编码那样尽量去除图像的相关性,而是利用图像的相关性进行编码。
3.1 分形编码
分形编码是一种直接在空间域寻找并最大限度地利用图像的自相似性的编码方法。
3.2 模型基图像编码
模型基图像编码主要是利用图像的区域、轮廓等二维特征以及形状、运动轨迹等三维特征进行建模,然后对图像和模型进行分析得出模型的各种参数,再对参数进行编码传输,解码端则由图像综合恢复出图像。这种编码方式可以实现较高的压缩比,图像的恢复质量也有了大大的提高。
3.3 小波变换技术
小波变换理论是新的数学分支,其基本思想是将原始图像通过一族小波函数转换为小波域的系数,再通过略去某一阈值下的系数,保留部分原始能量保留较多的系数来压缩图像。在小波变换中,图像被分解为不同空间、不同频率的子图像,一幅图像每经过一次小波变换,图像就被分解为四幅大小为原来的四分之一的小块频带区域,再将这四幅子图针对人的视觉特点分别进行不同的编码处理,可以得到比较高的压缩比和好的压缩质量。
4 图像压缩的分类
图像压缩一般根据图像数据是否有丢失分为有损压缩和无损压缩两类,无损压缩是理想的压缩方法(无信息丢失),也称可逆压缩。有损压缩也称不可逆压缩,经过有损压缩后,重建图像中像素的值和原始图像中对应的像素的值不完全相等,图像会发生畸变。
图像无损压缩编码方法可分为两大类:基于统计概率的算法和基于字典技术的算法。基于统计概率的算法是根据信息论中的变长编码定理和信息嫡的相关知识,用较短的代码代表出现概率大的符号,用较长代码代表出现概率小的符号,从而实现数据压缩。而基于字典技术生成的文件包含的是定长编码,每个码代表原文件中的一个特定序列。
和无损压缩不同的是,有损压缩编码在图像进行解码还原之后的准确度上要求没有那个高,因此会产生一定程度上的失真,但这种编码方式可以提高图像的压缩能力。一般情况下,这种失真人眼看起来可能会比较明显,也可能不明显,不管是哪种,只要在人眼的容忍范围之内,就说明这种压缩时可行的。
5 图像压缩标准
随着图像处理技术的发展,研究人员提出了多种图像压缩标准。常用的图像压缩标准分为静止图像压缩标准和视频图像压缩标准。
目前最常用的静止图像压缩标准是JPEG图像压缩标准。JPEG标准定义基于DCT得有损基本编码系统、面向大规模压缩得扩展的编码系统和面向可逆压缩的无损独立编码系统。JPEG具有有失真和无失真两种编码解码的处理方式,其中无失真得到的解码后图像和原图像数据基本相同,但压缩率较低,而有失真可以实现高的压缩比,但同时可能会导致图像的失真较明显。压缩比的高低可以在算法中改变压缩参数来调整。JPEG标准的计算量不算很大,算法也易于实现,所以具有较好的实用性能。
随着多媒体技术的快速发展和广泛应用,为满足用户对更高压缩效率和对压缩图像的互动性和可伸缩性的要求,JPEG2000应运而生的。
JPEG2000标准可以实现很高的压缩性能,它还具有只对感兴趣区域编码、可进行有损压缩和无损压缩、对错误的鲁棒性、对码流做随机访问等特性。灵活使用这些特征,不仅可以达到很高的压缩比,还可以满足在移动和网络环境下交互操作和可伸缩性的要求。JPEG2000的需求针对性以及技术先进性保证了它光明的应用前景。
6 图像压缩性能的评价
一个图像压缩方法性能的评价主要从两个方面来衡量:压缩比和图像质量评价。压缩比就是原始图像文件大小与压缩后生成文件大小的比值,比值越大,说明压缩率越高。图像质量评价一般是通过保真度准则来判断。保真度准则有两种:客观保真度准则和主观保真度准则。
6.1 客观保真度准则
客观保真度准则是对解码图像和原始图像的误差进行定量计算的一种衡量标准,一般是对整个图像或者图像中的某个指定区域进行某种平均计算得到均方误差。
6.2 主观保真度准则
图像经压缩编码和解码还原之后,图像质量的好坏还有一个直接的评价者就是人眼,因此人的主观印象也是衡量一个图像压缩编码的重要因素。主观保真度准则的实施过程是选定若干评价者对待评图像打分,对这些分数求个平均值可以得到主观评价分。但因为个体评价会受到个人喜好、光线、距离等因素的影响,很难对其制定一个统一的标准,所以图像的主观质量评价方法受到了一定的限制。
参考文献
[1] 张伟.基于小波变换的图像压缩系统研究[D].厦门大学硕士论文.2005.2.
[2] 向辉.基于小波理论的图像压缩算法研究[D].华东师范大学硕士论文.2006.7.
[3] 张跃飞.基于稀疏分解的图像压缩[D].西南交通大学硕士论文.2006.9.
[4] 雷萌.数据压缩算法的比较研究[J].2014.11.
注:基金项目:2012年民族学院校内项目“基于哈希表的数据压缩算法研究”,项目编号:12myZ05
作者简介
关键词: VoIP; QoS; 编解码; 颤音缓存; 语音通信质量
中图分类号:TP39 文献标志码:A 文章编号:1006-8228(2013)07-17-02
0 引言
随着网络技术的迅猛发展和WiFi入网限制的解除,VoIP技术得到广泛的应用。通过无线移动通讯网络的VoIP业务,用户手机可利用WiFi接入互联网,然后利用互联网发送和接收语音数据。近两年,随着智能手机的迅速崛起,这种方式渐渐得到了人们的青睐,越来越多的人选择以这种方式代替原有的通话模式。但是,由于网络无法提供严格的QoS保障,以及时延和时延抖动等原因,使得无线通讯网络中VoIP的传输质量不够理想。因此,研究如何提高VoIP语音的通信质量有重要意义。
1 VoIP的关键技术
VoIP即Voice Over IP的缩写,它是将模拟音频信号进行采样、压缩、打包等一系列处理后,以IP数据报的形式在IP分组交换网络上进行传输。简单地说,它是将模拟话音转换成可以在网络中传输的数字信号。
在建立VoIP通话之前,先要进行呼叫,完成这一任务的信令系统。建立呼叫之后要对数据流进行实时传输,这就需要一种实时传输技术。要使音频信号在分组交换网络传输,还需要把模拟音频信号转成数字信号,并进行适当的压缩、编码以适应这种传输环境,这就需要在传输之前对音频进行编码。在传输过程中,还需要对通话服务质量进行实时监控,因此还需要一种 QoS质量保障技术来完成这个工作。VoIP中的关键技术总结起来就是:信令技术、语音编码技术、实时传输技术、QoS质量保障技术[1]。
1.1 信令技术
所谓信令技术,可以理解为是一种控制机制。在VoIP系统中常用的信令技术有两个:一个是由国际电信标准(ITU一T)制定的H.323;另一个是由因特网工作组(IETF)制定的会话初始协议SIP。这两种技术相比,H.323是一个完整的体系,提供了完成VoIP通信的所有子协议,但是由于H.323更庞大与复杂,不易于管理与维护,并且它不是一个开放性的协议。与此相比,SIP则显得更灵活,扩展性强。SIP协议只提供会话建立、呼叫控制的功能,因而建立呼叫的时间相对较短,SIP还需要与其他协议协同合作完成VoIP的具体通话任务。SIP协议目前已被广泛应用到IMS网络中,负责VoIP业务的实现。
1.2 语音编码技术
由于传输用到的带宽有限,因此需要将数据压缩得尽可能小,来降低传输比特率。目前主流的编码技术有波形编码、参量编码和混合编码。VoIP应用中主流的波形编码有 G.711、G.721、G.723、G.726和G.727,而G.728、G.729、Speex等则是主流的参数和混合编码。这些编码各有自己独特的算法,速率、复杂度也不尽相同。
1.3 实时传输技术
实时传输技术用来保障压缩数据可以有序,同步地到达接收方,便于接收方对数据进行解码。目前VoIP系统中的实时传输技术主要是通过RTP协议实现的[2]。
1.4 QoS质量保障技术
为了保障服务质量,VoIP采用了资源预留协议RSVP以及实时传输控制协议RTCP。
RSVP信令协议,可以为网络上的任何终端、主机之间建立的路径保留带宽,为数据传输预定、保证 QoS。RTCP在进程之间交换控制信息,对传输质量进行管理。在 RTP会话期间,参加会话的成员会间隔的传送包含了已发送数据包数量、丢包数量等统计数据的RTCP包。利用这些信息,服务器就可以动态调整传输速率乃至改变载荷类型。RTCP和RTP一般捆绑使用,可以有效地反馈,优化传输效率[1]。
2 影响VoIP语音质量的因素
由于VoIP业务是通过因特网来传输封包,因此会产生封包延迟、掉包等。影响VoIP语音质量的因素主要有:时延、时延抖动、丢包率。
2.1 时延
数据从发话端传输到接收端所需要的时间即形成了时延。语音通信系统中,时延的增加会让通话双方感觉话音传输的停顿感,同时也会造成回音。对于公用电话网,延时一般只有50~70ms,而IP电话的延时较大、通常为150~250ms,因此,VoIP系统的时延一般控制在100ms~150ms内,否则语音质量难以保证。VoIP系统中,时延由存储转发时延,传播时延及处理时延组成。
2.2 时延抖动
在一个VoIP呼叫过程中,所有发送的数据包经不同路径到达目的地的时间差异即形成了时延抖动。VoIP不同于传统PSTN网络,以固定速率进行传输,由于它在IP网络上存在不同路由,而导致同一数据包之间也会有不同的时延,存在传输时间差,因此产生抖动 [3]。
2.3 丢包率
IP数据包传输的过程中,丢失的数据包数量占所发送数据包总量的比率即形成了丢包率指。不仅数据包在网络中间传输过程中可能产生丢包,当话音网络中超出抖动缓冲区所能承受的最大时延时也会产生丢包。丢包会造成话音信息的缺失,严重时会导致话音的不连贯,甚至无法准确收听到对方的话音。丢包率主要与网络的流量有关,它是影响话音质量的重要因素。通常情况下,语音业务的丢包率须要控制在1%以内。
3 改善VoIP语音通信质量的方法
为了保证VoIP通话的要求,可以从以下几个方面进行改善。
3.1 优化网络环境
通过增加DSL或其他设备的频宽,使得语音质量得到改善。需要注意编解码所占频宽的大小,还应该考虑封包成本。例如,G.711虽然只占64kbps,但是把封包成本计算在内,所需的实际频宽超过100kbps。改善网络环境就会增加投资成本,包括更换设备和增加频宽。而且,由于网络跨越范围很广,众多设备当中可能有部分会发生故障,这时就会使得丢包率瞬间提高,这对于需要即时传输的语音封包来说有致命的影响。
3.2 选择合适的编解码
选择合适的编解码可以对抗瞬间爆发的丢包率。在窄频环境中可使用iLBC,宽带环境中可使用ISAC或G.711,这些编解码可以在丢包率超过20%的情况下,MOS值仍然超过3.0的优异效果。在选择合适的编解码的同时,还要保证当前频宽能够满足编解码的需求。如:iLBC至少在30kbps以上,G.711至少在80kbps以上。
3.3 服务质量保障(QoS)
QoS是将不同的封包(协议)进行标签化处理,使得带有特定标签的封包(协议)能够被优先处理并传送。QoS的算法多达数十种,有的机制可以通过结合其他的规则使得效果加以优化。有的机制将不同的封包(协议)通过优先等级队列的方式,来保证优先级别高的封包(协议)可以“插队”处理与传送。有的机制是将可用的带宽进行分割、编制等级,让不同的封包(协议)以不同的带宽传输。更复杂的算法设计,还能使用“借用频宽”的方式来加速封包的传送。设备端能判断邻近的频宽是否使用中,如果发现“隔壁”频宽并未使用,就可以允许特定封包(协议)借用隔离的频宽。有些算法甚至于针对优先等级来决定频宽借用问题,高优先等级的封包(协议)可以借用低优先等级的频宽。反之,低优先等级的封包或协议无法借用高优先等级的频宽[4]。
在VoIP系统中,通过QoS的技术虽然能确保语音封包优先处理与传送,但是如果此时网络环境不良,优先传送的封包发生丢包情形,语音质量依旧会发生不稳定或不良的情形。
3.4 使用颤音缓存
颤音是由于封包迟延产生的,可以在设备接受端使用部分内存作为缓冲区,将没有到达的封包缓存,并对其进行排序,再按序播放,这样可以改善颤音的现象。从理论上来讲,缓存区越大效果越好,但是这样会占用宝贵的内存资源。而且,由于声音是实时的,颤音的处理要在有限时间内完成,因此,太大的缓存空间不但浪费内存,而且还可能使封包延迟更严重。
4 结束语
经过上述分析可知,要想提高VoIP语音的通信质量,需要综合多方面的因素考虑、权衡。要想彻底改变语音质量应该通过改善网络环境,增加频宽来实现。但是当网络环境无法在短期内得到改善时,选择合适的编解码将优于传统的QoS的效果。本文提出的方法,将对VoIP系统语音通信质量的提高,推动VoIP业务的普及具有实际意义。
参考文献:
[1] 林辉.基于SIP的嵌入式AndroidVoIP语音终端的研究与实现[D].华南理工大学硕士学位论文,2012.
[2] 徐韬.基于Android终端的小型VoIP系统设计与实现[D].大连理工大学硕士学位论文,2011.
摘
要
随着Internet的迅猛发展,人们已经不满足于在网络上传输简单的文本图像信息,更加丰富的多媒体信息,特别是连续的媒体内容(视频和音频)已经开始在互联网上普及。通过网络传输连续媒体数据为人们呈现出一个极具吸引力的信息交流场景。为了适应这种新的需求,视频编码的目标逐渐由传统的面向存储变为现在的面向传输。
本文首先分析了Internet环境下多媒体数据传输的各种解决方法,讨论适合网络传输的视频编解码方案。在目前的Internet环境下,由于网络的异构性和传输速率的不稳定性,媒体流数据在传输的过程中会出现延时、丢失等意外状况,影响了传输的质量。针对这个问题,国内外的学者提出了各种解决方案,主要从网络体系结构和视频编解码框架两个方面进行考虑。然而网络体系结构的改变不是一朝一夕的事情,因此,设计新的适合网络传输的视频编码算法成为本文研究的重点。
在目前实际应用的网络多媒体技术中,流媒体技术是主要的应用成果。本文以最新的流媒体解决方案为基础设计了一个网络多媒体教学系统,通过该系统的设计与实现,本文分析了现有网络多媒体技术在Internet环境下所存在的不足。针对这些缺陷,本文提出了一个改进型FGS编码框架。该框架以基本的FGS编码方案为基础,引入了改进的预测算法和码率的自适应策略等新技术。通过实验结果证明,该框架在一定的条件下提高了FGS算法的性能。
最后,本文对分析结果进行了总结,提出了相应的观点和对未来网络多媒体数据传输发展方向的展望。
关键词:面向传输,流媒体,精细可扩展性
:34000多字的工学硕士学位论文
有中英文摘要、目录、参考文献、大量图片
400元
参考文献
[1]吕昕.基于UWB的危化品仓储堆垛货物定位技术的研究[D].北京:北京化工大学,2015.
[2]王宇.危险化学品物流[M].北京:化学工业出版社,2010:226-231.
[3]师立晨,王如君,多英全.我国危险化学品重大危险源安全监管存在问题及建议[J].中国安全生产科学技术,2014,12(12):161-166.
[4]杨飞龙,张嘉琪,王敏.基于RFID的危险化学品智能仓储管理系统[J].安全与环境工程,2015,22(3):111-116.
[5]蒋白桦,索寒生.基于物联网技术的危化品物流应用平台研究[J].计算机与应用化学,2014,31(10):1271-1274.
[6]饶运涛,邹继军.电子标签技术[M].北京:北京航空航天大学出版社,2011:23-27.
[7]陈炯.QRcode码编解码技术的研究与实现[D].西安:西安电子科技大学,2012.
[8]徐丹,谢小杰,吴俊.基于二维码技术的自动化仓库管理系统的设计[J].计算机与数字工程,2013,41(12):2020-2023.
[9]GB/T18284-2000.中华人民共和国国家标准——快速响应矩阵码(QRcode)[S].北京:中国标准出版社,2001.
[10]杨坤.地图溯源管理机制与关键技术研究[D].郑州:中国信息工程大学,2013.
[11]刘悦,刘明业.QRCode二维条码数据编码的研究[J].北京理工大学学报,2005,25(4):352-355.
参考文献:
[1]郝金强.基于树型设备编码的可视化仓储管理系统的设计与开发[D].上海交通大学,2011.
[2]施菁菁.基于ERP的电力物资仓储管理系统研究[D].华北电力大学,2015.
[3]王德广,石华,周志刚,王超.基于PDA与WebService的钢板信息管理系统的实现[J].微型电脑应用,2010,27-31.
[4]国家电网公司编.国家电网公司物资集约化管理[M].中国电力出版社,2012,238-265.
参考文献
[1]周晓明.SAPEWM高级仓储管理解决方案[J].无线互联科技,2014(8).
[2]贾英杰,王慧东.浅议物资仓储自动化管理[J].科技致富向导,2014(20).
[3]汪淳.基于现代物流管理的自动化仓储管理解决方案[J].现代商贸工业,2014(3).
[4]郑庚.我国中小企业商品仓储管理探讨[J].现代交际,2013(1).
参考文献:
[1]张国卫,孙树旺.物流仓储管理实训课程的研究和应用[J].商场现代化,2014(23).119.
[2]李明华.MOOCs革命:独立课程市场形成和高等教育世界市场新格局[J].开放教育研究,2013.(3).
[3]杨美浓.基于MOOC的《计算机应用基础》课程教学设计[J].信息化建设,2016.(07).179-180
论文关键词:元语言意识 儿童阅读 语音意识 句法意识
论文摘要:儿童元语言意识和阅读的发展关系一直是心理学家所共同关注的一个重要问题。从元语言及元语言意识的概念含义入手,着重介绍并讨论了语音意识和句法意识对儿童阅读理解能力的影响,从而对研究儿童的元语言的重要性有进一步的认识和了解。
近几十年来,元语言意识在儿童词阅读发展中的重要作用是心理语言学研究中最重要的发现之一,对其研究具有重要的理论意义和实践意义。下文将以元语言和元语言意识的概念含义为基础,着重分析探讨元语言意识中的语音意识和句法意识对儿童阅读的影响,在现有研究的基础上得出一些有益于儿童早期英语教育的结论。
一、元语言及元语言意识
所谓的元语言(metalanguage)是指有关语言的语言,是人类语言的一个普遍现象。它既是语言学家必不可少的描写工具,以其专业性和技术性而被称为是语言学家的“行话”(jargon);同时,它又是普通人指称和谈论语言的一种必须手段,因而元语言有双重性。在儿童的语言教学中,需要培养的基本语言能力有以下两种:一是理解语言并使用语言表达思想,进行交流;二是描述并理解自己所学和所用的语言。第二种层次的能力就是我们所说的元语言能力。
近年来,认知科学领域的心理学家和语言学家都开始更多关注语言使用者的“元语言意识”(metalinguistic awareness)。元语言意识是指个体思考和反思语言的特征和运作的能力。具有元语言意识的人,能够有效地认识和思考语言的本质和功能。从事双语教育研究的学者发现对使用双语的儿童来说,具有较强的“元语言意识”已经成为他们一个独特的优势,因其具有“思考自己的语言、理解词汇的意义、甚至给这些词汇下定义”的能力。元语言意识包括四种一般的类型:语音意识、词素意识、句法意识和语用意识。在儿童读写能力发展的不同阶段具有不同影响,其中尤以语音意识和句法意识在儿童早期阅读中的影响最为突出。
二、语音意识的发展对儿童阅读的影响
语音意识是指操纵和控制语音表征的能力,包括音位意识、音节意识和音节内单元的意识,是对任意一种语音单元的意识。语音意识与个体早期的阅读有着非常密切的关系,大多数关于儿童语音意识发展的研究都是从语音意识对阅读能力的影响这一视角进行的。
阅读是一种高水平信息加工的过程。其中,词汇通达是基础性环节。在词汇通达中,语音解码起着非常重要的作用。所谓语音解码就是将书面的言语符号转换为语音表征系统的过程。在阅读过程中,语音解码过程存在两种机制,一种是词汇机制,它依赖对整个词或词素读音的直接通达自动寻址语音(Addressed phonology);另一种是非词汇机制或称为正字法机制,读者在阅读过程可以应用从正字法到语音的联系将书面词语的拼写一一转换并合成相应的语音表征,这样得到的语音也被称为合成语音。在拼音文字系统的阅读中,一定的语音意识水平对于儿童发现形和音之间的对应规则,利用非词汇机制进行语音解码是十分必要的。语音意识可以使儿童进行有效的语音分解和合成,建立起书面语和口语的对应关系,确认不熟悉的单词以提高单词识别的速度和自动化的程度,从而提高阅读能力。
同时,Shankweiler等学者通过对阅读不良儿童进行大量研究,提出了“语音限制假说”。该假说认为,阅读不良的儿童的主要问题是在语音加工方面存在缺陷,而且语音加工的缺陷会产生“瓶颈”效应,进一步影响其他语言加工过程的进行。因为语言加工的信息是从语音加工单方向上到达句法和语义加工系统,而工作记忆则充当了这个信息加工过程的中转站。当语音加工能力不足时,语音加工中的缺陷就制约了整个信息的正常加工,从而阻止了信息向更高级的加工水平进行传递。“语音加工缺陷理论”试图将阅读困难儿童的复杂原因归结为语音加工缺陷的结果。因此,根据该理论,语音意识对阅读应该具有基础性决定的作用。另外,Gottardo等人对112名三年级儿童语音意识、句法意识、工作记忆以及单词再认、假词拼读和阅读理解能力进行了考察,结果表明在语音意识和工作记忆被控制的条件下,句法意识对单词再认、假词拼写、阅读理解都不具预测作用,该结论也进一步证实了“语音缺陷假说”。
由此我们不难得出:语音意识是阅读能力习得的先决条件,语音加工是阅读速度和阅读效率的重要预测指标。但语音意识对阅读理解的促进作用有两个先决条件:首先,儿童在学习阅读前已经具备一定的口语能力,大量的口语表征已经形成,而且词汇的语音表征和相应的语义联系已经建立。其次,儿童在阅读中能有意识地利用非词汇机制对不熟悉的单词进行语音解码,并能够根据解码的语音确认不熟悉单词的意义,从而提高阅读能力。
三、句法意识的发展对儿童阅读的影响
句法意识是指个体反思句子内在语法结构的能力,也称为语法敏感性。Layton 等人将句法意识的发展分为四个水平:(1)获得默许的句法规则的知识水平;(2)获得自动的修补策略;(3)知道句法规则的存在并能够识别出来;(4)把句法知识反应在语言中或相关的任务上。前面两个水平都是句法上升到意识水平之前必经的准备阶段,第三个水平开始才进入了句法意识时期。这样一种划分可以使我们更清楚句法意识的范畴,同时也为测量句法意识提供了一个指标。
句法意识与阅读之间有着密切的关系。语言学家进行的研究发现以下两点:第一,阅读优秀儿童的测试成绩明显高于不良阅读者;第二,被试儿童在学习阅读前的句法意识测试成绩对以后的阅读成绩有预测作用。流利的阅读不仅需要理解单个词汇的意思,同时还需要在句子和篇章水平上将这些词汇进行整合,这就离不开句法分析。句法分析是辨别句子结构,理解句子意义的有效手段,而句法分析能力的高低在很大程度上取决于句法意识的发展水平。一定的句法意识发展水平不仅可以减少句法分析的步骤,提高心理表征的速度,还能澄清模糊的知识来提高阅读理解能力。
在此基础上,Tunmer等学者的研究进一步证明,句法意识在控制了语音意识之后仍能解释词的解码能力中的变异。他们认为,句法意识对阅读成绩的影响可能通过下列两种方式进行:第一种是句法意识使得读者能更有效地监控他们正在进行的理解过程。儿童的句法意识越高,这种理解监控过程就越有效。第二种方式可能是,句法意识帮助儿童获得语音编码的技巧。首先,儿童要获得形素—音素的对应关系(grapheme-phoneme correspondence)的知识需要经历较长的时间,初级的读者不会记住他们遇到的所有不熟悉的词语。在获得所有形素—音素对应的知识前,句法意识较好的儿童,能够反映句子的结构特征,然后利用有关句子语境限制的知识,再结合不完整的正字法和语音信息来认识那些不熟悉的词汇,也就完成了他们在阅读中对单词的解码。其次,使用语境信息的能力可以帮助初学者发现一些拼写模式有多于一个以上的发音。例如,字母系列ough 在 cough,rough,dough 里面分别有不同的读音;当遇到这样一个包含同形异义拼写模式的不熟悉单词时,那些具有语法意识知识的被试能够产生不同的发音,直到有一个读音与听到过的单词的发音匹配。由此可以看出,句法意识与阅读的成绩可能存在着直接的因果联系。儿童的句法意识和语音意识可能处于相互促进且相互制约的平衡中,而提高儿童的句法意识能够在对语音意识起到促进作用的同时提高整体阅读能力。
综上所述,元语言意识的发展对提高儿童阅读能力有着积极的影响,它们之间的关系可归纳为以下几个方面:第一,元语言意识中的语音意识和句法意识以及其他认知因素一起作用影响阅读能力的发展。第二,语音意识和句法意识通过不同的途径影响儿童阅读能力的发展,即语音意识影响字词解码进而影响阅读理解,而句法意识更多地通过有意识的句法分析而直接影响上下文语境信息的加工。第三,儿童的元语言能力和阅读能力都有一个发展的过程,它们之间的关系也很有可能处于一种动态的发展中。因此,进行儿童元语言意识与阅读能力发展影响的研究,既可以丰富已有的研究理论框架,又可以考察已有的研究结果是否具有普遍性,同时为阅读教学、阅读障碍纠正等提供理论上的指导和帮助。
参考文献
[1]Bowey J A.Phonological awareness and learning in novice readers and nonreaders[J].Journal of Experimental Child Psychology,1994.
Cummins J.Bilingualism and the development of metalinguistic awareness[J].Journal of Cross-Cultural Psychology,1991.
Gombert J E.Metalinguistic development[M].Chicago: University of Chicago Press,1993.
丁朝蓬,彭聃龄.汉语儿童英语语音意识与拼写[J].心理学报,1998,(3).
董燕萍.心理语言学与外语教学[M].北京:外语教学与研究出版社,2005.
封宗信.元语言与外语教学[J].外语与外语教学,2005,(6).
姜涛,彭聃龄.汉语儿童的语音意识特点及阅读能力高低读者的差异[J].心理学报,1999,(1).
关键词:信息隐匿,压缩编码,数据变换,数据选择
1 引言
信息隐藏是一门新兴的信息安全技术。论文参考。涉及感知学,信息论,密码学等多个学科领域,涵盖信号处理,扩频通信等多专业技术。 近年来得到了迅猛发展。现阶段人们一般选择图像、文本、音频和视频等数字媒体作为载体。另外, 还出现了基于TCP/IP 的信息隐藏技术和基于信道编码的信息隐藏技术。本文研究的基于压缩编码的信息隐藏技术是信息隐藏技术的新领域, 它以多媒体系统中的压缩数据作为嵌入载体,数据解压后不影响原始数据数据的结构和统计特性, 具有较强的鲁棒性和不可检测性。
2 压缩编码信息隐藏的原理
压缩编码是一种提高数据传输有效性的技术,它是通过对数据施加某种操作或变换使之长度变短或者容量变小的同时, 还必须保证原始数据能够从压缩产生的压缩码中得以精确的还原。从信息论的角度来看,压缩就是去掉信息中的冗余,即保留不确定的信息,去掉确定的信息(可推知的),也就是用一种更接近信息本质的描述来代替原有冗余的描述。这个本质的东西就是信息量(即不确定因素)。信息隐匿和数据压缩在本质上是相互联系的:对于数据压缩来讲,一块数据中隐匿了和数据本身无关的地的其它数据,那这块隐藏了信息的数据是有一定冗余的,由冗余的数据可以进一步被压缩,进一步压缩的就有可能去掉隐匿的数据;对于信息隐匿来说,一块已被压缩过的数据冗余量已经很小了,由于隐匿是嵌入的数据和原始数据毫无关系,在这块数据中进一步隐匿数据,势必造成原始掩护数据的有效数据的减少,相当于队已经压缩的数据进行进一步压缩。只要保证在接收端解压中可以恢复原始数据的差错率,就可以在压缩编码后进行信息隐匿,不会引起截获者怀疑码字载体中含有秘密信息。
3 压缩编码信息隐匿模型实现方案
基于信息隐匿和数据压缩的关系,提出结构如下的数据压缩思想的通用隐匿模型。模型主要由三个部分组成:图像压缩、信息加密和信息隐匿。图像压缩部分的量化器输出至信息隐匿部分,然后从信息隐匿部分得到隐藏有其他信息的量化数据,并送到熵编码器,其他内容和标准压缩过程一致。信息加密部分为传统的加密方案,其主要目的是增加秘密信息的安全性,使得系统隐匿的信息部分即使被检测出来,也不会泄露其内容。论文参考。
信息隐匿部分是模拟最核心的内容,这部分主要有三个部分组成:数据变换,数据选择和嵌入过程。数据变化的主要目的是改变加密后的信息统计特性,使得这些数据嵌入掩护图像量化后的数据之中,不改变或很少改变掩护图像的数据统计特性,从而使信息隐匿后的抗检测性大大增强。数据选择是从掩护图像量化后的数据中选择合适的比特位,用它来隐藏已加密的信息。合理的数据选择算法应该兼顾信息隐匿的容量,信息隐匿的抗检测性与鲁棒性。嵌入过程式将加密后的信息和选择出来的数据进行某种运算(通称为替换或异或),用运算结果替换选择出来的数据,并将此数据连同未选择出来的量化数据一并交给图像压缩部分的熵编码进行编码。
图1 基于数据压缩思想的通用信息隐匿模型
通用模型的秘密信息提取过程基本上是隐匿的逆过程,其流程图如下
图2通用信息隐匿模型的信息提取过程
压缩后的数据首先经过熵解码器解码,然后进行数据分离,将未嵌入的数据部分送入正常的图像解码流程(反量化,反映射变换),而将嵌入数据的部分进行数据提取,如果此过程的算法不是盲的(即需要原始掩护图像),则需要分离出来的数据和原始掩护图像经映射变化,量化后的数据进行运算,将结果进行数据恢复、解密、最后得到嵌入的原始秘密信息。
4 隐匿模型的两种关键技术
在这种通用的信息隐匿模型中,数据变换和数据选择是关键技术
数据变换的主要目的是改变加密后的信息统计特性,增强系统信息隐匿的抗检测性能。改变数据的统计特性的常用方法是进行线性滤波,从本质上来讲,线性滤波和线性变换是一致的,从频域上来看,滤波就是对信号频谱的不同部分进行不同的缩放。在技术上常就是这样一个过程:DFT→相乘→IDFT,将这一过程合并为一体时,就成为一个单纯的线性变换。在复数域中进行整数的可逆处理时,数据量就会增加一倍,为此可以经DFT换成DCT,这样这一处理过程就成为一实数域的线性变换问题。
下面介绍整型变换算法的基本过程。
(1)对于给定的线性变换A,如是常见的线性变换,则进行(2),否则对其进行改造,使det| A ‘ |=1。
(2)将A ‘ 分解为3类基本矩阵(置换矩阵,元素的绝对值均不小于1的对角阵,单位三角矩阵)。
(3)对于每一基本矩阵,构造其整型变换,获得整数输出。
(4)对于每一步都应有相应的逆变换,所以整个变换的逆变换可以相应的获得。
(5)对于多维可分离的线性变换,正变换可以逐维的计算;为了保证逆变换对于多维数据的完全重建,应严格按照和正变换相反的次序进行逆变换。
实现数据变换时的另一个问题是数据的范围问题。在实际处理过程中,输入的数据都是有一定的范围的(比如原始图像数据通常用8位无符号数据表示),如果输出的数据不加以限制,则输出的数据的范围一般要增大,这样就必须用更多的数据表示处理结果。
数据选择过程是从掩护图像的量化数据中选择合适的比特位,用它来隐匿已加密的信息。最基本的做法是选择掩护数据中的不重要的部分,这样做得优点是对掩护图像的质量影响最小,使修改引起别人注意的可能性最小。但是在实际系统中,数据选择算法应该兼顾信息隐匿的容量,信息隐匿的抗检测性与鲁棒性等多个方面的性能,可以选择下面三种。
1.LSP(LeastSignificant Portion)最不重要部分
LSP技术和LSB(最不重要比特位)技术基本类似,区别在于LSB平等的对待掩护图像中的每一字节,不同的字节之间没有区别,在隐藏时都在数据的最低位取相等比特;而LSP针对变换量化后的数据而言,不同位置的重要程度不同,从中所取的最低有效比特数就不同,其中低频数据是取得少一些,而在高频数据中取得多一些。另外,不同位置的数据取值范围也不一样,最多的可取比特数也不一样。论文参考。
2.随机间隔法
随机间隔技术是以LSP为基础的一种方法,在数据选择时用一个掩密密钥k作随机数发生的种子,那么可以生成一个随机序列k 1 ,…,k l ,并且把它们一起按下列方式生成隐匿信息位置来对经LSP选择的数据进行进一步选择:j 1 =k 1
j i =k i +j i-1
从而可以伪随机决定两个嵌入位置的距离。这种方法由于隐匿的位置更少,所以更不容易被检测出来。
3.随机位置法
随机位置技术是另外一种伪随机的方法,它也以LSP技术为基础。和随机间隔法不同的是,它对不同的位置变换数据及量化数据的不同比特位赋予不同的选择概率p 1 ,…,p l ,在数据选择时也用一个伪装密钥k作为随机发送的种子,那么可以生成一个一个随机序列k 1 ,…,k l ,当k i ≥p i 时选择比特,否则不进行选择。在此方法中选择合适概率取值方案可以兼顾信息隐匿的容量、悬念吸引你的抗检测性与鲁棒性等多方面的性能,是一种更灵活的方法。当然可以将随机间隔法和随机位置发结合起来使用,那是一种更灵活、更复杂的方案。
5 实验结果
运用本文提出的通用模型,以lena(512像素×512像素),作为掩护图像,在其中隐匿随机数据,映射变换采用8×8的DCT,经数据变换过程,结果如下图所示。图中从左到右,从上到下依次为:原始图像,未嵌入数据的JPEG图像,嵌入不等数据量的JPEG图像。随着嵌入数据量的增加,掩护图像的直观质量会下降,这种质量的下降类似于不同压缩比条件下JPEG图像质量的不同下降,从信息隐匿的角度来看,这种相似性是有利的。
图3 图用模型的数据隐匿效果
6 小结
研究了一种基于压缩编码的信息隐匿技术,介绍了信息隐匿通用模型的两种关键技术:数据变换和数据选择技术,通过实验得到嵌入量与图像质量的关系。随着通信技术的不断发展,信息安全将成为一门很重要的学科,对于通信信息隐匿还要寻找更先进,更合理的算法来达到通信的安全性能。
参考文献:
[1] KATZENBEISSERS, PETITCOLASFAP.信息隐藏技术—隐写术与数字水印[M].吴秋新,钮心忻,杨义先等译.北京:人民邮电出版社,2001.
[2] 汪小帆,戴跃伟. 信息隐藏技术方法与应用[M].北京:机械工业出版社,2001.
[3]柏森,胡中豫,吴乐华等.通信信息隐匿技术[M].北京:国防工业出版社,2005.
[4]王伟祥, 刘玉君.基于信道编码的信息隐藏技术研究.[J] 电视技术.2003(3).
关键词:视频编码,帧内预测,SATD,快速帧内预测模式选择
0、引言
H.264/AVC是由联合视频专家组JVT(Joint Video Team)于2003年5月正式批准的新一代视频编码标准[1、2]。论文指南。与以往的标准相比较,H.264具有压缩效率高、网络适应性好和适用于交互和非交互的应用环境的显著特点,现在得到了广泛应用,并处于不断的改进中。
H.264/AVC采用一项重要新技术:基于空间域的帧内预测,它充分利用了图像的空间相关性,根据已解码的相邻块的信息来预测当前块的信息,来提高编码性能。H.264/AVC在RDO(RateDistortion Optimization)模式下进行帧内预测模式选择,用最少的比特率获得了最好的编码效果,但由于H.264/AVC支持的帧内预测模式很多,为了确定一个宏块(Macroblock,MB)的帧内预测模式,需要计算592种组合模式的率失真代价(RD_Cost),其运算量占整个模式选择的60%左右,从而使编码器的复杂度很高。在实际编码结果中Intra_4×4模式会占据编码模式中的大部分,因此对RDO模式下4×4子块的研究非常有必要,对研究快速帧内预测算法具有重要的应用价值。
1、H.264/AVC帧内预测模式
H.264/AVC支持三类帧内预测:一、Intra_4×4是针对4×4亮度块的预测,有9种预测模式,其中包括DC预测模式(即均值预测模式)和8种具有一定方向性的预测模式;二、Intra_16×16是针对16×16亮度块的预测,有4种预测模式;三、Intra_8×8是针对8×8色度块的预测,有4种预测模式,预测模式和Intra_16×16一样,只是模式编号不一样。其中Intra_4×4模式由于块尺寸较小,适用于编码细节丰富的图像,且能获得较小的差值,但同时因其模式数目较多成为帧内编码的一个瓶颈。论文指南。Intra_16×16模式则比较适用于图像平坦区域的预测。
(a)(b)
图1 帧内预测模式方向
2、帧内4×4块预测的分析
2.1相邻块之间的相关性
在编码时,只需对预测值与实际值的差值进行编码即可,则充分利用帧内相邻宏块间的信息相关性来得到预测值,即是通过当前块编解码后的重建过程为紧邻的下一宏块提供预测值。具体到本文的4×4块,相邻的4×4块的预测模式之间具有很强的相关性,根据当前4×4块的左边块和上边块的预测模式可以预测当前块的最可能模式(MPM,Most Probable Mode)。利用该相关性可以减少预测模式的选择数目,从而可以减少编码的比特数。
2.2RDO下全搜索(FS)的帧内预测模式选择过程
具体的帧内模式选择过程[3]如下:
(1)分别计算9种Intra_4×4模式的率失真代价(RD_Cost) ,选择具有最小代价的模式。代价函数RD_Cost = SSD +λmode×Rate,其中SSD(Sum of SquaredDifference)表示当前块与重建块之间的差值平方和;λmode = 0.85×2(QP - 12) /3 (QP为块的量化参数);Rate表示熵编码后的码率。论文指南。
(2)把16个4×4块最小的RD_Cost相加得到当前宏块Intra_4×4的RD_Cost。
(3)按类似方法分别计算4种Intra_16×16模式的SAD(Sum of Absolute Difference),选择具有最小SAD的模式。计算该模式下的RD_Cost,得到当前宏块Intra_16×16方式下的RD_Cost。
(4)比较前两步获得的RD_Cost,选择具有最小RD_Cost的模式作为该宏块的帧内预测模式。
(5)Intra_8×8色度宏块的预测方法与亮度类似。
2.3 减小帧内预测复杂度的常用方法
为了减小帧内预测的复杂度,一般有两种方法:(1)简化代价函数;(2)缩小预测模式选择的范围。此方法可以利用当前块及其周围像素的某些特征,预先排除某些可能性很小的预测模式,或提前终止某些可能性小的模式的代价计算,从而降低帧内预测的复杂度。PAN Feng等利用子块边缘的变化方向从预选模式中选取最有可能的预测方向,算法中采用边缘梯度直方图的方法在几种最有可能的预测方向中选取最佳预测方向[4];Meng Bojun等提出EIPMS算法,利用代价函数和多阈值的方法提高了4×4的子块的编码速度[5];文献[6]利用下采样方法,用RD模型替代率失真方法选择预测模式;这些算法虽然大幅度降低了复杂度,但是因实现起来较麻烦、编码性能有一定的损失或是图像质量下降等问题,需要进一步的改进。
3、Intra_4×4模式选择的快速算法
本文提出的模式选择快速算法是基于上述所提到的两种方法。在SAD(Sum of Absolution Difference)代价函数模型下,可以通过图像亚采样等方法,以代价函数的局部计算为手段达到目的。并利用当前块及其相邻像素的某些特征,预先排除某些可能性很小的预测模式,达到降低算法复杂度的目的。
3.1 SAD/SATD代价函数
通过计算公式(3-1),选择值最小的所对应的模式为最佳模式。
Cost=SA(T)D+4R×λ(QP) (3-1)
其中,λ(QP)是关于QP的指数函数,4R是对使用某种预测模式后形成比特数的估计,R根据当前模式是否为最有可能的模式取值为0或1。SAD为原始图象象素和编码重建图象象素的绝对值差的和。为了更加准确的计算Cost值,通常将原始图象象素和重建图象象素的差值进行Hadamard变换,将其转换到变换域。
由于SATD与率失真(RD)性能有很强的相关性,所以利用SATD作为判断准则,预先排除掉一些可能性小的预测模式降低复杂度。相邻的4×4块的预测模式之间具有很强的相关性,相邻块的关系如图2所示,其中D是当前的4×4亮度块,A、B和C分别为左上、上边和左边的4×4亮度块。可以根据它们的预测模式确定当前4×4块的最可能预测模式,故可以选择相邻4×4块预测模式的SATD值作为阈值,预先排除掉SATD大于该阈值的模式,这样可以预先排除大约50%的Intra4×4模式,避免了很多不必要的代价(Cost)计算,通过实现自适应阈值降低预测的计算复杂度。
引入阈值T,计算4×4块在最可能的预测模式下的Cost4×4值,如果Cost4×4的结果小于阈值T,那么就把它作为当前4×4亮度块的最佳预测模式;否则,继续计算其他的预测模式。在这里阈值T的选取就是至关重要的地方,如果T较小,则不能有效的减少需要计算的预测模式数;否则如果T较大,较容易选择“最可能的预测模式”,作为最终的结果,不能有效的找到当前块的最佳预测模式。一般的,在图像内容比较复杂的区域,可以适当的增大T的值;否则,应该减小T的值。另外,T的选择与QP值的大小也有关系;当QP较大时,预测误差较大,则应该适当的增大T的值;否则,应该减小T的值。据经验分析,如果最可能的预测模式就是最佳预测模式,绝大多数情况下D块的预测残差与A或B或C块的预测残差十分接近。而SATD值反应的是预测模式对当前纹理结构的近似效果,所以取A、B和C块Cost4×4值较小的一个作为D块的Cost4×4预测期望值。再将λ(QP)的作用考虑内,我们将阈值T设定为:
T=min(CostA,CostB,CostC)+kλ(QP)(3-2)
关键词:数字电影 电影技术 系统设计
中图分类号:TP391 文献标识码:A 文章编号:1672-3791(2013)03(a)0021-01
电影是一门艺术化的技术,也是一门技术化的艺术,能够采用特有的技术处理手段,艺术的表达导演的一些想法,因此,电影的表达也离不开技术的支撑。随着数字技术的发展,数字电影技术也得到了迅猛发展,并且已经基本取代了传统的胶片电影技术市场。
本论文主要结合数字电影技术,详细分析现有的数字电影技术,并在此基础上构建基于数字电影技术的数字电影系统,以期能够为数字电影技术的发展提供可供借鉴的技术应用模式,并以此和广大同行分享。
1 数字电影技术分析
1.1 数字电影技术概述
数字电影,顾名思义,是和计算机相结合起来的一种电影技术,目前,数字电影技术,主要是指以数字设备实现的摄像、存储,并通过数字设备实现电影内容的传输传送,最后经过专业设备将数字信号还原成影像信号并进行播放。
传统的电影摄制是将影像信号摄录在胶片上,这种电影技术具有分辨率大、信息量大的优势,但是由于胶片不易保存和传输,因此对于电影的传输普及带来不便;而数字电影的出现很好的解决了这一问题,目前数字电影基本上都是采用高清摄像机直接获取高清质量的数字影像,也可以采用胶片拍摄电影,在后期将胶片扫描为数字信号。
数字电影技术的发展,大大推动了电影技术的普及和大众化应用,这得益于计算机技术的飞速发展,数字电影技术最主要还是指的电影摄制的数字化,以及所需配套的数字化制作、数字化放映等设备的应用。
1.2 数字电影技术发展应用现状
早在上个世纪90年代,好莱坞一大批震惊世界的电影,无不采用了数字电影合成技术,例如《星球大战》、《泰坦尼克号》、《黑客帝国》等等,让观众感受到了传统胶片电影所无法实现的视觉感官感受。目前全球数字电影的制作已经超过了几千部,主要以欧美国家为主。我国的数字电影技术发展也很快,已经建立的全亚洲最大的数字电影技术中心,以及数字电影拍摄、发行、放映等一系列技术应用也有很大的提升,这些都表明我国数字化电影技术的快速发展和进步,但主要应用设备还是大量的依赖进口或合资生产。
另一方面,数字电影的发展,必然也推动了数字放映设备的建设。目前,全球数字电影银幕数达到7万多块,我国城市影院建设保持高速发展的态势,截止到2012年底,全国银幕数从2002年的1845块增加到了现有的13118块,其中2K数字银幕超过1.2万块,主流院线影院基本全面实现数字化放映。
近两年来,数字中间片(DI)技术成为世界电影行业最引人关注的话题之一。所谓数字中间片技术,一般是指整个后期制作都在数字平台上进行。数字中间片技术的目的主要有两个:一是为了开发传统工艺难以实现甚至无法实现的功能,从而取得更灵活、更丰富的创作手段;二是为了提高影片质量,降低制作成本。数字中间片工艺主要有胶片扫描(胶转数)、套底、调色、特效和修饰、制作字幕、数字母版制作和胶片记录(数转胶)等。出于技术和成本的原因,目前的数字中间片技术大多还是基于2K分辨率的,属于一种折中的解决方案,仅能满足DCI中的低档要求。目前,数字中间片的实施与研究还主要集中在美、欧的一些发达国家,并已具备了相当的规模。
2 数字电影系统设计探讨
2.1 数字电影系统结构设计
相较于传统的胶片电影技术,数字电影系统由于采用了数字技术,因而能够很方便的实现数字化的摄制、存储和传输,但是其前提是必须要能够很好的解决图像的实时传输存储问题。为此,数字电影系统的基本结构可以设计由如下几个部分构成。
(1)数字式图像传感器。
数字电影的摄制,首要解决的就是数字化拍摄的问题,为此可以采用数字式图像传感器,通过配合光学取景器,将镜头前的内容直接摄制并转化为数字信号,传输给图像处理单元。
(2)高速图像处理单元。
高速图像处理单元是实现数字电影的关键结构单元,在整个系统中处于类似CPU的角色,主要负责对数字图像的编解码、灰度处理、二值化处理,以及对数字信号的还原等处理,从而确保数字图像的实时摄录和编解码。
(3)数字存储器。
目前常用的数字存储器通常都是硬盘,既能够大幅降低数字电影系统的成本,同时又提高了数字电影存储、传输的兼容性,有利于数字电影的普及推广和传输应用。
(4)交互数字单元。
交互数字单元主要是负责实现数字电影的互动及特效等场景的二次编辑加工,其内含基于DSP单片机的编辑器能够很方便的实现对音频信号的加工,以及对色彩、亮度等视频信号的编辑和调整,极大的丰富了数字电影的加工手段和方式。
2.2 数字电影配套系统分析
数字电影要实现大规模的推广和应用,不仅仅需要数字电影摄录设备,不是只依靠高清数字摄像机就能够实现数字电影技术的普及应用的,对于数字电影相配套的系统,也必须要大力发展,才能够最终推动整个数字电影系统的不断发展和应用。
数字电影系统处理需要数字化摄录设备,还必须配套数字化编辑设备,数字化放映设备。数字化编辑设备目前主要集中的数字化平台的应用,包括对胶片影像的扫描,数字影像的再加工等内容;数字化放映设备则主要包括数字电影的立体式放映及多感交互式互动系统,目前国外已经发展到4D立体式放映系统,能够很好的实现数字电影的多感交互放映。
3 结语
数字电影技术是电影技术发展的里程碑,它实现了过去传统无法实现的一些创作,更为重要的是,数字电影技术的出现,使得个人创作电影成为了可能,只要拥有一台数字电影设备,以及具备编辑修改的多媒体系统,就能够实现数字电影的创作,这对于电影艺术的大众化普及是具有深远影响的。目前数字影院发展态势蓬勃,使得数字电影技术有了很大的应用空间。本论文简要探讨了数字电影技术及其系统的设计,对于数字电影技术的普及发展和提高,无论是在理论研究还是在实践应用方面,都具有较好的指导借鉴意义。
参考文献
[1] 陈犀禾.虚拟现实主义和后电影理论—— 数字时代的电影制作和电影观念[J].当代电影,2001(2):23-24.
[2] 刘兆君.数字技术与电影[J].剧作家,2006(5):78-79.
2001中南地区广播电视技术讨论会技术论文二等奖 多媒体信息是未来人类获取信息最主要的载体,因此它已成为目前世界上技术开发和研究的热点。视频信息作为多媒体信息中最被关注、数据量最大的一员,现在也正面临着一场其意义不亚于从模拟到数字的技术进步革新:从传统的矩形DCT变换编码到根据视频内容、划分对象、分别变换编码的新的编码方法。
一、传统的编码方式
传统的视频编码是以视频信号的数字量为编码对象的,与视频信息的内容无关,无论是M-JPEG、MPEG-1还是MPEG-2,都是以DCT矩形变换块为变换编码单元,对DCT块内图像的亮度和色度进行特征取样,提取像素;采用帧间编码、运动估测技术,在参考帧帧内DCT编码的基础上,对DCT块内图像的像素特征进行差值预测编码。基于矩形DCT编码的视频编码在设计思想上只考虑到对信号数据进行处理的需要(比如小的比特率以利于传输、高的比特率以保证质量),但未考虑视频信息--图像内容本身的含义和重要性,以及视频信息应用者的主观需求(比如部分内容的提取功能)。另外,这种基?quot;块"的压缩算法在低码率时容易产生"方块效应"和"抽帧",大大缩小了视频信息的应用领域。
小波变换是一种新的变换编码方法,它与DCT变换相比,考虑到了视频信号对不同应用环境的自适应性(不同的清晰度与比特率),可以将基础图像层与增强图像层分离编码传输,用户可根据实际情况选择是否打开增强图像层。但无论用户选择是或否,被传送的视频信息却都是一样的。
二、 基于内容对象的编码
1、 VO与VOP概念的引入
传统的视频编码方式是将整个视频信号作为一个内容单体来处理,其本身不可再分割,而这与人类对视觉信息的判别法则,也就是大脑对视神经导入的视觉信号的处理方法是完全不同的。这就决定了我们不可能将一个视频信息完整的从视频信号中提取出来,比如:将加有台标和字幕的视频恢复成无台标、字幕的视频。解决问题的惟一途径就是在编码时就将不同的视频信息载体--视频对象VO(Video Objects)区分开,独立编码传送,将图像序列中的每一帧,看成是由不同的VO加上活动的背景所组成。VO可以是人或物,也可以是计算机生成的2D或3D图形。VO具有音频属性,其属性赋值可能?quot;有"或者是"无"。但音频的具体内容数据是独立于视频编码、传输的。VO概念的引入,更加符合人脑对视觉信息的处理方式,并使视频信号的处理方式从数字化进展到智能化。提高了视频信号的交互性和灵活性,使得更广泛的视频应用和更多的内容交互功能成为可能。
现代图像编码理论指出,人眼捕获图像信息的本质是"轮廓-纹理",即人眼感兴趣的是VO的一些表面特性,如形状、运动、纹理等。VO的表面往往是不规则的、千变万化的,但可将其视为一定视角下,n个形状规则的、具有一定纹理的剖面的组合的连续运动,这些剖面的组合称为视频对象面VOP(Video Object Profile)。VOP描述了VO在一定视角条件下的表面特性。VOP的编码主要由两部分组成:一个是形状编码,另一个是纹理和运动信息编码。VOP纹理编码和运动的预测、补偿在原理上同MPEG-2基本一致,而形状编码技术则是首次应用在图像编码领域。
2、新的编码技术
合成VO的独立编码 在以前,2D或3D动画被看作是视频的一部分,并一概以视频的方法来处理。实际上,根据合成VO的合成机理和特性,大部分合成VO都可以用通用的有关图形文本的多种表达方式来描述。非复杂性合成VO将被视为一种独立于视频的数据类型来编码,并定义了其描述框架、通用的数据流结构和灵活的接口。而复杂性合成VO和自然VO的编码方法,将采用以下的编码方法。
基于矩形窗口的VOP分割 考虑到与现有标准的兼容,目前已得到应用的VO编码技术,比如MPEG4,仍采用了基于矩形窗口的内容分割法。编码时,首先利用像素特征统计,将每一个VOP都限定在一个矩形窗口内,称之为VOP窗口(VOP Window),取窗的原则为:长、宽均为16像素的整数倍(便于对现有标准的兼容和将来的扩展),同时保证VOP窗口中非VOP的宏块数目最少。目前标准中的视频帧可认为是一个无VOP的特例,在编码过程中将形状编码模块屏蔽掉就可以了。在一个VOP窗口内,VOP剖面的形状也是采用8×8像素的矩形形状。针对不同的VOP,可以根据不同的应用场合和运动、变化的特点,采用固定的或可变的VOP帧频(即VOP刷新频率)。
矩形窗口分割法并不能体现VOP的具体形状信息。为了确认采用矩形窗口分割法的VOP的形状信息,就引入了形状编码技术。形状编码其实并不是什么新技术,它在计算机图形学、计算机视觉领域早有应用。而目前的视频编码标准中的位图技术其实就是形状编码的简单特例。位图采用矩阵的形式来表示二值(0或1)的形状信息,具有较高的编码效率和较低的运算复杂度。VOP的形状信息有两类:边缘信息和灰度信息。边缘信息用0、1来表示VOP的形状,0表示非VOP区域,1表示VOP区域。对于包含一定透明度的VOP区域,可以用灰度信息(取值0~255之间)来表示透明程度,其中0表示完全透明,255表示完全不透明。对于模糊边缘部分,可将其视为灰度信息从周围已知VOP区域的灰度值向0值的过渡区域,采用内插法确定其形状信息。
基于小波变换的VOP分割 基于矩形窗口的VOP分割依旧存在"块效应"问题,而基于小波变换的VOP分割则可以很好的解决这个问题,而且由于这种分割方法的本身就包含了VOP的形状信息,所以无需另对形状信息进行判别与编码。基于小波变换的VOP分割方法是目前最为活跃的视频编码课题研究领域,各种算法不断的被发表,但基本上可以划分为两类方法:
1、利用图像灰度特征分割:不同的图像具有不同的灰度分布,利用小波变换,将图像变换到小波域,产生各层、各子带图像。小波变换后,大部分的能量是集中在低频子带图像上,即大面积的平均灰度区域信息主要在低频子带图像中体现。根据信息论的原理,确定多个灰度阈值,可以将具有不同灰度的VOP从低频子带图像中分离。同时再利用高频子带图像以及模糊数学模型,确定每一个VOP的边缘信息。利用图像灰度特征分割的小波变换,是沿扫描方向的单方向变换。
2、利用图像纹理特征分割:纹理是一种局部特征反复出现的结果,它体现了图像的局部频域信息。对于一幅数字图像,进行多方向的小波变换是可行的,比如对一帧画面进行垂直方向或对角线方向的小波变换。经过多种小波变换后可得到不同方向的各子带图像,它们各自蕴涵着不同纹理的局部频谱信息和纹理走向等信息。对具有相同频谱特征的图像局部进行聚类分析,并根据纹理频谱和纹理走向确定该聚类的纹理边缘。根据信息论原理和运动估测,将运动矢量具有相关性的聚类二次归类于不同的对象(即VOP),并影射成不同灰度显示。多级小波变换的结果最多可线性的影射成0~255灰度级显示。进行小波变换的方向越多,各方向的夹角越小,图像分割也就越准确,但计算量也随之迅速膨胀。根据局域纹理中心频率的变化自适应地选择小波变换的级数(几个方向的变换)和方向,有助于在图像分割的准确性和计算量之间达到平衡。正如本文前面所述,人眼捕获图像信息的本质?quot;轮廓-纹理",故基于多方向小波变换的提取图像特征、分割纹理图像的方法符合人眼视觉生理的特点,是纹理图像分析的重要发展方向。
无论是哪一种方法,当得到不同VOP的不同灰度表示之后,通过类似于键技术的多通道处理,即可得到多个原始的彩色VOP。目前实验表明,基于小波变换的图像分割在边界上仍有些模糊,但总体效果还是相当满意的,达到了分割纹理图像的目的。
VOP运动信息编码和运动补偿 人眼在观看图像时,会自动跟踪人所感兴趣的VOP。即人看的不是时间轴上的信息,而是VOP的运动轨迹---光流轴上的信息。光流轴是VOP上的一点在活动图像上的运动轨迹,它在不同的帧中位于不同的空间位置,其意义在于:VOP自身的各种变化都将映射于光流轴上的一点。光流轴信息的独立编码将带来诸多好处:(1)在编码时,对于刚性VOP,由于它在运动中不会发生形状和纹理上的变化,故该VOP只需要完成一次采样、编码,而后就只需发出几个运动矢量指明它的光流轴即可;对于非刚性VOP,只需在发生变化时才需要重新采样、编码,这就使得不同的VOP采用不同的VOP帧频成为可能,将编码的数据率最低限度的降低。(2)VOP在运动中的各种变化都将"留迹"于光流轴,当在进行运动补偿时,比如不同制式之间的转换或者慢动作的制作,就可以根据光流轴映射信息,采用内插法得出时间轴上某一确定点的VOP状态,达到无损转换的目的。(3)在时间轴上,简单的将一个图像序列的两路信号叠加,随即噪波和图像的活动部分都得不到增强;若在光流轴上进行信号叠加,活动图像的降噪问题就得到了简单解决。
VOP的运动估测是指:分析两个或更多帧上的VOP,确定光流轴,以判断下一帧中VOP可能出现的位置。VOP的运动补偿是指:根据VOP光流轴的取向和光流轴上VOP自身变化得映射信息,矫正VOP在时间轴上的运动矢量。运动预测和运动补偿技术可以去除图像信息中的时间冗余成分,VOP的运动信息编码可视为从像素向任意形状的VOP的延伸。
纹理编码 在已得到实际应用的MPEG-4中,VOP的纹理编码基本上仍采用基于8×8像素块的DCT方法,有3种模式:帧内编码模式(I-VOP)、帧间预测编码模式(P-VOP)和帧间双向预测编码模式(B-VOP)。编码时,对于完全位于VOP内的像素块,则采用经典的DCT方法;对于完全位于VOP之外的像素块则不进行编码;对于部分在VOP内,部分在VOP外的像素块则首先采用图像填充技术来获取VOP之外的像素值,之后再进行DCT编码。
依据视觉特性的纹理编码目前仍处于理论研究阶段,其目标是:建立常见纹理局部特征符号集,定义描述纹理分布、走向的多媒体语言。以人脸为例:人脸定义参数(FDP)描述了特定人脸纹理形状模型与通用人脸模型之间的差别,通过接收到的各种FDP,能把通用的人脸模型变换成由其形状和纹理确定的特定人脸。人脸动画参数(FAP)描述了特定的人脸表情与中性表情的变化关系,通过接收到的各种FAP能生成人脸的各种表情以及与声音同步的嘴唇活动等。这样的合成编码不仅可极大地提高编码效率(可获得1kbps的超低码率),而且为制作新的人脸等对象提供了方便。
分级编码 多媒体的应用场合具有不同的信道带宽、处理能力、显示能力及用户需求,要求在解码端支持时域、空间及质量的上伸缩性,即分级编码。分级编码可以通过视频对象层VOL(Video Object Layer)的数据结构来实现。每一种分级编码都至少有2层VOL,低层称为基本层,高层称为增强层。空间伸缩性可通过增强层强化基本层的空间分辨率来实现,因此在对增强层中的VOP进行解码之前,必须先对基本层中相应的VOP进行解码。同样对于时域伸缩性,可通过增强层来增加视频序列中某个VO(特别是运动的VO)的帧率,使其与其余区域相比更为平滑。
三、 新的技术标准--MPEG 4
首次采用VO编码技术的视频编码标准是由MPEG 4。MPEG 4于1999年年初正式成为国际标准(标准号为ISO/IEC 14496),在1999年12月的后继版本中增加了可变形、半透明视频对象及其工具的先进功能,它进一步提高了编码效率,并与第一版反向兼容。
1、MPEG 4标准的构成
1) DMIF(The Dellivery Multimedia Integration Framework):多媒体传送整体框架协议。MPEG-4标准将众多的多媒体应用集成于一个完整的框架内,旨在为多媒体通信及应用环境提供灵活的算法及工具,用于实现音视频数据的有效编码及更为灵活的存取。它解决了多领域中多媒体应用个性化交互操作的问题。
2) 解码器:定义了MPEG-4系统特殊的解码模式(SDM),要求特殊的缓冲区和实时模式。
3) 音频编码:支持自然声音和合成声音,支持音频的对象特征。
4) 视频编码:支持自然和合成的视觉对象,合成的视觉对象包括2D、3D动画和人面部表情动画等。
5) 场景描述BIFS(Binary Format for Scene description):关于一组VO的时空结构关系的参数信息,主要描述了各VO在一具体背景下的相互关系与同步等问题,以及VO及其背景的知识产权保护等问题。BIFS与VO对象特征信息的编码、传输是相对独立的。场景描述信息编码及其的独立传输是实现用户端编辑操作的关键:在解码之后和场景合成之前,用户可以通过对BIFS参数的重新设置来对VO 进行多种编辑操作,如增减、缩放、平移,甚至一些特技效果。
下面的表格反映了MPEG体系的部分技术指标。MPEG-4是高比率有损压缩(比如将一个9 GB的DVD视频压缩拷贝到只有700MB空间的CD-ROM上),其图像质量始终无法与MPEG-2相比。当MPEG-4与MPEG-2的码率输出相同时,其质量仍稍逊于MPEG-2。同时,MPEG 4对硬件的要求也较高。事实上,我们注意到MPEG-4在保证令人满意的图像质量的情况下,更注重较低的数据率和灵活的交互功能。
2、MPEG 4编码器
MPEG 4编码简化原理图如图一。
对于输入视频序列,通过分析确认n个视觉目的对象为编码对象,将其认定为n个VO(n=1,2,3…),对每一个VO编码后形成这个VO的VOP数据流。VOP的编码包括对运动(采用运动预测方法)及形状、纹理(采用变换编码方法)的编码。由于VOP具有任意形状,因此要求编码方案可以处理形状(Shape)和透明(Transparency)信息,这就是与只能处理矩形帧序列的现有视频编码标准的根本区别。在MPEG-4中,矩形帧被认为是VOP的一个特例,这时编码系统不用处理形状信息,退化为类似于MPEG-1、MPEG-2的传统编码系统,同时也实现了与现有标准的兼容。除去VO的其余图像部分--背景,仍采用传统的矩形DCT变换编码;VO场景描述信息(VO自身信息,如VO对象的知识产权、和VO间的位置、逻辑关系等)也要进行编码,最后和VOP流、背景一起送入MPEG 4帧复合器,生成MPEG 4流输出。
需指出的是:在VO分割后,每一个VO都需要一个VOP编码通道,在图一中只画出了一个。多个VOP帧发生器的输出在MPEG 4帧复合器中可实现灵活地多路复用编码或同步并行传输编码,以适应各种传输环境和要求。MPEG 4解码是以上编码过程的逆过程。可以看出,独立于背景的VO编码可以实现接收端的用户对VO对象进行选择性地操作。
3、MPEG 4视频编码功能与特点
MPEG 4标准的制定有两个目标:低比特率的多媒体通信和多工业的多媒体通信的综合。即MPEG-4遵循灵活的编码工具框架体系,设计了一个开放的编码系统,对于不同的应用采用不同的编码算法,以达到低比特率通信的目标。MPEG-4解码器是可编程的,相应的解码信息可与内容本身一起传输下载。与现有的MPEG-1和MPEG-2视频压缩相比,MPEG-4视频有一些重要的改进:
1)基于内容的交互功能: MPEG-4提供了全新的交互方式,根据制作者的具体自由度设计,在有限的时间内可实现对多媒体VO的时域随机存取(从不同的源获取内容或向不同的源发送内容)、快速搜索、改变场景的视角、改变场景中物体的位置、大小和形状,或对该对象进行置换甚至清除。
2)支持自然及合成信息的混合编码(NHC:Synthetic and Natural Hybrid Coding):MPEG-4支持合成信息的编码,可对合成的VO及其活动信息进行参数化描述。对于频繁出现的视觉对象则分别定义了它们的纹理形状和动画参数。
3)高效编码:包括视频VO数据的高效编码和多个并发数据的有效同步编码。
4)基于内容的伸缩性:是指分级编码后,纹理、图像和视频基于内容的伸缩性,视频序列中时域、空间及质量的伸缩性,表现为时域实时或非实时、数据率大小及重建的图像质量上。
5)可变的最终输出:不同的码率意味着支持不同的功能集。功能集的底层是VLBV核心(VLBV:Very Low Bit Rate Video),它为最低达5-64kbits/s视频操作与应用提供算法与工具,支持较低的空间分辨率(低于352×288像素)和较低的帧频(低于15Hz)。VLBV核心功能包括:矩形图像序列的有效编码、多媒体数据库的搜索和随机存取。MPEG-4的HBV(HBV: High Bit Rate Video,范围在64kbits/s-4Mbits/s之间)同样支持上述功能,但它同时还支持较高的空间与时间分辨率。其输入可以是ITU-R 601的标准信号,因此其典型应用为数字电视广播与交互式检索。
与MPEG-1和MPEG-2相比,MPEG-4的特点是其更适于交互式AV服务以及远程监控。MPEG-4是第一个允许用户端操作的的视频编码标准。MPEG 4的特点非常适合于互联网上的交互式影视服务:可适应各种应用终端的物理网络环境,可实现对视音频内容的交互操作,具有下载解码能力(在一定的硬件基础上,可下载解码工具,对不同编码方式的内容进行解码处理)。MPEG-4的设计目标还有更广的适应性和可扩展性:因特网多媒体应用、交互式视频游戏、实时可视通信、交互式存储媒体应用、广播电视、演播室技术及电视后期制作、多媒体内容存储和检索、采用面部动画技术的虚拟会议、多媒体邮件、移动通信条件下的多媒体应用、可视化合作实验室场景应用、远程视频监控、通过ATM网络等进行的远程数据库业务等等。
从矩形帧到VOP,MPEG-4顺应了现代图像压缩编码的发展潮流,即从基于DCT的传统编码向基于对象和内容的现代编码的转变。从这个意义上讲,MPEG-4视频编码技术翻开了图像编码史上崭新的一页。
四、 MPEG 4视频产品
在2001 NAB会展上,多家公司推出了他们的MPEG 4产品。Amnis公司推出了基于IP平台的MPEG4视频流技术,展示了可以重放MPEG1, MPEG2和MPEG4的桌面软件。Envivo 公司陈列了他们的应用于IP网络或MPEG2节目数据广播的MPEG4端到端解决方案。该方案是纯软件的,支持视频、音频和合成的2D动画的MPEG4方式编码,以及对MPEG 4文件的版权保护。Optibase公司推出的MGW系列是一个插件式的多通道流服务器系列,可插入不同的编码模块以适应不同的需求,其中MGW 4000是支持MPEG4(兼容MPEG1和MPEG2)的流服务器。Optibase还推出了支持多媒体和交互MPEG4流的IP实时编码、分配平台。最后,Optibase展示了从MPEG 1到MPEG 4的实时转码技术。Philips 提供了一个从制作到重放的、端到端的网上MPEG-4解决方案:包括互动内容编辑器(支持网上MPEG-4视频流的搜索、剪辑和编辑)、实时软件MPEG-4编码器(甚至支持简单视频和AAC音频的无线编码)、通用多点分配IP平台和解码软件(WebCine' player支持Win95,Win2000和NT操作系统;WinCE用于手提电脑;Trimedia是一个网上广播机顶盒)。SUN 公司也推出了他们的通用MPEG-4流服务器。
微软在它现在的WIN98和WIN2000操作系统中也已加入了一个MPEG-4的播放器,叫做Divx。它可以回放仍是以.AVI为后缀的MPEG 4文件。Divx可以附加到MPEG-4的数据流中,并可以进行设置以适应不同的使用要求。Divx视频编码技术是由 Microsoft MPEG4 V3 修改而来,使用MPEG 4压缩算法,打破了ASF的种种协定。但MPEG4毕竟是一种高比率有损压缩,其图象质量始终无法和 DVD 的 MPEG2 相比,即便是在MPEG4码率和DVD码率差不多时,总体效果还是有距离(在杂乱的细节上稍有模糊)。所以目前的MPEG4 只能面向于娱乐和欣赏方面的市场。
市场上的第一张DIVX-MPEG4格式的影碟《活火熔城》,长98分钟,采用512×288 16:9格式,帧频24帧/秒,64KB立体声音频。影片由720×480 16:9 30帧/秒的MPEG2制式转刻,刻在单张CD盘片上。
六、结 尾