首页 » 业界动态 » 图像压缩技术进展

图像压缩技术进展

作者:  时间:2009-05-18 15:54  来源:
一幅图像的数字表示需要很大的比特数。图像压缩的目的在于降低这个比特数到最小程度并且重现原始图像的忠实样本。图像压缩的早期研究是以讯息理论作为指导思想的,并得出许多种压缩方法。在二十年前图像压缩比从二十世纪六十年代初期第一个数字图片的压缩比为10:1。这并不意味着由讯源熵给定上限已达在。首先,这一熵值是未知的,主要取决于讯源模型,亦即数字图像的模型。其次,讯息论是不能具体说明人的眼睛是观察什么及如何观察的。
最近人视觉的脑机理的研究开拓了图像压缩技术的新纪元。视觉信道的神经元指向性灵敏度与围线和纹理的分别处理会引出一类新的压缩方法,这些方法使压缩比高达10:1,当然,这是图像质量有待研究的重要问题。这类方法是第二代压缩方法,也是本文侧重要讲的。利用局部算子以适当的方式和利用围线一纹理描述组合其输出使第二代方法分成两组。每一组又分两个方法。这种方法都应用于同一个原始图片,并比较重现后的图片以确定其质量优劣,在相应的努力下,可使压缩比达到100:1的最高值。
1、序言
每一图像获取系统(显像密度计和电视摄像机)由空间抽样和亮度模拟场景的量化产生图像数据。抽样间隔通常选择得足够小以避免内插及领先人视觉系统的积分能力。一幅数字图像是一个N×N维整数矩阵或N2个像素,每个像素的表示需B比特,则总共需要N2B比特的讯息量。这一矩阵通常称为数字图片的规范形式。因为这里规范形式的图片需要很大比特数,例如512×512个像矩阵,每像素8比特,则需要2×106比特,这是一个相当大的数字。
图像压缩的目标是尽可能大的降低表示和重建原始图像所必须的比特数。这里有两个基本的理由。首先,任何图像数据不足随机的,相邻样本具有相近的灰度值,因而体现出重要的相关性。如果这一相关性以适当的方式加以利用,不用担心N2B的比特数可以被降低。我们把根据这一图像压缩基本观点的方法称作第一代方法。
第二个理由是第一个理由的延伸,接下来考虑自然图像的规范形式,如一幅肖像,一个场景,场景中有树木和房子,或一幢建筑物等等,我们可能会问:我 们能否找到这一图像某种表示比它的规范形式更差吗(在不是有效的或经济的意义上)?也许,答案是否定的。笛斯卡特著名论断是,一幅图片抵得上一千个字,大约20比特就足以表示它。很遗憾,如香农(Shannon)没有告诉我们如何去做。图像讯息压缩不仅是可能的而且可以压缩几个量级。当在讯息论和编码理论的框架上达到压缩的极限,我们如何来做呢?图(1)给出我们的一些答案。我们可以离开这一理论框架。由于遍历性和平稳性的假设对图像数据而言通常是不适用的,图像数据源熵是未知的,而且很大地依赖于所用的图像模型。我们把能独得超过饱和压缩比的方法全部称为第二代压缩法,可以从图(2)的曲线中看出。
第一代与第二代图像压缩法之间的差别如下所述:一般图像压缩基本上分两步进行,第一步图像数据转换成消息序列,第二步把字赋于消息序列。第一代压缩方法侧重于编码,亦即第二步。第二代方法侧重于第一步并使用第二步获得的结果。
人的眼睛是几乎每一个图像处理系统,它也绝非是理想的。这样一来,若编码方案与人的视觉系统相匹配及企图仿效其功能,至少对于其已知部份,可以获得很高的压缩比。用这些意图设计的几个方法可使压缩比达到70:1,如图(2)所示。因此,在运用经典的编码理论获得高压缩比之前,用这种方法预处理图像的规范形式看起来是完全合理的。
对于预处理的指导需要什幺呢?一幅图像可以借助于几种可能的方式来描述,如规范形式下的像素、小方块中像素组、线性预测值或其导数。随着视觉模式识别和场景分析的不断进步,可以周围线和纹理来描述一幅图像。
围线或等值线称为图像中灰度值的突然变化。按照实变性,如强或弱等值线的加强可以被采用。从另一方面来看。在模式认别中纹理成为一个有意义的中心。显然大多数研究是对纯纹理图像而言的,纹理的明显定义不存在。这主要是因为 纹理图像而言的,纹理怕明显定义不存在。这主要是因为纹理与人的视觉感觉有关以及具有主观成份。最适当的定义依靠移位不变性并表明其中所含的小量的结构讯息。在编码含义上说,纹理是图像中围线除外的其余部份。高压缩比获得的一个可能方法是藉助于由围线所包围的纹理区域来表示,用这种表示方法把相应的区域看成是场景的目标。对围线的有效编码是存在的,原因是低的讯息成份,使纹理区域同样能有效地编码。
2、第一代图像压缩方法
一幅数字化图片可以由一消息序列来刻划。选择消息序列来刻划。选择消息序列存在着很多方式。唯一的要求是从消息序列重建出原始图片的忠实的复本。并且降低其剩余度(Re-dundancy)。选择消息及把码字赋于它们的特殊方法成为专门的压缩算法。例如,消息可以规范数字图片的每一个像素的亮度级,或一组像素的亮度级,或从一组像素计算的函数值。在这一节里,我们简述第一代图像压缩方式。
编码方式最初分成有讯息损失法和无讯息损失法两类。无讯息损失法可以精确地重建出原始图片,而有损失讯息法会引入失真,但能使它小到可允许的范围。第二种分类方法是基于图像是在空间域或变换域进行的,在空间域以适当方式组合像素值的方法称为空间域方法。相对而言,利用像素的变换系数的方法称为变换法。如果在空间域及变换域同时进行的压缩方法称为混合法。另一种分类方法是基于使压缩的参量是固定的或是自适应的意义而划分的,而适应法是让参量作为图像数据局部地变化而言的。
2.1——空间法
空间域图像压缩可以有六种形式,其中包括脉冲编码调制(Pulse-Code Modulation-PCM)、预测编码(Predi cative Code)、差分脉冲码调制(Differential Pulse-Code Mo-dulation-DPCM)、Delta调制(Delta Modulation)、内插编码(Interpolative Coding)及经特平面编码(Bit Plane Coding这六种方法。以下简述其主要特点:
(i)脉冲编码调制(PCM)。这种压缩方法可接受的图片质量是由每像素3比特量化植,压缩比C=2.6至C=1.0颤动法可以用来改进图像的质量,全然没有利用人的视觉特性。
(ii)预测编码(Predicative Coding)预测法通常不利用人的视觉系统的特性,对于8比特的规范形式运用两维预测所获得的压缩比约为4:1。若预测参量以适当方式与数据自适应,则预测法便为自适应的。例如,一局部性测量可以定义,则预测参量在每一显著的变化时可以被修正。用自适应修正,压缩比可以增加百分之十到二十左右。预测的特例是差分脉冲编码调制。
(iii)差分脉冲阶段编码调制(Differential Pulse-Code Modu-lation)脉冲编码调制(DPCM)可获得压缩比为2.5:1,自主适应DPCM可使压缩比高达3.5:1。
(iv)Delta调制(Delta Modulation),用这种方法所获得的压缩比虽然不高,但方法相当简单。
(v)内揷编码(Interpolated Coding)。最通用的内揷方法是零阶和一阶内揷器,它能获得大约4:1的压缩比。高阶多项式或样条函数也能使用,但是共计算复杂性不能证明其结果的有效性,再则是未利用人的视觉系统的性质。
(vi)比特平面编码(Bit Plane Coding)。用比特平面编码法在未涉及人的视觉系统特性时可以获得平均压缩比约为4:1。
2.2——变换法(Transform Methods)
变换法编码的基本思想是把一组数据(或像素变换成另一种数据,然后进行编码。)逆变换复原出原始图像。大多数通用的变换是用快速算法实现的,一般又是高效算法。主要的线性变换有卡享南——勒维(Karhunen Loéve)变换、傅里叶变换、哈德码(Hadamard)变换、哈尔变换(Haar)、正弦、余弦及斜变换等等。
(i)Karhunen-Liéve 变换——卡亨南——勒维变换。Kar-hunen-Loéve变换在得到不相关的变换系数的意义上而言是最佳线性变换。不过,由于其计算复杂性在实际上未被采用,它给出了去掉数据样本的相关性,计算上更有效的其它正交线性变换的上限。
(ii)快速变换。这里有许多线性变换可以用N10g2N次运算完成N2点变换系数的计算。最重要尽可能的是傅里叶变换(Hadamard)、哈尔变换(Haar)、正弦、余弦和斜变换等。这些变换和Karhunen-Loéve 变换一个重要区别是不取决于输入图像的统计特性。
(iii)编码方法。在变换编码中有好几种编码方法。首先,要确定变换的维数。一幅静止的图片既可用二维变换也可用一维变换。变换后的系数再逐行进行编码。下一个固定的参量是变换的点数。一个通用的方法是把N×N的图像矩阵分成若干个M×M的子图像,M还小于N,比如说M=32,N=512,并且单独地变换每一个子图像。这些变换的重要特性是把所有“重要的系数”填满了变换域中的特一区域。重要压缩可以得到有效期依赖于给定区城中的系数的数目,压缩比高达10:1。另一种途径是对变换系数的幅度设定一个门限值,并设低于门限值的系数为0。在得到较好质量译码图片的情况下,压缩比高达15:1左右。虽然有些证据表明人的视觉系统不是一个线性变换器,其基本的特性也许包括在变换编码的设计中。
为编码器的参量与被编码的子图片的统计特性相匹配的情况下使变换编码成为自适应编码。自适应可这以在变换级、比特分配级或量化电平级进行。自适应编码同非自适应编码比较会增加25至30%。
最后我们提一下混合编码方法。顾名思义,混合编码是变换编码和预测编码的组合。DPCM和变换编码法具有某些吸引人的特点和某些限制,这种方法经过获得压缩比约8:1。同时具有硬件简明性(DPCM)及稳健性(变换法)。
2.3——合成高系统(Synthetic High System):
 合成高系统的产生和发展经过了近三十年的历史,这一方法的重要性是它导致了第二代数据压缩技术的进展。在过去没有很好前进的直接原因是由于其计算量大而又使电脑存储量大,而在八十年代及未来由于其计算量大而又使电脑速度猛增及容易增大,使得这一方法的实现和普及得到令人满意的程度。它同现代一些方法相比,它能获得很高的压缩比。同时它为发展第二代图像编码压缩技术提供一条有益的,而且十分有效的新途径。国际上许多研究都是基本把一幅图片分解成低频成份和高频成份两部份,它是直接或间接地利用合成高系统分别对这部分进行编码压缩,然后进行综合,获得过且过原始图像的很高系统的压缩性能。合成高系统用的消息序列以下述方式来选择。原始图片分成两部份:低通图片没有很锐的围线而给出一般的面积亮度,高通图片含有很锐的边缘讯息,根据两维抽样定理,根据低通图片可由很少的样本表示。这些样本是说明规范形式的低通讯息的样本。边缘检测既可用梯度算子或拉普拉斯算子来实现。非线性运算——取门限是对高通图片执行的,以确定是否边缘点是重要的。于是,这一方法是成为无损讯息的。最后,每一个选择的边缘点的位置和幅值被编码。这些变量是说明高通图片的消息。两维重建滤波,其特性唯一地用于低通图片的低能滤波来确定,同时用于综合从边缘讯息来的高频分量。这一系统的方块图如图(3)所示。合成高系统精巧地利用了视觉系统的特性。利用横向禁止现象在早期处理级考虑视觉系统的性能。因而,它允许降低较大的剩余度。在合成高系统中,门限的正确利用是十分重要的。这样可以 获得很高的压缩比及时性良好的图像质量。若门限选得太低,虽然图像质量很好,但压缩还是太低,虽然图像质量很好,但压缩比很小。从另一方面来看,若门限选择得太高,图像质量差,但压缩比很大。在压缩比和图像质量之间的折衷方法目前还没有,可以运用经验方法来获得很好的结果。指向性分解法是合成高系统的加细,在那里提取边缘和对边缘编码可以运用指向性滤波器。
3、第二代图像编码压缩方法
3.1——人视觉系统概述
第二代图像编码压缩方法主要是利用视觉的机理,人类的视觉系统是人的神经系统的一部份。人的神经系统毫无疑问是最复杂的通讯网络,它是由最强大的“电脑”管理,这一“电脑”为人脑。这一网络中的通讯是通过神经细胞一神经元来实现的。一个神经元具有5至100微米大小范围的细胞。主纤维称为轴突,而纤维支路数称为树状突,并附于这一神经细胞上。从一个神经元到另一个神经元的讯息传递是由电化学方式进行的。两个神经元之间连接称为神经键。发射和接收神经元分别为前后神经键。在前神经元产生的讯息通过轴突就像电极中的电讯号。轴突的终端支路这一讯号传送到后神经键神经元的树状突。在这一传输过程中,在后神经元的轴突端产生化学变化。接着下去,这些化学变化又产生电讯号于后神经元上。一个神经元可以接收来自数千个前神经元的讯号并能传送它到数千个前神经键之上,一个始定的神经元可以对付二万个神经键。这就表明了一个神经元可以同一个集成电路比较。一个神经元的作用有两种类型:兴奋的或抑制的状态。第一种作用在后神经元产生脉冲。而后一种作用是抑制兴奋的脉冲。这一基本特性的许多不同现象的起因,比如,马赫带,视频响应的带通特性,眼睛的边缘和线检测原理,而且能够给出现所谓边缘检测算子的有力证据。神经系统是一个大到1012个神经元通过联系、并联和反馈构成的复杂的大系统。组织的图解如图(4)所示。
这一系统的成功应用范例是由Aleksandr研制的WISARD系统。这一复杂的神经系统的分析虽然不是不可能的,但也是相当困难的问题,这里有许多特征可以使得研究工作简化。这也使得可以在从细胞到细胞的基础上进行研究。第一个特点是在神经系统中只有两个讯号,一个远距离讯号,一是远距离讯号,另一个是短距离讯号。第二特点是这些讯号在所有神经元内几乎是相同的,而与它们所携带的视觉、触角和听觉等等的讯息无关。进而,它们的形状不会从一种到另一种而变化。从一双猫记绿的讯号和从人记录的讯号十分相近。由脑接收和处理的讯号因而为表示外部事件的符号。神经系统可以用神经生理学家的三种工具来分析:显微镜、选择性的染色及微电极来分析。在给定神经元记录的讯号是脉冲系列。每一种脉冲的幅度约为100毫伏,持续期间为1毫秒。重复频率与激励的强度成正比。神经系统通过频率限制进行通讯。使脑能辩别两种相同讯号的事情是每一讯号所用的信道。神经总体与每一种刺激相对应,从数学的观点来看,人体的不同部份和大脑之间形成一一对应的映照关系。
人们的眼睛是视觉讯号传感器。眼睛使视觉讯号聚焦而在视网膜上形成图像。后者分析图像讯息并把消息通过光学神经和头部的光信道传递到大脑。很粗略地说,眼睛可以看成一照相机。光通过角膜和眼球中的晶状体径朣孔进入内眼。允许进入的光通量由朣孔调节成为第一模隔膜。晶状体使光聚集在视网膜的光接收细胞上。眼的容积大于6.5立方厘米,其直径约为24厘米,其重为7克。眼睛的晶状体是不完善的,即使是对于视觉毫无弱点的人而言,情况仍是如此。这一不完善性是球面相差的来源,它表现为聚焦平面中的模糊。这一模糊可以看作两维低通滤波器。朣孔的直径可以在2到9毫米之间变化。这一孔径也可作为一个低通滤波器,最高的截止频率相应于2毫米。朣孔的直径连续拉长能降低截止频率。

相关推荐

图像压缩技术进展

图像获取  图像压缩  WISARD  2009-05-18

TI IP网络摄像机解决方案

一种基于小波变换的新型压缩编码模型

JPEG2000熵编码模块的FPGA实现

ADV611芯片在视频图像压缩/解压缩中的应用

基于TMS320C5409的图像压缩系统

在线研讨会
焦点