专利名称:一种基于整形小波变换的音频无损压缩编码、解码方法
技术领域:
本发明属于信源编、解码领域,具体涉及一种音频无损压缩编码、解码方法。
背景技术:
随着数字时代的到来,音频信号的数字化给人们带来诸多方便的同时生成了海量 的音频数据,这给音频信号的存储和传输带来了很大的挑战,成为了阻碍人们获得和使用 多媒体信息的瓶颈问题之一。为了解决这个问题,就必须对音频数据进行压缩,以压缩编码 的方式对数据进行存储和传输。事实证明,对多媒体的数据进行压缩是必要和可行的,因为 声音和图像等多媒体数据信息中有较强的冗余信息,即数据之间有较强的相关性,可通过 去掉冗余信息(即去除数据间的相关性)、保留有用的音频信息来实现压缩。因此,研究和 开发高效的音频编码方法,以压缩的形式存储和传输音频信息是必然的选择。而且随着人 们对音频质量要求的提高,如何在保留全部音频信息的条件下,以尽可能大的压缩比压缩 音频数据,从而给人们提供真正透明的音质,成为当前音频压缩编码所面临的主要课题。早在20世纪70年代,英国、日本等广播部门就开始研究数字音频有损压缩编码, 目前的有损音频压缩编码标准经过四十年的发展,出现了很多优秀的编码标准,其中有代 表性的有MP3、AAC、WMA等,这些编码格式在很多情况下都可以达到较好的主观音质和很高 的压缩比,但是当它们遇到频率动态范围较大的音乐,例如大型交响乐等,这些有损音频编 码后的音质表现就显得差强人意。另外在音频编辑领域中,对有损压缩编码的音频数据做 二次编码(即两种有损编码格式之间的转换)会丢失更多的信息,从而引入更大的失真。为 了解决上述的问题,满足一些对音质要求比较高的需要,就必然要使用无损压缩编码。目前针对音频信号进行无损压缩编码的研究与应用相比较有损压缩编码而言却 并不多见。无损压缩未能得到足够关注的原因是其压缩比很难超过3 1,而有损算法压缩 比能达到12 1甚至更高。但是对有损压缩算法来说,压缩比越高,最终获得的音频质量 越差,一旦确定最低可能的数据率,有损压缩算法是唯一选择。然而,音乐爱好者想从网上 下载高保真立体声音频信号以便获得最佳的音乐效果,因此,网上音乐推广将提供更高压 缩比的音频信号,以便于不同消费者浏览和选择,而酷爱CD级音频质量的音乐爱好者希望 获得原始音频信号的无损压缩拷贝——该备份不因压缩算法的差异而有任何信号损失。除 了可供网上音频信号下载外,无损音频压缩编码还可应用于专业环境下高保真音频数据的 归档、混音、演播室、节目制作等。在这种情况下,无损压缩避免了使用有损压缩编码情况下 因多次编辑而引起的信号损失。从信息论观点来看,音频信号作为一个信源,描述信源的数据是信息量(信息熵) 和信息冗余量之和。几乎所有的无损音频压缩都基于相似的思想,首先从信号中去除冗 余,去除的只是数据中的冗余量,而没有减少信源中的信息量。然后用有效的数据编码方 案进行编码。音频信号中的存在着多种冗余,主要有信号幅度分布的非均勻性,相邻样值之 间的相关性,周期之间的相关性等。所以无损压缩编码算法的主要思想就是如何有效的去 处音频信号中的冗余。目前比较知名的音频无损编码算法的格式有FLAC(Free Lossless
3Audio Codec)、WavPack、TAK (Tom ' s Audio Kompre s sor)、APE (Monkey ' s Audio)、 OFR(OptimFROG) > ALAC (Apple Lossless Audio Codec) > WMAL (Windows Media Audio Lossless)、Shorten、LA (LosslessAudio)、TTA (Ture Audio)、LPAC (Lossless Predictive Audio Coder)、RAL (RealAudioLossless)、MPEG-ALS等。这些算法主要利用两种方法来进 行去相关从而进一步进行无损压缩编码一种是基于时域线性预测编码(LPC)的技术,另 一种是基于变换域的技术例如 IntMDCTdnteger Modified Discrete Cosnie Transform, 整数改进型离散余弦变换)。无损压缩的目标是除去数据中的冗余(redundancy),完美重 构原始音频信号。线性预测编码可以进一步减少冗余,对于那些具有平稳特性的信号特别 有效。一般来讲,平稳的声音信号信息冗余较大,而一个不协调(类似噪音)的信号信息冗 余较小。一个特定取样值的大小与其邻近的取样值有关,一般而言,当前取样值与其上一个 取样值较为接近。对低频信号,更是如此。目前对于主流的线性预测编码方法主要思想都是体现在去相关部分,使得交给熵 编码模块的数据更适合利用熵编码的方法压缩,使得熵编码能够对于待编码的数据有更加 出色的压缩性能。线性预测编码器的基本原理是利用声音信号的相关性,用过去的样值 x[n-l],x[n-2]...来预测当前的样值χ [η],利用过去的样值越多则预测精度越高。再把当 前的样值与预测值相减取其差(预测误差)进行编码。由于预测误差的动态范围要远小于 原始信号的动态范围,这时即使仍采用原信号量化时采用的量化级,也可降低码位进行编 码,进而实现比特率压缩。例如幅度起伏平缓的声音,预测误差会在零和很小值之间变化, e[n]的均值将比x[n]小很多,并且预测误差e [η]相邻样值之间基本上是不相关的,有平坦 的频谱。所以,只需较少的数据位就可以表示其实际值。而常用的熵编码为RICE码,其编 解码过程简单,而且编码时不需要知道信号的先验分布,所以在音频无损压缩中应用广泛。 经过RICE编码后,能够获得较大压缩率的数据一般具有以下特点一是幅值较小,因为编 码最后都需要量化的过程,而较小的幅值意味着可以用较少的比特数来表示;二是数据间 相关性小,三是数据分布尽量接近几何分布。使用线性预测编码进行去相关时没有对原始 音频信号的冗余去除干净,即去相关不彻底.。即输入到熵编码模块的预测误差数据还带有 冗余信息,误差信号的相邻样值之间还存在一定的相关性,可以进一步处理。
发明内容
本发明的目的是提供一种音频无损压缩编码、解码方法,该方法基于相关系数的 分帧策略根据信号前后帧的相关情况自适应对信号进行分帧,使得一帧内的信号具有很强 相关性,分帧后的一帧信号是信号特性相近的信号组合,使得编码器能获得到更好的压缩 效率,为后面的整型小波变换和线性预测编码带来好处。为了使得残差幅值尽可能小,要求 线性预测尽可能准确,而线性预测编码对于相关性强的信号具有很好的预测能力,所以考 虑利用小波变换来对信号进行分带处理,因为窄带内的信号相关性会好于全频带的信号的 相关性,因此信号经过小波变换后更有利于去除样值点的相关性;对于无损压缩编码来说, 应该对于信号可以完全的重构,所以要采用整型提升小波变换来保证信号的完全可重构特 性。我们在引入了基于相关的自适应分帧模块和基于整型提升小波的去相关模块后,原始 信号中的冗余信息可以被更好的去相关,生成的压缩数据中所含有的冗余信息更少,所以 我们可以用很小的计算复杂度代价换来了较大的压缩比提高。
本发明包括基于相关的自适应分帧技术,基于提升的整型小波变换的去相关技术 以及编、解码中涉及到的其他相关技术。它能够提供比单独使用线性预测技术去相关的音 频无损编码、解码系统提供更高的压缩比。根据本发明方法的音频无损编解码器系统可以分为编码器子系统和解码器子系 统两部分编码器子系统包括分帧模块用于对输入的音频信号进行自适应的分帧;整型小波变换模块用于对分帧后的一段音频信号进行分带处理;线性预测编码模块用于对每一个子带内的信号进行线性预测去除相邻样点之间 的相关性;熵编码模块用于对线性预测编码模块输出的残差信号进行无损的信源编码比特流形成模块用于把上述模块中形成的熵编码流、帧长信息、小波分级信息、 LPC参数、码本信息按一定的格式形成比特流并写成文件;解码器子系统包括比特流分离模块用于把压缩后的音频文件中的比特流按照规定格式进行分离, 分别生成熵编码流、帧长信息、小波分级信息、LPC参数、码本信息等不同的数据;熵解码模块用于把熵编码流通过解码重新完整的生成残差信号LPC重构模块用于把边信息中的LPC参数和残差信号重构成小波变换后的分带信号。整型提升小波重构模块用于把小波分解后的分带信号重新合成为一个完整的音 频信号帧。合并帧模块把重构后的每一帧音频信号合并成一个音频的PCM文件,并写入 WAVE文件的文件头,生成解压后的WAVE文件。根据本发明的音频信号无损编/解码方法的具体实现如下音频信号的无损编码流程是音频文件先按照分帧策略分成若干帧,分帧信息(即 帧长信息)纳入边信息传输;每帧单独处理,即先通过小波变换得到近似信号和细节信号, 小波分解级数(即小波分级信息)按自适应规则获得,分解级数同样纳入边信息;近似信 号和细节信号通过线性预测模块得到残差信号和LPC参数,在线性预测模块中得到的残差 信号经过熵编码得到熵编码流,LPC参数和熵编码的码本信息纳入边信息,最后将各路码流 (即边信息和熵编码流)复用形成最终的压缩码流。音频信号的无损解码流程实际上就是编码流程的逆过程,通过先解码出边信息, 从边信息中分离出熵编码的码本、LPC参数、分级信息和帧长信息,熵编码模块根据码本信 息进行熵解码,从熵编码流中解得LPC预测后残差信号,LPC重构模块利用LPC参数从残差 信号中解得小波分解的近似信号和细节信号,整型提升小波重构模块再根据小波分级信息 对近似信号和细节信号进行重构,得到每帧信号,最后根据分帧信息将各帧顺次连接起来, 无损的得到原始音频文件。根据本发明方法的音频无损编/解码器系统其中包括编码器子系统和解码器子 系统两部分。整个系统中采用的主要关键技术有基于相关的自适应分帧技术、整型提升小 波变换技术、自适应的线性预测编码技术、针对几何分布的数据的莱斯码熵编码技术。下面将分别介绍各个技术内容1、基于相关的自适应分帧技术帧一词来自图像,其意是将一个连续活动图像划为一幅幅画面,连环画就是一个 很好例子。在数字音频中借用“帧”,其意是模拟信号变换为数字信号,将其数字信号分成许 多的小片段,称这小片段为1帧。由于音频信号中存在相当多的突变信号,如果采用固定帧 长进行分帧,得到的各帧内的信号间的相关性会受到较大影响,进而使得压缩率降低。本发明根据相邻帧的相关系数,将相关性大的信号合并到一帧内,这样,小波变换 和线性预测的紧致性都会提高,可以得到较高的压缩效率。首先以最小帧长为单位,计算 当前帧与前一帧的相关系数,如果此系数小于阈值,则标记该帧与前一帧为不相关帧,单独 成一帧,如果此系数大于阈值,则认为当前帧与前一帧相关帧,将相邻的相关帧依次合并, 但最大帧长不超过设定的最大帧长允许值,当合并帧的长度超过设定的最大帧长时重起一 帧。采取以上的分帧策略,可以使特性一致的信号能够在一帧内进行处理。2、整型小波变换技术整型小波变换是将整数映射到整数的小波变换,即输入信号为整数,变换后的小 波系数也为整数,且原信号可以由逆变换精确的恢复。传统小波变换以后产生的系数是浮 点数,不仅计算量非常大,而且无法实现数据的无损压缩。采用提升方案计算小波变换,在 提升过程中加入量化运算就能实现由整数到整数的小波变换。整型小波变换在图像压缩领 域有很多的应用,可以实现从有损到无损的低复杂度嵌入式编码,然而在音频信号的无损 压缩还没有很好的应用。传统的变换方法,无论是快速傅里叶变换还是小波变换,输入信号为整数,得到的 变换后的系数是浮点数,计算机在处理时存在舍入误差,不能实现数据的无损压缩。考虑在 提升步骤中加入量化运算,如果输入向量X为整数,则输出y也为整数,并且由y可精确地 恢复出X,需要注意的是,此处量化的作用不同于数据压缩中的量化,该量化并不带来信息 损失,而只是为了得到整数输出。由于包含了量化运算,因此整型小波变换是一种非线性变 换,这使得对整型小波变换的分析变得较为复杂。在实际应用中,适当地选取量化运算的形 式,可将整型小波变换近似的看作线性变换,以简化分析。用多分辨率分析或者是带通滤波器的观点来看,小波分解并不限于上述的一级分 解,还可以对一级分解之后的近似信号继续做小波分解,进一步去除其相关性,但由于不同 信号在频率上分布不同,采用不同的分解级数对压缩的结果会有影响,本发明的方法根据 信号分解后的压缩效果,自适应的选择级数,使压缩结果达到最佳,并将最佳的分解级数信 息记录到边信息中。3、自适应的线性预测编码技术无损音频编码器预测精度越高,编码效率则越高。大多数算法通过一些改进的线 性预测器去除冗余,这些算法将线性预测器应用于每一帧数据,产生预测误差序列。预测器 的参数,代表着从信号中移去的冗余,无损编码预测器的参数和预测误差一起代表每一帧 信号。线性预测器的基本原理是利用声音信号的相关性,用过去的样值x[n-l]、
x[n-2].......等来预测当前的样值x[n],利用过去的样值越多则预测精度越高。再把当
前的样值与预测值相减取其之差(预测误差)进行编码。由于预测误差的动态范围要远小
6于原始信号的动态范围,这时即使仍采用原信号量化时采用的量化级,也可降低码位进行 编码,进而实现比特率压缩。这种方法对于那些具有平稳特性的声音信号特别有效。例如 幅度起伏平缓的声音,预测误差会在零至很小值之间变化。如预测器运行良好,预测误差 e[n]是不相关的,有平坦的频谱。同样,e[n]的均值将比x[n]小,只要较少的数据位就可 以表示其实际值。线性预测器被广泛地应用于语音和音频信号处理,大多数情况下,使用FIR滤波 器,预测滤波器A(Z)的系数决定于均方预测误差的最小化。若不考虑量化器,FIR预测系 数可通过求解一组线性方程式获得。若在无损音频压缩中使用FIR滤波器,则系数可通过 确定的步骤求得然后进行量化,在解码端中利用同样的系数由e [η]重建χ[η]。由于必须完 全无损的重构原始信号,所以,预测系数(即LPC参数)必须进行量化并编码,以作为无损 音频编码的一部分。通常,为了使预测器适应信号的变化,分帧后的每一帧须确定一组新的 预测系数。4、针对几何分布的数据的莱斯码熵编码技术数据压缩技术的理论基础就是信息论。信息论中的信源编码理论解决的主要问 题(1)数据压缩的理论极限(2)数据压缩的基本途径。根据信息论的原理,可以找到最 佳数据压缩编码的方法,数据压缩的理论极限是信息熵。信息熵为信源的平均信息量(不 确定性的度量)。如果要求编码过程中不丢失信息量,即要求保存信息熵,这种信息保持编 码叫熵编码,熵编码(entropy encoding)是一类利用数据的统计信息进行压缩的无语义 数据流的无损编码它是根据消息出现概率的分布特性而进行的,在这个过程中,可以移去 误差信号中的冗余。而没有信息丢失。经常使用的熵编码方式有行程编码(RLE)、香农 (Shannon)编码、哈夫曼(Huffman)编码和算术编码(arithmetic coding)。熵编码是一种 无损的信源编码,熵编码的作用是移去预测误差信号中的冗余信息,在这个过程中,没有数 据信息的丢失。由于残差信号的信源服从几何分布,所以采用Rice编码来对残差信号进行 编码。Rice编码是一个信源为Laplace分布的哈夫曼编码,只有一个参数k,事实上,声 道内去相关操作中的预测误差信号都近似于Laplace概率密度分布。Rice编码由三部分组 成①符号位,②k位低阶码;③保留的高阶位。码字的第一部分表示e[n]的符号;第二部 分包含|e[n] I的二进制码的低k个有效位,第三部分由N个连零构成,这里N是|e[n] |剩 余有效位的二进制代表值,N个连零后插入1作为分隔符。假定对整数η进行Rice,则编码步骤为(1)符号位(1代表正,0代表负)(2)n/(2k)个连零(3)分隔位 1(4) η的后k位有效位我们做了两组实验来比较本文所描述的无损压缩编码算法与MPEG ALS(RM22)以 及FLAC两种无损编码格式进行了比较。第一组实验我们选择了十三种不同的音乐风格来进行无损音频压缩,已证明该编 码器对于不同音质的音频信号都可以取得较好的压缩性能。不同风格的音频文件压缩结果比较
权利要求
一种基于整形小波变换的音频无损压缩编码方法,其步骤为1)分帧模块对输入的音频信号进行分帧处理,将分帧信息纳入边信息;2)整型小波变换模块对分帧后的每一帧进行小波变换得到近似信号、细节信号和分级信息,并将分级信息纳入边信息;3)线性预测编码模块对近似信号和细节信号进行线性预测,得到残差信号和LPC参数,并将LPC参数纳入边信息;4)熵编码模块对残差信号进行熵编码得到熵编码流,同时将熵编码的码本信息纳入边信息;5)比特流形成模块将边信息和熵编码流复用形成最终的压缩码流。
2.如权利要求1所述的方法,其特征在于所述整型小波变换模块为整型提升小波变换 模块。
3.如权利要求2所述的方法,其特征在于所述整型提升小波变换模块为四次提升变换 的整型小波变换模块。
4.如权利要求1或2所述的方法,其特征在于采用自适应级数选择方法确定所述分级fn息ο
5.如权利要求ι所述的方法,其特征在于所述分帧模块根据相邻帧的相关系数,将相 关性大的信号合并到一帧内,进行分帧处理。
6.如权利要求5所述的方法,其特征在于所述分帧模块首先以最小帧长为单位,计算 当前帧与前一帧的相关系数;如果此系数小于设定阈值,则将当前帧单独分为一帧;否则 将当前帧与前一帧标记为相关帧,然后将相邻的相关帧依次合并构成一帧。
7.如权利要求6所述的方法,其特征在于设定一最大帧长阈值,当合并帧的帧长达到 设定的最大帧长阈值时重起一帧进行分帧。
8.如权利要求1所述的方法,其特征在于所述熵编码模块采用莱斯码编码方法对残差 信号进行熵编码。
9.一种基于整形小波变换的音频无损压缩解码方法,其步骤为1)比特流分离模块从压缩码流中解码出边信息,并从边信息中分离出熵编码的码本、 LPC参数、分级信息和分帧信息;2)熵解码模块根据熵编码的码本信息对压缩码流进行熵解码,得到残差信号;3)LPC重构模块利用LPC参数从残差信号中解得小波分解的近似信号和细节信号;4)整型小波重构模块根据分级信息对近似信号和细节信号进行重构,得到每帧信号;5)合并帧模块根据分帧信息将各帧顺次连接起来,得到原始音频信号。
10.如权利要求9所述的方法,其特征在于所述整型小波重构模块为整型提升小波重 构模块。
全文摘要
本发明公开了一种音频无损压缩编码、解码方法,属于信源编、解码领域。本方法根据信号前后帧的相关情况自适应对信号进行分帧,分帧后的一帧信号是信号特性相近的信号组合,使得编码器能获得到更好的压缩效率,为后面的整型小波变换和线性预测编码带来好处。对于无损压缩编码来说,应该对于信号可以完全的重构,所以采用整型提升小波变换来保证信号的完全可重构特性。与现有技术相比,本发明在引入了基于相关的自适应分帧模块和基于整型提升小波的去相关模块后,原始信号中的冗余信息可以被更好的去相关,生成的压缩数据中所含有的冗余信息更少,所以本发明可以用很小的计算复杂度代价换来了较大的压缩比提高。
文档编号G10L19/04GK101944362SQ20101028103
公开日2011年1月12日 申请日期2010年9月14日 优先权日2010年9月14日
发明者何文欣, 吴玺宏, 张搏, 曲天书, 迟惠生, 高懿 申请人:北京大学
一种基于整形小波变换的音频无损压缩编码、解码方法
相关推荐
专利名称:一种电子弦乐器的制作方法技术领域:本实用新型涉及一种乐器,更具体地说涉及一种电子弦乐器。目前,制造一件音色好的木制弦乐器,要受多种条件制约,尤其是对材质的选定要求甚高。选材时事先要将大量材质进行干燥仓储处理,然后从中选出少数适用的
专利名称:图像形成装置以及图像形成装置的初始化方法技术领域:本发明的实施方式涉及一种图像形成装置以及图像形成装置的初始处理方法。 背景技术:使用了电子照相方式的图像形成装置执行初始处理(初始化处理)。初始处理是指为了使图像浓度适当而维持画质
专利名称:用于紫外线曝光装置的真空吸附器的制作方法技术领域:本发明涉及一种用于紫外线曝光装置的真空吸附器。更具体地说,涉及一种提高用于在印刷电路板上形成电路图形的曝光装置的曝光速度,并且为了减少曝光工序中的故障而用于上述曝光装置的真空吸附器
专利名称:光纤连接器、电缆组件及其制造方法技术领域:本发明大体涉及光纤连接器、电缆组件及其制造方法。具体地说,本发明涉及光纤连接器、电缆组件,以及将光纤电缆连接到连接器上的方法。背景技术:光纤通讯网络广泛用于传递声音、视频、数据等信号。如本
专利名称:旋转活塞调制式声波发生器的制作方法技术领域:本实用新型为气—声转换装置,属声波应用领域。是适用于锅炉清灰除渣和化工环保行业的一种声波发生器。在现有技术中,人们采用声波清灰设备的声波发生器调制活塞(转筒)尽管较大,但流速和出流量较低
一种直升机桨叶反相位消声装置制造方法【专利摘要】本实用新型公开了一种直升机桨叶反相位消声装置,包括直升机本体,其特征在于:所述直升机本体内设置有若干噪音采样传感器,并且在直升机本体内设置有源噪音频谱相位处理器;所述直升机本体内设置有若干反相