专利名称:基于峰值检测的选择性缩放掩码计算的制作方法
技术领域:
本发明总体上涉及通信系统,并且更具体地涉及在这样的通信系统中代码化语音和音频信号。
背景技术:
数字语音和音频信号的压缩是公知的。通常需要压缩以有效地在通信信道上发射信号,或在诸如固态存储设备或计算机硬盘的数字媒体设备上存储压缩的信号。虽然存在许多压缩(或“代码化”)技术,但是已经保持对于数字语音代码化非常流行的一种方法被称为代码激励线性预测(CELP),它是“合成式分析”代码化算法的家族中的一个。合成式分析通常指的是下述代码化处理通过该代码化处理,数字模型的多个参数用于合成与输入信号作比较并且分析失真的候选信号集合。然后,发射或存储获得最低失真的参数集合,并且该获得最低失真的参数集合最终用于重构原始输入信号的估计。CELP是一种使用一个或多个码本的特定的合成式分析方法,所述一个或多个码本的每一个必要地包括响应于码本索弓I而从码本检索到的代码向量集合。在现代CELP代码化器中,对于以合理地低的数据率来维持高质量语音和音频再现存在问题。这对于没有很好地适合于CELP语音模型的音乐或其他通用音频信号而言尤其如此。在该情况下,模型失配可能引起采用这样的方法的装置的最终用户不能接受的严重变差的音频质量。因此,仍然需要改善低比特率的CELP性语音代码化器的性能,特别是对于音乐和其他非语音类型的输入而言。
在附图中,在各个视图中,相似的附图标记指的是相同或在功能上类似的元件,附图与下面的详细描述一起被合并在说明书中并且形成说明书的一部分,并且用于进一步说明包括所要求保护的发明的思想的各个实施例,并且用于解释那些实施例的各种原理和优
点ο图1是现有技术的嵌入语音/音频压缩系统的框图,
图2是图1的增强层编码器的更详细的示例。图3是图1的增强层编码器的更详细的示例。图4是增强层编码器和解码器的框图。图5是多层嵌入式代码化系统的框图。图6是层4编码器和解码器的框图。图7是示出图4和图6的编码器的操作的流程图。图8是现有技术的嵌入语音/音频压缩系统的框图。图9是图8的增强层编码器的更详细的示例。图10是根据各个实施例的增强层编码器和解码器的框图。图11是根据各个实施例的增强层编码器和解码器的框图。图12是根据各个实施例的多信道音频信号编码的流程图。图13是根据各个实施例的多信道音频信号编码的流程图。图14是根据各个实施例的多信道音频信号的解码的流程图。图15是根据各个实施例的基于掩码生成的峰值检测的频率曲线。图16是根据各个实施例的使用峰值掩码生成的核心层缩放的频率曲线。图17-19是图示根据各个实施例的、用于基于峰值检测使用掩码生成来编码和解码的方法的流程图。本领域技术人员将理解,出于简单和清楚的目的而图示附图中的元素,并且这些元素不一定按比例绘制。例如,在附图中的元素中的一些元素的尺寸可能相对于其他元素被夸大,以有助于改善对各个实施例的理解。另外,说明书和附图不一定要求所说明的顺序。将进一步理解,可以以特定的发生顺序来描述或说明特定的动作和/或步骤,同时本领域的技术人员将明白,实际上不要求相对于顺序而言的这样的特殊性。在附图中已经根据情况通过常规符号表示了装置和方法组件,仅示出了与理解各个实施例相关的那些具体细节,以便不因为对于受益于在此说明的本领域内的普通技术人员将容易显而易见的细节而混淆本公开。因此,将理解,为了说明的简单和清楚,可能不描述在商业上可行的实施例中有用或必需的常见和公知的元素,以便促进对这些各个实施例的较少妨碍的观点。
具体实施例方式为了解决上述需要,在此描述了一种用于在音频代码化系统内生成增强层的方法和装置。在操作期间,要代码化的输入信号被接收和代码化,以产生代码化的音频信号。然后,使用多个增益值来缩放代码化的音频信号,以产生多个缩放的代码化音频信号,每一个缩放的代码化音频信号具有相关联的增益值,并且确定在输入信号和多个缩放的代码化音频信号的每一个之间存在多个误差值。然后,选择与缩放的代码化音频信号相关联的增益值,使得在输入信号和缩放的代码化音频信号之间存在较低的误差值。最后,将该低误差值与增益值一起作为增强层的一部分发射到代码化音频信号。在图1中示出了现有技术的嵌入语音/音频压缩系统。输入音频s (η)首先被核心层编码器120处理,对于这些目的而言,核心层编码器120可以是CELP型语音代码化算法。编码的比特流被发射到信道125,并且被输入到本地核心层解码器115,在此,生成了重构的核心音频信号s。(η)。然后,增强层编码器120用于基于信号s(n)和s。(n)的某个比较
5来代码化附加信息,并且可以可选地使用来自核心层解码器115的参数。如在核心层解码器115中那样,核心层解码器130将核心层比特流参数转换为核心层音频信号。然后, 增强层解码器135使用来自信道125的增强层比特流和信号&( )来产生增强的音频输出信号彻)。这样的嵌入式代码化系统的主要优点是特定的信道125可能不能持续地支持与高质量音频代码化算法相关联的带宽要求。然而,嵌入式代码化器允许当增强层比特流被丢失或损坏时从信道125接收部分比特流(例如,仅核心层比特流),以例如仅产生核心输出音频。然而,在嵌入式与非嵌入式代码化器之间并且也在不同的嵌入式代码化优化目的之间在质量上有折衷。也就是,较高质量的增强层代码化可以有助于实现在核心层和增强层之间的较好的平衡,并且也降低整体数据率以获得较好的传输特性(例如,减少的拥塞),这可能导致增强层的较低的分组误差率。在图2中给出了现有技术增强层编码器120的更详细的示例。在此,误差信号生成器210由加权差信号组成,该加权差信号被变换到MDCT (修改的离散余弦变换)域中以用于由误差信号编码器220进行处理。误差信号E被给出为E = MDCT {W (S-Sc)} (1)其中,W是基于来自核心层解码器115的LP(线性预测)滤波系数A(Z)的感知加权矩阵,s是来自输入音频信号s (η)的采样的向量(即,帧),并且\是来自核心层解码器 115的采样的对应向量。在ITU-T推荐G. 729. 1中描述了示例MDCT处理。然后,误差信号 E被误差信号编码器220处理,以产生代码字iE,该代码字iE随后被发射到信道125。对于这个示例,重要的是注意,误差信号编码器120仅被提供有一个误差信号E,并且输出一个相关联的代码字iE。其原因将在下面变得显而易见。然后,增强层解码器135从信道125接收编码的比特流,并且适当地解复用该比特流以产生代码字iE。误差信号解码器230使用代码字“来重构增强层误差信号 ,然后由信号组合器240将该增强层误差信号 与核心层输出音频信号乞(《)组合如下,以产生增强层音频输出信号兴…
权利要求
1.一种对音频信号进行解码的装置,包括增强层解码器的增益向量解码器,所述增强层解码器的所述增益向量解码器接收重构的音频向量§和表示增益向量的索引;其中所述增益向量解码器的增益选择器接收表示所述增益向量的所述索引, 所述增益向量解码器的增益选择器,所述增益向量解码器的所述增益选择器检测所述重构的音频向量中的峰值集合,基于所检测到的峰值集合来生成缩放掩码%(乡),并且至少基于所述缩放掩码和表示所述增益向量的索引来生成增益向量g* ;所述增益向量解码器的缩放单元,所述增益向量解码器的所述缩放单元利用所述增益向量来缩放所述重构的音频向量,以产生缩放的重构音频信号。
2.根据权利要求1所述的装置,进一步包括误差信号解码器,所述误差信号解码器生成对于所述重构的音频向量的增强;以及所述增强层解码器的信号组合器,所述增强层解码器的所述信号组合器将所述缩放的重构音频信号与所述对于所述重构的音频向量的增强组合,以生成增强的解码信号。
3.根据权利要求1所述的装置,其中,所述增益选择器根据如下给出的峰值检测函数来检测所述峰值集合
4.根据权利要求1所述的装置,其中,所述音频信号被嵌入多个层中。
5.根据权利要求1所述的装置,其中,所述重构的音频向量§是在频域中,并且所述峰值集合是频域峰值。
6.根据权利要求1所述的装置,进一步包括解码器,所述解码器接收代码化音频信号、代码化平衡因子和代码化增益值; 其中,所述增强层解码器的增益向量解码器从所述代码化增益值来生成解码的增益值;其中,所述增强层解码器的缩放单元利用所述解码的增益值来缩放所述代码化音频信号,以生成缩放的音频信号;以及进一步包括信号组合器,所述信号组合器将所述代码化平衡因子应用于所述缩放的音频信号,以生成解码的多信道音频信号并输出所述解码的多信道音频信号。
7.一种用于对音频信号进行解码的方法,所述方法包括 接收重构的音频向量乡和表示增益向量的索引;检测所述重构的音频向量中的峰值集合; 基于所检测到的峰值集合来生成缩放掩码 Κ会);至少基于所述缩放掩码和表示所述增益向量的所述索引来生成增益向量g* ;以及利用所述增益向量来缩放所述重构的音频向量,以产生缩放的重构音频信号。
8.根据权利要求7所述的方法,进一步包括 生成对于所述重构的音频向量的增强;以及将所述缩放的重构音频信号与所述对于所述重构的音频向量的增强组合,以生成增强的解码信号。
9.根据权利要求7所述的方法,其中,检测所述峰值集合进一步包括如下给出的峰值检测函数
10.根据权利要求7所述的方法,进一步包括 接收代码化音频信号、代码化平衡因子和代码化增益值; 从所述代码化增益值生成解码的增益值;利用所述解码的增益值来缩放所述代码化音频信号,以生成缩放的音频信号; 将代码化平衡因子应用于所述缩放的音频信号,以生成解码的多信道音频信号;以及输出所述解码的多信道音频信号。
11.一种用于对音频信号进行编码的方法,所述方法包括 接收音频信号;对所述音频信号进行编码,以生成重构的音频向量§ ; 检测接收到的音频信号的所述重构的音频向量乡中的峰值集合; 基于所检测到的峰值集合来生成缩放掩码iKb ; 基于所述缩放掩码来生成多个增益向量&;利用所述多个增益向量来缩放所述重构的音频信号,以产生多个缩放的重构音频信号;基于所述音频信号和多个缩放的重构音频信号来生成多个失真; 基于所述多个失真来从所述多个增益向量选择增益向量;以及输出表示所述增益向量的索引以用于发射和存储中的至少一个。
12.根据权利要求11所述的方法,其中,所述增益向量被选择为与所述多个失真中的最小失真相对应。
13.根据权利要求11所述的方法,其中,检测所述峰值集合进一步包括如下给出的峰值检测函数
14.根据权利要求11所述的方法,其中,所述音频信号被嵌入多个层中。
15.根据权利要求11所述的方法,其中,所述重构的音频向量§是在频域中,并且所述峰值集合是频域峰值。
全文摘要
检测接收到的音频信号的重构音频向量中的峰值集合,并基于所检测到的峰值集合来生成缩放掩码至少基于缩放掩码和表示增益向量的索引j来生成增益向量g*。利用增益向量来缩放所重构的音频信号,以产生缩放的重构音频信号。基于音频信号和缩放的重构音频信号来生成失真。输出基于所生成的失真的增益向量的索引。
文档编号G10L19/14GK102272831SQ200980153311
公开日2011年12月7日 申请日期2009年12月3日 优先权日2008年12月29日
发明者乌达·米塔尔, 詹姆斯·P·阿什利 申请人:摩托罗拉移动公司