专利名称:采用可变时间/频率分辨率和时间/频率转换的有效频谱包络编码方法
技术领域:
本发明涉及一种在音频编码系统中对频谱包络进行有效编码的新型方法和设备。该方法既可以应用于自然音频编码过程,也可以应用于语音编码过程,并且该方法特别适于采用SBR[WO 98/57436]或其它高频重构方法的编码器。
背景技术:
可以将音源编码技术分为两种自然音编码和语音编码。自然音编码通常以中等位速率用于音乐信号或任意信号,通常提供宽音频带宽。语音编码器基本限制在语音重现,但是从另一方面来说,即使具有低音频带宽,但可以以非常低的位速率使用它。在这两种技术中,通常将信号分离为两个主要信号分量“频谱包络”信号和相应的“剩余”信号。在以下说明中,在一般意义上,术语“频谱包络”指信号的粗频谱分布,例如,基于线性预测的编码器内的滤波因数,或子带滤波器内的一组子带采样时频平均值。在一般意义上,术语“剩余”指细频谱分布,例如,利用上述时频平均值归一化的LPC误差信号或子带采样。“包络数据”指被量化、被编码的频谱包络,“剩余数据”指被量化、被编码的剩余。在中等位速率和高位速率情况下,剩余数据构成位流的主要部分。在非常低位速率情况下,包络数据构成大部分位流。因此,在采用低位速率时,用压缩方法表示频谱包络的确重要。
为了实现良好时间分辨率,现有技术的音频编码器和大多数语言编码器均采用固定长度、相对较短的时段来产生包络数据。然而,这样就防碍对由心理声学所得知的频域屏蔽的最佳利用。为了提高利用具有陡倾斜窄滤波器频带的编码增益,并在瞬时频段时仍实现良好时间分辨率,当前的音频编码器均采用自适应窗口转换,也就是说,它们根据信号统计量转换时间段长度。显然,短时间段的最少使用量是最大编码增益的先决条件。不幸的是,需要长变迁窗口来改变时间段的长度,这样就限制了转换的适应性。
频谱包络是两个变量,时间和频率,的函数。通过在时频平面的两个方向上使用冗余码,可以进行编码。通常,利用增量编码过程(DPCM)或向量量化过程(VQ),在频率方向对频谱包络进行编码。
发明内容
本发明提供了一种用于频谱包络编码的新型方法和设备。该编码方法用于满足其特定频率范围内的剩余信号被排斥在发射数据外的系统的特殊要求。例如,采用HFR(高频重构),特别是SBR(频谱带复制),或者参量编码器的系统。在一种实施过程中,通过将固定大小滤波器频带内的子带采样自适应分组为分别产生一个包络采样的频带和时间段,获得频谱包络的非均匀时间采样和非均匀频率采样。这样就允许在有限滤波器频带内瞬时选择任意时间和频率分辨率。在接近变迁时,使用较短时间段,从而使用较大频率级以使数据量保持在限制范围内。为了使时间上的非均匀采样的益处实现最大化,采用可变长度位流帧或区组(granule)。可变时间/频率分辨率方法还可以应用于基于预测的包络编码过程。不是对子带采样进行分组,而是根据系统,对可变长度时间段产生预测因数。
本发明描述了两种用于发送所采用的时间分辨率和频率分辨率的方法。通过显式发送时间段边缘分辨率和频率分辨率,第一种方法允许进行任意选择。为了降低发送开销,使用4级区组,从而提供不同成本/适应性折衷方案。第二种方法采用典型节目内容性质,至少由时间Tnmin将各瞬间分开以进一步减少控制位的数量。编码器内、以等于正常区组长度的Tdet<=Tnmin的时间间隔运行的瞬态检测器确定可能瞬态的开始位置。对间隔内的此位置进行编码并发送到解码器。编码器和解码器共同遵守规定频谱包络采样的时间/频率分布给出连续控制信号的特定组合、确保对包络数据进行无歧义解码的规则。
本发明提供了一种用于进行比例因数冗余编码的新型有效方法。时域内的狄拉克脉冲转换为频域内的常数,并且频域内的狄拉克,即单个正弦波对应于频域内具有固定振幅的信号。具体地说,在短时间内,信号在一种域内比在另一种域内显式较小的变化。因此,利用预测编码过程或增量编码过程,如果根据信号特性在时间方向或频率方向对频谱包络进行编码,则可以提高编码效率。
现在,将参考附图,利用不限制本发明实质或范围的说明性实例对本发明进行说明,附图包括图1a至图1b示出频谱包络均匀时间采样和相应非均匀时间采样;图2a至图2b定义、说明4级区组的用途;图3a至图3b示出区组的两个例子以及相应的控制信号;图4a至图4c示出位置发送系统;图5示出时间/频率转换增量编码;图6示出根据本发明采用包络编码过程的编码器的方框图;图7示出根据本发明采用包络编码保持的解码器的方框图。
优选实施例的说明以下说明的优选实施例仅用于说明进行有效包络编码的本发明原理。显然,本技术领域内的其它熟练技术人员可以对其设置和细节进行调整和变换。因此,只有之后的本发明权利要求来限定本发明的实质范围,而在此对各实施例所做的说明和解释中的特定细节对本发明实质范围没有限制意义。
包络数据的产生过程大多数音频编码器和语言编码器在解码器进行合成期间,共同发送并合并包络数据和剩余数据。两个例外是采用PNS[“ImprovingAudio Codecs by Noise Substitution”,D.Schultz,JAES,vol.44,no.7/8,1996]的编码器和采用SBR的编码器。对于SBR,关于高频带,只有频谱粗结构需要被发送,因为剩余信号是由低频带重构的。因此非常需要知道如何产生包络数据,特别是因为在初始剩余信号内没有“时间”信息。现在将利用实例说明此问题。
图1示出持续和弦与主要为高频内容的尖锐瞬态组合在一起的音乐信号的时间/频率图。在低频带,和弦功率高,瞬态功率低,而在高频带则恰好相反。利用高间歇瞬态功率对在出现瞬态的时间间隔期间产生的包络数据进行控制。在解码器进行SBR处理时,使用与对初始高频带进行分析所使用的相同瞬时时间分辨率/频率分辨率,估计转置信号的频谱包络。然后,根据各频谱包络内的不同之处,对转置信号进行均衡处理。例如,利用初始信号与转置信号平均功率的商数的平方根计算包络调节滤波器频带内的放大系数。对于这种信号,产生的问题是转置信号与低频带具有相同“和弦-瞬态”功率比。对于含有瞬态能量的包络数据的整个时长,为了将转置瞬态调节到正确电平所需的增益会相对于初始高频带电平放大转置和弦。如图1a所示,会将这些瞬间太高和弦片段感觉为瞬态的超前回声和滞后回声。以下将这种失真称为“增益诱导超前回声和滞后回声”。通过以这样的高速率,即保证更新与任意位置瞬态之间的时间短到足以不被人耳所分辨,持续更新包络数据,就可以消除这种现象。然而,这种方法显著提高待发送的数据量,因此不可行。
因此提出了一种新型包络数据产生方法。该方法是在音频频段期间保持低更新速率,音频频段构成典型节目内容的主要部分,利用瞬态检测器确定瞬态位置,对靠近脉冲前沿的包络数据进行更新,参考图1b。这样就消除了增益诱导超前回声。为了很好地表示瞬态衰变,在瞬态开始后的时间间隔内瞬间提高更新速率。这样就可以消除增益诱导滞后回声。衰变期间进行时间分段不象发现瞬态开始那么重要,如下所述。为了补偿小时间步长,在瞬态期间使用大频率级,从而使数据量保持在限制范围内。上述在时间上和频率上的非均匀采样可以应用于基于滤波器组和线性预测的包络编码过程。可以对瞬态时段和准稳(音频)时段采用不同预测顺序。
对于基于预测的编码器,已知现有技术中没有实现时间/频率分辨率转换的方法。然而,某些基于滤波器组的编码器采用可变时间/频率分辨率。通常,这是通过转换滤波器组的大小实现的。改变滤波器组大小的过程不可能立即实现,因此需要所谓转换窗口,而且不能自由选择更新点。在采用SBR或任何其它HFR方法时,目标不同滤波器组用于满足所需最高时间分辨率和最高频率分辨率以提取有效包络图。因此,通过将固定大小滤波器组产生的子带采样分组为“频带”和“时间段”,可以获得频谱包络的非均匀时间采样和频率采样。然后,对每个频带和时间段计算一个包络采样。在以下说明中,“频率分辨率”指用于对特定时间段进行包络估计的一组特定频带、LPC因数等。换句话说,从包络编码的观点出发,可以同时获得高频分辨率和高时间分辨率。
从语法观点出发,所有实际编解码器位流均包括分别对应于输入信号的短时间段的数据周期。以下将与此数据周期有关的时间段称为“区组”。典型编码器采样固定长度区组。区组边界的出现会对包络估计过程使用的时间段的计算过程产生制约。产生这些时间段的算法表明在特定位置需要时间段“边缘”,并且后续时间段应该具有特定长度。然而,如果因为固定长度区组,区组边界落入此间隔内,则必须将该时间段分割为两部分。这具有双重意义第一,提高了待编码的时间段数量,因此有可能提高待发送的数据量。第二,强制边缘会产生太短以致不能估计可靠平均功率的各时间段。为了避免这些缺陷,本发明采用可变长度区组。这样就要求编码器预测先行,同时要求解码器具有附加缓冲器。
假定术语“栅格”表示用于特定信号的时间段分辨率和相应频率分辨率,“局部栅格”表示一个区组的栅格。显然,必须将栅格发送到解码器,以对包络采样进行正确解码。然而,在低位速率应用中,此“控制信号”的位数必须保持最少。本发明建议了两种发送方法。在详细说明它们之前,先建立“基线系统”和一些设计规则。
设频谱包络的时间量化级为Tq。可以将这些量化级看作“子区组”,该“子区组”被分组为上述各时间段。在一般情况下,区组包括S个子区组,其中各区组的S互不相同。区组内的可能分段组合数在一个分段到S个分段之间,由下式给出 为了发送C状态,根据每个子区组一位,需要ceil(ln2C)=ceil(ln2(2S))=S位。可以利用S-1位发送任意细分的区组,表示连续子区组,说明前导分段边缘是否出现在相应子区组。(在此无需发送第一个和最后一个区组边缘。)由于S可变,所以必须发送它,并且如果此方法与固定长度区组低频带编解码器结合,则还必须发送与固定长度区组相位的位置。可以利用分配的控制位,例如每个分段一位,发送分段频率分辨率。显然,这种直通方法会导致不可接受的大量控制信号位。
如下所述,等式1表示的许多状态不太可能,但是也可能产生太多的包络数据以致实际上以有限位速率是不可能的。
可以以如下方式估计音乐节目内容中连续瞬态之间的最小时间跨距在乐谱中,利用被表示为分数A/B的时间记号来表示韵律“拍子”,其中A表示每节线“节拍”数,1/B是一个节拍的音符类型,例如,1/4音符,通常称为四分之一音符。设t表示每分钟节拍(BPM)形式的速度。下式给出1/C类型的每个音符的时间Tn=(60/t)*(B/C)[s] (等式2)大多数片段在70-160BPM范围内,并且对于由1/32或第32音符构成的大多数实际片段,4/4时间记号是最快韵律模式。这样会产生最短时间Tnmin=(60/160)*4(4/32)=47毫秒。当然,还会产生比此低的时间周期,但是这种快速序列(>每秒21个事件)几乎获得蜂音特性,因此不需要被全部分辨。
还必须建立所需时间分辨率Tq。在某些情况下,瞬态信号的主要能量位于待重构的高频带。这意味着,编码频谱包络必须携带所有“时间”详细。要求时间精度确定用于编码脉冲前沿所需的分辨率。Tq比最短音符周期Tnmin短得多,因为在该周期内可以清晰地听到小时间偏差,瞬态主要具有低频带能量。上述说明的增益诱导超前回声必须在人听觉系统的所谓超前掩蔽或后向掩蔽时间Tm内,这样才听不到它。因此,Tq必须满足两个条件Tq<<Tnmin(等式3)Tq<Tm(等式4)显然,Tm<Tnmin(否则音符就太快了,以致不能分辨它们)并且根据[“Modeling the Additivity of Nonsimultaneous Masking”,Hearing Res.,vol.80,pp.105-118(1994)],Tm约为10-20毫秒。由于Tnmin在50毫秒范围内,所以根据等式3适当选择的Tq也满足第二个条件。当然,在选择Tq时,必须考虑在编码器内进行瞬态检测的精度以及分析/合成滤波器组的时间分辨率。
跟踪脉冲后沿并不重要,这有几个原因第一,没有音符的位置对可感韵律影响小甚或没有影响。第二,大多数乐器不能表现陡峭脉冲后沿,而可以表现平滑衰减曲线,即不存在良好定义的无音符时间。第三,滞后掩蔽时间或前向掩蔽时间大致长于超前掩蔽时间。
总之,利用对实际信号质量不产生影响或产生少量影响的情况进行如下简化1.只有瞬态开始位置需要以最高精度Tq进行发送。
2.只有用Tp>>Tq分离的瞬态需要在包络数据内进行充分分解。
为了减少发送开销,根据本发明的两种系统均采用两种时间采样模式均匀时间采样和非均匀时间采样。在准稳时段采用均匀模式,因此采用固定长度分段,并且需要少量额外发送。在瞬态附近,系统转换到非均匀运行并使用可变长度区组,从而与全部理想栅格实现良好配合。
分级发送系统在第一种系统中,将区组分割为4级,并且对各级的特定需要产生控制信号。图2中对各级进行了定义。级“FixFix”对应于传统固定长度区组。级“FixVar”具有可移动停止边界,这样就允许区组长度可变。级“VarFix”具有可变开始边界,因此停止边缘是固定的。最后一级“VarVar”在两端具有可变边界。所有可变边界可以相对于“正常位置”偏离-a/+b。
图2b示出序列区组的一个例子。该系统设定为级FixFix。瞬态检测器(或心理声学模型)在当前区组之前的时间范围内运行,如图所示。在检测到瞬态时,使用级FixVar,系统从均匀运行转换为非均匀运行。通常,此区组之后为级VarFix,由于瞬态在大多数时间被多个所有实际选择区组长度的区组分离。在连续帧瞬态情况下,采用VarVar级帧。
图3a示出级FixVar-VarFix对的一个例子,以及相应的控制信号。示出一个瞬态,并且用t表示脉冲前沿(量化为Tq)。位流的第一部分是“级”信号。由于采用4基,所以用2位表示此信号。对于FixVar级或VarFix级,下一个信号描述可变边界的位置,该位置被表示为正常位置的偏离。将此边界称为“绝对边缘”。利用“相对边缘”表示区组内的分段边缘绝对边缘用作基准,将其它边缘表示为对基准的累积距离。相对边缘数是可变的,并且可以在绝对边缘之后,被发送到解码器。0数量意味着区组仅包括一个时间段。因此,对于级FixVar,在逆向序列中发送分段长度,并在区组的末端与绝对边缘分离。根据相对边缘和总长度获得FixVar区组内的第一分段的长度,但是不发送第一分段的长度。将级VarFix相对边缘信号插入前向序列的位流内,从而排除最后分段长度。该位流信号顺序与级FixVar位流信号顺序相同,即[级,绝对边缘,相对边缘数量,相对边缘0,相对边缘1,...,相对边缘N-1]。在该图中,在“明码”中说明该信号,而非在位流的实际二进制码字中说明该信号。
图3b示出该信号的另一种编码过程。当在给定全部栅格对分段进行分组时,可变边界具有通用性。因此,可以在此电平对某些有效负载进行控制,例如,以均衡各区组的位数。这样会停止低频带编码器的运行过程。如果预测先行足够,则可以实现多通路编码过程,并且可以采用局部栅格最佳组合。
为了减少用于发送相对边缘的符号组数量,并减少每个符号的位数,如果绝对边缘具有精确Tq,则可以将这些长度量化为Tq的整数倍(>1)。在这种情况下,除了上述功能之外,绝对边缘用于定位一组在瞬态附近、精度为Tq的边界。换句话说,最高精度始终可以可以用于对瞬态脉冲前沿进行编码,并且利用粗分辨率跟踪衰减过程。
VarVar级帧利用FixVar和VarFix的组合例如交错发送[级,左绝对边缘,d0右,左相对边缘数量,d0右,[左相对边缘0,...,左相对边缘N-1],[d0右]]。在局部栅格选择中,此级提供最高适应性,但代价是增加了发送开销。最后,除了级信号本身之外,FixFix级不需要其它信号,在这种情况下,例如,使用两个(同样长度)分段。然而,可以附加使得可以在一组预定栅格内进行选择的信号。例如,可以对两个分段计算频谱包络,并且如果两个包络的差别不大于某个量,则仅发送一组包络数据。
以上对仅对时间分段过程进行了说明。因为许多原因,最好将对应于瞬态前缘的边界发送到解码器。这可以通过发送指向相关边缘的“指针”来实现。基准方向沿着相对边缘的方向,并且0值意味着在当前区组内没有瞬态开始。此外,还必须定义用于单独分段的频率分辨率(功率估计数量或预测顺序)。与在“基线系统”内相同,可以显式发送,也可以隐式发送,即,分辨率与分段长度相连,尽可能与指针位置相连。
在使用易出错传输信道时,重要的是避免差错传播。在上述系统中,利用相应区组的控制信号完整描述局部栅格。因此,在控制信号中不存在帧间依赖性。这意味着,区组边界被“过编码”,因为在两个连续区组内发送区组相交区。此冗余可以用于简单纠错,即如果边缘不匹配,则会产生传输差错,并激活隐蔽误差。
位置发送系统以下将第二系统称为“位置发送系统”,它适于非常低的位速率应用。为了进一步降低控制信号位的数量,所以在很大程度上仍采用上述说明的设计规则。根据本发明,瞬态开始信息可以用于显式发送分段边缘和瞬态附近的频率分辨率。现在,将对此进行说明,假定根据NTq<=Tnmin,即根据在区组内可能会产生一个最长瞬态,选择N个子区组的标称区组大小,参考图4a,其中N=8。如图4b所示,采用以位于当前区组之前N/2的、长度为N的间隔运行的瞬态检测器。在检测到瞬态时,设置与此范围有关的标志。在此例中,瞬态检测器在时间n-1检测到子区组2内的瞬态,在时间n检测到子区组3内的瞬态。这些位置,pos(n-1)和pos(n)以及相应的标志,flag(n-1)和flag(n)用作栅格产生算法的输入,并且区组n的相应局部栅格可以是如图4c所示的那样。从该图中可以看出,时间n-1区组的子区组3包括在区组n的时间/频率栅格内。送到位流的信号只有flag(n)[1位]和pos(n)[ceil(ln2(N))位]。因为解码器已知栅格算法,所以这些信号与先前区组n-1的相应信号一起足以无歧义重构编码器所需的栅格。在未检测到瞬态时,可以废弃该位置信号,并且可以例如利用1位信号代替该位置信号,说明是使用一个分段还是使用两个分段。因此,均匀模式运行过程与分级发送系统的运行过程相同。可以将该系统看作有限态自动机,其中上述信号控制状态间的变迁,变迁状态定义局部栅格。显然,可以用存储在编码器和解码器内的表来表示状态。由于栅格被硬编码,所以牺牲了自适应改变有效负载的能力。适当方法是保持时间/频率数据矩阵的大小(即功率估计数量)接近常数。假定高分辨率分段内的比例因数或系数的数量是低分辨率分段内的比例因数或系数的两倍,则一个高分辨率分段可以换取两个低分辨率分段。
时间/频率转换比例因数编码过程利用时间频率转换过程,显式时域内的脉冲与频域内的平频谱对应,并且频域内的“脉冲”,即单个正弦波与时域内的准稳信号对应。换句话说,通常,信号在一种域中比在另一种域中显式出更强的瞬态特性。在光频图中,即在时间/频率矩阵显式中,此特性明显,并且在对频谱包络进行编码时,使用此特性具有优势。
音频稳信号具有的非常稀疏频谱,不适于在频率方向进行增量编码,但是却很适于在时域内进行增量编码,反之亦然。图5示出这种情况。在以下说明中,时间n0时计算的比例因数向量表示频谱包络Y(k,n0)=[a1,a2,a3,...,ak,...,aN] (等式5)其中a1...aN是不同频率的振幅值。普通作法是在给定时间对频率方向上的相邻各值之间的差值进行编码,这样会产生D(k,n0)=[a2-a1,a3-a2,...,aN-aN-1] (等式6)为了能够对此进行解码,需要发送开始值a1。如上所述,如果该频谱仅含有少量固定音,则可以证明此增量编码方法效率最低。这样会导致增量编码过程的位速率比规则PCM编码过程的位速率高。为了解决此问题,建议了一种时间/频率转换方法,以下简称为T/F编码在时间方向和频率方向量化并编码比例因数。在这两种情况下,对于给定编码错误计算所需位数,或者对于给定位数计算编码错误。根据此,选择最有利的编码方向。
例如,可以采用DPCM和霍夫曼冗余编码过程。计算两个向量,Df和DtDf(k,n0)=[a2-a1,a3-a2,...,aN-aN-1](等式7)
Dt(k,n0)=[a1(n0)-a1(n0-1),a2(n0)-a2(n0-1),...,aN(n0)-aN-1(n0-1)](等式8)一个用于表示频率方向、一个用于表示时间方向的相应霍夫曼表示出了对向量进行编码所需的位数。需要最少位数被编码的编码向量表示较好的编码方向。首先,利用一些最小间距作为时间/频率转换判据,产生该表。
每当在频率方向对频谱包络进行编码,而非在时间方向进行编码时,就发送开始值,因为通过先前的包络,解码器使用它们。建议算法还需要发送附加信息,即表示以哪个方向对频谱包络进行编码的时间/频率标志。T/F算法的优势在于可以与不同于DPCM和霍夫曼方法的、比例因数包络表示的几种不同编码方法(例如ADPCM、LPC以及向量量化)一起使用。建议的T/F算法给出频谱包络数据的显著位速率减缩。
实际实现过程图6示出本发明编码器端的一个例子。将模拟输入信号送到A/D转换器601,用于产生数字信号。将数字音频信号送到感觉音频编码器602,感觉音频编码器602对音源进行编码。此外,将该数字信号送到瞬态检测器603和分析滤波器组604,分析滤波器组604将该信号分割为其频谱等效信号(子带信号)。瞬态检测器可以对分析滤波器组输出的子带信号进行检测,但是假定其一般用途是直接对数字时域采样进行检测。瞬态检测器将该信号分割为各区组,并根据本发明确定区组内的哪个子区组被标志为瞬态。将此信息发送到包络分组模块605,包络分组模块605规定待用于当前区组的时间/频率栅格。根据此栅格,该模块将均匀采样子带信号组合在一起以产生非均匀采样包络值。例如,这些值可以表示分组子带采样的平均功率密度。将包络值与分组信息一起送到包络编码器模块606。包络编码器模块606判定在哪个方向(时间方向或频率方向)编码该包络值。将结果信号、音频编码器的输出、宽带包络信息以及控制信号送到复用器607以产生带发送或存储的串行位流。
图7示出本发明的解码器端,利用SBR转置作为产生丢失剩余信号的例子。解复用器701恢复该信号并将正确部分送到音频解码器702,音频解码器702产生低频带数字音频信号。将包络信息从解复用器送到包络解码模块703,包络解码模块703利用控制数据确定在哪个方向对当前包络进行编码并解码该数据。音频解码器输出的低频带信号选择到转置模块704,转置模块704利用低频带产生复制的高频带信号。将该高频带信号送到分析滤波器组706,分析滤波器组706与编码器端的分析滤波器组属于同一种类型。比例因数分组单元707将子带信号组合在一起。利用解复用器输出的控制数据,在此采用的组合和子带采样的时间/频率分布类型与在编码器端采用的相同。增益控制模块708对解复用器输出的包络信息和比例因数分组单元输出的信息进行处理。增益控制模块708计算待施加到子带采样的增益系数,然后在合成滤波器组模块709内对子带采样进行重新组合。因此,合成滤波器组的输出即包络调节高频带音频信号。将该信号附加到延迟单元705的输出端,将低频带音频信号送到延迟单元705。延迟对高频带信号的处理时间进行补偿。最后,数模转换器710将获得的数字宽带信号转换为模拟音频信号。
权利要求
1.一种在信源编码系统中进行频谱包络编码的方法,其中所述系统包括编码器,表示在存储或传输之前执行的所有操作;以及解码器,表示在存储或传输之后执行的所有操作,并且其中对应于特定频率范围的剩余信号被排除在发送数据或存储数据之外,并在所述解码器内合成一个新剩余信号,其特征在于所述编码器对输入信号进行统计分析;根据所述分析的结果,选择用于频谱包络表示的栅格;利用所述栅格,产生表示所述频谱包络的数据;将所述数据与描述所述栅格的控制信号一起发送;以及所述解码器将所述控制信号和所述数据用于分析输出信号。
2.根据权利要求1所述的方法,其特征在于,通过将单元分组为所述输入信号的时间/频率表示,可以获得所述瞬时时间分辨率和频率分辨率,并对每个所述组计算比例因数。
3.根据权利要求2所述的方法,其特征在于,利用滤波器组产生所述时间/频率表示。
4.根据权利要求3所述的方法,其特征在于,所述滤波器组具有固定大小。
5.根据权利要求1所述的方法,其特征在于,利用线性预测器产生所述数据。
6.根据权利要求1所述的方法,其特征在于,所述分析过程采用瞬态检测器。
7.根据权利要求6所述的方法,其特征在于,在瞬态开始时,将所述瞬时分辨率从高频率分辨率与低时间分辨率的默认组合转换为低频率分辨率与高时间分辨率的组合。
8.根据权利要求1所述的方法,其特征在于,所述控制信号描述位于固定更新速率区组内的、通过进行所述分析产生的位置,并且根据当前区组和相邻区组内的位置,利用对所述编码器和所述解码器均有效的规则,选择所述瞬时分辨率。
9.根据权利要求8所述的方法,其特征在于,一个位置至多发送一个区组。
10.根据权利要求1所述的方法,其特征在于,采用可变长度区组。
11.根据权利要求10所述的方法,其特征在于,采用4级区组,其中第一级具有固定位置区组边界和长度L;第二级具有固定位置开始边界和可变位置停止边界;第三级具有可变位置开始边界和固定位置停止边界;第四级具有可变位置开始和停止边界;以及所述固定位置与基准位置一致,被间距L分离,并且相对于所述基准位置,所述可变位置偏离[-a,b]。
12.根据权利要求2所述的方法,其特征在于,在时间方向和频率方向对所述比例因数进行编码,确定瞬时最有利方向,将所述最有利方向用于所述传输过程。
13.根据权利要求12所述的方法,其特征在于,对于给定位数,选择产生最少编码错误的方向。
14.根据权利要求12所述的方法,其特征在于,对于给定编码错误,选择产生最少位数的方向。
15.根据权利要求14所述的方法,其特征在于,采用无损失编码过程,将分离的表格用于所述时间方向和频率方向,特别是所述表格用于选择编码方向。
16.一种用于对待被解码器解码的信号的频谱包络进行编码的设备,其特征在于,装置,用于对输入信号进行统计分析;装置,用于根据所述分析的结果,选择待用于所述输入信号的频谱包络表示的瞬时时间分辨率和频率分辨率;装置,用于利用所述分辨率,产生表示所述频谱包络的数据;以及装置,用于一起传输所述数据和描述所述分辨率的控制信号。
17.一种用于对待被编码器编码的信号的频谱包络进行解码的设备,其特征在于,装置,用于翻译接收的控制信号以确定在编码信号的频谱包络表示中使用的瞬时时间分辨率和频率分辨率;装置,用于根据所述频谱包络表示,利用所述控制信号,对接收的包络数据进行解码;以及装置,将所述解码包络数据用于合成输出信号。
全文摘要
本发明提供了一种用于进行频谱包络编码的新型方法和设备。本发明说明了如何实现包络表示的时间/频率映射以及如何发送包络表示的时间/频率映射,此外,还利用自适应时间/频率定向编码对频谱包络数据进行有效编码。该方法可以应用于自然音频编码系统和语言编码系统,并且该方法特别适于采用SBR[WO 98/57436]或其它高频重构的编码器。
文档编号G10L19/06GK1377499SQ0081360
公开日2002年10月30日 申请日期2000年9月29日 优先权日1999年10月1日
发明者拉尔斯·G·李杰德, 克里斯托弗·科林, 伯·埃斯特兰德, 弗里德里克·亨恩 申请人:编码技术瑞典股份公司