当前位置:网站首页>专利 >正文

用于语音解码器的高分辨率后处理方法

专利名称:用于语音解码器的高分辨率后处理方法
技术领域
本发明涉及语音编码器中用来获得高频率分辨率的后处理方法。该语音编码器最好用于移动无线电系统的无线电接收机中。
以前技术的描述在语音和音频编码中,普遍的是在解码器中采用后处理技术来增强解码语音的感知质量。
后处理技术,比如传统的自适应后滤波技术,被设计来通过加强共振峰和谐波结构并且在某种程度上减弱共振波谷来增强感知度。
本发明提出一种新的后处理技术,该技术包括解码器中的一个高分辨率分析层。在噪声削弱和语音增强方面来说,该新技术对于包括语音和音乐在内的大范围的信号来说更通用一些。
对于结合高度(非谐波)频率选择性减弱滤波方法、利用对所接收参数和所接收信号的谱分析来估计更精确的编码噪声电平的语音或音频编码器后处理方案来说,还没有一种已知的解决方法。
基于LPC的编码器中的共振峰后滤波器是众所周知的,其中编码器中的滤波器是根据所接收的LPC参数获得的。这里并没有使用谱的精细结构,并且给出了非常有限的频率分辨率。
已知多种类型的LTP后滤波器。由于只能够给出高频率分辨率而不能处理局部的非谐波编码噪声和人为因素,这些滤波器也只能影响解码信号的整个谐波结构。它们还特别适用于语音信号。
另外还知道的是,在接收机一端对解码语音的分析可以被用来估计例如音调后滤波器中的参数。比如,这种处理在LD-CELP中被执行。然而,这仅仅是一个谐波音调后滤波器,其中的“分析”的目的仅在于找到音调谐波。而不会对实际编码噪声问题和人为因素会存在在哪里进行整体的分析。
相对地,在消除没有被非常低比特率编码器[1]编码的频率域的意义上,也提出了相对频率选择后滤波器。发明简介许多语音编码器,例如基于LPC的通过合成分析的编码器(LPAS),在参数搜索中使用了误差准则,这种搜索具有很有限的频率可选性。此外,在很多此类编码器中,波形匹配准则将限制低能量区域的性能,例如谱波谷,即在这些频率域中对噪声分布的控制是很不精确的。
尽管受到加权滤波器的频率分辨率的限制,当编码器中使用了谱噪声加权时,整个的误差谱,即编码噪声,是进行了谱形调整的。然而,仍然存在一些谱区域,一般位于谱谷或其它的低能量区域,具有相对较高的噪声或听觉上的人为因素,这些都限制了感知质量。对于给定的比特率、编码器结构和输入信号,编码器仅能达到某一噪声电平。编码器和后处理中相对差的频率选择性,以及有限的比特率不能为所有类型的信号解决质量问题区域。
传统的低阶(一般为10阶)带宽扩展LPC共振峰后滤波器具有相对较低的频率选择性,而且不能解决局部化噪声和人为因素。
谐波音调后滤波器可以提供高频率分辨率,但是只能进行谐波滤波,即不能进行局部化非谐波滤波。
语音和音乐信号,例如,具有根本上不同的结构,因此应该采取不同的后处理策略。这一点是无法实现的,除非所接收的信号是经过分析,并且在后处理中使用了高分辨率的选择滤波器。这一点目前还没有完成。
本发明的目标是为来自语音或音频解码设备的解码信号获得高频率分辨率后处理方法,这种方法至少削弱了解码频谱中不希望的非谐波影响以及其他的编码噪声。
解码信号被分析以找到可能的具有编码噪声的频率域。高分辨率分析是针对解码语音信号的谱进行的,并且基于语音编码算法特性的知识和来自语音解码器的参数而进行的。这种分析的输出是一种频率域方面的滤波策略,在这些频率域中,信号被减弱以削弱编码噪声并且增强编码语音的整体感知质量。
本发明的方法利用了一种变换,这种变换给出高频率分辨率谱描述。这可以利用傅立叶变换以及其他与谱值具有强相关性的变换来实现。变换长度可以与解码器的帧长一致(例如使延迟最小),但是必须允许足够高的频率分辨率。
在变换之后,会进行对谱值的分析和解码器属性的分析以便识别出问题域,在这些区域中编码方法引入了可听噪声或人为因素。这种分析还使用了人类听觉的感知模型。来自解码器的信息以及关于编码算法的知识对于编码噪声量值和其分布的估计是有帮助的。
在分析步骤获得的信息以及感知模型在两个步骤中被用于滤波器设计确定将要被减弱的频率域。
确定每个频率域中的滤波量。
这给出一个候选滤波器,该滤波器可以在动态特性上被进一步精细化。例如,滤波器特性可以是不适当的,因为在以前的滤波器之后使用时会产生人为因素。而且,通过与解码信号的变化量相比来限制滤波中的变化量,解码信号的动态特性可以被考虑。
上面描述的滤波器设计的策略允许非常强的频率选择后滤波,这种滤波的目标在于自适应地抑制问题域。这与当前的通用后滤波相比差别在于没有特定分析时也能使用。此外,这种方法允许对不同类型的信号,比如语音和音乐采用不同的滤波。
对解码信号的滤波必须在高频率分辨率的情况下进行。这种滤波器可以例如在频域实现并且最终遵从反向变换。然而,可以使用滤波处理的任何可替换的实现。
在所提出方案的另一可选的低延迟实现中,可以利用来自分析的结果和仅在以前帧获得的滤波器设计进行滤波。由该解决方案的另一可选实现造成的延迟可以被保持为很低。
附图简要描述根据本发明的方法将参考附图详细描述,其中

图1是执行根据本发明一个实施方案的方法的不同功能块的方框图;图2是根据本发明方法的另一个实施方案的方框图;图3是图1和2中分析和滤波器设计的更详细的方框图;图4表示了解码信号的频谱,以及根据本发明的后处理的原理。
优选实施方案描述下面的描述表明的是上面描述的该发明的可行实现方案。它是为结合CELP(码激励线性预测)编码器的使用而设计的。这种编码器在谱的低能量域中产生噪声,特别是在波峰之间的具有复杂的谐波关系,例如音乐,的波谷中产生噪声。下面的观点以及图3说明了详细的实现。
图1是本发明执行的各种功能的方框图。语音解码器1,例如移动电话系统中的无线电接收机,将流入的解调无线电信号解码,在这些信号中,解码器1的参数通过无线电媒体被传输。
在解码器的输出端可获得解码的语音信号。由于传输和语音解码器1的解码特性,解码信号的频谱具有某一特性。
时域的解码信号被块2表示的快速傅立叶变换FFT进行变换因而可以获得解码信号的频谱。该频谱以及语音解码器的频率特性被(块5)分析,分析的结果被提供给滤波器设计单元6。该设计单元6为后滤波器3提供信息信号。该滤波器对语音信号的频谱进行后滤波以便消除或至少削弱解码语音信号谱中噪声分量的影响。来自滤波器3的没有干扰频率分量或至少干扰分量被很大程度削弱的谱信号被传送给块4,在块4中进行对块2中信息的反向变换感知模型7可以被加入到分析和滤波器设计中,这会如希望的那样影响解码语音信号谱的滤波(块3)。这并不构成本方法的任何基本部分因此不再进一步描述。
通常来说,解码信号的谱值按下述方法分析以便获得识别将要减弱区域的测量值。
幅度谱的包络被估计以便将整体谱形从高分辨率精细结构中分离出来。可以利用足够宽的滑动窗进行峰值拾取处理来估计该包络。
可以对幅度谱进行平滑以避免波动。
所产生的两个矢量被用来识别足够窄的具有某一深度的谱谷。这给出可以进行滤波的候选区域。
该谱也可以利用感知模型来分析以获得噪声掩模阈值。
解码器的属性被分析以便估计可能的噪声分布和电平或者由于使用中的特定编码器引入的人为因素。这些属性取决于编码算法,但是可能包括例如谱形,噪声整形,估计误差加权滤波器,预计增益-例如在LPC或LTP中,比特分配等等。这些属性表明了编码算法的特征以及对即将到来的特定信号编码性能。
关于所获得的编码信号的所有或部分信息是从分析块5输出的并被用于滤波器设计块6。
在图2中给出了后处理方法的另一个实施方案。与图1的差别在于分析块5和滤波器设计块6是在频域实现的,而解码语音信号的后滤波8是在时域实现的。滤波器设计单元6的输出给出一个信息/控制信号,但是现在传送给时域滤波器8,而不是上面的频域滤波器3。
图3给出一个比图1和2更详细的说明该发明方法的方框图。
例如,在无线电接收机中的语音解码器1的输出被连接到执行256点快速傅立叶变换(FFT)的功能块21。然后,利用一个汉宁窗,每128个样本进行一次256点的FFT。这样,每隔128个样本,一个新的块被处理。FFT变换的对数幅度以及相位谱(没有被处理)被计算出来。
分析(块5)包括通过在每个方向上按照长度为200Hz滑动窗中对数幅度谱的最大值来计算每个频率点从而估计对数幅度谱的包络。通过找到对数幅度谱等于最大值矢量的频率点来进行对所产生矢量的峰值拾取。在峰值之间进行线性内插以获取包络矢量。
通过在每个方向上选取长度为75Hz的滑动窗中的最大值来平滑对数幅度谱。
估计谱的斜率。
滤波器设计(块6)包括确定平滑后的对数谱曲线低于对数幅度包络曲线一个特定值以上的区域。如果它们对应于多于一个的连续频率点,那麽这些区域被抑制。此外,如果波谷比某一特定高度值还深,抑制被扩展到包括波峰之间的整个区域。在对数域中,每个将要被抑制的频率点上谱抑制的量值是由斜率确定的,使得低能量区域得到的抑制更多。所使用的公式在对数域中是线性的,对抑制低端的最后1KHz不做任何抑制(即,对于低通斜率,开始的1KHz没有被抑制,在高通斜率附近则是相反的)。这是因为CELP编码器趋于在低能量区域产生更多的噪声的特性造成的。
当前谱和以前谱之间的对数幅度谱的平方距离以及抑制矢量的同样测量值被计算出来。如果用于抑制矢量的值和谱本身之间的比例高于某一特定值(即,与信号谱相比,抑制量变化相对太快),那麽可以通过简单地用当前和以前抑制值的平均替代抑制矢量来平滑该抑制矢量。
通过简单地将以前点上确定的抑制量从解码信号的对数幅度谱中减去,来执行滤波操作(块31)。
通过首先根据由滤波产生的对数幅度谱以及由变换直接得到的相位谱重构傅立叶变换,以及反变换(块4)被执行。注意到重叠和相加过程被采用来避免由于分析帧之间的不连续造成的人为因素。
图1的分析块5在该实施方案中包括包络检测器51,平滑滤波器52和斜率检测器53。
从包洛检测器可以获得FFT谱的包络信号e,如图4所示。平滑滤波器52给出表示从FFT(块21)获得的平滑后的频率特性的信号sm。
滤波器设计单元6在该实施方案中包括比较单元61,抑制器62和执行动态处理的单元63。
来自分析块5的两个信号e和sm在比较单元61中被组合。信号e和sm之间的差值在比较器61中与一个固定的阈值Th比较以便确定不希望的共振波谷和相关的频率间隔。包括关于这些的信息的信号s1被获得。
抑制值产生单元62由从分析块5中斜率单元53获得的信号s2控制。信号s2表示斜率,根据对斜率依赖程度的大小,对信号s1确定的频谱进行抑制。
动态单元63执行一帧到另一帧之间的抑制量调整,使得不会发生抑制单元62的输出信号所表示的抑制量突然增加的现象。
在该实施方案中,图1的滤波器3是根据图3的滤波器31(对应于图1中的滤波器3)被称为图3中的减法器,它执行谱的减法。从动态单元63获得的信号值为抑制值并被从频谱特性中减去,该频谱特性是在上述s1确定的频率间隔中由FFT单元21获得的。其结果是来自语音解码器1的频谱中的干扰波谷在块4中的最终反向变换被进行之前被削弱到期望的值。
取决于频谱特性的斜率信号s1可以获得谱幅度的不同平均值。在频谱的开始处,斜率引起高的幅度值,在频谱开始处语音解码器1为“强”,即能够独立于谱中的可能噪声分量而正确解码。对于较高的频率,其斜率意味着频谱特性的较低幅度值,更重要的是对频谱中的波谷进行很好的抑制。
图4的频率图旨在表示这一点。平滑后的频谱sm和其包络e如上面提到的那样被比较,其差值被与一个固定阈值Th比较。在该例中,这在频率f1和f2附近给出至少两个不同的频率域f1和f2,对应于这两个区域,波谷v1和v2被看作为干扰,即由于语音解码器不能处理的非谐波/干扰噪声造成的。尽管几个其它的类似/区域也出现在频谱的较高和较低部分,图4中只给出了这两个频率区域。
来自比较器61的信号s1带有关于将要被抑制的频率域f1和f2的信息,来自斜率检测器53的信号s2带有关于进行何种程度抑制的信息。如上面提到的,如果检测到的频率域位于频谱的开始处,例如f1,抑制可以比较低,而对于位于高波段的区域f2,抑制量可以大一些。
动态单元63从一个语音块到另一个语音块来调整抑制值。最好的是流入语音块(128点)被进行重叠处理使得当一半的语音块已经在块5和6中被处理时,新的后续语音块的处理已经在分析块5中开始了。
动态单元63给出这样一种信号,它表示将要从谱特性中减去的校正值,这一操作是在对应于图1中滤波器3的减法器31中完成的。如上面参考重叠语音块描述的那样,语音信号的改进频谱在反向快速傅立叶变化器4中被进行反向傅立叶变换。
该方法可以适用于语音或音频解码器内部的信号。这些信号会被该方法处理并且被解码器进一步使用来产生解码的语音或音频信号。一个例子是LPC编码器中的激励信号,在解码语音被线性预测合成滤波器重构之前,它可以被所提出的信号处理。
减弱解码信号中的频率域的方法可以在编码过程中采用使得编码工作可以从减弱区域重定向。例如,LPAS编码器的误差加权滤波器可以被修正以便在减弱区域中削减对误差的加权从而实现这一点。这样,该方法可以结合修正的编码器使用,其中的编码器考虑了该方法引入的后处理。该发明的优点有可能在具有高分辨率的局部频率区域抑制编码噪声和人为因素。这对于复杂信号例如音乐尤其有用。该方法明显地增强了复杂信号的声音质量,同时增强了纯语音的质量,尽管是边缘性的。
参考文献[1]D.Sen和W.H.Holmes,“PERCEP-Perceptrally EnhancedRandem Codebook Excited Linear Prediction”,IEEE workshopspeed coding文集,ste.Adele,Que.canada,第101-102,1993年
权利要求
1.一种用于语音解码器(1)的后处理方法,它给出时域的解码语音信号以便从具有非谐波和噪声缺陷的频谱中获得高频率分辨率,包括以下步骤a)对解码信号执行(2)高频率分辨率变换以获得解码语音信号的频谱,b)通过在各个频率区域(f1,f2)中估计可能的编码噪声特性来分析(5)所述的频谱,c)基于分析步骤来执行对所述频谱的高频率分辨率滤波以便至少明显地削减所述频率域中的频率分量。
2.权利要求1的方法,其中所述的分析(5)使用解码后的高分辨率信号谱。
3.权利要求2的方法,其中所述的分析(5)采用了解码器属性。
4.权利要求2的方法,其中所述的分析(5)采用了编码算法的特性。
5.权利要求2的方法,其中所述的分析(5)采用了感知模型(7)。
6.权利要求1到5之一的方法,其中所述的滤波采用了滤波器的动态特性。
7.权利要求6的方法,其中所述的滤波采用了解码信号的动态特性。
8.一种用于语音解码器(1)的后处理方法,它给出时域的解码语音信号以便从具有非谐波和噪声缺陷的频谱中获得高频率分辨率,其特征在于以下步骤a)通过高频率分辨率变换(FFT)将解码时域信号变换(21)成频域信号,b)在其整个频率域上(4KHz)分析(5)所述频域信号的能量分布以找到干扰频率分量并按优先序排列这种位于频谱高端部分的频率分量,c)基于所述按优先序排列找到(6)对所述干扰频率分量的抑制度,d)依赖于所述的寻找(6)控制所述变换的后滤波(31),以及e)反向变换(4)后滤波的变换以便在时域获得后滤波的解码语音信号。
9.根据权利要求8的方法,特征在于所述分析(5)包括a)检测(51)表示所述频谱的信号的包络,并形成对应的包络信号(e),b)估计(53)表示频谱的所述信号的斜率,并形成对应的斜率信号(s1),所述滤波设计(6)包括c)将表示频谱的所述信号与所述斜率信号(s1)相比以便定位所述的干扰频率分量(f1,f2),d)基于所述比较的结果以及对应于该斜率的所述信号(s1),为特定的频率分量形成表示抑制度的值,并且为一些这种特定分量重复所述形成过程,给出一些数值,所述数值被用做频谱信号的所述后滤波的控制。
10.根据权利要求9的方法,特征在于表示频谱的所述信号是来自所述变换(21)之后信号的平滑(53)后的信号。
全文摘要
一种用于语音解码器(1)的后处理方法,它给出时域的解码语音信号以便从具有非谐波和噪声缺陷的频谱中获得高频率分辨率,包括以下步骤:a)通过高频率分辨率变换(FFT)将解码时域信号变换(21)成频域信号,b)在其整个频率域上(4KH
文档编号G10L21/0232GK1254433SQ9880472
公开日2000年5月24日 申请日期1998年2月17日 优先权日1997年3月3日
发明者E·埃库顿, R·哈根, B·克雷恩 申请人:艾利森电话股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:消音器的制作方法技术领域:本实用新型涉及消除或减弱气流噪音的装置。背景技术:利用变压吸附(PSA)方式、采用双塔结构的PSA制氮、制氧技术是目前制氮、制氧中的先进技术,具有无污染、制气纯度高、产率高、总体生产成本低等特点,基于这些

    专利发布时间:2025-07-01阅读:(86)

    专利名称:可调金属二胡千斤的制作方法技术领域:可调金属二胡千斤所属技术领域本实用新型可调金属二胡千斤,适用于二胡及其同族乐器千斤高度和千斤宽度的定位和调节,属于机械领域。背景技术:目前,二胡千斤的定位普遍采用细线绳缠绕捆绑定位的传统方法,此

    专利发布时间:2025-07-01阅读:(127)

    专利名称:断层图像重建方法和射线照相设备的制作方法技术领域:本发明涉及用来投影在每一扫描位置获得的射线照相数据或作为逆投影数据逆投影到重建区域上的过滤射线照相数据的断层图像重建方法,还涉及用于医疗、工业和其它领域的各种断层照相设备,用来对病

    专利发布时间:2025-07-01阅读:(113)

    专利名称:背光模组及其扩散板的制作方法技术领域:本发明涉及一种背光模组及其扩散板,尤其涉及一种用于液晶显示的背光模组及其扩散板。背景技术:请参见图l,所示为一种现有的直下式背光模组100,其包括框架ll与设置在该框架ll内 部的多个光源12

    专利发布时间:2025-07-01阅读:(102)

    专利名称:多功能练琴镜的制作方法技术领域:本实用新型涉及音乐用品领域,具体涉及一种多功能练琴镜。背景技术:在练习小提琴、吉他等乐器时,正确的持琴姿势至关重要,它可以保证演奏者最合理地利用身体所需用的关节、肌肉的运动而不至于很快产生疲劳。练琴

    专利发布时间:2025-07-01阅读:(93)

    专利名称:用线性卷积和因果滤波进行频谱减除以降低信号噪声的制作方法技术领域:本发明与通信系统有关,具体地说,与降低通信信号中破坏性背景噪声分量的影响有关。背景技术:现在,使用移动电话机及其他通信设备中的免提装置日益普遍。一个与免提解决方案关

    专利发布时间:2025-07-01阅读:(104)