当前位置:网站首页>专利 >正文

具有相位模糊和相位解抹滤波器的自适应差分脉码调制语音编码系统的制作方法

专利名称:具有相位模糊和相位解抹滤波器的自适应差分脉码调制语音编码系统的制作方法
技术领域
本发明涉及一种语音编码系统,该系统具有语音编码器以及与所述语音编码器配合使用的语音解码器,该语音编码器包括预处理器和具有量化器和步长适配装置的ADPCM(自适应差分脉码调制)编码器,以及语音解码器包括带有与ADPCM编码器中类似的步长适配装置的ADPCM解码器、解码器和后处理器。
已经发现,近麦克风录音通过尽量减小声源(口)到如电话听筒中的麦克风的距离减小或消除了声音信号上的室内声学效果。当这些声音信号在标准P2CM音频编码系统的编码器、即预处理ADPCM编码器中进行处理时,与从更长距离进行记录的情况相比,在再现近麦克风录音的脉冲状特性方面出现了问题。ADPCM编码器配置了量化器,用适合于量化器输入信号的步长对量化器的输入信号即采样音频输入信号和量化器的预测量化值之间的差异进行量化。在近麦克风录音中的脉冲状区域中,ADPCM编码器中的量化器的输入信号对量化器来说可能太高太快,无法适应其步长。室内混响模糊了一段时间上音频信号的能量,允许较慢地适应步长。
因此,为了提高P2CM音频编码系统对脉冲状信号的性能,ADPCM编码器输入信号必须以这样一种方式进行处理使得量化器的输入不会在短时帧上发生快速能量增加。然而,语音解码器的输出应该听起来象原声,不带有任何人工信号。因此,模拟室内效果以产生原始记录的长距离形式并对此信号进行编码的选择不够好。
本发明的目的是缓和上述问题并为语音编码系统提供一种尤其针对脉冲状音频信号的改进的记录和再现。
根据本发明,如开篇段落中描述的语音编码系统的特征在于,预处理器配置了相位模糊(Phase-smearing)滤波装置,用于在量化器的输入端平滑高和/或快速的能量变化效应,以及后处理器配置了与所述相位模糊滤波装置相反的滤波装置。
虽然相位模糊滤波可以在时域中进行,但如果预处理器和后处理器分别配置了频谱振幅变形(warping)装置和用于取消这种变形效应的装置,则最好在频域中进行这种滤波,这是因为所述变形装置和去变形装置可在频域中工作。因此,具体地说,在相同的处理模块中进行相位模糊和变形与反相位模糊和去变形。由于相位模糊是线性过程,而频谱振幅变形是非线性过程,因此两个过程相互间不会合并,而是在频域中一个接一个地进行;对滤波后的信号进行变形。频谱振幅变形本身是已知的,见R.Lefebre,C.Laflamme的“音频编码中用于噪音频谱整形的频谱振幅变形(SAW)”(ICASSP,Vol.1,p.335-338,1997)。
参照附图和下述实施例的阐述可以清楚本发明的这些和其它方面。在附图中

图1显示具有用于预处理和后处理的装置的P2CM编码系统的方框图,分别包括可在时域中工作的相位模糊滤波装置和逆相位模糊滤波装置;图2A、2B分别是ADPCM编码器和ADPCM解码器的方框图;图3A-3D显示相位模糊滤波器的第一实施例的各种特性;图4A-4D显示相位模糊滤波器的第二实施例的各种特性;图5是用于P2CM音频编码器和解码器的预/后处理器的方框图,其中相位模糊可在频域中工作;以及图6显示预处理器中的成帧和开窗。
图1所示的P2CM音频编码系统由编码器1和解码器2构成。编码器1包括预处理器3和ADPCM编码器4,而解码器2配置了ADPCM解码器5和后处理器6。ADPCM编码器4如图2A所示,ADPCM解码器5如图2B所示。
作为例示,在P2CM音频编码器1中,将PCM输入信号分段为例如10毫秒的若干帧。在例如8kHz的采样频率下,一帧由80个样值构成。各样值由例如16比特表示。将此输入信号提供给预处理器3,并将响应于此而得到的输出信号提供给ADPCM编码器4。由编解码器模式信号CMS形成ADPCM编码器4的另一输入信号,该信号确定ADPCM编码器4的比特流输出中码字的比特分配。ADPCM编码器4为预处理后的信号帧中的各样值产生一个码字。然后,将这些码字分组成帧,在本例示中为80个码字的帧。根据所选的编解码器模式,所得到的比特流具有如11.2、12.8、16、19.2、21.6、24或32kb/s的比特率。
在P2CM音频解码器2中,由码帧的比特流和编解码器模式形成ADPCM解码器5的输入。在此示例中,码帧由80个码构成,由ADPCM解码器5对其进行解码以形成80个样值的PCM输出帧,它将在后处理器6中进行后处理。
在预处理器3中改变信号特性,使得所得到的信号更适于编码。预处理在编码之前对信号频谱进行修改。因此,可对频谱振幅进行非线性变换,如平方根变换。通过这种称为“频谱振幅变形”的变换,对于相对强的频谱振幅来说增加了相对小的频谱振幅,以便将其重要部分保持在ADPCM编码器4中引入的量化器噪音之上。为了以这种方式修改信号频谱,预处理器3包括处理装置7,该处理装置7具有时域-频域变换单元,用于将音频信号的时域样值帧变换到频域;频谱振幅变形装置;以及频域-时域变换单元,用于将变形后的音频信号从频域变换到时域。该变换在P2CM音频解码器侧可逆,无须发送额外的比特。因此,后处理器6包括处理装置8,该装置具有时域-频域变换单元,用于将音频信号的时域样值帧变换到频域;用于在编码器侧取消预处理器中进行的频谱振幅变形效应的装置;以及频域-时域变换单元,用于将去变形后的音频信号从频域变换到时域。
如图2A所示的ADPCM编码器4包括量化器模块9、步长适配模块10、解码器模块11和预测器模块12。ADPCM编码器4的输入是由预处理器3提供的采样音频信号。当样值n具有值s(n)时,对于每个输入值s(n)来说,该值和估计(预测)值s(n-1)之间的差异被视为误差信号e(n),然后,由量化模块9对误差信号进行量化和编码,给出输出码c(n)。输出码c(n)形成了一个比特流,传递或发送比特流,并由P2CM音频编码器的ADPCM解码器5接收。在图1中,该过程由虚线13表示。输出码c(n)还被用于由模块10和解码器模块11修改量化器步长Δn,以得到量化的误差信号e’(n)。量化的误差信号e’(n)被加到预测值s(n-1)中,得到量化的输入值s’(n)。由预测器模块12利用s’(n)来修改其预测系数。
ADPCM解码器5只是编码器4的附属设备;它读取从比特流收到的量化码c(n)并采用与编码器4相同的方式更新其内部变量。因此,ADPCM解码器5包括步长适配模块14、解码器模块15和预测器模块16。解码器模块15的输出为量化的误差信号e’(n),该误差信号在加到预测值s(n-1)后,给出量化的音频信号s’(n)。
虽然在图2A和2B中没有进一步地显示,但编解码器模式信号CMS还形成ADPCM编码器4中的解码器模块11和ADPCM解码器5中的解码器模块15的输入信号。
除上述ADPCM编码器和解码器外,也可使用其它编码器和解码器。
如说明书的导言部分中已提及的那样,与从更长距离进行记录的情况相比,在再现近麦克风记录的脉冲状特性方面出现了问题。在近麦克风记录中的脉冲状区域中,量化模块9的输入信号对量化器来说变得太高和太快,无法修改其步长Δn。
根据本发明,此问题的解决方案是在P2CM音频编码器1中采用相位模糊滤波器。此滤波器具有全通特性,这意味着所有频率的信号能量保持不变。还可以方便地通过利用在P2CM音频解码器2中采用相同滤波器的逆时间形式来恢复成为原始的未滤波形式。图1显示相位模糊滤波器17。由P2CM音频编码器1的PCM输入信号形成滤波器17的输入,同时将滤波后的输出信号提供给处理模块7。在相位模糊滤波器17中根据以下关系式进行有限冲激响应(FIR)运算,其中p(m)为滤波器冲激响应,L为滤波长度,s(n)为输入信号,而sp(n)为滤波后的输出信号Sp(n)=Σm=0L-1s(n-m)·p(m)........(A)]]>逆相位模糊通过P2CM音频解码器2中处理模块8的输出端处的逆相位模糊滤波器18用相同滤波器完成,但根据下述关系式采用相反的时间顺序进行S′(n)=Σm=0L-1sp′(n-m)·p(L-1-m).....(B)]]>其中sp’(n)为输入信号,而s’(n)为滤波后的输出信号。此运算将在输出端引起长度为L的总延迟。如果编码器用于诸如电话服务的通信,则不希望出现大的处理延迟。因此,滤波长度L必须保持尽可能小。
由于时域中的滤波要求相对大的滤波长度,因此最好在频域中进行滤波。在下文中给出了一个相位模糊滤波器示例,其中滤波器在频域中构建,各频率分量采用不变振幅和变化的相位。此滤波器的频率响应依照以下关系式P(k)=exp[-jπ·k(k-N)N-1] 其中0≤k≤N (C)对于实值数据,负频率轴必须是对称的
R{P(k)}=R{P(N-k)}以及I{P(k)}=-I{P(N-k)} 其中N≤k≤N (D)其中R和I分别为频谱的实部和虚部。
依照以下关系式进行到时域的变换P(n+1/2L)=1/N·Σk=0N-1P(k)·exp[2πjkn/N]]]>其中-L≤n<L(E)可将DFT(离散傅立叶变换)长度N和滤波长度L设置为同一值。滤波器实际上是频率在0和奈奎斯特频率fN之间线性递增的正弦曲线。滤波特性如图3A-3D所示。图3A显示振幅-时间相关性,图3B显示振幅-频率相关性,图3C显示频率-时间相关性,而图3D是展开相位(unwrapped phase)和频率的关系。
虽然此滤波器工作地相当好,但它并不是最优的。滤波器设计中应考虑两个标准一个是一般有声语音中的较低频率(低于1kHz)随时间的过去已经由于声门脉冲波形而被模糊。另一个标准是对高频(大于3kHz)来说,有声语音的能量相对低。另外,在许多应用领域中,如300和3400Hz之间的电话语音中,进行的通带滤波提示通过在1和3kHz之间应用更大的相位模糊度来实现可得到的滤波长度的更有效利用。
因此,在一个优选实施例中,在P2CM中采用下述频率响应以产生相位模糊滤波器P(k)=exp[Ajπsin(2πkN-1) 其中0≤k≤N (F)常数A取决于所需模糊度,尤其是滤波长度和所用的开窗。这种滤波器的特性如图4A-4D所示。这些图与图3A-3D对应。
DFT长度可设为256。有效滤波长度约为96(12毫秒)。在这种滤波长度下,常数A的有利选择为6.44。值96来自于预-/后-处理器的所用输入窗口长度(256)和输出窗口长度(160)之间的差异。这就能够将相位模糊滤波器包括在处理模块7内,并将逆滤波器包括在处理模块8内,这些将在下文中更详细地解释。
图5显示预处理器3的方框图。预处理器包括输入窗口形成单元19、FFT单元20、相位模糊滤波和频谱振幅变形单元21、逆FFT(IFFT)单元22、输出窗口形成单元23和叠加单元24。在此示例中,输入窗口形成单元19的80个样值输入帧移入256个样值的缓冲区,以形成输入窗口s(n)(见图6)。输入窗口的类型为矩形,其长度与输入窗口相同。这样无须为加权采用额外的运算。采用256点的FFT20计算频谱S(k)。在对信号S(k)连续地进行了相位模糊和频谱振幅变形后,在IFFT22中对所得到的信号Sfw(k)进行变换,从而得到此信号的时间表示Sfw(n)。为了实现两个连续帧之间的平滑过渡,采用20ms(160个样值)的汉明(Hanning)输出窗口进行叠加。此输出窗口以256个样值的FFT缓冲区为中心。增加32个样值的附加延迟,以得到帧长(160样值)的倍数作为此过程的总延迟。只有预处理器需要此校正延迟,以保证预处理器和后处理器之间的同步数据成帧。后处理器的结构与预处理器的结构相同,唯一的差异是在与单元21对应的一个单元中,没有进行频谱振幅效应变形,接着应用逆相位模糊滤波器。由于频谱振幅变形和去变形均在频域中工作,因此相位模糊和相应的逆处理也可在频域中工作。虽然滤波操作所要求的从时域到频域的变换应该意味着单独的处理模块,然而它也可以通过包括在现有变形/去变形模块中来近似。这样,不仅减少了滤波器的处理时间,而且能够消除附加处理延迟。公式(A)和(B)的时域滤波运算由频域滤波运算中用于预处理器的公式(G)和用于后处理器的公式(H)代替R{Sp(k)}=R{S(k)}·R{P(k)}-I{S(k)}·I{P(k)}I{Sp(k)}=I{S(k)}·R{P(k)}+R{S(k)}·I{P(k)} (G)以及R{Sp(k)}=R{S(k)}·R{P(k)}+I{S(k)}·I{P(k)}I{Sp(k)}=I{S(k)}·R{P(k)}-R{S(k)}·I{P(k)} (H)其中0≤k<N。
S(k)、P(k)和Sp(k)分别是公式(A)和(B)中相应的函数s(n)、p(n)和sp(k)的傅立叶变换,而R和I是这些信号的实部和虚部。
应当清楚,这种对用于滤波的单独处理模块的近似具有这样一个缺点预处理器中的频谱振幅变形运算是采用来自未处理的输入窗口的幅值进行的,而后处理器中的去变形运算是采用来自此信号的相位模糊形式的幅值进行的。如果连续帧之间的相关性较低,那么这就会引入假信号。然而实际上,这种相关性似乎很高,足以使因这种近似引起的质量降低可以忽略不计。
另一种简化是通过减小在预处理器的输出端加入的附加延迟而进行的。引入这种延迟是为了使预处理器和后处理器的输入同步。由于所插入的相位模糊,这种同步并不比各频率分量具有不同延迟时的可能性更大。
上述实施例通过一种算法来实现,算法可以是能够在P2CM音频编码器和解码器中的信号处理装置上运行的计算机程序的形式。在这个范围内,一部分附图显示的用于执行某些可编程功能的单元,这些单元必须被视为计算机程序的子部件。
上述发明并不限于所述实施例。可对其进行修改。特别是应注意到,上述实施例中提及的频率响应函数和值只是作为示例给出的;其它频率响应函数和值也是可能的。
权利要求
1.语音编码系统,所述系统具有语音编码器以及与所述语音编码器配合使用的语音解码器,所述语音编码器包括预处理器以及ADPCM(自适应差分脉码调制)编码器,所述ADPCM编码器具有量化器和步长适配装置,以及所述语音解码器包括具有与所述ADPCM编码器中类似的步长适配装置的ADPCM解码器、解码器和后处理器,其特征在于,所述预处理器配置了相位模糊滤波装置,用于对所述量化器的输入处高和/或快速的能量变化效应进行平滑,同时所述后处理器配置了与所述相位模糊滤波装置相反的滤波装置。
2.如权利要求1所述的语音编码系统,其特征在于所述预处理器和后处理器包括时域-频域变换单元,用于将音频信号的时域样值帧变换到频域;处理装置,用于处理频域中的样值;以及频域-时域变换单元,用于将后面处理过的样值变换到时域,所述预处理器中的所述处理装置配置了相位模糊和变形装置,同时所述后处理器中的所述处理装置配置了去变形装置和逆相位模糊过滤装置。
3.如权利要求2所述的语音编码系统,其特征在于所述相位模糊滤波装置包括一种在频域中具有基本不变振幅特性和变化的相位特性的滤波器。
4.如权利要求2或3所述的语音编码系统,其特征在于在所述预处理器中一个接一个地连接所述滤波装置和所述变形装置。
5.如权利要求2、3或4所述的语音编码系统,其特征在于在所述后处理器中一个接一个地连接所述去变形装置和所述逆滤波装置。
6.如上述权利要求中任何一项所述的语音编码系统,其特征在于所述相位模糊滤波装置的所述频率响应根据以下关系式P(k)=exp[-jπ·k(k-N)N-1]其中0≤k≤N
7.如权利要求1-5中的任何一项所述的语音编码系统,其特征在于所述相位模糊滤波的所述频率响应根据以下关系式P(k)=exp[Ajπsin(2πkN-1)其中0≤k≤N而A是常数,取决于所需模糊度。
全文摘要
在一种语音编码系统中,该系统具有语音编码器以及与所述语音编码器配合使用的语音解码器,语音编码器包括预处理器以及ADPCM(自适应差分脉码调制)编码器,ADPCM编码器具有量化器和步长适配装置,而语音解码器包括具有与ADPCM编码器中类似的步长适配装置的ADPCM解码器、解码器和后处理器。预处理器配置了相位模糊滤波装置,用于对量化器的输入处高和/或快速的能量变化效应进行平滑,而后处理器配置了与所述相位模糊滤波装置相反的滤波装置。
文档编号G10L19/26GK1461469SQ02801128
公开日2003年12月10日 申请日期2002年3月27日 优先权日2001年4月9日
发明者E·F·吉吉 申请人:皇家菲利浦电子有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称::用于光刻法的可非共价交联的材料的制作方法技术领域::本发明宽泛地涉及新颖的树脂组合物以及使用该树脂组合物形成非共价交联的组合物的方法,该非共价交联的组合物适用于形成用于光刻法的、可溶于含水碱性显影剂的缝隙填充材料、蚀刻掩模组合物

    专利发布时间:2025-05-15阅读:(70)

    专利名称:基于稀疏分解与重构的鲁棒语音特征提取方法技术领域:本发明涉及稀疏分解与重构的语音特征提取方法。 背景技术:让机器能像人一样感知和理解语音一直是人类的梦想,语音识别为这一梦想带来了希望。经过几十年发展,语音识别技术取得了巨大成就,从

    专利发布时间:2025-05-15阅读:(80)

    专利名称:新型太阳能灯具的制作方法技术领域:本实用新型涉及户外照明领域,特别是涉及一种新型太阳能灯具。背景技术:随着外资的进入,灯具行业出现了国内竞争国际化的局面,努力增加节能光源和不同档次、花样、不同用途的灯具的开发,加快绿色、节能光源产

    专利发布时间:2025-05-15阅读:(97)

    专利名称:一种智能玩具及其使用方法技术领域:本发明涉及玩具,尤指一种可发声的智能玩具及其使用方法。 背景技术:随着生活水平的不断提高,玩具的品种越来越丰富,人们对玩具的要求也越来越高,特 别对智能化的玩具的需求日益迫切。然而,传统的玩具一般

    专利发布时间:2025-05-15阅读:(119)

    专利名称:一种气浮导轨系统的制作方法技术领域:本发明属于精密仪器领域,具体涉及一种包括压缩空气控制气路、真空 控制气路的气浮导轨系统。背景技术:超精密气浮工件台系统是当前主流光刻机的核心子系统,要求具有纳米 级的重复定位精度与同步运动精度。

    专利发布时间:2025-05-15阅读:(91)

    专利名称::碱显影性感光性树脂组合物和β-二酮化合物的制作方法技术领域::本发明涉及含有赋予了烯键式不饱和键的特定化合物的碱显影性感光性树脂组合物、和在该碱显影性感光性树脂组合物中进一步含有光聚合引发剂而得到的碱显影性感光性树脂组合物、以及

    专利发布时间:2025-05-15阅读:(77)