专利名称:用于产生带宽扩展输出数据的装置和方法
技术领域:
本发明涉及一种用于产生带宽扩展(BWE)输出数据的装置和方法、一种音频编码 器和音频解码器。
背景技术:
自然音频编码和语音编码是针对音频信号的两种主要类别的编码解码器。自然音 频编码通常用于中间比特率下的音乐或任意信号,且一般提供宽音频带宽。语音编码器基 本上受限于语音再现且可在非常低的比特率下使用。宽带语音较窄带语音提供重要的主观 质量改善。此外,由于多媒体领域的巨大发展,音乐及其它非语音信号的传输以及储存,以 及例如针对通过电话系统的无线电/电视(TV)高质量传输是所期望的特征。为了极大地减小比特率,信号源编码可使用分离频带感知音频编码解码器来执 行。这些自然音频编码解码器利用信号中的感知无关及统计冗余。如果只利用上述对于所 给定的比特率限制而言是不充分的,则采样速率被减小。减小组成等级的数目也是常见的, 允许偶尔可听量化失真,并且允许通过两个或多个声道的联合立体声编码或参数编码来使 用立体声场的劣化。这些方法的过度使用导致恼人的感知劣化。为了提高编码性能,使用 诸如频谱带复制(SBR)的带宽扩展方法作为一种用于在基于HFR(高频重构)的编码解码 器中产生高频信号的有效方法。在记录和传送声响信号的过程中,诸如背景噪声之类的噪声本底(noise floor) 始终存在。为了在解码器侧上产生可信的声响信号,应当传输或产生噪声本底。在后一种 情况下,应当确定原始音频信号中的噪声本底。在频谱带复制中,这通过SBR工具或SBR相 关模块来执行,这种工具或模块产生表征噪声本底的特征(其它除外)并且被传输到解码 器以重构该噪声本底的参数。在WO 00/45379中,描述了一种自适应噪声本底工具,这在所合成的高频带频率 分量中提供充足的噪声内容。然而,若在基带中,短时能量波动或所谓的瞬变发生,则产生 高频带频率分量中的扰动伪像。这些伪像是感知不可接受的,且现有技术不提供可接受的 解决方案(特别是在带宽有限的情况下)。
发明内容
因此,本发明的目的是提供一种装置,该装置允许有效编码而没有可感知伪像,特 别是对于语音信号而言。该目的通过以下来实现根据权利要求1所述的用于产生SBR输出数据的装置、根 据权利要求7所述的编码器、根据权利要求10所述的用于产生SBR输出数据的方法、根据 权利要求13所述的解码器、根据权利要求14所述的用于解码的方法、或根据权利要求16 所述的已编码音频信号。本发明基于以下发现依据音频信号在一时间部分中的能量分布改变所测量的噪 声本底可以在解码器测提高所合成音频信号的感知质量。尽管从理论观点,不需要所测量的噪声本底的改变或处理,但是产生噪声本底的传统技术显示多个缺点。一方面,基于音调 测量的噪声本底的估计通过传统方法来执行是困难的且不总是精确的。另一方面,噪声本 底的目的是在解码器测上再现正确的音调印象。即使原始音频信号与已解码信号的主观音 调印象是相同的,但是仍然存在产生伪像的可能性;例如对于语音信号而言。主观测试显示不同类型的语音信号应以不同方式来处理。在浊音语音信号中,计 算的噪声本底的降低在与原始计算的噪声本底相比较时,噪声本底产生感知上较高的质 量。结果在这种情况下语音发出较少的回响。在音频信号包含齿音的情况下,噪声本底中 的伪像增加可以掩盖与齿音有关的修补方法中的缺点。例如,短时能量波动(瞬变)在被 移动或变换到较高频带时,产生扰动伪像,且噪声本底的增加也可掩盖这些能量波动。瞬时瞬变可以定义为传统信号中的部分,其中能量的强烈增加出现在短时间段 中,这在特定频率区域上可以是受限的或不受限的。瞬变的示例是对响板及打击乐器的击 打,以及人类声音中的特定声音,例如字母Ρ、τ、κ、...。到目前为止,这类瞬变的检测通常 以相同的方式或相同的算法(使用瞬变阈值)来实现,这独立于信号,不管该信号被分类为 语音还是被分类为音乐。此外,浊音和清音语音之间的可能区别不影响传统或经典的瞬变 检测机制。因此,实施例提供了针对诸如浊音语音之类的信号的噪声本底的减小,噪声本底 以及针对包含例如齿音的信号的噪声本底的增加。为了区分不同的信号,实施例使用能量分布数据(例如齿音参数),该能量分布数 据测量能量主要位于较高频率还是较低频率,或者换句话说,音频信号的频谱表示朝较高 频率的方向显示增加还是减小倾斜。其他实施例也使用第一 LPC系数(LPC=线性预测编 码),以产生齿音参数。存在两种用于改变噪声本底的可能性。第一可能性是传输所述齿音参数,使得解 码器可以使用该齿音参数,以便调整噪声本底(例如除了计算的噪声本底以外,增加还是 减小噪声本底)。除了计算的噪声本底参数的外,该齿音参数可通过传统方法来传输或在解 码器侧上计算。第二可能性是通过使用齿音参数(或能量分布数据)改变该所传输的噪声 本底,使得编码器将修改的噪声本底数据传输到解码器,且在解码器侧不需要修改-可以 使用相同的解码器。因此,噪声本底的处理原则上可在编码器侧上以及在解码器侧上进行。频谱带复制作为用于带宽扩展的示例依赖定义一时间部分的SBR帧,在该时间部 分中音频信号被分成第一频带及第二频带中的分量。对于整个SBR帧而言,可以测量及/或 改变噪声本底。备选地,SBR帧被分成噪声包络也是可能的,使得对于噪声包络中的每一噪 声包络而言,可以执行针对噪声本底的调整。换言之,噪声本底工具的时间分辨率通过SBR 帧中的所谓的噪声包络来确定。根据标准(IS0/IEC14496-3),每一 SBR帧最多包含两个噪 声包络,使得噪声本底的调整可在基本部分SBR帧上进行。对于一些应用而言,这可能是足 够的。然而,增加噪声包络的数目以改善用于时变音调的模型也是可能的。因此,实施例包含一种用于针对音频信号产生BWE输出数据的装置,其中,该音频 信号包含第一频带及第二频带中的分量,且该BffE输出数据适于控制第二频带中分量的合 成。该装置包含用于在该音频信号的一时间部分内测量该第二频带中的噪声本底数据的一 噪声本底测量器。因为所测量的噪声本底影响音频信号的音调,所以噪声本底测量器可以 包含音调测量器。备选地,可以实现该噪声本底测量器,以测量信号中的噪音量,以获得噪声本底。该装置还包含用于得出能量分布数据的信号-能量表征器,其中该能量分布数据 表征在该音频信号的该时间部分的频谱中的能量分布的特征,最后,该装置包含用于组合 噪声本底数据与能量分布数据以获得BWE输出数据的处理器。在其他实施例中,信号能量表征器适于将齿音参数用作能量分布数据,且该齿音 参数例如可以是第一 LPC系数。在其他实施例中,处理器适于将能量分布数据添加至已编 码音频数据的比特流中,或者备选地,该处理器适于调整噪声本底参数,使得噪声本底根据 能量分布数据而增加或被减小(信号相关)。在这个实施例中,噪声本底测量器将首先测量 噪声本底,以产生噪声本底数据,该噪声本底数据稍后将由该处理器来调整或改变。在其他实施例中,时间部分是SBR帧,且信号能量表征器适于每一 SBR帧产生多个 噪声本底包络。因此,噪声本底测量器以及信号能量表征器可以适于针对每一噪声本底包 络测量噪声本底数据以及所得出的能量分布数据。噪声本底包络的数目可以是例如1、2、 4、...每 SBR 帧。其他实施例也包含在解码器中用于产生音频信号的第二频带中的分量的频谱带 复制工具。在该产生中,使用针对第二频带中的分量的频谱带复制输出数据和未处理信号 频谱表示。频谱带复制工具包含噪声本底计算单元和组合器,噪声本底计算单元被配置为 根据能量分布数据计算噪声本底,组合器用于组合该未处理信号频谱表示与该计算的噪声 本底,以产生具有该计算的噪声本底的第二频带中的分量。实施例的一个优点是组合外部判定(语音/音频)与内部浊音语音检测器或内部 齿音检测器(信号能量表征器),其中该内部齿音检测器控制被信号通知给解码器的附加 噪声的事件,或者调整计算的噪声本底。对于清音信号而言,执行通常的噪声本底计算获。 对于语音信号(从外部切换判定得出)而言,执行附加语音分析,以确定实际信号的发声。 要添加到解码器或编码器的噪声量根据信号的齿音程度(与发声相反)来缩放。齿音的程 度例如可以通过测量短信号部分的频谱倾斜来确定。
现在通过所示示例描述本发明。参考附图,通过以下详细描述将更容易认识且更 好地理解本发明的特征,在附图中图1示出了根据本发明实施例的用于产生BffE输出数据的装置的框图;图加示出了非齿音信号的负频谱倾斜;图2b示出了类似齿音信号的正频谱倾斜;图2c示出了基于低阶LPC参数的频谱倾斜m的计算;图3示出了编码器的框图;图4示出了用于处理已编码音频串以在解码器侧上输出PCM采样的框图;图5a』b示出了传统噪声本底计算工具与根据实施例的修改的噪声本底计算工 具的比较;以及图6示出了在预定数目的时间部分中的SBR帧的划分。
具体实施例方式图1示出了用于针对音频信号105产生带宽扩展(BWE)输出数据102的装置100。
7该音频信号105包含第一频带10 中的分量和第二频带10 中的分量。BffE输出数据102 适于控制第二频带10 中的分量的合成。装置100包含噪声本底测量器110、信号能量表 征器120以及处理器130。噪声本底测量器110适于在音频信号105的时间部分内测量或 确定第二频带10 的噪声本底数据115。详细地,噪声本底可以通过比较基带的所测量噪 声与较高频带的所测量噪声来确定,使得可以确定在修补后用以再现自然音调印象所需噪 声量。信号能量表征器120得出能量分布数据125,能量分布数据125表征音频信号105 的时间部分的频谱中的能量分布。因此噪声本底测量器110接收例如第一和/或第二频带 IO^u 105b,且信号能量表征器120接收例如第一和/或第二频带IO^u 105b。处理器130 接收噪声本底数据115和能量分布数据125,且将噪声本底数据115和能量分布数据125组 合以获得BffE输出数据102。频谱带复制包含用于带宽扩展的一个示例,其中BffE输出数据 102变成SBR输出数据。接下来的实施例将主要描述SBR的示例,但是本发明的装置/方法 不限于这个示例。能量分布数据125指示第二频带中所包含的能量与第一频带中所包含的能量之 间相比较的关系。在最简单的情况下,能量分布数据由比特给出,该比特指示与SBR频带 (较高频带)相比较,是否有较多的能量储存在基带中,或者反之亦然。SBR频带(较高频 带)例如可以被定义为大于例如由4kHz给出的一阈值的频率分量,且基带(较低频带)可 以是小于该阈值频率(例如小于4kHz或另一频率)的信号分量。这些阈值频率的示例大 概是^Hz或6kHz。图加和图2b示出了音频信号105的时间部分内频谱中的两个能量分布。由能级 P所显示的能量分布作为频率F(模拟信号)的函数,其也可能是由多个采样或线(变换到 频域)所给出的信号的包络。该所示曲线图也较简单,以使频谱倾斜概念可视化。较低及 较高频带可被定义为小于或大于临界频率Ftl的频率(横跨例如500Hz、IkHz或2kHz的频 率)。图加示出了下降频谱倾斜的能量分布(随着频率增大而减小)。换言的,在这种 情况下,与高频率分量相比较,有较多的能量储存在低频率分量中。因此,对于较高频率而 言,能级P减小,暗示负频谱倾斜(递减函数)。因此,如果信号能级P指示在较高频带(F >F0)较较低频带(FCFtl)中有较少的能量,则能级P包含负频谱倾斜。例如针对包含少 量齿音或不包含齿音的音频信号而言,发生这种类型的信号。图2b示出了这种情况,其中能级P随着频率F增加,这暗示正频谱倾斜(根据频 率的能级P的递增函数)。因此,如果信号能级P指示在较高频带(F > F0)较较低频带(F < F0)有较多的能量,则能级P包含正频谱倾斜。如果音频信号105包含例如所示齿音,则 产生这样的能量分布。图加示出了具有负频谱倾斜的信号的功率谱。负频谱倾斜表示频谱的下降斜率。 与的相反,图2b示出了具有正频谱倾斜的信号的功率谱。换言之,该频谱倾斜具有上升斜 率。当然,诸如在图加中所示的频谱或在图2b中所示的频谱中的每一频谱在具有不同于 频谱倾斜的斜率的局部范围内将具有变化。例如,当诸如通过使直线与实际频谱之间的平方差最小化来讲该直线拟合到该功 率谱时,可以获得频谱倾斜。将直线拟合到频谱可以是用于计算短时频谱的频谱倾斜的方 式之一。然而,优选地,使用LPC系数来计算频谱倾斜。
V. Goncharoff, E. Von Colln 和 R. Morris 的出版物"Efficientcalculation of spectral tilt from various LPC parameters", NavalCommand> Control and Ocean Surveillance Center (NCCOSC)、RDT和EDivision、San Diego.CA 92152-52001 的(于 1996 年5月23日出版)公开了计算频谱倾斜的若干方法。在一个实现方式中,频谱倾斜被定义为针对对数功率谱的最小二乘线性拟合的斜 率。然而,也可以应用针对非对数功率谱或振幅谱或任何其它类型频谱的线性拟合。这一 点在本发明的上下文中特别正确,其中在优选实施例中,主要对频谱倾斜的符号,即线性拟 合结果的斜率是正还是负感兴趣。然而,频谱倾斜的实际值在本发明的高效实施例中不太 重要,但是该实际值在较详细实施例中可能是重要的。当语音的线性预测编码(LPC)用来对其短时频谱进行建模时,直接根据LPC模型 参数而非对数功率谱计算频谱倾斜在计算上较有效。图2c示出了与第η阶全极对数功率 谱相对应的倒频谱系数ck的方程式。在这一方程式中,k是整数索引,Ρη是LPC滤波器的ζ 域传递函数H(Z)的全极表示中的第η极。图2c中的下一个方程式是根据倒频谱系数的频 谱倾斜。特别地,m是频谱倾斜,k及η是整数,N是H(Z)的全极模型的最高阶极点。图2c 中的下一个方程式定义第N阶LPC滤波器的对数功率谱S(co)。G是增益常数,且Cik是线 性预测器系数,且ω等于2X π Xf,其中f是频率。图2c中的最下面的方程式直接产生倒 频谱系数作为LPC系数Cik的函数。然后倒频谱系数Ck用来计算频谱倾斜。一般而言,这 种方法较分解LPC多项式以获得极值及使用极方程式求解频谱倾斜将在计算上将更有效。 因此,在计算LPC系数α k后,可以使用在图2c中的底部的方程式来计算倒频谱系数ck,然 后可以使用图2c中的第一个方程式根据倒频谱系数计算极点pn。然后基于该极点,可以计 算在图2c中的第二个方程式中所定义的频谱倾斜m。已发现的是,第一阶LPC系数α i对于频谱倾斜的符号的良好估计而言是充分的。 因此,CI1是。的良好估计。因此,C1是P1的良好估计。当P1被插入到针对频谱倾斜m的 方程式时,变得清楚的是,由于图2c中的第二个方程式中的负符号,频谱倾斜m的符号与在 图2c中的LPC系数定义中的第一 LPC系数α工的符号相反。优选地,信号能量表征器120被配置为,产生与在音频信号的当前时间部分中的 音频信号的频谱倾斜的符号有关的指示作为能量分布数据。优选地,信号能量表征器120被配置为产生从用于估计一个或多个低阶LPC系数 的音频信号的时间部分的LPC分析得出的数据作为能量分布数据,以及从该等一个或多个 低阶LPC系数得出能量分布数据。优选地,信号能量表征器120被配置为只计算第一 LPC系数而不计算额外的LPC 系数,且从该第一 LPC系数的符号得出能量分布数据。优选地,信号能量表征器120被配置为确定频谱倾斜为负频谱倾斜,其中当第一 LPC系数具有正符号时,频谱能量从较低频率到较高频率减小,以及检测频谱倾斜为正频谱 倾斜,其中当该第一 LPC系数具有负符号时,频谱能量从较低频率到较高频率增加。在其它实施例中,频谱倾斜检测器或信号能量表征器120被配置为不仅计算第一 阶LPC系数,而且计算若干低阶LPC系数,诸如直到3阶或4阶或甚至更高阶的LPC系数。 在这样一个实施例中,频谱倾斜按如此高的精确度计算,以至于我们不能只指示符号作为 齿音参数,而且作为依赖于倾斜的值,如在该符号实施例中其具有两个以上的值。
如上所述,在较高频率区域中齿音包含大量能量,而对于不具有或只具有很少齿 音(例如元音)的部分,能量大部分分布在基带(低频带)中。这一观察可被使用,以确定 语音信号部分是否包含齿音或所包含的程度。因此,噪声本底测量器110 (检测器)可使用频谱倾斜,以判定齿音的量,或给出信 号中的齿音程度。频谱倾斜基本上可从能量分布的简单LPC分析获得。其可能例如足以计 算第一 LPC系数,以确定频谱倾斜参数(齿音参数),因为频谱的行为(是递增还是递减函 数)可以从第一 LPC系数推断。该分析可以在信号能量表征器120内执行。如果音频编码 器使用LPC用以解码音频信号,则不需要传送齿音参数,因为第一 LPC系数可以在解码器端 被用作能量分布数据。在实施例中,处理器130可以被配置为根据能量分布数据125 (频谱倾斜)改变噪 声本底数据115,以获得经修改的噪声本底数据,且处理器130可以被配置为将该经修改的 噪声本底数据加入到包含BffE输出数据102的比特流中。噪声本底数据115的改变可以是, 使得与包含较少齿音(图加)的音频信号105相比较,对于包含较多齿音(图2b)的音频 信号105,经修改噪声本底被增加。用于产生带宽扩展(BWE)输出数据102的装置100可以是编码器300的一部分。 图3示出了编码器300的实施例,该编码器300包含BTO相关模块310 (其可以包含例如SBR 相关模块)、分析QMF组320、低通滤波器(LP滤波器)330、AAC核心编码器;340以及比特流 有效载荷格式化器350。此外,编码器300包含包络数据计算器210。编码器300包含PCM 样本(音频信号105 ;PCM =脉码调制)的输入端,该输入端连接到分析QMF组320及BWE 相关模块310及LP滤波器330。分析QMF组320可以包含用以分离第二频带10 的高通 滤波器,且连接到包络数据计算器210,该包络数据计算器210连接到比特流有效载荷格式 化器350。LP滤波器330可以包含用以分离第一频带10 的低通滤波器,且连接到AAC核 心编码器;340,该AAC核心编码器340连接到比特流有效载荷格式化器350。最后,BffE相 关模块310连接到包络数据计算器210及AAC核心编码器340。因此,编码器300对音频信号105进行下采样,以产生核心频带10 中的分量(在 LP滤波器330中),将该分量输入到AAC核心编码器;340中,该AAC核心编码器340编码核 心频带中的音频信号,以及将已编码信号355转发到比特流有效载荷格式器350,其中,将 核心频带的已编码音频信号355加入到已编码音频串流345(比特流)中。另一方面,音频 信号105由分析QMF组320来分析,且该分析QMF组的高通滤波器提取高频带10 中的频 率分量,且将该信号输入到包络数据计算器210中,以产生BWE数据375。例如,64子频带 QMF组320执行输入信号的子频带滤波。来自滤波器组的输出(即子频带样本)是复数值, 从而与规则QMF组相比,被两倍过采样。BffE相关模块310例如可以包含用于产生BWE输出数据102的装置100,且通过例 如将BffE输出数据102(齿音参数)提供到包络数据计算器210来控制该包络数据计算器 210。使用由分析QMF组320产生的音频分量10 ,包络数据计算器210计算BWE数据375 且将该BWE数据375转发给比特流有效载荷格式化器350,该比特流有效载荷格式器350将 BffE数据375与通过核心编码器340编码的分量355组合在已编码音频流345中。此外,包 络数据计算器210例如可以使用齿音参数125,以调整噪声包络中的噪声本底。备选地,用于产生BffE输出数据102的装置100也可以是包络数据计算器210的
10一部分,且处理器也可以是比特流有效载荷格式化器350的一部分。因此,装置100中的不 同组件可以是图3中的不同编码器组件的一部分。图4示出了解码器400的实施例,其中将已编码音频流345输入到比特流有效载 荷解格式化器357中,比特流有效载荷解格式化器357使已编码音频信号355与BWE数据 375分离。将已编码音频信号355输入到例如AAC核心解码器360中,该AAC核心解码器 360产生第一频带中的已解码音频信号10fe。将音频信号105a (第一频带中的分量)输入 到分析32频带QMF组370中,该分析32频带QMF组370从第一频带中的音频信号10 产 生例如32频率子频带10532。将该频率子频带音频信号10532输入到补丁发生器410中,以 产生未处理的信号频谱表示425 (补丁),将其输入到BWE工具430a中。该BWE工具430a 例如可以包含用以产生噪声本底的噪声本底计算单元。此外,该BWE工具430a可以重构丢 失的谐波或执行逆滤波步骤。BffE工具430a可实施要用在补丁发生器410的QMF频谱数据 输出端的已知频谱带复制方法,用在频域中的修补算法例如以采用频域中的频谱数据的简 单镜像或复制。另一方面,将BWfE数据375(例如包含BWE输出数据10 输入到比特流剖析器380 中,该比特流剖析器380分析BWE数据375,以获得不同的子信息385,且将这些子信息输入 到例如提取控制信息412及频谱带复制参数102的霍夫曼(Huffman)解码与解量化单元 390中。该控制信息412控制补丁发生器410 (例如以使用特定修补算法),且BWE参数102 也包含例如能量分布数据125 (例如齿音参数)。将控制信息412输入到BWE工具430a中, 且将频谱带复制参数102输入到BWE工具430a以及包络调整器430b中。该包络调整器 430b可操作以调整所产生补丁的包络。因此,包络调整器430b产生第二频带的经调整未处 理信号105b,且将其输入到一合成QMF组440中,该合成QMF组440组合第二频带10 中 的分量与频域10532中的音频信号。合成QMF组440例如可以包含64个频带,并且通过组 合两个信号(第二频带10 中的分量与频域音频信号10532)产生合成音频信号105(例如 PCM样本输出,PCM =脉码调制)。合成QMF组440可包含组合器,该组合器在将第二频带10 转换到时域之前且在 其将作为音频信号105被输出之前,组合频域信号105%与该第二频带10恥。可选地,组合 器可输出频域中的音频信号105。BffE工具430a可以包含传统噪声本底工具,该噪声本底工具将额外的噪声加入到 经修补频谱(未处理信号频谱表示42 ,使得频谱分量10 显示出原始信号的第二频带 105b的音调,其中该频谱分量10 由核心编码器340传送且将用来合成第二频带10 的 分量。然而,特别是在浊音语音路径中,由传统噪声本底工具所加入的额外噪声可能损害所 再现信号的感知质量。根据实施例,可以修改噪声本底工具,使得噪声本底工具考虑能量分布数据 125 (BffE数据102的一部分),以根据所检测到的齿音程度改变噪声本底(参考图幻。备选 地,如上所述,可以不修改解码器,而相反编码器可根据所检测到的齿音程度来改变噪声本 底数据。图5示出了传统噪声本底计算工具与根据本发明实施例的经修改的噪声本底计 算工具的比较。该经修改的噪声本底计算工具可以是BWE工具430的一部分。图fe示出了包含计算器433的传统噪声本底计算工具,其使用频谱带复制参数102和未处理信号频谱表示425,以计算未处理频谱线和噪声频谱线。BWE数据102可以包 含包络数据与和噪声本底数据,从编码器传送该数据作为已编码音频流345的一部分。未 处理信号频谱表示425例如从补丁发生器获得,该补丁发生器产生较高频带中的音频信号 分量(第二频带10 中的合成分量)。未处理频谱线和噪声频谱线将进一步被处理,这可 能涉及逆滤波、包络调整、加入丢失谐波等等。最后,组合器434将未处理频谱线与计算的 噪声频谱线组合到第二频带10 中的分量。图恥示出了根据本发明的实施例的噪声本底计算工具。除在图fe中所示的传统 噪声本底计算工具以外,实施例包含噪声本底修改单元431,该噪声本底修改单元431被配 置为例如在噪声本底计算工具433中对传送的噪声本底数据进行处理之前,基于能量分布 数据125修改传送的噪声本底数据。也可以从编码器传送能量分布数据125作为BWE数据 102的一部分,或除BffE数据102之外,从编码器传送能量分布数据125。所传送噪声本底 数据的修改包含,例如噪声本底的级别的正频谱倾斜的增加(参考图2a)或噪声本底的级 别的负频谱倾斜的减小(参考图2b),例如增加3dB或减小3dB或任何其它离散值(例如 +/-IdB或+/-2dB)。该离散值可以是整数dB值或非整数dB值。在减小/增加与频谱倾斜 之间也可能存在函数依赖(例如线性相关)。基于这经修改噪声本底数据,噪声本底计算工具433基于可以再次从补丁产生器 中获得的未处理信号频谱表示425,再次计算未处理频谱线和经修改的噪声频谱线。图恥 中的频谱带复制工具430也包含组合器434,该组合器434用于组合未处理频谱线与计算的 噪声本底(包括来自修改单元431的修改),以产生第二频带10 中的分量。能量分布数据125可以指示最简单情况下的对传送的噪声本底数据级别的修改。 如上所述,第一 LPC系数同样可用作能量分布数据125。因此,如果音频信号105使用LPC 来编码,则其他实施例使用第一 LPC系数,该第一 LPC系数是通过已编码音频流345来传送 作为能量分布数据125。在这种情况下,不需要另外传送除能量分布数据125。备选地,噪声本底的修改也可在计算器433中的计算的后执行,使得噪声本底修 改单元431可以布置在处理器433之后。在其他实施例中,能量分布数据125可直接输入 到计算器433中,该计算器433直接修改噪声本底的计算作为计算参数。因此,噪声本底修 改单元431和计算器/处理器433可已组合成噪声本底修改器(modifier)工具433、431。在另一实施例中,包含噪声本底计算工具的BWE工具430包含开关,其中该开关被 配置为在噪声本底的高级别(正频谱倾斜)与噪声本底的低级别(负频谱倾斜)之间切换。 该高级别例如可以与其中所传送的噪声级别被加倍(或与一个因子相乘)的情况相对应, 而低级别与其中所传送级别被减倍的情况相对应。开关可以受已编码音频信号345的比特 流中的比特控制,该位指示音频信号的正或负频谱倾斜。备选地,该开关也可通过分析已解 码音频信号105a (第一频带中的分量)或频率子频带音频信号105%来激活,例如相对于频 率倾斜(频率倾斜是正还是负)。备选地,开关也可由第一 LPC系数来控制,因为这系数指 示频率倾斜(参考上文)。尽管示意了图1、图3至图5中的一些作为装置的框图,但是这些图同时是方法的 示意,其中方框的功能与方法步骤相对应。如上所述,可以将SBR时间单元(SBR巾贞)或时间部分划分成各种数据块、所谓的 包络。这种划分在SBR帧上是均勻的,且允许灵活调整SBR帧中的音频信号的合成。
图6示出了在η个包络中针对SBR帧的这种划分。SBR帧覆盖开始时间、与结束 时间tn之间的时间段或时间部分T。该时间部分T例如被划分成八个时间部分第一时间
部分Tl、第二时间部分T2.....第八时间部分T8。在这个示例中,包络的最大数目与时间
部分的数目相符,且η = 8。这8个时间部分Tl.....Τ8由7个边界分开,这意味着边界1
分开第一与第二时间部分Τ1、Τ2,边界2位于第二部分Τ2与第三部分Τ3之间等等,直到边 界7分开第七部分Τ7与第八部分Τ8。在其他实施例中,SBR帧被分成四个噪声包络(n = 4)或者被分成两个噪声包络 (n = 2)。在第6图中所示的实施例中,所有包络包含相同的时间长度,在其它实施例中该 时间长度可能是不同的,使得噪声包络覆盖不同的时间长度。详细地,具有两个噪声包络(η =2)的情况包含在前四个时间部分(Τ1、Τ2、Τ3及Τ4)上从时间、延伸的第一包络及覆盖 第五到第八时间部分(Τ5、Τ6、Τ7及Τ8)的第二噪声包络。由于标准IS0/IEC 14496-3,包络 的最大数目限制为2。但是实施例可使用任何数目的包络(例如两个、四个或八个包络)。在其他实施例中,包络数据计算器210被配置为依据所测量的噪声本底数据115 的改变来改变包络的数目。例如,如果所测量的噪声本底数据115指示变化噪声级别(例 如大于一阈值),则包络的数目可以增加,而在噪声本底数据115指示恒定噪声本底的情况 下,包络的数目可以减少。在其它实施例中,信号能量表征器120可以基于语言信息,以检测语音中的齿音。 当例如语音信号具有关联元信息(诸如国际语音拼字)时,则该元信息的分析也将提供语 音部分的齿音检测。在该上下文中,对音频信号的元数据部分进行分析。尽管在装置的上下文中描述了一些方面,但是清楚的是,这些方面也代表对应方 法的描述,其中模块或设备与方法步骤或方法步骤的特征相对应。类似地,在方法步骤的上 下文中所描述的方面也代表对应模块或项目或对应装置的特征的描述。本发明的已编码音频信号可以储存在数字储存介质上或可在诸如无线传输介质 的传输介质或诸如因特网的有线传输介质上传送。依据特定实施要求,本发明的实施例可在硬件或软件中来实施。实施可以使用其 上储存有电可读控制信号的数字储存介质来执行,例如软盘、DVD、CD、ROM、PROM、EPROM、 EEPROM或闪存,该电可读控制信号可以与可编程计算机系统协作(或能够协作),使得执行 相应方法。根据本发明的一些实施例包含具有电可读控制信号的数据载体,该电可读控制信 号可以与可编程计算机系统协作,使得执行这里所述的方法之一。一般地,本发明的实施例可实施为具有程序代码的计算机程序产品,当该计算机 程序产品在计算机上执行时,该程序代码可操作用于执行方法之一。该程序代码例如可以 储存在机器可读载体上。其它实施例包含计算机程序,该计算机程序用于执行这里所述的方法之一、储存 在机器可读载体上。换言的,本发明方法的实施例因此是具有程序代码的计算机程序,当该计算机程 序在计算机上执行时,该程序代码用于执行这里所述的方法之一。因此,本发明方法的另一实施例是一种数据载体(或数字储存介质、或计算机可 读介质),该数据载体包含、其上记录有计算机程序,该计算机程序用以执行这里所述的方法之一。因此,本发明方法的另一实施例是代表计算机程序的数据流或信号序列,该计算 机程序用于执行这里所述的方法之一。该数据流或信号序列例如可以被配置为经由数据通 信连接(例如经由因特网)来传送。另一施例包含被配置为或适于执行这里所述的方法之一的处理装置,例如计算机 或可编程逻辑器件。另一实施例包含其上安装用于执行这里所述的方法之一的计算机程序的计算机。在一些实施例中,可编程逻辑器件(例如现场可编程门阵列)可以用来执行这里 所述方法的功能中的一些或全部。在一些实施例中,现场可编程门阵列可以与微处理器协 作,以执行这里所述的方法之一。一般地,该等方法优选地通过任何硬件装置来执行。就本发明的原理而言,上述实施例只是说明性的。需理解的是,这里所述配置及细 节的修改与变化对于本领域中的其它技术人员而言将是显而易见的。因此,仅限于未决专 利权利要求的范围,而不限于这里实施例的描述与解释所提出的特定细节。
权利要求
1.一种用于为音频信号(10 产生带宽扩展输出数据(10 的装置(100),所述音频 信号(10 包括第一频带(105a)中的分量和第二频带(105b)中的分量,所述带宽扩展输 出数据(10 适于控制第二频带(105b)中分量的合成,所述装置包括噪声本底测量器(110),用于在音频信号(105)的时间部分(T)内测量第二频带 (105b)的噪声本底数据(115);信号能量表征器(120),用于得到能量分布数据(125),能量分布数据(12 表征音频 信号(105)的时间部分⑴的频谱中的能量分布;以及处理器(130),用于组合噪声本底数据(1巧)与能量分布数据(125),以获得带宽扩展 输出数据(102)。
2.如权利要求1所述的装置(100),其中,信号能量表征器(120)被配置为使用齿音参 数或频谱倾斜参数作为能量分布数据(125),所述齿音参数或频谱倾斜参数标识音频信号 (105)随频率(F)的增大或减小级别。
3.如权利要求2所述的装置(100),其中,信号能量表征器(120)被配置为使用第一线 性预测编码系数作为所述齿音参数。
4.如前述权利要求中任一项所述的装置(100),其中,处理器(130)被配置为将该噪声 本底数据(115)和频谱能量分布数据(125)加到比特流中,作为OTE输出数据(102)。
5.如权利要求1至3中任一项所述的装置(100),其中,处理器(130)被配置为根据 能量分布数据(12 改变噪声本底数据(115),以获得修改的噪声本底数据,并且,处理器 (130)被配置为将修改的噪声本底数据加到比特流中,作为BffE输出数据(102)。
6.如权利要求5所述的装置(100),其中,噪声本底数据(115)的改变是,使得与包括 较少齿音的音频信号(105)相比较,修改的噪声本底针对包括较多齿音的音频信号(105) 而增加。
7.一种用于编码音频信号(10 的编码器(300),音频信号(105)包括第一频带 (105a)中的分量和第二频带(105b)中的分量,所述编码器(300)包括核心编码器(340),用于编码第一频带(105a)中的分量;如权利要求1至6中任一项所述的用于产生OTE输出数据(102)的装置(100);以及包络数据计算器010),用于基于第二频带(105b)中的分量,来计算BffE数据(375), 其中,所计算的BffE数据(37 包括BffE输出数据(102)。
8.如权利要求7所述的编码器(300),其中,时间部分(T)覆盖SBR帧,所述SBR帧包 括多个噪声包络,且所述包络数据计算器(210)被配置为,为多个噪声包络中的不同噪声 包络计算不同的BffE数据(375)。
9.如权利要求7或8所述的编码器(300),其中,包络数据计算器(210)被配置为根据 测量的噪声本底数据(11 的改变,来改变包络的数目。
10.一种用于为音频信号(105)产生带宽扩展输出数据(102)的方法,音频信号(105) 包括第一频带(105a)中的分量和第二频带(105b)中的分量,带宽扩展输出数据(102)适 于控制第二频带(105b)中的分量的合成,所述方法包括以下步骤在音频信号(105)的时间部分(T)内测量第二频带(105b)中的噪声本底数据(115);得到能量分布数据(125),能量分布数据(12 表征音频信号(10 的时间部分(T)的 频谱中的能量分布;以及组合噪声本底数据(11 与能量分布数据(125),以获得带宽扩展输出数据(102)。
11.一种带宽扩展工具G30),用于针对第二频带(105b)中的分量,基于带宽扩展输出 数据(10 且基于未处理信号频谱表示025),产生音频信号(10 的第二频带(105b)中 的分量,其中,带宽扩展输出数据(10 包括能量分布数据(125),能量分布数据(12 表征 音频信号(10 的时间部分(T)的频谱中的能量分布,所述带宽扩展工具(430)包括噪声本底修改器工具033,431),被配置为根据能量分布数据(12 来修改所传送的 噪声本底;以及组合器034),用于组合未处理信号频谱表示(42 与修改的噪声本底,以产生第二频 带(105b)中具有修改的噪声本底的分量。
12.如权利要求11所述的带宽扩展工具G30),其中,音频信号(10 包括第一频带 (105a)中的分量,并且带宽扩展参数(102)包括对噪声本底的噪声级别加以指示的所传送 的噪声本底数据,以及其中,噪声本底修改器工具(433、431)适于在能量分布数据(12 指示音频信号(10 在第二频带(105b)的分量中比在第一频 带(105a)的分量中包括更多能量的情况下,增加噪声级别,或者在能量分布数据(12 指示音频信号(10 在第一频带(105a)的分量中比在第二频 带(105b)的分量中包括更多能量的情况下,减小噪声级别。
13.一种用于对已编码音频流(345)进行解码以获得音频信号(105)的解码器,包括比特流解格式化器(375),分离已编码信号(355)与BffE输出数据(102);如权利要求11或权利要求12所述的带宽扩展工具G30);核心解码器(360),用于从已编码音频信号(355)中解码第一频带(105a)中的分量;以及合成单元G40),用于通过组合第一频带(105a)与第二频带(105b)中的分量,来合成 音频信号(105)。
14.一种用于对已编码音频流(34 进行解码以获得音频信号(10 的方法,该音频 信号(10 包括第一频带(105a)中的分量和带宽扩展输出数据(102),其中,带宽扩展输出 数据(10 包括能量分布数据(12 和噪声本底数据,能量分布数据(12 表征音频信号 (105)的时间部分(T)的频谱中的能量分布,所述方法包括从已编码音频流(345)中分离出已编码音频信号(355)和BffE输出数据(102);从已编码音频信号(355)中解码出第一频带(105a)中的分量;从第一频带(105a)中的分量中产生针对第二频带(105b)中的分量的未处理信号频谱 表示(425);根据能量分布数据(12 且根据所传送的噪声本底数据,来修改噪声本底;组合未处理信号频谱表示(42 与修改的噪声本底,以产生第二频带(105b)中的具有 计算的噪声本底的分量;以及通过组合第一频带(105a)与第二频带(105b)中的分量,来合成音频信号(105)。
15.一种计算机程序,当在计算机上执行时用于执行如权利要求10或权利要求14所述 的方法。
16.一种已编码音频流(345),包括已编码音频信号(355),针对音频信号(10 的第一频带(105a)中的分量; 噪声本底数据,适于控制针对音频信号(105)的第二频带(105b)中的分量的噪声本底 的合成;以及能量分布数据(125),适于控制噪声本底的修改。
全文摘要
一种用于为音频信号产生带宽扩展输出数据的装置(100),包含噪声本底测量器(110)、信号能量表征器(120)和处理器(130)。该音频信号(105)包含第一频带(105a)中的分量和第二频带(105b)中的分量,该带宽扩展输出数据(102)适于控制该第二频带中的分量的合成。该噪声本底测量器(110)在音频信号(105)的时间部分(T)内测量该第二频带(105b)中的噪声本底数据。信号能量表征器(120)得到能量分布数据,该能量分布数据(125)表征音频信号(105)的时间部分(T)的频谱中的能量分布。处理器(130)组合噪声本底数据(115)与能量分布数据(125),以获得带宽扩展输出数据(102)。
文档编号G10L21/02GK102144259SQ200980134905
公开日2011年8月3日 申请日期2009年6月23日 优先权日2008年7月11日
发明者乌尔里赫·克里默, 伯恩哈德·格里尔, 哈拉尔德·波普, 尼古拉斯·雷特尔巴, 弗雷德里克·内格尔, 曼努埃尔·扬德尔, 维尔吉利奥·巴奇加卢波, 马克思·诺伊恩多夫, 马库斯·洛瓦索, 马库斯·穆尔特鲁斯, 马雷·盖尔 申请人:弗劳恩霍夫应用研究促进协会
用于产生带宽扩展输出数据的装置和方法
相关推荐
专利名称:一种烛台的制作方法技术领域:一种烛台技术领域[0001]本实用新型涉及一种烛台。背景技术:[0002]随着人们对生活质量的不断提高,人们对照明的要求也越来越高。目前常用的烛台只能放置一只蜡烛,使得需要放置多个蜡烛的场合需要占用较大
专利名称:电子音乐装置以及与音乐相关的数据的显示方法技术领域:本发明总的来说涉及能够随演奏数据的再现而显示各种信息(例如歌词)的电子音乐装置、方法以及程序。尤其是,本发明涉及允许用户容易地选择用户创建的文本数据文件的改进的电子音乐装置、方法
防爆手提灯的制作方法【专利摘要】一种防爆手提灯,包括:电池盒底壳,为塑料壳体结构,电池盒底壳设有一电池收容腔及与电池收容腔连通的第一开口,第一开口的外侧壁上开设有围绕第一开口一周的外密封槽,其中从第一开口的端面朝内延伸的尺寸为外密封槽的深度
专利名称:滤色器及其制造方法技术领域:本发明涉及在彩色液晶显示器、彩色扫描仪、固体摄象元件等当中使用的滤色器,更详细地说,涉及在要求经曝光、显象的图形形成工序后,在有耐久性的用途中使用的耐久性优良的滤色器。对于滤色器所用材料要求的特性,多是
专利名称:马林巴琴结构的制作方法技术领域:本发明涉及一种马林巴琴(Marimba)结构,其使每个琴键独立悬置在琴座 上,而使琴键被敲击时,不会震动到相邻的琴键。背景技术:请参照图1、 2所示, 一般马林巴琴(又称为非洲木琴)结构设有一琴座
专利名称:显示装置及其制造方法技术领域:本发明涉及显示装置及其制造方法,特别是涉及像素缺陷的修正。背景技术:近年来,对于具有多个TFT(薄膜晶体管)等开关元件的有源矩阵型显示装置,越 来越强烈地要求提高显示品质。但是,由于伴随显示的高精细化