专利名称:近透明或透明的多声道编码器/解码器方案的制作方法
技术领域:
本发明涉及多声道编码方案,具体涉及参数多声道编码方案。
背景技术:
如今,有两种技术在充分利用立体声音频信号中所包含的立体声冗余和不相干方面占优势。中侧(M/S)立体声编码[1],主要针对冗余去除,并基于以下事实由于两个声道经常完全相关,因此对这两个声道之和以及差进行编码更加有益。因此,与较低功率侧信号 (side signal)(或差信号)相比,可以在高功率的和信号上消耗更多比特。另一方面,强度立体声编码[2,3]在每个子带上通过以和信号和方位角代替两个信号来实现不相干去除。 在解码器中,将方位角参数用于控制由子带和信号所表示的听觉事件的空间位置。将中侧和强度立体声广泛地用于现有的音频编码标准W]。M/S方法关于冗余利用的问题在于,如果两个分量异相(一个相对于另一个延迟),则M/S编码增益为零。这是概念问题,因为在实际的音频信号中时间经延迟频繁发生。 例如,空间听力在很大程度上依靠信号(尤其是低频率信号)之间的时间差[5]。在音频记录中,时间延迟源于立体声麦克风装备,以及人工后处理(音响效果)。在中侧编码中,经常将自组织解决方案用于时间延迟问题中在不同信号的功率小于和信号的功率的常因子时只采用M/S编码[1]。在W]中更好地提出了对准问题,在其中从另一个信号分量来预测信号分量之一。在编码器中,逐帧得到预测滤波器,并将其作为侧信号方面信息进行传输。 在[7]中,考虑了反向自适应备选。要注意的是,性能增益很大程度上取决于信号类型,但是针对特定类型的信号,获得了与M/S立体声编码相比的显著增益。近来,参数立体声编码受到了很大关注[8-11]。基于核心单声道(单一声道)编码器,这种参数方案提取了立体声(多声道)分量,并以相对低的比特率对其进行独立编码。可以将此看作强度立体声编码的概括。参数立体声编码方法在音频编码的低比特率范围内特别有用,这导致只将全部比特预算中的一小部分用于立体声分量的质量的显著增长。参数方法还由于可以缩放到多声道(多于两个声道)情况并具有提供反向兼容的能力而引人注目MP3环绕声[12]就是这样的一个示例,其中对多声道数据进行编码,并通过数据流的侧信号声场进行传输。这允许接收机不具有对正常的立体声信号进行编码的多声道性能,但是环绕声使能的接收机可以享有多声道音频。参数方法经常依靠对不同的技术心理声学,主要是声道间电平差(ICLD’ s)和声道间时间差(ICTD’ S)。在[11]中,提出了相干参数对于固有的音响效果具有重要意义。然而,参数方法受到以下限制由于固有的模型限制,编码器在较高比特率时不能够达到透明质量。该问题涉及参数多声道编码器,该参数多声道编码器的最大可获得质量值被限制到明显在透明质量之下的阈值。参数质量阈值如图11中的1100所示。从表示根据BBC增强型单声道编码器(110 的质量/比特率的示意性曲线图中可以看出,该质量不能超过与比特率无关的参数质量阈值1100。这意味着,即使使用增大的比特率,这种参数多声道编码器的质量也不再增大。BCC增强型单声道编码器是针对当前存在的立体声编码器或多声道编码器的示例,在其中执行立体声-下混音或多声道下混音。此外,通过描述声道间电平关系、声道间时间关系、声道间相干关系等导出参数。该参数不同于诸如中侧编码器的侧信号之类的波形信号,因为与参数表示相比, 该侧信号描述了以波形格式存在的两个声道之差,这通过给出特定参数而非逐个样本的波形表示描述了两个声道之间的相似性或相异性。在参数需要用于从编码器传输到解码器的少量比特的同时,波形描述,即从波形中导出的残留信号,需要比理论上所允许的透明重构更多的比特。图11示出了根据这种基于波形的传统的立体声编码器(1104)的典型质量/比特率。从图11中可以明显看出,比特率越大,诸如中侧立体声编码器的传统立体声编码器的质量也越高,直至该质量达到透明质量。存在一种“交叉比特率”,在这个比特率处,参数多声道编码器的特性曲线1102和传统的基于波形的立体声编码器的曲线1104相互交叉。在这个交叉(cross-over)比特率之下,参数多声道编码器远优于传统的立体声编码器。当针对两个编码器考虑同一比特率时,参数多声道编码器提供了比传统的基于波形的立体声编码器的质量高出质量差1108的质量。换言之,当希望具有特定质量1110时, 可以使用参数编码器按照与传统的基于波形的立体声编码器相比减少了差比特率1112的比特率来实现这个质量。然而,在交叉比特率之上,情况则完全不同。因为参数编码器处于其最大参数编码器质量阈值1100,所以可以只通过使用传统的基于波形的立体声编码器来获得较好的质量,该立体声编码器使用与参数编码器中所使用的相同数量的比特。
发明内容
本发明的目的是提供一种与现有多声道编码方案相比允许增大的质量和减少的比特率的编码/解码方案。根据本发明的第一方面,这个目的可以由多声道编码器来实现,该多声道编码器用于对具有至少两个声道的原始多声道信号进行编码,该多声道编码器包括参数提供器, 用于提供一个或多个参数,形成一个或多个参数,使得可以使用从多声道信号和一个或多个参数中所导出的一个或多个下混音信号来形成重构多声道信号;残留信号编码器,基于原始多声道信号、一个或多个下混音声道或一个或多个参数来产生已编码的残留信号,所以使用残留信号所形成的重构多声道信号比不使用残留信号所形成的重构多声道信号与原始多声道信号更相似;以及数据流成形器,用于形成具有残留信号以及一个或多个参数的数据流。根据本发明的第二方面,这个目的可以由多声道解码器来实现,该多声道解码器用于对具有一个或多个下混音声道、一个或多个参数以及已编码的残留信号的已编码的多声道信号进行解码,该多声道解码器包括残留信号解码器,用于基于已编码的残留信号产生已解码的残留信号;以及多声道解码器,用于使用一个或多个下混音声道和一个或多个参数来产生第一重构多声道信号,其中该多声道解码器还可以用于使用一个或多个下混音声道和已解码的残留信号来代替第一重构多声道信号或者除了第一多声道信号之外又产生第二重构多声道信号,其中该第二重构多声道信号比第一重构多声道信号与原始多声道信号更为相似。根据本发明的第三方面,这个目的可以由多声道编码器来实现,该多声道编码器用于对具有至少两个声道的原始多声道信号进行编码,该多声道编码器包括时间对准器, 用于使用对准参数对至少两个声道的第一声道和第二声道进行对准;下混音器,用于使用已对准的声道产生下混音声道;增益计算器,计算用于对已对准的声道进行加权的不等于 1的增益参数,因此与增益值1相比,已对准的声道之间的差减少;以及数据流成形器,用于形成具有关于下混音声道的信息、关于对准参数的信息以及关于增益参数的信息的数据流。根据本发明的第四方面,这个目的可以由多声道解码器来实现,该多声道解码器用于对具有关于一个或多个下混音声道的信息、关于增益参数的信息、关于对准参数的信息的已编码的多声道信号进行解码,该多声道解码器包括下混音声道解码器,用于产生已解码的下混音信号;以及处理器,用于使用增益参数对已解码的下混音声道进行处理,以获得第一解码输出声道,此外该处理器使用增益参数对已解码的下混音声道进行处理,并使用对准参数进行解对准,以获得第二解码输出声道。本发明的另一个方面包括相应的方法、数据流/文件和计算机程序。本发明基于以下结论通过结合参数编码和基于波形的编码提出了涉及传统的参数编码器以及基于波形的解码器的问题。本发明的这种编码器产生缩放数据流,该数据流具有作为第一增强层的已编码的参数表示以及作为第二增强层的已编码的残留信号,该残留信号优选地为波形类型的信号。通常,在纯参数多声道编码器中不被提供的另外的残留信号,可用于改进可实现的质量,尤其是图11中的交叉比特率与最大透明质量之间的质量。在图11中可以看出,即使处于交叉比特率以下,对于可比较的比特率处的质量,本发明的编码器算法仍然优于纯参数多声道编码器。然而,与完全基于波形的传统的立体声编码器相比,本发明的组合参数/波形编码/解码方案具有更高的比特效率。换言之,本发明的设备最优地结合了参数编码和基于波形编码的优点,使得即使在交叉比特率之上,本发明的编码器仍可以利用参数概念,但优于纯参数编码器。根据特定实施例,本发明的优点或多或少优于现有技术的参数编码器或传统的基于波形的多声道编码器。更先进的实施例提供了更好的质量/比特率特性,而本发明的低水平的实施例则需要编码器和/或解码器方面较少的处理功率,但是,由于纯参数编码器的质量受图11中的阈值质量1100限制,那么由于另外进行编码的残留信号则导致比纯参数编码器更好的质量。本发明的编码/解码方案的优点在于能够无缝地从纯参数编码转移到近似波形或完全波形的透明编码。优选地,将参数立体声编码和中侧立体声编码结合成能够朝着透明质量会聚的方案。在这个优选的中侧立体声相关的方案中,更有效地利用了信号分量(即左声道和右声道)之间的相关性。一般而言,在一些实施例中,可以将本发明的思想应用于参数多声道编码器。在一个实施例中,从原始信号中导出残留信号,而没有使用也可用于编码器的参数信息。本实施例在处理功率和处理器的可能的能量消耗之间存在争议的情况下是优选地。这种情况可以发生在具有诸如移动电话、掌上设备等的具有受限的功率可能性的手持设备上。残留信号只从原始信号中导出,并且不依靠下混音或参数。因此,在解码器侧,使用下混音声道和参数所产生的第一重构多声道信号不用于产生第二重构多声道信号。然而,一方面在参数中存在一些冗余,另一方面在残留信号中存在一些冗余。可以通过其他用于计算已编码的残留信号的编码器/解码器系统来获得冗余去除,该编码器/ 解码器系统利用在编码器处可用的参数信息,并且还可选地利用也在编码器中可用的下混音声道。根据特定情况,残留信号编码器可以是由合成设备通过使用下混音声道和参数信息来计算完全重构多声道信号的分析。然后,基于该重构信号,可以产生每个声道的差信号,从而获得多声道差错表示,可以使用不同方式来处理该多声道差错表示。一种方式是将另一种参数多声道编码方案应用于多声道差错表示。另一种可能性是执行用于对多声道差错表示进行下混音的矩阵变换方案。另一种可能性是从左和右环绕声道中除去差错信号, 然后只对中间声道差错信号进行编码或者,此外还对左声道差错信号和右差错声道差错信号进行编码。因此,存在基于差错表示来实现残留信号处理器的多种可能性。上面所提到的实施例允许对残留信号进行缩放编码的高灵活性。然而,因为在编码器处执行完全的多声道重构,然后产生多声道信号中的每个声道的差错表示,并将其输入残留信号处理器中,这完全是处理功率的要求。在解码器侧,首先必须计算第一重构多声道信号,然后基于作为对差错信号的任意表示的已编码的残留信号,必须产生第二重构信号。因此,不管是否将要输出第一重构信号的事实,都必须在解码器侧对该第一重构信号进行计算。在本发明的另一个优选实施例中,不考虑是否将要输出第一重构多声道信号的事实,都由对残留信号的直接编码侧的计算来代替对编码器侧的合成方法的分析以及对第一重构多声道信号的计算。这是基于取决于多声道参数的对原始声道的加权,或者基于还是取决于对准参数的一种类型的改进的下混音。在本方案中,通过使用参数和原始信号,而不是使用一个或多个下混音声道,来非迭代地计算另外的信息,即残留信号。本方案在编码器和解码器侧都非常有效。当由于带宽需求而不传输残留信号或者从可缩放的数据流中除去残留信号时,本发明的解码器自动基于下混音声道和增益以及对准参数而产生第一重构多声道信号,当输入不等于零的残留信号时,多声道重构器不计算第一重构多声道信号,而只计算第二重构多声道信号,因此,此编码器/解码器方案具有优点允许在编码器侧以及解码器侧进行十分有效的计算,并将参数表示用于减少残留信号中的冗余,从而获得具有非常高的处理功率效率和比特率效率的编码/解码方案。
关于附图,对本发明的优选实施例进行详细描述,在附图中图1是本发明的多声道编码器的总体表示的方框图;图2是多声道解码器的总体表示的方框图3是低处理功率的编码器侧的实施例的方框图;图4是针对图3的编码器系统的解码器实施例的方框图;图5是基于合成分析的编码器实施例的方框图;图6是与图5中的编码器实施例相对应的解码器实施例的方框图;图7是在已编码的残留信号中具有减少的冗余的直接编码器实施例的总体方框图;图8是与图7中的编码器相对应的解码器的优选实施例;图9a是基于图7和图8的概念的编码器/解码器方案的优选实施例;图9b是图9a的实施例中不传输残留信号而只传输对准和增益参数时的优选实施例;图9c是用于图9a和图9b中的编码器侧的方程组;
图9d是用于图9a和图9b中的解码器侧的方程组;图10是基于图9a到图9d的方案的实施例的分析滤波器组/合成滤波器组;以及图11示出了参数和传统的基于波形的编码器与本发明的增强型编码器的典型性能的比较。
具体实施例方式图1示出了用于对具有至少两个声道的原始多声道信号进行编码的多声道编码器的优选实施例。在立体声环境下,第一声道可以是左声道10a,而第二声道可以是右声道 10b。虽然在立体声方案的上下文中描述了本发明的实施例,但因为具有例如5个声道的多声道表示具有若干对第一声道和第二声道,所以缩放成多声道方案是直接的。在5. 1环绕方案的上下文中,第一声道可以是左前声道,而第二声道可以是右前声道。可选地,第一声道可以是左前声道,而第二声道可以是中央声道。可选地,第一声道可以是中央声道,而第二声道可以是右前声道。可选地,第一声道可以是左后声道(左环绕声道),而第二声道可以是右后声道(右环绕声道)。本发明的编码器可以包括用于产生一个或多个下混音声道的下混音器12。在立体声环境下,下混音器12将产生单一的下混音声道。然而在多声道环境下,下混音器12可以产生若干下混音声道。在5. 1的多声道环境下,下混音器13优选地产生两个下混音声道。 通常,下混音声道的数量小于原始多声道信号中的声道的数量。本发明的多声道编码器还包括用于提供一个或多个参数的参数提供器14,形成一个或多个参数使得可以使用从多声道信号和一个或多个参数中导出的一个或多个下混音声道来形成重构多声道信号。重要的是,本发明的多声道编码器还包括用于产生已编码的残留信号的残留信号编码器16。基于原始多声道信号、一个或多个下混音声道或一个或多个参数,产生已编码的残留信号。通常,产生已编码的残留信号,使得使用残留信号所形成的重构多声道信号比不使用残留信号所形成的重构多声道信号与原始多声道信号更相似。因此,已编码的残留信号允许解码器产生具有高于图11中所示的参数质量阈值1100的质量的重构多声道信号。 将一个或多个参数和已编码的残留信号输入到数据流成形器18中,该数据流成形器18形成具有残留信号和一个或多个参数的数据流。优选地,由数据流成形器18所输出的数据流是具有包括关于一个或多个参数的信息的第一增强层以及包括关于已编码的残留信号的信息的第二增强层的缩放数据流。如现有技术中已知的,可以单独对缩放数据流中的不同缩放层进行解码,使得诸如纯参数编码器的低水平设备处于通过简单地忽略第二增强层来对缩放数据流进行解码的位置。在本发明的一个实施例中,缩放数据流还包括作为底层的一个或多个下混音声道。然而,本发明还可用于在其中用户已经占有下混音声道的环境。这种情况可以发生在下混音声道是单声道或立体声信号时,其中用户已经通过另一个传输声道或通过相同的传输声道进行接收,但是早于对第一增强层和第二增强层的接收。当存在下混音声道和第一以及第二增强层的单独传输时,编码器不必包括下混音器12。这种情况由下混音器框中的虚线所表示。此外,参数提供器14不必基于第一和第二原始声道对参数进行实际计算。在针对特定声道信号的参数已经存在的情况下,足以向图1中的编码器提供已产生的参数,因此将这些参数提供给数据流成形器18以及残留信号编码器,以便可选地用于残留信号的计算,并将其引入缩放数据流中。然而,优选地,残留信号编码器还使用由虚连接线19所示的参数。在本发明的优选实施例中,可以通过单独的比特率控制输入端来控制残留信号编码器16。在这种情况下,残留信号编码器包括诸如具有可控量化器步长的量化器之类的特定有损编码器。当通过比特率输入端来发送大的量化器的步长时,已编码的残留信号将具有与通过比特率控制输入端来发送较小的量化器的步长的情况相比的较小的值范围(由量化器输出最大的量化指标)。较大的量化器的步长将导致对已编码的残留信号的较低比特需求,并因此导致已缩放的数据流,与在其中在残留信号编码器16内的量化器具较小的量化器步长从而导致了已编码的残留信号需要更多比特的情况相比,该已缩放的数据流具有减少的比特率。严格地说,上述要点适用于标量量化。然而,总得来说,使用具有可控分辨率的基于向量量化技术的编码器是优选的。当分辨率较高时,与分辨率较低的情况相比,需要更多的比特来对残留信号进行编码。图2示出了本发明的多声道解码器的优选实施例,该多声道解码器可以与图1中的编码器一起使用。具体地,图2示出了用于对具有一个或多个下混音声道、一个或多个参数以及已编码的残留信号的已编码的多声道信号进行解码。所有这些信息,即下混音声道、参数以及已编码的残留信号都包括在被输入到数据流剖析器的缩放数据流20中,该数据流剖析器从缩放数据流20中提取已编码的残留信号,并将已编码的残留信号转发到残留信号编码器22中。类似地,将一个或多个已优选编码的下混音声道提供给下混音解码器 24。此外,将一个或多个已优选编码的参数提供给参数解码器23,以便以已解码的形式提供一个或多个参数。将由框22、23和M所输出的信息输入到用于产生第一重构多声道信号沈或第二重构多声道信号27的多声道解码器25中。由多声道解码器25通过使用一个或多个下混音声道和一个或多个参数而不是使用残留信号来产生第一重构多声道信号。然而,第二重构多声道信号27是通过使用一个或多个下混音声道和已解码的残留信号来产生的。因为残留信号包括另外的信息,优选地包括波形信息,所以第二重构多声道信号27 比第一重构多声道信号与原始多声道信号(例如图1中的声道IOa和IOb)更相似。
根据多声道解码器25的特定实现,多声道解码器25输出第一重构声道沈或第二重构声道信号27。可选地,除了第二重构多声道信号之外,多声道解码器25还对第一重构多声道信号进行计算。必然地,在所有的实现中,当缩放数据流包括已编码的残留信号时, 多声道解码器25只输出第一重构多声道信号。然而,在通过除去第二增强层对缩放数据流按照其方式从编码器到解码器进行处理时,多声道解码器25将只输出第一重构多声道信号。这种去除第二增强层可以发生在编码器和解码器之间存在传输声道时,这具有非常严格限制的带宽资源,因此缩放数据流的传输只在没有第二增强层时可能。图3和图4示出了本发明的概念的一个实施例,该实施例在编码器侧(图3)以及解码器侧(图4)都只需要减少的处理功率。图3中的编码器包括强度立体声编码器30, 该强度立体声编码器30 —方面输出单声道下混音信号,另一方面输出参数强度立体声的直接信息。将优选地通过添加第一和第二输入声道所形成的单声道下混音输入数据率减速器31中。对于单声道下混音声道,数据率减速器31可以包括任意公知的音频编码器,例如 MP3编码器、ACC编码器或针对单声道信号的任意其他音频编码器。对于参数方向信息,数据率减速器31可以包括针对参数信息的任意已知编码器,例如差值编码器、均衡器和/诸如Huffman编码器或算术编码器之类的熵编码器。因此,图3中的框30和31提供了图1 编码器中的框12和14所示意性示出的功能。残留信号编码器16包括侧信号计算器32和随后所采用的数据率减速器33。侧信号计算器32对从现有技术的中侧立体声编码器中已知的幅值信号执行计算。一个优选示例是对第一声道IOa和第二声道IOb之间的逐个样本的差进行计算,以获得波形类型的侧信号,然后将该侧信号输入针对数据率压缩的数据率减速器33中。数据率减速器33可以包括与上面所概述的关于数据率减速器31的相同的元件。在框33的输出处获得已编码的残留信号,将该残留信号输入数据流成形器18中,从而得到优选地缩放的数据流。现在,由框18所输出的数据流包括除了单声道下混音以外的参数强度立体声方向信息和以波形类型编码的残留信号。通过结合图1已经讨论的比特率控制输入端,可以控制数据率减速器31。在另一个实施例中,数据率减速器33被设置用于产生缩放输出数据流,该数据流在其底层以每采样较少数量比特进行残留信号编码,并且在其第一增强层中以每采样中等数量的比特进行残余编码,以及在其下一个增强层中以每采样较多数量比特进行残余编码。对于数据率减速器输出端的底层,可以使用例如每采样0.5比特。例如,针对第一增强层,可以使用例如每采样4比特,以及对于第二增强层,可以使用例如每采样16比特。图4中示出了相应的解码器。将输入到数据流剖析器21中的数据流解析成单独输出到解压缩器23的参数信息。将已编码的下混音信息输入解压缩器M,并将已编码的残留信号输入到残留信号解压缩器22中。图4中的解码器还包括直接的强度立体声解码器 40,此外还包括中/侧解码器41。这两个解码器40和41执行多声道解码器25的功能,以便输出由强度立体声解码器40单独产生的第一重构多声道信号26,以及输出由MS解码器 41单独产生的第二重构多声道信号27。当数据流包括已编码的残留信号时,图4中的直接实现将输出第一重构多声道信号沈以及第二重构多声道信号。在这种情况下,必然只有更好的第二重构多声道信号27 对用户是有益的。因此,可以提供解码器控制42,以便自动检测数据流中是否存在已编码的残留信号。当自动检测到数据流中没有这种已编码的残留信号时,解码器控制42起到了对中侧解码器40进行去激活以节约处理功率的作用,因此电池电源在诸如移动电话等的低功率手持设备中尤其有用。图5示出了本发明的另一个实施例,其中基于合成分析方法产生了已编码的残留信号。此外,将第一和第二声道10a、10b输入下混音器50,下混音器50后面接着数据率减速器51。在框51的输出处,获得具有一个或多个下混音声道的优选压缩的下混音信号,并将其提供给数据流成形器18。因此,框50和51提供图1中的下混音器设备12的功能。此外,将第一和第二声道10a、IOb提供给参数计算器53,并将参数计算器所输出的参数转发到用于对一个或多个参数进行压缩的另一个数据率减速器M。因此,框53和M提供了与图1中的参数提供器14相同的功能。然而,与图3中的实施例相比,残留信号编码器16更为复杂。具体地,残留信号编码器16包括参数多声道重构器55。以两个声道为例,多声道重构器产生第一重构声道和第二重构声道。因此参数多声道重构器只使用下混音声道和参数,所以由框55所输出的重构多声道信号的质量将与图11中的曲线1102相对应,并始终在图11中的参数阈值1100之下。将重构多声道信号输入到差错计算器56中。差错计算器56还可用于接收第一和第二输入声道10a、10b,并输出第一差错信号和第二差错信号。优选地,差错计算器计算原始声道和相应的重构声道(输出框5 之间的逐个样本的差。针对每对原始声道和重构声道,执行此过程。差错计算器56的输出又是多声道表示,但是此时与原始声道信号相比为多声道差错信号。将这个具有与原始声道信号相同数量的声道的多声道差错信号输入用于产生已编码的残留信号的残留信号处理器57中。存在残留信号处理器57的多个实现,这些实现全都取决于带宽需求、所需的可缩放度、质量需求等。在一个优选实施例中,残留信号处理器57再次实现为用于产生一个或多个差错下混音声道和差错下混音参数的多声道编码器。因为残留信号处理器57可以包括框50、 51,53和54,可以认为这个实施例是一种迭代多声道编码器。可选地,残留信号处理器57可用于只从其具有最大能量的输入信号中选择单一或两个差错声道,并只对最大能量差错信号进行处理,以获得已编码的残留信号。除了这个准则以外或者代替这个准则,可以使用基于可感知的更激发的差错测量的更先进的准则。 可选地,残留信号处理器可以包括用于将输入声道下混音为一个或多个下混音声道的矩阵化方案,使得相应的解码器设备可以执行模拟解矩阵过程。然而,可以使用公知的单声道或立体声编码器的元件来对一个或多个下混音声道进行处理,或者可以使用上面所提到的单声道/立体声编码器中的一个来对一个或多个下混音声道进行完全处理,以获得已编码的残留信号。图6中示出了针对图5中的编码器的解码器。与图2的实施例相比,图6显示了多声道解码器25包括参数多声道重构器60和合成器61。参数多声道重构器60只基于已解码的下混音和已解码的参数信息来产生第一重构多声道信号沈。当数据流中不包括已编码的残留信号时,可以输出第一重构信号26。然而,当数据流中包括已编码的残留信号时, 则不输出第一重构信号,而是将其输入到合成器61中,以便将参数重构的多声道信号沈合成为已解码的残留信号,这里已解码的残留信号是在上面所讨论的图5中的差错计算器56 的输出处的差错表示的表示之一。合成器61将已解码的残留信号(即,差错信号的任意表示)和参数重构的多声道信号进行合成,以输出第二重构号27。当关于图11来考虑图6中的解码器时,显而易见的是,针对特定比特率,第一重构信号具有由线1102所确定的质量, 而第二重构信号27具有由线1114针对相同比特率所确定的较高的质量。因为已编码的残留信号中的冗余减少,所以图5/图6中的实施例优于图3/图4 中的实施例。然而,图5/图6中的实施例需要较大量的处理功率、存储、电池资源和算法延迟。随后,参考关于编码器表示的图7以及关于解码器表示的图8,描述了对图3/图4 中的实施例与图5/图6中的实施例之间的优选折衷。该编码器包括使用第一和第二输入声道10a、10b来执行下混音的特定下混音器74。与只通过添加原始声道10a、10b来获得单声道信号所产生的简单下混音相比,下混音器74由通过参数计算器71所产生的对准参数控制。这里,在将两个信号彼此相加之前,对两个输入声道10a、10b进行相互间的时间对准。按照这种方式下,在下混音器70的输出处得到特定的单声道信号,例如该单声道信号不同于在图3中以30示出的低电平强度立体声编码器所产生的单声道信号。除了对准参数之外,或代替对准参数,参数计算器71可用于产生增益参数。将该增益参数输入加权设备72中,以便在执行侧信号的计算之前,优选地使用增益参数对第二声道IOb进行加权。在计算第一和第二声道之间的类似波形差之前,对第二声道的加权导致较小的残留信号,如图所示将该残留信号作为特定侧信号输入到任何适当的数据率减速器33中。图7中所示的数据率减速器33可以完全地实现为图3中所示的数据率减速器 33。图7中的实施例与图3中的实施例的不同之处在于优选地在下混音器70以及残留信号计算中说明参数信息,这样由图7中的数据率减速器33所输出的残留信号可以由比数据率减速器33所输出的信号更少数量的比特来表示。这是由于图7中的残留信号包括的冗余小于图3中的残留信号所包括的冗余的事实。图8示出了与图7中的编码器实现相对应的解码器实现的优选实施例。与图6中的解码器相比,多声道重构器25可用于在侧信号(即残留信号)为零时自动输出第一重构多声道信号26,或者在残留信号不等于零时自动输出第二重构多声道信号27。因此,图8 中的多声道重构器25不能同时输出两个信号沈和27,但是可以只输出这两个信号中的第一个或这两个信号中的第二个。因此,图8中的实施例不需要诸如图4中所示的任意解码器控制。具体地,图8中的残留信号解码器22输出由图7中的相应的解码器元件72所产生的特定侧信号。此外,下混音解码器M输出由图7中的下混音器70所产生的特定单声道信号。然后,将特定侧信号和特定单声道信号与增益参数以及时间对准参数一起输入多声道解码器。增益参数可用于控制增益级84根据第一增益规则来采用增益。此外,增益参数控制另外的增益级82、83根据不同的第二增益规则来应用增益。此外,多声道重构器包括减法器84和加法器85以及时间解对准框86,以产生重构第一声道和重构第二声道。随后,参考图7和图8的编码器/解码器方案的优选实施例。图9a示出了根据本发明的方面的完全编码器/解码器方案,其中残余信号d(n)不等于零。此外,图9b指示了在没有计算差信号d(n)或者已经除去数据流以减少残留信号(例如由于传输带宽相关的需求)时的图9a中的可缩放的编码器/解码器。在图9a的实施例中,在从编码器传输到解码器的数据流中除去已编码的残留信号的情况下,图9a的实施例变成了纯参数多声道场景,其中对准参数和增益参数是多声道参数,而特定的单声道信号是从编码器侧传输到解码器侧的下混音声道。因为在解码器侧没有接收到残留信号,即d(n)等于零,则只通过使用对准和增益参数来执行解码器侧的多声道重构。图9c示出了基于本发明的编码器的方程,而图9d则指示了基于本发明的解码器的方程。具体地,本发明的编码器包括作为来自图1的参数提供器14的参数计算器71。 参数计算器71可用于计算时间对准参数,以便将右声道r (η)与左声道1 (η)对准。在图9a 到图9d中,已对准的右声道由ra(n)表示。优选地,从输入信号的重叠块中提取出对准参数。该对准参数与左声道和右声道之间的时间延迟相对应,并优选地使用时间域的互相关技术来对该对准参数进行估计。针对在子带中不存在对准增益的情况,例如在独立信号的情况下,将延迟参数设为零。优选地,在子带结构中,每个子带估计一个延迟(时间对准) 参数。在优选实施例中,采用46ms的估定分析率和50%的重叠汉明窗。参数计算器71还计算增益值。该增益值也优选地从信号的重叠块中提取。自然地,增益参数与在诸如公知的技术心理声学编码方案之类的参数编码中普遍使用的电平差参数。可选地,可以使用迭代方法来计算增益值,其中将差信号反馈到参数计算器中,并且设置增益值,使得差信号达到如图9a中的虚线90所示的最小值。一旦计算了参数对准和增益,则可以开始图7中的下混音器70以及图7中的残留信号编码器16。具体地,图7中的下混音器70包括用于将一个声道延迟所计算的时间对准参数的对准框91。然后,使用加法设备92将所延迟的第二声道ra(η)与第一声道相加。在加法器92的输出处,存在下混音声道。因此,图7中的下混音器70包括框91和92以形成特定的单声道信号。图7中的残留信号编码器16还包括加权器93和后续的侧信号计算器94,侧信号计算器94用于计算原始第一声道和已对准且已加权的第二声道之间的差。具体地,为了对已对准的第二声道进行加权,执行用于相应的解码器侧框80中的第一加权规则。因此,残留信号编码器16包括对准设备91、加权设备93、以及侧信号计算器94。因为将已对准的第二声道用于下混音以及残留信号计算,对已对准的右声道进行一次计算则足够,并将结果转发到图7中的下混音器70以及加权器/侧信号计算器72中。优选地,选择对准和增益因子,使得该处理可逆,因此可以很好地定义了图9d中的方程并在数值对其进行了良好的限定。可以将普通单声道编码器51用于对和信号进行编码,并且将优选为专用的残留信号编码器33应用于残留信号。当单声道编码器51是无损耗的,即不再对单声道信号进行量化,或者残留信号编码器也是无损耗的,或者对准信号模型与源信号完全匹配时,图9a中所示的本发明的编码结构具有也假设了对准和增益参数只用于无损耗编码方案的理想重构属性。图9a中的本发明的系统为可以在如图11中的线1114所示的幅度多个范围内作用于功能下降的方案提供架构。具体地,不进行残留信号编码,即d(η) =0,则该方案通过只传输除了单声道信号(作为下混音声道)以外的对准和增益参数(作为多声道参数)而变成参数立体声编码。图%中示出了这种情况。此外,本发明的系统具有优点该对准方法自动提出单声道下混音问题。随后,参考图10,图10将图9a到9b中所示的本发明的实施例的实现作为子带编码结构示出。将原始左和右声道输入分析滤波组1000中,以得到若干子带信号。针对每个子带信号,使用如图9a到9d所示的编码/解码方案。在解码器侧,在合成滤波器组1010 中对重构子带信号进行合成,以最终到达全带重构多声道信号。自然地,对于每个子带,如图10中的箭头1020所示,将对准参数和增益参数从编码器侧传输到解码器侧。图10中的子带编码结构的优选实现是基于具有两个级的余弦调制的滤波器组, 以便实现不相等的子带带宽(以可感知的激发尺寸)。第一级将信号分割成M个子带。对 M个子带信号进行重要的抽取,并将其馈入第二级滤波器组。第二级的第k个滤波器具有
Mk个频带,ke {1.....M}。在优选实现中,使用M = 8个频带,子子带的结构如图10中的
表所示,并在两个级之后优选地导致36个有效子带。根据[13],设计在抑制频带具有至少 IOOdB衰减的原型滤波器。第一级的滤波器阶数为116,第二级的最大滤波器阶数为256。 然后,将此编码结构应用于子带对(与左和右子带声道相对应)。第一和第二级滤波器组之间的子带的相应组如图10右边的表所示,可以清楚地看出第一子带k包括16个子子带。此外,第二子带包括8个子子带等。利用高斯模型(GM)向量量化(VQ)技术来实现有效的参数编码。基于GM模型的量化在语音编码[14-16]领域内非常普遍,并且有利于高尺寸VQ的低复杂度的实现。在优选实施例中,本发明对增益和延迟参数的36维向量进行向量量化。所有的GM模型都具有 16个混合分量,并在从60分钟的音频数据(具有变化的内容,并与随后的估计测试信号分开)中提取的参数的数据库中进行训练。基于清楚的统计模型的方法在音频编码中比在语音编码中要不经常使用。一个原因是不相信统计模型能够捕捉通用音频中所包含的所有相关信息的能力。然而在优选情况下,通过使用对参数模型的开和闭测试流程的初步估计确实表示了在这种情况下上述并不成问题。针对增益和延迟参数所产生的比特率是2. 3kbps0将子带结构充分用于对残留信号进行编码。通过使用如上述所描述的相同块,估计每个子带中的变化,并使用GM VQ互子带来对该变化进行向量量化(即,每次对一个36 维的向量进行编码)。该变化有利于采用贪婪比特分配算法[17、p. 234]在子带之间进行比特分配。然后使用统一的标量量化来对子带信号进行编码。通过对块估计的线性内插,得到瞬时增益g(n)和延迟τ (η)。基于对脉冲响应的正弦函数的截断并加汉明窗,通过73rf阶的分数延迟滤波器来实现时间变化延迟。通过使用内插的延迟差数,基于每个样本来更新滤波器的系数。提出了针对通用音频中的立体声图像的灵活编码的架构。通过使用新的结构,可以从参数立体声模式无缝地移到波形近似编码。使用未编码的残留信号来对该思想的示例实现进行测试,以估计残留信号编码器的比特率的增长效应,以及使用MP3核心编码器来估计更实际的场景中的方案。.为了使立体声图像稳定,优选地对纯参数系统或可缩放系统中的参数进行低通滤波,该纯参数系统或可缩放系统具有纯参数部分,可以如示例[9]所进行的由解码器未对残余信号进行处理来使用该纯参数部分。这减少了系统的对准增益。通过使用标量子带编码对残留信号进行编码,经一步增大了质量,并且质量接近透明质量。具体地,通过向残留信号增加比特来稳定立体声图像,而且还增加了立体声宽度。此外,优选地使用灵活的时间分割以及可变速率(例如,比特贮备)技术来更好地利用通用音频的动态特性。优选地,相干参数包括在对准滤波器中,以增强参数模式。改进的残留信号编码、采用知觉掩蔽、向量量化、以及差分编码,导致更有效的不相干以及冗余去除。虽然在立体声编码的上下文以及参数增强的中侧编码方案的上下文中对本发明的系统进行了描述,这里要注意的是,诸如通用强度立体声类型的编码之类的每个多声道参数编码/解码方案,可以利用另外公开的侧信号元件,以便最终达到理想的重构属性。虽然已经通过使用编码器侧的时间对准、传输对准参数、以及使用解码器侧的时间解对准来对本发明的编码器/解码器方案的优选实施例进行了描述,但还是存在另外的可选项,该可选项在编码器侧执行时间对准以产生小的差信号,但是不在解码器侧执行时间解对准, 因此不将对准参数从编码器传输到解码器。在本实施例中,时间解对准的忽略必然包括人为现象。然而,在大多数情况下,这种人为现象并不严重,因此这个实施例尤其适于低价多声道解码器。因此,还可以将本发明看作优选的BCC类型的参数立体声编码方案或任意其他多声道编码方案的缩放,当去除已编码的残留信号时,其完全回退到纯参数方案。根据本发明,通过传输各种类型的额外信息来增强纯参数系统,额外信息优选地包括波形类型的残留信号、增益参数和/或时间对准参数。因此,使用额外信息的解码操作导致比可单独用于参数技术更高的质量。根据需求,用于编码或解码的本发明的方法可以在硬件、软件或固件上实现。因此,本发明还涉及一种用于存储程序代码的计算机可读介质,在计算机上运行该程序代码时,该程序代码导致本发明方法之一。因此,本发明是具有程序代码的计算机程序,该程序代码在计算机上运行时导致本发明的方法。参考文献列表[1]J. D. Johnston and A. J.Ferreira, . Sum-difference stereo transform coding,,,in Proc. IEEE Int. Conf. Acoust. , Speech, Signal Processing (ICASSP), 1992, vol. 2,pp. 569. 572.[2]R.Waal and R. VeIdhuis, · Subband coding of stereophonic digital audio signals," in Proc. IEEE Int. Conf. Acoust. , Speech,Signal Processing(ICASSP),1991, pp. 3601. 3604.[3] J. Herre, K. Brandenburg, and D. Lederer, . Intensity stereo coding,,,in Preprint 3799,96th AES Convention,1994.[4]K. Brandenburg, . MP3 and AAC explained, " in Proc. of the AES 17th International Conference, paper no.17-009,1999.[5] J. Blauert, Spatial hearing :the psychophysics of human soundlocalization, The MIT Press, Cambridge, Massachusetts,1997.[6] H. Fuchs, . Improving joint stereo audio coding by adaptive inter-channel prediction, " in Proc. of IEEE Workshop on Applications of SignalProcessing to Audio and Acoustics,1993,pp.39.42.[7]H. Fuchs, . Improving MPEG audio coding by backward adaptive linear stereo prediction,,,in Preprint 4086,99th AES Convention, 1995.[8] F. Baumgarte and C. FalIer,. Binaural cue coding, part I :Psychoacoustic fundamentals and design principles,"IEEE Trans.Speech Audio Processing,vol. 11, no. 6,pp. 509. 519,2003.[9]C. Faller and F. Baumgarte, . Binaural cue coding, part II :Schemes and applications,,,IEEE Trahs· Speech Audio Processing, vol. 11,no. 6,pp. 520. 531,2003.[10]C. Faller, Parametric Coding of Spatial Audio,Ph. D. thesis, Ecole Polytechnique Federale de Lausanne,2004.[11] J. Breebaart, S. van de Par, A. Kohlrausch, and E. Schui jers, High-quality parametric spatial audio coding at low bitrates,,,in Preprint 6072,116th AES Convention,2004.[12] J. Herre, C. Faller, C. Ertel, J. Hilpert,A. Hoelzer, and C. Spenger, . MP3 surround :Efficient and compatible coding of multi-channel audio, “in Preprint 6049,116th AES Convention,2004.[13]Y-P. Lin and P.P.Vaidyanaythan, . A Kaiser window approach for the design of prototype filters of cosine modulated filterbanks,,,IEEE Signal Processing Letters,vol. 5,no. 6,pp.132.134,1998.[14]P. Hedelin and J. Skoglund,"Vector quantization based on Gaussian mixture models,,,IEEE Trans. Speech Audio Processing, vol. 8,no. 4,pp. 385. 401,2000.[15]A. D. Subramaniam and B. D. Rao, . PDF optimized parametric vector quantization of speech line spectral frequencies, ” IEEE Trans. Speech Audio Processing,vol. 11,no. 2,pp. 130. 142, 2003.[16]J. Lindblom and P. Hedelin,. Variable-dimension quantization of sinusoidal amplitudes using Gaussian mixture models,” in Proc. IEEE Int. Conf. Acoust.,Speech,Signal Processing (ICASSP),2004,vol. 1,pp.153.156.[17]A.Gersho and R. M. Gray, Vector Quantization and Signal Compression, Kluwer Academic Publishers, Boston,1992.[18]T. I. Laakso, V. Valimaki M. Karjalainen, and U. K. Laine, "Tools for fractional delay filter design,,,IEEE Signal Processing Magazine, pp. 30. 60, January 1996.[19]ITU-R Recommendation BS.1534,Method for the Subjective Assessment of Intermediate Quality Level of Coding Systems, ITU-T,2001.[20]The LAME project,http://lame. sourceforge. net/, July 2004,V3. 96. L
权利要求
1.一种多声道编码器,用于对具有至少两个声道的原始多声道信号进行编码,所述多声道编码器包括参数提供器(14),用于提供一个或多个参数,形成所述一个或多个参数,使得可以使用一个或多个下混音声道以及一个或多个参数来形成重构多声道信号,所述下混音声道是从原始多声道信号中获得的;残留信号编码器(16),用于基于原始多声道信号、一个或多个下混音声道、或一个或多个参数来产生已编码的残留信号,使得使用残留信号所形成的重构多声道信号比没有使用残留信号所形成的重构多声道信号与原始多声道信号更相似,所述残留信号编码器(16)包括多声道解码器(55),通过使用一个或多个下混音声道和一个或多个参数来产生已解码的多声道信号;差错计算器(56),用于基于已解码的多声道信号和原始多声道信号来计算多声道差错信号表示;以及残留信号处理器(57),用于对多声道差错信号表示进行处理,以获得已编码的残留信号;以及数据流成形器(18),用于形成具有已编码的残留信号和一个或多个参数的数据流。
2.如权利要求1所述的多声道编码器,其中所述残留信号编码器用于基于一个或多个参数和原始多声道信号而非一个或多个下混音声道来产生残留信号,因此与没有使用一个或多个参数的残留信号的产生相比,所述残留信号具有较小的能量。
3.如权利要求2所述的多声道编码器,其中所述参数提供器包括对准计算器,用于计算将要提供给用于对至少两个声道中的第一声道和第二声道进行对准的时间对准器的时间对准参数;或者增益计算器,用于计算不等于1的用于对声道进行加权的增益,使得两个声道之间的差与增益值等于1的情形相比减少。
4.如权利要求3所述的多声道编码器,其中所述残留信号编码器用于对从第一声道和已对准或已加权的第二声道中获得的差信号进行计算和编码。
5.如权利要求3所述的多声道编码器,还包括使用已对准的声道来产生下混音声道的下混音器。
6.一种多声道解码器装置,用于对具有一个或多个下混音声道、一个或多个参数和已编码的残留信号的已编码多声道信号进行解码,所述一个或多个下混音声道取决于对准参数或增益参数,所述多声道解码器装置包括残留信号解码器,用于基于已编码的残留信号,产生已解码的残留信号;以及多声道解码器,通过使用一个或多个下混音声道和一个或多个参数来产生第一重构多声道信号;其中所述多声道解码器还用于通过使用一个或多个下混音声道和已解码的残留信号来产生第二多声道输出信号,其中所述多声道解码器还用于使用增益参数对所述下混音声道进行加权,将已解码的残留信号加到已加权的下混音声道上,以及再次对所产生的声道进行加权,以获得第一重构多声道信号,以及从所述下混音声道中减去已解码的残留信号,并使用增益参数对通过相减产生的声道进行加权,或者对下混音声道和已解码的残留信号之差进行解对准,以获得第二多声道输出信号。
7.如权利要求6所述的多声道解码器装置,其中所述下混音声道额外取决于对准参数,以及针对使用对准参数的其他输出声道,对一个输出声道进行解对准。
8.—种多声道编码器,用于对具有至少两个声道的原始多声道信号进行编码,所述多声道编码器包括时间对准器(91),用于使用对准参数,对至少两个声道的第一声道(IOa)和第二声道 (IOb)进行对准;下混音器(92,94),用于使用已对准的声道来产生下混音声道; 增益计算器(71),用于计算不等于1的增益参数,以便对已对准的声道进行加权(93), 因此已对准的声道之间的差与增益值等于1的情形相比减少;以及数据流成形器(18),用于形成具有关于下混音声道(m)的信息、关于对准参数的信息、 以及关于增益参数的信息的数据流。
9.如权利要求8所述的多声道编码器,还包括用于对从第一声道和已对准且已加权的第二声道中获得的差信号进行计算和编码,其中所述数据流成形器还用于将已编码的残留信号包括进数据流中,所述已编码的残留信号基于所述原始多声道信号、所述一个或多个下混音声道或所述一个或多个参数,使得所述重构多声道信号在使用所述残留信号形成时比不使用所述残留信号形成时更加类似于所述原始多声道信号。
10.一种多声道解码器,用于对具有关于一个或多个下混音声道的信息、关于增益参数的信息、关于对准参数的信息、以及已编码的残留信号的已编码的多声道信号进行解码,所述多声道解码器包括下混音声道解码器,用于产生已解码的下混音声道; 处理器,用于对已解码的下混音声道进行处理,以及残留信号解码器,用于产生已解码的残留信号,其中所述处理器用于使用增益参数来对已解码的下混音声道进行第一次加权,以添加已解码的残留信号,然后使用增益参数进行第二次加权,以获得第一重构声道,以及从加权之前的已解码的下混音声道中减去已解码的残留信号,以便进行解对准,获得第二重构声道。
11.一种对具有至少两个声道的原始多声道信号进行编码的方法,所述方法包括 使用对准参数对至少两个声道的第一声道(IOa)和第二声道(IOb)进行时间对准(91);使用已对准的声道来产生(92,94)下混音声道;计算(71)不等于1的增益参数,以便对已对准的声道进行加权,因此与增益值1相比, 减少已对准的声道之间的差;以及形成(18)具有关于下混音声道的信息、关于对准参数的信息、以及关于增益参数的信息的数据流。
12.一种用于对具有关于一个或多个下混音声道的信息、关于增益参数的信息、关于对准参数的信息、以及已编码的残留信号的已编码的多声道信号进行解码的方法,所述方法包括产生已解码的下混音声道;对已解码的下混音声道进行处理以及对已编码的残留信号进行解码,以获得已解码的残留信号,其中所述处理步骤包括使用增益参数首先对已解码的下混音声道进行加权,添加已解码的残留信号,以及使用增益参数进行第二次加权,以获得第一重构声道,以及从加权之前的已解码的下混音声道中减去已解码的残留信号,并进行解对准,以获得第二重构声道。
13.一种用于产生已编码的多声道信号的编码器,所述已编码的多声道信号具有关于一个或多个下混音声道、关于在第一重构多声道信号中与一个或多个下混音声道合成所产生的一个或多个参数、以及关于在第二重构多声道信号中与一个或多个下混音声道合成所产生的已编码的残留信号的信息,其中所述编码器被配置用于产生多声道信号,使得所述第二重构多声道信号比所述第一重构多声道信号与原始多声道信号更相似,并且其中所述编码器被配置用于产生多声道信号,使得已编码的多声道信号是可缩放的数据流,在所述数据流中的一个或多个参数和残留信号处于不同的缩放层,或者一个或多个参数包括技术心理声学编码(BCC)参数,例如声道间电平差、声道间相干参数、声道间时间差、或者声道包络提示。
14.一种用于对已编码的多声道信号进行解码的解码器,所述已编码的多声道信号具有关于一个或多个下混音声道、关于在第一重构多声道信号中与一个或多个下混音声道合成所产生的一个或多个参数、以及关于在第二重构多声道信号中与一个或多个下混音声道合成所产生的已编码的残留信号的信息,其中所述第二重构多声道信号比所述第一重构多声道信号与原始多声道信号更相似,其中已编码的多声道信号是可缩放的数据流,在所述数据流中的一个或多个参数和残留信号处于不同的缩放层,或者一个或多个参数包括技术心理声学编码(BCC)参数,例如声道间电平差、声道间相干参数、声道间时间差、或者声道包络提示。
全文摘要
多声道编码器/解码器方案优选地另外产生波形类型的残留信号(16)。将所述残留信号(16)与一个或多个多声道参数(14)一起传输到解码器中。与纯参数多声道解码器相比,增强型解码器由于另外的残留信号而产生具有改进的输出质量的多声道输出信号。
文档编号G10L19/00GK102270452SQ20111023112
公开日2011年12月7日 申请日期2005年10月4日 优先权日2005年2月22日
发明者约纳斯·林德布罗姆 申请人:弗劳恩霍夫应用研究促进协会