多声道音频信号表示方法-品牌商务网

专利名称：多声道音频信号表示方法
技术领域：
本发明涉及对使用空间参数的音频信号的多声道表示进行编码。本发明讲授了用于估计和定义合适参数的新方法，来从数目少于输出声道数的声道中再现多声道信号。具体地，本发明的目标在于最小化多声道表示的比特率，以及为所有可能的声道配置提供能实现数据简易编码和解码的多声道信号的编码表示。
背景技术：
如 PCT/SE02/01372” Efficient and scalable Parametric Stereo Coding for Low Bit rate Audio Coding Applications”中所示，可以从给定了立体声图像压缩表示的单声道信号中再现出和原始立体声图像非常接近的立体声图像。基本原理是将输入信号划分成频带和时间段，对这些频带和时间段，估算声道间强度差(IID)和声道间相干度 (ICC)。第一个参数是在特定的频带上对功率在两声道间分布的测量，而第二个参数是在特定的频带上对两声道间相干度的估计。在解码器一侧，通过按照IID-数据把单声道信号在两个输出声道间分布以及加入一解相关信号来保留原始立体声声道的声道相干度，从而将立体声图像从单声道信号中再现出来。对于多声道的情况(多声道在上下文中指多于两个输出声道)，不得不考虑若干额外的问题。目前存在若干种多声道配置。最熟知的是5.1配置(中声道，前置左/右，环绕左/右，和LFE声道)。但是也存在许多其它配置。根据完整的编码/解码系统的观点，希望得到的系统能对所有的声道配置使用相同的参数集(例如IID和ICC)或其子集。ITU-R BS. 775定义了若干缩混(down-mix)方案，能够从给定的声道配置中获得由更少声道组成的声道配置。和总是不得不对所有声道解码以及对缩混的依赖不同，希望得到一种多声道表示，使接收机在对声道解码之前能够提取和现有声道配置相关的参数。此外，根据可扩展或嵌入式编码的观点，希望得到内在可扩展的参数集，其中，例如在比特流的增强层存储与环绕声道相对应的数据是可能的。和上述相反，还希望得到的是能够基于被处理信号的特性采用不同的参数定义，来在参数化之间切换，这导致针对当前所处理信号段的最小比特率开销。本领域中还有另一种所熟知的采用加和信号或缩混信号以及附加参数侧面信息的多声道信号表示，叫做双声道提示编码(BCC，binaural cue coding) 0此项技术在〃 Binaural Cue Coding-Part 1 :Psycho_Acoustic Fundamentals and Design Principles" , IEEE Transactions on Speech and Audio Processing, vol.11, No. 6, November 2003, F. Baumgarte, C. Faller,禾口〃 Binaural Cue Coding. Part IISchemes and Applications" , IEEE Transactions on Speech and Audio Processing vol.11, No. 6，November 2003，C. Faller and F. Baumgarte 中进行了描述。一般来说，双声道提示编码是一种根据一个缩混音频声道和侧面信息进行多声道空间呈现的方法。由BCC编码器计算及BCC解码器使用的用于音频重建和音频呈现的若干参数包括声道间幅度差，声道间时间差和声道间相干参数。这些声道间提示是感知空间图像的决定性因素。针对原始多声道信号的多个时间样本块给出这些参数，并且这些参数的给出具有频率选择性，使得多声道信号的每一个样本块对若干个频段有若干个提示。对于 C回放声道的一般情况，在声道对之间每个子带中考虑声道间幅度差和声道间时间差，也就是说相对于参考声道考虑每一个声道。针对每个声道间幅度差都定义一个声道作为参考声道。通过声道间幅度差和声道间时间差，将音源呈现到所使用的回放设备的某一扬声器对之间的任何方向上是有可能的。为了确定所呈现音源的广度或扩散，对所有的音频声道来说每个子带考虑一个参数就足够了。这个参数就是声道间相干参数。所呈现音源的宽度通过修改子带信号来控制，使得所有可能的声道对具有相同的声道间相干参数。在BCC编码中，所有的声道间幅度差在参考声道1和其它声道之间来确定。例如当中声道被确定为参考声道时，将计算出左声道和中声道之间的第一声道间幅度差、右声道和中声道之间的第二声道间幅度差、左环绕声道和中声道之间的第三声道间幅度差以及右环绕声道和中声道之间的第四声道间幅度差。这一情况描述了五声道的配置方案。当五声道配置方案另外包括一低频加强声道也就是所熟知的“重低音”声道时，将计算出低频加强声道和中声道也就是唯一的参考声道之间的第五声道间幅度差。当使用一个缩混声道也即被称为“单声道”的声道，以及使用传输提示如ICLD (声道间幅度差)、ICTD(声道间时间差)和ICC(声道间相干)来重建原始多声道时，通过使用这些提示来修改单声道信号的频谱系数。通过使用用来为每个频谱系数确定幅度修正的正实数来完成幅度修正。通过使用用来为每个频谱系数确定相位修正的复数数值来生成声道间时间差。另一函数确定了相干度影响。每个声道用于幅度修正的因子通过首先计算参考声道的因子来算出。参考声道因子的计算使得对每个频率部分，所有声道的功率之和等于信号和的功率。然后，根据参考声道的幅度修正因子，其他声道的幅度修正因子可以用相应的ICLD参数计算出来。于是，为了完成BCC合成，要计算出参考声道的幅度修正因子。对于该计算，一频带的所有ICLD参数都是必需的。然后，根据该单个声道的幅度修正，将计算出其它声道也就是非参考声道的幅度修正因子。这种方法的缺点在于，为了完全重建，需要每一个声道间幅度差。当存在易出错的传输信道时，这个要求就更成问题了。传输的声道间幅度差中的每一个错误将导致重建的多声道信号的错误，因为需要每个声道间幅度差来计算多声道输出信号的每个声道。此外，当一个声道间幅度差在传输中丢失，重建就是不可能的，尽管这个声道间幅度差仅仅对例如左环绕声道或右环绕声道是必需的，而左环绕或右环绕声道对多声道重建并不太重要，因为多数信息包含在了左前置声道即后来被称作的左声道、右前置声道即后来被称作的右声道或中声道中。当低频加强声道的声道间幅度差在传输中丢失，这种情形变得甚至更糟。在这种情况下，没有或者仅有错误的多声道重建是可能的，尽管低频加强声道对听众的听觉舒适度不太具有决定性。所以，单个的声道间幅度差中的错误蔓延成每个重建输出声道中的错误。此外，现有的BCC方案，即在AES会议文章5574，〃Binaural Cue Coding applied to Stereo and Multi-channel Audio Compression" ,C. Faller,F. Baumgarte,May 10 to 13，2002，Munich, Germany中描述的方案，当考虑直觉聆听场景时，因为仅有的一个参考声道，是不太适宜的。将每个事物都联系到单一的参考声道对人类来说是不自然的，当然，这是整个音频处理的最终目标。不同的是，人有两只耳朵，位于头部不同的两侧。所以，人的自然听觉印象是，信号是否更向左或者更向右平衡，或者在前后之间平衡。与其相反的是，让人感觉音场中某声源在各个扬声器相对于单个参考扬声器之间是否处于某种平衡，这是不自然的。当考虑比特率要求、可扩展性要求、灵活性要求、重建人工信号要求或者错误鲁棒性要求时，这种一方面是自然听觉印象而另一方面是BCC的数学/物理模型之间的分歧可能导致编码方案的负面结果。

发明内容
本发明的目的是提供表示多声道音频信号的改进思想。这个目的通过根据权利要求1所述的用于产生多声道输入信号的参数表示的设备、根据权利要求21所述的用于产生重建的多声道表示的设备、权利要求31或32所述的方法、根据权利要求33所述的计算机程序或者根据权利要求34所述的参数表示来实现。本发明基于如下的发现，即对于多声道表示，必须依靠声道对之间的平衡参数。而且，还发现通过提供至少两个不同的平衡参数，即表示两个不同声道对之间平衡的参数，多声道信号的参数表示是可能实现的。具体地，灵活性、可扩展性、错误鲁棒性以至比特率效率都是如下事实的结果，即作为第一平衡参数基础的第一声道对和作为第二平衡参数基础的第二声道对是不同的，其中，形成这些声道对的四个声道互不相同。所以，本发明的思想和单一的参考声道的思想不同，而是采用了多平衡或者超平衡的思想，这种思想对人的听觉感受来说更直观、更自然。具体地，作为第一和第二平衡参数基础的声道对可以包含原始声道、缩混声道，或者优选的，输入声道间的特定组合。已经发现，从作为声道对第一声道的中声道以及作为声道对第二声道的原始左声道和原始右声道之和得出的平衡参数，对于在中声道、左声道和右声道之间提供准确的能量分布特别有用。还要在上下文中注意的是，这三个声道一般涵盖了声音情景的大部分信息，其中特别是左右立体声定位不仅仅受到左右之间平衡的影响，还受到中声道与左右声道之和之间平衡的影响。这个发现通过使用基于本发明优选实施例的该平衡参数来反映。优选地，当传输一个单声道缩混信号时，还发现，除了中/左加右平衡参数之外，左/右平衡参数、后左/后右平衡参数以及前/后平衡参数是具有高效比特率参数表示的最佳解决方案，这种参数表示灵活，抗错能力好，并且具有相当的保真度。在接收机侧，和BCC合成中仅通过传输的信息来计算每个声道不同，本发明的多平衡表示利用关于用来产生缩混声道的缩混方案的信息。于是，根据本发明，除了平衡参数，在现有技术系统中并不使用的缩混方案信息，也在上混(up-mix)中使用。因此执行上混操作，使得重建多声道信号内形成平衡参数所依赖的声道对的声道之间的平衡由该平衡参数决定。这种思想，也就是对不同的平衡参数形成不同的声道对，使得在对每个传输的平衡参数不知晓得情况下可以获得一些声道。具体地，根据本发明，在不知晓任何后左/后右平衡或前/后平衡的情况下，仍可以对左、右和中声道进行重建。这种效果为非常细微调节的可扩展性提供了可能，因为从比特流中提取附加参数或者传输附加平衡参数到接收机，都将允许重建一个或多个附加声道。这和现有技术的单一参考系统不同，在现有技术的单一参考系统中，需要每个声道间幅度差来重建所有重建输出声道中的全部或者一组声道。
本发明的思想也是有灵活性的，其中平衡参数的选择可适应特定的重建环境。例如，当五声道配置结构形成原始的多声道信号结构时，且当四声道结构形成重建多声道结构时，其中该结构只有一个环绕扬声器，例如该扬声器位于听者之后，前后平衡参数在对左环绕声道和右环绕声道不知晓的情况下为计算组合环绕声道提供可能。这和单一参考声道系统不同，单一参考声道系统中必须从数据流中提取左环绕声道的声道间幅度差及右环绕声道的声道间幅度差。然后，必须计算出左环绕声道和右环绕声道。最后，必须将两声道叠加来获得四声道重现结构的一个环绕扬声器声道。在更具直觉感知的和更具有听者导向的平衡参数表示中上述所有步骤都不是必须执行的，因为这种表示由于平衡参数表示自动产生出组合环绕声道，这种表示不是和单一的参考声道关联，而是允许将原始声道的组合作为平衡参数声道对的声道。本发明涉及音频信号的参数化多声道表示的问题。提供了一种高效率的方式来为多声道表示定义合适的参数，且提供了一种不需要对所有声道进行解码就能提取出用于表示想要声道的参数的能力。本发明进一步解决了为给定信号段选择最佳参数配置使得对给定信号段的空间参数进行编码所需的比特率最小化的问题。本发明还概述了如何应用之前仅对一般多声道环境的两个声道情况才适用的解相关方法。在优选实施例中，本发明有以下特征-在编码器一侧将多声道信号缩混到单声道或双声道表示；-在给定多声道信号的条件下，定义表示多声道信号的参数，或者灵活的以每帧为基础以最小化比特率，或者使得解码器能在比特流层上提取出声道配置；-在解码器一侧，给定解码器当前所支持的声道配置，提取相关的参数集；-给定当前的声道配置，生成所需数量的互相解相关的信号；-给定从比特流数据中解码得到的参数集以及解相关的信号，再现输出信号。-多声道音频信号参数化的定义，使得相同的参数或者参数的子集的使用和声道配置无关。-多声道音频信号参数化的定义，使得参数可在可扩展编码方案中应用，其中参数集的子集在可扩展数据流的不同层中传输。-多声道音频信号参数化的定义，使得解码器输出信号的能量重建，不会被用来对缩混信号进行编码的底层音频编解码器所破坏。-不同多声道音频信号参数化之间的切换，使得用来对参数化进行编码的比特率开销最小化。-多声道音频信号参数化的定义，其中包含表示缩混信号的能量修正因子的参数。-使用若干互相解相关的解相关器来重现多声道信号。-根据基于所传输的参数集而计算出的上混矩阵H，重现多声道信号。

本发明将参考附图通过说明性的例子来描述，当然发明的范围或精神不限于此，附图中图1图示了本发明中的用于5. 1声道配置的术语；图2图示了本发明的可能的编码器实现；
图3图示了本发明的可能的解码器实现；图4图示了本发明的一优选多声道信号参数化方案；图5图示了本发明的一优选多声道信号参数化方案；图6图示了本发明的一优选多声道信号参数化方案；图7图示了产生一个基本声道或两个基本声道的缩混方案的示意性结构；图8图示了基于本发明的平衡参数和关于缩混方案的信息的上混方案的示意性结构；图9a图示了编码器一侧幅度参数的确定；图9b图示了解码器一侧幅度参数的使用；图IOa图示了在比特流的不同层拥有多声道参数化的不同部分的可扩展比特流；图IOb图示了可扩展性表格，指示用哪些平衡参数能构建哪些声道，而哪些平衡参数和声道是不使用的或不计算的；以及图11图示了基于本发明的上混矩阵的应用。
具体实施例方式下述的实施例仅仅是为了阐述本发明关于音频信号多声道表示的原理。将认识到，对此处描述的布置和细节的修改和变更对于本领域其他技术人员来说是显而易见的。因此，目的仅仅是将其受限于即将作出的权利要求的范围，而不受限于此处描述的详细细节和对实施例的阐释。在如下对本发明的描述中，概述了如何参数化IID和ICC参数，以及如何使用它们来重现音频信号的多声道表示，其中假设所有涉及的信号是滤波器组中的子带信号，或者是相应声道的全部频率范围中一部分的某些其他频率选择性表示。所以认识到，本发明不限于特定的滤波器组，且本发明在下文中对信号的子带表示的一个频带进行了概述，并且相同的操作适用于所有的子带信号。尽管平衡参数被称作“声道间强度差(IID) ”参数，要强调的是，声道对之间的平衡参数并不必须是声道对中第一声道的能量或强度与声道对中第二声道的能量或强度之间的比率。一般，平衡参数表示声源在声道对的两个声道之间的定位。尽管该定位通常由能量/幅度/强度差给出，也可以使用信号的其他特性，如两个声道的功率量度或者声道的时间或频率包络等。图1中可见用于5. 1声道配置的不同声道，其中a(t)101表示左环绕声道， b (t) 102表示左前置声道，c (t) 103中声道，d (t) 104表示右前置声道，e (t) 105表示右环绕声道，以及f(t) 106表示LFE (低频声效)声道。假设定义期望算符为
权利要求
1.一种用于产生具有多个原始声道的多声道信号的参数表示中的幅度参数的设备，所述参数表示包括参数集，所述参数集当与至少一个缩混声道一起使用时实现多声道重建，所述设备包括幅度参数计算器(900)，用于计算幅度参数(rM)，所述幅度参数是主缩混和参数表示所基于的参数缩混之间的能量比，其中，所述幅度参数和所述参数集或者所述幅度参数和所述至少一个缩混声道能够传输至接收机。
2.一种用于使用具有参数集的参数表示，产生具有至少三个原始声道的原始多声道信号的重建多声道表示的设备，所述参数集当与至少一个缩混声道一起使用时实现多声道重建，所述参数表示包括幅度参数，所述幅度参数是主缩混和参数表示所基于的参数缩混之间的能量比，所述设备包括幅度修正器(902)，用于通过使用幅度参数来对所述至少一个缩混声道进行加权，来使用幅度参数对所述至少一个缩混声道应用幅度修正。
3.一种用于产生具有多个原始声道的多声道信号的参数表示中的幅度参数的方法，所述参数表示包括参数集，所述参数集当与至少一个缩混声道一起使用时实现多声道重建，所述方法包括计算(900)幅度参数(rM)，所述幅度参数是主缩混和参数表示所基于的参数缩混之间的能量比；以及生成包括所述幅度参数和所述参数集或者包括所述幅度参数和所述至少一个缩混声道的输出数据。
4.一种用于使用具有参数集的参数表示，产生具有至少三个原始声道的原始多声道信号的重建多声道表示的方法，所述参数集当与至少一个缩混声道一起使用时实现多声道重建，所述参数表示包括幅度参数，所述幅度参数是主缩混和参数表示所基于的参数缩混之间的能量比，所述方法包括通过使用幅度参数来对所述至少一个缩混声道进行加权，来使用幅度参数对所述至少一个缩混声道应用(90 幅度修正，从而获得了通过使用参数集中的参数进行上混而得到的修正多声道重建。
全文摘要
含至少三个原始声道的多声道输入信号采用多声道信号的参数表示方式进行表示。计算出第一声道对之间的第一平衡参数(r1)、第一相干参数或者第一声道间时间差和第二声道对之间的第二平衡参数(r2)、或第二相干参数或者第二声道间时间差参数。这组参数就是原始信号的参数表示。第一声道对(102，104)有两个声道，它们不同于第二声道对(102，104，103)中的两个声道。此外，两个声道对中的每个声道都是原始声道之一、或者原始声道的加权组合，并且第一声道对和第二声道对包含关于三个原始声道的信息。为了多声道重建的目的，以可扩展方式运用参数并结合缩混信息来产生数目可选的输出声道。
文档编号G10L19/14GK102157155SQ201110097029
公开日2011年8月17日申请日期2005年4月12日优先权日2004年4月16日
发明者克里斯托弗·薛林, 拉尔斯·维尔默斯, 海科·普哈根, 约纳斯·勒登, 约纳斯·恩德加申请人:科丁技术公司

本文推荐多声道音频信号表示方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656759968.html

当前位置：网站首页>专利 >正文

多声道音频信号表示方法

相关推荐