空间音频渲染和编码的制作方法-品牌商务网

空间音频渲染和编码的制作方法
【专利摘要】一种编码器（501）生成通过第一缩混和表征音频对象的数据来表示音频场景的数据。此外，指示残余缩混的扩散程度的方向相关扩散参数被提供，其中残余缩混对应于在所述音频对象被提取的情况下的音频场景的音频分量的缩混。渲染设备（503）包括从编码器（501）接收数据的接收器（701）。电路（703）从音频对象为空间扬声器配置生成信号。变换器（709）通过对残余缩混应用第一变换为空间扬声器配置生成非扩散声信号，并且另一变换器（707）通过对残余缩混应用第二变换为空间扬声器配置生成信号，其通过对残余缩混应用解相关来实现。所述变换取决于方向相关扩散参数。信号被组合以便生成输出信号。
【专利说明】空间音频渲染和编码

【技术领域】
[0001] 本发明涉及空间音频渲染和/或编码，并且具体地但不排他地，涉及具有不同的空间扬声器配置的空间音频渲染系统。

【背景技术】
[0002] 各种源信号的数字编码在过去数十年里已变得日益重要，因为数字信号表示和通信已日益代替模拟表示和通信。例如，诸如语音和音乐这样的音频内容是越来越多地基于数字内容编码的。
[0003] 音频编码格式已被开发来提供越来越有能力的、变化的且灵活的音频服务，并且特别地，支持空间音频服务的音频编码格式已被开发。
[0004] 像DTS和杜比数码（Dolby Digital)这样的众所周知的音频编码技术产生编码的多声道音频信号，所述编码的多声道音频信号将空间像表示为在固定位置处的收听者周围被放置的大量声道。对于与对应于多声道信号的设置不同的扬声器设置，空间像将是次优的。并且，这些基于声道的音频编码系统典型地不能够应付不同数目的扬声器。
[0005] MPEG环绕提供多声道音频编码工具，所述多声道音频编码工具允许现有的基于单音或立体声的编码器被扩展到多声道音频应用。图1图示了 MPEG环绕系统的元件的例子。使用通过对原始多声道输入的分析所获得的空间参数，MPEG环绕解码器能够通过单音信号或立体声信号的受控上混（upmix)来重建空间像以便获得多声道输出信号。
[0006] 因为多声道输入信号的空间像被参数化，所以MPEG环绕允许通过不使用多声道扬声器设置的渲染装置来解码相同的多声道比特流。例子是在头戴式耳机上的虚拟环绕重放，这被称为MPEG环绕双声道解码过程。在这种模式下，逼真的环绕体验能够在使用普通头戴式耳机时被提供。另一例子是高阶多声道输出（例如7. 1声道）到低阶设置(例如5. 1 声道）的修剪。
[0007] 为了提供音频的更加灵活的表示，MPEG标准化了称为"空间音频对象编码" (MPEG-D SA0C)的格式。和诸如DTS、杜比数码以及MPEG环绕这样的多声道音频编码系统对 t匕，SA0C提供对单独的音频对象而不是音频声道的高效编码。然而在MPEG环绕中，每个扬声器声道可以被认为源自声音对象的不同混合，SA0C使得单独的声音对象在解码器侧可得到以用于如图2中所图示的交互式操纵。在SA0C中，多个声音对象连同允许声音对象在渲染侧被提取的参数数据一起被编码成单音或立体声缩混（downmix)，从而允许单独的音频对象可用于例如由终端用户操纵。
[0008] 实际上，类似于MPEG环绕，SA0C同样创建单音或立体声缩混。此外，对象参数被计算并且被包括。在解码器侧，用户可以操纵这些参数以便控制单独对象的各种特征，诸如位置、水平、均衡，或者甚至以便应用诸如混响这样的效果。图3图示了使得用户能够控制被包含在SA0C比特流中的单独对象的交互式接口。借助于渲染矩阵，单独的声音对象被映射到扬声器声道上。
[0009] 实际上，在用于渲染空间声音的渲染配置方面的变化和灵活性在近年来已随着越来越多的再现格式变得可供主流消费者使用而显著地增加。这需要音频的灵活表示。随着 MPEG环绕编解码器的引入已采取了重要的步骤。然而，音频仍然针对特定扩音器设置被产生和发送。在不同的设置之上和在非标准（即，灵活的或用户定义的）扬声器设置之上的再现未被指定。
[0010] 这种问题能够部分地由SA0C解决，所述SA0C发送音频对象而非再现声道。这允许解码器侧将音频对象放置在空间中的任意位置处，只要该空间被扬声器充分地覆盖。这样，在被发送音频与再现设置之间不存在关系，因此任意扬声器设置能够被使用。这对于例如其中扬声器几乎从不在预定位置处的、典型起居室中的家庭影院设置来说是有利的。在 SA0C中，在解码器侧判定对象在声音场景中被放置在的地方，其从艺术观点看常常不是期望的。SA0C标准确实提供了用来在比特流中发送默认渲染矩阵从而消除解码器职责的方式。然而，所提供的方法要么依赖固定的再现设置要么依靠未指定的语法。因此，SA0C没有提供独立于扬声器设置来发送音频场景的规范手段。更重要的是，SA0C没有准备好对于扩散信号分量的如实渲染。尽管存在包括所谓的多声道背景对象以便捕获扩散声的可能性，但是这个对象束缚于一个特定的扬声器配置。
[0011] 针对3D音频的音频格式的另一规范正由3D音频联盟（3DAA)开发，所述3D音频联盟（3DAA)是由SRS (声音检索系统)实验室所发起的行业联盟。3DAA致力于开发用于3D 音频的传输的标准，这"将促进从当前扬声器馈送范式到灵活的基于对象的方法的转变"。在3DAA中，允许旧有多声道缩混连同单独的声音对象一起发送的比特流格式将被定义。此夕卜，对象定位数据被包括。生成3DAA音频流的原理在图4中被图示。
[0012] 在3DAA方法中，声音对象在扩展流中被独立地接收，并且这些可以被从多声道缩混中提取。结果得到的多声道缩混连同单独地可用的对象一起被渲染。
[0013] 对象可以由所谓的符干（stems)构成。这些符干基本上是分组的(缩混的）音轨或对象。因此，对象可以由包装成符干的多个子对象构成。在3DAA中，多声道参考混合能够被与音频对象的选择一起发送。3DAA发送针对每个对象的3D位置数据。对象然后能够使用3D位置数据被提取。替换地，逆混合矩阵可以被发送，从而描述对象与参考混合之间的关系。
[0014] 根据3DAA的描述，声音场景信息很可能通过给每个对象分配角度和距离而被发送，从而指示对象应该相对于例如默认正向被放置在的地方。这对于点源来说是有用的，但是未能描述宽源(像例如合唱或欢呼)或扩散声场(诸如气氛)。当所有点源被从参考混合中提取时，环境多声道混合保持不变。与SA0C类似，3DAA中的残余对于特定扬声器设置而言是固定的。
[0015] 因此，SA0C和3DAA方法两者都合并了能够在解码器侧被单独地操纵的单独的音频对象的传输。两个方法之间的差别是SA0C通过提供相对于缩混表征对象的参数来提供关于音频对象的信息（即，使得音频对象在解码器侧从缩混生成)，然而3DAA将音频对象作为完全且独立的音频对象（即，其能够在解码器侧从缩混独立地生成）来提供。
[0016] 典型的音频场景将包括不同类型的声音。特别地，音频场景将常常包括大量特定且空间定义明确的音频源。此外，音频场景可以典型地包含表示一般环境音频环境的扩散声分量。这样的扩散声可以包括例如混响效应、非定向噪声等。
[0017] 关键问题是如何处理这样的不同音频类型以及特别地如何在不同的扬声器配置中处理这样的不同类型的音频。诸如SAOC和3DAA这样的格式能够灵活地渲染点源。然而，尽管这样的方法可能优于基于声道的方法，但是扩散声源在不同的扬声器配置下的渲染是次优的。
[0018] 用于区分声音点源和扩散声的渲染的不同方法已在Ville Pulkki的文章 "Spatial Sound Reproduction with Directional Audio Coding，，，Journal Audio Engineering Society, Vol. 55, No. 6, June 2007 中被提出。该文章提出了一种被称为 DirAC (定向音频编码）的方法，其中缩混连同使得能够在合成侧再现空间像的参数一起被发送。在DirAC中传送的参数通过方向和扩散分析被获得。具体地，DirAC公开了除传送针对声源的方位角和仰角之外，扩散指示也被传送。在合成期间，缩混被动态地划分成两个流，对应于非扩散声的一个，以及对应于扩散声的另一个。非扩散声流用针对点状声源的技术被再现，以及扩散声流通过针对感知缺少突出方向的声音的技术被渲染。
[0019] 文章中所描述的缩混是单音或B格式类型的缩混。在单音缩混的情况下，扩散扬声器信号通过针对每个扩音器位置使用独立的解相关器对缩混解相关而被获得。在B格式缩混的情况下，虚拟话筒信号针对每个扩音器位置从在再现扬声器的方向上的B格式建模心脏形曲线中提取。这些信号被分裂成表不定向源的一部分和表不扩散源的一部分。对于扩散分量，"虚拟信号"的解相关版本被加到所获得的针对每个扩音器位置的点源贡献。
[0020] 然而，尽管DirAC提供了可能在不考虑空间定义的声源和扩散声的独立处理的一些系统上改进音频质量的方法，但是它往往提供次优的声音质量。特别地，当使系统与不同的扬声器配置适配时，仅基于缩混信号到扩散/非扩散分量的相对简单的划分对扩散声的特定渲染往往导致扩散声的不太理想的渲染。在DirAC中，扩散信号分量的能量通过存在于输入信号中的点源直接地确定。因此，不可能例如在存在点源的情况下生成真扩散的信号。
[0021] 因此，改进的方法将是有利的，并且特别地允许增加的灵活性、改进的音频质量、对不同的渲染配置的改进的适应、声音场景的扩散声和/或音频点源的改进的渲染和/或改进的性能的方法将是有利的。

【发明内容】

[0022] 因此，本发明寻求优选地单个地或者以任何组合方式缓解、减轻或者消除上面提到的缺点中的一个或多个。
[0023] 根据本发明的一个方面，提供了空间音频渲染设备，其包括：用于提供残余缩混和表征至少一个音频对象的数据的电路，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；用于接收扩散参数的接收器，所述扩散参数指示残余缩混的扩散程度；用于通过对残余缩混应用第一变换而为空间扬声器配置生成第一组信号的第一变换器，第一变换取决于扩散参数；用于通过对残余缩混应用第二变换而为空间扬声器配置生成第二组信号的第二变换器，第二变换取决于扩散参数并且包括对残余缩混的至少一个声道的解相关；用于从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号的电路；以及用于通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号的输出电路；并且，其中扩散参数是方向相关的。
[0024] 本发明可以提供改进的音频渲染。特别地，它可以在许多实施例中并且针对许多不同的音频场景和渲染设置提供改进的音频质量和用户体验。在许多情景中，该方法可以特别地在对残余缩混的不同音频分量的空间特性的改进考虑的情况下提供残余缩混的改进的渲染。
[0025] 本发明的发明人已经认识到，改进的性能常常能够通过不只考虑两种类型的音频分量被实现。实际上，和传统方法对比，发明人已经认识到，考虑残余缩混所得自的缩混以便包含至少三种类型的音频分量是有利的，所述至少三种类型的音频分量即：由音频对象表示的并且因此可以被提取的特定音频源、不由音频对象表示的并且因此不能够被从缩混中提取的特定空间定位的音频源(例如点源)、以及扩散声源。因此，发明人已经认识到，处理残余缩混以便渲染空间特定的声分量和扩散声分量可能是有利的。发明人已进一步认识至IJ，与空间更特定的声分量独立地渲染扩散声分量可以提供改进的音频渲染。发明人还已经认识到，一些声分量可以是既扩散的又仍然展示空间特性，并且这样的部分扩散声源的改进的空间渲染提供改进的声音质量。
[0026] 方向相关扩散参数的使用允许例如编码器控制渲染侧处理以便提供残余缩混的改进的渲染，并且特别地，可以允许(特别是）扩散或部分扩散声分量的渲染适应于各种各样的空间扬声器配置。
[0027] 实际上，该方法可以在许多情景中为灵活的扬声器位置提供残余声场的改进的渲染，其中渲染提供对残余信号中点源和(部分)扩散声分量两者的适当的处理。例如，点状源可以使用平移（panning)被适配于给定配置，然而扩散分量可以被分发在可用扬声器之上以便提供同质（homogenous)非定向再现。声场还可以包括部分扩散声分量，即具有一些扩散分量和一些非扩散分量的声源。在下文中，对扩散信号分量的参考因此还旨在包括对部分扩散信号分量的参考。
[0028] 在该方法中，残余缩混被并行处理以便提供适合于非扩散声分量的渲染和适合于扩散声分量的渲染。特别地，第一组信号可以表示非扩散声分量然而第二组信号可以表示扩散声分量。特别地，该方法可以导致第一组信号依照适合于特定声源的方法(例如平移）来渲染残余缩混的空间特定的声源，同时允许第二组信号提供适合于扩散声的扩散声渲染。此外，通过这样的过程，响应于可以在编码器处生成的方向相关扩散参数，两种类型的音频分量的适当的且改进的渲染能够被实现。此外，在该方法中，特定音频源可以使用音频对象处理和操纵被渲染。因此，该方法可以允许音频场景中三种类型的声分量的高效渲染，从而提供改进的用户体验。
[0029] 由第二变换器对解相关的应用提供了扩散声分量的改进的感知，并且特别地允许它与残余缩混的正被再现为空间更明确的声分量的部分区分开（即，它允许来自第二组信号的被渲染声音在感知上与来自第一组信号的被渲染声音区分开)。当在针对残余缩混假定的位置与空间扬声器配置的实际位置之间存在扬声器位置中的失配时，解相关可以特别地提供改进的扩散声感知。实际上，解相关提供扩散的改进的感知，由于以并行路径的处理，其在该系统中能够在仍然维持针对例如在残余缩混中的点源的空间特性的同时被应用。扩散/非扩散渲染的相对加权可以取决于残余缩混中的扩散声与非扩散声之间的实际关系。这能够在编码器侧被确定并且经由扩散参数被传送到渲染侧。渲染侧因此能够取决于例如残余缩混中的扩散声与非扩散声的比来适配其处理。结果，系统可以提供改进的渲染，并且特别地对于与残余缩混相关联的空间渲染假设和在渲染侧处使用的空间扬声器配置之间的差异会鲁棒得多。这可以特别地提供能够实现对许多不同的渲染扬声器设置的改进的适应的系统。
[0030] 用于提供残余缩混的电路可以具体地能够接收或者生成残余缩混。例如，残余缩混可以被从外部源或内部源接收。在一些实施例中，残余缩混可以被从编码器生成和接收。在其它实施例中，残余缩混可以由音频渲染设备例如从接收到的缩混和表征(一个或多个）音频对象的数据生成。
[0031] 残余缩混可以与特定空间配置相关联。空间配置可以是渲染扬声器配置，诸如渲染扬声器(其可以是真实的或虚拟的扬声器）的位置的标称（nominal)、参考或假定的空间配置。在一些情景中，残余缩混的空间配置可以与声(场）捕获配置相关联，所述声(场）捕获配置诸如是导致残余缩混的声分量的话筒配置。这样的配置的例子是B格式表示，所述 B格式表示可以被用作针对残余缩混的表示。
[0032] 空间扬声器配置可以是真实的或虚拟的声换能器的空间配置。特别地，所述输出的一组信号的每个信号/声道可以与给定空间位置相关联。信号然后被渲染成对于收听者来说好像从这个位置到达。
[0033] 表征(一个或多个）音频对象的数据可以通过相对表征(例如，相对于缩混(其也可以被从编码器接收)）来表征(一个或多个）音频对象，或者可以是(一个或多个）音频对象的绝对和/或完整的表征(诸如完整的编码的音频信号)。具体地，表征音频对象的数据可以是描述音频对象如何从缩混生成的空间参数(诸如在SA0C中),或者可以是音频对象的独立表示(诸如在3DAA中）。
[0034] 音频对象可以是与所表示的音频环境中的单个声源相对应的音频信号分量。具体地，音频对象可以包括来自音频环境中的仅一个位置的音频。音频对象可以具有关联的位置，但是不与任何特定渲染声源配置相关联，并且可以具体地不与任何特定扩音器配置相关联。
[0035] 依照本发明的可选特征，扩散参数包括针对残余缩混的不同声道的单独的扩散值。
[0036] 这可以在许多实施例中提供特别有利的音频渲染。特别地，多声道缩混的每个声道可以与空间配置(例如，真实的或虚拟的扬声器设置）相关联，并且方向相关扩散参数可以为这些声道/方向中的每一个提供单独的扩散值。具体地，扩散参数可以指示每个缩混声道中的扩散或非扩散的权重/比重。这可以允许渲染被适配于单独的缩混声道的特定特性。
[0037] 在一些实施例中，扩散参数可以是频率相关的。这可以在许多实施例和情景中允许改进的渲染。
[0038] 依照本发明的可选特征，在输出信号中相对于第一变换的贡献的第二变换的贡献因指示增加的扩散的扩散参数而增加(残余缩混的至少一个声道)。
[0039] 这可以提供音频场景的改进的渲染。每个缩混声道的非相关的和解相关的渲染的加权可以基于扩散参数被适配，从而允许渲染被适配于音频场景的特定特性。增加的扩散将减少源自残余缩混的特定声道的第一组信号的分量的能量并且将增加源自残余缩混的特定声道的第二组信号的分量的能量。
[0040] 在一些实施例中，针对用于第一变换的残余缩混的声道的第一权重因指示增加的扩散的扩散参数而减少，并且针对用于第二变换的残余缩混的声道的第二权重因指示增加的扩散的扩散参数而增加。
[0041] 依照本发明的可选特征，第一组信号和第二组信号的组合能量基本上与扩散参数无关。
[0042] 信号无关值可以与残余缩混的任何特性无关。具体地，信号无关值可以是固定值和/或预定值。该方法可以具体地维持第一和第二组信号中的(一个或多个)缩混声道的相对能量水平。有效地，每个缩混声道可以跨越第一变换和第二变换被分发，其具有取决于扩散参数但不改变缩混声道相对于其它缩混声道的总体能量水平的分布。
[0043] 依照本发明的可选特征，第二变换器被布置成响应于与第二组信号中的第一信号相关联的扬声器位置到与第二组信号中的不同信号相关联的至少一个邻近扬声器位置的距离而调整第二组信号中的第一信号的音频水平。
[0044] 这可以提供改进的渲染，并且可以特别地允许残余缩混的扩散声分量的改进的渲染。接近可以是角接近和/或到一个或多个最近扬声器的距离。在一些实施例中，针对第一声道的音频水平可以响应于与收听位置的角间隔而被调整，其中与第一声道相对应的扬声器是最近的扬声器。
[0045] 在一些实施例中，空间扬声器配置可以包括与残余缩混中的声道的数目相对应的声道的数目，并且第二变换器可以被布置成响应于与残余缩混相关联的空间信息而将残余缩混的声道映射到空间渲染配置的扬声器位置。
[0046] 这可以在一些实施例中提供改进的渲染。特别地，每个缩混声道可以与标称、参考或假定的空间位置相关联，并且这可以被与最接近地和其匹配的渲染配置的扬声器位置相匹配。
[0047] 依照本发明的可选特征，残余缩混包括比空间扬声器配置的扬声器位置的数目要少的声道，并且其中第二变换器被布置成通过对残余缩混的至少第一声道应用多个解相关来生成第二组信号中的多个信号。
[0048] 这可以提供扩散声的特别有利的渲染，并且可以提供改进的用户体验。
[0049] 依照本发明的可选特征，第二变换器被布置成通过对残余缩混的第二声道应用多个解相关来生成第二组信号中的另外的多个信号，第二声道不是至少第一声道中的声道。 [0050] 这可以提供扩散声的特别有利的渲染并且可以提供改进的用户体验。特别地，使用多个缩混声道以及在许多实施例中有利地使用所有的缩混声道来生成附加的扩散声信号可以提供特别有利的扩散声渲染。特别地，它可以增加声道之间的解相关并且因此增加扩散的感知。
[0051 ] 在一些实施例中，相同的解相关可以被应用于第一声道和第二声道，从而降低复杂性，同时仍然生成被解相关并且因此被感知为扩散声的声音信号。这仍然可以提供解相关的信号，只要对于解相关器的输入信号被解相关。
[0052] 依照本发明的可选特征，第二组信号包括比空间扬声器配置中的扬声器位置的数目要少的信号。
[0053] 在一些实施例中，扩散信号可以仅被从空间扬声器配置的扬声器的子集渲染。这可以在许多情景中导致扩散声的改进的感知。
[0054] 在一些实施例中，残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道，并且其中，第二变换器被布置成在生成第二组信号时忽略残余缩混的至少一个声道。
[0055] 这可以提供扩散声的特别有利的渲染，并且可以提供改进的用户体验。
[0056] 依照本发明的可选特征，残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道，并且其中第二变换器被布置成在生成第二组信号时组合残余缩混的至少两个声道。
[0057] 这可以提供扩散声的特别有利的渲染，并且可以提供改进的用户体验。
[0058] 依照本发明的可选特征，第二变换器被布置成生成第二组信号以便对应于音频从第二组信号的侧向渲染。
[0059] 这可以提供扩散声的特别有利的渲染，并且可以提供改进的用户体验。
[0060] 依照本发明的可选特征，接收器被布置成接收包括音频对象的接收到的缩混；并且用于提供残余缩混的电路被布置成响应于表征数据对象的数据而生成至少一个音频对象，并且被布置成通过从所接收到的缩混中提取至少一个音频对象来生成残余缩混。
[0061] 这可以在许多实施例中提供特别有利的方法。
[0062] 依照本发明的可选特征，空间扬声器配置不同于残余缩混的空间声音表示。
[0063] 本发明可以特别适合于使特定(残余)缩混适配于不同的扬声器配置。该方法可以提供允许对不同的扬声器设置的改进的且灵活的适配的系统。
[0064] 根据本发明的一个方面，提供了空间音频编码设备，其包括：用于生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据的电路；用于生成指示残余缩混的扩散程度的方向相关扩散参数的电路，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；以及用于生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流的输出电路。
[0065] 第一缩混可以是残余缩混。在一些实施例中，第一缩混可以是包括音频场景的音频分量的缩混，并且特别地可以是包括至少一个音频对象的缩混。
[0066] 根据本发明的一个方面，提供了生成空间音频输出信号的方法，所述方法包括：提供残余缩混和表征至少一个音频对象的数据，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；接收指示残余缩混的扩散程度的扩散参数；通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号，第一变换取决于扩散参数；通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号，第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关；从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号；以及通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号；并且其中，扩散参数是方向相关的。
[0067] 根据本发明的一个方面，提供了空间音频编码的方法，其包括：生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据；生成指示残余缩混的扩散程度的方向相关扩散参数，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；以及生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流。
[0068] 本发明的这些和其它方面、特征以及优点从在下文中所描述的（一个或多个）实施例将是明显的，并且将参考在下文中所描述的(一个或多个）实施例而被阐明。

【专利附图】

【附图说明】
[0069] 将参考附图仅通过例子对本发明的实施例进行描述，在附图中：图1图示了依照现有技术的MPEG环绕系统的元件的例子；图2例示了在MPEG SA0C中可能的音频对象的操纵；图3图示了使得用户能够控制被包含在SA0C比特流中的单独对象的交互式接口；图4图示了依照现有技术的3DAA的音频编码的原理的例子；图5图示了依照本发明的一些实施例的音频渲染系统的例子；图6图示了依照本发明的一些实施例的空间音频编码装置的例子；图7图示了依照本发明的一些实施例的空间音频渲染装置的例子；以及图8图示了空间扬声器配置的例子。

【具体实施方式】
[0070] 图5图示了依照本发明的一些实施例的音频渲染系统的例子。该系统包括空间音频编码装置501，其接收要被编码的音频信息。经编码的音频数据经由适合的通信介质505 被发送到空间音频渲染装置503。空间音频渲染装置503此外被耦合到与给定空间扬声器配置相关联的一组扬声器。
[0071] 提供给空间音频编码装置501的音频数据可以被以不同的形式提供并且以不同的方式生成。例如，音频数据可以是从话筒捕获的音频和/或可以是诸如例如针对计算机游戏应用合成地生成的音频。音频数据可以包括大量分量，所述大量分量可以被编码为单独的音频对象，诸如例如特定的合成地生成的音频对象或被布置成捕获特定音频源的话筒，所述特定音频源诸如例如单个乐器。
[0072] 每个音频对象典型地对应于单个声源。因此，和音频声道对比，并且特别地和常规空间多声道信号的音频声道对比，音频对象不包括来自可能具有大大不同的位置的多个声源的分量。类似地，每个音频对象提供声源的完全表示。每个音频对象因此典型地与针对仅单个声源的空间位置数据相关联。具体地，每个音频对象可以被认为是声源的单个且完整的表示，并且可以与单个空间位置相关联。
[0073] 此外，音频对象不与任何特定渲染配置相关联并且具体地不与声换能器的任何特定空间配置相关联。因此，和典型地与特定空间扬声器设置(诸如特别是环绕声设置）相关联的传统空间声音声道对比，音频对象不是相对于任何特定空间渲染配置定义的。
[0074] 空间音频编码装置501被布置成生成编码的信号，所述编码的信号包括缩混和表征一个或多个音频对象的数据。缩混在一些实施例中可以是残余缩混，所述残余缩混与音频场景的表示相对应，但是没有由音频对象数据所表示的音频对象。然而，被发送的缩混常常包括音频对象，使得缩混的直接渲染将导致声音场景的所有音频源的渲染。这可以提供后向兼容性。
[0075] 经编码的音频流可以通过任何适合的通信介质来传送，所述通信介质包括直接通信或广播链路。例如，通信可以是经由因特网、数据网络、无线电广播等的。通信介质可以替换地或者附加地是经由诸如⑶、Blu-Ray?盘、存储器卡等这样的物理存储介质的。
[0076] 空间音频渲染装置503的输出被布置成和空间扬声器配置匹配。空间扬声器配置可以是标称的、参考的或假定的空间扬声器配置。因此，用于音频信号的渲染的扬声器的实际位置可能不同于空间扬声器配置，但是用户将典型地努力提供和实际可行的尽可能接近的、空间扬声器配置与实际扬声器位置之间的相关。
[0077] 并且，在一些实施例中，空间扬声器配置可以表不虚拟扬声器。例如，对于双声道空间渲染系统(例如基于头部相关传递函数)，音频输出的渲染可以是经由模仿例如环绕声设置的头戴式耳机的。替换地，虚拟扬声器的数目可以比典型的扬声器设置高得多，从而提供较高的空间分辨率以用于渲染音频对象。
[0078] 图5的系统因此使用这样的编码方法，其支持音频对象并且具体地可以使用从 SA0C和3DAA获知的方法。
[0079] 图5的系统因此可以被看成通过将一些声分量编码为由表征音频对象的特定数据所表示的特定音频对象来提供在音频场景中不同类型的声分量之间的第一区分 (differentiation)，而其它声分量仅被编码在缩混中，即对于这些其它声分量，多个声源典型地在缩混的(一个或多个）声道中被一起编码。典型地，这种方法适合于将特定点状源编码为能够被平移到特定位置的音频对象，同时将更多扩散声分量编码为组合的缩混。然而，当前发明的发明人已经认识到，到扩散和非扩散（以及具体地到音频对象和扩散声）的简单区分是次优的。实际上，已经认识到，声音场景可以典型地包含四种不同类型的声分量： 1. 已被作为单独的音频对象发送的空间特定的（点状)源(在下文中有时通过0参考)， 2. 尚未被作为单独的音频对象发送的空间特定的（点)源(在下文中有时通过Oi参考)， 3. 具有特定空间起源区域的扩散声源，诸如例如小型合唱(在下文中有时通过02参考)，以及 4. 全向扩散声场，例如环境噪声或混响(在下文中有时通过03参考)。
[0080] 传统系统仅仅寻求区分扩散声分量和非扩散声分量。例如，3DAA通过音频分量已从其中被提取的残余缩混的无区分渲染来渲染后面三个类别的声分量中的全部。然而，因为残余缩混仍然包括与具有一些空间特性的音频源（例如，点源、诸如合唱和扩散信号这样的具有某方向的扩散声源）以及基本上没有空间特性（诸如气氛或混响）的音频源相关的信号分量，所以组合渲染导致次优渲染。
[0081] 在图5的系统中，信息被从编码器提供，所述编码器同样允许后面类别的有区分的渲染。具体地，扩散参数在编码器中被生成，所述扩散参数表示残余缩混的扩散程度。这允许解码器/渲染器将残余缩混划分成能够按对于点状声源适当的方式被渲染的一部分和能够按对于扩散声适当的方式被渲染的一部分。扩散参数可以具体地指示每个缩混声道的应该被分别渲染为点源以及渲染为扩散声的比重有多大。扩散参数可以是允许实现两种类型的音频分量之间的良好分开的参数。例如，扩散参数可以包括表征不同音频分量能够如何在解码器处被渲染的滤波器参数。
[0082] 此外，扩散参数是方向相关的，从而允许针对扩散声再现空间特性。例如，扩散参数可以指示针对缩混的不同声道的点源和扩散声的不同部分，其中缩混的每个声道与不同的空间渲染位置相关联。这可以被空间音频渲染装置503用来将每个缩混声道的不同比重分别渲染为非扩散声和扩散声。具体地，取决于第二类型（02)的声源的扩散的量和方向性，这些可以被部分地渲染为点源（ο 1)或扩散声（03)。
[0083] 方向相关扩散参数还可以提供对各种渲染扬声器配置的改进的适应。该方法使用与再现设置无关的扩散声场的表征。从空间音频编码装置501发送的数据流能够通过空间音频编码装置501而被转化为针对给定扬声器设置的扬声器信号。
[0084] 在图5的系统中，提供给空间音频编码装置501的音频数据被用来使用缩混矩阵（D)创建缩混(诸如能够容易地被旧有环绕声渲染装备渲染的5. 1声道缩混)。大量的音频对象（〇)连同兼容的缩混一起被发送。作为对象选择过程的一部分，扩散参数在该例子中被确定，其中特定值针对每个缩混声道(索引c)和(可选地）频带(索引f) 被提供。
[0085] 在空间音频渲染装置503处，对应于在音频对象（0)被提取情况下的所接收到的缩混的残余缩混(残余缩混因此包含Oi+OfOd通过使用缩混矩阵D而被确定。残余缩混然后基于扩散参数义^被渲染。
[0086] 例如，扩散信号分量能够使用扩散参数被与点源分量分离。结果得到的点源分量然后能够被平移到当前渲染配置的扬声器位置。扩散信号分量首先被解相关并且然后被例如从扬声器位置渲染，所述扬声器位置与所对应的缩混信号的预定扬声器位置的位置最接近。由于扩散分量与直接分量之间的空间偏差，解相关可以提供改进的音频质量。为扩散的但具有空间特性的声分量的分布被部分地渲染为扩散声分量和部分地渲染为空间特定的声分量，其中分离是基于扩散参数的。因此，由空间音频编码装置501所生成的扩散参数提供关于残余缩混的特性的信息，这允许空间音频渲染装置503实施残余缩混的有区分的渲染，使得这更接近地对应于原始音频场景。替换地，扩散信号可以使用平移 (后面是解相关）而被渲染到扬声器配置上的预定位置。解相关去除由平移所引入的相关。这种方法在具有空间特性的扩散分量中是特别有益的。
[0087] 图6更详细地图示了空间音频编码装置501的一些元件。空间音频编码装置501 包括编码器601，所述编码器601接收描述音频场景的音频数据。在该例子中，音频场景包括声音的所有四种类型的声分量〇 jpOy 〇3。表示音频场景的音频数据可以被提供为表征单独声音类型中的每一个的离散且单独的数据。例如，合成音频场景可以被生成并且针对每个音频源的数据可以被提供为音频数据的单独和独立的集合。作为另一例子，音频数据可以由例如通过在音频环境中捕获声音的多个话筒所生成的音频信号来表示。在一些情景中，可以为每个音频源提供独立的话筒信号。替换地或附加地，单独的声源中的一些或全部可以被组合成话筒信号中的一个或多个。在一些实施例中，单独的声分量可以例如通过音频波束形成等从组合的话筒信号得到。
[0088] 编码器601继续从所接收的音频数据生成表示音频场景的编码的音频数据。编码器601通过缩混和大量的单独的音频对象来表示音频。
[0089] 例如，编码器601可以执行混合操作以便将由输入音频数据所表示的音频分量混合成适合的缩混。缩混可以例如是单音缩混、B格式表示缩混、立体声缩混或5. 1缩混。这种缩混能够被旧有(非音频对象能力的）装备使用。例如，5. 1空间声音渲染系统能够直接地使用5.1兼容的缩混。缩混依照任何适合的方法被执行。具体地，缩混可以使用缩混矩阵D被执行，所述缩混矩阵D还可以被传送到空间音频渲染装置503。
[0090] 缩混还可以由混合工程师创建。
[0091] 编码器此外生成表征大量的音频对象（0)的音频数据。这些音频对象典型地是音频场景的最重要的点状声源，诸如在音乐会的捕获中的最具优势的乐器。这个过程还可以受最大容许比特速率控制。在那种意义上，比特速率可伸缩的解决方案被实现。通过将它们表示为单独的音频对象，它们能够在渲染侧被单独地处理，例如从而允许终端用户为每个音频对象单独地滤波、定位以及设置音频水平。音频对象（〇)可以被编码为独立的数据，即完全表征音频对象的音频对象数据(像使用3DAA可能的那样)，或者可以例如通过提供描述如何从缩混生成音频对象的参数相对于缩混被编码(像在SA0C中所做的那样)。
[0092] 编码器典型地同样生成预定音频场景的描述。例如，针对每个音频对象的空间位置允许空间渲染装置（503)提供改进的音频质量。
[0093] 在该例子中，所生成的缩混因此表示包括所有声分量。、(^、(^(^的整个音频场景。这允许缩混被直接地渲染而无需任何复杂的或进一步的处理。然而，在音频对象被提取并且被单独地渲染的情景中，渲染器不应该渲染整个缩混而是仅渲染在音频对象已被提取之后的剩余分量(即，(^、(^、(^乂在音频对象被提取情况下的声音级的缩混被称为残余缩混并且用声分量表示音频场景，所述声分量因为音频对象被去除而被单独地编码。
[0094] 在许多实施例中，编码器601可以生成包括所有音频分量（。、(^、(^(^的缩混：即同样包括独立地编码的音频对象（0)的缩混。这种缩混可以连同表征音频对象的数据一起被传送。在其它实施例中，编码器601可以生成不包括独立地编码的音频对象（0)而是仅包括非独立地编码的音频对象的缩混。因此，在一些实施例中，例如仅通过对所关联的声分量（〇i、0 2、03)进行混合并且忽略将被编码为单独的音频对象的声分量，编码器601可以仅生成残余缩混。
[0095] 编码器601此外被耦合到扩散处理器603,所述扩散处理器603被馈送缩混。扩散处理器603被布置成生成指示残余缩混的扩散程度/水平的方向相关扩散参数。
[0096] 在一些实施例中，扩散参数可以指示(非残余)缩混的扩散程度/水平。具体地，它可以指示针对从编码器501发送的全缩混的扩散程度。在这样的情况下，解码器503可以根据所接收到的扩散参数生成指示残余缩混中的扩散程度的扩散参数。实际上，在一些实施例中，相同的参数值可以被直接地使用。在其它实施例中，参数值可以例如针对提取的音频对象的能量等被补偿。因此，描述全(非残余）缩混的扩散参数将同样固有地被描述并且指示残余缩混。
[0097] 在一些实施例中，扩散处理器603可以接收包括音频对象0的缩混并且通过提取对象0从其生成残余缩混。在其中编码器601直接地生成残余缩混的实施例中，扩散处理器603可以直接地接收残余缩混。
[0098] 扩散处理器603可以以任何适合的方式生成方向相关扩散参数。例如，扩散处理器603可以评估残余缩混的每个声道以便为该声道确定扩散参数。这例如可以通过遍及残余缩混的声道并且替换地或附加地随着时间的推移而评估共同能量水平来完成。因为扩散分量典型地具有方向无关的特征。替换地，分量〇 2和〇3对残余缩混声道的相对贡献可以被评估以便得到扩散参数。
[0099] 在一些实施例中，扩散处理器603可以直接地接收输入音频数据和缩混矩阵（D) 并且可以从其生成扩散参数。例如，输入数据可以表征单独的声分量是扩散的还是点状的，并且扩散处理器603可以针对缩混的每个声道来生成扩散值，所述扩散值指示声道的能量的相对于源自点状源的比重的、源自扩散源的比重。
[0100] 扩散处理器603因此生成方向相关扩散参数，所述方向相关扩散参数针对缩混的每个声道指示声道的信号的比重有多大对应于扩散声并且有多少对应于非扩散声。
[0101] 扩散参数可以进一步是频率相关的，并且具体地扩散参数的值的确定可以在单独的频带中被执行。典型地，频带可以在全频率范围上被用对数划分以便确保感知有关的分布。
[0102] 编码器601和扩散处理器603被耦合到输出电路605,所述输出电路605生成编码的数据流，所述编码的数据流包括由编码器601所生成的缩混（S卩，残余缩混或全音频场景缩混)、表征音频对象的数据以及方向相关的扩散参数。
[0103] 图7图示了空间音频渲染装置503的元件的例子。空间音频渲染装置503包括接收器，所述接收器从空间音频编码装置501接收经编码的音频流。因此，空间音频渲染装置 503接收经编码的音频流，所述经编码的音频流包括形式为由音频对象所表示的声分量0 和由缩混所表不的声分量(^、0 2、03以及可能地0的音频场景的表不。
[0104] 接收器701被布置成提取音频对象数据并且被布置成将它们馈送给音频对象解码器703,所述音频对象解码器703被布置成重建音频对象0。应当了解，用于重建音频对象的传统方法可以被使用并且诸如用户特定空间定位、滤波或混合这样的本地渲染侧操纵可以被应用。音频对象被创建成和由空间音频渲染装置503所使用的给定扬声器设置匹配。音频对象解码器703因此生成一组信号，该组信号和被空间音频渲染装置503用来再现经编码的音频场景的特定空间扬声器配置匹配。
[0105] 在图7的例子中，经编码的音频流包括音频场景的全缩混。因此，当音频对象像在图7的例子中那样被显式地渲染时，缩混的渲染不应该包括音频对象，而是应该替代地是基于不包括音频对象的残余缩混的。因此，图7的空间音频渲染装置503包括残余处理器 705,所述残余处理器705被耦合到接收器701和音频对象解码器703。残余处理器705接收全缩混以及音频对象信息，并且它然后继续从缩混中提取音频对象以便生成残余缩混。提取过程必须这样提取音频对象，其与它们如何在编码器601中被包括在缩混中互补。这可以通过对被用来在编码器处生成缩混的音频对象应用相同的混合矩阵操作来实现，并且因此这个矩阵（D)可以在经编码的音频流中被传送。
[0106] 在图7的例子中，残余处理器705因此生成残余缩混，但是应当了解，在其中残余缩混被编码在经编码的音频流中的实施例中，这个可以被直接地使用。
[0107] 残余缩混被馈送给扩散声处理器707和非扩散声处理器709。扩散声处理器707 继续使用适合于扩散声的渲染方法/技术来渲染缩混信号（的至少一部分)，并且非扩散声处理器709继续使用适合于非扩散声以及具体地适合于点状源的渲染方法/技术来渲染缩混信号（的至少一部分)。因此，两个不同的渲染过程被并行应用于缩混以便提供有区分的渲染。此外，扩散声处理器707和非扩散声处理器709被馈送扩散参数并且响应于该扩散参数来适配它们的处理。
[0108] 作为低复杂性例子，分别针对扩散声处理器707和非扩散声处理器709的增益可以取决于扩散参数而变化。特别地，针对扩散声处理器707的增益可以因扩散参数的增加值而被增加，以及针对非扩散声处理器709的增益可以因扩散参数的增加值而被减少。因此，扩散参数的值控制相对于非扩散渲染有多少扩散渲染被加权。
[0109] 扩散声处理器707和非扩散声处理器709两者都对残余缩混应用变换，所述变换将残余缩混变换成适合于由在特定情境中使用的空间扬声器配置进行渲染的一组信号。 [0110] 来自音频对象解码器703、扩散声处理器707以及非扩散声处理器709的结果得到的信号被馈送给输出驱动器709,其中它们被组合成一组输出信号。具体地，音频对象解码器703、扩散声处理器709以及非扩散声处理器709中的每一个都可以为空间扬声器配置的每个扬声器生成信号，并且输出驱动器709可以将针对每个扬声器的信号组合成针对该扬声器的单个驱动器信号。具体地，信号可以简单地被合计（summed)，但是在一些实施例中，组合可以例如是用户可调整的(例如，允许用户改变扩散声相对于非扩散声的感知比重)。
[0111] 扩散声处理器707在该组扩散信号的生成中包括解相关过程。例如，对于缩混的每个声道，扩散声处理器707可以应用解相关器，所述解相关器导致相对于由非扩散声处理器709所表不的音频被解相关的音频的生成。这确保由扩散声处理器707所生成的声分量实际上被感知为扩散声，而不是感知为源自特定位置的声音。
[0112] 图7的空间音频渲染装置503因此生成作为由三个并行路径所生成的声分量的组合的输出信号，每个路径相对于被渲染声音的感知扩散提供不同的特性。每个路径的加权可以是变化的以便为被渲染音频级提供期望的扩散特性。此外，这种加权能够基于由编码器所提供的、音频场景中的扩散的信息而被调整。此外，方向相关扩散参数的使用允许扩散声以一些空间特性被渲染。此外，系统允许空间音频渲染装置503将所接收到的编码的音频信号适配成以许多不同的空间扬声器配置被渲染。
[0113] 在图7的空间音频渲染装置503中，来自扩散声处理器707和非扩散声处理器709 的信号的相对贡献被加权，使得扩散参数的渐增值（即指示渐增扩散）将相对于非扩散声处理器709的贡献而增加扩散声处理器707在输出信号中的贡献。因此，与从缩混生成的非扩散声相比，由编码器所指示的渐增扩散将导致输出信号包含从缩混生成的更高比重的扩散声。
[0114] 具体地，对于残余缩混的给定声道，针对非扩散声处理器709的第一权重或增益可以因渐增的扩散参数值而被减少。同时，针对扩散声处理器707的第二权重或增益可以因渐增的扩散参数值而被增加。
[0115] 此外，在一些实施例中，第一权重和第二权重能够被确定使得两个权重的组合具有基本上信号无关的值。具体地，第一权重和第二权重可以被确定使得由扩散声处理器707 和非扩散声处理器709所生成的信号的组合能量基本上与扩散参数的值无关。这可以允许从缩混生成的输出信号的分量的能量水平对应于缩混。因此，扩散参数值中的变化将不被感知为声音音量中的改变而是仅声音的扩散特性中的改变。
[0116] 在这点上，两个权重可能需要取决于来自707和709的两个路径之间的交叉相关中的适应而被不同地生成。例如，在扩散分量（〇 2 + 〇3)被解相关器处理的情况下，能量可以在与非扩散分量（Oi)再组合时被减少。这能够通过例如对非扩散分量使用较高的增益而被补偿。替换地，输出级（711)中的加权因此能够被确定。
[0117] 作为特定例子，扩散声处理器707和非扩散声处理器709的处理可以与除针对残余缩混的每个声道的单个增益设定外的扩散参数无关。
[0118] 例如，残余缩混声道信号可以被馈送给扩散声处理器707和非扩散声处理器709。扩散声处理器707可以将信号乘以#的因子，并且然后继续应用扩散参数无关处理(包括解相关)。相比之下，非扩散声处理器709将信号乘以的因子，并且然后继续应用扩散参数无关处理(没有解相关)。
[0119] 替换地，将扩散信号乘以依赖扩散参数的因子可以在通过扩散声处理器707处理之后被应用或者作为扩散声处理器707中的最后步骤或中间步骤被应用。类似方法可以被应用于非扩散声处理器709。
[0120] 在该系统中，扩散参数为缩混声道中的每一个提供独立的值(在多个声道情况下）并且因此乘法因子(增益）对于不同的声道来说将是不同的，从而允许扩散声与非扩散声之间的空间有区分的分离。这可以提供改进的用户体验，并且可以特别地改进针对具有一些空间特性的扩散声(诸如合唱）的渲染。
[0121] 在一些实施例中，扩散参数可以是频率相关的。例如，可以为一组频率间隔(例如 ERB或BARK带）中的每一个提供独立的值。残余缩混可以被转换为频带(或者可能已经是频带表示)，扩散参数相关比例（scaling)在该频带中被执行。实际上，剩余处理还可以在频域中被执行，并且到时域的转换可以例如仅在三个并行路径的信号已被组合之后被执行。
[0122] 应当了解，由扩散声处理器707和非扩散声处理器709所应用的特定处理可以取决于特定实施例的特定偏好和要求。
[0123] 非扩散声处理器709的处理将典型地是基于被处理信号（例如在扩散参数相关加权之后的残余缩混)包含点状声分量的假设的。因此，它可以使用平移技术来从与残余缩混的声道相关联的给定空间位置转换为针对在空间扬声器配置的特定位置处的扬声器的信号。
[0124] 作为例子，非扩散声处理器709可以对缩混声道应用平移以得到点状声分量在空间扬声器配置上的改进的定位。和扩散分量对比，点源的平移贡献必须被相关以便在两个或更多个扬声器之间获得幻象源。
[0125] 相比之下，扩散声处理器707的操作将典型地不寻求维持缩混声道的诸声道的空间特性，而是将相反地设法在声道之间分发（d i s t r i b u t e )声音使得空间特性被去除。此夕卜，解相关确保声音被感知成与由非扩散声处理器709产生的声音区分开并且使得在渲染扬声器的空间位置与所假定的空间位置之间的差异的影响被减轻。扩散声处理器707可以如何为不同的空间扬声器配置生成渲染信号的一些例子将被描述。
[0126] 所描述的系统的方法特别适合于使经编码的音频流适配于不同的空间渲染配置。例如，不同的终端用户可以在不同的空间扬声器配置的情况下（即在不同的真实的或虚拟的音频换能器位置的情况下)使用相同编码的音频信号。例如，一些终端用户可能具有五个空间声道扬声器，其它用户可能具有七个空间声道扬声器等。并且，给定数目的扬声器的位置可能在不同的设置之间大大地不同或者实际上对于相同的设置随着时间而不同。
[0127] 图5的系统因此可以从使用N个空间声道的残余缩混表示转换为具有Μ个真实的或虚拟的扬声器位置的空间渲染配置。以下描述将集中于扩散声能够如何使用不同的空间扬声器配置被渲染。
[0128] 扩散声处理器707可以首先通过对声道的信号应用解相关来从缩混的每个声道生成一个扩散信号(并且依照扩散参数定比例)，从而生成Ν个扩散信号。
[0129] 进一步的操作可以取决于空间扬声器配置相对于缩混的特性，并且具体地取决于每个的空间声道的相对数目（即，取决于残余缩混/生成的扩散声信号中的声道的数目N和空间扬声器配置中真实的或虚拟的扬声器的数目M)。
[0130] 首先，注意的是，空间扬声器配置可能不是等距地分布在收听环境中。例如，如图 8中所图示的那样，扬声器的集中向前面比向侧面或到背面可能常常是较高的。
[0131] 这可以被图5的系统考虑到。具体地，扩散声处理器707可以被布置成取决于扬声器之间的接近来针对所生成的扩散信号调整音频水平/增益。例如，针对给定声道的水平 /增益可以取决于与针对该声道的扬声器位置的和同样用于扩散渲染的一个或多个最近扬声器位置相距的距离。该距离可以是角距离。这样的方法可以解决扬声器典型地未被均等分布的问题。因此，在扩散声信号已被生成之后，单独扬声器中的功率被调整以便提供同质扩散声场。替换地，扩散能够通过调整单独扬声器中的功率而被给予空间分量。
[0132] 调整功率以便提供同质声场的一个方法是将圆（或在3D情况下为球体）划分成扇区，扇区由单个扬声器表示(如图8中所指示的那样)。相对功率分布然后能够被确定为：

【权利要求】
1. 一种空间音频渲染设备，包括：用于提供残余缩混和表征至少一个音频对象的数据的电路（701)，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；用于接收指示残余缩混的扩散程度的扩散参数的接收器（701); 用于通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号的第一变换器 (709)，第一变换取决于扩散参数；用于通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号的第二变换器 (707)，第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关；用于从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号的电路 (703);以及用于通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号的输出电路（711);并且其中，扩散参数是方向相关的。
2. 根据权利要求1所述的空间音频渲染设备，其中扩散参数包括针对残余缩混的不同声道的单独的扩散值。
3. 根据权利要求1所述的空间音频渲染设备，其中对于残余缩混的至少一个声道，在输出信号中相对于第一变换的贡献的第二变换的贡献因指示增加的扩散的扩散参数而增加。
4. 根据权利要求1所述的空间音频渲染设备，其中第一组信号和第二组信号的组合能量基本上与扩散参数无关。
5. 根据权利要求1所述的空间音频渲染设备，其中第二变换器（707)被布置成响应于与第二组信号中的第一信号相关联的扬声器位置到与第二组信号中的不同信号相关联的至少一个邻近扬声器位置的距离而调整第二组信号中的第一信号的音频水平。
6. 根据权利要求1所述的空间音频渲染设备，其中残余缩混包括比空间扬声器配置的扬声器位置的数目要少的声道，并且其中第二变换器（707)被布置成通过对残余缩混的至少第一声道应用多个解相关来生成第二组信号中的多个信号。
7. 根据权利要求6所述的空间音频渲染设备，其中第二变换器（707)被布置成通过对残余缩混的第二声道应用多个解相关来生成第二组信号中的另外的多个信号，第二声道不是至少第一声道中的声道。
8. 根据权利要求1所述的空间音频渲染设备，其中第二组信号包括比空间扬声器配置中的扬声器位置的数目要少的信号。
9. 根据权利要求1所述的空间音频渲染设备，其中残余缩混包括比空间扬声器配置的扬声器位置的数目要多的声道，并且其中第二变换器被布置成在生成第二组信号时组合残余缩混的至少两个声道。
10. 根据权利要求1所述的空间音频渲染设备，其中第二变换器（707)被布置成生成第二组信号以便对应于音频从第二组信号的侧向渲染。
11. 根据权利要求1所述的空间音频渲染设备，其中接收器（701)被布置成接收包括音频对象的接收到的缩混；并且其中用于提供残余缩混的电路（701)被布置成响应于表征数据对象的数据而生成至少一个音频对象，并且被布置成通过从所接收到的缩混中提取至少一个音频对象来生成残余缩混。
12. 根据权利要求1所述的空间音频渲染设备，其中空间扬声器配置不同于残余缩混的空间声音表不。
13. -种空间音频编码设备，其包括：用于生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据的电路（601); 用于生成指示残余缩混的扩散程度的方向相关扩散参数的电路（603)，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；以及用于生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流的输出电路（605)。
14. 一种生成空间音频输出信号的方法，所述方法包括：提供残余缩混和表征至少一个音频对象的数据，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；接收指示残余缩混的扩散程度的扩散参数；通过对残余缩混应用第一变换为空间扬声器配置生成第一组信号，第一变换取决于扩散参数；通过对残余缩混应用第二变换为空间扬声器配置生成第二组信号，第二变换取决于扩散参数并且包括残余缩混的至少一个声道的解相关；从表征至少一个音频对象的数据为空间扬声器配置生成第三组信号；以及通过组合第一、第二以及第三组信号为空间扬声器配置生成输出的一组信号；并且其中，扩散参数是方向相关的。
15. -种空间音频编码的方法，其包括：生成通过第一缩混和表征至少一个音频对象的数据来表示音频场景的经编码的数据；生成指示残余缩混的扩散程度的方向相关扩散参数，残余缩混对应于在所述至少一个音频对象被提取的情况下的音频场景的音频分量的缩混；以及生成包括第一缩混、表征至少一个音频对象的数据、以及方向相关扩散参数的输出数据流。
【文档编号】G10L19/008GK104054126SQ201380005998
【公开日】2014年9月17日申请日期:2013年1月17日优先权日:2012年1月19日
【发明者】J.G.H.科彭斯, E.G.P.舒伊杰斯, A.W.J.奧门, L.M.范德科霍夫申请人:皇家飞利浦有限公司

本文推荐空间音频渲染和编码的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656398215.html

当前位置：网站首页>专利 >正文

空间音频渲染和编码的制作方法

相关推荐