专利名称:多通道参数转换的装置和方法
技术领域:
本发明涉及一种多通道参数的转换,具体涉及根据基于对象参数
的空间音频场景的表示来产生相干性参数和电平(level)参数,所述相干性参数和电平参数指示两个音频信号之间的空间特性。
背景技术:
存在对多通道音频信号进行参数编码的多种方法,例如"参数立体声(Parametric Stereo) (PS)"、"针对自然呈现的双耳提示编码(Binaural Cue Coding) (BCC),,以及"MPEG环绕",这些方法的目的
在于利用下混合信号(其可以是单声道的或者包括多个通道)以及
以感知空间声级(sound stage)为特性的参数侧信息(空间提示),来表示多通道音频信号。
可以将这些技术称作是基于通道的(channel-based), g卩,这些技术试图传输已经存在的、或以比特率高效的方式产生的多通道信号;即,在传输信号之前将空间音频场景(scene)混合至预定数目的通道,以匹配预定的扬声器设置(set-up),并且这些技术的目的在于压縮与独立扬声器相关联的音频通道。
参数编码技术依赖于下混合信号,所述下混合信号承载有音频内容以及描述原始空间音频场景的空间特性并在接收侧用于重建多通道信号或空间音频场景的参数。
紧密相关的技术组,例如"针对弹性呈现的BCC"用于对于独立的音频对象而非对相同多通道信号的通道进行编码,以便将这些独立的音频对象交互地呈现到任意的空间位置,并且独立地放大或者抑制单个对象而不需要事先对所述对象的编码器有任何的了解。相较于常见的参数多通道音频编码技术(这些技术会从编码器向解码器传送给定的通道信号集合),这样的对象编码技术允许将已解码的对象呈现到任
9何再现装置(setup), B口,在该解码侧的用户根据他的偏好自由选择 再现装置(例如,立体声、5.1环绕)。
按照对象编码构思,可以定义对音频对象在空间中的位置加以标 识的参数,以允许在该接收侧进行弹性呈现。在接收侧呈现的优点在 于,甚至可以使用非理想的扬声器设置或者任意的扬声器来再现具有 高品质的空间音频场景。此外,例如,必须传输诸如与独立对象相关 联的音频通道的下混合之类的音频信号,这是在接收侧再现的基础。
上述两种方法皆依赖于接收侧的多通道扬声器设置,以允许高品
质再现原始空间音频场景的空间印象(spatial impression)。
如前述的,已经存在多种对多通道音频信号进行参数编码的现有 最新技术,这些现有最新技术可以再现空间声像(sound image),所 述空间声像(依赖于可用的数据速率)或多或少系与原始音频内容类
^然而,在给定某一预编码音频材料(即,由给定个数的再现通道 信号描述的空间声音)的情况下,这样的编解码器并不提供根据收听 者的喜好对单个音频对象进行后验和交互式呈现的任何手段。另一方 面,也存在专为后者而设计的空间音频对象编码技术,但是由于在这 样的系统中所使用的参数表示系与针对多通道音频信号的参数表示不 同,因此如果希望可以同时受益于两种技术,则需要单独的解码器。 这种情况所造成的缺点是,虽然两种系统的后端(back end)皆可以 完成相同的任务,从而在给定的扬声器装置上呈现空间音频场景,但 是它们必须以冗余的方式实现,目卩,要提供两种功能必须用到两个独 立的解码器。
现有技术的对象编码技术的另一个限制是缺乏一种以后向相容
(backwards compatible)的方式来储存和/或传输预呈现的空间音频对 象场景的手段。当涉及将迅速呈现的音频场景相同地再现时,结果证
明以下特征是缺点使能对空间音频对象编码范例所提供的单个音频
对象进行交互式定位。
总结上述,面临的不幸情况是虽然可以提出实现上述方法之一 的多通回放放环境,但是可能需要另一回放环境来另外实现第二种方法。值得注意的是,根据较长远的历史,基于通道的编码方案是更为
普遍的,例如,储存于DVD等上的著名的5.1或7.1/7.2多通道信号。
艮口,即使存在多通道解码器以及关联的回放装备(放大器级以及 扬声器),当用户想要回放基于对象的已编码音频数据时,用户仍需要 另外的完整设置,g卩,至少音频解码器。通常,所述多通道音频解码 器直接与所述放大器级相关联,并且用户无法直接使用用于驱动扬声 器的放大器级。即,例如,在大多数一般可用的多通道音频或多媒体 接收机中的情况。根据现有的消费性电子产品,期望可以收听以上述 两种方法编码的音频内容的用户将甚至需要完整的另一组放大器,这 当然是一种不令人满意的情况。
发明内容
因此,希望提供一种可以降低系统复杂度的方法,该方法可以对 参数多通道音频流以及参数编码的空间音频对象流进行解码。
本发明的实施例是一种用以产生电平参数的多通道参数转换器, 所述电平参数指示多通道空间音频信号表示的第一音频信号与第二音
频信号之间的能量关系,多通道参数转换器包括对象参数提供器, 用于针对与下混合通道相关联的多个音频对象,根据与音频对象相关 联的对象音频信号,提供对象参数,所述对象参数包括针对每一个音
频对象的能量参数,所述能量参数指示对象音频信号的能量信息;以
及参数产生器,用于通过将能量参数以及与呈现配置有关的对象呈现 参数相组合来得到电平参数。
根据本发明的另一实施例,所述参数转换器产生相干性参数和电 平参数,所述相干性参数和电平参数指示与多通道扬声器配置相关联 的多通道音频信号的第一音频信号与第二音频信号之间的相关性或相 干性以及能量关系。针对与下混合通道相关联的至少一个音频对象, 根据已提供的对象参数来产生相关性参数和电平参数,所述下混合通 道本身是使用与该音频对象相关联的对象音频信号来产生的,其中所 述对象参数包括指示对象音频信号的能量的能量参数。为得到相干性 和电平参数,使用参数产生器,该参数产生器将能量参数以及另外的对象呈现参数相结合,所述呈现参数受回放配置的影响。根据某些具 体实施例,对象呈现参数包括扬声器参数,所述扬声器参数指示相对 于收听地点的回放扬声器位置。根据一些实施例,对象呈现参数包括 对象位置参数,对象位置参数指示相对于收听地点的对象位置。为此, 参数产生器利用从两种空间音频编码范例所得到的协同效应。
根据本发明的另一实施例,多通道参数转换器用于得到符合
MPEG环绕的相干性参数和电平参数(ICC与CLD),所述相干性参数 和电平参数(ICC与CLD)还可以用以操纵MPEG环绕解码器。应注意 的是,通道间相干性/互相关性(ICC)表示两个输入通道之间的相干 性或互相关性。在不包含时间差时,相干性和相关性是相同的。换言 之,当不使用通道间时间差或通道间相位差时,这两个术语代表相同 的特征。
这样,多通道参数转换器与标准的MPEG环绕转换器一起可以用 于再现基于对象的已编码音频信号。这具有的优点是,仅需一种另外 的参数转换器,所述另外的转换器接收空间音频对象编码(spatial audio object coded, SAOC)音频信号,并且转换对象参数,使得标准 MPEG环绕解码器可以使用这些对象参数来经由现有回放装备再现多 通道音频信号。因此,在没有重大修改的情况下,也可以使用一般回 放设备来再现空间音频对象编码内容。
根据本发明的另一实施例,将所产生的相干性参数和电平参数与 相关联的下混合通道复用成为符合MPEG环绕的比特流。然后可以将 该比特流馈送至标准MPEG环绕解码器,而不需对现有的回放环境做 任何其他修改。
根据本发明的另一具体实施例,将所产生的相干性和电平参数直 接传输至略微修改过的MPEG环绕解码器,使得可以保持多通道参数 转换器的计算复杂度很低。
根据本发明的另一实施例,所产生的多通道参数(相干性参数和 电平参数)在产生之后被储存起来,使得多通道参数转换器还可以用 作对场景呈现过程之中得到的空间信息加以存储的装置。例如,也可 以在产生信号时在音乐空间(music studio)中执行这样的场景呈现,使得可以使用以下段落中更详细描述的多通道参数转换器在不需要任 何其他努力的情况下产生多通道相容信号。因此,可使用旧式的
(legacy)装备来再现预呈现的场景。
在更详细描述本发明的多个具体实施例之前,将给出多通道音频 编码和对象音频编码技术、以及空间音频对象编码技术的简要回顾。 为此,也将参考附图。
图la示出了现有技术的多通道音频编码方案;
图lb示出现有技术的对象编码方案;
图2示出了空间音频对象编码方案;
图3示出了多通道参数转换器的实施例;
图4示出了用于回放空间音频内容的多通道扬声器配置的示例;
以及
图5示出了空间音频内容的可能多通道参数表示的示例;
图6a和6b示出了空间音频对象编码内容的应用情况;
图7示出了多通道参数转换器的实施例;以及
图8示出了产生相干性参数以及相关性参数的方法的示例。
具体实施例方式
图la示出了多通道音频编码和解码方案的示意图,而图lb显示传 统音频对象编码方案的示意图。多通道编码方案使用多个已提供的通 道,g卩,已经混合成符合预定数目扬声器的音频通道。多通道编码器4 (SAC)产生下混合信号6,下混合信号6是使用音频通道2a至2d产生 的音频信号。例如,该下混合信号6可以是单声道音频通道或两个音频 通道,g卩,立体声信号。为了部分补偿在下混合过程中的信息损耗, 多通道编码器4提取多通道参数,所述多通道参数描述音频通道2a至2d 的信号的空间相互关系。将该信息作为所谓的侧信息8与下混合信号6 一起传输至多通道解码器10。多通道解码器10利用侧信息8的多通道参 数创建通道12a至12d,以尽可能精确地重建通道2a至2d。例如,这可以通过传输电平参数和相关性参数来达成,其中,所述电平参数和相
关性参数描述原始通道2a和2d的独立通道对之间的能量关系,并提供 通道2a至2d的通道对之间的相关性量度。
在解码时,该信息可以用于将包括在下混合信号中的音频通道重 新分配至已重建的音频通道12a至12d。值得注意的是,将普通多通道 方案实现为再现已重建的通道12a至12d,所述已重建的通道12a至12d 的数目与输入至多通道音频编码器4中的原始音频通道2a至2d的数目 相同。然而,也可以实现其它的解码方案,再现比原始音频通道2a至 2d的数目更多或更少的通道。
这样,可以将图la中示意性概述的多通道音频技术(例如,最近 标准化的MPEG空间音频编码方案,g卩,MPEG环绕)理解为现有音
频分配基础设施向多通道音频/环绕的比特率高效且兼容的扩展。
图lb详细说明了基于对象的音频编码的现有方法。例如,声音对 象的编码以及"基于内容的可交互性"的能力是MPEG-4构思的一部分。 在图lb中示意性概述的传统音频对象编码技术依据不同的方法,因为 该传统音频对象编码技术并未视图传输多个已有的音频通道,而是传 输在空间中分配有多个音频对象22a至22d的整个音频场景。为此,使 用传统音频对象编码器20将多个音频对象22a至22d编码进基本流24a 至24d,每一个音频对象具有关联的基本流。例如,可以由单声道音频 通道以及关联的能量参数来表示音频对象22a至22d (音频源),所述能 量参数指示音频对象相对于场景中剩余音频对象的相对电平。当然, 在更复杂的实现中,音频对象不限于由单声道音频通道来表示。取而 代之的是,例如,可以对立体声音频对象或多通道音频对象进行编码。 传统音频对象解码器28的目的在于再现音频对象22a至22d,以得 到已重建的音频对象28a至28d。传统音频对象解码器中的场景构成器 (composer) 30允许对已重建的音频对象28a至28d (源)进行离散定 位以及调整各种扬声器设置。场景完全由场景描述34以及关联的音频 对象来定义。 一些传统的场景构成器30以标准化的语言例如BIFS (针 对场景描述的二进制格式)来预期场景描述。在该解码器侧,可与存 在任意的扬声器设置,解码器将通道32a至32e提供给独立的扬声器,由于关于音频场景的全部信息都在解码器侧可用,所以这些独立的扬 声器最适合音频场景的重建。例如,双耳呈现是可行的,这导致两个 通道的产生,以在经由耳机收听时提供空间印象。
与场景构成器30的可选用户交互使能在再现侧重新定位/重新扫
视(repanning)独立的音频对象。此外,可以对特别选择的音频对象 的位置或电平进行修改,以便例如当在会议中环境噪音对象或与不同 讲话者有关的其它音频对象受到抑制(即,电平降低)时提高讲话者 的可理解性(intelligibility)。
换言之,传统的音频对象编码器将多个音频对象编码进基本流, 每一个流与单个音频对象相关联。在场景描述(BIFS)的控制下并可 选地根据用户交互,传统的解码器将这些流解码并且构成音频场景。 就实际应用的角度而言,该方法有以下缺点由于对每一个独立的音 频(声音)对象进行单独编码,所以传输整个场景所需要的比特率明 显比用于单声道/立体声传输已压缩音频的比特率高。显然,所需要的 比特率近似地与所传输的音频对象的数目成比例地增长,即,与音频 场景的复杂度成比例地增长。
因此,由于对每一个声音对象的单独解码,使得解码过程的计算 复杂度明显超过一般单声道/立体声音频解码器的解码过程的计算复 杂度。解码所需要的计算复杂度也近似地与所传输的对象的数目成比 例地增长(假设低复杂度的构成过程)。当使用高级构成能力时,艮P, 使用不同计算节点时,与相应音频节点的同步有关的复杂度以及与运 行结构化音频引擎(structured audio engine)时的总体复杂度有关的复
杂度将导致这些缺点的进一步增加。
此外,由于整体系统包括若干音频解码器部件以及基于BIFS的构
成单元,所以所需结构的复杂度妨碍了在现实应用中的实现。高级构 成能力还需要实现具有上述复杂性之结构化音频引擎。
图2示出了本发明的空间音频对象编码构思的实施例,允许进行 高效率音频对象编码,避免了前述一般实现的缺点。
如根据以下图3的讨论将看出的,可以通过修改己有的MPEG环绕 结构来实现该构思。然而,MPEG环绕架构的使用并非强制性的,因为还可以使用其他一般的多通道编码/解码架构来实现本发明的构思。 使用现有的多通道音频编码结构,例如MPEG环绕,本发明的构 思发展成现有音频分配基础设施比特率高效且兼容的扩展,从而可以
使用基于对象的表示。为了与音频对象编码(AOC)和空间音频编码 (多通道音频编码)的现有方法相区别,在下文中将使用术语"空间音 频对象编码"或其縮写SAOC来表示本发明的实施例。
图2所示的空间音频对象编码方案使用独立的输入音频对象50a 至50d。空间音频对象编码器52得到一个或更多个下混合信号54(例如, 单声道或者立体声信号)以及侧信息55,该侧信息55具有原始音频场 景的特性的信息。
SAOC解码器56接收下混合信号54以及侧信息55。根据该下混合 信号54以及该侧信息55,空间音频对象解码器56重建一组音频对象58a 至58d。将已重建的音频对象58a至58d输入至混合器/呈现级60,混合 器/呈现级60将独立的音频对象58a至58d的音频内容混合,以产生期望 数目的输出通道62a至62b,通道62a至62b—般而言与要用于回放的多 通道扬声器设置相对应。
可选地,混合器/呈现器60的参数可以根据用户交互或控制64而受
影响,以允许交互式音频构成,从而维持音频对象编码的高灵活性。
与其他多通道重建情况相比,图2所示的空间音频对象编码构思 具有多个重大的优点。
因为使用下混合信号以及伴随的对象参数,所以传输是非常比特 率高效的。即,将基于对象的侧信息与下混合信号一起传输,所述下 混合信号由与独立的音频对象相关联的音频信号构成。因此,与对每 一个独立音频对象的信号进行单独编码和传输的方法相比,比特率需 求显著降低。此外,该构思与已有的传输结构后向相容。旧式的设备
仅需简单地呈现(组成)下混合信号。
可以将已重建的音频对象58a至58d直接传送至混合器/呈现器60 (场景构成器)。 一般而言,已重建的音频对象58a至58d可以连接至任 何外部混合设备(混合器/呈现器60),使得可以很容易地将本发明的 构思实现到已有的回放环境中。原则上独立的音频对象58a…d可以用作单独呈现(solo presentation), g卩,被再现为单个音频流,尽管它们 通常并不旨在充当高品质的单独再现。
与单独的SAOC解码以及后续的混合相比,组合的SAOC解码器和 混合器/呈现器是非常吸引人的,这是因为所述组合的SAOC解码器和 混合器/呈现器导致了非常低的实现复杂度。与直接的方法相比,作为 中间表示可以避免对象58a至58d的完全解码/重建。必要的计算主要与 预期的输出呈现通道62a至62b的数目有关。如从图2中可以明显看出, 与SAOC解码器相关联的混合器/呈现器60原则上可以是适于将单个音 频对象组合成场景(即,适于产生与多通道扬声器设置的独立扬声器 相关联的输出音频通道62a和62b)的任何算法。例如,这可以包括混 合器,所述混合器执行幅度扫视(panning)(或者幅度和延迟扫视)、 基于向量的幅度扫视(vector based amplitude panning, VBAP方案)、 以及双耳呈现,目卩,意欲仅利用两个扬声器或耳机来提供空间收听体 验的呈现。例如,MPEG环绕使用这样的双耳呈现方式。
一般而言,可以将传输与相应音频对象信息55相关联的下混合信 号54与任意的多通道音频编码技术相结合,举例而言,例如参数立体 声、双耳提示编码或MPEG环绕。
图3示出了本发明的实施例,其中将对象参数与下混合信号一起 传输。在SAOC解码器结构120中,MPEG环绕解码器可以与多通道参 数转换器一起使用,所述多通道参数转换器使用接收到的对象参数来 产生MPEG参数。这种组合得到了具有非常低复杂度的空间音频对象 解码器120。换言之,该具体示例提供一种方法,用以将与每一个音频 对象相关联的(空间音频)对象参数和扫视信息转换成符合于标准的 MPEG环绕比特流,从而从再现多通道音频内容向交互式呈现空间音 频对象编码场景,扩展传统MPEG环绕解码器的应用。这是在不需要 对MPEG环绕解码器本身进行修改的情况下实现的。
图3所示的实施例通过将多通道参数转换器与MPEG环绕解码器 一起使用,避免了传统技术的缺点。MPEG环绕解码器是一种普遍可 用的技术,而多通道参数转换器提供了从SAOC至MPEG环绕的代码转 换(transcode)能力。这将在以下段落中详细说明,将另外参考图4和5,说明组合的技术的特定方面。
在图3中,SAOC解码器120具有MPEG环绕解码器100, MPEG环
绕解码器100接收具有音频内容的下混合信号102。可以通过以逐采样 的方式将每一个音频对象的音频对象信号组合(例如相加),利用编码 器侧的下混合器来产生下混合信号。可选地,组合操作也可以发生在 谱域或滤波器组域中。下混合通道可以与参数比特流122分离,或可以 与参数比特流在相同的比特流中。
MPEG环绕解码器100还接收MPEG环绕比特流的空间提示104, 如相干性参数ICC和电平参数CLD,这两个参数皆表示在MPEG环绕编 码/解码方案中两个音频信号之间的信号特性,图5示出了所述MPEGG 环绕编码/解码方案,并且将在下文中更详细地解释所述MPEGG环绕 编码/解码方案。
多通道参数转换器106接收与音频对象相关的SAOC参数(对象参 数)122,所述SAOC参数122指示包括在该下混合信号102中的关联的 音频对象的特性。此外,转换器106经由对象呈现参数输入来接收对象 呈现参数。这些参数可以是呈现矩阵的参数,或可以是有助于将音频 对象映射至呈现情况的参数。根据示范性地由用户调整并且输入至块 12的对象位置,将由块112来计算呈现矩阵。然后将块112的输出输入 至块106,具体输入至用于计算空间音频参数的参数产生器108。当扬 声器配置改变时,该呈现矩阵或一般而言至少一些对象呈现参数也改 变。因此,呈现参数依赖于呈现配置,所述呈现配置包括扬声器配置/ 回放配置、或者所传输的的或用户所选择的对象位置,这两者皆可以 输入至块112中。
参数产生器108根据对象参数得到MPEG环绕空间提示104,其中 所述对象参数是由对象参数提供器(SAOC剖析器(parser)) IIO提供 的。参数产生器108另外使用由加权因子产生器112提供的呈现参数。
所述呈现参数当中的一些或者全部是加权参数,所述加权参数描述包 括在下混合信号102中的音频对象对于空间音频对象解码器120所创建
的通道的贡献。例如,可以以矩阵的形式来组织加权参数,因为这些 加权参数将用于将N个音频对象映射至M个通道,这M个通道与用于回放的多通道扬声器设置的独立扬声器相关联。对于多通道参数转换器
(SAOC 2 MPS代码转换器)而言,有两种类型的输入数据。第一输 入是SAOC比特流122,所述SAOC比特流122具有与独立的音频对象相 关联的对象参数,所述对象参数指示与所传输的多对象音频场景相关 联的音频对象的空间特性(例如,能量信息)。第二输入是呈现参数(加 权参数)124,所述呈现参数(加权参数)124用于将N个对象映射至 M个通道。
如前述的,SAOC比特流122包括有关于以下音频对象的参数信 息己经将所述音频对象混合在一起以创建输入至MPEG环绕解码器 100的该下混合信号102。针对与下混合通道102相关联的至少一个音频 对象提供SAOC比特流122的对象参数,使用与该音频对象相关联的至 少一个对象音频信号产生该下混合通道102。例如,合适的参数是能量 参数,能量参数指示对象音频信号的能量,即,对象音频信号贡献于 下混合102的强度。如果使用立体声下混合,则可以提供方向参数,所 述方向参数指示音频对象在立体声下混合内的位置。然而,显然其他 对象参数也是合适的,从而可以用于实现。
所传输的下混合并不需要一定是单声道信号。例如,所传输的下 混合也可以是立体声信号。在该情况中,可以传输两个能量参数作为 对象参数,每一个参数指示每一个对象对立体声信号的两个通道之一 的贡献。即,例如,如果使用20个音频对象产生立体声下混合信号, 则将传输40个能量参数作为对象参数。
将SAOC比特流122馈送至SAOC剖析块,艮卩,馈送至对象参数提 供器IIO,所述对象参数提供器110取回(regain)该参数信息,除了所 处理的实际数目的音频对象之外,所述参数信息还主要包括对象电平 包络(object level envelope) (OLE)参数,所述对象电平包络参数描 述出现的每一个音频对象的时变谱包络(spectral envelope)。
典型地,SAOC参数强烈地时间相关(time dependent),因为这些 SAOC参数运送关于以下情况的信息例如,当特定的对象发出 (emanate)或其它对象离开该场景时,多通道音频场景如何随着时间 变化。反之,呈现矩阵124的加权参数并不经常具有强时间或频率相依性。当然,如果对象进入或者离开该场景,则所需要的参数的数目会 突然改变,以匹配场景的音频对象的数目。此外,在采用交互式用户 控制应用中,矩阵元素可以是时变的,因为矩阵元素依赖于用户的实 际输入。
在本发明的另外的实施例中,导引所述加权参数或者所述对象呈 现参数或者时变对象呈现参数(加权参数)的变化量之参数本身,可
以以SAOC比特流来传送引导加权参数、或对象呈现参数、或时变对 象呈现参数(加权参数)自身发生变化的参数,以引起呈现矩阵124 的变化。如果期望频率相关(frequency dependent)的呈现特性(例如, 当期望特定对象的频率选择性增益时),则加权因子或呈现矩阵元素可 以是频率相关的。
在图3的实施例中,根据有关于回放配置的信息(即,场景描述), 利用加权因子产生器112 (呈现矩阵产生块)来产生(计算)呈现矩阵。 一方面,这可以是回放配置信息,例如扬声器参数,所述扬声器参数 指示用于回放的多通道扬声器配置的多个扬声器当中独立扬声器的位 置或者空间定位。还根据对象呈现参数来计算呈现矩阵,例如,根据 指示音频对象的位置以及指示音频对象信号的放大或者衰减的信息, 来计算呈现矩阵。另一方面,如果期望逼真(realistic)再现多通道音 频场景,则可以在该SAOC比特流之内提供对象呈现参数。可选地, 还可以经由用户接口交互地地提供对象呈现参数(例如位置参数以及 放大信息(扫视参数))。自然,也可以与对象一起传输期望的呈现矩 阵,即,期望的加权参数,以便以音频场景的自然发声(sounding) 再现开始,作为在解码器侧进行交互式呈现的起始点。
参数产生器(场景呈现引擎)108接收加权因子以及对象参数(例 如该能量参数OLE),以计算N个音频对象至M个输出通道的一种映 射,其中M可以大于、小于或者等于N,并且此外还可以随着时间而 变化。当使用标准MPEG环绕解码器100时,可以通过符合标准的环绕 比特流将得到的空间提示(例如,相干性和电平参数)传输至该MPEG 解码器100,其中所述符合标准的环绕比特流匹配与SAOC比特流一起 传输的下混合信号。如前述的,使用多通道参数转换器106,使得允许使用标准MPEG 环绕解码器来处理下混合信号以及由参数转换器106提供的转换后的 参数,从而经由给定的所述扬声器来回放音频场景的重建。这是以音 频对象编码方法的高灵活性实现的,即,通过允许在回放侧进行严谨 的用户交互来实现的。
作为多通道扬声器设置的回放的备选方案,可以使用MPEG环绕 解码器的双耳解码模式以经由耳机回放该信号。
然而,如果对MPEG环绕解码器100的微小修改是可接受的,例如, 在软件实现之内,则还可以在参数域中直接执行将空间提示向MPEG 环绕解码器的传输。即,可以省略将参数复用成MPEG环绕兼容的比 特流的计算工作量(computational effort)。除了计算复杂度降低之外, 另一个优点是避免了由于符合MPEG的参数量化而造成的品质下降, 因为在这种情况下不再需要这种对所产生的空间提示的量化。如同己 经在先前所提过的,该优点需要更灵活的MPEG环绕解码器实现,从 而提供直接参数馈送而非纯粹比特流馈送的可能性。
在本发明的另一实施例中,通过对所产生的空间提示以及下混合 信号进行复用来创建MPEG环绕兼容的比特流,从而提供经由旧式装 备来进行回放的可能性。多通道参数转换器106因此也可以用于在编码 器侧将音频对象编码数据转换成多通道编码数据。根据图3的多通道参 数转换器,将在下文中对于特定的对象音频以及多通道实现来描述本 发明的其它实施例。在图4和5中说迷宫了这些实现的重要方面。
图4示出了实现幅度扫视的方法,根据一个具体实现,使用方向 (位置)参数作为对象呈现参数以及使用能量参数作为对象参数。所 述对象呈现参数指示音频对象的位置。在接下来的所述段落中,角度 (Xil50将用作对象呈现(位置)参数,其描述了音频对象152相对于收 听地点154的原始方向。在接下来的示例中,将假设简化的二维情况, 使得可以使用一单个参数(即,角度)将与音频对象相关联的音频信 号的来源方向明确地参数化。然而,不言可喻,可以在不需要实行大 幅度改变的情况下实现一般的三维情况。即,例如在三维空间中,可 以使用向量来指示音频对象在空间音频场景内的位置。因为将在下文中使用MPEG环绕解码器来实现本发明的构思,因此图4还示出了5通 道MPEG多通道扬声器配置的扬声器位置。如果将中央扬声器156a(C) 的位置定义在0。,则右前扬声器156b位于30。、右环绕扬声器156c位于 110°、左环绕扬声器156d位于-110。、以及左前扬声器156e位于-30。。
以下示例将进一步依赖于如在MPEG环绕标准中所指定的多通道 音频信号的5.1通道表示,所述MPEG环绕标准定义了两种可能的参数 化,可以将这两种可能的参数化形象化为图5中所描绘的所述树状结 构。
在单声道下混合160的传输的情况中,MPEG环绕解码器使用树状 结构的参数化。对于第一参数化,树由所谓的OTT元素(element)(盒) 162a至162e构成,对于第二参数化,树由164a至164e构成。
每一个OTT元素将单声道输入上混合成两个输出音频信号。为执 行该上混合,每一个OTT元素使用ICC参数和CLD参数,所述ICC参数 描述输出信号之间期望的互相关性,所述CLD参数描述每一个OTT元 素的两个输出信号之间的相对电平差。
虽然结构上系相似,但图5中的两个参数化从单声道下混合160分 配通道内容的方式是不同的。例如,在左侧的树状结构中,第一OTT 元素162a产生第一输出通道166a和第二输出通道166b。根据图5中的形 象化(visualization),第一输出通道166a包括与左前、右前、中央的 通道以及低频增强通道有关的信息。第二输出信号166b仅包括关于环 绕通道(左环绕和右环绕通道)的信息。与第二实现方式相比时,第 一OTT元素的输出在所包括的音频通道方面显著不同。
然而,可以根据这两种实现中的任一种来实现多通道参数转换 器。 一旦理解了本发明的构思,本发明的构思就也可以应用于除了下 文中将叙述的多通道配置以外的其它多通道配置。为了简洁起见,不 失一般性,在本发明接下来的实施例将重点放在图5中左边的参数化。 还应注意,图5仅充当MPEG音频构思的适当形象化,并且,虽然图5 的形象化可能诱使人们认为以循序的方式进行计算,但通常不以循序 的方式进行计算。 一般而言,可以并行地执行计算,即,可以在一单 个计算步骤中得到输出通道。在接下来的所述段落简短讨论的实施例中,SAOC比特流包括下
混合信号中每一个音频对象的(相对)电平(分别对于每一个时间-
频率片(tile),如同在使用例如滤波器组或时间至频率转换的频域架 构中的一般惯例一样)。
此外,本发明并不限于对象的特定的电平表示,下面的叙述仅阐 明了一种方法,该方法根据可以从SAOC对象参数化得到对象功率量 度来计算针对MPEG环绕比特流的空间提示。
如从图3中明显看出来的,呈现矩阵W具有多个加权参数,其中, 所述呈现矩阵W是由加权参数产生的,参数产生器108使用所述呈现矩 阵W将对象Oj映射至所需数目(例如扬声器的数目)的输出通道s,所 述加权参数依赖于具体对象索引i以及通道索引s。因此,加权参数K^ 系表示对象/ (B匕N)至扬声器s (1&《M)的混合增益。S卩,W将对 象。=[。,...。,f映射至扬声器,产生针对每一个扬声器(此处假设 5.1设置)的输出信号7 = [~ & ~£ &坧r,因此
"『0
参数产生器(呈现引擎108)使用该呈现矩阵W来根据SAOC数据 一估计所有CLD以及ICC参数。相对于图5的形象化,显然必须针对每 一个OTT元素独立地执行该过程。将主要关于第一OTT元素162a进行 详细的讨论,因为在接下来的段落中的教义可以适用于其余的OTT元
素而不用另外的发明技巧。
可以观察到,利用OTT元素162b、 162c和162d对OTT元素162a的 第一输出信号166a进行进一步处理,最后得到输出通道LF、 RF、 C以 及LFE。利用OTT元素162e对第二输出通道166b进行进一步处理,得 到输出通道LS与RS。将图5的OTT元素替换成单个呈现矩阵W是可以 通过使用下列矩阵W来执行的
<formula>formula see original document page 23</formula>- '+ .l + w<,'l +… w + w + wcw + w,,
'
矩阵W的列数N不是固定的,因为N是音频对象的数目,所述音
频对象的数目可能是变化的。
得到针对OTT元素162a的空间提示(CLD与ICC)的一种可能性 是通过对W中的相应元素求和,得到每一个对象对OTT元素O的两个 输出的相应贡献。该求和给出了OTT元素O的子呈现矩阵Wo:
现在问题被简化成了估计子呈现矩阵Wo(以及以类似的方式定义 的、分别与OTT元素l、 2、 3和4有关的子呈现矩阵W,、 W2、 \¥3和\¥4) 的电平差和相关性。
假设完全不相干的(即,互相独立的)对象信号,OTT元素O的 第一输出的估计功率 ^是由以下方程给出的
的:
类似地,OTT元素0的第二输出的估计功率P。,2是由以下方程给出 互功率(cross power) ^是由以下方程给出的
那么OTT元素O的CLD参数是由以下方程给出的 C叫=101og1()年
以及ICC参数是由以下方程给出的
/CC0 =
当考虑图5的左边部分时,如上所示确定了其 0,1和?0,2的两个信号 皆为虚拟信号,因为这些信号表示扬声器信号的组合且并不构成实际 发生的音频信号。在这一点上强调的是,在图5的树状结构并不用以产生信号。这意味着在MPEG环绕解码器中,不存在在一转二盒
(one-to-two boxes)之间的任何信号。取而代之的是,存在大的上混
合矩阵,该上混合矩阵使用下混合以及不同的参数来或多或少直接产
生扬声器信号。
以下将对图5中左侧配置的通道的分组和标识加以描述。 对于盒162a,第一虚拟信号是表示扬声器信号lf、 rf、 c、 lfe的组
合的信号。第二虚拟信号是表示ls与rs的组合的虚拟信号。
对于盒162b,第一音频信号是虚拟信号,表示包括左前通道和右
前通道在内的组,第二音频信号是虚拟信号,表示包括中央通道和lfe
通道在内的组。
对于盒162e,第一音频信号是左环绕通道的扬声器信号,第二音 频信号是右环绕通道的扬声器信号。
对于盒162c,第一音频信号是左前通道的扬声器信号,第二音频 信号是右前通道的扬声器信号。
对于盒162d,第一音频信号是中央通道的扬声器信号,第二音频 信号是低频增强通道的扬声器信号。
在这些盒中,如同稍后将概略描述的,通过将与由第一音频信号 或第二音频信号表示的通道相关联的对象呈现参数相组合,得到第一 音频信号或第二音频信号的加权参数。
以下将对图5右侧配置中的通道的分组和标识加以描述。
对于盒164a,第一音频信号是虚拟信号,表示包括左前通道、左 环绕通道、右前通道以及右环绕通道在内的组,第二音频信号为虚拟 信号,表示包括中央通道和低频增强通道在内的组。
对于盒164b,第一音频信号是虚拟信号,表示包括左前通道和左 环绕通道在内的组,第二音频信号为虚拟信号,表示包括右前通道和 右环绕通道在内的组。
对于盒164e,第一音频信号是中央通道的扬声器信号,第二音频 信号是低频增强通道的扬声器信号。
对于盒164c,第一音频信号是左前通道的扬声器信号,第二音频 信号是左环绕通道的扬声器信号。对于盒164d,第一音频信号是右前通道的扬声器信号,第二音频 信号是右环绕通道的扬声器信号。
在这些盒中,如同稍后将概略描述的,通过将与由第一音频信号 或第二音频信号表示的通道相关联的对象呈现参数相组合,得到第一 音频信号或第二音频信号的加权参数。
上述虚拟信号是虚拟的,因为它们并不要出现在实施例中。这些 虚拟信号用于说明功率值的产生或能量的分配,所述能量是由例如针
对所有盒的CLD通过使用不同的子呈现矩阵Wi而确定的。同样,首先 描述图5的左侧。
在前文中,已经示出了针对盒162a的子呈现矩阵Wo。
对于盒162b,将子呈现矩阵定义为
<formula>formula see original document page 26</formula>
对于盒162e,将子呈现矩阵定义为<formula>formula see original document page 26</formula>
对于盒162C,将子呈现矩阵定义为:
<formula>formula see original document page 26</formula>
对于盒162d,将子呈现矩阵定义为
<formula>formula see original document page 26</formula>
对于图5的右侧配置,情况如下-对于盒164a,将子呈现矩阵定义为:<formula>formula see original document page 27</formula>
对于盒164b,将子呈现矩阵定义为:
<formula>formula see original document page 27</formula>
对于盒164e,将子呈现矩阵定义为:
<formula>formula see original document page 27</formula>
对于盒164c,将子呈现矩阵定义为:
<formula>formula see original document page 27</formula>
对于盒164d,将子呈现矩阵定义为:
<formula>formula see original document page 27</formula>
根据实现,可以将相应的CLD和ICC参数量化以及格式化,以符 合MPEG环绕比特流,可以将所述MPEG环绕比特流馈送至MPEG环绕 解码器100中。可选地,可以在参数级别(parameter level)上将参数 值传送至MPEG环绕解码器,g卩,并不量化和格式化成比特流。为了 不仅实现对象的重新扫视(即,适当地分配这些信号能量,这是可以 利用图5的MPEG-2结构使用上述方法来实现的)还实现衰减或者放 大,可以产生所谓的任意下混合增益(arbitrary down-mix gain),以修 改下混合信号能量。任意下混合增益(ADG)允许在利用所述OTT元 素之一对下混合信号进行处理之前对所述下混合信号本身进行谱修 改。即,就其本身而言,任意下混合增益是频率相关的。对于高效的 实现,采用与CLD参数相同的频率解析度和相同的量化器步(quantizerstep)来表示任意下混合增益ADG。施行ADGs的一般性目的是对所传 输的下混合进行修改,使得下混合输入信号中的能量分配类似于所呈 现的系统输出的下混合的能量。使用呈现矩阵W的加权参数Wk,i以及 所传输的对象功率^,可以使用下列的方程计算适当的ADG:
爿DG [, = 101og
10
并且假设输入下混合信号的功率等于对象功率之和0=对象索引
k-通道索引)。
如同在先前所讨论的,使用加权参数来CLD和ICC参数的计算,
'士
所述加权参数指示与多通道扬声器配置的扬声器相关联的对象音频f 号的能量的一部分。这些加权因子一般而言将依赖于场景数据以及回 放配置数据,即,依赖于音频对象与多通道扬声器设置的扬声器的相
对位置。在接下来的所述段落中将提供一种可能性根据图4所引入的 对象音频参数化,将方位角和增益量度用作与每一个音频对象相关联 的对象参数,从而得到加权参数。
如同己经在之前概略叙述的,对于每一个时间/频率片存在独立的 呈现矩阵;然而,为了清楚起见,在下文中仅考虑单个时间/频率片。 呈现矩阵W具有M行(每一行对应一个输出通道)N列(每一列对应 一个音频对象),其中,第s行且第i列的矩阵元素表示混合权重,特定 的音频对象以该混合权重贡献于相应的输出通道
『=
根据以下场景描述和扬声器配置参数来计算矩阵元素:
场景描述(这些参数可以随着时间改变)
* 音频对象的数目
* 每一个音频对象的方位角OCi (1S《N)* 每一个对象的增益值gi (ld《N) 扬声器配置(通常这些参数是非时变的)
* 输出通道的数目(=扬声器)
* 每一个扬声器的方位角0s(l^S《M)
* es幼wVs其中l《S《M-l 通过对每一个音频对象i进行下述的方案,根据这些参数得到混合
矩阵的元素
* 找出索引s, (i"sm),其中es《o^es'+, (eM+1:=e1+2;[)
* 在扬声器s'与s'+l之间(若s^M,则在扬声器M与1 之间),施行幅度扫视(例如,正切定理(tangent law))。在接 下来的叙述中,变量v是扫视权重,即,例如在图4中所描绘的, 当在两个通道之间分配信号时将施加于该信号上的縮放因子
关于上述方程,值得注意的是,在该二维情况中,将在多通道扬 声器配置的两个扬声器之间分配与空间音频场景的音频对象相关联的 对象音频信号,这两个扬声器系最接近所述音频对象。然而,针对上 述实现而选择的对象参数并非是可以用于实现本发明其他实施例的仅 有的对象参数。例如,在三维的情况中,指示扬声器或音频对象的位 置的对象参数可以是三维向量。 一般而言,当应该明确地定义位置时, 二维的情况需要两个参数,三维的情况需要三个参数。然而,即使在 该二维的情况中,也可以使用不同的参数化,例如在直角座标系内传 输两个座标。可以应注意的是,在1到2的范围之内的可选扫视规则参 数p是被设置为反映再现系统/空间(room)的空间声音特性、并且 根据本发明的一些具体实施例另外可应用的任意扫视规则参数。最后,
在根据上述方程得到了扫视权重^i以及K2,i之后,可以根据以下公式
得到加权参数Ww。矩阵元素最终由以下方程给定w、、,=
0 其他
在上文中所介绍的可选地与每一个音频对象相关联的增益因子gi 可以用于强调或抑制独立的对象。例如,这是可以在该接收侧执行的, 即,在解码器侧执行,以提高独立选择的音频对象的可理解性。
图4的音频对象152的以下示例将再一次地用以阐明前述的方程 的应用。该示例使用前述符合ITU-RBS.775-l的3/2-通道设置。目的是 得到音频对象i的期望扫视方向,所述期望扫视方向的特征是具有方向 角a「60。,具有等于l (即,OdB)的任意扫视增益g,。对于该示例, 回放空间应呈现由扫视规则参数p-2参数化的某回响。根据图4,显然 最接近的扬声器是右前扬声器156b以及右环绕扬声器156c。因此,可
以通过求解下列方程而得到扫视权重
tan 10。
A, — v2, . rl-r
'v,2. + v,2. =1
tan 40° v,., +v2,, v
在经过一些数学计算之后,将得到解 = 0.8374; 、,, = 0.5466
因此,根据上列的所述指示,得到与位于方向Oli的特定音频对象 相关联的加权参数(矩阵元素)是
wl = w2 = w3 = 0; w4 = 0.8374; w5 = 0.5466
在上述段落中详细说明的本发明实施例仅使用可以由单声道信 号表示的音频对象,即,点状源(point-like source)。然而,灵活的构 思并不局限于采用单声道音频源的应用。反之,被视为空间上"扩散 (diffuse)"的一个或更多个对象也可以很好地符合本发明的构思。当 要表示非点状源或音频对象时,必须以适当的方式得到多通道参数。 对一个或更多个音频对象之间的扩散(diffuseness)的量加以量化的 适当量度是关于对象的互相关参数ICC。
在目前为止所讨论的SAOC系统中,认为所有的音频对象均为点 源,即,没有任何空间广度(extent)的、逐对不相关的单声道源(mono source)。然而,也有应用情况希望允许包括不止一个音频通道在内的音频对象呈现出一定程度的逐对(解)相关。其中最简单而且也可能 是最重要的情况是立体声对象(即,由属于一起的两个或多或少系相 关的通道所构成的对象)来表示的。作为示例,这样的对象可以表示
由交响乐团所产生的空间图像(spatial image)。
如上所述,为了平滑地将立体声对象整合到基于单声道音频对象 的系统中,将立体声对象的两个通道都当作独立的对象来处理。由另 外的互相关参数来反映两个部分的对象之间的相互关系,其中所述另 外的互相关性参数是根据与用于得到子频带功率值^的时间/频率格
栅(grid)相同的时间/频率格栅而计算出来的。换言之由每时间/
频率片三元参数集合(a set of parameter triplet) {CT'2, CT,/<1:(:"}来定 义立体声对象,其中/CC^表示在一个对象的两种实现之间的逐对相关 性。这两种实现是由具有逐对相关性/CG,的独立对象i和j表示。
为了正确地呈现立体声对象,SAOC解码器必须提供用于建立在 参与立体声对象呈现的这些回放通道之间的正确相关性的手段,使所
述立体声对象对于相应通道的贡献表现出如相应的/0^,参数所要求 的相关性。可以处理多个立体声对象的SAOC至MPEG环绕代码转换器 必须得到参与再现相关回放信号的OTT盒的ICC参数,使得在MPEG环 绕解码器的输出通道之间的解相关的量满足这种条件。
为达成此目的,与本文献的先前章节所给出的示例相比,功率A),, 和A),2以及互功率&的计算必须改变。假设一起建立立体声对象的两个 音频对象的所述索引是/,和/2,公式以下列方式改变
<formula>formula see original document page 31</formula>可以很容易观察到,如果冗(^,2=0 V /^/2
这些方程与在上一节所给的方程相同。
或否则/CC =1<formula>formula see original document page 31</formula>可以使用立体声对象具有明显的优点当可以适当地处理除了点 状源以外的音频源时,可以明显地提高空间音频场景的再现品质。此 外,当可以使用广泛适用于很多音频对象的、预先混合的音频信号时, 可以更高效地执行空间音频场景的产生。
以下考虑还将示出,本发明的构思允许对具有"固有(inherent)" 扩散的点状源进行整合。并非如前述示例中一样以对象来表示点状源, 而是还可以将一个或更多个对象视为在空间上"扩散"。扩散的量可以 利用关于对象的互相关性参数/CCy来表征。对于/CG,广l,对象/表示 点状源,而对于/CC,广0,对象最大地扩散。可以通过填入正确的/CC,, 值在以上给定的方程中将对象相关的扩散加以整合。
当使用立体声对象时,必须对矩阵M的加权因子的获得加以调 整。然而,可以不用本发明的技术来执行调整,例如关于操纵立体声 对象,将两个方位角位置(azimuth position)(表示该立体声对象的左 侧以及右侧"边缘"的方位角值)变换成为呈现矩阵元素。
如同已经提到的,无论所使用的音频对象类型是什么,通常针对 不同的时间/频率片独立地定义呈现矩阵元素,并且呈现矩阵元素通常 彼此不相同。例如,随时间的变化可以反映用户交互,通过所述用户 交互针对每个独立对象的扫视角度和增益值可以随时间任意地改变。 随频率的变化允许不同的特征影响音频场景的空间感知性,例如,均 衡(equalization )。
使用多通道参数转换器实现本发明的构思允许全新的、在以前不 可行的应用。由于一般情况下SAOC的功能性的特点是音频对象的高 效编码和交互式呈现,因此需要交互式音频的许多应用可以受益于本 发明构思,S卩,本发明的多通道参数转换器、或本发明的多通道参数 转换方法的实现。
例如,全新的交互式电话会议情况变得可行。目前的电信基础设 施(电话、电话会议等)是单声道的。目卩,传统的对象音频编码无法 实行,因为这需要针对要传输的每一个音频对象传输一个基本流。然 而,通过引入具有单个下混合通道的SAOC可以扩展这些传统传输通 道的功能性。配备有SAOC扩展(主要具有多通道参数转换器或本发器)的电信终端可以获取(pickup)若干声源
(对象)并将它们混合成单个的单声道下混合信号,其中,使用现有 的编码器(例如,语音编码器)以兼容的方式传输所述单个的单声道
下混合信号。可以采用隐式的(hidden)、后向兼容的方式来运送侧信 息(空间音频对象参数或对象参数)。这样的先进终端产生包括若干音 频对象的输出对象流,而旧式的终端将再现下混合信号。反之,旧式 的终端所产生的输出(即,仅有下混合信号)将被SAOC代码转换器 视为一单个音频对象。
图6a说明了原理。在第一电话会议地点200可以存在A个对象(讲 话者),而在第二电话会议地点202可以存在B个对象(讲话者)。根据 SAOC,可以将对象参数与关联的下混合信号204—起从第一电话会议 地点200传输,而可以将下混合信号206从第二会议地点202传输至第一 会议地点200,关联有针对第二会议地点202处B个对象当中每一个对 象的音频对象参数。这具有极大的优点可以仅使用一单个下混合信 号来传输多个讲话者的输出,此外,由于结合下混合信号来传输与独 立的讲话者相关联的另外的音频对象参数,因而可以在接收地点强调 另外的讲话者。
例如,这允许用户通过应用关于对象的增益值g,来强调感兴趣的 特定讲话者,从而使得几乎听不见其余的讲话者。当使用传统的多通 道音频技术时这是不可能的,因为这些技术将尝试尽可能自然地再现 原始空间音频场景,而不可能允许用户交互以强调所选择的音频对象。
图6b说明了更复杂的情况,其中在三个电话会议地点200、 202以 及208当中进行电话会议。由于每一个地点仅可以接收和发送一个音频 对象,所以基础设施使用所谓的多点控制单元(multi-point control unit) MCU 210。每一个地点200、 202和208连接至MCU 210。从每一个地 点至MCU 210,单个上行流(upstream)包括来自于该地点的信号。 每一个地点的下行流(upstream)是所有其它地点的信号的混合,可 能不包括该地点本身的信号(所谓的"N-1信号")。
根据先前所讨论的构思以及本发明的参数代码转换器,SAOC比 特流格式支持以计算上高效的方式(即,不需要在先完全重构发送地点的空间音频场景的方式)将两个或者更多个对象流(即,具有下混 合通道以及关联的音频对象参数的两个流)组合成单个流的能力。根 据本发明,支持这样的组合,而不用将对象解码/重新编码。在使用低
延迟MPEG通讯编码器(例如低延迟AAC)时,这样的空间音频对象 编码情况尤其吸引人。
本发明构思的另一感兴趣的领域是针对游戏(gaming)或类似应 用的交互式音频。由于其低计算复杂度并且独立于特定的呈现设置, SAOC理想地适于表示交互式音频的声音,例如游戏应用。此外,还 可以根据输出终端的能力来呈现音频。作为一个实例,用户/玩家可以 直接影响当前音频场景的呈现/混合。通过调整呈现参数来反映虚拟场 景中的四处移动(moving around)。使用灵活的SAOC序列/比特流集 合,使得可以再现由用户交互控制的非线性游戏故事(gamestory)。
根据本发明的另一实施例,本发明的SAOC编码应用于多人游戏 中,其中用户与相同虚拟世界/场景中的其它玩家进行交互。对于每一 个用户,视频和音频场景依赖于该用户在该虚拟世界中的位置和方位, 并且据此在该用户的本地终端上呈现所述视频和音频场景。在使用共 同的游戏服务器的不同的玩家之间交换一般游戏参数和特定用户数据 (位置、独立的音频、聊天等)。利用旧式的技术,必须对游戏场景中 在每一个客户游戏设备上默认不可用的每个独立音频源(具体地,用 户聊天、特殊音效)进行编码并作为独立的音频流发送至游戏场景的 每一个玩家。使用SAOC,可以在游戏服务器上容易地构成/组合针对 每一个玩家的有关音频流,将其作为单个音频流传输至该玩家(包括 所有有关的对象),并呈现在每一个音频对象(=其他游戏玩家的音频) 的正确空间位置上。
根据本发明的另 一 实施例,SAOC用于回放对象声迹 (soundtrack),其中,利用根据收听者的喜好来调整仪器(instrument) 的相对电平、空间位置以及可听度(audibility)的可能性,使用与多 通道混合台(mixing desk)相类似的方式来进行控制。这样,用户可 以
*抑制/衰减用于共同播放(play along)的特定仪器(卡拉OK类型的应用)
* 修改原始混合,以反映用户的偏好(例如,对于舞会 而言较大的鼓声和较小的弦乐,或对于放松的音乐而言较小的 鼓声和较大的歌唱声)
* 根据用户的偏好,在不同的歌唱声轨(vocal track)
之间进行选择(女性主唱经由男性主唱) 如同已将在上述的实例中所显示的,本发明构思的应用开启了多 种多样新的、原本并不适用的应用领域。当使用图7的本发明多通道参 数转换器时,或当实现如图8所示产生相干性参数(指示在第一音频信 号与第二音频信号之间的相关性)和电平参数时的方法时,这些应用 变成可能。
第7图示出了本发明的另一实施例。多通道参数转换器300包括对 象参数提供器302,所述对象参数提供器302用以提供与下混合通道相 关联的至少一个音频对象的对象参数,所述下混合通道的是使用与该 音频对象相关联的对象音频信号产生的。多通道参数转换器300还包括 参数产生器304,所述参数产生器304用以得到相干性参数和电平参数, 所述相干性参数指示与多通道扬声器配置相关联的多通道音频信号表 示的第一音频信号与第二音频信号之间的相关性,所述电平参数指示 音频信号之间的能量关系。使用对象参数和另外的扬声器参数来产生 多通道参数,所述扬声器参数指示要用于回放的多通道扬声器配置的 扬声器位置。
图8示出了本发明的方法的实现示例,本发明的方法用以产生相 干性参数,所述相干性参数指示与多通道扬声器配置相关联的多通道 音频信号表示的第一音频信号与第二音频信号之间的相关性;以及用 以产生电平参数,所述电平参数指示音频信号之间的能量关系。在提 供步骤310中,提供与下混合通道相关联的至少一个音频对象的对象参 数,所述下混合通道是使用与该音频对象相关联的对象音频信号产生 的,所述对象参数系包括指示音频对象的位置的方向参数,以及指 示对象音频信号的能量的能量参数。
在转换步骤312中,将方向参数和该能量参数与另外的扬声器参数相组合,得到相干性参数和电平参数,所述扬声器参数指示要用于 回放的多通道扬声器配置的扬声器的位置。
其他实施例包括对象参数转换器,所述对象参数转换器用以产生 相干性参数,所述相干性参数指示与多通道扬声器配置相关联的多通
道音频信号表示的两个音频信号之间的相关性;以及用以产生电平参
数,所述电平参数根据空间音频对象编码比特流指示两个音频信号之
间的能量关系。该设备包括比特流分解器,用以从空间音频对象编 码比特流中提取下混合通道以及与关联的对象参数;以及如述的多通
道参数转换器。
可选地或此外,对象参数代码转换器包括多通道比特流产生器, 用以将下混合通道、相干性参数以及电平参数相组合,以得到多通道 信号的多通道表示;或输出接口,用于直接输出电平参数和相干性参
数,而不进行任何量化和/或熵编码。
另一对象与该参数代码转换器具有输出接口,还可以用于与相
干性参数和电平参数相结合输出下混合通道;或者具有储存接口,连
接至输出接口,用以将电平参数和相干性参数存储在储存介质上。 此外,该对象参数代码转换器具有如前述的多通道参数转换器,
用于针对表示多通道扬声器配置的不同扬声器的不同音频信号对得到
多个相干性参数和电平参数对。
根据本发明方法的特定实现需求,可以在硬件或软件中实现本发
明的方法。可以使用数字储存介质来执行该实现,所述数字储存介质
具体是指其上存储有电可读控制信号的光盘、DVD或者CD,这些电 可读控制信号与可编程计算机系统协作以便执行本发明的方法。通常, 本发明从而是具有存储在机器可读载体(carrier)上的程序代码的计 算机程序产品;所述程序代码用于当计算机程序产品在计算机上运行 时执行本发明方法。换言之,本发明方法因此是具有程序代码的计算 机程序,所述程序代码用于当计算机程序在计算机上运行时执行本发 明方法当中的至少一种方法。
虽然前面参考本发明的具体实施例具体示出和描述了本发明,然 而本领域技术人员将理解,在不脱离本发明的精神和范围的前提下,可以进行形式和细节上的各种其他改变。应理解,在不脱离此处公开 的并由以下权利要求所包含的更宽构思的前提下,可以进行各种改变 以适应不同的实施例。
权利要求
1、一种用于产生电平参数的多通道参数转换器,所述电平参数指示多通道空间音频信号表示的第一音频信号与第二音频信号之间的能量关系,该多通道参数转换器包括对象参数提供器,用于针对与下混通道相关联的多个音频对象,根据与所述音频对象相关联的对象音频信号,提供对象参数,所述对象参数包括针对每一个音频对象的能量参数,所述能量参数指示对象音频信号的能量信息;以及参数产生器,用于通过将能量参数以及与呈现配置有关的对象呈现参数相组合来得到电平参数。
2. 根据权利要求1所述的多通道参数转换器,适于另外产生相干性 参数,所述相干性参数指示多通道音频信号表示的第一音频信号与第 二音频信号之间的相关性,其中所述参数产生器适于根据对象呈现参 数以及能量参数来得到相干性参数。
3. 根据权利要求1所述的多通道参数转换器,其中,所述对象呈现 参数系依赖于指示音频对象位置的对象位置参数。
4. 根据权利要求1所述的多通道参数转换器,其中,所述呈现配置 包括多通道扬声器配置,所述对象呈现参数依赖于指示多通道扬声器 配置的扬声器位置的扬声器参数。
5. 根据权利要求1所述的多通道参数转换器,其中,所述对象参数 提供器用于提供另外包括方向参数的对象参数,所述方向参数指示相 对于收听地点的对象位置;以及所述参数产生器用于根据扬声器参数以及根据方向参数来使用 对象呈现参数,所述扬声器参数指示相对于收听地点的扬声器位置。
6. 根据权利要求1所述的多通道参数转换器,其中,所述对象参数 提供器用于接收用户输入对象参数,所述用户输入对象参数另外包括 对扬声器配置内相对于收听地点的用户所选对象位置加以指示的方向 参数;以及所述参数产生器用于根据扬声器参数以及根据方向参数来使用对象呈现参数,所述扬声器参数指示相对于收听地点的扬声器位置。
7. 根据权利要求4所述的多通道参数转换器,其中,所述对象参数提供器和所述参数产生器用于使用指示参考平面内角度的方向参数, 所述参考平面包括收听地点,还包括具有由扬声器参数所指示的位置 的扬声器。
8. 根据权利要求1所述的多通道参数转换器,其中,所述参数产生 器适于使用第一加权参数和第二加权参数作为对象呈现参数,所述第 一加权参数和第二加权参数指示要分配给多通道扬声器配置的第一扬 声器和第二扬声器的对象音频信号的能量的一部分,所述第一加权参 数和第二加权参数依赖于对多通道扬声器配置的扬声器位置加以指示 的扬声器参数,使得当扬声器参数指示第一扬声器和第二扬声器在相 对于音频对象位置具有最小距离的扬声器当中时,所述加权参数不等 于零。
9. 根据权利要求8所述的多通道参数转换器,其中,所述参数产生 器适于使用加权参数,当扬声器参数指示第一扬声器与音频对象的位 置之间的距离小于第二扬声器与音频对象的位置时,所述加权参数指 示针对第一扬声器的音频信号的能量的一部分更大。
10. 根据权利要求8所述的多通道参数转换器,其中,所述参数产生器包括加权因子产生器,用于根据针对第一扬声器和第二扬声器的扬声 器参数0,和02,以及根据音频对象的方向参数a,来提供第一加权参 数w,和第二加权参数W2,其中扬声器参数0,和02以及方向参数a指示相对于收听地点的扬声器和音频对象的位置的方向。
11. 根据权利要求10所述的多通道参数转换器,其中,所述加权因 子产生器用于提供加权参数W,和W2,使得满足以下方程<formula>formula see original document page 3</formula>其中/ 是可选的扫视规则参数,将^设置为反映再现系统/空间的空间声音特性,并将/ 定义为1^^2。
12. 根据权利要求10所述的多通道参数转换器,其中,所述加权因 子产生器用于通过应用与音频对象相关联的共同乘法增益值来对加权 参数进行另外的縮放。
13. 根据权利要求1所述的多通道参数转换器,其中,所述参数产生器用于根据与第一音频信号相关联的第一功率估计pk,p以及根据与第二音频信号相关联的第二功率估计Pk,2,得到电平参数或相干性参数,所述第一音频信号供扬声器使用或者是表示一组扬声器信号的虚 拟信号,所述第二音频信号供不同的扬声器使用或者是表示不同组扬 声器信号的虚拟信号,其中,第一音频信号的第一功率估计pk,,依赖于 与第一音频信号相关联的能量参数和加权参数,与第二音频信号相关联的第二功率估计Pk,2依赖于与第二音频信号相关联的能量参数和加 权参数,k是指示由不同的第一信号和第二信号组成的多对当中的一对的整数,所述加权参数依赖于对象呈现参数。
14. 根据权利要求13所述的多通道参数转换器,其中,所述参数产 生器用于针对由不同的第一音频信号和第二音频信号组成的k个对计 算电平参数或相干性参数,其中与第一音频信号和第二音频信号相关 联的第一功率估计和第二功率估计Pkj和Pk,2基于以下方程,依赖于能 量参数^、与第一音频信号相关联的加权参数w,,,以及与第二音频信号 相关联的加权参数w^:其中i是指示多个音频对象中的音频对象的索引,k是指示由不同的第一信号和第二信号组成的多对中的一对的整数。
15.根据权利要求14所述的多通道参数转换器,其中,k等于O,第一音频信号是虚拟信号,表示包括左前通道、右前通道、中央通道以及低频增强通道在内的组,第二音频信号虚拟信号,表示包括左环绕通道和右环绕通道在内的组,或k等于l,第一音频信号是虚拟信号,表示包括左前通道和右前通 道在内的组,第二音频信号是虚拟信号,表示包括中央通道和低频增 强通道在内的组,或k等于2,第一音频信号是左环绕通道的扬声器信号,第二音频信 号是右环绕通道的扬声器信号,或k等于3,第一音频信号是左前通道的扬声器信号,第二音频信号 是右前通道的扬声器信号,或k等于4,第一音频信号是中央通道的扬声器信号,第二音频信号是低频增强通道的扬声器信号,以及通过将与第一音频信号或第二音频信号所表示的通道相关联的 对象呈现参数相组合,得到第一音频信号或第二音频信号的加权参数。
16. 根据权利要求14所述的多通道参数转换器,其中,k等于0,第一音频信号是虚拟信号,表示包括左前通道、左环绕 通道、右前通道以及右环绕通道在内的组,第二通道是虚拟信号,表 示包括中央通道和低频增强通道在内的组,或k等于l,第一音频信号是虚拟信号,表示包括左前通道和左环绕 通道在内的组,第二通道是虚拟信号,表示包括右前通道和右环绕通 道在内的组,或者k等于2,第一音频信号是中央通道的扬声器信号,第二音频信号 是低频增强通道的扬声器信号,或k等于3,第一音频信号是左前通道的扬声器信号,第二音频信号 是左环绕通道的扬声器信号,或k等于4,第一音频信号是右前通道的扬声器信号,第二音频信号 是右环绕通道的扬声器信号,以及通过将与第一音频信号或第二音频信号所表示的通道相关联的 对象呈现参数相组合,得到第一音频信号或第二音频信号的加权参数。
17. 根据权利要求13所述的多通道参数转换器,其中,所述参数产 生器适于根据以下方程得到电平参数CLDk:<formula>formula see original document page 6</formula>
18. 根据权利要求13所述的多通道参数转换器,其中,所述参数产 生器适于根据与第一音频信号和第二音频信号相关联的互功率估计Rk 得到相干性参数,所述互功率估计Rk依赖于能量参数《、与第一音频信号相关联的加权参数W,以及与第二音频信号相关联的加权参数W2,其中i是指示多个音频对象中的音频对象的索引。
19. 根据权利要求18所述的多通道参数转换器,其中,所述参数产生器适于根据以下方程使用或得到互功率估计Rk:
20. 根据权利要求18所述的多通道参数转换器,其中,所述参数产 生器用于根据以下方程得到相干性参数ICC:凡
21. 根据权利要求1所述的多通道参数转换器,其中,所述参数提 供器用于针对每一个音频对象以及针对每一个或多个频带,提供能量 参数,以及所述参数产生器用于计算针对每一个频带的电平参数或相干性 参数。
22. 根据权利要求1所述的多通道参数转换器,其中,所述参数产 生器用于针对对象音频信号的不同时间部分使用不同的对象呈现参 数。
23. 根据权利要求8所述的多通道参数转换器,其中,所述加权因 子产生器用于基于以下方程,根据对象方向参数a,和扬声器参数0r,针对每一个音频对象i得到第r个扬声器的加权因子w,i: 对于索引s',其中l《s、M,<formula>formula see original document page 7</formula> ;所述参数产生器用于通过另外使用第二能:o,其它
24. 根据权利要求8所述的多通道参数转换器,其中,所述对象参数提供器适于提供立体声对象的参数,所述立体声对象具有第一立体声子对象和第二立体声子对象,所述能量参数具有针对立体声音频对象的第一子对象的第一能量参数、针对立体声音频对象的第二子对象的第二能量参数、以及立体声相关性参数,所述立体声相关性参数指示立体声对象的子对象之间的相关性;以及:参数和立体声相关性参数来得到相干性参数或电平参数。
25. 根据权利要求24所述的多通道参数转换器,其中,所述参数产生器用于使用第一能量参数^、第二能量参数^以及立体声相关性参数ICCi,j,根据与第一音频信号相关联的功率估计P。.1、与第二音频信号相关联的功率估计P"以及互功率相关性K。,得到电平参数和相干性参数,使得功率估计以及互相关性估计的特征在于以下方程-<formula>formula see original document page 7</formula>
26.—种产生电平参数的方法,所述电平参数指示多通道空间音频信号表示的第一音频信号与第二音频信号之间的能量关系,该方法包括针对与下混通道相关联的多个音频对象,根据与所述音频对象相关联的对象音频信号,提供对象参数,所述对象参数包括针对每一个音频对象的能量参数,所述能量参数指示对象音频信号的能量信息;以及通过将能量参数以及与呈现配置有关的对象呈现参数相组合,得到电平参数。
27.—种具有程序代码的计算机程序,所述程序代码用于在计算机上运行所述计算机程序时执行一种产生电平参数的方法,所述电平参数指示多通道空间音频信号表示的第一音频信号与第二音频信号之间的能量关系,所述方法包括针对与下混通道相关联的多个音频对象,根据与所述音频对象相关联的对象音频信号,提供对象参数,所述对象参数包括针对每一个音频对象的能量参数,所述能量参数指示对象音频信号的能量信息;以及通过将能量参数以及与呈现配置有关的对象呈现参数相组合,得到电平参数。
全文摘要
一种产生电平参数的参数转换器,所述电平参数指示与多通道扬声器配置相关联的多通道音频信号的第一音频通道与第二音频通道之间的能量关系。根据与下混合通道相关联的音频对象的对象参数产生电平参数,所述下混合通道是使用与音频对象相关联的对象音频信号来产生的。对象参数包括指示对象音频信号的能量的能量参数。为得到相干性参数和电平参数,使用参数产生器,所述参数产生器将能量参数以及依赖于期望呈现配置的对象呈现参数相组合。
文档编号G10L19/14GK101529504SQ200780038472
公开日2009年9月9日 申请日期2007年10月5日 优先权日2006年10月16日
发明者于尔根·赫勒, 克里斯托弗·薛林, 卡斯滕·林茨迈尔, 安德烈亚斯·赫尔蒂, 拉尔夫·施佩尔施奈德, 拉斯·维尔默斯, 海斯·朋哈根, 约纳斯·恩德加德, 约翰内斯·希尔珀特, 维尔纳·乌姆恩, 耶罗恩·布里巴特 申请人:弗劳恩霍夫应用研究促进协会;杜比瑞典公司;皇家飞利浦电子股份有限公司