多对象音频解码方法和设备的制作方法-品牌商务网

专利名称：多对象音频解码方法和设备的制作方法
技术领域：
本发明涉及一种音频编码和解码方法以及其设备；并且更具体地，涉及一种多对象音频编码和解码方法以及其设备。这项工作受到MIC/IITA 的 IT R&D 计划[2007-S-004-01, “Development ofGlassless Single_User3D Broadcasting Technologies (无眼镜单用户 3D 广播技术的发
展)”]支持。
背景技术：
引进了基于空间队列的空间音频编码(SAC)方法，作为根据相关技术的用于压缩和恢复音频信号的方法。所述SAC方法是为了进行多声道音频编码而开发的技术。通常，传统的音频技术具有仅允许用户被动地聆听音频内容的功能限制。因此，传统的音频技术不能向用户提供多样的音频服务。

发明内容
技术问题本发明的实施例旨在提供一种用于有效地提供多样的音频服务的编码和解码方法、以及其设备。本发明的其它目的和优点可通过接下来的描述来理解，并且参考本发明的实施例而变得明显。此外，对于本领域的技术人员还显然的是，本发明的目的和优点可通过所要求保护的手段以及其组合来实现。技术解决方案根据本发明的一方面，提供了一种多对象编码方法，包括通过下混合(down-mix)前景音频对象和背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频编码方法，包括通过将单声道前景音频对象下混合到单声道背景音频对象上来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象编码方法，包括通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频编码方法，包括通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。
根据本发明的另一方面，提供了一种多对象音频解码方法，包括接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码方法，包括接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码方法，包括接收通过对立体声前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来恢复立体声前景音频对象和单声道背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码方法，包括接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合而生成的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。根据本发明的另一方面，提供了一种多对象音频编码设备，包括下混合发生器，用于通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频编码设备，包括下混合发生器，用于通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频编码设备，包括下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频编码设备，包括下混合发生器，用于通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。根据本发明的另一方面，提供了一种多对象音频解码设备，包括接收器，用于接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码设备，包括接收器，用于接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复单声道前景音频对象和单声道背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码设备，包括接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。
根据本发明的另一方面，提供了一种多对象音频解码设备，包括接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。根据本发明的另一方面，提供了一种多对象音频解码方法，包括接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中所述N个残余信号分别对应于所述N个前景音频对象，并且N是整数；以及使用所述残余信号来从下混合信号中恢复所述前景音频对象和背景音频对象，其中，所述前景音频对象和背景音频对象是单声道音频对象。所述恢复步骤包括如下步骤使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数；以及依次重复如下的处理直到恢复了所述N个前景音频对象和所述背景音频对象使用所述N个残余信号中与第M+1前景音频对象对应的第M+1残余信号、以及由所述恢复步骤输出的下混合信号来恢复所述N个前景音频对象中的第M+1前景音频对象，并且在恢复所述第M+1前景音频对象之后输出下混合信号。根据本发明的另一方面，提供了一种多对象音频解码设备，包括恢复部件，用于接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中所述N个残余信号分别对应于所述N个前景音频对象，并且N是整数，并且使用所述残余信号来从下混合信号中恢复所述前景音频对象和背景音频对象。所述前景音频对象和背景音频对象是单声道音频对象，以及其中，所述恢复部件包括级联结构的N个恢复器。所述N个恢复器中的第M恢复器使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号，来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数。根据在下文中陈述的、参考附图进行的如下实施例描述，本发明的优点、特征和方面将变得明显。当认为关于相关技术的详细描述可能模糊本发明的要点时，这里将被不提供所述描述。下文中，将参考附图来详细描述本发明的特定实施例。有利效果根据本发明的编码和解码方法以及其设备可有效地提供多样的音频服务。

图I是用于描述本发明的第一构思的图。图2是用于描述本发明的第二构思的图。图3是图示了图2中所示的第一下混合发生器203的图。图4是用于描述本发明的第一实施例的图。图5是用于描述本发明的第二实施例的图。图6是用于描述本发明的第三实施例的图。图7是用于描述本发明的第四实施例的图。
图8是用于描述根据本发明的实施例的解码的图。图9是用于描述本发明的示范实施例的图。
具体实施例方式接下来的描述仅举例说明了本发明的原理。即使在本说明书中没有清楚地描述或说明它们，本领域的普通技术人员也可以实施本发明的原理并发明处于本发明的构思和范围内的各种设备。在本说明书中呈现的条件术语的使用和实施例仅意欲帮助理解本发明的构思，并且它们不限于在说明书中提及的实施例和条件。此外，关于本发明的原理、观点和实施例以及特定实施例的所有详细描述应该被理解为包括它们的结构和功能等效物。所述等效物不仅包括当前已知的等效物，而且包括要在将来开发的那些等效物，即被发明来执行相同功能的所有装置，而不管它们的结构。
例如，本发明的框图应该被理解为示出了用于实施本发明的原理的示范电路的构思观点。类似地，所有流程图、状态转换图、伪代码等实际上可表达在计算机可读介质中，并且无论是否不同地描述计算机或处理器，它们都应该被理解为表达由计算机或处理器操作的各种处理。在图中图示的各种装置的功能(其包括被表达为处理器或类似构思的功能块)不仅可通过使用专用于所述功能的硬件来提供，而且可通过使用能够运行用于所述功能的合适软件的硬件来提供。当通过处理器来提供功能时，所述功能可由单个专用处理器、单个共享处理器、或其部分可共享的多个单独处理器来提供。术语“处理器”、“控制”或类似概念的明显使用不应该被理解为排外地指能够运行软件的硬件，而应该被理解为隐含地包括数字信号处理器(DSP)、硬件、以及用于存储软件的ROM、RAM和非易失性存储器。其中还可以包括其它的已知并且通常使用的硬件。在本说明书的权利要求中，被表达为用于执行在详细说明中描述的功能的部件的元件意欲包括用于执行包括所有格式的软件的功能的所有方法，诸如用于执行所预期的功能的电路、固件/微代码等的组合。为了执行所预期的功能，所述元件与用于执行所述软件的合适电路协作。由权利要求所限定的本发明包括用于执行具体功能的各种部件，并且在权利要求所请求的方法中，所述部件彼此连接。因此，可提供所述功能的任何部件应该被理解为是从本说明书中料想到的内容的等效物。根据在下文中陈述的、参考附图进行的如下实施例描述，本发明的其它目的和方面将变得明显。如果确定关于相关技术的进一步详细描述使本发明的要点模糊，则这里将不提供所述描述。下文中，将参考图来描述本发明的特定实施例。本发明涉及多对象音频编码和解码技术。多对象音频可包括用于构建音频内容的多个音频对象。例如，如果音频内容包括伴奏或背景音乐以及演唱(vocal)，则伴奏或背景音乐是一个音频对象，而演唱是另一音频对象。伴奏或背景音乐的音频对象可以被细分为乐器(诸如，钢琴或鼓)的音频对象。多对象音频编码是用于压缩不同的音频对象的技术，并且多对象音频解码是用于对编码的多对象音频进行解码的技术。因此，多对象音频编码和解码技术通过根据对象而对多个音频对象进行编码和解码来使得能够向用户提供多样的主动音频服务。也就是说，多对象音频编码和解码技术不仅使得用户能够单独控制每个音频对象，而且还使得可能通过组合多个音频对象来创建多样的音频服务和内容。
在本发明中，残余信号可用于对多对象音频进行编码和解码。残余信号表示预定信号在估计之前和之后的差别。所述残余信号可定义为等式I。X(t)-X' (t) =Xresidual (t) 等式 I在等式I中，X(t)指示在估计之前的原始信号，而X’ (t)指示在估计之后的估计信号。XresiduaUt)指示在原始信号和估计信号之间的差。将如下描述使用残余信号进行的多对象音频编码。例如，在多对象音频包括第一音频对象和第二音频对象的情况下，通过对第一音频对象和第二音频对象进行下混合来生成下混合信号。第一音频对象和第二音频对象可估计为第一估计音频对象和第二估计音频对象。这里，第一音频对象和第二音频对象是原始信号，而第一估计音频对象和第二估计音频对象是估计的信号。残余信号可使用原始信号和估计信号来生成。因此，在根据本发明的示范实施例的多对象音频编码中，可通过对第一和第二音频对象进行下混合来生成下混合信号和残余信号。在根据本发明的示范实施例的多对象音频解码中，执行多对象音频编码的逆处理。也就是说，使用下混合信号和残余信号来恢复第一音频对象和第二音频对象。根据本发明实施例的多对象编码方法包括通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。前景音频对象可包括第一前景音频对象和第二前景音频对象。所述生成下混合信号和残余信号的步骤可包括通过对背景音频对象和第一前景音频对象进行下混合来生成第一下混合信号和第一残余信号；以及通过对第一下混合信号和第二前景音频对象进行下混合来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括旁路第二前景音频对象。根据本发明实施例的多对象音频编码设备包括下混合发生器，用于通过对前景音频对象和背景音频对象进行下混合来生成下混合信号和残余信号，并生成包括下混合信号和残余信号的比特流。前景音频对象可包括第一前景音频对象和第二前景音频对象。下混合发生器包括第一下混合发生器，用于通过对背景音频对象和第一前景音频对象进行下混合来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过对第一下混合信号和第二前景音频对象进行下混合来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二前景音频对象。根据本发明实施例的多对象音频解码方法包括接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。前景音频对象可包括第一前景音频对象和第二前景音频对象，而残余信号可包括用于第一前景音频对象的第一残余信号和用于第二前景音频对象的第二残余信号。所述恢复前景音频对象和背景音频对象的步骤可包括使用下混合信号和第一残余信号来恢复第一前景音频对象；以及使用在恢复第一前景音频对象之后的下混合信号和第二残余信号来恢复第二前景音频对象。根据本发明实施例的多对象音频解码设备包括接收器，用于接收比特流，该比特流包括通过对前景音频对象和背景音频对象进行下混合来生成的下混合信号、和在生成下混合信号之后剩下的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。前景音频对象可包括第一前景音频对象和第二前景音频对象，而残余信号可包括用于第一前景音频对象的第一残余信号和用于第二前景音频对象的第二残余信号。所述恢复器可包括第一恢复器，用于使用下混合信号和第一残余信号来恢复第一前景音频对象；以及第二恢复器，用于使用在恢复第一前景音频对象之后的下混合信号和第二残余信号来恢复第二前景音频对象。音频对象包括具有单声道信号的单声道音频对象和具有立体声信号的立体声音频对象。立体声音频对象可包括左声道信号和右声道信号。背景音频对象可以是通过将立体声音频对象下混合到单声道音频对象上而生成的下混合音频对象。或者背景音频对象可以是通过将单声道音频对象下混合到立体声音频对象上而生成的下混合音频对象。因此，背景音频对象可以是通过将多个单声道音频对象下混合到立体声音频对象上或通过将多个立体声音频对象下混合到单声道音频对象上而生成的下混合对象。相应地，在这个情况下，多对象音频可包括多个背景音频对象。此外，背景音频对象可以是通过将多个单声道音频对象或多个立体声音频对象下混合到一个立体声音频对象上而生成的下混合对象。相应地，在这个情况下，多对象音频可包括多个背景音频对象。像背景音频对象一样，前景音频对象可以是通过将立体声音频对象下混合到单声道音频对象上而生成的或通过将单声道音频对象下混合到立体声音频对象上而生成的下混合对象。根据本发明实施例的多对象音频编码和解码技术使得能够通过使用残余信号来对多对象音频进行编码或解码来主动地控制音频对象。此外，根据本发明实施例的多对象音频编码和解码技术可有效地对包括单声道和立体声音频对象的多对象音频进行编码和解码。下文中，将描述包括前景音频对象和背景音频对象的多对象音频。前景音频对象表示要控制的目标音频对象。然而，前景音频对象可以利用背景音频对象来替换。此外，前景音频对象和背景音频对象可包括多个音频对象。图I是用于描述本发明的第一构思的图。参考图I，前景音频对象FGO和背景音频对象BGO被输入到下混合发生器101。在图I中，前景音频对象FGO包括第一前景音频对象FGOl和第二前景音频对象FG02。首先，背景音频对象BGO和第一前景音频对象FGOl被输入第一下混合发生器103。第一下混合发生器103通过对背景音频对象BGO和第一前景音频对象FGOl进行下混合来生成第一下混合信号和第一残余信号。第二下混合发生器105接收第一下混合信号和第二前景音频对象FG02。第二下混合发生器105通过对第一下混合信号和第二前景音频对象FG02进行下混合来生成第二下混合信号DMX和第二残余信号。在图I中，输入前景音频对象FGOl和FG02。然而，对于本领域技术人员显然的是，可以输入多于三个前景音频对象。如果输入多于三个前景音频对象，则第一和第二下混合发生器103和104级联连接为增加得与所增加的前景音频对象的数目一样多。除了残余信号之外，第一和第二下混合发生器103和105接收两个信号并输出一个下混合信号。例如，第一下混合发生器103接收背景音频对象BGO和第一前景音频对象FGOl并输出第一下混合信号。因此，第一下混合发生器103具有逆一到二(Inverse One ToTwo) (0TT-1)结构，该结构具有两个输入和一个输出。这里，鉴于编码来定义0TT-1。鉴于解码，OTT-I可等效于一到二(0TT)。如果它们被扩展到包括第一下混合发生器103和第二下混合发生器105的下混合发生器101，并且如果输入多于三个前景音频对象FG0，则它可具有逆一到N (0TN-1)结构，该结构具有多个输入N和一个输出。这里，鉴于编码来定义0TN-1结构。鉴于解码，0TN-1结构可等效于一到N (OTN)结构。按照上述编码处理的逆顺序来执行解码处理。图2是用于描述本发明的第二构思的图。参考图2，总体结构类似于图I所示的结构。然而，第一下混合发生器203旁路第二前景对象FG02，并且第二下混合发生器205将第二前景音频对象FG02下混合到通过对背景音频对象BGO和第一前景音频对象FGOl进行下混合而生成的下混合信号上。除了残余信号之外，第一下混合发生器230或第二下混合发生器205接收三个信号并输出两个信号。这两个输出信号是下混合信号和旁路信号。例如，第一下混合发生器203接收背景音频对象BG0、第一前景音频对象FGOl、和第二前景音频对象FG02，并输出第一下混合信号和第二前景音频对象FG02。因此，第一下混合发生器具有逆二到三(TTT-1)，其具有三个输入和两个输出。然而，三个输入之一被没有修改地输出。因此，这样的结构被称为平凡(trivial)TTT-l (tTTT-1)。这里，鉴于编码来定义tTTT_l。鉴于解码，它可等效于平凡二到三(tTTT)。如果它们被扩展到包括第一下混合发生器203和第二下混合发生器205的下混合发生器201，并且如果多于三个前景音频对象被输入，则它可具有逆平凡二到N(tTTN-l)结构，其具有两个输出。这里，鉴于编码来定义tTTT-1结构。鉴于解码，它可等效于平凡二到N (tITN)。图3是图示了图2中所示的第一下混合发生器203的图。参考图3，第一下混合发生器203接收三个输入信号“输入I”(Inputl)、“输入2”(Input2)和“输入3”(Input3)，并输出两个信号“输出I” (Outputl)和“输出2” (0utput2)。第一下混合发生器301通过下混合第一输入信号“输入I”和第二输入信号“输入2”来输出第一输出信号“输出I”作为下混合信号，并生成残余信号。第一下混合发生器301按照原样旁路第三输入信号，并输出旁路的信号作为第二输出信号“输出2”。因此，第一输出信号“输出I”是通过下混合第一输入信号“输入I”和第二输入信号“输入2”而生成的下混合信号。这里，第二输出信号“输出2”变成第三输入信号“输入3”的相同信号。上面的描述可同样地应用于本发明的各个实施例。下文中，将参考图来详细地描述本发明的实施例。<第一实施例单声道前景音频对象和单声道背景音频对象>在本发明的第一实施例中，前景音频对象包括单声道前景音频对象，而背景音频对象包括单声道背景音频对象。根据本发明的第一实施例的多对象音频编码方法包括通过将单声道前景音频对象下混合到单声道背景音频对象上来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。所述生成下混合信号和残余信号的步骤可包括通过下混合单声道背景音频对象和第一单声道前景音频对象来生成第一下混合信号和第一残余信号，并且通过下混合第一下混合信号和第二单声道前景音频对象来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括旁路第二单声道前景音频对象。
根据第一实施例的多对象音频编码设备包括下混合发生器，用于通过下混合单声道前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。下混合发生器可包括第一下混合发生器，用于通过下混合单声道背景音频对象和第一单声道前景音频对象来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合第一下混合信号和第二单声道前景音频对象来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二单声道前景音频对象。根据本发明的第一实施例的多对象音频解码方法包括接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号和在下混合之后剩下的残余信号；以及使用残余信号来从下混合信号中恢复前景音频对象和背景音频对象。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。残余信号可包括用于第一单声道前景音频对象的第一残余信号和用于第二单声道前景音频对象的第二残余信号。所述恢复前景音频对象和背景音频对象的步骤可包括使用下混合信号和第一残余信号来恢复第一单声道前景音频对象；以及使用在恢复第一单声道前景音频对象之后的下混合信号和第二残余信号来恢复第二单声道前景音频对象。根据第一实施例的多对象音频解码设备包括接收器，用于接收比特流，该比特流包括通过对单声道前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复单声道前景音频对象和单声道背景音频对象。单声道前景音频对象可包括第一单声道前景音频对象和第二单声道前景音频对象。残余信号可包括用于第一单声道前景音频对象的第一残余信号和用于第二单声道前景音频对象的第二残余信号。所述恢复器可包括第一恢复器，用于使用下混合信号和第一残余信号来恢复第一单声道前景音频对象；以及第二恢复器，用于使用在恢复第一单声道前景音频对象之后的下混合信号和第二残余信号来恢复第二单声道前景音频对象。图4是用于描述本发明的第一实施例的图。参考图4,前景音频对象FGO和背景音频对象是单声道信号。单声道前景音频对象“单声道FG01”(MonoFGOl)和“单声道FG02”(Mono FG02)以及单声道背景音频对象“单声道BGO”(Mono BG0)被输入到下混合发生器401。第一下混合发生器403接收单声道背景音频对象“单声道BG0”和第一单声道前景音频对象“单声道FG01”，并生成第一下混合信号和第一残余信号。第二下混合发生器405接收第一下混合信号和第二单声道前景音频对象“单声道FG02”，并生成下混合信号DMX和第二残余信号。在图4中，输入两个单声道音频对象“单声道FG01”和“单声道FG02”。然而，对于本领域技术人员明显的是，可输入多于三个单声道音频对象。如果输入多于三个单声道音频对象，则第一下混合发生器403和第二下混合发生器404级联连接为在数目上增加得与所增加的前景音频对象的数目一样多。如果输入多于三个前景音频对象FG0，它可具有逆一到N (0TN-1)结构，该结构具有多个输入N和一个输出。这里，鉴于编码来定义0TN-1。鉴于解码，0TN-1结构可等效于一到N (OTN)结构。按照上述编码处理的逆顺序来执行解码处理。<第二实施例立体声前景音频对象和单声道背景音频对象>在本发明的第二实施例中，前景对象包括立体声前景音频对象，而背景音频对象包括单声道背景音频对象。根据本发明的第二实施例的多对象编码方法包括通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一信号和第二信号。所述生成下混合信号和残余信号的步骤可包括通过下混合单声道子音频对象和第一信号来生成第一下混合信号和第一残余信号，以及通过下混合第一下混合信号和第二信号来生成第二下混合信号和第二残余信号。所述生成下混合信号和残余信号的步骤还可包括旁路第二信号。根据第二实施例的多对象音频编码设备包括下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一信号和第二信号。下混合发生器可包括第一下混合发生器，用于通过下混合单声道子音频对象和第一信号来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合第一下混合信号和第二信号来生成第二下混合信号和第二残余信号。第一下混合发生器可旁路第二信号。根据本发明的第二实施例的多对象音频解码方法包括接收通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号和在下混合之后剩下的残余信号；以及使用残余信号来恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复立体声前景音频对象和单声道背景音频对象的步骤可包括使用下混合信号和第一残余信号来恢复第一信号；以及使用在恢复第一信号之后的下混合信号和第二残余信号来恢复第二信号。根据第二实施例的多对象音频解码设备包括接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。这里，立体声前景音频对象可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复器可包括第一恢复器，用于使用下混合信号和第一残余信号来恢复第一信号；以及第二恢复器，用于使用在恢复第一信号之后的下混合信号和第二残余信号来恢复第二信号。图5是用于描述本发明的第二实施例的图。参考图5，下混合发生器501接收单声道背景音频对象“单声道BG0”和立体声前景音频对象“立体声左/右FGO” (Stereo Left/Right FG0)。立体声前景音频对象“立体声左/右FG0”包括左声道信号“左FGO” (LeftFG0)和右声道信号“右FGO” (Right FGO)。第一下混合发生器503接收单声道背景音频对象“单声道BG0”和左声道信号“左FG0”，并生成第一下混合信号和第一残余信号。第二下混合发生器505接收第一下混合信号和右声道信号“右FG0”，并生成第二下混合信号DMX和第二残余信号。
在图5中，输入一个立体声前景音频对象“立体声左/右FG0”。然而，对于本领域技术人员明显的是，可输入多于两个立体声前景音频对象。如果输入多于两个立体声前景音频对象，则第一下混合发生器503和第二下混合发生器505级联连接为增加得与所增加的立体声前景音频对象的数目一样多。按照上述编码处理的逆顺序来执行解码处理。<第三实施例立体声前景音频对象和立体声背景音频对象>在本发明的第三实施例中，前景对象包括立体声前景音频对象，而背景音频对象包括立体声背景音频对象。立体声音频对象可包括左声道信号和右声道信号。根据本发明的第三实施例的多对象音频编码方法包括通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。所述生成下混合信号和残余信号的步骤可包括通过下混合立体声前景音频对象和立体声背景音频信号的第一信号来生成第一下混合信号和第一残余信号，以及通过下混合立体声前景音频对象和立体声背景音频信号的第二信号来生成第二下混合信号和第二残余信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述生成第一下混合信号和第一残余信号的步骤可包括通过下混合立体声背景音频对象的第一信号和第一左声道信号来生成第一左声道下混合信号和第一左声道残余信号；以及通过下混合第一左声道下混合信号和第二左声道信号来生成第二左声道下混合信号和第二左声道残余信号。所述生成第一下混合信号和第一残余信号的步骤还可包括旁路第二左声道信号。根据本发明的第三实施例的多对象音频编码设备包括下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。下混合发生器可包括第一下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频信号的第一信号来生成第一下混合信号和第一残余信号；以及第二下混合发生器，用于通过下混合立体声前景音频对象和立体声背景音频信号的第二信号来生成第二下混合信号和第二残余信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。第一下混合发生器可包括第一左声道下混合发生器，用于通过下混合立体声背景音频对象的第一信号和第一左声道信号来生成第一左声道下混合信号和第一左声道残余信号；以及第二左声道下混合发生器，用于通过下混合第一左声道下混合信号和第二左声道信号来生成第二左声道下混合信号和第二左声道残余信号。第一下混合发生器可旁路第二左声道信号。根据本发明的第三实施例的多对象音频解码方法包括接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合而获得的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复立体声前景音频对象和立体声背景音频对象的步骤可包括使用下混合信号和第一残余信号来恢复第一信号；以及使用下混合信号和第二残余信号来恢复第二信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述第一残余信号包括用于第一左声道信号的第一左声道残余信号和用于第二左声道信号的第二左声道残余信号。所述恢复第一信号的步骤包括使用下混合信号和第一左声道残余信号来恢复第一左声道信号；以及使用在恢复第一左声道信号之后的下混合信号和第二左声道信号来恢复第二左声道信号。根据本发明的第三实施例的多对象音频解码设备包括接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和立体声背景音频对象进行下混合来生成的下混合信号、和根据下混合信号来生成的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和立体声背景音频对象。立体声前景音频对象和立体声背景音频信号的每一个可包括第一信号和第二信号。残余信号可包括用于第一信号的第一残余信号和用于第二信号的第二残余信号。所述恢复器可包括第一恢复器，用于使用下混合信号和第一残余信号来恢复第一信号；以及第二恢复器，用于使用下混合信号和第二残余信号来恢复第二信号。立体声前景音频对象的第一信号可包括第一左声道信号和第二左声道信号。所述第一残余信号包括用于第一左声道信号的第一左声道残余信号和用于第二左声道信号的第二左声道残余信号。第一恢复器可包括第一左声道恢复器，用于使用下混合信号和第一左声道残余信号来恢复第一左声道信号；以及第二左声道恢复器，用于使用在恢复第一左声道信号之后的下混合信号和第二左声道信号来恢复第二左声道信号。图6是用于描述本发明的第三实施例的图。参考图6，前景音频对象“立体声左/右FG0”是立体声信号，而背景音频对象“立体声左/右BGO” (Stereo Left/Right BG0)是立体声信号。将参考图6来描述两个立体声前景音频对象“立体声左/右FG01”和“立体声左/右FG02”。下混合发生器601接收立体声背景音频对象“立体声左/右BG0”和两个立体声前景音频对象“立体声左/右FGOl ”和“立体声左/右FG02”。第一左声道下混合发生器603接收左声道背景音频对象“左BGO”(LeftBGO)和第一左声道前景音频对象“左FG01”，并生成第一左声道下混合信号和第一左声道残余信号“左残余”(Left Residual)。第二左声道下混合发生器605接收第一左声道下混合信号和第二左声道前景音频对象“左FG02”，并生成第二左声道下混合信号“左DMX” (Left DMX)和第二左声道残余信号“左残余”。还通过上述的处理来下混合右声道背景音频对象“右BGO”(Right BGO)和右声道前景音频对象“右FGOl ”和“右FG02”。在图6中，输入两个立体声前景音频对象“立体声左/右FG0”。然而，对于本领域技术人员明显的是，可输入多于三个立体声前景音频对象。如果输入多于三个立体声前景音频对象，则第一左声道下混合发生器603和第二下左声道混合发生器605级联连接为增加得与所增加的前景音频对象的数目一样多。按照上述编码处理的逆顺序来执行解码处理。在图6中，第一左声道下混合发生器603接收左声道背景音频对象“左BG0”、第一左声道前景音频对象“左FG01”、以及第二左声道前景音频对象“左FG02”，并且第一左声道下混合发生器603旁路第二左声道前景音频对象“左FG02”。也就是说，第一左声道下混合发生器具有逆二到三(TTT-1 )，其具有三个输入和两个输出。这个结构被称作如上所述的平凡TTT-I (tTTT-1)结构。此外，输入包括左声道信号和右声道信号的多于三个立体声前景音频对象，它具有逆平凡二到N (tTTN-1)结构，该结构具有多于三个输入和两个输出。这里，鉴于编码来定义tTTN-1结构，并且鉴于解码，它可等效于平凡二到N (tTTN)结构。<第四实施例立体声前景音频对象和单声道背景音频对象>在本发明的第四实施例中，前景对象包括立体声前景音频对象，并且背景音频对象包括单声道背景音频对象。立体声音频对象可包括左声道信号和右声道信号。在第四实施例中，下混合输出信号是立体声信号。在这点上，第四实施例不同于第二实施例。根据本发明的第四实施例的多对象音频编码方法包括通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号，以及生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一和第二左声道信号、以及第一和第二右声道信号。所述生成下混合信号和残余信号的步骤可包括通过下混合单声道背景音频对象、第一左声道信号和第一右声道信号来生成第一左声道下混合信号、第一右声道下混合信号和第一残余信号；以及通过下混合第一左声道下混合信号、第一右声道下混合信号、第二左声道信号和第二右声道信号来生成第二左声道下混合信号、第二右声道下混合信号和第二残余信号。这里，所述生成下混合信号和残余信号的步骤还可包括旁路第二左声道信号和第二右声道信号。根据本发明的第四实施例的多对象音频编码设备包括下混合发生器，用于通过下混合立体声前景音频对象和单声道背景音频对象来生成下混合信号和残余信号；以及比特流发生器，用于生成包括下混合信号和残余信号的比特流。立体声前景音频对象可包括第一和第二左声道信号、以及第一和第二右声道信号。下混合发生器可包括第一左声道下混合发生器，用于通过下混合单声道背景音频对象、第一左声道信号和第一右声道信号来生成第一左声道下混合信号、第一右声道下混合信号和第一残余信号；以及第二左声道下混合发生器，用于通过下混合第一左声道下混合信号、第一右声道下混合信号、第二左声道信号和第二右声道信号来生成第二左声道下混合信号、第二右声道下混合信号和第二残余信号。这里，下混合发生器可旁路第二左声道信号和第二右声道信号。根据本发明的第四实施例的多对象音频解码方法包括接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合而生成的下混合信号、和根据下混合信号的残余信号；以及使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象包括第一和第二左声道信号、以及第一和第二右声道信号。残余信号包括用于第一左和右声道信号的第一残余信号、以及用于第二左和右声道信号的第二残余信号。所述恢复立体声前景音频对象和单声道背景音频对象的步骤包括使用下混合信号和第一残余信号来恢复第一左和右声道信号；以及使用在恢复第一左和右声道信号之后的下混合信号和第二残余信号来恢复第二左和右声道信号。根据第四实施例的多对象音频解码设备包括接收器，用于接收比特流，该比特流包括通过对立体声前景音频对象和单声道背景音频对象进行下混合来生成的下混合信号、和根据下混合信号的残余信号；以及恢复器，用于使用残余信号来从下混合信号中恢复立体声前景音频对象和单声道背景音频对象。立体声前景音频对象包括第一和第二左声道信号、以及第一和第二右声道信号。残余信号包括用于第一左和右声道信号的第一残余信号、以及用于第二左和右声道信号的第二残余信号。所述恢复器包括第一恢复器，用于使用下混合信号和第一残余信号来恢复第一左和右声道信号；以及第二恢复器，用于使用在恢复第一左和右声道信号之后的下混合信号和第二残余信号来恢复第二左和右声道信号。图7是用于描述本发明的第四实施例的图。参考图7，前景音频对象是立体声信号，而背景音频对象是单声道信号。立体声音频对象可包括左声道信号和右声道信号。下混合发生器701接收单声道背景音频对象“单声道BG0”和立体声前景音频对象“FG01左/右” (FGOlLeft/Right)和 “FG02 左 / 右” (FG02Left/Right)。第一下混合发生器702接收单声道背景音频对象“单声道BG0”、和第一立体声前景音频对象“FG01左，，(FGOlLeft)和“FG02右”(FG02Right)，并通过下混合单声道背景音频对象“单声道BG0”、和第一立体声前景音频对象“FG01左”和“FG02右”来生成第一下混合信号和第一残余信号。第一下混合信号可包括第一左声道下混合信号和第二右声道下混合信号。通过下混合第一下混合信号、和第二立体声前景音频对象“FG02左”(FG02Left)和“FG02右”来生成第二下混合信号和第二残余信号。第二下混合信号可包括第二左声道下混合信号“左DMX”和第二右下混合信号“右DMX” (Right DMX)。第二左声道下混合发生器703a通过将第一左声道下混合信号与第二立体声左声道前景音频对象“FG02左”下混合来生成第二左声道下混合信号“左DMX”。第二右声道下混合发生器703b通过将第一右声道下混合信号与第二立体声右声道前景音频对象“FG02右”下混合来生成第二右声道下混合信号“右DMX”。图8是用于描述根据本发明的实施例的解码的图。接收包括残余信号和下混合信号的比特流，并且恢复下混合信号。下混合信号可包括具有左声道下混合信号“左DMX”和右声道下混合信号“右DMX”的立体声下混合信号。单声道前景音频对象恢复器804使用立体声下混合信号“左DMX”和“右DMX”以及残余信号“残余”(Residual)来恢复单声道前景对象“单声道FGO”(Mono FGO)。单声道前景音频对象恢复器804包括用于恢复单声道前景音频对象的每一个的第一单声道前景音频对象恢复器802和第二单声道前景音频对象恢复器803。这里，第一单声道前景音频对象恢复器802和第二单声道前景音频对象恢复器803具有TTT结构，并且单声道前景音频对象恢复器804具有TTN结构。立体声前景音频对象恢复器806使用立体声下混合信号“左DMX”和“右DMX”以及残余信号来恢复立体声前景对象“立体声左/右FG0”。立体声前景音频对象“立体声左/右FGO”包括左声道信号“左FGO”和右声道信号“右FGO”。最终，输出立体声背景音频对象“左BG0”和“右BG0”。立体声前景对象恢复器806包括多个对象恢复器805a、805b、……、
806a、806b、807a、和 807b。所述多个对象恢复器 805a、805b、......、806a、806b、807a、和 807b
具有OTT结构。立体声前景立体声对象恢复器806具有OTN结构。图8图示了用于立体声背景音频对象和单声道前景音频对象的解码设备。在立体声背景音频对象和单声道前景音频对象的情况下，使用左声道下混合信号“左DMX”和残余信号“残余”来恢复单声道背景音频对象和单声道前景音频对象。其间，可通过立体声前景音频对象恢复器806来恢复单声道背景音频对象和立体声前景音频对象。由于可容易地理解其它解码处理(如图8所示)，所以省略其详细描述。下文中，将描述本发明的示范实施例。图9是用于描述本发明的示范实施例的图。参考图9，多声道背景场景对象(MBO)包括多个声道“声道I”(Channell)、“声道2”(Channel2)、.、“声道 n” (Channeln)0 MPEG 环绕编码器(MPS)901 对 MBO 进行编码，并输出立体声下混合信号“MB0左”(MBO Left)和“MB0右”(MBO Right)以及作为边信息(sideinformation)的MPS比特流。这里，立体声下混合信号“MB0左”和“MB0右”是背景音频对象。立体声下混合信号“MB0左”和“MB0右”、立体声前景对象“立体声FGO” (StereoFGO)、和单声道前景音频对象“单声道FGO”被输入到空间音频对象编码编码器(SAOC)。立体声前景对象“立体声FG0”和单声道前景音频对象“单声道FG0”是前景音频对象。立体声前景音频对象“立体声FG0”可包括多个立体声对象“对象I”(objectl)、“对象2”(object2)、...、和“对象N” (object N)，并且单声道前景音频对象“单声道FGO”可包括多个单声道对象“对象1”、“对象2”、...、和“对象M” (object M)。第一下混合发生器903通过下混合立体声下混合信号“MB0左”和“MB0右”以及立体声前景音频对象“立体声FG0”来生成立体声下混合信号“左”(Left)和“右”(Right)以及残余信号。这里，第一下混合发生器903下混合立体声前景音频对象和立体声背景音频对象。第一下混合发生器903等效于图5中所示的立体声下混合发生器505。第二下混合发生器904通过下混合立体声下混合信号“左”和“右”以及单声道前景音频对象“单声道FG0”来生成最终的下混合信号“左DMX”和“右DMX”以及残余信号。第二下混合发生器904等效于图4中所示的下混合发生器401。SAOC编码器902提取SAOC比特流。MPS比特流、SAOC比特流、残余信号和最终的下混合信号“左DMX”和“右DMX”被作为比特流而传送到解码器。由于解码是编码的逆操作，所以将省略其详细描述。简言之，解码器接收MPS比特流、SAOC比特流、残余信号、和最终下混合信号“左DMX”和“右DMX”。SAOC解码器使用残余信号和最终下混合信号“左DMX”和“右DMX”来恢复前景音频对象。MPS解码器接收通过恢复前景音频对象而生成的最终下混合信号“左DMX”和“右DMX”以及MPS比特流。MPS解码器使用MPS比特流来恢复背景音频对象的多声道信号。下文中，将描述残余信号的生成。可通过等式2来描述在解码操作中生成使用下混合信号和残余信号恢复的左声道信号和右声道信号的处理。
权利要求
1.一种多对象音频解码方法，包括接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中所述N个残余信号分别对应于所述N个前景音频对象，并且N是整数；以及使用所述残余信号来从下混合信号中恢复所述前景音频对象和背景音频对象，其中，所述前景音频对象和背景音频对象是单声道音频对象，以及其中，所述恢复步骤包括如下步骤使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数；以及依次重复如下的处理直到恢复了所述N个前景音频对象和所述背景音频对象使用所述N个残余信号中与第M+1前景音频对象对应的第M+1残余信号、以及由所述恢复步骤输出的下混合信号来恢复所述N个前景音频对象中的第M+1前景音频对象，并且在恢复所述第M+1前景音频对象之后输出下混合信号。
2.一种多对象音频解码设备，包括恢复部件，用于接收比特流，该比特流包括通过对N个前景音频对象和背景音频对象进行下混合而生成的下混合信号、和根据下混合而生成的N个残余信号，其中所述N个残余信号分别对应于所述N个前景音频对象，并且N是整数，并且使用所述残余信号来从下混合信号中恢复所述前景音频对象和背景音频对象，其中，所述前景音频对象和背景音频对象是单声道音频对象，以及其中，所述恢复部件包括级联结构的N个恢复器，以及其中所述N个恢复器中的第M恢复器使用所述N个残余信号中与第M前景音频对象对应的第M残余信号、以及背景音频对象与还没有恢复的前景音频对象的下混合信号，来恢复所述N个前景音频对象中的第M前景音频对象，并且在恢复所述第M前景音频对象之后输出下混合信号，其中M是不大于N的整数。
全文摘要
提供了一种多对象音频编码和解码方法以及其设备。所述多对象编码方法包括通过下混合前景音频对象和背景音频对象来生成下混合信号和残余信号；以及生成包括下混合信号和残余信号的比特流。
文档编号G10L19/008GK102968994SQ20121043208
公开日2013年3月13日申请日期2008年10月21日优先权日2007年10月22日
发明者白承权, 徐廷一, 姜京玉, 洪镇佑, 金镇雄, 李泰辰申请人:韩国电子通信研究院

本文推荐多对象音频解码方法和设备的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656723810.html

当前位置：网站首页>专利 >正文

多对象音频解码方法和设备的制作方法

相关推荐