编码和解码音频信号的方法-品牌商务网

专利名称：编码和解码音频信号的方法
技术领域：
本发明涉及一种编码和解码音频信号的方法。
背景技术：
最近，在研究和开发数字音频信号的各种编码方案和方法方面投入了大量的精力并生产出与各种编码方案和方法相关联的产品。
另外，用多声道音频信号的空间信息将单声或立体声音频信号转换成多声道音频信号的编码方案己被研发。
然而，在将音频信号存入某些记录介质的情形下，用于存储空间信息的辅助数据区是不存在的。因此，在这种情形下，由于存储或发送单声或立体声音频信号，因此仅再现单声或立体声音频信号。因此，音质是单调的。
此外，在独立存储或发送空间信息的情形下，存在与一般单声或立体声音频信号的播放机兼容的问题。

发明内容
因此，本发明针对一种能本质上规避由现有技术的限制和缺点造成的一个或多个问题的编码和解码音频信号的装置及其方法。
本发明的目的在于提供一种编码和解码音频信号的装置及其方法，藉此可在编码音频信号中提供与一般单声或立体声音频信号的播放器的兼容。
本发明的另一目的是提供一种编码和解码音频信号的装置及其方法，藉此可存储或发送多声道音频信号的空间信息而不需要辅助数据区。
本发明的其它特征和优点将在说明书中作如下描述，并且部分内容可从说明书中得出，或通过本发明的实践获知。本发明的目的和其它优点可通过说明书及其权利要求书和附图中具体指出的结构实现和达成。
为了实现这些和其它的优点并根据本发明的目的，根据本发明的解码音频信号的方法包括步骤如下抽出嵌入于音频信号分量中的不可识别分量中的辅助信息
(side information)并使用所抽取的辅助信息解码音频信号。
为了进一步实现这些和其它的优点并根据本发明的目的，根据本发明的编码音频信号的方法包括步骤生成解码音频信号必需的辅助信息并将所生成的辅助信息嵌入到音频信号的不可识别分量中。
为了进一步实现这些和其它的优点并根据本发明的目的，根据本发明的数据结构包括音频信号和嵌入在音频信号的不可识别分量中的辅助信息。
为了进一步实现这些和其它的优点并根据本发明的目的，根据本发明的编码音频信号的装置包括评估音频信号的辅助信息的辅助信息评估单元以及将辅助信息嵌入音频信号的不可识别分量中的嵌入单元。
为了进一步实现这些和其它的优点并根据本发明的目的，根据本发明的解码音频信号的装置包括嵌入信号解码单元，用来抽出嵌入在音频信号的不可识别分量中的辅助信息位流；辅助信息解码单元，它通过解码辅助信息位流生成辅助信息；以及多声道形成单元，它使用辅助信息解码音频信号。
应当理解前面的一般说明和后面的详细说明是示例性和阐述性的，并且旨在如权利要求所述那样提供对本发明进一步的说明。

包括于此以提供对本发明的进一步理解、并被结合在本申请中且构成其一部分的附图示出本发明的实施例，并与说明书一起用来解释本发明的原理。在附图中
图l是根据本发明的、解释人们识别音频信号的空间信息的方法的图；图2是根据本发明的空间编码器的方框图3是根据本发明的、构成图2所示空间编码器的嵌入单元的详细方框图4是根据本发明的、重新配置空间信息位流的第一方法的图5是根据本发明的、重新配置空间信息位流的第二方法的图6A是根据本发明的重新构形的空间信息位流的图6B是图6A所示的空间信息位流的结构的详图7是根据本发明的空间解码器的方框图8是根据本发明的、包含在空间解码器中的嵌入信号解码器的详细方框图；图9是根据本发明的、示出一般PCM解码器再现音频信号的情形的图；图10是根据本发明的、在向下混频信号中嵌入空间信息的编码方法的流程图11是根据本发明的、对嵌入到向下混频信号中的空间信息进行解码的方法的流程图12是根据本发明的、嵌入到向下混频信号中的空间信息位流的帧尺寸的图；图13是根据本发明的、在向下混频信号中以固定尺寸嵌入的空间信息位流的
图14A是解释解决以固定尺寸嵌入的空间信息位流的时间对准问题的第一方法的图14B是解释解决以固定尺寸嵌入的空间信息位流的时间对准问题的第二方法的图15是根据本发明的、将空间信息位流附加至向下混频信号的方法的图16是根据本发明的、对向下混频信号中以变化尺寸嵌入的空间信息位流进行编码的方法的流程图17是根据本发明的、对向下混频信号中以固定尺寸嵌入的空间信息位流进行编码的方法的流程图18是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第一方法的图19是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第二方法的图20是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第三方法的图21是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第四方法的图22是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第五方法的图23是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第六方法的图24是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第七方法的图25是根据本发明的、对将要嵌入到在至少一个声道上向下混频的音频信号中的空间信息位流进行编码的方法的流程图26是根据本发明的、对嵌入到在至少一个声道上向下混频的音频信号中的
空间信息位流进行解码的方法的流程图；
具体实施例方式
下面详细参照本发明的较佳实施例，其实例示出于附图中。
首先，本发明涉及一种在音频信号中嵌入解码该音频信号所必需的辅助信息的装置及其方法。为便于说明，音频信号和辅助信息在下面的说明中分别被称为向下混频信号和空间信息，这不构成对本发明的限制。在这种情形下，音频信号包括 PCM信号。
图l是根据本发明的、解释人们识别音频信号的空间信息的方法的图。参照图1，基于人们能够三维地识别音频信号的事实，多声道音频信号的编码方案使用音频信号可通过多种参数设定而表示成三维空间信息这一事实。
表示多声道音频信号的空间信息的空间参数包括CLD (声道能级差)、ICC (声道间相干)、CTD (声道时间差)等。CLD表示两声道之间的能量差，ICC 表示两声道之间的相关性，而CTD表示两声道之间的时间差。
下面结合图1解释人们如何空间地识别音频信号以及空间参数的概念是如何形成的。
直达声波103从远端声源101到达人左耳，而另一直达声波102在头部周围衍射以到达人的右耳106。
两个声波102和103到达时间和能级彼此不同。另夕卜，CTD和CLD参数是通过使用这些差量产生的。
如果反射的声波104、 105分别到达双耳或者如果声源是分散的，则两者间不具有相关性的声波将分别到达双耳以产生ICC参数。
使用如上面解释的原则产生的空间参数，能够发送多声道音频信号作为单声或立体声信号并输出信号为多声道信号。
本发明提供一种嵌入空间信息，即单声或立体声音频信号中的空间参数，发送嵌入后的信号，并将所发送的信号再现为多声道音频信号的方法。本发明不仅限于多声道音频信号。在本发明后面的说明中，对多声道音频信号进行解释以便于说明。
图2是根据本发明的编码装置的方框图。
参照图2，根据本发明的编码装置接收多声道音频信号201。在这种情形下， "n"指示输入声道号。
多声道音频信号201通过音频信号生成单元203被转换成向下混频信号(Lo 和Ro) 205。向下混频的信号包括单声或立体声音频信号并且可以是多声道音频信号。在本发明中，在后面的说明中以立体声音频信号为例进行说明。然而，本发明不局限于立体声音频信号。
多声道音频信号的空间信息，即通过辅助信息生成单元204从多声道音频信号201生成空间参数。在本发明中，空间信息指用于发送通过向下混频多声道(例如左、右、中、左环绕、右环绕等)信号产生的向下混频信号205并将发送的向下混频信号再次向上混频为多声道音频信号的音频信号声道的信息。作为选择，向下混频信号205可用直接从外部提供的向下混频信号生成，例如美声向下混频信号 202。
产生于辅助信息生成单元204中的空间信息通过辅助信息编码单元206编码成空间信息位流以发送和存储。
空间信息位流被适当地重构以直接插入到音频信号中，即由嵌入单元207发送向下混频信号205。如此可使用"数字音频嵌入方法"。
例如，在向下混频信号205是要被存储在难以存储空间信息于其中的存储介质(如立体声紧密盘)中或由SPDIF (Sony/Philips Digital Interface)发送的源 PCM音频信号的情形下，与通过AAC等压縮编码的情形不同，用于存储空间信息的辅助数据字段不存在。
在这种情形下，如果使用"数字音频嵌入方法"，则空间信息能被嵌入到源 PCM音频信号中而没有音质失真。另外，具有嵌入于其中的空间信息的音频信号就一般解码器而言在源信号方面没有区别。即，具有嵌入于其中的空间信息的输出信号Lo'/Ro'208就一般的PCM解码器而言被认为是与输入信号Lo/Ro相同的信号。
作为"数字音频嵌入方法"存在"位替换编码方法"、"回声隐藏方法"、 "基于扩频的方法"等。
位替换编码方法是通过修正量化的音频采样的低位而插入特定信息的方法。在音频信号中，低位的修正对音频信号的质量几乎没有影响。
回声隐藏方法是将足够小以致人耳无法听到的回声插入音频信号的方法。
另外，基于扩频的方法是经由离散余弦变换、离散傅立叶变换等将音频信号转换至频域，对特定二进制信息执行扩频以形成PN (伪噪声)序列，并将其添加至转换至频域的音频信号。
在本发明中，在下面的说明中主要围绕位替换编码方法进行说明。然而，本发明不局限于位替换编码方法。
图3是根据本发明的、构成图2所示空间编码器的嵌入单元的详细方框图。参照图3，在通过位替换编码方法在向下混频信号分量的不可理解分量中嵌入
空间信息的过程中，用于嵌入空间信息的插入位长度(下文中称之为"K-值") 可根据预定的方法使用K位(k〉0)而不是仅使用低位的1位。K位可使用向下混频信号的低位但不仅限于低位。在这种情形下，预定的方法是根据音质模型寻找屏蔽阈值并根据例如屏蔽阈值分配合适的位。
如图所示，向下混频信号Lo/Ro301经由嵌入单元中的缓存器303被传送至音频信号编码单元306。
屏蔽阈值计算单元304将输入的音频信号分成预定的若干段(例如块)并随后寻找相应段的屏蔽阈值。
屏蔽阈值计算单元304根据屏蔽阈值寻找向下混频信号的插入位长度(即K 值)，该插入位长度允许修正但不引起听觉失真。即，对每个块分配能够将空间信息嵌入向下混频信号的位数位数。
在本发明的说明中，一个块表示使用一个帧中存在的一个插入位长度(即K 值)插入的数据单元。
一个帧中可能存在至少一个或多个块。如果帧长度是固定的，块长度根据块数的增加而减少。
一旦确定K值，则能够将K值纳入空间信息位流。g卩，位流重构单元305能够以允许空间信息位流中包含K值的方式重构空间信息位流。在这种情形下，在空间信息位流中可包括同步字、检错码、纠错码等。
重构空间信息位流可重新配置为可嵌入形式。重新配置的空间信息位流通过音频信号编码单元306被嵌入到向下混频信号中并随后作为具有嵌入于其中的空间信息位流的音频信号LoVRo'307被输出。在这种情形下，空间信息位流可被嵌入到向下混频信号的K位中。K值在一个块中具有一固定值。在任何情形下，在空间信息位流的重构或重新配置过程中，K值被插入到空间信息位流中并随后被传送至解码装置。另外，解码装置能使用K值抽出空间信息位流。
如前面说明中提到的那样，空间信息位流经历被嵌入在每个块的向下混频信号中的处理。所述处理由各种方法中的一种实现。
第一方法的实现方式为单纯用0代替向下混频信号的K个低位并添加重新配
置的空间信息位流数据。例如，如果K值为3，如果向下混频信号的采样数据是
11101101并且嵌入的空间信息位流数据为lll,则"11101101"的3个低位用0代替并给出11101000。另外，空间信息位流数据"111"被添加至"11101000"以给出"11101111"。
第二方法是使用抖动方法实现的。首先，重新配置的空间信息位流数据从向下混频信号的插入区减去。然后基于K值重新量化向下混频的信号。另外，重新配置的空间信息位流数据被加至重新量化的向下混频信号。例如，如果K值为3，如果向下混频信号的采样数据是11101101并且嵌入的空间信息位流数据为111，则"11101101"减去"111"以给出11100110。随后(通过圆整)重新量化3个低位以提供"11101000"。另外，将"111"加至"11101000"以给出"11101111"。
由于嵌入到向下混频信号中的空间信息位流是随机位流，因此它可能不具有白噪声特征。由于白噪声型信号添加至向下混频信号对音质特征是有利的，因此空间信息位流经历白噪声化处理以添加至向下混频的信号。另外，白噪声化处理适用于除同步字以外的所有空间信息位流。
在本发明中，"白噪声化"表示在频域的所有区域形成有相同或近乎相同的音频信号音质的随机信号的处理。
此外，在向下混频信号中嵌入空间信息位流中，通过将噪声形成方法作用于空间信息位流可最小化听觉失真。
在本发明中，"噪声形成方法"表示修改声音特征以使通过量化产生的量化噪声的能量移动至高于可听频带之上的高频带的处理或者根据从相应音频信号获得的屏蔽阈值产生时变滤波器并通过所产生的滤波器改变从量化产生的噪声的特征的处理。
图4是根据本发明的、重新配置空间信息位流的第一方法的图。参照图4，如前面说明所提到的那样，空间信息位流用K值被重新配置成可嵌入形式。在这种情形下，空间信息位流通过以各种方法重新配置而被嵌入到向下混频信号中。另外，图4示出在采样平面次序(plane order)中嵌入空间信息的方法。
第一方法以如下方法重新配置空间信息位流通过K位单元分散相应块的空间信息位流并按次序嵌入分散的空间信息位流。
如果K值为4并且如果一个块405被构造以N个采样403，则空间信息位流 401可被重新配置以按次序嵌入每个采样的4个低位中。
如前面说明所提到的那样，本发明不局限于在每个采样的4个低位中嵌入空间信息位流的情形。
此外，在每个采样的K个低位中，如图所示，空间信息位流被首先嵌入到MSB (最高有效位)或首先嵌入到LSB (最低有效位)。
在图4中，箭头404表示嵌入方向并且括号中的数字表示数据重新配置序列。位平面表示以多个位构成的特定位层。
在要被嵌入的空间信息位流的位数小于其中将要嵌入空间信息位流的插入区中的可嵌入位数的情形下，剩余位以零406填充，随机信号插入剩余位中，或者用原始向下混频信号代替剩下的位。
例如，如果构成一个块的采样数(N)为100并且K值为4，则嵌入到块中的位数(W)是W=N*K= 100*4 = 400。
如果要被嵌入的空间信息位流的位数(V)为390位(即V<W)，则用0填充IO个位，在剩下的IO个位中插入随机信号，或用原始向下混频信号代替剩下的 IO个位，剩下的IO个位用指示数据尾端的尾序列填充，或者以它们的组合填充剩下的10个位。尾序列表示指示相应块中的空间信息位流的尾部的位序列。尽管图 4示出对每个块填充剩余位的情形，然而本发明包括以上述方式对每个插入帧填充剩余位的情形。
图5是根据本发明的重新配置空间信息位流的第二方法的图。参照图5，第二方法的实现方式为重新配置在位平面502次序中的空间信息位流501。在这种情形下，空间信息位流从每个块的下混频信号的低位开始按次序被嵌入，但这并不构成对本发明的限制。
例如，如果构成块的采样数(N)为100并且如果K值为4，则构成位平面-0 502的100个最低有效位被优先填充并且构成位平面-1 502的100个位被填充。在图5中，箭头505指嵌入方向并且括号内的数字指数据重新配置序号。第二方法在随机位置抽取同步字方面尤为有利。在从重新配置和编码的信号中搜索插入的空间信息位流的同步字的过程中，仅抽取LSB以搜索同步字。
另外，第二方法可望根据要被嵌入的空间信息位流的位数(V)仅使用最少的 LSB。在这种情形下，如果要被嵌入的空间信息位流的位数(V)小于其中将要嵌入空间信息位流的插入区中的可嵌入位数(W)，则用零506填充剩下的位，在剩下位中插入随机信号，用原始向下混频信号代替剩下的位，剩下位被填充以指示数据尾端的尾位序列，或者以它们的组合填充剩下的位。尤其，使用向下混频信号的
方法是优选的。尽管图5示出对每个块填充剩余位的实例，然而本发明包括以上述方式对每个插入帧填充剩余位的情形。
图6A示出根据本发明的、将空间信息位流嵌入向下混频信号的位流结构。
参照图6A，空间信息位流607可由位流重构单元305重新配置以包括空间信息位流的同步字603和K值604。
另外，在重构过程中可在重构的空间信息位流中包括至少一个检错码606或纠错码608 (此后将说明检错码)。检错码能够确定空间信息位流607在发送或存储过程中是否失真。
检错码包括CRC (循环冗余校验)。可通过分成两级来包含检错码。具有K 值的头部601的检错码-1和空间信息位流的帧数据602的检错码-2可单独地包含在空间信息位流中。此外，其余信息605可单独地包含在空间信息位流中。另外，空间信息位流的重新配置方法的信息等被包含在其余信息605中。
图6B是图6A中示出的空间信息位流的结构的详图。图6B示出一个实施例，其中空间信息位流601的一个帧不构成对本发明限制地包括两个块。
参照图6B，图6B所示的空间信息位流包括同步字612、 K值(Kl、 K2、 K3、 K4) 613-616、其余信息617以及检错码618、 623。
空间信息位流610包括一对块。在立体声信号的情形下，块-1可分别由左、右声道的块619和620构成。另外，块-2可分别由左、右声道的块621和622构成。
尽管图6B示出立体声信号，然而本发明不局限于立体声信号。块的插入位长度(K值)被包含在头部中。
Kl 613指块-1的左声道的插入位长度。K2 614指块-1的右声道的插入位长度。 K3 615指示块-2的左声道的插入位长度。另外，K4 616指示块-2的右声道的插入
位尺寸。
另外，检错码通过分成两级被包含。例如，其中含K值的头部609的检错码 -1618以及空间信息位流的帧数据611的检错码-2被单独包含。图7是根据本发明的解码装置的方框图。
参照图7，根据本发明的解码装置接收其中嵌入空间信息位流的音频信号 Lo，/Ro' 701。
其中嵌入有空间信息位流的音频信号可以是单声、立体声和多声道信号中的一种。为便于说明，在本发明中以立体声信号为例，但这不构成对本发明的限制。嵌入信号解码单元702能够从音频信号701抽取空间信息位流。由嵌入信号解码单元702抽取的空间信息位流是编码的空间信息位流。另外，
编码的空间信息位流可以是至空间信息解码单元703的输入信号。
空间信息解码单元703对编码的空间信息位流进行解码并随后将已解码空间
信息位流输出至多声道形成单元704。
多声道形成单元704接收作为输入的向下混频信号701和通过解码获得的空
间信息并随后将接收的输入作为多声道音频信号705输出。
图8是根据本发明的构成解码装置的嵌入信号解码单元702的详细方框图。参照图8，其中嵌入空间信息的音频信号LoVRo'被输入到嵌入信号解码单元
702。另外，同步字搜索单元802从音频信号801检测同步字。在这种情形下，同
步字可从音频信号的一个声道被检测出。
在已检测到同步字后，头部解码单元803解码头部区。在这种情形下，预定长度的信息从头部区被抽取并且数据逆修正单元804能够将逆白噪声化方案应用于头部区信息，除了来自抽取的信息的同步字。
接着，可从逆白噪声化方案作用于其的头部区信息获得头部区的长度信息等。另外，数据逆修正单元804能将逆白噪声化方案应用于剩余的空间信息位流。诸如K值等的信息可通过头部解码获得。原始空间信息位流可通过使用诸如K值等信息对已重新配置的空间信息位流进行再次配置而获得。另外，可获得配置向下混频信号的帧和空间信息位流的同步位置信息，即帧配置信息806。
图9是根据本发明的、示出一般PCM解码装置再现音频信号的情形的图。参照图9，其中嵌入空间信息位流的音频信号LoVRo，作为一般PCM解码装置的输入。
一般PCM解码装置将其中嵌入空间信息位流的音频信号LoVRo，识别为普通立体声音频信号以再现声音。另外，再现的声音在空间信息嵌入前就音质而言与音频信号902没有区别。
因此，根据本发明的其中嵌入空间信息的音频信号兼容于一般PCM解码装置中的立体声信号的正常再现并且其优点在于在能够多声道解码的解码装置中提供多声道音频信号。
图10是根据本发明的、在向下混频信号中嵌入空间信息的编码方法的流程图。参照图10，音频信号从多声道信号开始被向下混频(1001、 1002)。在这种情形下，向下混频信号可以是单声、立体声和多声道信号中的一种。
接着，从多声道信号抽取空间信息(1003)。并且使用空间信息生成空间信
息位流(1004)。
空间信息位流被嵌入到向下混频信号中(1005)。
另外，包括其中嵌入空间信息位流的向下混频信号的整个位流被传送至解码装置(1006)。
特别地，本发明使用向下混频信号发现其中插入空间信息位流的插入区的插入位长度(即K值)并将空间信息位流嵌入到插入区中。
图11是根据本发明的对嵌入到向下混频信号中的空间信息进行解码的方法的流程图。
参照图11，解码装置接收包括其中嵌入空间信息位流的向下混频信号的整个位流(1101)并从位流抽取向下混频信号(1102)。
解码装置从整个位流中抽取和解码空间信息位流(1103)。
解码装置通过解码抽取空间信息(1104)并随后用抽取的空间信息解码向下混频信号(1105)。在这种情形下，向下混频信号可被解码为两个声道或多个声道。
特别地，本发明可抽取空间信息位流嵌入方法的信息以及K值的信息并可使用抽取的嵌入方法和抽取的K值对空间信息位流进行解码。
图12是根据本发明的嵌入到向下混频信号中的空间信息位流的帧长度的图。
参照图12，"帧"表示具有一个头部并允许独立解码一预定长度的单元。在本发明的描述中，"帧"表示即将描述的"插入帧"。在本发明中，"插入帧"表示在向下混频信号中嵌入一个空间信息位流的单元。
另外，插入帧的长度可对应每个帧定义或使用预定长度。
例如，使插入帧长度具有与对应于解码和应用空间信息(图12(a))的单元的空间信息位流的帧长度(下文中称之为"解码帧长度")相同的长度，以形成倍数 "S"(图12(b))，或使"S"成为"N"的倍数(图12(c))。
在N二S的情形下，如图12(a)所示，解码帧长度(S， 1201)与插入帧长度(N， 1202) —致以便于解码处理。
在N〉S的情形下，如图12(b)所示，能通过将多个解码帧(1203)并在一起以传送一个插入帧(N， 1204)的方式减少由于头部、检错码(例如CRC)等附加的位数。
在N〈S的情形下，如图12(c)所示，可通过将若干插入帧(N， 1206)并在一起而配置一个解码帧(S， 1205)。在插入帧头部中，可插入用于嵌入空间信息的插入位长度的信息、插入帧长度(N)的信息、包含在插入帧等中的多个子帧的信息等。
图13是根据本发明的、在向下混频信号中通过插入帧单元嵌入的空间信息位流的图。
首先，在图12(a)、 12(b)、 12(c)中所示的每种情形中，插入帧和解码帧被配置成另一方的倍数。
参照图13，为了传送，可配置固定长度的位流，例如以这样一种格式的数据包配置成传输流(TS) 1303。
特别地，空间信息位流1301可由预定长度的包单元赋值而不管空间信息位流的解码帧长度为何。其中插入诸如TS头部1302的信息等的数据包被传送给一解码装置。插入帧的长度可对每帧定义或使用预定长度而不是在帧内定义。
考虑到因为根据向下混频信号的特征每个块的屏蔽阈值各自不同以及在向下混频信号没有音质失真的情况下所能分配的最大位数(K_max)不同，要改变空间信息位流的数据速率这种方法是必要的。
例如，在K—max不足以完全表征相应块所需的空间信息位流的情形下，直到高至K_max的数据被传送并且剩下的数据之后通过另一块被传送。
在K—max足够的情形下，下一块的空间信息位流被事先加载。
在这种情形下，每个TS数据包具有一个独立的头部。另外，头部中包含同步字、TS数据包长度信息、包含在TS数据包中的多个子帧的信息、分配在数据包内的插入位长度的信息等。
图14A是解释解决通过插入帧单元嵌入的空间信息位流的时间对准问题的第一方法的图。
参照图14A，对每帧定义插入帧长度或使用一预定长度。
通过插入帧单元的嵌入方法可能引起嵌入的空间信息位流的插入帧起始位置和向下混频信号帧之间的时间对准问题。因此，时间对准问题的解决方案是必需的。
在图14A所示的第一方法中，空间信息的解码帧1403的头部1402 (下文中称之为"解码帧头部")被分开设置。
指示是否存在施加空间信息的音频信号的位置信息的区别信息被包含在解码帧头部1402中。
例如，在TS数据包1404和1405的情形下，指示是否存在解码帧头部1402 的区别信息1408 (例如标志)被包含在TS数据包头部1404中。
如果区别信息1408为1,即如果解码帧头部1402存在，则区别信息指示施加空间信息位流的向下混频信号的位置信息是否能从解码帧头部中被抽取出来。
接着，施加空间信息位流的向下混频信号的位置信息1409 (例如延迟信息) 根据抽取的区别信息从解码帧头部1402被抽取出来。
如果区别信息1411为0，则TS数据包的头部中可能不包括位置信息。
总地来说，空间信息位流1403较佳地出现在相应向下混频信号1401前面。因此，位置信息1409可以是延迟的采样值。
同时，为了防止由于过大的延迟造成的表征采样值所需的信息量过多增大的问题，定义表征一组采样等的采样组单元(例如粒度单元)。因此，位置信息可用采样组单元表示。
如前面描述提及，TS同步字1406、插入位长度1407、指示是否存在解码帧头部的区别信息以及其余信息140可被包含在TS头部中。
图14B是解释解决由具有对每帧定义的长度的插入帧嵌入的空间信息位流的时间对准问题的第二方法的图。
参照图14B，在例如TS数据包的情形下，第二方法以匹配解码帧的起点1413、 TS数据包的起始点和相应向下混频信号1412的起始点的方式实现。
对于匹配部分，指示三种类型的起始点对准的区别信息1420或1422 (例如标志)可被包含在TS数据包的头部1415中。
图14B示出三种起始点在向下混频信号的第n帧1412处匹配。在这种情形下，区别信息1422可具有值1。
如果三种起始点不匹配，则区别信息1420具有值O。
为了将这三种起始点匹配到一起，在前一TS数据包之后的特定部分1417被填充以零，其中插入随机信号，并由原始向下混频的音频信号代替或被填充以它们的组合形式。
如前面提到的那样，TS同步字1418、插入位长度1419和其余信息1421可被包含在TS数据包头部1415中。
图15是根据本发明的将空间信息位流附加至向下混频信号的方法的图。
参照图15，空间信息位流附加于其的帧(下文中称之为"附加振")的长度可是为每个帧定义的长度单元或不对每个帧定义的预定长度单元。
例如，如图所示，可通过将空间信息的解码帧长度1504乘以或除以N得到插入帧长度，其中N是正整数或者插入帧长度可具有固定长度单元。
如果解码帧长度1504与插入帧长度不同，能够不将空间信息位流分段而是随
机地切分空间信息位流以配合在插入帧中地形成与解码帧长度1504具有相同长度
的插入帧。
在这种情形下，空间信息位流被配置成嵌入向下混频信号或被配置成附加于向下混频信号而不是嵌入于向下混频信号。
在作为PCM信号从模拟信号转换成数字信号的信号中(下文中称之为"第一音频信号")，空间信息位流被构造以嵌入于第一音频信号中。
在作为MP3信号的进一步压縮的数字信号(下文中称之为"第二音频信号") 中，空间信息位流被配置成附加于第二音频信号。
在使用第二音频信号的情形下，例如，向下混频信号被表示为压縮格式下的位流。因此如图所示，向下混频信号位流1502以压縮格式存在并且解码帧长度1504 的空间信息被附加于向下混频信号位流1502中。
因此，空间信息位流能够以脉冲串进行传送。
头部1503可存在于解码帧中。另外，空间信息施加于其的向下混频信号的位置信息被包含在头部1503中。
同时，本发明包括一种情形，即空间信息位流被配置成压縮格式下的附加帧 (例如TS位流1506)以将附加帧以压縮的格式附加于向下混频信号位流1502。
在这种情形下，存在TS位流1506的TS头部1505。另外，附加帧头部(例如TS头部1505)中可包括附加帧同步信息1507、指示附加帧中是否存在解码帧的头部的区别信息1508、包含在附加帧中的多个子帧的信息以及其余信息1509中的至少一个。另外，指示附加帧的起始点和解码帧的起始点是否匹配的区别信息被包含在附加帧中。
如果解码帧头部存在于附加帧中，则指示是否存在施加空间信息的向下混频
信号的位置信息的区别信息从解码帧头部中被抽取出来。
接着，根据区别信息将施加空间信息的向下混频信号的位置信息抽取出。
图16是根据本发明的、对向下混频信号中嵌入的空间信息位流按多种大小的
插入帧进行编码的方法的流程图。
参照图16，音频信号从多声道音频信号被向下混频(1601、 1602)。在这种
情形下，向下混频信号可以是单声、立体声或多声道音频信号。另外，空间信息从多声道音频信号中被抽出(1601、 1603)。随后采用抽取的空间信息生成空间信息位流(1604)。所产生的空间信息能
通过具有与每个帧的解码帧长度的整数倍对应的长度的插入帧单元被嵌入到向下混频信号中。
如果解码帧长度(S)大于插入帧长度(N) (1605)，则插入帧长度(N)通过将多个N连结在一起而被配置成等于等于一个S (1607)。
如果解码帧长度(S)小于插入帧长度(N) (1606),则插入帧长度(N)通过将多个S连结在一起而被配置成等于一个N (1608)。
如果解码帧长度(S)等于插入帧长度(N)，则插入帧长度(N)被配置成等于解码帧长度(S) (1609)。
以上述方式配置的空间信息位流被嵌入到向下混频信号中(1610)。
最后，包括含嵌入于其中的空间信息位流的向下混频信号的整个位流被发送 (1611)。
此外，在本发明中，空间信息位流的插入帧长度的信息可以被插入到整个位流中。
图17是根据本发明的、对向下混频信号中通过固定长度嵌入的空间信息位流进行编码的方法的流程图。
参照图17，音频信号从多声道音频信号(1701、 1702)被向下混频。在这种情形下，向下混频信号可以是单声、立体声或多声道音频信号。
另外，从多声道音频信号抽取空间信息(1701、 1703)。
随后使用抽取的空间信息生成空间信息位流(1704)。
在空间信息位流已被赋值为具有固定长度(数据包单元)的位流、例如传输流(TS) (1705)之后，固定长度的空间信息位流被嵌入到向下混频信号中(1706)。接着，包括含嵌入于其中的空间信息位流的向下混频信号的整个位流被发送 (1707)。
此外，在本发明中，其中嵌入空间信息位流的插入区的插入位长度(即K值) 是使用向下混频信号获得的，并且空间信息位流可被嵌入到插入区中。
图18是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第一方法的图。
在用至少一个声道配置向下混频信号的情形下，空间信息被认为是与该至少一个声道共用的数据。因此，需要通过在至少一个声道上分散空间信息而嵌入空间信息的方法。
图18示出在具有至少一个声道的向下混频信号的一个声道上嵌入空间信息的
方法。
参照图18，空间信息被嵌入到向下混频信号的K位。特别地，空间信息被嵌入到仅一个声道中而不是被嵌入到另一声道中。另外，每个块或声道的K值是不同的。
如前面内容所提到的那样，与K值对应的位可对应于向下混频信号的低位，但本发明不仅限于此。在这种情形下，空间信息位流可按从LSB开始的位平面次序或按采样平面次序被插入到一个声道中。
图19是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第二方法的图。为便于解释，图19示出具有两个声道的向下混频信号，但本发明不仅限于此。
参照图19，第二方法的实现方式是依次将空间信息嵌入一个声道(例如左声道)的块-n、另一声道(例如右声道)的块-n、前一声道(左声道)的块-(n+l)等。在这种情形下，同步信息仅被嵌入到一个声道中。
尽管对于每个块，空间信息位流被嵌入到向下混频信号，然而也能在解码处理中抽取每个块或帧的空间信息位流。
由于混频信号的两个声道的信令特征彼此不同，因此能通过单独发现两声道的各屏蔽阈值而分别向两个声道分配K值。特别地，如图所示，K1和K2被分别分配给两个声道。
在这种情形下，空间信息被嵌入到从LSB开始的位平面次序中的或采样平面次序中的每个声道中。
图20是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第三方法的图。图20示出具有两个声道的向下混频信号，但本发明不仅限于此。
参照图20，第三方法通过将空间信息分散到两个声道而将其嵌入。特别地，空间信息通过由采样单元改变两个声道的相应嵌入次序而被嵌入。
由于向下混频信号的两个声道的信令特征彼此不同，因此能通过单独地发现两声道的各自的屏蔽阈值而将K值分别分配到两声道中。具体地说，如图所示， &和K2被分别分配给两个声道。
每个块的K值可彼此不同。例如，空间信息被依次放在一个声道(例如左声道)的采样一l的K!个低位中、另一声道(例如右声道)的采样一l的K2个低位中、前一声道(例如左声道)的采样一2的^个低位中以及后一声道(例如右声
道)的采样2的K2个低位中。
在附图中，括号内的数字指示填充空间信息位流的次序。尽管图20示出空间信息位流是从MSB开始填充的，然而空间信息位流也可从LSB开始填充。
图21是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第四方法的图。图21示出具有两个声道的向下混频信号，但本发明不仅限于此。
参照图21，第四方法通过将空间信息分散到至少一个声道而嵌入空间信息。具体地说，空间信息以通过来自LSB的位平面单元改变两个声道的相应嵌入次序的方式被嵌入。
由于向下混频信号的两个声道的信令特征彼此不同，因此能通过单独发现两个声道各自的掩模阈值而将K值(K,和K2)各自不同地分配给两个声道。具体地说，如图所示，K1和K2能够各自被分配给两个声道。
每个块的K值可彼此不同。例如，空间信息被逐次放置在一个声道(例如左声道)的釆样一l的最低有效l位、另一声道(例如右声道)的采样一l的最低有效1位、前一声道(例如左声道)的采样一2的最低有效1位和后一声道(例如右声道)的采样一2的最低有效1位中。在附图中，块中的数字指示填充空间信息的次序。
在音频信号被存储在没有辅助数据区的存储介质(例如立体声CD)或者通过 SPDIF等发送的情形下，L/R声道通过采样单元被交织。因而，较为有利的是如果通过第三或第四方法存储音频信号，则解码器根据所接收的次序处理音频信号。
另外，第四方法可适用于通过按位平面单元重新配置的方法存储空间信息位流的情形。
如前面内容中提到的那样，在空间信息位流通过分散在两个声道中而被嵌入的情形下，则以不同方式将K值分配至诸声道。在这种情形下，可对位流中的每个声道分别传送K值。在传送多个K值的情形下，差分编码可适用于编码K值的情形。
图22是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第五方法的图。图22示出具有两个声道的向下混频信号，但本发明不局限于此。
参照图22，第五方法通过将空间信息分散到两个声道中而嵌入空间信息。具体地说，第五方法是将相同值反复插入到两个声道的每一个中去。
在这种情形下，具有相同正负号的值被插入到至少两个声道的每一个中，或者正负号不同的值被分别插入到至少两个声道中。
例如，值1被插入到两个声道中的每一个声道或者值1和一l被轮流地插入到两个声道中。
第五方法的优点是利于通过比较至少一个声道的最低有效插入位(例如K位) 而检查传输错误。
具体地说，在将单声音频信号转录至诸如CD的立体声介质的情形下，由于
向下混频信号的声道一L(左声道)和向下混频信号的声道一R(右声道)彼此相
似，因此可通过将插入的空间信息均衡化而提高健全度等。在这种情形下，空间信
息按从LSB开始的位平面次序或按采样平面次序嵌入到每个声道中。
图23是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信
息位流的第六方法的图。
第六方法涉及在每个声道的帧包括多个块(长度B)的情形下将空间信息插入到具有至少一个声道的向下混频信号的方法。
参照图23，每个声道和块的插入位长度(即K值)可分别具有不同值或者每个声道和块可具有相同值。
插入位长度(例如K,、 K2、 K3、和K"被存储在对一个完全帧传送一次的帧头中。另外，帧头可位于LSB内。在这种情形下，头部可通过位平面单元被插入。另外，空间信息数据可通过采样单元或块单元被交替地插入。在图23中，一个帧中的块数为2。因此，块的长度(B)为N/2。在这种情形下，被插入到帧中的位数是(Kl+K2+K3+K4) *B。
图24是根据本发明的、在至少一个声道上向下混频的音频信号中嵌入空间信息位流的第七方法的图。图24示出具有两个声道的向下混频信号，但本发明不仅限于此。
参照图22，第七方法通过将空间信息分散到两个声道而嵌入空间信息。具体地说，第七方法的特征在于将空间信息插入从LSB或MSB开始在位平面次序中的两个声道中的方法以及将空间信息通过采样平面次序轮流插入两个声道的方法混合使用。
该方法按帧单元实现或按块单元实现。
如图24所示的阴影部分1一C与头部对应并被插入到位平面次序中的LSB或 MSB以便于搜索插入帧同步字。
其它部分(非阴影部分)C+l和更高位部分对应于除头部以外的部分并通过采样单元被轮流插入两个声道以便抽取空间信息数据。每个声道和块的插入位尺寸
(例如K值)可彼此具有不同或相同的值。另外，所有插入位长度被包含在头部中。
图25是根据本发明的、对将要嵌入到具有至少一个声道的向下混频信号中的空间信息进行编码的方法的流程图。
参照图25，音频信号从多声道音频信号向下混频至一个声道中(2501、 2502)。另外，从多声道音频信号抽取空间信息(2501、 2503)。随后使用抽取的空间信息生成空间信息位流(2504)。
空间信息位流被嵌入具有至少一个声道的向下混频信号(2505)。在这种情形下，可使用在至少一个声道中嵌入空间信息位流的七种方法中的一种。
接着，包括具有嵌入于其中的空间信息位流的向下混频信号的整个流被发送 (2506)。在这种情形下，本发明使用向下混频信号发现K值并将空间信息位流嵌入所述K位。
图26是根据本发明的、对嵌入到具有至少一个声道的向下混频信号中的空间信息位流进行解码的方法的流程图。
参照图26，空间解码器接收包括其中嵌入空间信息位流的向下混频信号的位流(2601)。
向下混频信号被检测自所接收的位流(2602)。
嵌入至具有至少一个声道的向下混频信号中的空间信息位流被抽取并通过接收的位流被解码(2603)。
接着，使用通过解码获得的空间信息将向下混频信号转换成多声道信号 (2604)。
本发明抽取嵌入空间信息位流的次序的区别信息并使用区别信息抽取和解码空间信息位流。
另外，本发明从空间信息位流抽取K值的信息并使用K值解码空间信息位流。工业应用
因此，本发明提供下列效果或优点。
首先，在根据本发明编码多声道音频信号时，空间信息被嵌入到向下混频信号中。因此，多声道音频信号可被存储入/再现自不具有辅助数据区的存储介质(例
如立体声CD)或不具有辅助数据区的音频格式。
其次，空间信息可通过各种帧长度或固定帧长度被嵌入到向下混频信号中。另外，空间信息能够被嵌入到具有至少一个声道的向下混频信号中。因此，本发明提高编码和解码效率。
尽管在此已结合其较佳实施例对本发明进行阐述和说明，然而本领域内技术人员可以理解可在其中作出各种修正和变化而不脱离本发明的精神和范围。因此，本发明覆盖本发明落在所附权利要求书及其等效物范围内的所有修改和变化。
权利要求
1.一种解码音频信号的方法，包括以下步骤抽取嵌入在音频信号分量的不可识别分量中的辅助信息；以及使用所抽取的辅助信息解码所述音频信号。
2. 如权利要求1所述的方法，其特征在于，还包括以下步骤从所述辅助信息的头部区抽取具有预定长度的信息。
3. 如权利要求2所述的方法，其特征在于，还包括以下步骤将逆白噪声化方案应用于所抽取的头部区信息中除同步字以外的头部区信息。
4. 如权利要求3所述的方法，其特征在于，还包括以下步骤使用已应用了逆白噪声化方案的所述头部区信息来获得所述头部区的长度信息。
5. 如权利要求1所述的方法，其特征在于，还包括以下步骤抽取所嵌入的辅助信息的插入位长度。
6. 如权利要求5所述的方法，其特征在于，所述插入位长度在其中嵌入了所述辅助信息的块内具有一固定值。
7. 如权利要求1所述的方法，其特征在于，还包括以下步骤将逆白噪声化方案应用于所述辅助信息。
8. 如权利要求l所述的方法，其特征在于，还包括以下步骤抽取嵌入在所述音频信号中的至少一个检错码或至少一个纠错码；使用所抽取的至少一个检错码或所抽取的至少一个纠错码来确定所述辅助信息是否存在损坏。
9. 如权利要求1所述的方法，其特征在于，所述音频信号包括向下混频信号。
10. 如权利要求l所述的方法，其特征在于，所述辅助信息包括所述音频信号的空间信息。
11. 一种编码音频信号的方法，包括以下步骤(a) 生成解码所述音频信号所需的辅助信息；以及(b) 将所生成的辅助信息嵌入到所述音频信号的不可识别分量中。
12. 如权利要求ll所述的方法，其特征在于，所述步骤(b)包括以下步骤将所述辅助信息按采样平面次序或位平面次序插入到插入区中，其中所述辅助信息被嵌入在所述插入区中。
13. 如权利要求12所述的方法，其特征在于，所述步骤(b)还包括以下步骤从MSB (最高有效位)或LSB (最低有效位)起在所述插入区中插入辅助信息。
14. 如权利要求11所述的方法，其特征在于，对每个嵌入有所述辅助信息的块使用所述音频信号的屏蔽阈值，来获得用于嵌入所述辅助信息的插入位长度。
15. 如权利要求ll所述的方法，其特征在于，所述步骤(b)还包括以下步骤在用O替换了其中嵌入辅助信息的插入区之后，嵌入所述辅助信息。
16. 如权利要求11所述的方法，其特征在于，所述步骤(b)还包括以下步骤在从其中嵌入辅助信息的音频信号减去所述辅助信息，并基于插入位长度重新量化所述音频信号之后，嵌入所述辅助信息。
17. 如权利要求16所述的方法，其特征在于，所述步骤(b)还包括白噪声化所述辅助信息的步骤。
18. 如权利要求17所述的方法，其特征在于，所述白噪声化步骤是在所述辅助信息的同步字之外的区域中进行的。
19. 如权利要求ll所述的方法，其特征在于，所述步骤(b)还包括以下步骤如果要被嵌入的辅助信息的位数小于其中嵌入空间信息的插入区中的可嵌入位数，则用零、随机信号、原始音频信号、尾序列或其组合来填充剩余位。
20. 如权利要求11所述的方法，其特征在于，还包括以下步骤将噪声整形方案应用于所述辅助信息。
21. —种数据结构，包括音频信号；以及嵌入到所述音频信号分量的不可识别分量中的辅助信息。
22. —种用于编码音频信号的装置，包括辅助信息抽取单元，用于抽取所述音频信号的辅助信息；以及嵌入单元，用于将所述辅助信息嵌入到音频信号分量的不可识别分量中。
23. —种用于解码音频信号的装置，包括嵌入信号解码单元，用于将嵌入于音频信号分量的不可识别分量中的辅助信息位流抽出；辅助信息解码单元，用于通过解码所述辅助信息位流来生成辅助信息；以及多声道形成单元，用于使用所述辅助信息来解码所述音频信号。
全文摘要
公开一种编码和解码音频信号的装置及其方法，藉此在编码音频信号时提供与普通单声或立体声音频信号播放器的兼容性并且能够存储或传送多声道音频信号的空间信息而不需要有辅助数据区。本发明包括抽取嵌入于音频信号分量的不可识别分量中的辅助信息并使用抽取的辅助信息解码音频信号。
文档编号G10L19/00GK101180674SQ200680018078
公开日2008年5月14日申请日期2006年5月26日优先权日2005年5月26日
发明者吴贤午, 房熙锡, 林宰显, 郑亮源, 金东秀申请人:Lg电子株式会社

本文推荐编码和解码音频信号的方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656307172.html

当前位置：网站首页>专利 >正文

编码和解码音频信号的方法

相关推荐