专利名称:用于从压缩多媒体内容中生成散列的方法
技术领域:
本发明涉及适合于生成表示多媒体信号的散列信号的方法和设备。
背景技术:
散列函数通常使用在密码术领域中,其中这些散列函数通常用于概括和验证大量数据。例如,由MIT(麻省理工学院)的R L Rivest教授开发的MD5算法具有作为输入的任意长度的消息,并且产生作为输出的128-比特“指纹”、“签名”或者输入的“散列”。人们推测两个不同消息具有相同散列在统计上是非常不可能的。所以,这种密码术散列算法是验证数据完整性的有用途径。
在许多应用中,包括音频和/或视频内容的多媒体信号的标识是人们所希望的。然而,可以以各种文件格式频繁发送多媒体信号。例如,存在用于音频文件的若干不同文件格式,如WAV、MP3和Windows媒体,以及存在各种压缩或者质量等级。诸如MD5的密码术散列基于二进制数据格式,并因此将为相同多媒体内容的不同文件格式提供不同散列值。这使得密码术散列不适合概括多媒体数据,为此需要相同内容的不同质量版本产生相同散列或者至少产生相似散列。
对于数据处理是相对恒定的多媒体内容的散列(只要处理保持可接受的内容质量)被称作稳健(robust)概括、稳健签名、稳健指纹、感知散列或者稳健散列。稳健散列捕获利用人类听觉系统(HAS)和/或人类视觉系统(HVS)所感知的音频-视频内容的感知基本部分。
稳健散列的一个定义是与多媒体内容的每个基本时间单位即相对于利用HAS/HVS所感知的内容相似性是连续的半独特的比特序列相关联的函数。换言之,如果HAS/HVS把两段音频、视频或者图像识别为非常相似,则相关联的散列也应当是非常相似的。特别地,原始内容和压缩内容的散列应当是相似的。另一方面,如果两个信号确实代表不同的内容,则稳健散列应当能够辨别这两个信号(半独特)。所以,稳健散列允许内容标识,这是许多应用的基础。
由Jaap Haitsma、Ton Kalker和Job Oostveen在Content BasedMultimedia Indexing 2001,Brescia,Italy,September 2001公开的“Robust Audio Hashing for Content Identification(内容标识的稳健音频散列)”一文公开了一种稳健音频散列技术,并且还公开了采用以下技术的技术方案,该技术允许通过散列内容以及将其与稳健散列值的数据库进行比较来识别未知音频内容。
该提议的技术计算用于音频信号的基本窗口时间间隔的稳健散列值。音频信号因而被划分成帧,并且随后通过傅里叶变换计算每个时间帧的频谱表示。该技术的目的是提供模仿HAS行为的稳健散列函数,即提供模仿收听者将感知的音频信号内容的散列值。
在这种散列技术中,如图1所示,由比特流解码器110接收包括编码音频信号的比特流。比特流解码器对比特流进行充分解码,以产生音频信号。该音频信号随后被传递到成帧单元120。该成帧单元把音频信号划分成一系列基本窗口时间间隔。这些时间间隔最好重叠,以使得从后续帧得到的散列值非常相似。
每个窗口时间间隔信号随后被传送到傅里叶变换单元130,该单元130为每个时间窗口计算傅里叶变换。绝对值计算单元140随后用来计算傅里叶变换的绝对值。执行该计算是因为人类听觉系统(HAS)对相位比较敏感,并且仅仅保留频谱的绝对值,这是因为它对应于人耳将听到的音调。
为了允许对于频谱内预定系列频带中的每一个计算单独的散列值,选择器151、152、……158、159用来选择对应于预期频带的傅里叶系数。用于每个频带的傅里叶系数随后被传送到相应的能量计算级161、162、……168、169。每个能量计算级随后计算每个频带的能量,并且然后把已计算的能量传送到比特导出电路170,该电路170计算散列比特(H(n,x),其中x对应于相应的频带,而n对应于相关的时间帧间隔)并将其发送到输出180。在最简单情况下,这些比特可以是指示能量是否大于预定阈值的符号。通过对应于单个时间帧整理这些比特,为每个时间帧计算散列字。
类似地,由J.C.Oostveen、A.A.C.Kalker,J.A.Haitsma在SPIE,数字图像处理XXIV的应用,2001年7月31日至8月3日,圣地亚哥,USA的文章“Visual Hashing of Digital VideoApplication andTechniques(数字电视的可视散列应用和技术)”公开了用于从活动图像序列中提取基本感知特征的技术,并且通过有效地将短分段的散列值与预先计算的散列值的大型数据库相匹配来识别任何足够长的未知视频分段的技术。
由于该技术涉及可视散列,因此感知特征涉及将利用HVS观看的那些特征,即,其目的是对于HVS认为是相同的内容产生相同(或者相似)的散列信号。所建议的算法看来考虑了从亮度分量或者可选择地从色度分量提取的特征,这些分量是在像素块上计算出的。
在上述的音频和视频稳健散列方案中,从被划分成帧的比特流中解码相应的信息(音频或视频)信号,然后从这些帧中提取感知特征,并用于计算散列信号。
发明内容
本发明的一般目的是提供一种稳健散列技术。
本发明的另一个目的是提供用于确定比特流内编码的多媒体信号的散列的方法和安排。
在第一方面中,本发明提供了一种生成表示多媒体信号的散列信号的方法,该方法包括以下步骤接收包括压缩的多媒体信号的比特流;从比特流中选择地读取预定参数;以及从所述参数中导出散列函数。
在第二方面中,本发明提供了表示多媒体信号的一种散列信号,该散列信号是通过从包括压缩版本的多媒体信号的比特流中选择地读取涉及多媒体信号的感知特性的预定参数而生成的。
在另一方面中,本发明提供了一种被安排来生成表示多媒体信号的散列信号的设备,该设备包括接收机,被安排来接收包括压缩多媒体信号的比特流;解码器,被安排来从比特流中选择地读取预定参数;处理单元,被安排来从所述参数中导出散列函数。
在从属权利要求中定义了本发明的其它特征。
为了更好地理解本发明,并且为了更好地显示本发明的实施例如何可以实现,现在参考附图通过实例对本发明进行详细说明,其中图1是用于从比特流内编码的音频信号中提取散列信号的已知安排的示意图;和图2是根据本发明的一个实施例用于从编码的多媒体信号中提取散列信号的安排的示意图。
具体实施例方式
现有技术的稳健散列方案要求从已编码信号(即比特流)中解码相应信息信号,对已解码的信息信号进行抽样,以提取相关的感知信息。该感知信息随后被用来确定散列函数。
本发明人已经认识到,传输信号的完全解码是不需要的。相反,在许多实例中,可以从比特流表示中直接确定散列函数。
通常使用源编码对多媒体信号进行编码,以形成信息源的有效描述。然后,可以在比特流中有效地发送源编码的数据。
为了使多媒体信号在解码时可以被识别,编码信号必须包含涉及多媒体信号的感知特征的信息。例如,变换、子带和参数编码的音频信号都包含音频信号的频谱表示。
本发明人还认识到,这样的感知信息可以从包含编码多媒体信号的比特流中进行提取,并且直接用来计算散列函数,而不对整个比特流信号进行解码。这改善了正常的散列函数计算,而正常的散列函数计算需要对已编码比特流的解码进行相对复杂的运算,并且还需要对已解码多媒体信号的频谱表示(或其它感知特性)进行后续推导。
接着,对于预定频带组中的每个频带,计算特定(不一定标量)的特征特性。在该描述中,假定一个频带拥有表示已编码信号的频率范围的一个或多个频谱值。这种特性的实例是功率谱密度的能量、音调和标准偏差。一般来说,所选的特性可以是感知系数的任何预定函数。在实践上,业已证实能量差的符号(同时沿着时间和频率轴)是对于多种处理非常稳健的特性。
随后把稳健特性转换成比特,每个比特指示相应帧的频带内的能量改变,一帧的所有比特表示该帧的散列。
图2示出了适于从并入已编码的多媒体信号的比特流中直接计算散列函数的设备。现在将结合一个变换编码的音频信号说明该设备的操作。
变换编码器通常被称作频谱编码器,因为根据频谱分解来描述信号(在所选的基集中)。计算谱项,以重叠(通常具有50%重叠)连续的输入数据块。因而,变换编码器的输出可以被视为一组时间序列,每个频谱项一个序列。
因而,在进行变换编码时,将过滤输入音频信号,从而得到大量的频谱系数。通常,这些系数在被表示为比例因子带的频带中被分组,这类似于非均匀频率划分,比如ERB格栅(等效矩形带宽格栅)。对于每个比例因子带,在定标频谱系数的比特流中编码一个比例因子。根据感知模型来量化所得到的频谱系数,并且随后将其编码成比特流表示。
图2显示了被安排成接收这样的比特流的设备200的示意图。在选择比特流解码器210的输入上接收比特流。解码器210被安排成从涉及多媒体信号的预定参数的比特流中选择地提取比特。这些预定参数随后用于确定散列函数。在变换编码音频信号的优选实施例中,从比特流中提取每个比例因子带的比例因子(和可选择地提取频谱值)。随后处理这些比例因子和频谱值,以获得能量。原则上,比例因子仅仅提供能量的估算。如果还考虑频谱值,则能够使估算更加精确。在最简单的情况下,这些值然后用来计算散列函数。
然而,在优选实施例中,这些值随后被传送给计算单元260、261、……2631、2632。每个计算单元对应于独立的ERB频带,并且用来从每个比例因子带的已解码比例因子(以及选择地从频谱值)中导出每个ERB频带的能量估算。在优选实施例中,ERB频带具有对数间隔,第一频带开始于300Hz,并且每个后续频带具有高达3000Hz最大频率的一个乐音(musical tone)的带宽(对于HAS的最相关的频率范围)。
为了导出多媒体信号的每帧的二进制散列字,随后把能量变换成比特。通过计算可能不同的帧的能量的任意函数来分配这些比特,并且然后将其与一个阈值进行比较。该阈值本身还可以是能量值的另一个函数的结果。
在该优选实施例中,比特导出电路270把频带的能级转换成二进制散列字。
如果帧n的频带m的能量用EB(n,m)来表示,并且帧n的散列H的第m比特用H(n,m)来表示,则散列串的比特可以被正式定义为
H(n,m)=1ifEB(n,m)-EB(n,m+1)-(EB(n-1,m)-EB(n-1,m+1))>00ifEB(n,m)-EB(n,m+1)-(EB(n-1,m)-EB(n-1,m+1))≤0---(1)]]>为了计算这些值,对每个频带,比特导出电路270包括第一减法器271、帧延迟器272、第二减法器273和比较器274。在优选实施例中,包括33个能级,或者因而将音频帧的频谱的33个能级转换成32比特散列字,即H(n,m)。对于音频信号的每个时间帧计算独立的散列字,借助于散列字的级联形成整个散列函数。
这样计算的连续帧的散列字可以存储在缓存器或者其它的存储器中,并且被计算机用来进行匹配处理,即通过将其与以相同方式计算的散列值的数据库进行比较,匹配比特流中编码的多媒体信号。
虽然已经参考特定类型的编码方案说明了上述实施例,但是本领域技术人员将会明白上述实施例也可以适用于存储感知信息的任何编码技术方案。
对于现存的每种编码技术方案而言,还存在“语法描述”和“解码器描述”。这样的描述可以是标准化的或者是专有的。语法描述包含比特流的结构,以及如何向比特流写入或者从比特流中提取(读取)已编码的参数。解码器描述说明了如何对这些提取的参数进行解码以及随后生成多媒体输出。因而,对于任何给定的特定编码方案,利用语法描述,有可能定位涉及希望的感知信息的希望的特定参数。因而,可以提取这些参数而无需充分分析或者解码该比特流。
例如,在子带编码器中,编码处理类似于变换编码器中使用的编码处理。对音频输出信号进行滤波,从而得到有限数量的子信号。每个子信号表示固定大小的频带中的信号值。然后,根据感知模型来量化如此获得的子信号,并且随后将其编码成比特流表示。在比特流中对这些信号值以及定标这些信号值的比例因子进行编码。
因而,为了从子带编码描述中计算出散列函数,从比特流中提取每个子带的比例因子。可选择地,如果需要更精确的能量估算,则从比特流中提取信号值,即实际的(定标的)频谱值。接着将提取的参数转换成能量。然后将对应于“临界”频带的子带内的能量分组。临界频带是那些已经被确定为包含形成稳健散列所需要的希望感知信息的预定频带。
在临界带未精确地匹配子带边界的情况下,通过使用例如线性内插(或内插的任何其它希望顺序)得到子带能量的小数部分,可以进行临界频带内的能量估算。
因为在相对于图2所述的方法中,为了计算散列函数,可以将该数据传送给导出电路。类似于转换编码,这些比例因子还可以用来进一步减少复杂度。
作为选择,由Philips(菲利浦)开发了参数编码方案,其中利用瞬变、噪声和正弦表示音频信号。该技术方案被公开在Preprint5554,112thAES Convention Munich,10-13 May 2002由E.Schui jers、B.den Brinker和W.Oomen撰写的文章“Parametriccoding for High Quality Audio(高质量音频的参数编码)”中。
在该技术中,利用频谱分析方法,估算正弦分量。这些预定时间间隔上的正弦分量表示存在于音频信号中的频率。在优选技术方案中,大约每8毫秒更新这些正弦参数。对于编码效率,在类似于对数格栅的ERB格栅上量化这些正弦频率。接着在频率方向以及时间方向上对量化后获得的表示级进行差分编码,并将其编码成比特流表示。
为了从参数表示中计算散列函数,提取被包含在参数比特流中的频率,并且在用于散列操作的频率范围内对所提取的频率进行分组。对于每个时间帧和一组(即频带)内的频率,检索振幅(和选择地检索相位信息),以计算频率组内的所有分量的能量。该数据随后可以被用来计算散列函数。
对于低频,相位信息被选择地用作对正弦波中所包含的实际功率有影响的相位信息。根据正弦波的起始相位,功率可能波动。因此,特别地如果多媒体信号包含许多低频分量,则包含相位信息可能是合适的。
在参数表示中,由于在正弦分量中包含音频信号的大部分能量,所以仅仅考虑正弦参数来计算散列函数是合理的。然而,如果需要的话,也可以利用瞬变和噪声分量中所包含的能量的影响。
每个瞬变对象仅仅存在于单个时间帧中。以与正弦对象相同的方式,瞬变对象内所包含的频率在频带内被成组,对应的振幅和相位信息有助于频带内的总能量。当瞬变对象内的正弦波用包络函数进行加权时,当确定每个分量的能量时,也需要考虑该包络函数。
噪声分量中所含的能量的内含物比较复杂,并且将明显增加计算复杂性。然而,通过集中于噪声信号的主正弦分量,可以获得足够可靠的特征信号,因而允许从这些正弦分量中构成散列字。
本领域熟练技术人员将会明白,各种未具体描述的实施将被理解为落入本发明的范围内。例如,虽然仅仅描述了散列生成设备的功能,但是本领域普通技术人员将会明白,该设备可以被实施为数字电路、模拟电路、计算机程序或其组合。
同样地,虽然已经参考特定类型的编码技术方案描述了上述实施例,但是应当明白,本发明可以适用于其它类型的编码技术方案,特别是在传送多媒体信号时包含涉及感知有效信息的系数的编码技术方案。
许多编码技术方案将多媒体信号同时划分成预定时间帧和用于每个时间帧的感知特征的块。例如,对于每个图像,视频信号可以被划分为像素的正方形块。同样地,音频信号可以被划分为多个预定频带。如果希望从不匹配编码方案中使用的时间帧和/或感知特征块中计算出散列函数,将认识到,可以对涉及从比特流中提取的感知特征的分量执行进一步处理,以便根据在编码方案中使用的时间帧或者感知块来估算落入希望时间帧和/或感知块内的多媒体信号的特性。
读者可以将注意力放到与本申请的说明书同时提交或者在前提交的并且利用该说明书对于公众查阅是开放的所有论文和文献,并且所有这样的论文和文献的内容作为参考在此引用。
本说明书(包括任何权利要求、摘要和附图)中公开的所有特征和/或所公开的任何方法或处理的所有步骤可以在任意组合中进行组合,但不包括其中至少某些这样的特征和/或步骤是互斥的组合。
该说明书(包括任何权利要求、摘要和附图)所公开的每个特征可以利用用于相同、等同或者类似目的的可选特征来替代,除非另有说明。因此,除非另有说明,所公开的每个特征仅仅是等同物或者类似特征的一般系列的一个实例。
本发明并不限于上述实施例的细节。本发明扩展到该说明书(包括任何权利要求、摘要和附图)所公开的特征的任何新的特征或者任何新的组合,或者扩展到所公开的任何方法或者处理的步骤的任何新的步骤或者任何新的组合。
应当理解,在本说明书中,单词“包括”并不排除其它元件或者步骤的存在,“一”或者“一个”并不排除多个,并且单个处理器或者其它单元可以完成权利要求书中所述的若干装置的功能。
权利要求
1.生成表示多媒体信号的散列信号的一种方法,该方法包括以下步骤接收包括压缩多媒体信号的比特流;从比特流中选择地读取预定参数;和从所述参数中导出散列函数。
2.根据权利要求1所述的方法,其中所述预定参数涉及多媒体信号的感知信息。
3.根据权利要求1所述的方法,其中多媒体信号至少包括音频信号、视频信号和图象信号之一。
4.根据权利要求1所述的方法,其中至少使用变换编码、子带编码和参数编码之一来压缩多媒体信号。
5.根据权利要求1所述的方法,其中所述预定参数至少涉及以下之一频带的能量;频带的振幅;频带的音调;视频信号的区域的亮度;和视频信号的区域的色度。
6.根据权利要求1所述的方法,其中该方法还包括以下步骤分析已接收的比特流,以确定用于压缩多媒体信号的解码方案。
7.根据权利要求6所述的方法,其中所述分析步骤包括将比特流的特性与包含许多编码方案的特性的数据库进行比较。
8.根据权利要求1所述的方法,其中选择地读取预定参数的所述步骤包括通过使用语法描述在比特流内定位所述预定参数;读取被定位的预定参数;和使用解码器描述来解码预定参数。
9.根据权利要求1所述的方法,其中所述预定参数涉及第一组频带,并且其中导出散列函数的步骤包括从预定参数中导出存在于第二组频带中的频谱信息的值的估算,然后从估算的值中计算散列函数。
10.根据权利要求1所述的方法,其中使用参数编码方案来压缩所述多媒体信号,以及其中预定参数至少涉及在参数方案内使用的正弦分量、噪声分量和瞬变分量之一。
11.一种计算机程序,被安排成执行根据权利要求1所述的方法。
12.一种记录载体,包括根据权利要求11所述的计算机程序。
13.一种可用于下载根据权利要求11所述的计算机程序的方法。
14.一种表示多媒体信号的散列信号,通过从包括压缩版本的多媒体信号的比特流中选择地读取涉及多媒体信号的感知特性的预定参数来生成该散列信号。
15.用于生成表示多媒体信号的散列信号的一种设备,该设备包括接收机,被安排为接收包括压缩多媒体信号的比特流;解码器(210),被安排为从比特流中选择地读取预定参数;处理单元(270),被安排为从所述参数中导出散列函数。
全文摘要
描述了用于生成表示多媒体信号的散列信号的方法和设备。该方法包括接收包括压缩多媒体信号的比特流、从比特流中选择地读取预定参数以及从这些参数中导出散列函数。
文档编号G10L25/48GK1663281SQ03814669
公开日2005年8月31日 申请日期2003年6月12日 优先权日2002年6月24日
发明者A·W·J·奥门, A·A·C·M·卡尔克, J·米德詹斯, J·A·海特斯马 申请人:皇家飞利浦电子股份有限公司
用于从压缩多媒体内容中生成散列的方法
相关推荐
专利名称:表带放大镜的制作方法技术领域:本实用新型属于生活而日用品技术领域,涉及一种放大镜的改进。目前,在日常应用的小倍数放大镜虽然种类和款式很多,但可携带的放大镜一般都只能放在衣服的口袋内或手拎包内,这种携带方式就是容易发生打碎或丢失的现
一种led洗墙灯的制作方法【专利摘要】一种LED洗墙灯,涉及LED照明领域。本发明包括底架、与底架连接的电源腔体以及固定在电源腔体上方的光源腔体。底架与电源腔体通过旋转轴连接固定。旋转轴的外表面设有刻度盘。所述光源腔体的上表面设有玻璃灯罩。
一种语音识别升降座椅的制作方法【专利摘要】本实用新型涉及一种语音识别升降座椅,包括座位椅本体,其特征在于,还包括设于座位椅本体上的语音输入装置、预处理电路、语音识别电路、数据转换电路和执行机构;所述语音输入装置、预处理电路、语音识别电路、数
专利名称:一种气水分离消音器的制作方法技术领域:本实用新型涉及变压吸附制氧系统,具体涉及变压吸附制氧系统中的一种气水分离消音器。背景技术:近几年来,变压吸附制氧系统以其制氧纯度较高等优点在冶金、化工、医疗以及环保等行业中广泛的应用。真空变压
专利名称:气体放电管及其驱动方法技术领域:本发明涉及一种用作液晶显示器(在下文中称为“LCD”)的背光或诸如此类的气体放电管,以及该种气体放电管的驱动方法,更具体地说,涉及背光结构及其驱动方法。相关技术说明如图10所示,传统的背光LCD包括
提高口语评测性能的方法及系统的制作方法【专利摘要】本发明公开了一种提高口语评测性能的方法及系统,该方法包括:接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据;根据所述朗读题语音数据对各朗读题进行评分;从评分结果