当前位置:网站首页>专利 >正文

一种基于长时结构声纹的多层滤波音频检索方法和装置的制作方法

专利名称:一种基于长时结构声纹的多层滤波音频检索方法和装置的制作方法
技术领域
本发明属于计算机技术应用领域,具体的涉及一种查询音频数据库的方法和装 置,尤其涉及一种基于内容的样例音频检索方法,即通过录制的原始音频片断搜索到整个 音频的完整信息。
背景技术
随着现代信息技术,特别是多媒体技术和网络技术的迅速发展,大量的多媒体信 息都可以从网上获得。而各种音频文件更成为各搜索引擎(例如百度、Google等)中最常 被使用者查找的对象。传统的音频信息检索技术主要是基于文本的,然而传统的基于文本 的音频信息检索无法满足人们对音频检索的需求。也就是说,如果用户听到一段很熟悉的 音频,想通过录制几秒钟的片断来查询整段音频的信息,目前在技术上仍然存在较大的实 现难度。目前互联网上的音频搜索服务从本质上来说只是一种文本搜索,是通过匹配音频 相关文字内容、关键字词而返回结果。要想对录制的音频片断进行搜索,就涉及到基于内容 的样例音频检索。而现有的音频检索技术尚不能满足人们的需求。近年来,基于内容的音 频检索技术成为了一个研究热点,众多领域的科学家开始探讨这一新的技术挑战。基于内容的音频检索,通过录制几秒钟的片断来实现查询是最基本的实现方式之 一,即样例检索。它指的是用户输入音频片断或者通过麦克风录制一段音频,这些片断中可 能含有各种噪声,系统能正确返回音频片断的相关信息。基于样例的音频检索,通常可以分为两个子问题1)把询问的音频片断转为具有 代表性的特征序列组成声纹(声纹是指能代表一段音频并能构建索引的特征序列)2)在库 中搜索与特征序列最相似的候选片断。比较经典的音频检索方法主要有两类基于局部特 征点或者全局结构信息的音频检索方法。基于局部特征点的方法,一般是从频谱中寻找一 些典型的特征点,例如英国的Shazam公司,提取频谱峰值信息,然后将特征点组成特征点 对,把特征点对作为该片段的声纹;搜索时候建立哈希索引实现快速搜索。此方法的特点是 不需要保留频谱的全局信息,特征具有代表性,抗造性能强,缺点是信息量少,声纹构建索 引时碰撞比较严重。基于全局结构信息的方法,是保留整个频谱的全局信息,信息量大,但 是抗噪性能不强,信息代表性差,例如荷兰的Philips研究所提出的方法,把300-2000HZ之 间的频谱分成33个非重叠的子频带,最终子频带由0或者1来表示,这些0、1序列组成声 纹;搜索时候也使用声纹构建哈希表来加快搜索速度。这些音频检索方法在小规模应用中可以得到比较好的效果,但是当音频库为海量 时,会有很多问题出现,比如索引碰撞严重,搜索时间过长。由于提取的特征信息量不够,导 致建立索引时碰撞严重,搜索时间比较长,如果用特征点对组成声纹来增加声纹信息量,减 少索引碰撞,又会降低声纹稳定性,检索精度下降,也就是说声纹碰撞率和稳定性之间是一 个矛盾,低碰撞率必然会带来声纹的稳定性下降。

发明内容
有鉴于此,本发明的目的是提供一种基于长时结构声纹和多层滤波的音频检索方 法,有效解决声纹稳定性与碰撞率之间相互矛盾的问题,对于海量音频数据库,本发明可以 有效提高音频检索的检索正确率、检索效率以及抗噪声性能。为了实现上述发明目的,本发明采用下述技术方案一种基于长时结构声纹的多层滤波音频检索方法,其特征在于(1)提取用户输入音频片断的稳定特征,例如频谱峰值特征;(2)根据特征点生成具有长时结构信息的声纹(英文名为audio fingerprint,是 指能代表一段音频并能构建索引的特征序列);(3)经过第一层滤波器,以所有声纹为查找项,查找哈希索引,得到候选片断中 间结果,并使用原始频谱特征点计算中间结果相似度,然后根据相似度对中间结果进行排 序;(4)对第一层滤波器排名第一的候选结果进行置信度打分,如果超过预定门限值, 则输出结果,否则转入第5步;(5)扩展查询声纹数目,进入第二层滤波器,根据索引表,查找更多中间结果,并计 算中间结果相似度,然后对第一二层滤波器结果根据相似度进行排序;(6)选择相似度最高的音频片断信息返回用户。其中,被查询的音频数据库通过如下步骤获得(1)提取音频数据库稳定特征,例如频谱峰值特征;(2)生成具有长时结构信息的声纹;(3)使用所有数据库声纹构建哈希索引,键为声纹,值为声纹所在音频文件名以及 声纹所在音频文件中的位置。本发明还公开了一种基于长时结构声纹和多层滤波的音频检索装置,包括音频 数据库单元101,即构成查询库的音频数据库。声纹构建单元102,即提取特征点,用具有长时信息的多个特征点构建声纹;构建索引单元103,对于音频库中音频文件,用所有的声纹构建一个哈希表索引, 声纹为键,声纹所在音频文件名字以及所在音频文件位置是值。输入单元104,输入为复杂环境中录制的原始音频片断;滤波器单元105和108,包括三步,分别为根据哈希索引表查找候选中间结果,计 算中间结果相似度,根据相似度对结果排序。单元105和单元108的不同之处在于输入的 查询声纹不同,单元105的输入为查询片断原始声纹,单元108的输入为经过查询扩展的具 有容错能力的声纹。置信度计算单元106,对第一层滤波器输出结果进行置信度打分,评价可信度;查询扩展单元107,使用一种基于容错的查询扩展对询问声纹进行扩展;检索结果输出单元109,输出检索结果。本发明所提供的基于长时结构声纹的多层滤波音频检索方法,构建索引时使用的 基于长时结构信息的声纹信息量大,索引碰撞率低,计算相似度时采用的是原始峰值特征, 稳定性强,并且使用具有容错机制的查询声纹扩展实现二次滤波,提高了声纹的稳定性,显 著的提高了查询的速度和精度。用本发明的方法,对于10000首歌曲的音频数据库,当询问
5片断为5秒且信噪比为Odb时,能达到99. 7%的第一位命中率。


为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现 有技术描述中所需要使用的附图作简单地介绍。图1为本发明实施例的装置框图。图2为本方法的基于长时结构信息的声纹构建图。图3为基于索引的滤波算法示意图。图4为基于长时结构声纹的多层滤波音频检索方法流程图。
具体实施例方式下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完 整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于 本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他 实施例,都属于本发明保护的范围。如图1所示,为本发明实施例的装置框图,包括对于数据库中的音频数据(单元101),提取特征,用具有长时结构信息的多个特 征点构建声纹(单元102),然后使用声纹构建数据库索引(单元103)。检索阶段,对于输入的询问片断(单元104),提取特征构建具有长时结构信息的 声纹(单元102),经过第一层滤波器(单元105),即根据哈希索引表查找候选中间结果,计 算中间结果相似度,根据相似度对结果排序,然后对初始结果进行置信度打分(单元106), 判决是否经过基于容错的查询扩展(单元107)进入第二层滤波器(单元108),最终输出结 果给用户(单元109)。下面,结合图2-图4,说明本发明实施例所提供的基于长时结构声纹的多层滤波 音频检索方法在基于内容的音频检索中,都是先对音频数据经过处理,提取音频特征。这种音频 特征要具有代表性,能唯一代表这段音频,并且抗噪性能要强,当有环境噪声时,特征仍然 保持不变或者较小的变化。目前最常见的音频数据都是波形文件,格式一般是wav,其他格式的音频文件很容 易通过软件转化为wav文件。因此,本实施例中,音频库和用户录制片断均采用波形文件 wav格式。建立数据库索引和查询过程都要用到声纹,方法是一样的,下面先说明声纹的生 成过程。声纹生成包括特征提取和声纹构建两个部分。特征提取算法包括以下几个过程 首先,音频数据被分割成有重叠的帧,经过加窗处理和时频变换,最后从这些帧中提取频谱 峰值点。声纹构建时,采用一种叫做锚点扩展的方法来构建声纹,即用多个特征点来构建 声纹(图2),增加声纹的长时结构信息,构建公式如下hash (fi fi+1, · · ·,fi+rt) = fi+f^^n+. · · + ^—^ιΓ1 [1]
上述为r个特征点构建声纹的公式,其中,f为音频特征,η为特征点取值范围上 限。所谓锚点指的是用来构建声纹的一个主特征点,如公式1所示,即为锚点。实 际中可以根据不用的情况来调整特征点之间的距离以及每个锚点组成声纹的数目。假设特 征点满足均勻分布,最大频率是n,组成声纹的特征点数目为r,如果每个点都是一个锚点, 并且每个锚点组成声纹数目是m,那么最大声纹信息就是m*rf。假如m = Ln = 256,r = 4,则最大声纹信息是32bit,声纹信息量很大,构建索引时会极大的加快搜索速度。当m不 等于1时,可以构建m个哈希表来加速搜索减少碰撞。由于本发明考虑的数据库是海量的, 优先考虑声纹的碰撞严重性,对于每个锚点,本方法增加3个点来构建声纹。特征提取过程 中,如果某个频率段峰值持续很长时间,就可能出现连续几帧提取的峰值点一样的情况,使 相邻特征点之间存在极大的相关性,为了消除此相关性,声纹构建时特征点之间间隔取2, 具体计算公式如下hash(fi; fi+3, fi+6, fi+9, ) = ^+ ^*η+ · +6*η2+ · +9*η3 [2]上式中,f代表特征点的相对频率,η是频率点取值范围上限。这种方法构建的声 纹碰撞很小,但是声纹正确匹配概率是每个特征点正确概率的乘积,因此此锚点扩展方法 必然会引起声纹的不稳定,本发明采用一种独特的搜索策略来弥补这种不足。综合考虑搜索效率和精度问题,发明人使用一种有选择的两层滤波的检索方法。 如图4所示,检索方法由两层滤波器组成,两层滤波器均包括三步,首先根据声纹查找候选 片断,然后是候选片断的精确相似度计算,最后根据相似度进行排序,输出排序结果。由于 声纹稳定性差,对于每一个对应声纹的候选片断,都进行第二步的精确相似度计算,相似度 计算时采用的是原始特征点,原始特征点要比声纹稳定性好很多,这样可以消除声纹不稳 定带来的影响。这两层滤波器的不同点是输入声纹数目不同,查找速度和精度不一样。根 据第一层滤波器的输出结果,可以计算对应的置信度,如果置信度比较低,经过声纹扩展, 增加声纹数目,再通过第二层滤波器,输出比较精确的结果。实验结果显示,当询问片断受 噪声影响严重时,第二层滤波器能极大的提高整个系统的检索正确率。下面对查询滤波算法中的几个关键点分别做具体说明。首先说明一下滤波器算法。此两层滤波器的检索算法是一样的。对于音频库中音 频文件,用所有的声纹构建一个哈希表,声纹为键,声纹所在音频文件名字以及所在音频文 件位置是值。检索阶段(图3),提取查询片断的声纹,经过索引查找,就可以找到对应的库 存音频声纹以及所在位置,根据这些声纹就可以找到与查询对应的片段,所有这些片段都 是候选片段。由于构成此索引的声纹信息量大,碰撞比较少,所以查找速度非常快。假如音 频库由10000首歌曲组成,平均每首歌曲5分钟,单个特征点的最大值是256(8bit),声纹由 4个特征点组成,则声纹信息量是32bit,平均每个声纹对应0. 01个候选片段,10秒录制片 断提取约300个声纹,可以找到约3个候选片段,实际情况中由于特征的分布比较集中,导 致候选片断多几十倍,但经过此索引仍能排除绝大部分不可能的歌曲,仅仅保留较少的候 选片段。找到候选片段后,对候选片段进行排序,使用构成声纹的原始特征来计算候选片断 的相似度,就可以得到准确的歌曲信息,计算公式如下s 小Σ,:户Hi)2,C) [3]
N-C
7
其中,S」是第j个片段的相似度,Qi是询问片断的特征点,Cli是对应的库中片段的 特征点,N是特征总数目,C是一个固定的常数,能够限制噪声带来的影响,可以设置成比3 小的整数。实验证明,引入此常数可以极大地提高系统的检索性能。由于此相似度计算方 法使用的是原始特征点,原始特征点本身就比声纹稳定的多,因此用此方法求出的相似度 更准确,排序后输出结果更可靠。此搜索算法是基于一个假设至少有一个声纹是精确匹配的,如果此假设成立,那 么那些需要计算相似度的片段仅仅是询问片断声纹对应的库存音频片段。为了证明此假设 的有效性,可以用下面的公式计算至少有一个声纹正确的概率P = l-(l-qr)n[4]q是每个特征点正确的概率,r是组成声纹的特征点个数,η是提取的声纹总数目。 假如q = 0. 4,r = 4,询问片断长度是10秒,那么η ^ 300,则计算P近似为0. 999。如果 q很小,那么P也很小,这种情况下,精确的相似度计算也很难找到正确的结果,因此本算法 是有效的。实际上,r的选择可以根据帧长、索引量、特征的稳定性以及对速度的要求来选 择。当数据为海量时,基于速度的优先考虑,r设置为4。判断是否进入第二层滤波器前,对第一层滤波器结果有一个置信度计算过程,用 来估计结果的可信度,置信度计算方法有多种,本方法中输出结果置信度计算如下c = 77 [5]C是输出结果的置信度,S1是第一候选的相似度,S2是第二候选的相似度。如果第 一层滤波器输出结果的置信度低于一个阈值,就经过第二层滤波器,得到一个更精确的结^ ο如果询问片断受噪声影响严重,由特征点构成的声纹可能没有一个是完全一致 的,针对这种情况,本发明提出了一种增强搜索算法,声纹由r-Ι个点组成,建立数据库索 引时用r-Ι个点的声纹构建第二个索引,用于第二层滤波器搜索匹配,第二层滤波器算法 与第一层一样,仅仅是声纹的构建以及索引不一样。如果第一层滤波器输出结果的置信度 低于一个阈值,就经过第二层滤波器,得到一个更精确的结果。经过统计发现,询问片断中 错误特征点的频率值一般都在原始频率上下波动,并且相差1的概率很大,远远高于其他 频率值的可能性,因此,本发明人又提出了 一种基于容错的查询扩展算法,构建第二层滤波 器时,和第一层滤波器公用同一个索引,仅仅扩展询问片断声纹,通过扩展询问片断的特征 点来增加声纹的数目,这样就减少了对内存的需求,仅需构建一个索引,同时也达到了快速 准确的要求。假如每个点都扩展为原来的三倍,即上下波动1,并且由4个点构成声纹,那么 可以得到80倍的原始声纹数目。这里并没有对原始声纹重新检索,仅仅把第一层滤波器相 似度计算结果和第二层滤波器结果一起排序,然后输出最终结果。实际上,只需要对那些置 信度低的特征点实现特征扩展,特征置信度计算如下F^fjEiINU
'.=。 [6]Ei是特征点的能量,N是特征总数目,λ是一个系数,可以调整此系数控制特征扩 展的数目。事实上,由于第一层滤波器输出结果置信度阈值的存在,仅当音频片断变质严重 时,才会经过第两层滤波器,这种情况下,第两层滤波器能极大的提高整个系统的性能。通 过使用这种查询扩展算法,可以花费比较少的时间来达到很好的性能。
8
经统计发现,对于原始片断,当帧之间无重叠,并且取帧时正好相差半帧时,有大 约1/4的峰值点发生偏差,这种由于帧边界选取不一致引起的特征提取错误称之为边界效 应。由于边界效应的存在,导致特征提取错误,因此帧之间的重叠率应该越大越好,即帧移 越小越好,以便减小边界效应带来的影响。本专利方法中,为了减少索引的总量并且尽量减 小边界效应,库中音频重叠率是1/2,询问片断重叠率是3/4。由于重叠率不同,采用如下公 式计算相似度
权利要求
一种基于长时结构声纹的多层滤波音频检索方法,其特征在于(1)提取用户输入音频片断的稳定特征,例如频谱峰值特征;(2)构建具有长时结构信息的声纹;(3)经过第一层滤波器,以所有声纹为查找项,查找数据库索引,得到候选中间结果,并根据原始特征计算中间结果相似度,然后根据相似度对中间结果进行排序;(4)对第一层滤波器排名第一的候选结果进行置信度打分,如果超过预定门限值,则输出结果,否则转入第5步;(5)扩展查询声纹,进入第二层滤波器,根据索引表,查找更多中间结果,并计算中间结果相似度,然后把第一二层滤波器结果根据相似度进行排序;(6)根据排序结果,选择相似度最高的音频片段信息返回用户。
2.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 被查询的音频数据库通过如下步骤获得(1)提取音频数据库稳定特征,例如频谱峰值特征;(2)生成具有长时结构信息的声纹;(3)使用所有数据库声纹构建哈希索引,键为声纹,值为声纹所在音频文件名以及声纹 所在音频文件中的位置。
3.根据权利1和权利2要求所述的基于长时结构声纹的多层滤波音频检索方法,其特 征在于具有长时结构信息的声纹构建方法,采用多个特征点构建声纹,组成声纹的特征点数 目以及特征点之间的间隔可以根据实际情况调整,构建公式如下hash(fi7 fi+1, · · ·,^+广丄)=fi+fi+1*n+. . . +fi+^^n^1上述为r个特征点构建声纹的公式,其中,f为音频特征,η为特征点取值范围上限。
4.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 查询结果置信度计算,对第一层滤波器输出结果进行置信度计算,用来评价第一层滤波器输出结果的可信度。置信度计算方法有多种,本方法中输出结果置信度计算公式如 下C是输出结果的置信度,S1是第一候选的相似度,S2是第二候选的相似度。
5.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 基于容错的查询声纹扩展方法,是对录制片断的每个特征点上下浮动几个位置,使得输入片段的声纹扩展为多个声纹,做为第二次检索的查询输入,例如上下浮动1,特征点扩 展为原来的3倍,声纹数目扩展成原来的Y倍,r为构建一个声纹的特征点数目。
6.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 滤波器算法包括三步1、根据数据库索引表查找候选中间结果;2、计算中间结果相似度;3、根据相似度对中间结果排序。
7.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 有选择的两层滤波算法,即通过计算第一层滤波器输出结果的可信度,来选择是否进行更为复杂的第二次滤波,即当第一层结果不可信时才经过查询扩展进入第二层滤波。
8.根据权利1和权利2要求所述的基于长时结构声纹的多层滤波音频检索方法,其特 征在于录制片断特征提取时帧移是数据库中音频数据帧移的一半。
9.根据权利1要求所述的基于长时结构声纹的多层滤波音频检索方法,其特征在于 作为第二层滤波器的一种替代算法,第二层滤波器可以使用更精确的索引结构,例如每个声纹由较少的特征点构建,来提高检索性能。
10.一种基于长时结构声纹的多层滤波音频检索装置,包括(1)离线数据库索引构建模块;音频数据库单元,即构成查询库的音频数据库。声纹构建单元,即提取音频数据特征点,用具有长时结构信息的多个特征点构建声纹;构建索引单元,对于音频库中音频文件,用所有的声纹构建一个哈希表索引,声纹为 键,声纹所在音频文件名字以及所在音频文件位置是值。(2)在线查询搜索模块。输入单元,输入为复杂环境中录制的原始音频片断; 声纹构建单元,即提取特征点,用具有长时结构信息的多个特征点构建声纹; 滤波器单元,包括三步,分别为根据哈希索引表查找候选中间结果,计算中间结果相 似度,根据相似度对结果排序。置信度计算单元,对第一层滤波器输出结果进行置信度打分,评价可信度; 查询扩展单元,使用一种基于容错的查询扩展对询问声纹进行扩展; 检索结果输出单元,输出检索结果。
全文摘要
本发明实施例公开了一种基于样例的音频检索方法,即一种基于长时结构声纹的多层滤波音频检索方法,能够通过录制的音频片断搜索到整个音频的完整信息。本发明提出了一种新的具有长时结构信息的声纹生成方法,并采用两层滤波的方法提高检索效果。检索时先提取输入片断声纹特征,通过第一层滤波器,然后计算结果可信度,决定是否进行第二次滤波,并通过查询声纹扩展实现二次滤波。还公开了一种基于长时结构声纹的多层滤波音频检索装置。实验表明,利用本发明实施例,对于10000首歌曲的音频库,当询问片断为5秒且信噪比为0db时,能达到99.7%的准确率。
文档编号G10L15/08GK101980197SQ20101052483
公开日2011年2月23日 申请日期2010年10月29日 优先权日2010年10月29日
发明者刘刚, 王镪, 郭军 申请人:北京邮电大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种语音识别网上交易的智能密码钥匙的制作方法技术领域:本发明涉及银行支付领域,特别是通过语音识别完成网上交易的智能密码钥匙。背景技术:现有技术中,网上交易普遍采用智能密码钥匙USB KEY对用户的交易行为进行保护,智能密码钥匙采用

    专利发布时间:2025-05-15阅读:(74)

    专利名称:三维视频显示装置的制作方法技术领域:本发明涉及三维视频(图像)显示装置,尤其是涉及利用了使发光元件旋转而产生的残像(视觉残留)效果的三维视频显示装置。背景技术:近几年,由于视频显示技术的飞跃的发展,除显示二维视频的技术以外,显示三

    专利发布时间:2025-05-15阅读:(64)

    专利名称:光学子组件的制作方法技术领域:本发明涉及一种光学子组件以及一种用于该光学子组件的光学插座。本发明尤其涉及这样一种光学子组件,其具有适于接收装配光纤的装配端的以及适于与光学装置光学地连接的后端。背景技术: 通常,光学插座是这样一种光

    专利发布时间:2025-05-15阅读:(88)

    专利名称:双面印刷装置的制作方法技术领域:本实用新型涉及一种印刷装置,特别涉及一种对薄形介质的 两个表面进行印刷的双面印刷装置。背景技术:现有的双面印刷装置一般采用印刷元件和表底面反转元件的 结构,其中包含有一个供纸元件、 一个送纸机构、

    专利发布时间:2025-05-15阅读:(83)

    专利名称:一种装饰用灯具的制作方法技术领域:本实用新型是一种新型结构的装饰用灯具,它涉及对现有产品结构上的改进,属成型技术领域。目前市场上销售的装饰性灯具多种多样,它们产生的装饰效果各种各样。对于一些体积较大的装饰性灯具,运用上述手段所产生

    专利发布时间:2025-05-15阅读:(87)

    专利名称:新型二胡的制作方法技术领域:本实用新型属于民族乐器,具体涉及一种新型二胡。 背景技术:众所周知,二胡包括琴筒、琴杆、弦,琴筒上设有琴杆、蛇皮、琴马。二胡的声音是由 弦的振动经琴马传导给蛇皮,振动产生的声波经琴筒发生共鸣后从琴筒发出

    专利发布时间:2025-05-15阅读:(87)