一种相似音频的确定方法及装置制造方法
【专利摘要】本发明实施例公开了一种相似音频的确定方法及装置,该方法包括:确定目标音频的指定音频特征值序列;根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离;将得到的N个DTW距离确定为目标音频的音频指纹;根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度;如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确定目标音频与标准音频相似。与现有技术相比,不需要产生大量特征向量,这使得在整个音频指纹匹配过程中,不用大量的特征存储和检索,机器资源开销较小。而且,能减轻现有技术的局部鲁棒性不够高的问题,提高整体鲁棒性。
【专利说明】一种相似音频的确定方法及装置
【技术领域】
[0001] 本发明涉及计算机多媒体领域,特别涉及一种相似音频的确定方法及装置。
【背景技术】
[0002] 随着多媒体和网络技术的飞速发展,音频的生成和传输变得简单快捷,音频资源 变得极为丰富。一些向用户提供音频资源的网站,在向用户提供音频的同时,还会接收用户 上传的大量的音频资源。而在这些音频中,经常会有内容相似的音频,如果音频网站将这些 内容相似的音频全部进行存储,对音频网站来说,工作压力比较大。因此,如何能确定音频 是否相似,并将相似的音频去除,对音频网站来说,显得十分重要。
[0003] 在现有技术中,一般通过音频对应的音频指纹来确定这些音频是否相似。音频指 纹是根据音频信号计算出的一组独特标识,相似的音频应该具有相似的音频指纹。因此,在 确定了各音频的音频指纹后,将各音频指纹进行比较,如果它们的音频指纹相匹配,也就是 说相似度达到一定数值,就可以确定与之对应的音频为相似音频。
[0004] 在现有的音频指纹的匹配方法中,其音频指纹的确定主要是通过分析音频内容, 提取音频特定音频帧的多个局部特征,例如对音频采样值进行量化编码、频谱差分幅度等, 然后将所抽取特定音频帧的多个音频特征的集合作为整个音频的指纹。
[0005] 上述的音频指纹的匹配方法都是根据音频特定音频帧的多个局部特征来确定音 频指纹,会产生大量特征向量,这使得在整个音频指纹匹配过程中,需要大量的特征存储和 检索,机器资源开销较大,同时由于在提取音频特定音频帧时抽帧可能不一致,使得局部鲁 棒性不够高。
【发明内容】
[0006] 为解决上述问题,本发明实施例公开了一种相似音频的确定方法及装置。技术方 案如下:
[0007] 本发明实施例公开了一种相似音频的确定方法,可以包括:
[0008] 确定目标音频的指定音频特征值序列;
[0009] 根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的 N个基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基音频的指定音频特征 值序列的确定方法与目标音频的指定音频特征值序列的确定方法相同;
[0010] 将得到的N个DTW距离确定为目标音频的音频指纹;
[0011] 根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度,其 中,所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同;
[0012] 如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确 定目标音频与标准音频相似;
[0013] 其中,所述目标音频的指定音频特征值序列的确定方法包括:
[0014] 将目标音频按指定的分段规则进行分段处理,得到音频段;
[0015] 按预设的音频段选取规则选取目标音频的至少两个音频段;
[0016] 确定选取的各音频段的指定音频特征值;
[0017] 将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到目标音频的 指定音频特征值序列。
[0018] 其中,所述将目标音频按指定的分段规则进行分段处理,得到音频段,包括:
[0019] 将目标音频按指定的时间间隔进行分段处理,得到音频段。
[0020] 其中,所述确定选取的各音频段的指定音频特征值,包括:
[0021] 确定选取的各音频段的音频强度均值,将所确定的音频强度均值作为各音频段的 指定音频特征值;
[0022] 或
[0023] 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定 音频特征值;
[0024] 或
[0025] 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频 特征值。
[0026] 其中,所述将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到 目标音频的指定音频特征值序列;包括:
[0027] 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段 在音频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
[0028] 其中,根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似 度,包括:
[0029] 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:
【权利要求】
1. 一种相似音频的确定方法,其特征在于,包括: 确定目标音频的指定音频特征值序列; 根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的N个 基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基音频的指定音频特征值序 列的确定方法与目标音频的指定音频特征值序列的确定方法相同; 将得到的N个DTW距离确定为目标音频的音频指纹; 根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度,其中,所 述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同; 如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确定目 标音频与标准音频相似; 其中,所述目标音频的指定音频特征值序列的确定方法包括: 将目标音频按指定的分段规则进行分段处理,得到音频段; 按预设的音频段选取规则选取目标音频的至少两个音频段; 确定选取的各音频段的指定音频特征值; 将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到目标音频的指定 音频特征值序列。
2. 如权利要求1所述的方法,其特征在于,所述将目标音频按指定的分段规则进行分 段处理,得到音频段,包括: 将目标音频按指定的时间间隔进行分段处理,得到音频段。
3. 如权利要求1所述的方法,其特征在于,所述确定选取的各音频段的指定音频特征 值,包括: 确定选取的各音频段的音频强度均值,将所确定的音频强度均值作为各音频段的指定 音频特征值; 或 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频特征 值。
4. 如权利要求1所述的方法,其特征在于,所述将已确定的各音频段的指定音频特征 值按预设的顺序进行排列,得到目标音频的指定音频特征值序列;包括: 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音 频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
5. 如权利要求1所述的方法,其特征在于,根据预设的公式,计算目标音频的音频指纹 与标准音频的音频指纹的相似度,包括: 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:
其中,A为相似度; Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离; Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
6. -种相似音频的确定装置,其特征在于,包括: 音频特征值序列确定t吴块,用于确定目标音频的指定音频特征值序列; DTW距离确定模块,用于根据动态时间规整算法,分别计算目标音频的指定音频特征值 序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基 音频的指定音频特征值序列的确定方法与目标音频的指定音频特征值序列的确定方法相 同; 音频指纹确定模块,用于将得到的N个DTW距离确定为目标音频的音频指纹; 相似度计算模块,用于根据预设的公式,计算目标音频的音频指纹与标准音频的音频 指纹的相似度,其中,所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定 方法相同; 相似音频确定模块,用于如果目标音频的音频指纹与标准音频的音频指纹相似度大于 预设的预阈值,则确定目标音频与标准音频相似; 其中,所述音频特征值序列确定模块包括: 音频分段子模块,用于将目标音频按指定的分段规则进行分段处理,得到音频段; 音频段选取子模块,用于按预设的音频段选取规则选取目标音频的至少两个音频段; 音频特征值确定子模块,用于确定选取的各音频段的指定音频特征值; 序列确定子模块,用于将已确定的各音频段的指定音频特征值按预设的顺序进行排 列,得到目标音频的指定音频特征值序列。
7. 如权利要求6所述的装置,其特征在于,所述音频分段子模块,具体用于: 将目标音频按指定的时间间隔分段规则进行分段处理,得到音频段。
8. 如权利要求6所述的装置,其特征在于,所述音频特征值确定子模块,具体用于: 确定选取的各音频段的音频强度均值,将所确定的灰度均值作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频特征 值。
9. 如权利要求6所述的装置,其特征在于,所述序列确定子模块,具体用于: 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音 频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
10. 如权利要求6所述的装置,其特征在于,所述相似度计算模块,具体用于: 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:
其中,A为相似度; Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离; Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
【文档编号】G10L15/10GK104464726SQ201410840295
【公开日】2015年3月25日 申请日期:2014年12月30日 优先权日:2014年12月30日
【发明者】刘祁跃, 李典 申请人:北京奇艺世纪科技有限公司
一种相似音频的确定方法及装置制造方法
相关推荐
专利名称:一种模拟天空的平板式led照明系统的制作方法技术领域:本实用新型涉及一种平板式照明系统,特别是一种模拟天空的平板式LED照明系统。背景技术:随着我国照明技术的飞速发展,人们对节能高效照明的需求日益提高。很多室内场合,尤其是密闭空间
专利名称:直立钢琴类动作机构的制作方法技术领域:本发明涉及一种直立钢琴类动作机构,包括用于直立钢琴的动作机构和用于与直立钢琴的动作机构同一类型的动作机构。背景技术:市场上存在许多电子键盘乐器,其能产生与钢琴(原声钢琴)的音色接近的音色。 在
专利名称:液晶显示装置驱动方法及液晶显示装置的制作方法技术领域:本发明涉及液晶显示技术领域,特别涉及一种液晶显示装置驱动方法及液晶显示装置。背景技术:传统的液晶显示(LCD,Liquid Crystal Display)装置通常采用单向通讯
专利名称:一种木制玩具打琴的制作方法技术领域:本实用新型涉及一种儿童玩耍用的木制玩具打琴。背景技术:目前市场出售的打琴除了有最基本的音调之外,还设有半音,并具有变调功能,要设置这些功能必然使得打琴结构较为复杂,其生产成本也较高;同时作为儿童
专利名称:对接接头的制作方法技术领域:本实用新型涉及照明领域,尤其涉及一种对接接头。背景技术:目前,DC插头广泛应用于LED行业,如LED灯板、LED驱动电源、LED显示屏、铝基板、电路板等,在LED灯板和电路板等的两端均与带有DC公插的接
专利名称:一种led日光灯管的底座的制作方法技术领域:本实用新型涉及一种LED日光灯管,尤其是涉及一种LED日光灯管的底座。背景技术:LED作为朝阳产业,已被广泛地应用到各种需要发光的场景中,由于单个LED的发光量有限,用于日光灯内时通常是