当前位置:网站首页>专利 >正文

一种相似音频的确定方法及装置制造方法

一种相似音频的确定方法及装置制造方法
【专利摘要】本发明实施例公开了一种相似音频的确定方法及装置,该方法包括:确定目标音频的指定音频特征值序列;根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离;将得到的N个DTW距离确定为目标音频的音频指纹;根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度;如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确定目标音频与标准音频相似。与现有技术相比,不需要产生大量特征向量,这使得在整个音频指纹匹配过程中,不用大量的特征存储和检索,机器资源开销较小。而且,能减轻现有技术的局部鲁棒性不够高的问题,提高整体鲁棒性。
【专利说明】一种相似音频的确定方法及装置

【技术领域】
[0001] 本发明涉及计算机多媒体领域,特别涉及一种相似音频的确定方法及装置。

【背景技术】
[0002] 随着多媒体和网络技术的飞速发展,音频的生成和传输变得简单快捷,音频资源 变得极为丰富。一些向用户提供音频资源的网站,在向用户提供音频的同时,还会接收用户 上传的大量的音频资源。而在这些音频中,经常会有内容相似的音频,如果音频网站将这些 内容相似的音频全部进行存储,对音频网站来说,工作压力比较大。因此,如何能确定音频 是否相似,并将相似的音频去除,对音频网站来说,显得十分重要。
[0003] 在现有技术中,一般通过音频对应的音频指纹来确定这些音频是否相似。音频指 纹是根据音频信号计算出的一组独特标识,相似的音频应该具有相似的音频指纹。因此,在 确定了各音频的音频指纹后,将各音频指纹进行比较,如果它们的音频指纹相匹配,也就是 说相似度达到一定数值,就可以确定与之对应的音频为相似音频。
[0004] 在现有的音频指纹的匹配方法中,其音频指纹的确定主要是通过分析音频内容, 提取音频特定音频帧的多个局部特征,例如对音频采样值进行量化编码、频谱差分幅度等, 然后将所抽取特定音频帧的多个音频特征的集合作为整个音频的指纹。
[0005] 上述的音频指纹的匹配方法都是根据音频特定音频帧的多个局部特征来确定音 频指纹,会产生大量特征向量,这使得在整个音频指纹匹配过程中,需要大量的特征存储和 检索,机器资源开销较大,同时由于在提取音频特定音频帧时抽帧可能不一致,使得局部鲁 棒性不够高。


【发明内容】

[0006] 为解决上述问题,本发明实施例公开了一种相似音频的确定方法及装置。技术方 案如下:
[0007] 本发明实施例公开了一种相似音频的确定方法,可以包括:
[0008] 确定目标音频的指定音频特征值序列;
[0009] 根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的 N个基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基音频的指定音频特征 值序列的确定方法与目标音频的指定音频特征值序列的确定方法相同;
[0010] 将得到的N个DTW距离确定为目标音频的音频指纹;
[0011] 根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度,其 中,所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同;
[0012] 如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确 定目标音频与标准音频相似;
[0013] 其中,所述目标音频的指定音频特征值序列的确定方法包括:
[0014] 将目标音频按指定的分段规则进行分段处理,得到音频段;
[0015] 按预设的音频段选取规则选取目标音频的至少两个音频段;
[0016] 确定选取的各音频段的指定音频特征值;
[0017] 将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到目标音频的 指定音频特征值序列。
[0018] 其中,所述将目标音频按指定的分段规则进行分段处理,得到音频段,包括:
[0019] 将目标音频按指定的时间间隔进行分段处理,得到音频段。
[0020] 其中,所述确定选取的各音频段的指定音频特征值,包括:
[0021] 确定选取的各音频段的音频强度均值,将所确定的音频强度均值作为各音频段的 指定音频特征值;
[0022] 或
[0023] 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定 音频特征值;
[0024] 或
[0025] 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频 特征值。
[0026] 其中,所述将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到 目标音频的指定音频特征值序列;包括:
[0027] 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段 在音频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
[0028] 其中,根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似 度,包括:
[0029] 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:

【权利要求】
1. 一种相似音频的确定方法,其特征在于,包括: 确定目标音频的指定音频特征值序列; 根据动态时间规整算法,分别计算目标音频的指定音频特征值序列与预先确定的N个 基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基音频的指定音频特征值序 列的确定方法与目标音频的指定音频特征值序列的确定方法相同; 将得到的N个DTW距离确定为目标音频的音频指纹; 根据预设的公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度,其中,所 述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同; 如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值,则确定目 标音频与标准音频相似; 其中,所述目标音频的指定音频特征值序列的确定方法包括: 将目标音频按指定的分段规则进行分段处理,得到音频段; 按预设的音频段选取规则选取目标音频的至少两个音频段; 确定选取的各音频段的指定音频特征值; 将已确定的各音频段的指定音频特征值按预设的顺序进行排列,得到目标音频的指定 音频特征值序列。
2. 如权利要求1所述的方法,其特征在于,所述将目标音频按指定的分段规则进行分 段处理,得到音频段,包括: 将目标音频按指定的时间间隔进行分段处理,得到音频段。
3. 如权利要求1所述的方法,其特征在于,所述确定选取的各音频段的指定音频特征 值,包括: 确定选取的各音频段的音频强度均值,将所确定的音频强度均值作为各音频段的指定 音频特征值; 或 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频特征 值。
4. 如权利要求1所述的方法,其特征在于,所述将已确定的各音频段的指定音频特征 值按预设的顺序进行排列,得到目标音频的指定音频特征值序列;包括: 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音 频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
5. 如权利要求1所述的方法,其特征在于,根据预设的公式,计算目标音频的音频指纹 与标准音频的音频指纹的相似度,包括: 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:
其中,A为相似度; Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离; Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
6. -种相似音频的确定装置,其特征在于,包括: 音频特征值序列确定t吴块,用于确定目标音频的指定音频特征值序列; DTW距离确定模块,用于根据动态时间规整算法,分别计算目标音频的指定音频特征值 序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离;其中,所述N个基 音频的指定音频特征值序列的确定方法与目标音频的指定音频特征值序列的确定方法相 同; 音频指纹确定模块,用于将得到的N个DTW距离确定为目标音频的音频指纹; 相似度计算模块,用于根据预设的公式,计算目标音频的音频指纹与标准音频的音频 指纹的相似度,其中,所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定 方法相同; 相似音频确定模块,用于如果目标音频的音频指纹与标准音频的音频指纹相似度大于 预设的预阈值,则确定目标音频与标准音频相似; 其中,所述音频特征值序列确定模块包括: 音频分段子模块,用于将目标音频按指定的分段规则进行分段处理,得到音频段; 音频段选取子模块,用于按预设的音频段选取规则选取目标音频的至少两个音频段; 音频特征值确定子模块,用于确定选取的各音频段的指定音频特征值; 序列确定子模块,用于将已确定的各音频段的指定音频特征值按预设的顺序进行排 列,得到目标音频的指定音频特征值序列。
7. 如权利要求6所述的装置,其特征在于,所述音频分段子模块,具体用于: 将目标音频按指定的时间间隔分段规则进行分段处理,得到音频段。
8. 如权利要求6所述的装置,其特征在于,所述音频特征值确定子模块,具体用于: 确定选取的各音频段的音频强度均值,将所确定的灰度均值作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时过零率,将所确定的短时过零率作为各音频段的指定音频 特征值; 或 确定选取的各音频段的短时能量,将所确定的短时能量作为各音频段的指定音频特征 值。
9. 如权利要求6所述的装置,其特征在于,所述序列确定子模块,具体用于: 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音 频中的先后顺序进行排列,得到目标音频的指定音频特征值序列。
10. 如权利要求6所述的装置,其特征在于,所述相似度计算模块,具体用于: 利用以下公式,计算目标音频的音频指纹与标准音频的音频指纹的相似度:
其中,A为相似度; Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离; Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
【文档编号】G10L15/10GK104464726SQ201410840295
【公开日】2015年3月25日 申请日期:2014年12月30日 优先权日:2014年12月30日
【发明者】刘祁跃, 李典 申请人:北京奇艺世纪科技有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:X射线晶体定向仪的制作方法专利说明一、技术领域本实用新型涉及一种物理实验中使用的设备,具体地说是一种X射线晶体定向仪。二背景技术:在物理、材料科学、地质、工矿等实际科研和应用中,X射线晶体定向仪是一种非常重要的设备,它利用劳厄照相

    专利发布时间:2025-05-15阅读:(89)

    专利名称:信道译码方法、系统及装置的制作方法技术领域:本发明涉及通信技术领域,特别涉及信道译码方法、系统及装置。 背景技术:一般情况下,现行通信系统的接收端在进行信道译码和信源编码时是独立的, 这样信道译码的错误率比较高,譬如,在码激励线性

    专利发布时间:2025-05-15阅读:(103)

    高声强声场的模拟装置制造方法【专利摘要】本发明公开了一种高声强声场的模拟装置,包括依次连接的声发生器、喇叭、行波管试验段,最后接入消声终端,喇叭包括圆喇叭,变换喇叭,方喇叭。喇叭的结构频率与蜿蜒系数有关系,行波管要求内部光滑以避免声的反射,

    专利发布时间:2025-05-15阅读:(88)

    专利名称:预防或减慢近视或远视的发展的隐形眼镜组和方法技术领域:本发明涉及隐形眼镜和方法。更具体来说,预防或减慢近视或远视的发展的方法包括使用两组或两组以上具有不同光学设计、但每组中的隐形眼镜都向人类患者提供散焦视网膜图像的隐形眼镜,以预防

    专利发布时间:2025-05-15阅读:(74)

    专利名称:风扇台灯的制作方法技术领域:本实用新型涉及一种风扇台灯,特别是一种可以折叠存放的风扇台灯。背景技术:现在的学生学习任务重,作业繁多,在炎热的夏日夜晚也要挑灯夜战,炎热高温的环境常常会使人心生烦躁,静不下心学习。而现在市场上的台灯大

    专利发布时间:2025-05-15阅读:(76)

    专利名称:一种led路灯的改良结构的制作方法技术领域::本实用新型涉及一种LED路灯的改良结构。技术背景:现有技术的LED路灯灯头由灯体、LED灯和透明灯罩构成,LED灯是安装在灯体上的,且是以阵列的方式高密集地安装,在日常照明时,这种陈列

    专利发布时间:2025-05-15阅读:(78)