一种相似音频的确定方法及装置制造方法-品牌商务网

一种相似音频的确定方法及装置制造方法
【专利摘要】本发明实施例公开了一种相似音频的确定方法及装置，该方法包括：确定目标音频的指定音频特征值序列；根据动态时间规整算法，分别计算目标音频的指定音频特征值序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离；将得到的N个DTW距离确定为目标音频的音频指纹；根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度；如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值，则确定目标音频与标准音频相似。与现有技术相比，不需要产生大量特征向量，这使得在整个音频指纹匹配过程中，不用大量的特征存储和检索，机器资源开销较小。而且，能减轻现有技术的局部鲁棒性不够高的问题，提高整体鲁棒性。
【专利说明】一种相似音频的确定方法及装置

【技术领域】
[0001] 本发明涉及计算机多媒体领域，特别涉及一种相似音频的确定方法及装置。

【背景技术】
[0002] 随着多媒体和网络技术的飞速发展，音频的生成和传输变得简单快捷，音频资源变得极为丰富。一些向用户提供音频资源的网站，在向用户提供音频的同时，还会接收用户上传的大量的音频资源。而在这些音频中，经常会有内容相似的音频，如果音频网站将这些内容相似的音频全部进行存储，对音频网站来说，工作压力比较大。因此，如何能确定音频是否相似，并将相似的音频去除，对音频网站来说，显得十分重要。
[0003] 在现有技术中，一般通过音频对应的音频指纹来确定这些音频是否相似。音频指纹是根据音频信号计算出的一组独特标识，相似的音频应该具有相似的音频指纹。因此，在确定了各音频的音频指纹后，将各音频指纹进行比较，如果它们的音频指纹相匹配，也就是说相似度达到一定数值，就可以确定与之对应的音频为相似音频。
[0004] 在现有的音频指纹的匹配方法中，其音频指纹的确定主要是通过分析音频内容，提取音频特定音频帧的多个局部特征，例如对音频采样值进行量化编码、频谱差分幅度等，然后将所抽取特定音频帧的多个音频特征的集合作为整个音频的指纹。
[0005] 上述的音频指纹的匹配方法都是根据音频特定音频帧的多个局部特征来确定音频指纹，会产生大量特征向量，这使得在整个音频指纹匹配过程中，需要大量的特征存储和检索，机器资源开销较大，同时由于在提取音频特定音频帧时抽帧可能不一致，使得局部鲁棒性不够高。

【发明内容】

[0006] 为解决上述问题，本发明实施例公开了一种相似音频的确定方法及装置。技术方案如下：
[0007] 本发明实施例公开了一种相似音频的确定方法，可以包括：
[0008] 确定目标音频的指定音频特征值序列；
[0009] 根据动态时间规整算法，分别计算目标音频的指定音频特征值序列与预先确定的 N个基音频的指定音频特征值序列之间的DTW距离；其中，所述N个基音频的指定音频特征值序列的确定方法与目标音频的指定音频特征值序列的确定方法相同；
[0010] 将得到的N个DTW距离确定为目标音频的音频指纹；
[0011] 根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度，其中，所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同；
[0012] 如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值，则确定目标音频与标准音频相似；
[0013] 其中，所述目标音频的指定音频特征值序列的确定方法包括：
[0014] 将目标音频按指定的分段规则进行分段处理，得到音频段；
[0015] 按预设的音频段选取规则选取目标音频的至少两个音频段；
[0016] 确定选取的各音频段的指定音频特征值；
[0017] 将已确定的各音频段的指定音频特征值按预设的顺序进行排列，得到目标音频的指定音频特征值序列。
[0018] 其中，所述将目标音频按指定的分段规则进行分段处理，得到音频段，包括：
[0019] 将目标音频按指定的时间间隔进行分段处理，得到音频段。
[0020] 其中，所述确定选取的各音频段的指定音频特征值，包括：
[0021] 确定选取的各音频段的音频强度均值，将所确定的音频强度均值作为各音频段的指定音频特征值；
[0022] 或
[0023] 确定选取的各音频段的短时过零率，将所确定的短时过零率作为各音频段的指定音频特征值；
[0024] 或
[0025] 确定选取的各音频段的短时能量，将所确定的短时能量作为各音频段的指定音频特征值。
[0026] 其中，所述将已确定的各音频段的指定音频特征值按预设的顺序进行排列，得到目标音频的指定音频特征值序列；包括：
[0027] 将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音频中的先后顺序进行排列，得到目标音频的指定音频特征值序列。
[0028] 其中，根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度，包括：
[0029] 利用以下公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度：

【权利要求】
1. 一种相似音频的确定方法，其特征在于，包括：确定目标音频的指定音频特征值序列；根据动态时间规整算法，分别计算目标音频的指定音频特征值序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离；其中，所述N个基音频的指定音频特征值序列的确定方法与目标音频的指定音频特征值序列的确定方法相同；将得到的N个DTW距离确定为目标音频的音频指纹；根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度，其中，所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同；如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值，则确定目标音频与标准音频相似；其中，所述目标音频的指定音频特征值序列的确定方法包括：将目标音频按指定的分段规则进行分段处理，得到音频段；按预设的音频段选取规则选取目标音频的至少两个音频段；确定选取的各音频段的指定音频特征值；将已确定的各音频段的指定音频特征值按预设的顺序进行排列，得到目标音频的指定音频特征值序列。
2. 如权利要求1所述的方法，其特征在于，所述将目标音频按指定的分段规则进行分段处理，得到音频段，包括：将目标音频按指定的时间间隔进行分段处理，得到音频段。
3. 如权利要求1所述的方法，其特征在于，所述确定选取的各音频段的指定音频特征值，包括：确定选取的各音频段的音频强度均值，将所确定的音频强度均值作为各音频段的指定音频特征值；或确定选取的各音频段的短时过零率，将所确定的短时过零率作为各音频段的指定音频特征值；或确定选取的各音频段的短时能量，将所确定的短时能量作为各音频段的指定音频特征值。
4. 如权利要求1所述的方法，其特征在于，所述将已确定的各音频段的指定音频特征值按预设的顺序进行排列，得到目标音频的指定音频特征值序列；包括：将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音频中的先后顺序进行排列，得到目标音频的指定音频特征值序列。
5. 如权利要求1所述的方法，其特征在于，根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度，包括：利用以下公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度：
其中，A为相似度； Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离； Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
6. -种相似音频的确定装置，其特征在于，包括：音频特征值序列确定t吴块，用于确定目标音频的指定音频特征值序列； DTW距离确定模块，用于根据动态时间规整算法，分别计算目标音频的指定音频特征值序列与预先确定的N个基音频的指定音频特征值序列之间的DTW距离；其中，所述N个基音频的指定音频特征值序列的确定方法与目标音频的指定音频特征值序列的确定方法相同；音频指纹确定模块，用于将得到的N个DTW距离确定为目标音频的音频指纹；相似度计算模块，用于根据预设的公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度，其中，所述标准音频的音频指纹的确定方法与目标音频的音频指纹的确定方法相同；相似音频确定模块，用于如果目标音频的音频指纹与标准音频的音频指纹相似度大于预设的预阈值，则确定目标音频与标准音频相似；其中，所述音频特征值序列确定模块包括：音频分段子模块，用于将目标音频按指定的分段规则进行分段处理，得到音频段；音频段选取子模块，用于按预设的音频段选取规则选取目标音频的至少两个音频段；音频特征值确定子模块，用于确定选取的各音频段的指定音频特征值；序列确定子模块，用于将已确定的各音频段的指定音频特征值按预设的顺序进行排列，得到目标音频的指定音频特征值序列。
7. 如权利要求6所述的装置，其特征在于，所述音频分段子模块，具体用于：将目标音频按指定的时间间隔分段规则进行分段处理，得到音频段。
8. 如权利要求6所述的装置，其特征在于，所述音频特征值确定子模块，具体用于：确定选取的各音频段的音频强度均值，将所确定的灰度均值作为各音频段的指定音频特征值；或确定选取的各音频段的短时过零率，将所确定的短时过零率作为各音频段的指定音频特征值；或确定选取的各音频段的短时能量，将所确定的短时能量作为各音频段的指定音频特征值。
9. 如权利要求6所述的装置，其特征在于，所述序列确定子模块，具体用于：将已确定的各音频段的指定音频特征值按照与各指定音频特征值对应的音频段在音频中的先后顺序进行排列，得到目标音频的指定音频特征值序列。
10. 如权利要求6所述的装置，其特征在于，所述相似度计算模块，具体用于：利用以下公式，计算目标音频的音频指纹与标准音频的音频指纹的相似度：
其中，A为相似度； Xi为目标音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离； Yi为标准音频的指定音频特征值序列与第i个基音频指定音频特征值序列之间的DTW距离。
【文档编号】G10L15/10GK104464726SQ201410840295
【公开日】2015年3月25日申请日期:2014年12月30日优先权日:2014年12月30日
【发明者】刘祁跃, 李典申请人:北京奇艺世纪科技有限公司

本文推荐一种相似音频的确定方法及装置制造方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656298030.html

当前位置：网站首页>专利 >正文

一种相似音频的确定方法及装置制造方法

相关推荐