当前位置:网站首页>专利 >正文

一种对音频文件进行处理的方法及装置制造方法

一种对音频文件进行处理的方法及装置制造方法
【专利摘要】本发明提供了一种对音频文件进行处理的方法及装置,该方法包括:获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图,其中,第一音频文件与第二音频文件为关联相关的音频文件;通过第一语谱图与第二语谱图获取第一音频文件与第二音频文件的偏移时间;通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。本发明实施例可以通过偏移时间实现两个音频文件之间的无缝切换,提高用户的娱乐体验。
【专利说明】一种对音频文件进行处理的方法及装置

【技术领域】
[0001] 本发明涉及音频处理【技术领域】,尤其涉及一种对音频文件进行处理的方法及装 置。

【背景技术】
[0002] 随着人们娱乐需求的日益提高,互联网运营商也在通过网络K歌房的形式向用户 提供K歌业务,由于伴奏带与原唱属于两个音频文件,因此用户在伴奏带与原唱之间切换 时会存在不同步的现象,因此需要将伴奏带与原唱进行同步。若在用户需要听原唱的时候 不能瞬间切换到原唱,此时会由于切换使得两个音频信号之间不能完全对准,从而降低了 用户的娱乐体验。


【发明内容】

[0003] 本发明实施例提供一种对音频文件进行处理的方法及装置,使用户可以根据需要 实现在两个音频文件的无缝切换,提高用户的娱乐体验。
[0004] 为达到上述目的,本发明的实施例采用如下技术方案:
[0005] -种对音频文件进行处理的方法,该方法包括:
[0006] 获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图;
[0007] 通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件 的偏移时间;
[0008] 通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
[0009] 一种对音频文件进行处理的装置,该装置包括:
[0010] 语谱图获取模块,用于获取与第一音频文件与第二音频文件分别对应的第一语谱 图与第二语谱图;
[0011] 偏移时间获取模块,用于通过所述第一语谱图与第二语谱图获取所述第一音频文 件与所述第二音频文件的偏移时间;
[0012] 音频处理模块,用于通过所述偏移时间对所述第一音频文件与所述第二音频文件 进行关联相关处理。
[0013] 本发明实施例提供的对音频文件进行处理的方法及装置,获取第一音频文件与第 二音频文件同步的偏移时间后,通过偏移时间对第一音频文件与第二音频文件进行关联相 关处理,实现了对两个音频文件无缝的对齐、合成等处理,当第一音频文件为歌曲的伴奏 带,第二音频文件为歌曲的原唱+伴奏带时,使用户在K歌过程中可以根据需要实现无缝的 切换伴奏带与原唱,提高用户的娱乐体验。

【专利附图】

【附图说明】
[0014] 图1为本发明实施例一提供的对音频文件进行处理的方法的流程示意图。
[0015] 图2为本发明实施例二提供的对音频文件进行处理的方法的流程示意图。
[0016] 图3为实施例二中步骤230具体实现的一个流程示意图。
[0017] 图4为实施例二中步骤230的原理示意图。
[0018] 图5为实施例二经过步骤233处理后的频谱能量示意图。
[0019] 图6为本发明实施例三提供的音频文件的处理装置的结构示意图。
[0020] 图7为本发明实施例四提供的音频文件的处理装置的结构示意图。

【具体实施方式】
[0021] 下面结合附图对本发明实施例提供的对音频文件进行处理的方法及装置进行详 细描述。
[0022] 实施例一:
[0023] 图1为本发明实施例一提供的对音频文件进行处理的方法的流程示意图,如图1 所示,本发明实施例的对音频文件进行处理的方法包括如下步骤:
[0024] 步骤110,获取第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱 图,其中,第一音频文件与第二音频文件为需要进行关联相关的音频文件。
[0025] 步骤120,对第一语谱图与第二语谱图进行精简,得到与第一语谱图相对应的第三 语谱图,与第二语谱图对应的第四语谱图。
[0026] 步骤130,根据第三语谱图与第四语谱图获取第一音频文件与第二音频文件的偏 移时间。
[0027] 步骤140,通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。
[0028] 在步骤110中,获取第一音频文件与第二音频文件分别对应的第一语谱图与第二 语谱图的具体处理可以为:分别对第一音频文件和第二音频文件进行解码,并以预定的采 样频率(例如,8000Hz)对解码后的信号进行重采样,将重采样后的音频合并为单声道,对 合并后的音频进行分帧,并进行汉宁窗处理,分别对经过上述处理后的两个音频进行傅立 叶变换,得到第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图。
[0029] 在步骤120中,对第一语谱图与第二语谱图进行精简的处理具体可以为:获取第 一语谱图中的频谱能量排在前设定个数(例如,前20个)的多个频率值,从第一语谱图与 第二语谱图中抽取这20个频率值,通过这20个频率值分别得到精简的第三语谱图和第四 语谱图。由于该20个频率值为第一语谱图中最大的频率值,通过这20个频率值抽取到了第 一语谱图与第二语谱图中的关键频段,而关键频段表示了第一语谱图与第二语谱图中的更 多有用的音频信号信息,避免了无用的音频信号在后续的参与,因此通过第三语谱图与第 四语谱图的处理将会明显的降低漏处理的概率,从而提高了对两个音频文件的处理效率。 本领域技术人员可以理解的是,设定个数可以依据第一音频文件的具体频率分布而定,具 体的设定个数不能形成对本发明实施例的限制。
[0030] 在步骤140中,通过偏移时间对第一音频文件与第二音频文件进行关联相关处理 可以包括以下处理中的至少一种:
[0031] 根据偏移时间对第一音频文件与第二音频文件进行同步;
[0032] 根据偏移时间对第一音频文件与第二音频文件进行对齐;
[0033] 根据偏移时间对第一音频文件与第二音频文件进行合成;
[0034] 根据偏移时间对第一音频文件与第二音频文件进行分离。
[0035] 其中,根据偏移时间对第一音频文件与第二音频文件进行对齐的具体可以为:根 据偏移时间,将两个第一音频文件与第二音频文件对应的音频信号对齐,对于由于对齐造 成的对齐后的音频信号有部分内容空白,则空白部分的频谱能量值置0。相应地,根据偏移 时间对第一音频文件与第二音频文件进行合成的具体可以为:将两个对齐后的音频信号分 别作为音频的左右声道,合并为一个音频文件。这样,当第一音频文件为歌曲的伴奏带,第 二音频文件为歌曲的原唱+伴奏时,用户在K歌过程中,同时解码两个声道,但播放声音时, 根据用户需求只发送其中一个声道的数据到声卡,当进行伴奏带与原唱的切换时,将播放 声音的数据切换到另一个声道即可。
[0036] 本发明实施例提供的对音频文件进行处理的方法,通过根据第三语谱图与第四语 谱图获取第一音频文件与第二音频文件同步的偏移时间,并通过偏移时间对第一音频文件 与第二音频文件进行关联相关处理,实现了对两个音频文件无缝的对齐、合成等处理,当第 一音频文件为歌曲的伴奏带,第二音频文件为歌曲的原唱+伴奏带时,使用户在K歌过程中 可以根据需要实现无缝的切换伴奏带与原唱,提高用户的娱乐体验。
[0037] 实施例二:
[0038] 图2为本发明实施例二提供的对音频文件进行处理的方法的流程示意图,如图2 所示,本发明实施例的音频同步方法包括如下步骤:
[0039] 步骤210,获取第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱 图,其中,第一音频文件与第二音频文件为待关联相关的音频文件。
[0040] 步骤220,对第一语谱图与第二语谱图进行精简,得到与第一语谱图相对应的第三 语谱图,与第二语谱图对应的第四语谱图。
[0041] 步骤230,根据第三语谱图与第四语谱图的互功率谱获取上能量最大的帧位置。
[0042] 步骤240,根据能量最大的帧位置获取第一音频文件与第二音频文件的偏移时间。
[0043] 步骤250,通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。
[0044] 步骤210?步骤220的具体处理可参考实施例一种步骤110?120的处理,在此 不再进行详述。
[0045] 在步骤230的具体处理可参考图3所示实施例。
[0046] 在步骤240中,根据能量最大的帧位置获取第一音频文件与第二音频文件同步的 偏移时间的步骤可以具体为:根据能量最大的帧位置与每一帧所表示的时间的乘积得到第 一音频文件与所述第二音频文件的偏移时间。偏移时间的精度就是每一帧的间隔时间,可 以根据精度要求,适当缩小帧间隔的时间,从而达到更高的配准精度。
[0047] 步骤250的具体处理可参考实施例一种步骤140的处理,在此不再进行详述。
[0048] 在参照图3对步骤230的具体处理进行详细描述之前,首先参照图4介绍一下通 过两个语谱图之间的互功率谱来获取两个音频的偏移时间的原理,以使本领域技术人员对 步骤230的技术方案的理解更清晰。
[0049] 设f2(x)为A(X)在X方向分别平移X?后的曲线,即:
[0050] f2 (x) = f! (x-x〇) (I)
[0051] 若(X)和f2 (X)对应的傅立叶变换分别为F1 (U)和F2 (U),则它们之间有如下关 系:
[0052] F2(It) = F,(u)e jiux^ v2)
[0053] 则(X)和f2 (X)的互功率谱为:

【权利要求】
1. 一种对音频文件进行处理的方法,其特征在于,所述方法包括: 获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图; 通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏 移时间; 通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
2. 根据权利要求1所述的方法,其特征在于,所述通过所述第一语谱图与第二语谱图 获取所述第一音频文件与所述第二音频文件的偏移时间的步骤包括: 对所述第一语谱图与第二语谱图进行精简,得到与所述第一语谱图相对应的第三语谱 图以及与所述第二语谱图对应的第四语谱图; 根据所述第三语谱图与所述第四语谱图获取所述第一音频文件与所述第二音频文件 的偏移时间。
3. 根据权利要求2所述的方法,其特征在于,所述对所述第一语谱图与第二语谱图进 行精简的步骤包括: 获取所述第一语谱图中的频谱能量排在前设定个数的多个频率值; 从所述第一语谱图与所述第二语谱图中抽取所述多个频率值,通过所述多个频率值分 别得到精简的第三语谱图和第四语谱图。
4. 根据权利要求2所述的方法,其特征在于,所述根据所述第三语谱图与所述第四语 谱图获取所述第一音频文件与所述第二音频文件的偏移时间的步骤包括: 根据所述第三语谱图与所述第四语谱图的互功率谱获取能量最大的帧位置; 根据所述能量最大的帧位置获取所述第一音频文件与所述第二音频文件的偏移时间。
5. 根据权利要求4所述的方法,其特征在于,所述根据所述第三语谱图与所述第四语 谱图的互功率谱获取能量最大的帧位置的步骤包括: 对所述第三语谱图与所述第四语谱图进行整形处理; 获取整形后的所述第三语谱图与整形后的所述第四语谱图之间的互功率谱; 对所述互功率谱进行傅立叶反变换后获取相应的能量值向量; 从所述能量值向量中获取能量最大的帧位置。
6. 根据权利要求5所述的方法,其特征在于,所述对所述第三语谱图与所述第四语谱 图进行整形处理的步骤包括: 对所述第三语谱图与所述第四语谱图分别对应的二维矩阵按顺序拉伸分别形成第 维向量与第二一维向量。
7. 根据权利要求4所述的方法,其特征在于,所述根据所述能量最大的帧位置获取所 述第一音频文件与所述第二音频文件的偏移时间的步骤包括: 根据所述能量最大的帧位置与每一帧所表示的时间的乘积得到所述第一音频文件与 所述第二音频文件的偏移时间。
8. 根据权利要求1-7任一所述的方法,其特征在于,所述通过所述偏移时间对所述第 一音频文件与所述第二音频文件进行关联相关处理的步骤包括: 根据所述偏移时间对所述第一音频文件与所述第二音频文件进行同步;或者, 根据所述偏移时间对所述第一音频文件与所述第二音频文件进行对齐;或者, 根据所述偏移时间对所述第一音频文件与所述第二音频文件进行合成;或者, 根据所述偏移时间对所述第一音频文件与所述第二音频文件进行分离。
9. 一种对音频文件进行处理的装置,其特征在于,所述装置包括: 语谱图获取模块,用于获取与第一音频文件与第二音频文件分别对应的第一语谱图与 第二语谱图; 偏移时间获取模块,用于通过所述第一语谱图与第二语谱图获取所述第一音频文件与 所述第二音频文件的偏移时间; 音频处理模块,用于通过所述偏移时间对所述第一音频文件与所述第二音频文件进行 关联相关处理。
10. 根据权利要求9所述的装置,其特征在于,所述偏移时间获取模块包括: 语谱图精简单元,用于对所述第一语谱图与第二语谱图进行精简,得到与所述第一语 谱图相对应的第三语谱图以及与所述第二语谱图对应的第四语谱图; 偏移时间获取单元,用于根据所述第三语谱图与所述第四语谱图获取所述第一音频文 件与所述第二音频文件的偏移时间。
11. 根据权利要求10所述的装置,其特征在于,所述对所述语谱图精简单元包括: 频率值获取单元,用于获取所述第一语谱图中的频谱能量排在前设定个数的多个频率 值; 语谱图精简子单元,用于从所述第一语谱图与所述第二语谱图中抽取所述多个频率 值,通过所述多个频率值分别得到精简的第三语谱图和第四语谱图。
12. 根据权利要求10所述的装置,其特征在于,所述偏移时间获取单元包括: 能量最大帧位置获取单元,用于根据所述第三语谱图与所述第四语谱图的互功率谱获 取能量最大的巾贞位置; 偏移时间获取子单元,用于根据所述能量最大的帧位置获取所述第一音频文件与所述 第二音频文件的偏移时间。
13. 根据权利要求12所述的装置,其特征在于,所述能量最大帧位置获取单元包括: 整形处理单元,用于对所述第三语谱图与所述第四语谱图进行整形处理; 互功率谱获取单元,用于获取整形后的所述第三语谱图与整形后的所述第四语谱图之 间的互功率谱; 能量值向量获取单元,用于对所述互功率谱进行傅立叶反变换后获取相应的能量值向 量; 能量最大帧位置获取子单元,用于从所述能量值向量中获取能量最大的帧位置。
14. 根据权利要求13所述的装置,其特征在于,所述整形处理单元对所述第三语谱图 与所述第四语谱图分别对应的二维矩阵按顺序拉伸分别形成第一一维向量与第二一维向 量。
15. 根据权利要求12所述的装置,其特征在于,所述偏移时间获取子单元根据所述能 量最大的帧位置与每一帧所表示的时间的乘积得到所述第一音频文件与所述第二音频文 件的偏移时间。
16. 根据权利要求9-15任一所述的装置,其特征在于,所述音频处理模块包括以下单 元中的至少一个: 音频同步单元,用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行 同步; 音频对齐单元,用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行 对齐; 音频合成单元,用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行 合成; 音频分离单元,用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行 分离。
【文档编号】G10L19/008GK104361889SQ201410589685
【公开日】2015年2月18日 申请日期:2014年10月28日 优先权日:2014年10月28日
【发明者】王徽蓉 申请人:百度在线网络技术(北京)有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:说话者识别设备、说话者识别程序、和说话者识别方法技术领域:本发明涉及说话者识别设备、用于说话者识别的计算机程序、以及说话者识别方法,用于通过使用包括在声波中的个人信息来识别说话者。背景技术: 已经提出了基于说预定内容的语音而识别说

    专利发布时间:2025-08-16阅读:(130)

    专利名称:光纤激光器装置的制作方法技术领域:本发明涉及光纤激光器装置。 背景技术:近些年,在使用激光进行加工的加工机、使用了激光的手术刀等医疗设备中,使用了光纤激光器装置。光纤激光器装置是将由激光振荡器产生的激光与激发光输入到放大用光纤,被

    专利发布时间:2025-08-16阅读:(114)

    专利名称:一种具有语音控制功能的蓝光播放机的制作方法技术领域:本实用新型涉及蓝光播放机,尤其涉及一种具有语音控制功能的蓝光播放机。 背景技术:近几年随着科技技术的发展,高清晰蓝光播放机在市场上普及。作为高端的影音 播放机,它有传统播放机无法

    专利发布时间:2025-08-16阅读:(89)

    专利名称:一种均匀面发光的led透镜模块及灯具的制作方法技术领域:本实用新型涉及半导体照明技术领域,且更具体来说,涉及一种均匀面发光的LED透镜模块及灯具。背景技术:随着LED技术越来越多的普及应用,LED灯具特别是LED灯具日益被大家接受

    专利发布时间:2025-08-16阅读:(143)

    专利名称:一种带有方形滤光片的镜头的制作方法技术领域:: 本实用新型涉及一种相机镜头,具体涉及一种带有方形滤光片的镜头。技术背景:现在市面上的镜头生产过程中,所需要的步骤很多,在组装镜头过程中,要用到一种滤光片,但是现在市面上生产的镜头滤光

    专利发布时间:2025-08-16阅读:(100)

    专利名称:用于控制视频系统的操作的方法和系统的制作方法技术领域:本发明涉及一种用于检测电视信号的方法和系统。特别地,本发明的系统和方法改善电视录制或推荐系统的可操作性。由于电视(TV)观众可用的频道数目的增加,以及在这种频道上可获得的节目内

    专利发布时间:2025-08-16阅读:(106)