一种对音频文件进行处理的方法及装置制造方法-品牌商务网

一种对音频文件进行处理的方法及装置制造方法
【专利摘要】本发明提供了一种对音频文件进行处理的方法及装置，该方法包括：获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图，其中，第一音频文件与第二音频文件为关联相关的音频文件；通过第一语谱图与第二语谱图获取第一音频文件与第二音频文件的偏移时间；通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。本发明实施例可以通过偏移时间实现两个音频文件之间的无缝切换，提高用户的娱乐体验。
【专利说明】一种对音频文件进行处理的方法及装置

【技术领域】
[0001] 本发明涉及音频处理【技术领域】，尤其涉及一种对音频文件进行处理的方法及装置。

【背景技术】
[0002] 随着人们娱乐需求的日益提高，互联网运营商也在通过网络K歌房的形式向用户提供K歌业务，由于伴奏带与原唱属于两个音频文件，因此用户在伴奏带与原唱之间切换时会存在不同步的现象，因此需要将伴奏带与原唱进行同步。若在用户需要听原唱的时候不能瞬间切换到原唱，此时会由于切换使得两个音频信号之间不能完全对准，从而降低了用户的娱乐体验。

【发明内容】

[0003] 本发明实施例提供一种对音频文件进行处理的方法及装置，使用户可以根据需要实现在两个音频文件的无缝切换，提高用户的娱乐体验。
[0004] 为达到上述目的，本发明的实施例采用如下技术方案：
[0005] -种对音频文件进行处理的方法，该方法包括：
[0006] 获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图；
[0007] 通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏移时间；
[0008] 通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
[0009] 一种对音频文件进行处理的装置，该装置包括：
[0010] 语谱图获取模块，用于获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图；
[0011] 偏移时间获取模块，用于通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏移时间；
[0012] 音频处理模块，用于通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
[0013] 本发明实施例提供的对音频文件进行处理的方法及装置，获取第一音频文件与第二音频文件同步的偏移时间后，通过偏移时间对第一音频文件与第二音频文件进行关联相关处理，实现了对两个音频文件无缝的对齐、合成等处理，当第一音频文件为歌曲的伴奏带，第二音频文件为歌曲的原唱+伴奏带时，使用户在K歌过程中可以根据需要实现无缝的切换伴奏带与原唱，提高用户的娱乐体验。

【专利附图】

【附图说明】
[0014] 图1为本发明实施例一提供的对音频文件进行处理的方法的流程示意图。
[0015] 图2为本发明实施例二提供的对音频文件进行处理的方法的流程示意图。
[0016] 图3为实施例二中步骤230具体实现的一个流程示意图。
[0017] 图4为实施例二中步骤230的原理示意图。
[0018] 图5为实施例二经过步骤233处理后的频谱能量示意图。
[0019] 图6为本发明实施例三提供的音频文件的处理装置的结构示意图。
[0020] 图7为本发明实施例四提供的音频文件的处理装置的结构示意图。

【具体实施方式】
[0021] 下面结合附图对本发明实施例提供的对音频文件进行处理的方法及装置进行详细描述。
[0022] 实施例一：
[0023] 图1为本发明实施例一提供的对音频文件进行处理的方法的流程示意图，如图1 所示，本发明实施例的对音频文件进行处理的方法包括如下步骤：
[0024] 步骤110,获取第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图，其中，第一音频文件与第二音频文件为需要进行关联相关的音频文件。
[0025] 步骤120,对第一语谱图与第二语谱图进行精简，得到与第一语谱图相对应的第三语谱图，与第二语谱图对应的第四语谱图。
[0026] 步骤130,根据第三语谱图与第四语谱图获取第一音频文件与第二音频文件的偏移时间。
[0027] 步骤140,通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。
[0028] 在步骤110中，获取第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图的具体处理可以为：分别对第一音频文件和第二音频文件进行解码，并以预定的采样频率（例如，8000Hz)对解码后的信号进行重采样，将重采样后的音频合并为单声道，对合并后的音频进行分帧，并进行汉宁窗处理，分别对经过上述处理后的两个音频进行傅立叶变换，得到第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图。
[0029] 在步骤120中，对第一语谱图与第二语谱图进行精简的处理具体可以为：获取第一语谱图中的频谱能量排在前设定个数（例如，前20个）的多个频率值，从第一语谱图与第二语谱图中抽取这20个频率值，通过这20个频率值分别得到精简的第三语谱图和第四语谱图。由于该20个频率值为第一语谱图中最大的频率值，通过这20个频率值抽取到了第一语谱图与第二语谱图中的关键频段，而关键频段表示了第一语谱图与第二语谱图中的更多有用的音频信号信息，避免了无用的音频信号在后续的参与，因此通过第三语谱图与第四语谱图的处理将会明显的降低漏处理的概率，从而提高了对两个音频文件的处理效率。本领域技术人员可以理解的是，设定个数可以依据第一音频文件的具体频率分布而定，具体的设定个数不能形成对本发明实施例的限制。
[0030] 在步骤140中，通过偏移时间对第一音频文件与第二音频文件进行关联相关处理可以包括以下处理中的至少一种：
[0031] 根据偏移时间对第一音频文件与第二音频文件进行同步；
[0032] 根据偏移时间对第一音频文件与第二音频文件进行对齐；
[0033] 根据偏移时间对第一音频文件与第二音频文件进行合成；
[0034] 根据偏移时间对第一音频文件与第二音频文件进行分离。
[0035] 其中，根据偏移时间对第一音频文件与第二音频文件进行对齐的具体可以为：根据偏移时间，将两个第一音频文件与第二音频文件对应的音频信号对齐，对于由于对齐造成的对齐后的音频信号有部分内容空白，则空白部分的频谱能量值置0。相应地，根据偏移时间对第一音频文件与第二音频文件进行合成的具体可以为：将两个对齐后的音频信号分别作为音频的左右声道，合并为一个音频文件。这样，当第一音频文件为歌曲的伴奏带，第二音频文件为歌曲的原唱+伴奏时，用户在K歌过程中，同时解码两个声道，但播放声音时，根据用户需求只发送其中一个声道的数据到声卡，当进行伴奏带与原唱的切换时，将播放声音的数据切换到另一个声道即可。
[0036] 本发明实施例提供的对音频文件进行处理的方法，通过根据第三语谱图与第四语谱图获取第一音频文件与第二音频文件同步的偏移时间，并通过偏移时间对第一音频文件与第二音频文件进行关联相关处理，实现了对两个音频文件无缝的对齐、合成等处理，当第一音频文件为歌曲的伴奏带，第二音频文件为歌曲的原唱+伴奏带时，使用户在K歌过程中可以根据需要实现无缝的切换伴奏带与原唱，提高用户的娱乐体验。
[0037] 实施例二：
[0038] 图2为本发明实施例二提供的对音频文件进行处理的方法的流程示意图，如图2 所示，本发明实施例的音频同步方法包括如下步骤：
[0039] 步骤210,获取第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图，其中，第一音频文件与第二音频文件为待关联相关的音频文件。
[0040] 步骤220,对第一语谱图与第二语谱图进行精简，得到与第一语谱图相对应的第三语谱图，与第二语谱图对应的第四语谱图。
[0041] 步骤230,根据第三语谱图与第四语谱图的互功率谱获取上能量最大的帧位置。
[0042] 步骤240,根据能量最大的帧位置获取第一音频文件与第二音频文件的偏移时间。
[0043] 步骤250,通过偏移时间对第一音频文件与第二音频文件进行关联相关处理。
[0044] 步骤210?步骤220的具体处理可参考实施例一种步骤110?120的处理，在此不再进行详述。
[0045] 在步骤230的具体处理可参考图3所示实施例。
[0046] 在步骤240中，根据能量最大的帧位置获取第一音频文件与第二音频文件同步的偏移时间的步骤可以具体为：根据能量最大的帧位置与每一帧所表示的时间的乘积得到第一音频文件与所述第二音频文件的偏移时间。偏移时间的精度就是每一帧的间隔时间，可以根据精度要求，适当缩小帧间隔的时间，从而达到更高的配准精度。
[0047] 步骤250的具体处理可参考实施例一种步骤140的处理，在此不再进行详述。
[0048] 在参照图3对步骤230的具体处理进行详细描述之前，首先参照图4介绍一下通过两个语谱图之间的互功率谱来获取两个音频的偏移时间的原理，以使本领域技术人员对步骤230的技术方案的理解更清晰。
[0049] 设f2(x)为A(X)在X方向分别平移X?后的曲线，即：
[0050] f2 (x) = f! (x-x〇) (I)
[0051] 若(X)和f2 (X)对应的傅立叶变换分别为F1 (U)和F2 (U)，则它们之间有如下关系：
[0052] F2(It) = F,(u)e jiux^ v2)
[0053] 则(X)和f2 (X)的互功率谱为：

【权利要求】
1. 一种对音频文件进行处理的方法，其特征在于，所述方法包括：获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图；通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏移时间；通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
2. 根据权利要求1所述的方法，其特征在于，所述通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏移时间的步骤包括：对所述第一语谱图与第二语谱图进行精简，得到与所述第一语谱图相对应的第三语谱图以及与所述第二语谱图对应的第四语谱图；根据所述第三语谱图与所述第四语谱图获取所述第一音频文件与所述第二音频文件的偏移时间。
3. 根据权利要求2所述的方法，其特征在于，所述对所述第一语谱图与第二语谱图进行精简的步骤包括：获取所述第一语谱图中的频谱能量排在前设定个数的多个频率值；从所述第一语谱图与所述第二语谱图中抽取所述多个频率值，通过所述多个频率值分别得到精简的第三语谱图和第四语谱图。
4. 根据权利要求2所述的方法，其特征在于，所述根据所述第三语谱图与所述第四语谱图获取所述第一音频文件与所述第二音频文件的偏移时间的步骤包括：根据所述第三语谱图与所述第四语谱图的互功率谱获取能量最大的帧位置；根据所述能量最大的帧位置获取所述第一音频文件与所述第二音频文件的偏移时间。
5. 根据权利要求4所述的方法，其特征在于，所述根据所述第三语谱图与所述第四语谱图的互功率谱获取能量最大的帧位置的步骤包括：对所述第三语谱图与所述第四语谱图进行整形处理；获取整形后的所述第三语谱图与整形后的所述第四语谱图之间的互功率谱；对所述互功率谱进行傅立叶反变换后获取相应的能量值向量；从所述能量值向量中获取能量最大的帧位置。
6. 根据权利要求5所述的方法，其特征在于，所述对所述第三语谱图与所述第四语谱图进行整形处理的步骤包括：对所述第三语谱图与所述第四语谱图分别对应的二维矩阵按顺序拉伸分别形成第维向量与第二一维向量。
7. 根据权利要求4所述的方法，其特征在于，所述根据所述能量最大的帧位置获取所述第一音频文件与所述第二音频文件的偏移时间的步骤包括：根据所述能量最大的帧位置与每一帧所表示的时间的乘积得到所述第一音频文件与所述第二音频文件的偏移时间。
8. 根据权利要求1-7任一所述的方法，其特征在于，所述通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理的步骤包括：根据所述偏移时间对所述第一音频文件与所述第二音频文件进行同步；或者，根据所述偏移时间对所述第一音频文件与所述第二音频文件进行对齐；或者，根据所述偏移时间对所述第一音频文件与所述第二音频文件进行合成；或者，根据所述偏移时间对所述第一音频文件与所述第二音频文件进行分离。
9. 一种对音频文件进行处理的装置，其特征在于，所述装置包括：语谱图获取模块，用于获取与第一音频文件与第二音频文件分别对应的第一语谱图与第二语谱图；偏移时间获取模块，用于通过所述第一语谱图与第二语谱图获取所述第一音频文件与所述第二音频文件的偏移时间；音频处理模块，用于通过所述偏移时间对所述第一音频文件与所述第二音频文件进行关联相关处理。
10. 根据权利要求9所述的装置，其特征在于，所述偏移时间获取模块包括：语谱图精简单元，用于对所述第一语谱图与第二语谱图进行精简，得到与所述第一语谱图相对应的第三语谱图以及与所述第二语谱图对应的第四语谱图；偏移时间获取单元，用于根据所述第三语谱图与所述第四语谱图获取所述第一音频文件与所述第二音频文件的偏移时间。
11. 根据权利要求10所述的装置，其特征在于，所述对所述语谱图精简单元包括：频率值获取单元，用于获取所述第一语谱图中的频谱能量排在前设定个数的多个频率值；语谱图精简子单元，用于从所述第一语谱图与所述第二语谱图中抽取所述多个频率值，通过所述多个频率值分别得到精简的第三语谱图和第四语谱图。
12. 根据权利要求10所述的装置，其特征在于，所述偏移时间获取单元包括：能量最大帧位置获取单元，用于根据所述第三语谱图与所述第四语谱图的互功率谱获取能量最大的巾贞位置；偏移时间获取子单元，用于根据所述能量最大的帧位置获取所述第一音频文件与所述第二音频文件的偏移时间。
13. 根据权利要求12所述的装置，其特征在于，所述能量最大帧位置获取单元包括：整形处理单元，用于对所述第三语谱图与所述第四语谱图进行整形处理；互功率谱获取单元，用于获取整形后的所述第三语谱图与整形后的所述第四语谱图之间的互功率谱；能量值向量获取单元，用于对所述互功率谱进行傅立叶反变换后获取相应的能量值向量；能量最大帧位置获取子单元，用于从所述能量值向量中获取能量最大的帧位置。
14. 根据权利要求13所述的装置，其特征在于，所述整形处理单元对所述第三语谱图与所述第四语谱图分别对应的二维矩阵按顺序拉伸分别形成第一一维向量与第二一维向量。
15. 根据权利要求12所述的装置，其特征在于，所述偏移时间获取子单元根据所述能量最大的帧位置与每一帧所表示的时间的乘积得到所述第一音频文件与所述第二音频文件的偏移时间。
16. 根据权利要求9-15任一所述的装置，其特征在于，所述音频处理模块包括以下单元中的至少一个：音频同步单元，用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行同步；音频对齐单元，用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行对齐；音频合成单元，用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行合成；音频分离单元，用于根据所述偏移时间对所述第一音频文件与所述第二音频文件进行分离。
【文档编号】G10L19/008GK104361889SQ201410589685
【公开日】2015年2月18日申请日期:2014年10月28日优先权日:2014年10月28日
【发明者】王徽蓉申请人:百度在线网络技术（北京）有限公司

本文推荐一种对音频文件进行处理的方法及装置制造方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656353655.html

当前位置：网站首页>专利 >正文

一种对音频文件进行处理的方法及装置制造方法

相关推荐