单声道多音音乐信号的自动转录方法及装置制造方法
【专利摘要】本发明提供了一种单声道多音音乐信号的自动转录方法及装置,该自动转录方法包括:接收单通道多音音乐信号;对所述单声道多音音乐信号进行分离,得到多路单音音乐信号;对各路单音音乐信号进行音色提取,确定演奏乐器信息;对各路单音音乐信号进行旋律、节奏及节拍的提取,获得音频信息;以及根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。上述单声道多音音乐信号的自动转录方法及装置,通过将多音音乐信号分离成多路单音音乐信号,对分离出的各路单音音乐信号分别进行音色和旋律、节奏及节拍的提取,获得演奏乐器信息和音频信息,进而根据所述演奏乐器信息和所述音频信息获得高准确率的多音音乐乐谱。
【专利说明】单声道多音音乐信号的自动转录方法及装置
【技术领域】
[0001]本发明涉及数字信号处理【技术领域】,尤其涉及一种单声道多音音乐信号的自动转录方法及装置。
【背景技术】
[0002]随着数字信号处理技术的进步,音乐信号的传播及保存方式也变得多样化。一段音乐信号的乐谱几乎包含了乐曲中的所有信息,包括旋律、节奏、节拍等。利用某些音频软件,甚至可以通过对乐谱的创作或修改,不需真实乐器演奏就可以生成新的音乐信号。如果计算机能够自动从时域音乐信号中得到乐谱,那么对于音乐的进一步发展将有着非常重要的意义。
[0003]随着音乐信号处理技术的发展,产生了多种音乐信号自动转录装置。但目前存在的音乐信号自动转录装置都存在着各自的局限性。例如,有些装置只针对乐器数字接口(MIDI)格式的音乐信号,然而众所周知,MIDI信号中包含了很丰富的乐谱信息,从MIDI格式的音乐信号中提取乐谱只是一种逻辑转换,并不包含音符识别或节奏提取等具体工作;有些装置只针对单音音乐信号,即音乐信号在任何一个时间点只有不超过一个音符存在,当这些装置面对多音音乐的输入信号,就会失去原有的功能。有些装置可以对多音音乐信号进行乐谱的自动转录,但由于多音信号自身的复杂性及装置的特性,会造成乐谱信息的不准确。
[0004]因此,针对不包含乐谱信息的音乐格式(如wav格式)的多音音乐信号进行高质量的乐谱的自动转录的装置是合乎需要的。
【发明内容】
[0005]本发明提供了一种单声道多音音乐信号的自动转录方法及装置,以解决现有的自动转录装置无法针对多音音乐信号进行转录或乐谱准确率不高的问题。
[0006]本发明提供了一种单声道多音音乐信号的自动转录方法,该方法包括:
[0007]接收单通道多音音乐信号;
[0008]对所述单声道多音音乐信号进行分离,得到多路单音音乐信号;
[0009]对各路单音音乐信号进行音色提取,确定演奏乐器信息;
[0010]对各路单音音乐信号进行旋律、节奏及节拍的提取,获得音频信息;以及
[0011]根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。
[0012]优选地,所述对单声道多音音乐信号进行分离,得到多路单音音乐信号,包括:
[0013]将多音音乐信号进行分帧处理,获得多个音频帧,对各音频帧进行静音检测确定是否为静音帧,对每一非静音帧进行多基频检测,获得音符信息和基频检测值;对不同音符进行谐波数及幅度的估计,获得各音符的幅度和谐波信息,依据贝叶斯谐波模型,利用所述基频估计值,获得时域分音信号;依据预设的帧移及帧数,逐帧对时域分音信号进行合成;或者[0014]所述对各路单音音乐信号进行音色提取,确定演奏乐器信息,包括:
[0015]将各路单音音乐信号分帧,将各帧单音音乐信号进行转换,得到各单音信号的内禀模态函数集合;利用非线性音色模型,提取各帧单音音乐信号的模型参数;将获得的模型参数与预存数据进行对比,判断演奏各路单音音乐信号的乐器信息;或者
[0016]所述对各路单音音乐信号进行旋律、节奏及节拍的提取,获得音频信息,包括:
[0017]将各路单音音乐信号分帧,按照启发式规则和各帧单音音乐信号频谱峰值信息,进行基频检测,得到音高和对应音符;将各帧单音音乐信号归一化,得到一阶差分包络,利用能量突起进行音符起始点检测;对差分后的边沿信号进行处理,得到其自相关信号和自相关相位熵序列,利用二者信息计算节拍检测待检信号;对音符起始点序列进行处理,根据音乐速度范围和音符之间关系将音符节拍分类,并利用各类在待检信号的峰值找出节拍长度作为候选节拍;选取不同的检测起点和节拍值,对整首音乐进行设定权值的多路径跟踪,得到与开始音符匹配的节拍值及节拍起始位置和各个节拍的位置。
[0018]优选地,所述对每一非静音帧进行多基频检测,获得音符信息和基频检测值,包括:
[0019]对每一非静音帧,通过短时傅里叶变换(STFT),获得对应的频谱;在对应的频谱中,提取波峰位置及其对应幅度;按照启发式规则和已提取的波峰位置及其对应幅度进行多基频检测,获得多个音符信息;对相互之间没有倍数关系的基频进行估计,获得第一估计值,对相互之间有倍数关系的基频进行估计,获得第二估计值,根据所述第一估计值和所述第二估计值获得基频估计值;或者
[0020]所述非线性音色模型为基于正弦频率调制的非线性音色模型,该基于正弦频率调制的非线性音色模型为:
【权利要求】
1.一种单声道多音音乐信号的自动转录方法,其特征在于,该方法包括: 接收单通道多音音乐信号; 对所述单声道多音音乐信号进行分离,得到多路单音音乐信号; 对各路单音音乐信号进行音色提取,确定演奏乐器信息; 对各路单音音乐信号进行旋律、节奏及节拍的提取,获得音频信息;以及 根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱。
2.根据权利要求1所述的方法,其特征在于: 所述对单声道多音音乐信号进行分离,得到多路单音音乐信号,包括:将多音音乐信号进行分帧处理,获得多个音频帧,对各音频帧进行静音检测确定是否为静音帧,对每一非静音帧进行多基频检测,获得音符信息和基频检测值;对不同音符进行谐波数及幅度的估计,获得各音符的幅度和谐波信息,依据贝叶斯谐波模型,利用所述基频估计值,获得时域分音信号;依据预设的帧移及帧数,逐帧对时域分音信号进行合成;或者所述对各路单音音乐信号进行音色提取,确定演奏乐器信息,包括: 将各路单音音乐信号分帧,将各帧单音音乐信号进行转换,得到各单音信号的内禀模态函数集合;利用非线性音色模型,提取各帧单音音乐信号的模型参数;将获得的模型参数与预存数据进行对比,判断演奏各路单音音乐信号的乐器信息;或者 所述对各路单音音乐信号进行旋律、节奏及节拍的提取,获得音频信息,包括: 将各路单音音乐信号分帧,按照启发 式规则和各帧单音音乐信号频谱峰值信息,进行基频检测,得到音高和对应音符;将各帧单音音乐信号归一化,得到一阶差分包络,利用能量突起进行音符起始点检测;对差分后的边沿信号进行处理,得到其自相关信号和自相关相位熵序列,利用二者信息计算节拍检测待检信号;对音符起始点序列进行处理,根据音乐速度范围和音符之间关系将音符节拍分类,并利用各类在待检信号的峰值找出节拍长度作为候选节拍;选取不同的检测起点和节拍值,对整首音乐进行设定权值的多路径跟踪,得到与开始音符匹配的节拍值及节拍起始位置和各个节拍的位置。
3.根据权利要求2所述的方法,其特征在于: 所述对每一非静音帧进行多基频检测,获得音符信息和基频检测值,包括: 对每一非静音帧,通过短时傅里叶变换(STFT),获得对应的频谱;在对应的频谱中,提取波峰位置及其对应幅度;按照启发式规则和已提取的波峰位置及其对应幅度进行多基频检测,获得多个音符信息;对相互之间没有倍数关系的基频进行估计,获得第一估计值,对相互之间有倍数关系的基频进行估计,获得第二估计值,根据所述第一估计值和所述第二估计值获得基频估计值;或者 所述非线性音色模型为基于正弦频率调制的非线性音色模型,该基于正弦频率调制的非线性音色模型为:
N「MΛ'(/) = V4: (/)sin ο^Ι + ?φ;.sin jay + Ri 1)1.=0L /=1_ 其中,Ai是第i个调频分量的幅度,Oi为载波频率,吟为第i个调频分量的第j个调频系数,R为残余分量。
4.一种单声道多音音乐信号的自动转录装置,其特征在于,该装置包括: 音频信号接收单元,用于接收单通道多音音乐信号;多音音乐信号分离器,用于将来自所述音频信号接收单元的多音音乐信号分离为多路单音音乐信号; 音色提取器,用于针对所述多音音乐信号分离器分离的各路单音音乐信号进行音色提取,获得演奏乐器信息; 节奏旋律提取器,用于针对所述多音音乐信号分离器分离的各路单音音乐信号分别进行旋律、节奏及节拍的提取,获得音频信息;以及 乐谱输出单元,用于根据所述演奏乐器信息和所述音频信息获得多音音乐乐谱并输出。
5.根据权利要求4所述的装置,其特征在于,该多音音乐信号分离器包括: 多基频提取器,用于对相互之间没有倍数关系的基频进行估计,获得第一估计值;以及,对相互之间有倍数关系的基频进行估计,获得第二估计值; 基频估计值获得单元,用于根据所述第一估计值和所述第二估计值获得基频估计值; 音频参数提取器,用于依据贝叶斯谐波模型,利用所述基频估计值,获得时域分音信号; 音频信号合成器,用于依据预设的帧移及帧数,逐帧对时域分音信号进行合成。
6.根据权利要求5所述的装置,其特征在于: 所述多基频提取器包括分帧加窗单元、傅里叶变换单元、估计无倍数关系基频单元、查找已估计基频谐波单元、插值处理单元、估计有倍数关系基频单元,其中: 所述分帧加窗单兀,用于根据窗函数及帧长对输入的多音音乐信号进行分帧加窗处理,获得多个音频帧,各音频帧根据预设帧移长度进行帧移,使音频帧间相互重叠; 傅里叶变换单元,用于对各音频帧进行短时傅里叶变换,获得各音频帧数据对应的频谱数据; 估计无倍数关系基频单元,用于对相互之间没有倍数关系的基频进行估计,获得第一估计值; 查找已估计基频谐波单元,用于在音频帧的频谱中查找已获得基频估计值对应的谐波信息,包括谐波幅度与谐波位置; 插值处理单元,用于已获得基频估计值之间拥有相同谐波的情况,对该音频帧的频谱进行插值处理,以避免重叠的谐波影响该音频帧中其他基频的估计; 估计有倍数关系基频单元,用于根据音频帧的频谱特性对相互间有倍数关系的基频进行估计,获得第二估计值。
7.根据权利要求6所述的装置,其特征在于: 所述估计有倍数关系基频单元,具体用于:获得基频建议值;获得所述基频建议值在频谱中的谐波数;获得所述基频建议值的谐波在频谱中为区域最大值的次数;根据所述谐波数和所述次数获得所述第二估计值。
8.根据权利要求4-7任一权利要求所述的装置,其特征在于: 所述音色提取器,具体用于:将各路单音音乐信号分帧,将各帧单音音乐信号进行转换,得到各单音信号的内禀模态函数集合;利用非线性音色模型,提取各帧单音音乐信号的模型参数;将获得的模型参数与预存数据进行对比,判断演奏各路单音音乐信号的乐器信肩、O
9.根据权利要求8所述的装置,其特征在于: 所述非线性音色模型为基于正弦频率调制的非线性音色模型,该基于正弦频率调制的非线性音色模型为:
10.根据权利要求4-7任一权利要求所述的装置,其特征在于,所述节奏旋律提取器包括节拍分析器和旋律提取器,其中: 所述节拍分析器,用于获取分离后的单音音乐信号的一阶差分包络,并进行能量检测得到音符起始点序列;利用所述一阶差分包络获得单音音乐信号的无偏自相关序列及其熵序列,将二者相除得到待检信号;将节拍聚类和进行多路径跟踪提取节奏特征; 所述旋律提取器,用于按照启发式规则和波峰位置及其对应幅度进行单基频检测,获得基频;将所述基频与首闻对照表进行对照,得到首闻?目息。
【文档编号】G10L15/02GK103854644SQ201210516769
【公开日】2014年6月11日 申请日期:2012年12月5日 优先权日:2012年12月5日
【发明者】王晖, 王雨田, 朱兵, 王颖, 宫妍竹 申请人:中国传媒大学
单声道多音音乐信号的自动转录方法及装置制造方法
相关推荐
专利名称:一种纸质的台灯的制作方法技术领域:本实用新型涉及一种台灯,特别涉及一种纸质的台灯。背景技术:现有技术中,如专利ZL201210167890.6公开了一种台灯,台灯的照明灯体包括壳体,在壳体内设有第一光源和转盘,转盘上嵌设有若干不同
专利名称:电光学板,其驱动方法及电子设备的制作方法技术领域:本发明是关于将信号输送给多条扫描线的各个配线,能够高密度挠曲的电光学板,其驱动方法及电子设备。现有技术在有源矩阵方式液晶板上,于排列成矩阵状的各个像素电极上设置开关元件,同时设置与
一种具有阻燃和吸声功能的三层复合材料的制作方法【专利摘要】本发明涉及一种具有阻燃和吸声功能的三层复合材料,包括外层的两层多孔保温材料层和中间的一层硬质阻尼隔声材料层的三层复合结构,且所述的多孔保温材料层为开孔型多孔保温材料。本发明在提高声学
专利名称:一种无线电激光自行车灯的制作方法技术领域:本实用新型涉及一种灯具,尤其涉及一种无线遥控的电激光自行车灯。背景技术:我国素来被称为是自行车大国,随着经济发展自行车逐渐淡出市场,但是近年来民众环保意识的提供,以及一种自行车户外运动的推
专利名称:制作液晶显示器背光源发光体的材料及其制造方法技术领域:本发明属于金属材料加工技术领域,特别是液晶显示器背光源发光体 材料的加工。技术背景发光体是液晶显示器的光源,我们所能够看到的图象就是由发光体发 出光。目前市场上使用的背光源发光
专利名称:基于高斯相似度分析的说话人自适应方法技术领域:本发明涉及一种语音识别技术领域中的说话人自适应方法,尤其涉及一种对协方差阵的说话人自适应方法。背景技术: 我们知道,不同的人不仅发声器官本身,如声带的形状、声道的长度、鼻腔口腔的大小都