一种伪装声音的识别方法及装置制造方法
【专利摘要】本发明公开一种伪装声音的识别方法及装置,该识别方法是利用语音的基频特性估计语音转换的系数,并对Mel频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中,使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后,将以上方法整合到GMM-UBM(高斯混合模型-一致背景模型)识别框架中,计算语音之间的相似度。同时,还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高,漏检和虚警皆比常规的方案要低。
【专利说明】一种伪装声音的识别方法及装置
【技术领域】
[0001]本发明涉及多媒体信息安全领域,更具体地,涉及一种伪装声音的识别方法及装置。
【背景技术】
[0002]语音转换(Voice Transformation)是最常用的语音处理方法之一。其功能是把一声音变为另一听起来自然却完全不同的声音。语音转换通常用于音乐制作或保护说话人的安全和隐私,但也有可能被罪犯用来掩饰声音,以防被识别到身份。因此语音转换后的说话人身份识别具有重要的应用价值。
[0003]语音转换的一般步骤:
[0004]I)对信号X (η)分帧、加窗:
【权利要求】
1.一种伪装声音的识别方法,其特征在于,所述方法包括: 在训练阶段,利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ; 在训练阶段,提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值& ;建立说话人j的模型'=(λ j, fj),并存储在模型数据库中; 在训练阶段获得阈值Θ,阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数ClientScores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 在测试阶段,语音Y为经过转换后的语音,提取语音Y的基频平均值fY ;利用fY/fj计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ (X); 比较概率Λ (X)与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中所述改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
F(k/ ) Ι = μ |F(k) I+ (1-μ ) |F(k+l) O ≤ k〈N/2 OC <N/2k-\k'l{\ia')]
μ =k' / (I/ a ' )-k 其中I/a '为所述估计的转换系数的倒数,a '为估计的转换系数,a ' =fY/fJO
2.根据权利要求1所述的伪装声音的识别方法,其特征在于,所述基频的提取步骤如下: (1)对信号加窗求得到任一时刻tmid前后一个预定长度值的信号; (2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数; (3)两相关函数相除,最大值处即为周期T,获取该时刻tmid的基频F。
3.根据权利要求2所述的伪装声音的识别方法,其特征在于,所述基频平均值为mean (F), mean (.)为求平均。
4.根据权利要求1所述的伪装声音的识别方法,其特征在于,当α' >1,需进行频谱补偿;令奈奎斯特频率为Fn ;补偿方法是在Fn/2/ α,至Fn/2/ α,_Fn/2之间的频谱中对称拷贝入Fn/2/ α,至Fn/2/的范围内。
5.一种伪装声音的识别装置,其特征在于,包括: 训练模块,用于利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ;提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值f」;建立说话人j的模型Vj= ( λ j, fj),并存储在模型数据库中,在训练阶段获得阈值Θ ; 其中阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数Client Scores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 测试模块,在语音Y为经过转换后的语音,提取其基频平均值fY ;利用fY/%计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ⑴; 识别模块,比较概率Λ⑴与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中测试模块中采用的改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
【文档编号】G10L17/04GK103730121SQ201310728591
【公开日】2014年4月16日 申请日期:2013年12月24日 优先权日:2013年12月24日
【发明者】王泳, 黄继武 申请人:中山大学, 深圳大学
一种伪装声音的识别方法及装置制造方法
相关推荐
专利名称:家具用门拉手led灯系统的制作方法技术领域:本实用新型涉及家具技术领域,特别涉及一种家具用门拉手LED灯系统。背景技术:目前市场上所有的家具领域的门拉手均是靠拉手的本身的颜色与造型完成装饰效果,虽然五花八门,但形式单一。而在黑暗当
专利名称:多功能扫帚的制作方法技术领域:本实用新型涉及扫帚,是一种多功能扫帚。背景技术:扫帚是一种除去尘土、垃圾的用具,是人们日常生活中用于打扫卫生的主要日用品之一。其结构较为简单,一般由扫帚头和扫帚杆组成,扫帚头设有帚毛。为便于此类扫帚功
专利名称:手电筒的制作方法技术领域:本实用新型是ー种照明工具,特别是涉及ー种手电筒。背景技术:手电筒,是ー种常用的照明工具,一般来说,手电筒的结构都是一致的,一个电池仓ー个光源,这样的手电筒导致了照明时,照度和照明范围都有限,在ー些野外生存
专利名称:面光源模组led支架的制作方法技术领域:本发明属于一种模组LED封装用支架,特别涉及室内或户外照明 级LED灯具产品用面光源模组LED封装部件。 背景技术:节能,环保,寿命长是LED产品的显著特点。目前,随着LED 芯片和封装工艺
专利名称:声音分析装置、声音分析方法、声音分析程序及系统集成电路的制作方法技术领域:本发明涉及在便携式终端上根据声音信号判定周围的环境的声音分析 装置,特别涉及提高环境判定时的精度的改良技术。背景技术:以往,作为声音分析技术,已知在以下专利
专利名称:便携式乐器辅助装置的制作方法技术领域:本实用新型涉及一种乐器辅助装置,特别是指一种便携式乐器辅助装置。背景技术:学习和演奏乐器时通常需使用调校装置对乐器进行调校以获得最佳乐音或采用节拍器来演示音乐节拍和节奏以便使用者学习和掌握节拍