一种伪装声音的识别方法及装置制造方法
【专利摘要】本发明公开一种伪装声音的识别方法及装置,该识别方法是利用语音的基频特性估计语音转换的系数,并对Mel频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中,使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后,将以上方法整合到GMM-UBM(高斯混合模型-一致背景模型)识别框架中,计算语音之间的相似度。同时,还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高,漏检和虚警皆比常规的方案要低。
【专利说明】一种伪装声音的识别方法及装置
【技术领域】
[0001]本发明涉及多媒体信息安全领域,更具体地,涉及一种伪装声音的识别方法及装置。
【背景技术】
[0002]语音转换(Voice Transformation)是最常用的语音处理方法之一。其功能是把一声音变为另一听起来自然却完全不同的声音。语音转换通常用于音乐制作或保护说话人的安全和隐私,但也有可能被罪犯用来掩饰声音,以防被识别到身份。因此语音转换后的说话人身份识别具有重要的应用价值。
[0003]语音转换的一般步骤:
[0004]I)对信号X (η)分帧、加窗:
【权利要求】
1.一种伪装声音的识别方法,其特征在于,所述方法包括: 在训练阶段,利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ; 在训练阶段,提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值& ;建立说话人j的模型'=(λ j, fj),并存储在模型数据库中; 在训练阶段获得阈值Θ,阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数ClientScores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 在测试阶段,语音Y为经过转换后的语音,提取语音Y的基频平均值fY ;利用fY/fj计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ (X); 比较概率Λ (X)与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中所述改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
F(k/ ) Ι = μ |F(k) I+ (1-μ ) |F(k+l) O ≤ k〈N/2 OC <N/2k-\k'l{\ia')]
μ =k' / (I/ a ' )-k 其中I/a '为所述估计的转换系数的倒数,a '为估计的转换系数,a ' =fY/fJO
2.根据权利要求1所述的伪装声音的识别方法,其特征在于,所述基频的提取步骤如下: (1)对信号加窗求得到任一时刻tmid前后一个预定长度值的信号; (2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数; (3)两相关函数相除,最大值处即为周期T,获取该时刻tmid的基频F。
3.根据权利要求2所述的伪装声音的识别方法,其特征在于,所述基频平均值为mean (F), mean (.)为求平均。
4.根据权利要求1所述的伪装声音的识别方法,其特征在于,当α' >1,需进行频谱补偿;令奈奎斯特频率为Fn ;补偿方法是在Fn/2/ α,至Fn/2/ α,_Fn/2之间的频谱中对称拷贝入Fn/2/ α,至Fn/2/的范围内。
5.一种伪装声音的识别装置,其特征在于,包括: 训练模块,用于利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ;提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值f」;建立说话人j的模型Vj= ( λ j, fj),并存储在模型数据库中,在训练阶段获得阈值Θ ; 其中阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数Client Scores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 测试模块,在语音Y为经过转换后的语音,提取其基频平均值fY ;利用fY/%计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ⑴; 识别模块,比较概率Λ⑴与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中测试模块中采用的改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
【文档编号】G10L17/04GK103730121SQ201310728591
【公开日】2014年4月16日 申请日期:2013年12月24日 优先权日:2013年12月24日
【发明者】王泳, 黄继武 申请人:中山大学, 深圳大学
一种伪装声音的识别方法及装置制造方法
相关推荐
专利名称:摄像装置的防抖控制电路的制作方法技术领域:本发明涉及装入摄像装置中的防抖控制电路。 背景技术:近年,数字相机或数字摄影机等摄像装置通过增加其中具有的摄像元 件的象素数,实现高画质化。另一方面,作为实现摄像装置的高画质化的 其他方法
专利名称:一种服务智能导航方法和系统的制作方法技术领域:本发明涉及人工智能计算机领域中的自然语言处理,特别涉及利用自 然语言处理实现服务的智能导航。背景技术:随着信息技术的发展,在现实生活中出现了多种类型的增值服务,如 网站推出的彩铃下载、
专利名称:液晶显示装置及其驱动方法技术领域:本发明涉及一种液晶显示装置及其驱动方法,特别是涉及一种改善色温的液晶 显示装置及其驱动方法。背景技术:液晶显示器(LCD)是利用夹在液晶分子上电场强度的变化,改变液晶分子的 取向控制透光的强弱来显
专利名称:可实现2d3d转换的液晶显示装置的制作方法技术领域:本实用新型涉及液晶显示技术,尤其涉及一种可实现2D3D转换的液 晶显示装置。背景技术:在专利申请号为03822932.3的专利中公开了通过在液晶显示装置中附 加可控液晶光栅来实现
专利名称:有机光导鼓流水线涂布工艺的制作方法技术领域:本发明涉及有机光导鼓领域,具体地说是一种有机光导鼓流水线涂布工艺。背景技术:现有的有机光导鼓流水线涂布工艺存在工艺繁琐,或者在操作时出现涂料流量不足,涂布涂层不均、竖纹;或者在生产过程中
专利名称:自调透光度的遮光装置的制作方法技术领域:本发明涉及一种可根据光源的光强度变化自动调整透光度的护目器材。它由保护玻璃,液晶器件,强光信号提取及信号处理,控制电路构成。本发明适用于作为焊工面罩的观察窗或有弧光等其它强光工作场合的护目器