一种伪装声音的识别方法及装置制造方法-品牌商务网

一种伪装声音的识别方法及装置制造方法
【专利摘要】本发明公开一种伪装声音的识别方法及装置，该识别方法是利用语音的基频特性估计语音转换的系数，并对Mel频率倒谱系数提取算法进行了改进，即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中，使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后，将以上方法整合到GMM-UBM（高斯混合模型-一致背景模型）识别框架中，计算语音之间的相似度。同时，还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高，漏检和虚警皆比常规的方案要低。
【专利说明】一种伪装声音的识别方法及装置
【技术领域】
[0001]本发明涉及多媒体信息安全领域，更具体地，涉及一种伪装声音的识别方法及装置。
【背景技术】
[0002]语音转换(Voice Transformation)是最常用的语音处理方法之一。其功能是把一声音变为另一听起来自然却完全不同的声音。语音转换通常用于音乐制作或保护说话人的安全和隐私，但也有可能被罪犯用来掩饰声音，以防被识别到身份。因此语音转换后的说话人身份识别具有重要的应用价值。
[0003]语音转换的一般步骤:
[0004]I)对信号X (η)分帧、加窗:
【权利要求】
1.一种伪装声音的识别方法，其特征在于，所述方法包括: 在训练阶段，利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ；在训练阶段，提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频，利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值& ;建立说话人j的模型'=(λ j, fj)，并存储在模型数据库中；在训练阶段获得阈值Θ，阈值Θ获取方法:计算客户分数及假冒者分数，利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率，其中客户分数ClientScores，是说话人语音片段在该说话人模型下的概率，假冒者分数Imposter Scores，是说话人语音片段在其它说话人模型下的概率；在测试阶段，语音Y为经过转换后的语音，提取语音Y的基频平均值fY ;利用fY/fj计算转换系数；利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ (X)；比较概率Λ (X)与阈值Θ，若所得概率大于阈值Θ则语音Y为j所说片段；否则语音Y不为j所说；其中所述改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后，对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |，FFT系数的幅值线性插值伸缩如下公式所示:
F(k/ ) Ι = μ |F(k) I+ (1-μ ) |F(k+l) O ≤ k〈N/2 OC <N/2k-\k'l{\ia')]
μ =k' / (I/ a ' )-k 其中I/a '为所述估计的转换系数的倒数，a '为估计的转换系数，a ' =fY/fJO
2.根据权利要求1所述的伪装声音的识别方法，其特征在于，所述基频的提取步骤如下: (1)对信号加窗求得到任一时刻tmid前后一个预定长度值的信号； (2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数； (3)两相关函数相除，最大值处即为周期T，获取该时刻tmid的基频F。
3.根据权利要求2所述的伪装声音的识别方法，其特征在于，所述基频平均值为mean (F), mean (.)为求平均。
4.根据权利要求1所述的伪装声音的识别方法，其特征在于，当α' >1，需进行频谱补偿；令奈奎斯特频率为Fn ;补偿方法是在Fn/2/ α，至Fn/2/ α，_Fn/2之间的频谱中对称拷贝入Fn/2/ α，至Fn/2/的范围内。
5.一种伪装声音的识别装置，其特征在于，包括: 训练模块，用于利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ;提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频，利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值f」；建立说话人j的模型Vj= ( λ j, fj)，并存储在模型数据库中，在训练阶段获得阈值Θ ；其中阈值Θ获取方法:计算客户分数及假冒者分数，利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率，其中客户分数Client Scores，是说话人语音片段在该说话人模型下的概率，假冒者分数Imposter Scores，是说话人语音片段在其它说话人模型下的概率；测试模块，在语音Y为经过转换后的语音，提取其基频平均值fY ;利用fY/%计算转换系数；利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ⑴；识别模块，比较概率Λ⑴与阈值Θ，若所得概率大于阈值Θ则语音Y为j所说片段；否则语音Y不为j所说；其中测试模块中采用的改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后，对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |，FFT系数的幅值线性插值伸缩如下公式所示:
【文档编号】G10L17/04GK103730121SQ201310728591
【公开日】2014年4月16日申请日期:2013年12月24日优先权日:2013年12月24日
【发明者】王泳, 黄继武申请人:中山大学, 深圳大学

本文推荐一种伪装声音的识别方法及装置制造方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656411695.html

当前位置：网站首页>专利 >正文

一种伪装声音的识别方法及装置制造方法

相关推荐