当前位置:网站首页>专利 >正文

一种伪装声音的识别方法及装置制造方法

一种伪装声音的识别方法及装置制造方法
【专利摘要】本发明公开一种伪装声音的识别方法及装置,该识别方法是利用语音的基频特性估计语音转换的系数,并对Mel频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算法中,使其能近似计算出转换语音在转换前的Mel频率倒谱系数。最后,将以上方法整合到GMM-UBM(高斯混合模型-一致背景模型)识别框架中,计算语音之间的相似度。同时,还能利用该估计的转换系数将转换后的语音还原为原语音。本发明在识别性能上相比常规识别取证方法有极大的提高,漏检和虚警皆比常规的方案要低。
【专利说明】一种伪装声音的识别方法及装置
【技术领域】
[0001]本发明涉及多媒体信息安全领域,更具体地,涉及一种伪装声音的识别方法及装置。
【背景技术】
[0002]语音转换(Voice Transformation)是最常用的语音处理方法之一。其功能是把一声音变为另一听起来自然却完全不同的声音。语音转换通常用于音乐制作或保护说话人的安全和隐私,但也有可能被罪犯用来掩饰声音,以防被识别到身份。因此语音转换后的说话人身份识别具有重要的应用价值。
[0003]语音转换的一般步骤:
[0004]I)对信号X (η)分帧、加窗:
【权利要求】
1.一种伪装声音的识别方法,其特征在于,所述方法包括: 在训练阶段,利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ; 在训练阶段,提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值& ;建立说话人j的模型'=(λ j, fj),并存储在模型数据库中; 在训练阶段获得阈值Θ,阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数ClientScores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 在测试阶段,语音Y为经过转换后的语音,提取语音Y的基频平均值fY ;利用fY/fj计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ (X); 比较概率Λ (X)与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中所述改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
F(k/ ) Ι = μ |F(k) I+ (1-μ ) |F(k+l) O ≤ k〈N/2 OC <N/2k-\k'l{\ia')]
μ =k' / (I/ a ' )-k 其中I/a '为所述估计的转换系数的倒数,a '为估计的转换系数,a ' =fY/fJO
2.根据权利要求1所述的伪装声音的识别方法,其特征在于,所述基频的提取步骤如下: (1)对信号加窗求得到任一时刻tmid前后一个预定长度值的信号; (2)求所述预定长度值的信号的自相关函数和窗函数的自相关函数; (3)两相关函数相除,最大值处即为周期T,获取该时刻tmid的基频F。
3.根据权利要求2所述的伪装声音的识别方法,其特征在于,所述基频平均值为mean (F), mean (.)为求平均。
4.根据权利要求1所述的伪装声音的识别方法,其特征在于,当α' >1,需进行频谱补偿;令奈奎斯特频率为Fn ;补偿方法是在Fn/2/ α,至Fn/2/ α,_Fn/2之间的频谱中对称拷贝入Fn/2/ α,至Fn/2/的范围内。
5.一种伪装声音的识别装置,其特征在于,包括: 训练模块,用于利用最大期望值EM算法从背景语音库中计算一致背景模型UBM λ bkg ;提取说话人j的测试语音S」的Mel倒谱系数MFCC及基频,利用最大后验概率MAP算法计算说话人j的高斯混合模型GMM Aj.,计算基频平均值f」;建立说话人j的模型Vj= ( λ j, fj),并存储在模型数据库中,在训练阶段获得阈值Θ ; 其中阈值Θ获取方法:计算客户分数及假冒者分数,利用这两类分数的分布选择阈值Θ以达到符合应用要求的漏检率和虚警率,其中客户分数Client Scores,是说话人语音片段在该说话人模型下的概率,假冒者分数Imposter Scores,是说话人语音片段在其它说话人模型下的概率; 测试模块,在语音Y为经过转换后的语音,提取其基频平均值fY ;利用fY/%计算转换系数;利用改进型MFCC提取算法计算Y转换前的原始MFCC系数X ;经基于GMM-UBM的概率估计算法得出Y为模型 ' 的概率Λ⑴; 识别模块,比较概率Λ⑴与阈值Θ,若所得概率大于阈值Θ则语音Y为j所说片段;否则语音Y不为j所说; 其中测试模块中采用的改进型MFCC提取算法具体为:在MFCC提取算法中的加窗和FFT变换之后,对FFT系数的幅值|F(k) I进行线性插值伸缩得出|F(k' ) |,FFT系数的幅值线性插值伸缩如下公式所示:
【文档编号】G10L17/04GK103730121SQ201310728591
【公开日】2014年4月16日 申请日期:2013年12月24日 优先权日:2013年12月24日
【发明者】王泳, 黄继武 申请人:中山大学, 深圳大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:带共鸣器二胡的加工方法技术领域:本发明涉及到乐器,尤其是涉及到一种带共鸣器二胡的加工方法。背景技术::近百年来,中国的二胡音乐艺术已经发展到了一个很高的水平,在演奏、创作、教育等方面都取得了突出的成就。大量优秀二胡作品的出现,推动

    专利发布时间:2025-05-15阅读:(81)

    专利名称::背光模组与液晶显示装置的制作方法技术领域::本发明是有关于一种液晶显示器,且特别是有关于一种液晶显示器及其背光模组。背景技术::液晶显示装置的主要构件包括液晶面板以及背光模组。液晶面板用以显示画面,而背光模组用以提供足够的亮度给

    专利发布时间:2025-05-15阅读:(73)

    专利名称:彩色安全打印机的制作方法技术领域:本发明涉及图像输出领域,尤其是有关于一种可实现保密打印的彩色安全打印机。背景技术:打印机是家用、办公、商用领域中不可或缺的图像输出设备,例如喷墨彩色打印机、激光彩色打印机等,通过打印机将电子文件输

    专利发布时间:2025-05-15阅读:(102)

    专利名称:用于作动显示器的方法和装置的制作方法技术领域:总体上本发明涉及视频显示器的领域,本发明尤其涉及机械作动的显示装置。 背景技术:用机械的光调制器构成的显示器是基于液晶技术的显示器的一种有诱惑力的可供选择的替代方案。机械的光调制器快速

    专利发布时间:2025-05-15阅读:(66)

    一种语音通话方法及装置制造方法【专利摘要】本发明公开了一种语音通话方法,所述方法包括:接收通话语音X(t),并对所述语音X(t)进行去噪,得到去噪后的语音X0(t);确定所述去噪后的语音X0(t)的幅度均值小于存储的原语音Y(t)的幅度均值

    专利发布时间:2025-05-15阅读:(73)

    专利名称:光纤连接器组件及其制造方法技术领域:本发明涉及一种在光纤系统中连接光纤用的光纤连接器组件及其制造方法,特别涉及一种在光纤之间采用光波导器件的组件。在光通信系统中,信息通常是借助于激光器或发光二极管之类的光源产生的光频载波在光纤中传

    专利发布时间:2025-05-15阅读:(71)