基于噪声屏蔽核的说话人识别方法
【专利摘要】本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
【专利说明】基于噪声屏蔽核的说话人识别方法
【技术领域】
[0001]本发明属于语音信号处理领域,尤其涉及一种基于噪声屏蔽核的说话人识别方法。
【背景技术】
[0002]说话人识别技术可以通过语音识别说话人的身份,它在远程身份认证、信息安全等领域有着广泛的应用。目前在说话人识别领域,GSV-SVM (基于高斯混合模型均值超矢量的支持向量机)是一种常用的方法,它先利用UBM (通用背景模型)生成GSV (高斯混合模型均值超矢量),然后再用SVM (支持向量机)进行说话人识别。该方法容易受噪声的影响,为了解决这一问题,一般在前端进行语音增强,或者建模时采用信道补偿技术。但这些方法都需要引入额外的模块来处理噪声,实现时较为复杂。
【发明内容】
[0003]针对上述现有技术存在的问题,本发明提出一种基于噪声屏蔽核的说话人识别方法,其特征在于,所述方法具体包括以下步骤:
[0004]步骤1:输入音频数据,对音频数据逐帧提取短时特征;
[0005]步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ;
[0006]步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ;
[0007]步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ;
[0008]步骤5:用混合GMM生成噪声屏蔽超矢量;
[0009]步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
[0010]所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
[0011]所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
[0012]所述步骤2和步骤3中GMM模型训练方法采用EM算法。
[0013]所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
[0014]所述步骤4中GMM拼接方法为:设语音GMM参数为{?,Σ1,^ = 1,...,Μ},噪声6丽参数为{0二义^ = 1,...,#},其中界
为高斯混元的权重,μ为高斯混元的均值向量,Σ为高斯混元的方差矩阵,下标m为高斯混元的标号,上标s表示语音,上标η表示噪声,则混合GMM的参数为:[0015]
【权利要求】
1.一种基于噪声屏蔽核的说话人识别方法,其特征在于,该方法具体包括以下步骤: 步骤1:输入音频数据,对音频数据逐帧提取短时特征; 步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ; 步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ; 步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ; 步骤5:用混合GMM生成噪声屏蔽超矢量; 步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
2.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
3.根据权利要求1或2所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
4.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2和步骤3中GMM模型训练方法采用EM算法。
5.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
6.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤4中GMM拼接方法为:设语音GMM参数为{
7.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的产生方法为仅计算前M个混元对应的维,屏蔽掉噪声对应的维。
8.根据权利要求1或7所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的具体产生方法如下: 步骤501:假设一段音频的短时倒谱特征为{xt,t=l,…,Τ},其中X为一帧特征,下标t为帧标号,T为总帧数,逐帧计算各个高斯混元的后验概率,t=l,…,T,m=l,…,M:
9.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述SVM的训练和测试中核函数采用线性核。
【文档编号】G10L17/20GK103714818SQ201310681894
【公开日】2014年4月9日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】张卫强, 刘加 申请人:清华大学
基于噪声屏蔽核的说话人识别方法
相关推荐
专利名称:平面光波导分路器芯片切割工艺的制作方法技术领域:本发明涉及一种芯片切割工艺,尤其涉及一种平面光波导分路器芯片切割工艺。背景技术:随着网络技术的发展,网络的应用也不断升级,从而对对布线系统的带宽不断提出更高的要求。系统供应商和最终用
专利名称:光波导器件的制作方法技术领域:本发明涉及在光通信、光信息处理、其他的一般光学中广泛使用 的光波导器件。背景技术:一般,在光波导器件中,通过光波导路径传播从发光元件发出的光(例如参考专利文献1)。图5模式地表示该光波导器件。在图5
专利名称:一种充电蜡烛灯的制作方法技术领域:本实用新型涉及一种照明灯具,尤其涉及一种充电蜡烛灯。背景技术:常用的充电蜡烛灯,其开关以及适配器输入口等都设置在底面上,要开关灯或者充电时,需要将整个灯具翻转过来才能进行操作,十分不方便。实用新型
专利名称:可安装拆卸体和图像形成装置的制作方法技术领域:本发明涉及一种可安装拆卸体和图像形成装置。 背景技术:通常,在诸如复印机和打印机等图像形成装置中,为了重新补给诸如显影剂等耗材,或者为了使随着使用而经时磨损的部件易于更换或修复,广泛使
专利名称:音频处理的制作方法技术领域:本发明涉及音频处理。背景技术:在诸如数字指紋标识或水印标识的应用(可以将其统称为侦辨(forensic)标记)当中,可以将有效载荷信号以诸如伪随机噪声信 号的噪声模式的形式插入到初级音频信号当中。其目的
专利名称:基于倒谱特征线性情感补偿的说话人识别方法技术领域:本发明涉及生物特征识别技术,主要是一种基于倒谱特征线性情感补偿的说话人识别方法。背景技术: 生物特征识别技术是指通过计算机利用人类自身生理或行为特征进行身份认证的一种技术,它以人体