基于噪声屏蔽核的说话人识别方法
【专利摘要】本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
【专利说明】基于噪声屏蔽核的说话人识别方法
【技术领域】
[0001]本发明属于语音信号处理领域,尤其涉及一种基于噪声屏蔽核的说话人识别方法。
【背景技术】
[0002]说话人识别技术可以通过语音识别说话人的身份,它在远程身份认证、信息安全等领域有着广泛的应用。目前在说话人识别领域,GSV-SVM (基于高斯混合模型均值超矢量的支持向量机)是一种常用的方法,它先利用UBM (通用背景模型)生成GSV (高斯混合模型均值超矢量),然后再用SVM (支持向量机)进行说话人识别。该方法容易受噪声的影响,为了解决这一问题,一般在前端进行语音增强,或者建模时采用信道补偿技术。但这些方法都需要引入额外的模块来处理噪声,实现时较为复杂。
【发明内容】
[0003]针对上述现有技术存在的问题,本发明提出一种基于噪声屏蔽核的说话人识别方法,其特征在于,所述方法具体包括以下步骤:
[0004]步骤1:输入音频数据,对音频数据逐帧提取短时特征;
[0005]步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ;
[0006]步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ;
[0007]步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ;
[0008]步骤5:用混合GMM生成噪声屏蔽超矢量;
[0009]步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
[0010]所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
[0011]所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
[0012]所述步骤2和步骤3中GMM模型训练方法采用EM算法。
[0013]所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
[0014]所述步骤4中GMM拼接方法为:设语音GMM参数为{?,Σ1,^ = 1,...,Μ},噪声6丽参数为{0二义^ = 1,...,#},其中界
为高斯混元的权重,μ为高斯混元的均值向量,Σ为高斯混元的方差矩阵,下标m为高斯混元的标号,上标s表示语音,上标η表示噪声,则混合GMM的参数为:[0015]
【权利要求】
1.一种基于噪声屏蔽核的说话人识别方法,其特征在于,该方法具体包括以下步骤: 步骤1:输入音频数据,对音频数据逐帧提取短时特征; 步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ; 步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ; 步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ; 步骤5:用混合GMM生成噪声屏蔽超矢量; 步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
2.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
3.根据权利要求1或2所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
4.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2和步骤3中GMM模型训练方法采用EM算法。
5.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
6.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤4中GMM拼接方法为:设语音GMM参数为{
7.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的产生方法为仅计算前M个混元对应的维,屏蔽掉噪声对应的维。
8.根据权利要求1或7所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的具体产生方法如下: 步骤501:假设一段音频的短时倒谱特征为{xt,t=l,…,Τ},其中X为一帧特征,下标t为帧标号,T为总帧数,逐帧计算各个高斯混元的后验概率,t=l,…,T,m=l,…,M:
9.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述SVM的训练和测试中核函数采用线性核。
【文档编号】G10L17/20GK103714818SQ201310681894
【公开日】2014年4月9日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】张卫强, 刘加 申请人:清华大学
基于噪声屏蔽核的说话人识别方法
相关推荐
专利名称:一种语音增强的系统的制作方法技术领域:本发明涉及语音增强技术领域,特别是涉及一种语音增强的系统。 背景技术:语音增强技术应用于噪声环境下的语音通信,可以提高通话质量;应用于人机对话,可以提高识别正确率。在人们的日常生活的各种噪声环
一种新型可移动节能台灯的制作方法【专利摘要】本发明公开了一种新型可移动节能台灯,其包括灯座、灯头、支撑杆、充电电源模组及备用电源模组、光敏感应器、光强比较器及控制单元,所述的光敏感应器的移动信号传输到控制单元的一个输入端,光敏感应器的光信号
专利名称:一种无源驱动垂直定向液晶显示器的制作方法技术领域:本实用新型涉及显示器技术领域,更具体地说,涉及一种无源驱动垂直定向液晶显示器。背景技术:液晶显示器(Liquid Crystal Display,简称LCD)是一种采用液晶为材料的
专利名称:光学模块及所用的粘接剂的制作方法技术领域:本发明涉及光通信用的光学模块及所用的粘接剂。背景技术: 使折射率沿光纤长度方向周期变化而实现的光纤光栅作为光纤中形成的衍射光栅。用例如紫外光辐射光纤,引起沿光纤的干涉条纹,使光纤芯因光引入
专利名称:制作液晶显示器的方法本申请要求2002年2月6日在韩国申请的第P2002-6656号韩国专利申请的权益,该申请在本申请中以引用的形式加以结合。LCD已最广泛地作为移动式显示器使用,这种显示器由于具有极好的图像质量、重量轻、外形薄和
专利名称:卡簧式氙气灯聚焦装置的制作方法技术领域:本实用新型涉及一种气体氙气灯的聚焦装置,具体的讲是一种卡簧式氙气灯聚焦装置。背景技术:目前机动车98%以上使用钨丝灯来作为夜间骑行照明的主要配置,虽其价格便宜,但是其耗电量大、光通量不足,使