基于噪声屏蔽核的说话人识别方法
【专利摘要】本发明公开了语音信号处理领域的一种基于噪声屏蔽核的说话人识别方法。该方法包括:步骤1:输入音频数据,对音频数据逐帧提取短时特征;步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM;步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM;步骤4:将语音GMM和噪声GMM拼接成一个混合GMM;步骤5:用混合GMM生成噪声屏蔽超矢量;步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。该方法可以对音频中含有的噪声进行自动屏蔽,且实现简单,可以有效提高噪声条件下说话人识别的性能。
【专利说明】基于噪声屏蔽核的说话人识别方法
【技术领域】
[0001]本发明属于语音信号处理领域,尤其涉及一种基于噪声屏蔽核的说话人识别方法。
【背景技术】
[0002]说话人识别技术可以通过语音识别说话人的身份,它在远程身份认证、信息安全等领域有着广泛的应用。目前在说话人识别领域,GSV-SVM (基于高斯混合模型均值超矢量的支持向量机)是一种常用的方法,它先利用UBM (通用背景模型)生成GSV (高斯混合模型均值超矢量),然后再用SVM (支持向量机)进行说话人识别。该方法容易受噪声的影响,为了解决这一问题,一般在前端进行语音增强,或者建模时采用信道补偿技术。但这些方法都需要引入额外的模块来处理噪声,实现时较为复杂。
【发明内容】
[0003]针对上述现有技术存在的问题,本发明提出一种基于噪声屏蔽核的说话人识别方法,其特征在于,所述方法具体包括以下步骤:
[0004]步骤1:输入音频数据,对音频数据逐帧提取短时特征;
[0005]步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ;
[0006]步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ;
[0007]步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ;
[0008]步骤5:用混合GMM生成噪声屏蔽超矢量;
[0009]步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
[0010]所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
[0011]所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
[0012]所述步骤2和步骤3中GMM模型训练方法采用EM算法。
[0013]所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
[0014]所述步骤4中GMM拼接方法为:设语音GMM参数为{?,Σ1,^ = 1,...,Μ},噪声6丽参数为{0二义^ = 1,...,#},其中界
为高斯混元的权重,μ为高斯混元的均值向量,Σ为高斯混元的方差矩阵,下标m为高斯混元的标号,上标s表示语音,上标η表示噪声,则混合GMM的参数为:[0015]
【权利要求】
1.一种基于噪声屏蔽核的说话人识别方法,其特征在于,该方法具体包括以下步骤: 步骤1:输入音频数据,对音频数据逐帧提取短时特征; 步骤2:采用语音数据的短时特征训练一个含M个高斯混元的GMM模型,记为语音GMM ; 步骤3:采用噪声数据的短时特征训练一个含N个高斯混元的GMM模型,记为噪声GMM ; 步骤4:将语音GMM和噪声GMM拼接成一个混合GMM ; 步骤5:用混合GMM生成噪声屏蔽超矢量; 步骤6:采用生成的噪声屏蔽超矢量进行SVM的训练和测试,完成说话人的训练和识别。
2.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征采用短时倒谱特征,短时倒谱特征类型是线性预测倒谱系统LPCC、美尔频标倒谱系数MFCC或感知线性预测系数PLP。
3.根据权利要求1或2所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤I中短时特征还能够采用短时能量、短时过零率、短时相关系数。
4.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2和步骤3中GMM模型训练方法采用EM算法。
5.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤2中M取值是几百至几千,所述步骤3中N取值是几十至几百,M取值为ION以上。
6.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤4中GMM拼接方法为:设语音GMM参数为{
7.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的产生方法为仅计算前M个混元对应的维,屏蔽掉噪声对应的维。
8.根据权利要求1或7所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述步骤5中噪声屏蔽超矢量的具体产生方法如下: 步骤501:假设一段音频的短时倒谱特征为{xt,t=l,…,Τ},其中X为一帧特征,下标t为帧标号,T为总帧数,逐帧计算各个高斯混元的后验概率,t=l,…,T,m=l,…,M:
9.根据权利要求1所述的基于噪声屏蔽核的说话人识别方法,其特征在于,所述SVM的训练和测试中核函数采用线性核。
【文档编号】G10L17/20GK103714818SQ201310681894
【公开日】2014年4月9日 申请日期:2013年12月12日 优先权日:2013年12月12日
【发明者】张卫强, 刘加 申请人:清华大学
基于噪声屏蔽核的说话人识别方法
相关推荐
专利名称:图像处理装置、图像处理方法以及图像处理系统的制作方法技术领域:本发明涉及图像处理装置及其方法、以及图像处理系统,特别涉及对输入的图像数据进行彩色判定的图像处理装置及其方法、以及图像处理系统。背景技术: 在通过扫描读取原稿图像输入图
专利名称:液晶显示模组中印刷电路板的固定结构的制作方法技术领域:液晶显示模组中印刷电路板的固定结构技术领域:本实用新型是关于一种液晶显示模组的零部件固定结构,特别是指一种 液晶显示模组中印刷电路板的固定结构。背景技术:液晶显示模组主要由外框
专利名称:Sc型光纤直熔快速连接器的制作方法技术领域:本实用新型涉及光通信技术领域,具体涉及一种SC型光纤直熔快速连接器。技术背景随着光通信技术的不断发展,用户需求带宽越来越高,光纤入户(FTTH)成为发展 的必然趋势。因入户用光缆的长度很
专利名称:新型草坪灯的制作方法技术领域:本实用新型涉及户外照明领域,特别涉及一种可与自然融为一体的新型草坪灯。背景技术:在广场、公园、小区等公共场所的草坪上或面积较大的庭院内,一般都会安装有用于照明和装饰的草坪灯,草坪灯是绿色植物中很重要的
专利名称:一种考虑语音中多线性群组稀疏特性的情绪特征提取方法技术领域:本发明涉及一种用于提高语音情绪识别性能的语音情绪特征提取方法,属于语音信号处理技术领域。背景技术:语音是人们在日常生活中进行交流的最便捷的方式之一,这也使得研究人员积极探
琴弦与指板分离器的制造方法【专利摘要】本实用新型公开了琴弦与指板分离器,包括支撑部和琴弦钩,所述支撑部是与琴颈弧度相适应的柔性胶体,所述琴弦钩的两端设置有用以勾住琴弦的弯钩,所述琴弦钩与所述支撑部连接。本实用型新乐器琴弦与指板分离器可以把琴