当前位置:网站首页>专利 >正文

基于高斯混合模型的声纹识别方法及系统的制作方法

专利名称:基于高斯混合模型的声纹识别方法及系统的制作方法
技术领域
本发明属于语音信号 处理装置,涉及到一种用说话人的语音信号来辨识说话人身份的基于高斯混合模型的声纹识别方法及系统。
背景技术
近年来,随着信息处理与人工智能技术的广泛应用,以及人们对快速有效身份验证的迫切要求,传统密码认证的身份识别已经逐渐失去了他的地位,而在生物识别领域中, 基于说话人语音的身份识别技术却受到了越来越多的人的青睐。由于每个人的发音器官的生理差异以及后天形成的行为差异导致发音方式和说话习惯各不相同,因此用说话人的语音来识别身份成为可能。声纹识别除了具有不会遗忘、 不需记忆、使用方便等优点外,还具有下列特性首先,它的认证方式易于接受,使用的“密码”为声音,开口即得;其次,识别文本的内容可以随机,不易窃取,安全性能比较高;第三, 识别使用的终端设备为麦克风或电话,成本低廉且易于和现有通信系统相结合。因此,声纹识别的应用前景非常广阔在经济活动中,可以实现各银行的汇款、余额查询、转账等; 在保密安全中,可以用指定的声音检查秘密场所的人员,其只响应特定说话人;在司法鉴定中,可以根据即时录音判断疑犯中作案者的真实身份;在生物医学中,可以使该系统只响应患者的命令,从而实现对使用者假肢的控制。声纹识别的关键技术主要是语音信号特征参数提取和模型匹配。语音信号特征参数大体可分为两类一类是主要体现说话人发音器官生理特性的低层特征,如根据人耳对不同频率的语音信号的敏感程度提取的梅尔频率倒谱系数(MFCC),根据语音信号的全极点模型得到的线性预测倒谱系数(LPCC)等;另一类是主要体现说话人用语习惯、发音特点的高层特征,如反映说话人语音抑扬顿挫的韵律特征(Prosodic Features)、反映说话人习惯用语中音素统计规律的音素特征(Phone Features)等。LPCC是基于语音信号的发音模型建立的,容易受到假设模型的影响,高层特征虽然有些文献中使用,但识别率并不是很高。针对各种语音信号特征参数而提出的模型匹配方法主要有动态时间规整(DTW) 法、矢量量化(VQ)法、高斯混合模型(GMM)法、人工神经网络(ANN)法等。其中DTW模型依赖于参数的时间顺序,实时性能较差,适合基于孤立字(词)的说话人识别;在VQ模型中, 聚类的矢量仅用一个中心来表示,并且各个码本对距离的贡献相等,因此在语音信号很短的情况下,识别率会急剧下降。在ANN模型中,对最佳模型拓扑结构的设计的训练算法并不一定能保证收敛,而且会存在过学习的问题。GMM是在说话人的语音信号中提取出反映说话人个性的特征参数,并以此为基础根据概率统计特性建立相应的数学模型,从而有效的反映说话人的语音信号特征参数在特征空间的分布。而且其概率密度函数比较常见,模型中的参数易于估计和训练。但是在传统基于GMM的声纹识别中,模型初始参数的选取比较随机,这严重影响了系统的识别率
发明内容
本发明要解决的技术问题是提出一种基于高斯混合模型的声纹识别方法及系统。 该方法采用了基于概率统计的高斯混合模型,能很好的反映说话人的语音在特征空间的分布,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能和抗噪能力。—种基于高斯混合模型的声纹识别方法,具体步骤如下
1、语音信号的采集以程控交换综合实验箱的话机作为采集语音信号的终端设备,通过语音卡采集语音信号;
2、语音信号的预处理通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的端点检测法;预加重,加重系数的范围为0. 9(Tl. 00 ;
3、语音信号特征参数提取采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为 12 16 ;
4、模型训练采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;
5、声纹辨识通过将采集到的待识别语音信号特征参数与库中通过上述步骤1、2、3、4 已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。上述的语音信号特征参数提取步骤如下
(1)将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k),语音信号的 DFT公式为
权利要求
1.一种基于高斯混合模型的声纹识别方法,其特征是具体步骤如下(1)、语音信号的采集以程控交换综合实验箱的话机作为采集语音信号的终端设备, 通过语音卡采集语音信号;(2)、语音信号的预处理通过计算机将提取的语音信号进行分帧加窗操作,在分帧过程中一帧包括256个采样点,帧移为128个采样点,所加的窗函数为汉明窗;端点检测,采用基于短时能量和短时过零率法相结合的端点检测法;预加重,加重系数的范围为 0. 90 1· 00 ;(3)、语音信号特征参数提取采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为 12 16 ;(4)、模型训练采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM), 模型的参数初始化方法选用k-means算法;(5)、声纹辨识通过将采集到的待识别语音信号特征参数与库中通过第1步骤1、第2 步骤、第3步骤已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则认为识别出说话人。
2.根据权利要求1所述的基于高斯混合模型的声纹识别方法,其特征是语音信号特征参数提取步骤如下(1)将预处理后的语音信号进行短时傅里叶变换(DFT)得到其频谱X(k),语音信号的 DFT公式为其中,姻为输入的以帧为单位的语音信号,N为傅里叶变换的点数,取256 ;(2)求频谱的平方,即能量谱|1(幻|2,然后通过Mel频率滤波器对语音信号的频谱进行平滑,并消除谐波,凸显原先语音的共振峰;Mel频率滤波器是一组三角带通滤波器,中心频率为=1,2,…,Q,Q为三角带通滤波器的个数,Mel滤波器I4(I)表示如下(3)对滤波器组输出的Mel频谱取对数压缩语音频谱的动态范围;将频域中噪声的乘性成分转换成加性成分,对数Mel频谱5%)如下
3.根据权利要求1所述的基于高斯混合模型的声纹识别方法,其特征是模型训练时所采用的EM算法的具体步骤描述如下一个具有M阶混合分量的D维高斯混合模型(GMM)表示如下
4.根据权利要求3所述的基于高斯混合模型的声纹识别方法,其特征是在用EM算法训练GMM时,初始参数的选取采用改进的k-means算法,具体为设长度为N的M维特征矢量序列为I = (IpIfsIilT),其中第个矢量可记为 入^[Xlil,Xn2,...,X^),,它可以被看作是语音信号中某一帧参数所组成的矢量; 说话人语音信号特征矢量的分布各不相同,其中第m维矢量的方差离为I M一^ = ^bw ~ y(22)式中,M为特征矢量的维数Xsm为第η个矢量的第m维参数,艺为第η个矢量的平均值,第m维矢量的权值&为 1πΜ = (23)相应的基于方差的加权欧氏距离公式巩&为为 (μ“D(JTkA) = Jz^- d — Q)2(24)式中,X徹为待分类的特征矢量式中的第m个参数,Cfaa为第K个类的聚类中心;对于初始聚类中心的选取采用欧氏距离法,计算矢量集中矢量两两之间的距离,选择距离最大的两个矢量作为两个类的聚类中心,再从剩余的矢量集中选出到两个聚类中心距离最大的矢量作为另一个类的中心,如此反复直到选出K个聚类中心。
5.根据权利要求4所述的基于高斯混合模型的声纹识别方法,其特征是改进的 K-means聚类算法的具体步骤如下P (1)从已有的K个聚类中心出发,禾Ij用公式D(IsA) = JI^KZffls-Cfa)2 ,计算样本集中的矢量与各个聚类中心的距离,把剩余矢量划分到离它距离最近的类中,形成初始聚类;(2)按照步骤(C的聚类,更新各个类的聚类中心;(3)以新的聚类中心为参照点不断执行步骤C和(2,直到聚类中心不再变化或变化微小时停止;(4)得到初始GMM参数
6.根据权利要求2所述的基于高斯混合模型的声纹识别方法,其特征是进行离散余弦变换时,L=13,Q=25。
7.一种基于高斯混合模型的声纹识别系统,其特征是组成如下语音信号采集模块、语音信号预处理模块,语音信号特征参数提取模块,语音模型训练模块和声纹识别模块。
全文摘要
一种基于高斯混合模型的声纹识别方法及系统,步骤如下语音信号采集;语音信号预处理;语音信号特征参数提取采用梅尔频率倒谱系数(MFCC),MFCC的阶数通常取为12~16;模型训练采用EM算法为说话人的语音信号特征参数训练高斯混合模型(GMM),模型的参数初始化方法选用k-means算法;声纹辨识将采集到的待识别语音信号特征参数与已建立的说话人语音模型进行比较,并根据最大后验概法进行判断,若对应的说话人模型使得待识别的话者语音特征向量X具有最大的后验概率,则识别出说话人。该方法采用了基于概率统计的高斯混合模型,能很好的反映说话人的语音在特征空间的分布,其概率密度函数比较常见,模型中的参数易于估计和训练,而且具有良好识别性能和抗噪能力。
文档编号G10L15/06GK102324232SQ201110267690
公开日2012年1月18日 申请日期2011年9月12日 优先权日2011年9月12日
发明者刘春玲, 张健, 张彩娟, 赵立辉, 霍春宝 申请人:辽宁工业大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:用于预测量化有声语音的方法和设备的制作方法本申请是申请日为2001年4月20日申请号为第01810523.8号发明名称为“用于预测量化有声语音的方法和设备”的中国专利申请的分案申请。背景技术:I.发明领域本发明主要涉及语音处理领域

    专利发布时间:2025-05-15阅读:(78)

    专利名称:3d投影机的制作方法技术领域:本实用新型涉及投影机技术领域,具体涉及一种3D投影机。背景技术:3D投影机主要采用TI的DLP Link技术,其原理是通过DMD芯片输出120MHz刷新率的画面,左右眼交替使用,使人眼形成3D的“错觉

    专利发布时间:2025-05-15阅读:(65)

    专利名称:电动装灯铁架的制作方法技术领域:本实用新型涉及一种游乐设施,具体地说是一种装灯铁架,主要用于各种游乐场所或公共场所增添喜庆的气氛,供人们观赏、游乐。实现上述目的的技术方案一种电动装灯铁架,包括头架、躯干、左右对称的上支脚和下支脚,

    专利发布时间:2025-05-15阅读:(75)

    薄膜太阳能电池可发光式门把手的制作方法【专利摘要】本发明的目的就是针对以上问题,提供一种可以通过太阳能发电便能正常工作的可发光式门把手。本发明提供一种具有薄膜太阳能电池板的可发光式门把手,元件包括:门把手金属组件,蓄电池,薄膜太阳能电池,电

    专利发布时间:2025-05-15阅读:(76)

    专利名称:用于光学仪器的连续、异步自动聚焦的系统和方法技术领域:本发明涉及光学仪器,并且更具体地说,涉及光学仪器内的连续、异步操作的自动聚焦子系统,其保持物镜与成像物体上、成像物体内或成像物体附近的点或表面之间沿着光轴的恒定距离。背景技术:

    专利发布时间:2025-05-15阅读:(66)

    一种扩散型高效纳米反射灯罩的制作方法【专利摘要】本发明涉及反射灯罩技术,尤其涉及一种扩散型高效纳米反射灯罩,其包括有罩体,罩体的内侧设有反光面,反光面由若干个反射曲面组成,若干个反射曲面呈波浪型排列,且若干个反射曲面的表面涂有镜面纳米级反光

    专利发布时间:2025-05-15阅读:(107)