当前位置:网站首页>专利 >正文

一种用于语种识别的语种模型的训练方法及系统的制作方法

专利名称:一种用于语种识别的语种模型的训练方法及系统的制作方法
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种用于语种识别的语种模型的训练方法及系统。
背景技术
语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统,相对于确定语言的语音识别系统语音识别性能会有大幅度的下降,准确识别出语音的语种信息的语种识别技术,使跨语言的语音识别转换为确定语言的语音识别,成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据,训练具有语种鉴别性的模型,从而快速准确的识别出语音的语种信息,目前尚未出现有效的方案,这对于语种识别技术进一步研究及应用造成困难。

发明内容
针对上述问题,本发明实施例提出一种用于语种识别的语种模型的训练方法及系统。在第一方面,本发明实施例提出一种用于语种识别的语种模型的训练方法,所述方法包括采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。在第二方面,本发明实施例提出一种用于语种识别的语种模型的训练系统,所述系统包括声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型,量化对应语种训练数据的混淆度,利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间,对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。


以下,结合附图来详细说明本发明实施例,其中图1是本发明实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图;图2是本发明实施例的用于语种识别的语种模型的训练方法流程图;图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。
具体实施例方式图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。下面结合图1对本发明实施例的具体实施方式
做进一步详细描述本发明实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案,该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型,以提高语种识别性能。具体地,本发明实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本发明利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。本发明实施例的具体计算流程如下第一步,采集一定数量的目标语种语音数据,提取语音声学谱特征;所采集的目标语种语音数据,通过传统的语音数据前端处理,对语种训练数据切除静音,音乐等无效语音,保留有效语音,然后提取通用的美尔倒谱特征(MFCC),并对该特征进行动态扩展得到移动差分倒谱特征(MFCC-SDC),对于语种训练数据的每一帧得到56维特征向量,作为该语音数据的声学谱特征。第二步,利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型,作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布,训练每个目标语种各自的初始高斯混合模型采用了最大似然估计,目标函数为每个语种训练数据对数似然之和,公式(6)为英语高斯混合模型估计的目标函数
权利要求
1.一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括 采集多个目标语种语音数据,提取各语种的语音声学谱特征; 利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型; 利用每个目标语种的初始模型量化对应语种训练数据的混淆度; 利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间; 对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
2.如权利要求1所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
3.如权利要求1或2所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为若语种Ii的某条语音数据的声学谱特征为X,该条语音数据混淆度
4.按权利要求3所述的用于语种识别的语种模型的训练方法,其特征在于,所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重
5.按权利要求4所述的用于语种识别的语种模型的训练方法,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
6.一种用于语种识别的语种模型的训练系统,其特征在于,所述系统包括 声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征; 初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型; 混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度; 高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到闻斯超向量空间; 语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
7.如权利要求6所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
8.如权利要求6或7所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为若语种Ii的某条语音数据的声学谱特征为X,该条语音数据混淆度
9.按权利要求8所述的用于语种识别的语种模型的训练系统,其特征在于,所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重)
10.按权利要求9所述的用于语种识别的语种模型的训练系统,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
全文摘要
本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。
文档编号G10L15/06GK103065622SQ20121056071
公开日2013年4月24日 申请日期2012年12月20日 优先权日2012年12月20日
发明者周若华, 颜永红, 杨金超, 索宏彬 申请人:中国科学院声学研究所, 北京中科信利技术有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:弹性自动伸缩鼻梁架的制作方法技术领域:本实用新型涉及一种眼镜配件,尤指一种弹性自动伸缩鼻梁架。 背景技术:眼镜的中部都设有鼻梁架,有的鼻梁架是与镜框一体成型的,有 的鼻梁架则是独立的配件,然后再与两侧镜框或直接与镜片连接在一 起。

    专利发布时间:2025-07-01阅读:(111)

    专利名称:多功能视力保健镜的制作方法技术领域:本实用新型是一种多功能视力保健镜。本实用新型是这样实现的一种多功能视力保健镜,包括凸形镜片,镜片的凸面涂覆有外复合膜层,镜片的凹面涂覆有内复合膜层。所述镜片凸面的外复合膜层可由若干防护层构成。所

    专利发布时间:2025-07-01阅读:(154)

    密封装置及具有该密封装置的镇流器的制造方法【专利摘要】本发明公开了一种密封连接装置,所述密封连接装置包括连接件、密封垫及限位件,所述连接件包括连接帽、柱体及连接部,所述连接帽及所述连接部相对设置于所述柱体两端,所述连接部用于连接一待连接元件

    专利发布时间:2025-07-01阅读:(142)

    专利名称:透镜镜筒和摄像装置的制作方法技术领域:本发明涉及透镜镜筒和摄像装置。 背景技术:近年,使用CCD (Charge-coupled Device 电荷耦合元件)和 CMOS (Complementary Metal Oxide Se

    专利发布时间:2025-07-01阅读:(134)

    专利名称:平板显示装置的制作方法技术领域:本实用新型涉及平板显示装置,尤其涉及平板显示装置的主机仰角调节机构。背景技术:平板显示装置,如平板电视机、液晶显示器等,因其用于显示的主机呈板状, 占用空间较少,而得到广大消费者的青睐。如图1所示,

    专利发布时间:2025-07-01阅读:(112)

    专利名称:激光共焦扫描显微镜的制作方法技术领域:本实用新型涉及一种显微镜,特别是一种激光共焦扫描显微镜。激光共焦扫描技术是最近几年迅速发展起来的一项高新技术,它是通过将共焦原理与高速激光扫描技术相结合,来获得物体的分层图象,并由计算机控制扫

    专利发布时间:2025-07-01阅读:(101)