当前位置:网站首页>专利 >正文

一种用于语种识别的语种模型的训练方法及系统的制作方法

专利名称:一种用于语种识别的语种模型的训练方法及系统的制作方法
技术领域
本发明属于语音识别技术领域,具体地说,本发明涉及一种用于语种识别的语种模型的训练方法及系统。
背景技术
语种识别是语音识别技术的重点难点之一。对于跨语言的语音识别系统,相对于确定语言的语音识别系统语音识别性能会有大幅度的下降,准确识别出语音的语种信息的语种识别技术,使跨语言的语音识别转换为确定语言的语音识别,成为语音识别系统满足实际应用需求的必要手段。对于如何利用有限的语种训练数据,训练具有语种鉴别性的模型,从而快速准确的识别出语音的语种信息,目前尚未出现有效的方案,这对于语种识别技术进一步研究及应用造成困难。

发明内容
针对上述问题,本发明实施例提出一种用于语种识别的语种模型的训练方法及系统。在第一方面,本发明实施例提出一种用于语种识别的语种模型的训练方法,所述方法包括采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。在第二方面,本发明实施例提出一种用于语种识别的语种模型的训练系统,所述系统包括声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征;初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度;高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例提取各语种的语音声学谱特征生成每个目标语种的初始高斯混合模型,量化对应语种训练数据的混淆度,利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间,对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。


以下,结合附图来详细说明本发明实施例,其中图1是本发明实施例的基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图;图2是本发明实施例的用于语种识别的语种模型的训练方法流程图;图3是本发明实施例的用于语种识别的语种模型的训练系统示意图。
具体实施例方式图1是基于最大混淆度鉴别性训练的语种识别系统的具体实施流程框图。下面结合图1对本发明实施例的具体实施方式
做进一步详细描述本发明实施例旨在提供基于最大混淆度鉴别性训练的语种识别方案,该方案利用混淆度大的、语种鉴别性高的语种训练数据训练语种模型,以提高语种识别性能。具体地,本发明实施例涉及的基于最大混淆度鉴别性训练的语种识别方法的核心技术在于语种训练数据混淆度的获取以及利用好语种训练数据的混淆度进行鉴别性训练。最大混淆度鉴别性训练通过利用更具语种鉴别性的数据训练得到更具鉴别性的语种高斯混合模型。本发明利用语种初始模型定义语种训练数据混淆度并在高斯超向量空间利用该混淆度进行语种鉴别性训练。本发明实施例的具体计算流程如下第一步,采集一定数量的目标语种语音数据,提取语音声学谱特征;所采集的目标语种语音数据,通过传统的语音数据前端处理,对语种训练数据切除静音,音乐等无效语音,保留有效语音,然后提取通用的美尔倒谱特征(MFCC),并对该特征进行动态扩展得到移动差分倒谱特征(MFCC-SDC),对于语种训练数据的每一帧得到56维特征向量,作为该语音数据的声学谱特征。第二步,利用每个目标语种训练数据的声学谱特征训练该目标语种的高斯混合模型,作为每个目标语种各自的初始模型。这里利用了语音数据声学谱特征服从高斯混合分布,训练每个目标语种各自的初始高斯混合模型采用了最大似然估计,目标函数为每个语种训练数据对数似然之和,公式(6)为英语高斯混合模型估计的目标函数
权利要求
1.一种用于语种识别的语种模型的训练方法,其特征在于,所述方法包括 采集多个目标语种语音数据,提取各语种的语音声学谱特征; 利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型; 利用每个目标语种的初始模型量化对应语种训练数据的混淆度; 利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间; 对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
2.如权利要求1所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
3.如权利要求1或2所述的用于语种识别的语种模型的训练方法,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为若语种Ii的某条语音数据的声学谱特征为X,该条语音数据混淆度
4.按权利要求3所述的用于语种识别的语种模型的训练方法,其特征在于,所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重
5.按权利要求4所述的用于语种识别的语种模型的训练方法,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
6.一种用于语种识别的语种模型的训练系统,其特征在于,所述系统包括 声学谱特征提取模块,用于采集多个目标语种语音数据,提取各语种的语音声学谱特征; 初始模型生成模块,用于利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型; 混淆度量化模块,用于利用每个目标语种的初始模型量化对应语种训练数据的混淆度; 高斯超向量转换模块,用于利用最大后验估计将各语种训练数据从声学谱特征转换到闻斯超向量空间; 语种模型训练模块,用于对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。
7.如权利要求6所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用权重较高的几个语种的训练数据来训练语种模型,具体为利用权重较高的几个语种的训练数据的高斯超向量进行最大似然估计得到代表每个语种高斯超向量空间分布的中心点,根据每个语种高斯超向量空间分布的中心点,更新每个语种的高斯混合模型的均值,得到每个语种的新的高斯混合模型。
8.如权利要求6或7所述的用于语种识别的语种模型的训练系统,其特征在于,所述利用每个目标语种的初始模型量化对应语种训练数据的混淆度,具体为若语种Ii的某条语音数据的声学谱特征为X,该条语音数据混淆度
9.按权利要求8所述的用于语种识别的语种模型的训练系统,其特征在于,所述根据所述混淆度赋予的语种Ii的训练数据的高斯超向量的权重)
10.按权利要求9所述的用于语种识别的语种模型的训练系统,其特征在于,所述通过最大似然计算每个目标语种高斯超向量的中心点依据公式
全文摘要
本发明涉及一种用于语种识别的语种模型的训练方法及系统,所述方法包括采集多个目标语种语音数据,提取各语种的语音声学谱特征;利用所述声学谱特征训练每个目标语种的高斯混合模型,作为其初始模型;利用每个目标语种的初始模型量化对应语种训练数据的混淆度;利用最大后验估计将各语种训练数据从声学谱特征转换到高斯超向量空间;对所述各语种训练数据的高斯超向量空间,根据所述混淆度赋予各语种训练数据的高斯超向量不同的权重,并利用权重较高的几个语种的训练数据来训练语种模型。本发明实施例量化对应语种训练数据的混淆度,利用权重较高的训练数据来训练语种模型,能够有效地提高语种鉴别性,改善语种识别性能。
文档编号G10L15/06GK103065622SQ20121056071
公开日2013年4月24日 申请日期2012年12月20日 优先权日2012年12月20日
发明者周若华, 颜永红, 杨金超, 索宏彬 申请人:中国科学院声学研究所, 北京中科信利技术有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种多腔led球泡灯结构的制作方法技术领域:本实用新型涉及一种节能照明灯具,特别涉及一种多腔LED球泡灯结构。背景技术:LED球泡灯的替代传统白炽灯泡的新型节能灯具,随着LED技术的高速发展,LED照明逐渐成为新型绿色照明的首选之

    专利发布时间:2025-08-16阅读:(140)

    专利名称:文本显示设备、文本显示方法及程序的制作方法技术领域:本发明涉及一种与语音输入同步地显示其文本的文本显示设备、文 本显示方法及让计算机执行该方法的程序。背景技术:在电视广播、电视电话、网络会议等系统中,人们正在考虑基于语 音识别的实

    专利发布时间:2025-08-16阅读:(122)

    专利名称:正像镜的制作方法技术领域:本实用新型是一种正像镜,属于生活用品。镜子是人们生活中不可缺少的用品,化装、美容离不开它,但目前普通的镜子照物体所成之像总是反像,镜中反映的是对称像,即镜中映出被照人的左眼、左脸实为人体的右眼、右脸,因此

    专利发布时间:2025-08-16阅读:(102)

    专利名称::广角镜头的制作方法技术领域::本发明涉及光学性能良好的小型低成本广角镜头,尤其涉及适合于备有固体摄像元件的监视照相机、车载照相机等数字输入器具(数码相机、数码摄像机等)的广角镜头。背景技术::以往提出了许多在备有固体摄像元件的监

    专利发布时间:2025-08-16阅读:(141)

    专利名称:一种灯端盒的制作方法技术领域:本实用新型涉及LED氛围灯,社会商品宣传装修和汽车改装装饰等。背景技术:LED氛围灯已面向社会,如中国专利201120184578. 9柔性光导纤维LED氛围灯,其工作原理是LED光源发出的光线,准确

    专利发布时间:2025-08-16阅读:(95)

    通过载体轮上的远程磷光体进行的波长转换的制作方法【专利摘要】一种照明设备(200),具有至少一个可由初级光源(101)辐照的发光材料区域(104)和至少一个光学的过滤区域(107),所述过滤区域能够在至少一个发光材料区域(104)的下游接入

    专利发布时间:2025-08-16阅读:(111)