专利名称:语音识别中状态结构调整方法
技术领域:
本发明涉及一种语音识别领域的状态结构调整算法,具体是一种语音识别中状态结构调整方法。
背景技术:
九十年代以来,基于连续概率HMM的非特定人(SI)、大词汇量连续语音识别(LVCSR)获得了很大的进展,为建立更精确的模型,LVCSR系统一般都采用上下文相关的三音子模型,利用基于声学决策树的状态共享策略进一步改善模型的性能。同时,在SI系统中,不同说话人的特性差异会带来系统性能的降低,这使得说话人自适应技术成为SI系统走向实用化的关键。常用的自适应方法包括贝叶斯(MAP)方法和最大似然线性回归(MLLR)方法,都是基于自适应语料对模型的参数做变换,没有考虑对决策树的结构做自适应。决策树中状态之间的合并或分裂是基于训练语料中似然值的变化和采样数据量进行的,得到的决策树的结构并不能有效地反映测试语料的特征,尤其是当训练语料与自适应语料的特征差别比较大时,这种结构的偏差直接会导致系统性能的降低。
为了解决训练语料决策树与测试语料决策树结构不匹配造成的识别率的降低,必须对训练语料决策树的结构做调整,由于直接调整训练语料决策树结构后,又会使得决策树结构与训练语料的不一致,造成模型精度下降。
经文献检索发现,A.Nakamura在国际声学、语音及信号处理会议(《ICASSP》,vol.1,pp.649-652,1998)中发表的“一种在非特定人声学建模中调整高斯混合函数结构的方法”(Restructuring Gaussian mixture density functions in speakerindependent acoustic models)中提出调整高斯混合分布函数方法,在该方案中,对于给定语音X,t时刻的观察矢量ot,对应的实际高斯函数为fta(μ,δ2),属于状态sa,而通过维特比(Viterbi)解码算法得到的识别的高斯函数为ftb(μ,δ2),属于状态sb;sa与sb共享高斯函数ftb(μ,δ2),从而调整sa中高斯混合的分布函数。调整后的状态包含不同数量的高斯函数,某个高斯函数可被多个状态共享。然而该方法的训练过程比较随机,而且这是基于训练语料,在一定程度上不能反映测试语音的信息。
发明内容
本发明针对现有技术中存在的上述不足和缺陷,提供一种语音识别中状态结构调整方法,使其提高模型对样本的后验概率,增强对自适应语料的利用率,并增加状态内参数量,扩大模型的描述力,对系统总参数量的增加有限,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。
本发明是通过以下技术方案实现的,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下(1)建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别。提取训练语音每句话的特征,根据句子内容利用HTK(HMMToolKit)工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了不同音节间左右声韵母的情况,不同的语境对应不同的三音子模型;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布。
(2)状态结构调整包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整。自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现。因此,分析基线系统识别自适应语音出时出现的错误,对状态结构进行适当的调整不仅可以提高对自适应语料的利用率,还可以提高模型的后验概率。另一方面,仅利用自适应语料对状态结构调整,状态调整的范围有限;训练语料来自大量的说话人,发音具有一定的代表性。因此假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而可以利用训练语料对剩余状态的结构进行调整。
(3)说话人自适应采用最大似然线性回归算法(MLLR),利用自适应语料对调整后的模型做自适应,目的是进一步补偿状态调整后的模型与测试语音之间的不匹配。
以下对本发明作进一步的说明,具体内容如下1、所述的利用自适应语音对模型状态结构调整,具体步骤是设HMMs的状态集为Ω;自适应样本X={X1,...,Xi,...}对应的状态集为Φ。每个样本Xi对应的特征矢量为Oi=(o1,...,ot,...,oT)、状态集为Φi(ΦiΦ)。根据样本Xi的声学模型,利用帧同步Viterbi算法得到矢量Oi对应于Φi的状态序列Ξ=(si,...,st,...,sT),称Ξ为实际的状态序列;同样地根据Viterbi识别算法得到Oi对应于状态集Ω的状态序列Ψ=(r1,...,rt,...,rT),称Ψ为识别的状态序列。比较这两组状态序列,得到对应于同一矢量ot的两个状态st和rt,若st≠rt,称rt为st的混淆状态,定义两者的混淆度(confusion)Cst|rt=P(ot|rt)P(ot|st)---(1)]]>因为状态st被误识成rt,所以当st≠rt,忽略语言模型和状态音转移概率,有P(ot|rt)>P(ot|st),即Cst|rt>1,]]>从定义(1)可以看出,Cst|rt越大,说明实际状态st被识别成rt的可能性越大。因此,如果把状态rt的混合高斯以加权的形式与状态st共享,改变状态st的结构,则概率P(ot|st)会增大,从而可以降低系统的误识率,提高模型对观察矢量ot的后验概率。
设状态s∈Φ,对应于自适应样本的观察特征矢量Os;Rs为识别Os得到的状态集(RsΩ),称Rs为s的相近状态集。利用状态r(r∈Rs),对s结构进行调整,调整后的高斯混合函数为b(·|s)=Σr∈Rsws|rP(·|r)+w0P(·|s)---(2)]]>式(2)中,取w0=1-D,D为常数;权值ws|r和概率函数P(·|r)的计算公式分别为
ws|r=D·Cs|rΣr∈RsCs|r---(3)]]>P(·|r)=Σl=1Lmr,lN(·|μr,l,Σr,l)---(4)]]>(4)式中L为状态调整前的高斯混合数,μr,l、∑r,l和mr,l分别为多元高斯函数N(·|μr,l,∑r,l)的均值矢量、对角协方差矩阵和权值。因此,结构调整后的状态存在两层权值状态内权值mr,l和状态间权值Ws|r,满足·状态内权值Σk=1Kmr,k=1,0≤mr,k≤1.]]>·状态间权值Σr∈Rs′ws|r=1,0≤ws|r≤1,]]>其中Rs′=Rs∪s.
2、所述的利用训练语音对模型状态结构调整,具体步骤是设调整前的状态为s,对数似然值为L(Os)′=Σo∈Oslog(P(o|s‾)),]]>调整后似然值的增加ΔL(Os)=L(Os)-L(Os)′,状态集Φ对应的平均似然值增加为ΔL=1size(Φ)Σs∈ΦΔL(Os),]]>ΔL将作为阈值在基于训练语音的状态结构调整中使用。
定义状态集Ψ(Ψ=Ω-Φ),利用训练语料对模型状态结构做进一步调整,具体步骤是1)对训练样本Yi(Yi∈Y)和对应的特征矢量Oi,采用Viterbi解码算法识别后得到识别状态序列{η}i;根据Yi对应的声学模型,采用Viterbi帧同步对观察序列分段,得到对应于特征矢量Oi的实际状态序列{γ}i。
2)重复步骤1),完成对所有训练样本Y的操作,得到两类状态序列{η}({η}i{η})和{γ}({γ}i{γ})。
3)比较{η}和{γ},确定状态s(s∈{γ})的相近状态集Rs(Rs{η});计算状态r∈Rs与状态s的混淆度Cs|r。根据混淆度的大小,将状态集Rs的元素由大到小排列,并设状态集Rs的大小为Is。
4)对状态s的调整取前i(0<i<Is)个状态对s进行调整,计算似然值的增加ΔLs。如果ΔLs<ΔL,取i=i+1,直到ΔLs>ΔL;如果当i=Is时,仍有ΔLs<ΔL,则不对状态s做调整。
5)重复步骤3)~4)直至完成对Ψ中每个状态的结构调整。
对增加的状态间权值ws|r重估,使用的目标函数是L(Os)=Σo∈Oslog(P(o|s))---(5)]]>=Σo∈OslogΣr∈Rs′ws|rP(o|r)]]>在求目标函数最大时的权值ws|r时,采用期望最大(EM)算法,辅助函数为Q(ws|r,w‾s|r)=E[logP(Os,s|w‾s|r)|Os,ws|r]---(6)]]>在Σr∈Rs′ws|r=1]]>条件下,上式对ws|r求导,得w‾s|r=Σo∈OsΣk=1Kγ(s,r,k)Σo∈OsΣr∈Rs′Σk=1Kγ(s,r,k)---(7)]]>这里γ(s,r,k)=ws|rmr,kN(o|μr,k,δr,k)Σr∈Rs′Σk=1Kws|rmr,kN(o|μr,k,δr,k),]]>为观察o(o∈Os)属于状态r中第k个混合高斯的概率。ws|r就是对ws|r的更新值。
利用MLLR算法对状态调整后的模型做自适应时,考虑到自适应语料的有限性,只对模型的均值做自适应,其余参数保持不变;MLLR算法中的平移矩阵采用对角平移矩阵,而且在不同目标均值之间共享平移矩阵。对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据,共享的程度和范围根据自适应数据的多少和语音学分类进行调整。
本发明易混淆的状态间高斯混合函数共享,因为训练语音与测试语音决策树结构不匹配造成的识别误差,可以从识别自适应语音时出现的状态混淆中体现出来。例如,用女声模型识别男声语音,当状态A被识别成状态B(B≠A)时,其中大多数情况是A和B属于同一个决策树,有些情况是在男声决策树中A和B恰恰属于同一个叶节点。因此,本发明首先采用自适应语音对状态结构调整的方法,然后在此基础上再利用训练语音扩大状态调整的范围。
本发明提高了模型对样本的后验概率,增强对自适应语料的利用率,并增加状态内参数量,扩大模型的描述力,对系统总参数量的增加有限,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。需要说明的是本发明的保护范围不受建模单元大小以及数量的限制,也不受模型类型的限制,其方法适用于任何其它连续语音识别系统。
图1状态结构调整及说话人自适应图2基于训练语料的状态结构调整图3状态结构调整系统性能比较图4状态结构调整系统说话人自适应性能比较具体实施方式
结合本发明方法的内容提供以下实施例对其进行进一步的理解。
实施例为更好地理解本发明的技术方案,采用连续语音数据库做实验进一步说明。基线系统F 863的训练集包括F_Tr包含68个女声录音,每人约530句话,共36210句;语音采用16KHz采样率、16位采样、帧长25ms、帧移为10ms。提取39维语音特征矢量,包括12维MFCC、1维归一化能量,以及它们的一阶、二阶差分。声学模型选择声母和带调韵母作为基本的建模单元,每个建模单元都用连续密度的HMM来表示,在本发明中,基本建模单元见表1(韵母后的数字代表声调,数字5代表轻声),包括声母27个,其中ga、ge、ger、go分别为单音节a、e、er、o的假定声母;带调韵母157个,其中ib表示在音节chi、ri、shi和zhi中的韵母,if代表在音节ci、si和zi中使用的韵母。加一个静音(silence)HMM模型,共训练185个单音子模型,模型的训练方法同一般语音识别过程。当训练模型由单音子扩展到三音子后,基于声学决策树,对三音子模型做状态聚类,聚类后的状态分布由单个高斯逐渐扩展到8个混合高斯,系统在识别过程中没有应用语言模型,实验仅仅是声学层上的结果。
表1声学模型中的声母和带调韵母
男声测试语料M_Te来自14个人,每人40句话;男声自适应语料M_Ad来自同样的14个测试者,每人40句话,其中测试语音与自适应语音之间是独立的。利用M_Ad对F_863做状态结构调整后的模型记为R1_F,在R1_F的基础上利用F_Tr做进一步调整后的模型记为R2_F,随自适应语句数量的变化,系统性能的比较如图3所示。从图3可以看出,R1_F和R2_F都获得了比F_863一致提高的识别率。当自适应语料较少时,例如只有1、3句时,R1_F中结构调整过的状态数量有限,其性能的提高也是有限的;而利用训练语料对剩余状态调整过的R2_F的性能却有明显提高,从而说明在利用训练语料对状态结构调整时做的假设是成立的。随着自适应语句的增加,R1_F与R2_F性能开始接近,当自适应语料足够多时,R1_F与R2_F将会保持一致。
对以上F_863、R1_F和R2_F三个系统利用男声自适应语音做MLLR说话人自适应,F_863/MLLR、F_R1/MLLR和F_R2/MLLR的识别率随自适应句子数的变化情况如图4所示。参数量多的系统做MLLR自适应后识别率会有显著提高,相比F_863系统,状态调整后的F_R1和F_R2系统不仅大大增加了状态内的参数量,而且从调整状态结构的角度间接地对决策树结构进行了调整,减少了决策树结构与测试语音不匹配对说话人自适应的影响,因此F_R1/MLLR,F_R2/MLLR的识别性能明显高于F_863/MLLR,从而证明了状态调整算法有利于提高系统的性能。
权利要求
1.一种语音识别中状态结构调整方法,其特征在于,根据状态间混淆度,采用混淆状态间高斯加权共享对状态结构进行调整,具体步骤如下(1)建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39,过程同一般语音识别,提取训练语音每句话的特征,根据句子内容利用HTK工具首先选择声母和带调韵母作为基本的建模单元,建立带调单音子模型;然后将模型由单音子扩展到上下文相关的三音子模型,三音子模型同时考虑了音节间左右声韵母的情况,语境与三音子模型相对应;最后利用声学决策树对基于同一个单音子的所有三音子模型的状态进行聚类,聚类的后状态由单高斯分布逐渐扩展到多个混合高斯分布;(2)状态结构调整包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,自适应语音和测试语音来自同一个测试者,基线系统识别自适应语音时出现的错误同样会在基线系统识别测试语音时出现,因此,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;(3)说话人自适应采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。
2.根据权利要求1所述的语音识别中状态结构调整方法,其特征是,所述的最大似然线性回归算法对状态调整后的模型做自适应时,考虑到自适应语料的有限性,只对模型的均值做自适应,最大似然线性回归算法中的平移矩阵采用对角平移矩阵,而且在两个以上的目标均值之间共享平移矩阵,对角平移矩阵的估计是利用共享目标分布对应的所有自适应数据,共享的程度和范围根据自适应数据的多少和语音学分类进行调整。
全文摘要
一种语音识别领域的语音识别中状态结构调整方法,具体步骤如下建立大词汇量连续语音识别系统语音特征采用12阶Mel倒谱特征及短时能量共13维作为基本特征,加上其一阶差分和二阶差分,最后特征维数为39;状态结构调整包括利用自适应语音对模型状态结构调整和利用训练语音对模型状态结构调整,假设基线系统在识别训练语音时出现的错误在识别测试语音时也会出现,从而利用训练语料对剩余状态的结构进行调整;说话人自适应采用最大似然线性回归算法,利用自适应语料对调整后的模型做自适应。本发明提高了模型对样本的后验概率,增强对自适应语料的利用率,从而降低训练语料与测试语料决策树结构不匹配造成的识别率的降低。
文档编号G10L15/06GK1588536SQ20041006679
公开日2005年3月2日 申请日期2004年9月29日 优先权日2004年9月29日
发明者朱杰, 徐向华 申请人:上海交通大学
语音识别中状态结构调整方法
相关推荐
专利名称:采用发光管的太阳能围墙灯的制作方法技术领域:本实用新型涉及一种照明灯具,具体是涉及一种采用发光管的太阳能围墙灯。背景技术:目前,通常用于室外围墙上的照明灯具,大都由灯泡及灯罩组成,电源通过导线和照明灯泡连接并供应能量,这样的围墙灯
专利名称:一种散热器与灯罩的装配结构的制作方法技术领域:本实用新型涉及一种散热器与灯罩的装配结构。背景技术:现有的散热器与灯罩的装配结构,大部分在散热器开设二 U形槽,在灯罩固设二与二 U形槽相配合的卡块,通过卡块与U形槽的配合实现散热器与
专利名称:包括触摸面板的液晶显示器件的制作方法技术领域:本发明涉及一种液晶显示器件,更具体地说,涉及一种其中触摸面板嵌入 在液晶面板中的液晶显示器件,由此有助于减少工序数量且容易组装。背景技术:随着现代社会对信息依赖的不断提高,可视地显示电
专利名称:一种共点三维分光组合光学系统的制作方法技术领域:本实用新型涉及一种共点三维分光组合光学系统。 背景技术:激光投线仪是目前在建筑、装饰及各类工程安装行业广泛使用的一种激光仪器, 其功能主要是利用线束激光对三维空间进行水平和垂直定位、
专利名称:用于连续视听语音识别的耦合隐马尔可夫模型(chmm)的制作方法技术领域:本发明的实施方案涉及语音识别系统领域;且更具体地说,涉及用于评估视听材料的耦合隐马尔可夫模型技术。背景技术: 当前可以获得的语音识别系统的成功被局限在相对受控
专利名称:用于增强话音识别准确度的有地理标记的环境音频的制作方法技术领域:本说明书涉及话音识别。背景技术:如在本说明书中所用,“搜索查询”包括当用户请求搜索引擎执行搜索查询时用户向搜索引擎提交的一个或者多个查询检索词,其中“检索词”或者“查