专利名称::基于语种对的鉴别式语种识别模型建立方法
技术领域:
:本发明属于语音识别领域,具体地说,涉及一种基于语种对的鉴别式模型建立方法,可用于语种识别。
背景技术:
:语种识别是指使用计算机从一段语音信号中自动识别出其语言的种类。语种识别技术主要用于多语种人机交互、语音信息侦听以及语音文档检索等系统。语种识别模型可以分为描述性模型和鉴别性模型两类。描述性模型对各语种的分布进行建模,侧重于使用非参数化或参数化的方法对每个语种进行刻画,如早期的VQ(矢量量化)和后来的G匪(高斯混合模型),以及PPRLM(并行音素识别器后接语言模型)等;而鉴别性模型对各语种的分类面进行建模,侧重于分类,如近期兴起的SVM(支持矢量机)、SVMGSV(基于G匪超矢量的SVM)和PPR-VSM(并行音素识别器后接矢量空间模型)等。在语种识别中,描述性模型一般具有较好的推广能力,特别是对于没有参与训练的集外语种,也不容易出现虚警;而鉴别性模型一般具有更好的分类能力,其识别性能通常高于传统的描述性模型。后来,学者们陆续采用一些鉴别性的准则对原来的描述性模型进行训练,并通过模型插值等手段使其兼有描述性模型和鉴别性模型的优点,从而识别性能显著提高。在连续语音识别领域,目前比较广泛使用的鉴别性准则有(MCE)最小分类错误、(匪I)最大互信息、(MPE)最小音素错误等准则。本发明主要涉及到G匪模型的鉴别式建模。对于该模型,传统的建模方法是基于ML(最大似然)准则的,它采用一种"各扫自家门前雪"的描述性策略,每个语种的模型仅用本类的数据训练,使似然度最大化。但事实上各个语种的似然度的最大化只能保证模型对数据描述得更好,却并不一定有利于分类,换句话说,ML准则并不能保证最好的识别性能。2003年至2006年期间,Qu和Matejka等人将匪I准则引入语种识别中的G匪建模,匪I准则采用一种"统筹兼顾"的鉴别性策略,使训练数据和语种类别之间的互信息最大化,从而使识别性能得到了很大的提高。但是由于匪I准则是同时将每一个语种与其他所有语种进行鉴别,没有充分考虑各语种间的混淆情况;另外匪I准则从整体考虑,目标函数的要求十分严格,考虑到实际数据分布情况复杂,各语种的数据量不同,混淆程度也各异,再加上迭代算法仅能达到局部极值等原因,这种的准则可能无法达到。
发明内容为了解决现有匪I准则的不足,本发明提供一种基于语种对的鉴别式建模方法,首先从鉴别信息的角度出发,从易混语种对的鉴别入手,放松对匪I准则的约束。使用数字集成电路实现时,采用本发明耗费的存储和运算模块资源与匪I方法相同,而等错率相对降低25%。本发明的特征在于所述方法是在数字集成电路芯片中按以下步骤实现的[OOO9]步骤(1):初始化在所述集成电路中建立以下模块特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;步骤(2):对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为sk(i)=x(i+3k+l)-x(i+3k-l),k=0,1,,6其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=O,l,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量;步骤(3):在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型G匪的初始参数,其中第l个语种的参数用、表示二(w化,/^,o^,g-l,…,G^,1=1,.…,L其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标1表示语种标号,1=l,...,L,共L二12个语种,巧g表示第l个语种第g个高斯分量的权重,i^g表示第l个语种第g个高斯分量的均值,olg2表示第1个语种第g个高斯分量的方差;步骤(4):分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量在所述分子统计量中零阶分子统计量e71(1)=|j|jC(01—阶分子统计量^""(义)=ii;c(0A(0二阶分子统计量《T(义2)=ii《r(0《(0在所述分母统计量中零阶分母统计量e,(1)=££7:(01广=1/=1—阶分母统计量《"(义)=i;i;c(0&(0,-=1'=1二阶分母统计量《(。C(/)'《(O其中上标"皿m"代表分子项,上标"den"代表分母项,9(1)、9(x)代;\0和6(;^)9(x2)分别代表零阶、一阶和二阶统计量,x《为所述特征向量的随机变量,R为总段数,r=1,2,...,R,i;为第r段语音的帧数,i=1,2,...,H(i)代表第r段语音的第i帧特征向量的取值,Ylgr(i)为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,Ylg,n(i)为第1个语种分母项中属于第g个高斯分量的后验概率,其中《",0,J]A^(W);~,《.)/to"(0广_丄其中下标g'是不同于g的高斯分量标号,下标l'是不同于l的语种标号,AA(z力);/v《)表示均值为i^,方差为。lg2的高斯分布在随机变量取值为Xr(i)时的概率密度,PA(X」1)为第r段语音在第l个语种参数下的条件概率密度&(《1,)=£|>fg#(^(0;,《),k为修正因子,取值为6/%,对所有语种l,G循环进行上述计算;1,=1g=lL和所有高斯分1,零阶分子统计量elg(l)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率Ylgrnum(i)之和,一阶分子统计量elg(x)《r"(Y)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率Ylgrn(i)与本帧特征向t的乘积之和,二阶分子统计:ig'(x2)《rx《2)表示所有r段的各段语音的各帧特征向分别属于第g个高斯分量的后验概率Ylgrn(i)与本帧特征向量平方的乘积之和,对于各阶分母统计量依此类推;步骤(5):对步骤(4)中得到的分子统计用e丄广(i)+一代替elgn(i),t进行平滑处理《r(i)代替e工"(x),用《:'m(A"2)代替e工"(x2)其中t1为平滑因子,取值为100,对所有语种1=1,...,L和所有高斯分量g=G循环进行上述计算;步骤(6):由分子统计量和分母统计量计算模型参数1118和0^的更新系数D^其中Dmin是关于D的一元二次方程的两个解中较大的一个1,.《力2+[((义2)-《(义2))+(1)_《(1))(《+/4)-2(《"W-《nW)+[『(1)-《n(l))(Cn(f)一C(义2))一K訓W—《(义))2]=0々gVV々g、V八"feV1"乂^fe、"〃、々gV"乂"g对所有语种1=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(7):修正模型参数Plg禾P。lg2,得到新的模型参数1和&1:『_c《,)+Ag(《+/4)2对所有语种i=i,...,l和所有高斯分量g=i,...,g循环进行上述计算;步骤(8):设定所有R段语音数据的目标函数^(义)为当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0X10—5则停止迭代,否则,用!^代替i^,&《,代替。18,转步骤(4)。本发明的有益效果是,可以从语种对的局部入手,然后再通盘考虑,目标函数要求比标准匪i准则松,考虑到实际数据分布情况复杂,各语种的数据量不同,混淆程度也各异,再加上迭代算法仅能达到局部极值等原因,该方法更能抓住语种间的鉴别性信息,从而获得更好的识别性能。图1是本发明进行基于语种对的鉴别式模型建立的硬件结构和步骤框图。图2是本发明进行基于语种对的鉴别式模型建立的流程框图。具体实施例方式我们将观测特征和语种类别都作为随机变量看待,其中特征随机变量(矢量)为x,y,它的一个可能取值为X,其样本空间是连续的特征空间X;语种类别随机变量为£,它的一个可能取值为1,其样本空间是离散的语种类别空间ii-0,2,…,A,L为语种数。语种识别的建模过程本质上是估计每个语种的概率密度函数,如果将语种类别也看成随机变量的话,就是估计条件概率密度函数PA(XI1)。此处下标表示条件概率密度函数依赖于参数A,或者换句话说我们就是要估计决定概率密度函数的参数。每个语种背后总有一个真实的分布支配其产生观测特征,我们不妨设实际的条件概率密度函数为q(Xll)。这样q(Xll)与p入(Xll)之间的K-L距离(条件鉴别信息)为、…,'、(塌假设存在一个估计的条件概率密度函数/^'W(XM),它表示语种在12}中取值且X^和,独立时的分布,这时《""(1|0=《""(1)=S^"l^^"q(XlD与g")(II,)之间的K-L距离为SL尸,剛log工)O《=Pi.6,A、7八〃它描述了语种在{1"12}范围内取值时q(Xll)与"小"背景之间的K-L距离。这仅是一个语种对的情况,进一步考虑所有语种对的情况,可定义/(义)4Z》(一'";単)L詞4nl^)4i:L麟"。gfnlS^'e£〃义再计算它与/(《,p;^l二)的差,可得A师)=£kw)log-(,o1/;w台vr乂时等式渐进成立。略去式中的1/R,并引式中,R为训练数据的段数,0表示R-入修正因子K,可得,)=》Og-n(A(mf尸("+^(x,iff尸(r、w'式中,\代表第r段训练数据,lr代表第r段训练数据的语种。这样我们就得到了一个新的目标函数,与匪I准则不同的是,匪I侧重目标语种与其他所有语种的和进行鉴别,而我们这里侧重目标语种与其他语种两两进行鉴别,这个准则首先针对每对语种,然后再对所有"语种对"求和,所以我们称之为P匪I准则(基于语种对的匪I准则)。如果我们认为每个语种的先验概率是相等的,此时P(lr)和P(1')是可以略去的,这样目标函数变成了6/7页为了优化该目标函数,我们采用弱辅助函数法进行迭代。首先根据各语种数据分别计算分子统计量和分母统计量c(i)=ii>r(o,i+[(《""(i)-《,"(义2)-C(义2))-(《■w-《nw)2]=0的两个解中较大的一个;最后计算新的模型参数S_《,)-《,+/\'《n(l)-《n(l)+Dfe^den'数~如图1所示,实施本发明的具体步骤如下(1)首先对语音数据提取特征,得到特征矢量;(2)采用Baum-Welch算法进行ML训练,得到初始G匪模型参数;(3)利用GMM模型对特征矢量计算计算所有语种和所有高斯分量的分子和分母统(4)对计算所有语种和所有高斯分量的分子统计量进行平滑;(5)由平滑后的分子统计量和分母统计量计算所有语种和所有高斯分量的更新系(6)按更新公式对计算所有语种和所有高斯分量的G匪模型参数进行更新;本发明实验采用国际上标准的NIST2003语种评测数据,共12个语种,含1280段长约为30秒的电话对话语音,训练数据采用CallFriend数据库语音,特征矢量采用7维的MFCC(Mel频率倒谱系数)加上49维的SDC(偏移差分倒谱)特征。将所有测试段对每个语种分别进行语种确认,调节虚警率和漏报率相等时,可以得到系统的等错率,采用各语种平均的等错率作为系统的评价指标,等错率越低,表明系统性能越好。实验中,采用G匪作为分类器,每个G匪由256个高斯分量构成。先用Bauman-Welch算法迭代8次作为初始模型,然后分别采用匪I准则以及本发明提供的基于语种对的鉴别式方法进行建模。实验表明采用匪I建模,语种识别等错率为2.13%;而采用本发明所提建模方法,语种识别等错率为1.58%,相对降低25.8%。可见,本发明提出的基于语种对的鉴别式语种识别模型建立方法用于语种识别可使其性能有较大提高。权利要求基于语种对的鉴别式语种识别模型建立方法,其特征在于,所述方法是在数字集成电路芯片中依次按以下步骤实现的步骤(1)初始化在所述集成电路中建立以下模块特征提取模块、最大似然ML准则训练模块、分子统计量计算模块、分母统计量计算模块、分子统计量平滑模块、更新系数计算模块以及模型参数更新模块;步骤(2)对CallFriend数据库12个语种的电话对话语音通过所述特征提取模块提取7维Mel频率倒谱系数MFCC,再计算偏移差分倒谱SDC特征向量,其计算公式为sk(i)=x(i+3k+1)-x(i+3k-1),k=0,1,...,6其中x(i)表示第i帧MFCC特征向量,k为SDC特征向量的块标号,k=0,1,...,6,共7块,每块7维,连同7维MFCC特征一起拼接成56维的特征向量{x(i),s0(i),s1(i),…,s6(i)};步骤(3)在所述最大似然ML准则训练模块中,用Baum-Welch算法对步骤(2)中得到的数据进行最大似然ML训练,得到所述12个语种高斯混合模型GMM的初始参数,其中第l个语种的参数用λl表示<mrow><msub><mi>λ</mi><mi>l</mi></msub><mo>=</mo><mo>{</mo><msub><mi>w</mi><mi>lg</mi></msub><mo>,</mo><msub><mi>μ</mi><mi>lg</mi></msub><mo>,</mo><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>,</mo><mi>g</mi><mo>=</mo><mn>1</mn><mo>,</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>,</mo><mi>G</mi><mo>}</mo><mo>,</mo></mrow>l=1,...,L其中下标g表示高斯分量标号,每个语种含G个高斯分量,下标l表示语种标号,l=1,...,L,共L=12个语种,wlg表示第l个语种第g个高斯分量的权重,μlg表示第l个语种第g个高斯分量的均值,σlg2表示第l个语种第g个高斯分量的方差;步骤(4)分别用分子统计量计算模块和分母统计量计算模块计算所述各语种的分子统计量和分母统计量在所述分子统计量中零阶分子统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><mn>1</mn></mrow>一阶分子统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msub><mi>X</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>二阶分子统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>X</mi><mi>r</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>在所述分母统计量中零阶分母统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><mn>1</mn></mrow>一阶分母统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msub><mi>X</mi><mi>r</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>二阶分母统计量<mrow><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>=</mo><munderover><mi>Σ</mi><mrow><mi>r</mi><mo>=</mo><mn>1</mn></mrow><mi>R</mi></munderover><munderover><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>T</mi><mi>r</mi></msub></munderover><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>·</mo><msubsup><mi>X</mi><mi>r</mi><mn>2</mn></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow></mrow>其中上标“num”代表分子项,上标“den”代表分母项,θ(1)、θ(χ)和θ(χ2)分别代表零阶、一阶和二阶统计量,χ为所述特征向量的随机变量,R为总段数,r=1,2,...,R,Tr为第r段语音的帧数,i=1,2,...,Tr,Xr(i)代表第r段语音的第i帧特征向量的取值,γlgrnum(i)为第l个语种分子项中Xr(i)属于第g个高斯分量的后验概率,γlgrden(i)为第l个语种分母项中Xr(i)属于第g个高斯分量的后验概率,其中<mrow><msubsup><mi>γ</mi><mi>lgr</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>,</mo></mtd><mtd><mi>l</mi><mo>=</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr><mtr><mtd><mn>0</mn><mo>,</mo></mtd><mtd><mi>l</mi><mo>≠</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr></mtable></mfenced></mrow><mrow><msubsup><mi>γ</mi><mi>lgr</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mo>=</mo><mfencedopen='{'close=''><mtable><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mfrac><mn>1</mn><mi>L</mi></mfrac><mrow><mo>(</mo><munderover><mi>Σ</mi><mrow><msup><mi>l</mi><mo>′</mo></msup><mo>=</mo><mn>1</mn></mrow><mi>L</mi></munderover><mfrac><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup><mo>+</mo><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><msup><mi>l</mi><mo>′</mo></msup><mo>)</mo></mrow><mi>K</mi></msup></mrow></mfrac><mo>+</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mo>)</mo></mrow><mo>,</mo><mi>l</mi><mo>=</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr><mtr><mtd><msub><mi>γ</mi><mi>lgr</mi></msub><mrow><mo>(</mo><mi>i</mi><mo>)</mo></mrow><mfrac><mn>1</mn><mi>L</mi></mfrac><mfrac><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow><mrow><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><msub><mi>l</mi><mi>r</mi></msub><mo>)</mo></mrow><mi>K</mi></msup><mo>+</mo><msub><mi>p</mi><mi>λ</mi></msub><msup><mrow><mo>(</mo><msub><mi>X</mi><mi>r</mi></msub><mo>|</mo><mi>l</mi><mo>)</mo></mrow><mi>K</mi></msup></mrow></mfrac><mo>,</mo><mi>l</mi><mo>≠</mo><msub><mi>l</mi><mi>r</mi></msub></mtd></mtr></mtable></mfenced></mrow>其中下标g′是不同于g的高斯分量标号,下标l′是不同于l的语种标号,(Xr(i);μlg,σlg2)表示均值为μlg,方差为σlg2的高斯分布在随机变量取值为Xr(i)时的概率密度,pλ(Xr|l)为第r段语音在第l个语种参数下的条件概率密度K为修正因子,取值为6/Tr,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;零阶分子统计量θlgnum(1)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)之和,一阶分子统计量θlgnum(χ)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)与本帧特征向量的乘积之和,二阶分子统计量θlgnum(χ2)表示所有R段的各段语音的各帧特征向量分别属于第g个高斯分量的后验概率γlgrnum(i)与本帧特征向量平方的乘积之和,对于各阶分母统计量依此类推;步骤(5)对步骤(4)中得到的分子统计量进行平滑处理用θlgnum(1)+τI代替θlgnum(1),用代替θlgnum(χ),用代替θlgnum(χ2),其中τI为平滑因子,取值为100,对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(6)由分子统计量和分母统计量计算模型参数μlg和σlg2的更新系数Dlg<mrow><msub><mi>D</mi><mi>lg</mi></msub><mo>=</mo><mi>max</mi><mo>{</mo><msub><mrow><mn>2</mn><mi>D</mi></mrow><mi>min</mi></msub><mo>,</mo><msubsup><mrow><mn>2</mn><mi>θ</mi></mrow><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>}</mo></mrow>其中Dmin是关于D的一元二次方程的两个解中较大的一个<mrow><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><msup><mi>D</mi><mn>2</mn></msup><mo>+</mo><mo>[</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mo>+</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>σ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>+</mo><msubsup><mi>μ</mi><mi>lg</mi><mn>2</mn></msubsup><mo>)</mo></mrow><mo>-</mo><mn>2</mn><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>)</mo></mrow><msub><mi>μ</mi><mi>lg</mi></msub><mo>]</mo><mi>D</mi></mrow><mrow><mo>+</mo><mo>[</mo><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mn>1</mn><mo>)</mo></mrow><mo>)</mo></mrow><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><msup><mi>χ</mi><mn>2</mn></msup><mo>)</mo></mrow><mo>)</mo></mrow><mo>-</mo><msup><mrow><mo>(</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>num</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>-</mo><msubsup><mi>θ</mi><mi>lg</mi><mi>den</mi></msubsup><mrow><mo>(</mo><mi>χ</mi><mo>)</mo></mrow><mo>)</mo></mrow><mn>2</mn></msup><mo>]</mo><mo>=</mo><mn>0</mn></mrow>对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(7)修正模型参数μlg和σlg2,得到新的模型参数和对所有语种l=1,...,L和所有高斯分量g=1,...,G循环进行上述计算;步骤(8)设定所有R段语音数据的目标函数为当迭代次数大于20次或相邻两次迭代目标函数的变化量小于1.0×10-5则停止迭代,否则,用代替μlg,代替σlg,转步骤(4)。F2009102353933C0000028.tif,F2009102353933C0000032.tif,F2009102353933C0000033.tif,F2009102353933C0000034.tif,F2009102353933C0000035.tif,F2009102353933C0000044.tif,F2009102353933C0000045.tif,F2009102353933C0000046.tif,F2009102353933C0000047.tif,F2009102353933C0000048.tif,F2009102353933C0000049.tif,F2009102353933C00000410.tif,F2009102353933C00000411.tif全文摘要基于语种对的鉴别式语种识别模型建立方法涉及一种用于语种识别的建模方法,其特征在于所述方法首先对语音数据提取特征得到特征矢量,接着采用Baum-Welch算法进行ML训练得到初始GMM模型参数,然后利用GMM模型对特征矢量计算分子项和分母统计量,并对分子统计量进行平滑,由平滑后的分子统计量和分母统计量计算更新系数,最后按更新公式对GMM模型参数进行更新。该建模方法从语种对的局部入手,更能抓住语种间的鉴别性信息,从而获得更好的识别性能。可以用于语种识别模型的鉴别式建模。文档编号G10L15/02GK101702314SQ20091023539公开日2010年5月5日申请日期2009年10月13日优先权日2009年10月13日发明者刘加,张卫强申请人:清华大学
基于语种对的鉴别式语种识别模型建立方法
相关推荐
专利名称:一种无弦琴的制作方法一种无弦琴技术领域:本发明涉及电子技术领域,尤其涉及一种无弦琴。背景技术:电子琴作为一种简单易学,音色优美的乐器,已经是日常生活中一种非常普及的 用品。电子琴的基本工作原理是以电振荡作为激励声源,然后通过琴键接
专利名称:金属片部件、信息显示设备和面板单元制造方法技术领域:本发明涉及一种待螺接到在侧面中形成有螺纹孔的面板上的金属片 部件, 一种具有固定到金属片部件的显示面板的信息显示设备,以及一 种通过将金属片部件螺接到面板来制造面板单元的面板单元
专利名称:一种钢琴铁排弦列的制作方法技术领域:本实用新型涉及一种钢琴配件,特别是一种钢琴铁排弦列配件,属于钢琴配件技术领域。 二背景技术:现有钢琴存在低音不够浑厚,中低音过渡不均匀的缺陷,特别是小型立式钢琴的弦列排列不尽合理和科学,影响到其
专利名称:车用无线编解码多功能遥控收发器的制作方法技术领域:本设计属于汽车电子技术装置领域,特别涉及到利用无线编解码技术在机动车行进中进行多功能遥控收发的装置。在电子技术迅猛发展的时代,如何将先进和电子信息技术用于各种现实生活场合,诸如在车
专利名称:一种电子耳蜗前端指向性语音增强的预处理系统的制作方法技术领域:本发明属于电子学、计算机和信号处理技术领域,特别涉及一种基于双TP型微型麦克风的电子耳蜗前端指向性语音增强系统,以提高在噪声环境下,传入电子耳蜗使用者 的语音信号的信噪
专利名称:用于下一代车辆的图像显示系统及其显示方法技术领域:本发明涉及一种用于下一代车辆的图像显示系统及其显示方法,更具体地讲,涉及这样一种用于下一代车辆的图像显示系统及其显示方法,该图像显示系统及其显示方法能够有效地处理关于车辆内部的各种