当前位置:网站首页>专利 >正文

自动语音识别方法和设备的制作方法


专利名称::自动语音识别方法和设备的制作方法
技术领域
:本发明涉及自动语音识别(ASR)领域。更具体而言,本发明涉及用于计算语言模型前看(lookahead)概率的方法和设备。
背景技术
:在ASR中使用独立于声学观测的语言模型LM来限制应该如何将语言中的词连接起来以形成句子。通常使用的语言模型基于其中考虑了n-1个历史词的n元(n-gram)。当语言模型由于将被应用而需要完成的词时,引入语言模型前看LMLA概率,其允许在一个词完成之前应用语言模型,,语言模型前看(LMLA)可以加速n元解码过程。LMLA的主要思想为当不知道当前词id时使用LMLA概率作为语言得分(linguisticscore),,该技术导致解码过程的更有效率的修剪。然而,在常规方法中产生LMLA概率的计算成^f艮高。当采用高阶LMLA例如三元LMLA时,在搜索空间中出现的不同三元语境(context)的数目与二元语境的数目相比急剧增加。结果,三元LMLA的计算成本远远高于二元LMLA,这甚至不能通过使用该技术减少搜索空间来补偿。为了克服该问题,提出了一些好的方法,包括基于节点的LMLA概率高速緩存(cache)、预计算LM概率以及完美散列(perfecthashing)。这些方法中的大多数集中于怎样有效地高速緩存和查询LMLA概率。然而,产生LMLA概率本身就是耗时的过程。
发明内容本发明解决了该问题,并在第一方面提供了一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,所述i殳备包括装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;装置,用于使用第一语言模型计算所述树中的所有节点的语言前看概率;装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型更新所述词;以及装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。本发明从较低阶LMLA树产生较高阶LMLA概率。所述方法基.于稀少的n元LM。在基于回退(backoff)的LM中,给定词语境信息,仅仅显式(explicitly)估计n元概率的一小部分,而通过回退估计来计算剩下的n元概率。基于该事实,从U-l)元LMLA树开始计算n元LMLA树。如果n元LMLA树中的节点与显式估计的n元值不相关,那么可以从(n-1)元LMLA树直接得到该节点的LMLA概率。4吏用该方法,产生二元LMLA树的过程加速到3倍,产生三元LMLA树的过程加速到12倍。常规方法将计算LM概率和LMLA概率作为两个独立的过程处理。然而,LMLA概率的计算和LM概率的计算有很强的关联。利用该关系,可以极大地加速LMLA概率的计算。本发明减少了在以统计语言模型和语言模型前看运行的解码器中计算语言模型(LM)前看概率的数目。此外,本发明减少了LM前看的存储器成本。当考虑n元语言模型时,需要比较与词和出现的之前词相关的统计信息。然而,并不总能得到该数据。为了解决该问题,得出了回退参数的概念,其允许当不能得到特定的词的二元数据时,从例如用于该词的一元模;型来估计二元概率。所述系统将优选使用回退M用于较低阶语言模型。所述系统被配置为存储或计算该回退参数。为了确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率,所述系统优选被配置为确定一个词是否与预先识别的词相结合出现。所述较高阶模型优选为二元、三元、四元或更高阶n元模型。在优选的实施例中,所述系统还包括具有多高速緩存结构的存储器,其中所述存储器的高速緩存的数目等于在所述系统中使用的所述n元模型的阶。在第二方面,本发明提供了一种自动语音识别系统,包括装置,用于接收语音;装置,用于从所述语音提取声学信号并确定在所述语音中包含的词的第一概率;装置,用于提供语言模型以确定在所述语音中包含的词的第二概率,其包括用于计算在上述语言模型前看树中的节点处的前看概率的系统;以及装置,用于组合所述第一和第二概率并输出从所述接收的语音中识别的词。用于接收语音的装置可以是麦克风、语音记录等。在第三方面,本发明提供了一种用于计算在语言模型前看树中的节点处的语言模型前看概率的方法,其中语言的词汇表的词位于所述树的叶处.,所述方法包括使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;使用第一语言模型计算所述树中的所有节点的语言前看概率;确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型概率更新所述词;以及仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。优选地,确定较低阶语言模型概率使用回退参数。所述方法为动态方法,并且需要连续解码新的声学信号以形成词。如果需要新LMLA树,其可以这样构建重新设定语言模型前看概率至较低阶语言模型;确定是否可以使用较高阶语言模型计算词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型概率更新所述词;以及仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。不必为接收的每一个声矢量更新LMLA树。例如,确定了新的矢量不会导致新LM语境,或可以在高速緩存中找到该语境的LMLA树,便不需要更新LMLA。在第四方面,本发明提供了一种自动语音识别方法,包括接收语音;从所述语音提取声学信号并基于所述声学信号确定在所述语音中包含的词的概率;提供语言模型,该模型包括计算在上述语言模型前看树中的节点处的前看概率;以及输出从所述接收的语音中识别的词。虽然说明书将集中于语音识别,但本领域的技术人员可以理解本发明还可以应用于语音到语音翻译、OCR、手写识别、或其他使用统计语言賴:;型信息的动态编程搜索。所述系统甚至可以应用于DNA基因组排序。本发明可以通过硬件或通用计算机中的软件来实施。此外,本发明还.可以由硬件和软件的组合来实施。本发明还可以通过单处理设备或处理设备的分布网络来实施。因为本发明可以通过软件实施,所以本发明涵盖在任何适当的载体介质上为通用计算机提供的计算机代码。所述载体介质包括任何存储介质,例如,软盘、CDROM、磁装置或可编程的存储器器件、或任何瞬态介质,例如,任何信号,例如电、光或微波信号。图l为ASR的搜索空间的示意图;图2为发音网络的示意图3为示出了基于词汇网络和二元LM的搜索空间的示意图;图4为LM前看概率树的示意图5示出了根据现有技术的方法计算语言模型前看概率的步骤;图6示出了根据本发明的实施例计算语言模型前看概率的步骤;图7示出了基于多高速緩存结构的三元LMLA;以及图8是使用LMLA的常规信号处理系统的示意图。具体实施例方式现在将参考下列非限制性的优选实施例更详细地描述本发明。在自动语音识别(ASR)期间,首先将有待识别的语音数字化,然后计算表示语音的语域内容的特征。为了将这些特征匹配到识别系统的词汇表内的词,使用两种类型的概率分布。一种为声学语音学或声学模型,表示将从上述特征得出的声矢量匹配到已说出的词的概率,另一种为语言模型。语言模型完全独立于声学观测并被用于限制如何连接词汇表的词以形成完整的句子。本发明涉及语言模型。然而,为了描述本发明,首先给出通常的ASR的描述。如这里所使用的,数语"词"表示统计语言模型的基础单元。与"词"相关的,词序列、子词序列和词汇的概念如下a.词序列i.解码的通常问题为找到在输入信号中包含的"词"的序列。"词"为语言模型(LM)中的统计单位的序列。ii.可以通过称为n元模型的统计LM建模词的序列,该n元模型使用最近的n-l个历史词来计算当前词的概率。假设存在词的序列,基于ii元模型,^V"^的概率可以被计算为《jcp(甲2…,)=np(wf—r''ww)绍np(wf沐'-"+i'.1)(i)豕'鹏》^您i在7>式1中,如果i-n+Kl,词历史从w,开始。b.子词序列对于本专利中考虑的解码任务,每一个词可以被表示为l个或多个子词单元的序列,子词为,例如,语音中的音素、OCR等中的字母,例如"sa化/sAt/,sang/sAng/"。c.词汇词汇为搜索空间中的词组(wordset)的一般表示,并通常由词汇网络表示,词汇网络中的每一条路径表示一个词的子词序列。广泛使用的词汇前缀树为词汇网络的特殊情况。解码的主务f壬务为从极大的搜索空间选择具有最大似然的词序列。对于基于隐马尔科夫模型(HMM)的大词汇表连续语音识别(LVCSR),解码问题为,在给出了声学特征序列时,组合词汇、声学模型和语言模型信息并以给定的时间从其中每一节点关联于一个HMM状态的格状搜索空间寻找最佳路径(具有最大后验似然),即,最佳HMM状态序列。图I示出了ASR的搜索空间(Ney及Ortmanns2000)的实例。图2示出了发音网络。出于效率原因,通常将ASR的发音词汇组织为其中每一个圆弧表示一个音位模型的发音网络。音位模型可以依赖或独立于语境。广泛使用的发音前缀树为发音网络的特殊情况。图3示出了H.Ney和S.Ortmanns在2000年8月的ProceedingsoftheIEEE,ppl224画pp1240中的"ProgressinDynamicProgrammingSearchforLVCSR"中所采用的ASR的搜索空间的示意图。在图3中,词汇网络包含3个词A、B、C和静音(silence)。在每个帧t中,以相同词结束的所有假设被重新组合并按照对应的词历史净皮传播到新的词汇网络中。给定声学特征序列,解码原理可以被表达为<formula>formulaseeoriginaldocumentpage12</formula>其中<为搜索空间中的词序列,《为从帧1到帧T的声学特征序列,以及《为从帧1到帧T的HMM状态序列。在使用SLM信息的时间同步维特比(viterbi)解码中,对于每一个帧t,动态编程过程可以分为两部分,在词内的过程和在词的边界处的过程。如果采用二元解码,在词内的过程可以表示为j口下<formula>formulaseeoriginaldocumentpage12</formula>其中,么(r,力为前趋(predecessor)v的结束于时间t且处于词汇网络的状态s的最佳局部路径的得分,系统使用fi力,"来传#^设。Ad)为前趋v的结束于时间t且处于词汇网络的状态s的最佳局部路径中的最后的历史词的结束时间。系统使用足仏力存储追溯信息。《"仏力为假设(t,s)和前驱v的最优前趋状态。在词的边界处,LM得分必须被加到局部路径的总得分,然后,应该重新组合在时间t以词w结束的所用假设,即,<formula>formulaseeoriginaldocumentpage12</formula>其中Sw为词汇网络中的词w的终点状态。在增加了LM得分之后,使用新的得分以执行下一步骤的动态编程过程,即,<formula>formulaseeoriginaldocumentpage12</formula>通过修剪除去得分小的假设。修剪方法包括声束修剪、语言模型束修-剪和直方图修剪等。对于每一帧t,声束修剪选择最佳状态假设,并且仅仅保留其得分接近最佳得分的假设,即,<formula>formulaseeoriginaldocumentpage13</formula>(6》如果<formula>formulaseeoriginaldocumentpage13</formula>(7)那么状态假设(t,s,v)将被修剪掉,其中Ac为修剪阈值。语言模型修剪仅仅被应用于到达当前帧t的词边界的假设。这可以被描述为<formula>formulaseeoriginaldocumentpage13</formula>(8)如果化<formula>formulaseeoriginaldocumentpage13</formula>(9)词边界处的假设(t,s=0,v)将被修剪掉。如之前所述,本发明涉及语言模型,并且具体而言涉及LM前看技术。上述解码算法基于词汇发音网络,其中直到到达其他词不能分享的第一圓弧系统才可以获得词ID。因此,词ID通常邻近词汇发音网络的尾部。因为语言模型限制了如何连接词,所以当检测词ID时仅仅可以非常晚地将其并入到解码过程中。然而,为了尽可能早地引入LM得分,S.Ortmanns、H.Ney和A.Eiden在1996年10月的"Language-ModelLook-aheadforLargeVocabularySpeechRecognition",Proc.Int.Conf.SpokenLanguageProcessing,Philadelphia,PA,pp2095-pp2098,中提出了LM前看技术。给定LM语境,对于LM前看网络中的每一个节点,将LM前看概率限定为从该特定的节点可以达到的所有词的最大LM概率,即,<formula>formulaseeoriginaldocumentpage13</formula>(10)其中,W(n)表示从节点n可以到达的词的组。LM前看的基本思想为将LM前看概率并入到动态编程过程中以获得更有效的修剪。没有LM前看技术,在词内的假设的得分不包含当前词的LM得分,因为当前词ID是未知的。当使用LM前看技术时,将LM前看概率并入到假设的原始得分中,并基于这些新的得分进行修剪。图4是LM前看概率树的图。LM前看网络为例如在图2中示出的类型的发音网络的副本。在图4的LM前看树中,给定特定的LM语境,每一个节点包含其LM前看概率。可以通过去除仅具有一个后继节点的所有节点来压缩LM前看网络。计算LM前看概率的常规方法采用动态编程过程。因为LM前看网络中的每一个叶节点对应于单独的词,所以首先,LM前看网络中的叶节点的LM前看概率4皮分配为不同的词的真实LM概率。然后,对于每一个特定的节点,通过其后继节点的最大LM前看概率来确定LM前看概率。可以从底部到顶部递归计算整个LM前看网络的LM前看概率,即,其中,s(n)为节点n的后继节点的组。典型地,LM前看概率必须在解码过程期间即时产生。因此,计算LM前看概率的效率会极大影响解码速度。虽然动态编程过程提供了计算LM前看概率的有效方法,但是其会导致过量的计算次数。图5示出了LM前看概率的计算。计算可以分为两部分,即,图5a示出的第一部分和图5b示出的第二部分。第一部分基于LM语境例如词的n元模型概率计算词汇表中的每一个词的LM概率。第二部分通过为每一个节点求和从特定节点可以达到的所有词的LM概率来为LM前看网络中的每一个节点分配LM前看概率。通过动态编程过程分配LM前看概率。假定词汇表包含V个词,LM前看网络包含M个节点。这意味着对于发生在搜索空间中的每一个LM历史,LVCSR系统必须在步骤1中查询V个概率,在步骤2中产生M个前看概率。在LVCSR系统中,V和M的值非常大。典型地在识别一个句子的期间,在搜索空间中存在几百个二元语境和几千个三元语境。对于更高阶的n元,例如,4元,搜索空间中的LM语境的数目甚至更大。对于每一个LM语境,必须进行上述的LM概率计算。因此,使用常规方法计算LM前看概率时,CPU成^艮高。同时,如果高速緩存出现在搜索空间中的LM前看概率,假定LM前看网络包含M个节点,并且在搜索空间中出现N个不同的LM语境,那么,需要存储MxN个LM概率。在LVCSR系统中,当使用高阶n元解码时,M和N都很大,因此进行LM前看的存储器成本同样很高。图6示意性地示出了才艮据本发明的实施例计算LM前看概率的方法。在实施例中,使用低阶LM前看信息以减小较高阶LM前看的计算。参考图5描述的方法没有使用低阶LM前看信息,LM前看网络中的每一个节点必须,皮分配一个LM前看概率。在根据本发明的实施例的方法中,仅仅需要更新小子集的节点的LM前看概率,而对于LM前看网络中的大多数节点,可以直接从低阶LM前看网络复制其LM前看概率。基于回退(backoff)的n元模型的可以械束达为如下<formula>formulaseeoriginaldocumentpage15</formula>其中,f(.)为从n元文件中读取的折扣(discounted)LM概率,C()为训练语料(trainingcorpus)中出现的事件的频率,回退(h)为使得所有w的概率的和等于1的历史h的回退参数,以及h'表示h的较低阶历史。公式12指示了当在n元数据中不能找到历史-词对时,可以使用较低阶模型作为回退估计。实际而言,对于大词汇表应用,给定历史h,可以在训练数据中找到的不同的历史-词对的数目远小于词汇表V的尺寸。这意味着,对于每个词历史h,大多数的n元概率通过回退估计给出。可以使用该现象加速语言建模的计算。当考虑11元语言模型时,需要比较与词和出现的之前的词相关的统计信息。然而,并不总能得到该数据。为了解决该问题,得出了回退参数的概念,其允许当不能获得特定的词的二元数据时,通过例如用于该词的一元模型来估计二元概率。例如,在图6的实施例中,回退参数计算如下n元LM可被计算为/(沐f)*勘efe^f(A)o幼酵ise作为概率,其应该满足^]尸(,)=1(b)才艮据/〉式a,7>式1>可以#皮重新写为由此,可以通过下式计算回退参数可以提前计算并存储回退参数。节点n中的LM前看的定义为从n可以到达的所有词的最大LM概率其可以被束示为tt(I=maxP(沐IA)《13)其中W(n)表示从节点n可以到达的词的组。根据公式(12),可以将LM前看的定义重新写为I旬-max{Tj(打IA%(I》)}(:14》其中<formula>formulaseeoriginaldocumentpage17</formula>并且<formula>formulaseeoriginaldocumentpage17</formula>因此,LMLA树中的节点可以4皮分为两部分,即,<formula>formulaseeoriginaldocumentpage17</formula>给定词历史h,仅仅需要使用显式n元估计来计算与M相关的LMLA概率,而使用回退估计计算与]\2相关的其余的LMLA概率。基于上述分析,给出了用于计算LMLA概率的新的方法。根据上述分析,LM前看的计算可以分为4个步骤。步骤l:产生低阶LM前看网络,r,对于T中的每一个节点njA)=maxP(wf的f17、步骤2:用历史h的回退^lt乘以低阶LM前看概率,以产生新的LM前看网络(树),f,对于f中的每一个节点n矛(打IA)=(力)雄P(沐I&')<工8)步骤3:对于在训练语料中的与LM语境h共同出现的每一个词w,用n元模型中的折扣LM概率代替f的叶节点中的回退LM概率,即,如果C(h,w)>0,使用/(wl^代替f中的/0|的""£*#(/0。步骤4:对于,={^|(:仇*)>0》中的每一个词w,使用动态编程过程,更新从其可以到达w的节点中的LM前看概率。图6示出了基于新方法的LMLA概率的计算。图6a示出了步骤l和2,图6b示出了步骤3和4。计算LMLA概率的新方法从回退LMLA树开始。图6中的LMLA树包含8个叶,即,8个单独的词。给定LM语境h,假定仅仅两个词w,和W3具有显式LM概率,新方法仅仅需要计算从其可以到达Wi和Ws的节点,即,图6中的黑节点,的LMLA概率,而可以从回退LMLA树直接复制其余的LMLA概率,即,灰节点中的LMLA概率。实施例的方法通过仅仅计算LM前看树中的节点的子集,即,属于公式17中的N!的节点,而不是像旧方法一样更新每个节点,显著减少了CPU成本。对于特定的LM语境h,词组W={w|C(h,w)>0}远小于整个识别词汇库。因此&中的节点仅仅是LM前看树中的节点的小的子集。由此,可以非常有效率地计算高阶LM前看概率例如三元前看概率。传统方法保持一个緩沖器以高速緩存出现在搜索空间中的LM前看网络,以便可以在将来重新使用这些LM前看网络。在提出的方法中,为了计算n元LM前看概率,不仅需要高速緩存n元前看网络而且需要高速緩存n-:l元前看网络。在计算n元前看概率之前,进行检测以观察需要的n元前看网络是否已经高速緩存在n元前看緩冲器中。如果没有,在n-l元前看緩沖器中搜索对应的n-l元前看网络。然后,使用提出的方法从n-l元前看网络产生n元前看网络。当计算n-l元前看网络时也进行相同的相似的操作,即,需要高速緩存n-2元前看网络以产生n-l元前看网络。迭代地进行该操作,总是緩存较低阶前看网络以产生较高阶前看网络。使用实施例的方法,可以显现减小计算LM前看概率的CPU成本。在常规方法中,对于LM前看树中的每一个节点,都需要计算对应的LM前看概率。在提出的方法中,仅仅需要更新LM前看树的子集节点的LM前看概率。将节点(w)(Node(w))限定为通过其可以到达词w的节点的组。于是,LM前看网络中需要更新LM前看概率的所有节点可以表达为<formula>formulaseeoriginaldocumentpage18</formula>对于特定的LM语境h,词组W={w|C(h,w)>0}远小于整个识别词汇表。因此,组N中的节点的数目远小于LM前看网络中的总节点数目。实施例的方法还可以减少存储器成本。乍一看,提出的方法需要高速緩存较高阶和较低阶前看网络,所以存储成本高。然而,用于高速緩存较低阶前看网络的緩沖器的大小远小于用于高速緩存较高阶前看网络的緩沖器。另一方面,提出的方法远快于常规方法,因此仅仅需要高速緩存最频繁出现的前看网络,在要求时才产生剩余的较不频繁的前看网络而不会具有太大的CPU成本。因为最频繁出现的前看网络相比于出现在搜索空间中的所有前看网^仅占据存储器的一小部分,因此提出的方法实际上減小了存储器成本。此外,常规方法高速緩存搜索空间中的所有LM前看网络。在提出的方法中,对于每一个n元语境,系统可以检查在模型中是否真的存在基于该语境的n元概率。如果没有为特定n元语境存储n元概率,便不需要存储与该语境相关的n元前看网络,n-l元前看网^#被直接使用。因此,在根据本发明的实施例的方法中,可以进一步减小存储的n元前看网络。1.实施例的方法显著加速了LM前看概率的计算。2.实施例的方法可以减小三元或更高阶n元前看的存储器成本。在实施例的方法中,较高阶LMLA概率的计算依赖于较低阶LMLA概率的值,设计多高速緩存结构以执行高阶LMLA。系统所具有的高速緩存的数目与解码器采用的LM的阶相同。每一阶的LMLA概率具有一个高速緩存。如果在高速緩存中不存在需要的LMLA树,使用对应的回退桐从低阶LMLA高速緩存来产生需要的LMLA树。图7示出了基于多高速緩存的三元LMLA的框架结构。基于多高速緩存结构,三元LMLA被分为5个步骤步骤1:解码器从LMLA评分模块请求节点n的LMLA得分和词历史WjWi,LMLA评分模块检查请求的LMLA概率是否已存在于三元LMLA高速緩存中,如果是,那么就返回该LMLA概率,否则,到步骤2。步骤2:使用二元词历史Wi查寻二元LMLA高速緩存,如果Wj的LMLA緩冲已存在于高速緩存中,进行到步骤4,否则,到步骤3。步骤3:使用一元LMLA緩沖器,产生并高速緩存Wi的二元LMLA緩冲。步骤4:使用Wi的二元LMLA緩冲器,产生并高速緩存wjWi的三元LMLA緩冲。步骤5:将请求的LMLA概率返回到解码器。将图6的方法用于具有WSJ20K词汇表系统的三元LMLA。训练语音为WSJ0和WSJ1语料、SI284训练组。词汇表为具有语言数据联盟(LDC)提供的约20k个词的封闭词汇表(closedvocabulary)。声学賴;型包含6000绑定(tied)HMM状态,每一状态具有10高斯混合分量。语音特征矢量为33维,包括10C-MFCKL、1LOG能量(energy)及其一阶和二阶时间导数。LM是利用具有约40M个词的WSJ87-89文本语料训练的三元语言模型。LMLA的配置MIPSLMLA的CPU成本常规二元LMLA605425.8%新方法的二元LMLA53287.5%常规三元LMLA958965.8%新方法的三元LMLA528010.0%表1常规方法和新方法之间的LMLA的CPU成本比较表1示出了基于相同束宽的具有不同配置的LMLA的CPU成本。可以看出,本发明提出的方法极大地减小了LMLA概率的计算成本。产生二元LMLA树的处理加速到3倍,产生三元LMLA树的处理加速到12倍。当使用三元LMLA时,在搜索空间中出现的不同三元语境的数目远大于二元语境的数目。在旧的方法中,三元LMLA的益处不能补偿由于LMLA所产生的额外的计算,系统甚至比二元LMLA系统更it。另一方面,因为新方法计算LMLA概率比常规方法快得多,因此当使用新方法时,三元LMLA相比于二元LMLA进一步提速了系统。表2示出了基于新方法的三元LMLA和二元LMLA的性能。为了获得相同的WER,基于三元LMLA的解码总是比使用二元LMLA的解码快。在快速解码中三元更有效率,当束宽度为160时,三元LMLA的WER比二元LMLA好1%,当束宽度增加到200时,差异减小到0.3%。如在部分4中所述,新方法中的三元LMLA基于多高速緩存结构,在该结构中从二元LMLA概率产生三元LMLA概率,并从一元LMLA概率产生二元LMLA概率。表3示出了基于WSJ20K任务中的一个测试话语的不同阶的LMLA的计算量。可以看出,即使产生了多出三倍的三元LMLA树,也仅仅占用了1.26%的CPU成本,而二元LMLA占据了7.63%的CPU成本。这主要由于三元数据的稀少。因为三元数据相比于二元数据非常稀少,在三元LMLA中将更新的节点远小于二元LMLA中的节点。因此,大多数的计算成本来自二元LMLA,即使其不经常被调用。<table>tableseeoriginaldocumentpage21</column></row><table>表2:基于新方法的三元LMLA和二元LMLA的比较结果<table>tableseeoriginaldocumentpage21</column></row><table>表3:基于新方法的不同阶的LMLA的计算量。如前所述,本发明还可以应用于其中需要结合语言模型动态处理输入信号的一系列系统。图8示出了^f出系统,其中在输入单元l提供输入信号的。然后,将单元l的输出提供给单元3,在单元3中声学模型或其他模型可以产生在确定的输入信号中的可能的词的第一概率分布。例如,在语音识别时,该单元将提供声学语音学模型。单元5提供可以限制如何在语言中连接词的语言模型。在语言模型和声学模型单元3之间可以存在通讯。最终,解码器7产生输出,在语音识别的情况下,所述输出为词。该系统可以为语音-语音翻译系统的一部分,在所述翻译系统中使用TTS系统等进一步将所述输出翻译并输出为语音。同样,该系统可以用于OCR,其中,输入单元1处的输入将为扫描的文本而不是语音,并且代替提供声学模型,单元3将输出扫描的文本中的词的概率。语言模型5的操作方式与之前描述的相同。解码器7将输出计算机可以读和处理的文本用于词处理等等的。相似地,可以将该系统应用于其中输入为手写文本的手写分析,并且单元3解码手写文本。同样语言模型的操作方式与上面描述的相同。最后,该系统还可以用于例如DNA基因组测序的非常规语言模型。权利要求1.一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,所述设备包括装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;装置,用于使用所述第一低阶语言模型计算所述树中的所有节点的语言前看概率;装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率并使用所述较高阶语言模型更新所述词;以及装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。2.根据权利要求l的系统,其中用于使用较低阶语言模型分配语言模型概率的所述装置被配置为使用回退参数。3.根据权利要求l的系统,其中用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的所述语言模型概率的所述装置被配置为确定词是否已经与预先识别的词相结合出现。4.根据权利要求l的系统,其中所述较高阶模型为二元、三元、四元或更高阶n元模型。5.根据权利要求4的系统,还包括具有多高速緩存结构的存储器,其中所述存储器的高速緩存的数目等于在所述系统中使用的所述n元模型的阶。6.—种自动语音识别系统,包括装置,用于接收语音;装置,用于从所述语音提取声学信号并确定在所述语音中包含的词的第一概率;装置,用于提供语言模型以确定在所述语音中包含的词的第二概率,包括根据上述权利要求中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及装置,用于组合所述第一和第二概率并输出从所接收的语音中识别的词。7.—种语音到语音翻译系统,包括权利要求6的自动语音识别系统和用于将输出的词翻译为另一语言的装置。8.—种OCR系统,包括装置,用于接收扫描的文本;装置,用于确定在所述文本中包含的词的第一概率;装置,用于提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求1到5中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及装置,用于组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。9.一种手写识别系统,包括装置,用于接收手写的文本;装置,用于确定在所述文本中包含的词的第一概率;装置,用于提供语言模型以确定在所述文本中包含的词的笫二概率,包括根据权利要求1到5中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的系统;以及装置,用于组合所述第一和第二概率并输出从所述手写的文本中识別的词。10.—种用于计算在语言模型前看树中的节点处的语言才莫型前看概率的方法,其中语言的词汇表的词位于所述树的叶处,所述方法包括使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;使用所述第一语言模型计算所述树中的所有节点的语言前看概率;确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用较高阶语言模型概率更新所述词;以及仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。11.根据权利要求10的方法,其中确定较低阶语言模型概率使用回退12.根据权利要求10的方法,其中确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率确定词是否已经与预先识别的词相结合出现。13.根据权利要求10的方法,其中所述较高阶模型为二元、三元、四元或更高阶n元模型。14.根据权利要求10的方法,还包括通过将所述语言模型前看概率重新设定至较低阶语言模型来解码序列信号;确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用较高阶语言模型概率更新所述词;以及仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。15.—种自动i吾音识别方法,包括接收语音;从所述语音提取声学信号并基于所述声学信号确定在所述语音中包含的词的概率;提供语言模型,包括根据权利要求10到14中的任何一项的计算在语言模型前看树中的节点处的前看概率;以及输出从所接收的语音中识别的词。16.—种语音到语音翻译方法,包括权利要求15的自动语音识别方法和将输出的词翻译为另一语言。17.—种OCR方法,包括接收扫描的文本;确定在所述文本中包含的词的第一概率;提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求10到14中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的方法;以及组合所述第一和第二概率并以计算机可以读取的形式输出从所述扫描的文本中识别的词。18.—种手写识别方法,包括接收手写的文本;确定在所述文本中包含的词的第一概率;提供语言模型以确定在所述文本中包含的词的第二概率,包括根据权利要求10到14中的任何一项的用于计算在语言模型前看树中的节点处的前看概率的方法;以及组合所述第一和第二概率并输出从所述手写的文本中识别的词。19.一种载体介质,其被配置为记载用于控制计算机以实施权利要求10到18中的任何一项的方法的计算机可读指令。全文摘要一种用于计算在语言模型前看树中的节点处的前看概率的系统,其中语言的词汇表的词位于所述树的叶处,所述设备包括装置,用于使用第一低阶语言模型向所述词汇表的所述词中的每一个词分配语言模型概率;装置,用于使用第一语言模型计算所述树中的所有节点的语言前看概率;装置,用于确定是否可以使用较高阶语言模型计算所述词汇表的一个或多个词的语言模型概率并使用所述较高阶语言模型更新所述词;以及装置,用于仅仅更新受到其中语言模型已被更新的词的影响的节点处的前看概率。文档编号G10L15/18GK101548285SQ200880000950公开日2009年9月30日申请日期2008年10月2日优先权日2007年10月4日发明者陈浪舟申请人:株式会社东芝

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:带照明功能的叠层电池的制作方法技术领域::本实用新型涉及叠层电池,尤其是一种带照明功能的叠层电池。技术背景:目前,叠层电池功能单一,仅作为一种低压直流电源,不具备照明功能。发明内容:为了给叠层电池增加照明功能,本实用新型提供了带照

    专利发布时间:2025-05-15阅读:(73)

    一种汽车电喇叭的制作方法【专利摘要】本发明公开了一种汽车电喇叭,包括主体部与发声部,所述主体部设有声道,所述声道设有用于将产生的声音传播放大出去的螺旋通道,所述主体部的侧壁设有用于扩散声音的辅助声道,所述辅助声道与螺旋通道通过之间的开槽连通

    专利发布时间:2025-05-15阅读:(70)

    专利名称:一种双端金卤灯的制作方法技术领域:本实用新型涉及一种照明灯具,尤其是一种双端金属卤化物高压气体放电灯。背景技术:金属卤化物高压气体放电灯具有光效高、使用寿命长、显色性好、结构紧凑、性能稳定等优点,被广泛用于各种场所的照明。现有技术

    专利发布时间:2025-05-15阅读:(88)

    专利名称:Led地埋灯的制作方法技术领域:本实用新型涉及LED照明技术领域,特别是涉及一种能动态发光的LED地埋灯。背景技术:在全球能源紧缺的情况下,LED作为一种新型照明光源被越来越广泛的普及应用,作为绿化景观照明的地埋灯也逐渐被LED光

    专利发布时间:2025-05-15阅读:(76)

    专利名称:在厚负性高分辨率电子束抗蚀剂hsq上制作密集图形的方法技术领域:本发明涉及纳米加工技术领域,尤其涉及一种在厚负性高分辨率电子 束抗蚀剂HSQ上制作密集图形的方法。背景技术:电子束曝光技术(包括电子束直写曝光与投影式曝光)是现代微纳

    专利发布时间:2025-05-15阅读:(76)

    专利名称:光连接器及其制法的制作方法技术领域:本发明涉及在用于传递光信号的光波导路的端部上设有光连接用的接头 (ferrule)的光连接器及其制法。背景技术:近年来,开始使用利用挠性高分子光波导路的光配线(光学互连)技术代替以往的电配线而进

    专利发布时间:2025-05-15阅读:(80)