当前位置:网站首页>专利 >正文

模式识别的制作方法

专利名称:模式识别的制作方法
技术领域
本发明涉及模式识别系统,例如语音识别或图象识别系统。
实用的语音识别系统需要能够在日常使用中所遇到的不同环境条件下工作。一般来说,这类系统的最佳性能不如那些专门为特定环境设计的等效识别装置的性能,但是,当背景条件偏离这种识别装置设计环境条件时,这种识别装置的性能会严重降低。高分贝的环境噪声是自动语音识别处理器所面临的主要问题之一。环境噪声源包括背景语音、办公设备噪声、交通噪声、机器的交流声等等。与移动电话有关的具有不良影响的一种特定噪声源是在其中使用电话的汽车所发出的噪声。这些噪声源常常产生非常大的噪声,使得语音识别处理器的性能严重降低。
在图象处理,例如手写识别方面,使用者通常必须书写得非常清楚,以便使识别系统能够识别输入的手写信息。个人手写体的不规范可能导致系统连续地产生误识别。
通常,在语音识别处理中,将一般为数字形式的语音数据输入到一个处理器中,该处理器从输入语音数据流取得一组更加紧致、在听觉上重要的数据,称之为一个特征组或向量。例如,语音一般经由麦克风输入,而后经过采样、数字化、分割成长度为10-20毫秒(例如以8kHz速率采样)的多个数据帧,并且相对于每一帧,计算一组系数。在语音识别中,通常假定讲话者正在说已知的一组单词或者短语,即所谓的识别器词汇中的一个。该单词或短语的存储表示,称之为模板或模型,由先前在讲话者独立识别的情况下从多个讲话者取得的该单词的一个参考特征矩阵构成。将输入的特征向量与该模型比较,并产生表示两者之间相似性程度的信号。
在有宽带噪声存在的情况下,较低频率语音谱的某些区域比其它区域更容易受到噪声的影响。已经有人开发出噪声掩盖技术,按照这种技术,任何由于不同的背景噪声量值产生的乱真差值都会被消除。如在DH Klatt所写“A digital filter bank for spectral matching(用于谱匹配的数字滤波器组)”(Proceedings ICASSP 1976,573-576页)中所述,这是通过将输入信号的每个抽取特征的量值与该噪声的一个估计值比较而实现的,如果输入特征的量值低于噪声估计值的相应特征,则将该特征的量值设定为噪声值。Klatt所述技术要求使用者在每一次会话开始时说一个预定的短语。将从该输入语音中取得的频谱与该短语的模型谱和计算出的归一化频谱进行比较,其后将该归一化频谱添加到会话其它部分的所有语音频谱帧中。
Klatt还指出,在进行归一化频谱计算之前,应当计算常规噪声基数。这是通过在每次会话开始时记录背景噪声的一个一秒采样值实现的。但是这种设计要求使用者知道他们在噪声基数估算期间应当保持安静,然后说出预定的短语以计算归一化频谱。
在JN Holmes和NC Sedgwick所写的文章“Noise compensasion forspeech recognition using probabilistic models(用概率模型对语音识别进行噪声补偿)”(Proceedings ICASSP 1986)中,作者提出仅仅当所生成的掩蔽输入特征大于系统模板的相应特征值时,输入信号的特征才会被噪声值“掩盖”。
这两种方法都需要求出干扰噪声信号的估算值。为了求得估计值,需要使用者保持安静,并且在会话过程的一个特定时间点讲一个预定短语。这种设计显然不适合使用自动语音识别的现场服务,因为不可能要求使用者总是合作。
欧洲专利申请No.625774涉及一种语音检测装置,在这种装置中根据学习数据从而脱机产生语声模型(音素)。然后将输入信号与每个模型进行比较,在比较的基础上作出有关该信号是否包括语音的判断。于是该装置判断输入信号是否包含任何音素,如果是,则判断该输入信号包括语音。音素模型是根据大量讲话者的语声脱机生成的,以提供讲话者抽样的良好表示。
日本专利申请No.1-260495描述了一种声音识别系统,这种系统也是脱机生成一般噪声模型。在识别开始阶段,将输入信号与所有一般噪声模型进行比较,鉴别与输入信号特征最为接近的噪声模型。然后利用鉴别的噪声模型适配一般音素模型。这种技术基本取决于使用者能否在鉴别噪声模型期间保持沉默。如果使用者讲话,则仍然会鉴别出最为适配的噪声模型,但是与实际存在的噪声的相似性非常弱。
日本专利申请No.61-100878涉及采用噪声减除/掩盖技术的一种模式识别装置。其中使用了一种适合的噪声掩模。首先监测输入信号,如果鉴别出一个特征参数,则将该输入信号确定为噪声。将信号中被确定为噪声的部分进行掩蔽处理(即使其具有零幅值),然后将经过掩蔽处理的输入信号输入到一个模式识别装置。在该专利申请中用于鉴别噪声的常规特征参数是不同一的。
欧洲专利申请No.594480涉及一种主要是设计用于航空电子环境中的语音检测方法。该方法的目的是检测语音的起始部分和结尾部分,并掩蔽其中的干涉信号。这也是与已知的掩蔽技术相似的,按照这种技术,将输入信号利用在语音开始之前取得的噪声估计值进行掩蔽处理,然后对经过掩蔽处理的信号进行识别。
根据本发明构成的语音识别装置包括一个基准模式存储器,所说基准模式表示待识别的语音和非语音声音;分类装置,用以确定对应于一个输入信号的基准模式序列,并在已确定序列基础上重复地将输入信号划分成至少一个包含语音的部分和至少一个非语音部分;一个噪声模式生成器,用于生成对应于所说非语音部分的噪声模式,以便于其后由所说分类装置确定模式时使用;以及输出装置,根据所确定的序列来输出一个表示输入信号识别结果的识别信号。
于是根据输入信号中被认为不是直达语音的部分生成所说噪声模式,该噪声模式表示对于当前的输入信号的干涉噪声参数的估计值。可取的是将噪声模式生成器设计成在每一被认为是语音的信号部分之后生成一个噪声表示模式,用最新的噪声模式代替先前生成的噪声模式。
可取的是将噪声表示模式生成器设计成按照与生成原始基准模式所用技术相同的技术来生成噪声表示模式。这种设计使得原始基准模式可以由生成的噪声模式来进行自适应。在MJF Gales和SJ Young所撰写的“HMM recognition in noise using parallel model combination(使用并行的模式组合进行噪声的HMM识别)”(Proc.Eurospeech 1993,837-840页)中描述了自适应字模型的一种技术的实例。
术语“字”在本申请中指一个语音单位,它可以是一个单词,但是同样也可以是一个双音、音素、音素变形等。基准模型可以是隐藏马尔可夫模型(HMMs)、动态时间扭曲(DTW)模型、模板、或其它任何适合的字表示模型。在一个模型中存在的处理问题根本不是本发明所考虑的问题。识别是使一个未知发音与一个预定的变换网络适配的过程,该网络已经被设计为与使用者可能说的话相适应的。
根据本发明的第二方面,提供了一种模式识别方法,该方法包括以下步骤将一个输入信号与多个基准模式的每一个进行比较;确定一序列对应于所说输入信号的基准模式,并根据所确定的序列表示对输入信号的识别结果;确定输入信号中被认为与可允许的基准模式不对应的部分;根据输入信号中被认为与可允许的基准模式不对应的这些部分,生成用于其后的比较的一个附加基准模式。
根据本发明的再一个方面,提供一种模式识别装置,其包括一个基准模式存储器;比较装置,用于将一个输入信号的各连续部分与每一个基准模式进行比较,并且对于每一部分,确定与该部分最为匹配的基准模式;一个输出端,用于根据被认为对应于所说输入信号的基准模式序列来输出表示对该输入信号识别结果的一个信号;用于确定所说输入信号中被认为与可允许的基准模式不相对应的部分的装置;和用于根据所确定的输入信号部分生成一个基准模式以便其后由所说比较装置使用的装置。
可允许的模式可以表示该识别装置的词汇表中的字(如上文所定义的)。还可以提供最好表示非语音声音,例如机械噪声、街道噪声、汽车发动机噪声的“非可允许”基准模式。还可以提供表示一般语音的基准模式。因此,可以使用一个输入信号中不与可允许的基准模式很为匹配的任何部分来生成一个附加基准模式。
现在参照附图,仅以实例形式进一步介绍本发明,在所说附图中

图1示意性表示根据本发明构成的模式识别装置在电信体系的一个交互式自动语音系统的应用;图2表示根据本发明构成的语音识别装置的各个功能部分;图3为一方块图,示意性表示构成图2所示的语音识别装置的一部分的一个分类处理器的各个功能部分;图4为一方块图,示意性表示构成构成图2所示的语音识别装置的一部分的一个定序器的各个功能部分;
图5示意性表示构成图4的一部分的存储器中的一个信息组;图6表示由图4所示定序器执行的分段;图7为表示局域噪声模型发生的流程图;图8示意性表示一个识别网络;图9表示与根据本发明构成的语音识别装置结合使用的一个噪声模型发生器的第二实施例;和图10表示各种识别系统的相对性能。
解决统计信号模型问题的一种众所周知的方法是使用隐藏马尔克夫模型(HMMs),如SJ Cox在文章“Hidden Markov Models for SpeechRecognitionTheory and Application(语音识别的隐藏马尔克夫模型,理论和应用)”(British Telecom Technology Journal,April1988,Vol.6,No.2,pages105-115)中所述。本申请将参照使用隐藏马尔克夫模型描述本发明。但是,本发明不局限于统计模型;任何适合的模式识别方法都可以使用。有关隐藏马尔克夫模型的理论和实际应用在语音识别领域是众所周知的,这里不再赘述。
参见图1,具有语音识别功能的远程通讯系统通常包括一个送话器1(一般构成电话手机的一部分)、一个电信网2(一般为公用交换电信网(PSTN))、一个与电信网2相连用以从中接收声音信号语音识别处理器3、和一个应用装置4,其与所说语音识别处理器3相连,从中接收声音识别信号,表示对一个特定的字或短语的识别或其它结果,并且响应该结果进行操作。例如,所说应用装置4可以是进行交融交易的一台远地操作金融终端机。
在许多情况下,应用装置4向使用者发出声音响应,这种响应经过电信网2的传送到一个扬声器5,该扬声器通常构成使用者电话手机的一部分。
在具体操作中,使用者向送话器1讲话,所产生的信号从送话器1进入电信网2,传送到语音识别处理器3。语音识别处理器3分析该语音信号,并产生表示对一个特定字或短语的识别或其它结果的一个信号,将该信号传送到所说的应用装置4,然后该装置在识别出所说语音的条件下进行相应的操作。
语音识别处理器3对于信号从送话器1传送到和经由电信网2进行传送的线路是没有特殊要求的。各种类型或质量的电话手机都是可以使用的。同样,在电信网路2中,可以采用多种传送路径中任何一条,包括无线链路、模拟路径和数字路径等等。因此送达语音识别处理器3的语音信号Y相应于在送话器1接收的语音信号S,其中包含了与送话器1的变换特性、与网路2的链接、经由网路2的信道、和与语音识别处理器3的链接的卷积关系,这些运算可以一起处理,并用一个传输特征函数H表示。
参见图2,识别处理器3包括一个输入端口31,用于接收数字形式(来自一个数字网路或者从一个模数转换器)的语音信号、一个帧发生器32,用于将连续的数字采样信号划分成相继的各采样数据帧;一个特征抽取器33,用于从一帧采样信号产生一个相应的特征向量;一个噪声表示模型生成器35,用于接收多帧输入信号,并从中生成噪声表示模型;一个分类器36,用于接收所说的一组特征向量,并将它们与多个模型进行比较,以产生识别结果;一个定序器37,其用于接收从分类器36输出的分类结果,并确定所说的分类器输出序列指出与之具有最大相似性的预定发音;和一个输出端口,在该端口输出指示所说语音发音已经识别的一个识别信号。
帧发生器32帧发生器32用于接收以例如每秒8000采样值的速率获得的语音采样值构成的语音信号,并形成由256个连续采样值构成的数据帧(即32毫秒的语音信号),帧速率为每16毫秒一帧。可取的是,每一帧都利用例如汉明(Hamming)窗函数作开窗处理(即将帧边缘处的采样值乘以预定的加权常数)以减少由帧边缘产生的乱真现象。在本优选实施例中,各数据帧之间相互重叠(50%)从而改善开窗效果。
特征抽取器33特征抽取器33从帧发生器32接收数据帧,并且在各种情况下产生一组特征或特征向量。这些特征可以包括例如倒频谱系数(例如,线性预测编码(LPC)倒频谱系数或者麦耳频率倒谱系数(MFCC),如Chollet和Gagnoulet在文章“On the Evaluation of Speech Recognisers andDatabases using a Reference System(论利用基准系统评估语音识别和数据库)”(1982 proc.IEEE p2026)中所述)、或这些系数的差值,对于每个系数来说,所说差值由该系数与在先向量的相应系数值之间的差构成,如Soong和Rosenberg在“On the use of Instantaneous and TransitionalSpectral Information in Speaker Recognition(论利用瞬时和过渡频谱信息识别说话人)”(1988 IEEE Trans.on Acoustics,Speech and SignalProcessing Vol.36 No.6 P871)中所述。同样,可以混合使用几种类型的特征系数。
最后,特征抽取器33输出对于每个连续帧加一的一个帧数。将所说特征向量输入分类器36和噪声模型发生器35中。FIFO缓存器39在特征向量输入到噪声模型发生器35之前将它们缓存在其中。
在本实施例中帧发生器32和特征抽取器33是由一个适当编程的数字信号处理器(DSP)(诸如Motorola(TM)DSP 56000,或者Texas(TM)Instruments TMS C320)或者类似的装置构成的。
分类器36参见图3,在本实施例中,分类器36包括一个分类处理器361和一个状态存储器362。
状态存储器362相对于每一个待识别的语音单位(如音素变形)包括一个状态信息组3621、3622、……。例如,由识别处理器识别的每一个音素变形由包括三种状态的一个隐藏马尔克夫模型表示,因此为了存储每个音素变形的参数,在状态存储器362中提供了三个状态信息组3621a、3621b、3621c。
所说状态信息组存储限定表示相应音素变形的隐藏马尔克夫模型状态的参数,这些参数已经按照常规方法根据一组学习数据来确定。状态存储器362还在一个状态信息组362n中存储构成平均线噪声估计值模型的参数,所说估计值是按照常规方法脱机生成的,例如许多电话通话信号中生成。
对于每个输入其中的数据帧,分类处理器36依次读取存储器362中的各个状态信息组,并相对于各个数据帧,利用当前输入的特征系数组来计算输入特征组或向量与相应状态对应的概率Pi。
因此,分类处理器的输出是一组状态概率值Pi,每个概率值对应于状态存储器362中的一个状态,指出输入特征向量对应于各个状态的似然性。
所说分类处理器361可以是一个适当编程的数字信号处理器(DSP),具体地说,可以是与用作特征抽取器33相同的数字信号处理器。
定序器37参见图4,在本实施例中定序器37包括一个状态序列存储器372、一个分析处理器371、和一个定序器输出缓存器374。
定序器还包括一个状态概率存储器373,其为每一个经过处理的数据帧存储分类处理器361的输出。所说状态序列存储器372包括若干状态序列信息组3721、3722、……,每个信息组对应于由音素变形和噪声信息串构成的、待识别的一个字或短语序列。
如图5所示,状态序列存储器372中的每个状态序列包括许多状态S1、S2、……、SN和相对于每个状态的两个概率值重复概率(Pii)和朝向下一个状态的过渡概率(Pi,i+1)。所说的序列状态就是多个三状态组,每一三种状态组与一个音素变形相关,在某些情况下,还与噪声相关。所以所观测的、与一系列数据帧相关的状态序列可以由每个状态序列模型372i等元中的每个状态Si的多次重复构成;例如帧数1 2 3 4 5 6 7 8 9 … Z Z+1状态S1 S1 S1 S2 S2 S2 S2 S2 S2 … Sn Sn分析处理器371用于在每一数据帧期间读取存储在状态概率存储器373中的状态概率,计算状态与时间日期的最可能对应方式,并将该结果与存储在状态序列存储器372中的每一个状态序列相比较。例如,该状态序列可以包括电话簿中的姓名或数字串。
所说计算应用在上文引用的Cox的论文中所述的、众所周知的隐藏马尔克夫模型方法。可取的是,分析处理器371进行的隐藏马尔克夫模型处理是采用著名的Viterbi算法。例如,分析处理器371可以是一个微处理器如Intel(TM)i-486(TM)微处理器或Motroola(TM)68000微处理器,或者还可以是一个DSP装置(例如,与用作前述处理器相同的DSP装置)。
所以,对于每个状态序列(对应于待识别的字、短语或其它语音序列),分析处理器371在输入语音的每一帧期间输出一个概率评分,并存储在输出缓存器374中。因此,存储器374包括关于每一帧输入信号和每一序列的一个概率评分、一个帧数记录和所说概率评分涉及的状态模型的记录。当检测到发音结尾时,从该缓存器向输出端口38输出一个指示最可能状态序列的标记信号,以指示已经识别的相应姓名、字或短语。
然后定序器处理器检查缓存器374中包含的信息,并借助于所说帧数,确定被识别为处于该语音识别装置的词汇表中的输入信号部分(这里称为语音部分)和被认为不处于所说词汇表中的输入信号部分(下文中称之为“噪声部分”)。这表示在图6中。其后定序器处理器37使所说帧数通过,将这些噪声部分补充到噪声模型发生器35中,该发生器随后生成一个局域噪声模型。定序器37用于在被认为是输入信号的语音部分的两个侧边产生几个帧(例如三帧)的安全范围,以防止由于Viterbi识别算法在语音部分的端点处的不准确性而将语音数据包含在噪声部分中。此外还应用例如连续六帧的最小限制来限定噪声部分。这样防止了将与模型化噪声部分相似的假数据帧用于生成局域噪声模型。
噪声模型发生器35由定序处理器37确定的输入信号噪声部分中包含的数据帧的特征向量从缓存器39输入到噪声模型发生器35中。该噪声模型发生器产生限定对输入其中的特征向量进行模型化的隐藏马尔克夫模型的参数。该噪声模型发生器35用于产生具有一种状态、但是所有其它参数(转换概率、模式数量等)可以变化的隐藏马尔克夫模型。
该噪声模型利用如图7所示的常规聚类算法来产生。这样一种算法记载在由Y.Linde,A Buzo和RM Gray所写的文章“Algorithm for vectorquantiser design(用于向量量化器设计的算法)”(IEEE Trans Com-281980年1月)中。根据计算出的状态数将输入数据均匀地分段,并将所有具有特定标记的数据段(即一个隐藏马尔克夫模型的状态)组合在一起。然后相对于每一种状态选择与模式数量相关的聚类数量。之后利用一种Euclidean距离度量方法将组合中的每一个向量分配到其中心最近的组合聚类(状态平均)。然后将具有最大平均距离的聚类分解,这个“最松散的”聚类被认为较少表示基本分布。所说分解是利用比如说±0.1或±0.5的标准偏差来扰动该聚类的中心向量而完成的。然后将所有的数据向量重新分配到新聚类组,并且重新计算聚类中心。重复重新分配/重新计算循环,直到该聚类收敛或者达到聚类迭代的最大数量,从而产生局域噪声的估计值。然后计算隐藏马尔克夫模型参数以将该估计值模型化。由噪声模型发生器35产生的噪声模型传输到分类器36,并存储在状态存储器362中以用于其后的识别。
如上文所解释的,定序处理器371与专门构成用以识别某些短语或字(例如数字串(3721,3722……))的状态模型序列相关。这种状态模型序列可以用简化形式表示为如图8所示的识别网络。
图8表示设计用于识别三个数字串的识别网络82。实际上这些数字是用音素变形串表示的,如上文中结合图6所讨论的。但是,为了简单起见,图8所示的网络表示为节点串84,其中每一个表示整个数字。数字串的两侧以噪声节点86、88为界。网络的每个节点84、86、88与表示该节点数字的模型相关联,即,节点841与表示字“一”的模型相关联;节点842与表示字“二”的模型相关联;节点843与表示字“三”的模型相关联,等等。最初只有与噪声节点86相关联的一个预先产生的线性噪声模型是有效的,与现有技术一样。数字1-9、0、“啊(oh)”和线性噪声的模型存储在状态存储器362中作为限定隐藏马尔克夫模型的参数。由噪声模型发生器35产生的与噪声节点88相关联的噪声模型也存储在状态存储器362中。还提供了仅仅包含噪声的路径89。
语音识别操作过程如下所述。帧发生器32将一个输入信号分割成若干数据帧。特征抽取器33根据各帧数据产生一个特征向量。分类器36将该输入信号的特征向量与存储在状态信息组存储器362中的每个状态信息组(或模型)相比较,并输出一组概率值,如上所述。然后定序器37输出指示所说输入信号与允许的序列之间匹配接近程度的一个评分,并确定哪一个状态序列具有最为接近的匹配。具有最为接近匹配的序列被认为表示由该装置识别的发音。
该定序器确定那些被认为表示信号噪声部分的输入信号数据帧。这个信息传输到噪声模型发生器35,该发生器从特征抽取器中接收确定的数据帧的特征向量,并计算将输入其中的特征向量模型化的单一状态隐藏马尔克夫模型的参数。
一旦该噪声模型发生器产生了表示局域噪声的模型参数,这些参数(“局域噪声模型”)就被存储到状态存储器362的一个状态信息组中。然后利用该局域噪声模型对同一输入信号进行第二轮识别。之后利用线性噪声模型和局域噪声模型进行识别,如图8示意性表示的。
为评估根据本发明构成的装置的一个实施例的有效性而进行的实验表明实现了明显的改善。一个“最佳”或“最匹配”的系统(输入信号已在其中人工区分成语音和噪声部分)对输入其中的字的正确识别率为96.01%。仅仅使用一般线性噪声模型的系统对输入其中的字的正确识别率为92.40%。根据本发明构成的装置对于使用者的发音的正确识别率为94.47%,在该装置中对于每一次电话通话和计算出的一种模式、单状态隐藏马尔克夫模型已产生一个局域噪声估计值。
根据本发明的另一个实施例,在输入信号的每个语音部分之后产生一个新的局域噪声模型,并存储在状态存储器362中,从而覆盖原先的局域噪声模型。这意味着该噪声模型比根据讲话开始时的一个噪声采样值(例如电话通话产生的噪声模型)更加接近表示实际的、可能变化的条件。
局域噪声的估计值可以用来自适应字表示模型。这是比较领先的技术,因为环境噪声通常被认为是附加的,即输入信号是语音信号和环境噪声之和。
字表示模型自适应是在线性滤波器组域中实现的。图9表示自适应的各个阶段。在这个实施例中,每个字表示模型或存储在状态信息组存储器362中的状态包括一组麦耳频率倒谱系数(MFCCs)(91),它们表示麦耳频域中字的典型发音。字模型的每个倒谱系数都通过例如对这些倒谱系数进行反向离散余弦变换(DCT)再然后作反对数运算从而从倒谱域变换到(92)频率域,以便产生频率系数。然后将由该噪声模型发生器35产生的估算局域噪声模型特征向量(93)添加到(94)所说字模型的频率系数中。之后将所得向量的对数利用离散余弦变换(DCT)而变换(95)回到倒谱域以产生自适应的字模型(96),并将经过自适应处理的模型存储在分类器36的状态存储器362中。所得的自适应字表示模型(91)模拟匹配条件。原始的字表示模型被保留着以便利用其后产生的噪声表示模型进行自适应处理,从而构成新的自适应字表示模型。
图10表示根据结合对字表示模型的自适应处理的本发明构成的语音识别装置的一个实施例的性能。图中的结果分别表示根据本发明构成的一个“匹配”系统、一个“自适应”系统;一个“掩蔽”系统(如上所述);一个“减除”系统(如S Boll在“Suppression of acoustic noise in spech usingspectral subtration(利用频谱减除抑制音频噪声)”(IEEE Trans.ASSP 1979年4月,113页)中所述);和一个未经补偿的系统(即具有一般线性噪声模型但是没有经过进一步补偿的系统)。可以清楚地看到本发明所具有的优点,在10分贝信噪比条件下,根据本发明构成的系统的准确率比噪声掩蔽系统高10%,比频谱减除系统高26%。
权利要求
1.语音识别装置,包括一个存储器(362),其用于存储表示被识别的语音和非语音声音的基准模式;分类装置(36、37),用以确定对应于一个输入信号的基准模式序列,并且在所确定序列的基础上,重复地将所说输入信号划分成至少一个包含语音的部分和至少一个非语音部分;一个噪声模式发生器(35),用于产生对应于所说非语音部分的一个噪声模式,以便其后由所说分类装置(36、37)在进行模式识别时使用;和输出装置(374),用于根据所确定的序列输出指示对所说输入信号的识别结果的一个识别信号。
2.如权利要求1所述的语音识别装置,其特征在于所说噪声模式发生器(35)用于根据所说语音信号中的每个非语音部分产生一个模式。
3.如权利要求1或2所述的语音识别装置,其特征在于所说噪声模式发生器(35)仅仅当所说输入信号的非语音部分的持续时间大于或等于一个预定时间长度时产生一个噪声模式。
4.如前面任一项权利要求所述的语音识别装置,其特征在于所说噪声模式发生器(35)计算所说非语音部分的隐藏马尔克夫模型的参数。
5.如前面任一项权利要求所述的语音识别装置,其特征在于提供了自适应装置,以响应所产生的噪声模式对所说语音基准模式进行自适应处理。
6.如权利要求5所述的语音识别装置,其特征在于当从属于权利要求4时,所说适应装置用于将所说噪声模式的平均值添加到所说每个语音基准模式的隐藏马尔克夫模型中。
7.一种模式识别方法,它包括以下步骤将一个输入信号与一组基准模式中的每一个进行比较;确定对应于所说输入信号的基准模式序列,并且根据所确定的序列指示对所说输入信号的识别结果;确定所说输入信号中被认为不对应于可允许的基准模式的部分;根据所说输入信号中被认为不对应于可允许的基准模式的部分,产生一个附加基准模式以用于以后的比较。
8.模式识别装置,包括一个存储器,用于存储基准模式;比较装置,用于将一个输入信号的连续部分与每个基准模式比较,并且对于每个部分,确定与该部分最接近匹配的基准模式;一个输出装置,用于输出指示被认为对应于所说输入信号的基准模式序列的信号;用于确定所说输入信号中被认为不对应于可允许的基准模式的部分的装置;和用于根据所确定的输入信号部分产生一个基准模式以便由比较装置在其后的操作中使用的装置。
9.如权利要求8所述的模式识别装置,其特征在于根据所说输入信号中被认为不对应于允许的基准模式的各个部分产生一个基准模式。
10.如权利要求8或9所述的模式识别装置,其特征在于所说可允许的基准模式表示语音发音,所说输入信号表示语音。
全文摘要
模式识别装置包括一个用于处理一个输入信号以指出其与允许的基准模式序列的相似性的识别处理器(3)。语音识别处理器(3)包括分类装置(36、37),所说分类装置确定对应于所说输入信号的模式序列,并重复地将所说输入信号划分成包含语音的部分和在所说语音部分之前和/或之后的噪声或静默部分。模式识别装置还具有一个噪声模型发生器(35),用于产生对应于噪声或静默部分的模式,以便由所说的分类装置(36、37)在其后的模式识别操作中使用。该噪声模型发生器可以为所说输入信号的每个噪声部分产生一个噪声模型,该噪声模型可以用于自适应所说基准模式。
文档编号G10L25/87GK1199488SQ96197590
公开日1998年11月18日 申请日期1996年8月23日 优先权日1995年8月24日
发明者S·N·道内 申请人:英国电讯公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种乐谱夹的制作方法技术领域:本实用新型涉及一种文体用品,具体来讲是一种乐谱夹。 背景技术:音乐能够陶冶人的情操,优美的旋律可以带给人美的享受和表达人的情感,通过 音乐人们可以互相交流情感和生活体验,所以随着越来越多地人热爱音乐、

    专利发布时间:2025-05-15阅读:(99)

    专利名称:一种微穿孔吸声板的制作方法技术领域:本实用新型属于建筑声学材料的技术领域,尤其涉及一种微穿孔吸声板。 背景技术:公知,板材的穿孔一般是指贯通板材两面的通孔,板材的盲孔一般是指未穿透板 材的半孔,板材的凹坑和凹槽一般是指板材表面的决

    专利发布时间:2025-05-15阅读:(104)

    专利名称:一种三脚架的云台座的制作方法技术领域:本实用新型涉及一种三脚架,尤其涉及一种三脚架的云台座。 背景技术:通常,技巧拍摄往往都离不开三脚架的帮助,比如夜景拍摄、微距拍摄等。 三脚架的作用无论是对于业余用户还是专业用户都不可忽视的,其

    专利发布时间:2025-05-15阅读:(78)

    专利名称:成像装置及成像装置的控制方法技术领域:本发明涉及例如复印机或激光打印机等利用电子照像记录方式的成像装置,特别涉及彩色成像装置的主体具有多个显影盒的成像装置及这种成像装置的控制方法,其中,所述显影盒采用自如拆装的结构,并且具备成像部

    专利发布时间:2025-05-15阅读:(77)

    专利名称:一种利用海水浮力产生声源的装置的制作方法技术领域:本发明涉及一种适用于利用海水浮力产生声源的装置,更特别地说,是基于海洋 海底环境下,涉及一种利用海水浮力产生声源的装置,它应用于海洋水下文物的安全防范, 属于公共安全防范技术领域。

    专利发布时间:2025-05-15阅读:(73)

    专利名称:一种便携电子脚踏及脚踏组的制作方法技术领域:一种便携电子脚踏及脚踏组技术领域:本实用新型属于电子乐器技术领域,尤其是涉及一种便携电子脚踏及脚踏组。背景技术:目前,在电子打击乐器行业中,便携脚踏的结构大多数是单体或一线两脚踏(并联式

    专利发布时间:2025-05-15阅读:(60)