专利名称::一种汉语语音识别可信度特征值的计算方法
技术领域:
:本发明涉及一种计算机语音识别可信度特征值的计算方法,属于计算机语音识别
技术领域:
。
背景技术:
:在语音识别中,由于环境噪声以及个人发音变化的影响,系统输入的语音常常出现不同质量的差别,对于质量较低的语音,识别的正确率也往往较低,如果将这些识别错误的结果作为系统的输出,会大大降低系统的可应用性。例如在手机语音拨号的功能中,往往可能由于环境噪声比较大导致识别错误,继而识别的人名不是用户实际需要呼叫的,如果系统使用这个识别结果进行呼叫,会导致大量的误拨号发生,同时也会耗费用户宝贵的时间,降低用户体验。因此,需要对识别结果进行可信度评测,以决定是接受该识别结果还是让用户重新确认,这就是可信度衡量。目前可信度衡量的常用方法是,对各种可信度有效特征的特征值按照一定的方式进行计算,可信度有效特征的特点是能够明显地将正确识别结果和错误识别结果进行区分。目前已有的可信度有效特征包括基于归一化似然度、基于N最佳候选,基于假设密度,基于段长、基于语言模型以及基于后验概率的特征等。这些可信度有效特征的特征值的计算方法存在计算复杂度高、需要开发集、依赖具体的语音和语言模型等缺点。
发明内容本发明的目的是提出一种语音识别可信度特征值的计算方法,以简化计算过程,减少对开发集、语音模型以及语言模型的依赖。本发明提出的计算机语音识别可信度特征值的计算方法,包括以下各步骤-(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子,将三音子构成一个原始三音子序列,表示为H={/I,,Z'=1,2".,S},其中i为语音帧的序号,S为被识别语音的总帧数;(2)将语音识别结果的可信度特征值设为零,记录标识语音识别结果的识别三音子序列,表示为==1,2,...,"},其中y为识别三音子序列中的三音子序号,"为识别三音子序列中三音子的个数;(3)根据上述识别三音子序列,获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号,并将起始帧和结束帧的帧序号分别表示为(4)根据上述三音子。的起始帧号和结束帧号,从上述原始三音子序列中获取与三音子(相对应的子序列,依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子r,的中心基元进行比较,若子序列中所有三音子的中心基元都与三音子r,的中心基元不相等,则上述可信度特征值加l;(5)重复步骤(4),直至遍历识别三音子序列中所有三音子,得到可信度特征值。本发明提出的汉语语音识别可信度特征值的计算方法,具有如下的优点1、本发明计算方法中,仅需要记录每帧语音识别的最佳隐马尔可夫模型,并根据识别三音子序列进行比对,计算量小,计算速度快。2、本发明计算方法不需要使用开发集训练特定模型计算可信度,因此实现简单。3、本方法不受实际语音识别系统中语音模型的限制,因此可用于任何语音模型的语音识别系统。4、用本发明方法计算得到的可信度特征值可方便地与其它计算方法得到的特征值结合使用,以获得更好的语音识别拒识效果,从而提高语音识别系统的鲁棒性,使其具有更高的应用价值。具体实施例方式本发明提出的计算机语音识别可信度特征值的计算方法,包括以下各步骤(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子,将三音子构成一个原始三音子序列,表示为H={/2,.,Z'=1,2,...,S},其中i为语音帧的序号,5为被识别语音的总帧数;(2)将语音识别结果的可信度特征值设为零,记录标识语音识别结果的识别三音子序列,表示为/={^,7=1,2,...,"},其中/为识别三音子序列中的三音子序号,"为识别三音子序列中三音子的个数;(3)根据上述识别三音子序列,获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号,并将起始帧和结束帧的帧序号分别表示为/;',/e';(4)根据上述三音子/;的起始帧号和结束帧号,从上述原始三音子序列中获取与三音子r,相对应的子序列,依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子r,的中心基元进行比较,若子序列中所有三音子的中心基元都与三音子C的中心基元不相等,则上述可信度特征值加l;(5)重复步骤(4),直至遍历识别三音子序列中所有三音子,得到可信度特征值。本发明方法可以用于基于三音子的语音识别系统中,也可以扩展到基于双音子、单音子的其他语音识别系统中。在基于三音子的语音识别系统中,识别结果可以表示成三音子的序列,称为识别三音子序列,表示为i,i中的每个三音子表示了普通话中的某一个声母或韵母。同时跟踪每帧语音的识别过程,可以获取每帧语音的最佳隐马尔可夫模型,一个模型对应一个三音子,因此每帧语音的识别结果构成一个三音子序列,称为原始三音子序列,表示成H。对于识别三音子序列中的每个三音子,是被识别语音的一段语音,即对许多帧语音进行识别后得到的综合结果。因此,识别三音子序列中的每个三音子对应于原始三音子序列中的一个子序列。这种对应关系即为识别结果的时间对准信息。针对识别三音子序列中的一个三音子^(其中/表示三音子在识别结果序列中的序号),根据时间对准信息找出该三音子在原始三音子序列中对应的子序列//,.,其中!'是与上述三音子对应的序号,如果子序列i/,中的任何一个三音子的中心基元都与5的中心基元不同,贝^,为一个局部不匹配三音子(LocallyMismatchedPhone)。基于这种判断原理,在进行可信度特征值的计算时,只需要统计一个识别三音子序列中局部不匹配三音子的个数即可,局部不匹配三音子的数目越多,就表示识别结果越不可靠,反之则越可靠。以下介绍具体实施例方式表1实验数据<table>tableseeoriginaldocumentpage5</column></row><table>上述的基准实验中使用的是归一化似然度作为特征计算识别语音可信度,而加入本发明计算的特征值后的实验是指,本发明的特征值与基准实验中计算的特征值进行结合得到识别语音可信度。可以看出,加入本发明的特征值后,等错误率由0.252降低到0.204,相对降低了19%,说明了本方法的有效性,同时只增加了很小的计算量。从上述的实施方式可以看出,本发明的特征值计算是在线进行的,不需要预先使用开发集训练一个用于计算特征值的模型,而计算也只是通过简单的统计就可以得到特征值,可见本发明的方法计算简单。而且本发明的置信度特征值计算方法不依赖具体的语音或语言模型。权利要求1、一种计算机语音识别可信度特征值的计算方法,其特征在于该方法包括以下各步骤(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子,将三音子构成一个原始三音子序列,表示为H={hi,i=1,2,...,s},其中i为语音帧的序号,s为被识别语音的总帧数;(2)将语音识别结果的可信度特征值设为零,记录标识语音识别结果的识别三音子序列,表示为R={rj,j=1,2,...,n},其中j为识别三音子序列中的三音子序号,n为识别三音子序列中三音子的个数;(3)根据上述识别三音子序列,获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号,并将起始帧和结束帧的帧序号分别表示为(4)根据上述三音子ri的起始帧号和结束帧号,从上述原始三音子序列中获取与三音子ri相对应的子序列,依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子ri的中心基元进行比较,若子序列中所有三音子的中心基元都与三音子ri的中心基元不相等,则上述可信度特征值加1;(5)重复步骤(4),直至遍历识别三音子序列中所有三音子,得到可信度特征值。全文摘要本发明涉及一种计算机语音识别可信度特征值的计算方法,属于计算机语音识别
技术领域:
。首先记录标识每帧语音最佳候选隐马尔可夫模型的三音子并构成原始三音子序列,记录标识语音识别结果的识别三音子序列;针对识别三音子序列,统计这样的三音子的个数,根据其时间对准信息从原始三音子序列中获取的对应的子序列不包含与该三音子中心基元相同的三音子,识别三音子序列中统计的这种三音子的个数,即为特征值。本发明方法仅需要记录每帧语音识别的最佳隐马尔可夫模型,并根据识别三音子序列进行比对,计算量小,计算速度快。本发明方法实现简单,可用于任何语音模型的语音识别系统,具有很好的语音识别拒识效果。文档编号G10L15/02GK101393739SQ20081022535公开日2009年3月25日申请日期2008年10月31日优先权日2008年10月31日发明者轶刘,曹文晓,赤羽诚,方郑,陈如新,高桥良知申请人:清华大学;索尼电脑娱乐公司
一种汉语语音识别可信度特征值的计算方法
相关推荐
灯具的制作方法【专利摘要】本发明提供一种灯具,所述灯具包括光源及灯座,所述灯座包括主体、滑盖及锁扣,所述主体包括相对设置的第一端及第二端,所述光源安装于所述第一端,所述主体上固定一卡和部,所述主体的第二端开设有缺口,所述滑盖滑动连接于所述主
专利名称:电子乐器的制作方法技术领域:本发明涉及一种电子乐器,包括响应演奏操作器的操作而产生乐音信号的乐音信号发生装置,将乐音信号发生装置产生的乐音信号转换为声音的一个或多个扬声器,以及在电子乐器主体的左、右侧板支撑主体的前支脚,特别是涉及
专利名称:防眩泛光灯的制作方法技术领域:本发明属于照明领域。更具体地说,本发明涉及一种防眩泛光灯。 背景技术:众所周知,现有技术中一般通过改进透光灯罩来实现灯具的防眩。例如,透光灯罩 选用先进的照明光学原理优化设计,使得光线均勻、柔和、无眩
专利名称:软线式踩镲的制作方法软线式踩镲技术领域 本发明属于打击乐器领域,尤其是一种软线式踩镲。技术背景架子鼓是乐队中十分重要的一种无音高打击乐器,它通常包括一个军鼓、二个以 上嗵嗵鼓等部分,鼓手用鼓锤击打各部件使其发声。由于架子鼓变化多端
专利名称:一种学生用台灯的制作方法技术领域:本实用新型涉及一种台灯,尤其是涉及一种学生用台灯。背景技术:台灯是我们日常工作和学习中不可或缺的工具,通常用的台灯只具有照明功能,随着市场的开阔,目前市场上已经出现诸多有复合式功能的台灯,比如文件
专利名称:一种xfp光收发一体模块的制作方法技术领域:本实用新型涉及一种光通信传输系统领域,尤其是涉及一种高速率、热插 拔XFP光收发一体模块。背景技术:在光纤通信系统中,光电收发一体模块已成为通信系统的模块化单元,随 着光通信性能多样化和