一种汉语语音识别可信度特征值的计算方法-品牌商务网

专利名称：：一种汉语语音识别可信度特征值的计算方法
技术领域：
：本发明涉及一种计算机语音识别可信度特征值的计算方法，属于计算机语音识别
技术领域：
。
背景技术：
：在语音识别中，由于环境噪声以及个人发音变化的影响，系统输入的语音常常出现不同质量的差别，对于质量较低的语音，识别的正确率也往往较低，如果将这些识别错误的结果作为系统的输出，会大大降低系统的可应用性。例如在手机语音拨号的功能中，往往可能由于环境噪声比较大导致识别错误，继而识别的人名不是用户实际需要呼叫的，如果系统使用这个识别结果进行呼叫，会导致大量的误拨号发生，同时也会耗费用户宝贵的时间，降低用户体验。因此，需要对识别结果进行可信度评测，以决定是接受该识别结果还是让用户重新确认，这就是可信度衡量。目前可信度衡量的常用方法是，对各种可信度有效特征的特征值按照一定的方式进行计算，可信度有效特征的特点是能够明显地将正确识别结果和错误识别结果进行区分。目前已有的可信度有效特征包括基于归一化似然度、基于N最佳候选，基于假设密度，基于段长、基于语言模型以及基于后验概率的特征等。这些可信度有效特征的特征值的计算方法存在计算复杂度高、需要开发集、依赖具体的语音和语言模型等缺点。
发明内容本发明的目的是提出一种语音识别可信度特征值的计算方法，以简化计算过程，减少对开发集、语音模型以及语言模型的依赖。本发明提出的计算机语音识别可信度特征值的计算方法，包括以下各步骤-(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子，将三音子构成一个原始三音子序列，表示为H={/I,,Z'=1,2".，S}，其中i为语音帧的序号，S为被识别语音的总帧数；(2)将语音识别结果的可信度特征值设为零，记录标识语音识别结果的识别三音子序列，表示为==1,2,...,"}，其中y为识别三音子序列中的三音子序号，"为识别三音子序列中三音子的个数；(3)根据上述识别三音子序列，获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号，并将起始帧和结束帧的帧序号分别表示为(4)根据上述三音子。的起始帧号和结束帧号，从上述原始三音子序列中获取与三音子(相对应的子序列，依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子r,的中心基元进行比较，若子序列中所有三音子的中心基元都与三音子r,的中心基元不相等，则上述可信度特征值加l;(5)重复步骤(4)，直至遍历识别三音子序列中所有三音子，得到可信度特征值。本发明提出的汉语语音识别可信度特征值的计算方法，具有如下的优点1、本发明计算方法中，仅需要记录每帧语音识别的最佳隐马尔可夫模型，并根据识别三音子序列进行比对，计算量小，计算速度快。2、本发明计算方法不需要使用开发集训练特定模型计算可信度，因此实现简单。3、本方法不受实际语音识别系统中语音模型的限制，因此可用于任何语音模型的语音识别系统。4、用本发明方法计算得到的可信度特征值可方便地与其它计算方法得到的特征值结合使用，以获得更好的语音识别拒识效果，从而提高语音识别系统的鲁棒性，使其具有更高的应用价值。具体实施例方式本发明提出的计算机语音识别可信度特征值的计算方法，包括以下各步骤(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子，将三音子构成一个原始三音子序列，表示为H={/2,.,Z'=1，2，...,S}，其中i为语音帧的序号，5为被识别语音的总帧数；(2)将语音识别结果的可信度特征值设为零，记录标识语音识别结果的识别三音子序列，表示为/={^,7=1,2,...,"}，其中/为识别三音子序列中的三音子序号，"为识别三音子序列中三音子的个数；(3)根据上述识别三音子序列，获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号，并将起始帧和结束帧的帧序号分别表示为/;',/e';(4)根据上述三音子/;的起始帧号和结束帧号，从上述原始三音子序列中获取与三音子r,相对应的子序列，依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子r,的中心基元进行比较，若子序列中所有三音子的中心基元都与三音子C的中心基元不相等，则上述可信度特征值加l;(5)重复步骤(4)，直至遍历识别三音子序列中所有三音子，得到可信度特征值。本发明方法可以用于基于三音子的语音识别系统中，也可以扩展到基于双音子、单音子的其他语音识别系统中。在基于三音子的语音识别系统中，识别结果可以表示成三音子的序列，称为识别三音子序列，表示为i，i中的每个三音子表示了普通话中的某一个声母或韵母。同时跟踪每帧语音的识别过程，可以获取每帧语音的最佳隐马尔可夫模型，一个模型对应一个三音子，因此每帧语音的识别结果构成一个三音子序列，称为原始三音子序列，表示成H。对于识别三音子序列中的每个三音子，是被识别语音的一段语音，即对许多帧语音进行识别后得到的综合结果。因此，识别三音子序列中的每个三音子对应于原始三音子序列中的一个子序列。这种对应关系即为识别结果的时间对准信息。针对识别三音子序列中的一个三音子^(其中/表示三音子在识别结果序列中的序号)，根据时间对准信息找出该三音子在原始三音子序列中对应的子序列//,.，其中!'是与上述三音子对应的序号，如果子序列i/,中的任何一个三音子的中心基元都与5的中心基元不同，贝^,为一个局部不匹配三音子(LocallyMismatchedPhone)。基于这种判断原理，在进行可信度特征值的计算时，只需要统计一个识别三音子序列中局部不匹配三音子的个数即可，局部不匹配三音子的数目越多，就表示识别结果越不可靠，反之则越可靠。以下介绍具体实施例方式表1实验数据<table>tableseeoriginaldocumentpage5</column></row><table>上述的基准实验中使用的是归一化似然度作为特征计算识别语音可信度，而加入本发明计算的特征值后的实验是指，本发明的特征值与基准实验中计算的特征值进行结合得到识别语音可信度。可以看出，加入本发明的特征值后，等错误率由0.252降低到0.204，相对降低了19%，说明了本方法的有效性，同时只增加了很小的计算量。从上述的实施方式可以看出，本发明的特征值计算是在线进行的，不需要预先使用开发集训练一个用于计算特征值的模型，而计算也只是通过简单的统计就可以得到特征值，可见本发明的方法计算简单。而且本发明的置信度特征值计算方法不依赖具体的语音或语言模型。权利要求1、一种计算机语音识别可信度特征值的计算方法，其特征在于该方法包括以下各步骤(1)记录标识每帧语音的最佳候选隐马尔可夫模型的三音子，将三音子构成一个原始三音子序列，表示为H＝{hi，i＝1，2，...，s}，其中i为语音帧的序号，s为被识别语音的总帧数；(2)将语音识别结果的可信度特征值设为零，记录标识语音识别结果的识别三音子序列，表示为R＝{rj，j＝1，2，...，n}，其中j为识别三音子序列中的三音子序号，n为识别三音子序列中三音子的个数；(3)根据上述识别三音子序列，获取与序列中每个三音子相对应的起始语音帧的序号和结束语音帧的序号，并将起始帧和结束帧的帧序号分别表示为(4)根据上述三音子ri的起始帧号和结束帧号，从上述原始三音子序列中获取与三音子ri相对应的子序列，依次将子序列中的所有三音子的中心基元与识别三音子序列中的三音子ri的中心基元进行比较，若子序列中所有三音子的中心基元都与三音子ri的中心基元不相等，则上述可信度特征值加1；(5)重复步骤(4)，直至遍历识别三音子序列中所有三音子，得到可信度特征值。全文摘要本发明涉及一种计算机语音识别可信度特征值的计算方法，属于计算机语音识别
技术领域：
。首先记录标识每帧语音最佳候选隐马尔可夫模型的三音子并构成原始三音子序列，记录标识语音识别结果的识别三音子序列；针对识别三音子序列，统计这样的三音子的个数，根据其时间对准信息从原始三音子序列中获取的对应的子序列不包含与该三音子中心基元相同的三音子，识别三音子序列中统计的这种三音子的个数，即为特征值。本发明方法仅需要记录每帧语音识别的最佳隐马尔可夫模型，并根据识别三音子序列进行比对，计算量小，计算速度快。本发明方法实现简单，可用于任何语音模型的语音识别系统，具有很好的语音识别拒识效果。文档编号G10L15/02GK101393739SQ20081022535公开日2009年3月25日申请日期2008年10月31日优先权日2008年10月31日发明者轶刘,曹文晓,赤羽诚,方郑,陈如新,高桥良知申请人:清华大学;索尼电脑娱乐公司

本文推荐一种汉语语音识别可信度特征值的计算方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656405730.html

当前位置：网站首页>专利 >正文

一种汉语语音识别可信度特征值的计算方法

相关推荐