专利名称:语音辨识系统的词汇数据库建置方法及其搜寻比对方法
技术领域:
本发明涉及一种语音辨识系统的词汇数据库建置方法及其搜寻比对方 法,特别是一种可支持多音字处理的词汇数据库建置方法及其更具效率的搜 寻比对方法。
技术背景习知语音辨识系统,并没有加入多音字的处理功能,导致使用者在进行 语音输入时,必须念成其多音字的另一种发音才能辨识成功,例如,人名陈 力行的「行」字,必须发音为「厂尤z」才能辨识成功,如使用者发音为「丁 一丄'」便无法正确辨识,又例如,乐团的「乐」字,必须发音为「为亡、」 才能辨识,若发音为「U廿、」亦无法正确辨识,而这样的语音输入方式与 一般使用者的发音习惯有很大的差异。此外,语音辨识系统在进行辨识时,通常是利用维特比算法(ViterbiAlgorithm)计算词汇中每个字所对应声学模 型的机率值来进行辨识,而这样的演算也是语音辨识系统花费最大计算量的 地方,因此,若是经常重复计算某些相同的字将导致系统不必要的计算量加 重,也会造成系统辨识速度的下降,因此促成我们思考如何避免重复计算相 同的字以降低整体的运算量。 发明内容本发明的目的是提供一种语音辨识系统的词汇数据库建置方法及其搜 寻比对方法,特别是一种可支持多音字处理的词汇数据库建置方法及其更具 效率的搜寻比对方法,从而避免重复计算相同的字以降低整体的运算量的技术问题。本发明的技术解决方案是本发明为一种语音辨识系统的词汇数据库的 建置方法,其特殊之处在于该方法包含以下步骤1) 、提供多音字数据多音字数据包含复数个多音字及其发音方式;2) 、输入词汇;3) 、建立声学模型将词汇和多音字数据进行比对,判断此词汇是否包含至少一个多音字,若是,则对于此词汇所包含的多音字的复数个发音方式 分别建立相对应的复数个声学模型,若否,则对于此词汇建立单一对应的声学模型;4)、储存此词汇及其对应的声学模型至词汇数据库。 一种利用上述的语音辨识系统的词汇数据库的搜寻比对方法,其特殊之处在于该方法包括以下步骤1) 、提供一词汇数据库该词汇数据库包含复数个词汇,并且将其中前 缀相同的词汇以相邻的方式进行排序,而且这些词汇是以一对一的方式对应 于复数个声学模型;2) 、输入语音讯号;3) 、获取语音讯号的特征参数其中特征参数是梅尔倒频谱系数;4) 、将步骤3)获取的特征参数与这些词汇的声学模型逐一比对声学 模型是对应于特征参数分别产生的机率值,其中,每一词汇是继承前一相邻 词汇中相同发音字符所产生的机率值;5) 、通过这些词汇的机率值进行语音讯号的辨识。 上述声学模型是隐藏式马可夫模型。上述机率值是利用维特比算法(ViterbiAlgorithm)计算产生的。 本发明的语音辨识系统的词汇数据库建置方法及其搜寻比对方法,可建 置一种支持多音字处理功能的词汇数据库,通过将所需词汇与词汇数据库的 多音字数据比对,判断此词汇是否包含至少一个多音字,从而对于此词汇所 包含的多音字的一个或复数个发音方式分别建立相对应的一个或复数个声 学模型,使本发明所建置的词汇数据库,具有多音字辨识功能,使语音辨识 系统更加人性化,也更贴近一般使用者的发音习惯,让使用者能够依照一般 惯用的发音,而得到正确的辨识结果;通过获取的语音讯号的特征参数与这 些词汇的声学模型逐一比对,根据声学模型机率值进行语音讯号的辨识,能 够避免对相同的字的重复计算,提高整体运算量。
图1是本发明的语音辨识系统的词汇数据库建置方法的流程图;图2是本发明的语音辨识系统的词汇数据库建置方法的具体实施例的流程图;图3是本发明的语音辨识系统的词汇数据库搜寻比对方法的流程图; 图4是本发明的语音辨识系统的词汇数据库搜寻比对方法的具体实施例的流程图。
具体实施方式
本发明的语音辨识系统主要是利用隐藏式马可夫模型(Hidden Markov Model, HMM)的方法作辨识,它以机率模型来描述发音的现象,将一小段 语音的发音过程,看成是一个马可夫模型中连续的状态转移;其中辨识过程 所利用的语音特征参数为梅尔倒频谱系数(Mel-Frequency Cepstrum Coefficients, MFCC),它除了考虑到人耳对不同频率的感受程度,更具有分 离发音腔道模型与激发讯号的特性,使得我们在语音辨识时不会受到说话者 的音量大小,或中文语音的五种声调(一、二、三、四声与轻声)的影响。基于以上特性,我们将从245个中文多音字中选出适合本发明辨识系统 的多音字,由于辨识时利用到的特征参数为梅尔倒频谱系数,因此多音字中 其发音差异仅在于声调不同的这些字,并不包含在我们要处理的多音字中, 例如「少」这个多音字的发音有两种,其一为「尸幺1,另一则为「尸幺、」, 差异仅在于声调的不同,我们便将其舍去,最后剩下来的便是我们的多音字 数据,其包含的字大致有行、仔、乐、和、重、说、干、长、大、曾、沈、 冒、没、校、从、都、落、朝、传、单、彷、召、便、降、盛、强、调、参、 黏、省、塞、差、盖、傍、般、弹、屏、蔚、更、暴、熟、模、给、薄、告、 吓、藏、还、翟、识、骑、系、觉、露、属、搅等等。参见图1,本发明的语音辨识系统的词汇数据库建置方法步骤如下步骤S11:提供多音字数据;步骤S12:输入词汇;步骤S13:比对该多音字数据,判断该词汇是否包含至少一多音字,若 是,则对于该词汇所包含的该多音字的复数个发音方式分别建立相对应的复 数个声学模型,若否,则对于该词汇建立单一对应的声学模型;步骤S14:储存该词汇及这些声学模型至该词汇数据库。其中,上述多音字数据包含复数个多音字及其发音方式,上述声学模型为隐藏式马可夫模型。参见图2,以歌手姓名为具体实施例,本发明建置歌手姓名的词汇数据 库的方法步骤如下步骤S21:读入歌手姓名;步骤S22:将输入的歌手姓名与多音字数据进行比对,判断此歌手姓名是否包含至少一多音字,若是,执行步骤S23,若否,执行步骤S24;步骤S23:增加一组由多音字代替的姓名;步骤S24:分别将姓名的字转换成由隐藏式马可夫模型来表示;步骤S25:是否读到最后一笔歌手姓名,若是,执行步骤S26若否,执行步骤S21;步骤S26:结束初始化,进入辨识流程。通过本发明所建置的词汇数据库,具有多音字辨识功能,让使用者能够 依照一般惯用的发音,而得到正确的辨识结果。另外,在语音辨识技术中,每一个中文字可将其分解为声母和韵母,声 母出现在音节前端,韵母出现在音节尾端,每一个中文字都可利用两个表示 声母及韵母的声学模型来代表,而语音辨识即是通过计算声母及韵母的声学 模型机率值来做判定,因此如果将词汇数据库中的词汇以前缀相同者排在一 起的方式作排序,并且记下前一个词汇同音字的机率值,在计算时便只要计 算目前的词汇与上一个词汇不同音字的机率值,而不需重复计算同音字的机 率值,可节省搜寻比对时的计算量。参见图3,本发明的语音辨识系统的词汇数据库搜寻比对方法的步骤如下步骤S31:提供一词汇数据库该词汇数据库包含复数个词汇,这些词 汇是以前缀相同者相邻的方式进行排序,并且这些词汇是以一对一的方式对 应于复数个声学模型;步骤S32:输入一语音讯号;步骤S33:获取该语音讯号的一特征参数该特征参数是梅尔倒频谱系数(Mel-Frequency Cepstrum Coefficients, MFCC);步骤S34:将特征参数与这些词汇的声学模型逐一比对声学模型是对应于特征参数分别产生的一机率值,其中,每一词汇是继承前一相邻词汇中 相同发音字符所产生的机率值(将词汇数据库中的词汇以前缀相同者排在一 起的方式作排序,并且记下前一个词汇同音字的机率值,在计算时便只要计 算目前的词汇与上一个词汇不同音字的机率值,而不需重复计算同音字的机 率值);步骤S35:通过这些词汇的机率值,以进行语音讯号的辨识。上述声学模型为一隐藏式马可夫模型,上述机率值是利用一维特比算法 (Viterbi Algorithm )计算产生。以歌手姓名的词汇数据库为例,若总数有692个歌手姓名,共有2233 个字,在做维特比算法计算器率时,每段语音将会与系统的声学模型做4466 次的搜寻,在这些搜寻中有部分是重复计算的,因此,本发明将歌手姓名作 排序,让相同姓的歌手排在一起,并且记下前一个名字同音字的机率,所以 在计算这一笔歌手名字时,只要计算非同音字的机率。参见图4,本发明的语音辨识系统的词汇数据库搜寻比对方法的较佳实施例的步骤如下步骤S41:输入语音的梅尔倒频谱系数(所获取的语音讯号的特征参数); 步骤S42:读入歌手姓名模型;步骤S43:判断目前歌手姓名的发音与前一个歌手姓名是否重复,若是,执行步骤S44,若否,则执行步骤S45;步骤S44:将相同发音的字利用前一个名字记录的机率代替,再由不同 发音的字继续进行下一个步骤;步骤S45:利用维特比算法(ViterbiAlgorithm)计算器率; 步骤S46:储存目前歌手姓名每个字的机率;步骤S47:是否所有歌手姓名皆已计算器率,若是,执行步骤S48,若 否,则重复上述步骤S42;以及步骤S48:排列出五个最大机率的歌手姓名。以歌手姓名「陈力行」为例,其与歌手「陈力宏」相邻,这两位歌手姓 名的前两个字的发音是相同的,因此在做维特比算法的计算时,输入语音的 梅尔倒频谱系数先与「陈力行」所代表的6个声学模型做机率计算,并且储存其每个字的机率值,接下来输入语音要与「陈力宏」做机率计算时,只需 要利用前一个名字计算出「陈力」这两个字的机率,接着加上目前「宏」的2个声学模型所计算的机率值,即可得到「陈力宏」的完整机率。
权利要求
1、一种语音辨识系统的词汇数据库的建置方法,其特征在于该方法包含以下步骤1)、提供多音字数据多音字数据包含复数个多音字及其发音方式;2)、输入词汇;3)、建立声学模型将词汇和多音字数据进行比对,判断此词汇是否包含至少一个多音字,若是,则对于此词汇所包含的多音字的复数个发音方式分别建立相对应的复数个声学模型,若否,则对于此词汇建立单一对应的声学模型;4)、储存此词汇及其对应的声学模型至词汇数据库。
2、 根据权利要求1所述的语音辨识系统的词汇数据库的建置方法,其 特征在于所述声学模型是隐藏式马可夫模型。
3、 一种利用权利要求1所述的语音辨识系统的词汇数据库的搜寻比对方法,其特征在于其包括以下步骤1) 、提供一词汇数据库该词汇数据库包含复数个词汇,并且将其中前缀相同的词汇以相邻的方式进行排序,而且这些词汇是以一对一的方式对应 于复数个声学模型;2) 、输入语音讯号;3) 、获取语音讯号的特征参数其中特征参数是梅尔倒频谱系数;4) 、将步骤3)获取的特征参数与这些词汇的声学模型逐一比对声学 模型是对应于特征参数分别产生的机率值,其中,每一词汇是继承前一相邻 词汇中相同发音字符所产生的机率值;5) 、通过这些词汇的机率值进行语音讯号的辨识。
4、 根据权利要求3所述的语音辨识系统的词汇数据库搜寻比对方法, 其特征在于所述声学模型是隐藏式马可夫模型。
5、 根据权利要求3所述的语音辨识系统的词汇数据库搜寻比对方法, 其特征在于所述机率值是利用维特比算法计算产生的。
全文摘要
本发明涉及一种语音辨识系统的词汇数据库建置方法及其搜寻比对方法,本发明为解决重复计算相同的字以降低整体的运算量的技术问题,提供了一种语音辨识系统的词汇数据库建置方法及其搜寻比对方法,该方法包括以下步骤1)提供多音字数据;2)输入词汇;3)建立声学模型;4)储存此词汇及其对应的声学模型至词汇数据库。本发明所建置的词汇数据库,具有多音字辨识功能,使语音辨识系统更加人性化,也更贴近一般使用者的发音习惯,让使用者能够依照一般惯用的发音,而得到正确的辨识结果。
文档编号G10L15/14GK101217035SQ200710185709
公开日2008年7月9日 申请日期2007年12月29日 优先权日2007年12月29日
发明者廖崇伯, 陈淮琰 申请人:无敌科技(西安)有限公司
语音辨识系统的词汇数据库建置方法及其搜寻比对方法
相关推荐
专利名称:处理液、滤色器的制造方法、滤色器和显示装置的制作方法技术领域:本发明涉及液晶显示装置等具有滤色器的显示装置的滤色器制造时使用的处理液以及使用了该处理液的滤色器的制造方法和采用该方法制造的滤色器、显示装置。背景技术: 在液晶显示装置
专利名称:音乐芯片的制作方法技术领域:本发明一般地涉及数字音乐合成,本发明尤其涉及用于音乐合成的数字信号处理设备。背景技术: 在诸如个人电脑多媒体、卡拉OK和低成本音响中的应用中对MIDI和音乐合成能力使用的增加,引起了对高性能音乐合成系统
专利名称:一种带光控的人体感应led壁灯的制作方法技术领域:本实用新型涉及LED灯具,具体地说,涉及一种带光控的人体感应LED壁灯。背景技术:目前很多的过道、楼道都会配备有壁灯,以方便夜间行走方便;由于LED灯具有节能的特点,不少地方都应用
专利名称:一种光楔lwpf滤光片器件的制作方法技术领域:本实用新型涉及一种光楔LWPF滤光片器件,应用于光纤到户所用的滤光片。LWPF是指长波通过滤光片,为本领域通用的科技术语。 背景技术:光通信波长目前有1310nm、1490nm、155
专利名称:一种光路遮挡装置的制作方法技术领域:本实用新型涉及图像处理及光学设计领域,具体涉及一种实现深度相关信息检测的光路遮挡装置。背景技术:目前相机上使用的测距装置主要有光学测距和超声波测距两大类,其主要原理是通过发射装置发射红外光或者超
专利名称:一种基于多芯光纤的光马达及微泵的制作方法技术领域:本发明涉 及的是一种微型驱动装置。具体地说是一种应用到微泵中的多芯光纤驱动微转子旋转的装置。背景技术:近些年来,微全分析系统(μ TAS)也称为单晶片上构建的实验室已经在医学研究、