专利名称:一个百分之百辨认率的国语单音与句子辨认方法
技术领域:
本发明涉及的是一种国语单音与句子辨认方法,也特别涉及的是一种在一个 清晰发音者在数据库中,先对每个单音找K个"最好"样本求平均值与变异数代表 所述的单音。使所述的单音的ExP= 144个特征范围,很明确表现出来,不会和 其它单音范围重迭。贝式分类法很明确地比对未知单音的特征和已知单音的特征, 提高本发明辨识能力。详细地说,本发明语音辨认方法包含E个等长的弹性框, 没有滤波器,不重迭,框住长短不等的单音音波,将音波正常化并转换成E个线 性预估编码倒频谱(LPCC )向量。用简易贝氏分类法(Bayes decision rule )在单 音数据库中,在每个已知单音明确范围内,找出和未知单音最相似的已知单音。 语音计算机辨认最终目的是能辨认一个人所表达的句子或名称,将句子或名称切 割成一组(D个)未知单音,然后用上述方法对D个中每一个未知单音找出F个 最相似的已知单音,再从句子或名称数据库中找出最可能句子或名称。
背景技术:
单音发音时,它的发音是用音波表示。音波是一种随时间作非线性变化的系 统, 一个单音音波内含有一种动态特性,也随时间作非线性连续变化。相同单音 发音时,有一连串相同动态特性,随时间作非线性伸展与收缩,但相同动态特性 依时间排列秩序一样,但时间不同。相同单音发音时,将相同的动态特性排列在 同一时间位置上非常困难。还因相似单音特多,造成辨认更难。一个计算机化语言辨认系统,首先要抽取声波有关语言信息,也即动态特性, 过滤和语言无关的杂音,如人的音色、音调,说话时心理、生理与情绪和语音辨 认无关先删去。然后再将相同单音的相同特征排列在相同的时间位置上。此一连 串的特征用一等长是列特征向量表示,称为一个单音的特征模型。目前语音辨认 系统要产生大小一致的特征模型太复杂,且费时,因为相同单音的相同特征很难 排列在同一时间位置上,导致比对辨认困难。一般句子或名称辨认方法有下列一连串五个主要工作抽取特征、特征正常化(特征模型大小一致,且相同单音的相同特征排列在同一时间位置)、未知单 音辨认、未知句子或名称切割成D个未知单音、与在句子或名称数据库找适合句子或名称。 一个单音声波特征常用有下列几种能量(energy),零横过点数(zero crossings ),极值数目(extreme count),颠峰(formants ),线性预估编码倒频 谱(LPCC )与梅尔频率倒频谱(MFCC ),其中以线性预估编码倒频i普(LPCC ) 与梅尔频率倒频谱(MFCC)是最有效,并普遍使用。线性预估编码倒频谱(LPCC) 是代表一个单音最可靠,稳定又准确的语言特征。它用线性回归模式代表单音音 波,以最小平方估计法计算回归系数,其估计值再转换成倒频谱,就成为线性预 估编码倒频镨(LPCC)。而梅尔频率倒频谱(MFCC)是将音波用傅氏转换法转 换成频率。再根据梅尔频率比例去估计听觉系统。根据学者S.B.Davis and P.Mermelstein在1980年出版在IEEE Transactions on Acoustics, Speech Signalmonosyllabic word recognition in continuously spoken sentences中用动态时间扭曲 法(DTW),梅尔频率倒频谱(MFCC)特征比线性预估编码倒频谱(LPCC)特 征辨认率要高。但经过多次语音辨认实验(包含本人前发明),用贝氏分类法, 线性预估编码倒频谱(LPCC )特征辨认率比梅尔频率倒频镨(MFCC )特征要高, 且省时。至于语言辨认,已有4艮多方法釆用。有动态时间扭曲法(dynamic time-warping),向量量^1法(vector quantization)与隐藏式马可夫才莫式法(HMM )。 如果相同的发音在时间上的变化有差异, 一面比对, 一面将相同特征拉到同一时 间位置。辨认率会很好,但将相同特征拉到同一位置很困难并扭曲时间太长,不 能应用。向量量化法如辨认大量单音,不但不准确,且费时。最近隐藏式马可夫 模式法(HMM)辨认方法不错,但方法繁杂,太多未知参数需估计,计算估计值 与辨认费时。最近T.F丄i在2003年出版在Pattern Recognition,vol.36发表的论文 Speech recognition of mandarin monosyllables中用贝氏分类法,以相同数据库,将 各种长短一序列LPCC向量压缩成相同大小的分类模型,辨认结果比Y.K.Chen, C.Y丄iu, G.H.Chiang, M.T丄in在1990年出版在Proceedings of Telecommunication Symposium, Taiwan发表的论文The recognition of mandarin monosyllables based on the discrete hidden Markov model中用隐藏式马可夫模式法HMM方法要好,但压 缩过程复杂费时,且相同单音很难将相同特征压缩到相同时间位置,对于相似单音,纟艮难辨认。本发明语音辨认方法针对上述缺点,从学理方面,根据音波有一种语音特征, 随时间作非线性变化,自然导出一套抽取语音特征方法。将一个单音音波先正常 化再转换成一个足以代表所述的单音的大小相等特征模型,并且相同单音在它们 特征模型内相同时间位置有相同特征。不需要人为或实验调节本发明内的未知参 数与门坎。用筒易贝氏分类法,即可将未知单音分类模型和单音数据库内已知单 音标准模型比对,不需要再压缩,扭曲或寻找相同的特征来比对。所以本发明语 音辨认方法,能快速完成特征抽取,特征正常化与辨认。本方法为了提高单音辨 认率,先将数据库每个单音,用贝式分类法选择最好K个样本,来计算所述的单 音特征,大大提高整体国语单音辨识率。辨认率高,应用广,用弹性框可以辨认 极短或极长单音音波,对英语极短音节辨认也有效。至于对句子与名称的计算机 辨认,因单音辨认在本发明的前未曾突破,文献中很少有句子与名称辨认方法, 但本发明用3xF窗口(对数据库句中每一已知单音用前后三列相似已知单音比对) 找出所述的未知句子或名称的方法极为有效。发明内容(1) 本发明提供一种语音辨认方法。它能将不具语音音波删除。(2) 本发明提供一种单音音波正常化与抽取特征方法。它使用E个相等弹性框,不重迭,没有滤波器,能依单音音波长短自由调节含盖全部波长,能将单 音音波内 一是列随时间作非线性变化的动态特性转换成一个大小相等的特征模 型,并且相同单音音波的特征模型在相同时间位置上有相同特征。可以及时辨认, 达到计算机实即时辨认效果。(3 )本发明提供一种简易有效贝氏辨认未知单音方法,认错机率达到最小, 计算少、辨认快与辨识率高。(4 )本发明提供一种抽取单音特征方法,单音音波有一种随时间作非线性变 化的动态特性。本发明用随时间作线性变化的回归模型估计随时间作非线性变化 的音波,产生的回归未知系数的最小平方估计值(LPC向量)。(5)本发明使用所有具有语音音波(音波信号点)。用较少数E-12个相 等弹性框,不重迭含盖所有信号点特征。不因为一个单音音波太短,删去所述的 单音,也不因为太长,删去或压缩部分信号点。只要人类听觉能辨别此单音,本发明即可将所述的单音抽取特征。所以本发明语音辨认方法应用每一个具有语音的信号点,可以尽量抽取语音特征。因E= 12个弹性框不重迭,框数少,大大减 少特征抽取与计算线性预估编码倒频谱(LPCC)时间。(6 )本发明单音与句子辨认方法可以辨认讲话太快或讲话太慢的单音。讲话 太快时,单音音波很短,尤其对于英语音节发音,本发明的弹性框长度可以缩小, 仍然用相同数E个等长的弹性框含盖短音波。产生E个线性预估编码倒频谱 (LPCC )向量。只要所述的短音人类可辨别,那么所述的E个线性预估编码倒频 语(LPCC)向量可以有效代表所述的短音的特征模型。讲太慢所发出单音音波较 长。弹性框会伸长。所产生E个线性预估编码倒频谱(LPCC)向量也能有效代表 所述的长音。(7) 本发明包含一套语音辨认方法。首先由多人发出相同的已知单音,产生 多种长短不一的声波。然后用E个相同的弹性框,没有滤波器,不重迭,含盖全 部声波,产生一个已知单音的E个线性预估编码倒频谱(LPCC)向量多个样本, 也即有多个特征模型代表所述的已知单音。多个特征模型内在相同时间位置上含 有相同特征向量,也即每个样本的E个线性预估编码倒频谱(LPCC)向量依顺序 线性预估编码倒频谱(LPCC)向量大致相同。(8) 本发明最主要的技术,是先用一个发音清晰者对所述的已知单音发音, 用贝式距离(其它距离效果比较差),在所述的单音多个样本中,找K个最好样 品。再将特征模型的K个样本求线性预估编码倒频谱(LPCC)平均值与变异数, 得到大'J、一致含有平均值与变异数的矩阵,叫做所述的已知单音的标准模型,存 在单音数据库中。再用同样方法,将一个未知单音的音波,用E个等长弹性框, 没有滤波器,不重迭包含全部音波,产生E个线性预估编码倒频谱(LPCC)向量。 所述的E个线性预估编码倒频镨(LPCC)向量称为一个未知单音的分类模型。当 用简易的贝氏分类法比对未知单音与单音数据库内一个已知单音时,将分类模型 内所有线性预估编码倒频语(LPCC)假设为有独立正常分配的随机变量,它的平 均值与变异数用已知单音标准模型内的样本平均数与样本变异数代替。在单音数 据库内计算每一个已知单音标准模型内的平均数(用K个最好样品计算)与未知单音的分类模型内的线性预估编码倒频谱(LPCC)距离,再以已知单音的变异数 调整。选择一个已知单音,辨认为未知单音。(9) 对于乡音、口音特殊者发音的辨认,最好找一个有相同乡音或口音发音清晰者选择单音数据库内每个单音最近的K个样本计算所述的单音的平均值。经过这样处理后,本发明也可辨认有相同乡音或口音的未知单音。(10) 辨认一个句子或名称时,先将未知句子或名称切割成D个未知单音, 本发明将每个未知单音用贝氏法在单音资料库,选择最相似F个已知单音。 一个 句子用DxF个已知单音表示,因切割困难可能切成比较多或比较少未知单音个数, 本发明以每个未知单音前后三列相似已知单音比对句子或名称中一个已知单音, 也即在句子与名称数据库中,对每一句子或名称用3xF窗口的已知相似单音筛选 一个已知单音,再从句子与名称数据库找一个最可能句子或名称,方法简单,不 用任何计算(机率),成功率可达100% (460句子和名称)。(11) 本发明另外一个重要的技术是提供一个修正单音特征的方法,保证辨 i^成功。
图1是表示单音和句子与名称两个数据库建立流程;图2表示一个未知句子或名称辨认方法流程;图3为本发明辨认的单音;图4A、图4B为测试的句子与名称数据库。附图标记说明1-输入已知单音;10-单音连续音波;20-接收器;30 -音 波数字转换器;45-除去杂音;50-弹性框正常化音波;60-最小平方法计算线 性预估编码倒频谱(LPCC)向量;70-—个发音清晰者对每个单音发音一次,在 数据库中,对所述的已知单音用贝式距离为发音者找K个最接近样品计算平均值 与变异数;80-单音数据库包含所有平均值与变异数的标准模型;85-用单音数 据库的单音建立要辨认的句子与名称(任意一组单音)的句子与名称数据库;2-输入一未知句子或名称;11 - 一组未知单音连续音波;40-将一个句子或名称 切成D个未知单音;90-D个未知单音的线性预估编码倒频镨(LPCC)向量代 表D个未知单音分类模型;100 -比较每一个已知单音标准模型与未知单音分类 模型;110-—句子或名称中每一个未知单音找最相近的F个已知单音, 一句子或 名称一共有DxF个已知单音表示;120-在句子和名称数据库中,用3xF窗口筛 选所有句子与名称中的每个已知单音;130 -在句子与名称数据库中找一个最可能 的句子或名称。
具体实施方式
以下结合附图,对本发明上述的和另外的技术特征和优点作更详细的说明。 用图1与图2说明发明执行程序。图1是表示单音和句子与名称两个数据库 建立流程。单音数据库包含所有已知单音的标准模型,表示已知单音的特征。输入一个已知单音1以一个连续音波10形式进入接收器20。数字转换器30将连续 音波转为一序列音波数字的信号点。先前处理器45有两种删去方法(l)计算 一小时段内信号点的变异数与一般杂音变异数。如前者小于后者,则所述的小时 段不具语音,应删去。(2)计算一小时段内连续两信号点距离总和与一般杂音的 总和,如前者小于后者,则所述的小时段不具语音,应删去。经过先前处理器45 的后,得到一序列具有所述的已知单音信号点。先将音波正常化再抽取特征,将 已知单音的全部信号点分成E等时段,每时段组成一个框。 一个单音一共有E个 等长框50,没有滤波器,不重迭,根据单音全部信号点的长度,E个框长度自由 调整含盖全部信号点。所以所述的框称为弹性框,长度自由伸缩,但E个弹性框 长度一样。不像汉明(Hamming)窗,有滤波器、半重迭、固定长度、不能随波长 自由调整。因单音音波随时间作非线性变化,音波含有一个语音动态特征,也随 时间作非线性变化。因为不重迭,所以本发明使用较少(E二12)个弹性框,涵盖单 音音波,因信号点可由前面信号点估计,用随时间作线性变化的回归模式来密切 估计非线性变化的音波,用最小平方法估计回归未知系数。每框内产生一组未知 系数最小平方估计值,叫做线性预估编码(LPC向量)。再将线性预估编码(LPC) 向量转换为较稳定线性预估编码倒频谱(LPCC)。 一个单音音波内含有一序列随 时间作非线性变化的语音动态特征,在本发明内转换成大小相等E个线性预估编 码倒频谦(LPCC)向量60。为了建立单音数据库, 一个已知单音,由多人发音, 以同样转换方法,将多人发音音波转成大小相等的E个线性预估编码倒频谱 (LPCC)向量多个样本。多个样本的E个线性预估编码倒频谱(LPCC)向量代 表一个同样已知单音,因此E个线性预估编码倒频谱(LPCC)向量依顺序,多个 样本的线性预估编码倒频谦(LPCC)向量应大致相同,也即在同一时间位置上, 多个样本线性预估编码倒频谱(LPCC)向量一样。本发明最重要的贡献为每一个 单音找最好样本,需一个发音清晰者对单音发音一次,在单音所有样本中找所述 的单音K个最好的样品,也即K个对发音者的已知单音最短的K个贝式距离。 再用此K个样品的线性预估编码倒频语(LPCC)计算平均值与变异数(用所述的音全部样品计算变异数也可),本发明主要是找最好最真实的平均值,使ExP个的线性预估编码倒频谱(LPCC)平均值真正能代表所述的单音ExP特征。使 单音数据库中每个已知单音有明确位置与范围,不会互相重迭,为方便贝式分类法辨认。这E个线性预估编码倒频谱(LPCC)平均值与变异数向量代表一个已知 单音的标准特征矩阵,称为所述的已知单音的标准模型70。此含有样本平均数与 变异数的标准模型代表一个已知单音,储存在单音数据库中80。再用单音数据库 的单音(394个单音)建立要辨认的句子或名称(任意一组单音)数据库(85)。 图2表示一个未知句子或名称辨认方法流程。当输入一个未知句子或名称2 到本发明语音辨认方法后,以一组未知单音连续音波11进入接收器20,由数字 转换器30转为一是列音波信号点。将一个句子或名称的音波切成D个单音的音 波40,再以图1先前处理器45删去不具语音的音波。再将每个单音音波正常化, 抽取特征,将句子每个未知单音全部具有语音的信号点分成E等时段,每时段形 成一个弹性框50。每个单音一共有E个弹性框,没有滤波器,不重迭,自由伸缩 含盖全部信号点。在每框内,因信号点可由前面信号估计,用最小平方法求回归 未知系数的估计值。每框内所产生的一组最小平方估计值叫做线性预估编码(LPC)向量,线性预估编码(LPC)向量有正常分配,再将线性预估编码(LPC) 向量转换较稳定线性预估编码倒频谱(LPCC)向量60。 一个未知单音以E个线 性预估编码倒频语(LPCC)向量代表特征模型,称为分类模型90,和已知单音 标准模型大小一样。 一个句子一共有D个分类模型代表D个未知单音,如果一个 已知单音是此未知单音,它的标准模型的平均值最靠近未知单音分类模型的线性 预估编码倒频镨(LPCC)。所以本发明的简易贝氏辨认法,以未知单音的分类模 型和单音数据库80每一个已知单音的标准模型比较100。如果一个已知单音是所 述的未知单音,为了计算省时,假定未知单音的分类模型内所有线性预估编码倒 频谱(LPCC)有独立正常分配,它们的平均数与变异数以已知单音标准模型样本 平均值与样本变异数估计。简易贝氏法是计算未知单音的线性预估编码倒频谱(LPCC)与已知单音的平均数的距离,再以已知单音变异数调整,所得的值代表 所述的未知单音与一个已知单音相似度。选择与未知单音F个相似度最高已知单 音辨认为未知单音,因此一个未知句子或名称用DxF个已知单音来表示110。 一 个未知句子或名称切割成D个未知单音后,因有些单音有子音,很难刚好切成一 个未知句子或名称所包含的单音与个数,有时一个单音切成两个,有时两个单音念的很近,计算机切成一个,因此,D个未知单音并不一定是讲话者真正单音数, 所以某一列F个已知相似单音并不一定包含讲话者的单音。在辨认一个未知句子 或名称时,在句子和名称数据库85,测试每一个句子与名称,在测试一个句子或 名称是否是讲话者的句子或名称,将所述的句子或名称从头一个已知单音比对 DxF矩阵相似音的前后三列相似音(当然第一个比对只能比对中后两列相似单 音),再移动3xF窗口 (前后三列相似音)120找句子第二个单音,直到测试句 子全部单音。在数据库中,以最高机率的句子或名称为讲话者的句子或名称(用 正确单音数除以测试句子或名称中单音数)130。当然可在句子与名称数据库中选 择和未知句子或名称(D个未知单音)长度大约相等的句子或名称比对,节省时 间。(1) 一个单音输入语音辨认方法后,将单音连续音波转换一是列数化音波信号 点(signal sampled points )。再删去不具语音音波信号点。本发明提供二种方法 一是计算一小时段内信号点的变异数。二是计算所述的时段内相邻二信号点距离 的总和。理论上,第一种方法比较好,因信号点的变异数大于杂音变异数,表示 有语音存在。但在本发明辨认单音时,两种方法辨认率一样,但第二种省时。(2) 不具语音信号点删去后,剩下信号点代表一个单音全部信号点。先将音波 正常化再抽取特征,将全部信号点分成E等时段,每时段形成一个框。 一个单音 共有E个等长的弹性框,没有滤波器、不重迭、自由伸缩,涵盖全部信号点。弹 性框内信号点随时间作非线性变化,很难用数学模型表示。因为J.Markhoul在1975 年出版在Proceedings of IEEE,Vol.63,No.4发表论文Linear Prediction: A tutorial review中说明信号点与前面信号点有线性关系,可用随时间作线性变化的回归的模型估计此非线性变化的信号点。信号点^")可由前面信号点估计,其估计值s'W 由下列回归模式表示<formula>formula see original document page 15</formula> (i)Ar=l在(l)式中,a" A^,…,A是回归未知系数估计值,P是前面信号点数目。用 L.Rabiner与B.H.Juang在1993年著作书Fundamentals of Speech Recognition, Prentice Hall PTR, Englewood Cliffs, New Jersey中Durbin的循环公式求最小平方 估计值,此组估计值叫做线性预估编码(LPC)向量。求框内信号点的线性预估 编码(LPC)向量方法详述如下以A表示信号点及其估计值之间平方差总和<formula>formula see original document page 16</formula> =0 A:=l求回归系数使平方总和^达最小。对每个未知回归系数a' 的偏微分,并使偏微分为0,得到P组正常方程式Z S(" — - 0 = S -/), 1" P (3)展开(2)式后,以(3)式代入,得最小总平方差^^ =》2(")-(4)(3)式与(4)式转换为^V ("),), 1化P (5)IX単) (6)在(5)与(6)式中,用N表示框内信号点数, 柳+ 。o=U,求(2)式用Durbin's循环快速计算线性预估编码(LPC ) 五o = i (O)&=[及(/)—|>y—"i (/—y)]/£M 乂=1(7)向量如下:(8) (12)(8-12)公式循环计算,得到回归系数最小平方估计值""y = 1"",P,(线性预估 编码(LPC)向量)如下(13)再下列公式将LPC向量转换较稳定线性预估编码倒频谱(LPCC)向量~,i一l)=1尸</(14)(15)《=Z (丄)",w":,一个弹性框产生一个线性预估编码倒频谱(LPCC)向量(心,…,"'p)。根据本 发明语音辨认方法,用P=12,因最后的线性预估编码倒频谱(LPCC)几乎为0。一个单音以E个线性预估编码倒频谱(LPCC)向量表示特征,也即一个含ExP 个线性预估编码倒频语(LPCC)的矩阵表示一个单音特征。(3) —个已知单音由多人发音,产生多个样本的ExP矩阵,同时代表所述的已 知单音,求K个最好样本线性预估编码倒频谱(LPCC)的样本平均值与变异数, 得到一个ExP矩阵内含线性预估编码倒频谱(LPCC)样本平均值与样本变异数。 所述的矩阵称为所述的已知单音的标准特征,或标准模型。(4) 同样方法以(8-15)式计算出一个未知单音音波的E个线性预估编码倒频谱(LPCC)向量,有同样大小ExP个LPCC的矩阵,叫做未知单音的分类模型。(5) 在图2中,语音辨认器100,收到一个未知单音的分类模型, 一个ExPLPCC的矩阵。用1 = {^」,7 = 1,…,五,,=1"."户,表示未知单音特征模型。在与 一个已知单音c', 1,…,附,比对时。为了快速计算比对值,假定^^有ExP个独立正常分配,它的平均数与变异数(/^,°^),以已知单音标准模型内的样本平均值与样本变异数估计。以,(^c')表示I的条件密度函数。以T.F丄i在2003年 出版在Pattern Recognition,Vol.36发表论文Speech recognition of mandarin monosyllables中的决策理论说明贝氏分类法如下假设数据库一共有m个已知单音的标准模型。以《,z'",…^,表示单音c', ^i,…^,出现的机率,也即先前机率,则吝-' = 1。以"表示一个决策方法。定义一个简单损失函数(loss function),也即" 的判错机率(misclassification probability)如下如决策方法^判错一个未知单音,则损失函数"。,""))=1。如果"判对一个未知单音,则无损失"。^")) = 0。辨认方法如下以r,,"i,…,附,表示义=1矩阵值属于已知单音6的范围。也即义在R,"判未知单音属于已知单音、"判错平均机率为i (2",力=《J"丄(C,,d(JC))/0 I C,)血/=1 '在(16)中,T二的,…,^),C是^以外范围。以D表示所有语音辨认方法,也即划分m个已知单音的范围所有方法。在D中找一个辨认方法《使它的平均认错机率(16)达到最小,以及(^《)表示i (r,《)=mz>2i (r,i/) (17)满足(17)式的辨认方法《叫做与先前机率r有关的贝氏分类法。可用下列表示《(x) = c, 《/(;c|。)>《/(x|。) (18)在(18)式中,/ = 1,.",附,/",也即属于已知单音^的范围是对所有yw,r^"i《/(xio〉^/w。"。如所有已知单音出现机率一样,则贝氏分类法 和最大机率法一样。贝氏分类法(18)辨认一个未知单音时,先计算所有X的条件密度函数1 二々广 )22;' ' (19) <formula>formula see original document page 2</formula>贝氏分类法(18)变成对每个已知单音、计算《^值(20), "c')也称为未知单音和已知单音e'的相似度,或贝氏距离(mis-categorization risk)。在(20)式中, 1 = "^乂 = 1, ',气£ = 1, "尸,是未知单音分类模型内线性预估编码倒频谱(LPCC)值,仏1/《,《}用已知单音的标准模型内的样本平均数与样本变异数估计。本发明最重要的贡献是在数据库中,为每一个已知单音^找到真实的中心点。"仏""与明 确不重迭的范围。(21)这里1 = {~}是表示单音^的ExPLPCC矩阵范围。先找一个发音清晰者对每 个单音A发音,用"^"^表示所述的清晰者对e'的发音的单音ExPLPCC,用 < ={袼}表示数据库内第,个已知单音c'第*个样品的ExP LPCC矩阵。再以下列 计算,发音者的单音与第A个样本贝式距离 <formula>formula see original document page 2</formula>这里"i用已知单音A的全部样本变异数取代。用此贝式距离(22)得到在数据库中第z'个单音e'的全部样本,找K个最接近发音者发第z'个单音^的样品,再用此K个最接近样品计算单音e'平均值与变异数(变异数也可由全部样品变异数代替)。叫做单音。的标准模型,此标准模型大大提高本发明辨认率。(经实验结果,用K^4-8,可提高到百分的百)。贝式分类法辨认一个未知单音的分类模 型1 = "^是在数据库内选择一个已知单音《,它的"。值达最小,判为所述的未知单音。(6)为了证实本发明语音单音辨认方法辨识率高,适用范围广,抽取特征与辨 认方法快速且省时,本发明执行男女三个人语音辨认实验。(a) 首先建立一个日常用的国语单音数据库。本单音数据库是从台湾之中央 研究院购买。数据库一共有394个单音,全是女性发音,样本从6个到99个不等, 很多单字的发音几乎一样。(b) 从(2)节中方法将所有样本转成ExPLPCC矩阵, 一共有12464个矩阵。(c) 测试人有三位(发明人), 一是本人黎自奋,男性,外省籍,虽讲国语, 带有四川口音,第二位是瘳丽娟小姐,女性,本省通过口音,第三位是李台珍小 姐,外省通过口音。 一人作清晰发音者,在数据库中用贝式分类法(22)找4-8 个最接近发音者的样本,计算成平均值。本发明主要目的是要ExP-144平均值 真正代表所述的单音特征,为了省时,变异数仍由全部样本计算,作为标准模型, 储存在数据库中。另二人(测试者)发音作为贝式分类法(20)来辨认未知单音。(d) 因相同音字太多。贝式分类法(20)选择前3位单音,发音者的未知单 音入围前3名算成功。例(两,娘,俩)、(年,连,言)、(陈,冬,成)、(曾,正,尊)、(诺,若,罗)、(赞,钻,站)等。贝式分类法(20)选择 前3名已知单音,这3名发音非常接近,很难判断测试者未知单音是3个其中哪 一个,因此,只要前3名已知单音有未知单音,算是成功。(e) 黎自奋的发音去找& = 4到8个最接近样品作为标准模型,由李台珍与 瘳丽娟作为测试者。她们均能100 %测试成功。主要数据库全是女性样本( 一共 有12464个样本)。瘳丽娟的发音去找K = 4-8个最接近样本作为标准模型,由黎 自奋及李台珍作为测试者,也可达到100 %辨认率。辨认的单音由表一列出。(f) 如果未知单音不在前三位最相似已知单音内,假定未知单音叫做甲单音, 前三位最相似已知单音叫做乙、丙、丁三个单音,那么甲单音的最好K个样本不 在曱单音样本内,而在乙、丙、丁的样本内(或乙的单音样本内),再到乙单音 样本内寻找甲单音最好的K个样本,计算平均值及变异数称为甲的标准模型,这 是因为相似音太接近,曱的样本和乙的样本非常相似,再测试未知(甲)单音, 一定成功。图3中394单音中,本方法能辨认390个,3个不认识,1个音错误。本方法 辨认率是100% 。(7)对一个讲话者的句子或名称辨认,我们先建立一个句子与名称数据库,每个句子或名称内的单音全部由单音数据库内390已知单音任意组成,一共组成460 常用的句子和名称,辨认方法如下(a) 切割一个未知句子或名称成为D个未知单音,每单位时段计算相邻二 信号点落差距离总和,如太小,所述的时段为杂音或静音,没有单音讯号的相邻 单位时段累积太多,表示全是杂音或静音,应所述的是两单音分界线就应切割, 一共切成D个未知单音,再用图2中45, 50, 60与90流程转成ExP LPCC矩 阵。(b) 在句子与名称数据库寻找讲话者的句子或名称,在460句子和名称中, 挑选长度有(D±l)个已知单音句子和名称。未知单音)时,那么将D个每列F个相似已知单音和比对句子或名称的D个已知 单音依顺序比对,看看F个相似音有没有比对句子或名称内的已知单音。如每列 相似音内都含一个比对句子或名称内的已知单音,辨认正确单音是D个,则所述 的比对的句子或名称就是讲话者的句子或名称。(d) 如果数据库比对句子和名称内已知单音数不是D或(c)的辨认正确单 音不是D个,本发明则用3xF窗口筛选。在比对句子或名称(数据库内)中,第 z'个已知单音,用DxF矩阵中前后三列相似音(即第z'-l,M + l列)比对第!'个已 知单音,计算DxF矩阵有多少比对句子或名称内的已知单音,再除以总数D得到 所述的比对句子或名称的机率,在数据库选择一个机率最大句子或名称为讲话者 的发音。(e) 如果DxF矩阵相似音没有一个数据库的句子或名称, 一定是讲话者的 某单音不在它的F个相似音内,用6(f)在F个相似单音中,在第一到三顺位(或 只用第一顺位)的已知单音找该单音K个最好样品做它的平均值与变异数,作为 该单音的标准模型,下次测试时, 一定成功。(f) 经过黎自奋和李台珍及瘳丽娟三位测试460结果全部正确,本发明另外 一个重要技术是提供一个修正单音特征方法(6(f)),务使辨认成功。注有些句子或名称的单音并未全部选对,正如人类讲话不需全部了解一句 子或名称的每一个单音也能明了整个句子或名称。本发明测试的句子与名称数据 库在图4A与图4B中。图4B从390单音数据库任意组成460句子与名称数据库。取最相似的F = 5 已知单音,由黎自奋与李台3令及瘳丽娟测试全部正确。20200810085532.4说明书第13/14页个句子或名称内的单音全以上所述仅为本发明的较佳实施例,对本发明而言仅仅是说明性的,而非限制性 的。本专业技术人员理解,在本发明权利要求所限定的精神和范围内可对其进行 许多改变,修改,甚至等效,但都将落入本发明的保护范围内。
权利要求
1、一个百分之百辨认率的国语单音与句子辨认方法,其特征在于其步骤包含步骤(1)通过一个先前处理器删去不具语音音波信号点或杂音;步骤(2)实施一个已知单音音波正常化与抽取特征方法用弹性框将音波正常化并转换成大小相等的线性预估编码倒频谱LPCC特征矩阵,并将相同单音音波转换成特征相同的矩阵;步骤(3)在数据库中,对每个已知单音,选择K个最好样本;步骤(4)一个已知单音特征矩阵的K个最好样本转换成一个标准模型,储藏在数据库,标准模型含有所述的已知单音特征矩阵的K个样本平均数与变异数;步骤(5)实施一个未知单音音波正常化与抽取特征方法将音波正常化并转换成大小与已知标准模型大小相等的特征矩阵,称为未知单音分类模型,内含有线性预估编码倒频谱LPCC;步骤(6)实施一个简化贝氏分类法将未知单音分类模型与数据库所有已知单音标准模型比较,找一个已知单音,它和未知单音贝式距离达最小,辨认为未知单音;步骤(7)将一个未知句子或名称切成D个未知单音方法;步骤(8)通过一个简化贝式分类法,在D个未知单音中,为每一个未知单音选F个最相似的已知单音,一个未知句子或名称用D×F矩阵已知单音表示;步骤(9)用D×F矩阵的已知单音,比对句子与名称数据库全部句子与名称,找寻一个最可能已知句子或名称;步骤(10)实施一个修正单音特征的方法,使讲话者的句子或名称辨认正确。
2、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(l)删去不具语音的音波或杂音,包含两种方法(a) 、在一小时段内信号点,计算信号点的变异数与一般杂音的变异数,如信 号点的变异数小于杂音变异数,则删去所述的时段;(b) 、在一小时段内信号点,计算相邻两信号点距离总和和一般杂音相邻两信 号点距离总和,如前者小于后者则删去所述的时段。
3、 根据权利要求1所述的国语单音与句子辨认方法,其特征在于步骤(2) 包含已知单音音波正常化与抽取大小一致的特征矩阵,步骤如下(a) —个均等分一个已知单音音波信号点方法,为了用线性变化的回归模式密 切估计非线性变化的音波,将音波全长分成E等时段,每时段形成一个弹性框, 一个单音共有E个弹性框,没有滤波器,不重迭,'自由伸缩含盖全长音波,不是 固定长度的汉明窗;(b) 每框内,用一随时间作线性变化的回归模式估计随时间作非线性变化的音波;(c) 用Durbin's循环方式"=0<formula>formula see original document page 3</formula>求回归系数最小平方估计值,叫做线性预估编码LPC向量,再用<formula>formula see original document page 3</formula>转换线性预估编码LPC向量为稳定的线性预估编码倒频谱LPCC向量; (d)用E个线性预估编码倒频谱LPCC向量表示一个单音的ExP LPCC特征 矩阵。
4、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(3)又包含一个,在数据库中,对每一个已知单音选择最好的K个样 本的方法,步骤如下(a) 找一个发音清楚者对每个单音c'发音一次;(b) 在数据库中,对所述的已知单音e'的全部样本^,用贝式距离对发音者所 发的单音^ = {^}计算w z w 这里^"'i以已知单音^全部样本变异数代替,而^={《《}表示已知单音&全部样本;(c)在已知单音^全部样本中,以K个最小的"O值,来选择K个对发音者最 接近的样本,叫做已知单音e'最好的K个样本^ 。
5、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(5)又包含一个计算未知单音的分类模型方法,其步骤如下(a) 将未知单音音波分成E等时段,每时段组成一个弹性框, 一个未知单音有 E个等长弹性框,没有滤波器,不重迭,自由伸缩含盖全部音波信号点;(b) 每个弹性框内,用一个随时间作线性变化的回归模式估计随时间作非线性 变化的音波;(c) 用Durbin's循环方式<formula>formula see original document page 4</formula>计算回归系数最小平方估计值LPC向量;(d) 再将LPC向量用公式<formula>formula see original document page 4</formula>转换成稳定LPC倒频语LPCC向量;(e) 用E个LPCC向量ExP LPCC矩阵,作为所述的未知单音的分类模型。
6、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(6)包含一个简易贝氏辨认未知单音方法,其步骤如下(a)—个未知单音的特征是分类模型,用一个ExP LPCC矩阵Z"^^", / = 1,.."£,《=1,.."户,表示,为了快速辨认,ExP个LPCC^"假定是ExP个独立随机变量,有正常分配,如果未知单音和一个已知单音。,"L…^,比对时,则^乂"的平均数与变异数(/^,《)用所述的已知单音标准模型内样本平均数与样本变异 数估计,那么义的条件密度函数是<formula>formula see original document page 5</formula>义"义J是未知单音的分类模型的线性预估编码倒频谱LPCC,但(^V,"'i)用 已知单音c'标准模型内的样本平均数与样本变异数以K个最好样本计算估计; (b)简易贝氏分类法是针对数据库中找一个已知单音&最像此未知单音义,一个已知单音c'对未知单音相似度以下式中/"l。)表示;<formula>formula see original document page 5</formula>(c) 为快速辨认,用对数化简(b)中条件密度函数y(^c'),并删去不必计算的常 数,得<formula>formula see original document page 5</formula>(d) 对每一个已知单音A, / = 1"'"附,计算((0式中*')值;(e) 在数据库中,选择一个已知单音^',它的《A值是最小,判为所述的未知 单音;(f) 如果选择已知单音不是未知单音,假定未知单音是甲单音,而选择的已知 单音是乙单音,那么甲单音最好K个样本不是在曱单音样本内,而是在乙单音样 本内,再从乙单音样本内为甲单音选择K个最好样本作为甲单音的标准模型,下 次辨认该未知单音 一 定辨认正确;(g) 由辨认测试结果,E=12,P=12,K=4-8为最好,这是因为弹性框不重迭,E=12 弹性框能充分抽取一个单音特征。
7、根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(7)还包含下列每单位时段计算相邻两个信号点落差距离总和,如太小,所述的时段则是静 音或杂音,没有单音讯号;静音或杂音相邻单位时段累积太多,所述的时段应是两单音分界线,应切割, 一个未知句子或名称切割成D个未知单音;再将每个未知单音除去静音与杂音,弹性框正常化,最小平方计算线性预估 编码LPC倒频谱向量,代表一个未知单音, 一句子或名称一共有D个线性预估编码倒频谦LPCC矩阵表示。
8、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特征在于步骤(8)还包含下列(a) —个未知句子或名称切割成D个未知单音后,每一个未知单音用简化 贝式分类法,在单音数据库中,计算每个已知单音A和所述的未知单音^J贝式 距离"。,<formula>formula see original document page 6</formula>找最近的F个已知单音, 一个未知单音用所述的F个相似音表示; (b)因此一个未知句子或名称有D列F个相似音表示,也即所述的句子或名称 在DxF矩阵的已知单音机率非常高。
9、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其特 征在于步骤(9)还包含下列 一个句子与名称辨认方法(a) 在句子与名称数据库中,挑选和讲话者的句子或名称长度大约相等的句子 或名称,也即D±l个已知单音的句子和名称;(b) 如果在句子与名称数据库中,挑选比对的句子或名称,它的长度刚好和讲 话者的句子或名称等长(D个未知单音)时,那么将D个每列F个相似已知单音 和被挑选的比对句子或名称的D个已知单音依顺序比对,看看F个相似单音中有 没有比对句子或名称内的已知单音,如每列相似单音依次都包含比对句子或名称 内一个已知单音, 一共会有全部D个未知单音辨认正确,所述的比对句子或名称 就是讲话者的句子或名称;(c) 如果句子与名称数据库中的比对句子或名称有D个已知单音,但比对讲话 者,D个单音没有完全辨认正确,不在F个相似音内或比对句子或名称不是D个 长度,本发明则用3xF窗口筛选,用DxF矩阵相似音中前后三列相似已知单音依 顺序比对数据库,有D个或D±l个已知单音的比对句子或名称中每一个已知单音, 在数据库中选择一个机率最大的比对句子或名称为讲话者的句子或名称,机率以 单音正确辨认数除以全长D或D± 1 。
10、 根据权利要求1所述的百分之百辨认率的国语单音与句子辨认方法,其 特征在于步骤(10)还包含一个修正单音特征方法,使句子与名称辨认正确(a)不能辨认讲话者的句子或名称一定是句子或名称中某一个未知单音不在 它的F个相似音中,需要调整所述的未知单音的标准模型矩阵内K个LPCC的平均值与变异数;(b) 假如所述的未知单音是A,本发明用4(b)中简化的贝式分类法,计算所 述的未知单音W对单音数据库中已知单音c'全部样本《-^^的贝式距离<formula>formula see original document page 7</formula>取K个最好的样本做为平均值^《与变异数"^,调整后再辨认所述的句子或 名称;(c) 再测试该未知句子或名称,如句子或名称中某一未知单音不在它的F个相 似已知单音中,假定未知单音叫做曱单音,用它的F个相似已知单音中第一到三 顺位的相似已知单音叫做乙、丙、丁单音,曱单音最好K样本不在曱单音样本中, 而在前三顺位的乙、丙、丁单音样本中或乙单音中,再从乙单音全部样本选择曱 单音的K个最好样本求曱单音特征模型,再测试该未知句子或名称,保证成功。
全文摘要
本发明是一种应用广泛国语单音与句子的辨认方法,其是找一个发音清晰者对每一单音发音,再以数据库对所述的单音找K个样品,使K个样品对发音者的已知单音,贝式距离最短的样品,也即对发音者的已知单音取K个贝式距离最短的样品,叫做所述的单音的最好样本,再对K个最好样本抽取特征代表所述的单音,放在数据库中。因每单音都有自己的K个最好样品计算特征,大大提高本发明单音辨识能力,然后将要辨认的句子和任何名称建立一个句子与名称数据库,经过三位男女测试390单音与460个句子和名称,辨认率可达100%,并可随时增加句子数据库的句子或名称,即刻从句子数据库中辨认,最重要的是本发明提供一修正单音特征的方法保证辨认成功。
文档编号G10L15/00GK101281746SQ20081008553
公开日2008年10月8日 申请日期2008年3月17日 优先权日2008年3月17日
发明者廖丽娟, 李台珍, 黎自奋 申请人:黎自奋;李台珍;廖丽娟
一个百分之百辨认率的国语单音与句子辨认方法
相关推荐
专利名称:硅片台双台交换曝光系统及双台交换方法技术领域:本发明涉及一种半导体制造设备,具体涉及一种用于半导体光刻机中的硅 片台双台交换曝光系统。本发明还涉及一种基于上述系统的硅片台双台交换方 法。背景技木光刻是半导体制造过程中 一道非常重要
专利名称:具有自动伸缩补偿功能的光学接收器的制作方法技术领域:本实用新型涉及一种具有自动伸縮补偿功能的光学接收器,以控制光学接收器的旋转 变焦镜头前沿相对某参照物的距离基本不变。 背景技术:在某些使用场合,需要光电接收和探测设备在狭窄的空间
专利名称:一种制备脊形聚合物光波导的方法技术领域:本发明属于聚合物光波导制作技术领域,特别是涉及一种制备脊形聚合物光波导的方法,该方法是一种直接利用光刻技术的脊形聚合物光波导的制作方法。背景技术:传统的光波导材料主要是硅、二氧化硅、化合物半
专利名称:发光面板和背光系统以及液晶显示装置的制作方法技术领域:与本发明一致的设备涉及一种发光面板、具有该发光面板的背光系统以及具有该背光系统的液晶显示(LCD)装置,在该发光面板中多个发光二极管(LED)以多行布置。背景技术: 液晶显示(
专利名称:折射率分布型液晶光学元件以及图像显示装置的制作方法折射率分布型液晶光学元件以及图像显示装置相关申请的交叉引用本申请基于2010年12月27日提交的在先的日本专利申请No. 2010490644并要求其优先权。本发明通过参照该申请而
专利名称::使用音调规则化及非音调规则化译码的信号编码的制作方法技术领域::本发明涉及音频信号的编码。背景技术::尤其是在长途电话、例如IP语音(还称作VoIP,其中IP表示因特网协议)等包交换电话及例如蜂窝式电话等数字无线电电话中,通过数