当前位置:网站首页>专利 >正文

语音音调参数的分类方法

专利名称:语音音调参数的分类方法
技术领域
本发明涉及一种分类方法,特别是一种以递归式计算平均值及均方误差(Mean Square Error)方式将应用于语音音调参数分类的分类方法。
背景技术
标榜以真人发音的功能,已成为电子辞典主要诉求的特色。为了提升电子辞典在市场的竞争力,各家厂商无不专注于语音功能的改进并且同时要能降低生产成本。有些厂商所强调的真人录制特定语音,由于其数据量大,且系统输出的种类受极大限制,相当耗费成本,所以,大多数厂商都以语音分析合成的方式来接近真人发音,可让电子辞典能节省语音数据存储器并提高声音品质。
在目前庞大的语音音素数据中,已陆续有公知技术将之分类为数小类,而每一类中尚可再细分为若干种不太相同的音调,而若能在这些分类当中找出几组足以代表所有音调的模型,并将音素的种类加以细分,达到仅用固定的样本音素,即可产生所有的音素,此对于日后发展TTS(Text To Speech)或语音数据压缩时,将有莫大的帮助。

发明内容
本发明的主要目的在于提供一种语音音调参数的分类方法,藉以分析所有的语音音调参数,建立语音音调参数的基本模型,作为语音数据合成的基本音调参数,并增加语音数据的压缩比率。
为达到上述目的,本发明提供了一种语音音调参数分类方法,用以在多笔语音音调参数中找出代表所有音调参数的基本语音音调参数分类,包括有下列步骤将一笔以上的语音音素数据中的音调参数调整成同一固定长度的音框数;将调整成同一固定长度的语音音调参数取一平均值,并根据该语音音调参数平均值取得一与该平均值的均方误差最小值;根据该均方误差最小值设定一第一类中心参数与一第二类中心参数;以该第一类中心参数与该第二类中心参数为基准,将该音调参数分为第一类语音音调参数与第二类语音音调参数;分别根据该第一类语音音调参数重新取得一中心参数与该第二类语音音调参数重新取得一中心参数;以及将所述中心参数的均方误差值与一第一预设值比较以决定分类是否结束。
该将一笔以上的语音音素数据中的音调参数调整成同一固定长度的音框数步骤中还包括有下列步骤分析该语音音素数据中的频谱参数与音调参数;计算该频谱参数的累计平方差;将该累计平方差除以该音框数以取得该频谱参数的平均累计平方差;以及以该平均累计平方差为间隔,累计平方差每增加平均累计平方差即取用该欲调语音的音框。
该将该音调参数分为第一类语音音调参数与第二类语音音调参数的步骤中,是以所有音调参数与该第一类中心参数与该第二类中心参数的均方误差值作为分类依据。
该决定分类是否结束的步骤中还包括下列步骤当该第一类中心参数与重新计算后的中心参数的均方误差以及该第二类中心参数与重新计算后的中心参数的均方误差皆大于该第一预设值,根据重新计算后的中心参数,继续将该第一类语音音调参数与该第二类语音音调参数分类。
该决定分类是否结束的步骤中还包括下列步骤当该第一类中心参数与重新计算后的中心参的均方误差以及第二类中心参数与重新计算后的中心参数的均方误差皆小于该第一预设值时,且当该第一类语音音调参数或该第二类语音音调参数中的所有该语音音调参数与语音音调参数平均值的均方误差最小值的均方误差小于一第二预设值时,则取出该第一类语音音调参数或该第二类语音音调参数作为最终分类。
该第一类中心参数为该均方误差最小值加上一差值,该第二类中心参数为该均方误差最小值减去一差值。
该第一类中心参数为该均方误差最小值减去一差值,该第二类中心参数系为该均方误差最小值加上一差值。
该重新计算后的中心参数为该第一类语音音调参数的平均值的均方误差最小值。
该重新计算后的中心参数为该第二类语音音调参数的平均值的均方误差最小值。
也就是说,本发明所揭示的语音音调参数的分类方法,首先调整欲进行分类的语音音素的长度,亦即将所有的语音音调参数进行正规化,接着以递归式的分类方式将所有已调整完长度的语音音调参数进行分类。在递归式分类的步骤中,是将已正规化的音调参数取平均值Pav,并找出与该平均值的均方误差最小的一音调参数Pavm为中心参数。接着以中心参数Pavm决定两个分类的中心参数。中心参数决定之后,即根据语音音调参数与中心参数的均方误差值的大小作为分类的标准,进行语音音调参数的分类,分类完各分类再重新计算中心参数,直到各分类的中心参数与前中心参数的均方误差小于一预定值时,即结束分类的程序,该分类可再细分为小分类,并将最后的分类结果作为语音音调参数的基本模型。
本发明所揭示的语音音调参数的分类方法,分析了实际语音音素的音调参数数据,利用正规化方法及递归式计算平均值及均方误差(Mean SquareError)方式,将音调参数分类,藉由分析这些分类的音调群组,可找出及建立具代表性的音调样本模型,然后运用于TTS或语音数据压缩。
由本方法可建立具代表性的音调样本模型,为发展TTS语音发音技术的非常重要的音调基础,并可用来找出音调群组中特异的音素,并加以修改。在数据压缩的向量量化方法上(Vector Quantization)亦可大大提高压缩率。
有关本发明的特征与实施,兹配合附图作最佳实施例详细说明如下。


图1为本发明所揭示的语音音调参数的分类方法的方法流程图;图2为本发明所揭示的语音音调参数的分类方法的调整音调参数长度的方法流程图;图3为本发明所揭示的语音音调参数的分类方法的调整音调参数长度的详细方法流程图;图4为已正规化但尚未分类的音调图;
图5为根据图4的语音音调分类之后的音调图;图6为根据图4的语音音调分类之后的音调图;图7为根据图4的语音音调分类之后的音调图;图8为根据图4的语音音调分类之后的音调图;以及图9为根据图4的语音音调分类之后的音调图。
具体实施例方式
首先,请参考图1,为本发明所揭示的语音音调参数的分类方法的方法流程图,首先正规化所有语音音调参数,此为步骤100,是将一笔以上的语音音素文件中的音调参数调整成同一固定长度L,接着,将调整成同一固定长度的语音音调参数取其平均值Pav0,此平均值Pav0为一Lx1的向量(Vector),并根据语音音调参数平均值Pav0在此类音调参数中取得一与平均值Pav0的均方误差最小的音调参数Pavm0为中心参数,此为步骤200,再根据Pavm0设定一第一类中心参数初始值Pavm1=Pavm0+Pδ与一第二类中心参数初始值Pavm2=Pavm0-Pδ,用以作为音调分类的中心参数,其中Pδ为一小差值向量,此为步骤300。例如,第一类中心参数可设定为Pavm1=Pavm0+2,第二类中心参数可设定为Pavm2=Pavm0-2,暂作为音调分类的中心参数,2为一差值向量。
接着,以第一类中心参数Pavm1与第二类中心参数Pavm2为基准,将所有音调参数分为第一类与第二类,此为步骤400。分类的方式是计算所有音调参数与第一类中心参数Pavm1及与第二类中心参数Pavm2的均方误差,在本实施例中是将与Pavm1均方误差较小者分为第一类,与Pavm2均方误差较小者分为第二类。该将该音调参数分为第一类语音音调参数与第二类语音音调参数的步骤中,是以所有音调参数与该第一类中心参数与该第二类中心参数的均方误差值作为分类依据。
重新计算第一类中心参数P’avm1与第二类中心参数P’avm2,此为步骤500,然后计算该中心参数P’avm1,2与上一次中心参数Pavm1,2的均方误差大小是否小于一预设值以作为该分类是否完成的依据。若前第一类中心参数Pavm1与后第一类中心参数P’avm1的均方误差以及前第二类中心参数Pavm2与后第二类中心参数P’avm2的均方误差皆小于一第一预设值,此为步骤600,则该分类分类完成,否则重新回到步骤300,重新设定中心参数Pavm1,2=P’avm1,2,并重复上述的分类步骤。
若该分类要继续分类为更小分类,此为步骤650,则重新回到步骤200,将该分类视为新的一类重新分为两类;若不需继续分类,则可计算该分类中的所有语音音调参数,与语音音调中心参数的均方误差,若均方误差小于第二预设值,此为步骤700,则代表该语音音调归为此类,则取出该类语音音调参数,作为基本的语音音调参数模型,此为步骤750。否则放弃此归类,因为误差太大,此时可检视这些误差太大的音调,可能为错误或不良的音调参数,可将之修正或舍弃,此为步骤850,最后分类结束,此为步骤800。
接着,将步骤100中的正规化所有语音音调参数的详细步骤作一说明。
因为每段语音音素其长度皆不尽相同,因此需进行正规化处理,将每段语音音素长度皆调成一样,在此,将所有音调参数长度(个数)皆调成同一固定长度N。
首先由语音音素文件或其压缩文件分析出欲调语音的频谱参数以及音调参数,此为步骤110,其中频谱参数以RCm(i),i=0,1,2,...,p-1表示,音调参数以Pitchm表示;m=0,1,2,...,M-1,其中p代表频谱参数的阶数,M分别表示语音的音框数或语音长度。
接着计算相邻频谱参数的累计平方差(ASD;Accumulated SquareDifference),此为步骤120,以下列式子表示ASD(0)=Σi=0p-1(RC0(i))2]]>ASD(m)=ASD(m-1)+Σi=0p-1(RCm(i)-RCm-1(i))2]]>m=1,2,...,M-1再将累计平方差除以欲调整的音框数N以取得平均累计平方差DeltaASD,此为步骤130,以下列式子表示DeltaASD=ASD(M-1)/N接着,进行音调长度调整,亦即以平均累计平方差为间隔,累计平方差每增加一平均累计平方差的量,即取用该欲调语音的音框,此为步骤140。假设调整后的语音音调参数为Pitch_newn,n=0,1,2,...,N-1,则新的音调参数取得方法如下。
首先令平均累计平方差的累加值MASD=0,欲调语音的音框m=0,调整后的音框n=0,此为步骤141,接着在M个欲调语音的语音音框中取出N个语音音框,是检查平均累计平方差的累加值MASD是否大于第m个音框的累计平方差ASD(m),此为步骤142,若是则继续选取下一个欲调语音音框m=m+1,此为步骤146,并回到步骤141,否则设第n个调整参数为取用第m个欲调语音的音调参数,此为步骤143。接着继续下一个音框的音调参数取代,是将一平均累计平方差加入平均累计平方差的累加值中MASD=MASD+DeltaASD并令n=n+1,此为步骤144,若欲调语音的音调参数尚未取代完毕(n=N?),此为步骤145,则继续步骤142至步骤144的音调参数调整流程。
以下范例是将2790笔字尾重音音调的英文语音音素做分类,图4为正规化(N=32)未分类的音调图,可看出非常杂乱;图5至图9,为一部份群组数目较多的分类的结果,可看出其确实达到分类的效果,分析这些分类的结果,可以很容易找出几组可具代表性的音调模型。
虽然本发明以前述的较佳实施例揭示如上,然其并非用以限定本发明,任何熟悉相像技术者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,因此本发明的专利保护范围须视本说明书所附的权利要求书所界定的为准。
权利要求
1.一种语音音调参数的分类方法,用以在多笔语音音调参数中找出代表所有音调参数的基本语音音调参数分类,其特征是包括有下列步骤将一笔以上的语音音素数据中的音调参数调整成同一固定长度的音框数;将调整成同一固定长度的语音音调参数取一平均值,并根据该语音音调参数平均值取得一与该平均值的均方误差最小值;根据该均方误差最小值设定一第一类中心参数与一第二类中心参数;以该第一类中心参数与该第二类中心参数为基准,将该音调参数分为第一类语音音调参数与第二类语音音调参数;分别根据该第一类语音音调参数重新取得一中心参数与该第二类语音音调参数重新取得一中心参数;以及将所述中心参数的均方误差值与一第一预设值比较以决定分类是否结束。
2.如权利要求1所述的语音音调参数的分类方法,其特征是该将一笔以上的语音音素数据中的音调参数调整成同一固定长度的音框数步骤中还包括有下列步骤分析该语音音素数据中的频谱参数与音调参数;计算该频谱参数的累计平方差;将该累计平方差除以该音框数以取得该频谱参数的平均累计平方差;以及以该平均累计平方差为间隔,累计平方差每增加平均累计平方差即取用该欲调语音的音框。
3.如权利要求1所述的语音音调参数的分类方法,其特征是该将该音调参数分为第一类语音音调参数与第二类语音音调参数的步骤中,是以所有音调参数与该第一类中心参数与该第二类中心参数的均方误差值作为分类依据。
4.如权利要求1所述的语音音调参数的分类方法,其特征是该决定分类是否结束的步骤中还包括下列步骤当该第一类中心参数与重新计算后的中心参数的均方误差以及该第二类中心参数与重新计算后的中心参数的均方误差皆大于该第一预设值,根据重新计算后的中心参数,继续将该第一类语音音调参数与该第二类语音音调参数分类。
5.如权利要求1所述的语音音调参数的分类方法,其特征是该决定分类是否结束的步骤中还包括下列步骤当该第一类中心参数与重新计算后的中心参数的均方误差以及第二类中心参数与重新计算后的中心参数的均方误差皆小于该第一预设值时,且当该第一类语音音调参数或该第二类语音音调参数中的所有该语音音调参数与语音音调参数平均值的均方误差最小值的均方误差小于一第二预设值时,则取出该第一类语音音调参数或该第二类语音音调参数作为最终分类。
6.如权利要求1所述的语音音调参数的分类方法,其特征是该第一类中心参数为该均方误差最小值加上一差值,该第二类中心参数为该均方误差最小值减去一差值。
7.如权利要求1所述的语音音调参数的分类方法,其特征是该第一类中心参数为该均方误差最小值减去一差值,该第二类中心参数为该均方误差最小值加上一差值。
8.如权利要求1所述的语音音调参数的分类方法,其特征是该重新计算后的中心参数为该第一类语音音调参数的平均值的均方误差最小值。
9.如权利要求1所述的语音音调参数的分类方法,其特征是该重新计算后的中心参数为该第二类语音音调参数的平均值的均方误差最小值。
全文摘要
一种语音音调参数的分类方法,以递归式计算平均值及均方误差(Mean Square Error)方式,分析所有音素的音调参数,以将音调参数分类,找出及建立具代表性的音调样本模型,藉由本发明所揭示的方法,运用于TTS(Text To Speech)或语音数据压缩,可有效提高语音数据的压缩率。
文档编号G10L15/00GK1612210SQ200310104470
公开日2005年5月4日 申请日期2003年10月30日 优先权日2003年10月30日
发明者杨凰琳 申请人:无敌科技股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种实现分段温度补偿的无热阵列波导光栅的制作方法技术领域:本发明涉及一种实现分段温度补偿的无热阵列波导光栅(Athermal ArrayedWavelengthGratings,简称AAWG或无热AWG),本发明属于通信领域。背景

    专利发布时间:2025-07-01阅读:(111)

    专利名称:调焦组合及具该调焦组合的投影机的制作方法技术领域:本发明涉及一种调焦组合及具有该调焦组合的投影机。 背景技术:随着投影技术的发展,各种类型的投影机被广泛应用到商务,教学,家庭影院等场合, 同时,微型投影机也得到极大发展及应用,尤其

    专利发布时间:2025-07-01阅读:(159)

    专利名称:一种灯具减振器的制作方法技术领域:本发明涉及减振装置,更具体地说,涉及一种多向减振的灯具减振器。背景技术:在汽车上、高速列车上,在精密光学平台上等都使用着大量的减振器,以保证机 械、设备在振动激励下正常工作。在专业照明领域,专业灯

    专利发布时间:2025-07-01阅读:(140)

    专利名称:定影装置及图像形成装置的制作方法技术领域:本发明涉及定影装置以及利用了包括该定影装置的电子照相方式、静电记录方式等的FAX(传真机)、打印机、复印机及其复合机等的图像形成装置。背景技术:作为复印机、打印机等图像形成装置,一般考虑的

    专利发布时间:2025-07-01阅读:(114)

    专利名称:多功能旅行灯的制作方法技术领域:本实用新型涉及灯具技术领域,尤其是一种多功能旅行灯。背景技术:在日常旅游出行中,运输工具中的照明灯往往是公用的,不能满足不同旅客的需要,为了能够方便出行者旅游,急需一种多功能旅行灯。发明内容为了克服

    专利发布时间:2025-07-01阅读:(107)

    专利名称:用于处理音频信号的装置及其方法技术领域:本发明涉及用于处理音频信号的装置及其方法。虽然本发明适合于广泛的应用范围,其尤其地适合于编码或者解码音频信号。背景技术:通常地,在用于将多个对象下混合(downmix)为单声或者立体声信号的

    专利发布时间:2025-07-01阅读:(162)