专利名称:语音合成的位配置方法及装置的制作方法
技术领域:
本发明为一种位配置方法及装置,尤指一语音合成的位配置方法及装置。
以人类听觉系统发展出的副频带(subband)编码器通常可用来压缩大幅变化的音输入信号,诸如繁杂的语音,多任务发声及音乐。副频带编码的基本原理在于分割输入音频谱(audio spectrum)为数个频带,再予以分别编码。
滤波器组(filter bank)通常用来分开输入的语音信号。在分割音频谱为数个频带之后,每一频带通过一低通滤波器,再以奈氏比(Nyquist)来取样、量化、编码、多任务(multiplexed)及传送。听觉模型(psychoacoustic model)计算出一组资料以控制量化器及编码。这些资料依实际编码器之实作而有所不同。可能的话,会使用屏蔽临界(masking threshold)的估算来做此量化器的控制。
在接收器方面,副频带是解多任务、译码及传送回到他们的原始频率位置。接着副频带信号总合在一起,给予一原始语音信号的近似值。
图1为传统的副频带编码器。语音信号S(n)由N个带通滤波器11滤波,得到B1到BN个副频带信号,其特征在于,每一副频带信号代表语音信号在该频带的能量强度。语音信号S(n)分批并联输入至N个带通滤波器11,变量n代表第n个信号框(frame)。
副频带信号B1~BN必须各藉由一降频器12进行降频(decimation)的动作。
每个副频带可以有个数不同的位数来进行量化,这些信息是内建于位配置表13中。位配置表是根据听觉模型14产生的。听觉模型14利用听觉对频率变化的感受呈度不同而建立的,以相同的能量而言,在人耳可接收的音频的高频、中频及低频中,其所感受的呈度却有不同,在高频及低频可能无法听到,而在中频却可听得很清楚。人们们即利用此一自然现象决定听觉模型p(f),其特征在于,p能量,f频率。
因此根据听觉模型,人们们则可决定各副频带适合的位个数。影响较重的频带,配置较多的位,而影响较轻的频带则配置较少的位,甚至于无(若可供配置的位数不够多的话)。
量化编码器15即根据输入的语音信号S(n)在各个副频带的能量大小及位配置表记录的该副频带可供配置的位数,来量化每一副频带信号。例如副频带信号B1在位配置表记录可供配置的位个数为二位,则副频带信号B1在经过降频器12及量化编码器15之后可能出现的数值为00,01,10,11,可分别用来代表语音信号S(n)在第n信号框时,副频带信号B1的最小值、次小值、次大值及最大值。
所有副频带信号B1~BN的经量化编码后则会由多任务器MUX输出经编码完成的语音资料,并加以储存,直到每一信号时框皆编码完成为止。
请参见图2。当人们欲取出上述经编码的语音资料时,则需对其加以译码,而译码的过程基本上与编码的过程刚好相反。经编码的语音资料X(n)会先经解多任务器21将各个副频带的资料取出,再分别输入译码器22解出资料。译码器22则同时参考上述位配置表,才能将资料解出。
解出的资料b1~bN则会经升频器23作一升频的动作,即予以过取样(upsample),再输入各个带通滤波器24及混合器25,以将语音信号S(n)还原回来而播出。
传统位配置方法在重建的声音品质方面是有所限制的。传统位配置的原理系总噪声屏蔽比(noise-to-mask)在个别信号框(一般为10-30ms)取最小化,因而所使用位数量不得超过每一信号框可用的位数。例如,当位比率(bit rate)为Bbits/sec且信号框长度为K ms时,可用来作一信号框上副频带及边置信息(sideinformation)编码的位数”adb″计算如下adb=B÷1000×K屏蔽因子(masking effects)通常存在许多信号框无法被人耳所听觉。在传统的编码程序中,这些无法听觉的信号框却同样被配置一定数量的位。因此会使得位配置的效果大打折扣。
在消费性产品中,无不以低成本为诉求。上述无法听觉的信号框却被配置位的做法,显然徒增成本。
本发明的目的即在于改善传统做法的缺点,使得每个位的配置都配置在有用的信号框,而对于无法听觉的信号框则加以过滤,不予配置位,使位配置更有效率,进而降低成本。
为达上述目的,本发明提出一种语音合成的位配置方法,其是将一总位数量,分配至一位配置表。首先,提供多个讯号屏蔽比。接着,量化该多个讯号屏蔽比,产生特定个数的量化阶,这些量化阶系分别对应至一配置位数、一量化讯号屏蔽比及一取样数。初始化这些配置位数。根据这些配置位数及这些量化讯号屏蔽比,计算各量化阶之一屏蔽噪声比。自这些屏蔽噪声比中,找出一最小屏蔽噪声比的量化阶,并分配该总位数量之一部分至该最小屏蔽噪声比的量化阶的配置位数。最后,因应该总位数量的改变,完成分配该位配置表的动作。
由于本发明在配置位时,是将总位数量一次配置到位配置表上,在配置时特地将所有的讯号屏蔽比分为特定个数个量化阶,再针对每个量化阶的权重,予以配置适当的配置位数,如此则可充份将位配置予权重高的信号框,而对于无法听觉的讯号框,则可以不予配置,因而可增加位配置的效率,进而降低成本。
其特征在于,,这些讯号噪声比是由一输入的语音信号及一听觉模型决定的。输入的语音信号是在整体输入完成之后,再决定这些讯号噪声比。该总位数量为配置至该输入的语音信号的全部位数。
位配置表包含一时间坐标及一频带坐标,其一格的内容代表一时间及一频带所分配的位数。
量化该多个讯号屏蔽比包含下列步骤分类该多个讯号屏蔽比,找出这些量化阶;自各量化阶中决定这些取样数,用以记录各量化阶的讯号屏蔽比的个数;以及自各量化阶中,找出这些量化讯号屏蔽比,用以代表这些量化阶中所有的讯号屏蔽比。
这些配置位数用以代表各量化阶配置位的个数。初始化这些配置位数时设定这些配置位数全部为零。
这些量化阶的该屏蔽噪声比是根据这些量化阶的该配置位数乘上一常数再减去这些量化阶的该讯号屏蔽比而得到的。该常数为6.02,用以代表该配置位数每增加一位所对应的一讯号增益比。
该总位数量的一部分为该最小屏蔽噪声比的量化阶的取样数。根据该最小屏蔽噪声比的量化阶的取样数予该最小屏蔽噪声比的量化阶的配置位数的配置,该最小屏蔽噪声比的量化阶的配置位数是加一。另外,根据该总位数量之一部分分配至该最小屏蔽噪声比的量化阶的配置位数,该总位数量是渐减变化。亦即,因应该总位数量渐减至零,该位配置表是分配完成。
另外,本发明提出一种语音合成的位配置装置,是用以根据一输入的语音信号,产生一位配置表,供一语音处理器进行一信号处理的动作。其包含一听觉模型、一数字储存单元、量化器。听觉模型用以过滤全部的该语音信号,产生多个讯号屏蔽比。数字储存单元电连接至该听觉模型,藉以储存这些讯号屏蔽比。量化器电连接至该数字储存单元,藉以分类这些讯号屏蔽比为特定个数的量化阶,并根据各量化阶的权重,分配各量化阶一配置位数,以产生该位配置表。
其特征在于,,该语音处理器进行的该信号处理动作,根据该位配置表进行编码的动作,而各量化量的权重取决于各量化阶所涵盖的若干讯号屏蔽比的大小。
本发明通过下列附图及详细说明,将会有更深入的了解图1为传统副频带编码器。
图2为传统副频带译码器。
图3为本发明副频带编码器。
图4为本发明位配置流程。
图5为本发明的应用例。
请参见图3。本发明的语音合成的位配置装置主要包含一听觉模型35、一数字储存单元37、量化器38,用以根据一输入的语音信号S(n),产生一位配置表39,供一语音处理器301进行一信号处理的动作。听觉模型35用以过滤全部的语音信号S(n),产生多个讯号屏蔽比36。数字储存单元37电连接至该听觉模型35,藉以储存这些讯号屏蔽比36。量化器38电连接至该数字储存单元37,藉以分类这些讯号屏蔽比36为特定个数的量化阶,并根据各量化阶的权重,分配各量化阶一配置位数,以产生该位配置表39。
其特征在于,,该语音处理器301进行的该信号处理动作,是根据该位配置表进行编码的动作,而各量化阶的权重取决于各量化阶所涵盖的若干讯号屏蔽比的大小。
另外,经降频的副频带信号S(n,i)代表第n个信号框中第i个副频带取样值。所有的副频带取样值(subband samples)都储存在储存单元31内。同时,第n个信号框中每一副频带信号屏蔽比SMR(n)是由听觉模型35所计算出来,且储存在储存单元37内。
换言之,语音信号S(n)会先进入本发明的位配置装置302,一次全部处理完成所有的信号框,并根据各信号框的权重,配置适当的配置位数,以取得位配置表39。
如此一来,输入并储存在储存单元31的语音信号(各副频带的能量),在副频带编码取样器32进行编码时,即可根据位配置表上记录每一时间及一副频带内应配置的位数,予以量化编码,而最后一般则将量化编码的资料X(n)及位配置表(又称边置信息)存入只读存储器,以供译码之用,而译码的过程则与传统相同。
本发明最主要是藉由不同的位配置方法来达到提高配置位的效率及降低成本。而本发明位配置的流程如图4所示,其包含下列步骤41定义下列参数QL讯号屏蔽比量化阶的个数。语音信号经听觉模型过滤的所有的讯号屏蔽比在量化器38进行量化的动作前会先被存放在储存单元37,亦即储存单元内已存有N*T(复数)个讯号屏蔽比,其特征在于,N为副频带的个数(等于图3中带通滤波器11的个数),T为总共的时间点,即信号框个数。此NT多个屏蔽比会在量化器内先被分类为QL特定个数个量化阶,NT>QL。
NQL(i)第i量化阶的取样数。即第i个讯号屏蔽比量化阶中所含副频带个数。每个副频带会包含一个讯号屏蔽比,共有NT个讯号屏蔽比,因此在经分类为QL个量化阶之后,有每个量化阶会涵盖不等个数的讯号屏蔽比,即每个量化阶会有不同的取样数。
SMR(i)量化讯号屏蔽比,代表第i量化阶的讯号屏蔽比。如上所述,在各量化阶涵盖有个数不一的讯号屏蔽比,但是在进行量化时必须在各量化阶中决定一个用来代表各量化阶中所有讯号屏蔽比的数值,因此人们将此数值名为量化讯号屏蔽比。量化讯号屏蔽比则可取各量化阶中的讯号屏蔽比的中间值代表。
BQL(i)第i量化阶的配置位数。由于人们已分类为QL个量化阶,且各量化阶可对应至一量化讯号屏蔽比及一取样数,所以在配置位时只需对各量化阶进行配置即可,当一量化阶配置一位时,即代表该量化阶所有的取样(副频带)皆配上一位。
TB总位数量,即用来对输入语音信号编码所有可用的位数。在配置位的过程中,则会渐渐减少直至分配完了(TB=0)为止。
42初始化各量化阶的配置位数。因为各量化阶的配置位数通常从零开始,所以人们一开始系将各个量化阶的配置位数BQL(i)设为0,语法则为BQL(i)=0,for i=1...QL。
43计算第i量化阶的屏蔽噪声比MNR(i)(Mask to Noise Ratio)。屏蔽噪声比MNR(i)是根据第i量化阶的配置位BQL(i)及第i量化阶的讯号屏蔽比SMR(i)产生。其计算式如下MNR(i)=BQL(i)×6.02-SMR(i)其特征在于,常数6.02用以代表该配置位数每增加一位所对应的讯号增益比,这是模拟数字转换的一般性法则。
44找出最小的屏蔽噪声比MNR(k)。其特征在于,k代表第k个量化阶,亦即在第k个量化阶的屏蔽噪声比最小(在讯号屏蔽比SMR(k)则最大者)。屏蔽噪声比MNR最小代表其影响听觉的权重最高,因此人们必须对权重高者先配置,每配置一次,其权重则会减少一位(相当于6.02dB),回头再与其它量化阶的屏蔽噪声比进行比较。
45更新总位数量。由于已配置若干位至上述权重最高的量化阶的每个取样的副频带了,所以相对可用的总位数量会相对减少。
46若总位数量还有可供配置的(TB>0),则回到步骤43重复上述动作。反之则结束配置位的动作。
47结束配置位的动作。配置位结束后,在位配置表内的每一格内,存有代表每一时间(信号框)的各副频带所分配的位数。在图3中,副频带取样编码器32即可根据本流程所产生的位配置表39,加以对输入的语音信号编码。
图5为常见的语音合成装置,包括只读存储器(ROM)、随机存取内存(RAM)、数字信号处理器(DSP)、数字模拟转换器(D/A)及喇叭(Speaker)等。上述位配置表及经编码的语音信号储存在只读存储器ROM内,数字信号处理器DSP的功能为对这些经编码的资料进行译码以及进行整组滤波合成的动作去处理重建(reconstructed)脉波编码调变(PCM)的语音信号。这些语音PCM资料暂存在随机内存RAM内供喇叭播放用。当然在播放之前,会先用数字模拟转换器D/A将数字信号转换为模拟信号。而数字模拟转换器D/A的转换率则由数字信号处理器DSP控制。
由上述图解及说明,可知,本发明主要特点在于位配置方法上,藉由向量量化(vector quantization)的观念,产生整体的语音信号的位配置表,再据以进行编码的动作,因此可排除在无法听觉的副频带上配置不必要位的缺点,改善了位配置的效率,进而可节省记忆空间,降低成本。
然而在本发明的精神以及范围内,可以作出种种变化,这些变化都应包含在所附的权利要求书。
权利要求
1.一种语音合成的位配置方法,将一总位数量,分配至一位配置表,包含下列步骤提供多个讯号屏蔽比;量化该多个讯号屏蔽比,产生特定个数的量化阶,这些量化阶分别对应至一配置位数、一量化讯号屏蔽比及一取样数;初始化这些配置位数;根据这些配置位数及这些量化讯号屏蔽比,计算各量化阶的一屏蔽噪声比;自这些屏蔽噪声比中,找出一最小屏蔽噪声比的量化阶,并分配该总位数量的一部分至该最小屏蔽噪声比的量化阶的配置位数;以及根据该总位数量的改变,完成分配该位配置表的动作。
2.如权利要求1所述的语音合成的位配置方法,其特征在于,这些讯号噪声比由一输入的语音信号及一听觉模型决定。
3.如权利要求2所述的语音合成的位配置方法,其特征在于,该输入的语音信号在整体输入完成之后,再决定这些讯号噪声比。
4.如权利要求3所述的语音合成的位配置方法,其特征在于,该总位数量为配置至该输入的语音信号的全部位数。
5.如权利要求1所述的语音合成的位配置方法,其特征在于,该位配置表包含一时间坐标及一频带坐标。
6.如权利要求1所述的语音合成的位配置方法,其特征在于,该位配置表的一格的内容代表一时间及一频带所分配的位数。
7.如权利要求1所述的语音合成的位配置方法,其特征在于,该量化该多个讯号屏蔽比包含下列步骤分类该多个讯号屏蔽比,找出这些量化阶;自各量化阶中决定这些取样数,用以记录各量化阶的讯号屏蔽比的个数;以及自各量化阶中,找出这些量化讯号屏蔽比,用以代表这些量化阶中所有的讯号屏蔽比。
8.如权利要求7所述的语音合成的位配置方法,其特征在于,这些配置位数用以代表各量化阶配置位的个数。
9.如权利要求1所述的语音合成的位配置方法,其特征在于,初始化这些配置位数是设定这些配置位数全部为零。
10.如权利要求1所述的语音合成的位配置方法,其特征在于,这些量化阶的该屏蔽噪声比是根据这些量化阶的该配置位数乘上一常数再减去这些量化阶的该讯号屏蔽比而得到的。
11.如权利要求10所述的语音合成的位配置方法,其特征在于,该常数为6.02,用以代表该配置位数每增加一位所对应的一讯号增益比。
12.如权利要求1所述的语音合成的位配置方法,其特征在于,该总位数量的一部分为该最小屏蔽噪声比的量化阶的取样数。
13.如权利要求12所述的语音合成的位配置方法,其特征在于,根据该最小屏蔽噪声比的量化阶的取样数个该最小屏蔽噪声比的量化阶的配置位数的配置,该最小屏蔽噪声比的量化阶的配置位数是加一。
14.如权利要求1所述的语音合成的位配置方法,其特征在于,根据该总位数量的一部分分配至该最小屏蔽噪声比的量化阶的配置位数,该总位数量渐减变化。
15.如权利要求14所述的语音合成的位配置方法,其特征在于,根据该总位数量渐减至零,该位配置表是分配完成。
16.一种语音合成的位配置装置,用以根据一输入的语音信号,产生一位配置表,供一语音处理器进行一信号处理的动作,包含一听觉模型,用以过滤全部的该语音信号,产生多个讯号屏蔽比;一数字储存单元,电连接至该听觉模型,藉以储存这些讯号屏蔽比;以及一量化器,电连接至该数字储存单元,藉以分类这些讯号屏蔽比为特定个数的量化阶,并根据各量化阶的权重,分配各量化阶一配置位数,以产生该位配置表。
17.如权利要求16所述的语音合成的位配置装置,其特征在于,该语音处理器进行的该信号处理动作,根据该位配置表进行编码的动作。
18.如权利要求16所述的语音合成的位置装置,其特征在于,该位配置表包含一时间坐标及一频带坐标。
19.如权利要求16所述的语音合成的位配置装置,其特征在于,该位配置表的一格的内容是代表一时间及一频带所分配的位数。
20.如权利要求16所述的语音合成的位配置装置,其特征在于,这些量化阶具一取样数,用以记录各量化阶的讯号屏蔽比的个数。
21.如权利要求16所述的语音合成的位配置装置,其特征在于,各量化阶的权重系取决于各量化阶所涵盖的若干讯号屏蔽比的大小。
全文摘要
本发明为一种语音合成的元位配置方法及装置,是藉量化多个讯号屏蔽比,产生特定个数的量化阶。这些量化阶分别对应至一配置位数、一量化讯号屏蔽比及一取样数。接着初始化这些配置位数,并根据这些配置位数及这些量化讯号屏蔽比,计算各量化阶的屏蔽噪声比。接着自这些屏蔽噪声比中,找出一最小屏蔽噪声比的量化阶,并分配该总位数量的一部分至该最小屏蔽噪声比的量化阶的配置位数。最后,根据该总位数量的改变,完成分配该位配置表的动作。
文档编号G10L13/00GK1378198SQ0111240
公开日2002年11月6日 申请日期2001年3月29日 优先权日2001年3月29日
发明者陈文源 申请人:华邦电子股份有限公司
语音合成的位配置方法及装置的制作方法
相关推荐
专利名称:防水装饰灯串的制作方法技术领域:本实用新型涉及一种装饰灯串,尤其是一种使用发光二极管作为光源的防水装饰灯串。背景技术:由于发光二极管具有低压驱动、省电、不易破碎等特性,用发光二极管作为光源的灯具有抗震、耗电量少和不发热等优点。但由
音频信号帧中事件时隙位置的编码与译码技术的制作方法【专利摘要】对音频信号帧中包含事件的时隙位置的译码装置(10、40、60、410)、编码装置(510)、译码方法、及编码方法及相应的计算机程序及编码信号,其中,所述译码装置(10、40、60
专利名称:一种便携的led装置及led系统的制作方法技术领域:本发明涉及LED照明装置,尤其涉及的是, 一种Y更携的LED装置及一 种便携的LED系统。背景技术:由于LED照明、高光源、无辐射、低功耗等特点,近年来LED半导体 光源在照明装
专利名称:基于透明介质微球的超分辨显微成像系统的制作方法技术领域:本发明属于微观观测测量领域,具体涉及一种基于透明介质微球的超分辨显微成像系统的方法和装置。背景技术:纳米技术与生物技术是21世纪发展最迅速和热门的科学领域。纳米技术应用广泛,
专利名称:一种适于大功率led灯具的散热系统的制作方法技术领域:本实用新型涉及LED灯具领域,尤其涉及一种适于大功率LED灯具的散热系统。背景技术:与传统光源一样,LED在工作期间也会产生热量,其发热量大小取决于整体的发光效率。在外加电能量
专利名称:完成艺术视觉表现的乐器以及结合其中的控制系统的制作方法技术领域:本发明涉及一种乐器,尤其涉及一种为用户提供各种乐趣的乐器以及结合在其中的控制系统。背景技术: 自动演奏钢琴是自动演奏乐器中典型的例子,并且作为实施例在日本专利申请公开