当前位置:网站首页>专利 >正文

合成语音的方法和装置的制作方法

专利名称:合成语音的方法和装置的制作方法
技术领域
本发明涉及一种利用诸如所谓MBE(多频带激励)编码系统和(谐波)编码系统的正弦合成法合成语音的方法和装置。
目前已提出了几种编码方法,在这些方法中是利用音频信号(包含语音信号和听觉信号)其在时域和频域的统计特征和听觉特征对信号进行压缩。这些方法可被粗略地分为时域编码方法,频域编码方法,以及通过对音频信号分析和合成的效果执行的编码方法等等。
高效的语音信号编码方法包括MBE(多频带激励)方法,SBE(单频带激励)方法,谐波编码方法,SBE(付频带编码)方法,LPC(线性预测编码)方法,DCT(离散余弦变换)编码,MDCT(改进的DCT)方法,FFT(快速富里叶变换)方法,等等。
在这些语音编码方法中,利用诸如MBE编码方法和谐波编码方法的合成语音的正弦合成法的方法根据从编码器编码并由其发送的编码数据(诸如谐波幅度和相位数据)执行关于幅度和相位的内插。根据内插参数,执行这些方法以获得其频率和幅度是根据时间变化的一个谐波的时间波形,和计算与用于合成这些波形的谐波的数量相同的时间波形数。
然而,相位数据的传输经常可被限制,以降低传输比特率。在这种情况下,合成正弦波形的相位数据可以是一个预测值,以便保持在帧边界上的连续性。所述预测是在每一帧中执行的。特别地,在从话音帧到非话音帧或反之的转换中,该预测被连续地执行。
在非话音帧中,不存在音高。因此,传输的为没音高数据。这意味着当该相位正被预测时,该预测值偏离了正确值。这使得该预测相位值逐渐地偏离原来一直希望的零相位增加或π/2相位增加。这种偏离可能降低合成声音的听觉质量。
本发明的目的是提供一种合成语音的方法和装置,当通过正弦合成法的效果执行合成语音的过程时,它防止了由于偏离相位造成的不利效果。
根据本发明的一个方面,在实现该目的时,语音合成方法包括以下步骤将偏离话音信号的输入信号分成若干帧,使每一帧的音调偏离,确定是否该帧包括话音的或非话音的声音,根据由上述步骤获得的数据合成语音,和其中如果该帧被确定包含话音声音,则根据该音调的基波波形和其谐波合成该话音声音,如果该帧被确定包含非话音声音,则根据一给定值对所述基波波形和其谐波的相位初始化。
根据本发明的另一方面,语音合成装置包括用于将偏离话音信号的输入信号分成若干帧的装置,用于使每一帧的音调偏离的装置,用于确定是否该帧包含话音的或非话音的声音的装置,用于根据由上述装置获得的数据合成语音的装置,和其中如果该帧被确定包含话音声音,则根据该音调的基波波形和其谐波合成该话音声音的装置,和如果该帧被确定包含非话音声音,则根据一给定值对所述基波波形和其谐波的相位初始化的装置。
在两个或三个连续帧被确定为非话音声音的情况下,最好是根据一给定值对基波波形和其谐波进行初始化。此外,该输入信号不仅可以是由语音信号数字转换的数字语音信号和通过对该语音信号滤波获得的语音信号,也可以是通过对语音信号执行线性预测编码运算获得的LPC残留。
如上所述,对于被确定作为非话音声音的帧来说,对于正弦合成法的基波波形和其谐波的相位被初始化为一给定值。这种初始化防止了由于在该非话音帧中相移后导致的声音的变坏。
此外对于两个或三个连续话音帧的情况,基波波形和其谐波的相位被初始化为一给定值。这能够防止将话音帧错误地确定为由音调的漏检导致的非话音帧。
通过下面参考附图对本发明优选实施例的描述,本发明的其他目的和优点将会变得更清楚。


图1是表示根据本发明实施例的语音信号分析/合成编码装置的分析侧(编码侧)的示意性功能框图;图2是说明开窗过程的示图;图3是说明开窗过程与一窗函数之间关系的示图;图4是表示被正交变换(FFT)的一时间轴数据的示图;图5是表示频率轴上谱数据,谱包络,和激励信号的功率谱的曲线;和图6是表示根据本发明实施例的语音信号分析/合成编码装置的合成侧(解码侧)的示意性功能框图。
根据本发明的语音合成方法可以是诸MBE(多频带激励)编码方法,STC(正弦变换编码)方法或谐波编码方法的正弦合成编码方法,或正弦合成编码方法对LPC(线性预测编码)残留的应用,其中作为编码单元的每一帧被确定为话音的(V)或非话音的(UV),并且在将该非话音帧移到话音帧的时刻,以诸如零或π/2相位的一给定值对该正弦合成相位初始化。对于MBE编码,帧被划分成若干个带,每一个带被确定为话音的或非话音带。在将其所有的带都被确定为话音带的帧移成为其至少一个带被确定为非话音带的帧的时刻,合成该正弦波形的相位被初始成一给定值。
这种方法只需要经常地对非话音帧进行初始化,而无需检测从该非话音帧向话音帧的移动。然而,音调的漏检可能会导致该话音帧被错误地确定为非话音帧。考虑到这些,当两个连续帧被确定为非话音的时,或当三个连续帧或比三更大的预定连续个帧被确定为非话音的时,最好对相位进行初始化。
在一个用于发送其他数据而不是非话音帧中的音调数据的系统中,连续的相位预测是困难的。因而,如上所述,在本系统中,非话音帧中相位的初始化是更有效的。这防止了声音质量由于相移后变坏。
下面,在描述根据本发明的语音合成方法的具体安排之前,将专门对通过通常的正弦合成法实现的语音合成的例子进行描述。
从编码装置或编码器发送到解码装置或解码器用于合成语音的数据包括至少一个表示谐波之间间隔的音调和与谱包络相对应的幅度。
作为在解码侧合成正弦波的语音编码方法,已公知的有MBE(多频带激励)编码方法和谐波编码方法。这里,将对MBE编码方法进行简要的描述。
MBE编码方法是这样来实现的按一给定取样数(例如,256个取样)将语音信号分成若干块,通过诸如FFT的正交变换作用将所述块变换成频率轴上的频谱数据,提取该块中语音的音调,以与该音调相应的间隔将频率轴上的谱数据分成若干个带,和确定每个被划分的带是否是话音的或非话音的。被确定的结果,谱的音调数据和幅度数据全部被编码,然后被发送。
利用MBE编码方法对语音信号进行合成和分析编码的装置(所谓声码器)在D.W.Griffin and J.S.Lim的“多频带激励声码器”一文中给予了介绍(见IEEETrans.Acoustics,Speech,and Singnal Processing,vol.36,No.8,pp.1223to 1235,Aug.1988)。通常的PARCOR(部分自相关)声码器的工作是当建一个语音模型时按每个块或帧将话音部分转换成非话音部分或反之。另一方面,MBE声码器被假设当建语音模型时使话音部分和非话音部分保持在频率轴的一给定时间的区域上(一个块或帧内)。
图1是表示MBE声码器的示意性安排的框图。
图1中,语音信号经一输入端11被馈送到诸如高通滤波器的滤波器12。通过滤波器12,直流偏移成分和至少受限频带(例如,200至3400Hz的范围)的低通成分(200Hz或更低)从该语音信号中被删除掉。自滤波器12的输出被送到音调提取单元13和开窗单元14。
作为输入信号,使用通过对该语音信号执行LPC过程获得的LPC残留是可能的。在该过程中,利用一个通过LPC分析结果获得的α参数对滤波器12的输出进行反向滤波。该被反向滤波的输出与PLC残留相对应。然后,该PLC残留被送到音调提取单元13和开窗单元14。
在音调提取单元13中,信号数据被划分成若干个块,每一块都由预定数量的取样N(例如,N=256)组成(或通过一个方形窗将该信号数据切割)。然后,相对于每个块中的语音信号提取音调。例如,如图2A所示,被切割的块(256个取样)在时间轴上以若干个间隔被移动,其中每个间隔由帧之间的L个取样(例如,L=160)所组成。相邻块之间的重叠部分由(N-L)取样(例如,96个取样)组成。此外,开窗单元14工作相对于一个块(N个取样)执行诸如汉明窗的预定窗功能,并连续在时间轴上按若干间隔移动该被开窗的块,其中每个间隔由一帧(L个取样)组成。
该开窗过程可由下式表示xw(k,q)=x(q)w(kL-q)...(1)其中k代表块数,q代表数据的时间指示(time index)(取样数)。式(1)表示基于原始输入信号的第q个数据x(q)执行第k个块的开窗函数w(KL-q),以获得数据xw(k,q)。在音调提取单元13中,如图2A中表示的方窗通过下式wr(r)实现wr(r)=1 0≤r<N...(2)=0 r<0,N≤r在开窗处理单元14中,作为如图2B中所示的汉明窗的开窗函数wr(r)由下式表示wh(r)=0.54-0.46cos(2πr/(N-1))0≤r<N...(3)=0r<0,N≤r在使用开窗函数wr(r)或wh(r)的情况下,由式(1)表示的开窗函数w(r)(w=KL-q)的非零间隔表示如下0≤kL-q<N通过对该式进行转换,可获得如下表示kL-N<q≤kL因此,对于方形窗,如图3所示,当KL-N<q≤KL时,开窗函数wr(KL-q)=1。此外,上式(1)至(3)表示具有N(N=256)个取样长度的窗被逐L(L=160)个取样地向前移动。通过由式(2)或(3)表示的开窗函数切割的在每N个点(0≤r<N)的非零取样序列被表示为wxr(k,r)。
在开窗处理单元14中,如图4所示,1792个取样0被插入到由式(3)中所示的汉明窗施加的一个块的256个取样的取样序列xwh(k,r)中。在时间轴上的合成数据序列包含2048个取样。然后,正交变换单元15工作,相对于该时间轴上的数据序列执行诸如FFT(快速富里叶变换)的正交变换。可以提供另一种方法对没被插入0的256个取样的原始取样序列执行FFT。这种方法在减少处理量方面是有效的。
音调提取单元(音调检测单元)13工作,根据由wxr(k,r)表示的取样序列(一块的N个取样)提取音调。已存在一些提取音调的方法,其中每种方法例如分别利用了时间波形的周期,频谱的周期频率结构或自相关函数。在本实施例中,音调提取方法利用了中心被限幅波形的自相关方法。在一块中的中心限幅电平可被设定为一块的一个限幅电平。实际上,限幅电平是通过以下方法设定的将一块分成若干子块,检测每一子块的信号的峰值电平,和如果相邻子块之间的峰值电平之差变大,则逐渐并连续改变在一块中的限幅电平。在关于中心被限幅波形的自相关数据的峰值位置处确定音调周期。具体地,从关于当前帧的自相关数据(从数据(一块中的N个取样)中获得的)求得多个峰值。当这些峰值中的最大峰值等于或大于一预定阈值时,该最大峰值的位置就被定为音调周期。除此之外,利用从其他帧而不是当前帧(例如,先前或后续帧,作为例子如在先前帧的音调周围的±20%区域内)获得的音调在满足一预定关系的音调区域内求得另一峰值。根据该求得的峰值,确定当前帧的音调。在音调提取单元13中,以一种开环方式对音调进行相对粗略地搜寻。此外,在中心被限幅波形的位置,通过对一输入波形执行LPC分析获得的残留波形的自相关数据可被用于获取音调。
细音调搜寻单元16接收由音调提取单元13提取的积分值的粗音调数据和由正交变换单元15快速富里叶变换的频率轴上的数据。(该快速富里叶变换是一个例子。)在细音调搜寻单元16中,在粗音调数据值周围的加、减侧准备有一些最佳浮动微调数据。这些数据按0.2至0.5的步级设置。粗音调数据被净化成细音调数据。这种细搜寻方法使用了所谓的合成方法分析,其中对音调进行选择以在一原始声音的功率谱的最近频点处定位合成的功率谱。
现在,将就对音调的细搜索进行描述。在MBE声码器中,假设一个模型来表示在频率轴上正交变换(例如快速富里叶变换)的频谱数据S(j)S(j)=H(j)|E(j)|0<j<J...(4)其中J相应为ωs/4π=fs/2,并且如果取样频率fs=ωs/2π为8KHz,例如则J相应为4KHz。在式(4)中,当在频率轴上的频谱数据S(j)具有如图5A中所示的波形时,H(j)表示如图5B所示的原始频谱数据S(j)的谱包络。E(j)表示如图5C所示的处于同一电平的周期激励信号,即所谓的激励频谱。这就是说,FFT频谱S(j)被建模成谱包络H(j)与激励信号的功率谱|E(j)|的积。
经考虑决定音调的频率轴上的波形的周期,通过反复设置与频率轴频带中一个频带的波形相对应的频谱波形构成激励信号的功率谱|E(j)|。通过对由添加了1792个取样0(即,被插入了1792个取样)的汉明窗函数的256的取样构成的波形执行FFT波形一个频带的波形,换句话说,该波形被假设作为时间轴上的信号,按照音调切割合成频率轴上一给定带宽的脉冲波形。
对于每个被划分的频带,执行操作以获得H(j)的代表值,即,使每个被划分频带差错最小的某种幅度|Am|。假设第m频带(即第m谐波的频带)的上和下限制点分别表示为am和bm,则第m频带的差错em表示如下em=Σj=ambm{|S(j)|-|Am||E(j)|}2...(5)]]>使差错em最小化的|Am|的幅度于是被表示如下
该式(6)的幅度|Am|使差错em最小化。
为每个频带求得幅度|Am|。然后,通过该幅度|Am|获取在式(5)中定义的每个频带的差错em。接着,执行操作以获取所有频带的差错em的和Σem。对于一些音调求取所有频带的差错的和Σem,这些音调彼此稍有不同。然后,执行运算获取使这些音调的差错和Σem最小化的音调。
具体地,利用由音调提取装置13获取的粗音调作为中心,以0.25的间隔备制高和低的一些音调。对于彼此稍有不同的音调中的每一个,求取差错和Σem。在这种情况下,如果该音调被限定,则带宽被确定。根据式(6),通过使用频率轴上的数据的功率谱|S(J)|和激励信号频谱|E(j)|求取式(5)的差错em。然后,从这些差错em获得所有频带的差错em的和Σem。为每个音调求取该差错和Σem。最小差错和的音调被确定为最佳音调。如上所述,例如,细音调搜寻单元,以0.25的间隔获取该最佳细音调。然后,最佳音调的幅度|Am|被确定。在一话音声音的幅度估计单元18V中执行该幅度值的计算。
为了简化描述,上面关于对音调进行细搜索的描述已假设所有频带均为话音的。然而,如前所述,MBE声码器使用了在频率轴的同一时刻存在非话音区域的模型。因此,对于每个频带,有必要确定是否该频带是话音的或是非话音的。
来自细音调搜寻单元16的最佳音调和来自幅度估计单元(话音的)18V的幅度|Am|被送到话音/非话音声音确定器17,在该确定器中每个频带被确定为是话音的或是非话音的。这种确定利用了NSR(信噪比)。就是说,第m频带的NSR,即NSRm被表示为NSR=ΣJ=ambm{|S(j)|-|Am||E(j)|}2ΣJ=ambm|S(j)|2...(7)]]>如果该NSRm大于一预定阈值TH1(例如,TH1=0.2),即差错大于一给定值,则确定|Am||E(j)|在该频带对|S(J)|的近似值是不合适的,换句话说,激励信号|E(j)|是不适合作为底的。该频带被确定为了非话音的。在其他情况,确定该近似值为比较好的。该频带被确定为是话音的。
如果输入语音信号具有8KHz的取样频率,则总的带宽3.4KHz(其中有效带宽区域从200到3400Hz)。从女人的高音到男人的低音的音调间隔(即相应于一个音调周期的取样数)其范围从20到147。因此,该音调频率从8000/147≈54Hz到8000/20=400Hz不等。这意味着在整个3.4KHz的带宽中提供有大约8至63个音调脉冲(谐波)。由于通过基波音调频率划分的频带数,也即谐波数按照话音电平(谐波幅度)在8到63的范围变化,因此在每个频带处的话音/非话音标记符的数量被作成是可变的。
在该实施例中,对于按每一固定频率带宽划分的每一给定数量的频带,话音/非话音确定的结果被收集(或退化)。具体地,执行运算以将包含一话音频带的给定带宽(例如,0到4000Hz)划分成NB(例如,12)个频带,和利用一预定阈值Th2(例如,Th2=0.2)鉴别一加权平均值,用于确定该频带是否为话音的或是非话音的。
下面,将专门对非话音声音幅度估计单元18U进行描述。该估计单元18U从正交变换单元15接收频率轴上的数据,从细音调搜寻单元16接收细音调数据,从话音声音幅度估计单元18V接收幅度|Am|数据,和从话音/非话音声音确定单元17接收有关话音/非话音确定的数据。幅度估计单元(非话音声音)18U工作,对该幅度重新估计,以便再次求得关于被确定为是非话音频带的幅度。有关非话音频带的幅度|Am|uv从下式获得|Am|UV=Σj=ambm|S(j)|2/(bm-am+1)...(8)]]>
幅度估计单元(非话音声音)18U工作,将数据发送到一数据数量变换(一种取样速率变换)单元19。该数据数量变换单元19根据音调在频率轴上具有不同的划分频带数。由于数据批的数量(the number of piecesof data),特别是幅度数据批的数量是不同的,所以变换单元19工作以保持该数量不变。即,如上所述,如果有效频带范围达到3400KHz,则根据该音调有效频带被划分成8到63个频带。幅度|Am|(包含非话音频带的幅度|Am|uv)数据的数量mMX+1范围可变动地从8到63。数据数量变换单元19工作,以将幅度数据批的可变数量mMX+1变换成数据批的恒定数量M(例如,M=44)。
在该实施例中,执行该操作以将伪数据加到频率轴上有效频带中一个块的幅度数据中,用于将各个值从最后数据批内插到该块的第一的数据批,将数据批的数量扩大到NF和执行关于被扩大数据批的限带型OS-次过取样过程,以便获得折叠OS次的幅度数据比。例如,可提供OS=8。该折叠OS次的幅度数据批,即(mMX+1)×OS幅度数据批被线性内插,以便将幅度数据批的数量扩大到NM。例如,提供NM=2048。通过使NM数据批变得稀疏,该数据被转换成恒定数M个数据批。例如,提供M=44。
来自数据数量变换单元19的数据,即恒定数M个幅度数据批被送到一个矢量量化单元20,在该单元中一给定数量的数据批被组合成一个矢量。来自矢量量化单元20的量化输出(其主要部分),通过一个P或P/2选择单元26从细音调搜寻单元16获得的细音调数据,和来自话音/非话音声音确定单元17的关于话音/非话音确定的数据都被发送到用于对这些数据进行编码的编码单元21。
通过对N个取样(例如,该块中数据的265个取样)进行处理能够获得这些数据的每一个。该块在时间轴上以一帧L个取样为单位被提前。因此,按该帧单位获得要被发送的数据。这就是说,音调数据,关于话音/非话音确定的数据,和幅度数据所有都按该帧周期被更新。如果必要,来自话音/非话音声音确定单元17的关于话音/非话音确定的数据将被降低或衰减到12个频带。在所有频带中,在话音区域和非话音区域之间提供有一个或多个分区频点。如果遇到不变的情况,则关于话音/非话音确定的数据表示被确定的话音/非话音数据组合,其中在低通侧的话音声音被放大到高音侧。
然后,编码单元21工作,执行例如附加的CRC(循环冗余校验)和1/2率卷积编码过程。即,该音调数据的重要部分,关于话音/非话音确定的数据,和量化的数据被CRC编码和然后被卷积编码。来自编码单元21的编码数据被送到一个帧交错单元22,在该单元中数据与来自矢量量化单元20的数据的一部分(无效部分)进行交错。然后,从输出端23取出被交错的数据,并将其发送到合成侧(解码侧)。在这种情况下,发送者通过通信媒体发送/接收,并在或从记录媒体上记录/重现数据。
随后,将参考图6对用于根据所述从编码侧发送的数据合成语音信号的合成侧(解码侧)的图示设置进行描述。
在图6中,忽略了由于传输导致的信号衰变,即由于发送/接收或记录/重现造成的信号衰变,输入端31接收基本上与从如图1所示的编码器的输出端23取出的数据信号相同的数据信号。馈送到输入端31的数据被送到一个帧去交错单元31。帧去交错单元31工作,执行去交错处理,即与图1所示交错处理相反的处理。通过解码单元33,对在主要部分,即编码侧上的CRC和卷积编码的数据的更有效部分进行解码,然后将其送到坏帧屏蔽单元34。剩余部分,即无效部分被直接送到坏帧屏蔽单元34。解码单元33工作,执行所谓第二(betabi)解码过程或利用CRC码执行差错检测过程。坏帧屏蔽单元34工作,以通过内插的效果获取高差错帧的参数,并分别取得音调数据,话音/非话音数据和被矢量量化的幅度数据。
来自坏帧屏蔽单元34的被矢量量化的幅度数据被送到反向矢量量化单元35,对数据进行反向量化。然后,该数据被送到数据数量反向变换单元36,对该数据进行反向变换。数据数量反向变换单元36执行与图1所示的数据数量变换单元19之操作反向的操作。被反向变换的幅度数据被送到话音合成单元37和非话音声音合成单元38。来自屏蔽单元34的音调数据还被送到话音声音合成单元37和非话音声音合成单元38。来自屏蔽单元34的关于话音/非话音确定的数据也被送到话音声音合成单元37和非话音合成单元38。此外,来自屏蔽单元34的关于话音/非话音确定的数据还被送到话音/非话音帧检测电路39。
话音声音合成单元37工作,通过例如余弦合成法的作用在时间轴上合成话音声音波形。在非话音声音合成单元38中,通过带通滤波器将白噪声滤除,以在时间轴上合成该非话音波形。在加法单元41中对话音声音合成波形和非话音声音合成波形相加和合成,然后在输出端42将其取出。在此种情况下,幅度数据,音调数据和关于话音/非话音确定的数据按前述分析法在每一帧(=L个取样,例如,160个取样)被更新。为了增强相邻帧之间的连续性即帧之间平滑的连接,幅度数据和音调数据的每个值都被设定为例如位于一帧中心的每个数据值。在当前帧中心和下一帧中心之间(意味着,例如当合成波形时给定的一帧,如从被分析帧的中心到下一被分析帧的中心)的每个数据值通过内插的效果获得。就是说,在当合成波形时给定的一帧中,处于端部取样点的每个数据值和处于底部(即,下一合成帧的端部)取样点的每个数据值被给定,以便通过内插的作用获取这些取样点之间的每个数据值。
根据关于话音/非话音确定的数据,所有的频带都允许在一个划分频点处被分成话音区域和非话音区域。能够为每个频带获得关于话音/非话音确定的数据。如上所述,该划分频点可被调整,以便处在低通侧的话音频带被放大到高通侧。如果分析侧(编码侧)已将频带减少成一恒定数量(例如,约12个)的频带,则解码侧必须将减少的频带恢复成可变数量的定位于原始音调的频带。
下面将专门对在话音声音合成单元37中执行的合成过程进行描述。在第m频带(第m谐波的频带)中确定为是话音的时间轴上一个被合成帧(由L个取样,例如160个取样)的话音声音Vm(n)可被表示如下Vm(n)=Am(n)cos(θm(n))0≤n<L...(9)其中n表示被合成帧内侧的时间索引(取样号)。被确定为是话音的所有频带的话音声音被求和(ΣVm(n)),以便合成最终的话音声音V(n)。
表达式(9)的Am(n)代表在从合成帧的端部到底部区域中内插的第m谐波的幅度。其最简的意思是线性内插以帧单位更新的幅度数据的第m谐波的值。即,假设在合成帧的端部(n=0)的第m谐波之幅度值为AOm和在该合成帧的底部(n=L另一合成帧的端点)的第m谐波之幅度值为ALm,则Am(n)可通过下式计算Am(n)=(L-n)AOm/L+nALm/L...(10)随后,式(9)的相位θm(n)可由下式求得θm(n)=mωO1n+n2m(ωL1-ωO1)/2L+φOm+Δωn...(11)其中,ψOm表示在合成帧的端点(n=0)的第m谐波的相位(一帧的初始相位),ωO1表示在合成帧的端点(n=0)的基波角频率,ωL1表示在该合成帧的底部(n=L另一合成帧的端部)的基波角频率。表达式(11)的Δω被设定为在n=L时使相位fLm等于θm(L)的最小Δω。
在任何第m个频带中,帧的开始是n=0,帧的末尾是n=L。当帧的末尾是n=L时给定的相位pis(L)m按如下计算psi(L)m=mod2π(psi(O)m+mL(ωO+ωL)/2)...(12)其中pis(O)m表示当帧的开始是n=0时给定的相闰,ωO表示音调频率,ωL表示当帧的末尾是n=1时给定的音调频率,而mod2π(x)是恢复在-π到+π范围内x的主值的函数。例如,当x=1.3π时,mod2π(x)=-0.7π,当x=2.3π时,mod2π(x)=0.3π,当x=-1.3π时,mod2π(x)=0.7π。
为了保持相位的连续性,在当前帧末尾的相位pis(L)m值可被用作在下一帧开始的相位pis()m值。
当话音帧持续时,每一帧的初始相位被连续地确定。其中所有频带都是非话音的帧使得音调频率ω值是不固定的,因此上述规则不对所有的频带有效。通过使用一个合适不变的音调频率ω可能进行某种程度的预测。然而,该假定相位逐渐偏离原始相位。
因此,当一帧中的所有频带都是非话音的时,一给定的0或π/2的初始值被置换到当帧的末尾是n=L时给定的相位pis(L)m中。这种置换使得有可能合成正弦的波形或余弦的波形。
根据关于话音/非话音确定的数据,非话音帧检测电路39工作,检测是否存在两个或多个其中所有频带均为非话音的连续帧。如果存在两个或多个连续帧,则一个相位初始化控制信号被送到话音声音合成电路37,在该电路中,非话音帧中的相位被初始化。以该连续非话音帧的间隔持续地执行相位初始化。当连续非话音帧的最后一帧被移至话音帧时,正弦波形的合成法初始化的相位开始。
这使得防止由于按连续非话音帧的间隔相位移后造成的声音质量下降成为可能。在用于发送另一种信息以取代音调信息的系统中,当存在连续非话音帧时,进行连续的相位预测是困难的。因此,如上所述,对非话音帧中的相位初始化是十分有效的。
下面,将对在非话音声音合成单元38中执行的合成话音声音的过程进行专门的描述。
一个白噪声发生单元43发送一个时间轴上的白噪声信号波形给一个开窗单元44。该波形被以一预定长度(例如,256个取样)开窗。利用一个适当的窗函数(例如,汉明窗)执行该开窗。开窗的波形被送到STFT处理单元45,对该波形执行STFT(短期富里叶变换)过程。变换后的合成数据是一个时间轴的白噪声的功率谱。该功率谱从STFT处理单元45被送到一个频带幅度处理单元46。在该单元46中,幅度|Am|UV与非话音频带相乘,而其他话音频带的幅度被初始化到零。频带幅度处理单元46接收幅度数据,音调数据,和关于话音/非话音确定的数据。
来自频带幅度处理单元46的输出被送到ISTT处理单元47。在该单元47中,通过反向STFT过程的效果,相位被变换成时间轴上的信号。该反向STFT过程使用了原始白噪声相位。来自ISTT处理单元47的输出被送到重叠和相加单元48,在该单元中,按对时间轴上数据施加的适当加权重复重叠和相加,用于恢复原始连续的噪声波形。重叠和相加的重复使得合成了时间轴上的连续波形。来自重叠和相加单元48的输出信号被送到一个相加单元41。
话音和非话音信号在合成单元37和38被合成并返回到时间轴,在相加单元41中以一合适固定的混合率相加。重现的语音信号在输出端42取出。
本发明并不限于上述的实施例。例如,图1所示的语音合成侧(编码侧)的设置和图6所示的语音合成侧(解码侧)的设置已从硬件的观点进行了描述。在合适的场合,上述设置可通过软件程序,具体地说,通过所谓数字信号处理器来实施。对于每个谐波的频带被收集(再生)成一给定数量的频带不是必须执行的。如果需要,则可以执行。给定的频带数并不限于12个。此外,在一给定划分频点所有频带被划分成低通话音区域和高通话音区域不是必须的。另外,本发明的应用不限于多频带激励语音分析/合成方法。在合适的场合,本发明可很容易地应用到通过正弦波形合成法的效果执行的各种语音分析/合成方法中。例如,本方法被安排将每帧的所有频带转换成话音和非话音的,并将诸如CELP(激励线性预测编码)编码系统的另一种编码系统应用于被确定为是非话音的帧。或者,本方法被安排将各种编码系统应用于LPC(线性预测编码)残余信号。此外,作为一种使用方法,本发明可应用于诸如信号的传输、记录和重现,音调变换,语音变换和噪声抑制的各种使用方式。
可以构造多种本发明的不同实施例,而不脱离本发明的精神和范围。应该明白,除了所附权利要求限定的范围之外,本发明并不限于在说明书中描述的特定实施例。
权利要求
1.一种语音合成方法,该方法安排采取下列步骤以帧为单位切割从语音信号获得的输入信号,获取每一被切割帧的音调,和根据确定的数据合成语音以获得话音和非话音声音,所述方法还包括下列步骤如果确定所述帧包含话音声音,合成具有所述音调和其谐波的基波波形的话音声音;和当确定所述帧包含非话音声音时,将所述基波波形和其谐波的相位初始化为一给定值。
2.根据权利要求1的语音合成方法,其中在将确定包含非话音声音的帧移至确定包含话音的帧的时刻对基波波形和其谐波的相位初始化。
3.根据权利要求1的语音合成方法,其中当存在两个或多个被确定包含非话音声音的连续帧时,所述基波波形和其谐波的相位被初始化。
4.根据权利要求1的语音合成方法,其中所述输入信号是通过执行关于该语音信号的线性预测编码运算获得的线性预测编码残余信号。
5.根据权利要求1的语音合成方法,其中基波波形和其谐波的相位被初始化为0或π/2。
6.一种语音合成装置,该装置被安排以帧为单位切割从语音信号获得的输入信号,获取每一被切割帧的音调,和根据确定的数据合成语音以获得话音和非话音声音,所述装置包括如果确定所述帧包含话音声音,合成具有所述音调的基波波形和其谐波的话音声音的装置;和当确定所述帧包含非话音声音时,将所述基波波形和其谐波的相位初始化为一给定值的装置。
7.根据权利要求6的语音合成装置,其中所述初始化装置在将确定包含非话音声音的帧移至确定包含话音的帧的时刻对所述基波波形和其谐波的相位初始化。
8.根据权利要求6的语音合成装置,其中当存在两个或多个被确定包含非话音声音的连续帧时,所述基波波形和其谐波的相位被初始化。
9.根据权利要求6的语音合成装置,其中所述基波波形和其谐波的相位被初始化为0或π/2。
10.根据权利要求6的语音合成装置,其中所述输入信号是通过执行关于该语音信号的线性预测编码运算获得的线性预测编码残余信号。
全文摘要
一种使用正弦波形合成技术的语音合成方法和装置,防止当合成正弦波形时由于相位的移动导致的声音质量的下降。解码单元对来自编码侧的数据解码。被解码数据通过一个坏帧屏蔽单元被变换成话音/非话音数据。非话音帧检测电路根据该数据检测非话音帧。如存在两个或多个连续的非话音帧,话音声音合成单元将基波及其谐波的相位初始化成的一给定值。这使得在该话音的开始点对非话音和话音帧之间的相移初始化成为可能防止了诸如由于相移导致的合成的语音失真的声音质量的下降。
文档编号G10L19/14GK1157452SQ9611444
公开日1997年8月20日 申请日期1996年9月27日 优先权日1995年9月28日
发明者西口正之, 松本淳 申请人:索尼公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种可动光学元件调节定位装置的制作方法技术领域:本发明涉及一种光刻设备,具体涉及一种在光刻机曝光设备中可动光学 元件调节定位装置。。背景技术:在半导体器件制备以及掩模制造工艺中,采用曝光设备的光刻步骤必不 可少。在该光刻步骤中,对

    专利发布时间:2025-05-15阅读:(76)

    专利名称:车灯及其导光条结构的制作方法技术领域:本实用新型涉及照明领域,尤指一种车灯及其导光条结构。背景技术:习知的车灯及其导光条结构如中国台湾专利公报第M415839号“车用U形导光结构及车灯装置”,其为一种车用U形导光结构及车灯装置,用

    专利发布时间:2025-05-15阅读:(89)

    婴儿防强光保护手镯的制作方法【专利摘要】本发明揭示了一种婴儿防强光保护手镯,在壳体内安置有多个透镜,每个透镜采集的光线均耦合进入光纤内,在光纤的末端安置有光电探测器,光电探测器与处理模块连接,处理模块接蜂鸣器,电池与处理模块连接。使用方法是

    专利发布时间:2025-05-15阅读:(71)

    专利名称:绝缘用树脂组合物及使用该组合物的层合体的制作方法技术领域:本发明涉及用于制作电路基板的焊料抗蚀剂、镀覆抗蚀剂及装配半导体元件的配线基板多层化用的绝缘膜、感光性粘结剂的绝缘用树脂组合物、使用该组合物的层合体及其固化物。背景技术:随着

    专利发布时间:2025-05-15阅读:(77)

    专利名称:四面挤压压接模具的制作方法技术领域:本实用新型涉及用于挤压连接的模具,尤其适用于连接头与其被连接件 挤压连接的模具。 ' 背景技术:挤压连接是一种常用的连接方式。例如光纤连接头与光纤线是通过一管 状金属件经挤压相连接。挤

    专利发布时间:2025-05-15阅读:(76)

    专利名称:卡口式灯头的制作方法技术领域:本实用新型涉及一种灯头,特别指的是一种卡口式灯头。背景技术:卡口式灯头在电光源领域应用广泛,较为常见的有B22灯头,现有的B22卡口式灯头主要包括一个灯头壳,灯头壳底部焊接在灯体上,灯头壳顶部端面焊接

    专利发布时间:2025-05-15阅读:(72)