一种合成语音自然度的提升方法-品牌商务网

一种合成语音自然度的提升方法
【专利摘要】本发明公开了一种合成语音自然度的提升方法，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得一合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。通过采用本发明公开的方法，可以提高合成语音的自然度，使之更为真实、生动。
【专利说明】一种合成语音自然度的提升方法

【技术领域】
[0001] 本发明涉及音频处理【技术领域】，尤其涉及一种合成语音自然度的提升方法。

【背景技术】
[0002] 近几年来，在从文本到语音（TTS)的合成领域，基于隐马尔科夫模型（HMM)的语音合成已经发展成为一种主流的合成方法。它能够合成拥有高可懂度的高质量语音，但是在自然度上，由于合成的基频曲线过于平滑，因此与自然录音相比依然比较单调乏味。造成这一现象的一个重要原因是由于采用高斯声学模型时所产生的平均效应，而且基频是一种超音段的声学特征，拥有丰富的长时性特征，例如音节音调、短语语调等。
[0003] 现有技术致力于从改变基频建模的模型结构和参数生成准则的角度来提高合成语音的自然度；然而，传统的基于HMM的语音合成系统在基频建模时一直把音素作为最基本建模单元，把帧一级的基频作为模型观测值，这就导致传统模型对基频长时特征不具备很好的建模能力，也就使得合成语音听起来没有自然语言那样生动形象。

【发明内容】

[0004] 本发明的目的是提供一种合成语音自然度的提升方法，可以提高合成语音的自然度，使之更为真实、生动。
[0005] 本发明的目的是通过以下技术方案实现的：
[0006] (与权利要求相对应）。
[0007] 由上述本发明提供的技术方案可以看出，采用基于GBAM的基频后滤波方法来提高合成语音的自然度，该方法用一个类高斯的联合分布来描述合成基频参数和自然基频参数之间的关系，联合分布的参数通过训练数据预测而得。在转换阶段，根据已获得的GBAM 得到条件分布和传统方法所获得的基频特征，来完成从合成基频到自然基频的转换，从而可以提高合成语音的自然度，使之更为真实、生动。

【专利附图】

【附图说明】
[0008] 为了更清楚地说明本发明实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他附图。
[0009] 图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图；
[0010] 图2为本发明实施例提供的目标逼近模型的示意图。

【具体实施方式】
[0011] 下面结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明的保护范围。
[0012] 实施例
[0013] 图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图。如图1所示该方法主要包括如下步骤：
[0014] 步骤1、构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得合成语音。
[0015] 步骤2、分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器 GBAM模型训练。
[0016] 本发明实施例中，提取的基频特征包括：长度规整的对数R)向量（FV)和定量目标逼近模型（qTA)参数；
[0017] 其中，提取FV包括：根据音节的边界对每句话进行音节切分，再检测每个音节的浊音段边界；然后，基于声学建模考虑，对每个音节内浊音段的基频取对数，并将其规整到 M个点，获得FV，表示为F= [Lf2，…，fM]T。
[0018] qTA参数的提取依据目标逼近（TA)模型和定量目标逼近（qTA)模型。传统的TA 模型模拟基频产生的内在机制，假设基频运动的音高目标与音节同步，如图2所示。中间的竖线表示音节边界，虚线表示潜在的音高目标，实线表示基频轨迹；TA模型强调在每个音节的结尾处，基频轨迹都将不断逼近音高目标。TA模型假设有动态和静态两种类型的音高目标。
[0019] 中文是一种很有代表性的声调语言，它包含四种声调：阴平、阳平、上声和去声。在 TA模型中，阴平和上声对应于静态目标，阳平和去声对应于动态目标。
[0020] qTA模型是TA模型的定量模型之一，它是一个三阶临界阻尼线性系统，可以用下述公式表示：
[0021] f(t) =T(t) + (c〇+c1t+c2t2)e_At；
[0022] 其中，t表示相对于音节起始位置的相对时间，f(t)是完整的基频表达形式，T(t) 表示潜在的音高目标，可用下式表示：
[0023] T(t) =st+h；
[0024] 其中，s与h分别表示音高目标的斜率和高度，f(t)表达式中的多项式部分是瞬态响应，λ表示基频逼近音高目标的速度，三个瞬态系数(^、(^与C2分别可由下面三式获得：
[0025] C0=f〇-h；
[0026] C1=f0'（0) +C1λ-s;
[0027] C2= (fo^ (0)+2c〇A-Clλ2)/2 ；
[0028] 其中，fQ、fQ'与fQ"为每个音节的初始状态，传统的qTA模型假设基频曲线是连续的，并在清音段采用线性内插来形成连续的基频曲线。因此当前音节的fpfV与f/均可以从上一个音节的结束状态继承而得，但是对于一句话的首音节，&需要预测，fV与f/ 一般被设为零。因此在传统的qTA模型中，对于每句话，我们需要知道该句话起始R)(基频）值以及每个音节的s、h与λ就可以重构出完整的基频曲线。
[0029] 但是在中文的连续语流中，音节之间基频的协同发音现象非常严重，因此在清音段用线性内插来形成连续的基频曲线并不可靠，另外，为了去除时长对qTA参数提取的影响，我们用长度规整的对数Η)向量（FV)来提取qTA参数；从前述FV的表达式可以看出，FV包含了M个基频值，所述M个基频值可以形成一条基频曲线；用数学模型来模拟这条基频曲线，qTA参数则为该数学模型对应的参数；本发明实施例中，将每个音节的浊音段作为基础单元来提取qTA参数。这样对每个音节来说，除了s、h与λ，我们还需要知道每个音节&，此时每个音节的qTA参数可以表示为T=[&，s，h，λ]τ。在实验中，我们把每个音节的fQ' 与f/都设为零，但是如果当前音节和前一个音节浊音段连续，则当前音节的fcKfV与f/ 仍然从前一个音节的末尾状态继承。
[0030] 进行高斯双向联想贮存器GBAM模型训练的方法如下：
[0031] BAM是一种两层的随机反馈神经网络，已经被成功地用于模式识别和信号处理领域。在BAM中，两种模式，X= [X1,. . .，xJlPy=[y^ . . .，yP]l别作为L维的原始特征和P维的目标特征。BAM-旦被激活，便会快速到达稳定状态，此时两种模式处于混响状态。该状态下两种模式之间的相互关系可以用权重矩阵W= 表示，并且此时的系统能量达到局部最小值。当BAM的神经元是零均值的高斯随机变量时，这个模型被叫做高斯BAM(GBAM)，其能量函数记作：
[0032]

【权利要求】
1. 一种合成语音自然度的提升方法，其特征在于，该方法包括：构建一个基于隐马尔科夫模型HMM的语音合成系统，并基于该语音合成系统及自然录音获得合成语音；分别提取该合成语音及自然录音的基频特征，并进行高斯双向联想贮存器GBAM模型训练；利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换；结合频谱和转换后的基频特征，利用STRAIGHT合成最终的语音。
2. 根据权利要求1所述的方法，其特征在于，提取的基频特征包括：长度规整的对数向量FV和定量目标逼近模型qTA参数；其中，提取FV包括：根据音节的边界对每句话进行音节切分，再检测每个音节的浊音段边界；然后，基于声学建模，对每个音节内浊音段的基频取对数，并将其规整到M个点，获得FV，表示为F= [f\，f2，…，fM]T; 提取qTA参数包括：利用FV来提取qTA参数，将每个音节的浊音段作为基础单元来提取qTA参数，每个音节的qTA参数表示为T= [f^s，!!，A]T;其中，h为每个音节的初始状态，s与h分别表不音尚目标的斜率和尚度，A表不基频逼近音尚目标的速度。
3. 根据权利要求1或2所述的方法，其特征在于，所述进行高斯双向联想贮存器GBAM 丰吴型训练包括：预测合成语的基频特征x的每个子空间的类高斯联合分布P(x，y)，然后基于最大似然ML准则，利用比较分歧算法CD最优化权重矩阵W，表示为：
其中，y表示自然录音的基频特征，
，表示配分函数，E(x,y)表示GBAM模型的能量函数；C是精度矩阵，表示为：
其中，2是[xT，yT]T的对角协方差矩阵，WT为权重矩阵W的转置；如果C为正定矩阵，则GBAM等价于一个高斯分布。
4. 根据权利要求1或2所述的方法，其特征在于，所述利用训练好的GBAM模型，将合成语音的基频特征向自然录音的基频特征进行转换包括：应用贝叶斯理论计算获得合成语音的基频特征时自然录音的基频特征的条件分布，表示为：
其中，表示训练好的GBAM模型预测的最优权重矩阵；#表示高斯分布；通过最大化条件概率完成合成语音的基频特征向自然录音的基频特征的转换，表示为：
5.根据权利要求4所述的方法，其特征在于，基于训练好的GBAM模型分别对基频特征中的FV与qTA参数进行转换，记为GBAM-FV与GBAM-qTA; 对于GBAM-FV，最终的输出基频曲线由转换得到的FV直接进行反规整得到；对于GBAM-qTA，利用转换得到的qTA参数重新构造FV;然后，将该FV进行反规整到真实的时长；再将提取该qTA参数时的残差与获得的真实时长相加得到最终的输出基频曲线。
【文档编号】G10L13/02GK104485099SQ201410828928
【公开日】2015年4月1日申请日期:2014年12月26日优先权日:2014年12月26日
【发明者】高丽, 凌震华, 陈凌辉申请人:中国科学技术大学

本文推荐一种合成语音自然度的提升方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656318167.html

当前位置：网站首页>专利 >正文

一种合成语音自然度的提升方法

相关推荐