当前位置:网站首页>专利 >正文

一种合成语音自然度的提升方法

一种合成语音自然度的提升方法
【专利摘要】本发明公开了一种合成语音自然度的提升方法,该方法包括:构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录音获得一合成语音;分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型训练;利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换;结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。通过采用本发明公开的方法,可以提高合成语音的自然度,使之更为真实、生动。
【专利说明】一种合成语音自然度的提升方法

【技术领域】
[0001] 本发明涉及音频处理【技术领域】,尤其涉及一种合成语音自然度的提升方法。

【背景技术】
[0002] 近几年来,在从文本到语音(TTS)的合成领域,基于隐马尔科夫模型(HMM)的语音 合成已经发展成为一种主流的合成方法。它能够合成拥有高可懂度的高质量语音,但是在 自然度上,由于合成的基频曲线过于平滑,因此与自然录音相比依然比较单调乏味。造成这 一现象的一个重要原因是由于采用高斯声学模型时所产生的平均效应,而且基频是一 种超音段的声学特征,拥有丰富的长时性特征,例如音节音调、短语语调等。
[0003] 现有技术致力于从改变基频建模的模型结构和参数生成准则的角度来提高合成 语音的自然度;然而,传统的基于HMM的语音合成系统在基频建模时一直把音素作为最基 本建模单元,把帧一级的基频作为模型观测值,这就导致传统模型对基频长时特征不具备 很好的建模能力,也就使得合成语音听起来没有自然语言那样生动形象。


【发明内容】

[0004] 本发明的目的是提供一种合成语音自然度的提升方法,可以提高合成语音的自然 度,使之更为真实、生动。
[0005] 本发明的目的是通过以下技术方案实现的:
[0006] (与权利要求相对应)。
[0007] 由上述本发明提供的技术方案可以看出,采用基于GBAM的基频后滤波方法来提 高合成语音的自然度,该方法用一个类高斯的联合分布来描述合成基频参数和自然基频参 数之间的关系,联合分布的参数通过训练数据预测而得。在转换阶段,根据已获得的GBAM 得到条件分布和传统方法所获得的基频特征,来完成从合成基频到自然基频的转换,从而 可以提高合成语音的自然度,使之更为真实、生动。

【专利附图】

【附图说明】
[0008] 为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用 的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本 领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 附图。
[0009] 图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图;
[0010] 图2为本发明实施例提供的目标逼近模型的示意图。

【具体实施方式】
[0011] 下面结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整 地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本 发明的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施 例,都属于本发明的保护范围。
[0012] 实施例
[0013] 图1为本发明实施例提供的一种合成语音自然度的提升方法的流程图。如图1所 示该方法主要包括如下步骤:
[0014] 步骤1、构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系 统及自然录音获得合成语音。
[0015] 步骤2、分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器 GBAM模型训练。
[0016] 本发明实施例中,提取的基频特征包括:长度规整的对数R)向量(FV)和定量目标 逼近模型(qTA)参数;
[0017] 其中,提取FV包括:根据音节的边界对每句话进行音节切分,再检测每个音节的 浊音段边界;然后,基于声学建模考虑,对每个音节内浊音段的基频取对数,并将其规整到 M个点,获得FV,表示为F= [Lf2,…,fM]T。
[0018] qTA参数的提取依据目标逼近(TA)模型和定量目标逼近(qTA)模型。传统的TA 模型模拟基频产生的内在机制,假设基频运动的音高目标与音节同步,如图2所示。中间的 竖线表示音节边界,虚线表示潜在的音高目标,实线表示基频轨迹;TA模型强调在每个音 节的结尾处,基频轨迹都将不断逼近音高目标。TA模型假设有动态和静态两种类型的音高 目标。
[0019] 中文是一种很有代表性的声调语言,它包含四种声调:阴平、阳平、上声和去声。在 TA模型中,阴平和上声对应于静态目标,阳平和去声对应于动态目标。
[0020] qTA模型是TA模型的定量模型之一,它是一个三阶临界阻尼线性系统,可以用下 述公式表示:
[0021] f(t) =T(t) + (c〇+c1t+c2t2)e_At;
[0022] 其中,t表示相对于音节起始位置的相对时间,f(t)是完整的基频表达形式,T(t) 表示潜在的音高目标,可用下式表示:
[0023] T(t) =st+h;
[0024] 其中,s与h分别表示音高目标的斜率和高度,f(t)表达式中的多项式部分是瞬态 响应,λ表示基频逼近音高目标的速度,三个瞬态系数(^、(^与C2分别可由下面三式获得:
[0025] C0=f〇-h;
[0026] C1=f0'(0) +C1λ-s;
[0027] C2= (fo^ (0)+2c〇A-Clλ2)/2 ;
[0028] 其中,fQ、fQ'与fQ"为每个音节的初始状态,传统的qTA模型假设基频曲线是连续 的,并在清音段采用线性内插来形成连续的基频曲线。因此当前音节的fpfV与f/均可 以从上一个音节的结束状态继承而得,但是对于一句话的首音节,&需要预测,fV与f/ 一般被设为零。因此在传统的qTA模型中,对于每句话,我们需要知道该句话起始R)(基 频)值以及每个音节的s、h与λ就可以重构出完整的基频曲线。
[0029] 但是在中文的连续语流中,音节之间基频的协同发音现象非常严重,因此在清音 段用线性内插来形成连续的基频曲线并不可靠,另外,为了去除时长对qTA参数提取的影 响,我们用长度规整的对数Η)向量(FV)来提取qTA参数;从前述FV的表达式可以看出,FV包含了M个基频值,所述M个基频值可以形成一条基频曲线;用数学模型来模拟这条基频曲 线,qTA参数则为该数学模型对应的参数;本发明实施例中,将每个音节的浊音段作为基础 单元来提取qTA参数。这样对每个音节来说,除了s、h与λ,我们还需要知道每个音节&, 此时每个音节的qTA参数可以表示为T=[&,s,h,λ]τ。在实验中,我们把每个音节的fQ' 与f/都设为零,但是如果当前音节和前一个音节浊音段连续,则当前音节的fcKfV与f/ 仍然从前一个音节的末尾状态继承。
[0030] 进行高斯双向联想贮存器GBAM模型训练的方法如下:
[0031] BAM是一种两层的随机反馈神经网络,已经被成功地用于模式识别和信号处理领 域。在BAM中,两种模式,X= [X1,. . .,xJlPy=[y^ . . .,yP]l别作为L维的原始特征 和P维的目标特征。BAM-旦被激活,便会快速到达稳定状态,此时两种模式处于混响状 态。该状态下两种模式之间的相互关系可以用权重矩阵W= 表示,并且此时的系统 能量达到局部最小值。当BAM的神经元是零均值的高斯随机变量时,这个模型被叫做高斯BAM(GBAM),其能量函数记作:
[0032]

【权利要求】
1. 一种合成语音自然度的提升方法,其特征在于,该方法包括: 构建一个基于隐马尔科夫模型HMM的语音合成系统,并基于该语音合成系统及自然录 音获得合成语音; 分别提取该合成语音及自然录音的基频特征,并进行高斯双向联想贮存器GBAM模型 训练; 利用训练好的GBAM模型,将合成语音的基频特征向自然录音的基频特征进行转换; 结合频谱和转换后的基频特征,利用STRAIGHT合成最终的语音。
2. 根据权利要求1所述的方法,其特征在于,提取的基频特征包括:长度规整的对数 向量FV和定量目标逼近模型qTA参数; 其中,提取FV包括:根据音节的边界对每句话进行音节切分,再检测每个音节的浊音 段边界;然后,基于声学建模,对每个音节内浊音段的基频取对数,并将其规整到M个点,获 得FV,表示为F= [f\,f2,…,fM]T; 提取qTA参数包括:利用FV来提取qTA参数,将每个音节的浊音段作为基础单元来提 取qTA参数,每个音节的qTA参数表示为T= [f^s,!!,A]T;其中,h为每个音节的初始状 态,s与h分别表不音尚目标的斜率和尚度,A表不基频逼近音尚目标的速度。
3. 根据权利要求1或2所述的方法,其特征在于,所述进行高斯双向联想贮存器GBAM 丰吴型训练包括: 预测合成语的基频特征x的每个子空间的类高斯联合分布P(x,y),然后基于最大似然ML准则,利用比较分歧算法CD最优化权重矩阵W,表示为:
其中,y表示自然录音的基频特征,
,表示配分函数,E(x,y)表 示GBAM模型的能量函数;C是精度矩阵,表示为:
其中,2是[xT,yT]T的对角协方差矩阵,WT为权重矩阵W的转置;如果C为正定矩阵, 则GBAM等价于一个高斯分布。
4. 根据权利要求1或2所述的方法,其特征在于,所述利用训练好的GBAM模型,将合成 语音的基频特征向自然录音的基频特征进行转换包括: 应用贝叶斯理论计算获得合成语音的基频特征时自然录音的基频特征的条件分布,表 示为:
其中,表示训练好的GBAM模型预测的最优权重矩阵;#表示高斯分布; 通过最大化条件概率完成合成语音的基频特征向自然录音的基频特征的转换,表示 为:
5.根据权利要求4所述的方法,其特征在于, 基于训练好的GBAM模型分别对基频特征中的FV与qTA参数进行转换,记为GBAM-FV与GBAM-qTA; 对于GBAM-FV,最终的输出基频曲线由转换得到的FV直接进行反规整得到; 对于GBAM-qTA,利用转换得到的qTA参数重新构造FV;然后,将该FV进行反规整到 真实的时长;再将提取该qTA参数时的残差与获得的真实时长相加得到最终的输出基频曲 线。
【文档编号】G10L13/02GK104485099SQ201410828928
【公开日】2015年4月1日 申请日期:2014年12月26日 优先权日:2014年12月26日
【发明者】高丽, 凌震华, 陈凌辉 申请人:中国科学技术大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种车用警灯的制作方法技术领域:本实用新型涉及一种警灯,特别是指小型化的用LED作为光源的可向360度发光的车用警灯。背景技术:目前,车顶用的警灯种类很多,随着社会的发展,对警灯的功能和外形的要求也很高,现有的警灯其亮度都是通过过

    专利发布时间:2025-05-15阅读:(75)

    船舶主动力语音控制方法及系统的制作方法【专利摘要】本发明公开了一种船舶主动力语音控制方法及系统,其方法的步骤为:采用声纹识别方式确认是当班职守人员发出的语音,并作如下处理:如果不是当班职守人员发出的语音,忽略;如果是当班职守人员发出的语音,

    专利发布时间:2025-05-15阅读:(65)

    专利名称:信息终端装置以及认证系统的制作方法技术领域:本发明涉及具有使用用户的人体信息进行个人认证的功能的信息终端装置以及认证系统。背景技术: 当前,将用户认证手段分为存取特征型与存储数据型2个类型。对于存取特征型,存在智能卡、信用卡、密钥

    专利发布时间:2025-05-15阅读:(89)

    专利名称:双出光面导光板及其应用的制作方法技术领域:本发明涉及光学领域,尤其涉及一种导光板及其应用。 背景技术:导光板是液晶显示器、超薄灯箱等显示设备的关键部件之一。导光板的质量较为 直接的影响到了这些显示设备的显示效果。比如导光板会影响到

    专利发布时间:2025-05-15阅读:(73)

    专利名称:纤维光缆的制作方法背景技术:发明领域本发明概括涉及一种主要用于室内布线的纤维光缆,尤其涉及一种带有至少一个抗缩部件和一塑料护套的纤维光缆。 背景技术: 用于室内布线的纤维光缆通常具有抗拉构件置于数根光纤周围且配置塑料护套作为外套的

    专利发布时间:2025-05-15阅读:(99)

    专利名称:改进的小提琴的制作方法技术领域:本实用新型涉及一种改进的小提琴。背景技术:小提琴在传统的制作方法中存在的结构和材质的不科学因素,特别是木材的处理 和选择, 一旦材质和结构存在瑕疵,就会严重影响小提琴的音质,尤其是琴身的结构和材质

    专利发布时间:2025-05-15阅读:(86)