当前位置:网站首页>专利 >正文

一种语音合成单元时长的预测方法及装置的制作方法

专利名称:一种语音合成单元时长的预测方法及装置的制作方法
技术领域
本发明涉及信息处理技术领域,特别是涉及一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置。
背景技术
在语音合成系统(Text-to-Speech,TTS)中,语音合成单元时长的预测生成是必不可少的步骤,对合成语音的韵律听感有着至关重要的作用。根据语音学与音系学理论,语音合成单元的时长等特性决定于其所处的上下文环境。对语音时长的预测,本质上是从上下文环境参数的取值空间到时长取值空间的映射。对此种映射关系的分析建模方法,现有的时长预测方法通常采用决策树-高斯混合模型,确定与之最接近的近似映射。但是,现有的时长预测方法存在一个显著的缺点采用决策树-高斯混合模型来预测时长,所述预测首先对上下文环境参数的取值空间进行粗分类,然后用单一的均值来刻画各子类空间,在这两个过程中都存在着过平均化。下面以一个实例做说明比如“们”字,在“我们”中和在“我们的”中两种情况下,相
应的上下文环境都属于“词中”,只是在词中的位置不同。在基于决策树建立的决策树-高斯混合模型中,基于决策树的聚类因为受到树节点数目的限制,只能选择最显著的分类标准进行粗分类,有可能将这两种情况同归为“词中”这一类,从而抹煞了二者各自的个性;在此类别内,使用决策树-高斯混合模型建模,是用单一的均值来刻画整个子类,进一步抹煞了各样本具体的个性。总之,需要本领域技术人员迫切解决的一个技术问题就是如何提供一种时长预测模型的训练方法,以提高时长预测结果的准确性。

发明内容
本发明所要解决的技术问题是提供一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置,能够提高时长预测结果的准确性,使得从语音合成系统中合成出的语音具备真实的韵律感。为了解决上述问题,本发明公开了一种逐步线性回归的时长预测模型的训练方法,包括建立初始的线性回归的时长预测模型;在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型。优选的,所述在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型的步骤,包括步骤1 选中常参数,并将其加入已选参数集;步骤2 进行迭代,其中,在每轮迭代的过程中,在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数,并加入已选参数集;步骤3 利用新的已选参数集,获得当前轮逐步线性回归的时长预测模型;步骤4:判断当前轮逐步线性回归的时长预测模型是否最优,若是,则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型,否则,返回执行步骤2。优选的,所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤,包括若当前轮逐步线性回归的时长预测模型相对于上一轮逐步线性回归的时长预测模型,二者预测误差样本方差的差小于等于特定阈值,则以当前轮逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型;若二者预测误差样本方差的差大于特定阈值,则返回执行步骤2。优选的,所述线性回归的时长预测模型的表达式如下
\ = β + ε [E(S) = O, Var(s) = σ2其中,X为上下文环境参数矩阵,X的列数为上下文环境参数的数目,行数为语音合成单元的样本数目,X具体可以表述为
权利要求
1.一种逐步线性回归的时长预测模型的训练方法,其特征在于,包括建立初始的线性回归的时长预测模型;在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型。
2.根据权利要求1所述的方法,其特征在于,所述在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型的步骤,包括步骤1 选中常参数,并将其加入已选参数集;步骤2:进行迭代,其中,在每轮迭代的过程中,在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数,并加入已选参数集;步骤3 利用新的已选参数集,获得当前轮逐步线性回归的时长预测模型;步骤4:判断当前轮逐步线性回归的时长预测模型是否最优,若是,则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型,否则,返回执行步骤2。
3.根据权利要求2所述的方法,其特征在于,所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤,包括若当前轮逐步线性回归的时长预测模型相对于上一轮逐步线性回归的时长预测模型, 二者预测误差样本方差的差小于等于特定阈值,则以当前轮逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型;若二者预测误差样本方差的差大于特定阈值,则返回执行步骤2。
4.根据权利要求3所述的方法,其特征在于,所述线性回归的时长预测模型的表达式如下
5.根据权利要求1至4中任一项所述的方法,其特征在于在迭代所述线性回归的时长预测模型的过程中,时长预测模型的估计和评价采用不同的样本集。
6.一种语音合成单元时长的预测方法,其特征在于,包括针对上下文环境参数,采用逐步线性回归的时长预测模型,对语音合成单元的时长进行初始预测,获得初始时长预测结果;采用决策树-高斯混合模型对所述初始时长预测结果进行分配,得到分配后的时长预测结果。
7.根据权利要求6所述的方法,其特征在于,所述采用决策树-高斯混合模型对所述初始时长预测结果进行分配的步骤,包括针对上下文环境参数,采用决策树-高斯混合模型,对语音合成单元及各语音合成单元子状态的时长进行预测,获得语音合成单元时长和语音合成单元各子状态时长的缩放比例;根据语音合成单元时长和语音合成单元各子状态时长的缩放比例,将所述初始时长预测结果进行等比例缩放,获得语音合成单元各子状态的时长预测结果。
8.—种逐步线性回归的时长预测模型的训练装置,其特征在于,包括建立模块,用于建立初始的线性回归的时长预测模型;及优化模块,用于在迭代所述线性回归的时长预测模型的过程中,通过评价每轮的时长预测模型选择上下文环境参数,最终得到最优时长预测模型。
9.一种语音合成单元时长的预测装置,其特征在于,包括初始时长预测模块,用于针对上下文环境参数,采用逐步线性回归的时长预测模型,对语音合成单元的时长进行初始预测,获得初始时长预测结果;分配模块,用于采用决策树-高斯混合模型对所述初始时长预测结果进行分配,得到分配后的时长预测结果。
10.根据权利要求9所述的装置,其特征在于,所述分配模块,包括子状态预测单元,用于针对上下文环境参数,采用决策树-高斯混合模型,对语音合成单元及各语音合成单元子状态的时长进行预测,获得语音合成单元时长和语音合成单元各子状态时长的缩放比例;缩放单元,用于根据语音合成单元时长和语音合成单元各子状态时长的缩放比例,将所述初始时长预测结果进行等比例缩放,获得语音合成单元各子状态的时长预测结果。
全文摘要
本发明提供了一种语音合成单元时长的预测方法和装置,包括针对上下文环境参数,采用逐步线性回归的时长预测模型,对语音合成单元的时长进行初始预测,获得初始时长预测结果;采用决策树-高斯混合模型对所述初始时长预测结果进行分配,得到分配后的时长预测结果。本发明能够提高时长预测结果的准确性,使得从语音合成系统中合成出的语音具备真实的韵律感。
文档编号G10L13/08GK102231276SQ201110167390
公开日2011年11月2日 申请日期2011年6月21日 优先权日2011年6月21日
发明者李健, 王愈 申请人:北京捷通华声语音技术有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:用于语音识别的方法、组件、设备及服务器的制作方法技术领域:本发明涉及到语音接口领域。更准确说,本发明涉及到在终端利用语音识别实现语言模型和或语音装置的最优化。背景技术: 为了使与用户之间的信息交互更加迅速和或更加直观,信息系统或控

    专利发布时间:2025-07-01阅读:(161)

    专利名称:锥形反射镜分光相机的制作方法技术领域:本实用新型涉及一种数码相机,尤其是涉及一种对锥形反射镜分光相机 等结构的改良。 ' 背景技术:数字相机在使用上越来越普及,同时在功能上也逐渐取代传统底片式的 相机。数字相机应用到航空

    专利发布时间:2025-07-01阅读:(84)

    专利名称:液晶面板、液晶面板的制造方法和涂敷装置的制作方法技术领域:本发明涉及液晶面板、液晶面板的制造方法和涂敷装置。 背景技术:目前,作为构成液晶显示装置的主要部件的液晶面板,具有以下的结构。S卩,液晶 面板,在一对玻璃制的基板之间介设液

    专利发布时间:2025-07-01阅读:(156)

    专利名称:电泳方式显示装置的制作方法技术领域:本发明涉及显示装置,尤其涉及电泳方式显示装置。 背景技术:电泳方式显示装置是使带电粒子(泳动粒子)按每个像素地移动由此形成图像的显示装置。电泳方式显示装置的耗电量低,能够实现薄型及轻量。由于电泳

    专利发布时间:2025-07-01阅读:(103)

    专利名称:一种可旋转、便携的播音提词器的制作方法技术领域:本实用新型属于广播电视设备领域,特别涉及一种可旋转、便携的播音提词器。背景技术:播音提词器已经广泛应用于演播室、采访录制现场和播音专业实践教学中,现有的演播室中使用的播音提词器存在某

    专利发布时间:2025-07-01阅读:(112)

    专利名称:双面印刷装置的制作方法技术领域:本实用新型涉及一种印刷装置,特别涉及一种对薄形介质的 两个表面进行印刷的双面印刷装置。背景技术:现有的双面印刷装置一般采用印刷元件和表底面反转元件的 结构,其中包含有一个供纸元件、 一个送纸机构、

    专利发布时间:2025-07-01阅读:(118)