一种语音合成单元时长的预测方法及装置的制作方法-品牌商务网

专利名称：一种语音合成单元时长的预测方法及装置的制作方法
技术领域：
本发明涉及信息处理技术领域，特别是涉及一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置。
背景技术：
在语音合成系统(Text-to-Speech，TTS)中，语音合成单元时长的预测生成是必不可少的步骤，对合成语音的韵律听感有着至关重要的作用。根据语音学与音系学理论，语音合成单元的时长等特性决定于其所处的上下文环境。对语音时长的预测，本质上是从上下文环境参数的取值空间到时长取值空间的映射。对此种映射关系的分析建模方法，现有的时长预测方法通常采用决策树-高斯混合模型，确定与之最接近的近似映射。但是，现有的时长预测方法存在一个显著的缺点采用决策树-高斯混合模型来预测时长，所述预测首先对上下文环境参数的取值空间进行粗分类，然后用单一的均值来刻画各子类空间，在这两个过程中都存在着过平均化。下面以一个实例做说明比如“们”字，在“我们”中和在“我们的”中两种情况下，相
应的上下文环境都属于“词中”，只是在词中的位置不同。在基于决策树建立的决策树-高斯混合模型中，基于决策树的聚类因为受到树节点数目的限制，只能选择最显著的分类标准进行粗分类，有可能将这两种情况同归为“词中”这一类，从而抹煞了二者各自的个性；在此类别内，使用决策树-高斯混合模型建模，是用单一的均值来刻画整个子类，进一步抹煞了各样本具体的个性。总之，需要本领域技术人员迫切解决的一个技术问题就是如何提供一种时长预测模型的训练方法，以提高时长预测结果的准确性。

发明内容
本发明所要解决的技术问题是提供一种逐步线性回归的时长预测模型的训练方法及装置、一种语音合成单元时长的预测方法及装置，能够提高时长预测结果的准确性，使得从语音合成系统中合成出的语音具备真实的韵律感。为了解决上述问题，本发明公开了一种逐步线性回归的时长预测模型的训练方法，包括建立初始的线性回归的时长预测模型；在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型。优选的，所述在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型的步骤，包括步骤1 选中常参数，并将其加入已选参数集；步骤2 进行迭代，其中，在每轮迭代的过程中，在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数，并加入已选参数集；步骤3 利用新的已选参数集，获得当前轮逐步线性回归的时长预测模型；步骤4:判断当前轮逐步线性回归的时长预测模型是否最优，若是，则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型，否则，返回执行步骤2。优选的，所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤，包括若当前轮逐步线性回归的时长预测模型相对于上一轮逐步线性回归的时长预测模型，二者预测误差样本方差的差小于等于特定阈值，则以当前轮逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型；若二者预测误差样本方差的差大于特定阈值，则返回执行步骤2。优选的，所述线性回归的时长预测模型的表达式如下
\ = β + ε [E(S) = O, Var(s) = σ2其中，X为上下文环境参数矩阵，X的列数为上下文环境参数的数目，行数为语音合成单元的样本数目，X具体可以表述为
权利要求
1.一种逐步线性回归的时长预测模型的训练方法，其特征在于，包括建立初始的线性回归的时长预测模型；在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型。
2.根据权利要求1所述的方法，其特征在于，所述在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型的步骤，包括步骤1 选中常参数，并将其加入已选参数集；步骤2:进行迭代，其中，在每轮迭代的过程中，在已选参数的基础上选出对进一步提升预测准确度作用最大的未选参数，并加入已选参数集；步骤3 利用新的已选参数集，获得当前轮逐步线性回归的时长预测模型；步骤4:判断当前轮逐步线性回归的时长预测模型是否最优，若是，则以当前逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型，否则，返回执行步骤2。
3.根据权利要求2所述的方法，其特征在于，所述判断当前轮逐步线性回归的时长预测模型是否最优的步骤，包括若当前轮逐步线性回归的时长预测模型相对于上一轮逐步线性回归的时长预测模型，二者预测误差样本方差的差小于等于特定阈值，则以当前轮逐步线性回归的时长预测模型作为逐步线性回归的最优时长预测模型；若二者预测误差样本方差的差大于特定阈值，则返回执行步骤2。
4.根据权利要求3所述的方法，其特征在于，所述线性回归的时长预测模型的表达式如下
5.根据权利要求1至4中任一项所述的方法，其特征在于在迭代所述线性回归的时长预测模型的过程中，时长预测模型的估计和评价采用不同的样本集。
6.一种语音合成单元时长的预测方法，其特征在于，包括针对上下文环境参数，采用逐步线性回归的时长预测模型，对语音合成单元的时长进行初始预测，获得初始时长预测结果；采用决策树-高斯混合模型对所述初始时长预测结果进行分配，得到分配后的时长预测结果。
7.根据权利要求6所述的方法，其特征在于，所述采用决策树-高斯混合模型对所述初始时长预测结果进行分配的步骤，包括针对上下文环境参数，采用决策树-高斯混合模型，对语音合成单元及各语音合成单元子状态的时长进行预测，获得语音合成单元时长和语音合成单元各子状态时长的缩放比例；根据语音合成单元时长和语音合成单元各子状态时长的缩放比例，将所述初始时长预测结果进行等比例缩放，获得语音合成单元各子状态的时长预测结果。
8.—种逐步线性回归的时长预测模型的训练装置，其特征在于，包括建立模块，用于建立初始的线性回归的时长预测模型；及优化模块，用于在迭代所述线性回归的时长预测模型的过程中，通过评价每轮的时长预测模型选择上下文环境参数，最终得到最优时长预测模型。
9.一种语音合成单元时长的预测装置，其特征在于，包括初始时长预测模块，用于针对上下文环境参数，采用逐步线性回归的时长预测模型，对语音合成单元的时长进行初始预测，获得初始时长预测结果；分配模块，用于采用决策树-高斯混合模型对所述初始时长预测结果进行分配，得到分配后的时长预测结果。
10.根据权利要求9所述的装置，其特征在于，所述分配模块，包括子状态预测单元，用于针对上下文环境参数，采用决策树-高斯混合模型，对语音合成单元及各语音合成单元子状态的时长进行预测，获得语音合成单元时长和语音合成单元各子状态时长的缩放比例；缩放单元，用于根据语音合成单元时长和语音合成单元各子状态时长的缩放比例，将所述初始时长预测结果进行等比例缩放，获得语音合成单元各子状态的时长预测结果。
全文摘要
本发明提供了一种语音合成单元时长的预测方法和装置，包括针对上下文环境参数，采用逐步线性回归的时长预测模型，对语音合成单元的时长进行初始预测，获得初始时长预测结果；采用决策树-高斯混合模型对所述初始时长预测结果进行分配，得到分配后的时长预测结果。本发明能够提高时长预测结果的准确性，使得从语音合成系统中合成出的语音具备真实的韵律感。
文档编号G10L13/08GK102231276SQ201110167390
公开日2011年11月2日申请日期2011年6月21日优先权日2011年6月21日
发明者李健, 王愈申请人:北京捷通华声语音技术有限公司

本文推荐一种语音合成单元时长的预测方法及装置的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656736333.html

当前位置：网站首页>专利 >正文

一种语音合成单元时长的预测方法及装置的制作方法

相关推荐