专利名称:情感语音合成方法和装置的制作方法
技术领域:
本发明涉及信息处理技术,具体地涉及语音合成技术,更具体地涉及不依赖于说 话人的情感语音合成技术。
背景技术:
目前,绝大多数基于大型语音库的语音合成系统都是建立在中立朗读方式的语音 之上。对于情感语音的合成,通用的方法是将中立语音转换成目标情感语音的韵律和频谱 转换方法,例如在非专利文献1和2中记载的基于GMM(Gaussian mixture model,高斯混 合模型)的方法和在非专利文献2中记载的基于CART (Classification And Regression Tree,分类与回归树)的方法。这些韵律和频谱转换方法仅需要建立一个附加的小型平行 语音库,这与重新录制一个目标情感语音的大型语音库相比节省了大量开发时间和费用。 同时,这些韵律和频谱转换方法可以建立中立语音特征和目标情感语音特征之间的联系, 如基于GMM的方法。可选地,也可以建立语言学信息和中立语音特征与目标情感语音特征 差异之间的联系,如基于CART的方法。基于GMM的方法相对于基于CART的方法有更好的 性能。此外,如在非专利文献2中所记载,也可以将CART方法和GMM方法结合起来,S卩,先 使用CART方法根据语言学信息进行一个初步的分类,然后再对每一类使用GMM方法建立韵 律和频谱转换模型。然而,上述基于GMM的韵律和频谱转换模型严重依赖于说话人。也就是说,如果上 述大型中立语音库和上述小型平行语音库不是来自相同的说话人,则转换的性能将会严重 降低。因此,在上述韵律和频谱转换方法中,为了得到高质量的转换效果,希望上述大型中 立语音库和上述小型平行语音库是来自同一说话人。然而,在实际的产品支持中这是很难 实现的,因为客户的需求可能在任何时候出现,例如,在录制中立语音库的好几年以后,即 使还能找到当年的说话人,他/她的声音也可能随着时间发生了相当的变化。1 :L. Mesbahi, V. Barreaud and 0. Boeffard, "Comparing GMM-based speech transformation systems,,,Proc. ofINTERSPEECH 2007, Antwerp, Belgium, Aug. 27-31,2007, pp. 1989-1992,在此通过参考引入其整个内容。非专利文献 2 J. Tao, Y. Kang and A. Li, ‘‘Prosodyconversion from neutral speech to emotional speech",IEEE Trans. OnAudio,Speech and Language Processing, Vol. 14,No. 4,2006, pp. 1145-1154,在此通过参考引入其整个内容。
发明内容
本发明正是鉴于上述现有技术中的问题而提出的,其目的在于提供不依赖于说话 人的情感语音合成方法和装置,以便能够有效改善韵律和频谱转换的性能。根据本发明的一个方面,提供了一种情感语音合成方法,包括以下步骤输入文本 句;利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在上述第 一说话人的第一特征空间中的中立特征向量;利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量变换为上述第二说话人的第二特 征空间中的规整中立特征向量;利用由上述平行语音库训练获得的情感转换模型,将上述 规整中立特征向量转换为上述第二特征空间中的规整情感特征向量;利用上述说话人规整 模型,将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量;以及利用 上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。根据本发明的另一个方面,提供了一种情感语音合成装置,包括输入单元,其输 入文本句;预测单元,其利用由第一说话人的中立语音库训练获得的中立特征模型,预测上 述文本句在上述第一说话人的第一特征空间中的中立特征向量;变换单元,其利用由上述 中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量 变换为上述第二说话人的第二特征空间中的规整中立特征向量;转换单元,其利用由上述 平行语音库训练获得的情感转换模型,将上述规整中立特征向量转换为上述第二特征空间 中的规整情感特征向量;逆变换单元,其利用上述说话人规整模型,将上述规整情感特征向 量逆变换为上述第一特征空间中的情感特征向量;以及合成单元,其利用上述第一特征空 间中的情感特征向量合成出第一说话人的情感语音。
相信通过以下结合附图对本发明具体实施方式
的说明,能够使人们更好地了解本 发明上述的特点、优点和目的。图1是根据本发明的一个实施例的情感语音合成方法的流程图。图2是根据本发明的一个实施例的说话人规整模型的一个实例。图3是根据本发明的一个实施例的说话人规整模型的另一个实例。图4是根据本发明的另一个实施例的情感语音合成装置的框图。
具体实施例方式下面就结合附图对本发明的各个优选实施例进行详细的说明。情感语音合成方法图1是根据本发明的一个实施例的情感语音合成方法的流程图。下面就结合该 图,对本实施例进行描述。如图1所示,首先,在步骤101,输入文本句。在本实施例中,输入的文本句可以是 本领域的技术人员公知的任何文本的句子,也可以是各种语言的文本句,例如汉语、英语、 日语等,本发明对此没有任何限制。接着,在步骤105,利用文本分析从输入的文本句中提取语言学信息60。在本实施 例中,语言学信息60包括上述文本句的句长,句中各字(词)的字形、拼音、音素类型、声 调、词性、句中位置、与前后字(词)之间的边界类型以及与前后停顿之间的距离等等。此 外,在本实施例中,用于从输入的文本句中提取语言学信息60的文本分析方法可以是本领 域的技术人员公知的任何方法,本发明对此没有任何限制。应该注意,这里的步骤105只是一个可选的步骤,也可以在步骤101输入文本句之 后直接进行到步骤110。在步骤110,利用由第一说话人的中立语音库10训练获得的中立特征模型30,预测在步骤101输入的文本句在上述第一说话人的第一特征空间中的中立特征向量。在本实施例中,中立语音库10包括第一说话人的中立语音,即中立朗读的语音。 中立语音库10可以是本领域的技术人员公知的任何语音库,例如上述非专利文献1和2中 记载的中立语音库。此外,由中立语音库10训练中立特征模型30的方法也可以是本领域 的技术人员公知的任何方法,例如上述非专利文献1和2中记载的训练方法。此外,训练得 到的中立特征模型30也可以是本领域的技术人员公知的任何模型,例如上述非专利文献1 和2中记载的中立特征模型。中立特征模型30中的特征向量可以包含韵律特征(例如时 长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。本发明只是在步骤110中利用 了中立特征模型30,而对于中立语音库10、中立特征模型30的训练方法以及中立特征模型 30没有任何限制。在步骤110,如果没有在步骤105中提取语言学信息60,则利用中立特征模型30, 预测在步骤101输入的文本句在第一说话人的第一特征空间中的中立特征向量。如果在步 骤105中提取出语言学信息60,则根据提取出的语言学信息60,利用中立特征模型30,预测 上述中立特征向量。在本实施例中,预测上述中立特征向量的方法可以是本领域的技术人 员公知的任何方法,例如在上述非专利文献1和2中记载的预测方法。此外,预测出的中立 特征向量可以包含韵律特征(例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或 多种。接着,在步骤115,利用由中立语音库10和第二说话人的平行语音库20训练获得 的说话人规整模型50,将在步骤110预测得到的中立特征向量变换为第二说话人的第二 特征空间中的规整中立特征向量。在此,变换后的规整中立特征向量也可以包含韵律特征 (例如时长、基频轨迹、停顿、能量等)和频谱特征中的一种或多种。在本实施例中,第二说话人的平行语音库20包含第二说话人的中立语音和目标 情感语音,它们是成对的,也就是说,同一文本句用中立和目标情感两种方式朗读。下面结合图2详细描述说话人规整模型50和在步骤115中进行的变换的一个实 例。图2是根据本发明的一个实施例的说话人规整模型50的一个实例。如图2所示, 在训练说话人规整模型50的过程中,首先根据分类规则70将中立语音库10切分成m个类
1-1,1-2,...,l-m。分类规则70可以根据经验随特征的不同而不同,例如,针对时长和频谱 特征根据音素类型分类,针对基频轨迹根据声调类型分类,针对能量根据句中位置分类等 中的一种或多种。接着,根据同样的分类规则70将平行语音库20也切分成对应的m个类
2-1,2-2,...,2-m。接着,对于每个类l_i和2_i,计算出统计量71_i和72_i,其中上述统 计量可以是从每个类l_i和2-i中提取的特征向量的均值μ和协方差矩阵Σ等。在这种 情况下,说话人规整模型50包括分类规则70和统计量71-i和72-i。返回图1,在说话人规整模型50包括分类规则70和统计量71-i和72_i的情况 下,在步骤115,首先利用在步骤105提取出的语言学信息60,查找在步骤110预测得到的 中立特征向量对应的类X,然后根据如下公式(1)将该中立特征向量变换为第二说话人的 第二特征空间中的规整中立特征向量, ν:={νη-μ^ΙΙ2^ + μ2Χ (ι) 其中,ν' η代表上述规整中立特征向量,Vn代表上述中立特征向量,μ lx代表从上述中立语音库10的与上述中立特征向量对应的第χ类中提取的均值,Σ 1!£代表从上述中立 语音库10的与上述中立特征向量对应的第χ类中提取的协方差矩阵,μ 2χ代表从上述平行 语音库20的与上述中立特征向量对应的第χ类中提取的均值,以及Σ 2χ代表从上述平行语 音库20的与上述中立特征向量对应的第χ类中提取的协方差矩阵。下面结合图3详细描述说话人规整模型50和在步骤115中进行的变换的另一个 实例。图3是根据本发明的一个实施例的说话人规整模型的另一个实例。如图3所示, 在训练说话人规整模型50的过程中,首先利用中立语音库10训练出基于GMM的第一说话 人的第一特征空间模型(λ ρ μρΣ^δΟ。在第一特征空间模型80中,X1代表第一特征 空间模型80中的各组元所占权重的集合,μ !代表各组元的均值的集合,Σ !代表各组元 的协方差矩阵的集合。然后,利用平行语音库20将第一说话人的第一特征空间模型80自 适应为第二说话人的第二特征空间模型(λ2,μ2,Σ 2)90。在第二特征空间模型90中,λ2 代表第二特征空间模型90中的各组元所占权重的集合,μ 2代表各组元的均值的集合,Σ 2 代表各组元的协方差矩阵的集合。上述特征空间模型中的组元个数应该足够大以使模型 能够准确地描述上述特征空间。此外,可以认为自适应前后的两个特征空间模型80和90 所对应的组元是耦合的。在本实施例中,特征空间模型的自适应方法可以是MAP (Maximum a Posteriori,最大后验概率)、MCE(Minimum ClassificationError,最小分类错误)、 匪I (Maximum Mutual Information,最大互相关信息)或其它可用的算法,本发明对此没有 任何限制。值得注意的是,因为第二说话人的平行语音库20的数据有限,通常仅对模型的 均值μ做自适应,那么假定A2= λ,Σ1=Σ2=Σ。在本实施例中,训练基于GMM 的特征空间模型的方法可以是本领域的技术人员公知的任何方法,例如上述非专利文献1 和2中记载的训练方法。在这种情况下,说话人规整模型50包括第一特征空间模型80和 第二特征空间模型90。返回图1,在说话人规整模型50包括第一特征空间模型80和第二特征空间模型 90的情况下,在步骤115,首先计算在步骤110预测得到的中立特征向量针对第一特征空间 模型(λπ μ1;Σ D80的各组元i的概率P”可选地,可以根据如下公式(2)计算上述概 率Pi,
权利要求
1.一种情感语音合成方法,包括以下步骤输入文本句;利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在上述第 一说话人的第一特征空间中的中立特征向量;利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上 述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量;利用由上述平行语音库训练获得的情感转换模型,将上述规整中立特征向量转换为上 述第二特征空间中的规整情感特征向量;利用上述说话人规整模型,将上述规整情感特征向量逆变换为上述第一特征空间中的 情感特征向量;以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。
2.根据权利要求1所述的情感语音合成方法,还包括以下步骤在上述利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在 上述第一说话人的第一特征空间中的中立特征向量的步骤之前,从上述文本句中提取语言 学fe息。
3.根据权利要求2所述的情感语音合成方法,其中,上述利用由第一说话人的中立语 音库训练获得的中立特征模型,预测上述文本句在上述第一说话人的第一特征空间中的中 立特征向量的步骤包括以下步骤根据上述语言学信息,利用上述中立特征模型,预测上述中立特征向量。
4.根据权利要求2所述的情感语音合成方法,其中,上述利用由上述平行语音库训练 获得的情感转换模型,将上述规整中立特征向量转换为上述第二特征空间中的规整情感特 征向量的步骤包括以下步骤根据上述语言学信息,利用上述情感转换模型,将上述规整中立特征向量转换为上述 规整情感特征向量。
5.根据权利要求1所述的情感语音合成方法,其中,上述说话人规整模型包括分类规 则、从上述中立语音库的根据上述分类规则划分的每一类中提取的特征向量的均值和协方 差矩阵、和从上述平行语音库的根据上述分类规则划分的每一类中提取的特征向量的均值 和协方差矩阵。
6.根据权利要求5所述的情感语音合成方法,其中,上述分类规则包括针对时长和频 谱特征的音素类型分类规则、针对基频轨迹的声调类型分类规则和针对能量的句中位置分 类规则中的至少一种。
7.根据权利要求5所述的情感语音合成方法,其中,上述利用由上述中立语音库和第 二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量变换为上述第二 说话人的第二特征空间中的规整中立特征向量的步骤包括以下步骤根据如下公式将上述中立特征向量变换为上述规整中立特征向量,
8.根据权利要求5所述的情感语音合成方法,其中,上述利用上述说话人规整模型,将 上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量的步骤包括以下步 骤根据如下公式将上述规整情感特征向量逆变换为上述情感特征向量,
9.一种情感语音合成装置,包括输入单元,其输入文本句;预测单元,其利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文 本句在上述第一说话人的第一特征空间中的中立特征向量;变换单元,其利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规 整模型,将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向 量;转换单元,其利用由上述平行语音库训练获得的情感转换模型,将上述规整中立特征 向量转换为上述第二特征空间中的规整情感特征向量;逆变换单元,其利用上述说话人规整模型,将上述规整情感特征向量逆变换为上述第 一特征空间中的情感特征向量;以及合成单元,其利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语曰°
全文摘要
本发明提供了情感语音合成方法和装置。根据本发明的一个方面,提供了一种情感语音合成方法,包括以下步骤输入文本句;利用由第一说话人的中立语音库训练获得的中立特征模型,预测上述文本句在上述第一说话人的第一特征空间中的中立特征向量;利用由上述中立语音库和第二说话人的平行语音库训练获得的说话人规整模型,将上述中立特征向量变换为上述第二说话人的第二特征空间中的规整中立特征向量;利用由上述平行语音库训练获得的情感转换模型,将上述规整中立特征向量转换为上述第二特征空间中的规整情感特征向量;利用上述说话人规整模型,将上述规整情感特征向量逆变换为上述第一特征空间中的情感特征向量;以及利用上述第一特征空间中的情感特征向量合成出第一说话人的情感语音。
文档编号G10L13/04GK102005205SQ20091017071
公开日2011年4月6日 申请日期2009年9月3日 优先权日2009年9月3日
发明者李健, 栾剑 申请人:株式会社东芝