当前位置:网站首页>专利 >正文

一种对普通话重音进行层次化建模和预测的方法

专利名称:一种对普通话重音进行层次化建模和预测的方法
技术领域
本发明涉及人机交互中语音合成技术领域,尤其涉及一种对普通话重音进行层次化建模和预测的方法,具体地涉及普通话句重音、词重音的建模,以及基于最大熵模型的词重音、句重音的两层重音预测方法。
背景技术
准确的重音描述以及从文本信息中预测重音信息一直是语音合成至关重要的一步,是提高合成语音表现力、构建和谐人机交互技术的重要组成部分。重音模型能够刻画出语音中的抑扬顿挫与轻重缓急,进而提高合成语音的表现力和自然度。重音的建模与预测对语音合成,人机交互等的发展具有重要意义。虽然,在这个领域已经有很多的研究工作,但是重音建模与预测还有很多问题至今没有很好的解决。其中,具有重音标注的用于语音合成的语料库较少,且在仅有的几个语料库中,都强调重音音节的分析研究,没有对轻音音节的分析。但是,从语音合成实验结果来看,合成结果之所以不理想,重要原因之一就是现有合成系统忽略了语音轻音的问题。轻音除了对语流中的轻重缓急起到一定的衬托作用,它还具有表义的作用,即具有区分词义的作用。因此,为了提高合成语音的自然度和表现力,有必要加强轻音音节的研究,同时进一步提高重音音节的研究。

发明内容
(一)要解决的技术问题为了解决现有技术问题,本发明的主要目的是要提出一种对普通话重音进行层次化建模和预测的方法,以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。( 二 )技术方案为达到上述目的,本发明提供了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。上述方案中,所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。
上述方案中,所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元。所述重音标注单元分为两类在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。上述方案中,所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数Fl作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。上述方案中,所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。上述方案中,所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果,是将韵律词重音预测结果和句重音预测结果采用公式 PD: 进行加权综合,然后输出综合后的层级重音标注信息;其中,
和尸Z^r分别是音节在当前韵律词和句子中的重音凸显度,尸乃=是韵律词在当前句子中的重音凸显度。(三)有益效果从上述技术方案可以看出,本发明具有以下有益效果1、本发明提供的对普通话重音进行层次化建模和预测的方法,加强了重音研究中的轻音音节的研究。以往的重音研究都侧重于重音音节的研究,包括重音音节的文本相关物和声学表现等。但是,从语音合成结果来看,单纯强调重音音节的研究并不能使得合成语音在自然度和表现力上有明显的提高。其原因为,随着交互的需要,在真实语流中存在越来越多的轻音音节,轻音除了对语流中的轻重缓急起到一定的衬托作用,有时还具有区分词义的作用。为了解决该问题,本发明引入了对重音中轻音音节的研究,同时,本发明进一步提高了重音音节的研究,提出了层级的重音建模方法。2、本发明提供的对普通话重音进行层次化建模和预测的方法,在层级重音预测中,针对不同层级的重音预测模型,采用不同的文本特征集合,以及特征窗口长度,这样能够细致的描述在不同级别下,重音的文本特征,增加了模型预测的正确率。3、本发明提供的对普通话重音进行层次化建模和预测的方法,在层级重音标注综合结果阶段,采用加权的方法,这样得到的重音描述体系更为细致,使得采用这种重音标注方式得到的合成语音自然度和表现力更好。


通过以下结合附图的详细描述,本发明的上述和其它方面、特征和优点将变得更加显而易见,其中图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图;图2是依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。图3是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。图4是依照本发明实施例训练生成句重音预测模型的方法流程图。图5是依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。图6是依照本发明实施例对普通话重音进行层次化预测的方法流程图。
具体实施例方式为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明进一步详细说明。本发明提供的对普通话重音进行层次化建模和预测的方法,是采用层次化重音描述体系对普通话重音进行描述,即采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。相应的,本发明采用基于最大熵的层次化的重音预测模型。本发明提供的对普通话重音进行层次化建模和预测的方法,用于中文语音合成中重音信息的预测,对语音合成系统接收或输入的任意文字串标注每个音节的重音等级;采用层级重音描述体系,即句子层面以及韵律词层面,其中,在句子层面的重音,本发明侧重重音词或者重音音节的研究,而在词层面,本发明侧重轻音音节研究;创建大规模的层级重音标注语料数据库;从标注文本进行特征提取;训练最大熵模型预测词内重音;训练最大熵模型预测句内重音,综合词重音与句重音的的预测结果得到更精确的重音等级描述。如图1所示,图1是本发明提供的对普通话重音进行层次化建模和预测的方法流程图,该方法采用层次化重音描述体系对普通话重音进行描述,包括选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结^ ο其中,所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元。所述重音标注单元分为两类在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数Fl作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型。所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型。所述句重音预测模型具有一输出句重音预测结果的输出端。所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果,是将韵律词重音预测结果和句重音预测结果采用公式=PD: χPD:迸行加权综合,然后输出综合后的层级重音标注信息;其中,分别是音节在当前韵律词和句子中的重音凸显度,/5CC"是韵律词在当前句子中的重音凸显度。基于图1所示的对普通话重音进行层次化建模和预测的方法,图2至图6示出了依照本发明一个实施例对普通话重音进行层次化建模和预测的方法流程。其中,图2示出了依照本发明实施例对普通话重音进行层次化建模和预测的方法流程图。在图2所示的实施例中,左侧为训练部分,包括语音合成语料库、韵律词重音等级标注语料库、句重音等级标注语料库、韵律词重音预测模型训练、句重音预测模型训练、层级重音预测模型训练;右侧为在线运行部分,包括浅层词法分析与节奏预测、在线层级重音预测两大部分,输入为任意文本,输出为层级的重音标注结果。其中,在线层级重音预测依赖于离线训练得到的层级重音预测模型。由韵律词重音等级标注语料库得到韵律词重音预测模型,由韵律词重音等级标注语料库和句重音等级标注语料库综合得到句中音节重音等级标注的语料库,进而训练得到句重音预测模型,由韵律词重音预测模型和句重音预测模型综合得到层级重音预测模型。图3示出了是依照本发明实施例训练生成韵律词重音预测模型的方法流程图。输入为韵律词中音节重音等级标注的语料库,经过文本特征提取,如分词、词性标注,韵律边界标注等,提取出与韵律词重音相关的文本特征集合F1,利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是韵律词层面轻音的概率,输出为韵律词重音预测模型。图4示出了依照本发明实施例训练生成句重音预测模型的方法流程图。输入为句中音节重音等级标注的语料库,经过文本特征提取,如分词、词性标注,韵律边界标注等,提取出与句重音相关的文本特征集合F2,利用最大熵模型从大规模重音标注语料中统计训练学习得到当前音节是句子层面重音的概率,输出为句重音预测模型。图5示出了依照本发明实施例综合生成每个音节的重音标注结果的方法流程图。 对任意输入语句,能够标注出韵律词内重音对比以及句内音节重音对比,输出为句子中每个音节的层级重音描述。图6示出了依照本发明实施例对普通话重音进行层次化预测的方法流程图。该实施例从以下六个方面对本发明进一步详细描述1、准备重音标注语料库。根据本发明,文本选用一个标注有韵律词、韵律短语以及语调短语边界信息的语音合成文本语料库。同时,对该语料进行以韵律词为单位的切分,形成一个以韵律词为单位存储的语料库。这些韵律词切分之后被打乱原来的次序,以单个文件的方式存储,避免了上下文信息对词重音感知的影响。例如标注实例(单句)向香港I特别行政区同胞$澳门I和台湾同胞$海外侨胞.xiang4 xiangl gang3 te4 bie2 xing2 zheng4 qui tong2 baol ao4men2 he2 tai 2wanl tong2 baol hai3 wai4 qiao2 baol其中,空格表示韵律词边界,‘ I,表示韵律短语的位置,‘$’表示韵律短语的位置。韵律词为单位的语料库实例香港xiangl gang32、韵律词重音标注和句重音标注。包括韵律词内音节等级标注和句子内韵律词突显度标注,其中,句子内韵律词突显度也就是韵律词在句子中的重音等级。在两个重音标注工作中,按照凸显度的高低,将重音标注任务都分为3级,分别用3、2、1表示。标注样例如下句子层级标注向香港I特别行政区同胞$澳门I和台湾同胞$海外侨胞.2 3 2 22 3 12 2 23韵律词层级标注香港3 2将这两个标注结果采用公式(1)的方式进行加权综合,得到句中每个音节的重音等级。
权利要求
1.一种对普通话重音进行层次化建模和预测的方法,其特征在于,该方法采用层次化重音描述体系对普通话重音进行描述,包括选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。
2.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述采用层次化重音描述体系对普通话重音进行描述,是采用句重音与韵律词重音对普通话重音进行描述,以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,对于句重音层级采用重音音节的建模分析,而对于韵律词重音层级采用轻音音节的建模分析。
3.根据权利要求2所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述句重音用于表明在句子层面凸显的韵律词,所述韵律词重音用于表明韵律词内部音节之间的凸显对比。
4.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述选择合适的重音描述体系,是以重音凸显范围将普通话重音分为句重音与韵律词重音两个层级,然后针对不同的层级,选择不同的重音标注单元。
5.根据权利要求4所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述重音标注单元分为两类在韵律词重音中,重音标注单元为单个韵律词;在句重音标注中,标注单元为句子。
6.根据权利要求5所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述创建层级标注的重音语料库,是在录音室录制语音数据,并进行音节切分,韵律边界标注,最后按照标注单元的重音凸显程度高低分别标注为3、2、1三个等级。
7.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述训练生成韵律词重音预测模型,是训练一个能够预测当前音节在其所在的韵律词范围内是轻音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与韵律词重音特征相关的文本特征参数Fl作为模型训练输入,利用最大熵模型,得到有关韵律词内部轻音节与非轻音节的文本特征差异,进而通过模型训练得到音节是轻音的概率,建立韵律词重音预测模型。
8.根据权利要求7所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述韵律词重音预测模型具有一用于输出韵律词重音预测结果的输出端。
9.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述训练生成句重音预测模型,是训练一个能够预测当前音节在句子范围内是重音的概率的模型,训练的具体过程为采用一文本特征参数提取模块,得到与句子级别重音预测相关的文本特征参数F2作为模型输入,利用最大熵模型,训练有关句子层级重音节与非重音节的文本特征差异,进而通过模型训练得到音节是重音的概率,建立句重音预测模型。
10.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述句重音预测模型具有一输出句重音预测结果的输出端。
11.根据权利要求1所述的对普通话重音进行层次化建模和预测的方法,其特征在于, 所述根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果,是将韵律词重音预测结果和句重音预测结果采用公式=进行加权综合,然后输出综合后的层级重音标注信息;其中,分别是音节在当前韵律词和句子中的重音凸显度,/5CC"是韵律词在当前句子中的重音凸显度。
全文摘要
本发明公开了一种对普通话重音进行层次化建模和预测的方法,该方法采用层次化重音描述体系对普通话重音进行描述,包括选择合适的重音描述体系,创建层级标注的重音语料库;训练生成韵律词重音预测模型;训练生成句重音预测模型;以及根据韵律词重音模型与句重音预测模型结果综合生成每个音节的重音标注结果。利用本发明,提高了重音模型的精细度,同时也保证了较高的重音预测正确率和召回率,进而提高合成语音的自然度和表现力,能够以更精确的描述语音中用于表现韵律凸显的重音现象,同时能够从任意输入的文本得到较为细致的重音等级标注结果。
文档编号G10L13/08GK102254554SQ201110200330
公开日2011年11月23日 申请日期2011年7月18日 优先权日2011年7月18日
发明者李雅, 陶建华 申请人:中国科学院自动化研究所

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:成像设备的制作方法技术领域:本发明涉及一种能够使得潜像写入单元从操作位置回撤到回撤位 置的成像设备例如复印机、传真设备和打印机。背景技术:在传统的电摄影成像设备中,已经广泛采用了其中用潜像写入单元在 均匀充电的潜像载体上写入潜像的

    专利发布时间:2025-05-15阅读:(95)

    专利名称:一种可快速更换光源模块的led球泡的制作方法技术领域:本实用新型涉及一种LED球泡,特别是一种可快速更换光源模块的LED球泡。背景技术:LED作为一种新型照明光源,以其长寿命、高光效、多光色及一次配光定向照射功能,可在安全电压下工

    专利发布时间:2025-05-15阅读:(75)

    专利名称:反射型彩色液晶显示器的制作方法技术领域:本实用新型涉及一种液晶显示器,尤其涉及一种反射层制作在透明基板外的反射型彩色液晶显示器。背景技术:反射型液晶显示器件具有低功耗、在强环境光下清晰高等优点,因此一直吸引人们去开发。通常,反射型

    专利发布时间:2025-05-15阅读:(82)

    专利名称::一种音频解码方法及装置的制作方法技术领域::本发明涉及音频解码技术领域:,具体涉及一种音频解码方法及装置。背景技术::在IS0IEC11172-3,IS0IEC13818-3和IS0IEC14496-3这3个国际标准中,运动图像

    专利发布时间:2025-05-15阅读:(125)

    一种语音文字化的云笔记实现方法及装置制造方法【专利摘要】本发明公开了一种语音文字化的云笔记实现方法及装置,其中,所述装置包括:交互模块、语音文字化处理模块以及语音文字化云笔记生成模块,所述方法包括:云端接收终端发来的语音音频段的数据;所述云

    专利发布时间:2025-05-15阅读:(66)

    专利名称:一种采光器的制作方法技术领域:本实用新型涉及一种采光器,特别是一种太阳光采光器。背景技术:目前太阳光采光器技术普遍采用抛物线反射镜和自动跟踪装置结合来采光,结构复杂、耗电、造价高,难于推广,而且容易出故障,需要经常有人去维护,很不

    专利发布时间:2025-05-15阅读:(74)