声音合成装置的制作方法-品牌商务网

专利名称：声音合成装置的制作方法
技术领域：
本发明涉及声音合成装置，特别涉及可以嵌入信息的声音合成装置。
背景技术：
随着以前数字信号处理技术的发展，为了防止音响数据特别是音乐数据的非法拷贝，保护著作权，开发了利用了相位调制、回波信号或听觉掩蔽技术的嵌入不影响视听的信息(透かし)的方式。这些方式在制作作为内容的音响数据之后嵌入信息，通过再生设备读出信息，确保只有正当的权利者才能利用内容。
而对于声音来说，不仅有由真人发声制作的声音数据，而且还存在通过所谓声音合成制作的声音数据。随着由文字串文本合成声音的所谓声音合成技术的进步显著，直接利用存储在声音数据库中的声音波形合成声音的系统或使用了HMM(隐藏式马可夫模型)的声音合成方法之类的、构筑用统计学习算法根据声音数据库控制各帧的参数的控制方式的系统，能够生成良好地保持了原始的收录到声音数据库中的说话者的特征的合成声音。即，能够通过声音合成假冒本人。
为了防止这样的假冒，在对于每个声音数据将信息嵌入到合成声音中的方法中，不仅要保护音乐数据这样的著作权，而且嵌入用来判断是合成声音或判断声音合成时所使用的系统等的信息也非常重要。
作为先有技术的往合成声音中嵌入信息的方法，有在声音信号的主频带以外——即人听取时难以感觉音质恶化的频带中，通过改变合成声音的特定频带内的信号功率，来附加用来判断是合成声音的判断信息并输出合成声音的方法(例如参照专利文献1)。图1为用来说明专利文献1所记载的以往的往合成声音中嵌入信息的方法的图。声音合成装置12将从文字声音合成处理单元13输出的合成声音信号输入合成声音判断信息附加单元17中，合成声音判断信息附加单元17将表示与真人发声的声音信号不同的判断信息附加到合成声音信号中，作为合成声音信号18输出。而合成声音判断装置20的判断单元21检测输入声音信号有无判断信息。当判断单元21检测到判断信号时，判定为输入声音信号是合成声音信号18，将判断结果显示在判断结果显示单元22中。
并且，除使用特定的频带信号功率的方式以外，还有一种使一个周期的波形与音调标位(ピッチマ一ク)同步来连接波形合成声音的声音合成方式，通过在波形连接时使特定的一个周期的波形稍微变形来将信息附加到声音中(例如参照专利文献2)。波形的变形有如下几种将特定的一个周期的波形的振幅设定为与本来应该吻合的韵律信息不同的值，或者用相位反转的波形取代特定的一个周期的波形，或者使特定的一个周期的波形的时间稍微错开本应同步的音调标位。
而作为先有技术的声音合成装置，为了提高声音的嘹亮性和自然性，有被看作是真人发声的自然声音的、生成被称为微韵律的基本频率或者声音强度中的音素内的细微的时间结构的装置(例如参照专利文献3、专利文献4)。从论文等中可以知道，在音素边界的前后10毫秒～50毫秒(至少2音调以上)左右的时间内能够观测微韵律，要听出其差异非常困难，可以认为微韵律对韵律特性几乎没有影响。作为现实的微韵律的观测范围，在20毫秒～50毫秒以上。之所以以50毫秒作为上限，是因为根据经验如果超过50毫秒以上，有可能超过母音的长度。
专利文献1日本特开2002-297199号公报(第3～4页，图2)专利文献2日本特开2003-295878号公报专利文献3日本特开平9-244678号公报专利文献4日本特开2000-10581号公报但是，上述以往结构的嵌入信息的方法中文字声音合成处理单元13与合成声音判断信息附加单元17完全分离，声音生成单元15在生成声音波形以后附加判断信息。因此，如果只使用合成声音判断信息附加单元17的话，则对用其他的声音合成装置合成的声音、录音声音或从麦克风输入的输入声音也能够附加同样的判断信息。因此，存在难以判断用声音合成装置12合成的合成声音信号18与包括真人发声的其他方法生成的声音的问题。
并且，虽然上述以往结构的嵌入信息的方法将判断信息作为频率特性的变形，嵌入声音数据中，但将信息附加在声音信号的主频带以外的频带中。因此在电话线路之类传输的带宽被限制在声音信号的主频带内的传输线路中，存在附加的信息在传输过程中丢失的可能或者将附加的信息附加到不丢失的带域即声音信号的主频带内，因此存在招致音质严重恶化的可能这样的问题。
而且，以往的在使一个周期的波形与音调标位同步时使特定的一个周期的波形变形的方法虽然不受传输线路的频带的影响，但由于必须局限于1个周期这样的短时间单位的控制，并且波形的变形量也必须是人感觉不到音质恶化的、不被人注意的小的变形，因此存在在进行数/模转换的过程中或在传输过程中附加的信息有可能丢失或掩埋在噪音信号中的问题。

发明内容
本发明就是为了解决上述问题，第1个目的是要提供一种能够确实地进行与其他的方法生成的声音的判断的声音合成装置。
并且，本发明的第2目的是要提供一种不受传输线路的带宽限制，或者即使对于数/模变换时的舍入处理或对于传输线路中的信号丢失和混入噪音，也不会出现被嵌入的信息的丢失的声音合成装置。
而且，本发明的第3目的是要提供一种能够不招致音质恶化地将信息嵌入到合成声音中的声音合成装置。
本发明的声音合成装置为根据文字列合成声音的声音合成装置，具有生成根据文字列生成合成声音所必需的合成声音生成信息的语言处理单元、根据上述合成声音生成信息生成声音的韵律信息的韵律生成单元和根据上述韵律信息合成声音的合成单元，其特征在于，上述韵律生成单元在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
如果采用这种结构，作为不影响韵律的信息的符号信息嵌入在如果不是在声音的合成过程中操作困难的不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中。因此，能够防止将符号信息附加到用其他的声音合成装置合成的声音或真人发出的声音等合成声音以外的声音中。因此能够确实地进行与其他方法生成的声音的判断。
最好是上述韵律生成单元将上述符号信息嵌入声音的基本频率的时间模式中。
如果采用这样的结构，由于信息嵌入在声音的基本频率的时间模式中，因此能够将信息保持在声音信号的主频带中。因此，即使在传输线路带宽狭窄、传输信号被声音信号的主频带限制的情况下，也能够传输不招致信息丢失、不因附加信息而引起音质恶化地附加了判断信息的合成声音。
最好是，上述符号信息由微韵律来表现。
微韵律本身为人耳不能识别其差别的细微的信息。因此，能够不招致音质恶化地将信息嵌入合成声音中。
另外，也可以从上述声音合成装置合成的合成声音中抽出符号信息，作为判断是否为合成声音的合成声音判断装置来实现本发明，或者作为从合成声音中抽出作为符号信息附加的附加信息的附加信息读取装置来实现本发明。
例如，合成声音判断装置为判断输入声音是否为合成声音的判断装置，其特征在于，包括以下单元计算每个预定时间长度的帧中上述输入声音的基本频率的基本频率计算单元；在不超过包括音素边界的音素长度的预定时间长度的区域内判断上述基本频率计算单元算出的多个声音的基本频率中是否包含用来判断是否为上述合成声音的判断信息，通过这一判断来判断上述输入声音是否为合成声音的判断单元。
并且，附加信息读取装置为解读嵌入到输入声音中的附加信息的附加信息读取装置，其特征在于，包括以下单元计算每个预定时间长度的帧中上述输入声音的基本频率的基本频率计算单元；在不超过包括音素边界的音素长度的预定时间长度的区域内，根据上述基本频率计算单元算出的多个声音的基本频率抽出用频率列表示的规定的附加信息的附加信息抽出单元。
另外，本发明不仅可以实现具有这样的特征的单元的声音合成装置，而且可以实现将这样的特征的单元作为步骤的声音合成方法，或者实现使计算机具有作为声音合成装置的功能的程序。并且，这样的程序当然可以通过CD-ROM(Compact Disc-Read Only Memory，光盘只读存储器)等记录媒体或因特网等通信网络来流通。
如果采用本发明，能够提供能够确实地进行与其他方法生成的声音的判断的声音合成装置。
并且能够提供即使对于传输线路中的频带限制、或者数/模转换时的舍入处理或传输路径中信号丢失或混入噪音信号也不会丢失嵌入的信息的声音合成装置。
而且能够提供能够不招致音质恶化地将信息嵌入合成声音中的声音合成装置。

图1先有技术的声音合成装置中的合成声音判断装置的功能方框2本发明的实施形态1的声音合成装置及合成声音判断装置的功能方框3本发明的实施形态1的声音合成装置的动作流程4表示存储到本发明的实施形态1的声音合成装置中的微韵律表中的微韵律模式(pattern)的示例的5表示本发明的实施形态1的声音合成装置生成的基本频率模式的示例的6本发明的实施形态1的合成声音判断装置的动作流程7本发明的实施形态1的合成声音判断装置的动作流程8表示存储到本发明的实施形态1的合成声音判断装置中的微韵律判断表中的内容的示例的9本发明的实施形态2的声音合成装置及附加信息解读装置的功能方框10本发明的实施形态2的声音合成装置的动作流程11表示记录在本发明的实施形态2的声音合成装置中的代码表中的附加信息与代码的对应例以及记录在微韵律表中的微韵律与代码的对应例的示例12本发明的实施形态2的声音合成装置中的生成微韵律的模式13本发明的实施形态2的附加信息解读装置的动作流程图具体实施方式
下面参照

本发明的实施形态。
(实施形态1)图2为本发明的实施形态1的声音合成装置和合成声音判断装置的功能方框图。
图2中，声音合成装置200为将输入的文本变换成声音的装置，由语言处理单元201、韵律生成单元202和波形生成单元203构成，语言处理单元201语言解析输入的文本，决定文本的形态要素以及与句法结构相对应的读法以及语调(accent)，输出读法和重音位置、句节句读以及依存关系信息；韵律生成单元202根据语言处理单元201输出的读法和重音位置、句节句读和依存关系信息决定生成的合成声音的基本频率、声音强度、节奏以及姿态的时机和时间长度，输出各莫勒的基本频率模式、强度模式、持续时间长度；波形生成单元203根据韵律生成单元202输出的每莫勒中的基本频率模式、强度模式、持续时间长度生成并输出声音波形。另外，莫勒为日本语中声音韵律的基本单位，有由单一的短母音，子音和短母音，子音、半母音和短母音构成的，以及仅由莫勒音素构成的。其中，莫勒音素是指日本语中音节的一部分，为形成一个节拍的音韵。
韵律生成单元202由宏模式生成单元204、微韵律表205、微韵律生成单元206构成，宏模式生成单元204根据语言处理单元201输出的读法和语调、句节句读和依存关系信息决定与重音句、词组、文字相对应被付与的宏观韵律模式，输出每个莫勒中的莫勒持续时间的长度以及莫勒中的母音持续时间的中央点的基本频率和声音强度；微韵律表205将音素边界附近的韵律的细微的时间结构(微韵律)的模式存储到每个音韵和音韵属性中；微韵律生成单元206参照微韵律表205，根据语言处理单元201输出的音韵串和重音位置、依存关系信息以及宏模式生成单元204输出的音韵持续时间长度和基本频率、声音强度生成微韵律，按照宏模式生成单元204输出的音韵持续时间中央点的基本频率、声音强度将微韵律嵌入各音韵中，生成各音韵内的韵律模式。
合成声音判断装置210为分析输入声音并判断是否为合成声音的装置，由基本频率分析单元211、微韵律判断表212、微韵律判断单元213构成，基本频率分析单元211将波形生成单元203输出的合成声音及其以外的声音信号作为输入接受，分析输入声音的基本频率，输出每个分析帧的基本频率值；微韵律判断表212将应具有声音合成装置200输出的合成声音的基本频率的时间模式(微韵律)存储到每一个声音合成装置的制造厂中；微韵律判断单元213参照微韵律判断表212，判断基本频率分析单元211输出的基本频率的时间模式中是否包含声音合成装置200生成的微韵律，判断是否为合成声音，输出判断结果。
下面说明上述声音合成装置200和合成声音判断装置210的动作。图3为表示声音合成装置200的动作的流程图，图6和图7为表示合成声音判断装置210的动作的流程图。并且参照表示了存储在微韵律表205中的母音升调部和母音降调部的微韵律的示例的图4、模式地表示了韵律生成单元202中生成的韵律的一例的图5以及表示了微韵律判断表中存储到每个判断信息中的母音升调部和母音降调部的示例的图8进行说明。图5的模式图以“ォンセィゴゥセィ”为例表示韵律的生成过程，横轴表示时间，纵轴表示频率坐标上的基本频率的模式。用虚线407表示音素边界，用罗马字标记将区域内的音素表示在上部。宏模式生成单元204生成的莫勒单位内的基本频率用黑圈405表示，实折线401、404表示微韵律生成单元206生成的微韵律。
首先，声音合成装置200与一般的声音合成装置一样，用语言处理单元201对输入的文本进行形态要素解析和句法结构解析，输出各形态要素的读法、语调、句节句读及其依存关系(步骤S100)。宏模式生成单元204将读法变换成莫勒列，根据语调、句节句读和依存关系信息设定各莫勒中包含的母音的中央点的基本频率和声音强度以及莫勒的持续时间长度(步骤S101)。基本频率和声音强度这样设定如日本专利特开平11-95783号公报所公开的那样，以莫勒为单位利用统计方法由自然声音生成重音句的韵律模式，根据重音句的属性设定韵律模式的绝对位置，生成整个文本的韵律模式。用直线406插值1个莫勒中1点生成的韵律模式，求取莫勒内各点的基本频率(步骤S102)。
微韵律生成单元205确定合成的声音中的母音内紧挨母音之前为无声或紧挨母音之前为除去半母音的子音的母音(步骤S103)。对于符合步骤S103的条件的的母音，参照微韵律表205从像图5所示那样，在步骤S102通过直线插值求得的莫勒内的基本频率中的从音素开始点开始经过30msec时的点402的基本频率中抽出图4所示的母音升调部用的微韵律模式401，使该微韵律模式的终点一致地连接抽出的母音升调部用的微韵律模式，设定该母音的升调部的微韵律(步骤S104)。即使图4的点A与图5的点A一致地连接。
同样，微韵律生成单元205确定合成的声音中的母音内紧挨母音之后为无声或紧挨母音之后为除去半母音的子音的母音(步骤S105)。对于确定过的母音的降调部，参照微韵律表205从像图5所示那样，在步骤S102通过直线插值求得的莫勒内的基本频率中的音素终点30msec之前的基本频率403中抽出图4所示的母音降调部用的微韵律模式404，使该微韵律模式的始端一致地连接抽出的母音降调部用的微韵律模式，设定该母音的降调部的微韵律(步骤S105)。即使图4的点B与图5的点B一致地连接。
微韵律生成单元206输出莫勒列、和包含在S105、S106生成的微韵律的基本频率、宏模式生成单元204生成的声音强度以及莫勒的持续时间长度。
波形生成单元203用波形叠加法或音源过滤模型等，根据微韵律生成单元206输出的包含微韵律的基本频率、宏模式生成单元204生成的声音强度以及莫勒的持续时间长度以及莫勒列，生成声音波形(S107)。
下面参照图6和图7说明合成声音判断装置210的动作。合成声音判断装置210用基本频率分析单元211判断输入声音有无声音，将声音分成有声部和无声部(步骤S111)。接着，基本频率分析单元211根据在S111判断的有声部的基本频率求出每个分析帧的基本频率的值(步骤S112)。然后，微韵律判断单元213参照像图8所示那样与制造厂名相对应地记录了微韵律模式的微韵律判断表212，将在S112中抽出的输入声音的有声部的基本频率模式全部与存储在微韵律判断表212中的微韵律数据进行对照，将一致的模式的次数对每个声音合成装置的制造厂计数(步骤S113)。如果在输入声音的有声部发现2个以上的特定厂家的微韵律模式，则微韵律判断单元213判定为输入声音为合成声音，输出判断结果(步骤S114)。
下面再参照图7详细地说明步骤S113的动作。首先，为了对在S111中判断过的输入声音的有声部中在时间轴上位于最前的有声部进行母音升调模式的对照，将头部帧设定在抽出窗口的头部(步骤S121)，在时间轴上向后30msec的窗口长度上抽出基本频率模式(步骤S122)。将在S122中抽出的基本频率模式与图8所示存储到微韵律判断表212中的各制造厂的母音升调模式进行的对照(步骤S123)。如果在步骤S124的判断中抽出窗口内的基本频率模式与存储在微韵律判断表212中的模式的某一个一致(S124中为yes)，则将模式一致的制造厂的计数加1(步骤S125)。如果在步骤S124的判断中，在S122中抽出的基本频率模式与存储在微韵律判断表212中的母音升调模式中的任何一个都不一致(在S124中为no)，则将抽出窗口的头部前移1帧(步骤S126)，其中1帧为例如5msec。
判断能够抽出的有声部是否不足30msec(步骤S127)。如果在该判断中，能够抽出的有声部不足30msec，则认为有声部结束(S127中为yes)，为了继续对照母音降调模式，将有声部中在时间轴上位于最前的有声部的终点帧设定在抽出窗的最尾(步骤S128)。在时间轴的倒推30msec的窗口长度上抽出基本频率模式(步骤S129)。如果在S127中能够抽出的有声部超过30msec(S127中no)，则在时间轴上向后30msec的窗口长度上抽出基本频率模式，反复进行S122到S127的处理。将在S129中抽出的基本频率模式与图8所示存储到微韵律判断表212中的各制造厂的母音降调模式进行对照(步骤S130)。如果在步骤S131的判断中模式一致(S131中为yes)，则将模式一致的制造厂的计数加1(步骤S132)。如果在步骤S131的判断中在S129中抽出的基本频率模式与存储在微韵律判断表212中的母音降调模式的任何一个都不一致(S131中为no)，则将抽出窗口的最尾前移1帧(步骤S133)，判断能够抽出的有声部是否不足30msec(步骤S134)。当能够抽出的有声部不足30msec时，认为有声部结束(在S134中为yes)，如果从对照处理结束后的有声部开始在时间轴上向后还有输入声音中的在S112中判断过的有声部(在S135中为no)，则将下一个有声部的头帧设定为抽出窗口的头部，反复进行S121到S133的处理。如果在S134中能够抽出的有声部超过30msec以上(在S134中为no)，则在时间轴上倒推30msec的窗口长度上抽出基本频率模式，反复进行S129到S134的处理。
模式的一致用例如以下这样的方法进行判断。在声音合成装置200设定微韵律的30msec内，合成声音判断装置210在微韵律判断表212中每帧(例如5msec)的微韵律模式，用微韵律始点的频率为0的基本频率的相对值来表示。基本频率分析单元211分析过的基本频率在30msec的窗口内用微韵律判断单元213变换成每帧的值，再变换成使窗口的头部值为0的相对值。求出存储在微韵律判断表212中的微韵律模式与将基本频率分析单元211分析过的声音的基本频率表示为每帧的模式之间的相关系数，如果相关系数在0.95以上则认为一致。
在将具备记录了例如图4所示那样的微韵律模式的微韵律表205的A制造厂的声音合成装置200输出的合成声音，输入到合成声音判断装置210中的情况下，如果第1个母音的升调模式与A制造厂的模式一致，第1个母音的降调模式与C制造厂一致，但第2个母音的升调模式与A制造厂一致，则将该合成声音判定为是由A制造厂的声音合成装置合成的。之所以能够这样仅用2个地方的微韵律的一致判定为是用A制造厂的声音合成装置合成的声音，是因为在自然声音中即使发相同的母音，微韵律一致的概率也几乎为0，即使一个地方的微韵律一致的可能性也极小。
采用这样的结构，生成嵌入了每个制造厂固有的微韵律模式作为合成声音判断信息的声音合成。因此，为了仅变更不分析声音的周期性就不能抽出的基本频率的细微的时间模式来生成声音，必须改变通过分析声音获得的基本频率的时间模式，再次合成具有该基本频率并且具有原始声音的频率特性的声音。这样一来，通过嵌入作为基本频率的时间模式的判断信息，改变声音频率特性的滤波或均衡等合成声音生成后的处理就不能容易地改变合成声音。并且，该合成声音生成后的处理不能将判断信息嵌入到生成时不包含判断信息的合成声音或录音声音中。因此，能够确实地进行与其他方法生成的声音的判断。
并且，由于声音合成装置200将合成声音判断信息嵌入声音信号的主频带中，因此能够提供难以窜改判断信息、判断信息的可靠性高、对于防止假冒等特别有效的将信息嵌入声音中的方法。
而且，由于附加信息嵌入所谓基本频率的位于声音的主频带的信号中，因此能够提供这样一种将信息嵌入声音中的方法，即使对于电话等被限定在声音信号的主频带内的传输线路，也不会因附加信息而引起音质恶化，或不会因带宽狭窄而引起判断信息丢失的传输能力强、可靠性高。而且，能够提供即使对于数/模转换时的舍入处理或传输路径中信号丢失或混入噪音信号也不会丢失嵌入的信息的信息嵌入方法。
而且，微韵律本身为人耳难以识别其差异的细微的信息。因此，能够不招致音质恶化地将信息嵌入合成声音中。
另外，虽然在本实施形态中嵌入判断声音合成装置的制造厂的判断信息作为附加信息，但也可以嵌入合成装置的型号或合成方式等其他的信息。
另外，虽然在本实施形态中韵律宏模式用统计方法以莫勒为单位由自然声音生成重音句的韵律模式，但也可以用HMM之类的学习方法或对数轴上的临界控制二维曲线系之类的模型方法生成。
另外，虽然在本实施形态中使设定微韵律的区间为音素开始点后30msec或音素终点前30msec，但只要是足够生成微韵律的时间长度，这个值以外的值也可以。从论文等中可以知道，在音素边界的前后10毫秒～50毫秒(至少2音调(pitch)以上)左右的时间内能够观测微韵律，要听出其差异非常困难，可以认为微韵律对韵律特性几乎没有影响。作为现实的微韵律的观测范围，在20毫秒～50毫秒以上。之所以以50毫秒作为上限，是因为根据经验如果超过50毫秒以上，有可能超过母音的长度。
另外，虽然在本实施形态中认为每帧的相对的基本频率的相关系数在0.95以上为模式一致，但也可以使用此外的模式匹配方法。
另外，虽然在本实施形态中如果基本频率模式和与特定制造厂相对应的微韵律模式一致的次数在2次以上的话则判定为是该制造厂的声音合成装置合成的声音，但也可以用其他的判断标准。
(实施形态2)图9为本发明的实施形态2的声音合成装置和附加信息解读装置的功能方框图，图10为表示声音合成装置的动作的流程图，图13为表示附加信息解读装置的动作的流程图。图9中与图2相同的构成要素使用相同的附图标记，省略其说明。
图9中，声音合成装置300为将输入的文本变换成声音的装置，由语言处理单元201、韵律生成单元302和波形生成单元303构成，韵律生成单元302根据语言处理单元201输出的读法和语调、句节句读和依存关系信息决定生成的合成声音的基本频率、声音强度、韵律以及姿态的时机和时间长度，输出各莫勒的基本频率模式、强度模式、持续时间长度。
韵律生成单元302由宏模式生成单元204、微韵律表305、代码表308和微韵律生成单元306构成，微韵律表305使音素边界附近的韵律的细微的时间结构(微韵律)的模式与表示附加信息的代码相对应并将其存储；代码表308使附加信息与代码相对应并将其存储；微韵律生成单元306按照宏模式生成单元204输出的音韵持续时间中央点的基本频率、声音强度，嵌入与附加信息的代码相对应的微韵律，生成各音韵内的韵律模式。而且在声音合成装置300的外部设置有加密处理单元307，加密处理单元307用伪随机数改变附加信息与表示附加信息的代码的对应，将附加信息加密，生成解读密码的密钥信息。
附加信息解读装置310为根据输入声音和密钥信息抽出嵌入到声音中的附加信息并输出的装置，由基本频率分析单元211、密码解读单元312、代码表315、微韵律表313和代码检测单元314构成，密码解读单元312以加密处理单元307输出的密钥信息为输入，生成作为附加信息的假名文字与代码的对应；代码表315保存密码解读单元312生成的假名文字与代码的对应；微韵律表313将微韵律模式与对应的代码一起存储；代码检测单元314参照微韵律表313，根据基本频率分析单元211输出的基本频率的时间模式中包含的微韵律生成代码。
下面根据图10、图13的流程图说明上述声音合成装置300和附加信息解读装置310的动作。并且参照表示了以“マッシタ”为例将存储在微韵律表305中的有声升调部的微韵律和添加了与各微韵律模式的对应的代码进行代码化的示例的图11、以及模式地表示了将存储在微韵律表305中的有声升调部的微韵律应用到有声降调部中的方法的图12进行说明。
图11(a)为表示代码表308的一例的图，以列记号和行号的组合为代码，各代码与作为附加信息的假名文字对应。图11(b)为表示微韵律表305的一例的图，以列记号和行号的组合为代码，各代码中与微韵律对应。作为附加信息的假名文字根据代码表308变换成代码。而且，代码根据微韵律表305变换成微韵律。图12为以将代码B3的微韵律应用于有声升调部、将C3的微韵律应用于有声降调部时的情况为例模式地表示微韵律的生成方法的图，图12(a)为表示微韵律表305的图，图12(b)为表示微韵律在时间轴上的翻转处理的图，图12(c)为表示基本频率模式相对于需要在横轴表示时间、纵轴表示频率的坐标上进行合成的声音的一部分的曲线图。该曲线图用虚线425表示有声与无声的边界。并且，黑圈421表示宏模式生成单元204生成的莫勒单位的基本频率，实曲线423、424表示微韵律生成单元306生成的微韵律。
首先，声音合成装置300与实施形态1一样用语言处理单元201进行形态要素解析和句法结构解析，输出各形态要素的读法、语调、句节句读及其依存关系(步骤S100)。宏模式生成单元204设定各莫勒中包含的母音的中央点的基本频率和声音强度以及莫勒的持续时间长度(步骤S101)。用直线插值每个莫勒中1点生成的韵律模式，求取莫勒内各点的基本频率(步骤S102)。
而加密处理单元307用伪随机数重新排列为了用1个文字1个代码表现作为附加信息的假名文字的假名文字与代码的对应，将图11(a)所示的假名文字与代码(A1、B1、C1、……)的对应记录到代码表308中(步骤S201)。然后，加密处理单元307输出图11(a)所示那样的假名文字与代码的对应作为密钥信息(步骤S202)。
微韵律生成单元306将需要嵌入到输入声音信号中的附加信息变成代码(步骤S203)。图11表示将附加信息“マッシタ”变成代码的示例。参照将用假名文字构成的附加信息保存到代码表308中的假名文字与代码的对应，抽出与各假名文字相对应的代码。在“マッシタ”的例中，图11(a)中“マ”与“A4”相对应，“ッ”与“C1”对应，“シ”与“C2”对应，“タ”与“B4”对应。因此与“マッシタ”相对应的代码为“A4 C1 C2 B4”。微韵律生成单元306确定合成的声音中的有声部(步骤S204)，对于该有声部的有声部开始点之后30msec的区间以及有声部终点之前的30msec的区间，分别分配从声音的头部开始在S203中代码化以后的附加信息(步骤S205)。
对于在S204中确定的各有声部，参照微韵律表305抽出与在S205中分配到的代码相对应的微韵律模式(步骤S206)。抽出与例如图11那样在S203中生成的与“マッシタ”相对应的代码“A4 C1 C2 B4”相对应的微韵律。对于有声部开始点之后的30msec的区间，在像图11(b)那样微韵律模式仅由整体向右上升的有声部开始点用的模式构成的情况下，如图12所示那样，抽出与在S205中分配到的代码相对应的微韵律模式(图12(a))，使抽出的微韵律模式的终点与有声部开始点之后的点的30msec内的基本频率一致地连接(图12(c))，设定该有声部开始点的微韵律423。并且，在有声部终点之前的30msec的区间内，像图12(a)所示那样抽出与在S205中分配到的代码相对应的微韵律，像图12(b)所示那样使时间方向翻转，生成全部向右下降的微韵律模式，像图12(c)所示那样使微韵律模式的始端与有声部终点之前30msec的微韵律模式的值一致地连接，设定该母音降调部的微韵律424。微韵律生成单元206输出莫勒列和包括在S206中生成的微韵律的基本频率、宏模式生成单元204生成的声音强度以及莫勒的持续时间长度。
波形生成单元203用波形叠加法或音源过滤模型等根据微韵律生成单元306输出的包含微韵律的基本频率、宏模式生成单元204生成的声音强度以及莫勒的持续时间长度以及莫勒列生成声音波形(S107)。
接着，附加信息解读装置310用基本频率分析单元211判断输入声音有无声音，将声音分成有声部和无声部(步骤S111)。接着，基本频率分析单元211根据在S111判断的有声部的基本频率求出每个分析帧的基本频率的值(步骤S112)。而密码解读单元312根据输入的密钥信息，将作为附加信息的假名文字与代码对应，记录到代码表315中(步骤S212)。代码检测单元314参照微韵律表313，对于在S112中抽出的输入声音的有声部的基本频率，从声音的头部开始确定与该有声部的基本频率模式一致的微韵律模式(步骤S213)，抽出与确定的微韵律模式相对应的代码(步骤S214)，记录代码列(步骤S215)。对于一致的判断与实施形态1相同。当代码检测单元314将S213的该有声部的基本频率模式与记录在微韵律表313中的微韵律模式进行对照时，对于有声部开始点之后的30msec的区间与记录在微韵律表313中的有声部开始点用的模式进行对照，抽出与一致的模式相对应的代码。并且，对于有声部终点之前的30msec的区间，与记录在微韵律表313中的有声部终点用模式——即将有声部开始点用的模式的时间方向翻转后的模式进行对照，抽出与一致的模式相对应的代码。如果在步骤S216中判定为该有声部为输入声音信号中的最后的有声部(步骤S216中为yes)，则代码检测单元参照代码表315，将与从声音的头部开始按顺序排列、记录了的微韵律相对应的代码排列变换成作为附加信息的假名文字列(步骤S217)。如果在步骤S216中判定为该有声部不是输入声音信号中的最后的有声部(步骤S216中为no)，则对在声音信号的时间轴上的下一个有声部进行从S213到S215的动作。在对声音信号中的所有的有声部进行了S213到S215的动作后，将与输入声音中的微韵律相对应的代码的排列变换成假名文字并输出。
如果采用这样的结构，通过生成嵌入了附加有与表现附加信息的特定代码的对应关系的微韵律模式的合成声音，并且用伪随机数改变每个执行合成处理的附加信息与代码的对应，通过另外生成表示附加信息与代码的对应关系的密钥信息，能够提供利用合成声音生成后的过滤或均衡之类的处理不容易改变、防窜改的可靠性高的将信息嵌入到声音中的方法。不仅如此，由于嵌入附加信息作为基本频率的细微的时间结构即微韵律模式，因此附加信息嵌入到声音信号的主频带中，能够提供即使对于电话等被限定在声音信号的主频带内的传输线路也不会因嵌入附加信息而引起音质恶化，或者不会因带宽狭窄而引起附加信息丢失的、对传输的可靠性高的将附加信息嵌入声音中的方法。而且能够提供即使对于数/模转换时的舍入处理或传输路径中的信号丢失或混入噪音信号也不会丢失嵌入的信息的信息嵌入方法。而且，通过用伪随机数改变每个声音合成动作的附加了与微韵律的对应关系的代码与附加信息之间的对应关系将附加信息加密，制作只有用于解读的密钥信息的所有者能够解读的状态，能够提高信息的保密性。另外，虽然在本实施形态中通过用伪随机数改变作为附加信息的假名文字与代码的对应关系来将附加信息加密，但也可以用改变代码与微韵律模式的对应关系等其他的方法来加密附加信息与微韵律模式的对应关系。另外，虽然在本实施形态中附加信息为假名文字列，但也可以是英文数字列等其他种类的信息。
另外，虽然在本实施形态中加密处理单元307输出假名文字与代码的对应关系作为密钥信息，但只要声音合成装置300生成合成声音所使用的假名文字与代码的对应关系是附加信息解读装置310中能够再现的信息，也可以输出用于从预先准备的多个对应表中选择代码的编号、输出用于生成对应表的初始值等其他的信息。
另外，虽然在本实施形态中将有声部开始点的微韵律模式在时间方向翻转作为有声部终点的微韵律模式，两者与相同的代码相对应，但有声部开始点和有声部终点点也可以具有独立的微韵律模式。
另外，虽然在本实施形态中韵律的宏模式用统计方法以莫勒为单位由自然声音生成重音句的韵律模式，但也可以用HMM之类的学习方法或对数轴上的临界控制二维曲线系之类的模型方法生成。
另外，虽然在本实施形态中使设定微韵律的区间为音素开始点之后的30msec或音素终点之前的30msec，但只要是足够生成微韵律的时间长度，这个值以外的值也可以。
另外，设定微韵律的升调部或降调部包括图3的步骤S103和步骤S105以及图10的步骤S205中说明过部分，只要在以下的部分中设定微韵律就可以。即，只需在以下区域内设定微韵律就可以不超过包括音素边界的音素长度的预定时间长度的区域，即之前为无声的有声开始点之后的预定时间长度的区域，之后为无声的有声终点之前的预定时间长度的区域，之前为无声的有声开始点之后的预定时间长度的区域，之后为无声的有声终点之前的预定时间长度的区域，之前为子音的母音开始点之后的预定时间长度的区域，之后为子音的母音终点之前的预定时间长度的区域，之前为无音的母音开始点之后的预定时间长度的区域，之后为无音的母音终点之前的预定时间长度的区域。
另外，虽然在实施形态1和实施形态2中，将被称为微韵律的符号与音素边界前后的规定区域内的基本频率的时间模式对应来嵌入信息，但只要是人难以注意到韵律变化的区域，或者韵律变化不会造成不适区域，或者韵律变化不会引起音质或嘹亮度恶化的感觉的区域，也可以是其他的区域。
另外，本发明也使用于日语以外的语言。
本发明的将信息嵌入到合成声音中的方法和可以嵌入信息的声音合成装置具有往合成声音的韵律中嵌入与该声音不同的信息的方法或单元，对于往声音信号中附加不影响韵律的信息有用。可以用于防止假冒等用途。
权利要求
1.一种合成声音的声音合成装置，具有根据合成声音生成信息生成声音的韵律信息的韵律生成单元和根据上述韵律信息合成声音的合成单元，其特征在于，上述韵律生成单元在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
2.如权利要求1所述的声音合成装置，其特征在于，上述不超过包括音素边界的音素长度的预定时间长度的区域为以下区域之前为无声的有声的有声开始点之后的预定时间长度的区域，之后为无声的有声的有声终点之前的预定时间长度的区域，之前为无音的有声的有声开始点之后的预定时间长度的区域，之后为无音的有声的有声终点之前的预定时间长度的区域，之前为子音的母音的母音开始点之后的预定时间长度的区域，之后为子音的母音的母音终点之前的预定时间长度的区域，之前为无音的母音的母音开始点之后的预定时间长度的区域，之后为无音的母音的母音终点之前的预定时间长度的区域。
3.如权利要求1所述的声音合成装置，其特征在于，上述预定时间长度为10毫秒以上50毫秒以下的时间长度。
4.如权利要求1所述的声音合成装置，其特征在于，上述符号信息为用来判断是否为合成声音的判断信息。
5.如权利要求1所述的声音合成装置，其特征在于，还包括将规定的信息加密的加密单元，上述符号信息为加密后的信息，该符号信息用密钥信息解读。
6.如权利要求5所述的声音合成装置，其特征在于，上述加密单元还生成上述密钥信息。
7.如权利要求1所述的声音合成装置，其特征在于，上述符号信息由微韵律来表现。
8.一种判断输入声音是否为合成声音的合成声音判断装置，其特征在于，包括以下单元计算每个预定时间长度的帧中上述输入声音的基本频率的基本频率计算单元；在不超过包括音素边界的音素长度的预定时间长度的区域内判断上述基本频率计算单元算出的多个声音的基本频率中是否包含用来判断是否为上述合成声音的判断信息，通过这一判断来判断上述输入声音是否为合成声音的判断单元。
9.一种解读嵌入到输入声音中的附加信息的附加信息读取装置，其特征在于，包括以下单元计算每个预定时间长度的帧中上述输入声音的基本频率的基本频率计算单元；在不超过包括音素边界的音素长度的预定时间长度的区域内，根据上述基本频率计算单元算出的多个声音的基本频率抽出用频率列表示的规定的附加信息的附加信息抽出单元。
10.如权利要求9所述的附加信息读取装置，其特征在于，上述附加信息被加密，而且具备使用用于解读的密钥信息解读加密后的上述附加信息的解读单元。
11.一种合成声音的声音合成方法，其特征在于，包括根据合成声音生成信息生成声音的韵律信息的韵律生成步骤，上述韵律生成步骤在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
12.一种使计算机具备声音合成装置的功能的程序，其特征在于，使计算机具备根据合成声音生成信息生成声音的韵律信息的韵律生成单元以及根据上述韵律信息合成声音的合成单元的功能，上述韵律生成单元在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
13.一种记录了使计算机具备声音合成装置的功能的程序的计算机可以读取的记录媒体，其特征在于，上述程序使计算机具备根据合成声音生成信息生成声音的韵律信息的韵律生成单元以及根据上述韵律信息合成声音的合成单元的功能，上述韵律生成单元在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
全文摘要
一种能够不引起音质恶化或不受带宽限制地将不可能变形的附加信息嵌入到合成声音中的声音合成装置，具有生成根据文字列生成合成声音所必需的合成声音生成信息的语言处理单元(201)、根据上述合成声音生成信息生成声音的韵律信息的韵律生成单元(202)、根据韵律信息合成声音的波形生成单元(203)，上述韵律生成单元(202)在不超过包含音素边界的音素长度的预定时间长度区域的上述韵律信息中嵌入作为不影响韵律的信息的符号信息。
文档编号G10L13/02GK1826633SQ20058000007
公开日2006年8月30日申请日期2005年4月5日优先权日2004年6月4日
发明者加藤弓子, 釜井孝浩申请人:松下电器产业株式会社

本文推荐声音合成装置的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656341483.html

当前位置：网站首页>专利 >正文

声音合成装置的制作方法

相关推荐