专利名称:文本到语音设备的制作方法
技术领域:
本发明涉及用于对字符数据进行转换并输出语音的文本到语音(text-to-speech)朗读设备、程序和方法,其中字符数据包括文档中的表音 字符(phonetic character)。更具体地,本发明涉及用于根据朗读速度(例如 高朗读速度)控制音素(phoneme)长度(具体地,增大/减小特定音素长度 等)的文本到语音朗读设备、程序和方法。
背景技术:
众所周知,所谓"文本到语音朗读"的技术是对包括表音字符的字符数 据进行分析,通过语音合成技术从该字符数据中合成语音,并以语音的形式 输出该字符数据。对于例如移动电话的移动终端设备,开始广泛使用用于朗 读电子邮件等中任意句子的语音合成功能。对于个人计算机(PC),开始流 行所谓"屏幕阅读器"的软件。为了理解句子内容,表示对听觉起作用的元 音、辅音、停顿等的音素长度是增强识别的重要因素。关于这种文本到语音朗读,日本特开专利公布No. 6-149283 (专利文献 1,例如发明内容和图1)公开了一种语音合成技术。其中,当发声速度 (utterance-speed)信息指示小于预定值的速度时,则基于该话语速度信息将 话语速度增大为大于正常话语速度的速度。当话语速度信息指示具有预定值 或更大值的速度时,则基于该话语速度信息将话语速度减小为小于正常话语 速度的速度。如此,设定与话语速度信息相对应的大的短音节(mora)长度, 并将帧周期设定为最大值。现在假定,话语速度(speech speed)(也即朗读速度)被配置为是可设 定的,并以与话语速度成反比例的方式设定每个音素长度。例如,当话语速 度加倍时,音素长度则减至1/2;而当话语速度减至1/2时,音素长度则加倍。 将话语速度和音素长度之间的关系设定为这种简单关系,即上述话语速度和 音素长度相互之间成简单反比例的关系,可能导致听觉困难、给人不愉快的 感觉、以及高速或低速朗读时的识别衰减,即使其在正常话语速度下听起来是自然的(即可轻松听到的)。然而,日本特开专利公布既未公开或暗示这种需求和问题,也未公开或 暗示用于解决这种需求和问题的方案。发明内容根据本发明实施例的一个方面提供一种用于将文本数据转换为声音信 号的设备,包括音素确定器,用于确定与多个音素相对应的音素数据以及 与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为所述 声音信号的所述文本数据中的一系列音素之间;音素长度调整器,用于分别根据所述声音信号的速度确定所述音素的长度,以及选择性调整所述音素中 紧接在一个所述停顿之后的至少一个音素的长度,使得所述至少一个音素与 其它音素相比在时间上被相对延长,以此调整所述音素数据和所述停顿数据;以及输出单元,用于基于通过所述音素长度调整器所调整的音素数据和 停顿数据,输出所述声音信号。
图1为示出根据本发明第一实施例的文本到语音朗读设备的结构示例的 框图;图2为示出该文本到语音朗读设备中的音素长度控制器的结构示例的框图;图3为示出整合有该语音朗读设备的移动终端设备的一个示例框图;图4为该移动终端设备的结构示例;图5为示出屏幕上的显示示例的示意图;图6为示出根据该第一实施例的用于控制音素长度的处理过程的一个示 例的流程图;图7为示出根据本发明第二实施例的用于控制音素长度的处理过程的一 个示例的流程图;图8为示出根据本发明第三实施例的用于控制音素长度的处理过程的一 个示例的流程图;图9为示出根据本发明第四实施例的音素长度控制器的框图;图10为示出根据该第四实施例的用于控制音素长度的处理过程的一个示例的流程图;图11为示出根据本发明第五实施例的音素长度控制器的框图; 图12为示出根据该第五实施例的用于控制音素长度的处理过程的一个 示例的流程图;图13为示出根据本发明第六实施例的用于控制音素长度的处理过程的 一个示例的流程图;图14为示出根据本发明第七实施例的用于控制音素长度的处理过程的 一个示例的流程图;图15为示出根据本发明第八实施例的用于控制音素长度的处理过程的 一个示例的流程图;图16为示出根据本发明第九实施例的用于控制音素长度的处理过程的 一个示例的流程图;图17为示出根据本发明第十实施例的文本到语音朗读设备中的参数生 成器的结构示例的框图;图18为示出根据该第十实施例的用于控制音素长度的处理过程的一个 示例的流程图;图19为示出包括话语速度调整单元的参数生成器的框图;图20为示出用于控制音素长度的处理过程的一个示例的流程图;图21为示出语言处理结果的表;图22为示出所生成的音素长度示例的表;图23为示出所生成的音素长度示例的表;图24a、图24b和图24c分别示出语音合成波形;图25a和图25b分别示出语音合成波形;图26a和图26b分别示出语音合成波形;图27a和图27b分别示出语音合成波形;图28a和图28b分别示出语音合成波形;图29a和图2%分别示出语音合成波形;图30a和图30b分别示出语音合成波形;图31a和图31b分别示出语音合成波形;以及图32为示出调整音素长度的示例的表。
具体实施方式
第一实施例下面将参照图1和图2描述本发明的第一实施例。图1为示出文本到语 音朗读设备的结构示例的框图。图2为示出该文本到语音朗读设备中的音素 长度控制单元的结构示例的框图。语音朗读设备(语音读出设备、文本到语音读出设备)2为根据本发明 的用于文本到语音朗读的设备结构、程序和方法的一个示例,并且通过计算 机实现。例如,文本到语音朗读设备2包括语音合成装置,该语音合成装置 将诸如文本句子(例如,具有日语中汉字(kanji)和假名(kana)的文本) 的字符数据转换为语音并输出该语音。根据话语速度(也即朗读速度)控制 字符数据中紧接在停顿之后的音素的音素长度,以增强听取由该字符数据产 生的输出语音的轻松度以及改善合成语音(朗读输出)的识别。待朗读的字 符数据包括表音字符、表音字符串以及停顿。表音字符或表音字符串为包括 f主音(phonetic transcription)的中间i吾言(intermediate language), 其中i亥 注音具有用于语音合成的韵律符号(prosodic symbol)。韵律符号的示例之 一是假名字符。包括在字符数据中的停顿(pause)表示无声期间(voiceless period),例如不进行语音转换的期间。例如,在以罗马字符表示的日语句 子"so tsugyoshi te, shinyou kin koni..."中,逗号","表示在"so tsugyoshi te" 和"shinyou kin koni"之间存在的无声期间,并且该逗号即为停顿的一个示 例。日语句子"so tsugyoshi te, shinyou kin koni..."的意思是"(他)从(高 中)毕业之后,(他就)在银行(工作)…"。换句话说,"so tsugyoshi te" 的意思是"毕业之后",而"shinyou kin koni"的意思是"在银行"。关于 需控制紧接在停顿之后的音素的音素长度的信息不包括,例如,日语sokuon (由日语中小型假名字符"tsu"表示的发音)和紧接在爆破音(plosive)之 前的无声期间。日语sokuon被称为英语中的长辅音(geminate consonant)或 双辅音(double consonant)。呼吸群(breath group)为一次呼吸中的人类语 言的单位,且呼吸群之前和之后是用于呼吸的停顿。为了实现这种功能,如图1所示,文本到语音朗读设备2包括语言处理器(语言处理单元)4、词典6、参数生成器(参数生成单元)8、基音(pitch) 提取/连接单元(基音提取/搭接单元)10以及波形库12。语言处理器4用作语言处理装置,用于输入具有汉字和假名的文本,通 过参阅词典6分析词,确定注音、重音(accent)和声调(intonation),以 及输出表音字符串(中间语言)。词典6包含词类(语法说明等)、注音、 重音位置等。按自然法规(physically),重音和声调与基音频率(pitch frequency)的 时间变化模式紧密相关。特别地,基音频率在重音位置增大,并根据声调的 增大而减小。因此,基于文本中的标点符号和/或通过词分析提取的短语,语 言处理器4将输入文本划分为呼吸群。参数生成器8用作参数生成装置,用于设定音素持续时间、停顿持续时 间、以及基音频率模式。参数生成器8根据话语速度控制音素长度。参数生成器8包括音素长度设定器(音素长度设定单元)14、音素长度 表16、音素长度控制器(音素长度控制单元)18、以及基音模式生成器(基 音模式生成单元)20。在通过语言处理器4生成表音字符串的阶段,确定待语音合成的音素。 音素长度设定器14用作这样的装置,该装置用于设定每个音素的音素长度; 并且,音素长度设定器14设定正常话语速度下的音素长度。音素长度表16 用作存储音素长度的装置,其中该音素长度是在正常话语速度下使用的,并 且该音素长度与音素以及之前和之后的音素相关联。相应地,作为设定音素 长度的示例,将正常话语速度下所使用的且与音素以及之前和之后的音素相 关联的音素长度(从数据库提取到的值)存储于音素长度表16中,并参考 这些值设定音素长度。可根据其它参数要素更改音素长度。音素长度控制器18用作音素长度控制装置。也就是,根据话语速度, 音素长度控制器18控制正常话语速度下使用的并由音素长度设定器14设定 的音素长度。从用于调整朗读速度(由用户等设定)的装置(未示出)或类 似装置,将话语速度提供给音素长度控制器18,作为控制信息。如图2所示,音素长度控制器(音素长度控制单元)18包括音素长度调 整单元(音素长度调节单元)24、话语速度确定单元(话语速率确定单元、 讲话速率确定单元)26以及音素确定单元28。响应于从话语速度确定单元26和音素确定单元28中每一个确定的输出,音素长度调整单元24调整音素 的长度或停顿的长度。话语速度确定单元26确定输入的话语速度,确定该 话语速度属于正常速度、高速度、低速度中的哪一个,并将得到的确定输出 (determination output)提供给音素长度调整单元24。在这种情况下,从话 语速度确定单元26提供的确定输出包括表示话语速度级别的输出,也即正 常速度、高速度、或低速度。音素确定单元28确定音素(其具有由音素长 度设定器14 (图1)设定的音素长度)、停顿等,并将得到的确定输出提供 给音素长度调整单元24。根据音素长度控制器18,对音素长度进行调整,以使得其与预定话语速 度和正常话语速度的比成反比例。例如,假定正常话语速度约为每秒7个短 音节,当话语速度被设定为每秒14个短音节时,每个音素长度被调整为减 半;当话语速度被设定为每秒6个短音节时,每个音素长度被调整为7/6。 在这种情况下,短音节表示节拍,并当以假名字符书写时为大致对应于一个 字符的单位。具有双重元音(例如,小型日语假名字符"ya"、 "yu"和"yo", 为了描述方便而以罗马字符表示)的假名字符,例如假名字符"kya",均 为一个短音节。在日语的情况下, 一个字符(短音节)具有类似的长度。基音模式生成器20用作模式生成装置,用于考虑到表音字符串中的重 音信息等设定每个音素的基音周期。基音提取/连接单元10用作基音分割/连接装置,其采用例如PSOLA (基 音同步交叠相加,Pitch Synchronous OverLap and Add)方法,PSOLA方法 为使用波形交叠相加技术的基音转换方法。波形库12包含音素标志 (phoneme label)和基音标记,其中音素标志表示声音的特定部分与哪些音 素相对应,基音标记表示所发声音(voice sound)的基音周期。基音提取/ 连接单元10基于由参数生成器8生成的参数,从波形库12提取对应于两个 周期的语音波形,将该语音波形与窗函数(例如,汉宁(Harming)窗)相 乘,并且如果需要的话,执行将所得到的波形乘以用于振幅调节的增益的处 理。此后,当期望的基音频率不同于波形库12中的基音频率时,基音提取/ 连接单元10执行基音转换,交叠以及相加所提取的波形,并输出合成的语 音信号。下面将参照图3、图4和图5描述文本到语音朗读设备2的硬件。图3为示出整合有文本到语音朗读设备2的移动终端设备的一个示例的框图,图4为示出移动终端设备的结构示例的示意图,以及图5为屏幕上的显示示例。移动终端设备(便携式终端、便携式终端装置)200为其中应用有文本 到语音朗读设备2的一个示例,并且根据本发明的用于文本到语音朗读的设 备、方法和程序并不局限于移动终端设备200的结构。移动终端设备200具 有通信功能,以及具有将诸如电子邮件文本的文本句子(例如,在日语情形 下,具有汉字和假名的文本)中的字符数据转换为语音并输出该语音的功能。 因此,如图3所示,移动终端设备200包括处理器202、存储单元204、无 线通信单元(无线电单元、无线单元)206、输入单元208、显示单元210、 声音输入单元(语音输入单元、嗓音输入单元)212以及声音输出单元(语 音输出单元、嗓音输出单元)214。处理器202用作控制装置,用于控制电话通信、执行例如语音合成的语 音朗读等。通过CPU (中央处理器单元)或MPU (微处理器单元)实现处 理器202,以执行存储单元204中所存储的OS (操作系统)和应用程序。应 用程序包括用于执行语音朗读处理过程的程序。存储单元204为存储介质,其存储由处理器202执行的程序以及用于程 序执行的各种数据,并且还提供处理区。存储单元204包括程序存储部216, 数据存储部218以及RAM (随机存取存储器)220。程序存储部216存储 OS和应用程序。数据存储部218包含词典6、波形库12、音素长度表16 (图 1)以及上述数据。RAM220提供工作区。无线通信单元206用作无线通信装置,用于向/从基站发射/接收音频信 号无线电波、包信号无线电波等。无线通信单元206受处理器202控制。输入部208用作通过用户操作将控制数据和响应输入到在显示单元210 上的显示的对话框的装置。输入装置208包括键盘、触摸板等。显示单元210受控于处理器202,并用作显示字符、图形等的显示装置。 通过例如LCD (液晶显示器)装置实现显示单元210。显示单元210显示用 于朗读的文本句子等。声音输入单元212用作声音输入装置,其受控于处理器202。声音输出 单元212包括麦克风222。通过麦克风222将输入的声音转换为音频信号, 该音频信号随后被转换为数字信号并被发送至处理器202。声音输出单元214用作声音输出装置,其受控于处理器202。声音输出 单元214包括接收器224以及用作声音转换装置的扬声器226R和226L。通 过接收器224以及扬声器226R和226L再现用于朗读的合成语音。在移动终端设备200中,上述文本到语音朗读设备2由处理器202、存 储单元204、显示单元210、声音输出单元214等构成。如图4所示,移动终端设备200具有壳体228,壳体228包括例如第一 壳体单元230和第二壳体单元232。壳体单元230和232通过铰链部分234 相互耦接,从而可折叠。壳体单元230具有输入单元208和麦克风222。壳 体单元232具有显示单元210、接收器224以及扬声器226R和226L。输入 单元208具有用于输入字符等的符号键236、光标键238以及回车键(enter key) 240等。移动终端设备200能够朗读各种文本句子,包括电子邮件文本和小说文 本。对在显示单元210的屏幕242上显示的句子等进行语音合成,并通过接 收器224或扬声器226R和226L再现该语音。在这种情况下,如图5所示, 在显示单元210的屏幕242上显示邮件文本,并以语音的形式输出该邮件文 本。在这个不例中,句子"yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu."显示在屏幕242上,并l皮再现为语音形式。 "yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu"表不日语发音。日语句子"yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nenme desu"在英语中的意思也是"他从高中毕业之 后,他己在银行工作了四年(after he graduated from high school, he has worked at a bank for 4 years )"。下面将参照图6描述音素长度的控制。图6为示出根据该第一实施例的 用于控制音素长度的处理过程的一个示例的流程图。该处理过程为用于文本到语音朗读的程序或方法的一个示例。第一实施 例中的处理包括确定正被处理的音素是否为紧接在停顿之后的音素,即是否 为语音头(speech head)(每个呼吸群中的第一个音素)的处理或步骤;还 包括在音素为语音头处的音素时增大该音素的音素长度的处理或步骤,作为 控制音素长度的处理或步骤。通过文本到语音朗读设备2 (图1)中的音素 长度控制器18 (图2)执行这个处理过程。在这个实施例中,根据话语速度对语音头进行更改(modify),并将音素长度设定为其它音素的音素长度的 1.5倍,以增强听取的轻松度。在这个处理过程中,如图6所示,在步骤S101执行语言处理,以及在 步骤S102执行音素长度设定处理。具体而言,语言处理器4执行语言处理 (步骤S101),以基于输入的数据生成表音字符串,并确定在这个阶段待语 音合成哪个音素。接下来,音素长度设定器14执行音素长度设定处理(步 骤S102),以设定关于每个音素在正常话语速度下的音素长度。在这种情况 下,通过参考音素长度表16,将对应于该音素以及之前和之后音素的每个音 素长度设定为正常话语速度下所用的音素长度。在音素长度设定处理之后,作为呼吸群中音素的处理,在步骤S103对 音素编号n进行初始化(n=l),并在步骤S104到S110根据话语速度执行 音素长度控制。对每个呼吸群均执行音素长度控制。从步骤S105到S109的 流程示出了对该呼吸群中音素的处理。音素长度控制包括确定待控制的音素 的处理,以及根据确定结果调整音素长度的处理。基于输入的话语速度信息的识别,音素长度控制器18根据话语速度控 制音素长度。在这种情况下,在步骤S104,将音素长度设定为固定倍数。在 步骤S105,作出判定以确定所设定的话语速度是否为高朗读速度,以及确定 正被处理的音素是否为第一个音素(即,n=l)。因此,在这个处理中,紧 接在停顿之后的音素的音素长度被指定为待调整的音素长度。当话语速度为高朗读速度且音素为第一个音素(11=1,即步骤S105为是) 时,在步骤S106将音素长度设定或调整为预定倍数,例如1.5倍。另一方面, 当话语速度并不高和/或音素不为第一个音素(n=l,即步骤S105为否)时, 不对音素长度进行调整。进行调整或没有进行调整之后,在步骤S107,对音 素编号n进行更新(即11=11+1)。在步骤S108,作出判定以确定是否已完成 对该呼吸群中所有音素的处理,也即,该呼吸群中音素的编号n是否已达到 音素的数量n。因此,执行了对该呼吸群中所有音素的处理。当已完成对该呼吸群中所有音素的处理并且到达该呼吸群结尾处的停 顿时,在步骤S109,根据话语速度将停顿的长度设定为固定倍数。在步骤 SllO,作出判定以确定是否己完成对输入数据中全部数据的处理。重复从步 骤S103到S110的处理,直到已完成对全部数据的处理。在完成处理之后,在步骤Sill执行语音合成并输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素进行调整,并且 将紧接在停顿之后的音素的音素长度调整为例如高速度朗读时的1.5倍。这种设置消除了高速度朗读中的不清楚,因此便于听取(hearing),从而能够 改善文本转换为语音的识别。 第二实施例下面将参照图7描述本发明的第二实施例。图7为示出根据第二实施例 的用于控制音素长度的处理过程的一个示例的流程图。这个处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是 利用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。 在第二实施例中,除了第一实施例中执行的音素长度调整之外,还作出判定 以确定音素是否为摩擦音。进一步,当话语速度为高朗读速度时,增大所确 定的摩擦音的音素长度,以调整该音素长度。这种设置能够增强听取的轻松 度,而不会额外增加文本到语音朗读的再现时间的总量。在第二实施例中,为了识别音素长度待增大的音素,音素确定单元28 (图2)确定音素是否为摩擦音。基于该确定,执行用于增大摩擦音的音素 长度的处理。在这个处理过程中,如图7所示,在步骤S201执行语言处理,以及在 步骤S202执行音素长度设定处理。在语言处理(步骤S201)和音素长度设 定处理(步骤S202)之后,作为针对呼吸群中音素的处理,在步骤S203对 音素编号n进行初始化(n=l),以及在步骤S204到S214,根据话语速度 执行音素长度控制。与第一实施例中一样,对每个呼吸群均执行音素长度控 制。基于输入的话语速度信息的识别,音素长度控制器18根据话语速度控 制音素长度。在这种情况下,在步骤S204,音素长度控制器18将音素长度 设定为固定倍数。在步骤S205,音素长度控制器18确定话语速度是否为高 朗读速度以及音素是否为第一个音素(n=l)。在这个确定处理中,紧接在 停顿之后的音素(语音头)的音素长度被指定为待调整的音素长度。当话语速度为高朗读速度且音素为第一个音素(11=1,即步骤S205为是) 时,在步骤S206作出判定以确定该音素是否为摩擦音。当话语速度为高朗读速度且音素为第一个音素(n=l)和摩擦音(步骤S206为是)时,在 步骤S207将该音素的音素长度设定或调整为预定倍数a (例如01=1.7)。当 音素既不是第一个音素(n=l)也不是摩擦音(步骤S208为否)时,不对该 音素的音素长度进行调整。也就是说,在这种情况下则保持音素长度在步骤 S204被设定为固定倍数的状态。另一方面,当话语速度是高朗读速度且音素是第一个音素(步骤S206 为否)时,在步骤S209将其音素长度设定或调整为预定倍数P (例如(3=1.5)。 当话语速度为高朗读速度且音素为摩擦音(步骤S208为是)时,在步骤S210 将其音素长度设定或调整为预定倍数Y (例如fl.4)。因此,当话语速度为高朗读速度且音素为第一个音素和摩擦音时,当话 语速度为高朗读速度且音素为第一个音素时,当话语速度为高朗读速度且音 素为摩擦音时,或者当音素既不是第一个音素也不是摩擦音时,如表3200 所示(图32)对其音素长度进行调整或不进行调整。在上述处理之后,在步骤S211对音素编号n进行更新(n=n+l)。在步 骤S212,作出判定以确定是否己完成对该呼吸群中所有音素的处理。作为这 个处理的结果,执行了该呼吸群中所有音素的处理。当已处理了该呼吸群中的所有音素且到达该呼吸群结尾处的停顿时,在 步骤S213,根据话语速度将停顿的长度设定为固定倍数。在步骤S214,作 出判定以确定是否已完成对全部数据的处理。重复从步骤S203到S214的处 理,直到已完成对全部数据的处理。在完成处理之后,在步骤S215执行语 音合成并输出语音。这样,根据话语速度对每个呼吸群中的第一个音素和摩擦音进行调整; 并且,当正被处理的音素为紧接在停顿之后的音素和/或摩擦音时,或者当正 被处理的音素不是其中任一时,音素长度增加的程度发生变化。因此,增强 了听取合成语音的轻松度,并改善了朗读文本转换为语音的识别。第三实施例下面将参照图8描述本发明的第三实施例。图8为示出根据第三实施例 的用于控制音素长度的处理过程的一个示例的流程图。这个处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是 利用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。在第三实施例中,除了第一实施例中执行的音素长度调整(即关于音素的音 素长度增大)之外,其它音素的音素长度被减小,以此增强听取的轻松度, 而不会增加用于将朗读文本转换为语音的时间量。在这个实施例中,元音作 为其它音素,其音素长度被减小。在第三实施例中,为了识别音素长度待调整的音素,音素确定单元28 (图2)确定音素是否为元音。基于该确定,执行用于减小元音的音素长度 的处理。在这个处理过程中,如图8所示,在步骤S301执行语言处理,以及在 步骤S302执行音素长度设定处理。作为针对呼吸群中音素的处理,在步骤 S303对音素编号n进行初始化(n=l),以及在步骤S304到S312根据话语 速度执行音素长度控制。与第一实施例中一样,对每个呼吸群均执行音素长 度控制。基于输入话语速度信息的识别,音素长度控制器18根据话语速度控制 音素长度。在这种情况下,在步骤S304,音素长度被设定为固定倍数;以及, 在步骤S305,作出判定以确定话语速度是否为高朗读速度以及音素是否为第 一个音素(n=l)。在这个确定处理中,紧接在停顿之后的音素(语音头) 的音素长度被指定为待调整的音素长度。当话语速度为高朗读速度且音素为第一个音素(n=l,即步骤S305中为 是)时,在步骤S306将音素长度设定或调整为预定倍数,例如1.5倍。当话 语速度并不高和/或音素不为第一个音素(n=l,即步骤S305为否)时,不 对其音素长度进行调整。在这个处理之后,在步骤S307作出判定以确定话语速度是否为高话语 速度且音素是否为元音。当话语速度为高朗读速度且音素为元音(步骤S307 为是)时,在步骤S308将该音素的音素长度设定或调整为预定倍数,例如 0.9倍。当音素不是元音(步骤S307为否)时,不对其音素长度进行调整。在进行调整或没有进行调整之后,在步骤S309对音素编号n进行更新 (也即i^n+l)。在步骤S310,作出判定以确定是否已完成对该呼吸群中所 有音素的处理。当已执行对该呼吸群中所有音素的处理后到达该呼吸群结尾 处的停顿时,在步骤S311,根据话语速度将停顿的长度设定为固定倍数。在 步骤S312,作出判定以确定是否已完成这个处理。重复从步骤S303到S312的处理,直到己完成对全部数据的处理。在完成处理之后,在步骤S313,执 行语音合成并输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素和元音进行调 整。也就是说,紧接在停顿之后的音素的音素长度被设定为例如1.5倍,而元音的音素长度被设定为例如0.9倍。结果,通过元音音素长度的减小补偿了增大的音素长度的时间。因此,在大体保持了总时间长度的同时,增强了 听取合成语音的轻松度以及改善了朗读文本转换为语音的识别,却不会增 大输出语音的整体再现时间。 第四实施例下面将参照图9和图10描述本发明的第四实施例。图9为示出根据第 四实施例的音素长度控制器的框图。图10为示出根据该第四实施例的用于 控制音素长度的处理过程的一个示例的流程图。在图9中,利用相同的附图 标记标识与图2中相同的单元。该处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是利 用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。 除了第一实施例中的音素长度调整(也即,关于语音头的音素长度的增大) 之外,将该呼吸群中其它音素的音素长度按比例减少与语音头的音素长度的 增大相对应的量,以此在保持呼吸群长度的同时增强听取的轻松度,而不会 增加用于转换朗读文本的时间量。在第四实施例中,文本到语音朗读设备2 (图1)中的音素长度控制器 18 (图2)还包括呼吸群长度计算单元(短语长度计算单元)30。基于来自 音素长度调整单元24的输出,呼吸群长度计算单元30计算呼吸群的总长度。 将该计算的结果发送到音素长度调整单元24作为控制信息。音素长度调整 单元24具有执行控制的功能,从而通过将呼吸群中所有音素的音素长度按 比例减少与特定音素的音素长度(在这个示例中具体为,第一个音素的音素 长度)的增大相对应的量,使得朗读该呼吸群的时间量具有预定值。在这个处理过程中,如图10所示,在步骤S401执行语言处理,以及在 步骤S402执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S403 对音素编号n进行初始化(n=l),并在步骤S404到S412根据话语速度执 行音素长度控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。基于输入的话语速度信息的识别,音素长度控制器18根据话语速度控制音素长度。在这种情况下,在步骤S4Q4将音素长度设定为固定倍数,并 在步骤S405作出判定以确定话语速度是否为高朗读速度以及音素是否为第 一个音素(n=l)。因此,在这个处理中,紧接在停顿之后的音素(语音头) 的音素长度被指定为待调整的音素长度。当话语速度为高朗读速度且音素为第一个音素(11=1,即步骤S405为是) 时,在步骤S406将音素长度设定或调整为预定倍数,例如1.5倍。当话语速 度并不高和/或音素不为第一个音素(n=l,即步骤S405为否)时,不对其 音素长度进行调整。进行调整或没有进行调整之后,在步骤S407对音素编号n进行更新(即 n=n+l)。在步骤S408,作出判定以确定是否已完成对该呼吸群中所有音素 的处理。当执行了对呼吸群中所有音素的处理之后到达该呼吸群结尾处的停 顿时,在步骤S409,根据话语速度将停顿的长度设定为固定倍数。在该设定之后,在步骤S410,计算该呼吸群的总长度。在步骤S411, 按比例调整所有音素的音素长度,从而使得该呼吸群的长度成为预定长度, 例如,与音素长度没增大时的长度相等或相接近的长度。在步骤S412,执行 判定以确定是否已完成对全部数据的处理。重复从步骤S403到S412的处理, 直到已完成对全部数据的处理。在完成处理之后,在步骤S413执行语音合 成并输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素进行调整,也就 是,将紧接在停顿之后的音素的音素长度调整为例如1.5倍,而将呼吸群中 其它音素按比例减少与第一个音素的音素长度增加相对应的量。这种设置在 保持呼吸群长度的同时增强了听取合成语音的轻松度,并改善了朗读文本转 换为语音的识别。第五实施例下面将参照图11和图12描述本发明的第五实施例。图11为示出根据 第五实施例的音素长度控制器的框图。图12为示出根据该第五实施例的用 于控制音素长度的处理过程的一个示例的流程图。在图11中,用相同的附 图标记标识与图2中相同的单元。该处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是利用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。在第五实施例中,除了第一实施例中的音素长度调整(也即,关于语音头的 音素长度的增大)之外,将整个句子中的音素长度按比例减少与语音头的音 素长度的增大相对应的量,从而在保持整个句子长度的同时增强听取的轻松 度,而不会增加用于转换朗读文本的时间量。在第五实施例中,文本到语音朗读设备2 (图1)中的音素长度控制器 18 (图2)还包括整句长度计算单元(总文本长度计算单元)32,如图11所 示。基于来自音素长度调整单元24的输出,整句长度计算单元32计算句子 的总长度。将该计算结果发送到音素长度调整单元24作为控制信息。在这 种情况下,音素长度调整单元24具有执行控制的功能,从而通过将整个句 子中所有音素的音素长度按比例减少与特定音素的音素长度(在这个示例中 具体为,第一个音素的音素长度)的增加相对应的量,使得朗读该句子的时 间量具有预定值。在这个处理过程中,如图12所示,在步骤S501执行语言处理,以及在 步骤S502执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S503 对音素编号n进行初始化(n=l),并在步骤S503到S512根据话语速度执 行音素长度控制。与第一实施例中一样,对每个呼吸群均执行音素长度控制。基于输入的话语速度信息的识别,音素长度控制器18根据话语速度控 制音素长度。在这种情况下,在步骤S504将音素长度设定为固定倍数,并 在步骤S505作出判定以确定话语速度是否为高朗读速度以及音素是否为第 一个音素(n=l)。因此,在这个确定处理中,紧接在停顿之后的音素(语 音头)的音素长度被指定为待调整的音素长度。当话语速度为高朗读速度且音素为第一个音素(11=1,即步骤S505为是) 时,在步骤S506将音素长度设定或调整为预定倍数,例如1.5倍。当话语速 度并不高和/或音素不为第一个音素(n=l,即步骤S505为否)时,不对其 音素长度进行调整。进行调整或没有进行调整之后,在步骤S507对音素编号n进行更新(即 n=n+l)。在步骤S508,作出判定以确定是否已完成对该呼吸群中所有音素 的处理。当执行了对呼吸群中所有音素的处理之后到达该呼吸群结尾处的停 顿时,在步骤S509,根据话语速度将停顿的长度设定为固定倍数。在步骤S510,作出判定以确定是否完成了这个处理。重复从步骤S503到S510的处 理,直到完成了对全部数据的处理。在完成全部数据的处理之后,在步骤S511,计算整个句子的总长度。在 步骤S512,按比例调整该句子中所有音素的音素长度,从而使得整个句子的 长度(也即朗读时间的量)具有预定长度,例如,与音素长度没增大时的长 度相等或相接近的长度。在完成该处理之后,在步骤S513执行语音合成并 输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素进行调整,也就 是,将紧接在停顿之后的音素的音素长度调整为例如1.5倍,而将句子中所 有音素的音素长度按比例减少与第一个音素的音素长度的增加相对应的量。 这种设置在保持呼吸群长度的同时增强了听取合成语音的轻松度,并改善了 朗读文本转换为语音的识别。第六实施例下面将参照图13描述本发明的第六实施例。图13为示出根据第六实施 例的用于控制音素长度的处理过程的一个示例的流程图。这个处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是 利用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。 第六实施例同时采用了第二实施例中的音素长度调整(图7)和第三实施例 中的音素长度调整(图8)。也就是,相对于处于语音头或摩擦音位置的因 素的音素长度的增大,别的音素的音素长度(例如,元音的音素长度)被减 小。这种设置能够增强听取的轻松度,而不会额外增加用于将朗读文本转换 为语音的时间量。在这个处理过程中,如图13所示,在步骤S601执行语言处理,以及在 步骤S602执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S603 对音素编号n进行初始化(n=l),以及在步骤S603到S616根据话语速度 执行音素长度控制。与第二实施例(图7) —样,对每个呼吸群均执行音素 长度控制。在第六实施例中,在步骤S604,根据话语速度将音素长度设定为固定倍 数。在步骤S605,作出判定以确定话语速度是否为高朗读速度以及音素是否 为第一个音素(n=l)。当话语速度为高朗读速度且音素为第一个音素(n=l,即步骤S605为是)时,在步骤S606作出判定以确定该音素是否为摩擦音。 当话语速度为高朗读速度且音素为第一个音素(n=l )和摩擦音(步骤S606 为是)时,在步骤S607将该音素的音素长度设定或调整为预定倍数oc(例如 ot=1.7)。当音素既不是第一个音素(n=l)也不是摩擦音(步骤S608为否) 时,不对音素长度进行调整。也就是说,在这种情况下则保持音素长度在步 骤S604被设定为固定倍数的状态。当话语速度是高朗读速度且音素是第一个音素(步骤S606为否)时, 在步骤S609将音素长度设定或调整为预定倍数P (例如3=1.5)。当话语速 度为高朗读速度且音素为摩擦音(步骤S608为是)时,在步骤S610将音素 长度设定或调整为预定倍数Y (例如"1.4)。这样,当话语速度为高朗读速度且音素为第一个音素和摩擦音时,当话 语速度为高朗读速度且音素为第一个音素时,当话语速度为高朗读速度且音 素为摩擦音时,或者当音素既不是第一个音素也不是摩擦音时,如上述表 3200所示对音素的音素长度进行调整或不进行调整。在这种处理之后,在步骤S611作出判定以确定话语速度是否为高朗读 速度以及音素是否为元音。当话语速度为高朗读速度且音素为元音(步骤 S611为是)时,在步骤S612将该音素的音素长度设定或调整为预定倍数, 例如0.9倍。当音素不是元音(步骤S611为否)时,不对音素长度进行调整。此后,如上所述,在步骤S613对音素编号n进行更新(n=n+l)。在步 骤S614,作出判定以确定是否已完成对该呼吸群中所有音素的处理。当到达 该呼吸群结尾处的停顿时,在步骤S615,根据话语速度将停顿的长度设定为 固定倍数。在步骤S616,作出判定以确定是否已处理了全部数据。在步骤 S617,执行语音合成。如上所述,根据话语速度对每个呼吸群中的第一个音素和摩擦音进行调 整。这样,当正被处理的音素为紧接在停顿之后的音素和/或摩擦音,或者当 正被处理的音素不是其中任一时,正被处理的音素的音素长度增大量发生变 化。当音素为元音时,如上所述将其音素长度减小。结果,通过与元音的音 素长度的减小相对应的量,补偿了用于停顿之后的音素或摩擦音的音素长度 的所增加的时间量。这种设置在保持整体长度的同时,增强了听取合成语音 的轻松度,并改善了朗读文本转换为语音的识别,却不会增加用于语音输出的整体再现时间量。 第七实施例下面将参照图14描述本发明的第七实施例。图14为示出根据第七实施 例的用于控制音素长度的处理过程的一个示例的流程图。这个处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是 利用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。在本实施例中,除了第二实施例(图7)中的音素长度调整之外,也即相对于语音头和摩擦音的音素长度的增大,将包括停顿的其它音素长度减小与音 素长度的增大相对应的量。也就是,将每个呼吸群中音素的音素长度按比例 减少一数量,该数量与语音头和摩擦音的音素长度的增大相对应,以此在保 持呼吸群长度的同时增强听取的轻松度,却不会增加用于将朗读文本转换为 语音的时间量。在第七实施例中,与第四实施例(图9) 一样,音素长度控制器18中的 音素长度调整单元24具有呼吸群长度计算单元30。因此,基于来自音素长 度调整单元24的输出,呼吸群长度计算单元30计算呼吸群的总长度。音素 长度调整单元24具有执行控制的功能,从而通过将呼吸群中所有音素的音 素长度按比例减少一数量,使得朗读该呼吸群的时间量具有预定值,其中所 减少的数量与特定音素的音素长度(在这个示例中具体为第一个音素和摩擦 音的音素长度)的增大相对应。在这个处理过程中,如图14所示,在步骤S701执行语言处理,以及在 步骤S702执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S703 对音素编号n进行初始化(n=l),以及在步骤S703到S716根据话语速度 执行音素长度控制。与第二实施例(图7) —样,对每个呼吸群均执行音素 长度控制。在第七实施例中,在步骤S704,根据话语速度将音素长度设定为固定倍 数。在步骤S705,作出判定以确定话语速度是否为高朗读速度以及音素是否 为第一个音素(n=l)。当话语速度为高朗读速度且音素为第一个音素(n=l, 即步骤S705为是)时,在步骤S706作出判定以确定该音素是否为摩擦音。 当话语速度为高朗读速度且音素为第一个音素(n=l )和摩擦音(步骤S706 为是)时,在步骤S707将音素长度设定或调整为预定倍数oc (例如oc4.7)。当音素既不是第一个音素(n=l)也不是摩擦音(步骤S708为否)时,不对 音素长度进行调整。也就是说,在这种情况下则保持音素长度在步骤S704 被设定为固定倍数的状态。当话语速度是高朗读速度且音素是第一个音素(步骤S706为否)时, 在步骤S709将音素长度设定或调整为预定倍数p (例如(3=1.5)。当话语速 度为高朗读速度且音素为摩擦音(步骤S708为是)时,在步骤S710将音素 长度设定或调整为预定倍数Y (例如"1.4)。这样,当话语速度为高朗读速度且音素为第一个音素和摩擦音时,当话 语速度为高朗读速度且音素为第一个音素时,当话语速度为高朗读速度且音 素为摩擦音时,或者当音素既不是第一个音素也不是摩擦音时,如上述表 3200所示对其音素长度进行调整或不进行调整。在这种处理之后,在步骤S711对音素编号n进行更新(n=n+l)。在步 骤S712作出判定以确定是否已完成了对呼吸群中所有音素的处理。当到达 呼吸群结尾处的停顿时,在步骤S713,根据话语速度将停顿的长度设定为固 定倍数。此后,在步骤S714,计算整个呼吸群的长度。在步骤S715,按比 例调整所有音素的音素长度,从而使得呼吸群的长度成为预定长度,例如, 与音素长度没增大时的长度相等或相接近的长度。在步骤S716,作出判定以 确定是否已处理了全部数据。重复步骤S703到S716的处理,直到完成对全 部数据的处理。在完成确定之后,在步骤S717执行语音合成并输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素和摩擦音进行调 整。这样,如上所述,当正被处理的音素为紧接在停顿之后的音素和/或摩擦 音时,或者当正被处理的音素不是其中任一时,正被处理的音素的音素长度 增大量发生变化;并且,将呼吸群中的音素按比例减小与音素的音素长度的 增大相对应的量。这种设置在保持呼吸群长度的同时,增强了听取合成语音 的轻松度,并改善了朗读文本转换为语音的识别。第八实施例下面将参照图15描述本发明的第八实施例。图15为示出根据第八实施 例的用于控制音素长度的处理过程的一个示例的流程图。这个处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是 利用文本到语音朗读设备2 (图1)来执行的。在第八实施例中,除了第二实施例(图7)中的音素长度调整(即关于第一个音素和摩擦音音素的音素 长度的增大)之外,将整个句子中音素的音素长度按比例减小一数量,该数 量与音素长度的增大相对应,以此在保持整句长度的同时增强听取的轻松 度,却不会增加用于将朗读文本转换为语音的时间量。在第八实施例中,与第五实施例(图ll) 一样,文本到语音朗读设备2(图1)中的音素长度控制器18具有整句长度计算单元32。基于来自音素 长度调整单元24的输出,整句长度计算单元32计算句子的总长度。将该计 算结果发送到音素长度调整单元24作为控制信息。在这种情况下,音素长 度调整单元24具有执行控制的功能,从而通过将句子中所有音素的音素长 度按比例减少与特定音素的音素长度(在这个示例中具体为第一个音素和摩 擦音音素的音素长度)的增大相对应的量,使得朗读该句子的时间量具有预 定值。在这个处理过程中,如图15所示,在步骤S801执行语言处理,以及在 步骤S802执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S803 对音素编号n进行初始化(n=l),以及在步骤S803到S816根据话语速度 执行音素长度控制。与第二实施例(图7) —样,对每个呼吸群均执行音素 长度控制。在第八实施例中,在步骤S804,根据话语速度将音素长度设定为固定倍 数。在步骤S805,作出判定以确定话语速度是否为高朗读速度以及音素是否 为第一个音素(n=l)。当话语速度为高朗读速度且音素为第一个音素(n=l, 即步骤S805为是)时,在步骤S806作出判定以确定该音素是否为摩擦音。 当话语速度为高朗读速度且音素为第一个音素(n=l )和摩擦音(步骤S806 为是)时,在步骤S807将音素长度设定或调整为预定倍数a (例如01=1.7)。 当音素既不是第一个音素(n=l)也不是摩擦音(步骤S808为否)时,不对 音素长度进行调整。也就是说,在这种情况下则保持音素长度在步骤S804 被设定为固定倍数的状态。当话语速度是高朗读速度且音素是第一个音素(步骤S806为否)时, 在步骤S809将音素长度设定或调整为预定倍数P (例如0=1.5)。当话语速 度为高朗读速度且音素为摩擦音(步骤S808为是)时,在步骤S810将音素 长度设定为预定倍数Y (例如y^1.4)。这样,当话语速度为高朗读速度且音素为第一个音素和摩擦音时,当话 语速度为高朗读速度且音素为第一个音素时,当话语速度为高朗读速度且音 素为摩擦音时,或者当音素既不是第一个音素也不是摩擦音时,如上述表3200所示对因素的音素长度进行调整或不进行调整。在这种处理之后,在步骤S811对音素编号n进行更新(n=n+l)。在步 骤S812,作出判定以确定是否已完成了对呼吸群中所有音素的处理。当到达 呼吸群结尾处的停顿时,在步骤S813,根据话语速度将停顿的长度设定为固 定倍数。在步骤S814,作出判定以确定是否已处理了全部数据。在完成全部数据的处理之后,在步骤S815,计算整个句子的长度。在步 骤S816,按比例调整句子中所有音素的音素长度,从而使得整个句子的长度 (即朗读时间量)具有预定长度,例如,与音素长度没增大时的长度相等或 相接近的长度。在完成处理之后,在步骤S817执行语音合成并输出语音。如上所述,根据话语速度对每个呼吸群中的第一个音素和摩擦音进行调 整。这样,如上所述,当正被处理的音素为紧接在停顿之后的音素和/或摩擦 音时,或者当正被处理的音素不是其中任一时,正被处理的音素的音素长度 增大量发生变化;并且,将句子中的所有音素按比例减小与音素长度的增大 相对应的量。这种设置在保持整句长度的同时,增强了听取合成语音的轻松 度,并改善了朗读文本转换为语音的识别。第九实施例下面将参照图16描述本发明的第九实施例。图16为示出根据第九实施 例的用于控制音素长度的处理过程的一个示例的流程图。该处理过程为用于文本到语音朗读的程序或方法的一个示例,并且是利 用文本到语音朗读设备2 (图1)和音素长度控制器18 (图2)来执行的。 在这个实施例中,在话语速度为高时减小停顿的长度,以减小朗读时间量的 长度并具有大体相同的听取轻松度。假定话语速度为3倍速度,且停顿长度 被设定为话语速度倒数的一半,则停顿长度变为正常话语速度下停顿长度的 1/6。这样,停顿长度的减小能够降低朗读的时间量。在这个处理过程中,如图16所示,在步骤S卯l执行语言处理,以及在 步骤S902执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤S903 对音素编号n进行初始化(n=l),并在步骤S903到S910根据话语速度执行音素长度控制。与第一实施例(图5) —样,对每个呼吸群均执行音素长 度控制。在第九实施例中,在步骤S904,根据话语速度将音素长度设定为固定倍数。在步骤S905,对音素编号进行更新(即n=n+l)。在步骤S906,作出 判定以确定是否已完成了对呼吸群中所有音素的处理。在这种情况下,在步骤S907,作出判定以确定话语速度是否为高朗读速 度。当话语速度为高朗读速度(步骤S907为是)时,在步骤S908将呼吸群 结尾处的停顿的长度设定预定倍数,例如相对于固定倍数的一半。当话语速度并不高(步骤S907为否)时,则在步骤S909,在到达呼吸 群结尾处的停顿时根据话语速度将该停顿的长度设定为固定倍数。在步骤 S910,作出判定以确定是否已完成对全部数据的处理。在完成了对全部数据 的处理之后,在步骤S911执行语音合成并输出语音。如上所述,在高速度朗读期间将呼吸群结尾处的停顿的长度减小,以此 保持朗读整个长度的时间量、增强听取合成语音的轻松度、以及改善朗读文 本转换为语音的识别。第十实施例下面将参照图17和图18描述本发明的第十实施例。图17为示出根据 第十实施例的文本到语音朗读设备2中的参数生成器的另一结构示例的框 图。图18为示出根据第十实施例的用于音素长度控制的处理过程的一个示 例的流程图。在图17中,用相同的附图标记标识与图1中相同的单元。在第十实施例中,在参数生成器8中,在音素长度设定器14的前一级 提供有定界符改变单元34。定界符改变单元34改变呼吸群中定界符处的停 顿的长度,其中呼吸群包含由语言处理器4 (图1)生成的表音字符串。提 供定界符改变单元34使得能够在确保音素长度的同时,减小用于再现待朗 读的整个句子的时间量,在这种情况下,假定由语言处理产生的表音字符串为"yamanashi'kenno koukou wo so tsugyoshi te, shinyou ki'n koni ha*itte yonen me'desu.", 定界符 改变单元34通过一个步骤减小呼吸群定界符的长度。具体地,将具有小停 顿长度的中点(middlepoint) " "改变为重音定界空白(没有停顿),将具 有中等停顿长度的逗号","改变为具有小停顿长度的中点" ",以及将具有大停顿长度的句号"."改变为具有中等停顿长度的逗号","。最终,表音字符串被改变为"yamanashi'ken no koukou wo so tsugyoshi te'shinyou ki'n koni ha*itte yonen me'desu,",从而使得能够减小用于再现朗读 文本的总时间量。在这个处理过程中,如图18所示,在步骤S1001执行语言处理,以及 在步骤S1002执行音素长度设定处理。作为对呼吸群中音素的处理,在步骤 S1003对音素编号n进行初始化(n=l),并在步骤S1003到S1014根据话 语速度执行音素长度控制。与第一实施例(图6) —样,对每个呼吸群均执 行音素长度控制。在第十实施例中,在步骤S1004,根据话语速度将音素长度设定为固定 倍数。在设定音素长度之后,在步骤S1005作出判定以确定字符是否为句号 "."。当字符为句号"."时,在步骤S1006将字符替换为逗号",",且处 理进入步骤S1011。当字符不为句号"."(步骤S1005为否)时,在步骤S1007作出判定以 确定字符是否为逗号","。当字符为逗号","时,在步骤S1008将字符替 换为中点" ",且处理进入步骤S1011。当字符不为逗号","(步骤S1007为否)时,在步骤S1009作出判定以 确定字符是否为中点" "。当字符为中点" "时,在步骤S1010将字符替 换为空白"",且处理进入步骤S1011。在这个处理过程中,在步骤S1011,对音素编号进行更新(即11=11+1)。 在步骤S1012,作出判定以确定是否已完成了对呼吸群中所有音素的处理。 当到达呼吸群结尾处的停顿时,在步骤S1013根据话语速度将停顿长度设定 为固定倍数。在步骤S1014,作出判定以确定是否已完成了对全部数据的处 理。在步骤S1Q15,执行语音合成。在这个处理过程中,通过一个步骤替换表示呼吸群定界符的字符,以减 小定界符的长度。具体地,将具有小停顿长度(例如,正常话语速度下的O.l 秒)的中点","改变为重音定界空白(没有停顿),将具有中等停顿长度(例 如,正常话语速度下的0.3秒)的逗号","改变为具有小停顿长度的中点"-", 以及将具有大停顿长度(例如,正常话语速度下的0.8秒)的句号"."改变 为具有中等停顿长度的逗号","。这样,表音字符串被改变为"yamanashi'kenno koukou wo so tsugyoshi te.shinyou ki'n koni ha*itte yonen me'desu," 。 {乍为这种改变的结果,再现时间的总量能够被减小。因此,确保了每个呼吸群中的音素长度,并能够减小用于再现朗读句子 的总时间量。其它实施例(1) 下面将参照图19描述输入到音素长度控制器18的话语速度信息。 图19为示出包括话语速度调整单元的参数生成器的框图。虽然在上述实施 例中将话语速度信息输入到音素长度控制器18,如图19所示,在参数生成 器8中可提供话语速度调整单元22,其中话语速度调整单元22使得话语速 度可被外部调节(设定)。(2) 虽然在上述实施例中描述了将紧接在停顿之后的音素的音素长度增 大的情况,本发明还可应用于将音素长度减小的情况。(3) 虽然在第一实施例中描述了移动终端设备200 (图3和图4),但本 发明并不局限于上述实施例。例如,本发明还可应用于各种类型的设备,例 如便携式数字助理(PDA)、整合有计算机(例如个人计算机)并输出声音 的电子设备、以及整合有电子装置单元的设备。(4) 在上述实施例中,当朗读速度为高时,可移除字符数据中的一些或 全部停顿。停顿移除使得能够减小再现时间量,却不会损害听取的轻松度。(5) 当朗读速度为低时,可将紧接在停顿之后的音素的音素长度减小或 将其调整为具有与参考速度相等的长度。(6) 在上述第六实施例(图13)中,当朗读速度为高时,相对于第一个 音素的音素长度以及摩擦音的长度的增大,将作为别的音素的元音的长度减 小。然而,相对于特定停顿的长度或音素的音素长度的增加,可将别的音素 长度减小。这种设置也可能增加朗读时间量。(7) 尽管在上述第十实施例(图18)中对每个呼吸群均执行了处理,但 是也可对每个句子而非呼吸群执行处理,或者对特定句子中的短语来执行处 理。(8) 尽管在第二、第六、第七和第八实施例中将摩擦音用作特定音素的 示例并增大摩擦音的音素长度,但是也可消除摩擦音长度的增大,或者增大 别的音素而非摩擦音的长度。示例第一示例下面将参照图20和图21描述第一示例。图20为示出相对于图6中所 示流程图的对比示例的流程图。图21为语言处理的结果。当根据话语速度增大每个音素的音素长度时,文本到语音朗读设备2(图 1)执行图20所示流程图中的处理。在这种情况下,图20示出当不对紧接 在停顿之后的语音头的长度进行调整时进行的处理。用相同的附图标记标识 与图6所示流程图中的步骤相同的步骤。也就是,图20所示流程图中的处 理不包括图6所示流程图中的步骤S105和S106。在这个处理中,在高速度 朗读期间不增大第一个音素的音素长度,而将该音素长度设定为与高速度朗 读成反比例的固定倍数。在这个处理中,当输入文本为例如"yamanashiken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nen me desu."(图5 )日寸,如图21所示, 可通过输入文本、语法说明以及表音字符串来表示词分析的结果。在该不例性文本"yamanashi ken no koukou wo so tsugyoshi te shinyou kin koni haitte 4nen me desu."中,"yamanashi"为名词,其表音字符串为 "yamanashi," ; "ken"为名词,其表音字符串为"ken" ; "no"为助词 (particle),其表音字符串为"no";以及该"no"的后面为重音短语边界, 并因此为空格(blank)。进一步,"koukou"为名词,其表音字符串为"koukou"; "wo"为助词,其表音字符串为"wo",以及其后面为重音短语边界并因 此为空格。"sotsugyoshi"为动词,其表音字符串为"sotsugyoshi" ; "te"为助词,其表音字符串为"te";","为呼吸群边界(具有中等停顿长度),其表音字符串为",";"shinyo"为名词,其表音字符串为"shinyo"; "kinko" 为名词,其表音字符串为"ki'nko" ; "ni"为助词,其表音字符串为"ni", 以及其后面为重音短语边界并因此为空白。进一步,"hait"为动词,其表 音字符串为"ha*it" ; "te"为助词,其表音字符串为" " ; "4"为数词, 其表音字符串为"yo" ; "nen"为量词,其表音字符串为"nen" ; "me" 为量词的后置词,其表音字符串为"me" ; "desu"为动态助词(verbal auxiliary),其表音字符串为"desu";"."为呼吸群边界(具有大停顿长 度),其表音字符串为"."。这样,以上所注释的示例性文本的表音字符串被表示为"yamanashi'ken no koukou wo so tsugyoshi te, shinyou ki'n koni ha*itte yonen me'desu."。在图21中,通过使用罗马字符来书写输入文本和 表音字符串,但输入文本作为数据是与表音字符串不相同的。换句话说,文 本到语音朗读设备2将输入文本转换为表音字符串。下面将参照图22描述表音字符串中"shinyou"部分的音素长度调整以 及根据话语速度的音素长度调整。图22为这种情况下所生成的音素长度的 示例。在这个示例中,当假定每秒7个短音节为参考(l倍(IX))速度并且 要生成每秒约21个短音节(即3倍(3X )话语速度)时,从音素长度表16 (图1)读取1X速度的音素长度,并与话语速度成反比调整音素长度。调 整之后,基于例如重音的信息生成基音模式,以合成语音波形。与之相对照,下面将参照图23描述第一实施例(图6)中的处理结果。 图23为示出根据第一实施例(图6)生成音素长度的示例的表。当以3X速度生成音素长度时,音素"Sh"(其为停顿之后的语音头) 的长度被设定为根据简单反比例获得的音素长度的1.5倍。结果,参考(1 X)速度下的音素长度为117ms (毫秒),而3X速度下的音素长度为59ms。 将这些音素长度与其它音素"I" 、 "N" 、 "y" 、 "0"和"0"的音素长 度进行比较,显示音素"sh"在1X速度下的音素长度"117ms"与其它音素 的音素长度并没有显著不同;具体而言,音素"I"的长度为60ms,音素"N" 的长度为60ms,音素"y"的长度为65ms,音素"O"的长度为80ms,以 及音素"O"的长度为105ms。与之相对照,音素"sh"在3X速度下的音素 长度"59" ms与其它音素的音素长度具有显著不同;具体而言,音素"I" 的长度为20ms,音素"N"的长度为20ms,音素"y"的长度为22ms,音 素"0"的长度为27ms,以及音素"0"的长度为35ms。结果,能够改善听 觉听取的轻松度,还能够增强识别。下面将参照图24a、图24b和图24c描述由上述处理产生的语音合成波 形。图24a表示根据图20所示的处理以正常速度朗读"so tsugyoshi te shinyou kin koni"时的语音合成波形。图24b表示在根据图20所示流程图中的处理 以高速度均速朗读同一句子时获得的波形。也就是说,在不增大紧接在停顿 之后的语音头的音素长度时,获得波形B。附图标记C表示将第一实施例中的处理(图5所示流程图)用于增大语音头的音素长度时获得的语音合成波形。图24b和图24c中波形所用朗读时间的话语速度是图24a中波形所用朗 读时间的话语速度的三倍。因此,在图24a、图24b和图24c的波形中,图 24b和图24c中波形的朗读时间量被减小为To/3,但利用与图24a中波形的 朗读时间相等的尺寸进行图示,其中To为图24a中波形的朗读时间量。图24a中波形的虚线包围部分a表示紧接在停顿之后的语音头处的音素, 波形B中的虚线包围部分b表示同一音素。应能理解,音素b的音素长度被 减小与三倍话语速度相对应的量。已被证实,当听取这种朗读声音时,听起 来就像声音脱落(dropout) —样,这使得很难听到语音头。与之相对照,在 波形C中的虚线包围部分c中,相对于三倍话语速度,将语音头处音素的音 素长度增大。因此,即使在听取朗读声音时,不会发生声音脱落,因此增强 了听取的轻松度。第二示例下面将参照图25a和图25b以及图26a和图26b描述根据第二示例的处 理产生的波形。图25a和图25b示出了对比示例的语音合成波形,而图26a 和图26b示出了根据第二示例的语音合成波形。图25a表示正常朗读速度下 获得的波形,以及图25b表示在高朗读速度下获得的波形。与图25a中波形 的正常速度朗读相比较,对于图25b中波形的高速度朗读,停顿之后的音素 d的音素长度被与话语速度成比例地减小(在这个示例中,减小到15ms)。与之相对照,图26a表示在正常速度下执行第一实施例中的处理(如图 6中流程图所示)时获得的波形,以及图26b表示增大紧接在停顿之后的语 音头的音素长度时获得的波形,以使得其与高速度朗读相对应。将图26b波形中的e与图25b波形中的d进行比较,紧接在停顿之后的 语音头处的音素的音素长度被增大(确保)为比话语速度成比例的音素长度 大的音素长度,即被增大到35ms。也就是说,在这个示例(图26b波形中 的e)中,音素长度被增大约2.3倍。因此,不会出现声音脱落,并增强了 听取的轻松度。第三示例将参照图27a和图27b以及图28a和图28b描述根据第三示例的处理产 生的波形。图27a和图27b示出了对比示例的语音合成波形,而图28a和图28b示出了根据第三示例的语音合成波形。虽然第一和第二示例中所图示的波形是从日语得到的,但第三示例中所图示的波形是通过朗读英语单词"ha ppy, sho ck, shoo t"而得至U的。图27a表示正常朗读速度下获得的波形,且图27b表示在高朗读速度下 获得的波形。与图27a波形的正常速度朗读相比较,对于图27b波形的高速 度朗读,紧接在停顿f和g之后的音素长度与话语速度成比例地减小,也即 在这个示例中在f部分处的音素长度被减小到15ms、在g部分处的音素长度 的被减小到24ms。与之相对照,图28a表示在正常速度下执行第一实施例中的处理(如图 6中流程图所示)时获得的波形,且图28b表示增大紧接在停顿之后的语音 头的音素长度时获得的波形,使得其与高速度朗读相对应。将图28b波形中的h和i与图27b波形中的f和d进行比较,紧接在停 顿之后的语音头处的音素的音素长度被增大(确保)为比话语速度成比例的 音素长度大的音素长度,即图28b波形中的h被增大为27ms而i被增大为 25ms。也就是说,在这个示例中,音素长度被增大至约为与话语速度成比例 的音素长度的两倍。因此,不会出现声音脱落,并增强了听取的轻松度。第四示例将参照图29a和图2%以及图30a和图30b描述根据第四示例的处理产 生的波形。图29a和图29b示出了对比示例的语音合成波形,而图30a和图 30b示出了根据第四示例的语音合成波形。图29a表示正常朗读速度下获得 的波形,且图29b表示在高朗读速度下获得的波形。在图29a波形的正常速 度朗读情况下的停顿部分j改变为在图2%波形的高速度朗读情况下的停顿 部分k,从而使得根据话语速度减小停顿部分的长度。与之相对照,图30a表示在正常速度下执行第九实施例中的处理(如图 16中流程图所示)时获得的波形,且l表示这种情况下的停顿部分。图30b 表示将停顿长度减小为比根据话语速度所减小的停顿长度更小的停顿长度 时获得的波形,使得其与高速度朗读相对应,且m表示这种情况下的停顿部 分。将图30b波形中的停顿部分m与图29b波形中的停顿部分k进行比较, 停顿部分被减小为比与话语速度成比例的停顿部分小的停顿部分m。这减小了朗读时间量,却不会引发声音脱落,也即不会损害听取的轻松度。 第五示例下面将参照图31a和31b描述根据第五示例的处理产生的波形。虽然第一、第二和第四示例是针对日语的,与第三示例一样,第五示例也是针对朗读英语句子"happy shock shoot"的情况。图31a表示在正常速度朗读下执行第九实施例中的处理(图16中流程 图)时获得波形,且n和o表示这种情况下的停顿部分;图31b表示将停顿 长度减小为比根据话语速度所减小的停顿长度更小时获得的波形,且p和q 表示这种情况下的停顿部分。将图31b中波形的停顿部分p和q与波形A中的停顿部分n和o进行比 较,停顿部分被减小为比与话语速度成比例的停顿部分n和o更小。这减小 了朗读时间量,却不会引发声音脱落,也即不会损害听取的轻松度。下面将描述根据本发明上述实施例的技术思想。虽然以上已描述了根据本发明的本发明优选实施例等,但本发明并不局 限于此。因此,自然地,基于在此公开的本发明的所附权利要求书或主要内 容,本领域技术人员显然能够作出各种修改和变动。不必说,这些修改和变 动也落入了本发明的保护范围。
权利要求
1.一种用于将文本数据转换为声音信号的设备,包括音素确定器,用于确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中的一系列音素之间;音素长度调整器,用于分别根据所述声音信号的速度确定所述音素的长度,以及选择性调整所述音素中紧接在一个所述停顿之后的至少一个音素的长度,使得所述至少一个音素与其它音素相比在时间上被相对延长,以此调整所述音素数据和所述停顿数据;以及输出单元,用于基于通过所述音素长度调整器所调整的音素数据和停顿数据,输出所述声音信号。
2. 如权利要求l所述的设备,其中,所述音素长度调整器通过将所述文 本数据中的停顿长度减小为比与所述声音信号的速度相对应的停顿长度短 的停顿长度,来调整所述停顿数据。
3. 如权利要求1所述的设备,还包括 速度确定器,用于确定所述声音信号的速度;其中,当所述速度确定器确定所述声音信号的速度高于预定速度时,所 述音素长度调整器通过增大紧接在一个所述停顿之后的音素的音素长度,来 调整所述音素数据。
4. 如权利要求l所述的设备,其中,当所述音素确定器确定所述音素为 摩擦音时,所述音素长度调整器通过增大所述摩擦音音素的长度,来调整所 述音素数据。
5. 如权利要求1所述的设备,还包括 呼吸群计算器,用于计算呼吸群的长度;其中,根据所述呼吸群的长度,所述音素长度调整器通过按比例增大或 减小所述呼吸群中的音素长度和停顿长度,来调整所述音素数据和停顿数 据。
6. 如权利要求1所述的设备,还包括 句子计算器,用于计算所述文本数据中朗读句子的长度;其中,根据所述文本数据中朗读句子的长度,所述音素长度调整器通过 按比例增大或减小所述句子中的音素长度和停顿长度,来按比例调整所述音 素数据和停顿数据。
7. 如权利要求l所述的设备,其中,当所述声音信号的速度高于预定速 度时,所述音素长度调整器通过将所述文本数据中的停顿长度减小为比与所 述声音信号的速度相对应的停顿长度小的停顿长度,来调整所述f顿数据。
8. 如权利要求l所述的设备,其中,当所述声音信号的速度高于预定速 度时,所述音素长度调整器通过将所述文本数据中的最后一个停顿移除,来 调整所述停顿数据。
9. 如权利要求l所述的设备,其中,所述音素长度调整器通过与所述音 素长度的增大相对应地减小其它音素长度和其它停顿长度,来调整所述音素 数据和所述停顿数据。
10. —种用于将文本数据转换为声音信号的方法,包括以下步骤-确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中 的一系列音素之间;分别根据所述声音信号的速度确定所述音素的长度,以及选择性调整所 述音素中紧接在一个所述停顿之后的至少一个音素的长度,使得所述至少一 个音素与其它音素相比在时间上被相对延长,以此调整所述音素数据和所述 停顿数据;以及基于所调整的音素数据和停顿数据,输出所述声音信号。
11. 如权利要求10所述的方法,还包括以下步骤 确定所述声音信号的速度;以及在所述声音信号的速度高于预定速度时,通过增大紧接在一个所述停顿 之后的音素的音素长度,来调整所述音素数据。
12. 如权利要求10所述的方法,还包括以下步骤 确定所述音素是否为摩擦音;以及通过增大所述摩擦音音素的长度,来调整所述音素数据。
13. 如权利要求10所述的方法,还包括以下步骤 计算呼吸群的长度;以及根据所述呼吸群的长度,通过按比例增大或减小所述呼吸群中的音素长 度,来调整所述音素数据。
14. 如权利要求10所述的方法,还包括以下步骤 计算所述文本数据中朗读句子的长度;以及根据所述文本数据中朗读句子的长度,通过按比例增大或减小所述句子 中的音素长度,来调整所述音素数据。
15. 如权利要求10所述的方法,还包括以下步骤当所述声音信号的速度高于预定速度时,通过将所述文本数据中的停顿 长度减小为比与所述声音信号的速度相对应的停顿长度小的停顿长度,来调 整所述停顿数据。
16. 如权利要求10所述的方法,还包括以下步骤当所述声音信号的速度高于预定速度时,通过将所述文本数据中的最后 一个停顿移除,来调整所述停顿数据。
17. 如权利要求10所述的方法,还包括以下步骤-通过与所述音素长度的增大相对应地减小其它音素长度和其它停顿长 度,来调整所述音素数据和所述停顿数据。
18. —种用于将文本数据转换为声音信号的设备,包括-处理器,用于执行将所述文本数据转换为所述声音信号的处理,其中所述处理包括以下步骤确定与所述文本数据中的多个音素类型相对应的数据,其中所述文本数 据将被转换为所述声音信号;确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据, 其中所述多个停顿待被插入到将被转换为所述声音信号的所述文本数据中的一系列音素之间;分别根据所述声音信号的速度确定所述音素的长度,以及选择性调整所 述音素中紧接在一个所述停顿之后的至少一个音素的长度,使得所述至少一个音素与其它音素相比在时间上被相对延长,以此调整所述音素数据和所述停顿数据;以及基于所调整的音素数据和停顿数据,输出所述声音信号。
全文摘要
本发明涉及文本到语音设备。根据本发明实施例的一个方面提供一种用于将文本数据转换为声音信号的设备,包括音素确定器,用于确定与多个音素相对应的音素数据以及与多个停顿相对应的停顿数据,其中所述多个停顿被插入到将被转换为声音信号的所述文本数据的一系列音素之间;音素长度调整器,用于分别根据所述声音信号的速度确定所述音素的长度,以及选择性调整所述音素中紧接在一个所述停顿之后的至少一个音素的长度,使得所述至少一个音素与其它音素相比在时间上被相对延长,以此调整所述音素数据和所述停顿数据;以及输出单元,用于基于通过所述音素长度调整器所调整的音素数据和停顿数据,输出所述声音信号。
文档编号G10L13/08GK101334994SQ20081012489
公开日2008年12月31日 申请日期2008年6月25日 优先权日2007年6月25日
发明者佐佐木均, 村濑健太郎, 片江伸之, 西池理香, 野田拓也 申请人:富士通株式会社