专利名称:声调识别方法和系统的制作方法
技术领域:
本发明涉及语言识别领域,尤其是一种声调识别方法和系统。
背景技术:
世界上大约有70%的语言是声调型的语言即声调语言(Tone Language 或Tonal Language),如汉语、东南亚语言、日语、瑞典语和挪威语等。 在这些语言中,音节是最小的发音单位,每个音节由辅音、元音和声调组成。 音素是最小的语音单位,它是从音节中分析出来的。声调的完整意义是指音 节在发音过程中的高低抑扬,即声调以音高来传达语词的意义,声调不同则 会导致相同辅音和元音的音节含义不同。
例如,汉语作为一种典型的声调语言,共有四种声调(若考虑轻声,则 为五种声调),它们分别是阴平(一声)、阳平(二声)、上声(三声)和去声 (四声)。相同的声母(辅音)和韵母(元音)构成的音节随声调的不同而具 有完全不同的意义,对应着不同的方块字,即声调在汉语普通话中承担着重 要的构字辨义的作用。进一步地,汉语普通话声调只可以出现在韵母之上, 所以韵母也称为"声调音素",声母就称为"非声调音素"。
因此,在声调语言的学习系统中,需要进一步对声调信息进行识别,从 而自动评判和打分。声调可以用基频表示,即基频随时间的变化模式,如图 l所示,为汉语的四个声调所对应的基频表示方法的示意图。在声调识别中,传统的方法是使用基频曲线进行判断,即提取每一帧语音的基频F。,并根据 各个声调的基频F。轨迹来判别声调。由于声调是非常复杂的,每种声调都有
很多变形,如图2A 图2D所示,为汉语一声 四声的真实语音的样本示意 图。这使得声调识别具有很多挑战性。特别是在声调语言学习系统中,如何 对说话人的声调自动判别,声调识别的可靠性就变得尤其重要。
声调还可以用时域基音表示,时域基音周期是基频F。的倒数,基音周期 是时域周期信号最小的重复单元,故一个基音周期可以完整地描述周期性信 号,所以,声调信息可以通过基音检测来获取。而由于语音信号本身的复杂 性,特别是清音(unvoiced)和浊音(voiced)的判别,经常会发生错误识 别基音周期现象的发生,从而导致了声调的错误识别。因为汉语普通话声调 只可以出现在声调音素即浊音段上,所以清浊判别的错误将导致音调识别的 失败。现有技术中, 一般是根据清浊音的特性进行清浊音判别的,即准周期 的浊音信号具有相对较高的能量;非周期的轻音信号具有相对较低的能量。 但是,由于现有的语音信号处理技术,还不能可靠地进行清浊判别,有时会 出现非声调音素段的语音也会检测出基音,从而导致了声调被错误识别。
发明内容
本发明的目的是提供一种声调识别方法和系统,用以减少现有技术声调 识别中的错误识别声调现象的发生,实现准确识别声调语言中的声调,提高 声调识别的可靠性。
为实现上述目的,本发明通过一些实施例提供了一种声调识别方法,包 括以下步骤
接收语音信号;对所述语音信号进行频谱分析,并根据参考文本生成携带时间对准信息 的语音序列;
根据所述语音序列从接收到的语音信号中提取出声调音素; 根据所述声调音素确定所述语音信号的声调。
为实现上述目的,本发明通过另 一些实施例提供了 一种声调识别系统, 包括
语法凄t据库,用于存储参考文本;
语音识别模块,用于接收语音信号,并对所述语音信号进行频谱分析, 并根据所述参考文本生成携带时间对准信息的语音序列;
声调识别模块,用于接收语音信号,并根据所述语音序列从所述语音信 号中提取出声调音素;
声调分类模块,用于根据所述声调音素确定所述语音信号的声调。
基于上述技术方案,本发明实施例利用携带时间对准信息的语音序列准 确地4是取声调音素,确定输入语音信号的声调,从而可以有效地减少声调识 别中的错误识别声调,实现了准确识别声调语言中的声调,提高了声调识别 的可靠性。
图1为汉语的四个声调所对应的基频表示方法的示意图; 图2A为汉语一声的真实语音的样本示意图; 图2B为汉语二声的真实语音的样本示意图; 图2C为汉语三声的真实语音的样本示意图; 图2D为汉语四声的真实语音的样本示意图;图3为本发明声调识别方法的第一实施例的流程示意图; 图4为本发明声调识别方法的第二实施例的流程示意图; 图5为本发明声调识别系统的第一实施例的结构示意图; 图6为本发明声调识别系统的第二实施例的结构示意图。
具体实施例方式
下面结合附图对本发明的具体实施方式
作进一步详细的说明。
在声调语言的学习系统中,对说话人的语音识别不仅仅包括对音节结构
的识别,而且还包括对音节声调的识别。如图3所示,为本发明声调识别方
法的第一实施例的流程示意图。本实施例包括以下步骤 步骤IOI、接收语音信号;
步骤102、对语音信号进行频谱分析,并根据参考文本生成携带时间对准 信息的语音序列;
步骤103、根据语音序列从接收到的语音信号中提取出声调音素; 步骤104、才艮据声调音素确定语音信号的声调。
本实施例中,通过利用携带时间对准信息的语音序列准确地提取输入语 音信号的声调音素,从而确定输入语音信号的声调,减少了声调识别中的错 误识别声调,实现了准确识别声调语言中的声调,从而提高了声调识别的可 靠性。
如图4所示,为本发明声调识别方法的第二实施例的流程示意图。本实 施例包括以下步骤
步骤201、接收语音信号。 接收输入的声调语言语音音节的音频信号;步骤202、对语音信号进行频谱分析,提取语音特征参量。 上述特征参量的提取是基于语音帧的,根据语音信号的短时平稳特性, 可以把语音信号分成若干帧进行处理,每一帧的长度约为10~30ms,对每一 帧提取一次语音特征。分帧可以采用连续分段的方法,但为了体现相邻两帧 数据之间的相关性,以及使帧与帧之间平滑过渡,保持其连贯性, 一般采用 交叠分段的方法,即每一帧的帧尾与下一帧的帧头重叠,通常帧移为帧长的 1/2。
上述语音特征参量的选择需要综合考虑存储量的限制和识别性能的要 求。如可以使用梅尔频率倒谱系数(Me1-Frequency Ceptral Coefficients, 以下简称MFCC)。为了减小语音帧的截断效应,降低帧两端的坡度,使语音 帧的两端不引起急剧变化而平滑过渡到0,就要让语音帧乘以一个窗函数。 由于语音信号在时域上的变化快速而不稳定,所以通常都将它转换到频域上 来观察,此时它的频谱会随着时间作缓慢的变化。将加窗后的帧经过快速傅 立叶变换(Fast Fourier Transform,简称FFT),求出每帧的频谱参数。再 将每帧的频谱参数通过一组N个(N —般为20 ~ 30个)三角形带通滤波器所 组成的梅尔频率滤波器,将每个频带的输出取对数,求出每一个输出的对数 能量(log energy ) Ek, k=l, 2, . N。再将此N个参数进行余弦变换(cosine transform)求出L阶的4每尔倒步页i普(Mel—scale cepstrum)参凄t。
上述语音特征参量还可以使用39维特征矢量,包括13维MFCC、 n维一阶 差分MFCC和13维二阶差分MFCC;
步骤203、根据参考文本在语音模型中搜索,匹配出语音特征参量的语音 序列,语音序列携带有时间对准信息。
上述语音模型可以为隐马尔科夫模型(Hidden Markov Model,以下简称
9H画)是一个离散时域有限状态自动机,H画是指这一马尔可夫模型的内部状 态外界不可见,外界只能看到各个时刻的输出值。对语音识别系统,输出值
通常就是从各个帧计算而得的声学特征(语音特征)。用HMM刻画语音信号需 作出两个假设 一是内部状态的转移只与上一状态有关,另一是输出值只与 当前状态(或当前的状态转移)有关,这两个假设大大降低了模型的复杂度。 H醒的打分、解码和训练相应的算法是前向算法、维特比(Viterbi)算法和 前向后向算法。
语音识别中使用H,通常是用从左向右单向、带自环、带跨越的拓朴结构 来对识别基元建模, 一个音素就是一个三至五状态的H薩, 一个词就是构成词 的多个音素的H應串行起来构成的HMM,而连续语音识别的整个模型就是词和 静音组合起来的H醒。
为了使模型能更准确地描述语音,建立H画时可以考虑上下文相关建模协 同发音,即一个音受前后相邻音的影响而发生变化,从发声机理上看就是人 的发声器官在一个音转向另一个音时其特性只能渐变,从而使得后一个音的 频谱与其他条件下的频谱产生差异。若只考虑前一音的影响的称为双音子
(Biphone);若同时考虑前一音和后一音的影响的称为三音子(T由hone )。 上述搜索的操作,就是寻找一个词模型序列以描述输入语音信号,从而 得到词解码序列(语音序列)。在实际使用中,往往要依据经验给语言模型加 上一个高权重,并设置一个长词惩罚分数。
基于动态规划的维特比算法在每个时间点上的各个状态,计算解码状态 序列对观察序列的后验概率,保留概率最大的路径,并在每个节点记录下相 应的状态信息以便最后反向获取词解码序列。维特比算法在不丧失最优解的 条件下,同时解决了连续语音识别中HMM模型状态序列与声学观察序列的非线性时间对准,词边界检测和词的识别,从而使这一算法成为语音识别搜索的 基本策略。
本步骤能够可靠地提供携带有时间对准信息的语音序列,能够清楚识别 输入语音信号的非声调音素(声母)和声调音素(韵母)分别从什么时间开
始到什么时间结束;
步骤204、根据语音序列从接收到的语音信号中提取出声调音素。
根据上一步骤中提供的语音序列和对准时间,切掉不是声调节的部分。 对于汉语来说,就是切掉不是韵母的部分;
步骤205、根据声调音素在声调模型中匹配出语音信号的声调。
可选地,上述步骤205还可以为
利用支撑向量机演算法,找出 一组适当的超平面对声调音素进行声调分类。
本实施例中,通过动态规划的维特比算法在H画中搜索出与输入语音信 号特征参量匹配的语音序列,利用携带时间对准信息的语音序列准确地提取 输入语音信号的声调音素,从而通过声调模型或者利用支撑向量机演算法找 出的一组适当的超平面确定输入语音信号的声调,减少了声调识别中的错误 识别声调,实现了准确识别声调语言中的声调,从而提高了声调识别的可靠 性。
如图5所示,为本发明声调识别系统的第一实施例的结构示意图。本实 施例包括语法数据库IO,用于存储参考文本;语音识别模块20,用于接收 语音信号,并对语音信号进行频谱分析,并根据参考文本生成携带时间对准 信息的语音序列;声调识别模块30,用于接收语音信号,并根据语音序列从 语音信号中提取出声调音素;声调分类模块40,用于根据声调音素确定语音信号的声调。
本实施例中,由于是针对语言学习中的情况,可在语法数据库10中预先
输入跟读的对象即参考文本。语音识别模块20提供了语音序列和时间对准信 息,声调识别模块30根据上述语音序列和时间对准信息准确地从语音信号中 提取出声调音素,由声调分类模块40确定语音信号的声调,从而减少了声调 识别中的错误识别声调,实现了准确识别声调语言中的声调。
如图6所示,为本发明声调识别系统的第二实施例的结构示意图。与上 一实施例相比,本实施例中语音识别模块20包括特征提取单元21,用于 接收语音信号,对语音信号进行频谱分析并提取语音特征参量;语音模型单 元22,用于存储语音模型;语音搜索单元23,用于根据语音特征参量和参考 文本在语音^^莫型中匹配出语音序列,语音序列携带有时间对准信息。
本实施例中,特征提取单元21所提取的语音特征参量可以为梅尔频率倒 镨系数;还可以为梅尔频率倒谱系数、 一阶梅尔频率倒语系数和二阶梅尔频 率倒谱系数。语音模型单元22中所存储的语音模型为隐马尔可夫模型。
与上一实施例相比,本实施例中声调分类模块40包括声调模型单元41, 用于存储声调模型;声调分类单元42,用于根据声调音素在声调模型中匹配 出语音信号的声调。
本实施例中,声调模型单元41所存储的声调模型可以用基频F。的轨迹包 络和对数能量的包络等声调特征来训练的。
本实施例中,通过语音识别模块20提供了语音序列和时间对准信息,声 调识别模块30根据上述语音序列和时间对准信息准确地从语音信号中提取 出声调音素,由声调分类模块40确定语音信号的声调,减少了声调识别中的 错误识别声调,提高了声调识别的可靠性,实现了准确识别声调语言中的声调。
本领域普通技术人员可以理解实现上述方法实施例的全部或部分步骤 可以通过程序指令相关的硬件来完成,前述的程序可以存储于一计算机可读
取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述 的存储介质包括R0M、 RAM、磁碟或者光盘等各种可以存储程序代码的介质。 最后应说明的是以上实施例仅用以说明本发明的技术方案,而非对其 限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术 人员应当理解其依然可以对前述各实施例所记载的技术方案进行修改,或 者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技 术方案的本质脱离本发明各实施例技术方案的精神和范围。
权利要求
1、一种声调识别方法,其特征在于,包括以下步骤接收语音信号;对所述语音信号进行频谱分析,并根据参考文本生成携带时间对准信息的语音序列;根据所述语音序列从接收到的语音信号中提取出声调音素;根据所述声调音素确定所述语音信号的声调。
2、 根据权利要求l所述的声调识别方法,其特征在于,所述对所述语音 信号进行频谱分析具体为根据所述语音信号,提取语音特征参量。
3、 根据权利要求2所述的声调识别方法,其特征在于,所述根据所述语 音信号,提取语音特征参量具体为根据所述语音信号,提取梅尔频率倒谱 系数。
4、 根据权利要求2所述的声调识别方法,其特征在于,所述根据所述语 音信号,提取语音特征参量具体为根据所述语音信号,提取梅尔频率倒谱 系数、 一阶梅尔频率倒i普系数和二阶梅尔频率倒谱系数。
5、 根据权利要求l所述的声调识别方法,其特征在于,所述根据参考文 本生成携带时间对准信息的语音序列具体为根据参考文本在语音模型中匹配出语音序列,所述语音序列携带有时间 对准信息。
6、 根据权利要求5所述的声调识别方法,其特征在于,所述根据参考文 本在语音模型中匹配出语音序列具体为根据参考文本在隐马尔可夫模型中匹配出语音序列。
7、 根据权利要求l所述的声调识别方法,其特征在于,所述根据所述声调音素确定所述语音信号的声调具体为根据所述声调音素在声调模型中匹配出所述语音信号的声调。
8、 一种声调识别系统,其特征在于,包括 语法数据库,用于存储参考文本;语音识别模块,用于接收语音信号,并对所述语音信号进行频谱分析, 并根据所述参考文本生成携带时间对准信息的语音序列;声调识别模块,用于接收语音信号,并根据所述语音序列从所述语音信 号中提取出声调音素;声调分类模块,用于根据所述声调音素确定所述语音信号的声调。
9、 根据权利要求8所述的声调识别系统,其特征在于,所述语音识别模 块包括特征提取单元,用于接收语音信号,对所述语音信号进行频谱分析并提 取语音特征参量;语音模型单元,用于存储语音模型;语音搜索单元,用于根据所述语音特征参量和参考文本在语音模型中匹 配出语音序列,所述语音序列携带有时间对准信息。
10、 根据权利要求9所述的声调识别系统,其特征在于,所述语音特征参 量为梅尔频率倒语系数。
11、 根据权利要求9所述的声调识别系统,其特征在于,所述语音特征参 量为梅尔频率倒谱系数、 一 阶梅尔频率倒谱系数和二阶梅尔频率倒谱系数。
12、 根据权利要求9所述的声调识别系统,其特征在于,所述语音模型为隐马尔可夫模型。
13、根据权利要求8、 9、 10、 11或12所述的声调识别系统,其特征在于,所述声调分类模块包括声调模型单元,用于存储声调模型;声调分类单元,用于根据所述声调音素在所述声调模型中匹配出所述语 音信号的声调。
全文摘要
本发明涉及一种声调识别方法,包括以下步骤接收语音信号;对所述语音信号进行频谱分析,并根据参考文本生成携带时间对准信息的语音序列;根据所述语音序列从接收到的语音信号中提取出声调音素;根据所述声调音素确定所述语音信号的声调。本发明还涉及了一种声调识别系统。本发明利用携带时间对准信息的语音序列准确地提取声调音素,确定输入语音信号的声调,从而可以有效地减少声调识别中的错误识别声调,实现了准确识别声调语言中的声调,从而提高了声调识别的可靠性。
文档编号G10L15/02GK101436403SQ20071017750
公开日2009年5月20日 申请日期2007年11月16日 优先权日2007年11月16日
发明者张化云, 潘春雷, 军 许, 炜 陈 申请人:创新未来科技有限公司
声调识别方法和系统的制作方法
相关推荐
专利名称:带独立阻光装置卡片式暗盒的制作方法技术领域:本实用新型属一种用于放射投照技术学上的摄片标记装置,特别是一种带有独特阻光装置的卡片式暗盒装置。目前采用的摄片标记办法是用铅字作成的编号标记,包括年、月、日、片号等编好固定在胶布上,然后
专利名称:一种分辨率高、变倍快速、体积小的变焦光学系统的制作方法一种分辨率高、变倍快速、体积小的变焦光学系统技术领域:本发明涉及涉及一种光学系统,尤其涉及一种应用于监控、照相 系统的分辨率高、变倍快速、体积小的光学系统。背景技术:目前照相、
专利名称:显示装置的制作方法技术领域:本发明关于一种显示装置,尤其是关于具备照明装置 及反射型液晶显示装置的显示装置。背景技术:液晶显示装置(下称LCD),具备既薄型且消耗功率低 的特征,目前被广泛用作计算机的监视器、或移动电话等便携式通信
专利名称::纤维素酯光学膜、使用该纤维素酯光学膜的偏振片和液晶显示装置、以及纤维素酯光学膜...的制作方法技术领域::.本发明涉及纤维素酯光学膜、使用该纤维素酯光学膜的偏振片和液晶显示装置、以及纤维素酯光学膜的制造方法。背景技术::液晶显示
专利名称:反射式照相机、扩印机多影镜的制作方法技术领域:本实用新型属于照相机,扩印机的附加镜头。目前,使用照相机一次曝光拍摄出同一被拍摄物体的多个影像的底片。需在照相机镜头前加上一个玻璃棱镜,使用这种办法拍摄出来的多影相片清晰度差,而且还产