专利名称:一种基于听觉感知特性的语音质量客观评价方法
技术领域:
本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术,更具体地,涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中,通过计算特征参数的失真程度来实现语音质量客观评价的方法。
背景技术:
语音质量评价是衡量语音通信系统性能优劣的根本标准之一,从评价主体上讲可分为两大类主观评价和客观评价。ITU-T建议P. 830提出的MOS (Mean Opinion Score)方法是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉,但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量,使客观评价结果能够准确预测出语音质量的主观评价结果,具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏,是一种误差度量。目前,比较成熟的算法基本上都是基 于输入-输出方式的,包括PESQ、Mel-⑶等。ITU-T建议P. 862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。Mel-CD失真测度以MFCC作为语音特征参数,运算复杂度较低,是一种简便有效的语音质量评价方法,但其评价性能与PESQ相差较大。分析表明,虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性,但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程,并不能充分地反映人耳的听觉感知特性。Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换,能使特征参数的提取过程更好地符合听觉生理模型。
发明内容
本发明的目的是针对MFCC特征参数提取过程中存在的问题,提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术,使用Ga_atone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型,得到一种新的特征参数来进行语音质量客观评价。说明书附图I示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。基于听觉感知特性的语音质量客观评价方法是这样实现的
I.采集原始语音和通过被测系统的失真语音,对两路语音信号进行电平调整、带通滤波和时间对齐等预处理,以便于分别提取两路信号的特征参数;2.加汉宁窗对预处理后的语音信号进行分帧,提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先,使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波,能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征;接着,对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性,这不仅符合了人耳的听觉感知特性,而且计算过程简单;然后,立方根能量经过RASTA滤波,抑制了信号频谱中的常量或变化缓慢的非语音部分,同时增强了动态成分;最后,经过DCT变换(离散余弦变换)到倒谱域,即可实现特征参数的提取;
3.计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D,用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观(预测)MOS值,MOS值的大小说明了被测系统语音质量的好坏。与其它的技术相比,本发明具有以下的优点
1.使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型,有 效地提高了客观评价结果与主观评价结果的相关度;
2.Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据,立方根变换避免了复杂的计算模型,使得算法复杂度低且运行时间较短,适合于语音质量实时评价和嵌入式系统实现;
3.适用 于评 价 CS-ACELP、ADPCM、LD-CELP、GSM、^ -PCM/A-PCM和VSELP等编码算法下的语音信号,算法通用性强;
4.本发明保留了Mel-CD方法运行时间较短和算法复杂度低的优点,评价准确性较Mel-CD方法有很大的提高;与PESQ算法相比,评价准确性相差较小,但运行时间和算法复杂度减小明显,借助于各种语音信号处理方法可将其应用于语音编解码器和通信网络的语音质量客观评价。
结合附图阅读本发明的以下详细描述,可以更好地理解本发明及其优点和其他特征,其中
图I示出了基于输入-输出方式的语音质量客观评价方法结构 图2示出了语音信号特征参数的提取流程;
图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组。
具体实施例方式为了更好地理解本发明,下面将详细描述本发明的
具体实施例方式 1.原始语音和经过被测系统的失真语音首先经过电平调整,将其强度统一到相当于19dB SPL的能量水平;然后经过理想带通滤波器,对两路信号进行输入滤波;最后通过时间对齐来补偿由被测系统产生的时延,完成预处理过程;
2.对预处理后的语音信号x( )和>< )分别进行特征参数的提取;
附图2示出了语音信号特征参数的具体提取流程
3.对语音信号进行加汉宁窗的FFT变换,得到信号频谱(Λ;
4.人耳所听到的声音的高低与声音的频率并不呈线性正比关系,采用更符合人耳的听觉特性的Mel频率尺度来进行频率划分。Mel频率与实际频率的具体关系为
权利要求
1.一种简单有效的基于听觉感知特性的语音质量客观评价技术,根据心理声学原理将人耳听觉模型和非线性压缩变换引入特征参数的提取过程来进行语音质量的客观评价,其特征在于采用以下步骤 A、将原始语音和通过被测系统的失真语音进行预处理,以便于提取各自的特征参数; B、对经过预处理的语音信号进行加汉宁窗的FFT变换,得到第A帧信号频谱聊; C、采用Mel频率尺度来模拟人耳对声音频率的感知特性,Mel频率与实际频率的具体关系为
全文摘要
本发明公开了一种简单有效的基于听觉感知特性的语音质量客观评价方法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC(Mel频率倒谱系数)特征参数的提取过程。本发明使用Gammatone滤波器组对耳蜗基底膜进行仿真,在幅值非线性变换过程中用立方根非线性压缩变换来模拟语音的强度-响度感知特性。使用新的特征参数,提出了一种更加符合人耳听觉感知特性的语音质量评价方法。与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度,运行时间较短且复杂度低,具有较强的适应性,可靠性和实用性。本发明通过模拟人耳的听觉感知特性来进行语音质量评价的方法可为改善语音质量客观评价提供新的解决思路。
文档编号G10L19/00GK102881289SQ201210332288
公开日2013年1月16日 申请日期2012年9月11日 优先权日2012年9月11日
发明者谭晓衡, 秦基伟, 周帅, 裴婧, 黄振林, 唐永刚, 马旭东 申请人:重庆大学
一种基于听觉感知特性的语音质量客观评价方法
相关推荐
专利名称:用于制造液晶显示器件的方法和装置的制作方法技术领域:本发明涉及液晶显示器件的制造方法和装置。背景技术: 液晶显示器件包括第一衬底和第二衬底,和夹在两个衬底之间的液晶。第一和第二衬底中的一个例如是一个支持TFT的TFT衬底,另一个衬
专利名称:三色记录分层再现动态全息图记录装置的制作方法技术领域:本发明涉及一种全息图记录装置,特别是三色记录分层再现动态全息图记录装置,该装置中三种不同频率的光分别从空间三个方向通过物体,所形成的三组全息信号同时被彩色CCD记录,并利用颜色
专利名称:一种特定人语音识别的方法技术领域:本发明属于计算机软件技术领域,特别涉及一种嵌入式环境下的特定人语音识别软件应用技术。背景技术:如今,随着信息技术的高速发展,越来越多的智能技术被广泛应用到家用电器及其它设备上。智能,可以说是未来家
专利名称:异型高音琵琶的制作方法技术领域:本实用新型属于一种演奏用的高音弹拨乐器。目前,在民族乐队中缺乏理想的、能与其它乐器合奏时音色和谐统一的高音弹拨乐器。通常使用的传统琵琶由琴头和琴身构成,因其琴身较长,(一般为820毫米),所以定音较
专利名称:路灯灯具的制作方法技术领域:本实用新型属于户外照明领域,涉及一种路灯灯具。背景技术:目前的户外照明市场中,各厂家生产的路灯灯具普遍存在的以下问题(1)大部分灯具防护性能较差,其反光器不密封,而只有灯体部位有防水胶圈。一旦灯体入了水
专利名称:可伸缩地编解码音频数据的方法和装置的制作方法技术领域:本发明涉及编码和解码音频数据,尤其特别的是,涉及用于编码音频数据,以便编码的音频比特流具有可伸缩的比特率的方法和装置,以及用于解码音频数据的方法和装置。背景技术: 由于近来数字