当前位置:网站首页>专利 >正文

一种基于听觉感知特性的语音质量客观评价方法

专利名称:一种基于听觉感知特性的语音质量客观评价方法
技术领域
本发明涉及一种基于人耳听觉感知特性的语音质量客观评价技术,更具体地,涉及一种将人耳的听觉模型引入MFCC特征参数的提取过程中,通过计算特征参数的失真程度来实现语音质量客观评价的方法。
背景技术
语音质量评价是衡量语音通信系统性能优劣的根本标准之一,从评价主体上讲可分为两大类主观评价和客观评价。ITU-T建议P. 830提出的MOS (Mean Opinion Score)方法是一种广泛使用的主观评价方法,用测试者的平均意见分来直观地反映人对语音质量的感觉,但此类方法可操作性和可重复性较差。客观评价方法通过测量语音信号特征参数来评价语音质量,使客观评价结果能够准确预测出语音质量的主观评价结果,具有更高的实用价值。基于输入-输出方式的客观评价方法是以语音系统的输入信号和输出信号之间的误差大小来判别语音质量的好坏,是一种误差度量。目前,比较成熟的算法基本上都是基 于输入-输出方式的,包括PESQ、Mel-⑶等。ITU-T建议P. 862提出的PESQ感知语音质量评价是当前性能很高的语音质量客观评价方法,能够较好地识别通信时延、环境噪声和错误,但其是基于Bark谱的感知模型,运算复杂度较高,不利于实时评价语音质量。Mel-CD失真测度以MFCC作为语音特征参数,运算复杂度较低,是一种简便有效的语音质量评价方法,但其评价性能与PESQ相差较大。分析表明,虽然MFCC特征参数提取过程中利用了人耳的听觉原理和Mel倒谱的解相关特性,但是其采用了三角形滤波器组来模拟耳蜗基底膜的频率选择特性和对数运算来模拟幅值非线性变换过程,并不能充分地反映人耳的听觉感知特性。Gammatone滤波器具有尖锐的频率选择特性,滤波器边沿的衰减很缓慢,有效地避免了相邻频带间的能量泄露,这些幅频响应特性与人耳蜗基底膜的滤波特性是一致的,也补偿了不同的人发同一音时共振峰的偏移对语音特征参数提取的影响;同时该滤波器只需要较少的参数就能很好地模拟听觉实验中的生理数据,便于进行滤波器性能分析和听觉模型的实现。非线性压缩运算基于强度-响度感知变换,能使特征参数的提取过程更好地符合听觉生理模型。

发明内容
本发明的目的是针对MFCC特征参数提取过程中存在的问题,提供一种简单有效的基于人耳听觉感知特性的语音质量客观评价技术,使用Ga_atone滤波器组和非线性压缩运算来更好地模拟人耳的听觉生理模型,得到一种新的特征参数来进行语音质量客观评价。说明书附图I示出了基于输入-输出方式的语音质量客观评价方法的基本处理过程。基于听觉感知特性的语音质量客观评价方法是这样实现的
I.采集原始语音和通过被测系统的失真语音,对两路语音信号进行电平调整、带通滤波和时间对齐等预处理,以便于分别提取两路信号的特征参数;2.加汉宁窗对预处理后的语音信号进行分帧,提取每帧信号的特征参数。附图2示出了语音信号特征参数的提取流程。首先,使用在Mel尺度上均匀分布Gammatone滤波器组对语音帧信号的能量谱进行滤波,能很好地仿真基底膜的频率选择特性、频谱分析特性和动态响应过程等特征;接着,对每个滤波器的输出能量进行立方根非线性压缩变换来模拟人耳对语音的强度-响度感知特性,这不仅符合了人耳的听觉感知特性,而且计算过程简单;然后,立方根能量经过RASTA滤波,抑制了信号频谱中的常量或变化缓慢的非语音部分,同时增强了动态成分;最后,经过DCT变换(离散余弦变换)到倒谱域,即可实现特征参数的提取;
3.计算原始语音和失真语音特征参数之间的平均动态Mel倒谱距离D,用D来表示失真语音相对于原始语音的失真大小。使用二次多项式将倒谱距离D映射为客观(预测)MOS值,MOS值的大小说明了被测系统语音质量的好坏。与其它的技术相比,本发明具有以下的优点
1.使用Gammatone滤波器组和立方根非线性压缩运算来模拟人耳的听觉生理模型,有 效地提高了客观评价结果与主观评价结果的相关度;
2.Gammatone滤波器用较少的参数就能很好地模拟听觉实验中的生理数据,立方根变换避免了复杂的计算模型,使得算法复杂度低且运行时间较短,适合于语音质量实时评价和嵌入式系统实现;
3.适用 于评 价 CS-ACELP、ADPCM、LD-CELP、GSM、^ -PCM/A-PCM和VSELP等编码算法下的语音信号,算法通用性强;
4.本发明保留了Mel-CD方法运行时间较短和算法复杂度低的优点,评价准确性较Mel-CD方法有很大的提高;与PESQ算法相比,评价准确性相差较小,但运行时间和算法复杂度减小明显,借助于各种语音信号处理方法可将其应用于语音编解码器和通信网络的语音质量客观评价。


结合附图阅读本发明的以下详细描述,可以更好地理解本发明及其优点和其他特征,其中
图I示出了基于输入-输出方式的语音质量客观评价方法结构 图2示出了语音信号特征参数的提取流程;
图3示出了一组在Mel尺度上均匀分布的Gammatone滤波器组。
具体实施例方式为了更好地理解本发明,下面将详细描述本发明的
具体实施例方式 1.原始语音和经过被测系统的失真语音首先经过电平调整,将其强度统一到相当于19dB SPL的能量水平;然后经过理想带通滤波器,对两路信号进行输入滤波;最后通过时间对齐来补偿由被测系统产生的时延,完成预处理过程;
2.对预处理后的语音信号x( )和>< )分别进行特征参数的提取;
附图2示出了语音信号特征参数的具体提取流程
3.对语音信号进行加汉宁窗的FFT变换,得到信号频谱(Λ;
4.人耳所听到的声音的高低与声音的频率并不呈线性正比关系,采用更符合人耳的听觉特性的Mel频率尺度来进行频率划分。Mel频率与实际频率的具体关系为
权利要求
1.一种简单有效的基于听觉感知特性的语音质量客观评价技术,根据心理声学原理将人耳听觉模型和非线性压缩变换引入特征参数的提取过程来进行语音质量的客观评价,其特征在于采用以下步骤 A、将原始语音和通过被测系统的失真语音进行预处理,以便于提取各自的特征参数; B、对经过预处理的语音信号进行加汉宁窗的FFT变换,得到第A帧信号频谱聊; C、采用Mel频率尺度来模拟人耳对声音频率的感知特性,Mel频率与实际频率的具体关系为
全文摘要
本发明公开了一种简单有效的基于听觉感知特性的语音质量客观评价方法,根据心理声学原理将人耳听觉模型和非线性压缩变换引入MFCC(Mel频率倒谱系数)特征参数的提取过程。本发明使用Gammatone滤波器组对耳蜗基底膜进行仿真,在幅值非线性变换过程中用立方根非线性压缩变换来模拟语音的强度-响度感知特性。使用新的特征参数,提出了一种更加符合人耳听觉感知特性的语音质量评价方法。与其它方法相比,本发明有效地提高了客观评价结果与主观评价结果的相关度,运行时间较短且复杂度低,具有较强的适应性,可靠性和实用性。本发明通过模拟人耳的听觉感知特性来进行语音质量评价的方法可为改善语音质量客观评价提供新的解决思路。
文档编号G10L19/00GK102881289SQ201210332288
公开日2013年1月16日 申请日期2012年9月11日 优先权日2012年9月11日
发明者谭晓衡, 秦基伟, 周帅, 裴婧, 黄振林, 唐永刚, 马旭东 申请人:重庆大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:可实现2d3d转换的液晶显示装置的制作方法技术领域:本实用新型涉及液晶显示技术,尤其涉及一种可实现2D3D转换的液 晶显示装置。背景技术:在专利申请号为03822932.3的专利中公开了通过在液晶显示装置中附 加可控液晶光栅来实现

    专利发布时间:2025-07-01阅读:(113)

    专利名称:用于编码和解码基于对象的音频信号的方法和装置的制作方法技术领域:本发明涉及一种音频编码方法和装置,以及一种音频解码方法和 装置,其中每一个对象音频信号的声像可被定位于任何希望的位置。背景技术:一般来说,在多声道音频编码和解码技术中

    专利发布时间:2025-07-01阅读:(107)

    专利名称:一种眼镜的制作方法技术领域:本实用新型涉及眼镜技术领域,尤其涉一种眼镜结构。背景技术:目前眼镜镜片和镜架之间固定方式很多,常用的一种方式是将镜片嵌入镜框,镜框通过螺丝紧固。另外一种方式是镜片上设置一个挂钩,通过挂钩固定在镜架上。前

    专利发布时间:2025-07-01阅读:(152)

    专利名称:隔声量可智能化控制的隔声罩的制作方法技术领域:隔声量可智能化控制的隔声罩是一种全新的能对隔声大小进行控制的隔声设备。本发明 通过利ffl计算机(或PLC)、声传感器和执行机构对隔声罩的隔声量大小进行控制,属+振动 噪声控制范围。背

    专利发布时间:2025-07-01阅读:(124)

    专利名称:乐器支撑结构的制作方法技术领域:本实用新型涉及一种使用乐器时用于支撑乐器的装置,主要涉及 乐器支撑结构。 胃尿仪不现有技术中,大型管弦乐器由于其体积、重量都较大,因此在使 用时都需要将乐器底部放置在地上,以支撑乐器本身,同时便于使

    专利发布时间:2025-07-01阅读:(115)

    专利名称:显示装置以及显示装置的制造方法技术领域:本发明涉及一种至少在像素部中使用薄膜晶体管的显示装置以 及显示装置的制造方法。背景技术:近年来,使用形成在具有绝缘表面的衬底上的半导体薄膜(厚度为几nm至几百nm左右)构成薄膜晶体管的技术受

    专利发布时间:2025-07-01阅读:(113)