专利名称:一种针对VoIP语音的客观评测方法
技术领域:
本发明涉及通信网络质量的评测方法领域,尤其是针对VoIP语音的一种客观评 测方法。
背景技术:
目前对于语音质量的测试方法有两种传统的主观评测方法和新的客观评测方 法。主观评测是以人为主体来评价语音和语音的质量。在语音质量主观评测方法中,MOS(平 均意见分Mean Option kore)评分的使用最为广泛,它以平均意见分来衡量语音质量,用 五个等级来表示语音的质量等级优(5分)、良G分)、一般(3分)、差O分)、坏(1分)。主 观听音测试方法包括1). ACR(AbS0lute Category Rating)绝对等级评定,这是最常用的 一种基于语句组的听音测试方法,语句组由一组无关的短句组成,每一个语句都通过一系 列的标准处理;2). DCR(Degradatic)n Category Rating)衰减等级评定,用于小衰减情况, 适于评价类似的数字语音处理算法、系统优化;3). CCR(Comparison CategoryRating)比 较等级评定,用于改进输入语音质量,如加噪等。4). QRDM(Quanta-Response Detectbility Method)定量响应可检测性方法,用于定量分析;5). TM(Threshold Method)门限方法主 观评价的优点是符合人对语音质量的感觉,缺点是费时费力费钱,且灵活性不够,重复性和 稳定性较差,受人的主观影响较大等。因此以计算机信息处理为核心的语音质量客观评价 成为大家关注的热点技术。客观评测方法主要有以下两种一是ITU-T P. 862(感知语音质量评测),又称为 PESQ (Perceptual Evaluation of Speech Quality)建议,它是 ITU提出的语音质量客观评 价算法之一,针对网络中出现的可变时间延迟和系统引入的线性滤波这两方面做了改进, 是目前与主观分值相关度最高的语音质量评测客观算法。其主客观相关度可达到0. 935,分 值在O 4. 5之间,通常情况下输出分值在1. O 4. 5之间。当分值在2分或2分以下时,表 示语音质量比较差,难于听懂。然而这种算法不能很好地评测对话语音质量,并且PESQ的 听觉变换和扰动处理是基于帧到帧的比较,也就不能很好地处理VoIP的网络编解码器和 自适应抖动缓冲处理器对于语音的一些优化,不能给出与主观分值相关度比较高的客观分 值。另一种客观评测算法是在网络规划中获得了广泛应用的ITU-T G. 107规范(E模型)。其 优点是全面考虑了网络中的网络损伤因素,如噪声回音延时编码器性能抖动等,给出一个 单一的具有相当的评估准确度的得分R,且其质量等级R值与客观MOS分的质量等级存在一 个非线性单调的映射关系,也可用于对话测试。然而E模型却存在如下缺点首先,对于大 数量的可能输入参数的组合情况未经过足够的界内验证和充分的实验室测量,估测仍处在 置疑和研究的阶段;其次,它简单地认为单个质量损伤因素(如静音回声延时和失真)是相 互独立的,都采用同样的尺度来衡量;再次,其前提是假设语音质量损伤因素总是物理附加 的,但研究表明这种假设的可靠性在某些情况下存在疑问;另外,它建立在300Hz-3400Hz 电话语音带宽的基础上,不能准确地用于宽带语音的质量评定等。因此,目前使用比较广泛 的语音客观评测算法还是感知语音质量评测——PESQ,但是它不能很好的评测经过了网络编解码器和自适应抖动缓冲器的语音,并且实验证明,其获得的主客观相关度特别的低。
发明内容
本发明要解决的技术问题是,提供一种针对VoIP语音的客观评测方法,能够客观 评测现有的由编解码器、丢包、噪声等引入损伤的语音质量,而且能够客观评测网络编解码 器、自适应抖动缓冲器、以及端到端的延时抖动造成的失真语音的质量。为此,本发明提供的针对VoIP语音的客观评测方法,包括第一步在VoIP的发送端获得原始语音;第二步在接收端获得引入损伤的失真语音;第三步通过预处理模块划分原始语音和失真语音,得到语句信息,并且判断失真 语音中是否有拉伸或压缩语句,得到拉伸或压缩信息;第四步利用编解码器损伤评估模块A计算对齐语句的编解码器损伤,利用编解 码器损伤评估模块B计算有拉伸或压缩的语句的质量损伤,利用延时损伤评估模块评测端 到端延时和内部的延时对语音的影响;第五步利用拟合模块最终得到语音质量客观评测分值。所述的发送端和接收端为固定电话、移动电话或者IP终端计算机。所述的预处理语句间过大的延时的方法是计算原始语音和失真语音一段间隔内 的能量值,根据各自的能量值划分原始语音和失真语音,得到语句信息;根据原始语音以及 失真语音的语句信息,计算出语句间的延时,根据定义的最大延时阈值以及原始语音语句 间的延时值,处理VoIP失真语音语句间过大的延时,并且将语句信息存储下来,原始语句 信息继续用于延时评估模块的计算。所述的语句包含至少300ms的连续活动语音,并且包含的静音期不超过200ms,语 句间的界限处于语句间隔的静默期中间。所述的利用编解码器损伤评估模块A计算对齐语句的编解码器损伤的方法为对 原始语音与失真语音中未有拉伸或压缩的部分,采用感知语音质量评价PESQ的听觉变换、 扰动处理以及感知模型来评价其编解码器的损伤,得到编解码器损伤评估模块1的评测分值。所述的利用编解码器损伤评估模块B计算对齐语句的编解码器损伤的方法为采 用基于美尔倒谱系数MFCC的动态弯折DTW方法计算最佳路径对应的最小代价来评测未对 齐语音的距离。所述的延时损伤评估模块评测端到端延时和内部延时对语音的影响的方法为根 据存储的原始语音和失真语音的语句信息,利用基于FFT的互相关进行包络对齐,计算出 原始语音和失真语音开头的延时,以及中间每一段语句的延时值和存在的位置。所述的延时损伤评估模块评测端到端延时和内部延时对语音的影响方法还包括 将延时值和存在的位置保存在一个2维数组中,然后根据大量的主观分值的训练,得出各 个位置以及延时值大小对语音损伤的影响的映射关系,由延时损伤评估模块得到客观分 值。所述PESQ计算采用下述步骤第一步调整原始信号和失真信号到标准听觉电平;
第二步用输入滤波器模拟标准听觉电话筒进行滤波;第三步对通过电平调整和滤波后的两个信号在时间上对齐;第四步行听觉变换,包括对系统中线性滤波和增益变换的补偿和均衡;第五步以听觉变换后的两个信号之间的不同作为扰动,分析扰动曲面,提取出两 个失真参数,在频率和时间上进行累积,映射到主观意见分的预测值。其中,时间对齐算法包括如下如下步骤第一步基于参考信号和失真信号整体包络的粗略延时估计;第二步以参考信号的信息来划分语句;第三步对每一语句进行基于包络的粗略延时估计;第四步对每一语句进行基于帧到帧的加权直方图精细延迟估计;第五步重新对齐划分出来的新语句,直到延时在一个语句内没有变化;第六步在感知模型后,根据干扰度识别和定义出坏区间,再重新返回对齐模块进 行调整对齐;第七步将所述的编解码器损伤评估模块1的客观分值,编解码器损伤评估模块 2的客观分值以及延时损伤评估模块得到的客观分值通过拟合模块,得到最终的VoIP语音 的客观评测分值的拟合公式。本发明的有益效果该方法经过了网络编解码器和自适应抖动缓冲器等的语音质量,比单用PESQ更 为精确,并且考虑了延时损伤,也可以对会话质量进行评测。同时,相对于由E模型得到的 与主观分值的相关度,本发明方法得到的相关度要高许多,因此更加适合于客观评测有网 络损伤的语音。
图1是本发明所述方法的原理2是本发明第一个应用实施例原理3是本发明第二个应用实施例原理4是本发明第三个应用实施例原理5是本发明所述方法中的预处理模块流程6是延迟调整算法流程7本发明所述方法中的编解码器损伤评估模块1流程8是本发明所述方法中的编解码器损伤评估模块2流程9是本发明所述方法中的网络损伤评估模块流程图
具体实施例方式下面以VoWLAN(Voice over WLAN)网络为例对本发明进行说明,其模块皆采用C 语言开发,方便移植。图1是本发明所述方法的原理图,在VoIP的发送端存储步骤1的原始语音;在接 收端获得由网络传输(步骤幻引入丢包、抖动、延时和由网络编解码器以及自适应抖动缓 存技术等造成损伤的失真语音(步骤幻;通过预处理模块(步骤4)划分原始语音和失真语音,得到语句信息,并且判断失真语音中是否有拉伸(或压缩)语句,得到拉伸(或压缩) 信息,预处理语句间过大的延时;利用编解码器损伤评估模块1(步骤幻计算对齐语句的编 解码器损伤,利用编解码器损伤评估模块2 (步骤6)计算有拉伸(或压缩)的语句的质量 损伤,利用延时损伤评估模块(步骤7)评测端到端延时和内部延时对语音的影响;得到延 时损伤客观评测分值(步骤8),和编解码器损伤客观评测分值(步骤9),最后利用拟合模 块(步骤10)得到语音质量客观评测分值(步骤11)。图2是图1所述方法中的第一个应用实施例原理图。发送端(步骤12)可以为计 算机(PC机)或者移动终端,其中包括了适合VoIP传输的网络编码器和自适应抖动缓存 器。在发送端存储原始语音,经过接入点(Access Point)(步骤13)并通过IP网关(步骤 14)接入到IP交换网(步骤15),然后再通过IP网关(步骤16),及接入点(Access Point) (步骤17)到达PC或者移动终端(步骤18),通过适合VoIP的网络解码器和自适应抖动缓 存器,得到经过传输之后的失真语音。图3是图1所述方法中的第二个应用实施例原理图。发送端(步骤19)可以为计 算机或者移动终端,其中包括了适合VoIP传输的网络编码器和自适应抖动缓存器。在发送 端存储原始语音,经过步骤20的接入点(Access Point)通过IP网关(步骤21)接入到IP 交换网(步骤22),然后通过媒体网关(步骤23),及公共交换电话网络(PSTN网络)(步骤 24),到达固定电话终端(步骤25),其中也经过了适合VoIP传输的网络解码器和自适应抖 动缓存器,最后得到经过传输之后的失真语音。图4是图1所述方法中的第三个应用实施例原理图,也为图3实施例的反向传输 链路,即在发送端(步骤26)存储原始语音,发送端为固定电话终端,经过公共交换电话网 络(PSTN网络)(步骤27)的传输后,通过媒体网关(步骤28)接入到IP交换网(步骤四), 然后再通过IP网关(步骤30),及接入点(AP)(步骤31),到达计算机终端或者移动终端 (步骤3 ,其中也经过了适合VoIP传输的网络解码器和自适应抖动缓存器,最后得到经过 传输之后的失真语音。图5是本发明所述方法中的预处理模块流程图。首先将原始语音和失真语音经过 读入模块(步骤3 ,均按16kHz (或者8kHz)的采样率读入,得到原始语音及失真语音的样 点值,由步骤33计算其VAD (Voice Activity Detection)信息。对经过窄带滤波后的两路 语音信号均进行活动语音检测,即首先求出每細s帧语音的平均能量,接着由一个话音检 测器得到一个门限值,能量低于该门限值的帧被认为是噪声帧,其功率置为零;高于此门限 值被认为是语音帧,其功率定义为LOG (MAX (Ε (k) /Ethresh, 1))其中E(k)为第k个^is帧的能量,Ethresh是由话音检测器得到的门限值。由两 路语音信号的不交迭-S帧功率构成了它们的包络。然后利用参考信号的VAD信息划分语句,语句指一段语音,它应该包含至少300ms 的连续活动语音,并且包含的静音期不能超过200ms。比较原始语音与失真语音的每一个语 句的长度信息是否一致或差值是否小于阈值,以此来判断语句是否有拉伸(或压缩)(步骤 34),确定拉伸(或压缩)信息(步骤36)。图6是图5算法中的延迟调整算法流程图,即图5的步骤35语句延迟调整的详细 算法。步骤38首先计算原始语音的各个语句间隔,即得到前一个语句与后一个语句中间的延时值,步骤39计算失真语音的各个语句间隔,由步骤40判断其语句数是否相等,若相等, 说明每一原始语音的语句都在失真语音中有对应的语句,接着经过步骤43看两者的语句 间间隔是否相等,若相等,则经过步骤45无需调整;若不相等,则经过步骤44将较大的间隔 调整为较小的间隔。若语句数不相等,经过步骤41使用固定的间隔,即步骤42对原始语音 和失真语音各自调整。最后经过步骤46记录下调整后的语句的起点和终点,得到调整后的 原始和失真语音。图7是本发明所述方法中的编解码器损伤评估模块1流程图,将调整后的原始语 音和失真语音,经过编解码器损伤评估模块1 (PESQ),包括以下过程经过电平调整(步骤 47)和输入滤波(步骤48)后,利用时间调整模块(步骤49)消除连续和不连续延时对失真 语音的影响,再经过听觉变换(步骤50)和扰动处理(步骤51),其中忽略拉伸(或压缩) 语句部分的扰动,对过大的扰动经过错误间隔鉴别(步骤M),进行重新对准(步骤55),最 后通过感知模型(步骤5 计算出预测分值(步骤56)。图8是本发明所述方法中的编解码器损伤评估模块2流程图。根据拉伸(或压 缩)信息(步骤57),将原始语句(步骤59)和与其对应的拉伸(或压缩)的失真语句(步 骤58),经过步骤60提取其MFCC (美尔倒谱系数)参数,然后将原始语句与其对应的失真语 句经过动态时间弯折(DTW)算法(步骤61),计算出原始语句和拉伸(或压缩)的失真语句 对齐最佳路径对应的最小代价,并且通过主观实验MOS分值预先训练DTW的最小代价(步 骤63),得到DTW最小代价到主观分值DTW-ODG的拟合公式。图9是本发明所述方法中的网络损伤评估模块流程图。根据原始语句信息(未调 整前的)(步骤64),计算原始语句(步骤66)和对应失真语句(步骤6 之间的延时值,其 中包括整体语音延时(步骤67),即端到端延时Id,以及每一个延时值所在的位置,得到一 个多维数据。通过主观分值训练,得到延时的大小和不同位置对于语音的损伤。然后通过 拟合模块,得到VoIP语音质量的客观评测分值。该方法评测了端到端延时,因此也可以考 虑用于评测对话语音的质量。
权利要求
1.一种针对VoIP语音的客观评测方法,其特征在于包括如下步骤第一步在VoIP的发送端获得原始语音;第二步在接收端获得引入损伤的失真语音;第三步通过预处理模块划分原始语音和失真语音,得到语句信息,并且判断失真语音 中是否有拉伸或压缩语句,得到拉伸或压缩信息;第四步利用编解码器损伤评估模块A计算对齐语句的编解码器损伤,利用编解码器 损伤评估模块B计算有拉伸或压缩的语句的质量损伤,利用延时损伤评估模块评测端到端 延时和内部的延时对语音的影响;第五步利用拟合模块最终得到语音质量客观评测分值。
2.根据权利要求1所述的一种针对VoIP语音的客观评测方法,其特征在于所述的发 送端和接收端为固定电话、移动电话或者IP终端计算机。
3.根据权利要求1所述的一种针对VoIP语音的客观评测方法,其特征在于所述的预 处理语句间过大的延时的方法是计算原始语音和失真语音一段间隔内的能量值,根据各 自的能量值划分原始语音和失真语音,得到语句信息;根据原始语音以及失真语音的语句 信息,计算出语句间的延时,根据定义的最大延时阈值以及原始语音语句间的延时值,处理 VoIP失真语音语句间过大的延时,并且将语句信息存储下来,原始语句信息继续用于延时 评估模块的计算。
4.根据权利要求1或3所述的一种针对VoIP语音的客观评测方法,其特征在于所述 的语句包含至少300ms的连续活动语音,并且包含的静音期不超过200ms,语句间的界限处 于语句间隔的静默期中间。
5.根据权利要求1或2或3所述的一种针对VoIP语音的客观评测方法,其特征在于 所述的利用编解码器损伤评估模块A计算对齐语句的编解码器损伤的方法为对原始语音 与失真语音中未有拉伸或压缩的部分,采用感知语音质量评价PESQ的听觉变换、扰动处理 以及感知模型来评价其编解码器的损伤,得到编解码器损伤评估模块1的评测分值。
6.根据权利要求1或2或3所述的一种针对VoIP语音的客观评测方法,其特征在于 所述的利用编解码器损伤评估模块2计算对齐语句的编解码器损伤的方法为采用基于美 尔倒谱系数MFCC的动态弯折DTW方法计算最佳路径对应的最小代价来评测未对齐语音的 距离。
7.根据权利要求1所述的一种针对VoIP语音的客观评测方法,其特征在于所述的延 时损伤评估模块评测端到端延时和内部延时对语音的影响的方法为根据存储的原始语音 和失真语音的语句信息,利用基于FFT的互相关进行包络对齐,计算出原始语音和失真语 音开头的延时,以及中间每一段语句的延时值和存在的位置。
8.根据权利要求1或7所述的一种针对VoIP语音的客观评测方法,其特征在于所述 的延时损伤评估模块评测端到端延时和内部延时对语音的影响方法还包括将延时值和存 在的位置保存在一个2维数组中,然后根据大量的主观分值的训练,得出各个位置以及延 时值大小对语音损伤的影响的映射关系,由延时损伤评估模块得到客观分值。
9.根据权利要求1所述的一种针对VoIP语音的客观评测方法,其特征在于所述PESQ 计算采用下述步骤第一步调整原始信号和失真信号到标准听觉电平;第二步用输入滤波器模拟标准听觉电话筒进行滤波; 第三步对通过电平调整和滤波后的两个信号在时间上对齐; 第四步行听觉变换,包括对系统中线性滤波和增益变换的补偿和均衡; 第五步以听觉变换后的两个信号之间的不同作为扰动,分析扰动曲面,提取出两个失 真参数,在频率和时间上进行累积,映射到主观意见分的预测值。
10.根据权利要求9所述的一种针对VoIP语音的客观评测方法,其特征在于所述的 时间对齐算法包括如下步骤第一步基于参考信号和失真信号整体包络的粗略延时估计; 第二步以参考信号的信息来划分语句; 第三步对每一语句进行基于包络的粗略延时估计; 第四步对每一语句进行基于帧到帧的加权直方图精细延迟估计; 第五步重新对齐划分出来的新语句,直到延时在一个语句内没有变化; 第六步在感知模型后,根据干扰度识别和定义出坏区间,再重新返回对齐模块进行调 整对齐;第七步将所述的编解码器损伤评估模块1的客观分值,编解码器损伤评估模块2的客 观分值以及延时损伤评估模块得到的客观分值通过拟合模块,得到最终的VoIP语音的客 观评测分值的拟合公式。
全文摘要
本发明为一种针对VoIP语音的客观评测方法,在VoIP的发送端获得原始语音;在接收端获得引入损伤的失真语音;通过预处理模块划分原始语音和失真语音,得到语句信息,利用编解码器损伤评估模块A计算对齐语句的编解码器损伤,利用编解码器损伤评估模块B计算有拉伸或压缩的语句的质量损伤,利用延时损伤评估模块评测端到端延时和内部的延时对语音的影响;利用拟合模块最终得到语音质量客观评测分值。该方法经过了网络编解码器和自适应抖动缓冲器等的语音质量,比单用PESQ更为精确,并且考虑了延时损伤,也可以对会话质量进行评测。同时,相对于由E模型得到的与主观分值的相关度,本发明更加适合于客观评测有网络损伤的语音。
文档编号G10L19/12GK102044247SQ20091023564
公开日2011年5月4日 申请日期2009年10月10日 优先权日2009年10月10日
发明者杨越, 谢湘, 魏耀都 申请人:北京理工大学
一种针对VoIP语音的客观评测方法
相关推荐
专利名称:自动提取体育节目精彩片断的方法和设备的制作方法技术领域:本发明涉及音频信号分析,更具体地讲,涉及仅从音频信号自动提取体 育节目精彩片断。背景技术:近来,随着音频信号分析技术的发展,可将与体育节目相关的多媒体内 容自动分析并总结为精
专利名称:八音盒的制作方法技术领域:本发明涉及容纳圆筒式八音盒的筐体、并涉及能将振动阀发生的声音最有效地向外界放出的八音盒筐体的结构。背景技术: 以往的八音盒,被容纳在宝石箱那样具有开闭盖的箱中,一般是打开盖听到从八音盒发出的声音。另外,为
专利名称:马林巴琴的琴槌结构的制作方法技术领域:本实用新型有关于一种马林巴琴(Marimba)的琴槌结构,尤指一种使包覆 在琴槌表面的胶套,于敲击琴键时,除了能保护琴键避免受到刮伤外,并能使 敲击时音色更为滑润、优美。背景技术:请参照图1所
专利名称:一种船用电话隔音罩的制作方法技术领域:本发明涉及一种电话隔音罩,特别是一种船用电话隔音罩。背景技术:目前,船用电话都是直接安装在空旷机械处所上,如主机旁、舵机舱、透平平台、泵舱等区域。船舶在航行过程中,各类机械工作会产生各种噪音,
专利名称:一种带风扇的缝纫机用照明灯的制作方法技术领域:本发明涉及一种照明灯,尤其是一种带风扇的缝纫机用照明灯。背景技术:目前缝纫机本身不附带任何照明器具,而日光灯远离操作者,会造成缝纫 机针脚的位置存在阴影,光线不足,影响操作者缝制。如果
专利名称:薄膜形成装置和方法、液晶装置的制造装置和方法技术领域:本发明涉及通过在基板上涂敷在溶剂中溶解或分散膜材料调配成的涂敷液,形成薄膜的薄膜形成装置和薄膜形成方法、使用了它们的液晶装置的制造装置和液晶装置的制造方法和液晶装置、薄膜构造体