专利名称:用于确定语音信号质量的改进方法
A.发明背景本发明在于声信号如音频、语音和声音信号的质量测量的领域。更具体而言,它涉及一种方法和设备,用于依照客观测量技术来确定从语音信号处理系统接收的输出信号相对于基准信号的语音质量。这种类型的方法和设备通常是已知的。更具体地,遵循近来所接受的ITU-T建议P.862(见参考[1])的方法和对应设备是这种类型的。依照目前的已知技术,来自诸如无线电信系统、互联网协议传输系统承载的声音和语音编解码器的语音信号处理和/或传送系统的输出信号和基准信号是依照人听力的心理物理感觉模型来映射于表示信号上的,所述输出信号通常是降级的信号并且其信号质量待被确定。作为基准信号,可使用被施加了所获得的输出信号的系统的输入信号,如在所引用的参考中。随后,从所述表示信号来确定微分信号,依照所使用的表示在输出信号中存在的在系统中维持的扰动感觉模型。微分或扰动信号构成输出信号依照表示模型而偏离于基准信号的程度的表达。然后,依照认知模型来处理扰动信号,在该模型中,人测试对象的某种特性被模型化以获得时间无关的质量信号,其是输出信号听觉质量的量度。
然而,已知技术具有以下缺点,即由于基准信号和降级信号之间的严重音质差异,降级信号的预测语音质量是不准确的或者至少是不可靠的。
B.发明概述本发明的目的是提供一种没有所述缺点的改进方法和改进设备,用于确定语音信号的质量。
本发明尤其是基于以下观察。从人感觉的基础,已知的是人的听觉系统遵循感觉上的恒定性规则,例如大小、音高、音质等的恒定性。这意味着人的听觉系统原则上以某种程度补偿了大小或音高或音质等的差异。
例如在从参考[1]已知的方法和设备中使用的一种感性模型化考虑了借助原始(即基准)信号的音高功率密度的部分补偿来部分补偿一些严重效应。这种补偿是通过使用补偿因子在频域中相乘而实现的。这是因为补偿因子是从原始和降级信号的音高功率密度的(时间平均的)功率谱的比来计算的。补偿因子从不大于(即被截取于(clipped at))特定的预定常数值,即20dB。然而在严重音质差异(例如功率密度>20dB)的情况下,发现使用特定预定常数界限值之间的部分补偿因子的这种补偿导致了对语音信号质量的不可靠的预测。然后已认识到,例如对于音色,人的听觉系统以频率相关的方式来补偿严重差异。更具体而言,例如在正常的听音室中,由于低频着色(coloration)的暴露,低频通常比高频补偿的多,从而导致客观预测和主观体验的语音色量之间的上述低着色。本发明的目的是从这个意义上改进人听觉系统的感性模型化。
依照本发明的一个方面,以上种类的方法包括步骤在频域中补偿输出和基准信号的功率差。补偿步骤是通过以下步骤来实现的应用从所述输出和基准信号的信号值的比得到的补偿因子,这里使用通过使用频率相关函数确定的截取值。频率相关的函数优选为单调函数,其更优选地与一个幂成比例,更具体而言是频率的三次幂。
依照本发明的另外方面,以上种类的设备包括补偿装置,用于在频域中补偿输出和基准信号的功率差。补偿装置包括装置,用于从所述输出和基准信号的信号值的比得到补偿因子,其已被设置使用至少部分地频率相关的截取函数。
C.参考[1]ITU-T Recommendation P.862(02/2001),Series PTelephone Transmission Quality,Telephone Installations,Local Line Networks;Methods for objective and subjectiveassessment of quality-Perceptual evaluation of speechquality(PESQ),an objective method for end-to-end speechquality assessment of narrow-band telephone networks andspeech codes.
参考[1]被引入本申请作为参考。
D.附图简述参照包括以下图的附图,借助对说明性实施例的描述,本发明将被进一步说明
图1示意性地示出已知系统设置,包括用于确定语音信号质量的设备;图2以方块图详细示出被包括在图1中所示的系统中的设备的一部分,在其中实施了补偿运算;图3示出一个图形图表,用于说明在确定用于补偿运算的补偿因子的过程中,使用恒定的上和下截取值的现有技术与使用第一组频率相关的上和下截取值的本发明之间的基本差异;图4示出画出第二组频率相关的上和下截取值的图形图表;图5示出画出第三组频率相关的上和下截取值的图形图表。
E.说明性实施例的描述图1示意性地示出客观测量技术的应用的已知设置,其基于人听觉感觉和认知模型并遵循例如ITU-T建议P.862,用于估算语音链路或编解码器的感性质量。它包括测试中的系统或电信网络10,为简便起见,在以下被称为系统10;以及质量测量设备11,用于对所提供的语音信号的感性分析。语音信号X0(t)一方面被用作系统10的输入信号,而另一方面,被用作设备11的第一输入信号X(t)。系统10的输出信号Y(t),实际上是受系统10影响的语音信号X0(t),被用作设备11的第二输入信号。设备11的输出信号Q表示通过系统10的语音链路的感性质量的估算。对于质量测量设备的输入信号,由于语音链路的输入端和输出端特别是在它通过电信网络运行的情况下是远程的,因此在大多数情况下利用了在数据库上存储的语音信号X(t)。这里,作为惯例,语音信号被理解成意味着基本上可由人的听力感觉的每个声音(sound),如语音和音调。测试中的系统当然也可以是仿真系统,其仿真例如电信网络或这种网络的特定部分。设备11实施主处理步骤,其依次包括在预处理部11.1中,由预处理装置12实施的预处理步骤;在处理部11.2中,由第一和第二信号处理装置13和14实施的进一步处理步骤;以及在信号组合部11.3中,由信号微分装置15和模型化装置16实施的组合信号处理步骤。在预处理步骤中,信号X(t)和Y(t)被准备用于装置13和14中的进一步处理步骤,所述预处理包括功率水平按比例缩放和时间对准运算,由此输出经预处理的信号XP(t)和YP(t),其是例如基准和输出信号的按比例缩放的版本。进一步的处理步骤意味着依照人听觉系统的心理物理感觉模型在表示信号R(Y)和R(X)上映射(降级的)输出信号Y(t)和基准信号X(t)。在组合信号处理步骤期间,借助微分装置15从所述表示信号来确定微分或扰动信号D。然后依照模型通过模型化装置16来处理微分信号D以获得质量信号Q,在所述模型中人测试对象的某种特性例如认知特性已被模型化。
最近已经知道,当前的客观测量技术可能具有重大的缺点,即由于基准信号和降级信号之间的严重音色差异,降级信号的语音质量不能被正确预测。因此,对于这种情况,客观获得的质量信号Q拥有差的与主观确定的质量测量如人测试对象的平均评价得分(MOS)的相关性。这种严重的音色差异可作为所使用的用于记录原始语音信号的结果而出现。有效的记录技术是例如已知为“近传声低音提升(closemiking bass boost)”的技术,其涉及低频范围内的相当大的滤出。严重音色差异的进一步原因可能在于在诸如相对于产生原始语音信号的房间或区域和评估降级语音信号的房间或区域之间的混响的条件下的差异。然而,特别是在低频域中,房间传递函数示出比在中等和高频中大的频率响应函数的不规则性。然而,人类所感觉的由这种不规则性导致的扰动比当前客观模型所预测的是小的干扰。
从人感觉的基础,已知的是人的听觉系统遵循感觉上的恒定性规则,例如大小、音高、音色等的恒定性。这意味着人的听觉系统原则上以某种程度补偿了大小或音高或音色等的差异。
目前的感性模型化考虑了借助原始(即基准)信号的音高功率密度的部分补偿来部分补偿一些严重效应。通过在频域中将原始信号的音高功率密度与补偿因子(CF)相乘而实现这种补偿。图2以方块图详细示出被包括在图1中所示的设备11的一部分,即处理部11.2,在其中实施了补偿运算。第一信号处理装置13的信号处理在第一级中包括变换装置21,在其中例如借助FFT(快速傅立叶变换),经预处理的降级信号Yp(t)从时域中的信号被变换为时频域中的时间和频率相关的输出信号Y(f,t);并在第二级中包括压缩装置22,在其中由此变换的信号Y(f,t)经历信号压缩,从而导致表示信号R(Y)。以类似的方式,第二信号处理装置14的信号处理在第一级中包括变换装置23,在其中经预处理的原始信号Xpt)被变换为时间和频率相关的输出信号X(f,t);并在第二级中包括压缩装置24,在其中由此变换的信号X(f,t)经历信号压缩以获得表示信号R(X)。在两个级23和24之间,在信号压缩之前,经变换的信号X(f,t)经历通过补偿装置25的补偿运算,该运算导致经补偿的变换信号Xc(f,t)。
和平常一样,经预处理的降级和基准信号的变换优选地为所谓的变形函数所遵循,该函数将以赫兹表示的频率尺度变换为以Bark表示的频率尺度(亦已知为音高功率密度尺度)。
补偿运算是借助与补偿因子CF的相乘而实现的,在通过计算装置26实现的计算运算中,所述补偿因子是从时间和频率相关的信号Y(f,t)和X(f,t)的频率响应FR(f),即两个信号的音高功率密度的(时间平均的)功率谱的比得到的。频率响应FR(f)可由以下来表达FR(f)=∫γ(f,t)/∫X(f,t)(1)然后以以下方式从该比率来计算补偿因子CF(i)对于CL-≤FR(f)≤CL+,CF=FR(f),(ii)对于FR(f)<CL-,CF=CL-,和(iii)对于FR(f)>CL+,CF=CL+,其中分别被称为下和上截取值的CL-和CL+是特定的预定常数值,在该值处频率响应被截取以获得用于以上所示的部分补偿的补偿因子CF。这样的截取值是在例如测量技术的初始化阶段内被预定的。对于依照参考[1]的方法,这些预定的截取值CL-和CL+分别是0.01(-20dB)和100(+20dB)。然而在严重音色差异(例如功率密度>20dB)的情况下,发现使用被截取于特定预定常数值的补偿因子的这种部分补偿导致了对语音信号质量的不可靠的预测。然后发现,对人的听觉系统的感性模型化的改进可通过以下来实现至少在听觉系统频率范围的一部分上,优选为在较低部分上,使用不再被截取于常数值而是频率相关的值的补偿因子来实施补偿。这种频率相关的截取值在以下由被分别称为下和上截取函数的频率相关函数cl-(f)和cl+(f)来表示。
补偿因子CF再次依照公式(1)从频率响应来计算,但以以下方式通过使用频率相关的下和上截取函数来截取(i)对于cl-(f)≤FR(f)≤cl+(f),CF=FR(f),(ii)对于FR(f)<cl-(f),CF=cl-(f),和
(iii)对于FR(f)>cl+(f),CF=cl+(f).
原则上,上和下截取函数可被相互独立地选择。然而,作为频率响应函数的倒数特征(reciprocal character)的结果,上截取函数cl+(f)优选地被选择成等于或至少近似于(见以下)下截取函数cl-(f)的颠倒(倒数),反之亦然。
例如下截取函数cl-(f)的截取函数至少在频率相关的一部分或多部分上优选地随增加的频率而单调增加或单调减小,而以对应的方式,另一个截取函数是单调减小或增加的。截取函数优选地在例如测量系统的初始化阶段内被预定。
借助对上和下截取函数的适当选择,可导致部分补偿较好地符合感觉上的恒定性的上述规则。从实验上可看到,特别是在低频范围内与频率的p次幂即fp(p≠0)成比例的单调增加函数是用于下截取函数的这样的适当选择。优选地p=3。以下参照图3来说明选择这样的频率相关的截取函数cl-(f)和cl+(f)而不是恒定截取值CL-和CL+的不同。
图3用作为实例的图形图表来示出用于分别由FR1(f)和FR2(f)表示的相互不同的第一和第二语音信号的频率响应函数,沿纵轴布置的频率响应值(以dB表示)是沿横轴布置的频率(以Bark表示)的函数。-20dB和+20dB处的水平虚线31和32分别表示恒定截取值CL-和CL+。曲线33和34分别表示频率相关的下和上截取函数cl-(f)和cl+(f)。对于特定的fmax以上的频率,频率响应函数FR1(f)和FR2(f)没有有意义的值,对于人的听觉系统,所述fmax是大约30Bark。
作为一个实例,由曲线33和34表示的图示下和上截取函数被选择为cl-(f)=CL-{f/fmax}3和cl+(f)={cl-(f)+Δ}-1其中Δ是一个小的数(例如0.015),从而在对于f的任何值cl-(f)≈0的情况下,避免cl+(f)的过大值。
在该实例中,频率响应函数FR1(f)完全存在于两个恒定截取值CL-和CL+与截取函数之间。然而,除了恒定截取值CL-和CL+之间的点以外,函数FR2(f)还具有向上方向上的第一段(lob)35,其在点A和D之间增加到水平线32以上,并且在点B和C之间增加到甚至曲线34以上。它还具有在向下方向上的第二段36,其在点E和F之间下降到水平线31以下。
对于具有完全存在于截取值组和截取函数组两者之间的频率响应函数如函数FR1(f)的语音信号,在确定补偿因子CF的过程中将没有差异,这是因为不需要截取。对于具有部分存在于截取值组之间并具有一个或多个段的频率响应函数如函数FR1(f)的语音信号,在确定补偿因子CF的过程中将存在相当大的差异。为根据现有技术方法来计算补偿因子CF,点A和D之间的频率响应函数FR2(f)的值被截取于上截取值CL+,而根据新方法,仅点B和C之间的频率响应函数FR2(f)的值被截取,不仅对于依照上截取函数cl+(f)的在局部大的多的值,而且还以频率相关的方式。以类似方式,点E和F之间的频率响应函数FR2(f)的值被截取于下截取值CL-,而根据新方法,点E和F之间的频率响应函数FR2(f)的值根本不被截取。
对cl-(f)的另一个选择可以是对于f≤fA={CL-}1/3fc,cl-(f)={f/fc}3和对于f≥fA={CL-}1/3fc,cl-(f)=CL-。
fc是人听觉系统的频率范围的中心频率(即fmax/2≈15Bark)。对cl-(f)的这种选择与对应的cl+(f)一起被画在图4中。下和上截取函数分别由数字43和44来表示,每个都具有频率相关的部分43.1(44.1)和常数值部分43.2(44.2)。具体而言,对于有大的音色差异的语音信号,该选择从实验上示出了预测质量和主观测量质量之间5%以上的相关性的增加。
更一般地,下截取函数可以是在增加频率的方向上连续频率范围上的频率相关部分的联结,每个部分都是单调增加的函数,还具有连续频率范围上的更低的频率相关性。例如,所述部分是与频率的幂成比例的函数,该幂在增加频率的方向上对每个随后的频率范围而减小。例如,在最低频率范围内与已提及的函数f3成比例的第一部分,随后是在第二紧接的频率范围内与f2成比例的第二部分,随后是在第三紧接的频率范围内与f2/3成比例的第三部分,等等。
又一个选择涉及听觉系统频谱中的对称性对于f≤fA={CL-}1/3fc,cl-(f)={f/fc}3对于f≥fB=fmax-{CL-}1/3fc,cl-(f)={(fmax-f)/fc}3,和对于fA≤f≤fB,cl-(f)=CL-对cl-(f)的这种选择与对应的cl+(f)一起被画在图5中。下和上截取函数分别由数字53和54来表示,每个依次具有低频范围内的第一频率相关部分43.1(44.1),中间常数值部分43.2(44.2),以及高频范围内的第二频率相关部分43.3(44.3)。
不是经变换的信号X(f,t),而是经变换的信号Y(f,t)可经历补偿运算,补偿因子从频率响应函数来计算,该频率响应函数实际上是由公式(1)表达的频率响应FR(f)的倒数。
权利要求
1.用于依照客观语音测量技术来确定相对于基准信号(X(t))的语音信号处理系统输出信号(Y(t))的质量(Q)的方法,该方法包括步骤在频域中补偿输出和基准信号的功率差,其中补偿步骤是通过以下来实现的应用从所述输出和基准信号的信号值的比(FR(f))得到的补偿因子(CF),这里使用通过至少部分地频率相关的函数(33;34;43;44;53;54)而确定的截取值。
2.权利要求1的方法,其中补偿因子是使用上和下截取值而得到的,上和下截取值两者是由至少部分频率相关的函数(33;34;43;44;53;54)确定的。
3.权利要求1或2的方法,其中在相对于人听觉系统频率范围(0≤f≤fmax)的中心频率(fc)的低频范围内的至少一个所述截取值的频率相关值是从单调增加的频率相关函数(43.1;44.1;53.1;54.1)得到的。
4.权利要求3的方法,特征在于单调增加的频率相关函数与频率的幂成比例(43.1;44.1;53.1;54.1)。
5.权利要求5的方法,特征在于单调增加的频率相关函数与频率的三次幂成比例(43.1;44.1;53.1;54.1)。
6.权利要求3或4的方法,特征在于单调增加的频率相关函数与频率和中心频率的比的幂成比例。
7.权利要求2-7的任何一个的方法,特征在于从所述频率相关函数得到的至少一个所述截取值(53;54)显示相对于人听觉系统频率范围的中心频率的对称性。
8.权利要求1的方法,特征在于相对于人听觉系统频率范围的中心频率,频率相关函数的频率相关性的量度对于低频比对于高频高。
9.用于依照客观语音测量技术来确定相对于基准信号(X(t))的语音信号处理系统输出信号(Y(t))的质量(Q)的设备,该设备包括补偿装置(25,26),用于在频域中补偿输出和基准信号的功率差,其中补偿装置包括装置(26),用于从所述输出和基准信号的信号值的比(FR(f))得到补偿因子(CF),这里使用至少部分地频率相关的函数(33;34;43;44;53;54)。
10.权利要求9的设备,其中用于得到补偿因子(CF)的装置(26)已被安排以便使用频率相关的下和上截取函数(33;34;43;44;53;54)。
全文摘要
在降级和基准信号示出其之间的严重音色差异的情况下,用于预测在语音处理/传送系统中降级的语音信号的感性质量的客观测量方法和设备具有不可靠的预测结果。通过使用频率相关截取的补偿因子在信号处理级中应用部分补偿步骤以便补偿频域中降级信号和基准信号之间的功率差,实现了改进。优选的是,用于截取补偿因子的截取值具有比在高频范围中大的相对于人听觉系统中心频率的低频范围中的频率相关性。
文档编号G10L25/69GK1514996SQ02811511
公开日2004年7月21日 申请日期2002年5月21日 优先权日2001年6月8日
发明者J·G·比伦斯, J G 比伦斯 申请人:皇家Kpn公司
用于确定语音信号质量的改进方法
相关推荐
专利名称:一种隔离构件的制作方法技术领域:本发明涉及一种用于阻断热传导和声音传导的一种隔离构件。 背景技术:热传导和声音传导主要是以空气或物体为介质进行传导,目前现在的阻断热传导 和声音传导的构件多是将平面板材贴合在一起,在板材面之间设置隔
一种语音识别的方法及电子设备的制作方法【专利摘要】本发明公开了一种语音识别的方法及电子设备,所述语音识别的方法应用于一电子设备,该方法包括:接收用户输入的第一语音数据;基于用户的身份信息,获取与所述用户的身份信息相对应的第一高频词汇数据库;
专利名称:光波导器件的制作方法技术领域:本发明涉及在光通信、光信息处理、其他的一般光学中广泛使用 的光波导器件。背景技术:一般,在光波导器件中,通过光波导路径传播从发光元件发出的光(例如参考专利文献1)。图5模式地表示该光波导器件。在图5
专利名称:一种异方性导电膜的固结方法技术领域:本发明涉及显示屏制造领域,特别是设计一种异性导电膜的固结方法。背景技术:目前业界液晶模块实装制程必备材料异方性导电膜(AntisotropicConductive Film),简称ACF,主要由
专利名称:有音调周期的校正的数字音频信号丢失块的合成的制作方法有音调周期的校正的数字音频信号丢失块的合成本发明涉及一种数字音频信号的处理方法(特别是语音信号)。 本发明涉及适用于传输接收这样信号的 一 种编码解码系统。尤其是,本发明涉及在接
专利名称:脚踏铜钹架调整结构的制作方法技术领域:本实用新型涉及一种乐器的领域,尤指一种爵士鼓中的脚踏铜钹 架的结构。背景技术:爵士鼓规模已趋于多样化,其基本组合包括有大鼓、小鼓、脚 踏铜钹、两个中鼓、贝斯中鼓与曼波钟,如果不加以精心调整配置