激活音检测方法和装置制造方法
【专利摘要】本发明提供了一种激活音检测方法和装置。解决了现有VAD检测不准确的问题。该方法包括:根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果。本发明提供的技术方案适用于语音业务,实现了高准确性的VAD判决。
【专利说明】激活音检测方法和装置
【技术领域】
[0001] 本发明涉及通信领域,尤其涉及一种激活音检测方法和装置。
【背景技术】
[0002] 正常的语音通话中,用户有时在说话,有时在听,这个时候就会在通话过程出现非 激活音阶段,正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长 的50%。在非激活音阶段,只有背景噪声,背景噪声通常没有任何有用信息。利用这一事实, 在语音频信号处理过程中,通过激活音检测(VAD)算法检测出于激活音和非激活音,并采用 不同的方法分别进行处理。现代的很多语音编码标准,如AMR、AMR-WB,都支持VAD功能。在 效率方面,这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是 在非稳定噪声下,这些编码器的VAD效率都较低。而对于音乐信号,这些VAD有时候会出现 错误检测,导致相应的处理算法出现明显的质量下降。另外,现有的VAD技术会存在判决不 准确的情况,例如有的VAD技术在语音段之前几帧检测不准,有的VAD在语音段之后几帧检 测不准确。
【发明内容】
[0003] 本发明提供了一种激活音检测方法和装置,解决了现有VAD检测不准确的问题。
[0004] 一种激活音检测方法,包括:
[0005] 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判 决结果得到最终的联合VAD判决结果。
[0006] 优选的,该方法还包括:
[0007] 获得当前帧的子带信号及频谱幅值;
[0008] 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征 参数的值;
[0009] 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值;
[0010] 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计 算所述调性信号标志。
[0011] 优选的,该方法还包括:
[0012] 获取前一帧估计得到的背景噪声能量;
[0013] 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平 均全带信噪比。
[0014] 优选的,所述获取前一帧估计得到的背景噪声能量包括:
[0015] 获得前一帧的子带信号及频谱幅值;
[0016] 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度 特征参数的值;
[0017] 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数;
[0018] 根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征 参数、调性特征参数计算得到前一帧的背景噪声标识;
[0019] 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征 参数计算前一帧调性信号标志;
[0020] 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪 声能量,得到前一帧全带背景噪声能量。
[0021] 优选的,所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值;
[0022] 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值 的比值,或该比值进行平滑滤波得到的值;
[0023] 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相 邻两帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数;
[0024] 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该 比值乘上一个系数;
[0025] 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的, 或继续对该相关系数进行平滑滤波得到的。
[0026] 优选的,根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特 征参数计算所述调性信号标志包括:
[0027] A)在当前帧信号为非调性信号,用一个调性帧标志tonality_frame来指示当前 帧是否为调性帧;
[0028] B)在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤 D):
[0029] 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一 调性特征参数判定门限值,
[0030] 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二 调性特征参数门限值;
[0031] C)判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体 的:
[0032] 在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不 满足时判断所述当前帧为非调性帧并执行步骤D :
[0033] 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值,
[0034] 谱重心特征参数值大于一个设定的第一谱重心判定门限值,
[0035] 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时, 判断当前帧为调性帧,设置所述调性帧标志的值;
[0036] D)根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新,其中调 性程度参数tonality_degree初始值在激活音检测开始工作时进行设置;
[0037] E)根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否 为调性信号,并设置调性标志t〇nality_flag的值。
[0038] 优选的,在当前的调性帧标志指示所述当前帧为调性帧时,采用以下表达式对调 性程度特征参数tonality_degree进行更新:
[0039] tonal ity_degree = tonal ity_degree_1 · td_scale_A+td_scale_B?
[0040] 其中,tonality+degreh为前一帧的调性程度特征参数,其初始值取值范围为 [0,1],td_scale_A为衰减系数,td_scale_B为累加系数。
[0041] 优选的,在调性程度特征参数tonality_degree大于设定的调性程度门限值时, 判断当前帧为调性信号;
[0042] 在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时,判 断当前帧为非调性信号。
[0043] 优选的,该方法还包括:
[0044] 在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当 前的连续激活音巾贞个数continuous_speech_num2,具体的:
[0045] 当联合 VAD 标志 vad_f lag 标志为 1 时 continuous_speech_num2 力口 1 ;
[0046] 当 vad_flag 判为 0 时,continuous_speech_num2 置 0。
[0047] 优选的,在当前帧为第一帧时,所述连续激活音帧个数为0。
[0048] 优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述 已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,所述根据连续激活音帧 个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决 结果包括:
[0049] 当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为 联合VAD判决结果,当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中 的一个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指"或"运算或者 "和"运算:
[0050] 条件1 :平均全带信噪比大于信噪比阈值,
[0051] 条件2 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比 大于信噪比阈值,
[0052] 条件3 :调性信号标志设置为1。
[0053] 优选的,所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧,所述 已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧,,所述根据连续激活音帧 个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决 结果包括:
[0054] 当满足以下任一条件时所述联合VAD判决结果为1,当不满足下列至少一个条件 时选择所述至少两个已有VAD判决结果的逻辑运算作为输出,其中,逻辑运算是指"或"运 算或者"和"运算:
[0055] 条件1 :至少两个已有VAD判决结果全部为1,
[0056] 条件2 :至少两个已有VAD判决结果之和大于联合判决阈值,并且调性信号标志设 置为1,
[0057] 条件3 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比 大于信噪比阈值,调性信号标志设置为1。
[0058] 本发明还提供了一种激活音检测装置,包括:
[0059] 联合判决模块,用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至 少两种已有VAD判决结果得到最终的联合VAD判决结果。
[0060] 优选的,该装置还包括参数获取模块,所述参数获取模块包括:
[0061] 第一参数获取单元,用于获得当前帧的子带信号及频谱幅值;
[0062] 第二参数获取单元,用于根据子带信号计算得到当前帧的帧能量参数、谱重心特 征参数和时域稳定度特征参数的值;
[0063] 第三参数获取单元,用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参 数的值;
[0064] 第四参数获取单元,用于根据调性特征参数、谱重心特征参数、时域稳定度特征参 数、谱平坦度特征参数计算所述调性信号标志。
[0065] 优选的,所述参数获取模块还包括:
[0066] 第五参数获取单元,用于获取前一帧估计得到的背景噪声能量;
[0067] 第六参数获取单元,用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧 能量参数计算得到所述平均全带信噪比。
[0068] 优选的,所述参数获取模块还包括:
[0069] 第七参数获取单元,用于在当前帧为第一帧时,确定所述连续激活音帧个数为0,
[0070] 在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当 前的连续激活音巾贞个数continuous_speech_num2,具体的:
[0071] 当联合 VAD 标志 vad_flag 标志为 1 时 continuous_speech_num2 力口 1 ;
[0072] 当 vad_flag 判为 0 时,continuous_speech_num2 置 0。
[0073] 本发明提供了一种激活音检测方法和装置,根据连续激活音帧个数、平均全带信 噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果,实现了根据 多种参数综合进行VAD判决,提高了 VAD判决的准确性,解决了 VAD检测不准确的问题。
【专利附图】
【附图说明】
[0074] 图1为本发明的实施例一提供的一种激活音检测方法的流程图;
[0075] 图2为本发明的实施例二提供的一种激活音检测方法的流程图;
[0076] 图3为本发明的实施例四提供的一种激活音检测装置的结构示意图;
[0077] 图4为图3中参数获取模块302的结构示意图。
【具体实施方式】
[0078] 为了解决VAD检测不准确的问题,本发明的实施例提供了一种激活音检测方法。 下文中将结合附图对本发明的实施例进行详细说明。需要说明的是,在不冲突的情况下,本 申请中的实施例及实施例中的特征可以相互任意组合。
[0079] 下面结合附图,对本发明的实施例一进行说明。
[0080] 本发明实施例提供了一种激活音检测方法,使用该方法完成VAD的流程如图1所 示,包括:
[0081] 步骤101 :获取至少两种已有的VAD的判决结果;
[0082] 步骤102 :获得当前帧的子带信号及频谱幅值;
[0083] 本发明实施例中以帧长为20ms,采样率为32kHz的音频流为例具体说明。在其它 帧长和采样率条件下,本发明实施例提供的激活音检测方法同样适用。
[0084] 将当前帧时域信号输入滤波器组单元,进行子带滤波计算,得到滤波器组子带信 号。
[0085] 本发明实施例中采用一个40通道的滤波器组,本发明实施例提供的技术方案对 于采用其他通道数的滤波器组同样适用。
[0086] 将当前帧时域信号输入40通道的滤波器组,进行子带滤波计算,得到16个时间样 点上40个子带的滤波器组子带信号X[k,1],0 < k < 40,0 < 1 < 16,其中k为滤波器组子 带的索引,其值表示系数对应的子带,1为各个子带的时间样点索引,其实现步骤如下: [0087] 1 :将最近的640个音频信号样值存储在数据缓存中。
[0088] 2 :将数据缓存中的数据移40个位置,把最早的40个采样值移出数据缓存,并把 40个新的样点存入到0到39的位置上。
[0089] 将缓存中的数据X乘上窗系数,得到数组z,计算表达式如下:
[0090] z [η] =χ [η] · Wqmf [η] ; 0 ^ η < 640;
[0091] 其中Wqmf为滤波器组窗系数。
[0092] 采用以下的伪代码计算得到一个80点的数据u,
[0093]
【权利要求】
1. 一种激活音检测方法,其特征在于,包括: 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测 (VAD)判决结果得到最终的联合VAD判决结果。
2. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获得当前帧的子带信号及频谱幅值; 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数 的值; 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值; 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所 述调性信号标志。
3. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 获取前一帧估计得到的背景噪声能量; 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全 带信噪比。
4. 根据权利要求3所述的激活音检测方法,其特征在于,所述获取前一帧估计得到的 背景噪声能量包括: 获得前一帧的子带信号及频谱幅值; 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征 参数的值; 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数; 根据前一巾贞的巾贞能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参 数、调性特征参数计算得到前一帧的背景噪声标识; 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数 计算前一帧调性信号标志; 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能 量,得到前一帧全带背景噪声能量。
5. 根据权利要求4所述的激活音检测方法,其特征在于, 所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值; 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比 值,或该比值进行平滑滤波得到的值; 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两 帧能量幅值叠加值平方的期望的比值,或该比值乘上一个系数; 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值,或该比值 乘上一个系数; 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的,或继 续对该相关系数进行平滑滤波得到的。
6. 根据权利要求2所述的激活音检测方法,其特征在于,根据调性特征参数、谱重心特 征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括: A)在当前巾贞信号为非调性信号,用一个调性巾贞标志tonality_frame来指示当前巾贞是 否为调性帧; B) 在下述条件之一被满足时执行步骤C),在下述两个条件均不满足时执行步骤D): 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一调性 特征参数判定门限值, 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二调性 特征参数门限值; C) 判断当前帧是否为调性帧,并根据判断结果设置所述调性帧标志的值,具体的: 在满足全部以下条件时判断所述当前帧为调性帧,在任一或任意多个以下条件不满足 时判断所述当前帧为非调性帧并执行步骤D : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值, 谱重心特征参数值大于一个设定的第一谱重心判定门限值, 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时,判断当 前帧为调性帧,设置所述调性帧标志的值; D) 根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新,其中调性程 度参数tonality_degree初始值在激活音检测开始工作时进行设置; E) 根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否为调 性信号,并设置调性标志tonality_flag的值。
7. 根据权利要求6所述的激活音检测方法,其特征在于,在当前的调性帧标志指示所 述当前巾贞为调性巾贞时,采用以下表达式对调性程度特征参数tonality_degree进行更新: tonality-degree = tonality-degree^ ? td-scale-A+td-scale-B, 其中,tonality+degreeq为前一帧的调性程度特征参数,其初始值取值范围为[0,1], td_scale_A为衰减系数,td_scale_B为累加系数。
8. 根据权利要求6所述的激活音检测方法,其特征在于, 在调性程度特征参数t〇nality_degree大于设定的调性程度门限值时,判断当前帧为 调性信号; 在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时,判断当 前帧为非调性信号。
9. 根据权利要求1所述的激活音检测方法,其特征在于,该方法还包括: 在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的 连续激活音巾贞个数continuous_speech_num2,具体的: 当联合 VAD 标志 vad_flag 标志为 1 时 continuous_speech_num2 力口 1 ; 当 vad_flag 判为 0 时,continuous_speech_num2 置 0。
10. 根据权利要求9所述的激活音检测方法,其特征在于, 在当前帧为第一帧时,所述连续激活音帧个数为〇。
11. 根据权利要求1所述的激活音检测方法,其特征在于,所述已有VAD判决结果或联 合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0 时表示为非激活音帧,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少 两种已有VAD判决结果得到最终联合VAD判决结果包括: 当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合 VAD判决结果,当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一 个已有VAD判决结果作为联合VAD判决结果,其中,所述逻辑运算是指"或"运算或者"和" 运算: 条件1 :平均全带信噪比大于信噪比阈值, 条件2 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于 信噪比阈值, 条件3 :调性信号标志设置为1。
12. 根据权利要求1所述的激活音检测方法,其特征在于,所述已有VAD判决结果或联 合VAD判决结果为1时表示为激活音帧,所述已有VAD判决结果或联合VAD判决结果为0 时表示为非激活音帧,,所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至 少两种已有VAD判决结果得到最终联合VAD判决结果包括: 当满足以下任一条件时所述联合VAD判决结果为1,当不满足下列至少一个条件时选 择所述至少两个已有VAD判决结果的逻辑运算作为输出,其中,逻辑运算是指"或"运算或 者"和"运算: 条件1 :至少两个已有VAD判决结果全部为1, 条件2 :至少两个已有VAD判决结果之和大于联合判决阈值,并且调性信号标志设置为 1, 条件3 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于 信噪比阈值,调性信号标志设置为1。
13. -种激活音检测装置,其特征在于,包括: 联合判决模块,用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两 种已有VAD判决结果得到最终的联合VAD判决结果。
14. 根据权利要求13所述的激活音检测装置,其特征在于,该装置还包括参数获取模 块,所述参数获取模块包括: 第一参数获取单元,用于获得当前帧的子带信号及频谱幅值; 第二参数获取单元,用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参 数和时域稳定度特征参数的值; 第三参数获取单元,用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的 值; 第四参数获取单元,用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、 谱平坦度特征参数计算所述调性信号标志。
15. 根据权利要求14所述的激活音检测装置,其特征在于,所述参数获取模块还包括: 第五参数获取单元,用于获取前一帧估计得到的背景噪声能量; 第六参数获取单元,用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量 参数计算得到所述平均全带信噪比。
16. 根据权利要求14所述的激活音检测装置,其特征在于,所述参数获取模块还包括: 第七参数获取单元,用于在当前帧为第一帧时,确定所述连续激活音帧个数为〇, 在当前帧为第二帧及第二帧以后的语音帧时,通过前一联合VAD判决结果计算当前的 连续激活音巾贞个数continuous_speech_num2,具体的: 当联合 VAD 标志 vad-flag 标志为 1 时 continuous-speech-num2 力口 1 ; 当 vad_flag 判为 0 时,continuous_speech_num2 置 0。
【文档编号】G10L25/78GK104424956SQ201310390795
【公开日】2015年3月18日 申请日期:2013年8月30日 优先权日:2013年8月30日
【发明者】朱长宝, 袁浩 申请人:中兴通讯股份有限公司
激活音检测方法和装置制造方法
相关推荐
专利名称:一种led灯散热结构的制作方法技术领域:本实用新型涉及LED灯技术领域,特别涉及LED灯的散热技术,具体地讲是一种LED灯散热结构。背景技术:发光二极管LED (Light Emitting Diode)依靠电流通过固体直接福射光
专利名称:胡琴用的千斤枕的制作方法技术领域:本实用新型属于一种改善胡琴类乐器音质的新元件。胡琴类千斤枕多采用捆扎式或弦钩式的办法处理。演奏时,两条琴弦紧靠在一起,偶尔产生共振,是二胡产生杂音和噪音的原因之一。本实用新型目的是公开一种胡琴用千
专利名称:一种带有可收放支架的折叠式led台灯的制作方法技术领域:本实用新型涉及照明设备技术领域,特别是涉及一种带有可收放支架的折叠式LED台灯。背景技术:LED台灯具有节能、环保、安全可靠的特点,是现在市场上主要的台灯类型,现在的LED台
专利名称::光敏性树脂组合物、光敏性元件、抗蚀剂图案的形成方法及印刷电路板的制造方法技术领域::本发明涉及光敏性树脂组合物、光敏性元件、抗蚀剂图案的形成方法及印刷电路板的制造方法。背景技术::以往印刷电路板制造中永久掩模抗蚀剂是采用丝网印刷
专利名称:用于可伸缩声道解码的方法、介质和设备的制作方法用于可伸缩声道解码的方法、介质和设备本申请是向中国知识产权局提交的申请日为2007年I月11日的标题为“用于可伸缩声道解码的方法、介质和设备”的第200780002329. X号申请的
专利名称:Led灯具上铝基座的散热结构的制作方法技术领域:本实用新型涉及照明领域,尤其涉及一种LED灯具上铝基座的散热结构。背景技术:LED具有发光效率高、低发热、省电和寿命长的特点,因此,应用越来越广泛,但是,在各种大功率LED灯的应用中