激活音检测方法和装置制造方法-品牌商务网

激活音检测方法和装置制造方法
【专利摘要】本发明提供了一种激活音检测方法和装置。解决了现有VAD检测不准确的问题。该方法包括：根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果。本发明提供的技术方案适用于语音业务，实现了高准确性的VAD判决。
【专利说明】激活音检测方法和装置

【技术领域】
[0001] 本发明涉及通信领域，尤其涉及一种激活音检测方法和装置。

【背景技术】
[0002] 正常的语音通话中，用户有时在说话，有时在听，这个时候就会在通话过程出现非激活音阶段，正常情况下通话双方总的非语音激活阶段要超过通话双方总的语音编码时长的50%。在非激活音阶段，只有背景噪声，背景噪声通常没有任何有用信息。利用这一事实，在语音频信号处理过程中，通过激活音检测（VAD)算法检测出于激活音和非激活音，并采用不同的方法分别进行处理。现代的很多语音编码标准，如AMR、AMR-WB，都支持VAD功能。在效率方面，这些编码器的VAD并不能在所有的典型背景噪声下都达到很好的性能。特别是在非稳定噪声下，这些编码器的VAD效率都较低。而对于音乐信号，这些VAD有时候会出现错误检测，导致相应的处理算法出现明显的质量下降。另外，现有的VAD技术会存在判决不准确的情况，例如有的VAD技术在语音段之前几帧检测不准，有的VAD在语音段之后几帧检测不准确。

【发明内容】

[0003] 本发明提供了一种激活音检测方法和装置，解决了现有VAD检测不准确的问题。
[0004] 一种激活音检测方法,包括：
[0005] 根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。
[0006] 优选的，该方法还包括：
[0007] 获得当前帧的子带信号及频谱幅值；
[0008] 根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；
[0009] 根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；
[0010] 根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
[0011] 优选的，该方法还包括：
[0012] 获取前一帧估计得到的背景噪声能量；
[0013] 根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
[0014] 优选的，所述获取前一帧估计得到的背景噪声能量包括：
[0015] 获得前一帧的子带信号及频谱幅值；
[0016] 根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值；
[0017] 根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数；
[0018] 根据前一帧的帧能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识；
[0019] 根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志；
[0020] 根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量，得到前一帧全带背景噪声能量。
[0021] 优选的，所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；
[0022] 所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；
[0023] 所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两帧能量幅值叠加值平方的期望的比值，或该比值乘上一个系数；
[0024] 所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；
[0025] 调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的，或继续对该相关系数进行平滑滤波得到的。
[0026] 优选的，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括：
[0027] A)在当前帧信号为非调性信号，用一个调性帧标志tonality_frame来指示当前帧是否为调性帧；
[0028] B)在下述条件之一被满足时执行步骤C)，在下述两个条件均不满足时执行步骤 D)：
[0029] 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值，
[0030] 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值；
[0031] C)判断当前帧是否为调性帧，并根据判断结果设置所述调性帧标志的值，具体的：
[0032] 在满足全部以下条件时判断所述当前帧为调性帧，在任一或任意多个以下条件不满足时判断所述当前帧为非调性帧并执行步骤D :
[0033] 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值，
[0034] 谱重心特征参数值大于一个设定的第一谱重心判定门限值，
[0035] 各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时，判断当前帧为调性帧，设置所述调性帧标志的值；
[0036] D)根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置；
[0037] E)根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否为调性信号，并设置调性标志t〇nality_flag的值。
[0038] 优选的，在当前的调性帧标志指示所述当前帧为调性帧时，采用以下表达式对调性程度特征参数tonality_degree进行更新：
[0039] tonal ity_degree = tonal ity_degree_1 · td_scale_A+td_scale_B?
[0040] 其中，tonality+degreh为前一帧的调性程度特征参数，其初始值取值范围为 [0,1]，td_scale_A为衰减系数，td_scale_B为累加系数。
[0041] 优选的，在调性程度特征参数tonality_degree大于设定的调性程度门限值时，判断当前帧为调性信号；
[0042] 在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时，判断当前帧为非调性信号。
[0043] 优选的，该方法还包括：
[0044] 在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音巾贞个数continuous_speech_num2,具体的：
[0045] 当联合 VAD 标志 vad_f lag 标志为 1 时 continuous_speech_num2 力口 1 ;
[0046] 当 vad_flag 判为 0 时，continuous_speech_num2 置 0。
[0047] 优选的，在当前帧为第一帧时，所述连续激活音帧个数为0。
[0048] 优选的，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：
[0049] 当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合VAD判决结果，当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果，其中，所述逻辑运算是指"或"运算或者 "和"运算：
[0050] 条件1 :平均全带信噪比大于信噪比阈值，
[0051] 条件2 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于信噪比阈值，
[0052] 条件3 :调性信号标志设置为1。
[0053] 优选的，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0时表示为非激活音帧，，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：
[0054] 当满足以下任一条件时所述联合VAD判决结果为1，当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出，其中，逻辑运算是指"或"运算或者"和"运算：
[0055] 条件1 :至少两个已有VAD判决结果全部为1，
[0056] 条件2 :至少两个已有VAD判决结果之和大于联合判决阈值，并且调性信号标志设置为1，
[0057] 条件3 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于信噪比阈值，调性信号标志设置为1。
[0058] 本发明还提供了一种激活音检测装置，包括：
[0059] 联合判决模块，用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。
[0060] 优选的,该装置还包括参数获取模块,所述参数获取模块包括：
[0061] 第一参数获取单元，用于获得当前帧的子带信号及频谱幅值；
[0062] 第二参数获取单元，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；
[0063] 第三参数获取单元，用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；
[0064] 第四参数获取单元，用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
[0065] 优选的,所述参数获取模块还包括：
[0066] 第五参数获取单元，用于获取前一帧估计得到的背景噪声能量；
[0067] 第六参数获取单元，用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
[0068] 优选的，所述参数获取模块还包括：
[0069] 第七参数获取单元，用于在当前帧为第一帧时，确定所述连续激活音帧个数为0，
[0070] 在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音巾贞个数continuous_speech_num2,具体的：
[0071] 当联合 VAD 标志 vad_flag 标志为 1 时 continuous_speech_num2 力口 1 ;
[0072] 当 vad_flag 判为 0 时，continuous_speech_num2 置 0。
[0073] 本发明提供了一种激活音检测方法和装置，根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果，实现了根据多种参数综合进行VAD判决，提高了 VAD判决的准确性，解决了 VAD检测不准确的问题。

【专利附图】

【附图说明】
[0074] 图1为本发明的实施例一提供的一种激活音检测方法的流程图；
[0075] 图2为本发明的实施例二提供的一种激活音检测方法的流程图；
[0076] 图3为本发明的实施例四提供的一种激活音检测装置的结构示意图；
[0077] 图4为图3中参数获取模块302的结构示意图。

【具体实施方式】
[0078] 为了解决VAD检测不准确的问题，本发明的实施例提供了一种激活音检测方法。下文中将结合附图对本发明的实施例进行详细说明。需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互任意组合。
[0079] 下面结合附图，对本发明的实施例一进行说明。
[0080] 本发明实施例提供了一种激活音检测方法，使用该方法完成VAD的流程如图1所示，包括：
[0081] 步骤101 :获取至少两种已有的VAD的判决结果；
[0082] 步骤102 :获得当前帧的子带信号及频谱幅值；
[0083] 本发明实施例中以帧长为20ms，采样率为32kHz的音频流为例具体说明。在其它帧长和采样率条件下，本发明实施例提供的激活音检测方法同样适用。
[0084] 将当前帧时域信号输入滤波器组单元，进行子带滤波计算，得到滤波器组子带信号。
[0085] 本发明实施例中采用一个40通道的滤波器组，本发明实施例提供的技术方案对于采用其他通道数的滤波器组同样适用。
[0086] 将当前帧时域信号输入40通道的滤波器组，进行子带滤波计算，得到16个时间样点上40个子带的滤波器组子带信号X[k，1]，0 < k < 40,0 < 1 < 16,其中k为滤波器组子带的索引，其值表示系数对应的子带，1为各个子带的时间样点索引，其实现步骤如下： [0087] 1 :将最近的640个音频信号样值存储在数据缓存中。
[0088] 2 :将数据缓存中的数据移40个位置，把最早的40个采样值移出数据缓存，并把 40个新的样点存入到0到39的位置上。
[0089] 将缓存中的数据X乘上窗系数，得到数组z，计算表达式如下：
[0090] z [η] =χ [η] · Wqmf [η] ; 0 ^ η < 640;
[0091] 其中Wqmf为滤波器组窗系数。
[0092] 采用以下的伪代码计算得到一个80点的数据u，
[0093]

【权利要求】
1. 一种激活音检测方法，其特征在于，包括：根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有激活音检测 (VAD)判决结果得到最终的联合VAD判决结果。
2. 根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：获得当前帧的子带信号及频谱幅值；根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
3. 根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：获取前一帧估计得到的背景噪声能量；根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
4. 根据权利要求3所述的激活音检测方法，其特征在于，所述获取前一帧估计得到的背景噪声能量包括：获得前一帧的子带信号及频谱幅值；根据前一帧子带信号计算得到前一帧帧能量参数、谱重心特征参数、时域稳定度特征参数的值；根据前一帧频谱幅值计算得到前一帧谱平坦度特征参数和调性特征参数；根据前一巾贞的巾贞能量参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数、调性特征参数计算得到前一帧的背景噪声标识；根据前一帧调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算前一帧调性信号标志；根据前一帧的背景噪声标识、帧能量参数、调性信号标志、前第二帧的全带背景噪声能量，得到前一帧全带背景噪声能量。
5. 根据权利要求4所述的激活音检测方法，其特征在于，所述帧能量参数是各个子带信号能量的加权叠加值或直接叠加值；所述谱重心特征参数是所有或部分子带信号能量的加权累加值和未加权累加值的比值，或该比值进行平滑滤波得到的值；所述时域稳定度特征参数是若干个相邻两帧能量幅值叠加值的方差和若干个相邻两帧能量幅值叠加值平方的期望的比值，或该比值乘上一个系数；所述谱平坦度特征参数是某些频谱幅值的几何平均数和算术平均数的比值，或该比值乘上一个系数；调性特征参数是通过计算前后两帧信号的帧内频谱差分系数的相关系数得到的，或继续对该相关系数进行平滑滤波得到的。
6. 根据权利要求2所述的激活音检测方法，其特征在于，根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志包括： A)在当前巾贞信号为非调性信号，用一个调性巾贞标志tonality_frame来指示当前巾贞是否为调性帧； B) 在下述条件之一被满足时执行步骤C)，在下述两个条件均不满足时执行步骤D): 调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第一调性特征参数判定门限值，调性特征参数tonality_ratel的值或其平滑滤波后的值大于对应的设定的第二调性特征参数门限值； C) 判断当前帧是否为调性帧，并根据判断结果设置所述调性帧标志的值，具体的：在满足全部以下条件时判断所述当前帧为调性帧，在任一或任意多个以下条件不满足时判断所述当前帧为非调性帧并执行步骤D : 所述时域稳定度特征参数值小于一个设定的第一时域稳定度判定门限值，谱重心特征参数值大于一个设定的第一谱重心判定门限值，各子带的谱平坦度特征参数均小于各自对应的预设的谱平坦度判定门限值时，判断当前帧为调性帧，设置所述调性帧标志的值； D) 根据所述调性帧标志对调性程度特征参数t〇nality_degree进行更新，其中调性程度参数tonality_degree初始值在激活音检测开始工作时进行设置； E) 根据更新后的所述调性程度特征参数t〇nality_degree判断所述当前帧是否为调性信号，并设置调性标志tonality_flag的值。
7. 根据权利要求6所述的激活音检测方法，其特征在于，在当前的调性帧标志指示所述当前巾贞为调性巾贞时，采用以下表达式对调性程度特征参数tonality_degree进行更新： tonality-degree = tonality-degree^ ? td-scale-A+td-scale-B，其中，tonality+degreeq为前一帧的调性程度特征参数，其初始值取值范围为[0，1]， td_scale_A为衰减系数，td_scale_B为累加系数。
8. 根据权利要求6所述的激活音检测方法，其特征在于，在调性程度特征参数t〇nality_degree大于设定的调性程度门限值时，判断当前帧为调性信号；在调性程度特征参数tonality_degree小于或等于设定的调性程度门限值时，判断当前帧为非调性信号。
9. 根据权利要求1所述的激活音检测方法，其特征在于，该方法还包括：在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音巾贞个数continuous_speech_num2,具体的：当联合 VAD 标志 vad_flag 标志为 1 时 continuous_speech_num2 力口 1 ; 当 vad_flag 判为 0 时，continuous_speech_num2 置 0。
10. 根据权利要求9所述的激活音检测方法，其特征在于，在当前帧为第一帧时，所述连续激活音帧个数为〇。
11. 根据权利要求1所述的激活音检测方法，其特征在于，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0 时表示为非激活音帧，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：当满足以下任意一个条件时选择至少两种已有VAD的判决结果的逻辑运算作为联合 VAD判决结果，当不满足下列至少一个条件时选择所述至少两种已有VAD判决结果中的一个已有VAD判决结果作为联合VAD判决结果，其中，所述逻辑运算是指"或"运算或者"和" 运算：条件1 :平均全带信噪比大于信噪比阈值，条件2 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于信噪比阈值，条件3 :调性信号标志设置为1。
12. 根据权利要求1所述的激活音检测方法，其特征在于，所述已有VAD判决结果或联合VAD判决结果为1时表示为激活音帧，所述已有VAD判决结果或联合VAD判决结果为0 时表示为非激活音帧，，所述根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终联合VAD判决结果包括：当满足以下任一条件时所述联合VAD判决结果为1，当不满足下列至少一个条件时选择所述至少两个已有VAD判决结果的逻辑运算作为输出，其中，逻辑运算是指"或"运算或者"和"运算：条件1 :至少两个已有VAD判决结果全部为1，条件2 :至少两个已有VAD判决结果之和大于联合判决阈值，并且调性信号标志设置为 1, 条件3 :continuous_speech_num2大于连续激活音巾贞个数阈值且平均全带信噪比大于信噪比阈值，调性信号标志设置为1。
13. -种激活音检测装置，其特征在于，包括：联合判决模块，用于根据连续激活音帧个数、平均全带信噪比、调性信号标志和至少两种已有VAD判决结果得到最终的联合VAD判决结果。
14. 根据权利要求13所述的激活音检测装置，其特征在于，该装置还包括参数获取模块，所述参数获取模块包括：第一参数获取单元，用于获得当前帧的子带信号及频谱幅值；第二参数获取单元，用于根据子带信号计算得到当前帧的帧能量参数、谱重心特征参数和时域稳定度特征参数的值；第三参数获取单元，用于根据频谱幅值计算得到谱平坦度特征参数和调性特征参数的值；第四参数获取单元，用于根据调性特征参数、谱重心特征参数、时域稳定度特征参数、谱平坦度特征参数计算所述调性信号标志。
15. 根据权利要求14所述的激活音检测装置，其特征在于，所述参数获取模块还包括：第五参数获取单元，用于获取前一帧估计得到的背景噪声能量；第六参数获取单元，用于根据所述前一帧估计得到的背景噪声能量、当前帧的帧能量参数计算得到所述平均全带信噪比。
16. 根据权利要求14所述的激活音检测装置，其特征在于，所述参数获取模块还包括：第七参数获取单元，用于在当前帧为第一帧时，确定所述连续激活音帧个数为〇，在当前帧为第二帧及第二帧以后的语音帧时，通过前一联合VAD判决结果计算当前的连续激活音巾贞个数continuous_speech_num2,具体的：当联合 VAD 标志 vad-flag 标志为 1 时 continuous-speech-num2 力口 1 ; 当 vad_flag 判为 0 时，continuous_speech_num2 置 0。
【文档编号】G10L25/78GK104424956SQ201310390795
【公开日】2015年3月18日申请日期:2013年8月30日优先权日:2013年8月30日
【发明者】朱长宝, 袁浩申请人:中兴通讯股份有限公司

本文推荐激活音检测方法和装置制造方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656784310.html

当前位置：网站首页>专利 >正文

激活音检测方法和装置制造方法

相关推荐