采用感知语谱结构边界参数的语音端点检测算法
【专利摘要】本发明属于语音识别领域,公开了一种采用感知语谱结构边界参数(PSSB)的语音端点检测算法。在对含噪语音进行基于听觉感知特性的语音增强之后,针对语音信号的连续分布特性与残留噪声的随机分布特性之间的不同点,对增强后语音的时-频语谱进行二维增强,从而进一步突出连续分布的纯净语音的语谱结构。通过对增强后语音语谱结构的二维边界检测,提出PSSB参数,并用于端点检测。实验结果表明,在白噪声-10dB到10dB的各种信噪比环境下,采用PSSB参数的端点检测算法更有效地检测出语音的端点。在-10dB的极低信噪比下,提出的方法仍然有75.2%的正确率。
【专利说明】采用感知语谱结构边界参数的语音端点检测算法
【技术领域】
[0001] 本发明属于语音识别领域,涉及一种语音端点检测算法,尤其涉及一种采用感知 语谱结构边界参数的语音端点检测算法。
【背景技术】
[0002] 作为语音识别和说话人识别的基础,正确有效的端点检测,可以大大提高说话人 识别系统和语音识别系统的识别率。在实验室高信噪比环境下,传统的端点检测算法可以 很好地检测出语音端点。然而在低信噪比环境下,大多数端点检测算法的性能均急剧下降。
[0003] 近年来,很多学者对噪声鲁棒的端点检测进行了研究。Ganapathiraju (A. Ganapathiraju, et al. Comparison of Energy-Based Endpoint Detectors for Speech Signal Processing . In Proc. IEEE Publications,1996; 500-503)等人米用短时能 量和短时过零率相结合的方法(Energy and Zero-Crossing Rate, EZCR)进行端点检测的 研究。这种方法相对于传统的能量方法,端点检测具有更好的鲁棒性。然而这种方法无法 在更低信噪比的环境下发挥作用。陈振标等人(陈振标,徐波。基于子带能量特征的最 优化语音端点检测算法研究。声学学报,2005;30(2) :171-176)根据语音的频域能量分布 特点,研究了子带幅度[Sub-Band Amplitude, SBA]及能量,并采用更具区分性和抗噪性的 多个子带能量和图像处理中常用的最优化边缘检测相结合的检测算法来进行端点检测,使 得端点检测在复杂噪声环境下的性能有明显改善。此外,Zhang等人(Xueying Zhang,et al. A Speech Endpoint Detection Method Based on Wavelet Coefficient Variance and Sub-Band Amplitude Variance. · In Proc. IEEE ICICIC,2006; 105-109)提出 了一种利用小波系数(Wavelet Coefficient,WC)的方法,利用小波分析的方法进行端点检 测,由于该方法能够在各尺度分析信号,所以能够在一定程度上区分出语音段和噪声段。mi 等人(Bing-Fei ffu, Kun-Ching Wang. Robust Endpoint Detection Algorithm Based on the Adaptive Band-Partitioning Spectral Entropy in Adverse Environments. IEEE Transactions on Speech and Audio Processing, 2005; 13 (5) : 762-775)把自适 应子带谱熵(Adaptive Band-Partitioning Spectral,ABSE)的方法用于端点检测。该 方法可以很好的区分语音的子带信号与噪声,并在含有噪声的环境下取得了较好的端点 检测正石角率。Li(Q.Li,et al. A Robust real-time endpoint detector with energy normalization for ASR in adverse environments. International Conference on Acoustics Speech and Signal Processing,2001; 574-577)借鉴图像处理中最优化边缘 检测的方法用于语音的端点检测,采用一个滤波器加上三态决策逻辑进行端点检测,因此 在不同信噪比的情况下不需要调整门限。该方法结合了图像处理的算法,对端点检测起到 了很好的辅助作用。然而,以上这些方法在低信噪比环境下,都无法得到较高的端点检测正 确率。
【发明内容】
[0004] 要解决的技术问题:低信噪比环境下,常规的端点检测方法的端点检测正确率非 常低的问题。
[0005] 技术方案:针对低信噪比下语音信号与噪声信号在时-频域二维空间的不 同特征,并结合基于听觉感知特性的语音增强算法,提出感知语谱结构边界参数PSSB (Perception Spectrogram Structure Boundary),并将其用于端点检测。首先,对低信噪 比语音进行基于听觉掩蔽特性的语音增强。与传统的语音增强算法相比,这种方法更有效 地保留住人耳可感知的语音成分。在此基础之上,在二维层面中考虑纯净语音语谱在时间 轴上的连续分布特性,对含噪语音进行二维增强,使语音的语谱结构更进一步突显出来,同 时抑制了噪声的语谱结构。最后寻找出连续分布的纯净语音语谱结构的二维边界,并提出 PSSB参数用于端点检测。
[0006] 1.基于听觉感知特性的语音增强 低信噪比环境下,大多数端点检测算法无法很好地检测出语音端点,甚至完全失效。而 人类却可以在噪音较强的环境中识别出语音段。在噪音环境下,人耳的听觉感知特性起到 了重要的作用。采用人耳听觉感知特性中的听觉掩蔽特性,可以在一定程度上抑制噪声而 更多的保留语音成分。本发明提出的/^53参数,先采用基于听觉掩蔽特性的语音增强,在 保护语音的基础上尽可能的抑制噪声。这种语音增强方法,最重要的是计算掩蔽阈值。掩 蔽阈值的计算以及语音增强系统如下:
【权利要求】
1. 一种采用感知语谱结构边界参数的语音端点检测算法,其特征在于所述的算法步骤 如下:(1)基于听觉感知特性的语音增强;(2)语音的二维增强,包括二维噪声腐蚀算法和 二维语音膨胀算法;(3)感知语谱结构边界(PSSB)参数与语音端点检测。
2. 根据权利要求1所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特 征在于所述的所述的算法步骤如下: 第一步:基于听觉感知特性的语音增强;采用基于听觉掩蔽特性的语音增强,在保护 语音的基础上尽可能的抑制噪声;所述的语音增强方法中掩蔽阈值的计算以及语音增强系 统如下:
3. 2语音端点检测 采用了针对语音连续性分布特点的检测方法,以此来区别对待浊音段和端点处的清音 段;具体端点检测方法如下: (1) 首先检测出PSSB参数大于阈值a并且连续分布m帧的语音段,此段为检测到的浊 音段; (2) 以此段为基础,所有跟此段连在一起并且连续大于等于阈值b的段,定义为语音 段;阈值b的值取的较小,实验中,b的值取0. 01到0. 05都具有较好的识别结果;这样可以 把PSSB数值较小的清音段识别出来; (3) 此语音段的起点和终点即为语音端点。
3. 根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特 征在于:实验设计在不同信噪比环境下;输入的低信噪比语音是16k采样,16位量化。
4. 根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特 征在于:使用汉明窗,巾贞长256,巾贞移128。
5. 根据权利要求2所述的一种采用感知语谱结构边界参数的语音端点检测算法,其特 征在于:语音选自TIMIT语音数据库,白噪声来自NoiseX-92噪声数据库。
【文档编号】G10L15/05GK104091593SQ201410175090
【公开日】2014年10月8日 申请日期:2014年4月29日 优先权日:2014年4月29日
【发明者】吴迪, 赵鹤鸣, 陶智 申请人:苏州大学
采用感知语谱结构边界参数的语音端点检测算法
相关推荐
专利名称:光学调节板的制作方法技术领域:本发明涉及一种用于快速光学调节光路的装置,尤其是一种扩大了光杠杆、望远镜类仪 器装置视场使用功能的光学调节板。 背景技术:目前,在光学测量实验中常使用杨氏模量及线膨胀系数测量方法测量,该测量方法都是
专利名称:一种方便擦拭的眼镜的制作方法技术领域:本实用新型属于日常生活用品技术领域,尤其涉及一种眼镜。背景技术:佩戴眼镜的人一般都会随身携带一块擦镜布,方便随时擦拭眼镜。但是在实际使用过程中,人们往往由于忘记携带擦镜布而无法及时清除眼镜上的
专利名称:弦乐器用卷线装置的制作方法技术领域:本发明涉及吉他等弦乐器的卷线装置,尤其涉及卷线装置的旋钮。背景技术: 吉他等弦乐器包括用来对弦进行调音的卷线装置。卷线装置如在例如实开昭56-102589号公报中所公开的那样,具备在弦乐器的头部
专利名称:结构改良的无线接收器的制作方法技术领域:本实用新型涉及一种无线传输的产品,尤其涉及一种无线接收器。背景技术:以往在博物馆、美术馆等公众场所参观时,解说员或导游为了说明介绍画作、瓷器等物品时会对参访人员详细解说,但是解说过程中又不能
专利名称:一种磁力转动连接结构及采用该结构的灯具的制作方法技术领域:本实用新型涉及两个构件之间的转动连接结构,特别是可徒手拧动其中一个构件,该构件能承受一定转矩载荷,还便于拆装的转动连接结构。本实用新型还涉及采用这种转动连接结构的灯具。背景
专利名称:一种高阻燃矿用光缆的制作方法技术领域:本实用新型涉及一种光缆,尤其涉及一种阻燃性能更优的矿用光缆,属于光纤光缆技术领域。背景技术:因矿山为事故多发地,国家安全生产监督管理局强制要求用于矿山的通信光缆进行矿用产品安全标志认证,矿用光