当前位置:网站首页>专利 >正文

基于稀疏分解与重构的鲁棒语音特征提取方法

专利名称:基于稀疏分解与重构的鲁棒语音特征提取方法
技术领域
本发明涉及稀疏分解与重构的语音特征提取方法。
背景技术
让机器能像人一样感知和理解语音一直是人类的梦想,语音识别为这一梦想带来了希望。经过几十年发展,语音识别技术取得了巨大成就,从最初的孤立词识别到如今的大词表连续语音识别(Large Vocabulary Continue Speech Recognition,LVCSR),语音识别技术已经迈出实验室并逐步走向应用。在理想环境下,目前的小词表以及中等词表识别系统的识别率能达到99%以上,LVCSR系统识别率也能超过95%,但在噪声情况下,识别率将急剧下降。数十年来,研究者们尝试用各种方法来增强语音识别系统的鲁棒性,虽取得了一定进展,但目前的语音识别系统仍然难以适应复杂的应用环境。噪声在现实应用中广泛存在,这些种噪声可能是加性的,可能是卷积性的,也可能是两者的混合。一般认为,外部环境噪声呈加性,信道影响呈卷积性。特别地,当训练环境没有噪声而测试环境存在噪声,或者训练环境和测试环境存在不同的噪声,将会引起环境失配。环境失配必然导致语音特征参数的分布存在偏差进而影响系统性能。为了增强语音识别系统的环境鲁棒性,研究者们提出了大量的方法。这些方法大致可分为两类,即特征增强和模型补偿。特征增强试图从畸变语音中提取鲁棒特征。这类方法或先对信号去噪然后提取特征,例如谱减,维纳滤波,卡尔曼滤波,子空间法等,或直接补偿特征,例如倒谱均值方差规正(C印stral Mean Normalization,CMN),特征弯折,短时高斯化,相关谱滤波(RelAtive SpecTrAl,RASTA),非线性滤波等。模型补偿则试图修改声学模型来适应环境,典型的有并行混合模型(Parallel Model Combination,PMC),泰勒级数展开(Vector Taylor Series,VTS)以及各种自适应方法如最大似然线性回归(Maximum Likelihood Linear Regression,MLLR),最大后验概率(Maxi-mum A-Posteriori,MAP)等。虽然研究者们提出了各种方法试图解决语音识别系统的噪声鲁棒性问题,但其效果仍然无法满足现实应用需求。一方面,应用环境复杂多变,存在着各种难以预测的时变噪声;另一方面,目前的方法普遍基于噪声的平稳性假设,且需要对噪声建模以实现噪声谱的估计。这决定了目前的方法在噪声平稳时能取得较好的效果,在复杂的时变噪声情况下无法取得理想的效果。近年来,随着稀疏分解与重构理论的成熟,信号的稀疏表示在信号处理各个领域展示出了巨大的潜力。信号满足稀疏性是指信号被分解在某个原子字典上时,仅有少量原子的系数不为零。现实中的大量信号,诸如图像,语音等都满足稀疏性或近似稀疏。另一方面,从人的认知角度上看,大量研究表明,人的感知神经系统总是从海量的神经元中,同时激活极少一部分以实现对外部刺激的编码。也就是说,人在感知外部刺激获取信息时,也遵从稀疏性原则。信号的稀疏表示在信号压缩、分析、去噪等各个方面均表现出了巨大的潜力。信号的稀疏分解与重构存在的问题CN 102290047 A
说明书
2/8页1、原子字典的选取目前的各种方法大多需要反复迭代,具有较高的时间复杂度, 而且难以满足信号投影后稀疏;2、信号的稀疏分解目前的稀疏分解方法满足的准则有稀疏性和重构误差最小准则,考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构目前的方法大多数等概率地考虑原子的贡献,忽略了原子的先验概率以及各个原子相互转换的概率。

发明内容
本发明的目的是为了解决现有1、原子字典的选取具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构忽略了原子的先验概率以及各个原子相互转换的概率的问题,提供一种基于稀疏分解与重构的鲁棒语音特征提取方法。基于稀疏分解与重构的鲁棒语音特征提取方法,它包括具体步骤如下步骤一、预处理,将读入的语音进行分帧、加窗,使语音从时间序列转变为帧序列; 步骤二、作离散傅立叶变换,并求功率谱
权利要求
1.基于稀疏分解与重构的鲁棒语音特征提取方法,其特征是它包括具体步骤如下步骤一、预处理,将读入的语音进行分帧、加窗,使语音从时间序列转变为帧序列;步骤二、作离散傅立叶变换,并求功率谱:
2.根据权利要求1所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤一的输入的是语音的离散时间信号,预处理时,采用汉明窗
3.根据权利要求2所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤三的具体过程是在满足重构训练样本误差最小的情况下从训练语音帧中选取具有代表性的帧作为原子;对于噪声原子,考虑动态更新,以追踪时变噪声的影响,提出算法I 算法I输入训练语音巾贞/,/2,.../r(功率谱); 输出原子字典Φ(具有代表性样本集合> 初始化Φ = [ ], threshold = 1.2 for 每帧/J = I,...,Γ
4.根据权利要求3所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤四的具体过程是对混噪语音帧的稀疏分解,就是混噪语音在冗余字典上的稀疏表示; 语音分量被表示在语音原子上,噪声分量被表示在噪声原子上;在重构时,将所有噪声分量上的系数置为0,仅保留语音声量上的非零系数;推导这一原理假定有语音原子0X=
和噪声原子Φν=
组成原子字典Φ =[Φ3Φν];混噪语音1 = s+v,其中s为清晰语音,ν为噪声;混噪语音在冗余字典上的分解
5.根据权利要求3所述基于稀疏分解与重构的鲁棒语音特征提取方法,其特征在于步骤五的具体过程是对于步骤三训练的原子字典,统计各个原子被使用到的次数,累加起来除以语音帧总数作为对应原子的先验概率;对原子之间的转移概率也做相同的统计,建立原子转移矩阵;重构时利用贝叶斯公式,在满足最大后验概率的准则下重构清晰语音帧的频谱。
全文摘要
基于稀疏分解与重构的鲁棒语音特征提取方法,涉及稀疏分解与重构的语音特征提取方法,解决了1、原子字典的选取具有较高的时间复杂度,而且难以满足信号投影后稀疏;2、信号的稀疏分解考虑语音信号和噪声信号的时间相关性的较少;3、信号的重构忽略了原子的先验概率以及各个原子相互转换的概率的问题,它包括具体步骤如下步骤一、预处理;步骤二、作离散傅立叶变换,并求功率谱;步骤三、原子字典训练,保存;步骤四、稀疏分解;步骤五、语音谱重构;步骤六、加梅尔三角滤波器并取对数;步骤七、得到梅尔倒谱系数与梅尔倒谱稀疏拼接,形成鲁棒特征。用于多媒体信息处理领域。
文档编号G10L15/02GK102290047SQ201110283908
公开日2011年12月21日 申请日期2011年9月22日 优先权日2011年9月22日
发明者何勇军, 韩纪庆 申请人:哈尔滨工业大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:解码装置、解码方法及程序的制作方法技术领域:本发明涉及将声音及音乐等的音频信号压縮解压縮的音频编码解 码技术。特别涉及在将音频信号的编码数据解码时,校正量化误差的技 术。背景技术:作为将音频信号变换为频域的信号来进行编码的方式的一

    专利发布时间:2025-07-01阅读:(107)

    专利名称:可拆卸式卤素灯的制作方法技术领域:本实用新型涉及一种照明设备,特别是涉及一种可拆卸式卤素灯。背景技术:可拆卸式的卤素灯因其结构具有可拆卸性,当灯的某一个零部件损坏时可以随意更换。因此在各个照明领域中具有广泛的应用。现有的可拆式卤素

    专利发布时间:2025-07-01阅读:(152)

    专利名称:具有挠性基底的可膨胀插入件的制作方法具有挠性基底的可膨胀插入件背景技术:可膨胀插入件通常用于提高汽车的声学或结构质量。通常,可膨胀材料被布置在车体的空腔中,并在汽车制造过程中例如通过加热而膨胀,以便填充空腔的一部分。可膨胀材料可以

    专利发布时间:2025-07-01阅读:(103)

    专利名称:高功率强激光耦合传输光纤的制作方法技术领域:本实用新型涉及一种传输光纤,尤其是高功率强激光耦合传输光纤。背景技术:用光导纤维进行光能传输,是目前柔性地、长距离地传输光能量的最有效的方法,如众所悉知的通信光缆,已成为现代通信网络的基

    专利发布时间:2025-07-01阅读:(155)

    专利名称:一种易拆分的led灯的制作方法技术领域:—种易拆分的LED灯技术领域[0001]本实用新型涉及一种LED灯,特别是一种结构美观、便于修理和清理的易拆分的 LED灯,属于LED照明件技术领域。背景技术:[0002]LED灯作为一种新

    专利发布时间:2025-07-01阅读:(82)

    专利名称:一种基于声纹的加密数码相机的制作方法技术领域:本实用新型属于数码相机领域,具体涉及一种基于声纹技术的加密数 码相机。背景技术:目前,市场上的数码相机普遍没有数据加密功能,当相机或相机上的 存储设备意外丢失后,别人可以任意查看相机上

    专利发布时间:2025-07-01阅读:(104)