当前位置:网站首页>专利 >正文

基于多带谱减法的非空气传导语音增强方法

专利名称:基于多带谱减法的非空气传导语音增强方法
技术领域
本发明属于语音信号的探测与采集及语音增强技术领域,特别涉及一 种基于多带谱减法的非空气传导语音增强方法。
背景技术
由于探测原理和方法本质上的不同,语音的非空气传导探测技术从本 质上突破了传统空气传导语音的固定模式和局限性,同时也是对传统探测 方式单一性的有效补充。非空气传导语音探测技术不仅能够克服多种语音 探测模式的缺点和不足(使人们摆脱必须在声源附近安置麦克风的限制 而实现较远距离探测语音、具备较强抗声学干扰能力,并克服了激光、红 外、超声波等探测技术易受环境、温度和气候影响的缺点),而且具有多 种重要特点和优点(非接触、非侵入、安全、实时、高灵敏度、强抗干扰 能力、高方向性、 一定的穿透性、成本低廉等),因此这种技术的发展将 拓展语音及声学信号探测的应用场合、适用性及其应用领域,在民用、工 业、科研、灾害救援、医院临床、反恐等许多应用领域发挥独特的功能和 优势,具有广阔的应用前景。
然而大量的实验数据表明,采用雷达波探测出来的语音信号干扰成分,
要比采用普通声学传感器复杂得多。其干扰主要来自以下几个方面(a)
目标说话时的体动干扰。如说话时的头部运动、手势、口唇运动、心瑕L
呼吸等;(b)雷达波的各次谐波、信道噪声及语音探测系统硬件本身的 附加噪声;(c)外界环境噪声的干扰,这些噪声信号成份复杂,幅度更强,且多与语音信号频谱相混叠,严重影响了语音信号的质量。因此,对 于在对所采集雷达语音信号进行特性分析的基础上,有针对性地进行语音 的去噪增强,也是一项十分重要的工作。

发明内容
本发明的目的在于提供一种能够弥补传统语音增强方法针对性不强 的弱点,且执行效率高、算法简单易行,效果明显,具有较强的实用价值 的基于多带谱减法的非空气传导语音增强方法。
为达到上述目的,本发明采用技术方案是
1) 对雷达非空气传导语音做A/D转换,进行数字化处理,其采样速率 为10KHz 20KHz;
2) 对数字化后的雷达语音进行有声段及无声段判别;
3) 对上述雷达语音中的无语音段进行采集,得到长度大于10帧即 200 400ms的噪声,取每帧256 512点,设定帧间重叠率介于25% 75%间, 并进行噪声平均估计;
4) 对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到 噪声功率谱估计值;
5) 对上述雷达语音中的有语音段做分帧处理,取每帧256 512点, 并设定帧间重叠率介于25% 75%间,再对每帧语音数据做傅立叶变换进行 频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;
6) 将语音和噪声频谱分为五个频段,分别是0 300Hz (Band 1), 300 1KHz (Band 2), 1K 2K (Band 3), 2K 3K (Band 4), 3K 5K (Band 5);
7) 对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;
8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将
语音信号做反变换,从而得到处理后的语音信号。
本发明对数字化后的雷达语音进行有声段及无声段判别采用短时能 量、过零率、倒谱、谱熵、线性预测分析或神经网络方法;对于处于各个 频段内的噪声功率谱进行加权,其加权系数,《可由下式计算 _ 纖,< 5
-5SSW ,《20,其中S^为第/个频率段的信噪 纖,> 20
1
比;
《的值为:
《=
160他2 Z《300/fe
1.20.3服< "1X/fe
< 1.5y^7z < " 2/fflk
2.52版< /《3她
1.53版< 〃 5她
频率段内的频率;
本发明利用毫米波雷达探测语音信号具有多种空气传导语音探测方 法所不具备的优点,如能够摆脱传统的在声源附近必须安置声学传感器的 限制,对检测对象无任何约束,并能穿透一定的介质及障碍物进行检测, 从而有望在诸如演讲、报告、舞台表演、打电话等场合、复杂声学环境中 语音的定向检测、微弱宽带声学信号检测、灾害救援(地震、塌方中的伤 员探寻)、医院临床的语音检测、评价、恢复与监护系统、反恐斗争(隔 墙监听)、国家安全(侦听)等领域内得到广泛应用,具有广阔的应用前 景和市场推广价值。本发明基本上能使语音信号的质量达到普通麦克风采 集的效果。


图1为整个雷达非空气传导语音增强系统的结构框图。其中的标号分 别表示1、语音信号加窗及做快速傅立叶变换;2、对有语音段信号频谱 做多带分割;3、对无语音段信号做噪声估计;4、提取的相位信息;5、 第i频段的调节系数《.;6、第i频段的过减因子^; 7、能量谱相减;8、反 傅立叶变换。
图2为某段雷达语音在五个频段内(0 300Hz (Band 1), 300 1KHz (Band 2), 1K 2K (Band 3), 2K 3K (Band 4), 3K 5K (Band 5))的信 噪比分布图3为对某段指定的语音信号,使用本发明所述方法之前和之后,及 与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未增强语音的语 谱图,(b)为使用传统谱减法增强后的语音谱图;(c)为使用本发明所述 改进的基于多带谱减法增强后语音的语谱图。
具体实施例方式
下面结合附图对本发明作进一步详细说明。
参见图l ,本发明首先将接收到雷达非空气传导语音信号进行数字化 处理后加窗并做快速傅立叶变换l;对变换后的信号进行有声段及无声段 判别、对有语音段信号频谱做多带分割2、对无语音段信号做噪声估计3并 提取语音的相位信息4;对有语音段信号频谱做多带分割后以第i频段的调 节系数《为其加权5;对无语音段信号做噪声估计后以第i频段的过减因子 《为其加权6;用加权后的带噪语音的功率谱减去加权后的噪声功率谱估 计值7;将提取的相位信息和能量谱相减的结果进行反傅立叶变换8。
其具体步骤如下1) 对雷达非空气传导语音^A/D转换,进行数字化处理,其采样速率 为10KHz 20KHz;
2) 对数字化后的雷达语音进行有声段及无声段判别;
3) 对上述雷达语音中的无语音段进行采集,得到长度大于10帧即 200 400ms的噪声,取每帧256 512点,设定帧间重叠率介于25% 75%间, 并进行噪声平均估计;
4) 对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到
噪声功率谱估计值;
5) 对上述雷达语音中的有语音段做分帧处理,取每帧256 512点, 并设定帧间重叠率介于25% 75%间,再对每帧语音数据做傅立叶变换进行 频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;
6) 将语音和噪声频谱分为五个频段,分别是0 300Hz (Band 1), 300 1KHz (Band 2), 1K 2K (Band 3), 2K 3K (Band 4), 3K 5K (Band 5);
7) 对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功 率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值,
8) 将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将
语音信号做反变换,从而得到处理后的语音信号。 整个数据处理步骤可表述如下
设s(")为纯净语音信号,c/(")为噪声信号,y(w)为带噪语音信号,则

<formula>formula see original document page 8</formula> 因此,对上述三个参量分别做傅立叶变换后,就得到带噪语音的功率谱,
可表示为|y(6))|2 |S( )|2+|D( )|2 (2)这里ly(Wl2, |5( )|2和|£)^)|2分别代表带噪语音短时谱、纯净语音短时谱和噪声功率谱估计。经典谱减法(Berouti et. al (1979))可以表示为一)if其它,<formula>formula see original document page 9</formula>(3)这里"(《>1)是过减因子,它是信噪比的函数,风0^;^1)为谱阶,y则是 变换程度的指数因子。这里我们设^ = 2,及/ =0.002。传统谱减法假设噪声是"均匀"地污染语音的,因此都会令带噪语音 在整个语音频谱范围内减去一个其值恒定的过减因子。然而,基于雷达的 非空气传导语音的噪声往往是有色的,并且不会在整个频谱范围内均匀地 影响语音信号。图2给出了一个雷达语音在五个频段内(0 300Hz (Band 1), 300 1KHz (Band 2), 1K 2K (Band 3), 2K 3K (Band 4), 3K 5K (Band 5))的信噪比分布图,可以看出雷达非空气传导语音的两个较低频率带的 信噪比要比高频率段的要高。其中最高和最低的信噪比值之差约25 dB, 这是一个非常大的数值。因此,如果在全频段范围内给定一个固定的过减 因子,往往会在滤去噪声的同时丢失语音信号。为了在语音增强过程中考虑到有色噪声对不同语音频率段的影响,我 们将整个语音频谱分为互不重叠的5段,同时分别为每一段设计独自的谱 减系数。因此第i段的纯净语音谱可以估计为《(&)|2 = I" ()t)|2 - ",《("|2 ,6> " e, (4)这里",是第i频段的过减因子,《是为每一频段设置的调节系数,6, 和e,是第i个频率段的起止频率,因此,整个算法就如图3所示。这里,我们定义过减因子是每个频率段信噪比的函数,信噪比由下式计算:SM ,(必)=101ogl。 - (5)"4依据公式(5)的计算公式及图2的结果,过减因子",可由下式计算:5 纖< 54 -丄(纖,) -5 S纖,S 20 (6) 201 纖,> 20另外一个因子,公式(4)中的《能够被用来对每一个频率段进行精细 控制,由于大部分的语音能量聚集在低频段,较小的《.值就能够用来校正语音失调。《的值由反复实验中得来,设定为1 60历2 / S 300/fe1.2 0.3ii^fe < " li^z 《=<! 1.5 lii^ <" (7)2.5 2她< /《3他1.5 3紛"y;《5股利用这两个因子能够对各种发声条件下,每一段的语音频谱进行细微调 整从而得到较高质量的语音信号,从而得到增强后的非空气传导语音。以下是发明人给出的实施例,但并不局限于这些实施例一男性在距离雷达式非空气传导语音探测仪前5米处以正常语速发声, 语音材料为"第四军医大学",语音时长为4. 8秒,其中有语音段约为3. 1 秒。依下述步骤对此语音做增强处理1) 对雷达非空气传导语音做A/D转换,采样速率为10KHz/秒;2) 对数字化后的雷达语音进行有声段及无声段判别,本例中采用基 于小波熵阈值的方法进行判别;页 3) 对语音末尾段近一秒的无语音段做分帧处理,以每512点为一帧, 并设帧间重叠率为50%;4) 对该噪声段做傅立叶变换,再取频谱幅值的平方以得到噪声功率 谱估计值;5) 对雷达语音中的有语音段进行分帧,以每512点为一帧,并设帧间 重叠率为50%。对此有语音段做傅立叶变换,并取频谱幅值的平方得到带 噪语音的频谱和功率谱;6) 将语音和噪声频谱分为五个频段,分别是0 300Hz (Band 1), 300 1KHz (Band 2), 1K 2K (Band 3), 2K 3K (Band 4), 3K 5K (Band 5);7) 对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功 率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;所说 的对于处于各个频段内的噪声功率谱进行加权,其加权系数,^可由下式 计算雄,< 5-5"M^20,其中SW ,为第i个频率段的信噪 纖.> 204-上(纖,) 20、'1比;《的值为:《=16o历《y;^ 300历1.2'1.52.52他< /《3她1.53她< y;《5他8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将ii语音信号做反变换,从而得到处理后的语音信号。处理结果图图3为对某段指定的语音信号,使用本发明所述方法之 前和之后,及与传统谱减法相比的雷达语音语谱图比较图。其中(a)为未 增强语音的语谱图,(b)为使用传统谱减法增强后的语音谱图;(c)为使 用本发明所述改进的基于多带谱减法增强后语音的语谱图。从图3(a)中可 以看出,原始语音中携带有具有较强能量的噪声,这些噪声在语音字句之 间能够明显地观察到。图3(b)显示出传统的谱减法能够有效地减少2 kHz 以下的噪声,同时也能有效去除语音间隙的噪声,但是不能够去除高频噪 声。图3(c)示出本专利所述的多带谱减法效果。它不仅能够减小语音及其 间隙中的低频噪声,而且能较完全地去除高频噪声。说明与传统谱减法相 比,多带谱减法能够在全频率段内实现较好的语音增强效果。同步开展的 听觉感知实验也表明本专利所述方法能够有效去除雷达语音的噪声,且不 丢失语音信息。另外,本发明所述多带谱减法中的两个因子",和《能够在多种不同和 复杂的语音环境和条件下很容易地改变其值来提升语音质量。同时还须注 意到,如果本发明所述方法的频谱分割子带的数目仅为一时,本方法即回 归到传统的谱减法。
权利要求
1、基于多带谱减法的非空气传导语音增强方法,其特征在于1)对雷达非空气传导语音做A/D转换,进行数字化处理,其采样速率为10KHz~20KHz;2)对数字化后的雷达语音进行有声段及无声段判别;3)对上述雷达语音中的无语音段进行采集,得到长度大于10帧即200~400ms的噪声,取每帧256~512点,设定帧间重叠率介于25%~75%间,并进行噪声平均估计;4)对该无语音段噪声信号做傅立叶变换,再取频谱幅值的平方得到噪声功率谱估计值;5)对上述雷达语音中的有语音段做分帧处理,取每帧256~512点,并设定帧间重叠率介于25%~75%间,再对每帧语音数据做傅立叶变换进行频谱分析,并取频谱幅值的平方得到带噪语音的功率谱估计值;6)将语音和噪声频谱分为五个频段,分别是0~300Hz(Band 1),3001KHz(Band 2),1K~2K(Band 3),2K~3K(Band 4),3K~5K(Band5);7)对于处于各个频段内的噪声功率谱进行加权,并用带噪语音的功率谱减去加权后的噪声功率谱,从而得到纯净语音的功率谱估计值;8)将带噪语音的频谱相位作为增强后语音频谱相位的估计值,再将语音信号做反变换,从而得到处理后的语音信号。
2、 根据权利要求l所述的基于多带谱减法的非空气传导语音增强方 法,其特征在于所述对数字化后的雷达语音进行有声段及无声段判别采用短时能量、过零率、倒谱、谱熵、线性预测分析或神经网络方法。
3、根据权利要求l所述的基于多带谱减法的非空气传导语音增强方法,其特征在于所说的对于处于各个频段内的噪声功率谱进行加权,其加权系数,",可由下式计算<formula>formula see original document page 3</formula>,其中Si^为第/个频率段的信噪比;《的值为<formula>formula see original document page 3</formula>, 其中y;为第外频率段内的频率
全文摘要
本发明公开了一种基于多带谱减法的非空气传导语音增强方法,由于基于雷达的非空气传导语音中的噪声往往是有色的,并且不会在整个频谱范围内均匀地影响语音信号,因此本发明提出将语音频谱有针对性地分为互不重叠的五段,同时分别为每一段设计独自的谱减系数,从而实现算法的有效性和较强的针对性。采用这种方法的实例表明,这种新型非空气传导语音增强方法能够有效弥补传统语音增强方法针对性不强的弱点,且执行效率高、算法简单易行,效果明显,因此具有较强的实用价值和应用前景。
文档编号G10L21/00GK101320566SQ20081015020
公开日2008年12月10日 申请日期2008年6月30日 优先权日2008年6月30日
发明者盛 李, 明 牛, 王健琪, 荆西京 申请人:中国人民解放军第四军医大学

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:复合反射幕的制造方法技术领域:本发明涉及一种复合反射幕的制造方法,复合反射幕是一种新型的投影幕,属于投影幕制造的技术领域。背景技术:背景技术:中有一种制造投影幕的方法,采用简单的工具将反射涂料涂布或喷涂在基布的作为幕面的一面上,制

    专利发布时间:2025-07-01阅读:(89)

    专利名称:液晶显示面板及其像素结构的制作方法技术领域:本发明涉及一种液晶显示面板及其像素结构,尤其涉及一种设置有配向 电极的多区域垂直配向型液晶显示面板的像素结构。背景技术:液晶显示器已被广泛地应用在各式电子产品,如手机、个人数字助理及 笔

    专利发布时间:2025-07-01阅读:(133)

    提琴音板振动台的制作方法【专利摘要】本实用新型提供了一种提琴音板振动台,包括振动台架和扬声器,还包括吊挂在振动台架上的两个挂钩,所述扬声器的纸盘的中央顶部竖直向上设有振动信号传动杆,所述振动信号传动杆的顶部高于扬声器的支架的顶部。本实用新型

    专利发布时间:2025-07-01阅读:(98)

    专利名称:一种火焰仿真系统的制作方法技术领域:一种火焰仿真系统技术领域[0001 ] 本实用新型涉及电壁炉技术领域,具体是一种电壁炉中的火焰仿真系统。背景技术:[0002]随着科学技术的发展和环保要求的日益提高,传统的实物燃烧壁炉已经逐步被

    专利发布时间:2025-07-01阅读:(129)

    专利名称:θ调制全息光栅的制作方法技术领域:本发明涉及一种光栅的制作方法,属于光学器件制造领域。 背景技术:e调制是对图像的不同区域分别用取向不同(e角不同)的光栅进行调制, 这个被取向不同的光栅所调制的物片就是9调制光栅。将这样的e调制光

    专利发布时间:2025-07-01阅读:(89)

    Led地灯的制作方法【专利摘要】本发明涉及一种LED地灯,其包括固定环、收容体、灯体组件及电源模块。所述固定环开设收容部,且该收容部的内圆周壁凸设有多个卡舌;所述收容体沿开设形成收容腔。所述灯体组件包括盖体、散热支架、LED模组、以及透明罩

    专利发布时间:2025-07-01阅读:(119)