当前位置:网站首页>专利 >正文

语音检测方法及其设备的制作方法

专利名称:语音检测方法及其设备的制作方法
技术领域
本发明涉及语音技术,特别涉及语音中的分析检测技术。
背景技术
语音检测技术是指在一段语音和噪声混合的时间序列里将语音和噪声分辨出来。 即语音检测的目的是在语音和噪声的混合序列中将语音和噪声区分出来。在语音通话的时 候,由于说话者不可能一直都在说话,通过麦克风所录到的时间序列必然会有相当长一段 时间是没有语音的,即应该被认为是噪声。如果对所有的时间序列都用语音压缩方法进行 压缩,则会造成两个方面的浪费。具体地说,对噪声用语音压缩方法压缩,首先它会造成压 缩比特数的浪费,对噪声的压缩并不需要像对语音压缩那么多比特,传输噪声的能量以及 频谱形状即可在解码端较好的恢复。其次它会造成运算开销的浪费,语音编码解码算法比 噪声编码解码算法所需要消耗的开销大得多。因此,如果能准确的检测出输入时间序列是 语音还是噪声,能同时减少不必要的比特消耗和运算开销消耗。由于噪声是一直存在于语音中,并且和语音信号在某一些结构上有相似性,所以 需要设计一些算法对语音和噪声进行分辨。目前,通用的语音检测方法如图1所示。语音检测系统一般包含两个主要模块, 一是特征提取模块,它的主要功用是从输入信号里计算出几个参数来表征语音信号和噪声 信号的区别;二是分类器决策模块,它的主要功用是根据提取的特征来完成是语音还是噪 声的决定。其中,特征提取模块的传统算法有窄带语音编码标准G. 729所附带的静音检测 算法中的四种特征提取算法过零率、能量、低频段能量比和线谱对距离参数。过零率是指 提取当前时域信号穿过0的次数,通常部分语音信号会有较小的过零率而噪声通常具有较 大过零率。能量特征则是直接计算当前帧的能量,主要考虑到实际环境下语音的能量通常 较大的因素。低频段能量比是考虑到某一部分语音信号是周期性的且频率较低,它们的低 频段能量占据着信号大部分的能量,而噪声通常是在每个频段有着均勻或者较均勻的分布 的。线谱对距离参数则是描述着语音信号的频谱包络特性,噪声中这一特征并不明显。近 年来有学者提出了基于高阶统计量的方法,它的理论基础则是高斯噪声信号的某些高阶 统计量通常为零但相应的语音的却不为零。关于现有的语音检测方法也可参见专利号为 “5450484”的美国专利。然而,本发明的发明人发现,由于语音是由人的肺部或者其他发声器官发出,通过 声道或者口鼻腔调制而产生的信号。而噪声则是有多种产生方式,但和语音产生方式都会 有截然的不同。但在目前的用于表征语音信号和噪声信号的特征提取方法中,并没有一种 通过描述语音/噪声产生模型差异的特征提取方法,来用于语音检测。

发明内容
本发明的目的在于提供一种语音检测方法及其设备,能根据语音/噪声产生的模 型差异,检测出语音信号。
为解决上述技术问题,本发明的实施方式提供了一种语音检测方法,包含以下步 骤对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数目的输入信 号;将当前输入帧内的输入信号变换为二进制序列;根据二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值, 并根据计算出的复杂性特征值检测出当前输入帧内的输入信号是否为语音信号。本发明的实施方式还提供了一种语音检测设备,包含分帧模块,用于对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数 目的输入信号;二进制变换模块,用于将当前输入帧内的输入信号变换为二进制序列;计算模块,用于根据二进制变换模块变换后的二进制序列,计算当前输入帧的描 述二进制组合的出现种类的复杂性特征值;检测模块,用于根据计算模块计算出的复杂性特征值,检测出当前输入帧内的输 入信号是否为语音信号。本发明实施方式与现有技术相比,主要区别及其效果在于将输入帧内的输入信号变换为二进制序列,根据二进制序列计算当前输入帧的能 描述二进制组合的出现种类的复杂性特征值,从而检测出当前输入帧内的输入信号是否为 语音信号。由于语音信号不同于噪声信号,包含了声源的特征(具有确定的基音频率)和 声道的特征(具有更大的谐波性),因此语音信号的组合种类将是非常之少的。所以,通过 计算描述二进制组合的出现种类的复杂性特征值,来检测语音信号,实现了根据语音/噪 声产生的模型差异,检测出语音信号,使得语音信号能较为准确地被检测出来。进一步地,可以在对输入帧内的输入信号先进行处理后,再进行二进制序列的变 换,使得本发明的语音检测可适用于各种需对采样信号进行处理的情况。进一步地,直接通过与门限值的比较,将输入帧内的各信号变换为二进制序列,操 作简单,方便实现。


图1是根据现有技术中的语音检测方法流程图;图2是根据本发明第一实施方式的语音检测方法流程图;图3是根据本发明第三实施方式的语音检测设备结构示意图。
具体实施例方式在以下的叙述中,为了使读者更好地理解本申请而提出了许多技术细节。但是,本 领域的普通技术人员可以理解,即使没有这些技术细节和基于以下各实施方式的种种变化 和修改,也可以实现本申请各权利要求所要求保护的技术方案。为使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明的实施 方式作进一步地详细描述。本发明的第一实施方式涉及一种语音检测方法,具体流程如图2所示。
4
在步骤210中,对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数 目的输入信号,即将输入信号每数个采样点分成一帧,输入帧可以表示为x(l) = T{s(l)+n(l)},1 = 0,1,· · ·,L-I其中,s和η分别指输入语音信号和噪声信号,L为帧长度。比如说,以每10个输
入信号分为一帧,则 L 为 10,s (0) +η (0)、s (1) +η (1)、s ⑵ +η (2).......s (9) +η (9),即为第
1个、第2个......第10个采样点。符号T表示一种变换。在本实施方式中,将变换T定
义为同等变换,即Τ{χ(1)} = χ(1),因此,也可以理解为在本实施方式中,无需对采样点进 行变换,直接将采样点s(l)+η (1)作为χ(1)。接着,在步骤220中,将当前输入帧内的输入信号变换为二进制序列S' (1),即 s' (1)只在0和1之间取值。在本实施方式中,通过以下方式将当前输入帧内的各输入信 号变换为二进制序列将输入信号X(I)和一个门限值进行对比,如果大于门限值则取1,否则取0
, 「1, χ(1) > ηS'(I) = ^ w ‘其中,为方便计算门限值通常取0。但在实际应用中,门限值可以为任意数。需要 说明的是,也可以通过其他任意方法,将输入信号X(I)变换为二进制序列,如
fl,成/)〉;^ 或者 Χ(/)<Τ/2 s (I)= <也就是说,在实际应用中,无论通过哪种方式对χ(1)进行变换,只需将X(I)变换 为二进制序列s' (1)即可。本实施方式中的变换为二进制序列只是一个具体的例子,直接 通过与门限值的比较,将输入帧内的各信号变换为二进制序列,操作简单,方便实现。接着,在步骤230中,根据得到的二进制序列s' (1),计算当前输入帧的描述二进 制组合的出现种类的复杂性特征值C。由于语音信号的声源特征,与噪声信号的不同之处在 于,某一些语音信号是通过声带的周期性震动产生的,这些语音信号具有着确定的基音频 率。并且,语音信号的声道特征,与噪声信号的不同之处在于,声源信号通过声道会产生压 强的变化,通常可以用一个滤波系统来表示。此滤波系统常常对某些频段的信号会有着增 强的作用,这样意味着语音信号有更大的谐波性。因此语音信号的组合种类将是非常之少 的。所以,通过计算描述二进制组合(01组合)的出现种类的复杂性特征值C,可较好地体 现出语音/噪声产生的模型差异。复杂性特征值C的具体计算过程如下步骤一设定特征值C = 1,指数参数indeXl = 1和index2 = 0,同时设定步长step =1以及最大步长maxst印=1。步骤二 比较两个值s' [indeX2+st印]和s' [indeXl+st印],如果它们是相等 的,将步长值step增加1并且转到下一步(即步骤三)。否则转到步骤四。步骤三当所有序列值都被访问过了,即当indeXl+st印> L的时候,过程中止并 输出特征值C = C+1,否则返回步骤二。步骤四当步长值超过了当前最大步长,即step > maxst印,将最大步长设定为当 前步长值maXSt印=step。如果步长值没有超过当前最大步长,则直接进入步骤五。
5
步骤五指数参数递增indeX2 = index2+l步骤六当两个指数参数不等的时候,即indeXl Φ index2时,设定步长值为1,即 step = 1,然后返回步骤二。如果两个指数参数相等,则直接进入步骤七。步骤七将特征值加1 :C = C+1,并且增加指数参数indeXl = Index^maxstep0步骤八当indeXl+l > N时,算法中止,否则返回步骤二。由于若信号是规则的,例如周期信号等,它的组合种类将是非常之少的。反过来 说,若信号是不规则,它的组合种类是相对较多的。而在噪声污染下的规则信号的种类随着 噪声增多缓慢增加,这种特性也是符合语音检测实际情况的。因此上述计算的能描述二进 制组合(01组合)的出现种类的特征值C,可以体现出语音信号的声源和声道特征,反映出 语音/噪声产生的模型差异,是一种有效的特征。另外,可以理解,本步骤中的特征值C的计算过程是一种具体的实现方法。在实际 应用中,也可以通过设计其他的算法,计算出能描述二进制组合的出现种类的特征值。接着,在步骤240中,根据计算出的复杂性特征值C,检测出当前输入帧内的语音 信号。在本步骤中,可以对特征C采用任意的方法进行模式判别决策。比如说,一种根据典 型噪声的C值统计以及其和数据长度L的关系进行判决的方式如下
C < "^t,判为语音 Iog2I
<
O7^,判为噪声 Iog2 L当然,可以理解,也可以通过将特征值C与其他门限值进行比较,来检测语音信 号。事实上,如何根据特征值C来检测语音信号是已有的技术,因此在本实施方式中不再详 细赘述。不难发现,由于语音信号不同于噪声信号,包含了声源的特征(具有确定的基音 频率)和声道的特征(具有更大的谐波性),因此语音信号的组合种类将是非常之少的。简 单地说,在本实施方式中通过计算描述二进制组合(01组合)的出现种类的复杂性特征值, 根据该特征值与设定门限的比较结果,来检测语音信号(如果大于该设定门限,则认为是 语音信号,否则认为是噪声信号),实现了根据语音/噪声产生的模型差异,检测出语音信 号,使得语音信号能较为准确地被检测出来。而且,由于区别语音信号和噪声信号在很多应用场合都有很大的意义。比如说,在 语音增强系统里,由于需要分辨出噪声且用其能量或者其他统计特征对当前噪声频谱能量 和语音信号频谱能量进行估计,而且,为了保证被抑制的噪声不至于产生刺耳的效果,也需 要对噪声和语音信号采用略有区别的处理方法,因此需要对噪声和语音进行区别处理。类 似的,在语音识别、语音分析的系统里亦会需要语音的正确检测,以及如前文所述的能同时 减少不必要的比特消耗和运算开销消耗。因此,本实施方式中的语音检测方法,可适用于多 种应用场合。本发明的第二实施方式涉及一种语音检测方法,本实施方式与第一实施方式大致 相同,其主要区别在于,在第一实施方式中,T变换为同等变换,即无需对采样点进行处理, 直接将采样点s(l)+n(l)作为x(l)。而在本实施方式中,对输入帧内的各输入信号进行采样点处理变换,如T变换为傅里叶变换、小波变换或哈尔变换等其他各种可能的变换,进行 二进制序列变换的输入信号为经采样点处理变换后的信号。由于可以在对输入帧内的输入信号先进行采样点处理后,再进行二进制序列的变 换,使得本发明的语音检测可适用于各种需对采样信号进行处理的情况。本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是 以软件、硬件、还是固件方式实现,指令代码都可以存储在任何类型的计算机可访问的存储 器中(例如永久的或者可修改的,易失性的或者非易失性的,固态的或者非固态的,固定的 或者可更换的介质等等)。同样,存储器可以例如是可编程阵列逻辑(Programmable Array Logic,简称“PAL”)、随机存取存储器(Random Access Memory,简称“RAM”)、可编程只读存 储器(Programmable Read Only Memory,简称 “PROM”)、只读存储器(Read-Only Memory, 简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM,简 称“EEPR0M”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc,简称“DVD”)等等。本发明第三实施方式涉及一种语音检测设备,如图3所示,包含分帧模块,用于对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数 目的输入信号。二进制变换模块,用于将当前输入帧内的输入信号变换为二进制序列;计算模块,用于根据二进制变换模块变换后的二进制序列,计算当前输入帧的描 述二进制组合的出现种类的复杂性特征值;检测模块,用于根据计算模块计算出的复杂性特征值,检测出当前输入帧内的输 入信号是否为语音信号。其中,二进制变换模块可通过以下方式将当前输入帧内的输入信号变换为二进制 序列将当前输入帧内的各信号分别与门限值进行比较,如果大于门限值,则在二进制 序列中的对应值为1 ;如果小于或等于门限值,则在二进制序列中的对应值为0。门限值可 以为0,也可以是不为0的其他任意数。不难发现,第一实施方式是与本实施方式相对应的方法实施方式,本实施方式可 与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然 有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用 在第一实施方式中。本发明第四实施方式涉及一种语音检测设备。本实施方式与第三实施方式基本相 同,区别主要在于在第三实施方式中,直接将采样点S(l)+n(l)作为进行二进制序列变换 的输入信号,或者说,进行二进制序列变换的输入信号为对采样点S(l)+n(l)进行了同等 变换的信号。而在本实施方式中,对输入帧内的各输入信号进行采样点处理变换,如傅里叶 变换、小波变换或哈尔变换等其他各种可能的变换。也就是说,本实施方式中的语音检测设 备还包含采样点处理变换模块,用于对当前输入帧内的各输入信号进行采样点处理变换, 并将经采样点处理变换后的信号输出到二进制变换模块。进行二进制序列变换的输入信号 为经采样点处理变换后的信号。不难发现,第二实施方式是与本实施方式相对应的方法实施方式,本实施方式可 与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效,为了减少重复,这里不再赘述。相应地,本实施方式中提到的相关技术细节也可应用 在第二实施方式中。需要说明的是,本发明各设备实施方式中提到的各单元都是逻辑单元,在物理上, 一个逻辑单元可以是一个物理单元,也可以是一个物理单元的一部分,还可以以多个物理 单元的组合实现,这些逻辑单元本身的物理实现方式并不是最重要的,这些逻辑单元所实 现的功能的组合是才解决本发明所提出的技术问题的关键。此外,为了突出本发明的创新 部分,本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切 的单元引入,这并不表明上述设备实施方式并不存在其它的单元。虽然通过参照本发明的某些优选实施方式,已经对本发明进行了图示和描述,但 本领域的普通技术人员应该明白,可以在形式上和细节上对其作各种改变,而不偏离本发 明的精神和范围。
权利要求
一种语音检测方法,其特征在于,包含以下步骤对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数目的输入信号;将当前所述输入帧内的输入信号变换为二进制序列;根据所述二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值,并根据计算出的复杂性特征值检测当前所述输入帧内的输入信号是否为语音信号。
2.根据权利要求1所述的语音检测方法,其特征在于,还包含以下步骤在将当前所述输入帧内的输入信号变换为二进制序列之前,对所述输入帧内的各输入 信号进行采样点处理变换;所述进行二进制序列变换的输入信号为经所述采样点处理变换后的信号。
3.根据权利要求2所述的语音检测方法,其特征在于,所述采样点处理变换为以下之傅里叶变换、小波变换、哈尔变换。
4.根据权利要求1至3中任一项所述的语音检测方法,其特征在于,通过以下方式将当 前输入帧内的输入信号变换为二进制序列将当前所述输入帧内的各信号分别与门限值进行比较,如果大于所述门限值,则在所 述二进制序列中的对应值为1 ;如果小于或等于所述门限值,则在所述二进制序列中的对 应值为0。
5.根据权利要求4所述的语音检测方法,其特征在于,所述门限值为任意数。
6.一种语音检测设备,其特征在于,包含分帧模块,用于对输入信号进行分帧,得到每一个输入帧,每个输入帧包含预定数目的 输入信号;二进制变换模块,用于将当前所述输入帧内的输入信号变换为二进制序列;计算模块,用于根据所述二进制变换模块变换后的二进制序列,计算当前输入帧的描 述二进制组合的出现种类的复杂性特征值;检测模块,用于根据所述计算模块计算出的复杂性特征值,检测当前所述输入帧内的 输入信号是否为语音信号。
7.根据权利要求6所述的语音检测设备,其特征在于,所述语音检测设备还包含采样点处理变换模块,用于对当前所述输入帧内的各输入信号进行采样点处理变换, 并将经所述采样点处理变换后的信号输出到所述二进制变换模块;所述进行二进制序列变换的输入信号为经所述采样点处理变换后的信号。
8.根据权利要求6所述的语音检测设备,其特征在于,所述采样点处理变换为以下之傅里叶变换、小波变换、哈尔变换。
9.根据权利要求6所述的语音检测设备,其特征在于,所述二进制变换模块通过以下 方式将当前输入帧内的输入信号变换为二进制序列将当前所述输入帧内的各信号分别与门限值进行比较,如果大于所述门限值,则在所 述二进制序列中的对应值为1 ;如果小于或等于所述门限值,则在所述二进制序列中的对 应值为0。
10.根据权利要求6所述的语音检测设备,其特征在于,所述门限值为任意数。全文摘要
本发明涉及语音技术,公开了一种语音检测方法及其设备。本发明中,将输入帧内的输入信号变换为二进制序列,根据二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值,从而检测出当前输入帧内的语音信号。由于语音信号不同于噪声信号,包含了声源的特征(具有确定的基音频率)和声道的特征(具有更大的谐波性),因此语音信号的组合种类将是非常之少的。所以,通过计算描述二进制组合的出现种类的复杂性特征值,来检测语音信号,实现了根据语音/噪声产生的模型差异,检测出语音信号,使得语音信号能较为准确地被检测出来。
文档编号G10L11/02GK101937675SQ20091005749
公开日2011年1月5日 申请日期2009年6月29日 优先权日2009年6月29日
发明者林福辉, 黄鹤云 申请人:展讯通信(上海)有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:光敏树脂、制备该树脂的方法、光敏树脂组合物和该树脂组合物的固化产品的制作方法技术领域:本发明涉及一种光敏树脂、制备该光敏树脂的方法、光敏树脂组合物和 该光敏树脂组合物的固化产品。背景技术:光聚合负型光敏树脂组合物用于各种用途,包括

    专利发布时间:2025-05-15阅读:(59)

    专利名称:一种单通道语音去混响的方法和装置的制作方法技术领域:本发明涉及语音增强领域,特别涉及单通道语音去混响的方法和装置。背景技术:在远距离语音通讯中,麦克风端接收的信号容易受到环境混响的影响。比如,在房间内,语音经过墙面、地板和家具等多

    专利发布时间:2025-05-15阅读:(72)

    多曲八音琴的制作方法【专利摘要】多曲八音琴,包括驱动机构、传动齿轮、音筒部件、连接齿轮、音片、阻尼齿轮、速度调整部件,还设置制动机构和换曲机构,通过制动机构制动八音琴,通过换曲机构完成八音琴换曲。其优点有:1.通过一个八音琴机构,实现了多个

    专利发布时间:2025-05-15阅读:(66)

    专利名称:带蛇行校正装置和使用该带蛇行校正装置的图像形成装置的制作方法技术领域:本发明涉及一种带蛇行校正装置和使用该带蛇行校正装置的图 像形成装置。背景技术:在现有技术中,在类似于上述图像形成装置中,相互平行地设 置有多个用于形成颜色相互不

    专利发布时间:2025-05-15阅读:(102)

    专利名称:可调色温的led照明装置的制作方法技术领域:本实用新型涉及到一种LED照明装置。特别的,涉及一种可以调节色温的LED照明装置。背景技术:随着生活水平不断的提高,人们已不再满足于单一的照明方式,照明色彩的丰富及动感正逐步被人们所追求

    专利发布时间:2025-05-15阅读:(85)

    专利名称:一种led与太阳能混合照明灯具的制作方法技术领域:本实用新型涉及一种LED与太阳能混合照明灯具。背景技术:通常在室内场所中,为了能得到充足的照明,即使在白天都经常启用照明灯,而常规的照明灯基本采用电光源,必须用电能来发光;太阳光能

    专利发布时间:2025-05-15阅读:(155)