语音检测方法及其设备的制作方法-品牌商务网

专利名称：语音检测方法及其设备的制作方法
技术领域：
本发明涉及语音技术，特别涉及语音中的分析检测技术。
背景技术：
语音检测技术是指在一段语音和噪声混合的时间序列里将语音和噪声分辨出来。即语音检测的目的是在语音和噪声的混合序列中将语音和噪声区分出来。在语音通话的时候，由于说话者不可能一直都在说话，通过麦克风所录到的时间序列必然会有相当长一段时间是没有语音的，即应该被认为是噪声。如果对所有的时间序列都用语音压缩方法进行压缩，则会造成两个方面的浪费。具体地说，对噪声用语音压缩方法压缩，首先它会造成压缩比特数的浪费，对噪声的压缩并不需要像对语音压缩那么多比特，传输噪声的能量以及频谱形状即可在解码端较好的恢复。其次它会造成运算开销的浪费，语音编码解码算法比噪声编码解码算法所需要消耗的开销大得多。因此，如果能准确的检测出输入时间序列是语音还是噪声，能同时减少不必要的比特消耗和运算开销消耗。由于噪声是一直存在于语音中，并且和语音信号在某一些结构上有相似性，所以需要设计一些算法对语音和噪声进行分辨。目前，通用的语音检测方法如图1所示。语音检测系统一般包含两个主要模块，一是特征提取模块，它的主要功用是从输入信号里计算出几个参数来表征语音信号和噪声信号的区别；二是分类器决策模块，它的主要功用是根据提取的特征来完成是语音还是噪声的决定。其中，特征提取模块的传统算法有窄带语音编码标准G. 729所附带的静音检测算法中的四种特征提取算法过零率、能量、低频段能量比和线谱对距离参数。过零率是指提取当前时域信号穿过0的次数，通常部分语音信号会有较小的过零率而噪声通常具有较大过零率。能量特征则是直接计算当前帧的能量，主要考虑到实际环境下语音的能量通常较大的因素。低频段能量比是考虑到某一部分语音信号是周期性的且频率较低，它们的低频段能量占据着信号大部分的能量，而噪声通常是在每个频段有着均勻或者较均勻的分布的。线谱对距离参数则是描述着语音信号的频谱包络特性，噪声中这一特征并不明显。近年来有学者提出了基于高阶统计量的方法，它的理论基础则是高斯噪声信号的某些高阶统计量通常为零但相应的语音的却不为零。关于现有的语音检测方法也可参见专利号为 “5450484”的美国专利。然而，本发明的发明人发现，由于语音是由人的肺部或者其他发声器官发出，通过声道或者口鼻腔调制而产生的信号。而噪声则是有多种产生方式，但和语音产生方式都会有截然的不同。但在目前的用于表征语音信号和噪声信号的特征提取方法中，并没有一种通过描述语音/噪声产生模型差异的特征提取方法，来用于语音检测。

发明内容
本发明的目的在于提供一种语音检测方法及其设备，能根据语音/噪声产生的模型差异，检测出语音信号。
为解决上述技术问题，本发明的实施方式提供了一种语音检测方法，包含以下步骤对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号；将当前输入帧内的输入信号变换为二进制序列；根据二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值，并根据计算出的复杂性特征值检测出当前输入帧内的输入信号是否为语音信号。本发明的实施方式还提供了一种语音检测设备，包含分帧模块，用于对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号；二进制变换模块，用于将当前输入帧内的输入信号变换为二进制序列；计算模块，用于根据二进制变换模块变换后的二进制序列，计算当前输入帧的描述二进制组合的出现种类的复杂性特征值；检测模块，用于根据计算模块计算出的复杂性特征值，检测出当前输入帧内的输入信号是否为语音信号。本发明实施方式与现有技术相比，主要区别及其效果在于将输入帧内的输入信号变换为二进制序列，根据二进制序列计算当前输入帧的能描述二进制组合的出现种类的复杂性特征值，从而检测出当前输入帧内的输入信号是否为语音信号。由于语音信号不同于噪声信号，包含了声源的特征(具有确定的基音频率)和声道的特征(具有更大的谐波性)，因此语音信号的组合种类将是非常之少的。所以，通过计算描述二进制组合的出现种类的复杂性特征值，来检测语音信号，实现了根据语音/噪声产生的模型差异，检测出语音信号，使得语音信号能较为准确地被检测出来。进一步地，可以在对输入帧内的输入信号先进行处理后，再进行二进制序列的变换，使得本发明的语音检测可适用于各种需对采样信号进行处理的情况。进一步地，直接通过与门限值的比较，将输入帧内的各信号变换为二进制序列，操作简单，方便实现。

图1是根据现有技术中的语音检测方法流程图；图2是根据本发明第一实施方式的语音检测方法流程图；图3是根据本发明第三实施方式的语音检测设备结构示意图。
具体实施例方式在以下的叙述中，为了使读者更好地理解本申请而提出了许多技术细节。但是，本领域的普通技术人员可以理解，即使没有这些技术细节和基于以下各实施方式的种种变化和修改，也可以实现本申请各权利要求所要求保护的技术方案。为使本发明的目的、技术方案和优点更加清楚，下面将结合附图对本发明的实施方式作进一步地详细描述。本发明的第一实施方式涉及一种语音检测方法，具体流程如图2所示。
4
在步骤210中，对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号，即将输入信号每数个采样点分成一帧，输入帧可以表示为x(l) = T{s(l)+n(l)}，1 = 0，1，· · ·，L-I其中，s和η分别指输入语音信号和噪声信号，L为帧长度。比如说，以每10个输
入信号分为一帧，则 L 为 10，s (0) +η (0)、s (1) +η (1)、s ⑵ +η (2).......s (9) +η (9)，即为第
1个、第2个......第10个采样点。符号T表示一种变换。在本实施方式中，将变换T定
义为同等变换，即Τ{χ(1)} = χ(1)，因此，也可以理解为在本实施方式中，无需对采样点进行变换，直接将采样点s(l)+η (1)作为χ(1)。接着，在步骤220中，将当前输入帧内的输入信号变换为二进制序列S' (1)，即 s' (1)只在0和1之间取值。在本实施方式中，通过以下方式将当前输入帧内的各输入信号变换为二进制序列将输入信号X(I)和一个门限值进行对比，如果大于门限值则取1，否则取0
, 「1, χ(1) > ηS'(I) = ^ w ‘其中，为方便计算门限值通常取0。但在实际应用中，门限值可以为任意数。需要说明的是，也可以通过其他任意方法，将输入信号X(I)变换为二进制序列，如
fl,成/)〉；^ 或者 Χ(/)<Τ/2 s (I)= <也就是说，在实际应用中，无论通过哪种方式对χ(1)进行变换，只需将X(I)变换为二进制序列s' (1)即可。本实施方式中的变换为二进制序列只是一个具体的例子，直接通过与门限值的比较，将输入帧内的各信号变换为二进制序列，操作简单，方便实现。接着，在步骤230中，根据得到的二进制序列s' (1)，计算当前输入帧的描述二进制组合的出现种类的复杂性特征值C。由于语音信号的声源特征，与噪声信号的不同之处在于，某一些语音信号是通过声带的周期性震动产生的，这些语音信号具有着确定的基音频率。并且，语音信号的声道特征，与噪声信号的不同之处在于，声源信号通过声道会产生压强的变化，通常可以用一个滤波系统来表示。此滤波系统常常对某些频段的信号会有着增强的作用，这样意味着语音信号有更大的谐波性。因此语音信号的组合种类将是非常之少的。所以，通过计算描述二进制组合(01组合)的出现种类的复杂性特征值C，可较好地体现出语音/噪声产生的模型差异。复杂性特征值C的具体计算过程如下步骤一设定特征值C = 1，指数参数indeXl = 1和index2 = 0，同时设定步长step =1以及最大步长maxst印=1。步骤二比较两个值s' [indeX2+st印]和s' [indeXl+st印]，如果它们是相等的，将步长值step增加1并且转到下一步(即步骤三)。否则转到步骤四。步骤三当所有序列值都被访问过了，即当indeXl+st印> L的时候，过程中止并输出特征值C = C+1，否则返回步骤二。步骤四当步长值超过了当前最大步长，即step > maxst印，将最大步长设定为当前步长值maXSt印=step。如果步长值没有超过当前最大步长，则直接进入步骤五。
5
步骤五指数参数递增indeX2 = index2+l步骤六当两个指数参数不等的时候，即indeXl Φ index2时，设定步长值为1，即 step = 1，然后返回步骤二。如果两个指数参数相等，则直接进入步骤七。步骤七将特征值加1 :C = C+1，并且增加指数参数indeXl = Index^maxstep0步骤八当indeXl+l > N时，算法中止，否则返回步骤二。由于若信号是规则的，例如周期信号等，它的组合种类将是非常之少的。反过来说，若信号是不规则，它的组合种类是相对较多的。而在噪声污染下的规则信号的种类随着噪声增多缓慢增加，这种特性也是符合语音检测实际情况的。因此上述计算的能描述二进制组合(01组合)的出现种类的特征值C，可以体现出语音信号的声源和声道特征，反映出语音/噪声产生的模型差异，是一种有效的特征。另外，可以理解，本步骤中的特征值C的计算过程是一种具体的实现方法。在实际应用中，也可以通过设计其他的算法，计算出能描述二进制组合的出现种类的特征值。接着，在步骤240中，根据计算出的复杂性特征值C，检测出当前输入帧内的语音信号。在本步骤中，可以对特征C采用任意的方法进行模式判别决策。比如说，一种根据典型噪声的C值统计以及其和数据长度L的关系进行判决的方式如下
C < "^t,判为语音 Iog2I
<
O7^,判为噪声 Iog2 L当然，可以理解，也可以通过将特征值C与其他门限值进行比较，来检测语音信号。事实上，如何根据特征值C来检测语音信号是已有的技术，因此在本实施方式中不再详细赘述。不难发现，由于语音信号不同于噪声信号，包含了声源的特征(具有确定的基音频率)和声道的特征(具有更大的谐波性)，因此语音信号的组合种类将是非常之少的。简单地说，在本实施方式中通过计算描述二进制组合(01组合)的出现种类的复杂性特征值，根据该特征值与设定门限的比较结果，来检测语音信号(如果大于该设定门限，则认为是语音信号，否则认为是噪声信号)，实现了根据语音/噪声产生的模型差异，检测出语音信号，使得语音信号能较为准确地被检测出来。而且，由于区别语音信号和噪声信号在很多应用场合都有很大的意义。比如说，在语音增强系统里，由于需要分辨出噪声且用其能量或者其他统计特征对当前噪声频谱能量和语音信号频谱能量进行估计，而且，为了保证被抑制的噪声不至于产生刺耳的效果，也需要对噪声和语音信号采用略有区别的处理方法，因此需要对噪声和语音进行区别处理。类似的，在语音识别、语音分析的系统里亦会需要语音的正确检测，以及如前文所述的能同时减少不必要的比特消耗和运算开销消耗。因此，本实施方式中的语音检测方法，可适用于多种应用场合。本发明的第二实施方式涉及一种语音检测方法，本实施方式与第一实施方式大致相同，其主要区别在于，在第一实施方式中，T变换为同等变换，即无需对采样点进行处理，直接将采样点s(l)+n(l)作为x(l)。而在本实施方式中，对输入帧内的各输入信号进行采样点处理变换，如T变换为傅里叶变换、小波变换或哈尔变换等其他各种可能的变换，进行二进制序列变换的输入信号为经采样点处理变换后的信号。由于可以在对输入帧内的输入信号先进行采样点处理后，再进行二进制序列的变换，使得本发明的语音检测可适用于各种需对采样信号进行处理的情况。本发明的各方法实施方式均可以以软件、硬件、固件等方式实现。不管本发明是以软件、硬件、还是固件方式实现，指令代码都可以存储在任何类型的计算机可访问的存储器中(例如永久的或者可修改的，易失性的或者非易失性的，固态的或者非固态的，固定的或者可更换的介质等等)。同样，存储器可以例如是可编程阵列逻辑(Programmable Array Logic，简称“PAL”)、随机存取存储器(Random Access Memory，简称“RAM”)、可编程只读存储器(Programmable Read Only Memory，简称 “PROM”)、只读存储器(Read-Only Memory, 简称“ROM”)、电可擦除可编程只读存储器(Electrically Erasable Programmable ROM，简称“EEPR0M”)、磁盘、光盘、数字通用光盘(Digital Versatile Disc，简称“DVD”)等等。本发明第三实施方式涉及一种语音检测设备，如图3所示，包含分帧模块，用于对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号。二进制变换模块，用于将当前输入帧内的输入信号变换为二进制序列；计算模块，用于根据二进制变换模块变换后的二进制序列，计算当前输入帧的描述二进制组合的出现种类的复杂性特征值；检测模块，用于根据计算模块计算出的复杂性特征值，检测出当前输入帧内的输入信号是否为语音信号。其中，二进制变换模块可通过以下方式将当前输入帧内的输入信号变换为二进制序列将当前输入帧内的各信号分别与门限值进行比较，如果大于门限值，则在二进制序列中的对应值为1 ；如果小于或等于门限值，则在二进制序列中的对应值为0。门限值可以为0，也可以是不为0的其他任意数。不难发现，第一实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第一实施方式互相配合实施。第一实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第一实施方式中。本发明第四实施方式涉及一种语音检测设备。本实施方式与第三实施方式基本相同，区别主要在于在第三实施方式中，直接将采样点S(l)+n(l)作为进行二进制序列变换的输入信号，或者说，进行二进制序列变换的输入信号为对采样点S(l)+n(l)进行了同等变换的信号。而在本实施方式中，对输入帧内的各输入信号进行采样点处理变换，如傅里叶变换、小波变换或哈尔变换等其他各种可能的变换。也就是说，本实施方式中的语音检测设备还包含采样点处理变换模块，用于对当前输入帧内的各输入信号进行采样点处理变换，并将经采样点处理变换后的信号输出到二进制变换模块。进行二进制序列变换的输入信号为经采样点处理变换后的信号。不难发现，第二实施方式是与本实施方式相对应的方法实施方式，本实施方式可与第二实施方式互相配合实施。第二实施方式中提到的相关技术细节在本实施方式中依然有效，为了减少重复，这里不再赘述。相应地，本实施方式中提到的相关技术细节也可应用在第二实施方式中。需要说明的是，本发明各设备实施方式中提到的各单元都是逻辑单元，在物理上，一个逻辑单元可以是一个物理单元，也可以是一个物理单元的一部分，还可以以多个物理单元的组合实现，这些逻辑单元本身的物理实现方式并不是最重要的，这些逻辑单元所实现的功能的组合是才解决本发明所提出的技术问题的关键。此外，为了突出本发明的创新部分，本发明上述各设备实施方式并没有将与解决本发明所提出的技术问题关系不太密切的单元引入，这并不表明上述设备实施方式并不存在其它的单元。虽然通过参照本发明的某些优选实施方式，已经对本发明进行了图示和描述，但本领域的普通技术人员应该明白，可以在形式上和细节上对其作各种改变，而不偏离本发明的精神和范围。
权利要求
一种语音检测方法，其特征在于，包含以下步骤对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号；将当前所述输入帧内的输入信号变换为二进制序列；根据所述二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值，并根据计算出的复杂性特征值检测当前所述输入帧内的输入信号是否为语音信号。
2.根据权利要求1所述的语音检测方法，其特征在于，还包含以下步骤在将当前所述输入帧内的输入信号变换为二进制序列之前，对所述输入帧内的各输入信号进行采样点处理变换；所述进行二进制序列变换的输入信号为经所述采样点处理变换后的信号。
3.根据权利要求2所述的语音检测方法，其特征在于，所述采样点处理变换为以下之傅里叶变换、小波变换、哈尔变换。
4.根据权利要求1至3中任一项所述的语音检测方法，其特征在于，通过以下方式将当前输入帧内的输入信号变换为二进制序列将当前所述输入帧内的各信号分别与门限值进行比较，如果大于所述门限值，则在所述二进制序列中的对应值为1 ；如果小于或等于所述门限值，则在所述二进制序列中的对应值为0。
5.根据权利要求4所述的语音检测方法，其特征在于，所述门限值为任意数。
6.一种语音检测设备，其特征在于，包含分帧模块，用于对输入信号进行分帧，得到每一个输入帧，每个输入帧包含预定数目的输入信号；二进制变换模块，用于将当前所述输入帧内的输入信号变换为二进制序列；计算模块，用于根据所述二进制变换模块变换后的二进制序列，计算当前输入帧的描述二进制组合的出现种类的复杂性特征值；检测模块，用于根据所述计算模块计算出的复杂性特征值，检测当前所述输入帧内的输入信号是否为语音信号。
7.根据权利要求6所述的语音检测设备，其特征在于，所述语音检测设备还包含采样点处理变换模块，用于对当前所述输入帧内的各输入信号进行采样点处理变换，并将经所述采样点处理变换后的信号输出到所述二进制变换模块；所述进行二进制序列变换的输入信号为经所述采样点处理变换后的信号。
8.根据权利要求6所述的语音检测设备，其特征在于，所述采样点处理变换为以下之傅里叶变换、小波变换、哈尔变换。
9.根据权利要求6所述的语音检测设备，其特征在于，所述二进制变换模块通过以下方式将当前输入帧内的输入信号变换为二进制序列将当前所述输入帧内的各信号分别与门限值进行比较，如果大于所述门限值，则在所述二进制序列中的对应值为1 ；如果小于或等于所述门限值，则在所述二进制序列中的对应值为0。
10.根据权利要求6所述的语音检测设备，其特征在于，所述门限值为任意数。全文摘要
本发明涉及语音技术，公开了一种语音检测方法及其设备。本发明中，将输入帧内的输入信号变换为二进制序列，根据二进制序列计算当前输入帧的描述二进制组合的出现种类的复杂性特征值，从而检测出当前输入帧内的语音信号。由于语音信号不同于噪声信号，包含了声源的特征(具有确定的基音频率)和声道的特征(具有更大的谐波性)，因此语音信号的组合种类将是非常之少的。所以，通过计算描述二进制组合的出现种类的复杂性特征值，来检测语音信号，实现了根据语音/噪声产生的模型差异，检测出语音信号，使得语音信号能较为准确地被检测出来。
文档编号G10L11/02GK101937675SQ20091005749
公开日2011年1月5日申请日期2009年6月29日优先权日2009年6月29日
发明者林福辉, 黄鹤云申请人:展讯通信(上海)有限公司

本文推荐语音检测方法及其设备的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656518912.html

当前位置：网站首页>专利 >正文

语音检测方法及其设备的制作方法

相关推荐