专利名称:端点检测方法以及使用该方法的系统的制作方法
技术领域:
本发明涉及用于语音识别,说话人识别的方法和系统,具体而言涉及一种语音信 号处理中的语音前端处理的方法和系统。更具体的说,涉及一种语音端点检测方法以及使 用这种方法的系统。
背景技术:
如何从具有背景噪声的声音信号中将语音识别出来,首先要解决一个关键问题就 是如何从声音信号中将语音信号精确地检测出来。本发明所提及的语音端点检测就是要在 一段输入信号中将语音信号同其它信号分离开来,这是语音处理技术中的一个重要方面。语音端点检测的实现方法有很多,包括基于统计模型的语音端点检测以及基于 特征的端点检测。基于模型的语音端点检测方法一般通过通噪声和语音的统计进行建模, 从而估计语音和非语音的存在与位置。基于特征的语音端点检测方法一般利用信号的能 量、过零率、倒谱等根据语音与噪声表现出来不同的特征来进行判断。然而,基于模型的语音端点检测方法基本上针对特定噪声环境,其在面对具有变 化的噪声背景的语音信号时,其鲁棒性较差。基于特征的语音端点检测方法根据所采用的特征不同包括基于时域能量的语音 端点检测方法以及基于时域能量和过零率的语音端点检测方法。但是这两种方法同样存在 各自的缺点。基于时域能量的语音端点检测方法尽管可以更新能量门限,但是在噪声比较 大时将难以区分信号中的语音和噪声部分。而基于时域能量和过零率的语音端点检测方法 对于低信噪比的情况则效果同样很差。尽管有些人员针对低信噪比的情况改进了基于时域 能量和过零率的语音端点检测方法,但是这些改进对于非白色噪声情况依然无能为力。由于现有的语音端点检测技术中存在的上述问题,因此希望有一种方法,该方法 能够在在可变噪声的环境下仍有很好的检测结果。
发明内容
基于以上需要,本发明提出了一种语音端点检测方法,该方法包括步骤输入语音 信号;对语音信号进行分帧并进行加汉明窗处理;对语音信号执行时域到频域的转换;针 对语音信号逐帧进行基频提取处理;将语音信号中能够提取到具有语音特性的基频的信号 区段判断为确定语音信号区段;以及将语音信号中未能提取到具有语音特性的基频的信号 区段判断为包含噪声的信号区段。根据本发明的另一个实施方式,所述针对语音信号逐帧进行基频提取处理的步骤 包括对语音信号进行谐波叠加处理,并计算每帧信号进行多次叠加后的谐波和,并将对应 于谐波和最大值的频率确定为相应帧的基频。根据本发明的另一个实施方式,所述将语音信号中能够提取到具有语音特性的基 频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能够提取到具有语音特 性的基频的信号区段判断为确定元音区段。
根据本发明的另一个实施方式,所述将语音信号中能够提取到具有语音特性的基 频的信号区段判断为确定语音信号区段的步骤包括将将语音信号中能够提取到具有语音 特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定音乐区段。根据本发明的另一个实施方式,所述将语音信号中未能提取到具有语音特性的基 频的信号区段判断为包含噪声的信号区段的步骤包括在语音信号的相应帧中没有基频的 情况下将所述相应帧判断为包含噪声的信号区段;在语音信号的相应帧中所提取的基频小 于正常语音的基频的最小值的情况下将所述相应帧判断为包含噪声的信号区段;以及在语 音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下,计算所述相应帧 的自相关系数,并将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断 为包含噪声的信号区段。根据本发明的另一个实施方式,所述将语音信号中未能提取到具有语音特性的基 频的信号区段判断为包含噪声的信号区段的步骤包括将所述相应帧的基频设置为零。根据本发明的另一个实施方式,所述的语音端点检测方法还包括步骤在连续出 现未能提取到具有语音特性的基频的情况下,判断连续多帧的时长T是否大于或等于预定 的时间阈值,如果时长T小于预定的时间阈值,则重复之前的步骤,如果时长T大于或等于 预定的时间阈值,则将该时长为T的包含噪声的信号区段的中间部分确定为确定噪声区 段,而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区 段;以及比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜 在噪声区段是确定噪声区段还是辅音或元音的尾音。根据本发明的另一个实施方式,所述比较所述确定噪声区段与所述潜在噪声区段 在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或元音的尾音 的步骤包括将所述包含噪声的信号区段的信号进行分帧并进行加汉明窗处理;将所述包 含噪声的信号区段的信号从时域信号转换为频域信号;将所述确定噪声区段在频域上划分 为高频子带和低频子带;将所述高频子带和低频子带各自再划分为两个子带;基于针对所 述确定噪声区段的子带划分方式在频域上将所述潜在噪声区段划分成对应的子带;以及比 较所述确定噪声区段和所述潜在噪声区段的对应子带的能量,从而确定所述潜在噪声区段 是确定噪声区段还是辅音或元音的尾音。根据本发明的另一个实施方式,所述将所述确定噪声区段在频域上划分为高频子 带和低频子带的步骤包括在频域上以预定的频率间隔将整个所述确定噪声区段的频域范 围划分为M谱单元;针对所述确定噪声区段所包含的谱单元中的每一个谱单元,计算所述
确定噪声区段的所有帧的噪声能量的平均值£
M,其中, N是所述确定噪声区段的帧数,Ep(i)是在第p帧信号图像中第i个谱单元上(即第i个频 率间隔上)的噪声能量;以所述确定噪声区段所包含的M个谱单元中的每一个谱单元为划 分点将所述确定噪声区段的频谱划分为高频子带或低频子带,并计算每种划分方式下的高 频子带的噪声能量的平均值Eh或和低频子带噪声能量平均值& ;针对每种子带划分方式, 计算所述低频子带低频子带噪声能量平均值&所述低频子带所包含的频谱单元的每个频 谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方差D1; 以及计算所述高频子带的噪声能量的平均值Eh与所述高频子带所包含的频谱单 元的每个频谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方差 Dh, 其中k为子带划分点的谱单元编号;以及计算每种划分方式下所计算的平均方差 Dk和&的和D,并将所有所述和D中的最小值所对应的频谱单元作为所述高频子带和所述 低频子带的划分点。根据本发明的另一个实施方式,所述将所述高频子带和低频子带各自再划分为两 个子带的步骤与所述高频子带和低频子带划分方式相同。根据本发明的另一个实施方式,所述将所述相应帧的自相关系数小于预定自相关 系数阈值的所述相应帧判断为包含噪声的信号区段的步骤包括将所提取的基频设置为零。根据本发明的另一个实施方式,所述预定的时间阈值可为0. 4秒到0. 6秒。根据本发明的另一个实施方式,所述预定的时间阈值可为0. 5秒。根据本发明的另一个实施方式,在所述将所述包含噪声的信号区段的在所述确定 噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的信号区段的两 端的被确定为潜在噪声区段的长度分别为0. 1秒。根据本发明的另一个方面,提供了一种语音端点检测系统。所述语音端点检测系 统包括用于输入语音信号的信号输入装置;分帧加窗装置,用于对语音信号进行分帧并 进行加汉明窗处理;时域频域变换装置,用于对语音信号执行时域到频域的转换;基频提 取装置,用于针对语音信号逐帧进行基频提取处理;确定语音区段确定装置,用于将语音信 号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段;以及确定噪声 区段确定装置,用于将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含 噪声的信号区段。根据本发明的另一个实施方式,所述基频提取装置对语音信号进行谐波叠加处 理,并计算每帧信号进行多次叠加后的谐波和,并将对应于谐波和最大值的频率确定为相 应帧的基频。根据本发明的另一个实施方式,所述确定语音区段确定装置将语音信号中能够提 取到具有语音特性的基频的信号区段判断为确定元音区段。根据本发明的另一个实施方式,所述确定语音区段确定装置将语音信号中能够提 取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确 定音乐区段。根据本发明的另一个实施方式,所述语音端点检测系统还包含去伪基频装置,所 述去伪基频装置包括基频设置装置,所述基频设置装置在语音信号的相应帧中所提取的基 频小于正常语音的基频的最小值的情况下将所述相应帧的基频设置为零。根据本发明的另一个实施方式,所述语音端点检测系统还包括信号长度确定装 置,用于在连续出现未能提取到具有语音特性的基频的情况下,判断连续多帧的时长T是否大于或等于预定的时间阈值,如果时长T大于或等于预定的时间阈值,则将该时长为T的 包含噪声的信号区段的信号发送到所述确定噪声区段确定装置;其中,所述确定噪声区段 确定装置将所述包含噪声的信号区段的中间部分确定为确定噪声区段,而将所述包含噪声 的信号区段的在所述确定噪声区段两端的部分确定为潜在噪声区段。根据本发明的另一个实施方式,所述语音端点检测系统还包括潜在噪声区段确认 装置,用于确认潜在噪声区段是确定语音区段还是确定噪声区段。根据本发明的另一个实施方式,所述潜在噪声区段确认装置包括子带划分装置, 用于将所述确定噪声区段在频域上划分为多个子带以及将所述潜在噪声区段对应地在频 域上划分为相同数量的子带;以及子带能量比较装置,用于比较所述确定噪声区段与所述 潜在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是确定 语音区段的辅音或元音的尾音。根据本发明的另一个实施方式,所述子带划分装置通过以下手段将所述确定噪声 区段划分为两个子带在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划 分为M谱单元;针对所述确定噪声区段所包含的谱单元中的每一个谱单元,计算所述确定 噪声区段的所有帧的噪声能量的平均值£ (i), 其中,N是所述确定噪声区段的帧数,Ep(i)是在第p帧信号图像中第i个谱单元 上(即第i个频率间隔上)的噪声能量;以所述确定噪声区段所包含的M个谱单元中的每 一个谱单元为划分点将所述确定噪声区段的频谱划分为高频子带或低频子带,并计算每种 划分方式下的高频子带的噪声能量的平均值Eh或和低频子带噪声能量平均值&;针对每种 子带划分方式,计算所述低频子带低频子带噪声能量平均值&所述低频子带所包含的频谱 单元的每个频谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方 差D1; 以及计算所述高频子带的噪声能量的平均值Eh与所述高频子带所包含的频谱单 元的每个频谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方差 Dh, 其中k为子带划分点的谱单元编号;以及计算每种划分方式下所计算的平均方差 Dk和&的和D,并将所有所述和D中的最小值所对应的频谱单元作为所述高频子带和所述 低频子带的划分点。根据本发明的另一个实施方式,所述子带划分装置还进一步将所述高频子带和低 频子带各自再划分为两个子带。根据本发明的另一个实施方式,所述去伪基频装置还包括自相关系数计算装置, 用于在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下计算相 应帧的自相关系数;以及自相关系数比较装置,用于比较所述相应帧的自相关系数与预定自相关系数阈值;其中所述基频设置装置还用于将所述相应帧的自相关系数小于预定自相 关系数阈值的所述相应帧的基频设置为零。根据本发明的另一个实施方式,所述预定的时间阈值可为0.4秒到0.6秒,优选为 0. 5 秒。根据本发明的另一个实施方式,在所述将所述包含噪声的信号区段的在所述确定 噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的信号区段的两 端的被确定为潜在噪声区段的长度分别为0. 1秒。为了解决该问题,根据本发明的又一个实施例,提供了一种程序,所述程序使得计 算机实现一种执行所述基频提取和子带划分功能。而且还提供了其上记录所述程序的记录 介质。
现在仅作为示例描述本发明的一个或更多的实施例,参考附图,其中图1是根据本发明的实施例的语音端点检测系统的框图。图2是根据本发明的实施例的去伪基频装置以及潜在噪声区段确认装置的框图。图3(a_d)是图释基频提取计算过程的示意图。图4图示了进行一帧内自相关系数计算所需的采样方式的示意图。图5所示是跟踪确定噪声段以及及时更新噪声段子带能量门限的变化的视图。图6所示的是根据本发明的端点检测方法的流程图。图7所示的是子带能量划分的流程图。
具体实施例方式下面,将参照附图对本发明的优选实施例进行详细描述。注意的是,在本说明书和 附图中,采用相同的附图表及来指代具有基本上相同功能和结构的构成元件,并且省略了 对这些结构元件的重复解释。本发明所提出的方法和系统是用于在语音信号中检测语音的存在与具体位置。本 发明的目的是能够在复杂多变的背景噪声环境中获取高性能的端点检测结果。在一般的语音构成中,包含了元音和辅音。这些音素由于其各自的发音特点而具 有不同的特征。具体而言,人们所发出的元音是由声带的振动引起的。人们在说话时发出 的这种元音都具有连续平稳的基频,而绝大部分辅音都不具有这样的基频。此外,部分浊辅 音也是由声带产生的,因此也具有基频。相对于语音而言,噪声就是一些频率混乱的声音的 叠加的结果,其通常不会具有连续稳定的基频。基于语音和噪声在上述基频方面的区别,发 明人提出了一种语音端点检测方法和系统,该方法和系统基于以上语音与噪声之间在基频 方面的区别,提取语音信号中的基频,将语音信号中的语音部分和噪声部分区分开,以便保 留信号中的语音部分并去掉信号中的噪声部分。正如上面提到的,语音中还有一些辅音。辅音在语音中通常出现在元音之前。对于 一段语音信号来说,语音信号中的元音部分的周围部分通常被认为是潜在的辅音部分。就 实际情况而言,在元音部分和确定噪声区段之间的部分通常被认为是潜在辅音部分。基于以上对一般语音信号的基本构成的了解,发明人提出了一种语音端点检测方法和系统。该方法和系统通过将基频提取和子带能量相结合来提到语音识别的鲁棒性。图1是根据本发明的实施例的语音端点检测系统的框图。所述系统包括用于输 入语音信号的信号输入装置11 ;分帧加窗装置12,用于对语音信号进行分帧并进行加汉明 窗处理;时域频域变换装置13,用于对语音信号执行时域到频域的转换;基频提取装置14, 用于针对语音信号逐帧进行基频提取处理;去伪基频装置15 ;确定语音区段确定装置17, 用于将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段; 确定噪声区段确定装置16,用于将语音信号中未能提取到具有语音特性的基频的信号区段 判断为包含噪声的信号区段;潜在噪声区段确认装置18 ;以及结果输出装置19。图2所示的是图1中所示的去伪基频装置15以及潜在噪声区段确认装置18具体 构成。去伪基频装置15包括高通滤波器21、自相关系数计算装置22、自相关系数比较装置 23、以及基频设置装置24。而潜在噪声区段确认装置18包括子带能量划分装置26以及子 带能量比较装置27。图6所示的是根据本发明的端点检测方法的流程图。下面结合图1和图2,对本 发明的语音端点检测方法和系统的操作方法进行详细的描述。首先,在步骤S601中,信号 输入装置11输入语音信号,该信号输入装置例如是一种麦克风。信号输入装置11收集周 围个各种声音,并输入到本发明的语音端点检测系统。接着,在步骤S602中,分帧加窗装置 12对所输入的语音信号进行分帧和加窗处理。如图3(a)所示,其中按照10ms每帧的进行 分帧处理。图3(a)所示的是输入语音信号的时域波形图。在步骤S603中,时域频域变换 装置13对所输入的语音信号执行FFT变换。在这个步骤中,将语音信号变换成频域信号。 图3(b)所示的是输入语音信号的频域波形图的一个实例。随后在步骤S604中,提取每帧信号的基频。图3(c_d)详细图释了基频的提取过 程。在该步骤中,基频提取装置14通过一种子谐波求和法来实现基频的提取。所述子谐波 求和方法是一种比较有效并且快速的基频提取方法。该方法根据比较找出最大的叠加点也 就是出现的倍频叠加点,这个点也就是语音信号中的基频点。具体而言,基频提取装置14 中的削波装置(未示出)采用中央削波法将频域信号峰值及其周围对称点以外的值设置为 0,也就是仅仅考虑频域信号峰值以及其周围的对称点的值。基频提取装置14中的插值和 加窗装置(未示出)采用汉宁窗(harming)对频域上的信号进行平滑,使得不平滑的频谱 变成平滑的频谱。图3(c)所示的就是log域上的语音信号。具体而言就是使对削波后的 信号(峰值加强信号)进行插值以提高采样点的密度,并将这些采样点的值转化到更符合 听觉的Log域。具体到基频的提取,根据Log域的偏移后的信号P(S+log2n)计算N次叠加 结果H(s) 其中叠加次数N = 15,叠加系数h(n) = 0.84n_l,s = lo&f,f 是信号的频率。当谐波值叠加得到H(s)的最大值时,对应的f = 2s即所求的基频值。另外,所述 还通过降低基频最小阈值的方法(将叠加的最小阈值降到30Hz)使得非语音帧计算得到的 谐波和叠加最大值对应的基频值会出现在30-50HZ之间从而去除伪基频。因此,基频提取装置14通过上述方式获得每帧的叠加谐波值的最大H(s)而获取 对应于该最大H(s)的频率f,并将该f作为相应帧的基频值。
在步骤S605和步骤S606中,去伪基频装置15对所提取的基频进行分辨,以便去 除由于各种噪声叠加而形成的各种伪基频。通常,即使是噪声,其通过反复叠加之后也能有 最大的叠加值,所以我们需要去除噪声的干扰。为了去除这种伪基频,首先要去除所提取的 基频之中的明显不具有语音频率的基频。通常,语音频率通常在50Hz之上。而当各种噪声 的频率f小于这个最小值时,叠加后的f点是由于低频附近叠加次数多而计算得到了一个 最大值,而不是由于信号拥有明显的周期波峰而得到的最大值。因此认为f 是伪基频。为 此,在步骤S605中,本发明的技术方案首先采用去伪基频装置15中的高通滤波器21来过 滤掉将小于正常语音频率的最小值的基频,并在步骤S611中将相应帧的频率设置为零。在 步骤S606中,去伪基频装置15的自相关系数计算装置22、自相关系数比较装置23以及基 频设置装置24 —起用于去除频率位于正常语音频率范围的伪基频。之所以如此是因为高 能量噪声可能在正常基频范围内获得最大叠加点,但是其信号仍不具有周期性。因此,本 发明通过自相关系数计算装置22计算具有正常基频的帧自相关系数,并且由自相关系数 比较装置23对每帧的所计算的自相关系数与预定的自相关系数阈值进行比较,最后在步 骤S611中由基频设置装置24将自相关系数小于预定的自相关系数阈值的帧的基频设置为 零,从而将该帧判定为可能包含噪声的区段。图4所示的就是在一帧内计算自相关系数所需的采样方式的示意图。其中T是信 号中点前后的采样长度。该采样长度通常小于帧长的一半。自相关系数计算装置22计算具有正常基频的帧的多个采样点之间的自相关系 数,并且由自相关系数比较装置23对每帧的所计算的自相关系数与预定的自相关系数阈 值进行比较,并且当某帧的所计算的自相关系数小于规定自相关系数的阈值时,则由基频 设置装置24将相应帧的基频设置为零,从而将该帧的基频作为伪基频去除。其中所述规定 的自相关系数的系数阈值可以为0. 52。所述自相关系数计算装置22通过下述方式计算自相关系数获取一帧信号的中 间点之前的N个采样点的值Xi,其中i为1-N的整数,和在所述中间点之后的N个采样点的 值y”其中i为1-N的整数。之后,计算N个采样点的能量&的平均能量E(x)以及N个采 样点的能量yi的平均能量E(y);以及采用如下计算公式计算所述帧内自相关系数R 一方面,在步骤S611和S611中去伪基频装置15去除伪基频后,在步骤S612中, 采用计数器(图中未示出)对这种可能包含噪声的区段的连续帧数进行计数,计数器的初 始值为0。并在计数之后返回到步骤S602。另一方面,在步骤S607中,先利用语音区段确定装置17基于去伪基频装置15执 行去除伪基频的结果,再来判断具有基频的连续多帧的谐波是否呈水平直线的特点,如果 具有连续水平的谐波特点,则将这段连续的具有谐波特点的多帧判断为确定音乐部分。因 为音乐和语音的谐波特性各有不同音乐的谐波在连续时间里谐波呈水平直线的特点,而 语音谐波常常呈现为曲线包络。通常(如说话人检测)音乐是和噪声一样没有价值的。为 此,本发明也将输入信号中的音乐区段需要分辨出来。为此,确定语音区段确定装置17中包含了一种音乐检测部分(未示出)。该音乐检测部分记录每帧经过去伪基频装置15执行 去除伪基频的后所获得的基频值,并比较连续帧之间的基频的大小,分析两者之间的基频 的波动幅度,如果在连续的多帧的总帧长超过一定的时间长度(0. 2s、0. 3s、0. 4s等),并且 这些连续帧的基频的波动幅度在预定的范围之内(例如1Ηζ、2Ηζ),则认为该连续的帧所在 的信号部分为确定的音乐区段。在步骤S608中,确定语音区段确定装置17基于去伪基频装置15执行去除伪基频 的结果,将不包括音乐区段的其余具有基频的帧信号确定为确定语音区段。
接着,在步骤S609中,基于计数器的计数值,用于确定具有伪基频的连续帧的长 度的信号长度确定装置25计算这种连续帧的信号长度,并且判断该连续的多帧的时长T是 否大于或等于预定的时间长度,通常该预定的时间长度在0. 4-0. 6秒之间,优选为0. 5秒。 这是因为,通常元音的发音长度在0. 5-1秒之间,因此,我们将上述连续时间段规定为大于 0. 5秒。因此,当语音信号中出现连续0. 5秒以上的不包含基频的信号片段时,该片段则被 视为非语音信号,并将此段信号视为只包含背景噪声。如果判断的结果为连续无基频或具 有伪基频的帧的长度T小于所述预定的时间长度,则在步骤S610中,确定噪声区段确定装 置16将这一段小于所述预定的时间长度的信号判定为潜在噪声区段。随后进入步骤S615, 以判断这种信号处理的过程是否已经到达输入语音信号的最后一帧。如果已经到达信号的 结尾,则结束对所输入信号的处理,输出最终的语音信号处理结果。如果没有到达信号的结 尾,则处理进程前进到步骤S616,在步骤S616处,计数器对帧数的累计值η清零,并返回到 步骤S602,继续对后续的帧进行基频提取处理。如果在步骤S609中,确定噪声区段确定装置16判断连续的无基频或具有伪基频 的帧的长度τ大于或等于0. 5秒,则确定噪声区段确定装置16在步骤S613中将这段无基 频或者具有伪基频的连续帧的信号的中间部分判定为确定噪声区段,而将该段信号的两端 各自长为大约0. 1秒的信号长度确定为潜在噪声区段。接着,在步骤S614中,潜在噪声确认装置18对在对应的计数阶段内所有潜在噪声 区段进行确认,以便确认这些潜在噪声区段是确定噪声区段还是语音中的元音的尾音或者 辅音。具体确定将在后面参照附图7所示子带划分过程来进行描述。在步骤S614进行了上述确认之后,步骤同样进入步骤S615,以判断这种信号处理 的过程是否已经到达输入语音信号的最后一帧。如果已经到达信号的结尾,则结束对所输 入信号的处理,输出最终的语音信号处理结果。如果没有到达信号的结尾,则处理进程前进 到步骤S616,在步骤S616处,计数器对帧数的累计值η清零,并返回到步骤S602,继续对后 续的帧进行基频提取处理。图7所示的是在步骤S614中确认潜在噪声区段的过程中的子带划分过程。首先在步骤S701中,潜在噪声确认装置18中的子带划分装置26接收确定噪声确 定区段确定装置16输入的确定噪声区段,并在步骤S702中对该确定噪声区段进行取帧和 加窗。执行该分帧加窗的装置可以是分帧加窗装置12。并在步骤S703中多该确定噪声确 定区段执行时域到频域的变换。执行该变换的具体装置可以是FFT变换装置13。随后该子 带划分装置26在步骤S704中在频域将确定噪声区段在频域上平均划分成M个谱单元。通 常由于语音的元音和辅音在频域上分别分布在低频和高频区域,因此,可以把频谱分为低 频子带(< 3kHz)和高频子带(> 3kHz)。设M为3kHz对应的谱单元(spectral bin)数。若对信号是每秒16K采样,帧长20毫秒,则每帧信号有0. 02s*16000采样点/s = 320采样 点,做512点FFT从时域变换到频域,频域O-SkHz得到256 (512/2 = 256)个频谱值,也就 是在每8000/256的频率范围内有一个对应的频谱值,即一个谱单元(spectral bin))。接着,子带划分装置26对确定噪声区段的频域进行子带划分,具体划分过程如 下首先,在步骤S704中,如果确定噪声区段的帧数为N,则计算所有N帧的每个频率 谱单元i处的噪声能量平均值,即N帧的每一帧的对应频谱单元的噪声能量的平均值 其次,假设以谱单元k为确定噪声区段的子带划分点,则0 k-Ι个谱单元作为一 个低频子带,而k M个谱单元作为一个高频子带。子带划分装置计算划分后两个子带的 能量的平均值E1和Eh,即为两个子带各自所包含的频谱单元的能量的平均值。然后计算低 频子带的能量平均值与其所包含的每个谱单元的噪声能量平均值之间的方差的平均值,即 平均方差D1 ;同样计算高频子带的能量平均值与其所包含的每个谱单元的噪声能量平均值 之间的方差的平均值,即平均方差Dh。这两个平均方差的计算公式如下 如上述计算方法,正对M个谱单元,形成M组划分方式,对应计算获得M组D1和Dh。最后,比较每种划分方式下D1和Dh的和,即比较每种划分方式下的D = Dx+Dh的大 小。与D1和Dh的和最小对应的划分方式为子带划分的最优方式。因此,子带划分装置26 将满足D = DfDh之和达到最小的划分谱单元作为高频和低频子带上的划分点。再根据噪声在上述两个子带内能量分布特点,将每个子带再划分为噪声能量较为 活跃的子带和次活跃子带。活跃程度是通过能量相对于平均能量最大波动确定的。对于噪 声而言在一定时间内它在特定频率的活跃程度是不一样的,比如一些噪声在IOOHz以下变 化很剧烈。对于这样的情况我们就把低频段子带认为是噪声“活跃”子带,给它确定一个较 高的门限来防止突然出现的较高能量噪声。而对于噪声不活跃的子带,我们不需要这么做, 因为噪声在这段子带不会出现这样剧烈的变化,我们的门限可以相对较低。最后,按上述过程也可以将高频和低频子带分别划分为2个子带,最终得到4个子 带。子带可以继续划分,比如可以划分为8个,但实验效果差不多甚至会变差,本文以4个 子带划分为例讲述。所述子带划分装置26根据子带噪声的大小和不同子带噪声的活跃程度来设定子 带能量门限,具体过程是首先,计算第t个子带的平均能量瓦,t = 1,. . .,4 ;其次,在第t 个子带中,计算第η帧能量相对于平均能量瓦的波动 其中,N(同上)为确定噪声段的帧数;最后,第t个子带的门限可以设定为
其中,α 为敏感系数(α 为经验值,
对于门限的设定是由检测最大值除以某个小于1的数来设定的)。接着,在步骤S708中,按照对确定噪声区段的子带划分方式对潜在噪声区段进行相同的子带划分,从而获得潜在噪声区段的对应子带。最后,在步骤S709中,潜在噪声区段确认装置18中的子带能量比较装置27将潜在噪声区段的各个子带的能量与上述确定的确定噪声区段的对应子带的能量阈值进行比 较以确定潜在噪声区段是确定噪声区段还是元音的尾音或辅音。具体而言,如果潜在噪声 区段的低频子带的能量高于确定噪声区段的低频子带的能量阈值,则认为该潜在噪声区段 为元音的尾音,而如果在噪声区段的高频子带的能量高于确定噪声区段的高频子带的能量 阈值,则认为该潜在噪声区段为辅音,反之,则认为该潜在噪声区段为确定的噪声区段。图5所示是跟踪确定噪声区段以及及时更新噪声子带能量的划分和门限的变化 的示意图。通过以上所描述的语音端点检测系统和方法,尤其是通过提取基频以及根据基频 检测到的确定噪声区段及时自动更新不同输入信号的确定噪声区段的子带能量的划分和 门限的设定,能够在较低信噪比环境下准确检测到确定的语音部分(即语音的元音部分) 和确定噪声区段,并且通过自身跟踪噪声变化准确判断辅音的位置或元音的尾音,这使得 该方法的鲁棒性更高。另外,低频子带和高频子带的划分,不仅能够在元音部分周围利用高频子带判断 是否存在辅音,也可以在其后面的低频子带寻找是否存在元音的尾音部分,如图5所示,区 段G是由子带能量检测到的高频辅音,区段K是子带能量在低频检测到的基频提取时遗漏 的元音尾音部分。以上所述仅为本发明的一个实施例,并不用以限制本发明,凡在本发明的精神和 原则之内,所作的任何修改,等同替换,改进等,均应包含在本发明的保护范围之内。
权利要求
一种语音端点检测方法,该方法包括步骤输入语音信号;对语音信号进行分帧并进行加汉明窗处理;对语音信号执行时域到频域的转换;针对语音信号逐帧进行基频提取处理;将语音信号中能够提取到具有语音特性的基频的信号区段判断为确定语音信号区段;以及将语音信号中未能提取到具有语音特性的基频的信号区段判断为包含噪声的信号区段。
2.如权利要求1所述的语音端点检测方法,其中,所述针对语音信号逐帧进行基频提 取处理的步骤包括对语音信号进行谐波叠加处理,并计算每帧信号进行多次叠加后的谐 波和,并将对应于谐波和最大值的频率确定为相应帧的基频。
3.如权利要求1所述的语音端点检测方法,其中,所述将语音信号中能够提取到具有 语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能够提取 到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信号区段判断为确定 音乐区段。
4.如权利要求1-3之一所述的语音端点检测方法,其中,所述将语音信号中能够提取 到具有语音特性的基频的信号区段判断为确定语音信号区段的步骤包括将语音信号中能 够提取到具有语音特性的基频的信号区段判断为确定元音区段。
5.如权利要求1所述的语音端点检测方法,其中,所述将语音信号中未能提取到具有 语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括在语音信号的相应帧中没有基频的情况下将所述相应帧判断为包含噪声的信号区段;在语音信号的相应帧中所提取的基频小于正常语音的基频的最小值的情况下将所述 相应帧判断为包含噪声的信号区段;以及在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的情况下,计算所 述相应帧的自相关系数,并将所述相应帧的自相关系数小于预定自相关系数阈值的所述相 应帧判断为包含噪声的信号区段。
6.如权利要求1所述的语音端点检测方法,其中,所述将语音信号中未能提取到具有 语音特性的基频的信号区段判断为包含噪声的信号区段的步骤包括将所述相应帧的基频 设置为零。
7.如权利要求1或6所述的语音端点检测方法,其还包括步骤在连续出现未能提取到具有语音特性的基频的情况下,判断连续多帧的时长T是否大 于或等于预定的时间阈值,如果时长T小于预定的时间阈值,则将该时长为T的包含噪声的 信号区段确定为潜在噪声区段;如果时长T大于或等于预定的时间阈值,则将该时长为T的 包含噪声的信号区段的中间部分确定为确定噪声区段,而将所述包含噪声的信号区段的在 所述确定噪声区段两端的部分确定为潜在噪声区段;以及比较所述确定噪声区段与所述潜在噪声区段在相同频域上的能量以便确定所述潜在 噪声区段是确定噪声区段还是辅音或元音的尾音。
8.如权利要求7所述的语音端点检测方法,其中所述比较所述确定噪声区段与所述潜 在噪声区段在相同频域上的能量以便确定所述潜在噪声区段是确定噪声区段还是辅音或 元音的尾音的步骤包括将所述包含噪声的信号区段的信号进行分帧并进行加汉明窗处理;将所述包含噪声的信号区段的信号从时域信号转换为频域信号;将所述确定噪声区段在频域上划分为高频子带和低频子带;将所述高频子带和低频子带各自再划分为两个子带;基于针对所述确定噪声区段的子带划分方式在频域上将所述潜在噪声区段划分成对 应的子带;以及比较所述确定噪声区段和所述潜在噪声区段的对应子带的能量,从而确定所述潜在噪 声区段是确定噪声区段还是辅音或元音的尾音。
9.如权利要求8所述的语音端点检测方法,其中所述将所述确定噪声区段在频域上划 分为高频子带和低频子带的步骤包括在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划分为M谱单元;针对所述确定噪声区段所包含的谱单元中的每一个谱单元,计算所述确定噪声区段的 所有帧的噪声能量的平均值ε (i), 其中,N是所述确定噪声区段的帧数,Ep(i)是在第ρ帧信号图像中第i个谱单元上的噪声能量;以所述确定噪声区段所包含的M个谱单元中的每一个谱单元为划分点将所述确定噪 声区段的频谱划分为高频子带或低频子带,并计算每种划分方式下的高频子带的噪声能量 的平均值Eh或和低频子带噪声能量平均值E1 ;针对每种子带划分方式,计算所述低频子带低频子带噪声能量平均值E1所述低频子带 所包含的频谱单元的每个频谱单元的噪声能量的平均值ε (i)之间的方差以及所计算的 方差的平均方差D1; 以及计算所述高频子带的噪声能量的平均值Eh与所述高频子带所包含的频谱单元的每个 频谱单元的噪声能量的平均值ε (i)之间的方差以及所计算的方差的平均方差Dh, 其中k为子带划分点的谱单元编号;以及计算每种划分方式下所计算的平均方差Dh和D1的和D,并将所有所述和D中的最小值 所对应的频谱单元作为所述高频子带和所述低频子带的划分点。
10.如权利要求9所述的语音端点检测方法,其中所述将所述高频子带和低频子带各 自再划分为两个子带的步骤与所述高频子带和低频子带划分方式相同。
11.如权利要求5所述的语音端点检测方法,其中,所述将所述相应帧的自相关系数小于预定自相关系数阈值的所述相应帧判断为包含噪声的信号区段的步骤包括将所提取的基频设置为零。
12.如权利要求7所述的语音端点检测方法,其中,所述预定的时间阈值可为0.4秒到 0. 6 秒。
13.如权利要求12所述的语音端点检测方法,其中,所述预定的时间阈值可为0.5秒。
14.如权利要求7所述的语音端点检测方法,其中,在所述将所述包含噪声的信号区段 的在所述确定噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪声的 信号区段的两端的被确定为潜在噪声区段的长度分别为0. 1秒。
15.一种语音端点检测系统,包括用于输入语音信号的信号输入装置;分帧加窗装置,用于对语音信号进行分帧并进行加汉明窗处理;时域频域变换装置,用于对语音信号执行时域到频域的转换;基频提取装置,用于针对语音信号逐帧进行基频提取处理;确定语音区段确定装置,用于将语音信号中能够提取到具有语音特性的基频的信号区 段判断为确定语音信号区段;以及确定噪声区段确定装置,用于将语音信号中未能提取到具有语音特性的基频的信号区 段判断为包含噪声的信号区段。
16.如权利要求15所述的语音端点检测系统,其中,所述基频提取装置对语音信号进 行谐波叠加处理,并计算每帧信号进行多次叠加后的谐波和,并将对应于谐波和最大值的 频率确定为相应帧的基频。
17.如权利要求15所述的语音端点检测系统,其中,所述确定语音区段确定装置将语 音信号中能够提取到具有语音特性的基频的信号区段判断为确定元音区段。
18.如权利要求15所述的语音端点检测系统,其中,所述确定语音区段确定装置将语 音信号中能够提取到具有语音特性的基频且其谐波在该信号区内呈水平直线的特点的信 号区段判断为确定音乐区段。
19.如权利要求15所述的语音端点检测系统,其还包含去伪基频装置,所述去伪基频 装置包括基频设置装置,所述基频设置装置在语音信号的相应帧中所提取的基频小于正常 语音的基频的最小值的情况下将所述相应帧的基频设置为零。
20.如权利要求15或19所述的语音端点检测系统,其还包括信号长度确定装置,用于 在连续出现未能提取到具有语音特性的基频的情况下,判断连续多帧的时长T是否大于或 等于预定的时间阈值,如果时长T大于或等于预定的时间阈值,则将该时长为T的包含噪声 的信号区段的信号发送到所述确定噪声区段确定装置;其中,所述确定噪声区段确定装置将所述包含噪声的信号区段的中间部分确定为确定 噪声区段,而将所述包含噪声的信号区段的在所述确定噪声区段两端的部分确定为潜在噪 声区段。
21.如权利要求20所述的语音端点检测系统,其还包括潜在噪声区段确认装置,用于 确认潜在噪声区段是确定语音区段还是确定噪声区段。
22.如权利要求21所述的语音端点检测系统,其中,所述潜在噪声区段确认装置包括子带划分装置,用于将所述确定噪声区段在频域上划分为多个子带以及将所述潜在噪声区段对应地在频域上划分为相同数量的子带;以及子带能量比较装置,用于比较所述确定噪声区段与所述潜在噪声区段在相同频域上的 能量以便确定所述潜在噪声区段是确定噪声区段还是确定语音区段的辅音或元音的尾音。
23.如权利要求22所述的语音端点检测系统,其中所述子带划分装置通过以下手段将 所述确定噪声区段划分为两个子带在频域上以预定的频率间隔将整个所述确定噪声区段的频域范围划分为M谱单元; 针对所述确定噪声区段所包含的谱单元中的每一个谱单元,计算所述确定噪声区段的 所有帧的噪声能量的平均值£ (i), 其中,N是所述确定噪声区段的帧数,Ep(i)是在第p帧信号图像中第i个谱单元上(盟第i个频率间隔上)的噪声能量;以所述确定噪声区段所包含的M个谱单元中的每一个谱单元为划分点将所述确定噪声区段的频谱划分为高频子带或低频子带,并计算每种划分方式下的高频子带的噪声能量的平均值Eh或和低频子带噪声能量平均值& ;针对每种子带划分方式,计算所述低频子带低频子带噪声能量平均值&所述低频子带所包含的频谱单元的每个频谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方差 以及计算所述高频子带的噪声能量的平均值Eh与所述高频子带所包含的频谱单元的每个 频谱单元的噪声能量的平均值£ (i)之间的方差以及所计算的方差的平均方差Dh, 其中k为子带划分点的谱单元编号;以及计算每种划分方式下所计算的平均方差Dh和&的和D,并将所有所述和D中的最小值 所对应的频谱单元作为所述高频子带和所述低频子带的划分点。
24.24.如权利要求23所述的语音端点检测系统,其中所述子带划分装置还进一步将 所述高频子带和低频子带各自再划分为两个子带。
25.25.如权利要求19所述的语音端点检测系统,其中,所述去伪基频装置还包括相关 系数计算装置,用于在语音信号的相应帧中所提取的基频大于正常语音的基频的最小值的 情况下计算相应帧的自相关系数;以及自相关系数比较装置,用于比较所述相应帧的自相 关系数与预定自相关系数阈值;其中所述基频设置装置,用于将所述相应帧的自相关系数 小于预定自相关系数阈值的所述相应帧的基频设置为零。
26.26.如权利要求21所述的语音端点检测系统,其中,所述预定的时间阈值可为0. 4 秒到0. 6秒。
27.27.如权利要求26所述的语音端点检测系统,其中,所述预定的时间阈值可为0. 5秒。
28.如权利要求20所述的语音端点检测系统,其中,在所述将所述包含噪声的信号 区段的在所述确定噪声区段两端的部分确定为潜在噪声区段的步骤包括将在所述包含噪 声的信号区段的两端的被确定为潜在噪声区段的长度分别为0. 1秒。
全文摘要
本发明涉及一种端点检测方法以及使用该方法的系统,其使用基频提取结合子带能量的方法对语音进行检测,由于元音有基频,而基频拥有很强的语音特征,受噪声影响较小,使得元音的提取拥有很高的鲁棒性。使用子带能量在元音前后约束的范围内寻找辅音,并且子带能量的门限能够根据噪声分布变化而即时更新,使得辅音的检测受噪声影响也大大降低。因此,系统即使对于不断变化的复杂噪声也有很好的检测结果。
文档编号G10L11/02GK101872616SQ20091013560
公开日2010年10月27日 申请日期2009年4月22日 优先权日2009年4月22日
发明者刘昆, 吴伟国, 张之浩 申请人:索尼株式会社
端点检测方法以及使用该方法的系统的制作方法
相关推荐
专利名称:信号处理设备的制作方法技术领域:本发明涉及一种信号处理设备,该信号处理设备基于诸如乐器的音箱、外壳、和音板的共振器的共振分量来处理音频信号。本申请要求日本专利申请N0.2011-270035的优先权,其内容通过引用合并于此。背景技
专利名称:拾取装置和使用该拾取装置的电弦乐器的制作方法技术领域:本发明涉及一种拾取装置和使用该拾取装置的电弦乐器。更具体地,本发明涉及这样ー种拾取装置,其能容易地附接到电弦乐器的琴身并从该琴身拆卸,以及涉及ー种使用该拾取装置的电弦乐器。背景
专利名称:双护套微型气送光纤单元的制作方法技术领域:本实用新型涉及一种通信光纤单元,尤其是用于气送敷设的光纤单元。 背景技术:现有用于接入网系统的室内场合或局域网之间、小区之间的室外场合的气送光纤单元, 一般在光纤外包覆外护套。这种光纤单元
专利名称:眼镜的制作方法技术领域:本实用新型涉及一种眼镜。 背景技术:眼镜通常由眼镜框和眼镜腿组成,此类型的眼镜的眼镜框和眼镜 腿以折叠式的形式构成一体,因此,购买的此类型眼镜是不可变更眼 镜的款式的,满足不了人们多样款式设计的个性化需求,
专利名称::显示装置的制法的制作方法技术领域::本发明涉及一种包括由铝合金膜制成的配线材料和利用透明导电膜形成的像素电极的显示装置,特别涉及在制造将构成配线材料的铝合金膜与像素电极直接连接而实现了低电阻率连接的构造的显示装置时,通过改造在使
专利名称:基于高斯相似度分析的说话人自适应方法技术领域:本发明涉及一种语音识别技术领域中的说话人自适应方法,尤其涉及一种对协方差阵的说话人自适应方法。背景技术: 我们知道,不同的人不仅发声器官本身,如声带的形状、声道的长度、鼻腔口腔的大小都