一种语音检测方法-品牌商务网

专利名称：一种语音检测方法
一种语音检测方法
技术领域：
本发明涉及一种语音检测方法，特别是指利用视频数据进行语音检测的
方法。背景4支术
在一些语音技术里，例如语音识别，语音压缩，语音增强等等，它们效果的好坏在一定程度上取决于语音检测的准确率。例如在语音识别里，如果检测器不能正确检测语音和非语音的话，语音识别系统无法识别非语音的成分，同时也会有很多语音成分被认为是非语音而不予识别，正确率势必会大大下降。而在一些语音压缩标准里，语音活性检测则是很关键的技术，因为对语音的压缩和非语音成分的压缩采取的是完全不同的方法，错误的分类会导致听觉上的中断(当语音被错误的检测成非语音的时候)或者带来不必要的编码冗余(当非语音被认为是语音的时候)。同样的，在语音增强问题里，也会有类似的情况出现。因此，语音检测技术在很多语音技术里都有着重要意义。
语音检测技术是一门传统的语音技术.它的主要功用是检测出在带噪声的语音里的语音成分。语音检测算法通常包含如下几类技术，直觉性准则，高阶统计量方法，频域统计检测方法，非线性方法以及以上方法的有效结合，
直觉性准则是在语音压缩标准里常用的一种方法，例如G.729, AMR-WB等等。直觉性准则的意思是采取一些比较直观好理解的准则来进行语音检测.例如，通常情况下，带噪语音的能量通常比純噪声的要大一些，所以，能量方法，即检测能量是否超过一个门限，是一种4艮有效的方法.另一种直观的准则则是过零率。由于很多种类的环境噪声是随机的，随机性高则意味着它的过零率较高，而语音信号有较大一部分是有着周期性或者半周期性的，因此语音信号，即使是带噪语音信号，它的过零率也相对较低。因此过零率也是一种有效的直觉性准则。高阶统计量方法是一种直觉性方法的较特殊的例子，它挖掘了带噪语音和噪声的模型区别，用高阶统计量来表征模型的区别。频域检测统计方法是假设语音信号的频域分布是遵从一定的分布的，根据带噪语音和噪声的分布区别，进行统计判别。非线性方法是从一些新的角度挖掘语音和噪声的本质区别，
现有语音检测识别技术都大都只对语音通过各种方法进行检测识别，如
中国发明第ZL97195936.6号及美国发明公告第US 5,613,037、 US6,292,776及US 5,440,662号。在语音识别里，如果检测器不能正确检测语音和非语音，语音识别系统无法识别非语音的成分，同时也会有4艮多语音成
分被认为是非语音而不予识别，正确率会大大下降。
发明内容
本发明的目的在于提供一种用于能提高准确率的语音检测的方法。为了实现上述目的，本发明语音检测方法通过以下技术方案达成一种语音检测方法，在传统的语音传感器的附近设置一个视频传感器，在语音传感器接收到信号特征的同时，视频传感器接收视频信号特征，并通过训练过程得到视频数据和语音/非语音数据之间的联系，再通过应用过程，
根据输入的视频信号计算输入的信号特征是否为语音倌号。
与现有技术相比较，本发明语音检测方法由于采用视频信号和语音信号
的同时采集和计算分析，可很大程度避免检测器不能正确检测语音和非语音，
使语音检测的正确率大大提高.

图1为本发明语音检测方法第一实施例的流程图.
图2为本发明语音检测方法第二实施例的流程图。具体实施方式

本发明提出一种语音检测方法，它的目的是在噪声中检测出语音信号。本发明是在传统的语音传感器的附近放置一个视频传感器(例如摄像头或者能够拍照的传感器)，在语音传感器接收到信号的同时，用视频传感器接收视频信号，同时应用于语音检测。比较好的放置方法是在语音传感器的旁边紧挨并排放置一个视频传感器，通过语音传感器和视频传感器采集数据信号。采集到的语音数据和视频数据用来进行语音检测工作，根据视频信号内容以及语音信号内容共同决定输入信号是否为语音。
本发明是根据视频数据采集到的数据，用训练数据建立语音和非语音的视频数据模型，在应用里根据所训练的数据模型以及采集到的数据挖掘出接
收信号是否为语音信号的信息，一种实现方法如下步骤以及图1所示
步骤一(训练过程)从已知的训练的语音和非语音数据及其相应的视频数据里得到视频数据和语音/非语音之间的联系.假设已知的语音和非语音类别信息为y，视频数据和语音数据共同组成向量x，它们组成训练数据(x,y)。向量x可以有两种变化，一种是视频数据及其变换数据和语音数据及其变换数据组成，另一种是视频数据和语音数据及其变换(两者同时进行变换)组成。
步骤二(训练过程)计算类别信息以及对应的视频数据的联系，即，假设y-f(x)，目标是计算f的表达式或者隐式关系。另一种实施例可以是支持向量机分类器。它假设了函数是线性函数，以最大空白区域为准则确定线性函数的参数。该训练过程可以预先做到。
步骤三(应用过程)根据步骤二训练得到的函数f，根据输入的视频信号x计算输入是否为语音信号。
另一种实现的方法如下步骤以及图2表所示
步骤一(训练过程)从已知的训练得语音和非语音的数据及其相应的视频数据挖掘视频数据和语音/非语音类别间的概率关系.假设已知的被标签过的语音和非语音的概率是p，视频数据或者其变换数据为x。
步骤二(训练过程)根据被标签的数据，将数据集合分成语音和非语音的数据。在每个子数据集合用数据计算其概率分布的模型。一种实施例是用高斯混合模型，即假设数据模型分布是几个高斯函数的混合，用训练数据计算高斯混合模型的参数。它们将作为应用过程的所用到的参数，
步骤三(应用过程)根据步骤二训练得出的概率模型，以及输入的視频信号数据x计算其为语音或者非语音的概率p。步骤四(应用过程)根据步骤三计算出的概率，判断当前输入信号是不是语音信号或者辅助其他判断方法进行判断。一种实施例是比较概率的大小，概率大者为判决结果(语音/非语音)。
上述两种方法中，可以采用釆集视频信号或者语音信号的任意变换作为视频信号和语音信号的特征(内容).视频信号的特征可以是当前视频的运动矢量，也可以是当前视频包含图像的平均像素值。语音信号的特征可以是当前语音的过零率，也可以是当前语音的能量。语音信号的特征可以从频域里求得，即对语音信号进行傅立叶变换，再求语音信号的特征。所述视频特征至少用到一个或是大于一个的视频特征.从视频特征和语音特征作决策的方法可以是任意方法，只要输出结果是语音和非语音即可，可以釆用决策树方法将视频特征和语音特征计算得到其是否是语音的信息。可以采用支持向量机方法将视频特征和语音特征计算得到其是否是语音的信息。可以采用神经网络方法将视频特征和语音特征计算得到其是否是语音的信息。从视频特征和语音特征计算得到当前语音信号是语音和非语音的概率大小。可以采用任意一种概率模型来对视频特征以及语音特征建立概率模型，可以采用分别对语音特征和视频特征建立各自的概率模型，也可以对语音特征和视频特征建立同一概率模型。可以采用高斯混合模型对视频特征和语音特征建立概率模型，也可以采用直方图方法对视频特征和语音特征建立概率模型，从视频特征得到当前语音信号是语音的概率，用此概率协助语音特征完成对当前语音信号是否为语音的决策。可以采用马尔科夫模型协助将视频特征所得到的概
10率完成对当前语音信号是否为语音的决策，
本发明语音检测方法由于采用视频信号和语音信号的同时采集和计算分析，可很大程度避免检测器不能正确检测语音和非语音，使语音检测的正确率大大提高。
权利要求
1.一种语音检测方法，其特征在于在传统的语音传感器的附近设置一个视频传感器，在语音传感器接收到信号特征的同时，视频传感器接收视频信号特征，并通过训练过程得到视频数据和语音/非语音数据之间的联系，再通过应用过程，根据输入的视频信号计算输入的信号特征是否为语音信号。
2. 如权利要求1所述的方法，其特征在于所述训练过程和应用过程包括以下步骤步骤一从已知的训练的语音和非语音数据及其相应的视频数据里得到视频数据和语音/非语音之间的联系，假设已知的语音和非语音类别信息为y，视频数据和语音数据共同组成向量x,它们组成训练数据(x，y);步骤二计算类别信息以及对应的视频数据的联系，即，假设y-f(x)，目标是计算f的表达式或者隐式关系，或采用向量机分类器，假设函数是线性函数，以最大空白区域为准则确定线性函数的参数；步骤三应用所述步骤二训练得到的函数f，根据输入的视频信号x计算输入是否为语音信号。
3. 如权利要求2所述的方法，其特征在于所述向量x是视频数据及其变换数据和语音数据及其变换数据组成.
4. 如权利要求2所述的方法，其特征在于所述向量x是视频数据和语音数据及其变换組成。
5. 如权利要求1所述的方法，其特征在于所述训练过程和应用过程包括以下步骤视频数据和语音/非语音类别间的概率关系，假设已知的被标签过的语音和非语音的概率是p，视频数据或者其变换数据为x;步骤二根据被标签的数据，将数据集合分成语音和非语音的数据，在每个子数据集合用数据计算其概率分布的模型；步骤三根据步骤二训练得出的概率模型，以及输入的视频信号数据x 计算其为语音或者非语音的概率p;步骤四根据步骤三计算出的概率，判断当前输入信号是不是语音信号，
6. 如权利要求5所述的方法，其特征在于所述步骤二中的模型可以是高斯混合模型，即假设数据模型分布是几个高斯函数的混合，用训练数据计算高斯混合模型的参数，该参数将作为应用过程所用到的参数。
7. 如权利要求5所述的方法，其特征在于所述步骤四中的判断方法是比较概率的大小，概率大者为判决结果。
8. 如权利要求2或5所述的方法，其特征在于从视频特征和语音特征得到当前语音信号是语音和非语音的概率大小。
9. 如权利要求8所述的方法，其特征在于可以采用分别对语音特征和视频特征建立各自的概率模型，亦可以对语音特征和视频特征建立同一概率模型。
10. 如权利要求8所述的方法，其特征在于可以采用直方图方法对视频特征和语音特征建立概率模型
11. 如权利要求9所述的方法，其特征在于从视频特征得到当前语音信号是语音的概率，用此概率协助语音特征完成对当前语音信号是否为语音的决策。
12. 如权利要求11所述的方法，其特征在于可以采用马尔科夫模型
13. 如权利要求1所述的方法，其特征在于所述语音检测方法，可以采用采集视频信号或者语音信号的任意变换作为视频信号和语音信号的特征。
14. 如权利要求1所述的方法，其特征在于所述视频信号的特征可以是当前视频的运动矢量。
15. 如权利要求1所述的方法，其特征在于所述视频信号的特征可以是当前视频包含图像的平均像素值.
16. 如权利要求1所述的方法，其特征在于所迷语音信号的特征可以是当前语音的过零率.
17. 如权利要求1所述的方法，其特征在于所述语音信号的特征可以是当前语音的能量.
18.如权利要求1所述的方法，其特征在于所述语音信号的特征可以从频域里求得，即对语音信号进行傅立叶变换，再求语音信号的特征.
19.如权利要求1所述的方法，其特征在于所述视频特征至少用到一个或是大于一个的视频特征，
20. 如权利要求1所述的方法，其特征在于所述从视频特征和语音特征作计算的方法可以是任意方法，但输出结果是语音和非语音。
21. 如权利要求20所述的方法，其特征在于可以采用决策树方法将视频特征和语音特征计算得到其是否是语音的信息.
22. 如权利要求20所述的方法，其特征在于可以采用支持向量机方法将视频特征和语音特征计算得到其是否是语音的信息.
23. 如权利要求20所述的方法，其特征在于可以采用神经网络方法将视频特征和语音特征计算得到其是否是语音的信息。
全文摘要
一种语音检测方法，在传统的语音传感器的附近设置一个视频传感器，在语音传感器接收到信号特征的同时，视频传感器接收视频信号特征，并通过训练过程得到视频数据和语音/非语音数据之间的联系，再通过应用过程，根据输入的视频信号计算输入的信号特征是否为语音信号。本发明语音检测方法可很大程度避免检测器不能正确检测语音和非语音信号，使语音检测的正确率大大提高。
文档编号G10L11/02GK101656070SQ20081004196
公开日2010年2月24日申请日期2008年8月22日优先权日2008年8月22日
发明者林福辉, 黄鹤云申请人:展讯通信(上海)有限公司

本文推荐一种语音检测方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656389841.html

当前位置：网站首页>专利 >正文

一种语音检测方法

相关推荐