专利名称:信号处理装置及信号处理方法
技术领域:
本发明涉及在周围存在别人的声音或噪音的环境下提取正在对话的组的信号处理装置及信号处理方法。
背景技术:
作为现有的提取正在对话的组的信号处理装置,存在如下装置根据基于有音 /无音评价的语音信号的时间序列数据间的相关关系,判断对话的成立度,提取有效语音 (参照专利文献1)。在专利文献1记载的信号处理装置中,利用成立状态下的对话中两个激励间交替出现有音的现象,对分离出的激励信号进行有音/无音评价,利用两个激励间的有音/无音的组合,计算对话成立度。图1表示专利文献1记载的对话成立度计算方法的思路。如果在对象语音信号及受话信号中的一方为有音、另一方为无音,则对于对话成立度进行加分, 如果都是有音或都是无音,则进行减分。而且,将该对话成立度大的组合的激励之间设为对话成立。现有技术文献专利文献专利文献1 日本特开2004-133403号公报专利文献2 日本特开2002-6874号公报专利文献3 日本特开2004-243023号公报专利文献4 日本特开平1_93四8号公报非专利文献「音声処理i顏画像処理全統合L· fz対話映像如h Θ笑0 Θ認識(Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video)」伊藤彰規則他、東北大、2005-NL-167,2005-SLP-56,2005/5/2
发明内容
发明要解决的问题但是,在日常的非正式对话中,进行对话的说话人的发言不会在时间上清晰地交替显现。这里所谓的日常的非正式对话是指,不是按照会议那样的形式的对话,而是参与者自由发言的杂谈那样的对话。并且,关于这种日常的对话,存在越是非正式的对话,发言的重叠(串扰)越增多的倾向。因此,在日常对话中,有音的时间上重叠增多。所以,在仅通过有音/无音的组合来求出对话成立度的现有技术中,很难准确地区分对话对方和非对话对方。另外,在日常的非正式对话中,伴随有笑声而进行交谈的情况较多。笑是有音的, 在现有技术那样根据能量进行有音判定、仅通过有音/无音的组合求出对话成立度的方法中,在同时笑时,对话成立度降低,很难准确地区分对话对方和非对话对方。
另外,在现有技术中,如果一方的说话人是有音、另一方的说话人是无音,则对于对话成立度进行加分,因此在说话人的声音一方地一直存在的情况下,也会视为对话成立。 在会议等进行对话的场合下,在找到对话对方时,使用现有的方法即可。但是,在像助听器那样由用户始终随身佩带着可佩带式麦克风的状况下,用户的自言自语、并非与自己说话的别人的声音一直输入到麦克风的情况也较多,缺乏实用性。这样,在实际的日常环境下,在像上述现有方法那样仅利用有音/无音的组合求出对话成立度的方法中,具有难以准确地检测对话的成立的问题,缺乏实用性。本发明的目的在于,提供即使在日常的环境下也能准确地检测对话的成立的信号处理装置及信号处理方法。解决问题的方案本发明信号处理装置所采用的结构包括分离单元,将混入了多个激励的混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;使用所述语音区间信息来计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析所述沉默持续长度的沉默持续长度提取单元中的至少一个单元;以及对话成立度计算单元,根据提取到的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度。根据该结构,即使在日常的环境下也能准确地检测对话的成立。例如,通过利用在对方发言中随声附和、在对方未完全说完时就开始发言、产生短暂的沉默等日常对话特征, 即使在非正式的日常对话中,也能准确地判定对话对方。本发明的信号处理装置采用的结构为,在上述信号处理装置中,具备对于所述分离出的多个激励信号的各个激励信号进行笑声检测并提取笑声区间信息作为所述识别参数的笑声检测单元,以替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元,所述对话成立度计算单元对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息计算所述对话成立度。根据该结构,通过检测笑声、对着眼于笑声的重叠的对话成立度进行评价,由此即使在非正式的日常对话中,也能准确地检测对话的成立的情况。本发明的信号处理装置采用的结构为,在上述信号处理装置中,对于所述多个激励信号的组合提取发言比率信息作为所述识别参数的发言比率计算单元,以替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元,所述对话成立度计算单元使用所述语音区间信息及所述发言比率信息,计算所述对话成立度。根据该结构,在自己与对方的发言区间比极端失衡的情况下,通过使对话成立度变低,信号处理装置能够避免误动作。例如,在像助听器那样日常佩带的设备中,不会因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等而使信号处理装置误动作。本发明的信号处理方法包括分离步骤,将混入了多个激励的混合音信号分离为各个激励;语音检测步骤,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;使用所述语音区间信息来计算并分析发言重叠持续长度的步骤和计算并分析所述沉默持续长度的步骤中的至少一个步骤;以及计算步骤,根据提取出的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度。根据该方法,即使在日常的环境下也能准确地检测对话的成立。发明的效果根据本发明,即使在日常的环境下也能准确地检测对话的成立,因此能够容易听到地调整或记录对话成立的语音。
图1是表示专利文献1记载的对话成立程度计算方法的思路的图。图2是表示日常对话数据的发言重叠持续长度的分布的图。图3是表示日常对话数据的沉默持续长度的分布的图。图4是表示本发明的实施方式1的信号处理装置的主要部分的结构的方框图。图5是表示一例将本发明应用于主体与耳机分离了的方式的遥控型助听器的图。图6是表示实际使用遥控型助听器时的人的位置关系的例子的图。图7是表示实施方式1的助听器的动作的流程图。图8是用于说明发言重叠分析值Pc的求法的图。图9是表示实施方式1的基于模拟试验的对话对方检测率的图。图10是表示对于对话对方的笑声/发言/无音的重叠持续长度合计的图。图11是表示对于非对话对方的笑声/发言/无音的重叠持续长度合计的图。图12是表示计算作为对话对方的比例所得的结果的图。图13是表示本发明的实施方式2的信号处理装置的主要部分的结构的方框图。图14是表示实施方式2的助听器的动作的流程图。图15是用于说明基于发言/笑声/无音的组合的对话成立度计算方法的图。图16是表示某一组的对话的每个时间窗口长度的发言区间比Rb的推移的例子的图。图17是表示本发明的实施方式3的信号处理装置的主要部分的结构的方框图。图18是表示实施方式3的助听器的动作的流程图。图19是表示本发明的实施方式4的信号处理装置的主要部分的结构的方框图。图20是表示实施方式4的助听器的动作的流程图。标号说明100、300、400、500 信号处理装置110、220麦克风阵列120、230A/D 转换单元130激励分离单元140语音检测单元150、310、410、510识别参数提取单元151,511发言重叠持续长度分析单元152、512沉默持续长度分析单元160、320、420、520对话成立度计算单元170对话对方判定单元
180输出音控制单元200助听器210助听器主体240CPU250存储器260 耳机311笑声检测单元411、513发言比率计算单元
具体实施例方式以下,参照附图详细地说明本发明的实施方式。(实施方式1)在本实施方式中,着眼于发言的重叠或沉默的持续长度,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先,说明本发明人着眼于发言的重叠或沉默的持续长度的情况。在日常的非正式对话中,进行对话的说话人的发言不会在时间上清晰地交替显现。存在越是非正式的对话,发言的重叠(串扰)越增多的倾向。因此,在日常对话中,由于有音的时间重叠增多,所以在仅通过有音/无音的组合求出对话成立度的现有技术中, 具有很难准确地区分对话对方和非对话对方的问题。本实施方式解决上述问题。在日常对话中频繁出现以下情况在一方的说话人说完之前另一方的说话人就开始说话、或者在一方的说话人的说话过程中另一方的说话人随声附和。因此,本发明人着眼于这种发言的重叠持续长度。首先,本发明人实际上分别拾取了 9组的10分钟左右的日常对话的声音,并对于该数据,分析了对话对方的发言重叠、非对话对方的发言重叠的持续长度。图2是分别对于对话对方、非对话对方表示发言重叠的一次连续的区间的长度 (持续长度)的分布的曲线图。在图2中,横轴表示一次的发言重叠连续的区间的长度,纵轴表示频度。作为其结果可知对于进行对话的对方,一次发言重叠连续的区间的长度往往较短,对于非对话对方,一次的发言重叠连续的区间的长度往往较长。因此,在本实施方式中, 导入这样的参数该参数不是单纯地着眼于发言重叠的多少,而是着眼于发言重叠的一次连续的区间的长度(持续长度)。另外,本发明人将双方的说话人沉默的状态定义为沉默,对于沉默的持续长度,也同样地进行了分析。图3是分别对于对话对方、非对话对方表示沉默的一次连续的区间的长度(持续长度)的分布的曲线图。在图3中,横轴表示一次的沉默连续的区间的长度,纵轴表示频度。作为结果可知沉默与发言重叠同样,与非对话对方相比,对话对方的沉默的持续长度往往较短。因此,在本实施方式中,与发言重叠同样地导入着眼于沉默一次连续的区间的长度(持续长度)的参数。以下说明本实施方式的信号处理装置的内部结构。
图4是表示本实施方式的信号处理装置100的主要部分的结构的方框图。麦克风阵列110是配置有多个麦克风的拾音装置。A/D (Analog to Digital,模数)转换单元120将各个麦克风拾取到的音信号转换
成数字信号。激励分离单元130利用到达各麦克风的音信号的到达时间之差进行信号处理,由此将混入了多个激励的混合音信号分离为各个激励。语音检测单元140判定由激励分离单元130分离的音信号是否为语音,对每个激励,生成表示语音/非语音的检测结果的语音区间信息。关于语音检测单元140中的语音检测方法,在后面进行叙述。识别参数提取单元150提取识别参数,该识别参数在判定(识别)对话对方而计算对话成立度时使用。识别参数的详细情况在后面所述。在本实施方式中,识别参数提取单元150具有发言重叠持续长度分析单元151及沉默持续长度分析单元152。发言重叠持续长度分析单元151利用表示由语音检测单元140判定出的每个激励的语音/非语音的检测结果的语音区间信息,求出并分析激励间的发言重叠区间的持续长度(以下称为“发言重叠持续长度分析值”)。沉默持续长度分析单元152使用表示由语音检测单元140判定出的每个激励的语音/非语音的检测结果的语音区间信息,求出并分析激励间的沉默区间的持续长度(以下称为“沉默持续长度分析值”)。这样,识别参数提取单元150提取发言重叠持续长度分析值及沉默持续长度分析值,作为表示日常对话特征量的识别参数。并且,关于识别参数提取单元150中的发言重叠分析值及沉默分析值的计算方法,在后面进行叙述。对话成立度计算单元160根据由发言重叠持续长度分析单元151计算的发言重叠持续长度分析值、由沉默持续长度分析单元152计算的沉默持续长度分析值,计算对话成立度。关于对话成立度计算单元160中的对话成立度计算方法,在后面进行叙述。对话对方判定单元170使用在对话成立度计算单元160中计算的对话成立度,判定哪个激励是对话对方。输出音控制单元180对于由激励分离单元130分离出的音信号,控制输出音后将其输出,以使在对话对方判定单元170中判定的对话对方的声音容易听到。具体而言,输出音控制单元180对于由激励分离单元130分离出的音信号,进行抑制非对话对方的激励方向的指向性控制。图5是将本实施方式的信号处理装置100应用于助听器主体与耳机分离的方式的遥控型助听器(以下简称为“助听器”)200中的例子。助听器200具有助听器主体210及耳机洸0。助听器主体210包括麦克风阵列220、A/D转换单元230、CPU240、及存储器250。 在麦克风阵列220中,8个麦克风配置成圆状。A/D转换单元230将由麦克风阵列220拾取到的音信号转换成数字信号。CPU240进行助听器主体210的控制及运算。存储器250存储用于运算的数据。输出音信号的耳机沈0与助听器主体210连接。CPU240使用存储器250,除了进行适合于用户听觉的音信号放大等通常的助听处理以外,还进行上述激励分离、语音检测、发言重叠持续长度分析、沉默持续长度分析、对话成立度计算、对话对方判定、输出音控制。通常,助听器主体210放置在桌子上,对助听器主体210内部的麦克风阵列220拾取的声音进行加工,使佩带耳机260的用户听到。在本实施方式中,说明助听器主体210与耳机260间的连接为有线的情况,但是,也可以通过无线通信来连接助听器主体210与耳机 260。接着,说明如上构成的助听器200的动作。图6是表示实际使用图5的助听器200时的人的位置关系的例子的图。在图6中, 助听器200的用户佩带耳机沈0。助听器主体210放置在桌子上,用户与位于正面的对话对方进行对话。并且,假设助听器主体210放置在桌子上,以使助听器200的用户面对主体前方(图5的▲方向)。在图6的例子中,从助听器200的用户来看,在右侧,无关的说话人正在进行对话,成为干扰音。图7是表示搭载了本实施方式的信号处理装置100的助听器200的动作的流程图。使用图7的流程图,说明助听器200的动作。图中S表示流程的各步骤。另外,图7的各步骤中的以下处理是使用CPU240及存储器250来进行的。在CPU240及存储器250中, 以每个短时间单位(帧,这里设为10msec)进行处理。首先,在步骤SllO中,A/D转换单元120对从内置于助听器主体210中的麦克风阵列110(220)输入的音信号进行A/D转换,输出到激励分离单元130。接着,在步骤S120中,激励分离单元130利用到达各麦克风的音信号的到达时间之差,以帧为单位,在不同方向上分离音信号。这里,假定激励分离单元130在前后左右依次倾斜45°的8个方向k(k= 1,2,......,8)上分离音信号。这里,假定该分离出的音信号从用户所处的助听器200前方起沿逆时针方向依次是51、52、53、54、55、56、57、58。这8个方向中的助听器200的前方是助听器200的用户所处的方向,因此假定来自该方向的音信号Sl是用户的声音。接着,分别对于分离出的8个方向的音信号Sk (k 方向,k = 1,2,......,8)进行
步骤S130的处理。在步骤S130中,语音检测单元140对于音信号Sk(k:方向,k= 1,2,......,8)进
行语音/非语音检测。作为语音检测方法,例如,这里是以帧为单位计算语音频带(例如, 200Hz 4000Hz)中的能量,在时间方向上进行平滑化,在能量超过阈值的情况下,判定为语音。为了更高精度地进行语音检测,优选的是,在后续处理中,进行如下等处理将短时间的语音区间作为无音处理,或者在语音持续时存在短时间的无音的情况下,作为语音处理。并且,语音检测方法不限于基于语音频带能量的方法,也可以使用检测谐波结构的方法、或与模型对照的方法等其他方法。以下,语音检测单元140将判定为语音的区间定义为发言区间。接着,对于前方的音信号Sl与除了前方以外的7个方向的音信号S2 S8的各个组合,进行步骤S140、S150的处理。在步骤S140中,发言重叠持续长度分析单元151及沉默持续长度分析单元152求
出音信号Sl与音信号Sk(k 方向,k = 2,3,......,8)的发言重叠及沉默的区间的持续长
度。然后,发言重叠持续长度分析单元151及沉默持续长度分析单元152分别计算帧t中的发言重叠分析值Pc及沉默分析值1^,将它们输出至对话成立度计算单元160。
以下,说明发言重叠分析值Pc及沉默分析值I^s的计算方法。首先,参照图8,说明发言重叠分析值Pc的计算方法。在图8A中,四边形所示的区间表示基于由语音检测单元140生成的表示语音/非语音检测结果的语音区间信息而判定为音信号Sl是语音的发言区间。在图8B中,四边形所示的区间表示判定为音信号Sk是语音的发言区间。并且,发言重叠持续长度分析单元151 将这些区间重叠的部分定义为发言重叠(图8C)。发言重叠持续长度分析单元151中的具体动作如下所述。在帧t中,在发言重叠开始时,发言重叠持续长度分析单元151将该帧存储为起始帧。并且,在帧t中发言重叠结束的情况下,发言重叠持续长度分析单元151将其视为1个发言重叠,将从起始帧起的时间长度作为发言重叠的持续长度。在图8C中,椭圆包围的部分表示帧t以前的发言重叠。并且,在帧t中发言重叠结束的情况下,发言重叠持续长度分析单元151求出并存储与帧t以前的发言重叠的持续长度有关的统计量。进而,发言重叠持续长度分析单元151使用该统计量,计算帧t中的发言重叠分析值Pc。优选的是,发言重叠分析值Pc是表示在发言重叠中其持续长度短的情况较多或其持续长度长的情况较多的参数。接着,说明沉默分析值I^s的计算方法。首先,沉默持续长度分析单元152将根据由语音检测单元140生成的语音区间信息而判定为音信号Si是非语音的区间、与判定为音信号Sk是非语音的区间重叠的部分定义为沉默。与发言重叠的分析度相同,沉默持续长度分析单元152求出沉默区间的持续长度,求出并存储与帧t以前的沉默区间的持续长度有关的统计量。并且,沉默持续长度分析单元152使用该统计量,计算帧t中的沉默分析值1^。优选的是,沉默分析值I^s也是表示在沉默中其持续长度短的情况较多或其持续长度长的情况较多的参数。以下,说明具体的发言重叠分析值Pc及沉默分析值I^s的计算方法。沉默持续长度分析单元152在帧t中分别存储/更新与持续长度有关的统计量。 与持续长度有关的统计量包括帧t以前的(1)发言重叠的持续长度之和Wc、(2)发言重叠的个数Nc、C3)沉默的持续长度之和Ws、及(4)沉默的个数Ns。并且,发言重叠持续长度分析单元151及沉默持续长度分析单元152通过式(1-1)、(1-2)分别求出帧t以前的发言重叠的平均持续长度Ac、及帧t以前的沉默区间的平均持续长度As。Ac =发言重叠的持续长度之和Wc/发言重叠的个数Ne... (1-1)As =沉默区间的持续长度之和Ws/沉默的个数Ns. . . (1-2)Ac、As的值越小,表示短的发言重叠、短的沉默越多。因此,为了匹配大小关系,使 Ac、As的符号逆转,如下式0-1)、0-2)那样定义发言重叠分析值Pc及沉默分析值1^。Pc = -Ac . . . (2-1)Ps = -As . . . (2-2)并且,除了发言重叠分析值Pc及沉默分析值I^s以外,作为表示持续长度短的对话多或持续长度长的对话多的参数,还可考虑如下参数。在计算参数时,划分为发言重叠及沉默的持续长度小于阈值T (例如T= 1秒)的短对话、持续长度为T以上的长对话,求出各自的出现个数或持续长度和。接着,在计算参数时,求出在帧t以前出现的持续长度短的对话的出现个数或相对于持续长度和的比例。
11于是,该比例是表示其值越大,则持续长度短的对话越多的参数。另外,为了表现出一个对话的集中的性质,在沉默持续了一定时间的时刻,对这些统计量进行初始化。或者,也可以每一定时间(例如20秒)对统计量进行初始化。另外, 也可以一直使用过去一定时间窗口内的发言重叠、沉默持续长度的统计量,作为统计量。另外,为了削减计算量,也可以判定为在一定时间内未检测到语音的激励方向上没有人存在,直到下次检测到语音为止,不进行上述处理。再次返回到图7,在步骤S150中,对话成立度计算单元160计算音信号Sl与音信号Sk的对话成立度,将对话成立度输出至对话对方判定单元170。帧t中的对话成立度CuU)例如如式C3)那样进行定义。Clj k (t) = wl · Pc (t) +w2 · Ps (t) ... (3)并且,关于发言重叠分析值Pc的权重wl及沉默分析值I3S的权重w2,通过试验,预先求出最佳值。在帧t中,对于所有方向的激励,在无音持续了一定时间的的时刻,进行初始化。 并且,对话成立度计算单元160在某一方向的激励具有能量时,开始计数。另外,对话成立度也可以丢弃很早以前的数据而使用适应于最新状况的时间常数来求。在求出7个方向的对话成立度Ut) (k:方向,k = 2,3,......,8)后,接着,在
步骤S160中,对话对方判定单元170判定哪个方向的激励是用户的对话对方。然后,对话对方判定单元170将判定结果输出至输出音控制单元180。作为对话对方的判定方法,从所有方向的CuU)中,将超过阈值θ且值最大的一方向的激励作为对话对方。另外,作为对话对方的其他判定方法,例如可考虑以下的变形。 从所有方向的C1Jt)中,将超过阈值θ的方向的激励都作为对话对方。·仅将前方(S3 S7等)作为探索对象,而不是所有方向。·在才判定了对话对方的情况下,仅将该方向及相邻方向作为探索对象(由于在时间上说话人不会急速地进行移动)。最后,在步骤S170中,输出音控制单元180在判定为对话对方的方向上控制指向性,由此将输入了的混合音加工为容易听到后从耳机260输出。在以上说明中,说明了识别参数提取单元150具有发言重叠持续长度分析单元 151及沈持续长度分析单元152的情况。另外,在本实施方式中,也可以仅具有发言重叠持续长度分析单元151及沈持续长度分析单元152中的任意一方。在该情况下,等价于在式 (3)中将发言重叠分析值Pc的权重wl或沉默分析值Ps的权重w2中的任意一方设为0。如上所述,在本实施方式中构成为,识别参数提取单元150至少具有发言重叠持续长度分析单元151或沈持续长度分析单元152中的至少一者。发言重叠持续长度分析单元151使用语音区间信息,计算并分析发言重叠持续长度,沈持续长度分析单元152计算并分析沉默持续长度。并且,对话成立度计算单元160使用发言重叠持续长度及沉默持续长度中的至少一方,计算对话成立度。这样,在本实施方式中,能够利用如下的日常对话特征随声附和产生的发言重叠较短、在对方未完全说完时就开始发言的情况下的发言重叠较短、对话中的沉默较短等。因此,在本实施方式中,即使在非正式的日常对话中,也能准确地求出对话成立度,因此能够准确地检测对话的成立,从而能够准确地判定对话对方。另外,本发明人使用实际对5组日常对话录音所得的语音数据,进行了对话对方检测的模拟试验。在模拟试验中,使用麦克风阵列拾取了 5组两分钟的日常对话,以SN比为5、10、 15、20dB的方式将在食堂中另外拾取了的喧嚣的多人交谈噪音(multi-talker noise)叠加于拾取了的语音数据。接着,在模拟试验中,对于各SN比,对每个说话人进行了基于语音能量的语音检测。然后,在模拟试验中,对于每个说话人的语音检测结果,虚拟地生成5组对话对方的组合及40组非对话对方的组合,对于现有方法及本发明的方法,求出了对话对方正确率。这里,现有方法是专利文献1公开的方法,使用时间常数来更新对话成立度。在现有方法中,使用式⑷求出了帧t中的对话成立度C1Jt)。这里,在帧t中,在音信号Sk为语音时,Vk (t) = 1,在音信号Sk为非语音时,Vk (t) =0。
Cuit) = S ■ cu{t -1) + (1- SiRl k(t) + Tl k(t) + (1- Dl k(t)) + (1- ^u(O)J …(4 -
1 )
Dljk(t) = α - Dljk(t-l) + (l-a) · V1 (t) · Vk(t)... (4-2) Rljk(t) = β · Rljk(t-1) + (1-^) · (I-V1W) · Vk(t)... (4-2)
V1 (t) · (I-Vk (t)).. . (4-2) (I-V1W) · (l"Vk (t)).. . (4-2)
I\,k(t) = y .T^a-D + d-y) Sljk(t) = δ · Sljk(t-l) + (l-5)其中,时间常数a = β = y = 0.99999、δ = 0.99995、ε = 0.999。另外,在本发明的方法中,使用利用了发言重叠分析及沉默分析的方法,以帧为单位求出发言重叠分析值及沉默分析值,更新对话成立度。另外,使用式C3)计算了帧t中的对话成立度Ut)这里,作为评价方法,在对话对方的组的情况下,如果超过阈值θ,则为正确,在非对话对方的组的情况下,如果低于阈值θ,则为正确。另外,将对话对方正确率定义为准确地检测对话对方的比例和准确地丢弃非对话对方的比例的平均值。图9表示基于现有方法及本发明的方法的对话对方正确率。由图9可知,与现有方法相比,在使用发言重叠及沉默的平均持续长度的分析值来求出对话成立度的本发明的方法中,无论在哪个SN比电平下,都能得到相当高的对话对方检测性能。因此,确认到本发明是有效的。另外,在以上的说明中,说明了激励分离单元130在不同方向分离音信号的情况。另外,激励分离单元130也可以使用独立成分分析(ICA :Ind印endent Component Analysis)等其他激励分离方法来分离音信号。另外,激励分离单元130也可以在不同方向仅求出每个频带的能量大小,根据不同方向的能量进行语音检测,进行同样的动作。另外,本实施方式也可以设置识别说话人的说话人识别部,当在相同方向存在多个说话人时,能够将每个说话人分离。(实施方式2)在本实施方式中,着眼于笑声的重叠,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先,说明本发明人着眼于笑声的重叠的情况。在日常的非正式对话中,伴随有笑声而进行交谈的情况较多。笑声是有音的。因此,在现有技术的根据能量进行有音判定仅通过有音/无音的组合来求出对话成立度的方法中,在同时出现笑声时,对话成立度降低。因此,在现有方法中,具有难以准确地区分对话对方与非对话对方的问题。本实施方式解决上述问题。本发明人为了分析实际的日常对话中的笑声出现时机,根据拾取了日常对话的9 组对话数据,确认了笑声/发言/无音(既不是发言也不是笑声的沉默区间)在时间上以何种程度重叠。对每个说话人拾取该对话数据,通过试听,赋予了笑声/发言/无音的发言区间的标签。图10表示对话对方的发言/笑声/无音的重叠持续长度合计(msec),图11表示非对话对方的发言/笑声/无音的重叠持续长度合计(msec)。对它们进行比较可知对话对方的笑声的重叠比非对话对方多。图12表示根据这些数据、对于发言/笑声/无音的重叠的组合、计算其为对话对方的比例而得到的结果。由图12可知,在笑声重叠的情况下,其为对话对方的比例非常高, 达到92.观%,远远高于一方发言、另一方无音时为对话对方的比例(62. 23%,57. 48% )0 因此,可以说笑声的重叠是表示日常对话的特征量,判定是否为对话对方的重要参数。因此,在本实施方式中,除了仅有音/无音的组合以外,还着眼于笑声的重叠来计算对话成立度。作为对话成立度的评价方法,例如使用在笑声重叠的情况下对于对话成立度进行加分等方法。与一方的说话人发言、另一方的说话人无音的情况相比,使加分的权重相同或增大。另外,由图12可知,在当一方的说话人笑时而另一方的说话人发言的情况下,其为对话对方的比例较低,为40%左右。另外,还可知,在当一方的说话人笑时而另一方的说话人无音的情况下,其为对话对方的比例为50%左右,无助于对话成立度的识别。由此,在当一方的说话人笑时而另一方的说话人发言或无音的情况下,进行小的减分或不进行加分和减分。这样,通过着眼于笑声的重叠来进行评价,能够准确地求出对话成立度。以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器中的例子。遥控型助听器的形状与图5相同,所以省略说明。图13是表示本实施方式的信号处理装置300的主要部分的结构的方框图。此外, 在图13的信号处理装置300中,对与图4的信号处理装置100相同的结构部分附加与图4 相同的标号,并省略说明。图13的信号处理装置300相对于图4的信号处理装置100,具有识别参数提取单元310及对话成立度计算单元320,以代替识别参数提取单元150及对话成立度计算单元160。识别参数提取单元310具有笑声检测单元311。笑声检测单元311判定由激励分离单元130分离的音信号是否是笑声。另外,根据音信号检测笑声的方法使用公知技术。作为公知技术,例如以往具有以下的方法。例如,在专利文献2中,将语音能量超过规定阈值的区间判定为语音区间,以帧为单位,求出rms振幅值。接着,专利文献2公开了如下方法提取其平均值超过规定阈值的区间,通过语音识别,将“哈哈”或“哈哈哈”那样相同的母音间断地连续的区间判定为笑声区间。
另外,专利文献3公开了如下方法求出母音的频带信号的包络线,在该包络线的振幅峰值为一定值以上时,判断该振幅峰值的周期是否在一定范围内。另外,非专利文献1公开了如下方法通过GMM(Gaussian Mixture Model,高斯混合模型)对笑声进行建模,以帧为单位,识别笑声和非笑声。以下,说明与非专利文献1同样地使用将预先学习的笑声GMM与非笑声GMM对照而进行检测的方法作为笑声检测方法的情况。对话成立度计算单元320使用笑声检测单元311得到的笑声区间信息、及语音检测单元140得到的语音区间信息,计算对话成立度。关于对话成立度计算单元320中的对话成立度计算方法,在后面进行叙述。图14是表示安装有本实施方式的信号处理装置300的助听器200的动作的流程图。使用图14的流程图,说明助听器200的动作。并且,在图14中,对与图7共用的步骤附加与图7相同的符号并省略其说明。在步骤S110、S120、S130中,与实施方式1相同,分别进行拾音及A/D转换、分离、
语音检测。在步骤S130之后,在步骤S210中,笑声检测单元311对于音信号Sk进行笑声/非笑声判定。首先,笑声检测单元311在帧t中将帧t的特征参数矢量与预先学习的笑声GMM 及非笑声GMM进行对照,求出笑声似然及非笑声似然。特征参数矢量是由以帧为单位进行音响分析而得到的MFCC12维(Cl C12)、其一元线性回归系数12维(ACl AC12)、对数能量的一元线性回归系数1维(ΔΕ)的合计25维构成的矢量。另外,MFCC(Mel Filter Cepstral Coefficient)表示Mel滤波器组倒谱系数。并且,笑声检测单元311分别累积过去N帧(例如、N =50)的笑声似然及非笑声似然,将蓄積结果较大的一方作为判定结果。 通过笑声检测单元311累积N帧的似然,进行判定,从而可提高识别性能。在步骤S220中,对话成立度计算单元320对于前方的音信号Sl与除了前方以外
的7个方向的音信号(1^方向,1^ = 2,3,......,8)的各个组合,计算音信号Sl与音信号
Sk的对话成立度。图15是表示基于发言/笑声/无音的组合的对话成立度计算方法的思路的表。Sl 表示存在用户的声音的方向1的音信号,Sk表示方向k(k = 2,3,......,8)的音信号。这里,“发言”、“无音”及“笑声”定义如下。“发言”语音检测结果为语音且笑声检测结果为非笑声的帧“无音”语音检测结果为非语音且笑声检测结果为非笑声的帧“笑声”与语音检测结果无关,笑声检测结果为笑声的帧在本实施方式中,对话成立度计算单元320例如使用式( 计算帧t中的对话成立度CuU)。Clj k(t) = SCljk(t)/t. . . (5)t=0时SClj k(t) = 0t>0时SC1,k(t) = SClik(t-1)-K11 (在帧 t 中 Sl 为发言、Sk 为发言时)= 3(1,1^-1)-1(12(在帧{中Sl为发言、Sk为笑声时)
= SCuk(t-D+u (在帧t中Sl为发言、Sk为无音时)
= SCukα-ι)-κ12 (在帧t中Sl为笑声、Sk为发言时)
= SCuk(t-D+Kd 在帧t中Sl为笑声、Sk为笑声时)
= SCuk(t-D (在帧t中Sl为笑声、Sk为无音时)
= SCuk(t-D+u (在帧t中Sl为无音、Sk为发言时)
= SCuk(t-i)(在帧t中Sl为无音、Sk为笑声时)
= SCuk(t-l)-Kltl (在帧t中Sl为无音、Sk为无音时)其中,0彡 K12 彡 K11 彡 K22,0 彡 K00。另外,在帧t中,对于所有方向的激励,在无音持续了一定时间的时刻,进行初始化。另外,对话成立度也可以丢弃很早以前的数据而使用适应于最新状况的时间常数来求取。并且,对话成立度计算单元320将计算出的对话成立度输出至对话对方判定单元 170。以后,与实施方式1相同,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。如上所述,在本实施方式中,采用识别参数提取单元310具有笑声检测单元311的结构。笑声检测单元311检测笑声,对话成立判定单元320评价着眼于笑声的重叠的对话成立度。由此,在本实施方式中,能够准确地求出对话成立度,因此能够准确地检测对话的成立,从而能够准确地判定对话对方。另外,在以上的说明中,将语音检测单元140与笑声检测单元311作为不同结构进行了说明,但是,也可以设置将输入信号划分为发言/笑声/无音这三个的语音笑声检测单兀。(实施方式3)在本实施方式中,着眼于说话人的发言比率,计算对话成立度。在说明本实施方式的具体的结构及动作之前,首先说明本发明人着眼于说话人的发言比率的情况。在现有技术中,如果一方的说话人是有音、另一方的说话人是无音,则对于对话成立度进行加分,因此在一方的说话人的声音一直存在的情况下,也会视为对话成立。在会议等进行对话的场合下,在找到对话对方时,也可以使用现有的方法。但是,在像助听器那样由用户始终随身佩带着可佩带式麦克风的状况下,用户的自言自语、并非与自己说话的别人的声音往往会一直输入到麦克风中,缺乏实用性。本实施方式解决上述问题。在本实施方式中,检测自己或对方中的哪一方在单独说话的情况,在检测到“单方地说话”的情况下,降低对话成立度。并且,作为检测“单方地说话”的方法,在本实施方式中,求出自己与对话对方的发言区间比,将该发言区间比极端失衡的情况判断为“单方地说话”。这里,通过下式(6)来定义音信号Sl与音信号Sk(k:方向,k = 2,3,......,8)的
发言区间比Rb1,k。发言区间比Rblik =(过去N秒中的Sl的发言区间的持续长度和)/(过去N秒中的Sl的发言区间的持续长度和+过去N秒中的Sk的发言区间的持续长度和)(6)本发明人为了分析在实际的日常对话中以何种程度出现一个说话人持续说话的
16单方地说话,根据拾取日常对话而得到的9组对话数据,改变时间窗口的长度(时间窗口长度),求出了上述发言区间比。图16是表示某一组的对话的每个时间窗口长度的发言区间比Rb的推移的例子的曲线图。横轴表示从对话开始时起的经过时间,纵轴表示发言区间比。时间窗口长度N分别表示5秒、10秒、20秒、30秒。其结果,本发明人着眼于如下情况在以N= 10秒左右的时间窗口来看时,两个说话人间的发言区间比随着时间经过而变化,但是无论对于哪个对话, 发言区间比都大致收敛于10% 90%的范围内。因此,在本实施方式中,根据过去N秒的发言区间比的值,对于对话成立度乘以小于1的权重,由此抑制“单方地说话”。以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器中的例子。遥控型助听器的形状与图5相同,所以省略说明。图17是表示本实施方式的信号处理装置400的主要部分的结构的方框图。此外, 在图17的信号处理装置400中,对与图4的信号处理装置100相同的结构部分附加与图4 相同的标号,并省略说明。图17的信号处理装置400相对于图4的信号处理装置100而言, 具有识别参数提取单元410及对话成立度计算单元420,以代替识别参数提取单元150及对话成立度计算单元160。 识别参数提取单元410具有发言比率计算单元411。发言比率计算单元411根据在语音检测单元140中计算出的语音区间信息,计算发言区间比率,作为发言比率信息。对话成立度计算单元420根据在语音检测单元140中计算出的语音区间信息、以及在发言比率计算单元411中计算出的发言区间比率,求出对话成立度。关于对话成立度计算单元420中的对话成立度计算方法,在后面进行叙述。图18是表示安装有本实施方式的信号处理装置400的助听器200的动作的流程图。使用图18的流程图,说明助听器200的动作。并且,在图18中,对与图7共用的步骤附加与图7相同的符号并省略其说明。在步骤S110、S120、S130中,与实施方式1相同,分别进行拾音及A/D转换、分离、
语音检测。在本实施方式中,与实施方式1同样,语音检测单元140将判定为语音的区间定义为发言区间。接着,对于前方的音信号Sl与除了前方以外的7个方向的音信号Sk(方向k = 2, 3,......,8)的各个组合,进行步骤S310及步骤S320的处理。在步骤S310中,发言比率计算单元411求出从帧t起过去N秒(N = 10)的区间内的音信号Sl与音信号Sk的发言区间比Rb1,k,并输出到对话成立度计算单元420。接着,在步骤S320中,对话成立度计算单元420计算音信号Sl与音信号Sk的对话成立度。在本实施方式中,对话成立度计算单元420例如按照式(7)求出帧t中的对话成立度C1Jt)。Cljk(t) = SCljk(t)/tXw(Rbljk). . . (7)w(Rbljk) = IORbljk(Rbljk < 0. 1)
=1 (0. 1 彡 Rbljk <0. 9)
=IO-IORbljk (Rbljk ^ 0. 9)
t = 0时
SC1Jt)=0
t > 0时
SC1Jt)=scua-i)-K11 (在帧t中Sl为发言、1为发言时)
=SC1^a-I)-Kcitl (在帧 t 中 Sl 为无ιIdk为无音时)
=SC1^a-I)+Ktll (在帧t中Sl为发言、Sk为无音时)
=SC1^a-I)+Ktll (在帧 t 中 Sl 为无IIdk为发言时)其中,0彡 K。。,0 彡 K01,0 彡 Kn。这样,在本实施方式中,在发言区间比失衡至小于10%或90%以上时,通过乘以小于1的权重,能够抑制“单方地说话”。另外,此次是如上述那样设计了 N = 10,权重w(Rb1, k),但不限于此。并且,对话成立度计算单元420将计算出的对话成立度输出至对话对方判定单元 170。以后,与实施方式1相同,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。如上所述,在本实施方式中,采用识别参数提取单元410具有发言比率计算单元 411的结构。发言比率计算单元411根据语音区间信息,计算发言区间比率,作为发言比率信息,对话成立度计算单元420使用语音区间信息及发言比率信息,计算对话成立度。具体而言,发言比率计算单元411在自己与对方的发言区间比极端失衡的情况下以使对话成立度降低的方式设定发言区间比Rbu。接着,对话成立度计算单元420使用该发言区间比Rb1, k,计算对话成立度。由此,在像助听器那样日常佩带的设备中,不会出现因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等导致的误动作,能够准确地检测对话的成立, 从而能够准确地判定对话对方。(实施方式4)在本实施方式中,着眼于发言的重叠或沉默的持续长度、笑声的重叠、及说话人的发言比率,计算对话成立度。以下说明本实施方式的信号处理装置的内部结构。本实施方式为与实施方式1同样地将本发明应用于遥控型助听器的例子。遥控型助听器的形状与图5相同,所以省略说明。图19是表示本实施方式的信号处理装置500的主要部分的结构的方框图。另外, 在图19的信号处理装置500中,对与图4、图13及图17的信号处理装置100、300、400相同的结构部分附加与这些图相同的标号,并省略说明。图19的信号处理装置100相对于图4 的信号处理装置100而言,具有识别参数提取单元510及对话成立度计算单元520,以代替识别参数提取单元150及对话成立度计算单元160。识别参数提取单元510具有发言重叠持续长度分析单元511、沉默持续长度分析单元512、笑声检测单元311及发言比率计算单元513。另外,在本实施方式中,由笑声检测单元311得到的笑声区间信息也被输入到发言重叠持续长度分析单元511、沉默持续长度分析单元512及发言比率计算单元513。并且,在发言重叠持续长度分析单元511、沉默持续长度分析单元512及发言比率计算单元513 中,笑声区间信息与来自语音检测单元140的语音区间信息一起用于发言重叠持续长度分析、沉默持续长度分析及发言比率计算。本实施方式的这一点与实施方式1及实施方式3 的发言重叠持续长度分析单元151、沉默持续长度分析单元152及发言比率计算单元411不同。图20是表示安装有本实施方式的信号处理装置500的助听器200的动作的流程图。使用图20的流程图,说明助听器200的动作。并且,在图20中,对与图14共用的步骤附加与图14相同的符号并省略其说明。在步骤S110、S120、S130、S210中,与实施方式2同样,分别进行拾音及A/D转换、
分离、语音检测、笑声/非笑声判定。接着,对于前方的音信号Sl与除了前方以外的7个方向的音信号Sk(方向k = 2, 3,......,8)的各个组合,进行步骤S410、S420、S430的处理。这里,在本实施方式中,与实施方式2同样,将“发言”、“无音”及“笑声”定义如下。“发言”语音检测结果为语音且笑声检测结果为非笑声的帧“无音”语音检测结果为非语音且笑声检测结果为非笑声的帧“笑声”与语音检测结果无关,笑声检测结果为笑声的帧基于该发言/笑声/无音的分类,在步骤S410中,发言重叠持续长度分析单元511 求出不包含音信号Si和音信号Sk的笑声的发言区间的重叠的持续长度,进行分析。另外, 沉默持续长度分析单元512基于该发言/笑声/无音的分类,求出不包含笑声的沉默区间的持续长度,进行分析。接着,在步骤S420中,发言比率计算单元513计算不包含音信号Sl和音信号Sk 的笑声的发言区间的比率。接着,在步骤S430中,对话成立度计算单元520计算音信号Sl与音信号Sk的对话成立度。在本实施方式中,对话成立度计算单元520例如按照式(8)求出帧t中的对话
成立度Ci,k(t)o
C1^a)={SCljk(t)/t+wl · Pc (t) +w2 · Ps (t)} Xw(Rbljk). . . (8)
W(Rblik)==IORbljk (Rbljk < 0. 1)
=1 (0· 1 彡 Rbljk < 0. 9)
=I-IORbljk (Rbljk ^ 0. 9)
t = 0时
SC1Jt)=0
t > 0时
SC1Jt)=SUt-l)-K11 (在帧t中Sl为发言、Sk为发言时)
=SC1Jt-I)-K12 (在帧t中Sl为发言、Sk为笑声时)
=SCljk (t-1) +K01 (在帧t中Sl为发言、Sk为无音时)
=SClik (t-1)-K12 (在帧t中Sl为笑声、Sk为发言时)
= SCua--1) +K22 (在帧t中Sl为笑声、Sk为笑声时)
=SCljk(t-l)(在帧t中Sl为笑声、Sk为无音时)
= SCua--1) +K01 (在帧t中Sl为无音、Sk为发言时)
= SCljk(t-l)(在帧t中Sl为无音、Sk为笑声时)= SC1, Jt-D-K1。(在帧t中Sl为无音、Sk为无音时)其中,0彡 K12 彡 K11 彡 K22,0 彡 K00。并且,对话成立度计算单元520将计算出的对话成立度输出到对话对方判定单元 170。以后,与实施方式1同样,在步骤S160中,对话对方判定单元170判定对话对方。另外,在步骤S170中,输出控制单元180控制输出音。如上所述,采用识别参数提取单元510具有发言重叠持续长度分析单元511、沉默持续长度分析单元512、及笑声检测单元311的结构。对话成立度计算单元520使用发言重叠持续长度、沉默持续长度、表示笑声区间的笑声区间信息、或表示发言区间长度比率的发言比率信息,计算对话成立度。因此,本实施方式能够对利用日常对话所特有的串扰或笑声出现的特征的对话成立度进行评价,即使在非正式的日常对话中,也能准确地求出对话成立度。由此,在本实施方式中,能够准确地检测对话的成立,从而能够准确地判定对话对方。特别是,在本实施方式中,发言重叠持续长度分析单元511及沉默持续长度分析单元512考虑笑声区间信息,计算发言重叠持续长度及沉默持续长度。由此,本实施方式能够准确地提取不包含笑声的发言区间,因此,能够准确地求出发言重叠及沉默的区间的持续长度,从而能够更准确地求出对话成立度。另外,本实施方式通过在识别参数提取单元510中设置发言比率计算单元513,能够抑制“单方地说话”。由此,在像助听器那样日常佩带的设备中,不会出现因佩带人自己的自言自语、佩带人自己未对话时的别人的声音等导致的误动作。在实施方式1至实施方式4中,假定将本发明应用于遥控型助听器中的情况进行了说明,但是也能将本发明应用于使用耳挂型或耳塞型等可佩带型麦克风的助听器中。在可佩带型麦克风中,与遥控型助听器不同,很难通过使麦克风阵列的规定方向朝向用户来对用户的声音进行分离拾音。因此,本发明能够应用于专利文献4公开的在助听器中附加骨传导麦克风来检测自身发言引起的头盖骨振动、由此检测用户的声音的方法中。或者,能够通过将本发明应用于安装头带式麦克风来检测嘴边的语音的方法等中,检测自身发言。 另外,本实施方式也可以不设置激励分离单元,而是按照每个短时间,仅判定是否存在用户的自身发言及除此以外的音是否为语音求出用户和其他说话人的对话成立度。另外,作为面向其他用途的应用,可将本发明应用于录音机、数字照相机、摄像机、 电话会议系统等中。在录音机、数字照相机、摄像机等数字记录设备中,能够抑制希望记录的对话以外的别人的对话等干扰音,来进行记录。或者,本发明也可以记录基于麦克风阵列的所有输入声音,然后提取对话成立度高的组合的对话,对希望的对话进行重放。另外,在电话会议系统中,当仅在一方的位置的附近有进行其他会议等的干扰音时,提取从另一方的安静位置发送来的对话对方的声音,抑制除此以外的声音,由此能够顺畅地进行会议。另外,当在两个位置都具有干扰音的情况下,例如检测输入到麦克风中的最大声音,找到其对话对方,抑制除此以外的声音,由此能够得到同样的效果。在2010年2月25日提交的特愿第2010-039698号的日本专利申请所包含的说明书、附图和说明书摘要的公开内容,全部引用于本申请。工业实用性本发明的信号处理装置及信号处理方法作为助听器、或录音机、数码照相机、摄像
20机、电话会议系统等各种领域中的信号处理装置是有用的。
权利要求
1.信号处理装置,包括分离单元,将混入了多个激励的混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;使用所述语音区间信息来计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析所述沉默持续长度的沉默持续长度提取单元中的至少一个单元;以及对话成立度计算单元,基于提取出的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度。
2.信号处理装置,在权利要求1所述的信号处理装置中,替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元而具备笑声检测单元,所述笑声检测单元对所述分离出的多个激励信号的各个激励信号进行笑声检测并提取笑声区间信息作为所述识别参数,所述对话成立度计算单元对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息,计算所述对话成立度。
3.信号处理装置,在权利要求1所述的信号处理装置中,替代所述发言重叠持续长度提取单元或所述沉默持续长度提取单元而具备发言比率计算单元,所述发言比率计算单元对于所述多个激励信号的组合提取发言比率信息作为所述识别参数,所述对话成立度计算单元使用所述语音区间信息及所述发言比率信息,计算所述对话成立度。
4.如权利要求1所述的信号处理装置,所述提取单元在所述发言重叠持续长度分析单元及所述沉默持续长度分析单元中的至少一个单元中提取所述发言重叠持续长度或所述沉默的持续长度的长短的比例,作为所述识别参数。
5.如权利要求1所述的信号处理装置,所述提取单元在所述发言重叠持续长度分析单元及所述沉默持续长度分析单元中的至少一个单元中,提取所述发言重叠持续长度或所述沉默的持续长度的平均值,作为所述识别参数。
6.如权利要求2所述的信号处理装置,所述对话成立度计算单元在所述多个激励信号中同时检测到笑声的情况下,提高所述对话成立度。
7.如权利要求2所述的信号处理装置,所述对话成立度计算单元在所述多个激励信号中,在第一激励信号检测到笑声,在第二激励信号未检测到笑声的情况下,不改变所述第一激励信号和所述第二激励信号的所述对话成立度,或者降低所述对话成立度。
8.如权利要求3所述的信号处理装置,所述发言比率计算单元将所述多个激励信号中的、过去一定时间窗口内的第一激励信号和第二激励信号的发言区间比作为所述发言比率信息。
9.信号处理装置,包括分离单元,将混入了多个激励的混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;提取单元,基于所述多个激励信号或所述语音区间信息,提取表示日常对话的特征量的识别参数;以及对话成立度计算单元,基于提取出的所述识别参数,计算表示对话成立的程度的对话成立度,所述提取单元包括笑声检测单元,对所述分离出的多个激励信号的各个激励信号进行笑声检测,提取笑声区间信息;对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息来计算并分析用于表示发言重叠的连续区间的长度的发言重叠持续长度的发言重叠持续长度分析单元和计算并分析用于表示沉默的连续区间的长度的沉默持续长度的沉默持续长度分析单元中的至少一个单元;以及发言比率计算单元,对于所述多个激励信号的组合,提取发言比率信息,提取所述发言重叠持续长度、所述沉默持续长度、所述笑声区间信息、或所述发言比率信息作为所述识别参数。
10.信号处理装置,包括麦克风阵列,配置有多个麦克风;A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;如权利要求1所述的信号处理装置,将数字区域的所述混合音信号作为输入;以及输出音控制单元,根据所述对话成立度,对数字区域的所述混合音信号进行加工并输出ο
11.如权利要求10所述的信号处理装置,所述输出音控制单元通过指向性控制对数字区域的所述混合音信号进行加工并输出。
12.助听器,包括麦克风阵列,配置有多个麦克风;A/D转换单元,将从所述麦克风阵列输入了的模拟区域的混合音信号转换成数字区域的信号;分离单元,将所述转换后的数字区域的所述混合音信号分离为各个激励;语音检测单元,对所述分离出的多个激励信号的各个激励信号进行语音检测,判定所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;对于所述多个激励信号的组合,使用所述语音区间信息计算并分析发言重叠持续长度的发言重叠持续长度提取单元和计算并分析所述沉默持续长度的沉默持续长度提取单元中的至少一个单元;对话成立度计算单元,基于提取出的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度;以及输出音控制单元,根据所述对话成立度,对数字区域的所述混合音信号进行加工并输出ο
13.记录介质,记录下述步骤将混入了多个激励的混合音信号分离为各个激励的步骤;对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息的步骤;对于所述多个激励信号的组合,使用所述语音区间信息来计算并分析发言重叠持续长度的步骤和计算并分析所述沉默持续长度的步骤中的至少一个步骤;以及基于提取出的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度的步骤。
14.信号处理方法,包括分离步骤,将混入了多个激励的混合音信号分离为各个激励; 语音检测步骤,对所述分离出的多个激励信号的各个激励信号进行语音检测,判断所述多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息;对于所述多个激励信号的组合,使用所述语音区间信息来计算并分析发言重叠持续长度的步骤和计算并分析所述沉默持续长度的步骤中的至少一个步骤;以及计算步骤,基于提取出的所述发言重叠持续长度或所述沉默持续长度,计算表示对话成立的程度的对话成立度。
15.如权利要求14所述的信号处理方法,所述提取步骤包括笑声检测步骤,对所述分离出的多个激励信号的各个激励信号进行笑声检测,提取笑声区间信息;对于所述多个激励信号的组合,使用所述语音区间信息及所述笑声区间信息来计算并分析用于表示发言重叠的连续区间的长度的发言重叠持续长度的发言重叠持续长度分析步骤和计算并分析用于表示沉默的连续区间的长度的沉默持续长度的沉默持续长度分析步骤中的至少一个步骤;以及发言比率计算步骤,对于所述多个激励信号的组合,提取发言比率信息, 提取所述发言重叠持续长度、所述沉默持续长度、所述笑声区间信息、或所述发言比率信息作为所述识别参数。
全文摘要
本发明提供了即使在日常的环境下也能准确地检测对话的成立的信号处理装置及信号处理方法。在信号处理装置(100)中,激励分离单元(130)将混入了多个激励的混合音信号分离为各个激励。语音检测单元(140)对分离出的多个激励信号的各个激励信号进行语音检测,判断多个激励信号是否为语音,对每个激励信号生成表示语音/非语音信息的语音区间信息。识别参数提取单元(150)基于多个激励信号或语音区间信息,提取表示日常对话特征量的识别参数。对话成立度计算单元(160)基于提取出的所述识别参数,计算并输出对话成立度。对话对方判定单元(170)使用对话成立度,判定哪个激励是对话对方。
文档编号G10L15/10GK102388416SQ20118000170
公开日2012年3月21日 申请日期2011年1月24日 优先权日2010年2月25日
发明者山田麻纪, 水岛考一郎, 远藤充 申请人:松下电器产业株式会社
信号处理装置及信号处理方法
相关推荐
专利名称:带独立阻光装置卡片式暗盒的制作方法技术领域:本实用新型属一种用于放射投照技术学上的摄片标记装置,特别是一种带有独特阻光装置的卡片式暗盒装置。目前采用的摄片标记办法是用铅字作成的编号标记,包括年、月、日、片号等编好固定在胶布上,然后
专利名称:微光刻的投射物镜、具有所述投射物镜的微光刻投射曝光装置、部件的微光刻制造方法以 ...的制作方法微光刻的投射物镜、具有所述投射物镜的微光刻投射曝光装置、部件的微光刻制造方法以及使用该方法制造的部件本发明涉及微光刻应用的投射物镜。进
专利名称:均匀散射介质承接彩色三维全息图像的光强分布优化方法及其显示系统的制作方法技术领域:本申请涉及一种利用均勻散射介质再现光电空间影像的方法及显示系统,具体的,涉及一种针对均勻散射介质散射透射特性来设计计算全息图像的方法及其显示系统。背
专利名称:光电连接器的制作方法技术领域:光电连接器技术领域:本实用新型涉及一种光电连接器,尤其是一种具有光元件的光电连接器。背景技术:美国专利第6481902号揭示了一种光传送装置,此装置包括具有插头的光纤电缆与具有将光纤电缆之插头插入之插
专利名称:交直流两用冲击式电铃的制作方法技术领域:本实用新型涉及一种电铃,特别是一种可以交直流两用的铃体外冲击式电铃。现在常用的大多数是交流电铃,采用交流电铃,在遇到断电停电时,势必影响学校、机关等单位的工作和学习,为了避免这种影响,有时只
专利名称:掩模版原片的质量检测系统和方法技术领域:本发明涉及半导体制造技术领域,特别涉及一种掩模版原片的质量检测系统和方法。 背景技术:在集成电路制造过程中,光刻工艺根据电路设计图在半导体晶片上定义集成电路 的图案。通常,首先根据电路设计图