专利名称:一种电话及在该电话中处理音频信号的方法
技术领域:
本发明主要涉及移动通信设备,更具体地说,涉及一种无线电话。
背景技术:
背景噪声是无线电话通信中的固有问题。常规的无线电话包括一个麦克风,它用于接收近端用户的语音,并输出相应的音频信号,供随后编码并传送到远端用户的电话。但是,这种麦克风输出的音频信号通常包括语音分量和背景噪声分量。结果使得远端用户经常很难将想要听清的语音分量从混杂的背景噪声分量中分辨出来。
常规的无线电话通常包括噪声抑制器,用来减小背景噪声的不利影响。噪声抑制器通过各种算法对麦克风输出的音频信号进行处理,以降低背景噪声的水平。这些算法用于分辨音频信号的语音分量和音频信号的背景噪声分量,然后减弱背景噪声分量的水平。
常规的无线电话通常还包括语音活动检测器(VAD),它用于分辨、且仅传送音频信号中包括语音分量的那部分。采用VAD的一个好处是,由于只传送音频信号中被选择的一部分,因而可节约无线电通讯网络的带宽。
为了更有效地运作,噪声抑制器和VAD必须都能够分辨输入音频信号的语音分量和背景噪声分量。但是,实际上,将背景噪声分量与声音分量区分开来是很困难的。
因此,需要一种与常规的无线电话相比能够更好地减弱出现在输入音频信号中的背景噪音的无线电话,以便在电话通信中传送更清晰的语音信号。尤其是,与常规的无线电话相比,理想的无线电话应该能更好地区分输入音频信号中的语音分量和背景噪声分量。根据这种对语音分量和背景噪声分量的区分,改进后的无线电话可以消除音频信号中的背景噪声分量。另外,根据这种区分,改进后的无线电话应该提供更好的噪声抑制功能和/或VAD功能。
发明内容
本发明涉及一种带有第一麦克风和第二麦克风的无线电话,其中第二麦克风输出的音频信号被用来区分第一麦克风输出的音频信号的语音分量与背景噪声分量。基于这种区分,根据本发明实施例的无线电话可消除第一麦克风输出的音频信号中的背景噪声分量。另外,基于这种区分,根据本发明实施例的无线电话可提供更好的噪声抑制功能和VAD功能。
特别地,根据本发明实施例的无线电话包括第一麦克风、第二麦克风和信号处理器。第一麦克风输出包括语音分量和背景噪音分量的第一音频信号。第二麦克风输出第二音频信号。信号处理器根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
在本发明的一个实施例中,信号处理器包括背景噪声消除模块。背景噪声消除模块接收第一和第二音频信号,并根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪声,从而产生第三音频信号。
在本发明的选择性实施例中,信号处理器包括噪声抑制器。噪声抑制器接收第一和第二音频信号,并根据第一音频信号和第二音频信号的内容,抑制第一音频信号的至少一部分背景噪声分量,从而产生第三音频信号。
在本发明的另一个实施例中,无线电话包括第一麦克风、第二麦克风和语音活动检测器(VAD)。第一麦克风输出包括语音分量和背景噪音分量的第一音频信号。第二麦克风输出第二音频信号。VAD接收第一和第二音频信号,并根据第一音频信号和第二音频信号的内容,检测第一音频信号中出现语音分量的时间段。在一个例子中,VAD向发射器提供输入,该输入是与第一音频信号中出现语音分量的时间段相关的信息。发射器选择性地将第一音频信号传送到对输入做出响应的另一个电话。
本发明还提供了一种在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法。在实施例中,所述方法包括从第一麦克风中输出第一音频信号,其中第一音频信号包括语音分量和背景噪声分量。第二麦克风输出第二音频信号。根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
增加语音分量与背景噪声分量的比率可包括根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪声分量,从而产生第三音频信号。选择性地,增加语音分量与背景噪声分量的比率可包括根据第一音频信号和第二音频信号的内容,抑制第一音频信号的至少一部分背景噪声分量。
根据本发明的实施例,处理带有第一麦克风和第二麦克风的无线电话中的音频信号的另一种方法包括从第一麦克风中输出第一音频信号,其中第一音频信号包括语音分量和背景噪声分量。从第二麦克风输出第二音频信号。根据第一音频信号和第二音频信号的内容,检测在第一音频信号中出现语音分量的时间段。
根据本发明的一个方面,提供一种无线电话,包括用于输出第一音频信号的第一麦克风,所述第一音频信号包括语音分量和背景噪声分量;用于输出第二音频信号的第二麦克风;以及信号处理器,用于根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
优选地,所述第一麦克风设置在无线电话的第一部分上,第二麦克风设置在无线电话的第二部分上,使得在在常规使用无线电话的过程中,第一麦克风比第二麦克风距用户的嘴部更近。
优选地,所述信号处理器包括背景噪声消除模块,所述背景噪声消除模块接收第一和第二音频信号,并根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪音,从而产生第三音频信号。
优选地,所述背景噪声消除模块包括用于滤波第二音频信号的自适应滤波器;以及加法器,用于将滤波后的第二音频信号与第一音频信号相加,从而消除第一音频信号的至少一部分背景噪声分量。
优选地,所述电话还包括与第一麦克风相连的第一模数(A/D)转换器,在背景噪声消除模块接收第一音频信号之前,所述第一模数转换器将第一音频信号从模拟格式转换成数字格式;以及与第二麦克风相连的第二模数(A/D)转换器,在背景噪声消除模块接收第二音频信号之前,所述第二模数转换器将第二音频信号从模拟格式转换成数字格式。
优选地,在将第一音频信号和第二音频信号提供给背景噪声消除模块之前,所述第一和第二模数转换器以第一取样率分别对第一音频信号和第二音频信号取样,以及其中背景噪声消除模块包括向下取样器,所述向下取样器以第二取样率对第三音频信号向下取样,其中第二取样率低于第一取样率。
优选地,所述信号处理器还包括噪声抑制器,所述噪声抑制器接收第二和第三音频信号,并根据第二音频信号和第三音频信号的内容,抑制第三音频信号的至少一部分剩余背景噪声分量,从而产生第四音频信号。
优选地,所述噪声抑制器通过调整与第三音频信号相应的频谱,抑制至少一部分剩余背景噪声分量。
优选地,所述电话还包括用于滤波第三音频信号、从而产生第四音频信号的自适应滤波器;加法器,用于将第二音频信号与第四音频信号相加,从而消除第二音频信号的至少一部分语音分量,从而产生第五音频信号;以及噪声抑制器,用于接收第三音频信号和第五音频信号,并根据第三音频信号和第五音频信号的内容,抑制第三音频信号的至少一部分剩余背景噪声分量,从而产生第六音频信号。
优选地,所述信号处理器包括噪声抑制器,所述噪声抑制器接收第一和第二音频信号,并根据第一音频信号和第二音频信号的内容,抑制第一音频信号的至少一部分背景噪声分量,从而产生第三音频信号。
优选地,所述无线电话还包括
语音活动检测器(VAD),接收第二和第三音频信号,并根据第二音频信号和第三音频信号的内容,检测在第三音频信号中出现语音分量的时间段。
优选地,所述语音活动检测器将输入提供给发射器,该输入与第三音频信号出现语音分量的时间段相关;以及其中所述发射器选择性地将第三音频信号发送给对输入做出响应的另一个电话。
优选地,所述语音活动检测器通过监测第二音频信号与第三音频信号的能量比来检测所述时间段。
根据本发明的一个方面,提供一种在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法,所述方法包括从第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量;从第二麦克风输出第二音频信号;以及根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
优选地,增加的步骤包括根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪音,从而产生第三音频信号。
优选地,根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪音包括使用自适应滤波器滤波第二音频信号;以及将滤波后的第二音频信号与第一音频信号相加,从而消除第一音频信号的至少一部分背景噪声分量。
优选地,所述方法还包括在消除步骤之前,将第一和第二音频信号中的每一个都从模拟格式转换成数字格式。
优选地,将第一和第二音频信号中的每一个都从模拟格式转换成数字格式包括以第一取样率对第一和第二音频信号取样,其中所述方法还包括以第二取样率对第三音频信号向下取样,其中第二取样率低于第一取样率。
优选地,所述增加的步骤包括根据第一音频信号和第二音频信号的内容,抑制第一音频信号的至少一部分背景噪声分量,从而产生第三音频信号。
优选地,所述方法还包括根据第二音频信号和第三音频信号的内容,抑制第三音频信号的至少一部分剩余背景噪声分量,从而产生第四音频信号。
优选地,所述抑制步骤包括通过调整与第三音频信号相应的频谱,抑制至少一部分剩余背景噪声分量。
优选地,所述方法还包括根据第二音频信号和第三音频信号的内容,检测在第三音频信号中出现语音分量的时间段。
优选地,所述方法还包括在第三音频信号中出现语音分量的时间段,选择性地将第三音频信号发送到另一个电话。
根据本发明的一个方面,提供一种有线电话,包括用于输出第一音频信号的第一麦克风,所述第一音频信号包括语音分量和背景噪声分量;用于输出第二音频信号的第二麦克风;以及信号处理器,用于根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
根据本发明的一个方面,提供一种带有耳麦的电话(headset telephone),包括设有第一麦克风的耳麦(headset),所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量;设有第二麦克风及信号处理器的听筒(handset),所述第二麦克风输出第二音频信号;所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
根据本发明的一个方面,提供一种带有耳麦的电话,包括设有第一麦克风的耳麦,所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量,所述耳麦设有第二麦克风,所述第二麦克风输出第二音频信号;以及设有信号处理器的听筒,所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
根据本发明的一个方面,提供一种带有耳麦的电话,包括设有第一麦克风的耳麦,所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量,所述耳麦设有第二麦克风,所述第二麦克风输出第二音频信号;以及所述耳麦设有信号处理器,所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
优选地,所述耳麦是蓝牙耳麦。
本发明的更多实施例和特征,以及本发明的各实施例的结构和操作过程,都将参照附图在以下详述。
附图合并在此并构成说明书的一部分,示出了本发明,并同描述一起,进一步解释了本发明的原理,使本领域的技术人员能够实施并利用本发明。
图1A是常规无线电话的发射信道的功能模块框图。
图1B是常规无线电话的接收信道的功能模块框图。
图2是根据本发明实施例的无线电话的前面部分的示意图。
图3是根据本发明实施例的无线电话的背面部分的示意图。
图4是根据本发明实施例的无线电话的发射信道的功能模块框图。
图5是根据本发明实施例的在带第一麦克风和第二麦克风的无线电话中处理音频信号的方法的流程图。
图6是根据本发明实施例的信号处理器的功能模块框图。
图7是根据本发明实施例的在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法的流程图。
图8示出了根据本发明实施例的从第一麦克风和第二麦克风中输出的语音和噪声分量的示意图。
图9是根据本发明实施例的背景噪声消除模块的功能模块框图。
图10是根据本发明实施例的信号处理器的功能模块框图。
图11是根据本发明实施例的在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法的流程图。
图12A示出了根据本发明实施例的由第一麦克风输出的第一音频信号的语音分量和背景噪声分量的典型频谱图。
图12B示出了根据本发明实施例的经过噪声抑制处理的音频信号的典型频谱图。
图13是根据本发明实施例的无线电话的发射信道的功能模块框图。
图14是根据本发明实施例的在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法的流程图。
图15是根据本发明实施例的由无线电话的第一和第二麦克风输出的语音分量和背景噪声分量的典型图例。
以下将参照附图通过实施例对本发明进行详细描述。在附图中,相同的附图标记表示相同或功能相似的部件。另外,附图标记中最左边的数字代表首次出现该附图标记的那一幅附图的编号。
具体实施例方式
本发明提供了一种带有第一麦克风和第二麦克风的无线电话。第二麦克风输出的音频信号用来改善第一麦克风输出的音频信号的质量,和/或改善无线电话内的噪声抑制和/或VAD技术,以下将进行更详细的描述。
以下通过六个部分对本发明进行详细描述。在第一部分中,讨论常规无线电话的工作概况,这将有利于描述本发明。在第二部分中,给出了带有第一麦克风和第二麦克风的无线电话的概况。在第三部分中,论述了本发明的第一个实施例,其中利用第二麦克风的输出来消除第一麦克风输出的背景噪声分量。在第四部分中,论述了本发明的第二个实施例,其中利用第二麦克风的输出来抑制第一麦克风输出的背景噪声分量。在第五部分中,论述了本发明的第三个实施例,其中利用第二麦克风的输出来改善无线电话中的VAD技术。在第六部分中,论述了本发明的其它实施方式。
I.常规无线电话内的信号处理概况常规的无线电话使用了通常被称为编码器/解码器的技术。无线电话的发射信道对无线电话的内置麦克风所获取的音频信号进行编码。接下来,将编码音频信号发射到另一个电话。无线电话的接收信道接收其它无线电话所发射的信号。然后将接收到的信号解码成最终用户可理解的格式。
图1是常规数字无线电话的典型发射信道100的功能模块框图。发射信道100包括麦克风109、模数(A/D)转换器101、噪声抑制器102、语音活动检测器(VAD)103、语音编码器104、信道编码器105、调制器106、射频(RF)模块107以及天线108。
麦克风109接收近端用户的声音并输出对应的音频信号,该音频信号通常包括语音分量和背景噪声分量。A/D转换器101将音频信号从模拟格式转换成数字格式。接下来噪声抑制器102对音频信号进行处理。噪声抑制器102使用本领域的技术人员所了解的各种算法抑制音频信号中所混杂的背景噪声的水平。
语音编码器104将噪声抑制器102的输出转换成信道索引。语音编码器104用来编码信号的特殊格式取决于所采用的技术类型。例如,信号可编码成遵循GSM(全球移动通信标准)、CDMA(码分多址)、或无线通信常用的其它技术的格式。本领域的技术人员都了解这些不同的编码格式,为简洁起见,不再详述。
如图1A所示,VAD 103也接收噪声抑制器102的输出。VAD 103使用本领域的技术人员所知晓的算法来分析噪声抑制器102所输出的音频信号,并确定用户何时在讲话。VAD 103通常在一帧一帧的基础上工作,从而可以产生一种用于指示帧中是否包含了语音内容的信号。这种信号被提供给语音编码器104,语音编码器104使用该信号来确定怎样处理该帧。例如,如果VAD 103指示某帧中未包含语音内容,语音编码器103可不对该帧进行编码。
信道编码器105用来减少误码,这种误码会在信号经语音编码器104处理后发生。也就是,信道编码器105通过向信号添加冗余位,使信号更稳健。例如,在采用早期GSM技术的无线电话中,语音编码器输出端的典型比特率约为每秒13千比特(kb),然而,信道编码器输出端的典型比特率约为22kbps。在信道编码后出现在信号中的额外比特不携带任何语音信息;它们仅使信号更稳健,有助于减少误码。
调制器106将信道编码器输出的数字信号组合成符号串(symbols),变成模拟波形。最后,RF模块107将模拟波形变换成射频信号,然后通过天线108将RF信号发送给另一个电话。
图1B是常规无线电话的典型接收信道120的功能模块框图。接收信道120用与发射信道100相反的方式处理输入信号。如图1B所示,接收信道120包括天线128、RF模块127、解调器126、信道解码器125、语音解码器124、数模(D/A)转换器122,以及扬声器129。
在操作过程中,天线128接收模拟输入信号,RF模块127将射频转换成基带频率。解调器126将模拟波形转换成数字信号。信道解码器125将数字信号解码成信道索引(channel index),语音解码器124将信道索引转换成数字化语音。D/A转换器122将数字化语音转换成模拟语音。最后,扬声器129将模拟语音信号转换成声波,以使最终用户听到该声音。
II.根据本发明带有两个麦克风的无线电话概况根据本发明的实施例的无线电话包括第一麦克风和第二麦克风。如上面所提及且将在此更详细讨论的,第二麦克风输出的音频信号被用来改善第一麦克风输出的音频信号的质量,或用来支持改进的VAD技术。
图2和图3分别示出了根据本发明的实施例的无线电话200的前面和背面部分。如图2所示,无线电话200的前面部分包括布置在其上的第一麦克风201和扬声器203。第一麦克风201和扬声器203的位置布局使得在常规使用无线电话200的过程中,第一麦克风201靠近用户的嘴部。扬声器203靠近用户的耳部。
如图3所示,第二麦克风202位于无线电话200的背面。第二麦克风202的布置使得在常规使用无线电话201的过程中,第二麦克风201远离用户的嘴部,最好尽可能远地离开用户的嘴部。
通过设置第一麦克风201,使其在常规使用中比第二麦克风202离用户的嘴部更近,这样第一麦克风201捕获的用户声音的振幅极可能比第二麦克风202捕获的用户声音的振幅大。同样,通过这样设置第一麦克风201和第二麦克风202,第二麦克风202所捕获的任何背景噪声的振幅都极可能比第一麦克风201所捕获的背景噪声的振幅大。无线电话200利用第一麦克风201和第二麦克风202所产生信号的方式将在下面更详细描述。
在图2和图3示出的实施例中,第一和第二麦克风201和202分别设置在无线电话的前面和背面。但是,本发明并不限于这个实施例,第一和第二麦克风可布置在其它位置,且仍落入本发明的范围内。但是,为了便于实现,第一和第二麦克风的设置最好使得在常规使用无线电话的过程中,第一麦克风比第二麦克风离用户的嘴部更近。
图4是根据本发明实施例的无线电话的发射信道400的功能模块框图,其中所述无线电话包括第一麦克风和第二麦克风。发射信道400包括第一麦克风201和第二麦克风202。另外,发射信道400包括A/D转换器410、A/D转换器412、信号处理器420、语音编码器404、信道编码器405、调制器406、RF模块407以及天线408。语音编码器404、信道编码器405、调制器406、RF模块407和天线408分别与参照图1中的发射信道100所讨论的语音编码器104、信道编码器105、调制器106、RF模块107和天线108类似,因此它们的作用在下面将不再详述。
现在将参照图5中的流程500来描述在图4所示的无线电话的发射信道中处理音频信号的方法。但是,本发明并不限于流程500所提供的描述。本领域的技术人员知悉,根据本文的教导所构思的其他功能性的流程也包括在本发明的范围和精神实质内。
流程500的方法从步骤510开始,在步骤510中,第一麦克风201输出包括语音分量和背景噪声分量的第一音频信号。A/D转换器410接收第一音频信号,并在将它提供给信号处理器420之前,将它从模拟格式转换成数字格式。
在步骤520,第二麦克风202输出第二音频信号,第二音频信号也包括语音分量和背景噪声分量。A/D转换器412接收第二语音信号,并在将它提供给信号处理器420之前,将它从模拟格式转换成数字格式。
在步骤530,信号处理420接收并处理第一和第二音频信号,从而生成第三音频信号。特别地,信号处理器420根据第二音频信号的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三信号。
然后第三音频信号被直接提供给语音编码器404。语音编码器404和信道编码器405使用各种已知的语音和信道编码技术对第三音频信号进行编码。接下来调制器406、RF模块和天线408以已知的方式运作,将编码后的音频信号发送到另一个电话。
如在此将更详细讨论的,信号处理器420可包括背景噪声消除模块和/或噪声抑制器。背景噪声消除模块和噪声抑制器的工作方式将分别在第三部分和第四部分中做更详细的讨论。
III.根据本发明实施例的使用两个麦克风来消除背景噪声图6描述了一个实施例,其中信号处理器420包括背景噪声消除模块605和向下取样器615(可选择的)。背景噪声消除模块605接收分别由第一和第二麦克风201和202输出的第一和第二音频信号。背景噪声消除模块605使用第二音频信号的内容来消除出现在第一音频信号中的背景噪声分量,从而产生第三音频信号。消除过程的细节将参照图7和8在以下描述。在被发送到远端用户的电话之前,第三音频信号被发送到发射信道400的其余部分。
图7是根据本发明实施例的使用带有两个麦克风的无线电话来处理音频信号的方法的流程700图。流程700用于描述背景噪声消除模块605怎样至少部分消除第一麦克风201输出的第一音频信号中所包括的背景噪声分量。
流程700中的方法从步骤710开始,在步骤710中,第一麦克风输出第一音频信号。第一音频信号包括语音分量和背景噪声分量。在步骤720,第二麦克风202输出第二音频信号。与第一音频信号类似,第二音频信号包括语音分量和背景噪声分量。
图8示出了从第一麦克风和第二麦克风的各自典型的输出,背景噪声消除模块605可根据这些输出而操作。图8示出了第一麦克风201输出的典型第一音频信号800。第一音频信号800包括语音分量810和背景噪声分量820,它们在图8中分别示出,以便于阐释。图8还示出了第二麦克风202输出的典型第二音频信号850。第二音频信号850包括语音分量860和背景噪声分量870,它们也在图8中分别示出。如从图8中所看到的,第一麦克风201所捕获的语音分量(即语音分量810)的振幅显著地大于第二麦克风202所捕获的语音分量(即语音分量860)的振幅,对于背景噪声分量,反之亦然。如之前所讨论的,第一麦克风201和第二麦克风202所捕获的语音分量(背景噪声分量)的相对振幅是它们在无线电话200上各自位置的函数。
在步骤730(图7),背景噪声消除模块605使用第二音频信号来至少部分消除第一麦克风201所输出的第一音频信号中的背景噪声分量。最后,背景噪声消除模块605产生的第三音频信号被发射到另一个电话。也就是,在背景噪声消除模块605至少部分消除第一麦克风201所输出的第一音频信号中的背景噪声分量、生成第三音频信号之后,接下来按常规编码器/解码器技术中所使用的标准模块或处理步骤对第三音频信号进行处理,这在以上参照图1A已做过描述。为简洁起见,不再描述这些其它的信号处理步骤的细节。
在一个实施例中,背景噪声消除模块605包括自适应滤波器和加法器。图9描述了包括自适应滤波器901和加法器902的背景噪声消除模块605。自适应滤波器901接收来自第二麦克风的第二音频信号并输出音频信号。加法器902将从第一麦克风201接收到的第一音频信号与自适应滤波器901所输出的音频信号相加,从而产生第三音频信号。通过将第一音频信号与自适应滤波器901输出的音频信号相加,由加法器902生成的第三音频信号中,至少有一部分出现在第一音频信号中的背景噪声分量被消除。
在本发明的另一个实施例中,信号处理器420包括背景噪声消除模块605和向下取样器615。根据这个实施例,A/D转换器410和A/D转换器412以比无线电话内通常使用的取样率更高的取样率、分别对第一和第二麦克风201和202输出的第一和第二音频信号取样。例如,第一麦克风201输出的第一音频信号和第二麦克风202输出的第二音频信号可分别被A/D转换器410和412以16kHz取样;相比较而言,大多数常规无线电话的发射信道中所使用的典型信号取样率是8kHz。在第一和第二音频信号经背景噪声消除模块605处理、以从第一音频信号中消除背景噪声后,向下取样器615对背景噪声消除模块605生成的第三音频信号向下取样的速率恢复到合适的取样速率(例如,8kHz)。如果在背景噪声消除模块605中增加了精确度和准确度的要求,这个实施例中较高的取样速率提供了更精确的时间划分和更准确的时间匹配。
如上所提及且将在以下部分中更详细描述的,附加地或选择性地,第二麦克风输出的音频信号被用来改善对第一麦克风所输出的音频信号的噪声抑制。
IV.根据本发明实施例的使用两个麦克风来执行改进的噪声抑制如上所述,信号处理器420可包括噪声抑制器。图10示出了一个实施例,其中信号处理器420包括噪声抑制器1007。根据这个实施例,噪声抑制器1007接收分别由第一和第二麦克风201和202输出的第一和第二音频信号。噪声抑制器1007根据第一和第二音频信号的内容,至少部分抑制包括在第一音频信号中的背景噪声分量。抑制背景噪声分量的细节将会参照图11做更详细的描述。
图11示出了根据本发明实施例的使用带有第一麦克风和第二麦克风的无线电话处理音频信号的方法的流程1100。这种方法用来至少部分抑制包含在第一麦克风的输出中的背景噪声分量。
流程1100中的方法从步骤1110开始,在步骤1110中,第一麦克风201输出包括语音分量和背景噪声分量的第一音频信号。在步骤1120,第二麦克风202输出包括语音分量和背景噪声分量的第二音频信号。
在步骤1130,噪声抑制器1007接收第一和第二音频信号,并根据第一音频信号和第二音频信号的内容,至少部分抑制第一音频信号中的背景噪声分量,从而生成第三音频信号。现在将更详细地描述这个步骤的细节。
在一个实施例中,在抑制第一音频信号的背景噪声分量之前,噪声抑制器1007将第一和第二音频信号转换到频域。图12A和图12B示出了典型的频谱,这些频谱用来阐释噪声抑制器1007的功能。
图12A示出了两个分量语音频谱分量1210和噪声频谱分量1220。语音频谱1210包括音调(pitch)谐波峰(间隔相等的峰值)以及频谱包络中的三个共振峰。
图12A是示例性频谱图,其目的仅仅在于从概念上解释这两种分量。应当理解的是,实际上麦克风所捕获的音频信号中,语音分量1210和噪声分量1220是混合在一起且不可分开的。事实上,麦克风所捕获的是单个的混合有语音和噪声的信号及其它的频谱。
图12B示出了噪声抑制器前(即频谱1260)和噪声抑制后(即频谱1270)典型的单个混合有语音和噪声的频谱。例如,频谱1260是第一麦克风201输出的第一音频信号的快速傅立叶变换(FFT)的幅度。
通常的噪声抑制器不断对背景噪声频谱(例如图12A中的频谱1220)进行估计,然后将被观察的单个语音和噪声频谱(例如图12B中的频谱1260)与这个被估计的背景噪声频谱比较,从而确定每个频率分量是语音占优势或是噪声占优势。如果认为它是噪声占优势,则减小这个频率上的FFT系数的大小。如果认为它是语音占优势,那么FFT系数保持原样。这可在图12B中看到。
频谱1270位于频谱1260的上方时,会有许多频率区。这些频率区被看作是包含了语音占优势的区域。另一方面,频谱1260和频谱1270位于不同位置的区域被看作是包含了噪声占优势的区域。通过削弱噪声占优势的频率区,噪声抑制器1007生成第三音频信号(例如与频谱1270对应的语音信号),与第一音频信号相比,第三音频信号增加了语音分量与背景噪声分量的比率。
以上两段中描述的操作与常规的单麦克风噪声抑制方案相对应。根据本发明的实施例,噪声抑制器1007还利用第二麦克风所捕获的第二音频信号的频谱,从而比单麦克风噪声抑制方案更准确地估计背景噪声频谱1220。
在常规的单麦克风噪声抑制器中,是在“语音突发”之间的空闲时段,也就是,在对应于有音节发出的活动语音片断之间的间隔内,对背景噪声频谱1220进行估计。如果背景噪声相对固定,也就是,只有在每个语音突发的过程中,噪声频谱1220的总体形状没有太多改变时,这样的方案才有效。如果在语音突发的持续期间,噪声频谱1220有较大的变化,那么单麦克风噪声抑制器不会有效,因为在上一个间隔内所估计的噪声频谱是不可靠的。因此,通常来说,尤其是对于不稳定的背景噪声,第二麦克风所捕获的第二音频信号的频谱是可靠的,使得噪声抑制器1007能够对噪声频谱1220做出更准确的、最新的估计,从而实现更好的噪声抑制性能。
应注意的是第二音频信号的频谱不应直接用作对噪声频谱1220的估计。直接使用第二音频信号的频谱至少有两个问题第一,第二音频信号仍有一些语音分量在其中;第二,第二音频信号中的噪声分量通常与第一语音信号中的噪声分量不同。
为了避免第一个问题,可将语音分量从第二音频信号中消除。例如,结合噪声消除方案,消除了噪声的第一音频信号,比主要语音信号更清晰,可通过自适应滤波器。经过自适应滤波器的信号可与第二音频信号相加,从而消除第二音频信号的大部分语音分量。
为了避免第二个问题,例如,可通过使用自适应滤波器901将消除语音后的第二音频信号滤波,确定第一音频信号中的噪声分量的近似值。
以上列出的示例方法,包括使用第一和第二音频信号,使得噪声抑制器1007能够在语音突发过程中获得比仅使用一个音频信号的常规噪声抑制方案更准确的和最新的对噪声频谱1220的估计。本发明的另一实施例可使用第二麦克风所捕获的第二音频信号来帮助更准确地确定音节之间的间隔与语音突发的相对出现时间,这样将会生成对噪声频谱1220更可靠的估计,从而改善噪声抑制性能。
对于图12B中的特定例子,噪声区的频谱1260被削弱10dB变成频谱1270。应该理解,所示出的削弱10dB仅用作解释的目的,而不是限制性的。本领域的技术人员将会明白,对频谱1260的削弱可多于或少于10dB。
最后,第三音频信号被发射到另一个电话。对第三音频信号的处理和发送是按照与以上所描述的常规发射信道100(图1A)相同的方式来完成的。
如上所提及并将在下部分中更详细描述的,附加地或选择性地,第二麦克风输出的音频信号被用来改善结合在无线电话中的VAD技术。
V.根据本发明实施例的使用两个麦克风实现改进的VAD性能图13是根据本发明实施例的无线电话的发射信道1300的功能模块框图,所述无线电话带有第一麦克风和第二麦克风。发射信道1300包括第一麦克风201和第二麦克风202。另外,发射信道1300包括A/D转换器1310、A/D转换器1312、噪声抑制器1307(可选择的)、VAD1320、语音编码器1304、信道编码器1305、调制器1306、RF模块1307以及天线1308。语音编码器1304、信道编码器1305、调制器1306、RF模块1307和天线1308分别与参照图1中的发射信道100所讨论的语音编码器104、信道编码器105、调制器106、RF模块107和天线108类似,因此它们的操作在下面将不再详述。
例如但不限于,在一个实施例中,没有包括噪声抑制器1307,现对该实施例的发射信道1300进行描述。在这个示例性的实施例中,VAD 1320接收分别由第一麦克风201和第二麦克风202所输出的第一音频信号和第二音频信号。VAD 1320利用第一麦克风201所输出的第一音频信号和第二麦克风202所输出的第二音频信号来检测第一音频信号中的语音活动。VAD 1320将指示信号发送到语音编码器1304,指示在第一音频信号中的哪个时间段内包括语音分量。VAD 1320的工作过程细节将参照图14进行描述。
图14示出了根据本发明实施例的在带有第一和第二麦克风的无线电话中处理音频信号的方法流程1400。这种方法用来检测在哪个时间段内,第一麦克风输出的音频信号包括语音分量。
流程1400中的方法从步骤1410开始,在步骤1410中,第一麦克风输出包含语音分量和背景噪声分量的第一音频信号。在步骤1420中,第二麦克风202输出包含语音分量和背景噪声分量的第二音频信号。
图15示出了分别由第一麦克风201和第二麦克风202输出的第一和第二音频信号的典型图例。图中的1500代表第一麦克风201输出的第一音频信号。第一音频信号1500包括语音分量1510和背景噪声分量1520。图中的1550示出的音频信号代表第二麦克风202输出的第二音频信号。第二音频信号1550也包括语音分量1560和背景噪声分量1570。如上所讨论的,由于在常规使用中,第一麦克风201比第二麦克风202更接近用户的嘴部,语音分量1510的振幅比语音分量1560的振幅更大。相反,背景噪声分量1570的振幅比背景噪声分量1520的振幅更大。
如流程1400中的步骤1430所示,根据第一音频信号1500和第二音频信号1550的内容,VAD 1320检测在哪个时间段内语音分量1510出现在第一音频信号中。通过利用第一音频信号以及加上第二音频信号来检测第一音频信号中的语音活动,与仅检测一个语音信号的VAD技术相比,VAD 1320改善了语音活动检测的性能。也就是,所增加的来自第二音频信号的信息(主要包括背景噪声分量1570)有助于VAD 1320更好地区分在第一音频信号中构成语音分量的成分,从而VAD 1320可得到更好的性能。
作为例子,根据本发明的一个实施例,除了常规单麦克风VAD通常检测的所有其它信号特征之外,VAD 1320还可检测第一音频信号和第二音频信号之间的能量比或者平均振幅比,从而帮助它更好地确定第一音频信号中的语音活动。通过将图15中的第一音频信号1500与第二音频信号1550相比,这种可能性更显而易见。对于图15所示的音频信号1500和1550,在语音突发(活动语音)期间,第一音频信号1500的能量大于第二音频信号1550的能量。另一方面,在语音突发之间的间隔中(即只有背景噪声的区域),与此相反。因此,第一音频信号与第二音频信号的能量比率从语音突发中的高值降低到语音突发之间的间隔中的低值。这种能量比率的变化为第一音频信号中的语音活动提供了有价值的线索。如果仅使用单个麦克风来获取第一音频信号,则这种有价值的线索是无法获得的。仅在使用两个麦克风时,才可能获得这一线索,且VAD可利用这一能量比率来改善它检测语音活动的准确性。
VI.本发明的选择性实施例在本发明的选择性实施例中(图中未示出),单个处理器420包括背景噪声消除模块和噪声抑制器。在这个实施例中,背景噪声消除模块根据第二音频信号的内容,至少部分消除包含在第一音频信号中的背景噪声分量,从而产生第三音频信号。接下来噪声抑制器接收第二和第三音频信号,并根据第二和第三音频信号的内容至少部分抑制第三音频信号中出现的剩余背景噪声分量,其方式与上述类似。然后噪声抑制器将第四音频信号提供给如上所述的其余的模块和/或处理步骤。
在另一个选择性的示例性实施例中,带有第一和第二麦克风的发射信道可包括信号处理器(与信号处理器420类似)和VAD(与VAD 1320类似)。本领域的普通技术人员将会理解,在发射信道中,发射信号处理器可在VAD之前,反之亦然。另外,信号处理器和VAD可同时处理两个麦克风的输出。为了解释的目的,而不是限制性的,下面将更详细描述一个实施例,在这个实施例中,在带有两个麦克风的发射信道中信号处理器在VAD之前。
在这个示例性的实施例中,信号处理器根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与背景噪声分量的比率,从而生成第三音频信号(与以上详细描述的信号处理器420的功能类似)。然后第三音频信号被VAD接收。VAD还接收第二麦克风(例如第二麦克风202)输出的第二音频信号。与以上详述的方式类似,VAD根据第二音频信号和第三音频信号的内容,检测出第三信号中出现语音分量的那些时间段。
在又一个实施例中,在有两个麦克风的发射信道中,VAD可在噪声抑制器之前。在这个实施例中,VAD接收分别由第一麦克风和第二麦克风输出的第一音频信号和第二音频信号,并根据第一和第二音频信号的内容,以与上述类似的方式,检测出第一音频信号中出现语音分量的那些时间段。噪声抑制器接收第一和第二语音信号,并根据第一音频信号和第二音频信号的内容,以与上述类似的方式,抑制第一音频信号中的背景噪声分量。
VII.结论本发明公开了带有至少两个麦克风的无线电话。参照带有两个麦克风的无线电话的特定实施例进行的描述仅用作解释的目的,而不是限制性的。对本技术领域的普通人员来说,很明显,其它类型的电话(例如,有线电话、带有耳麦的有线电话、和/或带有耳麦的蓝牙(TM)电话)也可用这种带有第一麦克风、第二麦克风的方式来实现。在一实施例中,在带有耳麦的电话(headsettelephone)中,第一麦克风可设置在耳麦(headset)上,第二麦克风可设置在电话的手持听筒(handset)内。例如,可以用与无线电话200的麦克风201或麦克风202类似的方式将第二麦克风设置在电话上。选择性地,第二麦克风可设置在电话的耳麦上。作为另一个例子,在带有耳麦的蓝牙(TM)无线电话中,可将第一麦克风设置在其麦克风支杆的顶端,靠近用户的嘴部,将第二麦克风设置在耳麦的头夹上,由耳廓上方的挂钩支撑着靠近用户一侧耳部。信号处理器可隐藏在电话的耳麦或手持听筒内。将会理解,带有第一麦克风、第二麦克风和信号处理器的这些其它类型的电话和/或耳麦也在本发明的范围内。
说明书和附图仅用作示例的目的,而不是限制性的。本发明的范围和精神实质由本发明的权利要求来限定。
权利要求
1.一种无线电话,其特征在于,包括用于输出第一音频信号的第一麦克风,所述第一音频信号包括语音分量和背景噪声分量;用于输出第二音频信号的第二麦克风;以及信号处理器,用于根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
2.根据权利要求1所述的无线电话,其特征在于,所述第一麦克风设置在无线电话的第一部分上,第二麦克风设置在无线电话的第二部分上,使得在常规使用无线电话的过程中,第一麦克风比第二麦克风距用户的嘴部更近。
3.根据权利要求1所述的无线电话,其特征在于,所述信号处理器包括背景噪声消除模块,所述背景噪声消除模块接收第一和第二音频信号,并根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪音,从而产生第三音频信号。
4.根据权利要求3所述的无线电话,其特征在于,所述背景噪声消除模块包括用于滤波第二音频信号的自适应滤波器;以及加法器,用于将滤波后的第二音频信号与第一音频信号相加,从而消除第一音频信号的至少一部分背景噪声分量。
5.一种在带有第一麦克风和第二麦克风的无线电话中处理音频信号的方法,所述方法包括从第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量;从第二麦克风输出第二音频信号;以及根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
6.根据权利要求5所述的方法,其特征在于,所述增加步骤包括根据第二音频信号的内容,消除第一音频信号的至少一部分背景噪音,从而产生第三音频信号。
7.一种有线电话,其特征在于,包括用于输出第一音频信号的第一麦克风,所述第一音频信号包括语音分量和背景噪声分量;用于输出第二音频信号的第二麦克风;以及信号处理器,用于根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
8.一种带有耳麦的电话,其特征在于,包括设有第一麦克风的耳麦,所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量;设有第二麦克风及信号处理器的听筒,所述第二麦克风输出第二音频信号;所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
9.一种带有耳麦的电话,其特征在于,包括设有第一麦克风的耳麦,所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量,所述耳麦设有第二麦克风,所述第二麦克风输出第二音频信号;以及设有信号处理器的听筒,所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
10.一种带有耳麦的电话,其特征在于,包括设有第一麦克风的耳麦,所述第一麦克风输出第一音频信号,所述第一音频信号包括语音分量和背景噪声分量,所述耳麦设有第二麦克风,所述第二麦克风输出第二音频信号;以及所述耳麦设有信号处理器,所述信号处理器接收第一音频信号和第二音频信号,并根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而产生第三音频信号。
全文摘要
本发明涉及一种带有第一麦克风和第二麦克风的无线电话,以及在带有第一麦克风和第二麦克风的无线电话内处理音频信号的方法。所述无线电话包括第一麦克风、第二麦克风以及信号处理器。第一麦克风输出包括语音分量和背景噪声分量的第一音频信号。第二麦克风输出第二音频信号。所述信号处理器根据第一音频信号和第二音频信号中的至少一个的内容,增加第一音频信号的语音分量与噪声分量的比率,从而生成第三音频信号。
文档编号G10L21/00GK1794757SQ200510135860
公开日2006年6月28日 申请日期2005年12月20日 优先权日2004年12月22日
发明者詹姆士·D·贝内特, 朱因韦·陈 申请人:美国博通公司
一种电话及在该电话中处理音频信号的方法
相关推荐
专利名称:基于稀疏分解与重构的鲁棒语音特征提取方法技术领域:本发明涉及稀疏分解与重构的语音特征提取方法。 背景技术:让机器能像人一样感知和理解语音一直是人类的梦想,语音识别为这一梦想带来了希望。经过几十年发展,语音识别技术取得了巨大成就,从
专利名称:物镜和光拾取头装置的制作方法技术领域:本发明涉及对于规格(记录密度)不同的3种光信息记录介质至少可以进行信息的记录以及再生的一方的光学拾取头装置,可以在该光学拾取头装置中使用的物镜、基片厚度差补正装置、色差补正装置、基片厚度误差补
专利名称:5.30微米带通滤光片的制作方法技术领域:本实用新型涉及除透镜以外的光学部件,特别涉及一种用于选择所需气体红外光谱的5.30微米带通滤光片。5.30微米带通滤光片是红外分析仪用于测定一氧化氮气体含量的关键部件。长期以来,由于其性能
专利名称:灯具的制作方法技术领域:本发明是关于一种灯具,尤指一种具有可调整照射方向的灯具。背景技术:灯为日常生活与工作环境中的重要发光装置,主要的用途为提供照明或警示。然而,除了提供照明与警示以外,灯光以其性质不同而对于环境与生物的影响也渐
专利名称:为后续的离线语音识别记录语音信息的记录装置的制作方法技术领域:本发明涉及一种记录装置,用于记录口述语音信息,然后将记录下来的口述语音信息传输给语音识别装置进行离线语音识别,这个装置包括用于接收口述语音信息的接收装置,用记录装置的记
专利名称:一种塑料光纤插座和塑料光纤墙面连接系统的制作方法技术领域:本实用新型涉及通信设备的技术领域,尤其涉及一种可现场安装的塑料光纤插座和可防尘的塑料光纤墙面连接系统。背景技术:塑料光纤插座用于塑料光纤的对接,塑料光纤可以在连接座内实现对