当前位置:网站首页>专利 >正文

用于语音提取的系统和方法

专利名称:用于语音提取的系统和方法
技术领域
一些实施例涉及语音提取,并且更特别地涉及语音提取的系统和方法。
背景技术
已知的语音技术(例如自动语音识别或说话人识别)典型地遇到由包括背景噪声、干扰说话人、信道失真等的外部因素干扰的语音信号。例如,在已知的通信系统(例如移动电话、陆线电话、其它无线技术和网络电话技术)中,正在传输的语音信号通常受到外部噪声和干扰源干扰。类似地,戴着助听器和耳蜗植入装置的用户常常受到外部干扰的折磨,外部干扰干扰他们试图理解的语音信号。这些干扰会变得无法抵挡使得用户常常宁愿关闭他们的医疗装置,因此,这些医疗装置在某些情况下对于一些用户是无用的。所以,需要一种语音提取方法来改善由这些装置(例如医疗装置或通信装置)产生的语音信号的品质。另外,已知的语音提取方法常常试图通过依赖于多个传感器(例如麦克风)执行语音分离的功能(例如从语音分离干扰性语音信号或分离背景噪声)以利用它们的几何间隔改善语音信号的品质。然而先前所述的多数通信系统和医疗装置仅仅包括一个传感器(或某个其它有限数量)。所以,已知的语音提取方法不适合用于未进行昂贵修改的这些系统或装置。因此,需要一种改进的语音提取方法,其可以使用单传感器将期望语音与干扰性语音信号或背景噪声分离并且也可以提供好于多麦克风解决方案的语音品质恢复。

发明内容
在一些实施例中,一种处理器可读介质存储代码,所述代码表示导致处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数(scaling function)修改所述输入信号的所述第一分量的估计量以产生所述输入信号的重建第一分量。在一些实施例中,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。


图1是实现根据实施例的语音提取系统的声装置的示意图。图2是根据实施例的处理器的示意图。图3是根据实施例的语音提取系统的示意图。图4是根据另一个实施例的语音提取系统的块图。图5是根据实施例的语音提取系统的标准化子模块的示意图。图6是根据实施例的语音提取系统的频谱-时间分解子模块的示意图。图7是根据实施例的语音提取系统的沉默检测子模块的示意图。图8是根据实施例的语音提取系统的矩阵子模块的示意图。图9是根据实施例的语音提取系统的信号分离子模块的示意图。图10是根据实施例的语音提取系统的可靠性子模块的示意图。图11是根据实施例的用于第一说话人的语音提取系统的可靠性子模块的示意图。图12是根据实施例的用于第二说话人的语音提取系统的可靠性子模块的示意图。图13是根据实施例的语音提取系统的组合器子模块的示意图。图14是根据另一个实施例的语音提取系统的块图。图15A是根据实施例的语音提取处理之前的语音混合的图形表示。图15B是用于第一说话人的语音提取处理之后的图15A中所示的语音的图形表
/Jn ο图15C是用于第二说话人的语音提取处理之后的图15A中所示的语音的图形表
/Jn ο
具体实施例方式在本文中描述了用于语音提取处理的系统和方法。在一些实施例中,本文中所述的语音提取方法是自动分离彼此重叠的两个信号(例如两个语音信号)的基于软件的方法的一部分。在一些实施例中,语音提取方法在其中体现的总系统可以被称为“分离系统”或“分离技术”。该分离系统例如可以具有三个不同的级分析级、合成级和聚类级。在本文中详细地描述了分析级和合成级。可以在2010年10月25日提交的、名称为“SequentialGrouping in Co-Channel Speech”的美国临时专利申请第61/406,318号中找到聚类级的详细论述,上述申请的公开内容通过引用完整地被合并于此。分析级、合成级和聚类级在本文中分别被称为或体现为“分析模块”、“合成模块”和“聚类模块”。为了该描述起见术语“语音提取”和“语音分离”是同义词并且可以可互换地使用,除非另外指出。当在本文中使用时单词“分量”指的是信号或信号的一部分,除非另外说明。分量可以与语音、音乐、噪声(稳态或非稳态)或任何其它声音相关。一般而言,语音包括有声分量,以及在一些实施例中,语音也包括无声分量(或其它非语音分量)。分量可以是周期性的、大致周期性的、准周期性的、大致非周期性的或非周期性的。例如,有声分量(例如“语音分量”)是周期性的、大致周期性的或准周期性的。不包括语音的其它分量(即,“非语音分量”)也可以是周期性的、大致周期性的或准周期性的。非语音分量例如可以是具有周期性、大致周期性或准周期性特性的来自环境的声音(例如汽笛)。然而无声分量是非周期性的或大致非周期性的(例如“嘘”声或任何其它非周期性噪声)。无声分量可以包含语音(例如“嘘”声),但是该语音是非周期性的或大致非周期性的。不包括语音并且是非周期性的或大致非周期性的其它分量例如可以包括背景噪声。大致周期性分量例如可以指的是当在时域中图形表示时具有重复图案的信号。大致非周期性分量例如可以指的是当在时域中图形表示时不具有重复图案的信号。当在本文中使用时术语“周期性分量”指的是周期性的、大致周期性的或准周期性的任何分量。所以周期性分量可以是有声分量(或语音分量)和/或非语音分量。当在本文中使用时术语“非周期性分量”指的是非周期性的或大致非周期性的任何分量。所以非周期性分量可以与上面定义的术语“无声分量”是同义的并且可互换。图1是包括语音提取方法的执行的音频装置100的示意图。为了该实施例,音频装置100被描述为以类似于手机的方式操作。然而应当理解音频装置100可以是用于存储和/或使用本文中所述的语音提取方法或任何其它方法的任何合适的音频装置。例如,在一些实施例中,音频装置100可以是个人数字助理(PDA)、医疗装置(例如助听器或耳蜗植入物)、记录或采集装置(例如语音记录器)、存储装置(例如存储具有音频内容的文件的存储器)、计算机(例如超级计算机或大型计算机)和/或类似物。音频装置100包括声输入部件102、声输出部件104、天线106、存储器108和处理器110。这些部件中的任何一个可以在任何合适的配置中布置在(或至少部分地布置在)音频装置100内。另外,这些部件中的任何一个可以以任何合适的方式(例如经由线的电互连或焊接到电路板、通信总线等)连接到另一个部件。声输入部件102、声输出部件104和天线106例如可以以类似于在手机内发现的任何声输入部件、声输出部件和天线的方式操作。例如,声输入部件102可以是麦克风,其可以接收声波并且然后将那些声波转换成电信号供处理器110使用。声输出部件104可以是扬声器,其被配置成接收来自处理器110的电信号并且将那些信号作为声波输出。此外,天线106被配置成例如与移动转发器或移动通信基站。在音频装置100不是手机的实施例中,音频装置100可以包括或不包括声输入部件102、声输出部件104和/或天线106中的任何一个。存储器108可以是被配置成适配在音频装置100 (例如手机)内并且与音频装置操作的任何合适的存储器,例如只读存储器(ROM)、随机存取存储器(RAM)、闪存和/或类似物。在一些实施例中,存储器108从装置100可拆卸。在一些实施例中,存储器108可以包括数据库。处理器110被配置成执行用于音频装置100的语音提取方法。在一些实施例中,处理器110将执行方法的软件存储在它的存储架构(未示出)内。处理器110可以是适配在音频装置100及其部件内并且与音频装置及其部件操作任何合适的处理器。例如,处理器110可以是执行存储在存储器中的软件的通用处理器(例如数字信号处理器(DSP));在其它实施例中,可以在硬件内执行方法,例如现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在一些实施例中,音频装置100不包括处理器110。在其它实施例中,处理器的功能可以分配给通用处理器,例如DSP。在使用中,音频装置100的声输入部件102接收来自它的周围环境的声波SI。这些声波SI可以包括用户讲入音频装置100的语音(即话音)以及任何背景噪声。例如,在用户正沿着繁忙街道行走的情况下,除了检测用户的语音以外,声输入部件102可以检测来自汽笛、汽车喇叭或人的叫声或谈话。声输入部件102将这些声波SI转化成电信号,然后所述电信号被发送到处理器110进行处理。处理器110执行软件,该软件执行语音提取方法。语音提取方法可以以下述方式中的任何一种分析电信号(例如参见图4)。然后基于语音提取方法的结果滤波电信号使得从信号大致去除(或衰减)非期望声音(例如其它说话人、背景噪声)并且剩余信号表示用户的语音的更智能形式或更接近匹配(例如参见图15AU5B 和 15C)。在一些实施例中,音频装置100可以使用语音提取方法滤波经由天线106(例如从不同音频装置)接收的信号。例如,在接收到的信号包括语音以及非期望声音(例如嘈杂背景噪声或另一个说话人语音)的情况下,音频装置100可以使用该方法滤波接收到的信号并且然后经由声输出部件104输出经滤波的信号的声波S2。因此,音频装置100的用户可以听到远处说话人的语音,具有极小的或没有背景噪声或来自另一个说话人的干扰。在一些实施例中,语音提取方法(或它的任何子方法)可以经由处理器110和/或存储器108包含到音频装置100中而没有任何附加硬件要求。例如,在一些实施例中,在商业分配音频装置100之前在音频装置100(即,处理器110和/或存储器108)内预编程语音提取方法(或它的任何子方法)。在其它实施例中,在已购买音频装置100之后可以通过偶然、例行或定期软件更新将存储在存储器108中的语音提取方法(或它的任何子方法)的软件形式下载到音频装置100。在另外的其它实施例中,语音提取方法(或它的任何子方法)的软件形式可以通过从提供商(例如手机提供商)购买获得,并且当购买软件时,可以下载到音频装置100。在一些实施例中,处理器110包括执行语音提取方法的一个或多个模块(例如将在硬件中执行的计算机代码的模块或存储在存储器中并且将在硬件中执行的处理器可读指令的集合)。例如,图2是处理器210 (例如DSP或其它处理器)的示意图,该处理器具有分析模块220、合成模块230并且可选地具有聚类模块240以执行根据实施例的语音提取方法。处理器210可以集成或包括在任何合适的音频装置中,例如上面参考图1所述的音频装置。在一些实施例中,处理器210是现成的产品,可以被编程以包括分析模块220、合成模块230和/或聚类模块240并且然后在制造后被加入音频装置(例如存储在存储器中并且在硬件中执行的软件)。在其它实施例中,处理器210在制造时包含到音频装置中(例如存储在存储器中并且在硬件中执行或者在硬件中实现的软件)。在这样的实施例中,分析模块220、合成模块230和/或聚类模块240可以在制造时被编程到音频装置中或者在制造后被下载到音频装置中。在使用中,处理器210接收来自处理器210集成在其中的音频装置(例如参见图1中的音频装置100)的输入信号(图3中所示)。为了简单起见,输入信号在本文中被描述为在任何指定时间具有不超过两个分量,并且在某些时间的情况下可以具有零分量(例如沉默)。例如,在一些实施例中,输入信号可以具有在第一时段期间的两个周期性分量(例如来自两个不同说话人的两个有声分量)、在第二时段期间的一个分量和在第三时段期间的零分量。尽管在不超过两个分量的情况下论述了该例子,但是应当理解输入信号可以在任何指定时间具有任何数量的分量。输入信号首先由分析模块220处理。分析模块220可以分析输入信号并且然后基于它的分析估计对应于输入信号的各分量的输入信号的部分。例如,在输入信号具有两个周期性分量(例如两个有声分量)的实施例中,分析模块220可以估计对应于第一周期性分量(例如“估计第一分量”)的输入信号的部分以及估计对应于第二周期性分量(例如“估计第二分量”)的输入信号的部分。分析模块220然后分离来自输入信号的估计第一分量和估计第二分量,如本文中更详细地所述。例如,分析模块220可以使用估计量将第一周期性分量与第二周期性分量分离;或者更特别地,分析模块220可以使用估计量将第一周期性分量的估计量与第二周期性分量的估计量分离。分析模块220可以以下述方式中的任何一种分离输入信号的分量(例如参见图9和相关论述)。在一些实施例中,在由分析模块220执行的估计和/或分离方法之前分析模块220可以标准化输入信号和/或滤波输入信号。合成模块230接收来自分析模块220的输入信号分离的估计分量的每一个(例如估计第一分量和估计第二分量)。合成模块230可以评价这些估计分量并且确定分析模块220的输入信号的分量的估计是否可靠。换句话说,合成模块230可以至少部分地用于“复查”由分析模块220生成的结果。合成模块230可以以下述方式中的任何一种评价从输入信号分离的估计分量(例如参见图10和相关论述)。一旦确定估计分量的可靠性,合成模块230可以使用估计分量重建对应于输入信号的实际分量的单独的语音信号,如本文中更详细地所述,从而产生经重建的语音信号。合成模块230可以以下述方式中的任何一种重建单独的语音信号(例如参见图11和相关论述)。在一些实施例中,合成模块230被配置成在一定程度上按比例调节(scale)估计分量并且然后使用经按比例调节的估计分量重建单独的语音信号。在一些实施例中,合成模块230可以将经重建的语音信号(或经提取的/经分离的估计分量)发送到例如处理器210在其中实现的装置(例如装置100)的天线(例如天线106),使得经重建的语音信号(或经提取的/经分离的估计分量)被传递到另一个装置,在另一个装置处可以听到经重建的语音信号(或经提取的/经分离的估计分量)而没有来自输入信号的剩余分量的干扰。返回图2,在一些实施例中,合成模块230可以将经重建的语音信号(或经提取的/经分离的估计分量)发送到聚类模块240。聚类模块240可以分析经重建的语音信号并且然后将每个经重建的语音信号分配给适当的说话人。聚类模块240的操作和功能未在本文中详细地论述,而是在上面通过引用被合并的美国临时专利申请第61/406,318号中进行了描述。在一些实施例中,分析模块220和合成模块230可以经由具有一个或多个特定方法的一个或多个子模块实现。例如,图3是分析模块220和合成模块230经由一个或多个子模块实现的实施例的示意图。分析模块220可以至少部分地经由滤波器子模块321、多音高检测器子模块324和信号分离子模块328实现。分析模块220例如可以经由滤波器子模块321滤波输入信号、经由多音高检测器子模块324估计经滤波的输入信号的一个或多个分量的音高,并且然后基于它们的相应估计音高经由信号分离子模块328将那些一个或多个分量从经滤波的输入信号分离。更具体地,滤波器子模块321被配置成滤波从音频装置接收的输入信号。例如可以滤波输入信号使得将输入信号分解成多个时间单位(或“帧”)和频率单位(或“信道”)。参考图6论述滤波方法的详细描述。在一些实施例中,在滤波输入信号之前滤波器子模块321被配置成标准化输入信号(例如参见图4和5以及相关论述)。在一些实施例中,滤波器子模块321被配置成识别是沉默或具有降到低于某个阈值水平的声音(例如分贝水平)的经滤波的输入信号的那些单位。在一些这样的实施例中,如本文中将更详细地所述,滤波器子模块321可操作地防止被识别“沉默”单位继续通过语音提取方法。以该方式,仅仅允许来自具有可感觉声音的经滤波的信号的单位继续通过语音提取方法。在一些情况下,在由分析模块220的剩余子模块或合成模块230分析输入信号之前经由滤波器子模块321滤波该输入信号可以增加分析的效率和/或有效性。然而在一些实施例中,在分析输入信号之前不滤波输入信号。在一些这样的实施例中,分析模块220可以不包括滤波器子模块321。一旦滤波输入信号,多音高检测器子模块324可以分析经滤波的输入信号并且估计经滤波的输入信号的每个分量的音高(如果有的话)。多音高检测器子模块324可以例如使用在 2010 年 9 月 23 日提交的、名称为 “Systems and Methods for Multiple PitchTracking”的美国专利申请第12/889,298号中描述的AMDF或ACF方法分析经滤波的输入信号,上述申请的公开内容通过引用完整地被合并。多音高检测器子模块324也可以使用在上述美国专利申请第12/889,298中所述的方法中的任何一种估计来自经滤波的输入信号的任何数量的音高。应当理解的是,在语音提取方法中的该点之前,输入信号的各分量是未知的,例如不知道输入信号包含一个周期性分量、两个周期性分量、零个周期性分量和/或无声分量。然而多音高检测器子模块324可以通过识别存在于输入信号内的一个或多个音高估计有多少周期性分量包含在输入信号内。所以,从语音提取方法中的该点开始,可以假设(为了简单起见)如果多音高检测器子模块324检测到音高,则被检测音高对应于输入信号的周期性分量并且更特别地对应于有声分量。所以,为了该论述,如果检测到一个音高,则输入信号可能包含一个语音分量;如果检测到两个音高,则输入信号可能包含两个语音分量,等等。然而实际上,多音高检测器子模块324也可以检测包含在输入信号内的非语音分量的音高。非语音分量以与语音分量相同的方式在分析模块220内进行处理。因而,语音提取方法有可能将语音分量与非语音分量分离。一旦多音高检测器324估计来自输入信号的一个或多个音高,多音高检测器子模块324将该音高估计量输出到语音提取方法中的下一个子模块或块。例如,在输入信号具有两个周期性分量(例如两个有声分量,如上所述)的实施例中,多音高检测器子模块324输出第一有声分量的音高估计量(例如对应于150Hz的音高周期的6. 7msec)和第二有声分量的另一个音高估计量(例如对应于186Hz的音高周期的5. 4msec)。
信号分离子模块328可以使用来自多音高检测器子模块324的音高估计量估计输入信号的分量并且然后可以将输入信号的那些估计分量与输入信号的剩余分量(或部分)分离。例如,假设音高估计量对应于第一有声分量的音高,则信号分离子模块328可以使用音高估计量估计对应于该第一有声分量的输入信号的部分。为了重复,由信号分离子模块328从输入信号提取的第一周期性分量(S卩,第一有声分量)仅仅是输入信号的实际分量的估计,在该方法期间的该点,输入信号的实际分量是未知的。然而信号分离子模块328可以基于由多音高检测器子模块324估计的音高估计输入信号的分量。在一些情况下,如将要描述的,信号分离子模块328从输入信号提取的估计分量可能不与输入信号的实际分量完全匹配,原因是估计分量自身由估计值(即估计音高)导出。信号分离子模块328可以使用本文中所述的任何分离处理技术(例如参见图9和相关论述)。—旦由分析模块220和其中的子模块321、324和/或328处理,输入信号由合成模块230进一步处理。合成模块230可以至少部分地经由功能子模块332和组合器子模块334实现。功能子模块332接收来自分析模块220的信号分离子模块328的输入信号的估计分量并且可以确定那些估计分量的“可靠性”。例如,功能子模块332通过各种计算可以确定输入信号的那些估计分量可以用于重建输入信号。在一些实施例中,功能子模块332用作开关,只有当该估计分量的一个或多个参数(例如功率水平)超过某个阈值时才允许估计分量在该方法中继续(例如用于重建)(例如参见图10和相关论述)。然而在一些实施例中,功能子模块332基于一个或多个因素修改(例如尺度)每个估计分量使得允许每个估计分量(以它们的修改形式)在该方法中继续(例如参见图11和相关论述)。功能子模块332可以评价估计分量,从而以本文中所述的方式中的任何一种确定它们的可靠性。组合器子模块334接收从功能子模块332输出的估计分量(经修改的或其它形式)并且然后可以滤波那些估计分量。在输入信号由分析模块220中的滤波器子模块321分解成单位的实施例中,组合器子模块334可以组合单位以重组或重建输入信号(或对应于估计分量的输入信号的至少一部分)。更特别地,组合器子模块334可以通过组合每个单位的估计分量构造类似于输入信号的信号。组合器子模块334可以以本文中所述的方式中的任何一种滤波功能子模块332的输出(例如参见图13和相关论述)。在一些实施例中,合成模块230不包括组合器子模块334。如图3中所不,合成模块230的输出是有声分量与无声分量分尚(A)、有声分量与其它有声分量分尚(B)或无声分量与其它无声分量分尚(C)的输入信号的表不。更广义地说,合成模块230可以将周期性分量与非周期性分量分离(A)、将周期性分量与另一个周期性分量分离(B)或将非周期性分量与另一个非周期性分量分离(C)。在一些实施例中,软件包括聚类模块(例如聚类模块240),该聚类模块可以评价经重建的输入信号并且将说话人或标记分配给输入信号的每个分量。在一些实施例中,聚类模块不是独立模块,而是合成模块230的子模块。图1-3提供了可以用于实现语音提取方法的装置、部件和模块的类型的总图。其余的图更详细地示出并且描述语音提取方法及其过程。应当理解的是以下过程和方法可以在任何(一个或多个)基于硬件的模块(例如DSP)或在硬件中执行的任何(一个或多个)基于软件的模块中以上面关于图1-3所述的方式中的任何一种实现,除非另外指出。图4是用于处理输入信号s的语音提取方法400的块图。语音提取方法可以在执行存储在存储器中的软件的处理器(例如处理器210)上执行或者可以集成在硬件中,如上所述。语音提取方法包括具有各种互连性的多个块。每个块被配置成执行语音提取方法的特定功能。语音提取方法通过接收来自音频装置的输入信号s开始。输入信号s可以具有任何数量的分量,如上所述。在该特定情况下,输入信号S包括两个周期性信号分量Sa和SB,所述分量分别是表示第一说话人的语音(A)和第二说话人的语音(B)的有声分量。然而在一些实施例中,分量中的仅仅一个(例如分量Sa)是有声分量;另一个分量(例如分量Sb)可以是非语音分量,例如汽笛。在另外的其它实施例中,分量中的一个可以是例如包含背景噪声的非周期性分量。尽管输入信号S关于图4被描述为具有两个有声、语音分量Sa和SB,但是输入信号S也可以包括一个或多个其它周期性分量或非周期性分量(例如分量S。和/或SD),所述分量可以以与有声、语音分量Sa和Sb相同的方式进行处理。输入信号S例如可以从对着麦克风讲话的一个说话人(A或B)和在背景中讲话的另一个人(A或B)得到。备选地,其他说话人的语音(A或B)可以想要被听到(例如对着相同麦克风讲话的两个或以上说话人)。为了该论述,说话人的总语音被认为是输入信号S。在其它实施例中,输入信号s可以从使用不同的装置彼此交谈并且对着不同麦克风说话的两个说话人(A和B)得到(例如经记录的电话交谈)。在另外的其它实施例中,输入信号s可以从音乐得到(例如正在音频装置上回放的录音音乐)。在音乐提取方法开始时,将输入信号s传到块421 (标有“标准化”)进行标准化。可以以任何方式并且根据任何期望规范标准化输入信号S。例如,在一些实施例中,输入信号s可以被标准化以具有单位方差和/或零均值。图5描述了块421可以用以标准化输入信号s的一种特定技术,如下更详细地所述。然而在一些实施例中,语音提取方法不标准化输入信号s并且因此不包括块421。返回图4,然后将经标准化的输入信号(例如“sN”)传到块422进行滤波。在输入信号s传到块422之前未被标准化(例如可选块421不存在)的实施例中,同样在块422处理输入信号S。如图4中所示,块422将经标准化的输入信号分成一组信道(每个信道分配有不同的频带)。经标准化的输入信号可以分成任何数量的信道,如本文中将更详细地所述。在一些实施例中,例如可以使用将输入信号分成一组信道的滤波器组在块422滤波经标准化的输入信号。另外,块422可以采样经标准化的输入信号以形成每个信道的多个时间-频率(T-F)单位。更具体地,块422可以将标准化输入信号分解成多个时间单位(帧)和频率单位(信道)。合成T-F单位被定义为s[t,c],其中t是时间并且c是信道(例如c = 1,2,3) ο在一些实施例中,块422包括将标准化输入信号滤波成T-F单位的一个或多个频谱-时间滤波器。图6描述了块422可以用以将标准化输入信号滤波成T-F单位的一种特定技术,如下面更详细地所述。如图4中所示,每个信道包括沉默检测块423,该沉默检测块被配置成处理该信道内的每个T-F单位以确定它们是沉默的还是非沉默的。第一信道(C= I)例如包括块423a,该块处理对应于第一信道的T-F单位(例如s[t,c = I]);第二信道(c = 2)例如包括块423b,该块处理对应于第二信道的T-F单位(例如s[t,c = 2]),等等。在块423a提取和/或丢弃被认为是沉默的T-F单位使得不对那些T-F单位执行进一步处理。图7描述了块423a、423b、423c至423x可以用以处理T-F单位以进行沉默检测的一种特定技术,如下面更详细地所述。参考图4,一般而言,沉默检测可以通过防止对没有任何相关数据(例如语音分量)的T-F单位进行非必要处理而增加信号处理效率。被认为是非沉默的剩余T-F单位进一步进行如下处理。在一些实施例中,块423a(和/或块423b、423c至423x)是可选的并且语音提取方法不包括沉默检测。因而,所有T-F单位如下进行处理,不管它们是沉默的还是非沉默的。如图4中所示,非沉默T-F单位(不管它们被分配在其中的信道)被传到多音高检测器块424。非沉默T-F单位也根据它们的信道关联被传到相应分离块(例如块428a)和相应可靠性块(例如块432a)。在多音高检测器块424,评价来自所有信道的非沉默T-F单位并且估计组成音高频率P1和匕。尽管图4的描述将音高估计量的数量限制为二(P1和P2),但是应当理解多音高检测器块424可以估计任何数量的音高频率(基于存在于输入信号s中的周期性分量的数量)。音高估计量P1或P2可以是非零值或零。多音高检测器块424可以使用任何合适的方法计算音高估计量P1或匕,例如包含平均幅值差函数(AMDF)算法或自相关函数(ACF)算法,如通过引用被合并的美国专利申请第12/889,298中所述。值得注意的是在语音提取方法中的该点,不知道音高频率P1属于说话人A还是说话人B。类似地,不知道音高频率P2属于说话人A还是B。在语音提取方法中的该点音高频率P1或P2两者可以不与第一周期性分量sA或第二周期性分量sB相关。音高估计量P1和P2分别被传到块425和426。在备选实施例中,例如在图14所示的实施例中,音高估计量PdPP2B加地被传到尺度函数块并且用于测试估计信号分量的可靠性,如下面更详细地所述。返回图4,在块425,第一音高估计量P1用于形成第一矩阵%。第一矩阵V1中的列的数量等于(T-F单位的)采样率Fs与第一音高估计量P1的比率。该比率在本文中被简称为“F”。在块426,第二音高估计量P2用于形成第二矩阵V2。从这里,第一矩阵V1、第二矩阵V2和比率F被传到块427。在块427将第一矩阵V1和第二矩阵V2加在一起以形成单矩阵V。图8描述了块425、426和/或427可以用以分别形成矩阵Vp V2和V的一种特定技术,如下面更详细地所述。在块427形成的矩阵V和比率F被传到图4中所示的各信道的每个分离块428。如先前所述,非沉默T-F单位也被传到它们的相应信道内的分离块428。例如,第一信道(c=D中的分离块428a接收来自第一信道中的沉默检测块423a的非沉默T-F单位并且也接收来自块427矩阵V和比率F。在块428a,使用从块423a (即,s[t,c = I])和块427(即,V)接收的数据估计第一分量sA和第二分量sB。更具体地,块428a产生第一信号Xe1B, c=I](即,对应于信道C = I内的第一音高估计量P1的估计量)和第二信号Xe2 [t,C = I](即,对应于信道C = I内的第二音高估计量P2的估计量)。然而在该点仍然不知道哪个说话人(A或B)可以归于音高估计量P1和P2。块428a还可以产生第三信号xE[t,c = 1],该信号是对应于总输入信号s[t,c]的估计量。可以在块428a通过相加第一信号Xe1B, c = I]和第二信号xE2[t,c = I]计算第三信号xE[t,c = I]。可以在块428a以任何合适的方式计算第一信号Xe1B, c = I]、第二信号xE2[t,c = I]和/或第三信号xE[t,c = I]。在备选实施例中,例如在图14所示的实施例中,块428a不产生第三信号xE[t,c = I]。图9描述了块428a可以用以计算这些估计信号的一种特定技术,如下面更详细地所述。返回图4,块428b和428c至428x以类似于428a的方式工作。上述的方法和块例如可以在分析模块中执行。也可以被称为语音提取方法的分析级的分析模块因此被配置成执行上面关于每个块所述的功能。在一些实施例中,每个块可以用作分析模块的子模块。从分离块(例如分析模块的最后块428)输出的估计信号例如可以被传到另一个模块(合成模块)进行进一步分析。合成模块可以执行例如如下的块432和434的功能和方法。另外,在图14中示出并且描述了备选的合成模块。如图4中所示,在块428a产生的三个信号(SP,Xe1 [t, c = I]、xE2[t,c = I]和xE[t, c = I])被传到块432a进行进一步处理。块432a也接收来自沉默检测块423a的非沉默T-F单位,如上所述。指定信道内的每个可靠性块因此接收四个输入,第一估计信号Xei [t,C]、第二估计信号XE2 [t,C]、第三估计信号XE [t,C]和非沉默T-F单位S[t,C]。在一些实施例中,例如在图14所示的实施例中,块428a仅仅产生第一估计信号Xe1B, c = I]和第二估计信号Xe2 [t,c = I]。所以,仅仅第一估计信号Xe1B, c = I]和第二估计信号xE2[t,C = I]被传到块432a进行进一步处理。另外,在多音高检测器块424导出的音高估计量P1和P2可以被传到块432a以用于尺度函数中,如图14中更详细地所示。参考图4,块432被配置成检查第一估计信号Xe1B, c]和第二估计信号xe2 [t,c]的“可靠性”。第一估计信号4[扒C]和/或第二估计信号XE2 [t,C]的可靠性例如可以基于在块432接收的非沉默T-F单位中的一个或多个。然而估计信号Xe1B, c]或xE2[t,c]中的任何一个的可靠性可以基于规范或值的任何合适集合。可以以任何合适的方式执行可靠性测试。图10描述了块432可以用以评价并且确定估计信号Xe1Kc]和/或xE2[t,c]的可靠性的第一技术。在该特定技术中,块432可以使用基于阈值开关来确定估计信号Xe1 [t,c]和/或xE2[t,c]的可靠性。如果块432确定信号(例如Xe1K c])是可靠的,则该可靠信号同样被传到块434E1或块434E2以用于信号重建方法中。在另一方面,如果块432确定信号(例如Xe1B, c])是不可靠的,则不可靠信号被衰减例如_20dB,并且然后被传到434E1或434E2块中的一个。图11描述了块432可以用以评价并且确定估计信号Xe1 [t,c]和/或xe2 [t,c]的可靠性的备选技术。该特定技术涉及使用尺度函数来确定估计信号Xe1B, c]和/或xE2[t,c]的可靠性。如果块432确定信号(例如Xe1B, c])是可靠的,则该可靠信号由某个因素按比例调节并且然后被传到块434E1或块434E2以用于信号重建方法中。如果块432确定信号(例如Xe1B, c])是不可靠的,则该不可靠信号由某个不同因素按比例调节并且然后被传到块434E1或块434E2以用于信号重建方法中。不管由块432使用的方法或技术,第一估计信号Xe1B, c]的某个形式被传到块434E1并且第二估计信号Xe2 [t,c]的某个形式被传到块434E2。由块432使用的可靠性测试在某些情况下可能是可取的,从而保证随后在语音提取方法中的高品质信号重建。在一些情况下,由于一个说话人(例如说话人A)比另一个说话人(例如说话人B)占优,可靠性块432从指定信道内的分离块428接收的信号会是不可靠的。在其它情况下,由于分析级的方法中的一个或多个不适合于正在进行分析的输入信号,指定信道中的信号会是不可靠的。一旦在块432建立估计第一信号Xe1B, c]和估计第二信号Xe2 [t,c],估计第一信号Xe1B, c]和第二估计信号xE2[t,c](或它们的形式)分别被传到块434E1和434E2。块434E1被配置成接收并且组合横越所有信道的估计第一信号的每一个以产生经重建的信号Se1 [t],该经重建的信号表示对应于音高估计量P1的输入信号s的周期性分量(例如有声分量)。仍然不知道音高估计量P1E于第一说话人(A)还是第二说话人(B)。所以,在语音提取方法中的该点,音高估计量P1不会与第一有声分量sA或第二有声分量sB中的任何一个精确地相关。经重建的信号Se1M的函数中的“E”指示该信号仅仅是输入信号s的有声分量中的一个的估计量。块434E2类似地被配置成接收并且组合横越所有信道的估计第二信号的每一个以产生经重建的信号Se2 [t],该经重建的信号表示对应于音高估计量P2的输入信号s的周期性分量(例如有声分量)。类似地,经重建的信号Se2[t]的函数中的“E”指示该信号仅仅是输入信号s的有声分量中的一个的估计量。图13描述了块434E1和434E2可以用以重组(可靠或不可靠)估计信号以产生经重建的信号Se1B]和Se2 [t]的一种特定技术,如下面更详细地所述。返回图4,在块434E1和434E2之后,输入信号s的第一有声分量sA和输入信号s的第二有声分量sB被认为是“经提取的”。在一些实施例中,经重建的信号Se1B]和sE2[t](即,对应于第一音高估计量P1的有声分量和对应于第二音高估计量P2的另一个有声分量的经提取的估计量)从上述的合成级传到聚类级440。聚类级440的方法和/或子模块(未示出)被配置成分析经重建的信号Se1 [t]和sE2[t]并且确定哪个经重建的信号属于第一说话人(A)和第二说话人(B)。例如,如果经重建的信号Se1B]被确定为可归于第一说话人(A),则经重建的信号Se1B]与第一有声分量sA相关,这由来自聚类级440的输出信号Sea指示。如上所述,输出信号s\的函数中的“E”指示该信号仅仅是第一有声分量Sh的估计量,虽然是第一有声分量sA的很精确估计,这由图15A、15B和15C中所示的结果证明。图5是可以执行分析模块(例如分析模块220内的块421)的标准化方法的标准化子模块521的块图。更特别地,标准化子模块521被配置成处理输入信号s以产生标准化信号sN。标准化子模块521包括平均值块521a、减法块521b、乘方块521c和除法块521d。在使用中,标准化子模块521接收来自声装置(例如麦克风)的输入信号S。标准化子模块521在平均值块521a计算输入信号s的平均值。然后在减法块521b从原始输入信号s减去(例如均匀地减去)平均值块521a的输出(即,输入信号s的平均值)。当输入信号s的平均值是非零值时,减法块521b的输出是原始输入信号s的经修改的形式。当输入信号s的平均值为零时,输出与原始输入信号s相同。乘方块521c被配置成计算减法块521b的输出(即,从原始输入信号s减去输入信号s的平均值之后的剩余信号)的乘方。除法块521d被配置成接收乘方块521c的输出以及减法块521b的输出,并且然后用减法块521b的输出除以乘方块521c的输出的平方根。换句话说,除法块521d被配置成用剩余信号(从原始输入信号s减去输入信号s的平均值之后)除以该剩余信号的乘方的平方根。除法块521d的输出sN是标准化信号sNO在一些实施例中,标准化子模块521处理输入信号S以产生具有单位方差和零均值的标准化信号sN。然而标准化子模块521可以以任何合适的方式处理输入信号S以产生期望的标准化信号SN。在一些实施例中,标准化子模块521 —次完整地处理输入信号S。然而在一些实施例中,在指定时间仅仅处理输入信号S的一部分。例如,在输入信号S (例如语音信号)连续地到达标准化子模块521的情况下,在更小窗口持续时间“ τ ”中(例如在500毫秒或I秒窗口中)处理输入信号可能是更可行的。窗口持续时间“ τ ”例如可以由用户预先确定或基于系统的其它参数进行计算。尽管标准化子模块521被描述为是分析模块的子模块,但是在其它实施例中,标准化子模块521是与分析模块分离的独立模块。图6是滤波器子模块622的块图,该滤波器子模块可以执行分析模块(例如分析模块220内的块422)的滤波方法。图6中所示的滤波器子模块622被配置成用作频谱-时间滤波器,如本文中所述。然而在其它实施例中,滤波器子模块622可以用作任何合适的滤波器,例如完美重建滤波器组或gammatone滤波器组。滤波器子模块622包括具有多个滤波器6228^8。的听觉滤波器组622a和巾贞式分析块6221^-13。。滤波器组622的滤波器6228^8。和帧式分析块622b1-b。的每一个被配置成用于特定频道C。如图6中所示,滤波器子模块622被配置成接收并且然后滤波输入信号s (或备选地,标准化输入信号sN)使得输入信号s被分解成一个或多个时间-频率(T-F)单位。T-F单位可以表示为s[t,c],其中t是时间(例如时帧)并且c是信道。当输入信号s通过滤波器组622a时开始滤波方法。更具体地,输入信号s通过滤波器组622a中的C个数量的滤波器622 - ,其中C是信道的总数量。每个滤波器622 - 限定输入信号的路径并且每个滤波路径表示频道(“c”)。滤波器622 例如限定滤波路径和第一频道(c = 1),而滤波器622 限定另一个滤波路径和第二频道(c = 2)。滤波器组622a可以具有任何数量的滤波器和相应的频道。 如图6中所示,每个滤波器622 - 是不同的并且对应于不同的滤波方程。滤波器622 例如对应于滤波方程I1 [η] ”并且滤波器622 例如对应于滤波方程“h2 [η] ”。滤波器622 - 可以具有任何合适的滤波系数,并且在一些实施例中,可以基于用户限定规范进行配置。滤波器622 - 的变化导致来自那些滤波器622 - 的输出的变化。更具体地,滤波器622 - 的每一个的输出是不同的并且由此产生输入信号的C个不同的经滤波的形式。来自每个滤波器622 - 的输出可以在数学上表示为s[c],其中第一频道中的滤波器622 的输出为s[c = I]并且第二频道中的滤波器622a2的输出为s[c = 2]。每个输出s[c]是包含比其它更重要的原始输入信号的某些频率分量的信号。每个信道的输出s[c]在帧式基础上由帧式分析块6221^-bc处理。例如,第一频道的输出S[c = I]由在第一频道内的帧式分析块622bi处理。可以通过将从t至t+L的样本收集在一起分析在指定时刻t的输出s [c],其中L是可以用户指定的窗口长度。在一些实施例中,对于采样率Fs将窗口长度L设置成20毫秒。从t至t+L收集的样本在时刻t形成帧,并且可以表示为s[t,c]。通过收集从t+δ至t+δ+L的样本获得下一个时帧,其中δ是帧周期(即,跨越样本的数量)。该帧可以表示为s[t+l,c]。帧周期δ可以是用户限定的。例如,帧周期δ可以为2. 5毫秒或任何其它合适的持续时间。对于指定时刻,有C个不同的向量或信号(即,信号s[t,(3],其中(=1,2..0。帧式分析块622b1-b。可以被配置成将这些信号例如输出到沉默检测块(例如图4中的沉默检测块423)。图7是沉默检测子模块723的块图,该沉默检测子模块可以执行分析模块(例如分析模块220内的块423)的沉默检测方法。更特别地,沉默检测子模块723被配置成处理输入信号的时间-频率单位(表示为s[t,c])以确定该时间-频率单位是否是非沉默的。沉默检测子模块723包括乘方块723a和阈值块723b。时间-频率单位首先通过计算时间-频率单位的乘方的乘方块723a。算出的时间-频率单位的乘方然后被传到阈值块723b,该阈值块比较算出的乘方和阈值。如果算出的乘方小于阈值,则假定时间-频率单位包含沉默。沉默检测子模块723将时间-频率单位设置成零并且在语音提取方法的剩余过程中丢弃或忽略该时间-频率单位。在另一方面,如果算出的时间-频率单位的乘方大于阈值,则时间-频率单位同样被传到下一级以用于语音提取方法的剩余过程中。以该方式,沉默检测子模块723用作基于能量的开关。在阈值块723b中所使用的阈值可以是任何合适的阈值。在一些实施例中,阈值可以是用户定义的。阈值可以是固定值(例如0.2或45dB)或者可以取决于一个或多个因素而变化。例如,阈值可以基于它所对应的频道或基于正在处理的时间-频率单位的长度而变化。在一些实施例中,沉默检测子模块723可以以类似于通过引用被合并的美国专利申请第12/889,298号中所述的沉默检测方法操作。图8是矩阵子模块829的示意图,该矩阵子模块可以执行分析模块(例如分析模块220内的块425和426)的矩阵形成方法。矩阵子模块829被配置成限定从输入信号估计的一个或多个音高的每一个的矩阵M。更具体地,块425和426的每一个执行矩阵子模块829以产生矩阵M,如本文中更详细地所述。例如,在图4的块425中,矩阵子模块829可以限定第一音高估计量(例如P1)的矩阵M,并且在图4的块426中,可以独立地限定第二音高估计量(例如P2)的另一个矩阵M。如将要论述的,第一音高估计量P1的矩阵M可以被称为矩阵V1并且第二音高估计量P2的矩阵M可以被称为矩阵V2。语音提取方法中的后续块或子模块(例如块427)然后可以使用矩阵V1和V2来导出输入信号s的一个或多个信号分量估计量,如本文中更详细地所述。为了该论述,矩阵子模块829使用关于块424在图4中所述的音高估计量P1和P2。例如,当矩阵子模块829由图4中的块425实现时,矩阵子模块829可以接收并且在它的计算中使用第一音高估计量P:。当矩阵子模块829由图4中的块426实现时,矩阵子模块829可以接收并且在它的计算中使用第二音高估计量P2。在一些实施例中,矩阵子模块829被配置成接收来自多音高检测子模块(例如多音高检测子模块324)的音高估计量P1和/或P2。音高估计量P1和P2可以以任何合适的形式(例如样本的数量)发送到矩阵子模块829。例如,矩阵子模块829可以接收数据,该数据指示43个样本对应于在8,OOOHz的采样频率(Fs)下的5. 4msec的音高估计量(例如音高估计量P1)。以该方式,音高估计量(例如音高估计量P1)可以是固定的,而样本将随着Fs变化。然而在其它实施例中,音高估计量P1和/或P2可以作为音高频率被发送到矩阵子模块829,然后可以根据样本的数量在内部转换成它们的相应音高估计量。当矩阵子模块829接收音高估计量Pn时开始矩阵形成方法(其中N在块425中是I或者在块426中是2)。可以按照任何顺序处理音高估计量P1和P2。
第一音高估计量P1被传到块825和826并且用于形成矩阵M1和M2。更具体地,第一音高估计量P1的值应用于在块825中确定的函数以及在块826中确定的函数。音高估计量P1可以按照任何顺序由块825和826处理。在一些实施例中,首先在块825接收并且处理音高估计量P1 (反之亦然),而在其它实施例中,并行地或大致同时地在块825和826接收音高估计量匕。下面再现了块825的函数
权利要求
1.一种存储代码的处理器可读介质,所述代码表示使得处理器执行方法的指令,所述代码包括用于以下操作的代码接收具有第一分量和第二分量的输入信号;基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量;基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量;以及基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量,所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从所述输入信号和所述输入信号的估计量导出的残余信号中的至少一个的函数。
2.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码基于所述输入信号的所述第二分量的音高的估计量计算所述输入信号的所述第二分量的估计量。
3.根据权利要求1所述的处理器可读介质,其中所述尺度函数是第一尺度函数,所述处理器可读介质还包括用于以下操作的代码基于第二尺度函数修改所述输入信号的所述第二分量的估计量以产生所述输入信号的经重建的第二分量,所述第二尺度函数不同于所述第一尺度函数并且是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或所述残余信号中的至少一个的函数。
4.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码基于所述输入信号的所述经重建的第一分量的至少一个特性将源分配给所述输入信号的所述第一分量。
5.根据权利要求1所述的处理器可读介质,还包括用于以下操作的代码以指定帧率采样所述输入信号持续多个帧,来自所述多个帧的每个帧与多个频道关联,计算所述输入信号的所述第一分量的估计量的代码包括在来自所述多个帧的每个帧的所述多个频道的每个频道计算所述输入信号的所述第一分量的估计量,用于修改的代码包括用于基于尺度函数在来自所述多个帧的每个帧的所述多个频道的每个频道修改所述输入信号的所述第一分量的每个估计量的代码,所述尺度函数基于来自所述多个频道的频道自适应,在所述输入信号的所述第一分量的每个经修改的估计量跨越来自所述多个帧的每个帧的所述多个频道的每个频道组合之后产生所述输入信号的所述经重建的第一分量。
6.根据权利要求1所述的处理器可读介质,其中所述尺度函数被配置成用作非线性函数、线性函数或基于阈值的开关中的一个。
7.根据权利要求1所述的处理器可读介质,其中所述残余信号对应于从所述输入信号减去所述输入信号的估计量。
8.根据权利要求1所述的处理器可读介质,其中所述第一分量与第一源关联,所述第二分量与不同于所述第一源的第二源关联。
9.根据权利要求1所述的处理器可读介质,其中所述处理器是用户的装置的数字信号处理器,所述代码被下载到所述处理器可读介质。
10.根据权利要求1所述的处理器可读介质,其中所述尺度函数是所述输入信号的所述第一分量的乘方、所述输入信号的所述第二分量的乘方、所述输入信号的乘方和所述残余信号的乘方的函数。
11.根据权利要求1所述的处理器可读介质,其中所述尺度函数基于所述输入信号的所述第一分量的音高的估计量自适应所述输入信号的所述第一分量的估计量。
12.—种系统,其包括分析模块,所述分析模块被配置成接收具有第一分量和第二分量的输入信号,所述分析模块被配置成计算与所述输入信号的所述第一分量关联的第一信号估计量,所述分析模块被配置成计算与所述输入信号的所述第一分量或所述输入信号的所述第二分量中的任何一个关联的第二信号估计量,所述分析模块被配置成计算从所述第一信号估计量和所述第二信号估计量导出的第三信号估计量;以及合成模块,所述合成模块被配置成基于尺度函数修改所述第一信号估计量以产生所述输入信号的经重建的第一分量,所述尺度函数是所述输入信号的乘方、所述第一信号估计量的乘方、所述第二信号估计量的乘方或基于所述输入信号和所述第三信号估计量计算的残余信号的乘方中的至少一个导出的函数。
13.根据权利要求12所述的系统,其还包括聚类模块,所述聚类模块被配置成基于所述输入信号的所述经重建的第一分量的至少一个特性,将源分配给所述输入信号的所述第一分量。
14.根据权利要求12所述的系统,其中所述分析模块被配置成估计所述输入信号的所述第一分量的音高以产生所述输入信号的所述第一分量的估计音高,所述分析模块被配置成基于所述输入信号的所述第一分量的估计音高计算所述第一信号估计量。
15.根据权利要求12所述的系统,其中所述尺度函数是第一尺度函数,所述合成模块被配置成基于第二尺度函数修改所述第二信号估计量以产生所述输入信号的经重建的第二分量,所述第二尺度函数不同于所述第一尺度函数。
16.根据权利要求12所述的系统,其中当所述输入信号的所述第一分量是有声语音信号并且所述输入信号的所述第二分量是噪声时,基于所述尺度函数修改所述第二信号估计量以产生所述输入信号的经重建的第二分量。
17.根据权利要求12所述的系统,其中所述合成模块被配置成通过从所述输入信号减去所述第三信号估计量计算残余噪声。
18.根据权利要求12所述的系统,其中所述尺度函数基于所述输入信号的所述第一分量的频道或所述输入信号的所述第一分量的音高估计量是自适应的。
19.根据权利要求12所述的系统,其中所述输入信号的所述第一分量是有声语音信号,所述输入信号的所述第二分量是噪声。
20.根据权利要求12所述的系统,其中所述第一分量是大致周期性的。
21.根据权利要求12所述的系统,其中所述分析模块被配置成基于所述第一信号估计量的乘方和所述输入信号的乘方计算所述第二信号估计量。
22.—种存储代码的处理器可读介质,所述代码表示使得处理器执行方法的指令,所述代码包括用于以下操作的代码接收与来自多个频道的频道的输入信号的分量关联的第一信号估计量;接收与来自所述多个频道的所述频道的所述输入信号关联的第二信号估计量,所述第二信号估计量从所述第一信号估计量导出;基于来自所述多个频道的所述频道、所述第一信号估计量的乘方或从所述第二信号估计量和所述输入信号导出的残余信号的乘方中的至少一个计算尺度函数;基于所述尺度函数修改来自所述多个频道的所述频道的所述第一信号估计量以产生来自所述多个频道的所述频道的经修改的第一信号估计量; 以及组合来自所述多个频道的所述频道的所述经修改的第一信号估计量和来自所述多个频道的每个剩余频道的经修改的第一信号估计量以重建所述输入信号的所述分量,从而产生所述输入信号的经重建的分量。
全文摘要
在一些实施例中,一种处理器可读介质存储代码,所述代码表示使得处理器接收具有第一分量和第二分量的输入信号的指令。基于所述输入信号的所述第一分量的音高的估计量计算所述输入信号的所述第一分量的估计量。基于所述输入信号的所述第一分量的估计量和所述输入信号的所述第二分量的估计量计算所述输入信号的估计量。基于尺度函数修改所述输入信号的所述第一分量的估计量以产生所述输入信号的经重建的第一分量。所述尺度函数是所述输入信号、所述输入信号的所述第一分量的估计量、所述输入信号的所述第二分量的估计量或从残余信号中的至少一个的函数。
文档编号G10L21/0272GK103038823SQ201180013528
公开日2013年4月10日 申请日期2011年1月31日 优先权日2010年1月29日
发明者C·埃斯佩-威尔松, S·威什诺博霍特拉 申请人:马里兰大学派克分院

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:解码装置、解码方法及程序的制作方法技术领域:本发明涉及将声音及音乐等的音频信号压縮解压縮的音频编码解 码技术。特别涉及在将音频信号的编码数据解码时,校正量化误差的技 术。背景技术:作为将音频信号变换为频域的信号来进行编码的方式的一

    专利发布时间:2025-05-15阅读:(70)

    专利名称::投射型图像显示装置的制作方法技术领域::本发明涉及组装有用于将由液晶面板等形成的图像投射在屏幕上的投射光学系统的投射型图像显示装置。背景技术::作为用于在屏幕附近配置投射装置而将其图像投射在屏幕上的投射光学系统,有下述装置,其具

    专利发布时间:2025-05-15阅读:(72)

    专利名称:Led模组的制作方法技术领域:LED模组所属技术领域[0001]本实用新型涉及照明应用领域,尤其涉及一种LED (Light Emitting Diode)模组。背景技术:[0002]由于LED灯珠具有色彩丰富,体积小、节能、寿命

    专利发布时间:2025-05-15阅读:(68)

    专利名称:用于增加换能器可靠性的冗余导线接合的制作方法技术领域:本发明一般涉及换能器(transducer)。更特别地,本发明涉及用于使用冗余导线接合来增加换能器的可靠性的方法和系统。分立组件之间的连接通常采用单个连接。通常,该连接是利用铜

    专利发布时间:2025-05-15阅读:(76)

    专利名称:改进型三段一体式伸缩三脚架的制作方法技术领域:本实用新型涉及摄像附件器材,是一种改进型三段一体式伸缩三脚架。背景技术:摄像机、DV机拍摄时,一般都要用到三脚架支撑,并通过三脚架对拍摄角度、高度进行调节。其中,大多数三脚架采用伸缩支

    专利发布时间:2025-05-15阅读:(77)

    专利名称:以少量计算恢复高频分量的音频解码方法和装置的制作方法技术领域:本发明涉及一种方法和装置,它在音频后段处理中减少计算量,更特别地,涉及一种方法和装置,在把立体声模式分成两种模式之后,它使用在解码器中被检测到的立体声模式信息通过选择一

    专利发布时间:2025-05-15阅读:(77)