采用谱运动变换的用于处理声音信号的系统和方法-品牌商务网

采用谱运动变换的用于处理声音信号的系统和方法
【专利摘要】提供了一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表示的个体谐音、确定谐音的声音参数、根据来源对谐音进行分类，和/或其他处理。该处理可以包括将声音信号（或其部分）变换至将变换系数表达为频率和调频斜率的函数的空间。这可以对单个谐音的个体谐波可以跨其所有谐波具有同样的音高速度（其与调频斜率相关）的事实加以利用以便将谐音从其他声音（谐波和/或非谐波）和/或噪声中辨别出来。
【专利说明】采用谱运动变换的用于处理声音信号的系统和方法
相关申请
[0001]本申请要求于2011年8月8日提交的题为“采用谱运动变换的用于处理声音信号的系统和方法”的美国专利申请号13/205，424的优先权，上述申请要求于2011年3月25日提交的题为“谱运动变换”的美国临时专利申请号61/467，493的优先权，上述两份申请通过引用全文结合于此。
【技术领域】
[0002]本发明涉及通过利用与个体谐音相关联的谐波的调频斜率的坐标而对声音信号进行处理以识别、确定谐音的声音参数和/或对其进行分类。
【背景技术】
[0003]对音频信号进行处理以辨别在音频信号中所表示的谐音和噪声，确定音频信号中所表示的谐音的声音参数，通过根据来源对谐音分组而对音频信号中所表示的谐音进行分类，和/或执行其他类型的音频处理的系统是已知的。这样的系统例如可以在通过扬声器检测、识别和/或分类由谐音所组成的人声话音时使用。用于确定谐音的声音参数和/或对谐音进行分类的常规技术可能在存在相对低量的噪声(例如，出现在录制音频信号中的音频噪声、信号噪声和/或其他噪声)的情况下快速衰退。
[0004]通常，常规声音处理涉及针对个体时间窗口而将音频信号从时域变换至频域。随后可以在频域中对信号执行各种类型的信号处理技术和算法以尝试在能够执行进一步处理之前将信号中所表示的声音和噪声区分开来。随后可以对该经处理的信号进行分析以确定诸如音高、包络之类的声音参数和/或其他声音参数。信号中所表示的声音可以进行分类。
[0005]常规的用于区分谐音和噪声(无论是信号中所表示的声波噪声还是信号噪声)的尝试可以相当于尝试对信号进行“清理”以区分谐音和背景噪声。不幸的是，这些常规技术经常会导致与信号中所表示的谐音相关的信息损失以及噪声。该信息损失会影响到例如用于确定谐音的(多个)声音参数、对谐音进行分类的下游处理和/或其他下游处理的准确性和/或精确度。

【发明内容】

[0006]本公开的一个方面涉及一种用于处理声音信号的系统和方法。该处理可以包括识别声音信号中所表不的个体谐音，确定谐音的声音参数，根据来源对谐音进行分类，和/或其他处理。该处理可以包括将声音信号(或其部分)从时域变换至频率-调频域。这可以对单个谐音的个体谐波可能跨其所有谐波具有相同的音高速度(其与调频斜率相关)的事实加以利用以便将谐音从其他声音(谐波和/或非谐波)和/或噪声中辨别出来。
[0007]需意识到的是，这里对“声音信号”和“声音”(或“谐音”)的描述并非意在作为限制。本公开的范围包括对表示被表现为超声波、声波和/或亚声波频谱的任意范围之中的谐波分量的任意现象的信号进行处理。类似地，本公开的范围包括对表示被表现为谐波电磁波分量的任意现象的信号进行处理。这里对“声音信号”和“声音”(或“谐音”)的描述仅是一种或多种不例性实施方式的一部分。
[0008]用于处理声音信号的系统可以包括一个或多个处理器。该处理器可以用于执行包括信号模块、时间窗口模块、变换模块、声音模块、声音参数模块、分类模块和/或其他模块中的一个或多个的计算机程序模块。
[0009]时间窗口模块可以用于将声音信号划分为多个信号部分。信号部分可以与个体时间窗口相关联。时间窗口可以对应于大于声音信号的米样周期的时间周期。时间窗口的一个或多个参数(例如，时间窗口函数的类型(例如，高斯、汉明)、该函数的宽度参数、时间窗口的总长度、时间窗口的时间周期、时间窗口的排列和/或其他参数)可以基于用户选择、预设设置、所处理的声音信号和/或其他因素而进行设置。
[0010]变换模块可以用于将信号部分变换至频率-调频域。变换模块可以配置使得该变换针对信号部分而将变换系数指定为频率和分数调频斜率的函数。分数调频斜率可以是除以频率的调频斜率。用于具体频率和分数调频斜率对的给定变换信号部分的变换系数可以表示用于与该给定变换信号部分相关联的时间窗口内的具体频率和分数调频斜率的复变换系数、复系数的模数或者该模数的平方。
[0011]变换模块可以配置使得可以通过对给定信号部分应用滤波器集合而获得给定信号部分的变换。该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。该滤波器可以是复指数函数。这会导致由包括实数和虚数分量的滤波器所直接产生的复系数。如这里所使用的，“变换系数”可以是指一个这样的复系数、该复系数的模数、复系数的模数的平方，和/或实数和/或复数和/或其分量的其他表示形式。
[0012]该声音模块可以用于识别信号部分中所表示的个体谐音。这可以包括识别出经变换信号部分中的这些谐音的谐波贡献。由于谐音的音高随时间有所变化，所以个体谐音可以具有音高速度。该音高速度对于每个谐波而言可以是全局的，并且可以被表示为第一谐波和任意谐波的分数调频斜率的乘积。这样，处于任意给定时间点处(例如在经变换信号部分的时间窗口上)的分数调频斜率针对谐音的所有谐波可以是相同的。这在频率-调频域中变得明显，因为个体谐音的谐波贡献可以被表现为以周期方式沿共用分数调频斜率的行进行排列的变换系数中的最大值。
[0013]如果经变换信号部分中的噪声是松散的(与时间无关)，则该信号部分中出现的大部分(如果实质上不是全部)噪声可以被假设具有与经变换信号部分中所表示的谐音的共用分数调频斜率所不同的分数调频斜率。类似地，如果经变换的信号部分中表示了多个谐音，则不同谐音可能具有不同的音高速度。这会导致这些不同谐音的谐波贡献在频率-调频域中沿不同的分数调频斜率的行进行排列。声音模块可以用于对这一现象加以利用以识别经变换的信号部分中的个体谐音的贡献。例如，该声音模块可以用于识别经变换的信号部分内的个体声音的共用分数调频斜率。
[0014]声音参数模块可以用于基于经变换的信号部分来确定声音信号中所表示的个体谐音的一个或多个声音参数。该一个或多个声音参数可以以每个信号部分为基础所确定。声音参数以每个信号部分所进行的确定可以用于随时间追踪该声音参数，和/或确定该声音参数的累加值和/或与之相关联的累加量度。一个或多个声音参数例如可以包括音高、音高速度、包络和/或其他参数。声音参数模块可以用于基于连同对应于个体谐音的分数调频斜率(例如，由声音模块所识别的)一起而相对于频率信息对变换系数所进行的分析来确定一个或多个声音参数。
[0015]分类模块可以用于根据共用声音来源对经变换的信号部分中所表示的声音进行分组。该分组可以通过对经变换的信号部分的变换系数的分析来完成。例如，该分类模块可以基于由声音参数模块所确定的声音参数，沿最佳调频行而相对于频率信息对变换系数的分析(例如，包括沿最佳调频行创建变换系数最大值的矢量)和/或其他分析而对声音进行分组。
[0016]通过参考附图而考虑以下描述和所附权利要求这里所公开的系统和/或方法的这些和其他目标、特征和特性，以及操作方法和相关结构部件的功能以及各部分和市场经济的组合将变得更为显而易见，所有附图都形成该说明书的一部分，其中同样的附图标记在各图中表示相对应的部分。然而，所要清楚理解的是，附图仅是用于图示和描述的目的而并非意在作为本发明的界限的界定。如说明书和权利要求中所使用的，除非上下文明确另外指出，否则单数形式“一个”(“a”、“an”和“the”)包括多个指示对象。
【专利附图】

【附图说明】
[0017]图1示出了用于处理声音信号的系统。
[0018]图2示出了声音信号的频谱。
[0019]图3示出了频率-调频域中经变换声音信号的图形。
[0020]图4示出了频率-调频域中经变换声音信号的图形。
[0021]图5不出了处理声音信号的方法。
【具体实施方式】
[0022]图1不出了用于处理声音信号的系统10。系统10所执行的处理可以包括确定声音信号中所表示的一个或多个声音参数，识别已经由共同来源所生成的声音信号中所表示的声音，和/或执行其他处理。系统10相较于常规声音处理系统可以具有有所改进的准确度和/或精确性,系统10可以提供有关无法从常规声音处理系统获得的声音信号中所表不的声音的深入理解(insight)，和/或可以提供其他改进。在一些实施方式中，系统10可以包括一个或多个处理器12、电子存储14、用户接口 16和/或其他组件。
[0023]处理器12可以用于执行一个或多个计算机程序模块。该计算机程序模块可以包括信号模块18、时间窗口模块20、变换模块22、声音模块24、声音参数模块26、分类模块28和/或其他模块中的一个或多个。
[0024]信号模块18可以用于获取声音信号以便进行处理。信号模块18可以用于从电子存储14、用户接口 16 (例如，麦克风、换能器和/或其他用户接口组件)、外部来源和/或其他来源获取声音信号。声音信号可以包括电子模拟和/或数字信号，其表不由来源所生成的声音和/或噪声。如这里所使用的，“来源(source)”可以是指进行操作而产生声音的对象或对象集合。例如，诸如吉它之类的弦乐器可以被认为是个体来源，即使其自身可以包括多个进行协同操作而生成声音的多个对象(例如，多个弦、主体和/或其他对象)。类似地，一组歌手可以在音乐会中生成声音而产生单一的谐音。[0025]信号模块18可以配置使得所获取的声音信号可以将信号强度指定为时间的函数。个体声音信号可以具有以其表示信号强度的采样速率。该采样速率可以对应于采样周期。声音信号的谱密度例如可以以声谱图进行表示。通过图示，图2在时间-频率域中描绘了声谱图30。在声谱图30中，与信号强度相关的系数(例如，振幅、能量和/或其他系数)可以是上域(co-domain)并且可以被表示为颜色(例如，颜色越浅则振幅越大)。
[0026]在声音信号中，可归因于单个声音和/或来源的贡献可以以谐波(例如，规律间隙)的间隔进行排列。针对声音信号的这些间隙的贡献可以被称作“谐波”或“泛音”。例如，声谱图30包括与第一声音和/或来源相关联的第一泛音集合(在图2中被标记为泛音32)以及与第二声音和/或来源相关联的第二泛音集合(在图2中被标记为泛音34)。第一声音和第二声音可以由共同来源或单独来源所生成。对应于一个时间点处的声音的给定泛音集合之间的间隙可以被称作该时间点处的声音的“音高”。
[0027]返回参考图1，时间窗口模块20可以用于将声音信号划分为信号部分。该信号部分可以与个体时间窗口相关联。该时间窗口可以跨时间是连续的，可以重叠，可以分开，和/或可以以其他方式在时间上进行排列。个体时间窗口可以对应于大于被划分为信号部分的声音信号的采样周期的时间周期。这样，与时间窗口相关联的信号部分可以包括多个信号样本。
[0028]时间窗口模块20所执行的处理的参数可以包括峰值窗口函数的类型(例如，高斯)、该函数的宽度(对于高斯而言是标准偏差)、窗口的总宽度(对于高斯而言通常为6个标准偏差的总和)、时间窗口的排列(例如，连续、重叠、分开和/或其他排列)和/或其他参数。这些参数中的一个或多个可以基于用户选择、预设设置、所处理的声音信号和/或其他因素进行设置。作为非限制性的示例，时间窗口可以对应于处于约5毫秒和约500毫秒之间、约5毫秒和约30毫秒之间、约5毫秒和约15毫秒之间，和/或处于其他范围之中的时间周期。由于系统10应用于声音信号的处理考虑到了声音信号在信号部分之中的动态属性，所以时间窗口可以对应于比常规声音处理系统中更大的时间量。例如，时间窗口可以对应于大约15毫秒的时间量。在一些实施方式中，时间窗口可以对应于约10毫秒。
[0029]调频斜率变量可以是从调频斜率所得出的量度(例如，或者是频率变化的速率)。例如，在一些实施方式中，调频斜率变量可以是分数调频斜率。该分数调频斜率可以表示为:
【权利要求】
1.一种用于处理声音信号的系统，该系统包括: 一个或多个处理器，其用于执行计算机程序模块，该计算机程序模块包括: 时间窗口模块，其用于将声音信号划分为与个体时间窗口相关联的信号部分，其中该时间窗口对应于比该声音信号的采样周期更大的时间周期；以及变换模块，其用于将该信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。
2.根据权利要求1的系统，其中该计算机程序模块进一步包括声音参数模块，其用于基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。
3.根据权利要求2的系统，其中该声音参数模块用于在每个信号部分的基础上确定该第一参数。
4.根据权利要求2的系统，其中该声音参数模块进一步用于基于经变换的信号部分确定该声音信号中所表不的个体谐音的第二声音参数，该第二声音参数是不同于该第一声音参数的参数。
5.根据权利要求2的系统,其中该第一声音参数包括音高和/或调频斜率之一或其二者。
6. 根据权利要求1的系统，其中该变换模块配置使得通过向给定信号部分应用滤波器集合而获得该给定信号部分的变换，其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。
7.根据权利要求1的系统，其中该变换模块配置使得变换系数包括实数分量和虚数分量。
8.根据权利要求1的系统，其中该变换模块配置使得该变换系数是实数分量和虚数分量的模数平方。
9.根据权利要求1的系统，进一步包括分类模块，其用于基于变换系数对单独来源所生成的声音进行识别。
10.一种用于处理声音信号的方法，该方法包括: 将声音信号划分为与个体时间窗口相关联的信号部分，其中该时间窗口对应于比该声音信号的采样周期更大的时间周期；以及将该信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。
11.根据权利要求10的方法，进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第一声音参数。
12.根据权利要求11的方法，其中确定该第一参数包括在每个信号部分的基础上确定该第一参数。
13.根据权利要求11的方法，进一步包括基于经变换的信号部分确定该声音信号中所表示的个体谐音的第二声音参数，该第二声音参数是不同于该第一声音参数的参数。
14.根据权利要求11的方法，其中该第一声音参数包括音高和/或调频斜率之一或其二者。
15.根据权利要求10的方法，其中对给定信号部分进行变换包括向给定信号部分应用滤波器集合，其中该滤波器集合中的个体滤波器对应于不同的频率和调频斜率对。
16.根据权利要求10的方法，其中变换系数包括实数分量和虚数分量。
17.根据权利要求10的方法，其中变换系数是实数分量和虚数分量的模数平方。
18.根据权利要求10的方法，进一步包括基于变换系数对单独来源所生成的声音进行识别。
19.一种非瞬时的机器可读电子存储媒体，其存储处理器可执行指令，该指令用于执行一种处理声音信号的方法，该方法包括: 将声音信号划分为与个体时间窗口相关联的信号部分，其中该时间窗口对应于比该声音信号的采样周期更大的时间周期；以及将信号部分变换至频率-调频域中，其中该频率-调频域是将变换系数指定为该信号部分的频率和分数调频斜率的函数的信号的表示形式，其中该分数调频斜率是除以频率的调频斜率。
20.根据权利要求19的电子存储媒体，其中该方法进一步包括基于经变换的信号部分确定该声音信号中所表不的个体谐`音的第一声音参数。
【文档编号】G10L21/0308GK103718242SQ201280025281
【公开日】2014年4月9日申请日期:2012年3月23日优先权日:2011年3月25日
【发明者】大卫·C·布拉德利, 丹尼尔·S·戈尔丁, 罗伯特·N·希尔顿, 尼古拉斯·K·费希尔, 罗德尼·高登, 德里克·R·鲁斯, 埃里克·维埃维奥拉申请人:英特里斯伊斯公司

本文推荐采用谱运动变换的用于处理声音信号的系统和方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656802535.html

当前位置：网站首页>专利 >正文

采用谱运动变换的用于处理声音信号的系统和方法

相关推荐