当前位置:网站首页>专利 >正文

音频帧属性的调节方法

专利名称:音频帧属性的调节方法
技术领域
本发明涉及一种语音处理系统,尤其涉及一种为了没有音色变化地控制语音 及音频再生速度,而在分析输入信号的特性后,根据该分析结果运行适合于输入信号特性的TSM(Time Scale Modification:时标修正)处理功能的音频帧属性的调节方法。
背景技术
音色没有大变化地控制语音(Speech)及音频(Audio)速度的语音信号的变 速再生,是即使存在再生速度的变更,就如同有的人说话快、有的人说话慢一样也 不会有音色变质或是损失的收听技法。从应用语音及音频的正确放大倍率的速度调节来看,当使用DTV的时间移位 (TimeShift)功能时,应该与视频完全同步,在使用MP3播放器、多媒体播放器、 手机等时也要在速度调节中正确调整属性率,这是非常重要的。1985年美国的Salim Roucos就曾提出了 OLA (Overlap ADD)和SOLA运算法 则,音色没有大变化地控制语音及音频速度的方法得到了急速发展,OLA的基本概 念在图1中就是以压缩(Compress )和扩展(Expand)显示的。如图1所示,时标 (Time Scale)的扩展是指在实际再生时放慢再生速度,而压缩就是指加速再生速 度。时标修正(TSM)就是在时间轴中压缩或是扩展输入信号从而使信号的再生速 度发生变化,被广泛应用在音乐再生机器中音乐速度的转换及学习外语时语音速度 的转换等数据压缩及复原(MPEGx, H. 26x等)的多种领域。尤其适用在MP3播放器、 多媒体播放器、手机等中。TSM运算法则作为转换时间轴的方法,按大小可以分为时间区域方法和频率区域方法。代表性的时间区域方法包括把输入信号分割为窗口 ( wi ndow )单位,在 相邻窗口之间上经过所定运算(over lapamp: add),压缩或是扩展输入信号的OLA 运算法则;利用相邻窗口之间的基音(pitch)同步,进行如上所述的运算,因此 克服了 0LA的单击(clicking)现象(压缩时)和回响(reverberat ion )现象(扩 展时)的缺点,可以获得更加自然的输出语音的S0LA运算法则;多种SOLA的变形 运算法则。代表性的频率区域方法有利用STFT的Griffin and LIM运算法则等。 上述SOLA运算法则作为在时间区域中使音乐速度转换的代表性方法,利用相邻窗 口之间的基音信息运行over lap-add运算,因此是改善现有技术的OLA方法缺点 的运算法则。Roucos的SOLA或是后来提出的PSOLA/WSOLA等多种方法涉及搜索最佳OLA 位置的方法,因此发展成多种形态。一方面,现有技术中提出过最佳化AMDF(Average Magnitude Difference Function:平均幅度差函数)及OLA (叠加运算法则)方法。它的概要与图2所示 的相同。步骤100,读出被输入的音频1巾贞的采样值(Sample)的步骤。例如读出1 帧音频1152采样值。步骤IIO,根据属性率决定现在帧的处理方法。属性率的现在帧处理方法是指在扩展(Expand )时执行下一个步骤(步骤120 ), 在压缩(Compress)时执行下一个步骤(步骤160),在不变时则执行判断文件是 否结束的步骤(步骤200 )。属性率扩展时,在步骤12Q中,通过最佳化AMDF搜索基音(pitch )。而且在 下一个步骤130中对其进行扩展0LA处理,使其成为2个基音、3个基音。而且, 在下一个步骤140中,参照上述基音,读出并记录点值(Read Pointer + = Pitch , Write Pointer + =2*Pitch)。并且在下一个步骤150中,把读指针值(Read Pointer )+Pmax值与帧长(Frame Size )进行比较,若是Read Pointer + Pmax<Frame Size,就返回用上述最佳化ADMF搜索基音的步骤(步骤120),若不是如此,就履 行判别文件是否结束的步骤(步骤200 )。如果文件在这里结束,就结束动作,若 不是如此,就返回到读出下面1帧采样值的步骤(步骤100)。另一方面,当属性率为压缩时,在步骤160中,用最佳化AMDF搜索基音 (pitch)。而且在下一个步骤170中对其进行压缩0LA处理,将2个基音压缩成1 个基音。而且,在下一个步骤180中,参照上述基音,读出并记录点值(Read Pointer + = Pitch, Write Pointer + =2*Pitch)。在下一个步骤190中把读指针值(Read Pointer )+ Pmax值与帧长(Frame Size )进行比较后,若Read Pointer + Pmax〈Frame Size,就返回到用上迷最佳化ADMF搜索基音的步骤(步骤160),若不是如此,就 履行判别文件是否结束的步骤(步骤200 )。如果文件在这里结束,就结束动作, 若不是如此,就返回读出下面1帧采样值的步骤(步骤100 )。当属性率不变时,就执行判别文件是否结束的步骤(步骤200 )。如果文件在 这里结束,就结束动作,若不是如此,就返回到读出下面1帧采样值的步骤(步骤 100)。作为如上所述的最佳化AMDF及0LA方法搜索语音的基音(pitch)区间,选 择最小化AMDF值的基音区间,以OLA来扩展或是压缩的方法,可以称作PSOLA的 一个系列。最佳化ADMF或是OLA方法由于在现有技术的AMDF方法中属于急速降低 运算量的方法,因此可以称作是在低性能DSP或是协议中也可以运行实时TSM的技术。如上所述,对于没有大的音色变化地控制语音及音频的速度而言,必须对应 多种属性率,在运行实时速度控制时,由于在属性范围内必须正确调整多种属性率, 因此在实时TSM中要求比调整正确的属性率更加完善的技法。另外,由于提供的输 入信号会有语音和语音以外等多种信号,根据各个输入信号,就要求TSM处理的最 佳化,TSM最佳化由于会给语音音质带来影响,因此输入信号的TSM处理的最佳化 对于音频帧属性调节来说,就是必然所要求的事项。发明内容本发明是为了解决上述问题,本发明的目的旨在提供为了没有音色变化地 控制语音及音频再生速度,4艮据输入信号的特性运行基础的TSM处理的音频帧属性 的调节方法。本发明的目的旨在提供为了没有音色变化地控制语音及音频再生速度,而 根据输入信号的特性运行基础的TSM处理,因此可以确保语音或是语音以外信号上 的最佳状态TSM品质的音频帧属性的调节方法。本发明的目的旨在提供为了没有音色变化地控制语音及音频再生速度,把 输入信号区分为语音和语音以外的信号,由于适用各个不同带域的TSM处理,因此 可以提高TSM处理品质的音频帧属性的调节方法。本发明的目的旨在提供为了没有音色变化地控制语音及音频再生速度,而 分析输入信号,把被分析的输入信号的特性区分为语音和语音以外的信号,针对语
音信号用最佳化AMDF & OLA方法运行TSM处理,针对语音以外的信号由于基音搜 索带域的扩展后运行最佳化AMDF & 0LA处理,因此在TSM中不^又可以有效处理坤皮 重视的语音信号、而且还可以有效处理音乐等信号的音频帧属性的调节方法。为了实现上述目的,本发明的音频帧属性的调节方法包括以下几个步骤分 析输入语音/或是音频信号的特性的步骤;根据上述被分析的输入信号,适用处理 各个不同的TSM的步骤。另外,上述本发明的音频帧属性的调节方法中,上述输入信号的特性就是区 分输入信号是语音信号还是语音以外的信号。另外,在上述本发明的音频帧属性的调节方法中,上述输入信号的特性在于 在音频中以帧为单位利用AMDF等基音搜索运算法则,然后确认输入信号的特性是 否是语音,根据该结果运行与各自特性相对应的TSM处理。另外,上述本发明的音频帧属性的调节方法的特征在于当上述输入信号的 特性分析结果、输入帧的信号特性为语音信号时,适用最佳化AMDF & 0LA技法, 运行语音中心的TSM处理。另外,上述本发明的音频帧属性的调节方法的特征在于当上述输入信号的 特性分析结果、判断输入帧的信号特性不是语音信号时,就以所需要的大小来扩展 搜索基音带域,重新适用最佳化AMDF & 0LA技法,运行TSM处理。本发明的效果本发明音频帧属性的调节方法有如下效果;根据输入信号的特性,若是可变 的,就运行输入信号适应的TSM处理,来区分语音和语音以外的信号,以此可以分 别决定用户所需要的TSM运算法则,以输入信号的特性为基础可以运行最佳的TSM 处理,因此具有品质更高的TSM效果。为进一步说明本发明的上述目的、结构特点和效果,以下将结合附图对本 发明进行详细的描述。


图1是OLA概念图。图2是最佳化AMDF和OLA基础属性率调节方法的流程图。图3是本发明的输入信号特性的可变的TSM处理方法的流程图。
具体实施方式
下面参照附图对本发明的音频帧属性的调节方法的实施例进行详细说明。 本发明在音频中以帧为单位利用AMDF (平均幅度差函数)等基音搜索运算法则(pitch search algorithm),来确认输入信号的特性是否是语音,然后根据此结果,进行适合与各个输入信号特性的TSM处理。通过AMDF等的基音搜索运算法则来把握输入信号是否是音频信号的方法是一般被广泛使用在语音认知等部门中的方法。但是,本发明以帧为单位把现在被输入的信号通过下面数学式1的方法来区分是音频信号还是音频以外的信号。 [数学式1]/,语音信号条件 '一°不是语音的条件 ^上述数学式1中被使用的P值是搜索基音范围中与AMDF最小值有关的基音。 在这里为了快速运算也可以使用最佳化的AMDF。在上述式1中区分语音和语音以 外信号的& (Tolerance)值根据用户的申请(Application)可以不同。如果经过上述方法判断输入帧的信号特性为语音信号,就可以通过最佳化 AMDF & 0LA (平均幅度差函数与叠加运算法则)方法进行语音中心的TSM处理。限 制被使用的系统或是用户选择的不同的TSM运算法则也可以被使用。相反,如果判断输入帧的信号特性不是语音信号,就以所需要的大小来扩展 搜索基音带域,就可以重新通过最佳化ADMF & OLA方法进行TSM处理。因此,在 TSM中不仅可以有效地处理最需要重点考虑的语音信号,而且也可以有效地处理音 乐等信号。即使在判断不是语音信号时依据被使用的系统制约或是用户选择可以使 用不同的TSM运算法则。本发明的整个顺序显示在图3中。第1步骤200:读出被输入的音频1帧的采样值(Sample)的步骤。例如读出 1帧音频1152采样值。第2步骤210是针对上述1帧的音频采样,根据属性率决定是扩展(expand ) 处理、还是压缩处理(compress )、还是不改变现在帧的处理方法的步骤。这个步 骤是依据用户的选择。用户若选择扩展音频帧的属性调节,就将运行音色没有变化
的有关音频帧扩展的TSM处理,用户若选择压缩音频帧的属性调节,就运行没有音色变化的有关音频帧的压缩的TSM处理。另外若选择不变,就把音频帧属性调节再生1属性,即按原样可以再生原来的音频帧。第3步骤220当上述第2步骤210的判别结果是属性率为扩展时,通过音频的AMDF搜索音频帧基音的步骤。即,选择扩展属性率时,为了音频帧属性调节(Expand ),通过音频的AMDF搜索有关基音。第4步骤221是把上述第3步骤220中搜索的基音的AMDF值与允许界限5(Tolerance)进行比较的步骤。该允许界限5 (Tolerance:公差)值就是为了区分语音和语音以外的信号而设定的值。根据用户的申请可以不同。即,在第4步骤221中由于比较基音的AMDF值和允许界限^ (Tolerance),因此就是判别语音信号或是语音以外的信号。它若以表达式来显示,就与前面所述的数学式1表现形式相同。户<formula>formula see original document page 9</formula>
语音信号条件 /=0<formula>formula see original document page 9</formula>
不是语音的条件 >=GP值在搜索基音范围中是与AMDF最小值有关的基音,搜索基音的AMDF值若小 于允许界限5 (Tolerance),该音频帧上就判定为语音信号,搜索基音的AMDF值 若大于允许界限5 (Tolerance),该音频帧上就判定为是语音以外的信号。如果上述第4步骤221的判定结果是输入信号为音频信号时,就执行第5步 骤(步骤2"),由于适用音频的扩展TSM处理,因此形成有关音频帧的扩展 (Expand )。即,输入音频帧(输入信号)被判断为语音信号时,以最佳化AMDFft OLA方法运行语音中心的TSM处理(扩展)。一方面,当上述第4步骤221的判定结果是输入信号为音频以外的信号时, 就执行第6步骤(步骤),由于适用语音以外信号即宽带域的扩展TSM处理, 因此形成有关音频帧的扩展(Expand )。即,判断输入音频帧(输入信号)不是语 音信号时,就以所需要的大小来扩展搜索基音带域,然后重新通过最佳化AMDF & OLA方法运行TSM处理(扩展)。如上所述,可以形成没有音色变化的语音、音频信号等的扩展,由于它是根
据语音信号带域的与否来适用不同的TSM处理,因此把适合于每一个信号特性的TSM处理为基础形成高品质的语音及音频信号的扩展再生。一方面,当上述第2步骤210中用户选择音频帧属性率压缩再生时,就执行 第7步骤(步骤230 )。第7步骤230当上述第2步骤210的判别结果为属性率压缩时,通过音频的 AMDF搜索有关音频帧基音的步骤。即,属性率被选择为压缩时,为了调节音频帧 属性(Compress )通过音频的AMDF搜索有关基音。第8步骤231是比较上述第7步骤2 30中搜索基音的AMDF值和允许界限S (Tolerance)的步骤。该允许界限5 ( Tolerance )值是为了区分语音和语音以外 的信号而设定的值,才艮据用户的申请可以不同。即,第8步骤231中比较基音的AMDF值和允许界限5 (Tolerance),因此就判断为语音或是语音以外的信号。它若以表达式来显示,就与前面所述的数学式1表现形式相同。户<formula>formula see original document page 10</formula>语音信号条件<formula>formula see original document page 10</formula>不是语音的条件 >=QP值就是在搜索基音范围中与AMDF最小值有关的基音,搜索的基音AMDF值若 小于允许界限5 (Tolerance:公差),该音频帧上就判定为语音信号,搜索的基音 AMDF值若大于允许界限5 (Tolerance),该音频帧上就判定为语音以外的信号。如上所述的第8步骤(步骤231 )的判定结果是输入信号为音频信号时,就执 行第9步骤(步骤232 ),由于适用音频的压缩TSM处理,因此形成有关音频帧的 压缩(Compress )。即,判断输入音频帧(输入信号)为语音信号时,通过最佳化 AMDF & 0LA方法运行语音中心的TSM处理(压缩)。一方面,如果上述第8步骤(步骤231 )的判定结果是输入信号为音频以外的 信号时,就执行第IO步骤(步骤233 ),由于适用语音以外的信号即宽带域的压縮 TSM处理,因此形成有关音频帧的压缩(Compress )。即,当判断输入音频帧(输 入信号)不是语音信号时,就以所需要的大小来扩展基音搜索带域,重新通过最佳 化AMDF & OLA方法运行TSM处理(压缩)。
如上所述,可以形成没有音色变化的语音、音频信号等的压缩,由于它是根 据语音信号带域的与否来适用不同的TSM处理,因此把适合与每一个信号特性的 TSM处理为基础形成高品质的语音及音频信号的压缩再生。
而且,上述第2步骤(步骤210)的判别结果为用户需要没有音频帧变速的再 生时,按原样进行再生。
如上所述的一系列过程根据第11步骤240中判别有关文件是否结束的结果, 继续运行下面音频帧,因此在音频中以音频帧单位来利用AMDF等基音搜索运算法 则,然后再根据确认输入信号特性是或不是语音的结果,就形成了最佳的TSM适用 为基础的音频帧属性调节。
本技术领域中的普通技术人员应当认识到,以上的实施例仅是用来说明本发 明的目的,而并非用作为对本发明的限定,只要在本发明的实质精神范围内,对以 上所述实施例的变化、变型都将落在本发明权利要求书的范围内。
权利要求
1. 一种音频帧属性的调节方法,对于时标修正基础的语音及音频变速再生方法来说,其特征在于包括以下几个步骤分析输入语音或是音频信号的特性的步骤;根据上述被分析的输入信号的特性适用处理各个不同的时标修正的步骤。
2、 如权利要求l所述的音频帧属性的调节方法,其特征在于 所述输入信号的特性就是区分输入信号为语音或是语音以外的信号。
3、 如权利要求1所述的音频帧属性的调节方法,其特征在于 上述输入信号的特性分析就是在音频中以帧为单位利用平均幅度差函数的基音搜索运算法则,然后确认输入信号的特性是语音或是语音以外的信号,再根据该 结果运行与各个信号特性相适应的时标修正处理。
4、 如权利要求l所迷的音频帧属性的调节方法,其特征在于 当上述输入信号的特性分析结果、输入帧的信号特性为语音信号时,适用最佳化平均幅度差函数与叠加运算法则技法,然后运行语音中心的时标修正处理。
5、 如权利要求1所述的音频帧属性的调节方法,其特征在于 如果所述输入信号的特性分析结果、输入帧的信号特性判断为语音以外的信号时,以所需要的大小来扩展基音搜索带域,重新适用最佳化平均幅度差函数与叠 加运算法则技法,然后运行时标修正处理。
6、 如权利要求l所述的音频帧属性的调节方法,其特征在于 所述输入信号的特性通过音频的平均幅度差函数搜索基音,然后比较被搜索的基音的值和允许界限值,再根据比较结果区分是语音信号或是语音以外的信号。
7、 如权利要求l所述的音频帧属性的调节方法,其特征在于 上述输入信号的特性通过音频的平均幅度差函数搜索基音,比较被搜索的基奮的平均幅度差函数值和允许公差界限5值,<formula>formula see original document page 3</formula>语音信号条件 i=Q<formula>formula see original document page 3</formula>不是语音的条件以此,区分是语音信号或是语音以外的信号。
全文摘要
本发明涉及一种音频帧属性的调节方法,是一种为了没有音色变化地控制语音及音频再生速度,而分析输入信号的特性,然后根据该分析结果来运行适合于被输入信号特性的TSM(时标修正)处理功能语音处理方法。本发明作为一种音频帧属性的调节方法,对于TSM基础的语音及音频变速再生方法来说,其包括以下几个步骤;分析输入语音或是音频信号的特性的步骤;根据上述被分析的输入信号的特性适用处理各个不同的TSM的步骤。本发明在分析输入信号的特性后,根据输入信号为语音或是语音以外的信号,适用与各个信号适合的TSM处理功能,然后运行信号的扩展或是压缩等的再生属性率调节,具有品质更高的TSM效果。
文档编号G10L19/00GK101211560SQ20061014828
公开日2008年7月2日 申请日期2006年12月29日 优先权日2006年12月29日
发明者全慧政, 崔宇英 申请人:上海乐金广电电子有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:可实现2d3d转换的液晶显示装置的制作方法技术领域:本实用新型涉及液晶显示技术,尤其涉及一种可实现2D3D转换的液 晶显示装置。背景技术:在专利申请号为03822932.3的专利中公开了通过在液晶显示装置中附 加可控液晶光栅来实现

    专利发布时间:2025-05-15阅读:(62)

    专利名称:带有音准律标记的提琴的制作方法技术领域:本实用新型涉及一种带有音准律标记的提琴。技术背景目前随着音乐知识的普及,学习提琴的人越来越多,在学习过程中往往请专业老师在提琴指板上做记号,这样存在很大的弊端,首先是标记的设置比较麻烦,设置

    专利发布时间:2025-05-15阅读:(90)

    一种语音识别升降座椅的制作方法【专利摘要】本实用新型涉及一种语音识别升降座椅,包括座位椅本体,其特征在于,还包括设于座位椅本体上的语音输入装置、预处理电路、语音识别电路、数据转换电路和执行机构;所述语音输入装置、预处理电路、语音识别电路、数

    专利发布时间:2025-05-15阅读:(77)

    专利名称:一种紧凑的光模块的制作方法技术领域:本发明涉及光纤通信领域,尤其涉及一种紧凑的光模块。 背景技术:现有技术中的光模块一般由底座、上盖、激光头卡、印刷电路板、十字盘头螺钉、十字沉头螺钉、拉钩、推块、压簧、齿形弹片等零件组成。光模块底

    专利发布时间:2025-05-15阅读:(62)

    专利名称:车辆摄像装置的制作方法技术领域:本实用新型涉及一种摄像装置,尤其是使用在车辆上的摄像装置。技术背景随着信息技术的发展和液晶显示器的广泛应用,人开始在使用摄像装 置,以便驾驶员能够方便地观测车辆两侧及尾部的路面情况,而不是左顾右盼。

    专利发布时间:2025-05-15阅读:(82)

    专利名称:背光组件和具有该背光组件的显示设备的制作方法技术领域:本公开涉及在至少两个区域中聚集光的背光组件和具有该背光组件 的多视图显示设备。背景技术:io 本申请要求2007年10月24日提交的韩国专利申请No.10-2007-01072

    专利发布时间:2025-05-15阅读:(75)