当前位置:网站首页>专利 >正文

改进噪声环境和频率失谐条件下话音识别性能的系统和方法

专利名称:改进噪声环境和频率失谐条件下话音识别性能的系统和方法
背景1、领域本发明涉及通信领域,尤其涉及噪声环境和频率失谐条件下改善语音识别性能的系统和方法。
2、背景语音识别(VR)是一种非常重要的技术,它通过赋予机器具有模拟智能来识别使用者或者使用者的语音命令,而且促进了人和机器的交流。语音识别也是一种理解人类语言的非常重要的技术。采用某些技术将声学语音信号恢复成语言信息的系统称为话音识别器。这里使用的术语“话音识别器”通常是指任意的使用者语音接口使能装置。
由于安全的原因,话音识别的使用(通常也叫语言识别)变得越来越重要。例如,可以使用语音识别来代替无线电话键盘上手动操作按键。当使用者在驾驶车辆的同时使用电话时,这一点变得尤为重要。当使用没有语音识别的电话机时,驾驶员必须把一只手从方向盘上拿开打电话,而且要在按键拨打电话的时候看着电话键盘。这些动作增加了发生车祸的可能性。语音使能电话(即,为语音识别而设计的电话)使得驾驶员能够在持续看着路面的情况下拨打电话。另外,手持车载系统使得驾驶员能够在电话呼叫的时候将双手保持在方向盘上。
语音识别装置可以分为依赖于说话者的设备(SD)和不依赖于的说话者的设备(SI)。依赖于说话者的设备(SD)较为常用,其设计用于识别来自特定使用者的命令。相反,不依赖于说话者的设备(SI)能够接受来自任何使用值的话音命令。为了提高给定语音识别系统(无论是依赖于说话者的设备(SD)还是不依赖于说话者的设备(SI))的性能,都要进行训练,使系统具有有效的参数。换句话讲,在系统能够很好的工作之前,需要进行学习。
典型的手持车载系统可以包括键盘上的数字键;关键词“呼叫”、“发送”、“拨号”、“取消”、“清除”、“添加”、“删除”、“历史”、“程序”、“是”和“否”;以及预定个同事、朋友和家人的名字。一旦训练结束,使用者可以通过讲出训练过的关键词来拨打电话,其中,训练过的语音识别装置通过将发出的语音与以往存储在模板中的训练时发出的语音进行比较并采用采用最佳匹配来进行识别。例如,假设“约翰”是一个训练过的名字,使用者可以通过讲出“呼叫约翰”这个短语来进行呼叫。语音识别系统可以识别“呼叫”和“约翰”这两个词语,而且可以拨打使用者事先存储的约翰的电话号码。无用模板(garbage template)用来表示词汇表中不存在的词语。
将多个引擎组合起来提供了更高的准确度,并在输入语音信号中利用更大量的信息。组合多个语音识别引擎的系统和方法见美国专利申请09/618,177(在下文中称为′177号申请),其标题是“Combined Engine System and Method forVoice Recognition”,其申请日为2000年7月18日;以及美国专利申请号为09/657,760(在下文中称为′760号申请),其标题是“System and Method forAutomatic Voice Recognition Using Mapping”,其申请日为2000年9月8日,此二专利已转让给本发明的受让人,在此引述供参考。
虽然具有组合语音识别引擎的语音识别系统比采用单独语音识别引擎的系统更准确,但是由于嘈杂环境的影响,组合语音识别系统中的每个语音识别引擎可能引入不准确度。由于背景噪声,可能无法识别输入语音信号。背景噪声可能导致输入语音信号与语音识别系统词汇表模板之间的不匹配,或者引起两者的错误匹配。当输入语音信号和模板之间不匹配时,输入语音信号将被拒绝。而当发生错误匹配时,语音识别系统选定了一个不对应于输入语音信号的模板。这个错误匹配的情况也被认为是一种替换——错误模板替换了正确模板。
人们希望得到一种在存在背景噪声的情况下,可以提高语音识别准确度的具体方法。一个背景噪声引起拒绝或错误匹配的例子是,当在驾驶的过程中使用移动电话进行语音拨号时,麦克风接收的输入语音信号会受到附加公路噪声的严重干扰。附加公路噪声可能会劣化话音识别率和准确率,并引起拒绝或错误匹配。
另一个噪声引起拒绝或错误匹配的例子是,当麦克风放在护目镜或者耳机上时,接收的语音信号会受到环绕失真。环绕失真引起的噪声称为环绕噪声和频率错误匹配。环绕失真取决于很多因素,例如嘴和麦克风间的距离、麦克风的频率响应、汽车内部的声学特性等等。这些情况都可能降低语音识别准确度。
传统上,现有技术的语音识别系统包含RASTA滤波器来过滤环绕噪声。但是,背景噪声是不能被RASTA滤波器过滤掉的。因此,需要一种技术可以同时过滤环绕噪声和背景噪声。这种技术可以提高语音识别系统的准确度。
3、发明概述本文所描述的实施例提供了一种改善语音识别系统的前端的系统和方法。一方面,语音识别的系统和方法包含吠声振幅的μ律压缩。另一方面,话音识别的系统和方法包含吠声振幅的A-律压缩。吠声振幅的μ律和A律压缩都减小了嘈杂环境的影响,因此,提高了整个话音识别系统的准确度。
另一方面,话音识别的系统和方法包含吠声振幅的μ律压缩和RelAtiveSpecTrAl(RASTA)滤波器输出的μ律扩展。在另一个方面,话音识别的系统和方法包含吠声振幅的A律压缩和RASTA滤波器输出的A律扩展。当使用μ律压缩和μ律扩展,或者A律压缩和A律扩展时,匹配引擎如“动态时间扭曲(Dynamic Time Warping,DTW)”引擎更适合于处理信道错误匹配的情况。
4、附图简述通过接下来的详细描述和对应的附图,可以使这个发明的特点、目标和优点变得更加清楚。图中,相同的标记所表示的意义相同。


图1是语音识别系统中的典型语音识别前端;图2是语音识别系统中隐藏Markov模型(HMM)模块的前端;图3是用μ律压扩方案代替对数(log)压缩的前端;图4是用A律压扩方案代替对数压缩的前端;图5是Log10()函数和μ-log函数固定点执行图,其中C=50;
图6是按照采用μ律压缩和μ律扩展的实施例的前端;图7是按照采用A律压缩和A律扩展的实施例的前端。
5、特定实施例的描述为了给出一个语言段的特性,语音识别系统包含一个进行前端处理的前端。图1是语音识别系统中的典型语音识别前端10。在每隔T毫秒,吠声振幅产生模块12把数字化的语音信号s(n)转换成k个吠声振幅一次。在一个实施例中,T是10毫秒,k是16个吠声振幅。因此,每10毫秒就有16个吠声振幅。本领域中的普通技术人员能够理解,k可以是任何的正整数。本领域中的普通技术人员也能够理解,T可以是任意的时间段。
吠声范围是和人类听力感觉相对应的临界带的频率偏差范围。LawrenceRabiner和Biiing-Hwang Juang的“Fundamentals of Speech Recognition”(1993)所描述的吠声振幅计算是本领域中的普通技术人员能够理解的。该文献在此引述供参考。
吠声振幅产生模块12和对数(Log)压缩模块14相连接。通过对每一个吠声振幅取对数,对数(Log)压缩模块14把吠声振幅变换成log10的标度。对数(Log)压缩模块14和对数倒频谱转换模块16相连接。对数倒频谱转换模块16计算j静态对数倒频谱系数和j动态对数倒频谱系数。对数倒频谱转换是一个大家都了解的余弦转换。参考前面的参考文献引用的Lawrence Rabiner和Biiing-Hwang Juang的例子。在一个实施例中,j是8。本领域中的普通技术人员能够理解,j可以是任何的正整数。因此,每隔T毫秒时间,前端模块10产生2*j个系数。这些特征由后端模块处理(未示出),例如进行语音识别的HMM系统。一个HMM模块模拟识别输入语音信号的可能的框架结构。HMM模型的时间和频谱的约束,都被用来量化整个发音特征。
图2示出了一种语音识别系统中的HMM模块的前端。吠声振幅模块12和对数(Log)压缩模块14相连接。对数(Log)压缩模块14和RASTA滤波模块18相连接。RASTA滤波模块18和对数倒频谱转换模块16相连接。使用带通滤波器h(i)对来自每个k信道的对数吠声振幅进行滤波。在一个实施例中,RASTA滤波器是一个带通滤波器h(i),中心频率大约在4kHz的范围被。在语音中大概是每吉秒(Gsecond)四个音节。因此,带通滤波器的中心频率大约在4Hz范围,能够保持象语音的信号,并削弱不象语音的信号。因此,带通滤波器可以在嘈杂环境和频率失配的情况下,提高语音识别的准确度。本领域中的普通技术人员能够理解,中心频率可能不是4Hz,这取决于任务的要求。
然后,每隔T毫秒时间,对数倒频谱转换模块处理已经被滤波的对数吠声振幅,来产生2*j系数。一个可以用在语音识别前端里的带通滤波器的例子是RASTA滤波器,见本文引用的美国专利5,450,522,题目“Auditory Model forParametrization of Speech”,其申请日为1995年9月12日。图2所示的前端减少了信道间的失配效应,并且提高了语音识别的准确度。
图2描述的前端在背景失配的情况下是不稳固的。其中的一个原因是,对数压缩处理对吠声信道有非线性放大效应。对数压缩使得在吠声信道内,低振幅区的放大效应高于高振幅区。由于背景噪声的特性是处于吠声信道的低振幅区,语音识别性能随着信噪比的降低开始劣化。因此,人们希望有一种模块可以在吠声信道内的低振幅区呈线性,而在高振幅区具有对数特性。
可以通过使用对数压扩方案来有效的实现这一点,例如G.711对数压扩(压缩和扩展),见世界电信联盟(ITU-T)建议G.711(11/88)“Pulse Code Modulation(PCM)of Voice Freqhencies”,以及G.711C、G.711“Encoding/DecodingFunctions”。世界电信联盟(ITU-T)(世界电信联盟的电信标准部门)是建立电信设备和系统合作标准的主要国际机构。
这里有两个G.711对数压扩方案一个是μ律压扩方案,一个是A律压扩方案。μ律压扩方案和A律压扩方案都是脉冲编码调制(PCM)的方法。也就是说,对模拟信号进行采样,然后对采样信号的幅度进行量化,也就是指定一个数字化的值。μ律压扩方案和A律压扩方案都是通过线性近似采样信号的对数曲线来量化采样信号的。
μ律压扩方案和A律压扩方案都是对一个对数曲线进行的,因此,对数曲线分为几段,每一后续段的长度是前一段长度的两倍。因为μ律压扩方案和A律压扩方案计算线性近似的方法不同,所以A律压扩方案和μ律压扩方案具有不同段长。
G.711标准包含一个μ律查找表,如下面表格1所示,它接近μ律的线性近似。在采用μ律压扩方案的时候,模拟信号用总共8,159个间隔来近似。
表1G.711标准包含一个A律查找表,它接近如下面表格2所示的A律线性近似。在采用A律压扩方案的时候,一个模拟信号用总共4,096个间隔来近似。
表2G.711标准指定μ律压扩方案代表在8比特/样本里进行的14比特/样本的语音量化。G.711标准也指定A律压扩方案代表在8比特/样本里进行的13比特/样本的语音量化。典型的8比特数据是语音电话。对于信号(例如语音)带有拉普拉斯概率密度函数(PDF),最好采用G.711规范。
本领域中的普通技术人员能够理解,还可以采用其它的压扩方案。另外,本领域中的普通技术人员能够理解,也可以采用其它的量化速率。
在一个实施例中,前端里使用了μ律压扩方案20来代替对数压缩方案,如图3所示。图3示出用μ律压扩方案的前端,也就是μ-log压缩模块20。吠声振幅产生模块12和μ-log压缩模块20相连接。μ-log压缩模块20和RASTA滤波模块18相连接。RASTA滤波模块18和对数倒频谱转换模块16相连接。
数字语音信号s(n),包含了进入吠声振幅产生模块12的环绕失真。在吠声振幅产生模块12把数字脉冲编码语音信号s(n)转换成k个吠声振幅后,环绕失真变成了乘法失真。μ-log压缩模块20对k个吠声振幅进行μ-log压缩。μ-log压缩使得乘法失真变成附加的。由于环绕失真分量是固定的,RASTA滤波模块18可以过滤任何固定的分量,因此,去掉了环绕失真。对数倒频谱转换模块16计算RASTA滤波输出的j静态对数倒频谱系数和j动态对数倒频谱系数。
在另一个实施例中,前端里使用了一个A律压扩方案21来代替对数压缩方案,如图4所示。图4是用A律压扩方案的前端,也就是A-log压缩模块21。吠声振幅产生模块12和A-log对数压缩模块21相连接。A-LOG压缩模块21和RASTA滤波模块18相连接。RASTA滤波模块18和对数倒频谱转换模块16相连接。
一个采用G.711μ律压扩的实施例有两个产生吠声振幅的功能,分别叫做压缩吠声振幅的μ律压缩,和扩展滤波器输出的μ律扩展。在一个实施例中,μ-log压缩模块20利用如下的公式进行压缩Log_Bark(i)=(255-μ_law_compress[Bark(i)])*C,C是一个常数。
可以调节C的值,以利用固定点的语音识别中已有分辨率的优点。
图5是Log10()函数和μ-log函数固定点实施方式时的图(C=50)。图5示出对于低振幅信号,μ-log函数比Log10()函数更加线性。
在一些识别方案中,后端对吠声信道的振幅进行操作,而不是对静态和动态对数倒频谱参数进行计算。在’177申请和’760申请里描述的组合引擎的方案中,DTW引擎在时间聚类(time-clustering)和振幅量化以后,对吠声信道幅度进行操作。DTW引擎是基于模板匹配的。存储的模板要和输入语音信号的特征相匹配。
’177号申请和’760号申请里描述的DTW引擎在背景失配条件下比信道失配条件下稳固。图6描述了实施例的前端,它改善了信道失配条件下的DTW引擎。图6是一个按照使用μ律压缩模块和μ律扩展模块22的实施例的前端,也就是μ-log压缩模块20和μ律扩展模块22。吠声振幅模块12和μ-log压缩模块20相连接。μ-log压缩模块20和RASTA滤波模块18相连接。RASTA滤波模块18和μ律扩展模块22相连接。
在一个实施例中,μ-log扩展使用如下的公式Bark’(i)=μ_law_expand(255-[R(i)*D]),D是一个常数。
R(i)是RASTA模块的输出,D=0.02(或1/C)。在一个实施例中,[R(i)*D]的取值范围是0到127。μ-log扩展把Bark’(i)放入了吠声振幅的范围内,而且RASTA的处理去掉了信道失配条件下的不利效应。
图7描述了在信道失配条件下改善DTW引擎的实施例。图7示出一个按照使用A律压缩和A律扩展的实施例的前端,也就是,A-LOG压缩模块24和A律扩展模块26。吠声振幅模块12和A-LOG压缩模块24相连接。A-LOG压缩模块24和RASTA滤波模块18相连接。RASTA滤波模块18和A律扩展模块26相连接。A-LOG压缩模块24对RASTA过滤的吠声振幅进行A-LOG压缩。
因此,这里描述了一个新颖的和改进的语音识别方法和设备。本领域中的普通技术人员能够理解,这些不同的讲明性的逻辑块、模块和图表,它们与这里讲明的实施例是相关联的,它们也是能够被电子设备、计算机软件、或这两者的结合体执行的。这些不同的元件、块、模块、电路和步骤已经根据它们的功能性进行了一般性的描述。这些功能是否可以作为软件或硬件执行,取决于整个系统的设计约束条件和特殊的应用要求。本领域中的普通技术人员能够理解在这些环境下的软件和硬件具有可交换性,而且对每个独特的应用可以很好的执行已描述的功能。例如,与这里描述的实施例相关联的不同的逻辑块、模块和图表可以被执行或者采用,通过采用固件指令集的处理器、明确应用的集成电路(ASIC)、可编程域门阵列(FPGA)、或其它可编程逻辑器件、分离门或晶体管逻辑器件、分离硬件元件(例如寄存器)、任何常规的可编程软件模块和处理器、或者任何这里设计的联合器件,可以实现本文描述的功能。吠声振幅产生12、RASTA滤波模块18、μ-log压缩模块20、A-LOG压缩模块21和对数倒频谱转换模块16可以在微处理器中被方便地执行,而且吠声振幅产生、RASTA滤波模块、μ-log压缩模块、A-LOG压缩模块和对数倒频谱转换模块也能够在任何常规的处理器、控制器、微控制器或正式机器上执行。这些模板能够放在RAM存储器、flash存储器、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、可移动盘、CD-ROM或者任何其它已知的存储介质中。这些存储器(未示出)可以和任何上述的处理器(未示出)集成。处理器(未示出)和存储器(未示出)可以放在ASIC(未示出)中。ASIC可以放在电话机中。
为了能够使熟悉该技术的普通技术人员能够制造和使用这个发明,上文中描述了这个发明的实施例。这些实施例的不同修正对于熟悉该技术的普通技术人员来说是十分明显的。这里所描述的一般原理也可以应用于其它的实施例,而无需借助于发明人。因此,这个发明并不局限于这里所示的实施例,应当从最宽的意义上来理解本发明。
权利要求
1.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声(bark)振幅的吠声振幅生成模块;与吠声振幅生成模块相连接的μ-log压缩模块,所述μ-log压缩模块用以对吠声振幅执行μ-log压缩;与所述μ-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对μ-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的对数倒频谱转换模块,所述对数倒频谱转换模块用于生成J静态对数倒频谱系数以及J动态对数倒频谱系数。
2.如权利要求书1所述的语音识别器,其特征在于,它还包含处理J静态对数倒频谱系数以及J动态对数倒频谱系数以及产生识别假说的末端。
3.如权利要求书1所述的语音识别器,其特征在于,所述μ-log压缩是G.711μ-log压缩。
4.如权利要求书1所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转换成K吠声振幅。
5.如权利要求书4所述的语音识别器,其特征在于,所述对数倒频谱转换模块用来每隔T毫秒的时间,生成J静态对数倒频谱系数以及J动态对数倒频谱系数。
6.如权利要求书4所述的语音识别器,其特征在于,K等于16。
7.如权利要求书4所述的语音识别器,其特征在于,T等于10。
8.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与吠声振幅生成模块相连接的A-log压缩模块,所述A-log压缩模块用以对吠声振幅执行A-log压缩;与所述A-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对A-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的对数倒频谱转换模块,所述对数倒频谱转换模块用于生成J静态对数倒频谱系数以及J动态对数倒频谱系数。
9.如权利要求书8所述的语音识别器,其特征在于,它还包含处理J静态对数倒频谱系数以及J动态对数倒频谱系数以及产生识别假说的末端。
10.如权利要求书8所述的语音识别器,其特征在于,所述μ-log压缩是G.711μ-log压缩。
11.如权利要求书8所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转换成K吠声振幅。
12.如权利要求书11所述的语音识别器,其特征在于,所述对数倒频谱转换模块用来每隔T毫秒的时间,生成J静态对数倒频谱系数以及J动态对数倒频谱系数。
13.如权利要求书11所述的语音识别器,其特征在于,K等于16。
14.如权利要求书12所述的语音识别器,其特征在于,T等于10。
15.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与所述吠声振幅生成模块相连接的μ-log压缩模块,所述μ-log压缩模块用以对所述吠声振幅执行μ-log压缩;与所述μ-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对μ-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的μ-log扩展模块,所述μ-log扩展模块用于对经滤波的μ-log吠声振幅进行μ-log扩展。
16.如权利要求书15所述的语音识别器,其特征在于,它还包括用于处理经扩展的吠声振幅和产生识别假设的末端。
17.如权利要求书15所述的语音识别器,其特征在于,所述μ-log压缩和扩展是G.711μ-log压缩和扩展。
18.如权利要求书15所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒的时间,将数字语音信号转变为K吠声振幅。
19.如权利要求书18所述的语音识别器,其特征在于,所述μ-log扩展模块用来将经滤波的μ-log吠声振幅扩展成K扩展的吠声振幅。
20.如权利要求书18所述的语音识别器,其特征在于,K等于16。
21.如权利要求书19所述的语音识别器,其特征在于,所述T等于10。
22.一种分布式语音识别系统的语音识别器,其特征在于,它包括配置用于将数字化语音信号转变为吠声振幅的吠声振幅生成模块;与所述吠声振幅生成模块相连接的A-log压缩模块,所述A-log压缩模块用以对所述吠声振幅执行A-log压缩;与所述A-log压缩模块相连的RASTA滤波模块,所述RASTA滤波模块用以对A-log吠声振幅进行RASTA滤波;以及与所述RASTA滤波模块相连的A-log扩展模块,所述μ-log扩展模块用于对经滤波的μ-log吠声振幅进行A-log扩展。
23.如权利要求书22所述的语音识别器,其特征在于,它还包括处理经扩展的吠声振幅和产生识别假设的末端。
24.如权利要求书22所述的语音识别器,其特征在于,所述A-log压缩和扩展是G.711A-log压缩和扩展。
25.如权利要求书22所述的语音识别器,其特征在于,所述吠声振幅生成模块每隔T毫秒时间,将数字语音信号转变成K吠声振幅。
26.如权利要求书25所述的语音识别器,其特征在于,所述A-log扩展模块是用来将经滤波的吠声振幅扩展成经K扩展的吠声振幅。
27.如权利要求书25所述的语音识别器,其特征在于,K等于16。
28.如权利要求书27所述的语音识别器,T等于10。
29.一种进行话音识别器处理用以话音识别的方法,其特征在于,它包括将数字语音信号转变成吠声振幅;对所述吠声振幅进行μ-log压缩;对μ-log吠声振幅进行RASTA滤波;以及把所述μ-log吠声振幅对数倒频谱转换为J静态对数倒频谱系数和J动态对数倒频谱系数。
30.如权利要求书29所述的方法,其特征在于,所述μ-log压缩是G.711μ-log压缩。
31.如权利要求书29所述的方法,其特征在于,所述转化包括每隔T毫秒时间,将数字语音信号转化成K吠声振幅。
32.如权利要求书31所述的方法,其特征在于,所述转换包括每隔T毫秒,将μ-log吠声振幅对数倒频谱转换为J静止对数倒频谱系数和J动态对数倒频谱系数。
33.如权利要求书31所述的方法,其特征在于,K等于16。
34.如权利要求书32所述的方法,其特征在于,T等于10。
35.一种话音识别的方法,其特征在于,它包括将数字语音信号转换为吠声振幅;对吠声振幅进行μ-log压缩;对所述μ-log吠声振幅进行RASTA滤波;将所述μ-log吠声振幅对数倒频谱转化为J静止对数倒频谱系数和J动态对数倒频谱系数;根据所述J静态对数倒频谱系数和J动态对数倒频谱系数,产生一个识别假设。
36.一种话音识别方法,其特征在于,它包括将数字语音信号转化为吠声振幅;对所述吠声振幅进行A-log压缩;对所述A-log吠声振幅进行RASTA滤波;将A-log吠声振幅对数倒频谱转化为J静态对数倒频谱系数和J动态对数倒频谱系数。
37.如权利要求书36所述的方法,其特征在于,A-log压缩是G.711A-log压缩。
38.如权利要求书36所述的方法,其特征在于,所述转换包括每隔T毫秒的时间,将数字语音信号转化成K吠声振幅。
39.如权利要求书31所述的方法,其特征在于,所述转化包括每隔T毫秒的时间,将A-log吠声振幅转变为J静态对数倒频谱系数和J动态对数倒频谱系数。
40.如权利要求书31所述的方法,其特征在于,K等于16。
41.如权利要求书32所述的方法,其特征在于,T等于10。
42.一种话音识别的方法,其特征在于,它包括将数字语音信号转变为吠声振幅;对所述吠声振幅进行A-log压缩;将A-log吠声振幅对数倒频谱转变为J静态对数倒频谱系数和J动态对数倒频谱系数;以及根据J静态对数倒频谱系数和J动态对数倒频谱系数产生一个识别假设。
43.一种话音识别的方法,其特征在于,它包括将数字语音信号转变为吠声振幅;对所述吠声振幅进行μ-log压缩;将μ-log吠声振幅进行RASTA滤波;以及对经滤波的μ-log吠声振幅进行μ-log扩展。
44.如权利要求书43所述的方法,其特征在于,所述μ-log压缩是G.711μ-log压缩。
45.如权利要求书43所述的方法,其特征在于,所述转变包括每隔T毫秒的时间,将数字语音信号转化为K吠声振幅。
46.如权利要求书45所述的方法,其特征在于,K等于16。
47.如权利要求书46所述的方法,其特征在于,T等于10。
48.一种话音识别的方法,其特征在于,它包括将数字语音信号转变为吠声振幅;对所述吠声振幅进行μ-log压缩;对μ-log吠声振幅进行RASTA滤波;对经滤波的μ-log吠声振幅进行μ-log扩展;以及根据经扩展的μ-log吠声振幅,产生一个识别假设。
49.一种话音识别方法,其特征在于,它包括将数字语音信号转变为吠声振幅;对所述吠声振幅进行A-log压缩;对A-log吠声振幅进行RASTA滤波;对经滤波的A-log吠声振幅进行A-log扩展。
50.如权利要求书49所述的方法,其特征在于,所述A-log压缩是G.711Alog压缩。
51.如权利要求书49所述的方法,其特征在于,所述转换包括每隔T毫秒的时间,将数字语音信号转化为K吠声振幅。
52.如权利要求书51所述的方法,其特征在于,K等于16。
53.如权利要求书52所述的方法,其特征在于,T等于10。
54.一种话音识别的方法,其特征在于,它包括将数字语音信号转变为吠声振幅;对吠声振幅进行A-log压缩;对A-log吠声振幅进行RASTA滤波;对经过滤的A-log吠声振幅进行A-log扩展;以及根据经扩展的A-log吠声振幅,产生一个识别假设。
全文摘要
通过改善语音识别系统10的语音识别器,实现了一种可以改善语音识别性能的方法和系统。为了减少附加噪声效应提高语音识别系统的准确度,采用了吠声振幅的μ律压缩20。采用吠声振幅的A律压缩,来提高语音识别器的准确度。在语音识别器中,可以同时采用μ律压缩20和μ律扩展22,来提高语音识别器的准确度。在语音识别器中,可以同时采用A律压缩21和A律扩展,来提高语音识别器的准确度。
文档编号G10L15/20GK1473323SQ01818337
公开日2004年2月4日 申请日期2001年10月25日 优先权日2000年10月31日
发明者H·加鲁达德里, H 加鲁达德里 申请人:高通股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:内插滤波器和备有该滤波器的接收机的制作方法技术领域:本发明涉及用于以逐行移动的取样方式取样的图象信号的内插滤波器和具有这种滤波器的接收机。欧洲专利申请EP-A0,146,713号公开了这种形式的内插滤波器。在该申请所述的缪司(MU

    专利发布时间:2025-05-15阅读:(96)

    专利名称:卡拉ok装置的制作方法技术领域:本发明涉及卡拉OK装置,特别是涉及具有合成并输出歌唱声音的功能的卡拉OK装置。在现有的一般的卡拉OK装置中,当指定了演奏乐曲时,就进行指定的乐曲的卡拉OK演奏,并与演奏一致地在监视器上显示出歌词。使

    专利发布时间:2025-05-15阅读:(80)

    专利名称:智能半导体散热led灯的制作方法技术领域:智能半导体散热LED灯技术领域[0001]本实用新型涉及一种LED照明灯,具体涉及一种应用于用于家庭、公共以及特种 照明,对照明灯的质量要求相对较高的场合的智能半导体散热LED灯。背景技术

    专利发布时间:2025-05-15阅读:(70)

    专利名称:一种led灯具后盖电路集成系统的制作方法技术领域:本实用新型涉及LED灯具。背景技术:因LED的节能、寿命长而深受大家的接受,现在,各个领域中使用LED的越来越多,图1中披露了一种影视舞台灯,主要包括壳体,在壳体内设有光源、驱动装

    专利发布时间:2025-05-15阅读:(63)

    专利名称:集成吊顶用发光面板的制作方法技术领域:集成吊顶用发光面板技术领域[0001]本实用新型涉及一种集成吊顶用发光面板。背景技术:[0002]现有的适用于集成吊顶的照明灯,通常包括面板,设置在面板上方的发光体。面板主要用于散射作用,避免

    专利发布时间:2025-05-15阅读:(118)

    专利名称:一种自降温长寿命led灯的制作方法技术领域:本实用新型涉及一种LED灯,具体地说是一种带自降温功能的长寿命LED灯,属于灯具技术领域。背景技术:如今使用的LED灯,当工作温度低时,LED的正常工作和寿命都可以得到保证,但是在温度比

    专利发布时间:2025-05-15阅读:(67)