专利名称:为话音识别导出压缩声学模型的方法
技术领域:
本发明涉及为话音识别导出压縮声学模型的方法。
背景技术:
话音识别(或者更常见的叫法是自动话音识别)有许多应用,例如自动语音响应、 语音拨号和数据输入等等。话音识别系统的性能通常基于准确性和处理速度,并且挑战在 于在不影响准确性或处理速度的情况下设计具有更低处理功率和更小存储器大小的话音 识别系统。近年来,对于也需要某种形式的话音识别应用的更小且更紧凑的设备,这个挑战 更大。 在Enrico Bocchieri禾口 Brian Kan-Wing Mak的论文"SubspaceDistribution Clustering Hidden Markov Model", IEEE transactions on Speechand Audio Processing, Vol. 9,No. 3,March 2001中,提出了一种方法,其减小声学模型的参数空间,从 而带来了存储器和计算的节省。然而,所提出的方法仍然需要相对大量的存储器。
本发明的一个目的是提供一种为话音识别导出压縮声学模型的方法,这种方法向 公众提供了一种有用的选择并且/或者减轻了现有技术的缺陷中的至少一个。
发明内容
本发明提供了一种为话音识别导出压縮声学模型的方法。该方法包括(i)将一 声学模型变换到本征空间(eigenspace)中,以获得该声学模型的本征矢量及其本征值; (ii)基于每个本征矢量的每个维度的本征值,来确定主导特性;以及(iii)基于主导特性 对维度进行选择性编码,以获得压縮声学模型。 通过使用本征值,这提供了用于确定声学模型的每个维度的重要性的手段,而重 要性形成了选择性编码的基础。这样,与倒谱空间(c印stralspace)中相比,这创建了大小 大大降低的压縮声学模型。 对于编码,优选标量量化,因为这种量化是"无损"的。 优选地,确定主导特性包括识别高于阈值的本征值。与具有低于阈值的本征值的
维度相比,与高于阈值的本征值相对应的维度可用较高的量化大小来编码。 有利地,在选择性编码之前,该方法包括对经变换的声学模型进行规格化
(normalization)以将每个维度转换成标准分布。选择性编码于是可包括基于统一量化码
书来对每个经规格化的维度进行编码。优选地,码书具有一字节大小,但这并不是绝对必
要,而是可取决于应用。 如果使用一字节码书,则优选地,具有高于重要性阈值的重要性特性的经规格化 的维度被用一字节码字来编码。另一方面,具有低于重要性阈值的重要性特性的经规格化 的维度被用小于1字节的码字来编码。 本发明还提供了用于为话音识别导出压縮声学模型的装置/系统。该装置包括 用于将一声学模型变换到本征空间中以获得该声学模型的本征矢量及其本征值的装置,用于基于每个本征矢量的每个维度的本征值来确定主导特性的装置,以及用于基于主导特性 对维度进行选择性编码以获得压縮声学模型的装置。
现在将参考附图以示例方式描述本发明的实施例,附图中, 图1是示出用于为话音识别导出本征空间中的压縮声学模型的处理的总概况的 框图; 图2是更详细示出图1的处理并且还包括解码和解压縮步骤的框图; 图3是未压縮声学模型的线性变换的图形表示; 包括图4a至4c的图4是示出在规格化后本征矢量的维度的标准正态分布的曲线 图; 图5示出了有和没有判别分析(discriminant analysis)的不同编码技术;并且 图6是示出不同的模型压縮效率的表格。
具体实施例方式
图1是示出本发明的用于导出压縮声学模型的优选处理的总概况的框图。在步骤 10,原始的未压縮声学模型首先被转化并被表示在倒谱空间中,并且在步骤20,倒谱声学模 型被转换到本征空间中,以确定倒谱声学模型的哪些参数是重要/有用的。在步骤30,声学 模型的参数基于重要性/有用性特性被编码,然后,经编码的声学特征在步骤40和50中被 集合在一起,作为本征空间中的压縮模型。 现在将通过参考图2来更详细描述上述步骤中的每一个。 在步骤IIO,在倒谱空间中表示未压縮的原始信号模型,例如话音输入。取未压縮 原始信号模型的采样,以形成倒谱空间中的模型112。倒谱空间中的模型112形成后续数据 输入的基准。然后在步骤120使倒谱声学模型数据经历判别分析。将线性判别分析(LDA) 矩阵用于未压縮的原始信号模型(以及采样)以将倒谱空间中的未压縮原始信号模型(以 及采样)变换成本征空间中的数据。应当注意,未压縮的原始信号模型是矢量,因此包括量 值和方向。 A.判别分析 通过线性判别分析,考察、评估并过滤就声学分类而言最主导的信息。这是基于这
样一个现实的在话音识别中,准确地处理所接收的话音是很重要的,但可能并不需要对话
音的所有特征编码,因为一些特征可能是不必要的,而不会对识别的准确性有影响。 假定R〃是原始特征空间,该空间是n维超空间。每个x G R〃具有在ASR系统中
有意义的类标签。接下来,在步骤130,目标是通过转换到本征空间中,来找到优化变换空间
y G RP中的分类性能的线性变换(LDA矩阵)A,该变换空间是p维超空间(通常,p《n),
射 y = Ax 其中y是本征空间中的矢量,x是倒谱空间中的数据。
在LDA(线性判别分析)理论中,可以根据下式来找到A
E—1 E BrO =①A
其中e和e Bc分别是类内(WC)和跨类(BC)协方差矩阵,A和①分别是M、c 的本征值和本征矢量的n n矩阵。 A是通过选择与p个最大本征值相对应的p个本征矢量来构造的。当根据y和x 正确导出A时,则导出了优化声学分类的LDA矩阵,该LDA矩阵帮助考察、评估和过滤未压 縮的原始信号模型。 图3图示出了线性变换的最终结果,以揭示一有用维(Dim)和一个无用维(Dim) (其没有有用信息)上的两类数据。这些类数据例如可以是音素、双音素、三音素等等。第 一椭圆114和第二椭圆116都表示由于高斯分布而得到的数据的区域。第一钟形曲线115 是由于把点从第一椭圆114内投影到第一子轴118上而得到的。类似地,第二钟形曲线117 是由于把点从第二椭圆116内投影到第一子轴118上而得到的。第一子轴118是利用对第 一椭圆114和第二椭圆116中示出的数据区域的LDA来导出的。与第一子轴118正交的第 二子轴119被插入在第一椭圆114与第二椭圆116之间的交点处。第二子轴119明显地把 数据点分到不同类中,而第一椭圆114和第二椭圆116只是不同类的近似区域。因此,根据 分开的数据区域的相对位置来确定未压縮的原始信号模型中存在的类。这个技术主要可用 于分开两类数据。每类数据也可被称为声学信号的一个特征。 正如将会明白的,根据两类的数据分布,通过LDA,可以确定按基于本征值的主导 性或重要性的顺序定义的相应本征矢量的本征值。换言之,对于LDA,较高的本征值表示更 有判别性的信息,而较低的本征值表示判别性较低的信息。 在声学信号的每个特征基于其在话音识别中的主导特性被分类之后,声学数据在 140被规格化。 B.本征空间中的规格化
本征空间中的均值估计
1 r p = ^(y,) = ^Zy,
J (=i 本征空间中的标准方差估计 e = E ((yt_E (yt)) (yt_E (yt))T) = E (ytytT) _E (yt) E (yt)T 1 r s 、Zy/y'-p、 规格化 夂=^T"S血g)' (y, — a0 其中yt 二本征空间矢量,E(y》=yt的期望,e diag =方差的对角线上的元素的协 方差矩阵,T =时间。 话音特征被假定为高斯分布,此规格化将每个维度转换为标准正态分布N(i!, o),其中y =0并且o = 1(参见图4a至4c)。
此规格化为模型压縮提供了两个优点 第一,由于所有维度共享相同的统计特性,因此对于每一个维度处的模型编 码-解码,可采用统一的奇异码书(singular codebook)。不需要为不同的维度设计不同的 码书,或者使用其他种矢量码书。这可以节省用于模型存储的存储器空间。如果码书的大 小被定义为28 = 256,则一个字节就足以表示一个码字。
5
第二,由于码书的动态范围与浮点表示相比是有限的,因此模型编码-解码在浮 点数据落在码书的范围之外(例如溢出、截短和饱和)时会带来严重的问题,这最终将导致 ASR性能劣化。利用这种规格化,可以有效地控制这种转换损失。例如,如果定点范围被设 定为±3o置信区间,则在编码-解码中导致饱和问题的数据百分比将为 <formula>formula see original document page 6</formula> 已经发现,这个微小的编码_解码误差/损失在ASR性能中是观测不到的。
C.基于判别能力的不同编码_解码精度 在模型被规格化后,其在150经历基于1字节的量化码书大小的、对声学模型的均 值矢量和协方差矩阵的判别或选择性编码。与较大本征值相对应的本征矢量上的LDA投影 被认为对于分类更重要。本征值越大,其相应方向就ASR而言的重要性就越高。因此,最大 码字大小被用于表示类。 分离"较大本征值"和其他本征值的阈值是通过交叉验证实验来确定的。首先,留 出训练数据和训练模型的一部分。然后,基于被留出的数据来评估ASR性能。对于不同的 阈值重复训练和评估ASR性能的这个处理,直到找到提供最佳识别性能的阈值为止。
由于本征空间中的维度对于语音分类具有不同的重要性特性,因此在不影响ASR 性能的情况下,使用具有不同精度的不同压縮策略。另外,由于声学模型的所有参数都是多 维矢量或矩阵,因此对每个模型参数的每一维实现标量编码。这一点尤其有利,因为标量编 码是"无损"的。在这个情况下,标量编码与普遍存在的矢量量化(VQ)相比是"无损"的。 VQ是有损压縮方法。要减小量化误差则必须增大VQ码书的大小。然而,较大的码书导致较 大的压縮模型大小和较慢的解码处理。另外,难以用有限的训练数据来可靠地"训练"大VQ 码书。这个困难之处将降低话音识别的准确性。应当注意,标量码书的大小要小得多。这 相应地有助于提高解码速度。与大VQ码书相比,用有限地训练数据也可以更可靠地估计小 标量码书。利用小标量码书还可帮助避免由量化误差引起的额外准确性损失。因此,就具 有有限训练数据的话音识别而言,标量量化胜过VQ。 选择性编码在图5中示出,其中具有较高本征值的维度被用最大限度的8比特(1 字节)来编码,而具有较低本征值的维度被利用较低的比特来编码。通过该选择性编码,将 会明白,可以实现存储器大小的减小。 在选择性编码之后,在160导出本征空间中的压縮模型。本征空间中的压縮模型 远小于倒谱空间中的数据。 图2还示出了解码步骤170和180,其中,如有必要,压縮模型被以判别方式解码, 并且压縮模型被解压縮以获得原始的未压縮模型。 压縮效率的示例在图6中示出,图6是示出与本发明提出的选择性压縮技术相比 的均等压縮技术的压縮比率的表格。可以看出,选择性压縮技术可实现更高的压縮比率。
现在已经完整描述了本发明,本领域的普通技术人员应该清楚,在不脱离所要求 保护的范围的情况下,可以对本发明做出许多修改。
权利要求
一种为话音识别导出压缩声学模型的方法,该方法包括(i)将一声学模型变换到本征空间中,以获得该声学模型的本征矢量及其本征值;(ii)基于每个本征矢量的每个维度的本征值,来确定主导特性;以及(iii)基于主导特性对维度进行选择性编码,以获得压缩声学模型。
2. 根据权利要求1所述的方法,其中,对维度编码包括在本征空间中对维度的标量量化。
3. 根据权利要求1所述的方法,其中,确定主导特性包括识别高于阈值的本征值。
4. 根据权利要求3所述的方法,其中,与具有低于阈值的本征值的维度相比,与高于阈 值的本征值相对应的维度被用较高的量化大小来编码。
5. 根据权利要求l所述的方法,还包括在选择性编码之前,对经变换的声学模型进行 规格化以将每个维度转换成标准分布。
6. 根据权利要求5所述的方法,其中,选择性编码包括基于统一量化码书来对每个经 规格化的维度进行编码。
7. 根据权利要求5所述的方法,其中,码书具有一字节大小。
8. 根据权利要求6所述的方法,其中,具有高于重要性阈值的重要性特性的经规格化的维度被用一字节码字来编码。
9. 根据权利要求6所述的方法,其中,具有低于重要性阈值的重要性特性的经规格化的维度被用小于1字节的码字来编码。
全文摘要
这里公开了一种为话音识别导出压缩声学模型的方法。在所描述的实施例中,该方法包括在步骤(20)将一声学模型变换到本征空间中,确定本征空间的本征矢量及其本征值,并且在步骤(30)基于本征空间的值对本征矢量的维度进行选择性编码,以在步骤(40和50)获得压缩声学模型。
文档编号G10L15/00GK101785049SQ200880100568
公开日2010年7月21日 申请日期2008年6月16日 优先权日2007年7月26日
发明者张化云, 许军 申请人:创新科技有限公司
为话音识别导出压缩声学模型的方法
相关推荐
专利名称:光反应性树脂组合物的制作方法技术领域:本发明涉及例如在制造电路基板或多层基板等的情况下、在基板表面或构成多层基板等的各基板上形成所需的导体图案时使用的光反应性树脂组合物。背景技术:近年来,电子设备的高功能化和高性能化正不断加快,对
专利名称:喇曼放大的色散补偿组件的制作方法背景技术:发明领域本发明涉及对通过光纤传输的光信号的色散进行补偿的组件。对现有技术的讨论通常,将包括一或多根色散补偿光纤(DCF)的色散补偿组件(DCM)称为用于对通过光纤通信系统的光纤传输的光信号
专利名称:一种布艺灯罩的制作方法技术领域:本实用新型涉及一种灯罩,特别是一种采用复合纤维布制成的布艺灯罩。本实用新型由复合纤维布制成,其特点是在普通纤维布的表面与底面均涂覆有树脂,从而形成复合纤维布,形成的复合纤维布经弯曲形成不规则波浪形的
专利名称:吉琶琴的制作方法技术领域:本实用新型涉及一种弹拨乐器,尤其是一种只用右手即可弹拨中国五声音阶作品,左右手配合可弹拨十二平均律音乐的吉琶琴。背景技术:现有的弹拨乐器种类很多,其中有琴颈的弹拨乐器就有吉他、琵琶、柳琴等。其结构都是具有
专利名称:信号处理方法、信息处理装置及用于存储信号处理程序的存储介质的制作方法技术领域:本发明涉及抑制劣化信号中的噪声以增强目标信号的信号处理技术。 背景技术:噪声抑制技术被认为是一种部分地或完全抑制劣化信号(包含噪声与目标信号的混合的信号
专利名称:用于控制视频系统的操作的方法和系统的制作方法技术领域:本发明涉及一种用于检测电视信号的方法和系统。特别地,本发明的系统和方法改善电视录制或推荐系统的可操作性。由于电视(TV)观众可用的频道数目的增加,以及在这种频道上可获得的节目内