当前位置:网站首页>专利 >正文

声学处理单元接口的制作方法

声学处理单元接口的制作方法
【专利摘要】本发明的实施例包括一种装置,方法以及系统,用于声学建模。在一实施例中,提供一种语音识别系统。该系统包括一处理单元用以将一接收到的音频信号分割成具有个别帧向量的连续帧、一声学处理单元(APU)、一数据总线用以耦合该处理单元以及该声学处理单元。该APU包括一局部非易失性存储器用以储存多个聚类状态、一记忆缓冲器用以耦合到该存储器、以及一计分单元,该声学处理单元用以将至少一储存于该存储器中的高斯机率分布向量加载至该记忆缓冲器,该计分单元用以同时比较一加载至该记忆缓冲器的高斯机率分布向量的多个维度和一从该处理单元接收的帧向量的各别维度,并输出一对应分数至该处理单元。该APU使用一第一帧来执行一比较而该处理单元使用一对应一第二帧的分数来执行一搜寻操作,且该第二帧紧接着先前的第一帧。
【专利说明】声学处理单元接口

【技术领域】
[0001]本发明的实施例一般关于语音辨识。更详而言之,本发明的实施例有关于声学建模过程在专用处理单元上的实施。

【背景技术】
[0002]即时数据模式的辨识逐渐被用于分析电子系统中的数据串流。在具有数以万字的词汇上,语音辨识系统已达到更高的精度,使其成为对于电子系统而言具吸引力的特征。举例而言,语音识别系统针对数据模式辨识的应用也越来越常见于在消费市场中,例如,行动装置,服务器,汽车,以及个人电脑的市场。
[0003]尽管在语音识别系统中有改良的精确度,显著计算资源专用于语音识别程序,依次设置显著负载于计算系统,例如,多用户/多程式环境。多程式的计算系统同时处理来自不同应用程式的数据,因此,由语音识别过程设在这些计算系统上的负载影响了该计算系统可处理传入的声音信号以及来自其他应用程式的数据的速度。此外,对于通常包括有限的存储器资源(相对于桌面计算系统)的手持装置,语音识别应用不仅设置显著负载于手持装置的计算资源上,而且消耗该手持装置的存储器资源的显著部分。上述语音识别系统的处理能力、速度和存储器资源的问题会因需要处理即时或实质上接近即时的输入声音信号而进一步恶化。


【发明内容】

[0004]因此,有必要改善语音识别系统对计算系统的处理能力、速度、以及存储器资源方面的负载。
[0005]于一实施型态中,提供一种语音辨识系统。该系统包括一处理单元用以将一接收到的音频信号分割成具有各别帧向量的连续性帧、一声学处理单元(APU)、一数据总线用以耦合该处理单元和该声学处理单元。该声学处理单元包含一局部非易失性存储器用以储存多个聚类状态、一耦合该存储器的记忆缓冲器、以及一计分单元,该声学处理单元用以将至少一储存于该存储器的高斯机率分布向量加载至该记忆缓冲器中,该计分单元用以同时比较一加载至该记忆缓冲器的高斯机率分布向量的多个维度和一从该处理单元接收的帧向量的各别维度,并输出一对应分数至该处理单元。该声学处理单元使用一第一帧来执行一比较而该处理单元使用一对应一第二帧的分数来执行一搜寻操作,该第二帧紧接着先前的该第一中贞。
[0006]于本发明的另一实施型态包括一声学处理方法。该方法包括使用一处理单元将一接收到的音频信号分割成多个帧,使用一声学处理单元(APU)去比较一与该多个帧中的一第一帧相关的特征向量和一高斯机率分布向量以产生一分数,以及在比较同时,使用该处理单元使用对应于与从一声学处理单元(APU)所接收到的该多个帧中的一第二帧相关的特征向量的分数进行搜寻操作,其中,该第二帧紧接着该第一帧,且其中,该处理单元与该声学处理单元耦合在一数据总线上。
[0007]进一步实施型态包括一种计算器可读取媒体,具有存于其中的由一个或多个处理器所执行的一个或多个指令中的一个或多个序列,用以执行一声学处理方法。该方法包含使用一处理单元将一接收到的音频信号分割成多个帧,输出一与该多个帧中的一第一帧相关的特征向量至一声学处理单元,其中,该声学处理单元用以比较该第一帧和一高斯机率分布向量以产生一分数,以及在比较同时,使用该处理单元使用对应于与从一声学处理单元(APU)所接收到的该多个帧中的一第二帧相关的特征向量的分数进行搜寻操作,其中,该第二帧紧接着该第一帧,且其中,该处理单元与该声学处理单元耦合在一数据总线上。
[0008]本发明的实施例的进一步特征与优点,以及本发明的不同实施例中的架构与运作,皆参照附图被加以详细描述。值得注意的是,本发明并不限于本文所述的具体实施例。这样的实施方案在本文中提出,仅供参考。其他的实施例对于熟习此技艺的相关领域人士而言将是显而易见的。

【专利附图】

【附图说明】
[0009]在此引入附图并构成本说明书的一部分,附图示出了本发明的实施例,并与说明书一起,进一步用于解释本发明的原理,并使得该领域中熟习此技艺的人士能够实施或使用本发明。
[0010]图1根据本发明的实施例的语音识别过程的示范流程示意图。
[0011]图2为现有的语音辨识系统的示意图。
[0012]图3是现有的语音识别系统与由个别处理单元执行的语音识别过程的示意图。
[0013]图4是在由声学处理单元(APU)和中央处理单元(CPU)执行的语音识别过程的实施例示意图。
[0014]图5是语音识别系统的周边控制器接口(PCI)的总线架构的实施例示意图。
[0015]图6是语音识别系统的进阶周边总线(APB)架构的实施例示意图。
[0016]图7是语音识别系统的低功耗双倍数据速率(LPDDR)总线架构的实施例示意图。
[0017]图8是语音识别系统中的系统级架构实施例示意图。
[0018]图9是数据模式分析方法的一实施例示意图。
[0019]图10是具有集成的特定应用积体电路(ASIC)和存储器装置的语音识别系统的系统级架构实施例示意图。
[0020]图11是具有集成的特定应用积体电路(ASIC)、易失性存储器装置、以及非易失性存储器装置的语音识别系统的系统级架构实施例示意图。
[0021]图12是具有包括特定应用积体电路(ASIC)和中央处理单元(CPU)的系统晶片的语音识别系统的系统级架构实施例示意图。
[0022]图13是另一具有包括特定应用积体电路(ASIC)和中央处理单元(CPU)的系统晶片的语音识别系统的系统级架构实施例示意图。
[0023]图14是声学处理单元(APU)的实施例示意图。
[0024]图15是用于声学处理单元(APU)的聚类状态计分单元(SSU)控制器的实施例示意图。
[0025]图16是用于声学处理单元(APU)的距离计算器的实施例示意图。
[0026]图17是用于声学处理单元(APU)的声学建模过程的方法的实施例示意图。
[0027]图18是根据本发明的实施例所述的运算逻辑单元的实施示意图。
[0028]图19是根据本发明的实施例在图18所示的运算逻辑单元的实施例示意图。
[0029]图20是根据本发明的实施例所述的计算单元的实施示意图。
[0030]图21是用于计算一维距离分数的方法的实施例示意图。
[0031]图22与图23是声音处学系统的实施例不意图。
[0032]图24是硬件加速器的实施例示意图。
[0033]图25是APU软件堆迭的方块示意图。
[0034]图26是并行处理的实施例示意图。
[0035]图27是声学处理方法的实施例示意图。
[0036]图28是本发明中的实施方式中,或其部分可被实现为计算机可读取代码的示例计算机系统的实施例示意图。

【具体实施方式】
[0037]下面的详细描述参照附图,说明示例性实施例与本发明是一致的。其它实施例是可能的,并且可在本发明的精神和范围内进行实施例修正,因此,详细描述并不意味着限制本发明的范围,相反,本发明的范围由权利要求书限定。
[0038]这对一在该相关领域中熟习此技艺的人士而言将是显而易见的,如下所述,本发明可以在软件、硬件、固件的许多不同的实施例,和/或在附图中所示的实体实施。因此,于本文所示的细节水平下,在本发明的实施例中的操作行为将视为理解实施例的修改及变化是可能的。
[0039]本说明书揭露了一个或多个并入本发明的特征的实施例。该揭露的实施例仅仅是举例说明本发明。本发明的范围并不局限于所揭露的实施例中。本发明是由权利要求书限定。
[0040]所描述的实施例,并且在本说明书中提及的“一个实施例”,“实施例”,“示例实施例”等表示所描述的实施例可以包括一特定特征,结构或特性,但是每个实施例可以不必包括该特定特征、结构或特性。此外,这种短语不一定指的是同一实施例。此外,当一特定特征、结构或特性结合实施例进行了描述,应理解这是在本领域技术人员的知识范围内,结合这些特征,结构或特性与其他实施例,无论是否有明确描述。
[0041]1.语音辨识过程
[0042]图1是一个语音识别过程100的示范性流程示意图,根据本发明的实施例的示意图。语音识别过程100包括信号处理阶段110、声学建模阶段120、音素评估阶段130、和文字建模阶段140。
[0043]在信号处理阶段110中,输入语音信号的模拟信号105表示可以被过滤以排除位于人耳能听到的频率范围之外的信号的高频率组成部分。然后该被过滤后的信号可使用该相关领域中的技术人士所熟知的取样及量化技术来数位化。一个或多个参数数位化表示(这里也称为“特征向量115”)可使用像,例如,线性预测编码和快速傅立叶变换来从数位波形中撷取。该撷取可以发生在例如约10毫秒的固定时间间隔或帧。
[0044]在声学建模阶段120中,从信号处理阶段110中得到的特征向量115用来与存于存储器中的一个或多个多变高斯机率分布(这里也称为”高斯机率分布”)比较。该一个或多个存于存储器中的高斯机率分布可为声库的部分,而该该高斯机率分布表示聚类状态(senone)。如同该相关领域的技术人士所能理解的,该聚类状态指一有趣语言的次语音(sub-phonetic)单元。例如,个别的聚类状态可被8个组成部分所组成,而每个组成部分可表示一 39维度的高斯机率分布。
[0045]声学建模阶段120能够处理例如,超过1000个聚类状态。因此,特征向量115与一个或多个高斯机率分布之间的比较可为一计算密集型任务,例如,作为数以千计的高斯机率分布可与特征向量115每一时间间隔或帧(例如10毫秒)相比较。每一表示在声库中的聚类状态的一组分数(在这里也称为”聚类状态分数”)由各特征向量115与一个或多个高斯机率分布的每一个之间的比较而得来。声学建模阶段120提供了聚类状态分数125给音素评估阶段130。
[0046]在音素评估阶段130中,隐藏式马可夫模型(HMMs)可用来归类一音素为一组状态和一组介于每个状态之间的先验传递机率,其中状态与一聚类状态相关。对给定的观察的聚类状态的序列,对应的HMM中有最有可能的聚类状态的序列。该对应的HMM可与一观察到的音速相关联。维特比(Viterbi)演算法可用来找出每一 HMM对应于一音素的可能性。
[0047]维特比演算法执行从第一帧开始,然后前进到后续帧以时间同步方式一次一个的计算。为在所考虑的HMM中的每个聚类状态计算机率分数。因此,随着维特比演算法分析序列的帧,对于可能的聚类状态序列的每一者,可连续计算出累计机率分数。音素评估阶段130提供了可能性或机率135 (这里也称为”音素分数”)给文字建模阶段140。
[0048]在文字建模阶段140中,搜寻技术可用于随着时间决定在音素与后续单字中的最有可能的字串。搜寻技术像,例如,树状演算法可用来决定音素中最有可能的字串。
[0049]2.传统语音辨识系统
[0050]图2为一传统语音辨识系统200的不意图。语音辨识系统200包括输入兀件210、处理单元220、存储装置230、以及数据总线240,而所有这些都是单独的物理组成部分。存储装置230可为,例如,动态随机处理存储器(DRAM)元件,外接处理单元220并经由数据总线240与处理单元220互相通讯。输入元件210也藉由数据总线240与处理单元相通讯。数据总线240有一典型的总线宽度,例如,8到32位元。
[0051]输入兀件210用来接收输入音频信号(例如,图1的输入音频信号105)以及转换与该输入音频信号相关联的声音振动为一模拟信号。该模拟信号可用模拟数位转换器(图2未示出)数位化,且所得到的数位信号透过数据总线240被传送到处理单元220。输入元件210可为,例如,麦克风。
[0052]处理单元220依照上述关于图一所示的信号处理阶段110、声学建模阶段120、音素评估阶段130、以及文字建模阶段140来处理数位输入信号。图3为具有由处理单元220执行的语音辨识模块的语音辨识系统200的示意图。处理单元包括信号处理模块310、声学建模模块320、音素评估模块330、以及文字建模模块340,而操作方式分别类似图1的信号处理阶段110、声学建模阶段120、音素评估阶段130、以及文字建模阶段140。
[0053]参照图3,信号处理模块310可转换一输入音频信号(例如,从输入兀件210)的数位输入信号305表示为一个或多个特征向量315。声学建模模块320比较一个或多个特征向量315与存于存储装置230中的声库的一个或多个高斯机率分布。对于每--个或多个特征向量315与一个或多个高斯机率分布之间的比较,处理单元220经由数据总线240去存取存储装置230。对一具有数以千计的聚类状态(而每一聚类状态系由多个高斯机率分布所组成)的声库,不仅藉由声学建模模块320而执行的该计算密集的比较,而且该数以千计的由声学建模模块320经由数据总线240存取存储装置230的动作也是计算密集且费时。数以千计的存取存储装置230动作会被数据总线240的总线宽度(例如,8到32位元)进一步加剧,其中,存储装置230的多址连接系被声学建模模块320存取每一高斯机率分布时所需要。此外,与数据总线240相关的互连寄生现象会损坏存储装置230与声学建模模块320之间的数据传输。
[0054]音素评估模块330从声学建模模块320接收聚类状态分数325。如上述参照图一的语音辨识过程100所示,隐藏式马可夫模型能被用来可用来归类一音素成为一组状态和每个状态之间的一组先验传递机率,其中该状态由一聚类状态组成。该组状态与一组使用音素评估模块330之先验传递机率集合可储存于存储装置230。音素评估模块330提供音素分数335给文字建模模块340。
[0055]文字建模模块340使用搜寻技术像,例如,树状演算法以用来决定音素中最有可能的字串(例如,最有可能的首素335),以及随时间推移的后续文字。
[0056]在图3的传统语音辨识系统300有一诸如此类的问题,由于声学建模过程会有一显著负载在处理单元220上。例如,对每一一个或多个特征向量315与一个或多个存于存储装置220中的高斯机率分布之间的比较而言,存储装置220被处理单元220存取。所以,显著的计算资源会被专用于声学建模过程,依次配置一显著负载于处理单元220上。而因声学建模过程之故而配置于处理单元220的负载会影响处理单元220能够处理从输入元件而来的数位信号以及其他应用数据(例如,处理单元220能在多使用者/多程式的环境下操作而同时处理从大量应用程式而来的数据)的速度。此外,对于具有有限计算资源的计算系统(例如,手持装置)而言,该声学建模过程不仅会配置一显著负载在处理单元220上,而且会耗费存储装置230的一显著部分及数据总线240的频宽。这些诸如此类的问题会在很多应用程式上因需要处理即时或实质上接近即时的输入音频信号而使处理能力,速度,以及存储器资源进一步恶化。
[0057]3.具有声学处理单元的语音辨识系统
[0058]本发明的实施例分别指出了上面关于图2和图3中的传统语音识别系统200和300所讨论的问题。在一个实施例中,声学建模过程是由专用的处理单元执行(在此也称为“声学处理单元”或“APU”)。声学处理单元的操作与图3中的处理单元220 —起使用(在此也称为“中央处理单元”或“CPU”)。例如,该声学处理单元从中央处理单元接收一个或多个特征向量(例如,图3的特征向量315),并依据一个或多个高斯分布的机率分布计算出一聚类状态的分数(例如,图3中的聚类状态分数325),并输出该聚类状态分数到CPU。在一个实施例中,该一个或多个高斯机率分布可以被存储在声学处理单兀中。或者,在另一实施例中,该一个或多个高斯机率分布可以通过外部存储到APU,其中,该声学处理单元从外部存储装置接收一个或多个高斯分布的机率分布。根据在下文中进一步详述的该声学处理单元结构,会完成一个为了聚类状态分数的加速计算器。
[0059]虽然本发明所揭露部分已在一语音识别系统的上下文中进行了描述,但在相关领域的技术人士将了解本文所描述的实施例适用于根据本文描述中的任何数据模式识别应用。这些其他数据模式识别应用包括,但不限于,图像处理,音频处理以及手写识别。这些其他的数据模式识别应用是在本文所揭露的实施例的精神和范围内。
[0060]图4是一个由APU和CPU执行的语音识别过程400的实施例示意图。在一实施例中,CPU执行信号处理过程410、音素评估过程430、和文字建模过程440。该APU执行声学建模过程420。信号处理过程410、声学建模过程420、音素评估过程430、以及文字建模过程440分别以类似图1中信号处理过程110、声学建模阶段120、音素评估阶段130、和文字建模阶段140的方式运作,除非本文另有说明。
[0061]在参考图4的实施例中,反馈450是语音识别过程400的一选择性特征,而根据本发明的一实施例,该音素评估过程430可以提供一动态聚类状态列表给声学建模过程420。该APU可以比较一个或多个特征向量和动态聚类状态列表中所指示的一个或多个聚类状态。这种反馈450在下文中会进一步讨论。
[0062]在另一实施例中,声学建模过程420可以比较一个或多个特征向量和与伊声库相关的所有聚类状态。在这种情况下,反馈450不是必需的,如音素评估过程430从APU接收一整组聚类状态分数(例如,“所有分数”函数)以进一步处理。
[0063]A.具有声学处理单元的语音识别系统的系统总线架构
[0064]在一个实施例中,该APU和CPU可以互相通讯,藉由通过串列周边接口(SPI)总线、周边控制器接口(PCI)总线、应用程式接口(API)总线、先进微控制器汇流架构的高效总线(AHB)、先进周边总线(APB)、存储总线、或任何其他类型的总线。例如,系统总线架构对图4中的语音识别过程400的非限制性实施例在下文中会进一步详细地描述。
[0065]图5是一语音辨识系统500的总线架构的实施例示意图。语音辨识系统500包括APU510、CPU520、处理器/存储总线530、高速缓存540、系统控制器550、主存储器560、多个PCI装置57(^-570^输入/输出(I/O)总线580、和PCI桥590。高速缓存540可以是,例如,在静态随机存取存储器(SRAM)元件实现的二级高速缓存。此外,主存储器560可以是,例如,动态随机存取存储器(DRAM)元件。根据本发明的实施例,语音辨识系统500可以被实现为一系统晶片(SOC)。
[0066]如图5所示,APU510以通过PCI桥590的通讯方式耦合到输入/输出总线580。输入/输出总线580可以是,例如,一个PCI总线。藉由PCI桥590和输入/输出总线580,APU510以通讯方式耦合到系统控制器550和CPU520。在另一实施例(图5中未示出)中,APU510可以直接耦合到处理器/存储总线530,并且依次,以通讯方式耦合到CPU520。
[0067]图6是语音辨识系统600的总线结架构的另一个实施例示意图。语音辨识系统600包括APU510、CPU520、高速缓存540、架构高效总线610、系统控制器620、非易失性存储装置630、主存储器640、先进PCI桥650、APB660、以及多个装置6701-670M。非易失性存储装置630可以是,例如,一个快闪存储装置。主存储器640可以是,例如,DRAM装置。CPU520可以是,例如,ARM处理器(由ARM控股公司开发)。语音辨识系统600可以根据本发明的实施例,被实现为一系统晶片。
[0068]如图6所示,APU510以通过APB桥650和APB660的通讯方式耦合到系统控制器620,系统控制器620也用通讯方式耦合到CPU520通过AHB610。换言之,系统控制器620用通讯方式耦合到CPU520通过AHB610。
[0069]图7是语音辨识系统700的总线架构的另一实施例示意图。语音辨识系统700包括APU510、CPU520、高速缓存540、AHB610、系统控制器620、非易失性存储装置630、LPDDR接口 710、LPDDR存储总线720和主存储器730。主存储器730可以是,例如,DRAM装置。CPU520可以是,例如,ARM处理器(由ARM控股公司开发)。根据本发明的实施例,语音辨识系统700可以被实现为一系统晶片。
[0070]如图7所示,APU510和主存储器730经由LPDDR存储总线720以通讯方式耦合到LTODR接口 710。声学处理单元510也是透过LPDDR存储总线720和LPDDR接口 710以通讯方式耦合到系统控制器620。换言之,系统控制器620经由AHB610以通讯方式耦合到CPU520。
[0071]B.具有声学处理单元的语音辨识系统的系统级架构
[0072]图8是语音辨识系统800的系统级架构的实施例示意图。语音辨识系统800包括APU810、存储控制器820、非易失性存储装置830、和易失性存储装置840。存储控制器820经由总线815以通讯方式耦合到APU810和经由总线825 (在某些实施方案中可代表两个或多个总线)耦合到非易失性存储装置830和易失性存储装置850。在一实施例中,APU810和存储控制器820被集成在一单晶片上。或者,在一实施例中,APU810和存储控制器820被集成在独立的晶片上。非易失性存储装置830可以是一 NAND快闪存储器模块,一 NOR快闪存储器模块,或其它类型的非易失性存储装置。在一个实施例中,易失性存储装置840可以是DRAM装置。此外,根据本发明的一实施例,APU810可以使用,例如,参照图5_7所述的其中之一总线架构与一 CPU(在图8中未示出)进行通讯。
[0073]非易失性存储装置830可以储存一声库以用在语音识别过程,其中根据本发明的一实施例,该声库可包括超过1000个聚类状态。在一实施例中,当一聚类状态的请求被语音辨识系统800接收时,存储控制器820会经由总线825从非易失性存储装置830到易失性存储装置840复制该声库。该声库在非易失性和易失性存储装置之间的传送过程可使用,例如,一直接存储器存取(DMA)的操作来实现。
[0074]在一实施例中,语音辨识系统800可以在一聚类状态的得分请求的预期下通电。通电后,从非易失性存储装置830而来的该声库立即被复制到易失性存储装置840,一旦易失性存储装置840已经接收到声库,APU810便准备好使用储存在易失性存储装置840中的声库来开始处理聚类状态得分的请求(例如,图4中的声学建模过程420)。
[0075]APU810接收到该聚类状态的得分请求时,一从声库所选定的聚类状态会从易失性存储装置840经由存储控制器820到APU810被复制。APU810计算一聚类状态分数系基于所选定的聚类状态的句音以及被APU810所接收到的数据串流(例如,图3中的一个或多个特征向量315)。计算完成之后,APU810传送聚类状态分数至请求系统(例如,CPU)。
[0076]在一实施例中,在一段不作用的预定时间之后(例如,藉由APU810的聚类状态得分不作用),易失性存储装置840可断电。结果,当记忆单元在易失性存储装置840中的一个定期更新将不被需要时,在语音辨识系统800的功率效益可被改善。此处,声库仍然储存在非易失性存储装置830中,使得声库可在当易失性存储装置840断电时被保留。正如能被该相关领域中的技术人士所理解的,当易失性存储装置840断电时,储存在其中的内容(例如,声库)将会遗失。在一实施例中,当易失性存储装置840断电时,语音辨识系统800的其它部件也可断电。
[0077]图9是数据模式的分析方法900的一实施例示意图。图8的语音辨识系统800可被用于,例如,执行方法900的步骤。在一个实施例中,方法900可被用于执行图4中的声学建模过程420。根据本文的描述,该相关领域的技术人士将了解该方法900可被用在其他的数据模式识别应用像,例如,图像处理,音频处理以及手写识别。
[0078]在步骤910中,多个数据模式从非易失性存储装置(例如,图8中的非易失性存储装置830)复制到易失性存储装置(例如,图8中的易失性存储装置840)。在一个实施例中,该多个数据模式可以是一个或多个与一声库相关联的聚类状态。
[0079]在步骤920中,从易失性存储装置中得到的数据模式被计算单元所要求(例如,图8中的APU810)并经由一存储控制器和总线(例如,分别为图8中的存储控制器820和总线825)传送到计算单元。在一个实施例中,所请求的数据模式是为一储存在易失性存储装置中的声库中的聚类状态。
[0080]步骤930中,在接收到所请求的数据模式之后,该计算单元(例如,图8中的APU810)执行一被该计算单元所接收的数据串流的数据模式分析。在一实施例中,数据模式分析是一基于所选择的聚类状态和被该计算单元(例如,图3中的一个或多个特征向量315)接收到的数据串流的聚类状态分数计算。在完成数据模式分析之后,该计算单元传送数据模式分析的结果到请求系统(例如,CPU)。
[0081]在步骤940中,该易失性存储装置进行断电。在一实施例中,该易失性存储装置会在一段不作用的预定时间之后(例如,计算单元中的数据模式的分析不作用)进行断电。结果,当记忆单元在易失性存储装置中的一个定期更新将不被需要时,功率效益可被改善。在一个实施例中,当易失性存储装置断电时,该系统(例如,语音辨识系统800中的其它部件)的其他部件也可断电。
[0082]图10是语音辨识系统1000的系统级架构的另一实施例示意图。语音辨识系统1000包括APU1010、S0C1040、DRAM装置1060、快闪存储装置1070、和输入/输出接口 1080。在一实施例中,APU1010是一种积体晶片,包括:用以储存一声库的一存储装置1020和用以执行一个声学建模过程(例如,图4中的声学建模过程420)的一(ASIC) 1030。在另一个实施方案中,特定应用积体电路1030和存储装置1020可以被集成在两个独立的晶片。根据本发明的一实施例,系统晶片1040包括一 CPU1050,用以执行信号处理过程、音素评估过程、和个文字建模过程(例如,分别为图4中的信号处理过程410、音素评估过程430、和文字建模过程440)。在一实施例中,APU1010和S0C1040集成在两个独立的晶片。
[0083]图11是语音辨识系统1100的系统级架构的另一实施例示意图。语音辨识系统1100包括APU1110、S0C1040、DRAM装置1060、快闪存储装置1070、和输入/输出接口 1080。在一实施例中,APUl110是一种积体晶片,包括一特定应用积体电路1120,一易失性存储装置1130和一非易失性存储装置1140。在另一实施例中,特定应用积体电路1120,易失性存储装置1130和非易失性存储装置1140可集成在两个晶片上,例如,特定应用积体电路1120和易失性存储装置1130在一晶片上而非易失性存储装置1140在另一晶片上;特定应用积体电路1120在一晶片上而易失性存储装置1130和非易失性存储装置1140在另一晶片上;或者,特定应用积体电路1120和非易失性存储装置1140在一晶片上而易失性存储装置1130在另一晶片上。在又一实施例中,特定应用积体电路1120,易失性存储装置1130和非易失性存储装置1140每个都可以集成在一单独晶片上,S卩,三个独立的晶片。
[0084]根据本发明的实施例,非易失性存储装置1140可用以储存一被复制到易失性存储装置1130在APU1110通电时的声学模型。在一实施例中,非易失性存储装置可以是一快闪存储装置且易失性存储装置1130可以是一动态随机处理存储装置。此外,根据本发明的一实施例,特定应用积体电路1120可用以执行一个声学建模过程(例如,图4中的声学建模过程420)。
[0085]图12是语音辨识系统1200的系统级架构的另一实施例示意图。语音辨识系统1200包括DRAM装置1060、快闪存储装置1070、输入/输出接口 1080、存储装置1210、和S0C1220。在一实施例中,S0C1220是一种积体晶片,包括一特定应用积体电路1230和一CPU1240。根据本发明的一实施例,特定应用积体电路1230可用以执行一声学建模过程(例如,图4中的声学建模过程420)且CPU1240可用以执行信号处理过程、音素评估过程中、和文字建模过程(例如,分别如图4中的信号处理过程410、音素评估过程430、和文字建模过程 440)。
[0086]根据本发明的一实施例,存储装置1210可用以储存一声库,并经由输入/输出接口 1215的传送一个或多个聚类状态到特定应用积体电路1230。在一实施例中,存储装置1210可以是一动态随机处理存储装置或一快闪存储装置。在另一实施例中,该声库可储存在一特定应用积体电路1230中的存储装置中(图12中未示出),而不是存储装置1210。在又一实施例中,声库可储存在系统存储器中,用于系统晶片1220(例如,动态随机处理存储装置1060)。
[0087]图13是语音辨识系统1300的系统级架构的另一实施例示意图。语音辨识系统1300包括DRAM装置1060、快闪存储装置1070、输入/输出接口 1080、存储装置1210、和S0C1220。根据本发明的一实施例,DRAM装置1060可用以储存一个声库,并经由输入/输出总线1315传送一个或多个聚类状态到特定应用积体电路1230。
[0088]4.声学处理单元架构
[0089]图14是APU1400的实施例示意图。在一实施例中,APU1400是一种积体晶片,包括:存储器模块1420和聚类状态单元(SSU) 1430,在另一实施例中,存储器模块1420和SSU1430可被集成在两个独立的晶片上。
[0090]根据本发明的实施例,APU1400是在经由输入/输出信号1410与一 CPU(图14中未示出)通讯,其中该APU1400用以执行声学建模过程(例如,图4中的声学建模过程420)。在一实施例中,输入/输出信号1410可包括输入特征向量数据串用以得知特征向量的资讯、输入时脉信号、输入声学处理单元的可用信号、用以得知聚类状态的分数资讯的输出聚类状态分数数据串、以及其它用以控制APU1400的输入/输出控制信号。根据本发明的实施例,APU1400可经由从该CPU以接收该特征向量数据串中的一个或多个特征向量(由CPU计算出),并经由聚类状态分数数据串传输一聚类状态分数到(PU。在一实施例中,输入/输出信号1410可以被实现为,例如,SPI总线、PCI总线、API总线、AHB、APB、存储总线、或任何其它类型的总线以提供一条通讯路径在APU1400和CPU之间(参见,例如,图5-7及相关说明)。APU1400和CPU之间的接口,以及用于该接口的控制信号,进一步详细描述如下。
[0091]在一实施例中,存储器模块1420和SSU1430可以在两个不同的时脉区域下进行操作。根据本发明的实施例,存储器模块1420可以在与输入时脉信号至APU1400(例如,从输入/输出信号1410)相关联的时脉频率下进行操作且SSU1430可基于输入的时脉信号在更快的时脉频率下进行操作。例如,如果与输入时脉信号相关联的时脉频率为12兆赫,然后SSU1430可在60兆赫的分割时脉频率下进行操作比输入时脉信号相关联的时脉频率快5倍。时脉分割器所实现的技术和方法是被相关领域的技术人士所习知。如将在下文更详细描述的,SSU1430的架构可基于它在运作时的时脉区域。
[0092]参考图14,存储器模块1420包括总线控制器1422、存储控制器1424、存储装置1426、以及桥接控制器1428。存储装置1426用以储存用在语音辨识过程中的声学模型。在一实施例中,存储装置1426可以是一种非易失性存储装置像,例如,快闪存储装置。该声库在先前APU1400 (例如,APU1400的制造和/或的测试过程中)的操作中可以被预先加载到该非易失性存储装置中。
[0093]在另一实施例中,存储装置1426可以是一种易失性存储装置像,例如,DRAM装置。在一实施例中,当APU1400接收到一聚类状态的请求时,存储控制器1424可以从非易失性存储装置(无论是集成在与APU1400的相同晶片上,还是位于APU1400的外部)复制该声库到易失性存储装置。该声库在非易失性和易失性存储装置之间的传送过程可以使用,例如,一直接存储器存取操作来实现。
[0094]总线控制器1422用以控制APU1400和外部CPU之间的数据传送。在一实施例中,总线控制器1422可以控制从CPU接收的特征向量和聚类状态分数从APU1400到CPU的传输。在一实施例中,总线控制器1422系用以从CPU传送一个或多个特征向量到桥接控制器1428,作为一存储器模块1420和SSU1430之间的接口。换言之,桥接控制器1428传送一个或多个特征向量到SSU1430作进一步处理。根据本发明的一实施例,在一个聚类状态的分数计算中,聚类状态分数是从SSU1430经由桥接控制器1428传送到存储器模块1420。
[0095]在一实施例中,总线控制器1422可以接收一控制信号(经由输入/输出信号1410),而该控制信号提供了一个主动聚类状态列表。在一实施例中,该主动聚类状态列表可以被传送到APU1400作为由CPU(例如,图4中的音素评估过程430)所执行的音素评估过程的结果。也就是说,在一实施例中,一反馈过程可发生在APU1400执行的音素评估过程以及由CPU所进行声学建模过程之间(例如,图4中的反馈450)。根据本发明的实施例,该主动聚类状态列表可以在聚类状态分数计算中为输入特征向量到APU1400中使用。
[0096]该主动聚类状态列表说明储存在存储装置1426中的一个或多个聚类状态系用在一聚类状态分数计算中。在一实施例中,该主动聚类状态列表可以包括一与存储装置1426的位址空间相关的基本位址,以及有关在该一个或多个聚类状态位于存储装置1426中的基本位址的索引列表。总线控制器1422可以经由桥接控制器1428发送一主动聚类状态列表给SSU1430,其中,SSU1430是与存储装置1426相通讯(经由存储控制器1424)以存取与该主动聚类状态列表相关的一个或多个聚类状态。
[0097]在另一实施例中,总线控制器1422可以接收一控制信号(经由输入/输出信号1410)以指示APU1400使用包含在声库中的所有聚类状态(例如,“所有分数”函数)执行该聚类状态分数计算。总线控制器1422经由桥接控制器1428发送“所有分数”指令给SSU1430,其中SSU1430是与存储装置1426相通讯(经由存储控制器1424)以存取所有与声库相关的聚类状态。
[0098]传统语音辨识系统一般会在一声学建模和音素评估模块(例如,图3中的声学建模模块320和音素评估模块330)之间合并成一位在CPU中的反馈回路,以限制在聚类状态分数计算中所使用的聚类状态数量。这是因为,上述相对于图3中的语音识别系统300所讨论的,显著计算资源专用于声学建模过程,其中数以千计的聚类状态会与一特征向量做比较。这里放置一个显著负载在CPU和数据总线的频宽(例如,图3中的数据240)于正在从该存储装置(例如,图3的存储装置230)传送聚类状态到CPU。因此,对于传统语音识别系统,主动聚类状态列表被用来限制声学建模过程的CPU上的影响。然而,CPU使用主动聚类状态列表可以将限制对即时或实质上接近即时的输入音频信号的处理需要。
[0099]APU1400的“所有分数”函数不仅减轻在CPU和数据总线的频宽上的负载,而且还提供了即时或实质上接近即时的输入音频信号的处理。在下文中进一步所详细叙述的,APU1400的特征像,例如,即时或实质上接近即时的语音辨识系统中的数据总线1427的频宽和图14中的距离计算器1436架构。
[0100]参考图14,SSU1430包括输出缓冲器1432、SSU控制模块1434、特征向量矩阵模块1435、距离计算器1436、和加法模块1438。根据本发明的实施例,SSU143系用以计算一个或多个特征向量和储存在存储装置1426中的一个或多个聚类状态之间的马氏距离。每个该一个或多个特征向量可以由N个维度组成,其中N可以等于,例如,39。在一实施例中,在一个或多个特征向量中的N维度中每一个可以是一个16位元平均值。
[0101]此外,每个储存在存储装置1426中的该一个或多个聚类状态是由一个或多个高斯机率分布所组成,其中每个该一个或多个高斯机率分布具有与每个该一个或多个特征向量相同的维数(例如,N维)。每个储存在存储装置1426中的一个或多个聚类状态可以具有,例如,32个高斯机率分布。
[0102]如上文所讨论的,存储装置1420和SSU1430可以在两个不同的时脉区域中进行操作。在一实施例中,SSU控制模块1434系经由桥接控制器1428接收从存储装置1420而来的时脉信号。根据本发明的一实施例,由SSU控制模块1434接收到的时脉信号频率可以与输入时脉信号(例如,从输入/输出信号1410而来的输入时脉信号)到APU1400相关联的时脉频率是相同的或大致相同的。
[0103]在一实施例中,SSU控制模块1434可以将它的输入时脉信号的频率进行分割并分配该分割的时脉信号到SSU1430的其它部件例如,输出缓冲器1432,特征向量矩阵模块1435,距离计算器1436,以及加法模块1438—使这些其它部件在时脉分割频率下运作。例如,如果与输入时脉信号(例如,从输入/输出信号1410)相关联的时脉频率为12兆赫,则SSU控制模块1434可以从桥接控制器1428接收相同或基本相同的时脉信号并且使用已知的时脉分割的技术和方法分割时脉频率成一个频率,例如,60兆赫。SSU控制模块1434可以分配该分割时脉信号到SSU1430的其它部件使这些其它部件可在例如,60兆赫下运作一比与输入时脉信号相关联的时脉频率快5倍。
[0104]为简单起见,从SSU控制模块1434到SSU1430的其它部件中所分配到的时脉信号在图14中未示出。为了便于参考,与该时脉信号相关联的频率在本文中也被称为的“SSU时脉频率“。此外,为了便于参考,与输入时脉信号到SSU控制模块1434相关联的频率在本文中也被称为”存储装置时脉频率“。
[0105]图15是SSU控制模块1434的一个实施例示意图。SSU控制模块1434包括一输入缓冲器1510和一控制单元1520。计分单元控制模块1434从存储装置1420经由桥接控制器1428来接收一个或多个控制信号。在一实施例中,该一个或多个控制信号可与输入/输出信号1410和与由存储装置1426输出的高斯机率分布相关联的控制资讯相关联。与输入/输出信号1410相关联的控制信号可以包括,例如,主动聚类状态列表和一个“所有分数”函数。该与高斯机率分布相关联的控制资讯可包括,例如,由存储装置1426输出的一个后续高斯机率分布的位址资讯。
[0106]参考图14,在一实施例中,当总线控制器1422经由输入/输出信号1410接收到一主动聚类状态列表,位在与存储装置1426的位址空间相关联的基本位址以及相关的基本位址索引列表中的存储装置1426中的一个或多个聚类状态都可被储存在图15中的输入缓冲器1510,控制单元1520是与输入缓冲器1510相通讯来监视在聚类状态分数计算中,图14中的距离计算器1436所应用的聚类状态列表。
[0107]例如,主动聚类状态列表可以包含与存储装置1426和指向储存在存储装置1426的100聚类状态的100个索引的位址空间相关联的基本位址。如该相关领域的技术人士所理解的,该索引在参考与存储装置1426的位址空间相关联的基本位址之后可以被称为是指示器或存储器位址座标。此外,如上文所讨论的,一个聚类状态可以由一个或多个高斯机率分布所组成,其中每个该一个或多个高斯机率分布和有每个由APU1400接收到的一个或多个特征向量(例如,N维)具有相同的维数。为了方便说明,本例中将假设每个存在存储装置1426的聚类状态是由32高斯机率分布所组成。基于本文的描述,该相关领域中的技术人士将能理解每个聚类状态可被多于或少于32的高斯机率分布所组成。
[0108]在一个实施例中,在主动聚类状态列表中的第一个聚类状态,控制单元1520会与图14的存储控制器1424进行通讯,并根据该基本位址和包含在主动聚类状态列表中的第一个索引资讯以存取在存储装置1426中的第一个聚类状态。根据本发明的一实施例,与该第一索引相关联的聚类状态可以包括与该聚类状态相关联的第一 2维高斯机率分布的存储器位址资讯。换言之,存储装置1426存取与该第一聚类状态相关联的两个高斯机率分布,例如,以一次序方式。例如,存储装置1426存取第一高斯机率分布并输出这个高斯机率分布经由数据总线1427到距离计算器1436,当存储装置1426输出第一高斯机率分布,存储装置1426也可以存取第二高斯机率分布。
[0109]在一实施例中,第二高斯机率分布可以包括第三高斯机率分布的存储器位址资讯以被存储装置1426存取。存储装置1426可经由图14中的桥接控制器1428与图15中的控制单元1520的存储器位址资讯通讯。控制单元1520,换言之,与图14中的存储控制器1424进行通讯以存取第三高斯机率分布。在一实施例中,当第三个高斯机率分布被存储装置1426所存取时,第二高斯机率分布可以经由数据总线1427被输出到距离计算器1436。当输出一目前高斯机率分布时,一反复重迭的后续高斯机率分布存取过程被所有与聚类状态相关联的高斯机率分布(例如,被所有与聚类状态相关联的32高斯机率分布)执行。该反复的,重复的(或并行的)过程此外还有一优点为在聚类状态分数计算中有较快的效率。
[0110]根据本发明的一实施例,图15中的控制单元1520显示了高斯机率分布从存储装置1426到距离计算器1436的传送过程,使该存储器的存取和传送过程以流水线方式发生。在与该第一聚类状态相关联的32高斯机率分布被输出到图14的距离计算器1436之后,控制单元1520重复进行于主动聚类状态列表中的一个或多个剩余聚类状态上述过程。
[0111]根据本发明的一实施例,在主动聚类状态列表中的聚类状态为了当前的特征向量被使用在聚类状态分数计算中之后,存储器模块1420可以经由输入/输出信号1410来接收一控制信号以指示来自当前的特征向量的主动聚类状态列表为了后续的特征向量而用在聚类状态分数计算中。在经由桥接控制器1428接收到来自存储器模块1420的控制信号,SSU控制模块1434为了后续的特征向量使用相同的来自当前的特征向量的主动聚类状态列表在聚类状态分数计算中。特别是,图15中的控制单元1520应用在与储存在输入缓冲器1510到随后的特征向量相关的相同基本位址和索引列表。图15的控制单元1520显示了高斯机率分布对后续的特征向量从存储装置1426到距离计算器1436的传送过程,以一在相对于上述该主动聚类状态列表示例的类似方式。
[0112]在另一实施例中,存储器模块1420可以经由输入/输出信号1410接收一控制信号以指示“所有分数”运作。如上文所讨论的,“所有分数”函数指的是其中一特征向量与所有包含在存于存储装置1426的声库中的聚类状态进行比较的运作。在一实施例中,图5中的控制单元1520与图14中的存储控制器1424进行通讯以存取存储装置1426中的第一聚类状态。该第一聚类状态可以是,例如,位在与存储装置1426的位址空间相关联的一起始的存储器位址。根据本发明的一实施例,类似于上例中的主动聚类状态列表,在存储装置1426中的第一聚类状态可以包括与该聚类状态相关联的第一 2维高斯机率分布的存储器位址资讯。换言之,存储装置1426存取与该第一聚类状态相关联的两个高斯机率分布以,例如,一有次序的方式。
[0113]在一实施例中,类似于上例中的主动聚类状态列表,第二高斯机率分布可以包括在由存储装置1426存取的第三高斯机率分布上的存储器位址资讯。存储装置1426可经由图14中的桥接控制器1428与图15中的控制单元1520的存储器位址资讯进行通讯。控制单元1520,换言之,与图14中的存储控制器1424进行通讯以存取第三高斯机率分布。在一实施例中,当第三高斯机率分布被存储装置1426存取时,第二高斯机率分布可以经由数据总线1427被输出到距离计算器1436。当输出一当前的高斯机率分布时,存取后续的高斯机率分布的这种反复重迭的过程被执行用于所有与聚类状态有关的高斯机率分布(例如,对于所有与聚类状态相关的32高斯机率分布)。
[0114]根据本发明的一实施例,图15中的控制单元1520的显示了高斯机率分布从存储装置1426到距离计算器1436的传送过程使存储器的存取和传送过程中以流水线方式发生。与第一聚类状态相关联的高斯机率分布被输出到图14的距离计算器1436后,控制单元1520将重复上述过程中在声库中的一个或多个剩余的聚类状态。
[0115]参考图14,特征向量矩阵模块1435被用于在APU1400中的发声器适应。在一实施例中,特征向量矩阵模块1435从CPU经由输入/输出信号1410接收到一个特征向量变换矩阵(FVTM)。该特征向量变换矩阵可以被周期性地加载到特征向量矩阵模块1435像,例如,每一次发声。在一实施例中,该特征向量变换矩阵可以储存在一个位于特征向量矩阵的模块1435中的静态随机存取存储器(SRAM)元件。
[0116]根据本发明的一实施例,随着每个在存储装置1426中储存的聚类状态的平均值和变化值,一索引也可以储存在每个聚类状态,其中,该索引指出在特征向量变换矩阵中的一行。在特征向量变换矩阵中的行数可以改变(例如,10,50,或100行),并且对于实现APU1400的语音识别系统可以是特定的。根据本发明的一实施例,在特征向量变换矩阵中的每一行可以有与N维数的特征向量(例如,39) 一样相等数目的条目,其中,每个条目是一比例因子用以乘以其相应的特征向量维数,以产生一个新的特征向量。从特征向量变换矩阵所选择的行(例如,39个比例因子之行)是经由数据总线1439传送到距离计算器1436,其中距离计算部1436进行乘法运算以产生新的特征向量,这将在下文中进一步详细地描述。
[0117]在一实施例中,SSU控制模块1434提供了从CPU和一个与一聚类状态到特征向量矩阵模块1435相关联的索引接收的特征向量。该索引指示一在特征向量变换矩阵中的特别行以缩放该特征向量。例如,该特征向量变换矩阵可以有100行,而该索引可等于10。在这里,对于具有39维度的特征向量,该特征向量变换矩阵的第10行都包含39个比例因子,其中该比例因子之行被传送到距离计算器1436以产生新的特征向量。
[0118]参考图14,距离计算器1436用以计算储存在存储装置1426 —聚类状态的一个或多个维度和一特征向量的一对应的一个或多个维度之间的一距离。图16是一距离计算器1436的一实施例示意图。距离计算器1436包括一个数据通路的数据路径多工器(MUX) 1610,一特征向量缓冲区1620,算术逻辑单元(ALUs) 163(^-163(^,和一个累加器1640。
[0119]数据路径ALU1610用以从图14的存储装置1426经由数据总线1427接收一高斯机率分布,在一实施例中,数据总线1427的宽度等于与一高斯机率分布相关联的位元数。例如如果一高斯机率分布是768位元,则数据总线1427的宽度也是768位元。超过多个高斯机率分布维度,该与高斯机率分布相关联的768位元可以被分配给一 16位元的平均值,一16位元的变化值,以及每个高斯机率分布维度的属性。正如上述所讨论的,该高斯机率分布可以和一特征向量有相同的维数,例如,39维度。在另一实施例中,数据总线1427的宽度可以大于256位兀。
[0120]此外,在一实施例中,存储装置1426和距离计算器1436可被集成在同一个晶片,其中,数据总线1427是一宽总线(上文讨论的宽度)集成在晶片上以提供高斯机率分布从存储装置1426到距离计算器1436的数据传输。在另一实施例中,存储装置1426和距离计算器1436可被集成在两个独立的晶片,其中数据总线1427是一个宽总线(上文讨论的宽度)紧密耦合在两个晶片之间,使得数据由于噪音和互连寄生效应的衰减最小化。如下文将要讨论的,一宽总线1427(上文讨论的宽度)的一个好处,除其他外,是为了提高APU1400在聚类状态分数计算的效率。.
[0121]数据路径ALU1610还用以从SSU控制模块1434经由数据总线1437接收一个或多个控制信号和特征向量,以及从特征向量缓冲区1620接收特征向量比例因子。在一实施例中,特征向量缓冲器1620可用以储存从特征向量矩阵模块1435并经由数据总线1439传送过来的比例因子(与特征向量变换矩阵的一个选定行相关联的)。在另一实施例中,特征向量缓冲器1620可用来储存特征向量变换矩阵。这里,从SSU控制模块1434经由数据总线1437的一个或多个控制信号可用来选择特征向量变换矩阵之行。数据路径ALU1610输出特征向量,从特征向量变换矩阵选择的特征向量比例因子,以及经由数据总线1612的ALU1630r16308的高斯机率分布资讯作进一步处理。
[0122]在一实施例中,数据路径ALU1610也用以接收从SSU控制模块1434并经由数据总线1437的一个或多个控制信号的高斯加权因子。数据路径ALU1610用以输出高斯加权因子到累加器1640做进一步处理。
[0123]参考图16,根据本发明的实施例,每个ALUieSO1-1eSO8用以在每个SSU时脉周期下,计算从数据路径MUX1610接收到的一高斯机率分布的一维度和一特征向量的对应维度之间的一距离分数。在一实施例中,ALUieso1-1eso8可以在SSU的时脉频率(例如,比存储器模块的时脉频率快5倍)下进行运作,使得对于每个从图14的存储装置1426(例如,传输高斯机率分布到距离计算器1436)的读取操作,一与高斯机率分布相关联的距离分数(也本文中称为“高斯距离分数”)从距离计算器1436向加法模块1438被输出。
[0124]在一实施例中,数据路径ALU1610用以分配特征向量资讯,而该特征向量资讯与一维度,与一高斯机率分布的对应维度相关联的一平均值,与高斯机率的对应维度相关联的一变化值,和每个ALUieSO1-1eSO8特征向量比例因子相关联。基于分配给分别的ALU的特征向量资讯和特征向量比例因子中,每个ALUieSO1-1eSO8用以藉由各自的比例因子乘以特征向量的维数以产生一个新的特征向量。
[0125]在一实施例中,特征向量的维度与对应比例因子的相乘相当”即时地”进行,这意味着在距离分数的计算过程中执行乘法运作。这是,相反地,在一个特征向量变换矩阵和被储存在存储器中用以之后由每个ALUieSO1-1eSO8存取的相乘运算结果中,执行对各行的乘法运算。“即时地”的乘法运算的一个好处,除其他外,该存储器存储器是不需要储存与特征向量变换矩阵的非索引(或者非选择)的行相关的相乘运算结果。这,换言之,由于额外的时脉周期并不需要储存与非索引的行相关联的特征向量的缩放效果在存储器中,导致新特征向量更快速的产生,而且也导致一具有较小的晶片尺寸区域的41^163(^-16308。
[0126]根据本发明的一实施例,基于针对个别的ALU的所述新的特征向量,平均值,和变化值,每个ALUieso1-1eso8用以计算基于一特征向量维数和在每个SSU的时脉周期中一对应高斯机率分布维度的一距离分数。在一时脉周期中累计地,々1^163(^-16308对8个维度产生距离分数(即每个ALUl尺寸计算)。ALU的架构和运作在下文中会更详细地描述。
[0127]根据本发明的实施例,ALU在距离计算器1436的数量可以依赖SSU时脉频率和上述所讨论的存储器模块时脉频率使距离计算器1436向存储装置1426的每个所读取的一高斯机率分布输出一个距离分数。例如,该存储器模块时脉频率可有一 12兆赫的工作频率,其中存储装置1426也在12兆赫(例如,约83毫微秒的读取)的工作频率运行。SSU1430可以具有一个SSU时脉频率,例如60兆赫以比存储器模块时脉频率快五倍的运作速度。具有39维度和8个ALU的一特征向量,对于一高斯机率分布的一高斯距离分数可以在5个SSU时脉周期或I个存储器模块时脉周期中计算出。因此,藉由设计,该5个SSU时脉周期是对应I个存储器模块时脉周期的一时脉周期预定数,其中当一高斯机率分布在I个存储器模块时脉周期下从存储装置中被读取,对于另一高斯机率分布的一高斯距离分数是由累加器1640计算。
[0128]在一实施例中,ALU1630r16308的一部分可以在一个SSU时脉周期的上升边缘被激活,而ALUieso1-1eso8的剩余部分可以在SSU时脉周期的下降边缘被激活。例如,△1^163(^-16304可以在SSU时脉周期的上升边缘被激活而ALU16305-16308可以在SSU时脉周期的下降边缘被激活。作为错开的ALUieSO1-1eSO8的激活结果,由距离计算器1436产生的峰值电流(峰值功率)可以被最小化,从而降低在距离计算器1436中可靠性问题的易感性。
[0129]基于本文的描述,该相关领域中的技术人士将理解到,距离计算器1436的架构并不局限于上述的例子。相反,该相关领域中的技术人士应当理解的是,距离计算器1436可以在一更快或更慢的60兆赫的时脉频率下操作而且该距离计算器1436可以包括多于或少于8个ALU。
[0130]参考图16,累加器1640用以从每个ALUieSO1-1eSO8和从数据路径ALU1610的高斯加权因子(经由数据总线1614)中来接收输出。如上述讨论的,在一实施例中,对于每一个SSU时脉周期,一个高斯机率分布维度的一距离分数是由每个ALUieso1-1eso8输出。从每个ALUieSO1-1eSO8的这些距离分数被累加器1640进行储存和积累以生成高斯机率分布维度的一距离分数,或称为高斯距离分数,例如,累加器1640增加了由ALUieSO1-1eSO8在SSU时脉周期中计算的各自的距离分数。
[0131]在与所有的高斯机率分布维度相关的高斯距离分数被累加器1640累积(例如,39维度)之后,累加器1640将总和与高斯加权因子相乘以产生一个加权的高斯距离分数。在一个实施例中,高斯加权因子是可选的,其中累加器1640输出高斯距离分数。在另一实施例中,高斯加权因子对于每个高斯是特定的并且被储存在存储装置1426。
[0132]加法模块1438用以将一个或多个高斯距离分数(或加权的高斯距离分数)相加以产生一个聚类状态分数。如上述所讨论的,每个聚类状态可以由一个或多个高斯机率分布所组成,其中每个高斯机率分布可与一高斯距离分数相关联。对于一具有多个高斯机率分布(例如,32个高斯机率分布)的聚类状态,加法模块1438把与所有的高斯机率分布相关联的高斯距离分数相加以产生聚类状态分数。在一实施例中,加法模块1438用以执行在对数域的加法运算以产生聚类状态分数。
[0133]输出缓冲器1432用以从加法模块1438接收一个聚类状态分数并且传送到该聚类状态分数到桥接控制器1428。桥接控制器1428依次传送聚类状态分数经由总线控制器1422到外部CPU。在一实施例中,输出缓冲器1432可以包括多个存储器缓冲器,使得在第一存储器缓冲器中作为第一聚类状态分数被传送到桥接控制器1428,加法模块1438产生一第二聚类状态分数并传送到第二存储器缓冲器,用于随后传送到桥接控制器1428。
[0134]图17是一声学建模方法1700的一个实施例示意图。该方法1700的步骤可以使用来执行,例如,图14的APUHOO0
[0135]在步骤1710,多个高斯机率分布经由具有至少一高斯机率分布的宽度以及从一外部计算元件的特征向量的数据总线被接收到。高斯机率分布可以由,例如,768位元所组成,其中该数据总线的宽度至少为768位元。此外,图14中的APU1400可以从外部计算元件(例如,一 CPU经由图14的输入/输出信号1410与APU1400通讯)接收特征向量。
[0136]在一实施例中,与多个特征向量维度,多个与对应的多个该至少一高斯机率分布维度相关联的平均值,以及多个与对应的多个该至少一高斯机率分布维度相关联的变化值相关联的资讯被分散到,例如,ALU (例如,图16的41^163(^-16300。.
[0137]在步骤1720中,多个维度距离分数是基于多个特征向量维度和相应的多个该至少一个高斯机率分布维度被计算出来。在一实施例中,距离分数计算是基于从一个主动聚类状态列表中的至少一聚类状态。该主动聚类状态列表可以包括一与一存储装置的位址空间和一个或多个关于在该至少一个聚类状态位于存储装置中的基本位址的索引相关联的基本位址。此外,多个比例因子为该多个特征向量维度所储存,其中该多个比例因子应用到该多个特征向量维度在多个维度距离分数的计算过程中。步骤1720可以藉由,例如,图14中的距离计算器1436来执行。
[0138]在步骤1730中,该多个维度距离分数为至少一高斯机率分布相加产生一高斯距离分数。在一实施例中,高斯距离分数的产生超出一个聚类状态计分单元(SSU)时脉周期的预定数目。该SSU时脉周期的的预定数目可以等同于从一个存储装置中的至少一个高斯机率分布的读取时间。步骤1730可以藉由,例如,图14中的距离计算器1436来执行。
[0139]在步骤1740中,多个对应于多个高斯机率分布的高斯距离分数相加以产生一聚类状态分数。步骤1740可以藉由,例如,图14中的距离计算器1436来执行。
[0140]本发明的实施例指出了并且解决上述关于图3中的传统语音辨识系统200所讨论的问题。总之,声学建模过程是藉由执行,例如,图14中的APU1400。该声学处理单元的运作与一 CPU相结合,其中该声学处理单元可以从CPU接收一个或多个特征向量(例如,图3中的特征向量315),计算一个聚类状态分数(例如,图3中的聚类状态分数325)基于一个或多个高斯机率分布,并且输出该聚类状态分数给CPU。在一实施例中,该一个或多个高斯机率分布可以被储存在声学处理单元。或者,在另一实施例中,该一个或多个高斯机率分布可以储存在声学处理单元外部,其中,该声学处理单元从外部存储装置中接收一个或多个高斯机率分布。根据上面描述的声学处理单元架构的实施例中,会达成一个聚类状态分数的加速计算。
[0141]5.算数逻辑单元架构
[0142]根据本发明的一实施例,图18是一个算数逻辑单元1800的方块图。在一实施例中,一算数逻辑单元163(^-163(^的一个或多个可以依照图18所示的架构来实现。算数逻辑单元1800用以计算一特征向量和一个高斯机率分布向量之间的一个一维距离分数。例如,算数逻辑单元1800可用以计算一维距离分数为,

【权利要求】
1.一种语音辨识系统,包括: 处理单元,用以将一接收到的音频信号分割成具有各自的帧向量的连续帧;声学处理单元(APU),包含: 局部非易失性存储器,用以储存多个聚类状态; 记忆缓冲器,耦合到该存储器,其中,该声学处理单元用以将至少一储存于该存储器中的高斯机率分布向量加载至该记忆缓冲器;以及 计分单元,用以同时比较一加载至该记忆缓冲器的高斯机率分布向量的多个维度和一从该处理单元接收的帧向量的各别维度,并输出一对应分数至该处理单元; 其中,该声学处理单元使用一第一帧来执行一比较而该处理单元使用一对应一第二帧的分数来执行一搜寻操作,该第二帧紧接着先前的该第一帧; 以及 数据总线,用以耦合该处理单元和该声学处理单元。
2.根据权利要求1所述的语音辨识系统,其特征在于,该处理单元用以同时运行一搜寻线程和一距离计算线程。
3.根据权利要求2所述的语音辨识系统,其特征在于,该处理单元包括: 应用程式接口(API)模块,用以接收一来自该距离计算线程的指令并产生一个或多个相对应的指令由该声学处理单元接收。
4.根据权利要求3所述的语音辨识系统,其特征在于,该应用程式接口模块包括: 通用DCA,用以接收一来自该距离计算线程的指令并输出一个或多个在指令库中用以实现该接收到的指令的函数。
5.根据权利要求4所述的语音辨识系统,该通用DCA至少指定: (1)用以储存一声学模型的创建函数,一些在特征向量中的维度,以及一些在该声学模型中作为状态讯息的聚类状态; (2)集合特征函数,用以储存一对应一接收到的帧识别的特征向量; (3)计算分数函数,用以指定至少一聚类状态被计分为一帧; (4)填充分数函数,用以储存聚类状态分数在一缓冲器中; (5)集合特征矩阵函数,用以储存一特征向量转换矩阵和适应与一特定发声器的比对。
6.根据权利要求5所述的语音辨识系统,其特征在于,该应用程式接口模块进一步包含一 APU库,用以接收来自该通用DCA的参数以及输出与该声学处理单元相容的参数。
7.根据权利要求6所述的语音辨识系统,该APU库至少指定: (1)集合声学模型函数,用以组成一声学模型来用于聚类状态计分; (2)加载特征向量函数,用以加载一特征向量至该声学处理单元之中; (3)分数聚类状态块函数,用以加载一聚类状态列表至该声学处理单元之中; (4)分数范围函数,用以指定在一范围内的所有聚类状态都有被记分; (5)读取聚类状态分数函数,用以读取聚类状态分数并储存该聚类状态分数于一目标缓冲器; (6)检查分数准备状态函数,用以决定聚类状态分数是否准备好从该声学处理单元中被读取; (7)读取分数长度函数,用以读取该声学处理单元中的一第一状态暂存器以决定一些可用的得分项; (8)读取状态函数,用以读取该声学处理单元中的一第二状态暂存器以决定一读取操作的状态; (9)读取组态函数,用以读取该声学处理单元中的一组态暂存器;以及 (10)写入组态函数,用以写入该组态暂存器。
8.根据权利要求6所述的语音辨识系统,其特征在于,该应用程式接口模块进一步包含: 硬件抽象层(HAL),作为该APU库与该声学处理单元之间的接口。
9.一种声学处理方法,包括: 使用一处理单元将一接收到的音频信号分割成多个帧; 使用一声学处理单元(APU)去比较一与该多个帧中的一第一帧相关的特征向量和一高斯机率分布向量以产生一分数;以及 在比较同时,使用该处理单元使用对应于从一声学处理单元(APU)所接收到的该多个帧中的一第二帧相关的特征向量的分数进行搜寻操作,其中,该第二帧紧接着该第一帧,且其中,该处理单元与该声学处理单元耦合在一数据总线上。
10.根据权利要求9所述的声学处理方法,进一步包含: 创建一搜寻线程和一距离计算线程在该处理单元上。
11.根据权利要求9所述的声学处理方法,其特征在于,该距离计算线程通过一应用程式接口(API)控制该比较。
12.根据权利要求11所述的声学处理方法,其特征在于,该应用程式接口包含: 通用DCA ; APU库;以及 硬件抽象层(HAL)。
13.根据权利要求12所述的声学处理方法,该通用DCA至少指定: (1)创建函数,用以储存一声学模型,于一特征向量中的一些维度,以及一些在该声学模型中作为状态资讯的聚类状态; (2)集合特征函数,用以储存一对应一接收到的帧识别的特征向量; (3)计算分数函数,用以指定至少一聚类状态被计分为一帧; (4)填充分数函数,用以储存聚类状态分数在一缓冲器中; (5)集合特征矩阵函数,用以储存一特征向量转换矩阵和适应与一特定发声器的比对。
14.根据权利要求12所述的声学处理方法,该APU库至少指定: (1)集合声学模型函数,用以组成一声学模型来用于聚类状态计分; (2)加载特征向量函数,用以加载一特征向量至该声学处理单元之中; (3)分数聚类状态块函数,用以加载一聚类状态列表至该声学处理单元之中; (4)分数范围函数,用以设定在一范围内的所有聚类状态都有被记分; (5)读取聚类状态分数函数,用以读取聚类状态分数并储存该聚类状态分数于一目标缓冲器; (6)检查分数准备状态函数,用以决定聚类状态分数是否准备好从该声学处理单元中被读取; (7)读取分数长度函数,用以读取该声学处理单元中的一第一状态暂存器以决定一些可用的得分项; (8)读取状态函数,用以读取该声学处理单元中的一第二状态暂存器以决定一读取操作的状态; (9)读取组态函数,用以读取该声学处理单元中的一组态暂存器;以及 (10)写入组态函数,用以写入该组态暂存器。
15.一种计算器可读取媒体,具有存于其中的由一个或多个处理器所执行的一个或多个指令中的一个或多个序列,用以执行一声学处理方法,该方法包含: 使用一处理单元将一接收到的音频信号分割成多个帧; 输出一与该多个帧中的一第一帧相关的特征向量至一声学处理单元,其中,该声学处理单元用以比较该第一帧和一高斯机率分布向量以产生一分数;以及 在该声学处理单元比较同时,使用该处理单元使用对应于与从一声学处理单元(APU)所接收到的该多个帧中的一第二帧相关的特征向量的分数进行搜寻操作,其中,该第二帧紧接着该第一帧,且其中,该处理单元与该声学处理单元,耦合在数据一总线上。
16.根据权利要求15所述的计算器可读取媒体,该方法进一步包含: 创建一搜寻线程和一距离计算线程在该处理单元上。
17.根据权利要求16所述的计算器可读取媒体,其特征在于,该距离计算线程通过一应用程式接口(API)控制该比较。
18.根据权利要求17所述的计算器可读取媒体,其特征在于,该应用程式接口包含: DCA 库; AI3U库;以及 硬件抽象层(HAL)。
19.根据权利要求18所述的计算器可读取媒体,其特征在于,该DCA库至少指定: (1)创建函数,用以储存一声学模型,于一特征向量中的一些维度,以及一些在该声学模型中作为状态资讯的聚类状态; (2)集合特征函数,用以储存一对应一接收到的帧识别的特征向量; (3)计算分数函数,用以指定至少一聚类状态被计分为一帧; (4)填充分数函数,用以储存聚类状态分数在一缓冲器中; (5)集合特征矩阵函数,用以储存一特征向量转换矩阵和适应与一特定发声器的比对。
20.根据权利要求18项所述的计算器可读取媒体,其特征在于,该APU库至少指定: (1)集合声学模型函数,用以组成一声学模型来用于聚类状态计分; (2)加载特征向量函数,用以加载一特征向量至该声学处理单元之中; (3)分数聚类状态块函数,用以加载一聚类状态列表至该声学处理单元之中; (4)分数范围函数,用以设定在一范围内的所有聚类状态都有被记分; (5)读取聚类状态分数函数,用以读取聚类状态分数并储存该聚类状态分数于一目标缓冲器; (6)检查分数准备状态函数,用以决定聚类状态分数是否准备好从该声学处理单元中被读取; (7)读取分数长度函数,用以读取该声学处理单元中的一第一状态暂存器以决定一些可用的得分项; (8)读取状态函数,用以读取该声学处理单元中的一第二状态暂存器以决定一读取操作的状态; (9)读取组态函数,用以读取该声学处理单元中的一组态暂存器;以及 (10)写入组态函数,用以写入该组态暂存器。
【文档编号】G10L15/01GK104137178SQ201280070114
【公开日】2014年11月5日 申请日期:2012年12月18日 优先权日:2011年12月19日
【发明者】V·纳塔拉詹, S·罗斯内 申请人:斯班逊有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:可调谐纤维集成光频率梳的制作方法技术领域:本发明涉及的是一种可调谐纤维集成光频率梳,属于光纤技术领域。 背景技术:光学频率梳是指一系列离散的、等波长间距的脉冲激光,其频谱分布很像一把梳子。光学频率梳广泛应用于光学原子钟,超灵敏化学

    专利发布时间:2025-05-15阅读:(114)

    专利名称:图案形成方法、半导体装置的制造方法及制造装置的制作方法技术领域:本发明涉及用于形成在半导体晶片等基板上实施等离子体 蚀刻等蚀刻处理时所用的蚀刻掩模的图案形成方法、半导体装 置的制造方法及半导体装置的制造装置。背景技术:以往,在半导

    专利发布时间:2025-05-15阅读:(71)

    专利名称:电动警报器鸣轮定位装置的制作方法技术领域:本实用新型涉及电动警报器结构部件,具体是指警报器鸣轮停鸣时的定位装置。背景技术:电动警报器,如防空警报器,是由电机带动鸣轮高速转动起鸣的。电动警报器外壳上周向均分地开设有音窗,鸣轮周边设有

    专利发布时间:2025-05-15阅读:(69)

    专利名称:自动风噪声减小电路及其方法技术领域:本发明涉及一种自动风噪声减小电路及其方法,用于减小将在诸如数字摄像机等音频信号处理装置中处理的音频信号的风噪声。背景技术: 在诸如数字摄像机等集成有摄像机的VTR中,一般使用大量以任意间距放置的

    专利发布时间:2025-05-15阅读:(82)

    专利名称:导光板、背光源及液晶显示装置的制作方法技术领域:本实用新型涉及液晶显示技术领域,特别是涉及一种导光板、背光源及其液晶显示装置。背景技术:导光板广泛用于液晶显示设备中。目前普通应用的侧入式背光源如图1所示,在发光二极管LED灯条2点

    专利发布时间:2025-05-15阅读:(65)

    专利名称:光敏液晶变色镜片的制作方法技术领域:本实用新型涉及一种自身带光电池的光敏液晶变色镜片。在我国实用新型专利号为87210593的《光敏电子液晶变色镜》的专利文件中,公开了的变色镜其电源装在镜框上,这种变色镜使用不方便。本实用新型的任

    专利发布时间:2025-05-15阅读:(84)