专利名称:用于语音识别的方法
技术领域:
本发明涉及一种用于对具有多个表达部分的表达进行语音识别的方法。本发明此 外涉及一种适于执行相应方法的语音识别设备;以及一种计算机程序产品,该计算机程序 产品促使在受程序控制的语音识别设备上执行语音识别方法。
背景技术:
作为对人机接口的补充的用于语音识别的方法有越来越广泛的应用领域。在移动 终端设备(例如移动电话)的情况下命令识别或者从地址薄中选择项现在是标准功能范 围。尤其是也在机动车中使用语音识别系统,以便例如得到用于导航装置的开始和目标设定。 常用的语音识别方法例如基于所谓的隐马尔可夫模型 (Hidden-Markov-Modellen),该隐马尔可夫模型虽然使得能够进行不依赖于讲话者的语音 识别,然而造成了高的计算花费。因为尤其是在机动车中经常使用只具有有限计算和存储 资源的所谓的嵌入式系统作为计算机,所以必须经常执行简化了的语音识别。尤其是对用 于待辨识的搜索项的搜索空间的限制一般导致对计算性能和存储容量的较低要求。但是, 相应的搜索空间限制以及因此对资源的节约经常伴随有不太可靠的语音识别和/或用户 的不太舒适的操作。 在DE 10207895A1中例如说明了一种用于语音识别的方法,其中对于多部分表达 或命令的输入提出逐级的语音识别。在那里规定,例如在输入城市名称并且随后输入街道 名称的情况下,首先对具有所说出的街道名称的单个表达进行语音识别,该语音识别作为 命中列表(Trefferliste)在显示器上被显示给用户。然后,在用户确认之后,可以为另一 语音识别确定适合于该城市名称的第二词汇表,该第二词汇表比城市名称和街道名称的组 合造成更小的存储器需求。然而,不利的是,用户必须首先记录对于城市名称的识别结果, 并且必须手动地从命中列表中进行选择。 此外,特别期望的是,在唯一的对于用户来说可感觉到的步骤中借助于语音识别 来识别完整的地址输入并且向用户直接显示全部目标地址的选择,其中该地址输入例如包 括城市名称、街道名称以及名牌号码。通常,待识别的表达的相应延长由于有许多表达部分 (城市名称、街道名称、门牌号码)而伴随有对相应语音识别设备的存储性能和计算性能明 显更高的要求。所以,在过去,尽可能只通过语音识别来识别短的命令或者命令序列并且示 出给用户。
发明内容
因此,本发明的任务是,提供一种改进的用于语音识别的方法。
该任务通过根据权利要求1的用于语音识别的方法来解决。 相应地提供一种用于对具有多个待识别的表达部分的待识别的表达进行语音识 别的方法。在此,首先对所选择的第一表达部分执行部分语音识别,并且根据通过部分语音
4识别所识别出的针对第一表达部分的命中词选择来执行对表达的第一和其它表达部分的语音识别。 虽然待识别的表达包括多个不同的表达部分,例如由城市名称加街道名称加门牌号码所组成的目标地址的说出,但是不必要的是,用户对确定的表达部分或者所识别出的表达部分进行确认。因为首先从总体表达中选择一个表达部分,所以可以根据上下文使用针对部分语音识别的、例如主要涉及城市名称的较小的词汇表。从第一部分语音识别的对于用户来说感觉不到的中间结果中得出相应的上下文。通过部分语音识别所识别出的命中词选择使得能够例如使总体表达重新经受语音识别,所述语音识别由于通过部分语音识别的预先选择而相对于由城市名称、街道名称和门牌号码所组成的所有可能组合需要明显减小了的词汇表。也随之出现对存储容量和计算容量的较低要求。 在该方法的变型方案中,借助于隐马尔可夫模型来使第一表达部分经受部分语音识别。在此,利用填充数据来覆盖其余的表达部分以用于部分语音识别。也被称为垃圾数据的所述填充数据只造成用于创建根据隐马尔可夫模型的相应的词汇表的小的存储需求和计算需求。如果例如待识别的部分表达位于表达的开始,如在通过城市名称来输入地址的情况下那样,则在隐马尔可夫模型的范围内利用数据库的已知城市名称来训练一定数目的在时间上首先得到的音素,而利用垃圾或者填充音素来训练其它的所得到的表达部分。在第二语音识别步骤中,可以通过由搜索词汇、例如街道名称所构成的搜索词来代替在第一部分语音识别步骤中利用填充数据所占用的表达部分。因此,在总体表达经受语音识别的第二语音识别步骤中,已经可以明显限制词汇表,因为只需通过隐马尔可夫模型与针对借助于部分语音识别所识别出的第一表达部分的命中词选择一致的可能的搜索项进行建模。原则上,第一语音识别级所基于的第一表达部分位于什么时间位置在此不起任何作用。即使待识别的第一表达部分由其它表达部分包围的表达也可以通过根据本发明的语音识别方法来处理。 此外可以使第一表达部分通过确定总体表达在时间上的能量变化被识别出并且经受部分语音识别。 一般,表达部分可以通过可检测到的讲话暂停来相互分开,从而表达的在某些时刻特别低的能量可以用作表达部分之间的间隙的指示器。还可以使用公知的语音活动识别方法以用于确定表达中的第一表达部分。 优选地,用于语音识别的方法包括下列方法步骤中的一个或者多个
-记录(Aufnehmen)表达,所述表达包括多个表达部分; _提供第一词汇表,所述第一词汇表包括由搜索词、音素组合和/或转移概率组成的第一列表;-借助于所提供的第一词汇表来执行对所记录的表达的所选择的第一表达部分的部分语音识别以用于从搜索词列表中确定命中词选择;-根据命中词选择提供第二词汇表,其中所述第二词汇表包括由多个搜索词的搜索词组合、音素组合和/或转移概率所组成的列表;-借助于所述第二词汇表来执行对所记录的表达的语音识别以用于从搜索词组合列表中确定命中词选择。 对表达的记录例如可以通过麦克风和连接在后面的模拟/数字转换器来进行,所述模拟/数字转换器为其它的计算单元、例如嵌入式系统中的CPU提供数字表达。第一词汇表例如通过控制装置或者计算装置来创建,所述控制装置或者计算装置对具有搜索词和该搜索词的相应音素标注(Phonemtranskription)的数据库进行访问。语音识别词汇表的提供通常要求高的计算性能和/或用于中间存储对于语音识别来说可读取并可处理的词汇表的大量的存储空间,其中所述语音识别例如是以软件实施的形式存在的。
在与现有技术不同不通过由用户进行的验证或者确认来发起的第二语音识别步骤中,向第二词汇表添加关于来自部分语音识别的命中词的其它信息。这例如可以包括创建词汇表,所述词汇表向来自部分识别步骤的所识别出的最佳城市名称附加相应的符合的街道名称。 例如可设想,存在包括一个国家的所有城市名称以及所有街道名称和所属门牌号码的数据库。除了填充数据之外,对于部分语音识别来说必要的第一词汇表只须访问作为上位概念的城市或者地点名称。然后,作为第二语音识别步骤中的其它概念,附加街道名称和门牌号码作为下位概念。但是,并不是所有可从数据库中提取出的街道名称都对于语音识别来说是相关的,而是只有那些被分配给作为上位概念的城市名称的并且被部分语音识别辨识为命中词的街道名称才是相关的。 有利地,在根据本发明的用于语音识别的方法的变型方案中,在读入第二词汇表之前,从存储器中删除第一词汇表。因此,尤其是在嵌入式系统的情况下保证了高效的存储器利用。 为了更高效地利用相应语音识别系统的资源,规定该语音识别方法的另一种变型方案,即在首先执行的部分语音识别的情况下所确定的表达和/或表达部分的特征在对其它表达部分和/或总体表达进行语音识别的情况下被再次使用。 尤其是考虑在部分语音识别或者词汇表创建的情况下所计算的MFCC特征和/发射概率。MFCC( = Mel Frequency C印stral Coefficients,Mel频率倒谱系数)被理解为所得到的音频表达的可计算的特征。根据普遍公知的方法进行对MFCC的确定,所述方法可以由语音识别系统的相应的经过编程的CPU来执行。因此,在对总体表达的第二语音识别步骤中的再次使用例如减少了语音识别的计算花费。同样可以使用MFCC的变型或者衍生。
本发明还提供一种具有权利要求18的特征的语音识别设备。 所述语音识别设备优选地具有耦合到数据库装置上的控制装置和存储器装置。在此,数据库装置提供词汇表的搜索词和/或该搜索词的音素标注。数据库装置例如可以被设计为移动存储器,例如DVD、SD存储卡、USB棒、CD-ROM或者其它公知的存储装置。用于导航系统或者其它语音识别应用的相应的数据库例如以SAMPA格式来运行。在此,SAMPA代表SpeechAssessment Method Phonetic Alphabet (语音评价方法音标字母)。这对应于音标字母,其将机器可读编码表示为语音学字母的ASCII符号。 此外,本发明提供一种计算机程序产品,所述计算机程序产品促使在受程序控制的语音识别设备上执行用于语音识别的前述方法。在此,可设想例如以在计算机可读的数据载体上存储的计算机程序的形式来实现该计算机程序产品。例如可以考虑CD-ROM、软盘、DVD、USB棒、存储卡或者其它存储装置以及由服务器提供可下载的文件。
本发明的其它有利的扩展方案和改进方案是从属权利要求以及下述实施例的主题。此外,参照附图借助于实施例进一步阐述本发明。在此
图1示出语音识别设备的示意性框图; 图2示出用于语音识别的方法的第一变型方案的流程 图3示出用于语音识别的方法的第二变型方案的流程 图4示出多部分表达的示意性表示;
图5示意性示出搜索词数据库的分层结构; 图6a,6b示出在执行用于语音识别的方法时语音识别设备中的时序图的实例。
具体实施例方式
在实施例中,相同或功能相同的元件配备有同样的附图标记,除非另有说明。
图1示出语音识别设备1的示意性框图。语音识别设备1例如可以被实施为用于汽车应用(例如用于导航系统)的嵌入式系统。设置有控制装置2、例如微处理器或者CPU,该控制装置2优选地是可编程的并且具有内部存储器、例如缓冲存储器13。此外设置有存储器装置5,该存储器装置5例如具有RAM存储器6和ROM存储器7。 ROM存储器例如可以具有用于CPU 2的操作系统或者控制程序。存储器5和CPU 2相互耦合,这在图1中作为通信和数据总线3示出。在此可设想,将数据库4例如安放在车辆的行李箱中并且在CPU2与数据库4之间经由车辆总线系统(例如I2C总线)来进行数据通信。还可设想,传输数据库4中的某些数据记录以用于暂时在存储器装置5的RAM存储器中形成语音识别词汇表。 此外,在通信和数据总线3上耦合有模拟/数字转换器9,在该模拟/数字转换器9上连接有麦克风8。因此,表达A由麦克风8记录并由模拟/数字转换器9以数字化形式提供。控制装置或CPU 2协调在存储器5中的存放。此外,语音识别设备l可以具有输入装置10和输出装置11。这例如在实施GUI (Graphic User Interface,图形用户界面)时被实现。作为输入装置,可以考虑例如键盘、旋钮或者其它触觉输入装置。作为输出装置ll,例如显示器或者语音输出是可能的。 尤其是CPU 2、存储器5和模拟/数字转换器9连同合适的数据通信总线3经常被实施为嵌入式系统。在此希望尽可能少的制造和空间花费,以便相应的CPU或者微处理器通常以从300至600MHz的时钟频率来运行。然而,还可设想其它值。作为RAM存储器,经常是64至128MB存储元件就足够了 。这些鉴于CPU 2的计算容量和存储资源5的有限资源决定了一种特别节省资源的用于语音识别的方法。 然而,各个表达部分的顺序输入和确认(例如,首先是城市,并且在进一步的输入请求之后是街道名称和门牌号码形式的地址)是麻烦的,虽然由此可以限制在语音识别时要使用的词汇表的大小。 在图2中示出了用于对多部分表达进行语音识别的改进方法的示意性流程图。在此图解说明两级方法,其中首先在步骤S1中或者在识别级S1中进行部分语音识别,然后在随后级S2中进行总体语音识别。 在第一步骤SI中,识别被限制于总体表达的一个表达部分,并且其余的表达部分例如通过垃圾模型(Milllmodell)或者填充数据来覆盖。以为导航系统输入目标地址为例,在第一识别步骤S1中,通过部分语音识别只在主动词汇表(aktives Vokabular)中保持城市名称。街道名称和门牌号码通过垃圾模型或者填充音素来建模。这例如可以在隐马尔可夫模型的范围内进行。 在用于语音识别的隐马尔可夫模型(HMM)中,观察在音素序列中从一个音素到下一音素的转移概率。音素是语音系统的有意义区别的最小单元。在此,隐马尔可夫模型由参数A = (A, B, n )表征,其中A = {aij}表示从一个(隐蔽的)状态i到状态j的转移概率,n = {nj表示状态i的开始概率,并且B二 {bj表示观察i的概率,其中相应的状态i在时刻t发射观察0t。在隐马尔可夫模型中,音素序列被记录并且概率被确定,以该概率根据HMM可以产生所记录的音素变化(Phonemverlauf)。在此,每个HMM例如对应于一个类,因此可以通过选出最高概率来将所记录的音素序列分配给一个类或一个词或者词序。
借助于公知的隐马尔可夫技术可以实现不依赖于讲话者的语音识别。为此,训练针对语音的音素的隐马尔可夫模型。在此,一般使用在语音识别环境中所记录的大的搜索词,该搜索词被记录到数据库中。相应的数据库具有例如城市名称的搜索词和音素标注。公知的是例如SAMPA标注。于是,在通常的语音识别算法中,依赖于上下文、例如通过三音子来对音素进行建模。在此,根据前面的音素和后续的音素对当前音素有区别地进行建模。
通常,动态地生成用于语音识别算法或者相应设立的语音识别装置的词汇表,其中语音识别装置例如是图1中通过操作系统或者控制程序所设立的CPU2。为此,首先必需说明待识别的搜索词的音素序列并且以对于语音识别来说可理解的形式来编译。即,将从数据库4中提取出的搜索词的音素序列转换为状态序列。在此,搜索词的数量越大,则在例如通过CPU2来进行词汇表创建时计算花费就越多。对于第一语音识别级、也就是部分语音识别的步骤Sl,这只针对例如位于德国的城市名称来执行。这大约有70000个搜索词。对于第二级中或步骤S2中的总体语音识别,重新创建识别词汇表,然而该识别词汇表在输入目标地址的该实例中不必再包括所有可能的街道名称和城市名称以及门牌号码,而是明显地有所减少。在德国存在大约370000个街道名称。然而,通过对街道名称进行部分语音识别的第一识别级将该数目从370000个搜索词减少到只剩200到15000个词。如果例如在第一步骤S1中确定N个命中词,则在第二步骤中仅仅编排用于执行语音识别的如下词汇表所述词汇表包括对于N个命中城市名称来说相关的街道名称。在每个城市名称平均有30个街道的情况下,在对于城市有N = 10个命中词时,得出在200个至15000个词之间的词汇表。在此,柏林以13000个街道被认为是最大的城市。 因此,在用于对所得到的具有多个表达部分的表达进行总体语音识别的第二语音识别步骤S2的情况下, 一般需要比在第一部分语音识别步骤Sl中更小的词汇表,因为在第二步骤S2中仅仅顾及N个最佳的城市名称。此外,在语法方面可以顾及城市名称与所属街道名称之间的其它逻辑联系。例如有可能的是,在具有不同城市名称的不同城市中,虽然存在同样的街道名称,但是门牌号码的数目不同。可以在语法方面针对语音识别来实施这种逻辑联系。 为了进一步改进识别词汇表的创建,有可能的是,已分配有特别大数目的街道名称的用于城市名称的街道词汇表已经被预编译并且被中间存储。只具有少数街道(例如少于可预先给定的阈值)的城市一般具有较小的街道词汇表,也可以在线地在运行语音识别时创建该街道词汇表。然而,在对街道词汇表进行预编译的情况下,从CPU方面较快的访问是有可能的。此外,由此减少相应语音识别系统的存储需求,因为只存储特别大的词汇表,
8库中询问音素来在线地直接创建。 在图3中示出了用于语音识别的两级方法的变型方案。在第一步骤T1中记录表达。这例如可以借助图1中所示的语音识别系统通过麦克风8与模拟/数字转换器9来进行。相应数据可以以数字方式被存放在存储器5中,并且在此优选地被存放在RAM存储器6中。在此,存储过程可以由被设计为可编程的并且由R0M存储器7中的操作系统控制的CPU2来协调。 在后续步骤T2中,加载或在线地创建部分词汇表。为此,搜索词(例如城市名称)及其相应的音素标注从数据库4被加载并且被存放在存储器6中。然后,在步骤S1中创建相应的部分词汇表以用于执行真正的语音识别或部分语音识别。 如已经在开始时所阐述的那样,在例如借助于HMM模型来执行语音识别算法时,可以用填充数据来覆盖表达部分,在这些表达部分处预计存在首先是不相关的街道名称和门牌号码。 在图4中示意性地示出了具有不同表达部分Al-A5的表达A。图形表示示出由麦克风所记录的声波随时间t变化的振幅。用户例如输入完整的搜索项"Mtochen(慕尼黑)Otto-Hahn-Ring(环路)Sechs(六号)"。该地址说明可以被领会为五部分的表达A。在此,城市名称"Miinchen"对应于第一表达部分Al, "Otto"对应于第二表达部分A2, "Hahn"对应于第三表达部分A3, "Ring"对应于第四表达部分A4,并且门牌号码"Sechs"对应于第五表达部分A5。在此,语音输出"Milnchen"从时刻^持续到时刻t2,"0tto"从时刻t2持续到t3, "Hahn"从时刻t3持续到t4, "Ring"从时刻t4持续到t5,并且"Sechs"从时刻t5持续到 存在辨识表达部分的不同可能性。例如,可以创建HMM模型,其中假设第一表达部分A1对应于城市名称,由此示出其余表达部分、即街道和门牌号码的上位概念。在此例如可以创建所谓的"垃圾模型(Garbage-Modelle)",该垃圾模型具有数据库中的城市名称的音素、例如"Mtochen"和其它的填充数据音素。例如可以对用于语音识别的不同路径进行建模 .. ............ 〈Miinchl ingen〉〈Miil 1〉〈Miil 1〉〈Miil 1〉〈Miil 1>
〈Mtochh£iusenXMiillXMiill> 在对应于表达、即在一个句子中并且没有中断地输入完整的目标地址的、完整的音素序列中,预计不对应于城市名称的音素部分被填充数据覆盖。这在关于图4示出的实例中可以是那些跟随在预先给定数目的开始音素之后的表达部分。通过建立用于语音识别的相应HMM模型,其中只顾及相关的表达部分、即对于第一步骤来说相关的第一表达部分A1,可以使用比对于HMM模型来说小得多的词汇表并且因此较小的存储空间,其中该HMM模型必须顾及所有表达部分A1-A5的所有音素。 还可设想,通过对表达进行能量测量来确定不同表达部分A1-A5的开始和结束。在所说出的词之间,经常出现暂停或者所产生的声音的特别小的能量。在图4中特别在时刻^,^,^,^,^和te情况如此。这种最小量的确定因此可以用于确定不同表达部分之间的界线。然而,还公知其它标准化的语音活动识别。为了确定词界线,使用所谓的VAD (VoiceActivity Detection,语音活动检测)方法。原则上,对于第一语音识别步骤Sl而言用于
9确定相应表达部分的任意方法都是有可能的。 通常的语音识别方法具有连续的步骤,如特性或特征计算、发射计算以及搜索。在特征计算的情况下,所得到的音频信号被转换为特征、例如MFCC特征。可以从音频信号中提取该一般被标准化的特征以用于真正的语音识别。可以例如通过将所得到的音频信号或所得到的表达首先划分为块或者窗来计算MFCC。然后,对每个窗执行傅立叶变换并且生成幅度谱(Betragspektrum)。对该幅度谱求对数,以便模仿人类的听觉。在一般情况下大量的出现的频带被组合为少量频带、例如40个频带。然后,执行离散余弦变换或者进行主分量分析。普遍公知MFCC的计算。 在随后的语音识别步骤中,将所计算的特征(例如MFCC)与通过HMM所产生的向
量进行比较。由此得出HMM中的段的偏移的间隔或者度量。这也被称为发射或者发射概率。
语音识别所基于的词汇表具有状态序列,该状态序列具有段的相互连接。在最后的搜索步
骤中,为了从词汇表或搜索词汇中确定识别结果或者命中词,执行基于识别词汇表的发射
并且在必要时基于语法或者语音模型的搜索。为了在HMM模型的词汇表中辨识所得到的表
达或所得到的表达部分,例如可以进行树型搜索,但是也可设想其它搜索算法。 因此,步骤S1中的部分语音识别提供对于城市名称具有N个列表一致
(ListenUbereinstimmung)的命中列表。在图5中,这在左侧被示出。作为可能的命中词,
部分语音识别得出例如"Miinchen"Hl, "Miinchlingen"H2和直到"Miinchhausen" HN的其它项。 参照图3,现在在步骤T3中可以从存储器中删除词汇表。在步骤T4中,现在创建用于语音识别方法的第二级的另一词汇表并且将其写入存储器中。通过读出属于命中词H1-HN的城市名称的街道名称来创建相应的识别词汇表。 在图5的中间列中,对于第一命中词Milnchen H1需要M个街道名称。在相应地分层组织的数据库中,为"Miinchen" Hl例如分配有项SN11-SNIM。对于次优命中词H2 "Miinchlingen",在数据库中存在O个街道名称SN21-SN20。对于第N个命中词HN "Miinchhausen",在数据库中存在项SNN1-SNNP。此夕卜,为了识别目标输入"MiinchenOtto-Hahn-Ring 6"的完整语音识别,还需要各个街道名称SN11-SN1M, SN21-SN20和SNN1-SNNP的门牌号码。在此不需要为每个街道名称使用词汇表的最大可能数目的门牌号码。更确切地说,可以顾及,例如Miinchen中的ArabellastaP e SN11具有100个门牌号码NB111-NB11Q,其中Q = 100。在另一城市中,另一数目的门牌号码是可能的。MiinchenHl中的Zweigweg SN1M例如只具有四个门牌号码NB1M1-NB1MR,其中R = 4。
类似地,用于总体语音识别、即总体表达A的词汇表只利用搜索词(即城市名称、街道名称和门牌号码)的组合来编排和编译,如根据第一部分语音识别结果、即命中词H1-HN所需的。通过用于识别总体表达A的识别词汇表的这种剧烈减小,可以利用资源短缺的计算机系统或者在资源短缺的计算机系统上进行实施。此外,通过减少数据库4与嵌入式系统14之间的待传输的数据,用于初始化语音识别的传送时间也更短。
然后,在随后的总体语音识别步骤S2中,例如通过HMM语音识别来获得具有命中词的相应结果。这在步骤T5中例如通过诸如显示器的输出装置示出给用户。由于在步骤S2中的总体语音识别的情况下有限的搜索空间、即专门预先给定的减小的词汇表,识别速率也特别高,因为通过在第二级中对识别词汇表的专门选择和创建,不合逻辑的或者不可
10能的搜索词组合被排除在外或者至少受到抑制。 为了进一步减少CPU2的计算负荷,此外可以规定再次使用在步骤S1的部分语音识别中已经进行过的计算、例如特征(诸如MFCC)的确定,并且在步骤S2中的词汇表创建和/或总体语音识别时顾及到该计算。来自第一部分语音识别步骤Sl的特征或者发射概率可以被中间存储并且在第二总体语音识别步骤S2中被再次使用。由此避免将会是冗余的多重计算。 除了在用于机动车的导航系统中进行目标输入的实例以外,还可设想其它的应用可能性。例如可以在应该是受语音控制的MP3播放器或者一般的音频再现装置的情况下,让用户说出由艺术家、专辑和标题组成的完整语句,并且首先对涉及艺术家的表达部分进行部分语音识别。然后,在第二语音识别步骤中,明显减小了的识别词汇表范围是有可能的。用户在任何情况下都不必将总体表达手动地分成单个部分或者确认各个表达部分。在此,在待识别的许多部分或多部分的表达的情况下,所示出的方法使得能够进行特别舒适的并且用户有好的语音识别。 图6A和6B示出根据本发明的变形方案的两级语音识别方法的可能的时序图。在此,时间轴从上向下延伸,其中四条平行虚线被动作或方法步骤占用,这些动作或方法步骤由语音识别系统或语音识别设备的不同的元件或者装置(如例如在图1中所示出的)来执行。 对此示出语音识别单元2,该语音识别单元2例如可以由CPU连同合适的程序设计例如通过R0M存储器7中的语音识别软件来实现。为了简便起见,该方框配备有附图标记2。为共同使用的存储器、例如RAM存储器6分配第二条垂直的虚线。为如下单元4分配第三条垂直的虚线,该单元4为识别装置或者识别软件提供用于词汇表的相应音素。这例如可以直接由数据库4提供,或者借助于合适的程序设计也由CPU通过提供所谓的音素服务的程序部分来供应。右侧的垂直虚线被分配给输入/输出装置12、例如GUI,该GUI可以例如被实施为触摸屏或者组合的键盘_显示器_单元。 例如在步骤R1中通过由用户通过GUI12输入国家标识来开始该语音识别方法。该输入被传输给识别单元2。在下文中,例如程序部分被理解为识别单元,该程序部分在可编程计算机装置、如CPU2上实现语音识别功能。然后,识别单元2在步骤T21中开始向数据库或音素服务4询问用于相应国家的相应的第一词汇表。在语音识别的第一级中有必要的是,在例如对于导航系统进行目标输入的实例中,创建用于城市名称的部分词汇表,其中如果将HMM模型用于语音识别,则其余的表达部分、S卩那些不与涉及城市名称的期望表达部分相对应的表达部分在HMM模型的范围内利用垃圾数据来建模。 CPU或识别单元2向音素数据库4或音素服务4发送相应的音素询问R2。于是,在步骤R3中将必要的音素和/或其它说明写入语音识别设备1的共同使用的存储器6中,其中所述其它说明可能对于语音识别软件来说是必需的。所使用的存储区域相对于完整的数据库4是小的,因为只对城市名称、即一个表达部分进行主动建模,而要记录的表达的其余表达部分在第一识别步骤中都是不重要的。在将必要的音素数据写入存储器之后,这在步骤R4中利用确认信号(Quittungssignal)或者完成命令来结束。音素服务4同样向识别单元提供确认信号R5,该识别单元于是在后续步骤R6中从共同使用的存储器6中读出现有的音素数据。
相应的识别软件或者识别装置2现在在步骤T22中创建用于执行第一部分语音识别的第一词汇表,例如对于HMM模型来说,利用垃圾或者填充数据用于不会顾及的表达部分。然后可以在步骤R7中释放用于音素数据的存储区域。这被通知给音素服务单元4。在步骤R4之后,部分语音识别完全准备就绪。 因此可以在步骤8中例如通过GUI12向用户传输输入请求。 一种可能性,用户通过"Push-to-Talk(按键通话)"说出导航系统的完整的目标地址。这在步骤T1中进行。在此,用户在完整的语句中输入总的目标地址,而不通过GUI进行其它输入。在Push-to-Talk的情况下,语音输入的开始由用户通过信号、例如按钮按下来通知识别单元。由此,表达的固定定义的开端被预先给定,这降低了计算花费,因为不必昂贵地确定表达开端,其中所述表达待由识别单元或软件来识别。 因此,在步骤R9中开始第一部分语音识别以用于从词汇表中确定搜索词的命中列表,该词汇表在这种情况下包括N个具有最佳城市名称的命中词的列表。具有第一命中词H1-HN的示例性列表在图5中示出。该语音识别的第一级在步骤Sl中的结果也可以选择性地在步骤RIO中由GUI显示。然而,这不是强制性必需的,因为语音识别在第二级中也自动地顾及其它表达部分、即那些涉及街道名称和门牌号码的表达部分。为此必须首先为语音识别单元2提供新的词汇表。 因此,在步骤Rll中针对涉及语音识别的第一级的第一命中词Hl的街道名称和/或门牌号码进行对音素数据的询问。相应的音素数据在步骤R12中被传输到共同使用的存储器6中,这在步骤R7中被确认并且在步骤R14中被通知给识别单元2。在步骤R15中,识别单元2读取相应的音素数据并且在步骤T41中创建用于语音识别的第二级的词汇表,该词汇表涉及第一级的第一命中词Hl。 类似地,在步骤R16中向音素数据库4询问其它命中词(例如第二命中词H2)的街道名称数据。在步骤R17中,相应音素数据又被写入存储器中,这在步骤R18被确认,并且在步骤R19中由音素数据库通知给识别装置2。因此,音素数据库或者音素服务4确认成功地将所询问的音素数据传输到识别单元2的存储器6中。借助于现有音素数据和对建立用于识别单元的词汇表来说所需要的可选的其它数据,识别单元在步骤T42中创建用于语音识别的第二级的词汇表,例如在图5中借助于街道名称SN21-SN20和门牌号码NB21 l-NB21S以及NB201-NB20T所示出的那样。相应的音素数据询问和词汇表创建现在针对第一识别级的所有命中词H1-HN进行。借助于这样建立起来的识别词汇表,现在可以对总体表达进行语音识别的第二级。 表达例如可以同样在存储器6中以数字化的形式被存放。因此,识别单元2在步骤R20中询问表达,并且执行第二语音识别步骤或者第二语音识别级S2。这利用根据第一识别级的结果被创建的词汇表来进行。最后,在步骤R21中进行命中词显示,该命中词显示例如可以在图4中所示的表达的情况下包括针对目标地址的如下可能性
Miinchen Otto-Hahn-Ring 6,
Miinchen 0tto_Hahn_Ring 60,
Miinchen 0tto_Hahn_Weg 6,
Miinchen 0tto_Hahn_Ring 16。 用于语音识别的方法的上述变型方案减小了对于识别尤其是多部分表达来说所需的词汇表。因此,即使是资源短缺的嵌入式系统也能够实现不依赖于讲话者的语音识别。在两个或者可选地多个步骤中执行对具有多个表达部分的复杂表达的语音识别。根据第一步骤的识别结果,创建后续步骤的词汇表。虽然基本上借助于两个识别级或者识别步骤阐
述了本发明,但是也可以容易地一般化(Verall gemeinerung)为多个步骤。在识别大词汇时,各个步骤或者识别级的词汇表大小分别被明显减小。 此外,用于语音识别的多级方法所具有的优点是数据库对相应的音素数据或者词汇表数据进行加载的时间减少。使具有多个表达部分的较长表达经受语音识别的传统识别器必须在语音识别开始时加载具有总体复杂性的完整的词汇表。这加重了相应的数据或通信总线的负载并且需要特别大的存储器。通过根据本发明的变型方案的两级或多级语音识别,只需要小的存储空间,并且数据总线上的相应音素数据或词汇表数据的传输有所减少。 通过使用来自第一识别步骤的前几个、例如N个命中词,识别速率与通常的策略相比也有所改进,其中在通常的策略的情况下,对于第一表达部分和第二表达部分执行独立的识别方法。这可以在具有上位概念(如城市名称)和进一步分配的概念(如街道名称和门牌号码)的分层数据库的情况下尤其通过使用逻辑联系或者一致性检查而发生。如果在第一识别级中例如确定N = 20个命中词,其中表达是"MiinchenOtto-Hahn-Ring6"并且例如由于干扰情况"Mtochen"只在第十八个位置处被识别,则如果在其余地点、如Miinchlingen或者Miinchhausen处或者不存在街道名称"Otto-Hahn-Ring"或者只存在其它的门牌号码,则组合"Milnchen Otto-Hahn-Ring 6 "仍然在第二级中作为最佳命中词出现。因此,第一和第二识别级的联系提供复杂的多部分表达的特别可靠的语音识别。
因此,上述方法与通常的识别方法相比提供改进的识别速率。需要减小了的存储需求和计算需求。因为词汇表和音素数据有所减少,所以数据总线负担有更少的数据传送。对音素数据和/或部分词汇表的访问更快,因为部分词汇表、例如具有许多街道名称的特别大城市的街道名称词汇表可以被中间存储。例如对应于具有少量街道的小城市的词汇表部分可以动态地在线生成并且不必被预编译。通过对于用户来说一级起作用的对待识别的复杂输入表达的语音识别,目标地址的输入时间縮短。不需要由用户进行多级或者确认过程。 虽然借助于语音识别方法的优选实施例和变型方案来阐述了本发明,但是本发明并不限于此,而是可以多方面进行修改。借助于导航系统的目标输入的前述示例可以改变。至少每当包括多个表达部分的表达被分层组织时、即每当例如第一表达部分是其它表达部分的上位概念时,本发明可以改进语音识别。就此而言,在图5中示出的分支树可以涉及各
种应用,例如所提及的在音乐播放设备的情况下对音乐作品的搜索,其中可以使用例如表演者作为上位概念、使用专辑并且最后使用磁道号或者歌曲号作为进一步的概念。表达部
分的数目及其在表达中的布置也可以改变。待识别的第一表达部分例如也可以位于总体表达的最后。
1权利要求
一种用于对待识别的表达(A)进行语音识别的方法,所述表达(A)具有多个待识别的表达部分(A1-A5),其中对所选择的第一表达部分(A1)进行部分语音识别(S1)并且根据通过所述部分语音识别(S1)所识别出的针对第一表达部分(A1)的命中词选择来执行对所述表达(A)的第一(A1)和其它表达部分(A2-A5)的语音识别(S2)。
2. 根据权利要求1所述的方法,其中借助于隐马尔可夫模型来使所述第一表达部分(Al)经受部分语音识别(Sl),在 所述隐马尔可夫模型的情况下,利用填充数据来覆盖其余的表达部分(A2-A5)以用于部分 语音识别(SI)。
3. 根据权利要求1或2所述的方法,其中所述第一表达部分(Al)通过确定所述表达(A)在时间上的能量变化被识别出并 且经受部分语音识别(SI)。
4. 根据权利要求1-3之一所述的方法,其中所述第一表达部分(Al)通过所述表达(A)中的语音活动识别被确定并且经受部 分语音识别(SI)。
5. 根据权利要求1-4之一所述的方法,其中根据通过部分语音识别(SI)所识别出的针对所述第一表达部分(Al)的命中词 (Hl-HN)选择来执行对总体表达的语音识别(S2)。
6. 根据前述权利要求之一所述的方法, 其中执行下列方法步骤中的至少一个a) 记录(Tl)表达(A),所述表达(A)包括多个表达部分(Al-A5);b) 提供第一词汇表(T2),所述第一词汇表包括由搜索词、音素组合和/或转移概率组 成的第一列表;c) 借助于所提供的第一词汇表(SI)来执行对所记录的表达(A)的所选择的第一表达 部分(Al)的部分语音识别(SI)以用于从搜索词列表中确定命中词(Hl-HN)选择;d) 根据命中词(Hl-HN)选择提供第二词汇表(T4),其中所述第二词汇表包括由多个搜 索词的搜索词组合、音素组合和/或转移概率所组成的列表;e) 借助于所述第二词汇表来执行对所记录的表达(A)的语音识别(S2)以用于从搜索 词组合列表中确定命中词选择。
7. 根据权利要求6所述的方法,其中所述命中词(Hl-HN)选择由搜索词构成,所述搜索词对应于第一词汇表中针对部 分表达(Al)最可能的命中词。
8. 根据权利要求6或7所述的方法,其中所述命中词选择由搜索词组合构成,所述搜索词组合对应于第二词汇表中针对所 记录的表达(A)最可能的命中词。
9. 根据前述权利要求5-7之一所述的方法,其中所述第二词汇表对应于搜索词组合,所述搜索词组合通过将附加词和/或附加词 序分配给部分语音识别的命中词(Hl-HN)来构成。
10. 根据前述权利要求5-8之一所述的方法,其中所述方法被设计用于识别数据库(4)的所说出的项,其中所述数据库(4)被分层建立并且为相应的上位概念分配其它概念,所述其它概念被分配有其它的下位概念。
11. 根据权利要求10所述的方法,其中所述上位概念包括城市名称,所述其它概念包括街道名称,并且所述其它的下位 概念包括门牌号码。
12. 根据前述权利要求5-ll之一所述的方法,其中所述第二词汇表具有总体表达的总体词汇表的子选择,并且从具有总体词汇表的 其它搜索词的第一词汇表的搜索词列表中所选择的命中词组合被从第二词汇表中排除。
13. 根据前述权利要求5-12之一所述的方法,其中在执行部分语音识别(Sl)之后,从存储器中删除(T3)第一词汇表,并且读入(T4) 第二词汇表。
14. 根据前述权利要求之一所述的方法,其中在部分语音识别(Sl)的情况下所确定的所述表达(A)和/或表达部分(Al)的特 征、尤其是确定的MFCC特征和/或所计算的发射概率在对其它表达部分(A2-A5)和/或总 体表达(A)进行语音识别(S2)的情况下被再次使用。
15. 根据前述权利要求之一所述的方法, 其中所述第一表达部分(Al)位于待识别的表达(A)的开端。
16. 根据前述权利要求之一所述的方法, 其中对第二词汇表的至少部分进行预编译。
17. 根据权利要求12和16所述的方法,其中针对总体词汇表的部分词汇表计算并存储隐马尔可夫模型的参照向量。
18. —种语音识别设备(1),其被设计为实施根据权利要求1-17之一所述的方法。
19. 根据权利要求18所述的语音识别设备(1), 其中所述语音识别设备被实施为尤其是用于汽车领域的嵌入式系统。
20. 根据权利要求18或19所述的语音识别设备(1),其中所述语音识别设备(1)具有耦合到数据库装置(4)上的控制装置(2)和存储器装 置(5),其中所述数据库装置(4)提供词汇表的搜索词和/或该搜索词的音素标注。
21. 根据权利要求18-20之一所述的语音识别设备(1), 其中所述语音识别设备被设计为尤其是用于机动车的导航系统的部分。
22. 根据权利要求18-21之一所述的语音识别设备(1),其中所述语音识别设备(1)被设计为移动电话的部分和/或尤其是MP3播放器的音频 再现装置的部分。
23. —种机动车,尤其是汽车,其具有根据前述权利要求之一所述的语音识别设备(1)。
24. —种计算机程序产品,其促使在受程序控制的语音识别设备(1)上执行根据权利 要求1-17之一所述的方法。
全文摘要
本发明涉及一种用于对待识别的表达(A)进行语音识别的方法,所述表达(A)具有多个待识别的表达部分(A1-A5),其中对所选择的第一表达部分(A1)进行部分语音识别(S1)并且根据通过部分语音识别(S1)所识别出的针对第一表达部分(A1)的命中词选择来执行对表达(A)的第一(A1)和其它表达部分(A2-A5)的语音识别(S2)。
文档编号G10L15/04GK101755301SQ200880025088
公开日2010年6月23日 申请日期2008年6月18日 优先权日2007年7月18日
发明者B·利特尔, J·F·吉塔特佩雷斯, M·万丁格尔 申请人:斯沃克斯公司
用于语音识别的方法
相关推荐
专利名称:调焦组合及具该调焦组合的投影机的制作方法技术领域:本发明涉及一种调焦组合及具有该调焦组合的投影机。 背景技术:随着投影技术的发展,各种类型的投影机被广泛应用到商务,教学,家庭影院等场合, 同时,微型投影机也得到极大发展及应用,尤其
专利名称:一种球型投影灯的制作方法技术领域:本实用新型涉及一种照明装置,特别涉及一种球型投影灯。背景技术:生活中,人们经常会用到投影灯来照明,投影灯不仅可以照明,还可以调节光束的照明方向,现有的投影灯,照明亮度分布不均匀,使用不方便,另外,
专利名称:非圆截面石英卤钨灯的制作方法技术领域:本实用新型涉及到一种交通运输照明灯,尤其是一种用于汽车上的照明灯非圆截面石英卤钨灯。背景技术:随着汽车工业的不断发展,汽车照明领域中出现了高强度金属卤化物气体放电灯(HID)。但现在的HID虽
专利名称:多通道音频信号的编码和解码的制作方法技术领域:本发明涉及多通道编码和解码。更加特别地,本发明涉及将一定数量音频通道转换成更小数量音频通道(编码)的装置和方法,和将一定数量音频通道转换成更大数量音频通道(解码)的装置和方法。使用多通
专利名称::液晶装置以及电子设备的制作方法技术领域::本发明的一种方式涉及液晶装置以及电子设备。背景技术::液晶装置,其一般是这样的结构具备液晶面板,进而在液晶面板的外侧具有偏振板,其中该液晶面板具有一对基板和封入到这些基板间的液晶层。作为
专利名称:基于随机并行优化算法的光束偏转与净化装置的制作方法技术领域:本发明涉及一种光束控制方法,尤其是一种基于随机并行优化算法的装置, 能够同时实现光束偏转与净化。背景技术:光束偏转与净化在高能激光技术领域得到了广泛的应用。在高能激光系统