当前位置:网站首页>专利 >正文

自动语音识别声学模型的调整的制作方法

专利名称:自动语音识别声学模型的调整的制作方法
技术领域
本发明的示例性实施方式总体上涉及语音识别。更具体地,本发明的示例性实施方式涉及对声学(acoustic)模型进行调整的自动语音识别。
背景技术
很多当下的自动语音识别(ASR)系统需要用户通过下述操作来显式地训练声学模型读出预定语句,以便基于该用户的语音特征来调整讲话者无关(Si)声学模型,从而改进语音识别性能。

发明内容
以下给出了本发明某些示例性实施方式的简单概要,以便提供本发明某些示例性实施方式的基本理解。此概要不是详尽的总览,而且也不意在标识重要元素或关键元素或者勾勒权利要求的范围。以下概要仅以作为以下所提供更详细描述的序言的简单形式给出了某些概念和示例性实施方式。本公开的某些示例性实施方式涉及一种用于调整声学模型的装置、方法和系统。更具体地,根据本公开某些示例性实施方式的方法、装置和系统提供了对声学模型的调整。用户终端可以确定文本语料库(corpus)的音素分布、确定调整声学模型之前或之后该声学模型音素的声学模型增益分布、基于该音素分布和该声学模型增益分布来确定期望的音素(phoneme)分布、基于期望的音素分布来生成调整语句,以及生成请求用户说出该调整语句的提示。


通过考虑附图来参考下述描述,可以获得本发明的更完整理解及其优势,在附图中相同的附图标记指示相同的特征,以及其中图1示出了根据本公开示例性实施方式的用户终端。图2示出了根据本公开示例性实施方式实现的、用于调整声学模型的用户终端的架构。图3示出了根据本公开示例性实施方式的、包括文本语料库、发音词典和语音语料库的训练数据库(DB)。图4示出了根据本公开示例性实施方式的、存储有讲话者无关声学模型和讲话者相关声学模型的声学模型数据库(DB)。图5示出了根据本公开示例性实施方式的、存储有语言模型的语言模型数据库 (DB)。图6示出了根据本公开示例性实施方式的、针对词汇表生成的、用于基于统计方法来生成调整语句的单词网格(word lattice)。图7示出了根据本公开示例性实施方式的、用于选择优化调整语句以调整声学模型的方法。图8示出了根据本公开示例性实施方式的、描述了针对不同调整技术的单词识别性能的图表。
具体实施例方式在各种实施方式的下述描述中,参考形成本文一部分并且在其中仅通过说明方式示出各种实施方式的附图,其中在这些实施方式中可以实现本发明的一个或多个示例性实施方式。应当理解,在不脱离本发明范围的前提下,可以利用其他实施方式以及做出结构和功能上的修改。图1示出了根据本公开示例性实施方式的用户终端。用户终端102可以使用声学模型、语言模型和发音词典来执行自动语音识别(ASR),以便从人类语音中识别出文本,其中该人类语音经由话音接口输入,以允许用户提供用于控制用户终端102操作的语音输入 (如下文进一步详述的)。在示例性实施方式中,用户终端102可以是所示的移动通信设备、具有天线的移动电话或移动计算机,或者也可以是数字视频记录器(DVR)、机顶盒(STB)、服务器计算机、 计算机、存储设备、因特网浏览器设备、游戏设备、音频/视频播放器、数字相机/摄像机、电视、无线电广播接收机、定位设备、有线或无线通信设备和/或其任何组合。用户终端102 可以是如所示的单独设备,或者可以集成在诸如但不限于汽车内的另一设备中。在所示示例中,用户终端102包括显示器104、处理器106、存储器108或其他计算机可读介质和/或其他存储、用户接口 110、麦克风112和扬声器114。用户设备102的麦克风112可以从用户接收语音输入,而扬声器114可以输出音频以提示用户与话音接口进行交互。用户接口 110可以包括小键盘、触摸屏、话音接口、四箭头键、游戏杆、数据手套、鼠标、滚球(roller ball)、触摸屏或用于从用户接收用以控制用户终端102的输入的其他适当设备。图2示出了根据本公开示例性实施方式的、用于调整声学模型的用户终端102的架构200。架构200的处理器106可以通过下述操作来创建讲话者相关模型根据从使用有效调整语句的讲话者接收的语音输入来调整讲话者无关模型。架构200可以动态地标识用于该调整过程的优化调整语句。在所示示例中,架构200可以包括处理器106,该处理器106包括音素分布处理器 204、声学模型增益处理器206、调整语句处理器208和静态音素分布处理器210。该处理器 106可以是实现音素分布处理器204、声学模型增益处理器206、调整语句处理器208和静态音素分布处理器210的单个处理器,或者可以是彼此远离或位于彼此本地的两个或更多单独处理器。架构200的存储器108可以存储数据,其包括语言模型数据库202、训练数据库 214和声学模型数据库216,这些将参考图3-图5做进一步详细描述。训练数据库214还可以是存储器108的输入,如所示。图3示出了根据本公开示例性实施方式的、包括文本语料库、发音词典和语音语料库的训练数据库。文本语料库302可以是包括一种或多种语言文本的结构化集合的数据库。文本语料库302可以基于来自于书籍、新闻、单词表、数字序列、多人之间的语音对话等的摘录。发音词典304可以包括具有特定发音的单词或短语的集合。在示例性实施方式中,发音词典可以具有针对文本语料库302中每个单词的条目列表,该条目包括单词及其发音。例如,对于单词“you(你)”,发音字典可以列出该单词“you”及其音素级别发音“j U”。语音语料库306可以是包括语音音频文件和每个音频文件的文本转录的数据库。例如, 语音语料库306可以包括作为说出“How are you doing today ?(你今天过得怎么样),, 的某人音频记录的音频文件,以及文本转录可以包括对应于该音频记录的文本。图4示出了根据本公开示例性实施方式的、存储有讲话者无关声学模型和讲话者相关声学模型的声学模型数据库。如所示,声学模型数据库216可以包括一个或多个讲话者无关(Si)模型402和一个或多个讲话者相关(SD)模型404。SI模型402和SD模型404 二者可以使用预先记录的语音进行训练。在示例性实施方式中,SI声学模型402和SD声学模型404可以根据训练数据库214的文本语料库302和语音语料库306进行训练。声学模型402和404可以是例如上下文依赖音素隐形马尔科夫模型(HMM)。用户终端102可以使用声学模型402和404对接收自特定用户的语音输入进行分类,以便识别出语音输入中说出的单词。声学模型可以包括对不同声音、单词、单词的部分和/或其任何组合进行建模的数据,以便在接收自用户的语音输入中识别出单词。声学模型可以包括构成文本语料库302中每个单词的声音的统计表征。为了开发出针对多个用户可用的声学模型,声学模型可以根据记录自多个讲话者的语音数据进行训练,并且该声学模型可以称为SI声学模型402。声学模型的训练可以涉及对说出的单词进行统计建模的过程,以使得与该说出的单词对应的文本可以由用户终端102识别。SI声学模型402例如可以开发自多个个体提供的语音输入,并且由此可以代表一般讲话者的语音特征,但可能未考虑到个体讲话者唯一的讲话特征。该训练过程可以泛化该SI声学模型402,以表征来自特定讲话者的、待识别的说出单词的特征。由于SI声学模型402开发自多个讲话者,所以SI模型402可能针对特定讲话者提供的语音不具有较高的单词识别准确度。用户终端102可以调整该SI声学模型402以改进语音识别准确度。此处描述的讲话者调整方案可以利用有限的讲话者特定数据来调整(例如,调谐)该SI声学模型402,以更好地表征该个体讲话者的特征。调整可以从特定讲话者获得有限量的语音输入,以便调整该SI声学模型402从而生成SD声学模型404。调整可以迭代执行。该SI声学模型402可以通过记录特定讲话者的语音输入而得以调整,从而生成SD声学模型404的初始迭代。用户可以提供用以继续调整该SD声学模型404的进一步输入语音。例如,特定讲话者可以说出用于调整声学模型的一个语句。该特定讲话者可以提供一个或多个附加语句,直到该调整会话完成为止。调整语句的有效设计在下文进一步详细讨论。用户终端102可以用作个人设备,诸如但不限于,大部分情况下由单个用户使用的移动电话。在由单个用户使用时,用户终端102可以包括适合于该单个用户语音特征的单个SI声学模型404。而且,如果多个用户共享用户终端102的话,用户终端102可以为每个用户提供多个SD声学模型404。例如,如果用户终端102由多个用户共享,该声学模型可以包括适合于每个用户的SD声学模型404。图5示出了根据本公开示例性实施方式的、存储有语言模型的语言模型数据库。 该语言模型数据库202可以存储一个或多个声学语言模型,诸如根据训练数据库214的文本语料库302和语音语料库306训练而来的502A和502B。语言模型502可以是向单词序列指派概率的文件,并且其可以预测语音序列中的下一个单词。在示例性实施方式中,该语言模型(例如,502A和502B)可以是η构词成分语言模型。η构词成分语言模型可以是确定观测到具有某个单词序列的语句的概率的模型。例如,单构词成分语言模型可以指示单个单词在文本语料库302中出现的频率概率,双构词成分语言模型可以指示双单词序列在文本语料库302中出现的频率概率,以及η构词成分语言模型可以指示η单词序列在文本语料库302中出现的频率概率,其中η是正整数。在示例性实施方式中,语言模型502Α可以是单构词成分语言模型,而语言模型502Β可以是双构词成分语言模型。架构200可以解决文本语料库302的音素分布问题,以设计出用于高效地调整SI 声学模型402的优化调整语句。语音可以分解成音素,其中音素是子单词单元,但是也可以是其他声学单位。子单词单元的示例是普通话的声韵或者音节。音素的示例是单音或上下文依赖的音素,诸如三音素。音素分布可以度量每个音素出现在文本语料库302中的频率。 对于具有有限量调整文本的文本语料库302,某些音素较之于其他音素可能出现得更加频
系ο有限量的调整文本可以导致SI声学模型402针对某些音素具有有限的信息,并且当该用户说出这些音素时,用户终端102可能具有较低的单词识别准确度,尤其是在用户的语音特征显著不同于为创建该SI声学模型402提供语音输入的个体时。而且,读出预定语句可以是非常耗时的任务,通常也不是用户友好的,而且也不能高效地调整该SI声学模型402。为了解决这些和其他问题,架构200可以对文本语料库302的音素分布进行处理, 以高效地创建调整语句,从而实现期望的音素分布,同时将要求用户在有辅导的调整过程期间说出的文本量最小化。在示例性实施方式中,用户终端102可以基于用户的语音特征和用户终端102在其中进行使用的背景环境来调整该SI声学模型402,以生成SD声学模型404。如下文进一步详细描述的,用户终端102可以对该SI声学模型402进行处理,以生成可以用来调整该 SI声学模型402同时又将来自用户的语音输入量最小化的调整语句。以下描述了这样的方法,其可以使用用于训练语言模型(例如502Α)的文本语料库302的音素分布和声学模型增益分布的目标函数(objective function)优化来自动、动态且优化地生成调整语句,以便有效地改进语音识别准确度和用户体验。再次参考图2,用户终端102的架构200可以实现这样的自动语音识别(ASR)技术,其可以减轻可能不愿意为了调整SI声学模型402而执行密集过程的用户的负担。此处讨论的自动语音识别技术可以通过生成用以有效调整SI声学模型402的优化调整语句而成为较不耗时的任务。用户可以访问用户终端102的话音或图形接口,以便开始调整该SI声学模型402。 在初次使用该接口期间,用户终端102可以执行有辅导的调整过程,在该过程中,该接口请求用户说出预定语句,以便提供用于将SI声学模型调整为讲话者相关(SD)声学模型的语音输入。用户终端102可以基于该用户的语音特征以及用户终端102在其中进行使用的背景环境来调整该SI声学模型402,以开发出SD声学模型404从而改进单词识别准确度。用于调整Si声学模型402的语音输入量可以依赖于从训练数据库214学习而来的音素分布和用户特质。用户终端102例如可以利用有限的用户特定语音输入来调谐SI声学模型402 以调整该声学模型,从而更好地识别出该用户提供的语音。
8
为了开始调整该SI声学模型402,静态音素分布处理器210可以确定用于训练语言模型(诸如502A)的文本语料库302的音素分布。音素分布可以代表某些声音在文本语料库302中出现的频率。在示例性实施方式中,静态音素分布处理器210可以获取语言模型502A,并且继而基于以下等式来计算文本语料库302的静态音素分布Pe
权利要求
1.一种方法,包括 确定文本语料库的音素分布;确定调整声学模型之前以及之后、所述声学模型的音素的声学模型增益分布; 基于所述音素分布和所述声学模型增益分布来确定期望的音素分布; 基于所述期望的音素分布来生成调整语句;以及生成请求用户说出所述调整语句的提示。
2.如权利要求1的方法,进一步包括基于根据来自说出所述调整语句的用户语音输入对音素的统计表征进行更新来调整所述声学模型,以生成经更新的声学模型。
3.如权利要求2的方法,进一步包括基于所述声学模型的音素和所述经更新的声学模型的音素来确定经更新的声学模型增益分布。
4.如权利要求3的方法,进一步包括确定基于所述经更新的声学模型增益分布的相似性度量满足用以结束调整所述经更新的声学模型的停止标准。
5.如权利要求1-4中任一的方法,其中所述声学模型增益分布是对调整之前和调整之后的所述声学模型的音素之间相似性进行度量的相似性度量。
6.如权利要求1-5中任一的方法,其中所述调整语句的生成包括从候选调整语句列表中选择候选调整语句作为所述调整语句。
7.如权利要求1-6中任一的方法,其中所述调整语句的生成进一步包括 确定多个候选调整语句的多个候选调整语句音素分布;标识所述多个候选调整语句中针对所述期望的音素分布具有最小交叉熵度量的第一候选调整语句;以及将所述第一候选调整语句选作所述调整语句。
8.如权利要求1-7中任一的方法,其中所述调整语句的生成进一步包括标识对通过词汇表的多个单词列表分段的累积得分进行优化的单词路径。
9.如权利要求1-8中任一的方法,其中所述调整语句的生成包括将词汇表的连续单词列表中单词之间的连接建模为双构词成分,以确定所述单词之间的关系。
10.如权利要求1-9中任一的方法,其中所述调整语句的生成包括应用有限状态语法以向所述调整语句提供结构。
11.如权利要求1-10中任一的方法,其中所述音素分布是使用单构词成分语言模型计算的。
12.—种设备,包括 至少一个处理器;以及包括计算机程序代码的至少一个存储器所述至少一个存储器和所述计算机程序代码配置用于与所述至少一个处理器一起引起所述设备至少执行下述操作 确定文本语料库的音素分布;确定调整声学模型之前以及之后、所述声学模型的音素的声学模型增益分布; 基于所述音素分布和所述声学模型增益分布来确定期望的音素分布; 基于所述期望的音素分布来生成调整语句;以及生成请求用户说出所述调整语句的提示。
13.如权利要求12的设备,其中所述计算机可读指令在执行时引起所述设备基于根据来自说出所述调整语句的用户语音输入对音素的统计表征进行更新来调整所述声学模型, 以生成经更新的声学模型。
14.如权利要求13的设备,其中所述计算机可读指令在执行时引起所述设备基于所述声学模型的音素和所述经更新的声学模型的音素来确定经更新的声学模型增益分布。
15.如权利要求14的设备,其中所述计算机可读指令在执行时引起所述设备确定基于所述经更新的声学模型增益分布的相似性度量满足用以结束调整所述经更新的声学模型的停止标准。
16.如权利要求12-15中任一的设备,其中所述计算机可读指令在执行时引起所述设备从候选调整语句列表中选择候选调整语句作为所述调整语句。
17.如权利要求12-16中任一的设备,其中用于生成所述调整语句的所述计算机可读指令在执行时引起所述设备确定多个候选调整语句的多个候选调整语句音素分布;标识所述多个候选调整语句中针对所述期望的音素分布具有最小交叉熵度量的第一候选调整语句;以及将所述第一候选调整语句选作所述调整语句。
18.如权利要求12-17中任一的设备,其中所述计算机可读指令在执行时引起所述设备标识对通过词汇表的多个单词列表分段的累积得分进行优化的单词路径。
19.如权利要求12-18中任一的设备,其中所述计算机可读指令在执行时引起所述设备将词汇表的连续单词列表中单词之间的连接建模为双构词成分,以确定所述单词之间的关系。
20.如权利要求12-19中任一的设备,其中所述计算机可读指令在执行时引起所述设备应用有限状态语法以向所述调整语句提供结构。
21.—种或多种计算机可读介质,存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令,所述方法包括确定文本语料库的音素分布;确定调整声学模型之前以及之后、所述声学模型的音素的声学模型增益分布;基于所述音素分布和所述声学模型增益分布来确定期望的音素分布;基于所述期望的音素分布来生成调整语句;以及生成请求用户说出所述调整语句的提示。
22.如权利要求21的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令基于根据来自说出所述调整语句的用户语音输入对音素的统计表征进行更新来调整所述声学模型,以生成经更新的声学模型。
23.如权利要求22的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令基于所述声学模型的音素和所述经更新的声学模型的音素来确定经更新的声学模型增益分布。
24.如权利要求23的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令确定基于所述经更新的声学模型增益分布的相似性度量满足用以结束调整所述经更新的声学模型的停止标准。
25.如权利要求21-24中任一的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令从候选调整语句列表中选择候选调整语句作为所述调整语句。
26.如权利要求21-25中任一的一种或多种计算机可读介质,其进一步存储有用于生成所述调整语句的计算机可执行指令,在由处理器执行时,引起所述处理器执行包括下述步骤的方法确定多个候选调整语句的多个候选调整语句音素分布;标识所述多个候选调整语句中针对所述期望的音素分布具有最小交叉熵度量的第一候选调整语句;以及将所述第一候选调整语句选作所述调整语句。
27.如权利要求2116中任一的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令标识对通过词汇表的多个单词列表分段的累积得分进行优化的单词路径。
28.如权利要求21-27中任一的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令将词汇表的连续单词列表中单词之间的连接建模为双构词成分,以确定所述单词之间的关系。
29.如权利要求21-28中任一的一种或多种计算机可读介质,其进一步存储有在由处理器执行时引起所述处理器执行包括下述步骤的方法的计算机可执行指令应用有限状态语法以向所述调整语句提供结构。
30.一种设备,包括用于确定文本语料库的音素分布的装置;用于确定调整声学模型之前以及之后、所述声学模型的音素的声学模型增益分布的装置;用于基于所述音素分布和所述声学模型增益分布来确定期望的音素分布的装置; 用于基于所述期望的音素分布来生成调整语句的装置;以及用于生成请求用户说出所述调整语句的提示的装置。
全文摘要
公开了一种用于调整声学模型的方法和系统。用户终端可以确定文本语料库的音素分布;确定调整声学模型之前以及之后、所述声学模型的声学模型增益分布;基于所述音素分布和所述声学模型增益分布来确定期望的音素分布;基于所述期望的音素分布来生成调整语句;以及生成请求用户说出所述调整语句的提示。
文档编号G10L15/06GK102282608SQ200980154721
公开日2011年12月14日 申请日期2009年12月3日 优先权日2008年12月9日
发明者J·田 申请人:诺基亚公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:液晶显示装置的制作方法技术领域:本发明提供一种液晶显示装置(liquid crystal display device,LCDdevice),尤指一种包括有多个可将一液晶显示面板(LCD panel)以水平方向(laterally

    专利发布时间:2025-05-15阅读:(119)

    专利名称:一种四弦琴的制作方法技术领域:本实用新型涉及一种民族乐器,特别是一种弓拉弦乐器。目前,民族乐器中的二胡音域较窄,拉弓套在弦内,活动受到限制。本实用新型的目的就是要提供一种音域宽、拉弓不受到约束的四弦琴。本实用新型的技术方案是这样实

    专利发布时间:2025-05-15阅读:(69)

    一种语音识别的方法及电子设备的制作方法【专利摘要】本发明公开了一种语音识别的方法及电子设备,所述语音识别的方法应用于一电子设备,该方法包括:接收用户输入的第一语音数据;基于用户的身份信息,获取与所述用户的身份信息相对应的第一高频词汇数据库;

    专利发布时间:2025-05-15阅读:(90)

    专利名称:图像显示装置的制作方法技术领域:本发明是关于一种图像显示装置,特别是关于一种采用横向电场(In PlaneSwitchingIPS)方式的液晶显示装置。背景技术: 图像显示装置是使电性的信号转换成视觉映像,使人类可直接解读资讯的电

    专利发布时间:2025-05-15阅读:(86)

    专利名称:声学聚焦换能器的制作方法技术领域:本实用新型涉及一种声学聚焦换能器,具体地说,是指一种通过改进压电元件的电极,采用环形设计来减小焦平面上主瓣半功率点的半径,并使其景深延长的声学聚焦换能器。背景技术:声学聚焦换能器被广泛地用于声学显

    专利发布时间:2025-05-15阅读:(88)

    专利名称:防水型灯头的制作方法技术领域:本实用新型涉及一种防水型灯头,主要用在光波管上,属于电热技术领域。背景技术:目前,在现有技术中,光波管灯头的使用已经非常普遍,但它们的共同缺点是在灯头安装后,产品普遍存在漏电及抗电强度不达标的缺陷,继

    专利发布时间:2025-05-15阅读:(75)