基于语音输入激活多种功能的系统和方法-品牌商务网

专利名称：基于语音输入激活多种功能的系统和方法
基于语音输入激活多种功能的系统和方法技术领域
本发明总体上涉及自动语音识别，更具体地，涉及具有多个上下文(context)的自动语音识别。
背景技术：
自动语音识别(ASR)
自动语音识别的目标是获得代表语音的声学信号(即，语音信号)，并通过模式匹配来确定所说的话语。语音识别器通常具有一组存储在计算机数据库中的表现为模式的声学和语言模型。将这些模型与所得到的信号进行比较。计算机数据库的内容、怎样调校数据库以及用于确定最佳匹配的技术是不同类型的语音识别系统的区别性特征。
已知多种语音识别方法。分段模型方法假定在口语中存在着明显的语音单位 (例如，音素)，可以用一段时间内语音信号中的一组特性来表示这些语音单位。将输入的语音信号分段为分立的部分，在分立的部分中，声学特性代表一个或者更多个语音单位，并且根据这些特性向这些部分添加标签。然后，根据所赋予的一系列语音标签来确定符合语音识别任务的限制条件的有效的词典单词。
基于模版的方法直接利用语音模式而不需要进行明确的特征确定和分段。最初利用已知的语音模式对基于模版的语音识别系统进行调校。在识别期间，将未知的语音信号与在调校期间获得的每个可能的模式进行比较，并且根据未知模式与已知模式的匹配程度来对其进行分类。
混合方法结合了上述的分段模型方法和基于模版的方法的某些特征。在某些系统中，在识别过程中不仅仅使用声学信息。并且，神经网络已经被用于语音识别。例如，在一个这样的网络中，模式分类器检测声学特征向量，并且将向量与和声学特征相匹配的滤波器进行卷积，然后在时间上对结果加总。
ASR使能系统
ASR使能系统包括主要的两类，S卩，信息检索(IR: :informationretrieval)系统以及命令与控制(CC command and control)系统。
信息检索(IR)
总体上，信息检索(IR)系统基于口述查询(query)来搜索数据库中存储的内容。所述内容可以包括任意类型的多媒体内容，如文本、图像、音频和视频，但不限于这些。查询包括关键词或者短语。很多IR系统允许用户指定将在查询期间应用的附加的限制条件。例如，限制条件可以指定所有返回的内容具有一系列属性。通常，将查询和限制条件规定为文本。
对于一些应用而言，即使可能，进行文本输入和输出也是困难的。这些应用例如包括在操作机器或车辆的同时搜索数据库，或者具有功能有限的键盘或显示器的应用 (如电话)。对于这样的应用而言，首选ASR使能的IR系统。
美国专禾1J 7,542,966 ( "Method and system for retrieving documents withspokenqueries"，2009年6月2日授予Wolf等)中描述了 ASR使能的IR系统的一个示例。
命令与控制(CC)
ASR使能的CC系统将口述命令识别并解释为机器可以理解的命令。口述命令的非限制性示例是“呼叫”指定的电话号码，或者“播放”指定的歌曲。由于近来语音识别软件的进步，已经开发出一些ASR使能的CC系统。通常，这些系统利用口述命令的特定上下文而在特定的环境中工作。
上下文ASR使能系统
大词典和复杂的语言模型使ASR使能系统变慢，并要求诸如存储器和处理的更多的资源。大词典还降低了系统的准确性。因此，大多数ASR使能系统都具有通常与相关的上下文相关联的小词典和简单的语言模型。例如，美国专利No.4,989,253公开了一种使显微镜移动并聚焦的ASR使能系统。该系统使用与显微镜相关联的上下文。另外，美国专利No.5,970,457公开了一种根据与适当的上下文相关联的口述命令来操作诸如手术工具的医疗设备的ASR使能系统。
然而，一些ASR使能系统需要包括用于不同上下文的多个词典和语言模型。这样的系统通常被配置为基于由用户选择的特定的感兴趣的上下文来激活适当的词典和语言模型。
如这里所定义的，ASR使能系统的上下文是词典、语言模型、语法、领域、数据库和/或与上下文功能相关的子系统，但不限于此。例如，与音乐、联系人、饭店或者名胜古迹相关的功能各自具有单独且可区分的上下文。使用多个上下文的ASR使能系统是上下文ASR使能系统。
因此，对于上下文ASR使能系统而言，需要指定口述查询或口述命令的上下文。
使用PTT功能的ASR使能系统
存在不同类型的根据背景噪声或背景语音来区分预计的语音输入的ASR系统。始终收听(always-listening)型系统对已识别的音频信号进行词法分析以检测用来激活 ASR使能系统以进行进一步输入的关键词(例如，“计算机”)。
另一种类型的ASR使能系统使用在人与人对话之后建模的诸如注视方向的其它输入线索。
另一种类型的ASR系统使用一按通话(PTT push-to-talk)功能。PTT控件(例如，按纽)用于将音频信号流的开始标记为预计的语音输入。在一些实施中，通过分析例如所得到的信号的幅度或信噪比(SNR)来自动地确定语音输入的结束。在其它实施中，用户被要求将按钮一直按下直到用户结束讲话为止，通过放开按钮来明确标记输入信号的结束。
嵌入式ASR系统
有时，需要直接在实体设备中嵌入ASR使能系统，而不是在基于网络的计算资源上实现ASR使能系统。必需进行这样的嵌入的场景包括那些不能采用持续网络连接的场景。在那些场景中，即使ASR使能系统涉及更新网络计算机上的数据库，也需要通过在设备上独立进行的人机交互来得到信息。然后，在网络通信信道恢复之后，可以使在设备上收集的已更新信息与基于网络的数据库同步。5
如这里所定义的，嵌入式ASR系统是这样一种系统，即，在该系统中，执行CC 或IR所需要的全部语音信号处理均发生在通常具有连接的有线麦克风或者无线麦克风的设备上。生成、修改或者激活嵌入式ASR系统所需的一些数据可以经由有线或无线的数据信道从不同的设备下载。然而，在进行ASR处理时，所有数据均驻留在与设备相关联的存储器中。
如上所述，结合特定的上下文或多个上下文来使用诸如IR和CC系统的不同类型的ASR系统是具有优势的。并且，由于它们的有限的存储器和CPU资源，一些嵌入式 ASR系统具有对于台式机或者基于服务器的ASR系统而言不一定存在的限制。例如，台式机或基于服务器的系统可能能够从系统的任意状态中处理音乐检索指令，如搜索特定的艺术家。然而，嵌入式ASR系统(例如，车辆中的ASR系统)可能需要用户首先切换到适当的上下文状态，并且将允许用户提供仅与特定的上下文状态相关的语音输入。
通常，嵌入式ASR系统与多种不同的上下文相关联。例如，音乐可以是一种上下文。当嵌入式ASR系统在音乐上下文状态中时，系统预期用户的语音输入与音乐相关，并且系统被配置为仅执行与检索音乐相关的功能。导航和联系人是ASR系统的上下文的其它非限制性示例。
例如，在具有使用PTT按钮的用户接口的嵌入式ASR系统中，为了搜索音乐表演者，用户必须按下PTT按钮，念出上下文指令(例如，诸如“音乐”的代码词)，从而将ASR系统切换到音乐上下文状态。在说出代码词后，用户可以输入口述指令以进行音乐检索。如果用户在一些其它上下文状态中输入音乐相关的口述指令，则ASR系统出现故障。
图1示出了常规的嵌入式ASR系统。在按下PTT按钮105后，系统预期包含上下文指令110-112的语音输入。在识别到120上下文指令后，系统转换为适当的上下文状态 130-132。因此，在识别了随后的语音输入133-135后，系统激活适当的功能136-138。
然而，尤其当任务持续时间增长时，诸如音乐检索和目的地输入的复杂任务与例如驾驶车辆的其它用户操作相互干扰。因此，常常期望减少嵌入式ASR系统中以语音输入来激活功能的步骤数。发明内容
本发明的实施方式公开了一种基于语音输入来激活多种功能的方法和系统，其中，在诸如电话、导航系统、车辆的仪表盘等装置中嵌入所述系统。
所述系统包括存储多种状态的存储器，其中每种状态均与所述多种功能中的至少一种功能相关联；自动语音识别(ASR)引擎，所述自动语音识别引擎可操作地连接到一组数据模型，其中，针对每种状态均存在一个数据模型，其中，所述ASR引擎被配置为当系统处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能输入，使得根据所述功能输入激活所述功能；多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及状态转换模块，所述状态转换模块被配置为基于所述信号将所述系统转换到所述状态，其中，所述功能被配置，使得仅当所述系统处于与所述功能相关联的所述状态时才被激活。
在一个实施方式中，所述多个控件包括被配置为利用至少两种激活方式激活的多功能控件，使得所述多功能控件生成指示特定激活方式的信号。本实施方式还包括被配置为基于所述特定激活方式来激活第一功能或者第二功能的控制器，其中，所述第一功能被配置为仅基于所述激活方式来执行，并且其中，所述第二功能还被配置为基于所述语音输入来执行。
所述方法包括如下步骤在存储器中存储多个状态，其中，每个状态均与多种功能中的至少一种功能相关联；提供多个控件，其中，针对每个状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及在接收到所述信号时，将所述系统转换为与所述信号相关联的状态，以便根据所述语音输入来激活所述功能，其中，所述功能被配置为仅当所述系统转换到与所述功能相关联的状态时才被激活。

图1是常规的自动语音识别系统的框图2是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和系统的框图3是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和系统的框图；以及
图4是包含根据本发明一些实施方式的系统的车辆仪表盘的部分前视图。
具体实施方式
上下文PTT控制
本发明的实施方式基于对使得在嵌入式自动语音识别(ASR)系统中激活适当功能更加方便的多种专用的上下文一按通话(PTT)控件的实现。
图2示出了根据本发明一个实施方式的嵌入式ASR系统。该系统包括处理器 201，该处理器201包括存储器202的、输入/输出接口以及本领域中公知的信号处理ο
系统200包括存储器202中存储的多种状态231-233。通常，每种状态均与特定上下文相关联。例如，一种状态与音乐上下文相关联，而另一种状态与联系人上下文相关联。每种状态还与功能237-239中的至少一种功能相关联。功能237-239被配置为基于语音输入233-235而激活。通常，这些功能与状态相关联，其方式类似于上下文与状态之间的关联。例如，被配置为选择并播放音乐的功能与和音乐上下文关联起来的状态相关联。但是，被配置为选择并呼叫特定电话号码的功能则与和联系人上下文关联起来的状态相关联。
通常，语音输入包括将要执行的功能的功能标识符和功能参数。例如，语音输入是“呼叫Joe”。功能标识符是该输入的“呼叫”部分。基于该标识符，从与“电话”状态相关联的多种功能中选出用于执行电话呼叫的功能。语音输入的“Joe”部分是基于标识符选出的功能的参数。因此，所述系统利用该参数来执行所选择的功能，艮口，呼叫基于人名“Joe”从电话簿中选出的电话号码。
系统200被配置为仅在系统转换到一种状态时才激活与该状态相关联的功能。例如，为了激活音乐功能，系统必须首先转换到与音乐功能相关联的状态，并因而与音乐上下文关联起来。
系统200不具有一个常规的PTT按钮，而是提供了包括多个控件221-223(例如，上下文PTT控件)的控制板210。每个上下文PTT控件均可以是被配置为可触知地激活的任意输入控件，诸如按钮、控制杆或者触敏表面。
每个上下文PTT控件221-223均与状态231-233——对应。在激活时，上下文 PTT控件生成信号M2-M4。所述信号可以是携带关于被激活的上下文PTT控件的信息的任意类型的信号(例如，二进制信号)。
在接收到上述信号时，状态转换模块220将系统200转换为与该信号相关联的状态，以便激活功能。例如，在一个实施方式中，通过将来自一组数据模型255的数据模型256与ASR引擎关联起来以实现转换状态。数据模型包括词典、和/或一组预先确定的命令或者搜索项，这使得ASR引擎能够解释语音输入。ASR引擎将语音输入233-235 解释为功能237-239所预期的输入沈1力63。因此，如果数据模型256包括例如音乐上下文的词典，则ASR引擎仅能够解释与音乐相关的语音输入234。另选地或者另外地，状态转换模块预先选择(例如，上载到处理器201的存储器中)对应状态中包含的功能。
与单个PTT按钮的常规系统相比，本发明的实施方式提供了明显优势。常规系统要求额外的语音输入以转换到特定状态。然而，本发明的实施方式基于控件的激活直接将系统转换到与该控件相关联的状态。
因此，与常规系统相比，系统200利用了通过重复的相似运动(类似于盲打 (touch typing)和变速调档)来得到增强的肌肉记忆。因此，所述控件被设置为，使得用户仅从主要任务(例如，驾驶车辆)转移很少的注意力就能够激活该控件。
在一个实施方式中，每个控件均传送与状态相关联的上下文的标识符225-227。例如，标识符可以在控件上显示诸如“呼叫”或“音乐”的上下文名称的标题。另外或者另选地，标识符可以是控件的颜色、控件的形状、控件在设备上的位置以及它们的组合。本实施方式缩短了操作者为学习如何操作嵌入式ASR系统通常需要的训练时间。
如图4所示，系统200可以嵌入在车辆400的仪表盘410中。上下文PTT控件 432-433可以布置在方向盘430上。另选地或者另外地，上下文PTT控件425可以布置在控制模块420上。多个上下文PTT控件简化了搜索，并要求更少的用户交互，从而用户可以将精力集中在车辆驾驶上。
多功能控件
图3示出了根据本发明另一个实施方式的系统和方法300的框图。在此实施方式中，控件310是多功能PTT控件，其通过控制器320至少连接到功能330和340。控件310被配置为生成指示从多个激活方式317中选出的特定激活方式315的信号。激活方式包括例如单击、双击以及按下并保持的激活方式。
控制器320基于特定激活方式315来激活325第一功能340或者第二功能330。功能340和330之间的主要差异在于可以仅基于激活方式315来激活第一功能340。然而，第二功能330需要语音使能启动，S卩，第二功能330还被配置为期待语音输入333。
此实施方式使得能够将常规的控件使用为多功能PTT控件。如果用户以“正常的”激活方式(例如，单击)来激活控件，则系统激活342并执行344第一功能。或者，用户以“特殊的”激活方式(例如，双击)来激活所述控件，调用期待语音输入333 的功能337。
例如，单击电话上的绿色呼叫按钮显示出最近的呼叫。然而，双击同一个绿色呼叫按钮将导致系统检测语音输入(例如，类似“JohnDoe”的电话簿搜索)，并根据所述语音输入来执行“呼叫”功能。在此示例中，功能340是显示最近的呼叫的功能。很容易理解，当以单击激活方式激活时，功能340不需要任何额外的输入。另一方面，呼叫特定的电话号码的功能是功能330，该功能需要额外的输入(例如，来自电话簿的联系人姓名)。在此实施方式中，由嵌入式ASR系统基于语音输入来解释额外的输入。
类似地，收音机上的“播放/暂停”和“随机播放”按钮能够接受语音输入。如果正常启动是简单的转换操作(即，播放或暂停、随机播放开启或关闭)，则语音使能启动检测针对操作的语音输入，即，播放什么或者随机播放什么。
在一个实施方式中，功能330的语音使能激活的实现与系统200的状态的实现相似。当用户指示系统300激活第二功能330时，系统300转换为与第二功能330相关的状态(与状态231-233相似)。
在另一个实施方式中，将系统200和300结合起来以提供多功能的上下文PTT控件。在此实施方式中，控制板210包括多个多功能PTT控件。此实施方式允许在具有常规按钮的设备中嵌入ASR系统，从而将该设备转换为多功能的上下文嵌入式ASR系统。
尽管已经利用优选实施方式的示例说明了本发明，但是应当理解，在本发明的精神和范围之内可以得到各种其它改变和修改。因此，所附权利要求的目的是涵盖落入本发明的真实精神和保护范围内的所有这些的变化和修改。
权利要求
1.一种基于语音输入来激活多种功能的系统，其中，所述系统嵌入装置中，该系统包括存储多种状态的存储器，其中，每种状态均与所述多种功能中的至少一种功能相关联；能够操作地连接到一组数据模型的自动语音识别引擎，其中，针对每种状态均存在一个数据模型，其中，所述自动语音识别引擎被配置为当所述系统处于一种状态中时利用与所述状态相关联的数据模型将所述语音输入解释为功能输入，使得根据所述功能输入来激活所述功能；多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及状态转换模块，所述状态转换模块被配置为基于所述信号将系统转换到所述状态，其中，所述功能被配置为仅当所述系统处于与所述功能相关联的状态中时才被激活。
2.根据权利要求1所述的系统，其中，每种状态均与上下文相关联，其中，针对每种状态均存在一种上下文。
3.根据权利要求2所述的系统，其中，所述上下文是从音乐上下文、联系人上下文和导航上下文中选出的。
4.根据权利要求2所述的系统，其中，与状态相关联的控件传送与所述状态相关联的所述上下文的标识符。
5.根据权利要求4所述的系统，其中，所述标识符是从在所述控件上表现的标题、所述控件的颜色、所述控件的形状、所述控件的位置以及它们的组合中选出的。
6.根据权利要求1所述的系统，其中，所述语音输入包括所述功能的标识符和所述功能的参数，使得基于所述标识符来选择所述功能并基于所述参数来执行所述功能。
7.根据权利要求1所述的系统，其中，所述状态仅与一种功能相关联，所述语音输入包括所述功能的参数，使得基于所述参数来执行所述功能。
8.根据权利要求1所述的系统，其中，所述控件是一按通话按钮。
9.根据权利要求1所述的系统，其中，所述系统被配置为仅基于接触式激活来转换到所述状态。
10.根据权利要求1所述的系统，其中，所述多个控件包括多功能控件。
11.根据权利要求1所述的系统，该系统还包括包含所述多个控件的控制板。
12.根据权利要求1所述的系统，其中，所述装置是车辆的仪表盘。
13.根据权利要求1所述的系统，其中，所述装置是从电话、音乐播放器、导航设备以及它们的组合中选出的。
14.根据权利要求1所述的系统，其中，所述多个控件包括多功能控件，所述多功能控件被配置为利用至少两种激活方式激活，使得所述多功能控件生成指示特定激活方式的信号，该系统还包括控制器，所述控制器被配置为基于所述特定激活方式来激活第一功能或者第二功能，其中，所述第一功能被配置为仅基于所述激活方式来执行，并且其中，所述第二功能还被配置为基于所述语音输入来执行。
15.根据权利要求14所述的系统，其中，所述多个控件仅包括所述多功能控件。
16.—种激活多种功能的方法，其中，每种功能均被配置为基于语音输入来激活，该方法包括如下步骤在存储器中存储多种状态，其中，每种状态均与所述多种功能中的至少一种功能相关联；提供多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与所述状态相关联的信号；以及响应于接收到所述信号，将所述系统转换为与所述信号相关联的状态，以便根据所述语音输入来激活所述功能，其中，所述功能被配置为仅在系统转换到与所述功能相关联的状态时才被激活。
17.根据权利要求16所述的方法，其中，所述功能被配置为基于输入而执行，该方法还包括如下步骤提供自动语音识别引擎，所述自动语音识别引擎能够操作地连接到一组数据模型，其中，针对每种状态均存在一个数据模型，其中，所述自动语音识别引擎被配置为在所述系统转换到一个状态时，利用与所述状态相关联的数据模型将所述语音输入解释为输入。
18.根据权利要求16所述的方法，其中，所述多个控件中的至少一个控件是多功能控件。
19.根据权利要求16所述的方法，该方法还包括如下步骤将控件与上下文相关联；和在所述控件上提供所述上下文的标识。
20.根据权利要求16所述的方法，该方法还包括如下步骤将所述多个控件设置在车辆内部。
全文摘要
本发明公开了一种基于语音输入来激活多种功能的方法和系统。该系统包括存储多种状态的存储器，其中，每种状态均与多种功能中的至少一种功能相关联；可操作地连接到一组数据模型的自动语音识别ASR引擎，其中，针对每种状态均存在一个数据模型，其中，ASR引擎被配置为在系统处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能的输入，使得根据该功能输入来激活功能；多个控件，其中，针对每种状态均存在一个控件，并且其中，每个控件均被配置为生成与状态相关联的信号；以及状态转换模块，其被配置为基于所述信号将系统转换到所述状态。
文档编号G10L15/28GK102024454SQ20101027798
公开日2011年4月20日申请日期2010年9月8日优先权日2009年9月10日
发明者加勒特·L·魏因贝格申请人:三菱电机株式会社

本文推荐基于语音输入激活多种功能的系统和方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656785633.html

当前位置：网站首页>专利 >正文

基于语音输入激活多种功能的系统和方法

相关推荐