当前位置:网站首页>专利 >正文

基于语音输入激活多种功能的系统和方法

专利名称:基于语音输入激活多种功能的系统和方法
基于语音输入激活多种功能的系统和方法技术领域
本发明总体上涉及自动语音识别,更具体地,涉及具有多个上下文(context)的 自动语音识别。
背景技术
自动语音识别(ASR)
自动语音识别的目标是获得代表语音的声学信号(即,语音信号),并通过模式 匹配来确定所说的话语。语音识别器通常具有一组存储在计算机数据库中的表现为模式 的声学和语言模型。将这些模型与所得到的信号进行比较。计算机数据库的内容、怎样 调校数据库以及用于确定最佳匹配的技术是不同类型的语音识别系统的区别性特征。
已知多种语音识别方法。分段模型方法假定在口语中存在着明显的语音单位 (例如,音素),可以用一段时间内语音信号中的一组特性来表示这些语音单位。将输入 的语音信号分段为分立的部分,在分立的部分中,声学特性代表一个或者更多个语音单 位,并且根据这些特性向这些部分添加标签。然后,根据所赋予的一系列语音标签来确 定符合语音识别任务的限制条件的有效的词典单词。
基于模版的方法直接利用语音模式而不需要进行明确的特征确定和分段。最初 利用已知的语音模式对基于模版的语音识别系统进行调校。在识别期间,将未知的语音 信号与在调校期间获得的每个可能的模式进行比较,并且根据未知模式与已知模式的匹 配程度来对其进行分类。
混合方法结合了上述的分段模型方法和基于模版的方法的某些特征。在某些系 统中,在识别过程中不仅仅使用声学信息。并且,神经网络已经被用于语音识别。例 如,在一个这样的网络中,模式分类器检测声学特征向量,并且将向量与和声学特征相 匹配的滤波器进行卷积,然后在时间上对结果加总。
ASR使能系统
ASR使能系统包括主要的两类,S卩,信息检索(IR: :informationretrieval)系统以 及命令与控制(CC command and control)系统。
信息检索(IR)
总体上,信息检索(IR)系统基于口述查询(query)来搜索数据库中存储的内 容。所述内容可以包括任意类型的多媒体内容,如文本、图像、音频和视频,但不限于 这些。查询包括关键词或者短语。很多IR系统允许用户指定将在查询期间应用的附加 的限制条件。例如,限制条件可以指定所有返回的内容具有一系列属性。通常,将查询 和限制条件规定为文本。
对于一些应用而言,即使可能,进行文本输入和输出也是困难的。这些应用例 如包括在操作机器或车辆的同时搜索数据库,或者具有功能有限的键盘或显示器的应用 (如电话)。对于这样的应用而言,首选ASR使能的IR系统。
美国专禾1J 7,542,966 ( "Method and system for retrieving documents withspokenqueries",2009年6月2日授予Wolf等)中描述了 ASR使能的IR系统的一个示例。
命令与控制(CC)
ASR使能的CC系统将口述命令识别并解释为机器可以理解的命令。口述命令 的非限制性示例是“呼叫”指定的电话号码,或者“播放”指定的歌曲。由于近来语 音识别软件的进步,已经开发出一些ASR使能的CC系统。通常,这些系统利用口述命 令的特定上下文而在特定的环境中工作。
上下文ASR使能系统
大词典和复杂的语言模型使ASR使能系统变慢,并要求诸如存储器和处理的更 多的资源。大词典还降低了系统的准确性。因此,大多数ASR使能系统都具有通常与 相关的上下文相关联的小词典和简单的语言模型。例如,美国专利No.4,989,253公开了 一种使显微镜移动并聚焦的ASR使能系统。该系统使用与显微镜相关联的上下文。另 外,美国专利No.5,970,457公开了一种根据与适当的上下文相关联的口述命令来操作诸如 手术工具的医疗设备的ASR使能系统。
然而,一些ASR使能系统需要包括用于不同上下文的多个词典和语言模型。这 样的系统通常被配置为基于由用户选择的特定的感兴趣的上下文来激活适当的词典和语 言模型。
如这里所定义的,ASR使能系统的上下文是词典、语言模型、语法、领域、数 据库和/或与上下文功能相关的子系统,但不限于此。例如,与音乐、联系人、饭店或 者名胜古迹相关的功能各自具有单独且可区分的上下文。使用多个上下文的ASR使能系 统是上下文ASR使能系统。
因此,对于上下文ASR使能系统而言,需要指定口述查询或口述命令的上下 文。
使用PTT功能的ASR使能系统
存在不同类型的根据背景噪声或背景语音来区分预计的语音输入的ASR系统。 始终收听(always-listening)型系统对已识别的音频信号进行词法分析以检测用来激活 ASR使能系统以进行进一步输入的关键词(例如,“计算机”)。
另一种类型的ASR使能系统使用在人与人对话之后建模的诸如注视方向的其它 输入线索。
另一种类型的ASR系统使用一按通话(PTT push-to-talk)功能。PTT控件(例如,按纽)用于将音频信号流的开始标记为预计的语音输入。在一些实施中,通过分析 例如所得到的信号的幅度或信噪比(SNR)来自动地确定语音输入的结束。在其它实施 中,用户被要求将按钮一直按下直到用户结束讲话为止,通过放开按钮来明确标记输入 信号的结束。
嵌入式ASR系统
有时,需要直接在实体设备中嵌入ASR使能系统,而不是在基于网络的计算资 源上实现ASR使能系统。必需进行这样的嵌入的场景包括那些不能采用持续网络连接的 场景。在那些场景中,即使ASR使能系统涉及更新网络计算机上的数据库,也需要通过 在设备上独立进行的人机交互来得到信息。然后,在网络通信信道恢复之后,可以使在 设备上收集的已更新信息与基于网络的数据库同步。5
如这里所定义的,嵌入式ASR系统是这样一种系统,即,在该系统中,执行CC 或IR所需要的全部语音信号处理均发生在通常具有连接的有线麦克风或者无线麦克风的 设备上。生成、修改或者激活嵌入式ASR系统所需的一些数据可以经由有线或无线的数 据信道从不同的设备下载。然而,在进行ASR处理时,所有数据均驻留在与设备相关联 的存储器中。
如上所述,结合特定的上下文或多个上下文来使用诸如IR和CC系统的不同类 型的ASR系统是具有优势的。并且,由于它们的有限的存储器和CPU资源,一些嵌入式 ASR系统具有对于台式机或者基于服务器的ASR系统而言不一定存在的限制。例如,台 式机或基于服务器的系统可能能够从系统的任意状态中处理音乐检索指令,如搜索特定 的艺术家。然而,嵌入式ASR系统(例如,车辆中的ASR系统)可能需要用户首先切 换到适当的上下文状态,并且将允许用户提供仅与特定的上下文状态相关的语音输入。
通常,嵌入式ASR系统与多种不同的上下文相关联。例如,音乐可以是一种上 下文。当嵌入式ASR系统在音乐上下文状态中时,系统预期用户的语音输入与音乐相 关,并且系统被配置为仅执行与检索音乐相关的功能。导航和联系人是ASR系统的上下 文的其它非限制性示例。
例如,在具有使用PTT按钮的用户接口的嵌入式ASR系统中,为了搜索音乐表 演者,用户必须按下PTT按钮,念出上下文指令(例如,诸如“音乐”的代码词),从 而将ASR系统切换到音乐上下文状态。在说出代码词后,用户可以输入口述指令以进行 音乐检索。如果用户在一些其它上下文状态中输入音乐相关的口述指令,则ASR系统出 现故障。
图1示出了常规的嵌入式ASR系统。在按下PTT按钮105后,系统预期包含上下 文指令110-112的语音输入。在识别到120上下文指令后,系统转换为适当的上下文状态 130-132。因此,在识别了随后的语音输入133-135后,系统激活适当的功能136-138。
然而,尤其当任务持续时间增长时,诸如音乐检索和目的地输入的复杂任务与 例如驾驶车辆的其它用户操作相互干扰。因此,常常期望减少嵌入式ASR系统中以语音 输入来激活功能的步骤数。发明内容
本发明的实施方式公开了一种基于语音输入来激活多种功能的方法和系统,其 中,在诸如电话、导航系统、车辆的仪表盘等装置中嵌入所述系统。
所述系统包括存储多种状态的存储器,其中每种状态均与所述多种功能中的 至少一种功能相关联;自动语音识别(ASR)引擎,所述自动语音识别引擎可操作地连接 到一组数据模型,其中,针对每种状态均存在一个数据模型,其中,所述ASR引擎被配 置为当系统处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能输 入,使得根据所述功能输入激活所述功能;多个控件,其中,针对每种状态均存在一个 控件,并且其中,每个控件均被配置为生成与所述状态相关联的信号;以及状态转换模 块,所述状态转换模块被配置为基于所述信号将所述系统转换到所述状态,其中,所述 功能被配置,使得仅当所述系统处于与所述功能相关联的所述状态时才被激活。
在一个实施方式中,所述多个控件包括被配置为利用至少两种激活方式激活的多功能控件,使得所述多功能控件生成指示特定激活方式的信号。本实施方式还包括被 配置为基于所述特定激活方式来激活第一功能或者第二功能的控制器,其中,所述第一 功能被配置为仅基于所述激活方式来执行,并且其中,所述第二功能还被配置为基于所 述语音输入来执行。
所述方法包括如下步骤在存储器中存储多个状态,其中,每个状态均与多种 功能中的至少一种功能相关联;提供多个控件,其中,针对每个状态均存在一个控件, 并且其中,每个控件均被配置为生成与所述状态相关联的信号;以及在接收到所述信 号时,将所述系统转换为与所述信号相关联的状态,以便根据所述语音输入来激活所述 功能,其中,所述功能被配置为仅当所述系统转换到与所述功能相关联的状态时才被激 活。


图1是常规的自动语音识别系统的框图2是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和系统的 框图3是根据本发明不同实施方式中的一个的嵌入式自动语音识别方法和系统的 框图;以及
图4是包含根据本发明一些实施方式的系统的车辆仪表盘的部分前视图。
具体实施方式
上下文PTT控制
本发明的实施方式基于对使得在嵌入式自动语音识别(ASR)系统中激活适当功 能更加方便的多种专用的上下文一按通话(PTT)控件的实现。
图2示出了根据本发明一个实施方式的嵌入式ASR系统。该系统包括处理器 201,该处理器201包括存储器202的、输入/输出接口以及本领域中公知的信号处理ο
系统200包括存储器202中存储的多种状态231-233。通常,每种状态均与特定 上下文相关联。例如,一种状态与音乐上下文相关联,而另一种状态与联系人上下文相 关联。每种状态还与功能237-239中的至少一种功能相关联。功能237-239被配置为基 于语音输入233-235而激活。通常,这些功能与状态相关联,其方式类似于上下文与状 态之间的关联。例如,被配置为选择并播放音乐的功能与和音乐上下文关联起来的状态 相关联。但是,被配置为选择并呼叫特定电话号码的功能则与和联系人上下文关联起来 的状态相关联。
通常,语音输入包括将要执行的功能的功能标识符和功能参数。例如,语音输 入是“呼叫Joe”。功能标识符是该输入的“呼叫”部分。基于该标识符,从与“电 话”状态相关联的多种功能中选出用于执行电话呼叫的功能。语音输入的“Joe”部分是 基于标识符选出的功能的参数。因此,所述系统利用该参数来执行所选择的功能,艮口, 呼叫基于人名“Joe”从电话簿中选出的电话号码。
系统200被配置为仅在系统转换到一种状态时才激活与该状态相关联的功能。例如,为了激活音乐功能,系统必须首先转换到与音乐功能相关联的状态,并因而与音 乐上下文关联起来。
系统200不具有一个常规的PTT按钮,而是提供了包括多个控件221-223(例 如,上下文PTT控件)的控制板210。每个上下文PTT控件均可以是被配置为可触知地 激活的任意输入控件,诸如按钮、控制杆或者触敏表面。
每个上下文PTT控件221-223均与状态231-233——对应。在激活时,上下文 PTT控件生成信号M2-M4。所述信号可以是携带关于被激活的上下文PTT控件的信息 的任意类型的信号(例如,二进制信号)。
在接收到上述信号时,状态转换模块220将系统200转换为与该信号相关联的状 态,以便激活功能。例如,在一个实施方式中,通过将来自一组数据模型255的数据模 型256与ASR引擎关联起来以实现转换状态。数据模型包括词典、和/或一组预先确定 的命令或者搜索项,这使得ASR引擎能够解释语音输入。ASR引擎将语音输入233-235 解释为功能237-239所预期的输入沈1力63。因此,如果数据模型256包括例如音乐上下 文的词典,则ASR引擎仅能够解释与音乐相关的语音输入234。另选地或者另外地,状 态转换模块预先选择(例如,上载到处理器201的存储器中)对应状态中包含的功能。
与单个PTT按钮的常规系统相比,本发明的实施方式提供了明显优势。常规系 统要求额外的语音输入以转换到特定状态。然而,本发明的实施方式基于控件的激活直 接将系统转换到与该控件相关联的状态。
因此,与常规系统相比,系统200利用了通过重复的相似运动(类似于盲打 (touch typing)和变速调档)来得到增强的肌肉记忆。因此,所述控件被设置为,使得用 户仅从主要任务(例如,驾驶车辆)转移很少的注意力就能够激活该控件。
在一个实施方式中,每个控件均传送与状态相关联的上下文的标识符225-227。 例如,标识符可以在控件上显示诸如“呼叫”或“音乐”的上下文名称的标题。另外或 者另选地,标识符可以是控件的颜色、控件的形状、控件在设备上的位置以及它们的组 合。本实施方式缩短了操作者为学习如何操作嵌入式ASR系统通常需要的训练时间。
如图4所示,系统200可以嵌入在车辆400的仪表盘410中。上下文PTT控件 432-433可以布置在方向盘430上。另选地或者另外地,上下文PTT控件425可以布置 在控制模块420上。多个上下文PTT控件简化了搜索,并要求更少的用户交互,从而用 户可以将精力集中在车辆驾驶上。
多功能控件
图3示出了根据本发明另一个实施方式的系统和方法300的框图。在此实施方 式中,控件310是多功能PTT控件,其通过控制器320至少连接到功能330和340。控 件310被配置为生成指示从多个激活方式317中选出的特定激活方式315的信号。激活 方式包括例如单击、双击以及按下并保持的激活方式。
控制器320基于特定激活方式315来激活325第一功能340或者第二功能330。 功能340和330之间的主要差异在于可以仅基于激活方式315来激活第一功能340。然 而,第二功能330需要语音使能启动,S卩,第二功能330还被配置为期待语音输入333。
此实施方式使得能够将常规的控件使用为多功能PTT控件。如果用户以“正 常的”激活方式(例如,单击)来激活控件,则系统激活342并执行344第一功能。或者,用户以“特殊的”激活方式(例如,双击)来激活所述控件,调用期待语音输入333 的功能337。
例如,单击电话上的绿色呼叫按钮显示出最近的呼叫。然而,双击同一个绿色 呼叫按钮将导致系统检测语音输入(例如,类似“JohnDoe”的电话簿搜索),并根据所 述语音输入来执行“呼叫”功能。在此示例中,功能340是显示最近的呼叫的功能。很 容易理解,当以单击激活方式激活时,功能340不需要任何额外的输入。另一方面,呼 叫特定的电话号码的功能是功能330,该功能需要额外的输入(例如,来自电话簿的联系 人姓名)。在此实施方式中,由嵌入式ASR系统基于语音输入来解释额外的输入。
类似地,收音机上的“播放/暂停”和“随机播放”按钮能够接受语音输入。 如果正常启动是简单的转换操作(即,播放或暂停、随机播放开启或关闭),则语音使能 启动检测针对操作的语音输入,即,播放什么或者随机播放什么。
在一个实施方式中,功能330的语音使能激活的实现与系统200的状态的实现相 似。当用户指示系统300激活第二功能330时,系统300转换为与第二功能330相关的 状态(与状态231-233相似)。
在另一个实施方式中,将系统200和300结合起来以提供多功能的上下文PTT控 件。在此实施方式中,控制板210包括多个多功能PTT控件。此实施方式允许在具有常 规按钮的设备中嵌入ASR系统,从而将该设备转换为多功能的上下文嵌入式ASR系统。
尽管已经利用优选实施方式的示例说明了本发明,但是应当理解,在本发明的 精神和范围之内可以得到各种其它改变和修改。因此,所附权利要求的目的是涵盖落入 本发明的真实精神和保护范围内的所有这些的变化和修改。
权利要求
1.一种基于语音输入来激活多种功能的系统,其中,所述系统嵌入装置中,该系统 包括存储多种状态的存储器,其中,每种状态均与所述多种功能中的至少一种功能相关联;能够操作地连接到一组数据模型的自动语音识别引擎,其中,针对每种状态均存在 一个数据模型,其中,所述自动语音识别引擎被配置为当所述系统处于一种状态中时利 用与所述状态相关联的数据模型将所述语音输入解释为功能输入,使得根据所述功能输 入来激活所述功能;多个控件,其中,针对每种状态均存在一个控件,并且其中,每个控件均被配置为 生成与所述状态相关联的信号;以及状态转换模块,所述状态转换模块被配置为基于所述信号将系统转换到所述状态, 其中,所述功能被配置为仅当所述系统处于与所述功能相关联的状态中时才被激活。
2.根据权利要求1所述的系统,其中,每种状态均与上下文相关联,其中,针对每种 状态均存在一种上下文。
3.根据权利要求2所述的系统,其中,所述上下文是从音乐上下文、联系人上下文和 导航上下文中选出的。
4.根据权利要求2所述的系统,其中,与状态相关联的控件传送与所述状态相关联的 所述上下文的标识符。
5.根据权利要求4所述的系统,其中,所述标识符是从在所述控件上表现的标题、所 述控件的颜色、所述控件的形状、所述控件的位置以及它们的组合中选出的。
6.根据权利要求1所述的系统,其中,所述语音输入包括所述功能的标识符和所述功 能的参数,使得基于所述标识符来选择所述功能并基于所述参数来执行所述功能。
7.根据权利要求1所述的系统,其中,所述状态仅与一种功能相关联,所述语音输入 包括所述功能的参数,使得基于所述参数来执行所述功能。
8.根据权利要求1所述的系统,其中,所述控件是一按通话按钮。
9.根据权利要求1所述的系统,其中,所述系统被配置为仅基于接触式激活来转换到 所述状态。
10.根据权利要求1所述的系统,其中,所述多个控件包括多功能控件。
11.根据权利要求1所述的系统,该系统还包括包含所述多个控件的控制板。
12.根据权利要求1所述的系统,其中,所述装置是车辆的仪表盘。
13.根据权利要求1所述的系统,其中,所述装置是从电话、音乐播放器、导航设备 以及它们的组合中选出的。
14.根据权利要求1所述的系统,其中,所述多个控件包括多功能控件,所述多功能 控件被配置为利用至少两种激活方式激活,使得所述多功能控件生成指示特定激活方式 的信号,该系统还包括控制器,所述控制器被配置为基于所述特定激活方式来激活第一功能或者第二功 能,其中,所述第一功能被配置为仅基于所述激活方式来执行,并且其中,所述第二功 能还被配置为基于所述语音输入来执行。
15.根据权利要求14所述的系统,其中,所述多个控件仅包括所述多功能控件。
16.—种激活多种功能的方法,其中,每种功能均被配置为基于语音输入来激活,该 方法包括如下步骤在存储器中存储多种状态,其中,每种状态均与所述多种功能中的至少一种功能相 关联;提供多个控件,其中,针对每种状态均存在一个控件,并且其中,每个控件均被配 置为生成与所述状态相关联的信号;以及响应于接收到所述信号,将所述系统转换为与所述信号相关联的状态,以便根据所 述语音输入来激活所述功能,其中,所述功能被配置为仅在系统转换到与所述功能相关 联的状态时才被激活。
17.根据权利要求16所述的方法,其中,所述功能被配置为基于输入而执行,该方法 还包括如下步骤提供自动语音识别引擎,所述自动语音识别引擎能够操作地连接到一组数据模型, 其中,针对每种状态均存在一个数据模型,其中,所述自动语音识别引擎被配置为在所 述系统转换到一个状态时,利用与所述状态相关联的数据模型将所述语音输入解释为输 入。
18.根据权利要求16所述的方法,其中,所述多个控件中的至少一个控件是多功能控件。
19.根据权利要求16所述的方法,该方法还包括如下步骤 将控件与上下文相关联;和在所述控件上提供所述上下文的标识。
20.根据权利要求16所述的方法,该方法还包括如下步骤 将所述多个控件设置在车辆内部。
全文摘要
本发明公开了一种基于语音输入来激活多种功能的方法和系统。该系统包括存储多种状态的存储器,其中,每种状态均与多种功能中的至少一种功能相关联;可操作地连接到一组数据模型的自动语音识别ASR引擎,其中,针对每种状态均存在一个数据模型,其中,ASR引擎被配置为在系统处于一种状态中时利用与该状态相关联的数据模型将语音输入解释为功能的输入,使得根据该功能输入来激活功能;多个控件,其中,针对每种状态均存在一个控件,并且其中,每个控件均被配置为生成与状态相关联的信号;以及状态转换模块,其被配置为基于所述信号将系统转换到所述状态。
文档编号G10L15/28GK102024454SQ20101027798
公开日2011年4月20日 申请日期2010年9月8日 优先权日2009年9月10日
发明者加勒特·L·魏因贝格 申请人:三菱电机株式会社

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:夹层透明板中的多层次液体调光装置的制作方法技术领域:本实用新型涉及一种调光装置,特别是涉及一种夹层透明板中的多层次液体调光装置。由于工业进步,社会日益繁荣,人民生活富裕,对居住或办公处所的要求条件亦相对地提高,新型建筑大都采用大型

    专利发布时间:2025-08-07阅读:(124)

    专利名称:模块化的led吸顶灯的制作方法技术领域:本实用新型属于照明灯具,特别涉及一种模块化的LED吸顶灯。背景技术:LED吸顶灯在室内应用十分广泛,是家居必备的常用灯具。目前的LED吸顶灯大多数是采用一个圆形的线路板或者是一个环形的线路板

    专利发布时间:2025-08-07阅读:(137)

    专利名称:记录和再现装置的制作方法技术领域:本发明涉及一种记录和再现装置,其中包括作为记录介质用于记录数字数据的非易失性存储器,以及用于在该非易失性存储器上执行数据的记录和再现的微型计算机。图5示出常规的记录和再现装置,并且图6示出图5的常

    专利发布时间:2025-08-07阅读:(152)

    多曲八音琴的制作方法【专利摘要】多曲八音琴,包括驱动机构、传动齿轮、音筒部件、连接齿轮、音片、阻尼齿轮、速度调整部件,还设置制动机构和换曲机构,通过制动机构制动八音琴,通过换曲机构完成八音琴换曲。其优点有:1.通过一个八音琴机构,实现了多个

    专利发布时间:2025-08-07阅读:(119)

    专利名称:支承在演奏者两肩部位的小提琴托架装置的制作方法技术领域:支承在演奏者两肩部位的小提琴托架装置技术领域:本实用新型是一种小提琴托架装置,尤其是一种支承在演奏者两肩部位的小提琴托架装置。背景技术:小提琴的现有持琴方式是:小提琴演奏者必

    专利发布时间:2025-08-07阅读:(106)

    专利名称:具有乐理之调音笔的制作方法技术领域:本实用新型关于一种适用于乐器爱好者之具有乐理的调音笔,尤指一种兼具有查询乐理与调音功能之笔具,可简化乐器使用者负担,极具实用价值与便利。西洋乐器的使用千变万化,而对乐器的初学者与爱好者而言,对乐

    专利发布时间:2025-08-07阅读:(128)