启动包括第一功能和第二功能的多个功能的系统和方法-品牌商务网

专利名称：启动包括第一功能和第二功能的多个功能的系统和方法
技术领域：
本发明总体上涉及自动语音识别，更具体地涉及针对特定语境的自动语音识别。
背景技术：
自动语音识别(ASR)自动语音识别的目的是获得表示语音的声音信号、即语音信号，并通过模式匹配确定被说出的词。语音识别器通常具有一组在计算机数据库中存储的表示为模式的声音和语言模型。这些模型接着与获得的信号进行比较。计算机数据库的内容、如何训练该数据库、以及用于确定最佳匹配的技术是不同类型语音识别系统的区别特征。已知各种语音识别方法。音段模型方法假设在口头语言中存在可以由该语音信号中经由时间的一组特性表现其特征的独特的语音单元，如音素。将输入语言信号分段为不连续的音段，在音段中声音特性表示一个或更多个语音单元并且根据这些特性将标记附接到这些区域。与语音识别任务的约束一致的有效词表的词然后根据指派的一系列语音标记而被确定。基于模板的方法直接使用语音模式，而不需要显式的特征确定和分段。使用已知的语音模式而最初对基于模板的语音识别系统进行训练。在识别期间，未知的语音信号与在训练期间获得的每个可能模式进行比较，并根据未知模式匹配已知模式的程度而被分类。混合方法组合了上述音段模型和基于模板的方法的特定特征。在特定系统中，在识别处理中不仅仅使用语音信息。此外，神经网络已用于语音识别。例如，在一个这样的网络中，模式分类器检测声音特征矢量并利用匹配该声音特征的滤波器来卷积矢量以及随时间计算这些结果的和。ASR支持系统ASR支持系统包括两个主要类别，即信息检索(IR)系统以及命令和控制(CC) 系统。信息检索(IR)一般来说，信息检索(IR)系统基于口头查询搜索存储在数据库中的内容。该内容可以包括任何类型的多媒体内容，诸如、但不限于文本、图像、音频和视频。查询包括关键词或短语。许多IR系统允许用户指定在搜索期间应用的附加约束。例如，约束可以指定全部返回的内容具有一定范围的属性。通常，查询和约束被指定为文本。对于一些应用，文本输入和输出是困难的，如果不是不可能的话。这些应用例如包括搜索数据库的同时操作机械或车辆，或者利用功能受限的键盘或显示器的应用，诸如电话。对于这样的应用，支持ASR的IR系统是优选的。支持ASR的IR系统的示例描述在2009年6月2日颁发给Wolf等人的美国专利 7542966, "Method and system for retrieving documents with spoken queries，，中。
命令和控制(CC)支持ASR的CC系统将口头命令识别和解释为机器可理解的命令。口头命令的非限制示例是“呼叫”指定的电话号码，或“播放”指定的歌曲。多个支持ASR的CC 系统已由于在语音识别软件方面的最新进展而被开发。通常，这些系统操作在使用针对口头命令的特定语境的特定环境中。语境型ASR支持系统大型的词表和复杂的语言模型使ASR支持系统变慢，并且需要更多的诸如存储器资源和处理处理的资源。大型的词表还可以降低系统的准确性。因此。多数ASR支持系统具有小的词表和通常与相关语境关联的简单语言模型。例如，美国专利第4989253 号公开了一种用于移动和聚焦显微镜的ASR支持系统。该系统使用与显微镜关联的语境。另外，美国专利第5970457号公开一种根据与适当语境关联的口头命令、用于操作诸如外科工具的医疗设备的ASR支持系统。但是，多个ASR支持系统需要包括用于不同语境的多个词表和语言模型。这样的系统通常配置为基于用户选择的关注语境而启动适当的词表和语言模型。如这里所限定的，ASR支持系统的语境是(但不限于)词表、语言模型、语法、领域、数据库和/或具有有关语境功能的子系统。例如，与音乐、联系人、餐馆、历史古迹点有关的功能每个将具有单独和可区分的语境。利用多个语境的ASR支持系统是语境型ASR支持系统。因此，对于语境型ASR支持系统，必须指定针对口头查询或口头命令的语境。采用PTT功能的ASR支持系统存在从背景噪声或背景语音中区分想要的语音输入的不同类型的ASR系统。通常的收听系统对识别出的音频信号进行词法分析以检测关键词，如“计算机”，这些收听系统想要启动ASR支持系统来进行进一步输入。另一类型的ASR支持系统利用人对人演讲后建模的其他输入线索，诸如凝视的方向。又一类型的ASR系统使用推动一讲话(PTT)功能。使用如按钮的PTT控制来标志作为预计语音输入的音频信号流的开始。在一些实现中，通过例如分析所获得的信号的振幅或信噪比(SNR)自动确定语音输入的结束。在其他实现中，需要用户保持按下的按钮，直到用户完成讲话，利用按钮的释放显式地标志输入信号的结束。嵌入式ASR系统有时，必须直接在物理设备中嵌入ASR支持系统，而不是在基于网络的计算资源上实现ASR支持系统。这样必须嵌入的场景包括不能实现持久的网络连接的情况。在这些场景中，即使ASR支持系统涉及更新在网络计算机上的数据库，也必须通过在设备上独立地执行的人机交互而获得信息。接着，在恢复网络通信信道后，在设备上收集的更新信息可以与基于网络的数据库同步。如这里所限定的，嵌入的ASR系统是这样的一个系统执行CC或IR必需的全
部语音信号处理发生在设备上，该设备通常具有附接的有线或无线麦克风。生成、修改或启动嵌入的ASR系统需要的一些数据可以经由有线或无线数据信道从不同设备下载。但是，在ASR处理时，全部数据驻留在与设备关联的存储器中。
如上所述，使用与特定语境或多个语境协作的诸如IR和CC系统的不同类型的 ASR系统是有利的。此外，由于它们的有限存储器和CPU资源，一些嵌入的ASR系统具有不必应用到桌面式或基于服务器的ASR系统的限制。例如，桌面式或基于服务器的ASR系统能够处理任何系统状态的检索音乐的指令，诸如针对特定艺术家的搜索。但是，嵌入的ASR系统(如，车辆中的ASR系统)可能需要用户首先切换到适当的语境状态，并且将仅允许用户提供与该特定语境状态有关的语音输入。通常，嵌入的ASR系统与多个不同语境关联。例如，音乐可以是一种语境。当嵌入的ASR系统处于音乐语境状态中时，系统希望用户语音输入与音乐有关，并且系统被配置为执行仅与检索音乐有关的功能。导航和联系人是ASR系统的语境的其他非限制示例。例如，在具有采用PTT按钮的用户接口的嵌入ASR系统中，为了搜索音乐表演者，用户必须推动PTT按钮，发出例如代码字(诸如“音乐”)的语境指令的发音，来将ASR系统切换到音乐语境状态。在说出代码字后，用户可以输入针对音乐检索的口头指令。如果用户输入了有关音乐的口头指令，而ASR系统处于一些其他语境状态，则该 ASR系统不起作用。图1示出了常规嵌入的ASR系统。在按压PTT按钮105后，系统期待包含语境指令110-112的语音输入。在识别语境指令(120)后，系统转变为适当的语境状态 130-132。因此，在识别了随后的语音输入133-135后，系统启动适当的功能136-138。但是，诸如音乐检索和目的地输入的复杂任务与其他用户操作(如开车)干扰，当任务的持续期间增加时尤其如此。因此，常常希望在嵌入的ASR系统中，利用语音输入来减少启动功能的步骤的数量。

发明内容
公开了一种用于启动包括第一功能和第二功能的多个功能的方法和系统，其中该系统嵌入在装置中。在一种实施方式中，该系统包括被配置为能够以多种启动型式启动的控制部，其中该控制部生成表示多种启动型式中的特定启动型式的信号；以及控制器，其被配置为基于特定启动型式来启动第一功能或第二功能，其中，所述第一功能被配置为仅基于启动型式而被执行，并且其中第二功能还配置为基于语音输入而被执行。另选实施方式描述了用于启动第一功能和第二功能的方法，该方法包括提供控制部的步骤，该控制部被配置为能够以多种启动型式启动，其中该控制生成表示多种启动型式中的特定启动型式的信号；基于特定启动型式启动第一功能或第二功能，其中第一功能被配置为仅基于启动型式而被执行，并且其中第二功能还配置为基于语音输入而被执行；并且执行第一功能或第二功能。

图1是常规自动语音识别系统的框图；图2-3是根据本发明不同实施方式的嵌入式自动语音识别方法和系统的框图；禾口
图4是包括根据本发明一些实施方式的系统的车辆的仪表板的局部正面图。
具体实施例方式语境型PTT控制本发明的实施方式基于这样的实现多个专用的语境型推动_讲话(PTT)控制进行在嵌入式自动语音识别(ASR)系统中的适当功能的启动。图2示出了根据本发明一种实施方式的嵌入式ASR系统。该系统包括处理器 201，处理器201包括本领域公知的存储器202、输入/输出接口、和信号处理器。系统200包括存储在存储器202中的多个状态231-233。通常，各状态与特定语境关联。例如，一个状态与音乐语境关联，而另一个状态与联系人语境关联。各状态还与功能237-239中的至少一个功能关联。功能237-239被配置为基于语音输入233-235 而被启动。通常按照类似于语境与状态的关联的方式来将功能与状态关联。例如，被配置为选择并播放音乐的功能与这样的状态关联，该状态与音乐语境关联。而被配置为选择和呼叫特定电话号码的功能与关联于联系语境的状态关联。通常，语音输入包括功能的标识符和要执行的功能的参数。例如，语音输入是 “呼叫Joe”。功能的标识符是输入的“呼叫”部分。基于该标识符，用于执行电话呼叫的功能从与“电话”状态关联的多个功能中被选出。语音输入的“Joe”部分是基于该标识符选择的功能的参数。因此，系统使用该参数来执行选择的功能，即，呼叫基于名字“Joe”从电话本中选择的电话号码。系统200被配置为仅当系统转变为某一状态时才启动与该状态关联的功能。例如，为了启动音乐功能，系统必须首先转变为与音乐功能关联的状态，并且因此与音乐语境关联。作为对具有一个常规PTT按钮的情况的替代，系统200提供了控制板210，控制板2210包括多个控制部221-223，如语境PTT控制部。每个语境PTT控制部可以是被配置为可触模地启动的任何输入控制部，诸如按钮、操纵杆或触模敏感表面。各语境PTT控制部221-223与状态231-233 —对一对应。在启动时，语境PTT 控制部生成信号242-244。该信号可以是任何类型的信号，如二进制信号，这样的信号承载与启动的语境PTT控制部有关的信息。状态转变模块220在接收该信号时将系统200转变为与该信号关联的状态，以启动功能，例如，在一种实施方式中，通过将一组数据模型255中的一数据模型与ASR引擎250关联(256)，而完成到该状态的转变。数据模型包括词表、和/或一组预定命令或搜索条件，这允许ASR引擎来解释语音输入。ASR引擎将语音输入233-235解释为功能 237-239所期望的输入261-263。因此，如果数据模型256包括例如音乐语境的词表，则 ASR引擎可以只解释有关音乐的语音输入234。另选地或附加地，状态转变模块预选择包括到相应状态的功能，例如上载到处理器201的存储器。与具有单个PTT按钮的常规系统相比，这些实施方式具有显著优点。常规系统要求附加语音输入来转变为特定状态。但是，基于该控制部的启动，本发明的实施方式直接将系统转变为与该控制部关联的状态。因此，与常规系统相比，系统200利用了肌肉存储器，肌肉存储器类似于触模键入和换档，通过重复的类似运动而增强。因此，设置控制部，使得用户可以最少地从主要任务(如，驾驶车辆)分心来启动控制部。在一种实施方式中，各控制部将表达与状态关联的语境的标识符225-227。例如，该标识符可以具有以诸如“呼叫”或“音乐”的语境名称在控制部上呈现的标题。附加地或另选地，该标识符可以是控制部的颜色、控制部的形状、控制部在设备上的位置、以及它们的组合。该实施方式降低了人类操作者学习如何操作嵌入的ASR系统通常所需要的训练时间。如图4所示，系统200可以嵌入在车辆400的仪表板410中。语境PTT控制部 432-433可以设置在方向盘430上。另选地或附加地，语境PTT控制部425可以布置在控制模块420上。多个语境PTT控制部简化了搜索，并且需要较少的用户交互，使得用户可以集中精力操作车辆。多用途控制部图3示出了根据本发明另一实施方式的系统和方法300的框图。在该实施方式中，控制部310是经由控制器320至少连接到功能330和340的多用途PTT控制部。控制部310被配置为生成表示从多个启动型式317中选出的特定启动型式315的信号。启动型式包括例如单击、双击、以及按压和保持启动型式。控制器320基于特定启动型式315启动第一功能340或第二功能330。功能330 和340之间的主要差别是第一功能340可以仅基于启动型式315而被启动。但是，第二功能需要语音支持启动，即，还被配置为期望语音输入333。该实施方式使任何常规控制部能够实现为多用途PTT控制部。如果用户以“通常”启动型式(如，单击)启动控制部，则系统启动(342)和执行(344)第一功能。否贝U，用户利用“特殊”启动型式(如，双击)来启动控制部，调用用于期望语音输入333 的功能337。例如，在电话上的绿色呼叫按钮上的单击显示了近来的呼叫。但是，在相同绿色呼叫按钮上的双击使系统检测语音输入，例如象“John Doe”的电话本搜索，并执行根据该语音输入的“呼叫”功能。在该示例中，功能340是显示近来呼叫的功能。如容易理解的，当利用单击启动型式时，功能340不需要任何附加的输入。另一方面，呼叫特定电话号码的功能是功能330，其要求附加的输入，如，来自电话本的联系人的名字。在该实施方式中，基于语音输入333由嵌入的ASR系统解释该附加输入。同理，在广播上的“播放/暂停”和“重复”按钮可以接受语音输入。通常启动充当简单触发操作，即，播放或暂停、随机回放打开或关闭，而语音支持启动则检测针对该操作(即，播放什么或重复什么)的语音输入。在一种实施方式中，功能330的语音支持启动的实现类似于系统200的状态的实现。当用户指示系统300来启动第二功能330时，系统300被转变为与第二功能330关联的状态，类似于状态231-233。在另一实施方式中，组合系统200和300，来提供多个多用途语境PTT控制。在该实施方式中，控制板210包括多个多用途PTT控制部。该实施方式允许在具有常规按钮的设备中嵌入ASR系统，将设备变成多用途语境型嵌入式ASR系统。尽管通过优选实施方式的示例已描述本发明，但理解的是，在本发明的精神和范围内可以做出各种其他改动和修改。因此，所附的权利要求的目的是覆盖落入本发明的精神和范围内的全部这样的改变和修改。
权利要求
1.一种用于启动包括第一功能和第二功能在内的多个功能的系统，其中该系统嵌入在装置中，所述系统包括控制部，所述控制部被配置为以多种启动型式启动，其中所述控制部生成表示所述多种启动型式中的特定启动型式的信号；和控制器，所述控制器被配置为基于所述特定启动型式来启动所述第一功能或所述第二功能，其中，所述第一功能被配置为仅基于所述启动型式而被执行，并且其中所述第二功能还被配置为基于语音输入而被执行。
2.根据权利要求1所述的系统，所述系统还包括自动语音识别ASR引擎，其被配置为将所述语音输入解释为功能输入，其中所述第二功能被配置为基于所述功能输入而被执行。
3.根据权利要求1所述的系统，其中所述第二功能是从被配置为基于所述语音输入而被启动的多个功能中选出的，所述系统还包括存储多种状态的存储器，其中各状态与所述多个功能中的至少一个功能相关联；包括所述控制部在内的多个控制部，其中对于每种状态有一个控制部，并且其中各控制部被配置为生成与所述状态关联的信号；和状态转变模块，其被配置为基于所述信号将所述系统转变为所述状态以启动所述功能，其中所述第二功能被配置为仅当所述系统处于与所述第二功能关联的所述状态时才被启动。
4.根据权利要求1所述的系统，其中所述语音输入包括参数，使得所述第二功能基于所述参数而被执行。
5.根据权利要求1所述的系统，其中所述控制部是推动一讲话按钮。
6.根据权利要求1所述的系统，其中所述装置是车辆的仪表板。
7.根据权利要求1所述的系统，其中所述装置是从电话、音乐播放器、导航设备及它们的组合中选出的。
8.根据权利要求1所述的系统，其中所述控制部是多用途控制部，所述系统还包括多个多用途控制部。
9.一种用于启动包括第一功能和第二功能在内的多个功能的方法，所述方法包括以下步骤提供控制部，所述控制部被配置为以多种启动型式启动，其中所述控制部生成表示所述多种启动型式中的特定启动型式的信号；基于所述特定启动型式来启动所述第一功能或所述第二功能，其中，所述第一功能被配置为仅基于所述启动型式而被执行，并且其中所述第二功能还被配置为基于语音输入而被执行；和执行所述第一功能或所述第二功能。
10.根据权利要求9所述的方法，所述方法还包括将所述语音输入解释为功能输入，其中所述第二功能被配置为基于所述功能输入而被执行。
11.根据权利要求9所述的方法，其中所述第二功能是从被配置为基于所述语音输入而被启动的多个功能中选出的，该方法还包括提供存储多种状态的存储器，其中各状态与所述多种功能中的至少一种功能关联；提供包括所述控制部在内的多个控制部，其中对于每种状态有一个控制部，并且其中各控制部被配置为生成与所述状态关联的信号；和基于所述信号转变为所述状态，其中所述第二功能被配置为仅当所述系统处于与所述第二功能关联的所述状态时才被启动。
12.根据权利要求9所述的方法，其中所述语音输入包括参数，使得所述第二功能基于所述参数而被执行。
全文摘要
本发明涉及启动包括第一功能和第二功能的多个功能的系统和方法，其中该系统嵌入在装置中。该系统包括被配置为能够以多种启动型式启动的控制部，其中所述控制部生成表示所述多种启动型式中的特定启动型式的信号；和控制器，其被配置为基于所述特定启动型式来启动所述第一功能或所述第二功能，其中，所述第一功能被配置为仅基于所述启动型式而被执行，并且其中所述第二功能还被配置为基于语音输入而被执行。
文档编号G10L15/22GK102024013SQ201010281080
公开日2011年4月20日申请日期2010年9月10日优先权日2009年9月10日
发明者加勒特·L·魏因贝格申请人:三菱电机株式会社

本文推荐启动包括第一功能和第二功能的多个功能的系统和方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656542679.html

当前位置：网站首页>专利 >正文

启动包括第一功能和第二功能的多个功能的系统和方法

相关推荐