当前位置:网站首页>专利 >正文

用于与用户执行对话通信的系统的方法

专利名称:用于与用户执行对话通信的系统的方法
技术领域
本发明涉及一种用于与用户执行对话通信的系统的方法。通过分析用户的语音信号来产生并向用户呈现语义项的一个候选列表。根据预定义的准则来执行与候选列表中语义项之一相关联的动作,除非用户从候选列表中选择一个不同的语义项。本发明进一步涉及到一种用在与用户执行对话通信的系统中的对话设备。
在本领域内已普遍接受语音识别从未达到100%的精度。因此,处理错误与不确定性的方法是一个重要的研究领域。可用的方法由相关系统的使用场景来决定。
仅语音对话的系统,类似基于电话的系统,主要使用澄清问题以及隐式的或显式的验证。主要用来将任意文本口述到字处理器中的系统可以提供从语音识别器递送的候选列表得到的备选项,其中显示器显示该转换后的文本。在此过程中产生了一组备选项,该备选项通常以树状图形式表示,但可以被转换为一个可能的字序列的列表。这就是通常所称的n-最佳候选列表。一个口述系统可以显示字的候选列表或者一个字序列的一部分,其中不同备选项之间的相似度足够高,这样用户可以通过键盘命令来选择最佳备选项。然而,这些系统却不适合与用户以交互的方式进行通信。
对于多模式口头对话系统,即通过语音和一种附加模态控制的系统,执行用户命令的结果通常以候选列表的形式显示出来。例如,由话音控制的电子节目指南显示了关于查询的最好结果。对于具有巨大词汇和非常简单的对话结构的特定应用,类似在汽车导航系统中输入目的地来进行路线规划,在显示器上显示候选列表。现有技术的多模式口头对话系统的问题在于候选列表是仅有的可能反应,它不可能基于该候选列表而继续通信。由于缺少用户与系统之间的交互通信,所以通信变得对用户非常不友好。
本发明的目的是通过提供交互式的且用户友好的方法和设备来执行与用户的对话通信,从而解决上述问题。
按照一个方面,本发明涉及一种与用户执行对话通信的系统的方法,该方法包括以下步骤
-记录包括动作的请求的语音信号,该动作要由上述系统执行,其中上述语音信号由上述用户产生,-使用语音识别来分析上述记录的语音信号,并将上述分析结果与系统中定义的预定义语义项进行比较,其中每个上述语义项都与一个动作相关联,-根据上述比较来产生一个候选列表,其中上述候选列表标识了从上述预定义的语义项中选出的有限数量的语义项,-向上述用户呈现上述候选列表,以及-执行与上述候选列表中上述语义项之一相关联的动作,该动作根据预定义的准则选出,除非上述用户从上述候选列表中选择了一个不同的语义项。
因此,候选列表在用户与系统间提供了延续的交互通信,这使得通信对用户非常友好。此外,由于限制了用户可选择的语义项,错误纠正的可能性得到了大幅提高。举例而言,如果用户请求包括播放一首特定歌曲,但是没有找到与这首歌曲的精确匹配,那么显示一个与被请求歌曲相匹配,即发音相似达到特定的预定义级别的歌曲列表。在这种情况下,用户可能会根据被显示的候选列表做出纠正。因为用户的选择仅仅基于候选列表,因此这大大降低了错误的风险。在另一个示例中,用户的请求可能包括播放滚石乐队(Rolling Stones)的一些东西。在这种情况下,产生的候选列表可能包括了滚石乐队的所有歌曲。因此用户可以根据上述候选列表选择一首歌曲,即滚石乐队的歌曲,或者系统在用户没有响应所显示候选列表的情况下随机地选择一首歌曲。
在一个实施方案中,上述呈现的候选列表中的语义项包括了基于与用户请求的不同匹配的各种可信度。
因此,当将该候选列表呈现给用户的时候,与上述语义项相关联的各种动作也可以以分选的形式呈现给用户。例如第一个候选项是最佳匹配于用户请求的候选项,第二个候选项是次最佳的候选项,等等。
在一个实施方案中,当将上述候选列表呈现给用户时,上述候选列表中具有最高可信度的语义项被自动选中。
因此,用户仅需要在具有最高可信度的候选项非正确候选项的情况下选择一个语义项。所以上述候选列表的实际使用就被最小化了,因为很可能具有最高可信度的语义项就是正确选项。例如,用户可能请求一个音乐自动点唱机来播放一首歌曲。在这种情况下,可能的候选列表包括与被请求歌曲具有相似发音(例如用户的语音信号)的一首或多首歌曲。与被请求歌曲发音最接近的歌曲,即最佳匹配的那一首歌曲,因此可能是具有最高可信度的备选项。显然,如果用户仅仅需要在例如10%的情况下做出纠正的话,那么通信会被大幅改善。
在一个实施方案中,如果用户没有选择上述候选列表中的任何语义项,那么上述候选列表中具有最高可信度的语义项被自动选中。
因此,沉默与赞成是一样的。当用户看到或听到(这取决于候选列表是如何呈现的)具有最高可信度的备选项是正确的选项时,他/她不必做任何类型的确认。这又再次最小化了上述候选列表的实际使用。
在一个实施方案中,上述可能的候选列表在一个预定义的时间间隔内呈现给用户。
因此,不必为用户呈现该候选列表达一个长的时间周期,且因此系统与用户之间的交互也变得更延续。在前一实施方案中提到如果用户没有响应的话,一个语义项就被自动选中,举例而言包括在例如5秒后自动选中它,即用户有5秒去选择另一个语义项。
在一个实施方案中,呈现上述候选列表给用户包括向用户显示上述候选列表。
因此,提供了一种方便的备选方案来将候选列表呈现给用户。更优选地,自动检查是否有显示器存在。如果存在显示器则可能使用该显示器。
在一个实施方案中,将上述可能的候选列表呈现给用户包括给用户播放上述可能的候选列表。
因此,不需要显示器来给用户呈现候选列表。如果系统包括一个汽车导航系统,那么这是一个非常大的益处,在这里用户可以在驾驶过程中与系统进行交互。
在又一方面,本发明涉及一种计算机可读介质,其中存储的指令使处理单元执行上述方法。
按照另一方面,本发明涉及一种要用在与用户执行对话通信的系统中的对话设备,该对话设备包括-一个记录器,用于记录包括动作的请求的语音信号,该动作要由上述系统执行,其中上述语音信号由上述用户产生,
-一个语音识别器,用于使用语音识别来分析上述记录的语音信号,并将上述分析结果与系统中定义的预定义语义项进行比较,其中每个语义项都与一个动作相关联,其中根据上述比较来产生一个候选列表,上述候选列表标识了从上述预定义的语义项中选出的有限数量的语义项,-用于将上述候选列表呈现给用户的装置,以及-用于执行与上述候选列表中上述语义项之一相关联的动作的装置,该动作要根据预定义的准则而选出,除非上述用户从上述候选列表中选择了一个不同的语义项。
因此,提供了一个可以与各种系统相集成的对用户友好的设备,该设备改善了上述用户与系统间的对话通信。
在一个实施方案中,用于将上述候选列表呈现给上述用户的装置包括一个显示器。
更优选地,该设备适合于检查一个显示器是否存在,以及基于此而检查是否应该向用户显示它。例如,该显示器可被配备以一个触摸屏等等,使得在必要时用户可以通过点击来执行纠正。
在一个实施方案中,用于将上述候选列表呈现给上述用户的装置包括一个声学设备。
因此,当例如显示器不存在时,候选列表可以被大声地播放给用户。当然,系统可以同时被配备以显示器和声学设备,并且用户可以命令该系统以对话的方式进行通信(例如因为用户正在驾驶),或者通过上述显示器来通信。
下面将结合附图,详细地描述本发明且尤其是其优选实施方案,在附图中,

图1以图形方式例示了根据本发明的用户与系统之间的对话通信,图2例示了用于与用户执行对话通信的系统的方法的一个实施方案流程图,图3显示了一个系统的示例,该系统包括了一个用于与用户执行对话通信的对话设备,以及图4显示了根据本发明的一个对话设备,该对话设备被用在与用户执行对话通信的系统中。
图1以图形方式例示了根据本发明的用户105与系统101之间的对话通信。包括动作的请求的语音信号107由用户产生并由系统101记录,该动作要由上述系统101执行。通过使用语音识别而对语音信号进行分析,并将分析结果与系统101中定义的预定义语义项103进行比较。这些语义项可以是要被系统执行的动作,例如在系统101是音乐自动点唱机的情况下要播放不同的歌曲。分析可能包括在用户请求的发音与预定义语义项103之间寻找匹配。根据该分析而产生一个候选列表109,该候选列表包括有限数量的语义项,例如111、113,它们符合与预定义语义项103的匹配准则。举例而言,匹配准则可以包括所有的、有超过80%的可能性是正确匹配的匹配,这些匹配被认为是可能的候选项。这个候选列表109被呈现给用户105,且与候选列表中语义项111、103之一相关联的动作根据预定义准则被执行,除非用户105从上述候选列表中选择了一个不同的语义项。例如,预定义准则可包括自动选择与具有最佳匹配的语义项相关联的动作,即具有最高可信度的动作。
图2显示了用于与用户执行对话通信的系统的方法的一个实施方案流程图。在这个实施方案中,用户的语音信号或用户输入(U_I)201包括要由上述系统执行的动作的请求,该语音信号或者用户输入由语音识别器处理,该语音识别器根据与该系统中预定义语义项的最佳匹配来产生一个或多个备选项或者一个候选列表(C_L)203。例如,用户的语音信号可以包括让音乐自动点唱机播放由Pink Floyd演唱的“wish youwere here(希望你在这里)”的请求。根据用户的语音信号(U_I)201,系统构造一个候选列表,该候选列表按照与系统中预定义的语义项最佳匹配的次序排序,并且自动以最佳候选项(S_O)205开始所期望的操作,即播放与标题“wish you were here”最佳匹配的候选项。如果候选列表仅包括这一个候选项(O_C?)207,那么系统的正常操作将会继续,例如,在设备是一个音乐自动点唱机时,正常显示会继续进行(E)217。
如果候选列表包括一个以上的候选项(O_C?)207,则通过例如给识别语法装载候选条目(L_R_G)209,而将一个候选列表呈现(P_C_L)111给用户。该候选列表可以例如包括一个具有相似发音的艺术家列表。候选列表可能被显示达某一预定义的时间周期,因此用户有机会选择另一个候选条目,且由此执行纠正。但是,如果在预定义的时间周期(T_O)213内用户没有响应,则假定具有最佳匹配的候选项是正确的,例如,nr.l.列出的候选项。在两种情况下,带有候选条目的识别语法被卸载(U_R_G)215,且正常的显示会继续进行(E)217。
在一个实施方案中,如果在一个要形成的操作,例如播放一首歌曲的操作中,一个候选项具有非常高的可信度,则该请求被立即启动,即该歌曲被播放,而不再提示具有低得多的可信度的可能候选列表。然而,如果该歌曲不正确,那么用户可以通过例如再次重复标题来表明此情况。这优选地将由该设备通过向用户再提示可能的候选列表而进行响应。
在一个实施方案中,该候选列表被呈现,尽管候选列表中只含有一个合理的备选项。这是要提供有关设备对用户输入的解译的反馈。举例而言,如果设备与自动点唱机集成在一起,那么在歌曲被播放的同时,歌曲名也被显示出来。
在一个实施方案中,该设备适合为该用户显示可寻址项。例如,在用户的输入是要播放滚石乐队的一些东西的情况中,候选列表包括滚石乐队的所有(或者部分)歌曲。
在一个实施方案中,用户通过说出一个可选的候选项的名字、或者通过直接或由其在列表中的位置(例如“数字2”)命名想要的可选候选项来选择一个候选条目。在后一情形中,语音识别器可能对数字是鲁棒的。
在一个实施方案中,用户通过使用一种指示形式(modality),例如触摸屏、遥控等,来选择一个候选条目。
在一个实施方案中,最佳候选项可能由于用户将不使用它而被排除在识别词汇之外以便进行纠正,并且它不能被误解为其它候选项。例如,用户说“播放甲壳虫乐队(Beatles)的一些东西”,而设备将这个用户输入理解成“播放老鹰乐队(Eagles)的一些东西”。当用户注意到错误并重述“播放甲壳虫乐队的一些东西”时,该设备会排除老鹰乐队,因为它在第一次时不正确。因此,对可能的候选项的选择就减少了一个候选项,即老鹰乐队。
在一个实施方案中,设备向用户传达哪些可寻址的条目是已知的。例如,在一个音乐自动点唱机的应用中,用户不知道一首歌曲的正确名字,例如用户说“Sergeant Peppers”,但是数据库包括“SergeantPepper’s lonely heart”。因此,设备或者将这一个候选项建议给用户,或者它立刻开始播放此歌曲。
图3显示了系统的示例,该系统包括了一个用于与用户执行对话通信的对话设备。用户301可以与具有对话设备的电视303进行交互。当设备感测到监视器存在时,它可能自动地使用该监视器与用户301进行交互,由此可激活且在电视监视器上显示一个候选列表,以及在一段时间后,例如5秒后,撤消(deactivate)该候选列表。当然,也可以通过对话来进行交互。例如,默认地,电视303在用户301和对话设备之间进行交互期间被关闭。此外,如果用户301在交互期间遇到问题,例如,因为环境噪声级别突然增加,或者系统内的一个新应用被首次使用,那么用户301可以打开电视303并可获得有关该设备理解什么的反馈以及选择想要的备选项的可能性。
对话设备也可以与一台计算机或者一个“家庭对话系统”305或类似的适合与用户301以类似人类的方式进行交互的系统集成在一起。在这一示例中,进一步使用例如照相机的附加传感器来作为一个交互代理。此外,对话设备可以集成到任何种类的移动设备307、触摸垫板等等中。使用该设备的应用的另一个例子是汽车导航系统309。在所有这些情形中,对话设备适合于感测与用户进行交互的方式,即是通过对话还是独白。
图4显示了根据本发明的一个对话设备400,该对话设备要用在与用户105执行对话通信的系统101中,其中对话设备400包括记录器(Rec)401、语音识别器(S_R)402、显示设备(Disp)403和/或声学设备(Ac_D)404以及处理器(P)405。
记录器(Rec)401记录来自用户105的语音信号107,其中该语音信号107可例如包括让音乐自动点唱机播放一首歌曲的请求。然后,语音识别器(S_R)402使用语音识别来分析记录的语音信号107,并将上述来自分析的结果与系统101中定义的以及/或预存储的预定义语义项103进行比较。如果分析结果包括多个可能的候选备选项,则基于与系统101中预定义语义项103的最佳匹配来产生一个候选列表。然后,显示设备(Disp)403和/或声学设备(Ac_D)404将候选列表109呈现给上述用户105。这可以通过例如在电视监视器上显示该候选列表、或通过向用户播放它来完成。这典型地是候选列表包括一个以上候选项的情况。
处理器(P)405可以例如被预先编程,因此在预定义的时间后它自动选择最佳匹配的候选项,例如,nr.l.列出的候选项要被播放。此外,在候选列表仅包括一个候选项的情况下,系统的正常操作继续,例如,在设备是一个音乐自动点唱机的情况下,候选项被自动播放。
值得指出的是,上述实施方案是举例说明而不是限制本发明,本领域技术人员在不脱离所附权利要求范围的情况下将能够设计出多种替代实施方案。在权利要求中,任何置于括号间的参考符号都不应解释为限制权利要求。单词“包括”并不排除权利要求中记载之外的其它元件和步骤的存在。本发明可借助包含几个不同元件的硬件以及借助一个合适编程的计算机来实现。在枚举了几个装置的设备权利要求中,这些装置中的几个装置可以由同一个硬件项来体现。仅仅是某些措施在一些互不相同的从属权利要求中记载的事实并不表示不能使用这些措施的组合来获益。
权利要求
1.一种用于与用户(105)执行对话通信的系统(101)的方法,该方法包括如下步骤记录包括动作的请求的语音信号(107),该动作要由上述系统执行,其中上述语音信号(107)由上述用户(105)产生,使用语音识别来分析上述记录的语音信号,并将上述分析结果与系统(101)中定义的预定义语义项(103)进行比较,其中每个上述语义项(103)都与一个动作相关联,根据上述比较产生一个候选列表(109),其中上述候选列表(109)标识了从上述预定义的语义项(103)中选出的有限数量的语义项(111,113)向上述用户(105)呈现上述候选列表(109),以及执行与上述候选列表(109)中上述语义项(111,113)之一相关联的动作,该动作根据预定义的准则选出,除非上述用户(105)从上述候选列表(109)中选择了一个不同的语义项。
2.根据权利要求1的方法,其中上述被呈现的候选列表(109)中的上述语义项(111,113)包括基于用户请求的不同匹配的各种可信度。
3.根据权利要求1或2的方法,其中当将上述候选列表(109)呈现给用户(105)时,来自上述候选列表(109)中的具有最高可信度的语义项(111,113)被自动选中。
4.根据权利要求1至3中任何一项的方法,其中如果用户(105)没有从上述候选列表(109)中选择任何语义项,则来自上述候选列表(109)中具有最高可信度的语义项(111,113)被自动选中。
5.根据权利要求1至4中任何一项的方法,其中上述候选列表(109)呈现给用户达一个预定义的时间间隔。
6.根据权利要求1至5中任何一项的方法,其中呈现上述候选列表(109)给用户(105)包括显示上述候选列表(109)给用户(105)。
7.根据权利要求1至6中任何一项的方法,其中呈现上述候选列表(109)给用户(105)包括播放上述候选列表(109)给用户(105)。
8.一种计算机可读介质,其中存储的指令使处理单元执行方法1至7。
9.一种用在与用户(105)执行对话通信的系统(101)中的对话设备(400),包括-一个记录器(401),用于记录包括动作的请求的语音信号(107),该动作要由上述系统(101)执行,其中上述语音信号(107)由上述用户(105)产生,-一个语音识别器(402),用于使用语音识别来分析上述记录的语音信号(107),并将上述分析结果与系统(101)中定义的预定义语义项(103)进行比较,其中上述每个语义项(103)都与一个动作相关联,其中根据上述比较来产生一个候选列表(109),上述候选列表(109)标识了从上述预定义的语义项(103)中选出的有限数量的语义项(111,113),-用于将上述候选列表(109)呈现给上述用户(105)的装置(403,404),以及-用于执行与上述候选列表(109)中上述语义项(111,113)之一相关联的动作的装置(405),该动作要根据预定义的准则选出,除非上述用户(105)从上述候选列表(109)中选择了一个不同的语义项。
10.根据权利要求9的对话设备,其中将上述候选列表(109)呈现给上述用户(105)的上述装置包括一个显示器(403)。
11.根据权利要求9的对话设备,其中将上述候选列表(109)呈现给上述用户(105)的上述装置包括一个声学设备(404)。
全文摘要
本发明涉及一种用于与用户(105)执行对话通信的系统(101)的方法。用户的语音信号(107)被记录并进行分析,该语音信号包括对要由系统(101)执行的动作的请求。分析的结果与系统(101)中定义的预定义语义项(103)进行比较,其中每个语义项都与一个动作相关联。根据上述比较来产生并向用户(105)呈现一个候选列表(109),这个列表标识了从预定义的语义项(103)中选出的有限数量的语义项(111,113)。与候选列表(109)中语义项之一相关联的动作根据预定义的准则被执行,除非用户(105)从候选列表(109)中选择一个不同的语义项。
文档编号G10L15/22GK1993732SQ200580026667
公开日2007年7月4日 申请日期2005年7月27日 优先权日2004年8月6日
发明者T·波特勒, H·肖尔, F·萨森谢德特, J·F·马施纳 申请人:皇家飞利浦电子股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:语音合成数据存储器结构及其编码方法技术领域:本发明涉及语音合成系统,特别是涉及一种语音合成数据存储器结构及其编码方法。语音合成系统是以其存储器中贮存的语音数据,经适当的选择输出,而产生合成语音。图1为一传统的语音合成系统方块图。其

    专利发布时间:2025-05-15阅读:(68)

    专利名称:一种实现丢包隐藏的方法和装置的制作方法技术领域:本发明涉及网络通信技术领域,尤指一种估计基音周期的方法和装置、一 种对基因周期进行微调的方法和装置以及实现丢包隐藏的方法和装置。背景技术:最初,IP网络是为传输包含较大的包且不需要实

    专利发布时间:2025-05-15阅读:(153)

    专利名称:光敏树脂、制备该树脂的方法、光敏树脂组合物和该树脂组合物的固化产品的制作方法技术领域:本发明涉及一种光敏树脂、制备该光敏树脂的方法、光敏树脂组合物和 该光敏树脂组合物的固化产品。背景技术:光聚合负型光敏树脂组合物用于各种用途,包括

    专利发布时间:2025-05-15阅读:(59)

    专利名称:环境噪声下干扰信号幅度的提取方法技术领域:本发明涉及一种适用于EMI接收机中对干扰信号的提取方法,更特别地说,是指一种在环境噪声下通过随机过程理论提取得到干扰信号幅度的方法。 背景技术:机载通信平台包括多套发射和接收设备,在有限的

    专利发布时间:2025-05-15阅读:(73)

    专利名称:一种激光晶体材料硼酸铥铝及其制备方法和用途的制作方法技术领域:本发明涉及晶体材料领域。特别是涉及一种激光—非线性光学的兼具自激活、自变频的多功能晶体。背景技术: 新波段、新类型激光晶体是当前学术界研究的主要课题之一。稀土激活离子T

    专利发布时间:2025-05-15阅读:(71)

    专利名称:一种车用电喇叭的制作方法技术领域:本实用新型“一种车用电喇叭”,属于国际专利分类物理部中发声器械。已知中国实用新型专利ZL95246637.2号公开了数字式多音调无触点汽车用电子喇叭,它包括主振荡器、分频器、脉冲宽度成型器、功率放

    专利发布时间:2025-05-15阅读:(76)