终端设备的语音交互方法和使用该方法的终端设备的制作方法
【专利摘要】提供了一种终端设备的语音交互方法和使用该方法的终端设备,所述终端设备包括位于操作系统和应用程序之间的中间层,所述语音交互方法包括:由中间层接收用户从语音输入设备输入的语音指令的语音信息,并将接收的语音信息转换为文本信息;对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令;根据对终端设备的指令调用终端设备的底层API,并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。
【专利说明】终端设备的语音交互方法和使用该方法的终端设备
【技术领域】
[0001]本发明涉及语音识别控制技术,更具体地说,涉及一种利用位于终端设备的操作系统和应用程序之间的中间层来实现对于终端设备的语音交互的方法及其终端设备。
【背景技术】
[0002]在当前的终端设备中,语音识别已经成为了一种常用技术。传统的语音输入设备大多以接收被动的语音信号为主,通过其与移动设备的连接,使用者可以方便地接收到来自手机的来电信号并进行信号的传输。而随着现代技术的发展,人们的交流方式和行为越来越不集中于电话和短信。尤其是随着3G网络和智能手机的普及,使得人们的交流方式更加的多样化,而目前的语音输入设备(例如,带有话筒的耳机)在与诸如智能手机的终端设备的结合上,并没有很好的满足人们在移动过程中进行信息传递的需求。
[0003]另外,现有的基于语音识别来控制终端设备的技术通常需要专门为语音交互的应用程序开发与该语音交互应用程序与其它应用程序的接口,因此只能实现对固定的应用程序的调用和控制。这对终端设备的语音交互带来了很多的不方便。例如,苹果公司的1s系统上的Siri语音助手仅能实现对诸如短信息、邮件等固定的应用程序的调用,而无法实现与用户自行安装的应用程序的交互。
【发明内容】
[0004]本发明的目的在于,不需要针对终端设备的硬件以及终端设备上的应用程序做任何的修改,仅通过采用运行在终端设备的操作系统之上的中间层来完全屏蔽设备上的应用程序和语音输入设备之间的联系,从而能够直接通过语音来控制现有的终端设备(如手机、平板、车载GPS等)的各种功能或者与终端设备的所有可用应用程序进行交互。
[0005]根据本发明的一方面,提供了一种用于终端设备的语音交互方法,所述终端设备包括位于操作系统和应用程序之间的中间层,所述语音交互方法包括:(a)由中间层接收用户从语音输入设备输入的语音指令的语音信息,并将接收的语音信息转换为文本信息;
(b)对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令;(C)根据对终端设备的指令调用终端设备的底层API,并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。
[0006]根据本发明的一方面,语音交互方法还包括:(d)如果应用程序在执行操作之后返回了文本信息,则将返回的文本信息转换为语音信息,并将语音信息提供给语音输出设备。
[0007]根据本发明的一方面,语音交互方法的步骤(C)还包括:将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。
[0008]根据本发明的一方面,语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。
[0009]根据本发明的一方面,中间层屏蔽语音输入设备与应用程序之间的联系。
[0010]根据本发明的另一方面,还提供了一种用于语音交互的终端设备,所述终端设备包括位于操作系统和应用程序之间的中间层模块,所述中间层模块包括:语音识别模块,接收用户从语音输入设备输入的语音指令的语音信息,并将接收的语音信息转换为文本信息;语义分析模块,对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令;语音控制模块,根据对终端设备的指令调用终端设备的底层API,并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。
[0011]根据本发明的另一方面,所述中间层模块还包括:语音转换模块,如果应用程序在执行操作之后返回了文本信息,则将返回的文本信息转换为语音信息,并将语音信息提供给语音输出设备。
[0012]根据本发明的另一方面,语音控制模块还将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。
[0013]根据本发明的另一方面,语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。
[0014]根据本发明的另一方面,所述中间层模块屏蔽语音输入设备与应用程序之间的联系O
【专利附图】
【附图说明】
[0015]通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
[0016]图1是示出根据本发明实施例的终端设备的系统架构示意图;
[0017]图2是示出根据本发明实施例的图1中的中间层模块的详细配置示意图;
[0018]图3是示出根据本发明实施例的语音交互方法的流程图。
【具体实施方式】
[0019]下面提供参照附图进行的描述以有助于全面理解如权利要求及其等同物所限定的本发明的示例性实施例。所述描述包括各种详细的细节以有助于理解,而这些描述将被认为仅为示例性的。因此,本领域的普通技术人员将意识到在不脱离本发明的范围和精神的情况下可做出在此描述的各种改变和变型。另外,为了清晰和简洁,可省略对公知功能和构造的描述。
[0020]图1是示出本发明实施例的终端设备的系统架构示意图。
[0021]如图1所示,根据本发明实施例的终端设备100的系统架构包括:操作系统110、中间层120和应用程序130。
[0022]终端设备100可通过诸如带有话筒的蓝牙耳机的语音输入设备来接收用户的语音信号。在接收到语音信号输入之后,终端设备100的操作系统110控制相应的模块将语音信号转换为在数字化的语音信息,并将语音信息提供给位于操作系统110和应用程序130之间的中间层120。中间层120集成在操作系统110的底层功能中,其可以完全屏蔽应用程序与语音输入设备之间的联系,并可以模拟用户的操作和应用交互。中间层120对接收到的语音信息进行语音识别,从而将接收到的语音信息转换为文本信息。接下来,中间层120对文本信息进行自然语言处理和语义理解,从文本信息中得到用户用语音表达的操作信息和实体信息。例如,如果从用户接收到的语音信息中识别出用户发出了语音指令“跟小李发短息,说我晚上不回家吃饭了”,则通过自然语言处理,中间层120可得到如下信息“启动短信模块,给收件人‘小李’发短信,短信内容为:我晚上不回家吃饭了”。这里,“启动短信模块”可表示操作信息,收件人‘小李’以及短信内容“我晚上不回家吃饭了”可表示实体信息。当然,中间层120还可以通过扩展处理的模块,进行更多的底层设备应用的控制,例如,可阅读未读邮件、查看天气信息等。
[0023]接下来,中间层120根据操作信息所涉及到的应用程序来调用终端设备100中相应的底层API接口,并将操作信息和实体信息提供给终端设备100的应用程序130。或者,中间层120可将得到的操作信息和实体信息转换为用于模拟用户行为的操作的指令,从而对终端设备100的其它功能进行控制或者对终端设备100进行相应的操作。例如,可将“提高音量”的语音指令转换为用户对音量+键的行为操作的指令。通过以上处理,可以实现对终端设备100上的不同应用程序或其它基本功能的控制。
[0024]另外,如果应用程序130在运行的过程中返回了与用户进行交互的交互信息,则中间层120将返回的交互信息转换为语音,并将转换的语音提供给操作系统110,并由操作系统110的相应模块将转换后的语音提供到声音输出设备。例如,操作系统110的蓝牙耳机模块可将转换的语音发送给蓝牙耳机,从而用户可听到返回的交互信息。
[0025]下面将参照图2来详细说明根据本发明实施例的图1中的中间层120模块的详细配置。
[0026]如图2所示,中间层模块120包括语音识别模块121、语义分析模块122、语音控制模块123以及语音转换模块124。当然,以上的模块可以划分为更多的模块或者组合为更少的模块。
[0027]当接收到语音信息时,语音识别模块121将用户语音转换为文本信息。可采用现有的任何语音识别技术来将语音转换为文本信息。可选地,语音识别模块121可控制终端设备100与用户进行二次交互确认来降低误识别带来的错误指令。
[0028]接下来,语义分析模块122分析文本信息,从而将文本信息翻译为操作信息和实体信息。具体地,语义分析模块122对文本信息进行分词和词性标注,通过词条的特征信息和规则,先将文本信息划分为操作信息部分和实体信息部分。然后,语义分析模块122将操作信息部分解码翻译为对于终端设备100的操作指令。
[0029]语音控制模块123根据语义分析模块122翻译的操作指令来调用底层API,从而打开与操作指令相应的应用程序。或者,语音控制模块123根据翻译的操作指令来模拟用户操作行为,从而对终端设备100进行模拟的操作。
[0030]另外,如果应用程序130返回了文字信息,则语音转换模块124将返回的文字信息转换为语音信息,并通过调用操作系统110的相应模块来将转换的语音信息提供给语音输出设备。例如,操作系统110可通过调用蓝牙模块将转换后的语音信息提供给蓝牙耳机。
[0031]下面将结合具体示例来说明以上的中间层120的操作。例如,如果用户在开车的过程中收到新浪微博发来的微博的通知。这时候,操作系统110将通知以声音和画面的形式发送给用户,以提醒用户。这种提醒的方式在大多数终端设备中已经实现。
[0032]用户在得到提醒之后决定查看这条微博并进行反馈。此时,用户通过蓝牙耳机上的话筒发出语音指令“查看通知信息”。中间层120在接收到该语音信息之后,语音识别模块121对这条语音信息进行识别,从而得到“查看通知信息”的文本信息。接下来,语义分析模块122使用分词标注来对文本信息进行分析。例如,分词标注能够识别出动词“查看”和动词的受体“通知信息”,同时根据上一次发生信息交互的应用程序(即,新浪微博),语义分析模块122可以判断出用户的需求是“查看”[动作]“新浪微博”[应用程序]的“通知信息”[客体]。然后,语音控制模块123调用终端设备100的操作系统底层的API打开新浪微博。这样,用户可在终端设备上查看刚刚接收到的新浪微博的通知信息。
[0033]可选地,语音转换模块124还可从应用程序得到通知信息的文本信息,并将文本信息转换为语音信息,并通过操作系统110的负责蓝牙耳机的模块将语音信息发送到蓝牙耳机。这样,用户可从蓝牙耳机中听到自己想要查看的通知信息,而不用自己主动在终端上查看通知信息。与当前已经存在的语音助手类的应用程序最大的区别是不需要对当前存在的应用程序做接口调用,直接从底层就可以和其他应用进行交互,具有很大的扩展性。
[0034]下面将参照图3对根据本发明实施例的语音交互方法的流程进行说明。
[0035]首先,在步骤S301,由位于操作系统110和应用程序130之间的中间层120来接收用户从语音输入设备输入的语音指令的语音信息。
[0036]接下来,在步骤S303,中间层120将接收的语音信息转换为文本信息。然后,在步骤S305,中间层120对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令。
[0037]接下来,在步骤S307,中间层120根据对终端设备的指令调用终端设备的底层API以操作相关的应用程序,并将操作信息和实体信息提供给相应的应用程序。或者,中间层120还可将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。
[0038]可选地,如果应用程序在执行操作之后返回了文本信息,则在步骤S309中间层120将返回的文本信息转换为语音信息,并将语音信息提供给语音输出设备。
[0039]通过本发明,用户可以借用语音输入设备控制移动设备的应用程序,满足在移动过程中不适合查看手机屏幕时的使用场景。除此之外,对于无法正常使用一些设备的盲人,也提供了一种仅仅通过语音的方式和设备进行交互的方法。另外,本发明的技术方案不仅扩充了目前终端设备的语音交互功能,由于终端设备可通过中间层对语音指令进行转码,因此,可利用语音对运行在终端设备上的各种应用程序和功能进行控制和交互。
[0040]根据本发明的方法可被记录在包括执行由计算机实现的各种操作的程序指令的计算机可读介质中。介质也可以只包括程序指令或者包括与程序指令相结合的数据文件、数据结构等。计算机可读介质的例子包括磁介质(例如硬盘、软盘和磁带);光学介质(例如CD-ROM和DVD);磁光介质(例如,光盘);以及特别配制用于存储并执行程序指令的硬件装置(例如,只读存储器(ROM)、随机存取存储器(RAM)、闪存等)。介质也可以是包括传输规定程序指令、数据结构等的信号的载波的传输介质(例如光学线或金属线、波导等)。程序指令的例子包括例如由编译器产生的机器码和包含可使用解释器由计算机执行的高级代码的文件。
[0041]尽管已经参照本发明的示例性实施例具体显示和描述了本发明,但是本领域的技术人员应该理解,在不脱离由权利要求限定的本发明的精神和范围的情况下,可以对其进行形式和细节上的各种改变。
【权利要求】
1.一种用于终端设备的语音交互方法,其特征在于所述终端设备包括位于操作系统和应用程序之间的中间层,所述语音交互方法包括: (a)由中间层接收用户从语音输入设备输入的语音指令的语音信息,并将接收的语音信息转换为文本信息; (b)对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令; (c)根据对终端设备的指令调用终端设备的底层API,并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。
2.如权利要求1所述的语音交互方法,还包括: (d)如果应用程序在执行操作之后返回了文本信息,则将返回的文本信息转换为语音信息,并将语音信息提供给语音输出设备。
3.如权利要求1所述的语音交互方法,其中,步骤(c)还包括:将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。
4.如权利要求1所述的语音交互方法,其中,语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。
5.如权利要求1所述的语音交互方法,其中,中间层屏蔽语音输入设备与应用程序之间的联系。
6.一种用于语音交互的终端设备,其特征在于所述终端设备包括位于操作系统和应用程序之间的中间层模块,所述中间层模块包括: 语音识别模块,接收用户从语音输入设备输入的语音指令的语音信息,并将接收的语音信息转换为文本信息; 语义分析模块,对文本信息进行语义分析以提取出用户的语音指令中的操作信息和实体信息,并根据操作信息得到对终端设备的指令; 语音控制模块,根据对终端设备的指令调用终端设备的底层API,并将操作信息和实体信息提供给相应的应用程序以对应用程序执行相应的操作。
7.如权利要求6所述的终端设备,所述中间层模块还包括:语音转换模块,如果应用程序在执行操作之后返回了文本信息,则将返回的文本信息转换为语音信息,并将语音信息提供给语音输出设备。
8.如权利要求6所述的终端设备,其中,语音控制模块还将得到的操作信息和实体信息转换为用于模拟用户对终端设备的操作的指令。
9.如权利要求6所述的终端设备,其中,语音输入设备和语音输出设备集成在与终端设备连接的蓝牙耳机中。
10.如权利要求6所述的终端设备,其中,所述中间层模块屏蔽语音输入设备与应用程序之间的联系。
【文档编号】G10L15/28GK104050966SQ201310078337
【公开日】2014年9月17日 申请日期:2013年3月12日 优先权日:2013年3月12日
【发明者】张肖男, 陈龙 申请人:百度国际科技(深圳)有限公司
终端设备的语音交互方法和使用该方法的终端设备的制作方法
相关推荐
专利名称:弹性自动伸缩鼻梁架的制作方法技术领域:本实用新型涉及一种眼镜配件,尤指一种弹性自动伸缩鼻梁架。 背景技术:眼镜的中部都设有鼻梁架,有的鼻梁架是与镜框一体成型的,有 的鼻梁架则是独立的配件,然后再与两侧镜框或直接与镜片连接在一 起。
专利名称:孵化机观察窗镜片的制作方法技术领域:本发明涉及一种观察用的镜片,具体地说是一种孵化机观察窗上的镜片。背景技术:目前,孵化机观察窗上所装的镜片为普通平面玻璃,且还通常在观察窗上镶两层 玻璃。上述现有的孵化机观察窗上的镜片存在的不足是
专利名称:半导体制冷散热的led灯的制作方法技术领域:本实用新型涉及一种照明装置,尤其涉及一种半导体制冷散热的LED灯。背景技术:LED灯与传统的白炽灯、日光灯等照明工具相比具有发光率高、耗能少、适用性强、响应时间短、对环境无污染、多色发光
专利名称:参数立体声编码方法、装置和参数立体声解码方法、装置的制作方法技术领域:本发明涉及语音编解码技术,尤其涉及一种参数立体声编解码的方法和装置。背景技术:现有的立体声编解码方法可以分为两类, 一类是基于波形的立体声编解 码,第二类是参数
专利名称:语音解码装置及语音解码方法技术领域:本发明涉及语音编码装置、语音解码装置、语音编码方法、语音解码方法、语音编码程序以及语音解码程序。背景技术:利用听觉心理去除人类知觉不需要的信息而将信号的数据量压缩为几十分之一 的语音音频编码技术
专利名称:一体红外屏ktv点歌台的制作方法技术领域:本实用新型涉及一种点歌台,特别是一种一体红外屏KTV点歌台。背景技术:现有的KTV点歌台其内部结构都是采用塑料板制成,刚度不够, 容易被使用者损坏。且面框与透明面板之间的结合密封程度不够好