一种语音交互方法及系统的制作方法
【专利摘要】本发明公开了一种语音交互方法及系统,该方法包括录制用户输入的音频数据;对音频数据进行端点检测,直至检测到语音前端点;对从语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,该前缀词为反映执行动作类型的词语;获取音频数据中从前缀词语音的前端点起的语音段作为语音指令;对语音指令进行语音识别;如果语音识别结果有效则执行对应语音识别结果的操作。本发明的方法及系统由于将音频数据中从前缀词语音的前端点起的语音段作为语音指令,并将反映执行动作类型的词语作为前缀词,因此实现了前缀词与语音指令间的有机结合,可以有效避免出现因强制切分语音指令带来的无法获得有效语音识别结果的问题,提高了语音交互的效率。
【专利说明】-种语音交互方法及系统
【技术领域】
[0001] 本发明涉及语音交互领域,尤其涉及一种语音交互方法及系统。
【背景技术】
[0002] 为了避免手机等移动设备在待机时将周边的说话噪音误识别为语音指令,用户在 每次启动移动设备的语音交互功能时,移动设备均需要完成以下操作:1、录制用户输入的 音频数据;2、获取音频数据进行唤醒检测,直至唤醒成功;3、于唤醒成功后提示用户输入 语音指令;4、于提示用户输入语音指令后,再次录制用户输入的音频数据;5、获取再次录 制的音频数据中的语音段作为语音指令;6、对语音指令进行语音识别,得到语音识别结果; 7、确定语音识别结果是否有效,如果有效则执行语音识别结果。对应地,用户在每次启动移 动设备的语音交互功能时,均需要完成以下操作:1、说出唤醒词,以唤醒移动设备;2、在移 动设备提示用户输入语音指令时,说出语音指令,例如说出"打电话给张三"时。由此可见, 该种语音交互方法具有使用便捷性较差的缺陷。
[0003] 为了解决上述语音交互方法存在的使用便捷性较差的问题,目前还提出了一种基 于唤醒词的语音交互方法,该种语音交互方法是在唤醒成功后直接处理用户在说出唤醒词 后连续说出的语音指令。与该种语音交互方法相对应,用户需要完成的操作是连续说出唤 醒词和语音指令,例如,对于要"打电话给张三"的应用,用户需要说出"语点通,打电话给张 三",其中的"语点通"即为预先设定的固定唤醒词,而"打电话给张三"即为语音指令。该种 语音交互方法虽然在使用便捷性上具有一定的优势,但是,用户通常都是连续说话,唤醒词 与后面的语音指令会顺连在一起,因此,这种将音频数据中于唤醒成功起的语音段作为语 音指令的强制切分方式,很可能导致语音指令不完整,进而导致语音识别模块无法获得有 效的语音识别结果,降低了语音识别模块的识别准确率,这就在一定程度上降低了语音交 互的效率。另外,该种语音交互方法仅针对固定的唤醒词起作用,用户需要硬性记忆设定的 唤醒词,否则将无法开始整个语音交互过程,因此,该种语音交互方法的使用便捷性仍有待 进一步提商。
【发明内容】
[0004] 本发明实施例的目的在于克服现有语音交互方法存在的语音交互效率较低的问 题,提供了一种高效的基于前缀词的语音交互方法。
[0005] 为实现上述目的,本发明采用的技术方案为:一种语音交互方法,包括:
[0006] 录制用户输入的音频数据;
[0007] 对所述音频数据进行端点检测,直至检测到语音前端点;
[0008] 对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,其 中,所述前缀词为反映执行动作类型的词语;
[0009] 获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音指令,直至 检测到指令获取终止事件;
[0010] 对所述语音指令进行语音识别,得到语音识别结果;
[0011] 判断所述语音识别结果是否有效,如果有效则执行对应所述语音识别结果的操 作。
[0012] 优选的是,所述方法还包括:
[0013] 在对所述音频数据进行端点检测之前,对所述音频数据进行降噪处理。
[0014] 优选的是,所述对从所述语音前端点起的音频数据进行前缀词检测包括:
[0015] 基于包括前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前端点起的音 频数据中是否存在所述前缀词语音。
[0016] 优选的是,所述判断所述语音识别结果是否有效包括:
[0017] 判断命令词网络中是否存在与所述语音识别结果相匹配的命令词,如存在,则判 定所述语音识别结果有效。
[0018] 优选的是,所述指令获取终止事件包括:所述语音段结束和所述语音段已持续设 定时间。
[0019] 为了实现上述目的,本发明采用的技术方案为:一种语音交互系统,包括:
[0020] 录音模块,用于录制用户输入的音频数据;
[0021] 端点检测模块,用于对所述音频数据进行端点检测,直至检测到语音前端点;
[0022] 前缀词检测模块,用于对从所述语音前端点起的音频数据进行前缀词检测,直至 检测到前缀词语音,其中,所述前缀词为反映执行动作类型的词语;
[0023] 语音活动检测模块,用于获取所述音频数据中从所述前缀词语音的前端点起的语 音段作为语音指令,直至检测到指令获取终止事件;
[0024] 语音识别模块,用于对所述语音指令进行语音识别,得到语音识别结果;
[0025] 判断模块,用于判断所述语音识别结果是否有效;以及,
[0026] 执行模块,用于执行有效的语音识别结果对应的操作。
[0027] 优选的是,所述系统还包括:
[0028] 降噪模块,分别与所述录音模块及所述端点检测模块连接,用于对所述录音模块 录制的音频数据进行降噪处理,并将降噪处理后的音频数据传送给所述端点检测模块。
[0029] 优选的是,所述前缀词检测模块具体用于基于包括前缀词模型和垃圾模型的并行 搜索网络,检测从所述语音前端点起的音频数据中是否存在所述前缀词语音。
[0030] 优选的是,所述判断模块具体用于判断命令词网络中是否存在与所述语音识别结 果相匹配的命令词,如存在,则判定所述语音识别结果有效。
[0031] 优选的是,所述指令获取终止事件包括:所述语音段结束和所述语音段已持续设 定时间。
[0032] 本发明的有益效果在于,本发明的语音交互方法及系统由于将音频数据中从前缀 词语音的前端点起的语音段作为语音指令,并将例如是"打电话给"、"发短信给"、"打开QQ" 等反映执行动作类型的词语作为前缀词,因此实现了前缀词与语音指令间的有机结合,这 不仅可以有效避免出现因强制切分语音指令带来的无法获得有效语音识别结果的问题,提 高了语音交互的效率,而且这种将符合常规语言习惯的词语作为前缀词的方式,使用户无 需硬性记忆固定的唤醒词,只需按照常规语言习惯说出需要执行的动作即可实现语音交互 的唤醒和动作的执行,进而进一步提高了语音交互的使用便捷性。
【专利附图】
【附图说明】
[0033] 图1示出了根据本发明所述语音交互方法的一种实施方式的流程图;
[0034] 图2示出了根据本发明所述语音交互系统的一种实施结构的方框原理图。
【具体实施方式】
[0035] 下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终 相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附 图描述的实施例是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
[0036] 本发明为了解决现有语音交互方法存在的因对语音指令进行强制切分而影响语 音交互效率的问题,提供一种更为高效的语音交互方法,如图1所示,该方法包括如下步 骤:
[0037] 步骤Sl :录制用户输入的音频数据。
[0038] 在此,可将录制的音频数据存储在固定长度的循环缓冲区中,并记录存储地址,以 供后续步骤获取该音频数据。
[0039] 步骤S2 :对音频数据进行端点检测,直至检测到语音前端点。
[0040] 该语音前端点就是非语音段到语音段的边界帧,进行音频数据处理时,首先对音 频数据进行分帧,然后对音频数据的每帧数据计算能量特征,能量特征超过设定数值就认 为该帧数据是语音,否则是非语音。
[0041] 在此,音频数据会随着录音的进行不断被存储在循环缓冲区中,而随着音频数据 的不断存储,便可不断从循环缓冲区中获取音频数据进行端点检测,因此,该对音频数据进 行端点检测的动作基本可与将录制的音频数据存储在循环缓冲区中的动作同步进行,以提 高处理效率。
[0042] 步骤S3 :对从语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语 音,其中,所述前缀词为反映执行动作类型的词语,以能够将用于唤醒语音交互的前缀词与 用于表明用户意图的语音指令有机地结合在一起。该反映执行动作类型的词语例如是"打 电话给"、"发短信给"、"打开QQ"、"打开微信"等符合常规语言习惯的词语。
[0043] 该前缀词检测的主要作用为判断是否唤醒语音交互操作,如果检测到前缀词语 音,则启动语音识别,以按照用户意图执行相应动作。
[0044] 该前缀词检测的方法例如可包括如下步骤:
[0045] 步骤S31,声学特征提取:提取音频信息(通常以语音段为单位进行前缀词检 测)中具有区分性的、并且是基于人耳听觉特性提取的特征,通常选取语音识别中用到的 MFCC(Mel_Frequency Cepstrum Coefficient,美尔频率倒谱系数)特征作为声学特征。
[0046] 步骤S32,前缀词检测:将提取得到的声学特征,采用训练的声学模型在前缀词检 测网络上计算声学得分,如果声学得分最优的路径中包含要检测的前缀词,则确定已检出 前缀词,否则回到步骤S31继续提取声学特征。
[0047] 在上述步骤S31和步骤S32的基础上,为了降低前缀词的误检率,还可以在确定已 检出前缀词后执行以下步骤S33。
[0048] 步骤S33,前缀词确认:将提取得到的声学特征,采用训练的声学模型在前缀词确 认网络上进行前缀词确认,得到最终确认得分;判断该检出的前缀词是否为真实的前缀词, 即将该前缀词的最终确认得分和预先设定的门限进行比较,如果最终确认得分大于等于门 限,则认为该前缀词是真实的前缀词,语音唤醒成功;如果最终确认得分小于门限,则认为 该前缀词为虚假的前缀词,重新回到步骤S31继续提取声学特征。
[0049] 在此,可将符合常规语言习惯的反映执行动作类型的词语增加在前缀词检测网络 和前缀词确认网络中,另外,本发明的方法还支持用户根据个人语言习惯,将反映执行动作 类型的词语增加在前缀词检测网络和前缀词确认网络的操作。这使得本发明的方法不再受 限于固定唤醒词,进一步提高了本发明的应用便捷性。
[0050] 上述前缀词检测网络的实现方法可采用最优得分路径计算得出,最优得分路径的 计算公式是:
[0051] 现用X代表从音频数据中提取的声学特征向量,W代表得分最大的最优词序列;条 件概率P(Xlw)为声学模型得分,通过训练好的声学模型计算得到;先验概率P(W)为语言模 型得分,即为对不同的声学模型所加的PenaltyP(X)为全概率,当声学模型和前缀词检测 网络确定下来后即是定值。在此基础上,前缀词确认网络的实现方法是:
[0052] a)将检出的前缀词解码到音素一级,并记录所有的得分:
[0053] (Scorephmel, Scorephme2,…,ScorephmeN),其中 N 为前缀词中总的音素个数, Scorephmel, Scoreptom2,…,Scorephme;N分别表示该前缀词中各音素的解码得分。
[0054] b)计算得到前缀词每个音素的确认得分,计算方式如下:
【权利要求】
1. 一种语音交互方法,其特征在于,包括: 录制用户输入的音频数据; 对所述音频数据进行端点检测,直至检测到语音前端点; 对从所述语音前端点起的音频数据进行前缀词检测,直至检测到前缀词语音,其中,所 述前缀词为反映执行动作类型的词语; 获取所述音频数据中从所述前缀词语音的前端点起的语音段作为语音指令,直至检测 到指令获取终止事件; 对所述语音指令进行语音识别,得到语音识别结果; 判断所述语音识别结果是否有效,如果有效则执行对应所述语音识别结果的操作。
2. 根据权利要求1所述的方法,其特征在于,所述方法还包括: 在对所述音频数据进行端点检测之前,对所述音频数据进行降噪处理。
3. 根据权利要求1所述的方法,其特征在于,所述对从所述语音前端点起的音频数据 进行前缀词检测包括: 基于包括前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前端点起的音频数 据中是否存在所述前缀词语音。
4. 根据权利要求1所述的方法,其特征在于,所述判断所述语音识别结果是否有效包 括: 判断命令词网络中是否存在与所述语音识别结果相匹配的命令词,如存在,则判定所 述语音识别结果有效。
5. 根据权利要求1至4中任一项所述的语音交互方法,其特征在于,所述指令获取终止 事件包括:所述语音段结束和所述语音段已持续设定时间。
6. -种语音交互系统,其特征在于,包括: 录音模块,用于录制用户输入的音频数据; 端点检测模块,用于对所述音频数据进行端点检测,直至检测到语音前端点; 前缀词检测模块,用于对从所述语音前端点起的音频数据进行前缀词检测,直至检测 到前缀词语音,其中,所述前缀词为反映执行动作类型的词语; 语音活动检测模块,用于获取所述音频数据中从所述前缀词语音的前端点起的语音段 作为语音指令,直至检测到指令获取终止事件; 语音识别模块,用于对所述语音指令进行语音识别,得到语音识别结果; 判断模块,用于判断所述语音识别结果是否有效;W及, 执行模块,用于执行有效的语音识别结果对应的操作。
7. 根据权利要求6所述的系统,其特征在于,所述系统还包括: 降噪模块,分别与所述录音模块及所述端点检测模块连接,用于对所述录音模块录制 的音频数据进行降噪处理,并将降噪处理后的音频数据传送给所述端点检测模块。
8. 根据权利要求6所述的系统,其特征在于,所述前缀词检测模块具体用于基于包括 前缀词模型和垃圾模型的并行搜索网络,检测从所述语音前端点起的音频数据中是否存在 所述前缀词语音。
9. 根据权利要求6所述的系统,其特征在于,所述判断模块具体用于判断命令词网络 中是否存在与所述语音识别结果相匹配的命令词,如存在,则判定所述语音识别结果有效。
10.根据权利要求6至9中任一项所述的系统,其特征在于,所述指令获取终止事件包 括;所述语音段结束和所述语音段已持续设定时间。
【文档编号】G10L15/04GK104464723SQ201410782284
【公开日】2015年3月25日 申请日期:2014年12月16日 优先权日:2014年12月16日
【发明者】张凯, 陈盛 申请人:科大讯飞股份有限公司
一种语音交互方法及系统的制作方法
相关推荐
专利名称:一种路灯反光壳体的制作方法技术领域:一种路灯反光壳体技术领域:本实用新型涉及一种路灯,尤其涉及一种路灯的反光壳体。背景技术:路灯在人们的生活中不可缺少,随着路灯的不断增多和普及,节能越来越受人们的关注,现有的路灯结构包括灯罩壳体I
专利名称:感光性树脂组合物、其固化皮膜和印刷电路板的制作方法技术领域:本发明涉及感光性树脂组合物、其固化皮膜和具有该固化皮膜的印刷电路板,更具体地说,涉及固化皮膜的耐化学镀金性良好,焊料整平(solder leveller,预焊接工序)、化
专利名称:一种造型装饰灯的制作方法技术领域:本实用新型涉及一种装饰灯,特别是一种安装在造型装饰板上的造型装饰灯。背景技术:在圣诞佳节或其它喜庆的日子,人们常常使用灯饰来布置场景,从而利用灯饰的装饰效果来烘托节日气氛。目前在市面上常见的装饰灯
专利名称:高速球形摄像机的制作方法技术领域:本发明涉及摄像机的技术领域,具体说是一种采用磁力吸附来完成机芯与上部连 接座之间的的固定,并且通过松脱杆使机芯和上部连接座相互分离,从而使机芯的安装与 拆卸过程更加简易的高速球形摄像机。背景技术:
专利名称:透镜组装体及摄像装置的制作方法技术领域:本实用新型涉及一种组装有使被摄体光成像在摄像元件上的透镜的 透镜组装体以及具备该透镜组装体的摄像装置。背景技术:最近以来,开始在汽车上配备摄相机。配备于汽车的摄相机被作为监 视使用,或者被使
专利名称:液晶显示装置的制作方法技术领域:本发明涉及可以反射型显示和透过型显示的液晶显示装置,特别是涉及不加电压时,液晶分子相对于基板而垂直取向的液晶显示装置。背景技术: 近年,液晶显示装置以移动携带式信息终端(PDA),移动电话,携带型游