专利名称:一种语音识别方法及系统的制作方法
一种语音识别方法及系统
技术领域:
本发明涉及互联网应用领域,尤其涉及一种语音识别方法及系统。
背景技术:
语音识别技术是近十年间信息技术领域十大重要的科技发展技术之一,主要应用于语音拨号、语音导航、室内设备控制、语音搜索、听写数据录入等。由于语音识别过程是智能的,会出现同音不同字的情况,因此就会出现多个识别结果,当存在多个识别结果时,对识别结果进行排序显得尤为重要。目前,主要依据输入的语音信息与语音模型库中语音模型的匹配率由高到低的顺序对多个识别结果排序,例如,百度搜索中,无论在哪个搜索分类中输入语音信息都将得到同样顺序的识别结果;按照目前的排序方法向用户提供的识别结果中,排序靠前的结果都不是最优结果,就需要用户进一步与搜索服务器交互,进行人工筛选或重新输入语音信息进行搜索,从而导致搜索服务器的语音识别率较低,用户反复输入语音信息也会增加搜索服务器的负荷。
发明内容本发明提供了一种语音识别方法及系统,能够提高具有语音识别功能的应用的语音识别率。本发明的具体技术方案如下根据本发明一优选实施例,一种语音识别方法,包括接收客户端发送的语音信息和识别结果类型;在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果;将相似度由高到低排序的识别结果返回给客户端。上述方法中,找到所述识别结果类型对应的语音分类词库的方法为依据识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识别结果类型对应的语音分类词库;或,依据预设的类型关联表,找到识别结果类型对应的相似结果类型,将相似结果类型对应的语音分类词库作为识别结果类型对应的语音分类词库。上述方法中,所述语音分类词库保存词组或字、类型信息、语音特征向量的对应关系;其中,所述类型信息表示语音分类词库中词组或字所属的类型。上述方法中,对所述语音分类词库进行更新的方法为对用户输入的关键字进行语义分析,依据分析结果将所述关键词添加到对应的语音分类词库。上述方法中,所述依据所述语音信息从找到的语音分类词库获取识别结果具体包括从所述语音信息中提取语音特征向量,将提取的语音特征向量与找到的语音分类词库中的语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果。一种语音识别系统,包括接收单元、识别单元、发送单元;其中,接收单元,用于接收客户端发送的语音信息和识别结果类型;识别单元,用于在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果;发送单元,用于将相似度由高到低排序的识别结果返回给客户端。
上述系统中,所述识别单元找到所述识别结果类型对应的语音分类词库具体包括依据识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识别结果类型对应的语音分类词库;或,依据预设的类型关联表,找到识别结果类型对应的相似结果类型,将相似结果类型对应的语音分类词库作为识别结果类型对应的语音分类词库。上述系统中,所述语音分类词库保存词组或字、类型信息、语音特征向量的对应关系;其中,所述类型信息表示语音分类词库中词组或字所属的类型。上述系统中,对所述语音分类词库进行更新具体包括对用户输入的关键字进行语义分析,依据分析结果将所述关键词添加到对应的语音分类词库。上述系统中,所述识别单元依据所述语音信息从找到的语音分类词库获取识别结果具体包括从所述语音信息中提取语音特征向量,将提取的语音特征向量与找到的语音分类词库中的语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果。由以上技术方案可以看出,本发明提供的具有以下有益效果识别结果类型代表用户对识别结果的需求,以用户需求为依据,对目前的语音识别方式进行优化,保证向用户提供的识别结果中排序最靠前的结果是最优结果,减少用户与服务器的频繁交互,提高服务器的语音识别率。
图I是本发明实现语音识别方法的优选实施例的流程示意图;图2是本发明实现语音识别系统的优选实施例的结构示意图。
具体实施方式
本发明的基本思想是接收客户端发送的语音信息和识别结果类型;在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果;将相似度由高到低排序的识别结果返回给客户端。为了使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明进行详细描述。本发明提供一种语音识别方法,图I是本发明实现语音识别方法的优选实施例的流程示意图,如图I所示,该优选实施例包括以下步骤
步骤101,客户端向服务器发送语音识别请求,其中携带用户输入的语音信息和识别结果类型。具体的,客户端接收用户在具有语音识别功能的应用中输入的语音信息和用户选出的识别结果类型,将该语音信息和识别结果类型通过语音识别请求发送给服务器;其中,所述服务器为具有语音识别功能的应用所对应的服务器,所述识别结果类型为当前应用下的范围最小的子类型,识别结果类型可以理解为用户当前所需要的语音识别结果的结果类型。例如,如果当前具有语音识别功能的应用为百度搜索,则百度搜索下包括的搜索类型为网页、视频、音乐、地图、新闻、图片、文库、百科、贴吧、知道等, 在百度搜索中用户可以依据需求选择任意一个搜索类型作为当前搜索类型;如果当前具有语音识别功能的应用为点菜应用,则点菜应用下包括的菜单类型为凉菜、热菜、主食、酒水等。步骤102,服务器在预设的一个以上语音分类词库中找到识别结果类型对应的语音分类词库。具体的,服务器在收到客户端的语音识别请求后,首先依据其中携带的识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识别结果类型对应的语音分类词库;如果没有找到识别结果类型对应的语音分类词库,则依据预设的类型关联表,判断识别结果类型是否有对应的相似结果类型,如果有对应的相似结果类型,则依据该相似结果类型在结果类型与语音分类词库的对应关系中,查找对应的语音分类词库,将找到的语音分类词库作为识别结果类型对应的语音分类词库;如果没有对应的相似结果类型,则查找默认的语音模型库,查找默认的语音模型库得到识别结果属于已有技术,这里不再赘述;这里,结果类型与语音分类词库的对应关系表和类型关联表可以由用户预先设置在服务器中,其中,类型关联表中的相似结果类型都是依据语音分类词库设置的,语音分类词库中的语音信息的类型就作为相似结果类型,这样,只要识别结果类型存在相似结果类型,就可以找到对应的语音分类词库。例如,用户使用的具有语音识别功能的应用为搜索应用,识别结果类型是景点类型,但是没有对应景点类型的语音分类词库,则依据类型关联表,确定景点类型的相似结果类型为地图类型,进而找到地图类型的语音分类词库作为景点类型的语音分类词库。 其中,所述语音分类词库由用户预先设置在服务器中,语音分类词库用于保存词组或字、类型信息、语音特征向量的对应关系;类型信息用于表示语音分类词库中词组或字所属的类型,例如,对于具有语音识别功能的搜索应用,浏阳为地名,属于地图类型,留洋属于焦点词组,属于网页类型;本优选实施例中,可以有一个以上语音分类词库,每个语音分类词库下仅包括一个类型的词组或字;该语音分类词库可以进行定时的人工更新或服务器自动更新;例如,服务器可以依据用户输入的关键字进行语义分析,依据分析结果将该关键词归为对应的语音分类词库中,以丰富语音分类词库中的词组或字。步骤103,服务器依据用户输入的语音信息在找到的语音分类词库中进行匹配,得到识别结果。具体的,服务器从用户输入的语音信息中提取语音特征向量,将提取的语音特征向量依次与找到的语音分类词库中的每个语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果;其中,具体提取几个识别结果可以依据需求进行配置;得到的一个以上识别结果依据相似度由高到低进行排序,得到识别结果序列。步骤104,服务器将相似度由高到低排序的识别结果返回给客户端。具体的,服务器将在语音分类词库中得到的识别结果以相似度由高到低的顺序进行排序,得到识别结果序列,将该识别结果序列返回给客户端。客户端对收到的识别结果进行显示,这里,客户端可以将识别结果序列中的第一个识别结果作为默认识别结果显示给用户,也可以依据相似度由高到低的顺序显示所有识别结果,由用户在所有识别结果中选择。 为实现上述方法,本发明还提供一种语音识别系统,该系统可设置于具有语音识别功能的应用的服务器中,图2是本发明实现语音识别系统的优选实施例的结构示意图,如图2所示,该系统包括接收单元20、识别单元21、发送单元22 ;其中,接收单元20,用于接收客户端发送的语音信息和识别结果类型;识别单元21,用于在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果;发送单元22,用于将相似度由高到低排序的识别结果返回给客户端。其中,所述识别单元21找到所述识别结果类型对应的语音分类词库具体包括依据识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识别结果对应的语音分类词库;或,依据预设的类型关联表,找到识别结果类型对应的相似结果类型,将相似结果类型对应的语音分类词库作为识别结果类型对应的语音分类词库。其中,所述语音分类词库保存词组或字、类型信息、语音特征向量的对应关系;其中,所述类型信息表示语音分类词库中词组或字所属的类型。对所述语音分类词库进行更新具体包括对用户输入的关键字进行语义分析,依据分析结果将所述关键词添加到对应的语音分类词库。其中,所述识别单元21依据所述语音信息从找到的语音分类词库获取识别结果具体包括从所述语音信息中提取语音特征向量,将提取的语音特征向量与找到的语音分类词库中的语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果。上述技术方案中,优先依据用户选出的识别结果类型确定识别结果的范围,在确定的范围中查找与输入的语音信息相匹配的识别结果,例如,对于搜索应用,用户输入的语音为Iiu yang,如果识别结果类型为地图类型,那么服务器返回的识别结果中排中的第一个识别结果为浏阳,如果识别结果类型是网页类型,那么服务器返回的识别结果中的第一个识别结果是留洋;因此,本发明的上述优选实施例中,识别结果类型可以代表用户的对识别结果的需求,因此以用户需求为依据,对目前的语音识别方式进行优化,保证向用户提供的识别结果中排序最靠前的结果是最优结果,减少用户与服务器的频繁交互,提高服务器的语音识别率,带来良好的用户体验。以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明保护的范围之内。
权利要求
1.一种语音识别方法,其特征在于,该方法包括 接收客户端发送的语音信息和识别结果类型; 在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果; 将相似度由高到低排序的识别结果返回给客户端。
2.根据权利要求I所述的方法,其特征在于,找到所述识别结果类型对应的语音分类词库的方法为 依据识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识 别结果类型对应的语音分类词库; 或,依据预设的类型关联表,找到识别结果类型对应的相似结果类型,将相似结果类型对应的语音分类词库作为识别结果类型对应的语音分类词库。
3.根据权利要求I所述的方法,其特征在于, 所述语音分类词库保存词组或字、类型信息、语音特征向量的对应关系;其中,所述类型信息表示语音分类词库中词组或字所属的类型。
4.根据权利要求3所述的方法,其特征在于,对所述语音分类词库进行更新的方法为对用户输入的关键字进行语义分析,依据分析结果将所述关键词添加到对应的语音分类词库。
5.根据权利要求I所述的方法,其特征在于,所述依据所述语音信息从找到的语音分类词库获取识别结果具体包括 从所述语音信息中提取语音特征向量,将提取的语音特征向量与找到的语音分类词库中的语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果。
6.一种语音识别系统,其特征在于,该系统包括接收单元、识别单元、发送单元;其中, 接收单元,用于接收客户端发送的语音信息和识别结果类型; 识别单元,用于在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果; 发送单元,用于将相似度由高到低排序的识别结果返回给客户端。
7.根据权利要求6所述的系统,其特征在于,所述识别单元找到所述识别结果类型对应的语音分类词库具体包括 依据识别结果类型,在本地预设的结果类型与语音分类词库的对应关系表中,找到识别结果类型对应的语音分类词库; 或,依据预设的类型关联表,找到识别结果类型对应的相似结果类型,将相似结果类型对应的语音分类词库作为识别结果类型对应的语音分类词库。
8.根据权利要求6所述的系统,其特征在于, 所述语音分类词库保存词组或字、类型信息、语音特征向量的对应关系;其中,所述类型信息表示语音分类词库中词组或字所属的类型。
9.根据权利要求8所述的系统,其特征在于,对所述语音分类词库进行更新具体包括对用户输入的关键字进行语义分析,依据分析结果将所述关键词添加到对应的语音分类词库。
10.根据权利要求6所述的系统,其特征在于,所述识别单元依据所述语音信息从找到的语音分类词库获取识别结果具体包括 从所述语音信息中提取语音特征向量,将提取的语音特征向量与找到的语音分类词库中的语音特征向量进行相似度比较,将相似度排名靠前的语音特征向量对应的词组或字作为识别结果。
全文摘要
本发明提供了一种语音识别方法,包括接收客户端发送的语音信息和识别结果类型;在预设的一个以上语音分类词库中找到所述识别结果类型对应的语音分类词库,并依据所述语音信息从找到的语音分类词库获取识别结果;将相似度由高到低排序的识别结果返回给客户端;本发明还提供一种语音识别系统。根据本发明提供的技术方案,能够提高具有语音识别功能的应用的语音识别率。
文档编号G10L15/02GK102968987SQ201210469518
公开日2013年3月13日 申请日期2012年11月19日 优先权日2012年11月19日
发明者刘俊启 申请人:百度在线网络技术(北京)有限公司
一种语音识别方法及系统的制作方法
相关推荐
专利名称:一种异形lcd灌晶辅助治具的制作方法技术领域:本实用新型涉及一种辅助治具,特别涉及一种异形LCD灌晶辅助治具。背景技术:近年来,液晶显示器由于其功耗低被动显示、易于驱动、不含有害射线等优点而被广范使用。人们对液晶显示器的需求量也越
专利名称:分体式机芯的制作方法技术领域:本实用新型涉及一种音乐盒发条式机芯中的重要、关键部件分体式机芯。 背景技术:现有机芯的底座均为整体型,多由锌铝合金或铝合金压铸而成,底座的结构 复杂、精度要求高,重量重、制造成本高,在制造、使用过程中
专利名称:情感语音合成方法和装置的制作方法技术领域:本发明涉及信息处理技术,具体地涉及语音合成技术,更具体地涉及不依赖于说 话人的情感语音合成技术。背景技术:目前,绝大多数基于大型语音库的语音合成系统都是建立在中立朗读方式的语音 之上。对于
背光模块的制作方法【专利摘要】本发明涉及一种背光模块,其包括一光学基板及多个点光源。该光学基板具有至少一微结构,该微结构具有一第一侧面及一第二侧面。所述点光源的分布的区域包括一第一分布区域及一第二分布区域,该第一分布区域对应该第一侧面,该第
专利名称:可携式电脑装置的制作方法技术领域:本实用新型是有关于一种可携式电脑装置,且特别是有关于一种具有键盘照明装置的可携式电脑装置。背景技术:一般而言,桌上型电脑大多设置在环境光充足的地方,或以桌灯辅佐照明,而可携式电脑虽具有可随身携带的
专利名称:摄像声音提取方法及装置的制作方法技术领域:本发明涉及通信技术领域,特别涉及一种摄像声音提取方法及装置。背景技术:随着音频技术的发展,人们对音乐品质的要求也越来越高。现有的音频技术主要包括单声道、双声道立体声和声道环绕声。其中,单声