信息处理方法及电子设备的制作方法
【专利摘要】本发明涉及一种信息处理方法及电子设备,该方法应用于电子设备,所述电子设备包括声音采集单元、语音识别单元和识别单元,该方法包括:通过所述识别单元获得预定范围内的采集信息,对所述采集信息进行识别以确定所述预定范围内是否包含目标对象;当所述预定范围内包含所述目标对象时,启动语音识别单元以及声音采集单元;通过所述声音采集单元采集语音数据;通过所述语音识别单元识别所述目标对象的语音数据。本发明信息处理方法及电子设备可以增强多人场景下语音识别效果,提高用户使用体验。
【专利说明】信息处理方法及电子设备
【技术领域】
[0001] 本发明涉及一种信息处理技术,尤其涉及一种信息处理方法及电子设备。
【背景技术】
[0002] 目前智能电子设备,承载的内容原来原多,目前主要通过遥控器实现控制的方式, 但遥控器功能越做越多,使用越来越复杂,开机后用户通过传统的交互方式不容易找到其 想要内容,且学习成本高,电视交互易用性变差。
[0003] 采用语音控制是电子设备控制方式发展的主要趋势,但目前的语音控制方式在多 人场合下,尤其是多人说话时,采集的语音数据比较混乱,很难达到较好的语音识别效果, 进而导致无法有效地实现语音控制。
【发明内容】
[0004] 本发明所要解决的技术问题是提供一种信息处理方法及电子设备,以解决多人场 景下语音识别效果差的问题。
[0005] 为了解决上述技术问题,本发明提供了一种信息处理方法,该方法应用于电子设 备,所述电子设备包括声音采集单元、语音识别单元和识别单元,该方法包括:
[0006] 通过所述识别单元获得预定范围内的采集信息,对所述采集信息进行识别以确定 所述预定范围内是否包含目标对象;
[0007] 当所述预定范围内包含所述目标对象时,启动语音识别单元以及声音采集单元;
[0008] 通过所述声音采集单元采集语音数据;通过所述语音识别单元识别所述目标对象 的语音数据。
[0009] 进一步地,控制所述声音采集单元包括调整所述声音采集单元的拾音区位置,使 调整后的拾音区位置与所述目标对象的位置对应。
[0010] 进一步地,在所述预定范围内,所述目标对象的位置不同,所述声音采集单元的采 集朝向不同。
[0011] 进一步地,所述声音采集单元仅采集目标对象的语音数据,或所述声音采集单元 采集语音数据后删除非目标对象的语音数据,或所述语音识别单元仅识别目标对象的语音 数据。
[0012] 进一步地,在预定时间内,没有采集到语音数据或未完成语音识别时,关闭所述语 音识别单元和所述声音采集单元。
[0013] 可选地,所述识别单元利用摄像头采集图像信息,所述图像信息中包含多个对象, 对所述采集信息进行识别以确定所述预定范围内是否包含目标对象包括:
[0014] 识别预定手势;
[0015] 从所述多个对象中确定执行该手势的对象为目标对象。
[0016] 为解决上述技术问题,本发明还提供了一种电子设备,所述电子设备包括:
[0017] 识别单元,用于获得预定范围内的采集信息,并对所述采集信息进行识别以确定 所述预定范围内是否包含目标对象;
[0018] 控制单元,当所述预定范围内包含所述目标对象时,用于启动语音识别单元以及 声音采集单元;
[0019] 声音采集单元,用于采集语音;
[0020] 声音识别单元,用于识别所述目标对象的语音数据。
[0021] 进一步地,所述控制单元还用于控制所述声音采集单元的拾音区位置,使调整后 的拾音区位置与所述目标对象的位置对应。
[0022] 进一步地,在所述预定范围内,所述目标对象的位置不同,所述声音采集单元的采 集朝向不同。
[0023] 进一步地,所述声音采集单元仅采集目标对象的语音数据,或所述声音采集单元 采集语音数据后删除非目标对象的语音数据,或所述语音识别单元仅识别目标对象的语音 数据。
[0024] 进一步地,在预定时间内,没有采集到语音数据或未完成语音识别时,所述控制单 元,还用于关闭所述语音识别单元和所述声音采集单元。
[0025] 进一步地,所述识别单元包括:
[0026] 摄像头,用于采集图像信息,所述图像信息中包含多个对象,
[0027] 手势识别模块,用于识别预定手势;
[0028] 目标对象确定模块,用于从所述多个对象中确定执行该手势的对象为目标对象。
[0029] 与现有技术相比,本申请信息处理方法和电子设备可以很准确地识别目标对象, 尤其在多人场合下,增强了对目标对象的语音识别效果,更准确地实现对电子设备控制, 从而排除了除目标对象以外的其他对象对电子设备控制的影响,简化了电子设备的控制方 法,提高了用户的使用体验提供了一种更便捷的人机交互方式。
[0030] 本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变 得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在说明书、权利 要求书以及附图中所特别指出的结构来实现和获得。
【专利附图】
【附图说明】
[0031] 图1是本发明信息处理方法实施例1的示意图;
[0032] 图2是本发明信息处理方法实施例1的示意图;
[0033] 图3、4是本发明电子设备实施例的模块结构示意图;
[0034] 图5是本发明应用实例的示意图。
[0035] 附图用来提供对本发明技术方案的进一步理解,并且构成说明书的一部分,与本 申请的实施例一起用于解释本发明的技术方案,并不构成对本发明技术方案的限制。
【具体实施方式】
[0036] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合附图和具体实施例 对本发明所述技术方案作进一步的详细描述,以使本领域的技术人员可以更好的理解本发 明并能予以实施,但所举实施例不作为对本发明的限定。需要说明的是,在不冲突的情况 下,本申请中的实施例及实施例中的特征可以相互组合。
[0037] 实施例1
[0038] 本发明信息处理方法应用于电子设备,所述电子设备包括所述电子设备包括声音 采集单元、语音识别单元和识别单元,如图1所示,该方法包括:
[0039] 步骤101 :通过所述识别单元获得预定范围内的采集信息,对所述采集信息进行 识别以确定所述预定范围内是否包含目标对象;
[0040] 具体地,该实施例中,利用手势、特定形体作为识别目标对象的依据,所述识别单 元利用双摄像头采集图像信息,当然所述识别单元利用单摄像头采集图像信息,所述图像 信息中包含多个对象,对所述采集信息进行识别以确定所述预定范围内是否包含目标对象 包括:
[0041] 识别预定手势、形体,这里所说的手势、形体可以是静态的,也可以是动态的,比如 单手左右摆动或双手左右摆动;
[0042] 从所述多个对象中确定执行该手势或形体的对象为目标对象。
[0043] 步骤102 :当所述预定范围内包含所述目标对象时,启动语音识别单元以及所述 声音采集单元;
[0044] 在没启动前,所述语音识别单元和声音采集单元不工作。
[0045] 步骤103 :通过所述声音采集单元采集语音数据,通过所述语音识别单元识别所 述目标对象的语音数据。
[0046] 可选地,该声音采集单元可以为麦克或麦克阵列。
[0047] 麦克阵列,是将多个麦克按照预先设计的拓扑结果组成一个阵列,通过对采集到 的多径信号进行空时分集处理,可对不同方向上的信号形成不同响应,实现阵列的空间指 向特性,在一定程度上弥补独立麦克无法获取和利用空间信息的缺陷。
[0048] 该实施例中,该麦克阵列可调整,则调整所述声音采集单元的拾音区位置与所述 目标对象的位置对应后,采集目标对象的语音数据。
[0049] 可理解地,在所述预定范围内,所述目标对象的位置不同,所述声音采集单元的采 集朝向不同。
[0050] 除了调整麦克阵列的采集朝向,也即拾音方向外,还可以调整拾音有效距离或拾 音角度等拾音角参数或拾音方向中的一个或多个,调整声音采集单元的拾音参数的目的, 是为了使得第一目标信息所处的位置位于声音采集单元的拾音区的中心,从而可以增强对 位于该位置的操作者(声源)的语音的拾音效果。
[0051] 目标对象的位置可基于双摄像头的采集结果进行确定,该方法为现有技术,在此 不再赘述。目标对象的位置也同样可以基于单摄像头的采集结果进行确定。
[0052] 上述信息处理方法实施例1主要根据采集信息来确定目标对象,也即确定电子设 备的启动对象,进而识别目标对象的语音数据,使得可根据目标对象的语音数据对电子设 备的语音控制,从而排除了除目标对象以外的其他对象对电子设备控制的影响,简化了电 子设备的控制方法,提高了用户的使用体验。
[0053] 实施例2
[0054] 本发明信息处理方法应用于电子设备,所述电子设备包括所述电子设备包括声音 采集单元、语音识别单元和识别单元,如图2所示,该方法包括:
[0055] 步骤201 :通过所述识别单元获得预定范围内的采集信息,对所述采集信息进行 识别以确定所述预定范围内是否包含目标对象;
[0056] 该实施例中,可利用人脸或对象的其他标识作为识别目标对象的依据;
[0057] 利用人脸作为识别目标对象的依据时,所述识别单元利用双摄像头或者单摄像头 采集图像信息,所述图像信息中包含多个对象,对所述采集信息进行识别已确定所述预定 范围内是否包含目标对象包括:
[0058] 获取采集的多个对象的人脸;
[0059] 将采集的多个对象的人脸与预置的目标对象的人脸逐一进行匹配;
[0060] 将人脸匹配成功的对象确定为目标对象。
[0061] 利用其他标识作为识别目标对象的依据时,所述识别单元利用双摄像头或者单摄 像头采集图像信息,所述图像信息中包含多个对象,对所述采集信息进行识别已确定所述 预定范围内是否包含目标对象包括:
[0062] 逐一确定各个对象是否具备预置标识;
[0063] 将具有预置标识的对象确定为目标对象。
[0064] 可理解地,以人脸或标识作为确定目标对象的依据,具有目标对象的预置性,不便 于灵活改变具有控制权的目标对象,而以特定手势或形体作为确定目标对象的依据时,则 在具有多个对象时,只要执行该特定手势或形体的对象即可作为目标对象获得控制权。 [0065] 步骤202 :当所述预定范围内包含所述目标对象时,启动语音识别单元以及所述 声音采集单元;
[0066] 步骤203 :通过所述声音采集单元采集语音数据,通过所述语音识别单元识别所 述目标对象的语音数据;
[0067] 该实施例中,声音采集单元位置固定,若只有目标对象发声则仅采集到目标对象 的语音数据,该实现方式比较简单明确,在此不再赘述;若有除目标对象在内的多个对象发 声,则为了达到识别目标对象的语音数据的目的可采用以下任一种方式:
[0068] 方式一、采集包括目标对象的语音数据在内的多个语音数据,识别单元根据对象 的口型变化,确定源于目标对象的第一语音数据以及非目标对象的第二语音数据(这里所 说的第二语音数据可是多个语音数据),保留第一语音数据或仅识别目标对象的第一语音 数据;
[0069] 方式二、采集包括目标对象的语音数据在内的多个语音数据,将采集的多个语音 数据与预置的声纹进行匹配;仅保留或识别与预置声纹具有相同特征的第一语音数据;
[0070] 方式三,仅采集与预置的声纹具有相同特征的第一语音数据,将其他语音数据作 为噪声进行消除。
[0071] 步骤204 :在预定时间内,没有采集到语音数据或未完成语音识别时,关闭所述语 音识别单元和所述声音采集单元。
[0072] 如上文所述,以特定手势或形体作为确定目标对象的依据时,在具有多个对象时, 只要执行该特定手势或形体的对象即可作为目标对象获得控制权。预定时间内,没有采集 到语音数据或未完成语音识别时,关闭所述语音识别单元和所述声音采集单元,不仅可以 节省功耗,还可以为更换目标对象打下基础,在采用特定手势或形体时,只要新的对象执行 该特定手势,即可被识别为新的目标对象,或只要重置预定声纹、人脸即可更新目标对象。
[0073] 上述信息处理方法实施例2主要根据采集信息来确定目标对象,也即确定电子设 备的启动对象,进而识别目标对象的语音数据,使得可根据目标对象的语音数据对电子设 备的语音控制,从而排除了除目标对象以外的其他对象对电子设备控制的影响,简化了电 子设备的控制方法,提高了用户的使用体验提供了一种更便捷的人机交互方式。
[0074] 相对于现有技术,尤本发明信息处理方法可以很准确地识别目标对象语音识别效 果,尤其在多人场合下,增强对目标对象的语音识别效果,更准确地实现对电子设备控制
[0075] 在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中 执行。并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺 序执行所示出或描述的步骤。
[0076] 为了实现上述方法,本发明还提供了一种电子设备,如图3所示,所述电子设备包 括:
[0077] 识别单元,用于获得预定范围内的采集信息,并对所述采集信息进行识别以确定 所述预定范围内是否包含目标对象;
[0078] 控制单元,当所述预定范围内包含所述目标对象时,用于启动语音识别单元以及 声音采集单元;
[0079] 声音采集单元,用于采集语音;
[0080] 声音识别单元,用于识别所述目标对象的语音数据。
[0081] 声音采集单元可位置可调整时,所述控制单元还用于控制所述声音采集单元的拾 音区位置,使调整后的拾音区位置与所述目标对象的位置对应。
[0082] 具体地,在所述预定范围内,所述目标对象的位置不同,所述声音采集单元的采集 朝向不同。
[0083] 如前文所述,为了实现对目标对象的语音数据的识别,可有至少以下三种方式, 艮P,所述声音采集单元仅采集目标对象的语音数据,或所述声音采集单元采集语音数据后 删除非目标对象的语音数据,或所述语音识别单元仅识别目标对象的语音数据。
[0084] 对应于方法实施例2,在预定时间内,没有采集到语音数据或未完成语音识别时, 所述控制单元,还用于关闭所述语音识别单元和所述声音采集单元。
[0085] 可选地,如图4所示,所述识别单元包括:
[0086] 双摄像头,用于采集图像信息,所述图像信息中包含多个对象,
[0087] 手势识别模块,用于识别预定手势或形体;
[0088] 目标对象确定模块,用于从所述多个对象中确定执行该手势或形体的对象为目标 对象。
[0089] 应用实例
[0090] 电视是目前家庭最广泛使用的信息获取工具之一,随着信息化技术和网络的普 及,电视迅速成为家庭只能信息终端,其主句具备了上网、U盘操作、信息处理等功能。但电 视在人机交互方面仍处在传统的按键式红外遥控方式的阶段,无法满足信息化带来的新的 人机交互要求,一种更自然、更智能化的人机交互方式成为目前电视房展的迫切需求,也成 为电视操作领域研究的一个热点。
[0091]目前智能TV设备,承载的内容原来原多,开机后用户通过传统的交互方式不容易 找到其想要内容。且遥控器功能越做越大,使用越来越复杂。导致学习成本高且电视交互 易用性变差。
[0092] 应用本发明方案,在现有电视上增设双摄像头或者单摄像头和识别器(实现上文 中识别单元的功能)、处理器(实现上文中的控制单元的功能)、语音识别器(实现上文中的 语音识别单元的功能)、麦克阵列(具有原音消除和声音增强功能的定向麦克,实现上文中 的声音采集单元的功能)等,即可以提供使用体验较好的人机交互方式,并实现对电视的控 制,如图5所示意。
[0093] 具体的识别手势可以定义,双摄像头和麦克阵列位置无特别要求,位置固定即可。 [0094] 该应用实例中的控制流程大致如下:
[0095] 1、电视启动手势、语音监听服务;
[0096] 在具体实现时,处理器还可基于用户的激活手势唤醒电视的交互服务。
[0097] 2、用户发出激活手势(即预定手势);
[0098] 3、双摄像头采集并输出视频流给识别器,识别器分析视频流,识别出用户激活手 势确定目标对象,处理器根据双摄像头的位置和成像距离,计算用户位置和设备中心线的 夹角;
[0099] 4、处理器调整麦克阵列主声源方向,根据该夹角,麦克阵列可以对该方向的用户 语音进行增强,其他方向的音频源进行弱化处理;
[0100] 5、用户输入手势或语音;
[0101] 6、麦克阵列接受用户的语音输入,语音识别器和手势识别器对用户的输入意图进 行分析,处理器控制电视执行相应的动作。
[0102] 以上应用实例中,通过简单手势启动电视,通过更为自然的手势和语音操作电视 的常见功能,还可以通过语音识别将深层次功能拉平,使交互更为自然简洁。使得在多人场 景下,根据用户A手势启动语音采集和识别并只针对启动语音的用户A进行采集和识别。在 预定时间内该启动语音的用户A不再具有语音输入时关闭语音采集和识别。换句话,本发 明的实施了所提供的电子设备仅仅响应启动语音采集和识别的用户所发出的语音指令,在 该场景下的其他用户的语音质量不予响应。本领域的技术人员应该明白,上述的本申请实 施例所提供的装置和/或系统的各组成部分,以及方法中的全部或部分步骤可通过程序来 指令相关硬件完成,所述程序可以存储于计算机可读存储介质中,如只读存储器、磁盘或光 盘等。它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上。可 选地,它们可以用计算装置可执行的程序代码来实现。从而,可以将它们存储在存储装置中 由计算装置来执行,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块 或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结 合。
[0103] 本发明实施例中所描述的各种单元、模块仅是根据其功能进行划分的一种示例, 可理解地,在系统/装置/设备实现相同功能的情况下,本领域技术人员可给出一种或多种 其他功能划分方式,在具体应用时可将其中任意一个或多个功能模块采用一个功能实体装 置或单元实现,不可否认地,以上变换方式均在本申请保护范围之内。
[0104] 虽然本发明所揭露的实施方式如上,但所述的内容仅为便于理解本发明而采用的 实施方式,并非用以限定本发明。任何本发明所属领域内的技术人员,在不脱离本发明所揭 露的精神和范围的前提下,可以在实施的形式及细节上进行任何的修改与变化,但本发明 的专利保护范围,仍须以所附的权利要求书所界定的范围为准。
【权利要求】
1. 一种信息处理方法,该方法应用于电子设备,其特征在于,所述电子设备包括声音米 集单元、语音识别单元和识别单元,该方法包括: 通过所述识别单元获得预定范围内的采集信息,对所述采集信息进行识别以确定所述 预定范围内是否包含目标对象; 当所述预定范围内包含所述目标对象时,启动语音识别单元以及声音采集单元; 通过所述声音采集单元采集语音数据;通过所述语音识别单元识别所述目标对象的语 音数据。
2. 如权利要求1所述的方法,其特征在于,控制所述声音采集单元包括调整所述声音 采集单元的拾音区位置,使调整后的拾音区位置与所述目标对象的位置对应。
3. 如权利要求2所述的方法,其特征在于,在所述预定范围内,所述目标对象的位置不 同,所述声音采集单元的采集朝向不同。
4. 如权利要求1所述的方法,其特征在于:所述声音采集单元仅采集目标对象的语音 数据,或所述声音采集单元采集语音数据后删除非目标对象的语音数据,或所述语音识别 单元仅识别目标对象的语音数据。
5. 如权利要求1所述的方法,其特征在于:在预定时间内,没有采集到语音数据或未完 成语音识别时,关闭所述语音识别单元和所述声音采集单元。
6. 如权利要求1所述的方法,其特征在于:所述识别单元利用摄像头采集图像信息,所 述图像信息中包含多个对象,对所述采集信息进行识别以确定所述预定范围内是否包含目 标对象包括: 识别预定手势; 从所述多个对象中确定执行该手势的对象为目标对象。
7. -种电子设备,其特征在于,所述电子设备包括: 识别单元,用于获得预定范围内的采集信息,并对所述采集信息进行识别以确定所述 预定范围内是否包含目标对象; 控制单元,当所述预定范围内包含所述目标对象时,用于启动语音识别单元以及声音 采集单元; 声音采集单元,用于采集语音; 声音识别单元,用于识别所述目标对象的语音数据。
8. 如权利要求7所述的电子设备,其特征在于:所述控制单元还用于控制所述声音采 集单元的拾音区位置,使调整后的拾音区位置与所述目标对象的位置对应。
9. 如权利要求8所述的电子设备,其特征在于,在所述预定范围内,所述目标对象的位 置不同,所述声音采集单元的采集朝向不同。
10. 如权利要求7所述的电子设备,其特征在于:所述声音采集单元仅采集目标对象的 语音数据,或所述声音采集单元采集语音数据后删除非目标对象的语音数据,或所述语音 识别单元仅识别目标对象的语音数据。
11. 如权利要求7所述的电子设备,其特征在于:在预定时间内,没有采集到语音数据 或未完成语音识别时,所述控制单元,还用于关闭所述语音识别单元和所述声音采集单元。
12. 如权利要求7所述的电子设备,其特征在于:所述识别单元包括: 摄像头,用于采集图像信息,所述图像信息中包含多个对象, 手势识别模块,用于识别预定手势; 目标对象确定模块,用于从所述多个对象中确定执行该手势的对象为目标对象。
【文档编号】G10L15/26GK104049721SQ201310076616
【公开日】2014年9月17日 申请日期:2013年3月11日 优先权日:2013年3月11日
【发明者】赵一方, 陆游龙 申请人:联想(北京)有限公司
信息处理方法及电子设备的制作方法
相关推荐
专利名称:超薄型led灯条的制作方法技术领域:本实用新型涉及一种灯条,尤其是一种超薄型LED灯条,属于LED显示技术领域。背景技术:LED幕墙显示屏已经广泛应用于楼宇外墙、橱窗等多种场合。由于市场需要,透光性已成为选择LED幕墙显示屏的重要
专利名称:一种吉他指法器的制作方法技术领域:本实用新型涉及一种吉他附属装置,具体涉及一种将吉他和弦指法转化为按键的吉他指法器。背景技术:吉他是在世界范围内非常流行的乐器,在弹奏时,经常需要弹奏和弦。但是,和弦谱上的指法从A到G接近三百六十种
专利名称:背光模组的制作方法技术领域:背光模组技术领域[0001]本实用新型特别涉及到一种背光模组。背景技术:[0002]液晶显示装置(Liquid Crystal Display,简称LCD)是目前常用的显示器,尤其是 薄膜晶体管液晶显示
专利名称:可提高打印质量的打印设备的制作方法技术领域:本发明涉及一种打印设备,尤其是指运用于文件输出设备之中,可以使文件输出时呈现高质量的打印效果。背景技术: 打印机是目前与计算机联机的输出设备中最常见的设备之一。一般是以普通纸作为载体,并
专利名称:熔融光纤光学器件系统的制作方法技术领域:本发明涉及熔融光纤光学器件系统。背景技术: 光纤用于传导光线通过细丝状光学材料或纤维。这些纤维通常包括纤芯以及沿纤维整个长度方向的外部围绕的包层。光线通过纤维的传导是基于全内反射现象。对于全
专利名称:嵌入式操作系统的多媒体投影仪的制作方法技术领域:本发明属于光学投影仪技术领域,特别涉及一种嵌入式操作系统的多媒体投影 仪。背景技术:目前投影仪已经广泛的应用到了家庭娱乐、教育教学、商务办公等领域。传统的投 影仪功能单一、接口单一,