当前位置:网站首页>专利 >正文

与遥控装置有关的声音识别方法与装置的制作方法

专利名称:与遥控装置有关的声音识别方法与装置的制作方法
技术领域
本发明涉及可以预先准备触发某种识别阶段的声音识别装置。本发明还涉及实现触发的装置,特别是实现遥控触发的装置。本发明特别适用于电视领域。
典型的声音识别系统一方面包括结合有用于获取并处理代表待识别的声音数据的音频信号的装置的音频处理器;另一方面包括语言解码器,该语言解码器包括声音识别引擎本身。根据音频处理器预处理的音频信号,该引擎利用声音模型和语言模型进行识别。
特别是,对于基于语法的语言模型,只有在不接收音频信号的预定时间终止后,识别引擎才开始对语句进行分析。这样就可以认为系统演讲者已结束播出语句。
根据设想的应用,时间的选择变成光玉髓。如果选择时间过长,就会减少在处理语句方面的延迟。如果选择时间过短,则用户在说话发声期间的暂停可能会在说话发声结束前触发处理过程。例如,在他开始他的句子的同时,当讲话者意识到显示在屏幕上的数据是对应于先前的行为时,将出现犹豫。
为了避免不适时触发暂停之后的处理过程,可以设想加大预定时间长度,该时间长度可以超过5秒或6秒。在这里所设想的应用中,在这种情况下,电视接收机及其相关应用的声音控制,时间数量级与用户的期望时间相矛盾。
本发明涉及声音识别装置,其特征在于包括·获取电路,用于获取包括用户发出的声音数据的信号;·检测装置,用于检测由用户干预产生的声音数据信号;·分析装置,用于分析可以随声音数据信号终止符调节分析进度的声音数据。
因此,通过表明用户已经结束读文本,用户可以直接干预分析。
根据特定实施例,基于接收到的声音数据信号的终止符,分析声音数据的分析装置结束对先前存储的声音数据进行分析。
根据特定实施例,基于接收到声音数据信号的终止符,分析装置完成维特比算法,并且为了确定一个或多个可靠响应声音数据的字序列而开始通过过去的状态进行追溯。
根据特定实施例,数据信号的终止符是通过用户手控激活信号发生装置产生的。
根据特定实施例,数据信号终止符发生装置包括遥控开关。
根据特定实施例,通过无线传输接收包括声音数据的信号。
本发明还涉及遥控装置,该遥控装置包括用于产生包括声音数据的信号的麦克风和用于发送包括声音数据的信号的电路,其特征在于,进一步包括用于产生并发送声音数据信号终止符的用户控制装置。
根据特定实施例,声音数据信号终止符产生装置包括用户控制开关。
根据特定实施例,可以以这样的方式设置用户控制开关以致可以控制电路运行来实现发送包括声音数据的信号。
根据特定实施例,声音数据信号终止符包括从包括声音数据的信号的载波的存在到载波的不存在的转换。
本发明还涉及声音识别方法,其中包括步骤·获取包括声音数据的信号;·为了搜索代表获取的信号的字或字序列,分析获取的信号,分析方法包括几个连续阶段;·基于接收到的用户触发的声音数据信号终止符,对至少一个阶段的超前进行调节。
根据特定实施例,分析获取信号的步骤包括并行确定代表获取信号的多个字或候选字序列的阶段,以及从候选字中选择字或字序列的阶段。
通过对特定非限制性典型实施例进行说明,本发明的其它特征和优点会变得更明显。现在,将结合


此实例,其中图1示出实现声音识别子系统的电视接收系统的示意图;图2示出根据本发明的典型实现过程的流程图1所示的系统包括遥控器1和电视接收机2。
遥控器1包括已知方式的按钮小键盘10;微处理器11,配置成接收小键盘10发出的信号;以及电路12,用于利用红外波进行模拟调制和传输以发送到电视机2。
遥控器1进一步包括连接到射频调制电路14的麦克风13。射频电路14被连接到天线15以将射频信号发送到电视机2。由微处理器对调制电路14和麦克风13进行控制。
遥控器上还设置了开关16,开关16与微处理器11相连。
遥控器的红外通路常规地操作。射频通路的操作过程如下当用户操纵开关16时,微处理器11适当控制调制电路和麦克风以对用户声音信号进行处理并通过天线15发送。未操纵开关16时,为了减少耗电,切断对射频通路的所有装置的供电。
因此,只在操纵开关时,才将射频信号发送到电视机。
在1998年4月17日汤姆森多媒体的申请号为FR9804547的法国专利申请并在1999年10月22日以FR2777681号公报的专利中公开了类似的遥控器。
遥控器的原则就是简单地获取音频信号并以模拟形式将它发送到电视机。在本实例范围内,为了限制其耗电,将需要遥控器完成的处理过程减少到最少。
电视接收机2包括用于接收遥控器天线发送的信号的天线20以及红外接收电路21。天线20连接到调谐与解调电路22。将解调信号发送到音频处理器23,音频处理器23包括获取电路24和语音解码器25。获取电路由模数转换器(未示出)实现以对频率为22KHz的基带音频信号进行采样。
语音解码器将数字采样编译为预定字母表中的声音符号。
语言解码器26为了对A符号序列确定最可能的已知A序列字的W序列而对这些符号进行处理。语言解码器26包括采用了声音模型28和语言模型29的识别引擎27。例如,语音模型即所谓“内藏马尔可夫模型”(HMM),它以本来已知的方式计算相关字序列的声音等级。在本典型实施例中实现的语言模型以借助于巴科斯-诺尔范式句法规则所描述的语法为基础。语言模型用于确定多个字序列假定并计算语言等级。
识别引擎基于维特比算法即"n-best"算法。在句子分析的各步骤,"n-best"算法确定最具可能的n个字序列。根据声音模型和语言模型所提供的等级,在句子的末尾,最可能的解决方案是从n个候选字中选择。
电视接收机进一步包括微处理器30、随机存取存储器31以及只读存储器32,它们均连接到内部总线33。尽管音频处理器和语言解码器出现在图1所示的不同电路中,但是,至少语音解码器和语言解码器可以以软件的形式实现,并将该软件存储到只读存储器32而且微处理器30可以执行该软件。
电视接收机还包括屏幕显示电路("OSD")34,屏幕显示电路可以产生代表用于控制接收机的菜单、文本和/或图形的视频信号。屏幕显示电路34还受电子节目导视应用程序的控制,导视应用程序由微处理器30执行。适当时,屏幕显示电路34产生的信号将部分或全部代替由处理从天线接收的视频信号的电路(未示出)产生的信号。配置了适当偏转电路的阴极射线管(未示出)可以使它显示视频信号。
这里不对识别引擎的操作方式做更具体的说明。如上所述,识别引擎利用维特比算法(n-best算法)来分析由声音符号序列(向量)组成的句子。如果当前符号之前所观察到的声音符号的A序列已知,该算法确定最具可能的N个字序列。通过随机文法语言模型,确定最具可能的字序列。结合基于HMM(内藏马尔可夫模型)的文法终端单元声音模型,产生全局内藏马尔可夫模型用于应用程序。该应用程序包括语言模型以及例如终端单元之间的协同发音。并行进行维特比算法,而不是在反复说i期间保持单独变迁到各种状态,对各状态保持N个最具可能的变迁。
在下列著作中说明了与维特比有关的信息、波束搜索以及"n-best"算法“语言识别的统计学方法”,作者Frederick Jelinek,MIT出版社,1999 ISBN 0-262-10066-5,在第2章和第5章进行了详细说明。
对与句子有关的声音符号集处理后,识别引擎就停止分析。识别引擎具有格子结构,该格子结构包括算法的先前的各迭代状态和在最后状态出现前这些状态之前的变迁。归根结底,在终态与其N个相关变迁之间,保留N个最具可能的变迁。通过从终态中自动记录变迁,确定与声音符号对应的N个最具可能的字序列。然后,为了根据语法原则选择最佳终序列,利用语法分析器对这些序列进行处理。
根据本典型实施例,假定扬声器释放遥控器的开关16后立即接收在开始自动记录之前待分析的最后一个符号。此后,遥控器不再发射射频载波信号。调谐电路22以公知的方法检测到没有载波信号,调谐通路22通过进行适当中断通知接收机中的微处理器。识别引擎结束基于所接收的声音符号的分析并提供能够利用最具可能的字序列来控制节目导视的应用程序。
这使得可以考虑预先准备的用户信号来结束正在进行的语句的分析。因此,音频信号和语句信息结束标号无关。
根据变化的实施例,当下列事件中的第一个事件发生时,接收机就认为讲话者已结束了他的正本没有检测到载波信号或在规定的时间间隔内没有检测到声音。
根据特定实施例,为了有助于接收机检测释放,在释放开关16之后而在切断麦克风和发送电路的电源之前,遥控器发射特定信号。例如,该特定信号是特定频率的脉冲信号。
根据本发明的特定实施例,为了避免由于疏忽而无意暂时释放开关16产生的影响,仅在预定超时时间之后切断电源。例如,该预定超时时间为半秒数量级。如果在此超时时间期间操作开关16,那么保持对遥控器的麦克风和发送电路供电。
尽管在上述典型实施例中,借助于遥控器来控制声音数据信号的终止符,但是也可以使用其它装置,特别是接收机装置的按钮。
权利要求
1.一种声音识别装置,其特征在于包括·获取电路(23、24、25),用于获取用户发出的包括声音数据的信号,·检测装置(22、30),用于检测由用户干预产生的声音数据信号的终止符,·分析装置(26),用于分析可以随声音数据信号的终止符调节分析的进度的声音数据。
2.根据权利要求1所述的装置,其特征在于,用于分析声音数据的分析装置基于接收到声音数据信号终止符结束对先前存储的声音数据的分析。
3.根据权利要求1或权利要求2所述的装置,其特征在于,分析装置完成维特比算法并且基于接收到的声音数据信号终止符,为了确定一个或多个与声音数据可靠对应的字序列,开始通过过去状态进行追溯。
4.根据权利要求1至3中的任何一项所述的装置,其特征在于,数据信号的终止符由用户通过手控激活信号发生装置(16)产生。
5.根据权利要求4所述的装置,其特征在于,数据信号终止符发生装置包括遥控器(1)的开关(16)。
6.根据权利要求1至5中的任何一项所述的装置,其特征在于,通过无线传输接收包括声音数据的信号。
7.遥控装置(1)包括用于产生含有声音数据的信号的麦克风(13)和用于发送包括声音数据的信号的电路(14、15),其特征在于,进一步包括用于产生并发送声音数据信号终止符的用户激活装置(11、14、15、16)。
8.根据权利要求7所述的装置,其特征在于,声音数据信号终止符发生装置包括用户激活开关(16)。
9.根据权利要求8所述的装置,其特征在于,以这样的方式设置开关(16)以致可以控制电路(14、15)的操作来发送包括声音数据的信号。
10.根据权利要求7或8之一所述的方法,其特征在于,声音数据信号的终止符包括从存在包括声音数据的信号的载波到载波不存在的转换。
11.声音识别处理方法,其特征在于包括步骤·获取包括声音数据的信号;·为了搜索代表获取的信号的字或字序列,对获取的信号进行分析,该分析包括多个连续阶段;·基于接收到的用户触发的声音数据信号终止符,对至少一个阶段的超前进行调节。
12.根据权利要求11所述的处理过程,其特征在于,分析获取信号的步骤包括并行确定多个代表获取信号的字或候选字序列的阶段,以及从候选字中选择字或字序列的阶段。
全文摘要
本发明涉及声音识别装置。根据本发明,该装置包括:获取电路(23、24、25),用于获取由用户发出的包括声音数据的信号;分析装置(26),用于分析可以调节随声音数据信号的终止符变化的分析进度的声音数据。本发明还涉及用于触发声音数据信号终止符的遥控装置以及处理过程。
文档编号G10L25/87GK1301007SQ0013570
公开日2001年6月27日 申请日期2000年12月15日 优先权日1999年12月17日
发明者皮埃里克·茹埃, 弗雷德里克·苏夫莱 申请人:汤姆森多媒体公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种手持式照相机自拍支架的制作方法技术领域:本实用新型涉及照相器械领域,具体是一种手持式照相机自拍支架。 背景技术:人们独自外出旅游通常会带相机或摄像机,但大多数的照相机和摄像机 使用时一般只能是操作者手持着拍其他的景色,而不能对

    专利发布时间:2025-05-15阅读:(100)

    专利名称:光学模块及设置有光学模块的线缆单元的制作方法技术领域:本发明涉及光学模块和设置有光学模块的线缆单元,该光学模 块和该线缆单元用于将信号例如从个人计算机发送到显示装置。背景技术:公开的日本专利申请No.2007-25272披露了一种

    专利发布时间:2025-05-15阅读:(84)

    专利名称:投影仪光纤均光器的制作方法技术领域:本发明涉及一种投影仪光纤均光器,尤其是可以为投影仪提供多个微型光源 縮小投影仪体积。背景技术:目前微型投影仪为了缩小体积开始使用LED微型光源,但是受到光源亮度限 制,造成投影亮度流明很小,如果

    专利发布时间:2025-05-15阅读:(59)

    透镜和led发光模块的制作方法【专利摘要】本发明涉及一种用于光源的透镜(1),其特征在于,包括:载体(15);设置在所述载体(15)上的第一侧(11)的多个第一微透镜元件(13);设置在所述载体(15)的与所述第一侧(11)相对的第二侧(1

    专利发布时间:2025-05-15阅读:(100)

    一种分体式提琴乐器的制造方法【专利摘要】本实用新型公开了一种分体式提琴乐器,包括音箱以及与音箱可拆式固定连接的琴身,音箱内设置有传音支架,传音支架上设置有传音板,传音板穿出于音箱,琴身上固定有琴马,琴弦横跨琴马并将其两头锁紧在琴身的两端,当

    专利发布时间:2025-05-15阅读:(97)

    专利名称:隔板反射型太阳能聚光器的制作方法技术领域:本发明涉及太阳能聚光技术,能在聚光器不动或微动的情况下全方位的聚集太阳光,尤其是应用到光伏发电上,它改变光伏发电板安装方式,同等的发电量可以减少一半的光伏发电板。背景技术:因现有的追日聚光

    专利发布时间:2025-05-15阅读:(132)