当前位置:网站首页>专利 >正文

适宜为与数据网络合作而提供的语音命令控制的电子设备的制作方法

专利名称:适宜为与数据网络合作而提供的语音命令控制的电子设备的制作方法
技术领域
本发明涉及在权利要求1前序部分限定的一种电子设备。
这样的电子设备已经被申请人销售,因此是已知的。已知的设备本质上包括一个接口模块和一个电连接到接口模块的个人计算机,两者相互合作,接口模块可以以固定方式连接到例如墙上、架子上或其他固定的物体上,以便接口模块对于所有的用户具有同样的固定位置。接口模块包括语音信号输入装置,输入表示说出的语音命令的语音信号。
在已知设备中,常有的问题是设备的语音信号输入装置占据了同一个固定位置,这使得语音信号输入装置仅对身高在一个相对窄的目标范围内的用户具有最佳的位置。然而,语音信号输入装置相对于用户的这样一个最佳位置是十分重要的,因为仅在这个最佳位置时才能保证在说出的语音命令识别过程中具有高识别可靠性。在已知设备中,对于身高小于目标范围和身高大于目标范围的用户会产生问题,相对于这个用户的嘴,语音信号输入装置处于相对不合适的位置,这使得输入的表示说出的语音命令的语音信号的质量较低,导致接下来的语音识别就不太可靠,因此设备的语音控制就会产生问题。
本发明的目的是避免上述问题,提供和权利要求1的前序部分一致的改进的电子设备。
为了达到上述目的,采用依据本发明的和权利要求1的前序部分一致的电子设备,提供了和权利要求1的特征部分一致的特征。
通过提供依据本发明的特征,以一种简单可靠的方式实现了不论用户的身高如何、语音信号输入装置总是相对于用户的嘴处于最佳位置。以这种方式,实现了对于每个用户,不论用户是高是矮,对于由他说出的语音命令,保证具有实际相同的识别的高可靠性。
采用依据本发明的设备,证明当附加提供权利要求2要求的特征时是非常有优势的。它保证了不论各个用户的身高,依据本发明的设备对于每一个用户可以具有最佳信号再现。
采用依据本发明的设备,进一步证明当附加提供权利要求3要求的特征时是非常有优势的。对于每一用户,即不论用户的高度,有利地保证了字母数字符号的适宜人体工程学的舒适和愉快的输入。
采用依据本发明的设备,进一步证明当附加提供权利要求4要求的特征时是非常有优势的。其结果是,不论用户的高度,保证了芯片卡可以简单容易地插入设备的通信站或从中取出。
在依据本发明的设备中,进一步证明当附加提供权利要求5要求的特征时是非常有优势的。其结果是,不论用户的高度,可以以一种舒适便捷的方式阅读设备显示装置上的数据。
此外,证明当附加提供权利要求6要求的特征时是非常有优势的。其结果是,采用依据本发明的设备,不需要单独的键盘。
本发明上述的方面和进一步的方面将出现在以后描述的实施例中,将参考实施例进行进一步的解释。
本发明上述的方面和其他方面将参考下面的实施例进行阐明。
在附图中

图1示出依据本发明实施例的电子设备的方框图,以及图2示出如图1所示的电子设备,以及这个设备的可以由这个设备的图像记录装置记录的女性用户的身体部分,以及用图像记录装置记录的女性用户身体部分的图像。
图1示出电子设备1,以后简称为设备1。设备1用于连接到数据网络2,适于从数据网络中查找数据和信息,接收它们并以光学和声音方式显示。在本例中,数据网络2是所谓的因特网。但也可以是其他的数据网络,例如企业的内部数据网。
设备1分别具有几个功能或操作模式。每一个功能或操作模式由说出的控制命令激活,这些控制命令中的每一个可以由设备1的用户说出并以这种方式告知设备1,这些控制命令中的每一个至少由一个说出的单词构成。例如,至少由一个说出的单词构成的这样一个控制命令可以是读“start(开始)”,“Hotels in Paris(巴黎的旅店)”,“Holiday resorts in Austria(奥地利的度假点)”,或者是“air routes to New York(到纽约的航线)”。
设备1包括暂停装置3,用于暂停设备1的多个部件,用于暂停实质上是麦克风形式的语音输入装置4、实质上是两个扬声器6和7形式的语音信号输出装置5、用于和边界接触芯片卡(未显示)进行边界接触通信的通信站8、实质上由一个触摸图象屏形成的显示装置9,同时,虚拟输入装置也可以由显示装置9实现,因为在显示装置9上可以显示一个键盘,通过触摸可视表示的键盘按键来输入数据,该技术已经知道了很长时间。通过语音信号输入装置4机械连接的暂停装置3,当用户在设备1的范围内时,将语音信号输入装置4保持在相对于用户嘴的一特定位置。然后语音信号输入装置4输入在设备1中表示说出的语音命令的语音信号。
设备1包括一个个人计算机PC,它实现了一系列的设备、装置和功能。在这些可能性中,本文只进一步讨论必要的可能性。
在个人计算机PC中,包括一个连接到语音信号输入装置4的A/D转换器10。A/D转换器10连接到语音识别装置11。语音识别装置11连接到语音评估装置12。语音评估装置12连接到对话装置13。对话装置13连接到控制装置14。控制装置14一端连接到语音输出装置15,输出装置15紧接着一个D/A转换器16,转换器的两个输出17和18连接到语音信号输出装置5的两个扬声器6和7。控制装置14还连接数据传输装置19,数据传输装置19和连接装置20连接,实现了设备1和数据网络2的连接。连接装置20不仅连接到数据传输装置19,也连接数据接收装置21。数据接收装置21连接到数据处理装置22。数据处理装置22连接到图像信号输出装置23,输出装置连接到显示装置9。
设备1可以执行前面提到的多个功能,但设备1的本质功能是以语音控制方式激活和执行这些功能。例如,设备1可以用于获取关于时间表的信息。下面可以参考一个例子简单解释该操作或操作模式。
假设,站在设备1前面的用户希望获得关于一个时间表的信息。为了这一目的,用户说出一个控制命令,例如,控制命令“I would like to visit Wolfshoferamt and drive there(我要开车访问Wolfshoferamt)”。语音信号输入装置4接收到该命令并转化为接收到的语音信号ESS。接收到的语音信号ESS输入A/D转换器10。A/D转换器将接收到的语音信号ESS转换为接收到的语音数据ESD。这些接收到的语音数据ESD输入语音识别装置11,进行识别。结果是语音识别装置11生成识别的语音数据RSD。识别的语音数据RSD输入语音评估装置12。语音评估装置12认识到,在接收到的语音数据ESD中,即在说出的语音控制命令中,包含目的地。该知识以评估数据AD的形式送入对话装置13。智能对话装置13然后认识到用户已经指出所希望的目的地,这是对的,但对于有用的时间表信息还缺少出发地、所计划的旅行的开始和日期(哪一天和几点)。结果对话装置13产生表示这个缺少信息的表示数据RD1,数据送入控制装置14。控制装置14处理表示数据RD1,其结果是,控制装置14生成控制数据CD1。控制数据CD1被输入语音输出装置15,由语音输出装置15产生语音数据ASD,语音数据ASD对应于下面的文字“From what point of departure do you want totravel and on what day and at what time is the travel to take place?(你打算从哪里出发,哪一天以及何时开始旅行?)”。产生的语音数据ASD被语音输出装置15输入到D/A转换器16,D/A转换器16将语音数据ASD转换为模拟的语音信号WSS1和WSS2来输出。被再现的模拟语音信号WSS1和WSS2被输出到语音信号输出装置5的两个扬声器6和7,通过扬声器6和7,站在设备1前的用户可以听到被再现的上述文本,即“From what point of departure do you wantto travel and on what day and at what time is the travel to take place?(你打算从哪里出发,哪一天以及何时开始旅行?)”。
接着,用户借助语音信号输入装置4向设备1给出一个下面以几个单词的形式限定的控制命令,即“I would like to leave from Gumpoldskirchen on the28th of August at about 9 o’clock in the morning(我希望8月28日早上9点从Gumpoldskirchen出发)”。包含多个单词的控制命令作为接收到的语音信号ESS输入A/D转换器10,然后在语音识别装置11完成识别,从而将再次识别的语音数据RSD输入语音评估装置12。接着,通过语音评估装置12检测出用户不仅输入了目的地,还输入了出发地和时间(日期和时间),因此关于时间表的实用信息所需的所有输入数据都有了。这些事实以评估数据AD的形式再次通知对话装置13。结果是对话装置13生成进一步的表示数据RD2,输入控制装置14。作为进一步的表示数据RD2的结果,控制装置14生成进一步的控制数据CD2,决定要访问的至少一个因特网网页,即,可以得到需要的时间表信息的至少一个因特网网页。进一步的控制数据CD2输入数据传输装置19,数据传输装置19处理进一步的控制数据CD2,并将处理的控制数据CD2输入连接装置20。连接装置20将处理后的进一步控制数据CD2输入数据网络2,即因特网,然后,这些控制数据CD2在因特网上被评估。其结果是,数据网络2、即因特网向连接装置20提供请求的数据。连接装置20接着将接收到的因特网数据IED输入给数据接收装置21。在数据接收装置21中,接收到的因特网数据IED被重新生成,其结果是,数据接收装置21将重新生成的因特网数据RID输入数据处理装置22。数据处理装置22将重新生成的因特网数据RID转换为图像数据BD。生成的图像数据BD输入图像信号输出装置23,图像信号输出装置23将产生的图像数据BD转换为图像信号BS,图像信号BS被输入显示装置9。其结果是,用户所要的时间表就会由显示装置9显示,以可辨别的方式告知他何时以及怎样从输入的出发地Gunpoldskirchen到达输入的目的地Wolfshoferamt。
可以看到,经过上述步骤,用户另外还可以选择通过显示装置实现的虚拟输入装置,向设备1输入附加信息。另外也可以看到,如果设备1需要收费功能,用户可以向通信站8插入信用卡,借助个人计算机PC中包含的接口装置24,就可以计入一定的钱数。
如图1和图2所示,设备1包括引导装置25,在本例是两个平行工作的拧入式轴26和27。借助引导装置25,可以实质上在垂直方向引导暂停装置3,可以沿引导装置25调整。而且,设备1包括调整装置28,使暂停装置3可以沿引导装置25调整。在本例,调整装置28包括图示的电子马达29,通过该电子马达29,可以经由图中未显示的驱动连接以旋转方式驱动组成引导装置25的两个拧入式轴26和27。两个拧入式轴26和27不仅形成引导装置25的部件,也是调整装置28的部件。借助两个拧入式轴26和27,可以调整和设置暂停装置3。这样的调整装置28也已经知道了很长时间。借助调整装置28,可以按图2双箭头30平行的方向调整暂停装置3。
在设备1中另外还有利地提供了图像记录装置31,实质上是一个摄像机。图像记录装置31机械连接到暂停装置3,使得图象记录装置31和暂停装置3可以一起沿平行于箭头30的方向垂直调整。借助图像记录装置31可以记录设备1的用户的特定身体部分,这从图2可以看出。依据图2,假设借助于图像记录装置31可以记录女性用户的头部和上半部身体的至少一部分。
图1示出,图像识别装置32连接到设备1的图像记录装置31。图像评估装置33连接到图像识别装置32。调整控制装置34连接到图像评估装置33。调整装置28的马达29连接到调整控制装置34。
图像评估装置33可以判定是否用户被记录的部分位于标称范围XY之内。如果记录的身体区域的位置和标称范围XY有偏差,图像评估装置33将控制调整装置28调整暂停装置3,结果就是调整与其相连的语音信号输入装置4和图像记录装置31,沿与双箭头30平行的方向移动图像记录装置31,使得站在设备1前面的用户被记录的身体区域位于标称范围XY之内。
当设备1工作时-如图2所示-图像记录装置可以记录用户的身体的一特定部分,以便得到如图2右手部分所显示的记录图像。图像记录装置31记录的图像被输入图像识别装置32,图像识别装置32将图像信号转换为图像数据。图像识别装置32产生的图像数据被输入图像评估装置33。图像评估装置33可以确定用户被图象记录装置31记录的头部是否位于标称范围XY之内,标称范围XY在图2的右手部分显示。当设备1的用户被记录的头部在标称范围XY之内时,产生的事实就是语音信号输入装置4处于相对于用户的嘴的有利位置。在此情况,不需要进行进一步的改进测量。但在所记录的头部不在标称范围XY之内时,将通过图像评估装置33检测到这一点。其结果是,图像评估装置33会向调整装置控制装置34输入控制信息,该控制信息使调整装置28按与双箭头30平行的方向调整暂停装置3,这样就调整了图像记录装置31,调整的结果使用户被记录的头部位于标称范围XY之内。作为调整暂停装置3的结果,暂停装置3终止的语音信号输入装置4也沿着与双箭头30平行的方向被调整,这随即导致语音信号输入装置4处于相对于用户的嘴的有利位置。
上述设备1的操作的优势在于,不论用户的身高,语音信号输入装置4总是处于相对于设备1的各个用户的嘴的有利位置,这使得各个用户作为控制命令发出的语音信号可以被语音信号输入装置4以实际上相同的高信号质量来接收,并转换为接收的语音信号ESS,相应地,与接收到的语音信号ESS对应的接收的语音数据ESD不论各个用户的身高如何都具有相同的质量。以这种方式,达到了对于设备1的每一个用户,可以保证各个用户说出的语音命令具有实际上相同的高识别可靠性。
与因特网合作的上述设备是依据本发明实施例的具有优势的例子,然而,依据本发明的措施也可以用于其他由语音命令控制的电子设备。
权利要求
1.一种电子设备(1),具有可以由控制命令激活的功能,每一个命令至少由设备(1)的用户说出的一个单词构成,所述电子设备(1)包括语音信号输入装置(4),用于将表示说出的语音命令的语音信号输入设备(1),还包括连接到语音信号输入装置(4)的控制装置(14),通过控制装置(14)可以产生表示语音命令的控制数据(CD2),还包括和语音信号输入装置(4)机械连接的暂停装置(3),这样,在用户面前的语音信号输入装置(4)占据相对于用户嘴的一个特定位置,其特征在于,设备(3)包括引导装置(25),通过引导装置,暂停装置(3)至少实质上在垂直方向上被引导,以及,设备(1)包括调整装置(28),通过调整装置(28),暂停装置(3)可以沿引导装置(25)调整,以及,提供有机械连接到暂停装置(3)的图像记录装置(31),可以记录用户的一特定身体部分,以及,提供有图像评估装置(33),可以判定记录的身体部分是否在标称范围(XY)内,以及,如果记录的身体部分的位置偏离了标称范围(XY),提供有用于调整暂停装置(3)的调整装置(28),因此,图像评估装置(33)可以驱动连接的语音信号输入装置和图像记录装置(31),以调整图像记录装置(31),使记录的身体部分位于标称范围(XY)之内。
2.权利要求1所述的设备(1),其特征在于,设备(1)另外包括传递语音信号的语音信号输出装置(5),以及,语音信号输出装置(5)机械连接到暂停装置(3)。
3.权利要求1所述的设备(1),其特征在于,设备(1)包括输入字母数字符号的输入装置(9),以及,输入装置(9)机械连接到暂停装置(3)。
4.权利要求1所述的设备(1),其特征在于,设备(1)包括一个和边界接触芯片卡进行边界接触通信的通信站(8),以及,通信站(8)机械连接到暂停装置(3)。
5.权利要求1所述的设备(1),其特征在于,设备(1)包括用于显示数据的显示装置(9),以及,显示装置(9)机械连接到暂停装置(3)。
6.权利要求5所述的设备(1),其特征在于,虚拟输入装置可以由显示装置(9)实现。
全文摘要
一种电子设备(1),由设备(1)的用户说出的控制命令控制,该设备包括语音信号输入装置(4)和连接到语音信号输入装置(4)的控制装置(14),可以在高度方向上调整语音信号输入装置(4),通过提供的图像记录装置(31),可以记录该设备(1)用户的一部分身体,最好是用户的头部区域,图像评估装置(33)连接到图像记录装置(31),由此,图像评估装置(33)可以判定记录的身体部分是否在标称范围(XY)内,图像评估装置(33)可以使语音信号输入装置(4)被调整,以使语音信号输入装置(4)尽可能位于相对于用户嘴的最佳位置,即对于记录的身体部分没有位于标称范围(XY)之内。
文档编号G10L15/22GK1344400SQ00803792
公开日2002年4月10日 申请日期2000年12月1日 优先权日1999年12月15日
发明者T·菲德勒 申请人:皇家菲利浦电子有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:用于预测量化有声语音的方法和设备的制作方法本申请是申请日为2001年4月20日申请号为第01810523.8号发明名称为“用于预测量化有声语音的方法和设备”的中国专利申请的分案申请。背景技术:I.发明领域本发明主要涉及语音处理领域

    专利发布时间:2025-05-15阅读:(78)

    专利名称:光折射系统和方法技术领域:本发明涉及光折射系统和方法,更确切地说,涉及使用光折射介质以形成可读的、永久性的、高分辨率的、以及高信息量的图像的系统、装置和方法,并且提供专业化的光学装置。光折射效应已公知多年,如DavidM.Pepp

    专利发布时间:2025-05-15阅读:(67)

    专利名称:结合语义和声纹信息的说话人身份确认系统的制作方法技术领域:本发明涉及一种说话人识别系统,尤其是利用说话人声音的独特生物测定学特征来识别说话人身份的系统。背景技术: 信息时代的最重要的特征就是数字化,而且随着科技的发展人的身份也越来

    专利发布时间:2025-05-15阅读:(84)

    专利名称:一种播放列表生成系统及方法技术领域:本发明涉及一种媒体列表生成系统及方法,尤其是涉及一种根据用户对音频文件的历史操作生成播放列表的系统及方法。背景技术:随着数字技术的发展,数字音频、数字视频、电子书、电子图片等数字媒体被广泛使用。

    专利发布时间:2025-05-15阅读:(108)

    基于响板振动的波形记录和重现的制作方法【专利摘要】在具有响板的乐器中,例如钢琴,响板响应于对琴键的按压做出响应的琴弦而振动。对应于响板的这种振动的波形被检测和记录。记录的振动波形可用于重现基于响板振动的声音。在具有响板的声音重现设备中,例如

    专利发布时间:2025-05-15阅读:(95)

    专利名称:一种可成像制品的制作方法一种可成像制品背景技术:传统的照相基底的由涂覆于未处理的基纸的正面(成像面)和背面二者上的树脂层组成。成像层被涂覆于照相基底的正面上。这种涂层在最终的产品中产生了不平衡的应力。 为了正确的处理通过了涂覆、转

    专利发布时间:2025-05-15阅读:(81)