专利名称:用于移动计算设备的分布式语音识别的制作方法
技术领域:
本发明涉及通常已知为手持便携式计算机的个人移动计算设备。更具体而言,本发明涉及一种用于增强使用移动计算设备而执行的语音识别的系统和方法。
背景技术:
移动设备是小型电子计算设备,有时称为个人数字助理(PDA)。许多这样的移动设备都是舒适地适合于手中的手持设备,或手掌大小的设备。一种商业可用的移动设备以商品名手持PC(或H/PC)来出售,该PC包括由华盛顿州雷蒙德的微软公司所提供的软件。
通常,移动设备包括处理器,随机访问存储器(RAM),以及输入设备诸如键盘和显示器,其中键盘可以集成于显示器,如触摸感应显示器。通信接口可以被选择提供并通常用于与桌面计算机通信。可替换或充电的电池为移动设备供电。可选择地,移动设备可以从补偿内置电池或为其充电的外部电源接收电能,如合适的交流或直流适配器,或供电连接支架。
在通常的应用中,移动设备与桌面计算机结合使用。例如,移动设备的用户还可以访问,使用单位或家中的桌面计算机。用户典型地运行桌面计算机和移动设备上相同类型的应用程序。因此,对于移动设备来说,将其设计为耦合到桌面计算机与移动设备交换信息,以及共享信息是非常有利的。
随着移动计算设备市场不断地成长,期望有新的发展。例如,移动设备与蜂窝或数字无线通信技术集成以提供一种还可以作为移动电话的移动计算设备。因此,蜂窝或数字无线通信技术能够提供移动设备和桌面(或其他的)计算机之间的通信链路。而且,语音识别也可以用于记录数据,或者通过用户对着移动设备的麦克风说话并基于麦克风检测的语音将信号发送到桌面计算机,来控制移动计算设备和桌面计算机其中之一或两者的功能。
当尝试在桌面计算机上对向远端麦克风,诸如位于移动设备上的麦克风所说的话执行语音识别时出现了一些问题。首先,麦克风所提供语音信号的信噪比随着麦克风和用户的嘴之间距离的增加而降低。由于用户手掌上所持的典型移动设备距离用户的嘴一英尺,因此产生的信噪比降低可能为严重的语音识别障碍。而且,由于与典型位于移动设备壳体上的麦克风的内部噪声极为近似,从而移动设备的内部噪声也降低了语音信号的信噪比。其次,由于数字和其他通信网络,如无线通信网络的带宽限制,在桌面计算机接收的语音信号与来自桌面麦克风的语音信号相比质量较低。因此,当使用移动计算设备麦克风代替桌面麦克风时,由于不同的桌面和电话带宽,将产生不同的语音识别结果。
发明内容
本发明公开了一种执行语音识别的方法以及实施该方法的移动计算设备。方法包括在移动计算机设备的麦克风接收可听的语音。然后在移动计算设备上将可听语音转换为语音信号。并且在移动计算设备上,对语音信号执行基本的语音识别功能以获得中间的语音识别结果。接着,执行第二语音识别功能以得到对来自第二计算设备的结果的请求。对结果的这些请求被从移动计算设备发送到远离于该移动计算设备的第二计算设备。第二计算设备获得这些结果并发送这些结果到移动设备以完成语音识别处理。
在本发明的一些实施例中,移动计算设备和第二计算设备一样执行相同的基本语音识别功能。中间语音识别结果为从语音信号提取的语音识别特征。这些特征例如可以包括,美频对数倒频谱系数,向量量化指数,隐藏马尔可夫模型(HMM)分数,HMM状态输出概率密度函数,对数倒频谱系数,或其他类型的从语音信号中提取的语音识别特征。
发送对来自移动计算设备结果的请求到第二计算设备,代替发送在第二计算设备用于语音识别的语音信号本身,允许使用统一的语音识别模型,而不管通信网络是否为宽带还是窄带的。并且,在通信网络具有比移动计算设备麦克风较窄的带宽的情况下,当通过较窄带宽的通信网络发送语音识别特征时,不会丢失较宽带宽的语音信息。
图1为示例了根据本发明的移动设备的一个实施例的简化方框图。
图2为图1所示的移动设备的一个实施例的更详细方框图。
图3为示例了根据本发明的移动设备的一个实施例的简化视图。
图4为示例了根据本发明的移动设备的另一个实施例的简化视图。
图5为示例了桌面计算机的一个示意性实施例的方框图,其中在桌面计算机中可以执行本发明的部分语音识别处理。
图6为示例本发明方法的流程图。
图7A-7D为示例根据本发明实施例的语音识别系统的方框图。
具体实施例方式
图1为示意性的便携式计算设备的方框图,这里为根据本发明的移动设备10。图1所示为,在一个实施例中,移动设备10适合于连接到桌面计算机12,数据传送,或两者并从其接收信息。数据传送14可以为无线传送如寻呼网络,蜂窝数字分组数据(CDPD),FM边带,或其他合适的无线通信。但是,还应用注意到移动设备10可以不被配备连接到桌面计算机12,不论移动设备10是否具备该功能都可以应用本发明。移动设备10可以为个人数字助理(PDA)或具有蜂窝或数字无线电话功能并适合于执行传统的PDA功能以及用作无线电话的手持便携式计算机。在其他实施例中,数据传送14为电缆网络,电话网络,或其他有线通信网络。
在一个示意性的实施例中,移动设备10包括麦克风17,模数(A/D)转换器15和语音识别程序19。响应于来自用户设备10的语言命令,指令或信息,麦克风17提供经A/D转换器15数字化的语音信号。语音识别程序19对数字化语音信号执行特征提取功能以获得中间的语音识别结果。设备10使用天线11在传送14上将中间语音识别结果发送到桌面计算机12,在计算机中使用其他的语音识别程序完成语音识别处理。下文将更详细讨论本发明的语音识别特征提取方面。
在一些实施例中,移动设备10包括一个或多个其他的应用程序16以及对象存储器18。应用程序16可以例如为,个人信息管理器(PIM)16A,它存储了与用户电子邮件(e-mail)相关的对象并调度信息或将其编入日程表中。应用程序16还可以包括内容浏览器16B,用于浏览广域网如因特网获得的信息。在一个实施例中,内容浏览器16B为“离线”浏览器,在浏览器中在浏览之前暂时存储信息,其中用户不必实时与信息源交互作用。在其他实施例中,移动设备10在实时环境中操作,其中传送14提供了双向的通信。在本发明的所有实施例中并不都需要PIM16A,内容浏览器16B和对象存储器18。
在包括PIM16A,内容浏览器16B和对象存储器18的实施例中,无线传送14还用于发送信息到移动设备10用于在对象存储器18中存储以及用于应用程序16使用该信息,例如,该信息可以为新闻,天气,运动,交通或本地信息信息源。同样,信息源提供者13可以接收e-mail和/或调度来自桌面计算机12的信息以通过传送14将其发送到移动设备10。来自桌面计算机12的信息可以被通过任何合适的通信链路,诸如直接调制器解调连接而提供给信息源提供者13。在另一个实施例中,桌面计算机12和信息源提供者13可以被连接到一起形成一个局域网(LAN)或广域网(WAN)。这种网络互连环境在办公室,企业广域计算机网络内部网和因特网中是普遍存在的。如果想要的话,桌面计算机12还可以直接连接到传送14。
另外值得注意的是,在一个实施例中,移动设备10可以使用任何合适的,商业可用的,通信链路并使用合适的通信协议耦合到桌面计算机12。例如,在一个实施例中,移动设备10利用物理电缆与桌面计算机12通信,物理电缆使用串行通信协议通信。其他通信机制包括红外(IR)通信和直接调制解调通信。
还值得注意的是,在一个实施例中,移动设备10能够与桌面计算机12同步。在该例子中,在对象存储器18中存储的对象的属性与在桌面计算机12或移动设备14的对象存储器中存储的其他例子的相同对象的属性相类似。因此,例如,当在桌面计算机12的对象存储器中存储的对象的一个例子,和在移动设备10的对象存储器18中存储的对象的第二例子被更新时,接下来将移动设备10连接到桌面计算机12以便相同对象的两个例子都包含更新的数据。这通常被称作同步。为了实现同步,同步组件同时在移动设备10和桌面计算机12上运行。该同步组件通过用于管理通信和同步的清晰的接口彼此通信。
图2为移动设备10的更详细方框图。如图所示,移动设备10包括处理器20,存储器22,输入/输出(I/O)组件24,桌面计算机通信接口26,收发信机27和天线11。在一个实施例中,移动设备10的这些组件被耦合用于基于合适的总线28而彼此通信。尽管在图2中未示出,但是移动设备40还包括如图1所示例的麦克风17,并将下文参考图3-7进行讨论。
存储器22实施为非易失性电子存储器,如具有电池后备模块(未示出)的随机访问存储器(RAM),这样,当切断移动设备10的普通电源时,也不会丢失存储器22中存储的信息。存储器22的一部分被分配为用于程序执行的可寻址存储器,而存储器22的剩余部分可以用于存储,诸如用于模拟磁盘驱动器上的存储器。
存储器22包括操作系统30,应用程序16(诸如参考图1讨论的PIM16A和语音识别程序19)以及对象存储器18。在操作过程中,操作系统30被从存储器22装载到处理器20中并由处理器来执行。在一个实施例中,操作系统30是可以从微软公司商业获得的Windows CE操作系统。该操作系统30可被用于移动设备,并通过一组公开的应用程序接口和方法实现PIM16A,内容浏览器16B和语音识别功能19所使用的特征。对象存储器18中的对象由PIM16A,内容浏览器16B和操作系统30来保存,至少部分响应于公开的应用程序接口和方法的调用。
在一个实施例中,提供I/O组件24以便于输入和从用户的移动设备10输出操作。桌面计算机通信接口26可被选择提供为任何合适的,商业可用的通信接口。当无线收发信机27不使用于该目的时,接口26用于与桌面计算机12通信。
收发信机27是无线或适合于在传送14上发送语音信号或中间语音识别结果的其他类型的收发信机。在收发信机27为无线收发信机的实施例中,可以使用天线11发送中间语音识别结果。收发信机27蛤可以在传送14上发送其他的数据。在一些实施例中,收发信机27从桌面计算机12,信息源提供者13,其他移动或非移动设备或电话接收信息。收发信机27耦合到总线28用于与处理器20和对象存储器18通信以存储从传送14接收的信息。
电源35包括用于为移动设备10供电的电池37。可选择地,移动设备10可以从补偿内置电池37或为其充电的外部电源41接收电能。例如,外部电源41包括用于移动设备10的合适交流或直流适配器,或电源连接支架。
图3为示例根据本发明使用的移动设备10的一个实施例的简化视图。在该实施例中,除了天线11和麦克风17以外,移动设备10还包括一个小型化键盘32,显示屏34,输入笔36,第二麦克风85以及扬声器34。在图3所示的实施例中,该显示屏34为液晶显示屏(LCD),该显示屏使用与输入笔36相结合的接触感应显示屏幕。输入笔36用于以指定的坐标按压或接触显示屏34以实现一定的用户输入功能。小型化键盘32被实施为具有任何合适的和期望的功能键的小型化字母数字键盘,这些功能键也被提供用于实现一定的用户输入功能。
麦克风17位于天线11的末端。相反天线11适合于朝着用户嘴的方向旋转,籍此当用户手掌中持有该移动设备10时,从而减少了用户的嘴和麦克风17之间的距离。如上所示,减少上述距离有助于增加麦克风所提供的语音信号的信噪比。并且,在天线11顶端的麦克风17位置将该麦克风从移动设备10的外壳移开。这减少了内部设备噪声对信噪比的影响。当在本发明的一些实施例中,麦克风17位于天线11的末端,在其他实施例中,麦克风还可以位于天线11的其他位置上。
在一些实施例中,移动设备10还包括位于移动设备10的外壳上的第二麦克风85。当一起使用两个麦克风时,提供一个远离第一麦克风17的第二麦克风85增强了产生的麦克风排列的性能。在一些实施例中,还可以包括扬声器86以允许移动设备10用作移动电话。
图4为示例根据本发明的另一个实施例的移动设备10的简化视图。如图4所示例,移动设备10包括类似于与图3所述有关的一些项目并且被类似地编号。例如,移动设备10,如图4所示,还包括位于天线11上的麦克风17,和位于设备外壳上的扬声器96。而且,移动设备10包括可以结合输入笔36使用的触摸感应显示屏34,以实现一定的用户输入功能。应该注意到,图3和图4中所示的用于移动设备的显示屏34具有相同的大小,或具有不同的大小,但是将典型非常小于桌面计算机所使用的传统显示器的大小。例如,图3和图4中所示的显示屏34可以被定义为只有240×320坐标,或160×160坐标,或任何其他合适大小的矩阵。
图4中所示的移动设备10还包括大量的用户输入键或按钮(诸如滚动按钮38和/或键盘32),以允许用户输入数据或滚动显示屏34上显示的菜单选项或其他显示选项,而不用接触显示屏34。另外,图4中所示的移动设备10还包括电源按钮40,该按钮用于接通或关掉移动设备10的普通电源。
还应该注意到在图4所示例的实施例中,移动设备10包括手写区域42。手写区域42可以结合输入笔36一起使用,从而用户可以写消息,这些信息存储在存储器22中以用于被移动设备10以后使用。在一个实施例中,手写消息简单地以手写形式存储并且可由用户调用以及在显示屏34上进行显示,这样用户可以阅览输入到移动设备10中的手写消息。在另一个实施例中,移动设备10具有字符识别模块,从而用户可以利用输入笔36在该区域42上写入字母数字信息以在移动设备10中输入字母数字信息。在该例子中,移动设备10中的字符识别模块识别字母数字字符并将这些字符转换为计算机可识别的字母数字字符,这些字符还可以被移动设备10中的应用程序16使用。
图5以及相关讨论意图在于提供合适的桌面计算机12的一种简洁,普遍的描述,其中在该计算机中可以实施本发明的部分。尽管不是必需的,但是本发明将被至少部分地,以计算机可执行指令的通常环境来描述,如个人计算机12或移动设备10所执行的程序模块。通常,程序模块包括执行特定任务或实施特定抽象数据类型的例行程序,对象,组件,数据结构,等等。尽管参考了桌面计算机,但是图5所示例的计算环境可以在其他非桌面计算机中实施。而且,本领域的普通技术人员将理解,桌面计算机12可以利用其他计算机系统结构实施,包括多处理器系统,基于微处理器的或可编程的消费电子,网络PC,迷你计算机,大型计算机,等等。本发明还可以在分布式计算环境中实施,在分布式计算环境中任务由通过通信网络链接的远程处理设备执行。在分布式计算环境中,程序模块可以位于本地和远程存储器存储设备中。
参考图5,用于实施桌面计算机12的示意性系统包括传统个人计算机形式的通用目的计算设备,其中计算设备包括处理单元48,系统存储器50,以及耦合包括系统存储器50在内的各种系统组件到处理单元48的系统总线52。该系统总线52可以为任何类型的总线结构,包括存储总线或存储控制器,外设总线,以及使用任何一种总线结构的本地总线。系统存储器50包括只读存储器(ROM)54和随机访问存储器(RAM)55。基本输入/输出系统(BIOS)56存储在ROM54中,该系统包括诸如在开机过程中帮助在桌面计算机12的组件之间传送信息的基本例行程序。桌面计算机12还包括用于从硬盘(未示出)读取或写入的硬盘驱动器57,用于从可移动磁盘59读取或写入的磁盘驱动器56,以及用于从可移动光盘60入CD ROM或其他光学介质读取或写入的光盘驱动器60。硬盘驱动器57,磁盘驱动器58,光盘驱动器60分别通过硬盘驱动接口62,磁盘驱动接口63,和光盘驱动接口64连接到系统总线52。这些驱动器和相关的计算机可读介质提供了用于桌面计算机12的计算机可读指令,数据结构,程序模块和其他数据的非易失性存储器。
尽管这里描述的示意性环境应用磁盘,可移动磁盘59和可移动光盘61,但是本领域的普通技术人员应用理解,其他类型的能够存储计算机可访问的数据的计算机可读介质,诸如磁带,贝努里盒式磁盘,随机访问存储器(RAM),只读存储器(ROM)等等,也可以用于示意性的操作环境中。
在硬盘,磁盘59,光盘61,ROM54或RAM55上存储的大量程序模块,包括操作系统65,一个或多个应用程序66(可以包括PIM),其他应用程序67(可以包括同步组件26),以及程序数据58。用户可以通过输入设备诸如键盘70,指针设备72,以及麦克风92将命令和信息输入到桌面计算机12中。其他输入设备(未示出)可以包括游戏杆,游戏键盘,圆盘式卫星电视天线,扫描仪,等等。这些和其他输入设备通常通过耦合于系统总线52的串行端口接口76连接到处理单元48,但也可以通过其他接口连接,诸如声音卡,串行端口,游戏端口,或通用串行端口(USB)。监视器77或其他类型的显示设备还通过接口,诸如视频适配器78连接到系统总线52。除了监视器77以外,桌面计算机可以典型包括其他外围输出设备,诸如扬声器71和打印机。
桌面计算机71可以使用到一个或多个远程计算机(除了移动设备10以外)如远程计算机79的逻辑连接在网络互连环境中操作。远程计算机797可以为其他的个人计算机,服务器,路由器,网络PC,对等设备或其他网络节点,并典型包括上述与桌面计算机12相关的许多或全部的组件,尽管在图5中仅仅示例了存储器存储设备80。图5中所述的逻辑连接包括局域网(LAN)81和广域网(WAN)82。这种网络互连环境在办公室,企业广域计算机网络内部网和因特网中是普遍的。
当桌面计算机用于LAN网络互连环境中时,该桌面计算机12通过网络接口或适配器83被连接到局域网81。当其用于WAN网络互连环境中时,该桌面计算机12典型包括在广域网82如因特网上建立通信的调制解调器84或其他装置。可以为内置或外置的调制解调器84,通过串行端口接口76连接到系统总线52。在网络环境中,与桌面计算机12相关描述程序模块,或其部分,可以存储在远程存储器存储设备中。应该理解,所示的网络连接是示意性的,可以使用在计算机之间建立通信链路的其他装置。
桌面计算机12运行典型存储在非易失性存储器54中的操作系统65并处理器48上执行。一种合适的操作系统为微软公司出售的Windows操作系统,诸如Windows95或Windows NT操作系统,其他演化版本的Windows操作系统,或其他合适的操作系统。其他合适的操作系统包括诸如苹果公司出售的Macintosh OS,以及纽约Armonk的国际商业机器(IBM)出售的OS/2表示管理程序的系统。应用程序可以存储在程序模块67中,易失性存储器或非易失性存储器中,或被从软盘59,CDROM驱动器61,载入到如图5所示的任何组件中,以及通过网络适配器83从网络下载,或使用其他合适的机制载入。
图6示出了示例本发明方法的流程图。将参考图7A-7D中提供的移动计算设备和桌面计算机的示意性实施例来描述图6中所示的方法。图7A-7D示例了独立于计算机12中执行的其他语音识别功能的,在移动设备10中执行的语音识别特征提取处理。在所示例的实施例中,在语音识别过程中,语音作为输入以用户可听声音信号的形式被提供到移动设备10的麦克风中。该步骤在图6的方框205中所示例。麦克风17将可听声音信号转换为模拟信号,该模拟信号被提供到A/D转换器101。A/D转换器101将该模拟语音信号转换为一系列数字信号,这些数字信号被提供给特征提取模块103。该步骤在图6的方框210中所示例。
被认为是连续语音识别处理的“前端”的特征提取模块103,提供为输出中间语音识别结果,该结果被提供给语音识别搜索引擎105。特征提取模块103所提供的结果与特征识别搜索引擎105适合使用的特征类型相关。例如,特征提取模块103所提供的中间语音识别结果可以为美频对数倒频谱系数(MFCC系数)或向量量化指数。该中间结果还可以为隐藏马尔可夫模型(HMM)分数,HMM状态输出概率密度函数(pdf),对数倒频谱系数,或其他类型的从语音信号中提取的语音识别特征。
在一个实施例中,特征提取模块103是传统的阵列处理器,该处理器对数字信号执行频谱分析并计算频率频谱的每个频带的幅度值。在其他的实施例中,特征提取模块103还可以使用向量量化技术和从训练数据得到的密码本将特征向量编码为一个或多个码字。因此,特征提取模块103在其输出端提供了用于每个说话话语的特征向量(或码字)。在一些实施例中,特征提取模块103通过使用被分析的特定帧的特征向量(或码字)确定计算的输出概率分布与隐藏马尔可夫模型的比来计算中间结果。然后在桌面计算机12中执行维特比或相似类型的处理技术中使用这些概率分布。特征提取模块103所实施的特征提取功能通常在图6所示流程图的施15中示例。
由于麦克风17提供的带宽将典型宽于数据传送14所提供的带宽,如果语音信号已经通过传送14被发送用于计算机12内部的特征提取,那么特征提取模块103所提供的内部表示或中间结果将会更加精确。语音识别搜索引擎105所提供的语音识别结果应该与如果麦克风17直接连接到桌面计算机12而获得的结果相同。因此,消除了在桌面和电话带宽之间具有不同标准的问题。
在图6的方框217所示例的步骤为,使用移动设备10,对中间语音识别结果执行第二语音识别功能以获得对结果的请求。
在图6的方框220示例了从移动设备10发送到第二计算设备12的结果请求。在方框225示例了第二计算设备12接收的结果请求。在方框230示例了移动设备10从第二计算设备12接该结果以在移动设备10上输出代表可听语音的文本。下文参考图7A-7D概述这些特定步骤的细节。根据移动设备10的安排可以发送所有的结果请求或者发送这些请求的一部分。
参考图7A-7D,语音识别搜索引擎105被实施为移动设备10内部的应用程序,并且执行“第二”语音识别功能以获得对作为中间语音识别结果的函数的语音识别结果的请求。在图7A的实施例中,声学模型107和语音模型109都被存储在桌面计算机12的存储器中。当从特征提取模块103接收中间语音识别结果时,语音识别搜索引擎105产生对结果的请求,以便通过使用收发信机27和数据传送14提供该请求到计算机12,来访问桌面计算机12的声学模型107中存储的信息。
声学模型107存储声学模型,诸如隐藏马尔可夫模型,其表示被计算机12所检测的语音单元。该信息(被请求结果)通过数据传送14中的反向信道通信链路110被发送到语音识别搜索引擎105。在一个实施例中,声学模型107包括与隐藏马尔可夫模型中的每个马尔可夫状态相关联的senone树。在一个示例的实施例中,隐藏马尔可夫模型表示语音音素。根据声学模型107中的senone,搜索引擎105确定从特征提取模块103接收的特征向量(或码字)所表示的最大可能的语音音素,然后代表从系统用户接收的话语。在上述实例中,声学模型然后根据隐藏马尔可夫模型和senone树返回语音音素作为结果。但是,该结果可以基于其他的模型。尽管声学模型107在一些实施例中位于远离(移动设备10)的计算机12中,但是在可替换的实施例中,声学模型107可以位于该移动设备上,如图7B所示例。在这些实施例中,对结果的其他请求被产生作为中间语音识别结果的函数,并被发送到远程计算机12。在图7B所示例的例子中,远程计算机12可以为主管语言模块109的web服务器。在该实例中,移动设备执行的语音识别依靠该web服务器来提供所需的语言模型或上下文信息。
语音识别搜索引擎105还可以使用收发信机27和数据传送14访问桌面计算机12的语言模型109中存储的信息。基于对声学模型107的访问和请求结果的接收,搜索引擎105通过数据传送14接收的信息可以在搜索语言模型109中使用以确定,最大可能表示从模块103所接收的中间语音识别结果的字。通过数据传送14中的反向信道通信链路110将该字发送回移动设备10和语音识别搜索引擎105。语音识别搜索引擎105使用声学模型107和语言模型109以及其他语音识别模型或本领域中已知类型的数据库,提供对应于由移动设备10的麦克风17所接收的原始声音信号的输出文本。语音识别引擎105实施的用于产生作为内部表示语音识别中间结果的函数的输出文本的特定方法,可以与上述示意性的实施例不同。
在其他实施例中,7C和7D所示例,移动设备10还可以包括本地语言模型111。当本地语言模型111包括在移动设备中时,语音识别搜索引擎105提供对结果的请求到远程计算机12的语言模块109和本地语言模型111。本地语言模型111类似于上述的语言模型109,其中可以搜索本地语言模型以确定一个单词,该单词最大可能表示从特征提取模块103所接收的中间语音识别结果。语音识别搜索引擎105被构造用于确定从两个语言模型接收的哪一个结果最佳匹配于该请求。选择最佳结果输出到用户作为识别的输出文本。在一些实施例中,远程语音模型109通过升级程序来升级本地语言模型111。这种升级可以通过基于web的升级程序,升级盘,或通过任何允许升级文件的其他设备来实现。在其他实施例中,语言模型109通过提供另外的语言模型容量来补充本地语言模型111,从而允许较小的本地语言模块包括在移动设备10的内部。
在图7D所示例的实施例中,移动设备10还包括本地声学模型113。在该实施例中,远程计算机12还包括一个声学模型107。本地声学模型113类似于上述的声学模型107,其中本地声学模型存储了表示移动设备10所检测的语音单元的声学模型。当本地声学模型113包括在移动设备10上时,语音识别搜索引擎105提供对结果的请求到远程计算机12上的声学模型107和本地声学模型113。在一个实施例中,基于隐藏马尔可夫模型和senone树,声学模型返回语音因素作为结果。但是,该结果可以基于其他模型。音识别搜索引擎105被构造用于确定从两个声学模型接收的哪一个结果是该请求的最佳匹配。语言模型109和111然后使用该请求的最佳匹配以确定用户所说的话。
正如上所讨论的,本发明可以利用使用分组协议的数字无线网络来从特征提取模块103发送中间识别语音结果以及从语音识别搜索引擎105发送对结果的请求。使用移动设备10将来自麦克风17的宽带语音信号转变为中间语音识别结果防止了当通过传送14发送信号时产生的数据丢失。这为移动计算设备提供了统一的桌面质量的音频语音识别。在一些实施例中,本发明的移动设备为被编程以两种模式工作的“智能”电话。当移动设备10的用户对另一个人谈话时,将通过传送14发送音频信号。当移动设备10的用户对着计算机12或其他机器说话时,则发送特征提取模块103所提供的中间结果或特征以及对来自语音识别搜索引擎105结果的请求。接下来,桌面计算机12,或其他相应的机器,将利用发送的特征执行语音识别。
总之,对结果的请求可以包括对声学模块数据的请求和/或对语言模块数据的请求。对这些结果的请求由位于移动设备10上的语音识别搜索引擎105产生。不论声学和语言模块的位置如何,必须将对于该结果的这些请求的至少一部分发送到第二计算设备12。在一个实施例中,语言模块和声学模块都位于第二计算设备12上,对结果的请求包括请求语言模块数据和声学模块数据。在另一个实施例中,声学模块位于移动计算设备10上以及语言模块位于远程计算设备12上。在本实施例中,将对来自语言识别搜索引擎105的结果的请求发送到本地声学模块。一旦被发送回语言识别搜索引擎,则将对语言模块数据结果的请求语言识别搜索引擎105发送到位于第二计算设备12上的语言模块。在另一个实施例中,语音识别搜索引擎发送对声学模块结果的请求到移动设备10上的声学模块和位于第二计算设备12上的声学模块。当从两个声学模块接收这些结果时,语音识别搜索引擎105发送对语言模块结果的请求到位于远程计算设备12上的语言模块。在再一个实施例中,语音识别搜索引擎105发送对声学模块数据结果的请求和对语言模块数据结果的请求到本地声学或语言模块以及位于第二计算设备12上的远程声学或语言模块。
尽管已经参考各种实施例描述了本发明,但是本领域的普通技术人员应该认识到,可以在形式和细节方面对作出改变,而不偏离本发明的精神和范围。
权利要求
1.一种执行语音识别的方法,该方法包括在移动计算设备的麦克风接收可听的语音;使用移动计算设备将可听的语音转换为语音信号;使用移动计算设备对该语音信号执行基本的语音识别功能以获得中间语音识别结果,其中对该语音信号执行基本的语音识别功能以获得中间语音识别结果还包括对语音信号执行特征提取功能以获得表示语音信号特征的中间语音识别结果;使用移动计算设备对语音信号执行第二语音识别功能以获得对表示被识别可听语音的语音识别结果的请求;为了访问位于第二计算设备上的至少一个模块而获得请求的语音识别结果,发送对语音识别结果请求的至少一部分到远离该移动设备的第二计算设备;以及在移动计算设备上从第二计算设备接收请求的语音识别结果,以提供代表可听语音的输出文本。
2.根据权利要求1所述的方法,还包括在第二计算设备接收结果请求的至少一部分;访问第二计算设备上的至少一个模块以得到请求的结果;以及发送该请求的结果到移动设备。
3.根据权利要求2所述的方法,还包括发送对结果请求的一部分到位于移动计算设备上的声学模型。
4.根据权利要3所述的方法,其中发送对结果请求的至少一部分到第二计算设备还包括,发送对结果请求的至少一部分到位于远程计算机上的语言模型,该方法还包括发送对结果请求的一部分到位于移动计算设备上的语言模型。
5.根据权利要求4所述的方法,还包括利用包含在第二计算设备的语言模型中的信息升级移动计算设备上的语言模型。
6.根据权利要求2所述的方法,其中访问第二计算设备上的至少一个模块包括访问在第二计算设备的存储器中存储的声学模型信息以在移动计算设备上提供代表可听语音的输出文本作为中间语音识别结果和声学模型信息的函数。
7.根据权利要求2所述的方法,其中访问第二计算设备上的至少一个模块包括访问在第二计算设备的存储器中存储的语言模型信息以在移动计算设备上提供代表可听语音的输出文本作为中间语音识别结果和语言模型信息的函数。
8.根据权利要求1所述的方法,其中移动计算设备将可听语音转换为语音信号还包括转换可听语音信号为模拟信号;和数字化该模拟信号以获得语音信号。
9.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定美频对数倒频谱系数,其中执行第二语音识别功能还包括基于美频对数倒频谱系数确定对结果的请求,其中发送对结果请求的至少一部分还包括基于美频对数倒频谱系数将对结果请求的至少一部分从移动计算设备发送到第二计算设备。
10.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定向量量化指数,其中执行第二语音识别功能还包括基于向量量化指数确定对结果的请求,其中发送请求还包括基于向量量化指数将请求从移动计算设备发送到第二计算设备。
11.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定隐藏马尔可夫模型(HMM)分数,其中执行第二语音识别功能还包括基于HMM分数确定对结果的请求,其中发送请求还包括基于HMM分数将请求从移动计算设备发送到第二计算设备。
12.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定隐藏马尔可夫模型(HMM)状态输出概率密度函数,其中执行第二语音识别功能还包括基于HMM状态输出概率密度函数确定对结果的请求,其中发送请求还包括基于HMM状态输出概率密度函数将请求从移动计算设备发送到第二计算设备。
13.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定对数倒频谱系数,其中执行第二语音识别功能还包括基于对数倒频谱系数确定对结果的请求,其中发送请求还包括基于对数倒频谱系数将请求从移动计算设备发送到第二计算设备。
14.根据权利要求1所述的方法,其中对语音信号执行基本的语音识别功能还包括根据语音信号来确定特征向量,其中执行第二语音识别功能还包括基于特征向量确定对结果的请求,其中从移动设备发送中间语音识别结果到第二计算设备还包括将特征向量从移动计算设备发送到第二计算设备。
15.根据权利要求1所述的方法,其中发送对结果请求的至少一部分还包括通过无线通信网络将对结果请求的至少一部分从移动计算设备发送到第二计算设备。
16.根据权利要求1所述的方法,其中发送对结果请求的至少一部分还包括通过通信网络将对结果请求的至少一部分从移动计算设备发送到第二计算设备,该通信网络的带宽小于移动计算设备上的麦克风的带宽。
17.根据权利要求1所述的方法,还包括在移动计算设备上提供输出文本,作为接收的请求结果的函数。
18.一种移动计算机包括适于转换可听语音为模拟信号的麦克风;耦合于麦克风并适于数字化可听语音以提供语音信号的模数转换器;适于对语音信号执行基本语音识别功能以提供中间语音识别结果的特征提取模块,其中中间语音识别结果表示语音信号的特征;语音识别模块,其被构造用于执行第二语音识别功能以获得对表示被识别的可听语音的语音识别结果的请求;以及收发信机,其耦合于语音识别模块并适于将对语音识别结果请求的至少一部分从移动计算机发送到远离该移动计算机的第二计算机,并适于从第二计算机接收所请求的语音识别结果。
19.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定美频对数倒频谱系数以及提供美频对数倒频谱系数作为中间语音识别结果。
20.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定向量量化指数以及提供向量量化指数作为中间语音识别结果。
21.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定隐藏马尔可夫模型(HMM)分数以及提供HMM分数作为中间语音识别结果。
22.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定隐藏马尔可夫模型(HMM)状态输出概率密度函数以及提供HMM状态输出概率密度函数作为中间语音识别结果。
23.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定对数倒频谱系数以及提供对数倒频谱系数作为中间语音识别结果。
24.根据权利要求18所述的移动计算机,其中特征提取模块适于根据语音信号确定特征向量以及提供特征向量作为中间语音识别结果。
25.根据权利要求18所述的移动计算机还包括被构造用于响应于对结果的请求而提供声学模型结果到语音识别模块的声学模型。
26.根据权利要求18所述的移动计算机还包括被构造用于响应于对结果的请求而提供结果到语音识别模块的语言模型。
27.根据权利要求24所述的移动计算机还包括被构造用于响应于对结果的请求而提供结果到语音识别模块的语言模型;其中语言模型被构造用于从远程语言模型进行升级。
28.根据权利要求25所述的移动计算机还包括被构造用于响应于对结果的请求而提供结果到语音识别模块的语言模型;其中语言模型被构造用于从远程语言模型进行升级。
全文摘要
本发明公开了一种执行语音识别的方法以及实施该方法的移动计算设备。该方法包括在移动计算机设备的麦克风接收可听的语音。然后在移动计算设备上将可听语音转换为语音信号。并且在移动计算设备上,对语音信号执行基本的和第二语音识别功能以获得对来自模块的结果的请求。接着,对结果的这些请求被从移动计算设备发送到远离于该移动计算设备的第二计算设备以获得结果,并发送回这些结果到移动计算设备以完成语音识别处理。
文档编号G10L15/28GK1538383SQ20041003269
公开日2004年10月20日 申请日期2004年3月23日 优先权日2003年3月24日
发明者黄学东 申请人:微软公司
用于移动计算设备的分布式语音识别的制作方法
相关推荐
专利名称:具有改良的温度范围和切换性能的电泳显示器的制作方法技术领域:本发明涉及一种新颖的电泳液组分,用来改善电泳显示器的温度范围和切换性能,特别是在低操作温度下。与本发明相关的背景技术电泳显示器(EPD)是基于悬浮在溶剂中的带电荷颜料微粒
专利名称:一种高亮度大功率led光源的制作方法技术领域:本实用新型涉及一种照明装置,具体地说,是涉及一种高亮度大功率LED光源。背景技术:物体成像质量的高低是对物体表面真实存在的缺陷进行检测的关键。例如对金属、塑料、纸和纤维等材料的表面进行
变声号角的制作方法【专利摘要】本实用新型提供一种变声号角,用于发出多种声音。该变声号角包括面壳,与所述面壳相配合形成腔体的底壳;安装在所述腔体内且具有进气端与出气端的发声器,与发声器相连接的具有进气口与出气口的变声器;所述发声器的进气端向腔
专利名称:显示装置及其制造方法技术领域:本发明涉及显示装置及其制造方法,特别是涉及像素缺陷的修正。背景技术:近年来,对于具有多个TFT(薄膜晶体管)等开关元件的有源矩阵型显示装置,越 来越强烈地要求提高显示品质。但是,由于伴随显示的高精细化
专利名称:带螺纹的汽喇叭发音室的制作方法技术领域:本实用新型涉及一种汽车喇叭发音装置,尤其是带螺纹的汽喇叭发音室。背景技术:目前,公知的汽喇叭发音室构造是,发音室壳体与上盖的边缘制成4处或5处小孔。这种发音室的紧固方式是将其上盖与壳体两部分
专利名称:一种激光晶体材料硼酸铥铝及其制备方法和用途的制作方法技术领域:本发明涉及晶体材料领域。特别是涉及一种激光—非线性光学的兼具自激活、自变频的多功能晶体。背景技术: 新波段、新类型激光晶体是当前学术界研究的主要课题之一。稀土激活离子T