话音命令控制和校验系统的制作方法-品牌商务网

专利名称：话音命令控制和校验系统的制作方法
技术领域：
本发明通常涉及一种提供受控接入如电信网、自动柜员机或诸如此类资源的系统和方法，特别涉及一个使用户可以说一个单个的命令来校验他或她的身份并指出该用户想要获得的动作或服务。
使用当前系统接入象电信网、自动柜员机这样的资源或其它一些类似资源的人们发现，为了获得所想要的服务或动作，它们须先校验它们的身份，然后输入一个命令。这些动作一般要求三个独立的步骤(1)用户提出身份声明；(2)校验该声明；和(3)用户给系统发出一个命令。由于当前的系统有时要求用户输入大量的硬数据来记忆数字或认定一种身份，然后提供一些象指纹、视觉图形或个人标识号这样的独立的校验，因此，身份校验本身就是复杂的。这是耗时且常常无效的。理想的装置应该是，通过简单地发出一个单个的话音命令来使用户身份得到鉴别，然后允许该用户接入一种资源。在获取接入一个电信网的情况下，在一个理想的系统中，主叫用户可以简单地说出他想呼叫谁，且系统将识别并校验主叫用户，然后完成该呼叫；这样，主叫用户可以简单地说“接通家里”或这样一些类似短语，呼叫就会被安置并记入正确的指定的账上。在要获取接入自动柜员机的情况下，理想的装置应该是发出一个象“查余额”这样的话音命令，而不用输入一个保密的PIN或提供象指纹这样的物理输入。
以上描述的这类真实讲话人的标识能力从技术上来说在目前是达不到的，因为在最大的分布处理系统中处理从大量可能接入的查寻者接收的语音抽样所需的存储和数据处理能力也不存在。在1992年6月30日授予Hunt等人的专利5,127,043中描述了一个折衷的方案，用讲话人独立语音识别来识别主叫用户指明的是谁，然后使用讲话人相关处理来校验该主叫用户的语音抽样的特性与为所指明的主叫用户而存储的那些相匹配。这意味着一个主叫用户可以说出一系列用作身份声明和校验短语的数字，然后说出一个命令。因为用户还须说出他或她的号码，且须在适当识别并处理该号码之后，用户才能说出附加的命令，因此，在目前还不能达到不必明确地输入一个身份声明并实施校验步骤而只说“接通家里”的目标。也在电信系统情况下的另一种方案在1993年1月19日授予Dow-den等人的专利5,181,237中得到描述。在那个专利中，给用户分配特定的个人电话号码，在拨号时，将该号码送至一个包含该用户的语音预记录短语的交换系统。这些短语可以是象“妈妈”、“代理人”、“家里”、“秘书”等等这样的短语，每个短语有一个相关的存储电话号码。当用户拨他或她的个人号码时，呼叫就连接至交换系统，并检索关于该用户的预记录短语，这样，用户发出的命令可与存储的短语相对照。如果匹配，就通过将呼叫接通至与命令相关的存储号码来执行该识别的命令。以这种方式，用户可简单地呼叫系统并说“接通家里”。尽管Dowden的方法具有一定的优点，但它未解决保密或接入控制的问题，而这对避免未授权个人的接入是必要的。
根据本发明，一个话音命令控制和校验系统为每个授权的用户存储一个或一系列由该授权用户发出的话音命令或短语的语音模型。每个语音模型有一个相关的动作分量，它规定了授权用户根据相应话音命令的发出而要求的特定动作。每个用户有一种向系统认定他或她所声明的身份的装置，而最好不需要象输入数字这样一个明显的动作。当认定一个身份时，由一个人随后说出一个话音命令，系统首先将该话音命令模型与对应具有所声明身份的该用户的存储模型相对照。如果匹配，则该话音命令被唯一地理解为符合其相关的动作分量，然后系统通过对包含于同一命令中的声音特性与存储模型的声音特性的比较来校验用户声明的身份。在成功校验的基础上，根据相关的动作分量来执行该命令。这样，系统的用户只发出了一个单个的命令就可既操作系统又校验他或她的身份。
在电信系统的情况下，本发明给每个用户分配一个特定的专用电话号码，用户拨该号码以接入电信网，并为每个用户存储一系列能被语音识别系统识别且能用来在讲话人校验系统中校验用户身份的话音命令。命令可以是各有一个相关目标电话号码的呼叫目标。当用户通过拨他或她的专用号码来接入系统时，用户只要简单地说“接通家里”或其它预训练的命令言词。通过将该命令与对应该用户的一个存储命令相对照来执行语音识别。如果命令匹配，则通过将同一命令的声音特性与对应该用户及对应该命令言词的预先存储的声音特性的比较来校验该主叫用户的身份。一旦主叫用户的身份被确认，就通过使用该命令的相关电话号码将呼叫接通至想要的目标来执行该命令。
本发明不局限于呼叫接通业务。一旦通过将和该拨号号码相关的存储语音特性与发出该呼叫的人的特性相比较而确认了用户身份，它就可用于和电信网一起向用户提供一系列广泛的功能。这可包括接入呼叫或信用卡业务、接入语音消息业务及诸如此类的业务。也应注意，由于本发明不需要输入用于校验目的的数字序列，因此，可从转盘电话以及装有按键音拨号的电话接入提供该业务的平台。而且，每个持卡者所拨的专用的号码可至少部分基于主叫用户的意愿。例如，呼叫可能到一个“500”号码，其中七个附加数字中的部分或全部由持卡者来选择。
本发明不局限于电信环境中的使用。例如，它可用在自动柜员机(ATM)方面，在这里，银行客户通过将银行柜员机卡插入ATM机来做出身份声明，然后发出一个话音命令，例如，来确定他或她的差额或从他或她的帐户中取出现款。事实上，就任何资源或设备而论，如汽车、银行等等，在为授权个人提供方便的接入的同时，系统能阻止未授权的接入。
根据以下详细的描述，将更全面地理解本发明，它应借助附图来阅读，其中

图1是一个说明根据本发明安排的话音命令控制和校验系统的框图；图2是一个说明用于图1的VRU115的一种配置的框图；图3是一个说明用于图1的DSP117的一种配置的框图；图4是一个说明系统在和话音命令训练时，在图1的系统中执行的过程的流程图；图5是一个说明此后话音命令作用于系统时，在图1的系统中执行的过程的流程图；且图6是一个说明存储于图1的数据库113中的一个典型记录的配置的图表。
首先参照图1，它示出了一个说明根据本发明安排的话音命令控制和校验系统的框图。安排一个用户接口101来使用户与处理器111相互作用，该处理器可与用户接口位于同一地点或远端并通过电信网109连接到接口101。接口101的主要功能是，允许系统的用户(1)输入并存储一个或多个语音模型或话音命令或短语；(2)认定一个身份；和(3)输入话音命令。接口101的具体配置取决于运用本发明的应用。当接口101远离处理器111时，比如当本发明用于允许接入一个电信网时，接口101可包括一个普通的电话机设备102。当接口101用在一个ATM机方面时，它可包括一个话筒103和扬声器104、一个读卡器105和用来输入一系列字母数字输入的键盘106。
处理器111包括几个互连的模块，它们一起执行实现本发明所需的大部分处理。首先，安排一个语音响应单元(VRU)115来辅助语音模型和话音命令的搜集和存储以及此后作用于系统的话音命令的处理。VRU115可使用一个由AT&T提供的CONVERSANT音频响应系统来实现，以下和图2一起进行更详细地描述。第二，安排一个数字语音处理器(DSP)117来为自动语音识别(ASR)和讲话人校验(SV)的目的而建立话音命令模型，而后将话音命令和存储模型进行比较，以识别该命令并校验该系统用户的身份。DSP117可以使用一个AT&T提供的DSP3处理器来实现，并在后面与图3一起进行更详细地描述。第三，安排一个数据库113来以一系列如图6所示格式化的记录去存储语音模型和有关系统用户的其它信息。数据库113可以作为一个独立单元使用任何市场上能买到的数据库产品来实现。另一方面，数据库113可以(a)是VRU115中数据库的部分，或(b)包含在象“智能卡”这样的便携设备中，该便携设备由用户携带并插入作为用户接口101的一部分的读卡器的系统中。“智能卡”构造的细节可在1989年1月17日授予Bernstein等人的专利4,798,322中找到。
当处理器111中的单元使用自动语音识别解释了给出的命令，并通过讲话人校验确定了系统的一个用户确实是一个授权用户时，从处理器111向命令控制单元121提供一个控制信号来实际执行该命令，从而允许“接入”或使用资源131。命令控制单元121的具体实现是根据本发明的特定应用及资源131的特定性质而改变的。例如，当本发明用于通过电信网控制呼叫传送时，命令控制单元121可以是一个通过剩余电信网单元提供长途呼叫的路由选择的交换机；在本例中，向网络单元的接入看作是资源131。当发明用于控制一个ATM交易时，命令控制单元121可以是一个软件控制过程，它允许客户接入关于他或她帐户的信息或接受一项提款，这两个都可认为是资源131。
现在参照图2，它示出了一个说明用于图1 VRU115的一个配置的框图。VRU115包括一个微处理器201，它根据包含于控制程序存储器207中的存储程序来操作，控制VRU中的各种其它单元的功能，所有这些通过一个公共总线209相连。由存储于存储器207中的控制程序所执行的过程在下面与图4及图5一起更全面地进行讨论。VRU115的其它单元包括一个可向系统的用户播放如话音提示这样的通知的通知发生器203，和一个可存储有关该通知的信息并且还存储用户提供的信息的数据库205。微处理器201还可执行逻辑功能并控制到数字语音处理器117的信息的应用和来自数字语音处理器117的信息的接收。这样，当提示用户发出一个话音命令时，VRU115能获取言词并送往DSP117。而且，如果提示用户认定一个身份声明，有关该声明的信息会被送往DSP117和/或数据库113。
现在参照图3，它示出了一个说明用于图1的数字语音处理器(DSP)117的一个配置的框图。广义地说，DSP在两个相互联系的单元中实现两个功能，也就是，在模型建立单元301中语音模型的构造，和在语音比较单元311中语音模型与所讲命令的比较。如前面所表明，DSP117可在一个AT&T提供的DSP3处理器或任何其它类似的处理器中实现，因此，图3所示单元的配置主要是基于功能性的而不是结构性的。
模型建立单元301和语音比较单元311各实施两种功能，一种有关自动语音识别，另一种有关讲话人校验。根据本发明，两种功能都在有关系统的每个用户的同一系列的话音命令上实施。这样，在以下和图4一起描述的模型建立或训练过程期间，安排模型建立单元301中的ASR单元303来构造每个系统的用户可能希望过后执行的至少一个(但通常是几个)话音命令。这些模型用于语音比较单元311中的ASR单元313以进行识别，即将语音命令的模型与预先存储的模型相对照，从而识别用户说的是什么。这些模型与一个动作分量一起存储于数据库113中，或如果愿意，存储于VRU115的数据库205中，如下所述，该动作分量指示应采取什么动作来实际完成系统的一个授权用户的话音命令。许多熟知的ASR技术中的任何一种，如在1992年9月8日授予Cameron等人的专利5,146,503中所描述的技术，可用于ASR单元303和313。
此外在以下和图4一起描述的模型建立过程中，设置模型建立单元301中的讲话人校验单元305来构造一个包含于同一命令中的声音特性的模型。这些声音特性用在语音比较单元311内的讲话人校验单元315中以进行校验，即将一个语音命令的声音特性与预先存储的声音特性相对照，从而确定使用该系统认定一个身份的那个人就是讲出或发出该命令的同一个人。因此，这就识别出了该用户是谁。这些声音特性也存储于数据库113中，或如果愿意，也可存储于VRU115的数据库205中。许多熟知的讲话人校验技术中的任何一种，如在1 982年12月7日授予Holmgren等人的专利4,363,102或1993年6月1日授予Doddington等人的专利5,216,720中所描述的技术，都可用于讲话人校验单元313和315。
图1～3所示系统的各种分量的功能将在下面和图4及图5一起做进一步的描述，图4和图5分别说明了在系统和话音命令训练时实施的过程，和此后在话音命令作用于该系统时实施的过程。
图4的训练或模型建立过程始于步骤401，这时给一个新用户分配一个专用的用户键或系统身份，它存储于数据库113的有关该用户的一个记录中。为每个用户建立的典型记录的格式。在下面和图6一起进行描述。用户键的分配过程可在由VRU115的通知发生器203发出的话音提示的控制下完成。本发明在电信环境下的一个应用中，用户于是可以首先拨一个有关VRU115的电话号码，在被识别为一个新用户之后，接收向用户请求姓名、地址、帐单信息及其它信息的话音提示，所有这些信息都存储在有关该用户键的记录中。此后，系统也可通过通知发生器203向用户通知专用的用户键或用于其后交易的标识符，通过它来获得受控接入资源131。在这个和其后步骤期间执行的逻辑和控制操作由根据存储于控制程序存储器207中的程序操作的微处理器201提供。本领域技术人员能很好地理解本发明的这一点。
在步骤401，用户键分配之后，训练过程包括一系列可执行一次或多次的步骤403～407。每次执行这些步骤，就形成ASR和话音命令的讲话人校验模型，在该话音命令和当确定一个授权用户发出该命令时要执行的动作命令之间建立联系，并将该模型和相联的动作命令存储起来。如前面所述，同一命令产生用于自动语音识别以及讲话人校验的模型。特别地，在步骤403中，由通知发生器203提示用户说出一个命令。当用户发出那个命令时，在步骤404中从用户收集一个语音抽样并将它作用到模型建立单元301，以便由ASR单元303和讲话人校验单元305来构造模型。如果必要，在步骤406中从用户获得一个动作命令，它描述当说出该命令时所执行的动作。然后，在步骤407中，模型和相联的动作命令存储于数据库113的该用户的记录中，该用户的键在步骤401中被分配。
作为电信网中适用于本发明的使用的一个例子，在步骤403中可提示用户说一个如“接通家里”这样的话音命令且在步骤404中由一个用户说出该命令。在步骤405中建立的该命令的模型与“家里”的电话号码联系起来，这是在步骤406中得到的，然后在步骤407中，模型和电话号码都存储于数据库113中。此后，如果在步骤408产生肯定的结果，说明有多个命令要处理，则图4的这一系列步骤403～407可重复多遍。作为例子，然后命令“接通办公室”、“接通车上”和“接通妈妈”可分别与对应于“办公室”、“车上”和“妈妈”的电话号码相联系。当处理完所有的命令时，在步骤408得到否定的结果，并在步骤409终止模型建立过程。
当一个人想使用本发明接入资源131或者使用该系统利用语音命令来完成一个任务时，其处理过程将在图5中描述。首先，在步骤501中，那个人认定他或她的身份并发出一个话音命令。当本发明在电信环境下实施时，在用户拨一个分配给他的专用电话号码时可认定身份。当本发明在ATM环境下实施时，在用户将卡放入读卡机中时可认定身份。在每种情况下，认定的身份用于在步骤503中从数据库113检索对应于该用户的适当记录。
下一步，在步骤505中，用户发出的语音命令在VRU115中收集并作用于语音模型建立单元301，以便构成ASR和讲话人校验的命令模型。在步骤507中，这些模型作用于比较单元311，以便最新产生的模型能与存储于其中的模型相比较。在步骤509中，用户发出的命令的ASR模型与ASR单元313中的存储的ASR模型相比较，从而确定是否能匹配任一存储的命令。如果在步骤510中确定了存在匹配，，则在步骤511中通过使用讲话人校验单元315对包含于同一命令中的声音特性与存储模型的声音特性进行比较来校验该用户声明的身份。在步骤513成功校验时，在步骤515中通过运用存储于数据库113的有关该话音命令的动作分量来执行该话音命令，以命令控制单元121。这可能依次导致用户获得向资源131的接入。如果步骤513的校验未成功，图5的过程可从步骤505开始进行重复。如果在步骤510未发现ASR匹配，图5的过程也可从步骤505开始进行重复。
现在参照图6，它示出了存储于数据库113的典型的用户记录的格式。给每个系统用户分配一个专用的用户标识码(ID)，它包含于列601中并标识该用户的记录。每个记录中的数据包括一系列包含于列602中的语音命令，它们与一系列包含于列603中的相应动作相联系，这些动作在授权用户发出语音命令并被系统识别时执行。例如，ID为1234的用户记录包含命令“家里”、“办公室”和“车”。当这些命令发出并识别出时，就拨叫了相关的电话号码(包含于列603中)。同样，ID为1235和9876的用户具有其它命令，如对于用户ID1235有“妈妈”、“爸爸”和“姐姐”，对于用户9876有“家里”、“传真”和“寻呼机”，它们每个都与不同的电话号码相联系。另外一个ID为9999的用户可使用本发明的系统来与ATM机相互配合。对这个用户，如果发出并识别“贷款”一词，则检索第一次贷款帐目XXX的余额并显示给用户，而如果发出并识别“存款”一词，则检索不同存款帐目YYY的余额并显示给用户。
通过一个将目前的一个电话呼叫卡的使用与应用本发明的一个系统的使用进行比较的例子，可更好地理解本发明的优点。在现有呼叫卡系统中，一个用户拨0或10—288一0，然后输入一个代表被叫用户的十位电话号码。然后主叫用户输入一个分给的、被校验的十四位呼叫卡号码。如果校验成功，则可以完成呼叫。使用本发明的系统，用户拨他或她所分配的十位接入号码，然后简单地说出他或她所想要的动作，比如说出“接通家里”(举例)。如果成功地校验了主叫用户的身份，则不用主叫用户再输入就可完成呼叫。这样，从主叫用户的观点来看，本发明使用起来更简单容易。讲话人校验和话音处理的现有方案与本发明所采用的方案之间的不同通过以下的分析来进一步说明目前，通过一个过程来证实身份和接入业务，该过程是1)用户做出身份声明；2)用户通过某装置校验他或她是声明人；3)校验后，声明人继续发出命令给业务或产品。
如在以上描述的Hunt等人的专利中，这个方案的一个变形是，将步骤1和2结合成单独一个步骤，从而在单独一个步骤中例如通过说一个帐号来完成声明和校验。在那种情况下，独立于讲话人的语音识别用于理释该帐号。然后，说出帐号的人的话音模式与和该帐号相联的存储的模型或样本进行对照。
根据本发明，采用了一个不同的方案，即步骤2和3组合在一起。以某种方式做出身份声明，例如通过使用分配给用户的专用电话号码。然后，允许用户说一个命令(如“接通家里”)。使用依赖于讲话人的语音识别来解释该命令。同时，发出该命令的人的话音模式和与该专用电话号码相关存储的、真正讲话人的讲话人校验模型进行对照。
如果愿意，可使接入电话号码成为用户可选和可改变的，以使另外再增加系统使用的灵活性。当然，对用户最重要的益处是，他们没有明显的帐号。
本发明不局限于呼叫完成业务，但一旦通过将和该拨号号码相关的存储语音特性与发到该呼叫的人的特性相比较而校验用户身份时，它就可用于向用户提供一系列更广泛的功能度。这可包括通过与一个根据本发明的系统相互作用而获得个人的银行余额，控制向银行计算机系统的接入。也应注意，由于本发明不需要输入用于校验目的的数字序列，因此，可从转盘电话以及装有按键音拨号的电话接入提供该业务的平台。而且，每个持卡者所拨的专用号码可至少部分基于主叫用户的意愿。例如，呼叫可能到一个“500”号码，其中七个附加数字中的部分由持卡者来选择。
本发明也不局限于电信网中的应用。而是本发明可用于一个“本地”环境中，例如一个用户在一个特定的地点和一个ATM机相互作用。在这样一种配置中，用户可通过向读卡机插入一个信用卡或类似标识装置来认定一个身份声明。然后，用户发出一个如“取余额”这样的话音命令。系统设置成首先通过将发出的该命令与对应于该用户的存储语音模型相比较来解释这个言词。如果该言词与一个特定的存储模型匹配，则通过将存储的讲话人校验模型与发出的同一命令的特性相比较来校验用户的身份。这样，系统可以是独立的，且不需要使用电信网来与中心处理器和数据库通信。
本领域技术人员可对本发明进行各种修改和修正。因此，本发明仅由所附的权利要求来限制。
权利要求
1.响应授权用户的话音命令执行其动作的方法，包括以下步骤为每个授权用户存储至少一个与话音命令相联的语音模型，所述命令具有一个相联的动作分量；从一个声明为授权用户的人那里接收一个声明的身份和一个话音命令；将所接收的话音命令与所述至少一个对应于具有所述声明的身份的授权用户的存储语音模型进行比较；如果所述话音命令与所述至少一个存储的所述授权用户的语音模型相匹配，使所述话音命令可唯一地解释为对应于其相关的动作分量，则通过进一步将所述话音命令的声音特性与所述存储模型相对照来校验该人的所述声明的身份；和如果校验了所述身份，利用所述相联的动作分量来用所述系统为所述人执行一个动作。
2.权利要求1所确定的方法，其中所述存储步骤还包括存储与所述每个语音模型相联的一个动作命令；且所述方法还包括在成功校验所述人的声明的身份时，执行所述动作命令。
3.一个话音控制系统，包括对每个用户以每个用户的声音形式存储一系列短语的装置从声明为一个所述用户的人那里接收特定短语的装置用于将所述特定短语与所存储的所述用户声明的一个短语相比较来标识该特定短语的装置通过将所述特定短语的特性与预先存储的同一短语的特性相比较来校验所述声明的一个所述用户的身份的装置在所述校验正确时执行一个与所述特定短语相联的命令的装置。
4.允许用户用话音命令控制一个系统的方法，包括以下步骤接收一个用户所说的命令；将所述命令与所述用户的存储短语相对照；如果存在一个匹配的存储短语，则通过将包含于所述命令中的话音特性与所述匹配的存储短语的话音特性相比较来校验所述用户的身份；和在成功校验时，执行所述命令。
5.权利要求4所确定的发明，其中所述执行步骤包括检索与所述命令相联的动作分量。
6.一个话音控制电信系统，包括给每个用户分配一个供用户拨号以接入电信网的专用电话号码的装置；为每个用户存储一系列能被一个语音识别系统识别且能用于在一个语音校验系统中校验用户身份的话音命令的装置；为每个所述命令存储一个相联的目标电话号码的装置；响应由用户拨出的所述专用电话号码和发出的话音命令的装置，用以通过将所述话音命令与所存储的该用户的所述话音命令相对照来进行语音识别；响应所述语音识别装置的装置，用以通过将所述话音命令的特性与该用户及该命令言词的预先存储话音的特性相比较来校验所述用户的身份；和响应用户身份校验的装置，用以通过使用与所述命令相联的电话号码完成到所想要的目的地的呼叫来执行所述话音命令。
全文摘要
一个话音命令控制和校验系统及方法为每个授权用户存储一个或一系列由授权用户发出的话音命令或短语的语音模型。每个语音模型具有一个相关的动作分量，根据相应的话音命令的言词来规定授权用户所想要的特定动作。每个用户具有认定他或她所声明的身份的装置。当认定身份后，说出话音命令，系统将该话音命令的模型与与存储模型相对照并校验。在成功校验时，执行该命令。
文档编号G10L15/10GK1118633SQ94191329
公开日1996年3月13日申请日期1994年12月28日优先权日1993年12月29日
发明者迈克尔·D·拉宾申请人:美国电报电话公司

本文推荐话音命令控制和校验系统的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656342473.html

当前位置：网站首页>专利 >正文

话音命令控制和校验系统的制作方法

相关推荐