提高统计语言模型准确度的方法及系统的制作方法-品牌商务网

提高统计语言模型准确度的方法及系统的制作方法
【专利摘要】本发明公开了一种提高统计语言模型准确度的方法及系统，该方法包括：获取训练语料，并将所述训练语料分为两部分：训练集和保留集；在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。利用本发明，可以有效提高语言模型的整体识别率。
【专利说明】提高统计语言模型准确度的方法及系统

【技术领域】
[0001] 本发明涉及语音识别【技术领域】，具体涉及一种提高统计语言模型准确度的方法及系统。

【背景技术】
[0002] 统计语言模型在自然语言处理技术中占有重要地位，在语音识别、光学字符识别、机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。在语音识别中，计算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子，然后显示或者打印给使用者。
[0003] 例如：给定拼音串：ta shi yan jiu sheng wu de ;
[0004] 可能的汉字串有以下几种：踏实研究生物的、他实验救生物的、他使烟酒生物的、他是研究生物的等等。
[0005] 如何让计算机选择一个最可能的汉字串，就要用到统计语言模型。
[0006] 在统计语言模型中，判断一个句子是否合理，就要看它的可能性大小。假定S表示一个有意义的句子，由一连串特定顺序排列的词Wp W2, . . .，Wn组成，即S = Wi，W2, . . .，Wn，η 是句子的长度，则S在文本中出现的概率为：
[0007] P ⑶=P (W" W2，…，Wn)
[0008] 由条件概率可知，S这个序列在文本中出现的概率等于每一个词出现的条件概率相乘，即：
[0009] P(S) =P(W1)XP(W2|W1)XP(W3|W 1，W2)X··· XPOVjH···，^
[0010] 其中，P(Wi)表示第一个词出现的概率，P^IWi)表示在已知第一个词的前提下，第二个词出现的概率，依此类推。
[0011] 但是依然有一个问题，就是文本序列越靠后的词，依赖的词越多，到最后一个词时可能都无法估算。为此，业界给出了一个简单有效的方法，即假设任意一个词Wi出现的概率只与它前面的词Wg有关，则上式（2)简化为：
[0012] p(s) = Pdi) xpdjffi) xp(w3|w2) x... xpdjw^)
[0013] 但是，对于统计语言模型，还有很多细节问题需要解决，其中一个问题就是零概率问题。而且，随着阶数的增大，估计为0的模型数越来越多，对语音识别正确率有较大影响。为此，现有技术中通过平滑处理来改进模型的整体正确率。目前，统计语言模型的平滑方法主要有：绝对折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。这几种方法，都是在使非零概率下降的时候，同时改变了非零概率之间的分布比例，导致语言模型困惑度上升，整体正确率下降。

【发明内容】

[0014] 本发明实施例提供一种提高统计语言模型准确度的方法及系统，在不改变非零概率之间的分布比例的情况下，消除零概率，提高语言模型的整体识别率。
[0015] 为此，本发明实施例提供如下技术方案：
[0016] 一种提高统计语言模型准确度的方法，包括：
[0017] 获取训练语料，并将所述训练语料分为两部分：训练集和保留集；
[0018] 在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；
[0019] 在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；
[0020] 利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语目模型。
[0021] 优选地，所述将所述训练语料分为两部分包括：
[0022] 按照任意比例将所述训练语料分为两部分。
[0023] 优选地，所述设定范围为0?1。
[0024] 优选地，所述目标函数为语言模型的困惑度PP :
[0025]

【权利要求】
1. 一种提高统计语言模型准确度的方法，其特征在于，包括：获取训练语料，并将所述训练语料分为两部分：训练集和保留集；在所述训练集上统计各阶语言模型对应的词频，并对词频为0的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。
2. 根据权利要求1所述的方法，其特征在于，所述将所述训练语料分为两部分包括：按照任意比例将所述训练语料分为两部分。
3. 根据权利要求1所述的方法，其特征在于，所述设定范围为0?1。
4. 根据权利要求1至3任一项所述的方法，其特征在于，所述目标函数为语言模型的困惑度PP :
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率，ni表示所述词串序列Si在所述训练集语料中出现的次数。
5. 根据权利要求4所述的方法，其特征在于，所述利用对应所述语言模型的最优补偿参数对所述语言模型进行优化，得到优化后的语言模型包括：对于同阶的非零概率部分，
对于同阶的零概率部分，
其中，词串序列h = 1_η+1, · · ·，Wh,词串序列h' = 1_η+2, · · ·，Wh, C(h)表示h在所述训练集语料中出现的次数；C(h，Wi)表示（h，Wi)在所述训练集语料中出现的次数；λ (h) 表示对应h的最优补偿参数：
6. -种提高统计语言模型准确度的系统，其特征在于，包括：语料获取模块，用于获取训练语料；拆分模块，用于将所述训练语料分为两部分：训练集和保留集；统计模块，用于在所述训练集上统计各阶语言模型对应的词频，并对词频为〇的语言模型设置对应的补偿参数，所述补偿参数的取值在设定范围内；最优补偿参数获取模块，用于在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值，获得使目标函数最小的最优补偿参数；优化模块，用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率，得到统计语言模型。
7. 根据权利要求6所述的系统，其特征在于，所述拆分模块按照任意比例将所述训练语料分为两部分。
8. 根据权利要求6所述的系统，其特征在于，所述设定范围为0?1。
9. 根据权利要求6至8任一项所述的系统，其特征在于，所述目标函数为语言模型的困惑度PP :
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率，ni表示所述词串序列Si在所述训练集语料中出现的次数。
10. 根据权利要求9所述的系统，其特征在于，所述优化模块具体按以下方式对所述语言模型进行优化：对于同阶的非零概率部分，
对于同阶的零概率部分
其中，词串序列h = 1_η+1, · · ·，Wh,词串序列h' = 1_η+2, · · ·，Wh, C(h)表示h在所述训练集语料中出现的次数；C(h，Wi)表示（h，Wi)在所述训练集语料中出现的次数；λ (h) 表示对应h的最优补偿参数，
【文档编号】G10L15/06GK104112447SQ201410366038
【公开日】2014年10月22日申请日期:2014年7月28日优先权日:2014年7月28日
【发明者】殷永光, 鹿晓亮, 梁修存申请人:科大讯飞股份有限公司

本文推荐提高统计语言模型准确度的方法及系统的制作方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656515787.html

当前位置：网站首页>专利 >正文

提高统计语言模型准确度的方法及系统的制作方法

相关推荐