当前位置:网站首页>专利 >正文

提高统计语言模型准确度的方法及系统的制作方法

提高统计语言模型准确度的方法及系统的制作方法
【专利摘要】本发明公开了一种提高统计语言模型准确度的方法及系统,该方法包括:获取训练语料,并将所述训练语料分为两部分:训练集和保留集;在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的补偿参数,所述补偿参数的取值在设定范围内;在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数;利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言模型。利用本发明,可以有效提高语言模型的整体识别率。
【专利说明】提高统计语言模型准确度的方法及系统

【技术领域】
[0001] 本发明涉及语音识别【技术领域】,具体涉及一种提高统计语言模型准确度的方法及 系统。

【背景技术】
[0002] 统计语言模型在自然语言处理技术中占有重要地位,在语音识别、光学字符识别、 机器翻译、汉语拼音输入、信息检索等许多系统中都得到了成功的应用。在语音识别中,计 算机需要知道一个文字序列是否能构成一个大家理解而且有意义的句子,然后显示或者打 印给使用者。
[0003] 例如:给定拼音串:ta shi yan jiu sheng wu de ;
[0004] 可能的汉字串有以下几种:踏实研究生物的、他实验救生物的、他使烟酒生物的、 他是研究生物的等等。
[0005] 如何让计算机选择一个最可能的汉字串,就要用到统计语言模型。
[0006] 在统计语言模型中,判断一个句子是否合理,就要看它的可能性大小。假定S表示 一个有意义的句子,由一连串特定顺序排列的词Wp W2, . . .,Wn组成,即S = Wi,W2, . . .,Wn,η 是句子的长度,则S在文本中出现的概率为:
[0007] P ⑶=P (W" W2,…,Wn)
[0008] 由条件概率可知,S这个序列在文本中出现的概率等于每一个词出现的条件概率 相乘,即:
[0009] P(S) =P(W1)XP(W2|W1)XP(W3|W 1,W2)X··· XPOVjH···,^
[0010] 其中,P(Wi)表示第一个词出现的概率,P^IWi)表示在已知第一个词的前提下,第 二个词出现的概率,依此类推。
[0011] 但是依然有一个问题,就是文本序列越靠后的词,依赖的词越多,到最后一个词时 可能都无法估算。为此,业界给出了一个简单有效的方法,即假设任意一个词Wi出现的概 率只与它前面的词Wg有关,则上式(2)简化为 :
[0012] p(s) = Pdi) xpdjffi) xp(w3|w2) x... xpdjw^)
[0013] 但是,对于统计语言模型,还有很多细节问题需要解决,其中一个问题就是零概率 问题。而且,随着阶数的增大,估计为0的模型数越来越多,对语音识别正确率有较大影响。 为此,现有技术中通过平滑处理来改进模型的整体正确率。目前,统计语言模型的平滑方法 主要有:绝对折扣平滑、Kneser-Ney折扣平滑、witten-bell折扣平滑等。这几种方法,都 是在使非零概率下降的时候,同时改变了非零概率之间的分布比例,导致语言模型困惑度 上升,整体正确率下降。


【发明内容】

[0014] 本发明实施例提供一种提高统计语言模型准确度的方法及系统,在不改变非零概 率之间的分布比例的情况下,消除零概率,提高语言模型的整体识别率。
[0015] 为此,本发明实施例提供如下技术方案:
[0016] 一种提高统计语言模型准确度的方法,包括:
[0017] 获取训练语料,并将所述训练语料分为两部分:训练集和保留集;
[0018] 在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对 应的补偿参数,所述补偿参数的取值在设定范围内;
[0019] 在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围 内的各值,获得使目标函数最小的最优补偿参数;
[0020] 利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计 语目模型。
[0021] 优选地,所述将所述训练语料分为两部分包括:
[0022] 按照任意比例将所述训练语料分为两部分。
[0023] 优选地,所述设定范围为0?1。
[0024] 优选地,所述目标函数为语言模型的困惑度PP :
[0025]

【权利要求】
1. 一种提高统计语言模型准确度的方法,其特征在于,包括: 获取训练语料,并将所述训练语料分为两部分:训练集和保留集; 在所述训练集上统计各阶语言模型对应的词频,并对词频为0的语言模型设置对应的 补偿参数,所述补偿参数的取值在设定范围内; 在所述保留集上按设定步长遍历对应所述语言模型的补偿参数在所述设定范围内的 各值,获得使目标函数最小的最优补偿参数; 利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概率,得到统计语言 模型。
2. 根据权利要求1所述的方法,其特征在于,所述将所述训练语料分为两部分包括: 按照任意比例将所述训练语料分为两部分。
3. 根据权利要求1所述的方法,其特征在于,所述设定范围为0?1。
4. 根据权利要求1至3任一项所述的方法,其特征在于,所述目标函数为语言模型的困 惑度PP :
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示 所述词串序列Si在所述训练集语料中出现的次数。
5. 根据权利要求4所述的方法,其特征在于,所述利用对应所述语言模型的最优补偿 参数对所述语言模型进行优化,得到优化后的语言模型包括: 对于同阶的非零概率部分,
对于同阶的零概率部分,
其中,词串序列h = 1_η+1, · · ·,Wh,词串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ (h) 表示对应h的最优补偿参数:
6. -种提高统计语言模型准确度的系统,其特征在于,包括: 语料获取模块,用于获取训练语料; 拆分模块,用于将所述训练语料分为两部分:训练集和保留集; 统计模块,用于在所述训练集上统计各阶语言模型对应的词频,并对词频为〇的语言 模型设置对应的补偿参数,所述补偿参数的取值在设定范围内; 最优补偿参数获取模块,用于在所述保留集上按设定步长遍历对应所述语言模型的补 偿参数在所述设定范围内的各值,获得使目标函数最小的最优补偿参数; 优化模块,用于利用对应所述语言模型的最优补偿参数计算所述语言模型的条件概 率,得到统计语言模型。
7. 根据权利要求6所述的系统,其特征在于,所述拆分模块按照任意比例将所述训练 语料分为两部分。
8. 根据权利要求6所述的系统,其特征在于,所述设定范围为0?1。
9. 根据权利要求6至8任一项所述的系统,其特征在于,所述目标函数为语言模型的困 惑度PP :
P(Si)表示所述保留集语料中的词串序列Si在所述训练集语料中出现的概率,ni表示 所述词串序列Si在所述训练集语料中出现的次数。
10. 根据权利要求9所述的系统,其特征在于,所述优化模块具体按以下方式对所述语 言模型进行优化: 对于同阶的非零概率部分,
对于同阶的零概率部分
其中,词串序列h = 1_η+1, · · ·,Wh,词串序列h' = 1_η+2, · · ·,Wh, C(h)表示h在所述 训练集语料中出现的次数;C(h,Wi)表示(h,Wi)在所述训练集语料中出现的次数;λ (h) 表示对应h的最优补偿参数,
【文档编号】G10L15/06GK104112447SQ201410366038
【公开日】2014年10月22日 申请日期:2014年7月28日 优先权日:2014年7月28日
【发明者】殷永光, 鹿晓亮, 梁修存 申请人:科大讯飞股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种发出转动的条形波浪灯光的led灯的制作方法技术领域:本实用新型涉及一种LED灯,特别是一种结构美观、光线效果美观的发出转动的条形波浪灯光的LED灯,属于LED照明件技术领域。背景技术:LED灯作为一种新兴的照明光源,具有体积小

    专利发布时间:2025-05-15阅读:(72)

    专利名称::一种高效率产生紫外飞秒脉冲激光的方法技术领域::本发明属于激光技术领域:,具体涉及一种基于窄带皮秒长脉冲激光与宽带啁啾皮秒长脉冲激光在非线性晶体中和频,高效率地产生紫外飞秒脉冲激光的方法。背景技术::紫外飞秒脉冲激光,尤其是深紫

    专利发布时间:2025-05-15阅读:(68)

    专利名称:取像透镜系统的制作方法技术领域:本发明涉及取像透镜系统,尤其涉及高性能且小巧的取像透镜系统,适用于用固态成像传感器来捕获物体图像的数字输入设备(比如,数码相机或数字摄像机)。背景技术: 近年来,随着个人计算机等的普及,允许图像数据

    专利发布时间:2025-05-15阅读:(72)

    专利名称:套管旋转定位式多调笛子的制作方法技术领域:-本实用新型涉及 -种利用套管旋转来实现转调的民族乐器一一笛子。技术背景-H前公知的民族乐器笛子,每支的原调均为一笛一调,吹奏时如需转调,就要更换 笛下,或者变换指法,很不方便。发明内容为

    专利发布时间:2025-05-15阅读:(76)

    专利名称:一种透光镜的制作方法技术领域:本实用新型涉及照明工具技术领域,具体来说是一种透光镜。背景技术:透光镜是照明工具上常用的零部件,用于保护灯具和增大焦距,然而现有的透光镜,在使用的时候,仍然存在聚焦效果不好的缺陷。因此,特别需要一种透

    专利发布时间:2025-05-15阅读:(74)

    专利名称:用于可伸缩声道解码的方法、介质和设备的制作方法用于可伸缩声道解码的方法、介质和设备本申请是向中国知识产权局提交的申请日为2007年I月11日的标题为“用于可伸缩声道解码的方法、介质和设备”的第200780002329. X号申请的

    专利发布时间:2025-05-15阅读:(97)