当前位置:网站首页>专利 >正文

提高口语评测性能的方法及系统的制作方法

提高口语评测性能的方法及系统的制作方法
【专利摘要】本发明公开了一种提高口语评测性能的方法及系统,该方法包括:接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据;根据所述朗读题语音数据对各朗读题进行评分;从评分结果中获取自适应有效数据;根据所述自适应有效数据对预设的声学模型进行优化;利用优化后的声学模型对各半开放题进行评分。利用本发明,可以有效地提高口语评测的准确性。
【专利说明】提高口语评测性能的方法及系统
【技术领域】
[0001]本发明涉及语音信号处理【技术领域】,具体涉及一种提高口语评测性能的方法及系统。
【背景技术】
[0002]作为人际交流的重要媒介,口语语言在实际生活中占有极其重要的地位。随着社会经济的不断发展和全球化趋势的加剧,人们对语言学习的效率以及语言评估的客观性、公正性和规模化测试提出了越来越高的要求。传统的人工口语水平评测方法使教师和学生在教学时间和空间上受到很大限制,在师资力量、教学场地、经费支出等方面也存在诸多硬件上的差距和不平衡;人工评测无法避免评估者自身的个体偏差,从而不能保证评分标准的统一,有时甚至无法准确反映被测者的真实水平;而对于大规模口语测试,则需要大量的人力、物力和财力支持,限制了经常性、规模性的评估测试。为此,业界相继开发出了一些语言教学和评测系统。
[0003]口语评测主要涉及到两类题型,即朗读题型和半开放题型。其中,朗读题型是指要求用户朗读预设文本借以考察用户对基本语音单元发音的标准程度及语句朗读的流利程度;半开放题型是指由系统播放图像、视频或者短文等提示内容,并根据这些提示内容要求用户回答相关问题或口语复述播放内容等的测试项目。
[0004]对于半开放题型的口语评测,现有技术中主要是利用自动语音识别技术对用户语音内容进行文本识别,然后根据识别结果统计关键词汇和短语命中率等特征进行相关评分。由于半开放题型的口语评测标准主要在于判断关键词汇和短语是否出现语法错误,因此对待评测语音进行语音识别获取正确的识别结果显得尤为重要,如何提高在半开放性题型口语评测中语音识别结果的正确率是亟待解决的一个重要问题。

【发明内容】

[0005]本发明实施例提供一种提高口语评测性能的方法及系统,以提高口语评测的准确性。
[0006]为此,本发明提供如下技术方案:
[0007]一种提高口语评测性能的方法,包括:
[0008]接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据;
[0009]根据所述朗读题语音数据对各朗读题进行评分;
[0010]从评分结果中获取自适应有效数据;
[0011]根据所述自适应有效数据对预设的声学模型进行优化;
[0012]利用优化后的声学模型对各半开放题进行评分。
[0013]优选地,所述根据所述朗读题语音数据对各朗读题进行评分包括:
[0014]将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐,获取文本字串中各基本语音单元对应的语音信号片段;
[0015]计算所述基本语音单元与其对应的语音信号片段的似然度;
[0016]根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率;
[0017]根据所述后验概率计算各朗读题的得分。
[0018]优选地,所述从评分结果中获取自适应有效数据包括:
[0019]选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
[0020]优选地,所述方法还包括:
[0021]在根据所述自适应有效数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理,包括:
[0022]分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合;
[0023]依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应语句;
[0024]所述根据所述自适应有效数据对预设的声学模型进行优化包括:根据所述目标自适应语句对预设的声学模型进行优化。
[0025]优选地,所述从评分结果中获取自适应有效数据包括:
[0026]选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
[0027]优选地,所述方法还包括:
[0028]在根据所述自适应有效数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理,包括:
[0029]分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合;
[0030]依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应基本语音单元;
[0031]所述根据所述自适应有效数据对预设的声学模型进行优化包括:根据所述目标自适应基本语音单元对预设的声学模型进行优化。
[0032]优选地,所述根据所述自适应有效数据对预设的声学模型进行优化包括:
[0033]采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化;或者
[0034]采用基于最大后验概率的自适应方式对预设的声学模型进行优化。
[0035]一种提高口语评测性能的系统,包括:
[0036]接收模块,用于接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据;
[0037]朗读题评分模块,用于根据所述朗读题语音数据对各朗读题进行评分;
[0038]自适应数据提取模块,用于从所述朗读题评分模块输出的评分结果中获取自适应有效数据;
[0039]模型优化模块,用于根据所述自适应有效数据对预设的声学模型进行优化;
[0040]半开放题评分模块,用于利用优化后的声学模型对各半开放题进行评分。
[0041]优选地,所述朗读题评分模块包括:
[0042]对齐单元,用于将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐,获取文本字串中各基本语音单元对应的语音信号片段;
[0043]似然度计算单元,用于计算所述基本语音单元与其对应的语音信号片段的似然度;
[0044]后验概率计算单元,用于根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率;
[0045]得分计算单元,用于根据所述后验概率计算各朗读题的得分。
[0046]优选地,所述自适应数据提取模块,具体用于选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
[0047]优选地,所述系统还包括:
[0048]第一均衡模块,用于在根据所述自适应数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理;所述第一均衡模块包括:
[0049]统计单元,用于分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合;
[0050]第一确定单元,用于依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应语句;
[0051]所述模型优化模块,具体用于根据所述目标自适应语句对预设的声学模型进行优化。
[0052]优选地,所述自适应数据提取模块,具体用于选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
[0053]优选地,所述系统还包括:
[0054]第二均衡模块,用于在根据所述自适应数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理;所述第二均衡模块包括:
[0055]统计单元,用于分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合;
[0056]第二确定单元,用于依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应基本语音单元;
[0057]所述模型优化模块,具体用于根据所述目标自适应基本语音单元对预设的声学模型进行优化。
[0058]优选地,所述模型优化模块,具体用于采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化;或者采用基于最大后验概率的自适应方式对预设的声学模型进行优化。
[0059]本发明实施例提供的提高口语评测性能的方法及系统,从考生朗读题语音中提取有效自适应数据,并利用该数据对声学模型进行自动优化,从而将通用声学模型定制成与考生音色一致的考生模型,将话者无关模型转化成话者相关模型,极大地提高了语音识别效果,从而有效地提高了半开放题型甚至整体口语评测系统评分的准确性。
【专利附图】

【附图说明】
[0060]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0061]图1是现有技术中对半开放题型的评测方法的示意图。
[0062]图2是本发明实施例提高口语评测性能的方法的流程图;
[0063]图3是本发明实施例提高口语评测性能的系统的一种结构示意图;
[0064]图4是本发明实施例提高口语评测性能的系统的另一种结构示意图;
[0065]图5是本发明实施例提高口语评测性能的系统的另一种结构示意图。
【具体实施方式】
[0066]为了使本【技术领域】的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0067]下面首先对现有技术中对半开放题型的口语评测方法做简单说明。如图1所示,是现有技术中对半开放题型的评测方法的示意图。
[0068]该评测方法包括以下步骤:
[0069]步骤一:接收用户语音信号输入,即考生语音输入。
[0070]步骤二:语音信号特征提取,进一步还可包括语音信号的降噪预处理等。
[0071]所述语音信号特征是指能表征用户发音特点的矢量,通常可以提取和训练集相匹配的 39 维 MFCC (Mel Frequency Cepstrum Coefficient, Mel 频率倒谱系数)特征等。
[0072]步骤三:解码器根据提取的语音信号特征,确定语音信号对应的文本内容。
[0073]具体地,系统在搜索网络内搜索最优路径并确定最优识别结果。所述搜索网络由系统预设的声学模型、语言模型通过静态或者动态方式展开成巨大的搜索空间,并通过Viterbi算法获取N-Best解码结果。
[0074]步骤四:根据识别得到的文本内容确定当前用户的口语评分。
[0075]一般的系统会根据N-Best解码结果计算关键词或者短语命中比率等特征获得评分。
[0076]其中,声学模型用于描述各基本语音单元发音特点的数学模型,在统计模式识别应用中,其模型参数的确定往往要在海量的训练数据上统计得到,具体训练过程如下:
[0077](I)采集训练数据;
[0078](2)提取训练数据的声学特征;
[0079](3)设置声学模型拓扑结构;
[0080](4)声学模型参数训练。
[0081]语言模型训练过程主要是:收集语言模型训练所需的训练文本,并采用目前国际上主流的N-Gram统计语言模型作为所述语言模型的拓扑结构,然后采用最大似然估计得到训练文本中每个单词所有历史词汇的条件概率分布。
[0082]显然,上述步骤三中文本识别结果直接影响到口语评测的效果,识别结果越正确则口语评测越可靠。在自动语音识别系统设置下,解码器根据预设的声学模型、语言模型,通过静态或者动态方式展开成巨大的搜索空间,通过Viterbi算法获取N-Best解码结果。识别准确率与搜索网络、特别是声学模型的准确性及区分性有关。声学模型越精细,和测试环境越匹配,则识别准确率越高。
[0083]而传统系统采用的声学模型由于是系统预先在海量数据上训练得到的,往往具有较强的普适性,相应的对各具体发音人的识别就有所欠缺。特别是对半开放题型口语评分系统,不同考生音色之间存在较大的差异,且考场环境容易受到诸多因素影响,测试环境和训练环境往往存在较大的差异,预先训练的声学模型和考生音色失配,导致语音识别准确率极低,相应得传统语音识别系统给出的N-Best识别结果和标准答案之间的相关性往往较差。[0084]为此,本发明实施例提供一种提高口语评测性能的方法及系统,在对具体用户的口语进行评测过程中,首先对需要评测的朗读题部分进行正常口语评分,对评分结果分析获取有效的自适应数据,获取用户发音个性化信息,然后根据所述自适应数据对预设的声学模型进行优化,使声学模型与用户音色相匹配,然后再根据优化后的声学模型对半开放题型乃至整体口语题型进行评测。[0085]如图2所示,是本发明实施例提高口语评测性能的方法的流程图,包括以下步骤:[0086]步骤201,接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据。[0087]步骤202,根据所述朗读题语音数据对各朗读题进行评分。[0088]具体地,可以将朗读题语音数据与朗读题的题面文本信息进行字音对齐,获取文本字串中各基本语音单元对应的语音信号片段,然后计算各基本语音单元与其对应的语音信号片段的似然度,根据计算得到的似然度统计各基本语音单元与其对应的语音信号片段的后验概率,根据所述后验概率计算各朗读题的得分。[0089]所述后验概率是指在得到"结果"的信息后重新修正的概率。[0090]假设基本语音单元为Mi,其对应的语音信号片段为Oi,基本语音单元Mi与其对应的语音信号片段Oi的似然度为P (Oi I Mi),则计算基本语音单元Mi与其对应的语音信号片段Oi的后验概率P (Mi I Oi)的过程如下:[0091]首先计算语音信号片段Oi相对于基本语音单元Mi所属的混淆语音单元集合中各基本语音单元的似然度:[0092]P (Oi I Mj),j=l, 2,...,1-1, i+1,...,K[0093]其中,K为预设的语音单元个数。[0094]各基本语音单元所属的混淆语音单元集合可以预先设置,比如,可以将所有基本语音单元作为混淆语音单元集合。进一步地,还可以根据当前考察的基本语音单元的类别确定相同类别的混淆语音单元集合,如中文普通话评测中声母替换音素只允许是声母音素。更进一步地,还可以选择和当前考察的基本语音单元具有发音类似性的基本单元作为混淆语音单元集合。[0095]然后,根据概率公式可得给定语音片段O与基本语音单元Mi的后验概率为:
【权利要求】
1.一种提高口语评测性能的方法,其特征在于,包括: 接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据;根据所述朗读题语音数据对各朗读题进行评分; 从评分结果中获取自适应有效数据; 根据所述自适应有效数据对预设的声学模型进行优化; 利用优化后的声学模型对各半开放题进行评分。
2.根据权利要求1所述的方法,其特征在于,所述根据所述朗读题语音数据对各朗读题进行评分包括: 将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐,获取文本字串中各基本语音单元对应的语音信号片段; 计算所述基本语音单元与其对应的语音信号片段的似然度; 根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率; 根据所述后验概率计算各朗读题的得分。
3.根据权利要求2所述的方法,其特征在于,所述从评分结果中获取自适应有效数据包括: 选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
4.根据权利要求3所述的方法,其特征在于,所述方法还包括: 在根据所述自适应有效数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理,包括: 分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合; 依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应语句; 所述根据所述自适应有效数据对预设的声学模型进行优化包括:根据所述目标自适应语句对预设的声学模型进行优化。
5.根据权利要求2所述的方法,其特征在于,所述从评分结果中获取自适应有效数据包括: 选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
6.根据权利要求5所述的方法,其特征在于,所述方法还包括: 在根据所述自适应有效数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理,包括: 分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合; 依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应基本语音单元;所述根据所述自适应有效数据对预设的声学模型进行优化包括:根据所述目标自适应基本语音单元对预设的声学模型进行优化。
7.根据权利要求1至6任一项所述的方法,其特征在于,所述根据所述自适应有效数据对预设的声学模型进行优化包括:采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化;或者 采用基于最大后验概率的自适应方式对预设的声学模型进行优化。
8.一种提高口语评测性能的系统,其特征在于,包括: 接收模块,用于接收待评测的用户语音数据,所述语音数据包括:朗读题语音数据和半开放题型语音数据; 朗读题评分模块,用于根据所述朗读题语音数据对各朗读题进行评分; 自适应数据提取模块,用于从所述朗读题评分模块输出的评分结果中获取自适应有效数据; 模型优化模块,用于根据所述自适应有效数据对预设的声学模型进行优化; 半开放题评分模块,用于利用优化后的声学模型对各半开放题进行评分。
9.根据权利要求8所述的系统,其特征在于,所述朗读题评分模块包括: 对齐单元,用于将所述朗读题语音数据与所述朗读题的题面文本信息进行字音对齐,获取文本字串中各基本语音单元对应的语音信号片段; 似然度计算单元,用于计算所述基本语音单元与其对应的语音信号片段的似然度;后验概率计算单元,用于根据所述似然度统计所述基本语音单元与其对应的语音信号片段的后验概率; 得分计算单元,用于根据所述后验概率计算各朗读题的得分。
10.根据权利要求9所述的系统,其特征在于, 所述自适应数据提取模块,具体用于选择得分高于设定的第一门限的朗读题的语音数据作为自适应有效数据。
11.根据权利要求10所述的系统,其特征在于,所述系统还包括: 第一均衡模块,用于在根据所述自适应数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理;所述第一均衡模块包括: 统计单元,用于分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合; 第一确定单元,用于依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应语句; 所述模型优化模块,具体用于根据所述目标自适应语句对预设的声学模型进行优化。
12.根据权利要求9所述的系统,其特征在于, 所述自适应数据提取模块,具体用于选择后验概率高于设定的第二门限的基本语音单元对应的语音数据作为自适应有效数据。
13.根据权利要求12所述的系统,其特征在于,所述系统还包括: 第二均衡模块,用于在根据所述自适应数据对预设的声学模型进行优化之前,对所述自适应有效数据进行语音单元均衡处理;所述第二均衡模块包括: 统计单元,用于分别统计每句自适应有效数据中各类簇出现的次数,所述各类簇是指发音类似的基本语音单元集合; 第二确定单元,用于依据所述各类簇出现的次数,利用最小化目标函数确定目标自适应基本语音单元; 所述模型优化模块,具体用于根据所述目标自适应基本语音单元对预设的声学模型进行优化。
14.根据权利要求8至13任一项所述的系统,其特征在于, 所述模型优化模块,具体用于采用基于最大似然线性回归的自适应方式对预设的声学模型进行优化;或者采用基于最大后验`概率的自适应方式对预设的声学模型进行优化。
【文档编号】G10L25/03GK103594087SQ201310553383
【公开日】2014年2月19日 申请日期:2013年11月8日 优先权日:2013年11月8日
【发明者】高前勇, 魏思, 胡国平, 刘丹, 陈进, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种ccd相机调节装置的制作方法技术领域:—种CCD相机调节装置技术领域:本实用新型涉及CXD相机加工技术,尤其涉及一种CXD相机调节装置。背景技术::相机应用在监控固定范围的自动化视觉领域,常需要调整相机的角度来达到和监控范围一

    专利发布时间:2025-05-15阅读:(70)

    专利名称:阵列基板的制作方法技术领域:本实用新型涉及一种液晶显示设备,尤其涉及一种TFT阵列基板。技术背景液晶显示器(LCD)是利用施加在液晶分子上电场强度的变化,改变液晶分 子的取向控制透过光的强弱来显示图像。 一般来讲, 一块完整的液晶

    专利发布时间:2025-05-15阅读:(68)

    专利名称:光学子组件的制作方法技术领域:本发明涉及一种光学子组件以及一种用于该光学子组件的光学插座。本发明尤其涉及这样一种光学子组件,其具有适于接收装配光纤的装配端的以及适于与光学装置光学地连接的后端。背景技术: 通常,光学插座是这样一种光

    专利发布时间:2025-05-15阅读:(87)

    专利名称:振动促动器、透镜镜筒及照相机的制作方法技术领域:本发明涉及振动促动器、具有该振动促动器的透镜镜筒及照相机。 背景技术:振动促动器是利用压电体的伸缩而在弹性体的驱动面产生行进性振动波的器件, 利用该行波在驱动面产生椭圆运动,与椭圆运

    专利发布时间:2025-05-15阅读:(69)

    专利名称:组装装置的制作方法技术领域:本发明涉及一种组装装置,特别涉及一种应用于致动器与镜头的组装连接的组装装置。 背景技术:目前在致动器与镜头组装过程中,通常设计简单的致动器安放底座,将致动器安装于底 座上,然后将镜头由上往下用压棒组入,

    专利发布时间:2025-05-15阅读:(73)

    专利名称:具有非金属加强带的光缆的制作方法技术领域:本实用新型涉及一种通讯设备。更具体地说,本实用新型涉及一种具有非金 属加强带的光缆。背景技术:传统的光缆在芯层和最外侧护套之间, 一般采用磷化钢丝或磷化钢带缠绕编 织作为加强件。虽然这种方

    专利发布时间:2025-05-15阅读:(85)