当前位置:网站首页>专利 >正文

一种用于维吾尔语语音识别的识别单元的选择方法及系统的制作方法

专利名称:一种用于维吾尔语语音识别的识别单元的选择方法及系统的制作方法
技术领域
本发明涉及语音识别领域,尤其涉及一种用于维吾尔语语音识别的识别单元的选择方法及系统。
背景技术
语音识别的目标是把声学信号自动映射为词语序列。

图1是现有的的统计语音识别系统框图。在图1中,X1. .. Xt是时刻I到时刻T的声学特征序列,Wn是识别单元序列,识别器根据贝叶斯决策理论,使用声学模型和语音模型提供的信息,确定最佳的识别单元序列[W1. WN] opt,使得
权利要求
1.一种用于维吾尔语语音识别的词典单元的选择方法,其特征在于,所述方法包括 为待识别的语音准备相应的文本语料; 从所述文本语料中抽取不同的词语; 将所述不同词语输入形态分析器,在形态分析器分析成功时获得相应的词语的分解结果,在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解,从而获得相应的分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分; 将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。
2.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述形态分析器是基于有限状态转录机的形态分析器。
3.如权利要求2所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述形态分析器的生成过程如下根据附加成分结合顺序编译第一有限状态转录机,根据拼写变化规则编译第二有限状态转录机,将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。
4.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述对所述词语进行基于削尾算法的词语分解,具体为从右向左扫描词语的子串,如果子串在附加成分列表中存在,则将其从词语中削去,如果余下部分在词干列表中存在,则分解结束。
5.一种用于维吾尔语语音识别的词典单元的选择系统,其特征在于,所述系统包括 文本语料准备模块,用于为待识别的语音准备相应的文本语料; 词语抽取模块,用于从所述文本语料中抽取不同的词语; 词语分解模块,用于将所述不同词语输入形态分析器,在形态分析器分析成功时获得相应的词语的分解结果,在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解,从而获得相应的分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分; 词典单元确定模块,用于将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。
6.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述形态分析器是基于有限状态转录机的形态分析器。
7.如权利要求6所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述形态分析器的生成过程如下根据附加成分结合顺序编译第一有限状态转录机,根据拼写变化规则编译第二有限状态转录机,将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。
8.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述对所述词语进行基于削尾算法的词语分解,具体为从右向左扫描词语的子串,如果子串在附加成分列表中存在,则将其从词语中削去,如果余下部分在词干列表中存在,则分解结束。
全文摘要
本发明实施例涉及一种用于维吾尔语语音识别的词典单元的选择方法及系统。方法包括为待识别的语音收集/准备相应的文本语料;从文本语料中抽取不同的词语;将所述不同词语输入形态分析器,分析成功时获得相应的词语的分解结果,分析失败时对所述词语进行基于削尾算法的词语分解,从而获得分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分;将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。本发明实施例根据维吾尔语形态变化的规则,将维吾尔语词语分解为词干和附加成分,然后选择词干和附件成分作为识别单元,从而缓解了识别系统集外词过多的问题,提高了系统的识别率。
文档编号G10L15/28GK103065632SQ201210560599
公开日2013年4月24日 申请日期2012年12月21日 优先权日2012年12月21日
发明者潘接林, 李鑫, 颜永红 申请人:中国科学院声学研究所, 北京中科信利技术有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:主镜与附属镜的结合装置的制作方法技术领域:本实用新型是一种主镜与附属镜的结合装置。背景技术:现有技术中,主镜与附属镜的结合装置多种多样,比如图1所示,是借助磁铁3和4之间磁力吸附使主镜1和附属镜2定位结合,又比如图2所示,是借助挂

    专利发布时间:2025-08-13阅读:(136)

    专利名称:静电图像显影剂用载体的制造方法技术领域:本发明涉及显影剂制造领域,具体的是说一种静电图像显影剂用载体的制造方法。背景技术:诸如静电图像显影等通过静电潜像使图像信息化的方法目前已广泛应用于各个领域。静电图像显影技术中,通过充电、曝光

    专利发布时间:2025-08-13阅读:(125)

    专利名称:信号处理的制作方法技术领域:本发明涉及对信息信号的处理,如对音频信号的编码或在信息信号中嵌入水印。在信息信号(如音频信号、视频信号等等)的信号处理领域中,通常的问题在于得到该处理的预期效果与不将可察觉的失真引入到信号中的一般目标之

    专利发布时间:2025-08-13阅读:(141)

    专利名称:投影支架的制作方法技术领域:本实用新型涉及文教或会议用具技术领域,具体讲是一种投影支架。 背景技术:投影仪的传统用法是放于桌面或者固定于室内的天花板上,为了获取较好的投影 效果,一般需要投影幕和投影仪配合使用,这样,就要求有放置投

    专利发布时间:2025-08-13阅读:(82)

    专利名称:液晶显示器件的基板及其制造方法技术领域:本发明涉及液晶显示器件,更具体地,涉及一种用于液晶显示器件的滤色器基板及其制造方法。背景技术: 通常,液晶显示(LCD)器件包括彼此分离并且其间插入有液晶层的第一基板和第二基板。第一基板具有

    专利发布时间:2025-08-13阅读:(105)

    专利名称:回射道路标记的制作方法回射道路标记本发明涉及由回射元件构成的道路标记,该回射元件具有至少一个设置在实心球 芯上的完整同心光学干涉层。背景技术:“回射性”是指制品受到光束照射时以光源方向将该光线基本上反射回去的能力。 回射道路标记是

    专利发布时间:2025-08-13阅读:(128)