专利名称:一种用于维吾尔语语音识别的识别单元的选择方法及系统的制作方法
技术领域:
本发明涉及语音识别领域,尤其涉及一种用于维吾尔语语音识别的识别单元的选择方法及系统。
背景技术:
语音识别的目标是把声学信号自动映射为词语序列。
图1是现有的的统计语音识别系统框图。在图1中,X1. .. Xt是时刻I到时刻T的声学特征序列,Wn是识别单元序列,识别器根据贝叶斯决策理论,使用声学模型和语音模型提供的信息,确定最佳的识别单元序列[W1. WN] opt,使得
权利要求
1.一种用于维吾尔语语音识别的词典单元的选择方法,其特征在于,所述方法包括 为待识别的语音准备相应的文本语料; 从所述文本语料中抽取不同的词语; 将所述不同词语输入形态分析器,在形态分析器分析成功时获得相应的词语的分解结果,在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解,从而获得相应的分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分; 将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。
2.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述形态分析器是基于有限状态转录机的形态分析器。
3.如权利要求2所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述形态分析器的生成过程如下根据附加成分结合顺序编译第一有限状态转录机,根据拼写变化规则编译第二有限状态转录机,将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。
4.如权利要求1所述的用于维吾尔语语音识别的词典单元的选择方法,其特征在于所述对所述词语进行基于削尾算法的词语分解,具体为从右向左扫描词语的子串,如果子串在附加成分列表中存在,则将其从词语中削去,如果余下部分在词干列表中存在,则分解结束。
5.一种用于维吾尔语语音识别的词典单元的选择系统,其特征在于,所述系统包括 文本语料准备模块,用于为待识别的语音准备相应的文本语料; 词语抽取模块,用于从所述文本语料中抽取不同的词语; 词语分解模块,用于将所述不同词语输入形态分析器,在形态分析器分析成功时获得相应的词语的分解结果,在形态分析器分析失败时对所述词语进行基于削尾算法的词语分解,从而获得相应的分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分; 词典单元确定模块,用于将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。
6.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述形态分析器是基于有限状态转录机的形态分析器。
7.如权利要求6所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述形态分析器的生成过程如下根据附加成分结合顺序编译第一有限状态转录机,根据拼写变化规则编译第二有限状态转录机,将所述第一有限状态转录机和第二有限状态转录机复合为所述形态分析器。
8.如权利要求5所述的用于维吾尔语语音识别的词典单元的选择系统,其特征在于所述对所述词语进行基于削尾算法的词语分解,具体为从右向左扫描词语的子串,如果子串在附加成分列表中存在,则将其从词语中削去,如果余下部分在词干列表中存在,则分解结束。
全文摘要
本发明实施例涉及一种用于维吾尔语语音识别的词典单元的选择方法及系统。方法包括为待识别的语音收集/准备相应的文本语料;从文本语料中抽取不同的词语;将所述不同词语输入形态分析器,分析成功时获得相应的词语的分解结果,分析失败时对所述词语进行基于削尾算法的词语分解,从而获得分解结果,以及根据所述分解结果,得到每个词语对应的词干以及附加成分;将所述文本语料中的词语映射为所述词干和附加成分,抽取高频词干和附加成分作为词典单元。本发明实施例根据维吾尔语形态变化的规则,将维吾尔语词语分解为词干和附加成分,然后选择词干和附件成分作为识别单元,从而缓解了识别系统集外词过多的问题,提高了系统的识别率。
文档编号G10L15/28GK103065632SQ201210560599
公开日2013年4月24日 申请日期2012年12月21日 优先权日2012年12月21日
发明者潘接林, 李鑫, 颜永红 申请人:中国科学院声学研究所, 北京中科信利技术有限公司