实现黏着语文本韵律短语划分的方法及系统的制作方法
【专利摘要】本发明公开了一种实现黏着语文本韵律短语划分的方法及系统,该方法包括:预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;在接收到待合成文本的单词串后,根据所述基本构词单元对所述单词串中每个单词进行切分,得到构词单元序列;确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;确定所述构词单元序列中各构词单元的词性;根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。利用本发明,可以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
【专利说明】实现黏着语文本韵律短语划分的方法及系统
【技术领域】
[0001]本发明涉及文本处理【技术领域】,具体涉及一种实现黏着语文本韵律短语划分的方法及系统。
【背景技术】
[0002]实现人机之间人性化、智能化的有效交互,构建高效自然的人机交流环境,已经成为当前信息技术应用和发展的迫切需求。作为语音技术中十分实用的一项重要技术,语音合成技术将文字信息转化为自然的语音信号,实现任意文本的实时转换,改变了传统通过录音回放实现机器开口说话的繁琐操作,并节省了系统存储空间,在信息交互日益增多的当今特别是在信息内容需要经常变动的动态查询应用方法发挥了越来越重要的作用。
[0003]近年来,随着信息社会的需求发展,用户对人机交互提出了更高的要求,高自然度的语音合成效果已经成为高性能语音合成系统的重要标志。
[0004]语音合成又称文语转换(Text to Speech)技术,文语转换过程是先将文字序列转换成语音单元序列,再由系统根据音韵序列生成语音波形。传统语音合成系统中主要在合成前端实现文本规整、字词切分、韵律短语划分等,随后在合成后端根据前端处理结果选择合适的语音拼接单元或合成参数实现带有停顿节奏的连续语音信号。反映连续语音节奏感的韵律问题,特别是韵律短语的合理切分直接影响到合成效果自然度乃至可懂度,受到越来越多研究人员的关注。
[0005]传统的韵律分析主要面向孤立语(如中文等)等常用语种应用。由于孤立语不通过词形变化来表达语法的作用,而仅通过独立的词和固定的词序来表达语法意义,因此词性意义明确,各词词性也是明确的,采用基于词序的韵律分析手段可以取得较好的结果。而近年来,随着国际交流的进一步深化,黏着语语音合成,特别是高自然度的黏着语语音合成对研究人员提出了新的要求。由于黏着语在语法构成及构词上不同于孤立语,传统的韵律分析方法直接应用于黏着语时效果不理想,因而有效提高黏着语的韵律分析效果成为新的研究方向。
【发明内容】
[0006]本发明实施例提供一种实现黏着语文本韵律短语划分的方法及系统,以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
[0007]为此,本发明实施例提供如下技术方案:
[0008]一种实现黏着语文本韵律短语划分的方法,包括:
[0009]预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
[0010]在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
[0011]确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
[0012]确定所述构词单元序列中各构词单元的词性;
[0013]根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
[0014]根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
[0015]优选地,所述基于数据统计方式确定黏着语的基本构词单元包括:
[0016]收集黏着语中的独立词、词干和词缀;
[0017]基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
[0018]计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
[0019]根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
[0020]由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单
J Li ο
[0021]优选地,所述根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列包括:
[0022]从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
[0023]依次对每个索引,利用前向算法切分构词单元,得到对应所述单词文本的多条切分路径;
[0024]利用n-gram模型和viterbi算法确定唯一路径;
[0025]根据所述唯一路径上的基本构词单元得到构词单元序列。
[0026]优选地,所述确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别包括:
[0027]根据词缀的词性确定所述词缀对词干的影响级别;
[0028]如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0 ;
[0029]如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
[0030]优选地,所述确定所述构词单元序列中各构词单元的词性包括:
[0031]对于所述构词单元序列中的词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为所述词干串的词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;
[0032]对于所述构词单元序列中的词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词干串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
[0033]优选地,所述根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性包括:
[0034]确定所述构词单元序列中构词单元的组合形式;
[0035]根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
[0036]一种实现黏着语文本韵律短语划分的系统,包括:
[0037]词典构建模块,用于预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;
[0038]接收模块,用于接收待合成的单词文本;
[0039]切分模块,用于对所述接收模块接收到的单词文本,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;
[0040]影响级别确定模块,用于确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;
[0041]构词单元词性确定模块,用于确定所述构词单元序列中各构词单元的词性;
[0042]单词词性确定模块,用于根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;
[0043]韵律短语划分模块,用于根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
[0044]优选地,所述词典构建模块包括:
[0045]收集单元,用于收集黏着语中的独立词、词干和词缀;
[0046]候选构词单元串生成单元,用于基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;
[0047]参数计算单元,用于计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;
[0048]选择单元,用于根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;
[0049]词典生成单元,用于由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
[0050]优选地,所述切分模块包括:
[0051]第一切分单元,用于从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
[0052]第二切分单元,用于依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
[0053]路径确定单元,用于利用n-gram模型和viterbi算法确定唯一路径;
[0054]构词单元序列获取单元,用于根据所述唯一路径上的基本构词单元得到构词单元序列。
[0055]优选地,所述影响级别确定模块包括:
[0056]第一确定模块,用于根据词缀的词性确定所述词缀对词干的影响级别;
[0057]第二确定模块,用于根据词缀串中包含的词缀对词干的影响级别确定所述词缀串对词干的影响级别,并且在词缀串中包含的所有词缀对词干的影响级别都为0时,确定所述词缀串对词干的影响级别为0 ;在词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
[0058]优选地,所述构词单元词性确定模块,具体用于通过查询包含所述基本构词单元的词典获取所述构词单元序列中的独立词、词干、以及词缀的词性,并且,对于所述构词单元序列中的词干串:在所述词干串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为所述词干串的词性;在所述词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:在所述词缀串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为词干串的词性;在所述词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
[0059]优选地,所述单词词性确定模块包括:
[0060]组合形式确定单元,用于确定所述构词单元序列中构词单元的组合形式;
[0061]词性确定单元,用于根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
[0062]本发明实施例提供的实现黏着语文本韵律短语划分的方法及系统,在基本构词单元中,引入可变长度词干(即词干串)及可变长度词缀(即词缀串),而且预先基于数据统计方式确定黏着语基本构词单元中的词干串和词缀串,进而在对单词文本进行切分时,可以充分提高切分精度,减少由歧义带来的词缀切分复杂度。另外,在确定单词词性时,不仅考虑到单词中各构词单元的词性,而且着重考虑到词缀和词缀串的功能特性,即词缀和词缀串对词干的影响级别,简化了单词词性确定的复杂性。本发明实施例的方法及系统可靠性闻、易实现、准确性闻,可以有效提闻黏着语的韵律分析效果,进而改善合成语首的韵律自然度及可懂度。
【专利附图】
【附图说明】
[0063]为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些附图获得其他的附图。
[0064]图1是本发明实施例实现黏着语文本韵律短语划分的方法的流程图;
[0065]图2是本发明实施例中确定黏着语的基本构词单元的流程图;
[0066]图3是本发明实施例实现黏着语文本韵律短语划分的系统的结构示意图。
【具体实施方式】[0067]为了使本【技术领域】的人员更好地理解本发明实施例的方案,下面结合附图和实施方式对本发明实施例作进一步的详细说明。
[0068]由于不同于孤立语的构词特点,黏着语(如维语、土耳其语、日语等语言)的单词通常由词干和词缀构成,即词干后可以附加多个句法功能不同的词缀。黏着语灵活多变的构词特性需要很大的词典才能达到和孤立语相当的结果,这对于语音合成系统文本处理而言是一个负担。其次黏着语词性定义含糊,自然词词形变化复杂,一个词干后可以加很多词缀,变化后的词在句法上相当于孤立语中的短语,单词词性意义不明确。再次黏着后的词序列接续情况也和孤立语言不同:即使对单个单词给出了词性,词与词之间接续的多变性对统计模型预测词性序列带来困难。显然传统的基于词性定义、标注和预测的孤立语处理方法不完全适用于黏着语文本分析,也不能获得令人满意的前端分析效果。
[0069]黏着性结构的语言中,大多数单词是由一个词干黏贴了一个到多个词缀而形成的,因此黏着语词性分析方面有如下特点:(1)词干词性比较明确;(2)每单个词缀有明确的词性功能;(3)词缀黏贴在词干上会不同程度地影响或改变词干词性;(4)多词缀化,即一个词干后可以被黏贴多个词缀;(5)词汇变化极其灵活,即有限的词干词缀可以衍生出无限的单词量。
[0070]由于黏着性结构语言的上述构词特点,使得传统的基于词干词缀等固有基本构词单元的切分及词性预测方法存在一定的问题,主要体现在以下两点:
[0071]1.词干词缀切分存在准确性问题:
[0072]在黏着语中,词干、词缀的组合存在歧义,如A、B、C是黏着语构词的最小单元,即词干、词缀,ABC结合形成单词。A可能是合法词干,AB也是合法词干,B是合法词缀,BC也是合法词缀,因此单词A BC有如下多种切分情况:A-B-C,AB-C, A-BC。歧义给词干词缀的切分带来了复杂性。
[0073]2.在获得正确的词干词缀切分后,如何标注该词的词性是一个值得探讨的问题:
[0074]例如前面提到的维吾尔语单词(拉丁表示)“dyingizge”有三个组成部份
“0乂-:11^2-§6”分别表示“家-你的-去”,表示“到你的家去”,其中0丫(是词干)是名词,如果将整词定义成名词,显然不合适,如果将整词词性描写成“名词+形容词+向格”,也会对处理带来一定困难。
[0075]考虑到传统黏着语分析中词干词缀切分及单词词性确定的复杂性和困难性,本发明实施例提出了一种实现黏着语文本韵律短语划分的方法及系统,以有效提高黏着语的韵律分析效果,进而改善合成语音的韵律自然度及可懂度。
[0076]如图1所示,是本发明实施例实现黏着语文本韵律短语划分的方法的流程图,包括以下步骤:
[0077]步骤101,预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串。
[0078]在本发明实施例中,在确定黏着语的基本构词单元时,不同于传统黏着语分析中选择固有的独立词、词干、词缀为基本构词单元,而是基于数据统计的方式,不仅将其固有的独立词、词干、词缀作为基本构词单元,而且在基本构词单元中还加入了词干串和词缀串。基本构词单元中的词干串和词缀串的确定将在后面详细描述。
[0079]步骤102,在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列。
[0080]在确定了黏着语的基本构词单元后,就可以根据该基本构词单元中的独立词、词干、词干串、词缀、词缀串对该单词文本进行切分,具体切分过程如下:
[0081](1)从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;
[0082](2)依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;
[0083](3)利用n-gram模型和viterbi算法确定唯一路径;
[0084](4)根据所述唯一路径上的基体构词单元得到构词单元序列。
[0085]前面所述的前向算法、以及n-gram模型和viterbi算法为现有技术,在此不再详细描述。
[0086]步骤103,确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别。
[0087]所述词缀对词干的影响级别是指增加词缀后词串词性变化内容和幅度。词缀的影响级别可以由词缀的词性类别来确定,以维吾尔语为例,具体如下表1所示。
[0088]表1:
词缀词性类别影响级别
(对词干词性的影响)
None0:不改变词干词性
[0089]态1
体2
语气3
格4
[0090]表1中,影响级别0表示不改变词干词性,影响级别4表示对词干的影响最大。
[0091]而词缀串对词干的影响级别可以按以下方式来确定,即:
[0092]如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0 ;
[0093]如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
[0094]步骤104,确定所述构词单元序列中各构词单元的词性。
[0095]所述构词单元序列中的构词单元可以包括:独立词、词干、词干串、词缀、词缀串,其中,独立词、词干和词缀都有明确的词性,可以查询词典得到。而词干串和词缀串的词性可以按以下方式来确定,即:
[0096]对于词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则由词干确定词干串词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;
[0097]对于词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词干串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
[0098]步骤105,根据所述构词单元序列中各构词单元的词性及所述词缀串对词干的影响级别确定所述单词文本的词性。
[0099]由于不同的单词文本可以具有不同的组合形式,因此,在本发明实施例中,可以根据单词文本的组合形式来确定其词性。以维吾尔语为例,可以有以下表2所示的几种方式。
[0100]表2:
[0101]
【权利要求】
1.一种实现黏着语文本韵律短语划分的方法,其特征在于,包括:预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串;在接收到待合成的单词文本后,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;确定所述构词单元序列中各构词单元的词性;根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
2.根据权利要求1所述的方法,其特征在于,所述基于数据统计方式确定黏着语的基本构词单元包括:收集黏着语中的独立词、词干和词缀;基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度 ,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
3.根据权利要求1所述的方法,其特征在于,所述根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列包括:从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引 ;依次对每个索引,利用前向算法切分构词单元,得到对应所述单词文本的多条切分路径;利用n-gram模型和viterbi算法确定唯一路径;根据所述唯一路径上的基本构词单元得到构词单元序列。
4.根据权利要求1所述的方法,其特征在于,所述确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别包括:根据词缀的词性确定所述词缀对词干的影响级别;如果词缀串中包含的所有词缀对词干的影响级别都为0,则确定所述词缀串对词干的影响级别为0 ;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
5.根据权利要求4所述的方法,其特征在于,所述确定所述构词单元序列中各构词单元的词性包括:对于所述构词单元序列中的词干串:如果词干串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为所述词干串的词性;如果词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:如果词缀串中包含的所有词缀对词干的影响级别都为0,则将词干的词性作为词干串的词性;如果词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0,则将词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
6.根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性包括:确定所述构词单元序列中构词单元的组合形式;根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
7.一种实现黏着语文本韵律短语划分的系统,其特征在于,包括:词典构建模块,用于预先基于数据统计方式确定黏着语的基本构词单元,所述基本构词单元包括:独立词、词干、词干串、词缀、词缀串; 接收模块,用于接收待合成的单词文本;切分模块,用于对所述接收模块接收到的单词文本,根据所述基本构词单元对所述单词文本进行切分,得到构词单元序列;影响级别确定模块,用于确定所述构词单元序列中词缀对词干的影响级别、以及词缀串对词干的影响级别;构词单元词性确定模块,用于确定所述构词单元序列中各构词单元的词性;单词词性确定模块,用于根据所述构词单元序列中各构词单元的词性及所述词缀和词缀串对词干的影响级别确定所述单词文本的词性;韵律短语划分模块,用于根据所述单词文本的词性、词长、以及所述单词文本中词的个数,进行韵律短语划分。
8.根据权利要求7所述的系统,其特征在于,所述词典构建模块包括:收集单元,用于收集黏着语中的独立词、词干和词缀;候选构词单元串生成单元,用于基于大规模语料库及所述词干和词缀,生成候选构词单元串,所述候选构词单元串包括:候选词干串和候选词缀串;参数计算单元,用于计算所述候选构词单元串的选择参数,所述选择参数包括以下任意一种或多种:词频、内部凝固度、外部链接度,所述内部凝固度表示候选构词单元串是基本构词单元的可能性,所述外部链接度表示候选构词单元串与其他词串结合成构词单元的可能性;选择单元,用于根据所述选择参数从所述候选构词单元串中选择词干串和词缀串;词典生成单元,用于由所述独立词、词干、词缀、以及选择的词干串和词缀串生成黏着语的基本构词单元。
9.根据权利要求7所述的系统,其特征在于,所述切分模块包括:第一切分单元,用于从所述单词文本最左或最右边开始,利用前向算法切分词干或词干串,得到多个索引;第二切分单元,用于依次对每个索引,利用前向算法切分词缀或词缀串,得到对应所述单词文本的多条切分路径;路径确定单元,用于利用n-gram模型和viterbi算法确定唯一路径;构词单元序列获取单元,用于根据所述唯一路径上的基本构词单元得到构词单元序列。
10.根据权利要求7所述的系统,其特征在于,所述影响级别确定模块包括:第一确定模块,用于根据词缀的词性确定所述词缀对词干的影响级别;第二确定模块,用于根据词缀串中包含的词缀对词干的影响级别确定所述词缀串对词干的影响级别,并且在词缀串中包含的所有词缀对词干的影响级别都为0时,确定所述词缀串对词干的影响级别为0 ;在词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将词缀串中对词干影响级别最高的词缀对词干的影响级别作为所述词缀串对词干的影响级别。
11.根据权利要求10所 述的系统,其特征在于,所述构词单元词性确定模块,具体用于通过查询包含所述基本构词单元的词典获取所述构词单元序列中的独立词、词干、以及词缀的词性,并且,对于所述构词单元序列中的词干串:在所述词干串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为所述词干串的词性;在所述词干串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词干串中对词干影响级别最高的词缀的词性作为所述词干串的词性;对于所述构词单元序列中的词缀串:在所述词缀串中包含的所有词缀对词干的影响级别都为0时,将词干的词性作为词干串的词性;在所述词缀串中包含的所有词缀中有一个或多个词缀对词干的影响级别不为0时,将所述词缀串中对词干影响级别最高的词缀的词性作为所述词缀串的词性。
12.根据权利要求7至11任一项所述的系统,其特征在于,所述单词词性确定模块包括:组合形式确定单元,用于确定所述构词单元序列中构词单元的组合形式;词性确定单元,用于根据所述组合形式及其中词缀或词缀串对词干的影响级别确定所述单词文本的词性。
【文档编号】G10L13/10GK103700367SQ201310630210
【公开日】2014年4月2日 申请日期:2013年11月29日 优先权日:2013年11月29日
【发明者】祖漪清, 吴朗, 黄昉, 何婷婷, 胡国平, 胡郁 申请人:安徽科大讯飞信息科技股份有限公司
实现黏着语文本韵律短语划分的方法及系统的制作方法
相关推荐
专利名称::含硅的精细图案形成用组合物以及使用它的精细图案形成方法技术领域::本发明涉及一种含硅的精细图案形成用组合物以及使用该精细图案形成组合物的精细图案形成方法,利用该方法,在半导体等的生产加工中,在形成抗蚀图之时,可以通过降低已形成的
专利名称::可互换镜头及使用它的摄像系统的制作方法技术领域::本发明涉及一种摄像装置,特别是涉及一种可互换镜头式数字摄像系统。背景技术::近年来,能够将被摄物的光学图像转换成电气图像信号后输出该电气图像信号的单镜头反光式数字摄像机迅速普及。
专利名称:Led三防灯的制作方法技术领域:本实用新型涉及照明技术领域,尤其涉及一种LED三防灯。背景技术:三防灯是指具有防水、防尘、防腐三防功能的灯具,可满足铁路、电力、冶金、石油石化及各类厂区、车间、场站和大型设施、场馆等场所的照明需求。
专利名称:回转活动式遮光装置的制作方法技术领域:本实用新型涉及镜头结构,更具体地说,涉及一种用于镜头的回转活动式 遮光装置。背景技术:随着电子产品的轻薄化,小型变焦镜头大量应用于各种成像设备,例如照 相机、摄像机、手机或类似设备。通常,都需
专利名称:一种led射灯的制作方法技术领域:本实用新型涉及LED灯具照明技术领域,具体地说是指ー种LED射灯。背景技术:随着人们生活水平的提高,LED射灯越来越普遍地运用到人们的日常生活中。目前,由于灯具体积的限制,小功率LED射灯难于达到
专利名称:一种带散热装置的太阳能灯的制作方法技术领域:本实用新型涉及一种带散热装置的太阳能灯。背景技术:目前,太阳能蜡烛作为一种新型太阳能电子设备,其在具有蜡烛效果满足审美需要的同时,又利用了太阳能这种清洁高效的自然资源。传统的太阳能蜡烛将