当前位置:网站首页>专利 >正文

通过语音查询单词的系统及其方法


专利名称::通过语音查询单词的系统及其方法
技术领域
:本发明涉及一种通过语音查询单词的系统及其方法,尤其是一种根据接收的语音信号提供单词释义的单词查询系统及其方法。
背景技术
:对外语学习者而言,携带型电子词典或在线电子词典几乎是不可或缺的学习工具;携带型电子词典与在线电子词典相较之下是各有千秋,前者拥有携带方便、可随时查询的优势,而后者则具有数据量庞大与经济实惠的优点。但无论是使用携带型电子词典或是在线电子词典,若使用者欲查询一个只听闻其发音,却不知道其拼字的单词,就只能从发音去推敲这个单词的拼字,再输入电子词典进行查询;在使用者猜测错误情况下,电子词典将回复使用者查无此字,甚至是显示出非使用者想要的另一个单词。例如使用者原要查询一个发短音的单词[Pit/],却因为误会而输入长音的拼法peach,此时电子词典将出现非使用者所要的单词与解释;这样的状况不仅导致查询的不便,更因为使用者采取此种试误查询方式,而导致需花费较长的时间来获取所需的单词解释,此将增加网络与查询系统的负担。此外,因携带型电子词典的键盘较小,误键率较高,将使上述的试误过程更加不便。综上所述,可知先前技术于查询仅知其发音而不知其拼字的单词时,一直存在无法有效提供单词解释的问题,因此有必要提出改进的技术手段,来解决此问题。
发明内容本发明为解决
背景技术
中存在的上述技术问题,而提出一种通过语音查询单词的系统及其方法。本发明的技术解决方案是本发明为一种通过语音查询单词的系统,其特殊之处在于该系统包含音节数据库,储存有多个音节文件与对应音节文件的字母组合;音档数据库,储存有多个音文件与对应音文件的音文件关键词;字词数据库,储存有对应音文件关键词的字词数据;接收模块,用来接收语音信号;语音辨识模块,用来对语音信号进行端点检测,根据端点检测的样本,提取语音信号的特征,并根据语音信号的特征,将语音信号切分为音节;查找模块,用来在音节数据库查找出符合音节的音节文件,提取对应音节文件的字母组合,并依序拼合字母组合,产生单词;确认模块,用来确认音档数据库有符合单词的音文件关键词,并在字词数据库进一步查找对应音文件关键词的字词数据;显示模块,用来显示字词数据,所述接收模块接入语音辨识模块,所述音节数据库和语音辨识模块分别与查找模块连接,所述查找模块、音档数据库、字词数据库和显示模块分别与确认模块连接。上述语音辨识模块用来根据浊音特色进行语音辨识。上述语音辨识模块在切分语音信号为音节后,包含用来对音节进行修整。上述系统还包含输出模块,用来输出对应音文件关键词的音文件。上述系统可延伸应用至主从式架构。本发明还提供一种通过语音查询单词的方法,其特殊之处在于该方法包含下列步骤1)建立包含有多个音节文件与对应音节文件的字母组合的音节数据库、多个音文件与对应音文件的音文件关键词的音档数据库,以及包含有对应音文件关键词的字词数据的字词数据库;2)接收语音信号;3)对语音信号进行端点检测;4)根据端点检测的样本,提取语音信号的特征;5)根据语音信号的特征,将语音信号切分为音节;6)在音节数据库查找出符合音节的音节文件,提取对应音节文件的字母组合;7)依序拼合字母组合,产生单词;8)确认音档数据库包含有符合单词的音文件关键词;9)在字词数据库查找对应音文件关键词的字词数据;10)显示字词数据。上述步骤4)中端点检测的样本用来作为判断浊音的依据。上述步骤5)中将语音信号切分为音节后,修整音节。上述步骤10)之后还包含步骤11)输出对应音文件关键词的音文件。上述方法可延伸应用至主从式架构。本发明提供的通过语音查询单词的系统及其方法,具有对接收的语音信号进行语音辨识,以及对语音辨识产生的音节进行分析比对的技术手段;通过此技术手段可解决先前在查询仅知其发音而不知其拼字的单词时,一直存在的无法有效提供单词解释的问题,达成通过语音查询单词并有效提供单词释义的技术功效。图1为本发明系统方块示意图;图2为本发明方法步骤流程图;图3为本发明字词数据库其数据示意图;图4为接收语音信号示意图;图5.1为确认有对应字词数据的音文件接口示意图;图5.2为确认无对应字词数据的音文件接口示意图。其中,100-语音单词查询系统,110-音节数据库,120-音档数据库,130-字词数据库,140-接收模块,150-语音辨识模块,160-查找模块,170-确认模块,180-显示模块,510-标准发音,520-发音比较,530-ETTS发音;具体实施例方式参见图l,本发明的语音单词查询系统100包含有音节数据库110、音档数据库120、字词数据库130、接收模块140、语音辨识模块150、查找模块160、确认模块170与显示模块180。其中,音节数据库110包含有多个音节文件与对应各音节文件的字母组合;音节文件的档案格式可为「.wav」、「.mp3」或是其它格式的声音文件,而对应的字母组合其数据型态为如下所示<table>tableseeoriginaldocumentpage5</column></row><table>其中,对应档名为「00001.wav」的音节文件的字母组合为「A」。音档数据库120储存有多个音文件与对应各音文件的音文件关键词,此处的音文件其来源可为真人发音,档案格式可为「.wav」、「.mp3」,或其它格式的声音文件;此与前述的音节文件差异在于,音节文件为音节的声音文件,而音文件为音文件关键词的声音文件。字词数据库130储存有对应各音文件关键词的字词数据;对应音文件关键词"A"的字词数据为图3所示。接收模块140用来接收如图4所示的使用者录制的语音信号,语音辨识模块150用来对接收的语音信号进行端点检测,根据端点检测的样本,提取语音信号的特征,并根据浊音特征及语音信号的特征,将语音信号切分为音节。语音辨识技术着重于语音信号其特征的获取,如此才可将其与参考波形(音节文件)作比对,进行辨识。以下将对语音辨识模块150其可能的实施细节做详细说明。合理假设语音信号的变化是连续且缓慢的,因此常见的作法将接收的语音信号划分为若干个短时距(音框),其长度可为20ms至30ms不等,并对每个音框加窗(window);一般加窗大致以汉明窗口(HammingWindow)最常见,它具有压抑音框两端及保持中间段的特性,其它有矩形窗(RectangularWindow)与汉尼窗(HarmingWindow)。语音辨识模±央150可采用短时距能量(Short-TimeEnergyandAverageMagnitude)与短时越零率(Short-TimeAverageZero-CrossingRate)对每个音框进行端点检测;短时距能量代表振幅,后续将根据短时距能量数据来删除一些细小噪声,短时越零率为信号波形穿越横轴的次数,用来作为判断周期长短的依据。假设语音信号的采样频率为8Hz,每个音框的长度为20ms,共计160个采样点,每隔20ms(即一音框)计算一次短时距能量与短时越零率,并以Ei代表第i段音框的短时距能量,Zi代表第i段音框的短时越零率。根据上述端点检测的样本,提取语音信号的各音框的特征。由于一般单词发音的档案较整句辨识要小,其数据量不如整句辨识来的大,因此可先用快速排序法(Quicksort)对各音框的短时距能量与短时越零率进行排序(从小到大),并找出中位值Ehalf、l/3处的E1/3与3/4处的E3/4,以进一步计算峰值与谷值;其中,谷值位于第一个在邻近的10段音框中能量最小的音框处,若这样的谷值处不存在,则将谷值定义为在两个相邻峰值处间,能量最小的音框处。根据浊音具有较大振幅与其基音周期(短时越零率较低)的特点,运用上述计算值对语音信号进行音节划分;其中,峰值处代表浊音的核心位置,两个相邻峰值处之间的第一个谷值处作为音节的分界点,将语音信号切分为音节。接着对每个音节进行修整,检测每个峰值的基因周期,合并间距小于80ms的两个邻近峰值,删除这两个峰值间的谷值,并将其中能量较大的峰值作为新的峰值点;另外对于能量过小(小于E^)的峰值处与能量过大(大于E^)的谷值处,检测其邻近的基音周期参数删除不稳定的峰值处/谷值处,最后确定各音节的起始点与终止点。查找模块160通过线性预测分析得到包含线性预测倒频谱系数(LinearPredictiveC印strumCoefficients,LPCC)等各种参数,用来对各音节与音节数据库110的音节文件进行比对分析,查找出与各音节符合的音节文件;对于因所录制的语音信号不正确或不清晰,而导致显示非使用者所要的字词的情形,如使用者欲查询"pitch",却误发音为[pit/]而导致显示为"peach",故比对标准可设定为50%匹配,并提取对应音节文件的字母组合(如ba与by),并将字母组合依序拼合为单词(如baby)。对于每个单词,确认模块170用来确认音档数据库120存有符合该单词的音文件关键词,并进一步在字词数据库130查找对应音文件关键词的字词数据,由显示模块180显示字词数据,此时可增加显示标准发音510及发音比较520(参见图5.1),以及在语音单词查询系统100增加输出模块(图中未示),提供使用者在点选标准发音510选项或发音比较520时,由输出模块输出与音文件关键词对应的音文件,或输出比较音文件与使用者录制的语音信号所产生的比较音文件。若确认模块170确认音档数据库120无任何符合单词的音文件关键词时,可进一步自字词数据库130查找与单词符合的字词资料;若确认在字词数据库130有符合单词的字词数据时,显示字词数据,并增加显示ETTS(EnglishTexttoSpeech)发音530(参见图5.2),用来在使用者点选时,由输出模块根据单词输出ETTS发音,反之则由显示模块180显示提示告知使用者查找失败。参见图2,预先建立音节数据库110、音档数据库120与字词数据库130,其中音节数据库IIO储存有多个音节文件与对应音节文件的字母组合,音档数据库120储存有多个音文件与对应音文件的音文件关键词,字词数据库130储存有对应音文件关键词的字词数据;接收语音信号,并对语音信号进行端点检测(步骤210);根据端点检测的样本,提取语音信号的特征(步骤220);根据语音信号的特征,将语音信号切分为音节(步骤230);在音节数据库110查找出符合各音节的音节文件,提取其中音节文件对应的字母组合(步骤240);将字母组合依序拼合为单词(步骤250);确认音档数据库120有符合单词的音文件关键词(步骤260);在字词数据库130查找对应音文件关键词的字词数据,并显示字词数据(步骤270)。本方法采用短时距能量与短时越零率进行端点检测,而端点检测产生的样本用来作为判断浊音的依据;此外,在步骤230后可包含修整音节的步骤,最终确定各音节的起始点与终止点。在执行步骤270的显示字词数据的同时,可包含根据使用者的外部操作,输出对应音文件关键词的音文件,或是ETTS发音。本发明为接收使用者录制的语音信号,并通过端点检测等技术,根据浊音的特征将语音信号切分为音节,再以线性预测分析等技术比对出与各音节匹配的预设音节文件,获取其中各音节文件对应的字母组合,将字母组合依序拼合为单词,并查找与单词符合的音文件关键词;若有音文件关键词,则进一步显示音文件关键词的字词数据。本发明可应用在携带型电子词典,可延伸应用至主从式架构。综上所述,可知本发明与先前技术之间的差异在于具有对接收的语音信号进行语音辨识,以及对语音辨识产生的音节进行分析比对的技术手段,通过此技术手段可以解决先前技术所存在的问题,进而达成通过语音查询单词并有效提供单词释义的技术功效。权利要求一种通过语音查询单词的系统,其特征在于该系统包含音节数据库,储存有多个音节文件与对应音节文件的字母组合;音档数据库,储存有多个音文件与对应音文件的音文件关键词;字词数据库,储存有对应音文件关键词的字词数据;接收模块,用来接收语音信号;语音辨识模块,用来对语音信号进行端点检测,根据端点检测的样本,提取语音信号的特征,并根据语音信号的特征,将语音信号切分为音节;查找模块,用来在音节数据库查找出符合音节的音节文件,提取对应音节文件的字母组合,并依序拼合字母组合,产生单词;确认模块,用来确认音档数据库有符合单词的音文件关键词,并在字词数据库进一步查找对应音文件关键词的字词数据;显示模块,用来显示字词数据,所述接收模块接入语音辨识模块,所述音节数据库和语音辨识模块分别与查找模块连接,所述查找模块、音档数据库、字词数据库和显示模块分别与确认模块连接。2.根据权利要求1所述的通过语音查询单词的系统,其特征在于所述语音辨识模块用来根据浊音特色进行语音辨识。3.根据权利要求1所述的通过语音查询单词的系统,其特征在于所述语音辨识模块在切分语音信号为音节后,包含用来对音节进行修整。4.根据权利要求1所述的通过语音查询单词的系统,其特征在于所述系统还包含输出模块,用来输出对应音文件关键词的音文件。5.根据权利要求1所述的通过语音查询单词的系统,其特征在于所述系统可延伸应用至主从式架构。6.—种通过语音查询单词的方法,其特征在于该方法包含下列步骤1)建立包含有多个音节文件与对应音节文件的字母组合的音节数据库、多个音文件与对应音文件的音文件关键词的音档数据库,以及包含有对应音文件关键词的字词数据的字词数据库;2)接收语音信号;3)对语音信号进行端点检测;4)根据端点检测的样本,提取语音信号的特征;5)根据语音信号的特征,将语音信号切分为音节;6)在音节数据库查找出符合音节的音节文件,提取对应音节文件的字母组合;7)依序拼合字母组合,产生单词;8)确认音档数据库包含有符合单词的音文件关键词;9)在字词数据库查找对应音文件关键词的字词数据;10)显示字词数据。7.根据权利要求6所述的通过语音查询单词的方法,其特征在于所述步骤4)中端点检测的样本用来作为判断浊音的依据。8.根据权利要求6所述的通过语音查询单词的方法,其特征在于所述步骤5)中将语音信号切分为音节后,修整音节。9.根据权利要求6所述的通过语音查询单词的方法,其特征在于所述步骤10)之后还包含步骤11)输出对应音文件关键词的音文件。10.根据权利要求6所述的通过语音查询单词的方法,其特征在于所述方法可延伸应用至主从式架构。全文摘要本发明涉及一种通过语音查询单词的系统及其方法,具有对接收的语音信号进行语音辨识,以及对语音辨识产生的音节进行分析比对的技术手段;通过此技术手段可解决先前在查询仅知其发音而不知其拼字的单词时,一直存在的无法有效提供单词解释的问题,达成通过语音查询单词并有效提供单词释义的技术功效。文档编号G10L25/93GK101706797SQ20091021911公开日2010年5月12日申请日期2009年11月24日优先权日2009年11月24日发明者刘丽,陈淮琰申请人:无敌科技(西安)有限公司

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:双音笛子的制作方法技术领域:本实用新型属于管乐器技术领域,特别是涉及一种笛子。背景技术:现有的普通笛子,只有一个贴有笛膜的发音孔,吹奏时只能吹出单音而无法吹出双音。专利号为99214120.6的实用新型给出了一种双音笛,虽然能够吹

    专利发布时间:2025-07-01阅读:(359)

    专利名称:游戏系统及储存执行该游戏程序的可读取的存储介质的制作方法技术领域:本发明涉及一种以合着音乐操纵的目的构成的电视游戏系统。象DJ(Disc Jockey)那样把效果音叠加在作为BGM(Back Ground Music)演奏的音乐上

    专利发布时间:2025-07-01阅读:(99)

    一种伪装声音的识别方法及装置制造方法【专利摘要】本发明公开一种伪装声音的识别方法及装置,该识别方法是利用语音的基频特性估计语音转换的系数,并对Mel频率倒谱系数提取算法进行了改进,即利用线性插值伸缩将估计的系数整合到Mel频率倒谱系数提取算

    专利发布时间:2025-07-01阅读:(107)

    专利名称:吉他装饰保护面板组合的制作方法技术领域:本实用新型涉及一种弹奏用吉他,尤指一种用于起装饰作用并可以在磨损后方便更换的吉他装饰保护面板组合。背景技术:对于吉他来说,人们在弹奏的过程中,手指会在吉他桶的弹奏去拨动,因此经过长时间的弹奏

    专利发布时间:2025-07-01阅读:(111)

    全方位保护乐器的校音器夹子的制作方法【专利摘要】一种全方位保护乐器的校音器夹子,以解决现有技术存在易碰坏乐器或乐器上的油漆、硅胶垫或橡胶垫易脱落和不平整以及易脱手的问题。包括夹子本体,其特征在于:所述的夹子本体的上夹和下夹全方位包裹一层热塑

    专利发布时间:2025-07-01阅读:(112)

    专利名称:多芯光纤的制作方法技术领域:本发明涉及一种多芯光纤。 背景技术:当前,为了提供可以使一个发送站和多个加入者之间进行光通信的FTTH(Fiber To The Home)服务,例如如图8所示,实现了所谓的PON(Passive Op

    专利发布时间:2025-07-01阅读:(118)