当前位置:网站首页>专利 >正文

声音识别装置的制作方法

专利名称:声音识别装置的制作方法
技术领域
本发明涉及一种具有多个声音识别辞典以进行声音识别的声音识别装置, 特别涉及一种具有与便携式电话等外部连接设备对应的声音识别辞典的声音 识别装置。
背景技术
一般,在声音识别装置中,参照声音识别辞典中所登录的单词(词汇)以进 行声音识别,为了提高声音识别率,必须在声音识别辞典中登录较多的单词。 因此,在声音识别装置中,有的具有用户向现有的声音识别辞典中追加登录单 词以更新声音识别辞典的功能以及/或者生成用户个人用的声音识别辞典的功 能。例如,在声音识别装置中,有的当生成利用声音输入而生成电子邮件中所 使用的声音识别辞典时,如果检测出开始邮件生成处理,则读入应用中所取得 的文件数据并分析文件数据,抽出现有的声音识别辞典中所不存在的未知词, 从而生成包含所抽出的未知词的声音识别辞典(例如,参照专利文献l)。再有,有的在生成、更新声音识别辞典时,在第l分析辞典存储部中存储登录有日常所使用的词汇的表述以及读法等的第l分析辞典,在第2分析辞典存 储部中存储登录有特殊的词汇的表述以及读法等的第2分析辞典, 一方面在文 本分析部中使用两个分析辞典以进行词素分析,另一方面当用读法赋予部2向 输入词素赋予读法时,与第2分析辞典的登录词汇相关并向对应表中记录第2分 析辞典的词汇/读法的组合和其他候补/读法候补的组合,利用声音识别辞典生 成部并根据对应表的内容来生成声音识别辞典,并且根据使识别词汇与第2分 析辞典的音素表述以及其他的音素表述候补对应而生成声音识别辞典(例如,参 照专利文献2)。专利文献l:日本专利特开2004 — 233577号公报(第3页 第9页,图1 图9) 专利文献2:日本专利特开2003 — 271183号公报(第6页 第12页,图1 图47)因为以往的声音识别装置是如上所述那样构成,所以生成、更新声音识别 辞典时的对象限定为能够发送接收文件数据的应用对象,由于与声音识别装置 连接的外部连接设备的不同,识别时单词的使用频率有很大不同,而且如果考 虑到由于外部连接设备的不同而引起识别时使用的单词、词汇也不同,则对于 生成、更新单一的应用对象(S卩,单一的外部连接设备)用的声音识别辞典,就 存在着如果外部连接设备不同、则不能够有效地进行声音识别的问题。另外,在以往的声音识别装置中,因为在单一的声音识别辞典中登录分析 后的单词,所以如果增加登录单词数,则使声音识别辞典的检索花费较长时间, 不仅不能够有效地进行声音识别,而且有时相似词增多,降低识别率。本发明正是为了解决上述问题而设计的,其目的在于得到一种能够根据外 部连接设备有效地进行声音识别的声音识别装置。发明内容本发明的声音识别装置,其特征在于,参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果,其包括与外部连接设备连接且从外部连接设备取得其种类、同时取得登录于外部连接设备中的数据的外部信息取得单元;从数据中将词汇进行抽出以作为抽出词汇、对抽出词汇进行分析并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元;以及在与种类对应的声音识别辞典中存储分析数据的辞典生成单元,对每种外部连接设备具有声音 识别辞典。如上所述,根据本发明,由于其构成为对于声音识别结果判定是否是误 识别,如果判定为是误识别,则切换声音识别辞典而继续进行声音识别处理, 所以用户不进行特别的操作,而能够切换声音识别辞典以进行声音识别,结果 具有能够縮短声音识别处理时间且提高识别率的效果。


图l是与外部连接设备一起表示根据本发明实施形态l的声音识别装置的 一个例子的框图。图2是用于说明在图1所示的声音识别装置中向声音识别辞典登录词汇的 流程图。图3是用于说明在图1所示的声音识别装置中声音识别辞典的更新以及新 生成的流程图。图4是与外部连接设备一起表示根据本发明实施形态2的声音识别装置的 一个例子的框图。图5是用于说明在图4所示的声音识别装置中将声音识别辞典设置为有效 的动作的流程图。图6是与外部连接设备一起表示根据本发明实施形态3的声音识别装置的 一个例子的框图。图7是用于说明在图6所示的声音识别装置中外部信息词汇分析单元的动 作的流程图。图8是用于说明在图6所示的声音识别装置中词汇候补提示单元的动作的 示意图,(a)以及(b)分别是表示由词汇候补提示单元所提示的词汇候补的例子的 示意图。
具体实施方式
下面,为了更加详细地说明本发明,参照附图来说明用于实施本发明的最 佳形态。实施形态l图l是表示根据本发明实施形态l的声音识别装置的一个例子的框图,图示 的声音识别装置10例如在汽车导航装置中使用。声音识别装置10具有话筒等 的声音输入单元ll、声音识别单元12、以及多个声音识别辞典(下面仅称为辞 典)13—1至13 — N(N为2以上的整数),同时具有外部信息取得单元14、外部信 息词汇抽出单元15、外部信息词汇分析单元16、外部信息辞典生成单元(辞典生 成单元)17、词汇分析用辞典18、以及CDDB(光盘数据库将与音乐CD中所收 录的乐曲相关的信息提供给用户的CD再生软件或者外围设备用的数据库)19。 然后,多个外部连接设备20—1至20 — N与外部信息取得单元14连接。另外,利用外部信息词汇抽出单元15、外部信息词汇分析单元16、词汇分 析用辞典18、以及CDDB19构成词汇抽出分析单元,利用词汇分析用辞典18以 及CDDB19构成分析辞典。外部连接设备20—l至20 —N是例如便携式电话、小型音乐播放器(例如, iPod(商品名))、键盘、或者PDA(Personal Digital Assistant:个人数字助理),是互不相同的装置,辞典13—1至13 — N分别与外部连接设备20—1至20 — N对应。 当进行声音识别时,将从声音输入单元ll所输入的声音给与声音识别单元12,声音识别单元12参照后述所生成的辞典13—1至13 — N之中的某1个来识别输入声音,并且输出声音识别结果。即,当对外部连接设备20 — n(n为l至N的任意数)进行声音识别时,使用辞典13—n来进行声音识别。另外,根据上述声音识别结果,例如,在汽车导航装置中,进行画面的变化或者外部连接设备20 — n的操作,变化后的画面或者外部连接设备的操作结果显示在监视器等上。 接着说明动作。如果参照图1及图2来说明辞典13—1至13—N的生成,则现在如果将外部连 接设备20 — n与外部信息取得设备14连接,则从外部连接设备20 — n将用于确定 设备的ID信号给与外部信息取得单元14。通过这样,外部信息取得单元14判别 外部连接设备20 — n的种类。接着,当外部信息取得单元14在取得存储于外部连接设备20 — n内的数据 (例如,如果为便携式电话,则为接收邮件,如果为iPod,则为曲名、艺术家名、 专辑名称等)(步骤ST1)之后,向外部信息辞典生成单元17通知外部连接设备20 一n的类别(种类)(步骤ST2)。另外,如果变更与外部信息取得单元14连接的外 部连接设备20 — n,则同样地要执行步骤ST1以及ST2。将用外部信息取得单元14取得的数据给与外部信息词汇抽出单元15,这里 抽出成为分析对象的部分(例如,接收邮件的正文、曲名、艺术家名、或者专辑 名称等),以作为抽出数据,并将其给与外部信息词汇分析单元16(步骤ST3)。当所抽出的数据是邮件文章那样的文章时,用外部信息词汇分析单元16进 行词素分析,参照词汇分析用辞典18,将文章划分为单词,将分析时所得到的 读法赋予各单词而得到分析数据(步骤ST4)。另一方面,当所抽出的数据是曲名 或者艺术家名等单词时,外部信息词汇分析单元16将其表述作为关键词,来检 索CDDB19,取得读法并赋予该词汇以作为分析数据。将这些分析数据从外部信息词汇分析单元16传递到外部信息辞典生成单 元17,外部信息辞典生成单元17根据从外部信息取得单元14送来的外部连接设 备种类,向与外部连接设备20 — n对应的辞典13 — n中存储分析数据(步骤ST5)。 这样,能够与外部连接设备20—1至20 — N对应生成辞典13 — 1至13—N。然而,上述的辞典13—1至13—N保存于存储器中的辞典保存区域中,且不会被规定的用户以外的用户删除。因此,每次起动声音识别装置IO、或者切换外部连接设备20 —n时,使用与外部连接设备20 — n对应的辞典13 — n。接着,如果参照图3来详细地说明上述步骤ST5,则在用外部信息辞典生成 单元17将分析数据存储于辞典13 — n时,首先,根据外部连接设备20 — n的种类 来判定是否存在相应的辞典13 — n(种类判定单元步骤ST6),如果不存在相应 的辞典13 —n,则在辞典保存区域中重新生成辞典13—n(辞典生成单元步骤 ST7),并将分析数据存储于该新辞典13 — n中。另一方面,在步骤ST6中,当判定为与外部连接设备20 — n对应的辞典13 一n存在时,外部信息辞典生成单元17检查辞典13 — n中的词汇,检查是否有与 分析数据一致的词汇。即,从分析数据中抽出辞典13 — n中不存在的数据(步骤 ST8),仅将辞典13—n中不存在的分析数据保存在辞典13—n中,更新辞典13 — n(辞典更新单元步骤ST9)。然后,外部信息辞典生成单元17去除已经存在于 辞典13 — n中的分析数据。另外,在更新辞典时,也可以在存在于辞典的词汇之中删除不包含于分析 数据中的词汇。通过这样,能够防止存储于辞典中的数据量增加,其结果能够 有效地进行声音识别。如上所述,根据本实施形态l,因为是根据外部连接设备的种类来生成辞 典那样构成,所以如果使用每个外部连接设备的辞典来进行声音识别,则不仅 能够提高识别效率,而且具有提高识别率、且能够容易地利用声音输入来操作 外部连接设备的效果。根据本实施形态l,如果将外部连接设备与外部信息取得单元连接,则自 动更新对应的辞典,其结果,具有在用户无意识的情况下能够进行辞典更新的 效果。实施形态2图4是表示根据本发明实施形态2的声音识别装置的一个例子的框图,在图 示的声音识别装置30中,对于与图1所示的声音识别装置10具有相同的构成要 素,标上相同的参照编号。声音识别装置30还具有声音识别辞典控制单元31, 外部信息取得单元14也将外部连接设备20 — n的种类通知声音识别辞典控制单 元31。再参照图5,现在如果变更外部连接设备20 — n,则如上所述,在外部信息 取得单元14从外部连接设备20 — n中取得数据(步骤ST10)之后,将外部信息设备20 — n的种类通知外部信息辞典取得单元17,同时将外部信息设备20 —n的种类 通知声音识别辞典控制单元31(步骤ST11)。根据与图l相关的说明,从用外部信息取得单元14取得的数据中,利用外 部信息词汇抽出单元15抽出成为分析对象的部分以作为抽出数据,并且送给外 部信息词汇分析单元16(步骤ST12)。于是,在外部信息词汇分析单元16中,参 照词汇分析用辞典18或者CDDB19,得到分析数据(附带读法的词汇)(步骤 ST13)。外部信息辞典生成单元17根据从外部信息取得单元14送来的外部连接 设备种类,将分析数据存储于与外部连接设备20 —n对应的辞典I3 — n中(步骤 ST14)。另一方面,声音识别辞典控制单元31根据外部连接设备种类将与该外部连 接设备20 — n对应的辞典13 — n设置为有效(步骤ST15)。另外,在将多个外部连 接设备与外部信息取得单元14连接时,将分别与这些多个外部连接设备对应的 辞典设置为有效。如上所述,根据本实施形态2,因为是根据外部连接设备的种类来将对应 的辞典设置为有效那样构成,所以在进行声音识别时,如果将外部连接设备与 外部信息取得单元连接,则能够切换辞典,并且具有在用户无意识切换辞典的 情况下、能够进行声音输入的效果。根据本实施形态2,只有对应于与外部信息取得单元连接的外部连接设备 的辞典是有效的,其结果,具有如下效果在进行声音识别时能够减少必须参 照的辞典,不仅能够有效进行声音识别,而且能够提高识别率。实施形态3图6是表示根据本发明实施形态3的声音识别装置的一个例子的框图,在图 示的声音识别装置40中,对于与图1所示的声音识别装置10具有相同的构成要 素,标上相同的参照编号。声音识别装置40还具有词汇候补选择单元41以及词 汇候补提示单元42,如后所述,当利用外部信息词汇分析单元16分析用外部信 息词汇抽出单元15抽出的抽出数据(词汇)的结果是所得到的分析数据(附带读 法的词汇)中存在着波动时(例如,存在多个词汇候补的情况),外部信息词汇分 析单元16将该情况与词汇候补提示单元42联系。用词汇候补提示单元42将多个词汇候补显示于例如监视器(未图示)上,从 而催促用户进行选择。如果用户利用词汇候补选择单元41从多个词汇候补中选 择l个词汇候补以作为选择词汇,则将该选择词汇给与外部信息词汇分析单元16,外部信息词汇分析单元16将选择词汇作为分析数据并传送到外部信息辞典 生成单元17。于是,外部信息辞典生成单元17根据从外部信息取得单元14送来 的外部连接设备种类,将分析数据存储于与外部连接设备20 — n对应的辞典13 一n中。再参照图7以及图8,现在如果将iPod那样的音乐数据再生设备作为外部连 接设备20 — n以与外部信息取得单元14连接,则如上所述,外部信息取得单元 14将外部连接设备20 — n的种类送到外部信息辞典生成单元17,同时从外部连 接设备20 — n取得数据(步骤ST16),并将该数据送到外部信息词汇抽出单元15。外部信息词汇抽出单元15从用外部信息取得单元14所取得的数据中抽出 成为分析对象的部分(这里,例如抽出曲名、艺术家名、以及专辑名称等的数据 步骤ST17),作为抽出数据送到外部信息词汇分析单元16。在外部信息词汇分 析单元16中,首先判定抽出数据是否是邮件文章那样的文章(步骤ST18),如果 抽出数据是文章,则外部信息词汇分析单元16进行词素分析,参照词汇分析用 辞典18,将文章划分为单词(词汇),将分析时所得到的读法赋予各单词以得到 分析数据(步骤ST19)。该分析数据从外部信息词汇分析单元16送到外部信息辞典生成单元17,外 部信息辞典生成单元17将分析数据存储于与从外部信息取得单元14送来的外 部连接设备20 — n的种类对应的辞典20 —n中(步骤ST20)。另一方面,在步骤ST18中,如果判定抽出数据不是文章,则在外部信息词 汇分析单元16中将该表述作为关键词以检索CDDB19(步骤ST21),判定是否存 在作为检索结果的词汇(g卩,判断是否具有一致的词汇步骤ST22)。如果具有 一致的词汇,则外部信息词汇分析单元16将读法赋予该词汇以作为分析数据(步 骤ST23)。然后,利用外部信息辞典生成单元17来进行步骤ST20。然而,如果曲名、艺术家名、或者专辑名称中存在波动,则与抽出数据一 致的词汇不存在于CDDB19中,在步骤ST22中,外部信息词汇分析单元16判断 为检索结果不存在。例如,如图8(a)所示,在外部连接设备20 — n中登录的数据 的表述是[OOOX口],如果CDDB19中登录的词汇的表述是[OOOAX]以及 [OOOXA]等,则与抽出数据一致的登录词汇不存在于CDDB19中。在这种情 况下,在外部信息词汇分析单元16中,将与抽出数据相似的词汇作为词汇候补 以进行选择(步骤ST24),并利用词汇候补提示单元42在监视器(提示部)43上提 示词汇候补。10在图8(a)所示的例子中,若在提示部43上将[OOOAX]及[OOOX]作为 词汇候补进行提示,用户利用词汇候补选择单元41从词汇候补中选择1个词汇 候补作为选择词汇,则在步骤ST23中,外部信息词汇分析单元16对选择词汇赋 予读法,作为分析数据。然后,利用外部信息辞典生成单元17进行步骤ST20。在外部信息词汇分析单元16中判定抽出数据与登录词汇的类似度时,使用 抽出数据的表述与登录词汇的表述的字符串长度或字符的一致数、变换为假名 时的字符串长度或字符的一致数等,求出类似度(错误字数相对于字数的比 例)。例如,类似度具有0 (完全不一致) 100 (完全一致)的情况,若类似 度是预先规定的阈值(例如80)以上,则外部信息词汇分析单元16将该词汇作 为词汇候补,利用词汇候补提示单元42在提示部43上提示。在图示的例子中, 步骤ST22及ST24相当于类似词汇判定单元。在图8(b)所示的例子中,登录于外部连接设备20 — n中的数据的表述是 [Wish Comes True],如果登录于CDDB19中的词汇的表述是[Wish Come True] 等,则虽然在CDDB19中不存在与抽出数据一致的登录词汇,但根据类似判定, 外部信息词汇分析单元16利用词汇候补提示单元42在提示部43上显示[Wish Come True]以作为词汇候补。如上所述,根据本实施形态3,由于其构成为,即使当与登录于外部连接 设备中的数据的表述一致的单词不存在时,如果提示类似的词汇候补以使用户 从词汇候补中选择l个词汇候补,则也作为选择词汇登录于辞典中,所以具有 能够提高辞典的词汇的精度、并且能够降低误识别率的效果。工业上的实用性如上所述,本发明的声音识别装置由于能够根据外部连接设备来有效地进 行声音识别,所以适用于例如便携式电话等中所使用的声音识别装置。
权利要求
1.一种声音识别装置,其特征在于,该声音识别装置参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果,在该声音识别装置中,包括与外部连接设备连接且从该外部连接设备取得其种类、同时取得登录于所述外部连接设备中的数据的外部信息取得单元;从所述数据中对词汇进行抽出以作为抽出词汇、对该抽出词汇进行分析并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元;以及在与所述种类对应的所述声音识别辞典中存储所述分析数据的辞典生成单元,每种所述外部连接设备都具有所述声音识别辞典。
2. 如权利要求l中所述的声音识别装置,其特征在于, 辞典生成单元具有接收分析数据时判定是否存在与外部连接设备的种类对应的声音识别辞典的 种类判定单元;如果与所述外部连接设备的种类对应的声音识别辞典不存在、则新生成与该 种类对应的声音识别辞典的辞典生成单元;以及如果与所述外部连接设备的种类对应的声音识别辞典存在、则更新与该种类 对应的声音识别辞典的辞典更新单元。
3. 如权利要求l中所述的声音识别装置,其特征在于,还具有接收与外部信息取得单元连接的外部连接设备的种类、并且只将与 该种类对应的声音识别辞典设置为有效的声音识别辞典控制单元。
4. 如权利要求l中所述的声音识别装置,其特征在于, 词汇抽出分析单元具有 分析抽出词汇时用的分析辞典;以及如果与所述抽出词汇一致的词汇不存在于所述分析辞典中、则判定与该抽出 词汇类似的词汇是否存在于所述分析辞典中的类似词汇判定单元,所述声音识别装置还包括如果与所述抽出词汇类似的词汇存在于所述分析 辞典中、则将该类似的词汇作为词汇候补以进行提示的词汇候补提示单元。
5.如权利要求4中所述的声音识别装置,其特征在于,所述声音识别装置还具有从利用词汇候补提示单元所提示的词汇候补中选择l个词汇候补作为选择词汇的词汇候补选择单元,词汇分析单元将读法赋予所述选择词汇以作为分析数据。
全文摘要
声音识别装置(10)参照声音识别辞典以对输入声音进行声音识别并且输出声音识别结果,其包括与外部连接设备(20-1)至(20-N)连接且从外部连接设备取得其种类、同时取得登录于外部连接设备中的数据的外部信息取得单元(14);从数据中将词汇进行抽出以作为抽出词汇并对抽出词汇进行分析、并且将读法赋予该抽出词汇以作为分析数据的词汇抽出分析单元(15)和(16);以及在与种类对应的声音识别辞典中存储分析数据的辞典生成单元(17),对每种外部连接设备具有声音识别辞典(13-1)至(13-N)。
文档编号G10L15/06GK101326571SQ20068004643
公开日2008年12月17日 申请日期2006年8月18日 优先权日2005年12月7日
发明者冈田玲子, 大泽政信, 海老原充 申请人:三菱电机株式会社

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:一种眼镜的制作方法技术领域:本实用新型涉及一种眼镜。背景技术:随着社会技术的飞速发展,随着人们文化、生活水平的不断提高,视力保健工作的开展,眼镜在人们生活领域中将要发挥重要作用。但是现有的眼镜镜框样子一般都没怎么变化,挂钩设计单一

    专利发布时间:2025-07-01阅读:(113)

    专利名称:一种可另行输入视频并与机内影像相叠加的光盘播放机的制作方法技术领域:本实用新型涉及一种可另行输入视频并与机内影像相叠加的 光盘播放机。 背景技术:目前,很多人喜欢用光盘播放机播放卡拉0K碟来唱歌,每首 歌曲有一个固定的带字幕的背景

    专利发布时间:2025-07-01阅读:(123)

    专利名称:环保数模脉宽调制车用喇叭的制作方法技术领域:本发明涉及车辆部件中的车用电子喇叭。背景技术: 车用喇叭是车辆安全行驶的必装部件,车用喇叭一般有两类触点式电喇叭和无触点电子喇叭。现有的采用继电触点结构的触点式电喇叭,存在电声转换效率低

    专利发布时间:2025-07-01阅读:(119)

    一种架子鼓用吊擦的制作方法【专利摘要】本发明涉及架子鼓配件【技术领域】,具体公开了一种架子鼓用吊擦,包括吊擦本体、凹槽和通孔;所述凹槽设置在吊擦本体外部表面;所述通孔设置在吊擦本体底部;所述吊擦本体为半圆形,采用铜一体成型加工制得;所述凹槽

    专利发布时间:2025-07-01阅读:(114)

    专利名称:一种led生物灯的制作方法技术领域:本实用新型涉及一种LED生物灯,主要用于植物,动物的生长照明,促进生物缩短生广周期,提闻效率。背景技术:目前市场上有荧光灯,日光灯,LED植物灯,但是利用亚克力作为外壳和外形来生产制造的却没有,

    专利发布时间:2025-07-01阅读:(139)

    专利名称:液晶显示器件的制作方法技术领域:本发明涉及一种液晶显示器件,尤其涉及一种设有用于感测使用者触摸的感测电极的液晶显示器件。背景技术:由于基于低驱动电压的低功耗以及便携性的优点,液晶显示器件被广泛用于笔记本电脑、显示器、航天器、飞行器

    专利发布时间:2025-07-01阅读:(92)