当前位置:网站首页>专利 >正文

语音转换设备、语音转换方法、程序以及媒介的制作方法

专利名称:语音转换设备、语音转换方法、程序以及媒介的制作方法
发明详述本发明涉及一种语音转换设备,其将语音形式输入的源语言输入语音转换为目标语言语音且输出转换得到的语音,而且还涉及一种语音转换方法、程序以及媒介。
背景技术
语音翻译技术已经发展为用于高性能工作站或个人计算机上的软件。如果转换范围限定于旅游会话之类,则该技术性能已经达到了应用水平。但是,为了将该技术实现为在任何情况下都可以为普通使用者使用的语音翻译设备,就需要设计硬件的尺寸使其能够在海外旅游之类的情况下方便携带,且其用户界面操作简单,且需要将具有类似功能的软件传送给该硬件。
传统地,将语音翻译软件传送到大约B5大小的笔记本个人计算机的产品已经有了。
但是,约B5大小的笔记本个人计算机的尺寸不便于使用者携带用于各种地点场合。由于这样的笔记本个人计算机是通过通用键盘或鼠标操作,其操作使用界面不简便。而且,语音识别所需要的计算资源的总量诸如CPU以及工作存储器的性能通常与识别词汇量的大小成正比。
在小尺寸的硬件中,计算资源是有限的,且因此其难于装入用于语音翻译设备作为识别词汇量的必要与足够数量的单词,因此进一步导致一个问题是,降低了作为语音翻译设备的效用值。
发明简介考虑到传统语音翻译设备的问题,本发明的一个目的是提供一种语音转换设备、一种语音转换方法、程序以及媒介,该语音转换设备与传统设备相比可以使其小型化,且其便于操作。
本发明的第一个发明是一种语音转换设备,其包括语音输入装置,其用于输入第一语言;语音识别装置,其用于识别所述输入的语音;
第一析取/显示装置,其用于析取和显示所述第一语言的一个或多个字串,所述字串对应于所述语音识别的结果;转换目标选择装置,从所述显示的字串中,选择所要的字串作为转换为第二语言的目标;第二析取/显示装置,当指定整个或部分所述选择的字串时,相应于所述指定的整个或部分所述选择的字串的内容析取和显示词语候选项;候选选择装置,从所显示的候选中选择一个;以及转换装置,根据所述选择的字串和所述选择的候选,确定转换为所述第二语言的所述目标,且将所述确定的转换目标转换为所述第二语言的语音信号。
本发明的第二个发明是依照第一个发明的一种语音转换设备,其中所述第一析取/显示装置具有一个显示部分,其包括显示屏,显示作为所选择目标的所述多个字串,且所述选择的单词分别位于各个预定区域,以及所述第二析取/显示装置在所述显示屏的部分区域内以视窗形式交叠显示所述词语候选项。
本发明的第三个发明是依照第二个发明的一种语音转换设备,其中,当所述选择的字串显示在所述显示屏上时,所述第一析取/显示装置另外还显示信息,提示可显示与部分所述字串有关的相应词语候选项。
本发明的第四个发明是依照第三个发明的一种语音转换设备,其中所述语音转换设备还包括屏显示指定装置,在所述显示屏上指定所述的部分所述字串,显示的所述附加信息与所述部分所述字串相关。
本发明的第五个发明是依照第一个发明的一种语音转换设备,其中所述转换装置将所述字串的所述指定部分用所述选择的候选项替换的结果确定作为所述转换目标。
本发明的第六个发明是一种语音转换方法,包括语音输入步骤,其输入第一语言的语音;语音识别步骤,其识别所述输入的语音;第一析取/显示步骤,其析取和显示一个或多个所述第一语言的字串,所述字串与所述语音识别结果一致;转换目标选择步骤,其从所述显示的字串中,选择期望成为转换为第二语言的目标的字串;
第二析取/显示步骤,当指定全部或部分所述选择的字串的时候,其根据所述指定的全部或部分所述选择的字串的内容来析取和显示候选项;候选选择步骤,其从所述候选中选择一个;以及转换步骤,其根据所述选择的字串和所述选择的候选来确定转换为所述第二语言的所述目标,且其将所述确定的转换目标转换为所述第二语言的语音语言。
本发明的第七个发明是一种程序,用于使计算机用作依据第一至第五个发明中任一项的所述语音转换设备的所述语音识别装置、所述第一析取/显示装置、所述转换目标选择装置、所述第二析取/显示装置、所述候选选择装置、以及所述转换装置的全部或部分。
本发明的第八个发明是一种程序,用于使计算机用作依据第六个发明的所述语音转换方法的所述语音识别步骤、所述第一析取/显示步骤、所述转换目标选择步骤、所述第二析取/显示步骤、所述候选选择步骤、以及所述转换步骤的全部或部分。
本发明的第九个发明是一种媒介,其载有依照第七个发明的所述程序,且其适合用计算机处理。
本发明的第十个发明是一种媒介,其载有依照第八个发明的所述程序,且其适合用计算机处理。
依照该构造,例如,本发明可提供小型硬件,其便于使用者用一只手掌控通过按键或触板操作。例如,包含在需进行语音翻译的抽样句子中的字词可以分类保存,且只有很少数目的字词各自代表分类保存在语音识别部分作为识别词汇表。当说出的句子包含代表分类的字词的时候,可检索包含该字词的抽样且展示给使用者。通常,使用者选择期望的一个抽样以输出翻译语音。如果需要,使用者可以用另一个同类的字词替换该字词以输出翻译语音。例如,当用日语输入“アスピリンはありますか(Asupirin wa arimasuka(注意这部分是用罗马字母表示这个句子或字词的发音)Is there Aspirin?(注意这部分表示这个句子或字词的含义))”的时候,用代表字词“アスピリン(asupirinaspirin)”所属类的字词“薬(kusurimedicine)”替换字词“アスピリン(asupirinaspirin)”,然后说出“薬はありますか(Kusuri wa arimasukaIs thereMedicine?)”。然后,用字词“アスピリン(asupirinaspirin)”替换字词“薬(kusurimedicine)”。作为这样一个分步操作的结果,语音翻译设备的实用价值在于不必安装大规模识别词汇表。
附图简介图1是显示本发明实施例的语音翻译设备硬件结构的方框图。
图2是在使用PC/AT兼容主板情况下的详尽方框图。
图3是图像输出装置204的详尽方框图。
图4是图像指令装置205以及按键206的详尽方框图。
图5是语音输入/输出装置203的详尽方框图。
图6是语音翻译设备在不使用情况下的全景图。
图7(a)是详细显示图6所示的语音翻译设备构造的正视图。
图7(b)是详细显示图6所示的语音翻译设备构造的侧视图。
图7(c)是详细显示图6所示的语音翻译设备构造的俯视图。
图8是语音翻译设备在使用情况下的全景图。
图9(a)是详细显示图8所示的语音翻译设备构造的正视图。
图9(b)是详细显示图8所示的语音翻译设备构造的侧视图。
图9(c)是详细显示图8所示的语音翻译设备构造的俯视图。
图10(a)是显示图2所示部件在主框架801上的安装方式的正视图。
图10(b)是显示图2所示部件在主框架801上的安装方式的侧视图。
图10(c)是显示图2所示部件在主框架801上的安装方式的俯视图。
图11(a)是显示图2所示部件在辅助框架802上的安装方式的正视图。
图11(b)是显示图2所示部件在辅助框架802上的安装方式的侧视图。
图11(c)是显示图2所示部件在辅助框架802上的安装方式的俯视图。
图12是显示本发明实施例的语音翻译设备软件结构的方框图。
图13是显示软件工作流程的流程图。
图14是显示抽样数据库1205内容的示例视图。
图15是显示字类词典1206内容的示例视图。
图16是显示GUI(图形用户界面)部分1202显示内容的视图。
图17是显示在步骤1301至1303时GUI部分1202显示内容的视图。
图18是显示在步骤1304时GUI部分1202显示内容的视图。
图19是显示在步骤1305时GUI部分1202显示内容的视图。
图20是显示在步骤1310与1311时GUI部分1202显示内容的视图。
图21是显示在步骤1306时GUI部分1202显示内容的视图。
图22是显示在步骤1307时GUI部分1202显示内容的视图。
图23是显示在步骤1308时GUI部分1202显示内容的视图。
图24是显示在步骤1309时GUI部分1202显示内容的视图。
图25是显示在步骤1310与1311时GUI部分1202显示内容的视图。
本发明的优选实施例在下文,将结合


语音翻译设备的构造与操作,语音翻译设备是本发明语音转换装置的实施例,并且还将说明本发明语音转换方法的实施。
图1是显示该实施例语音翻译设备的硬件构造的方框图。
语音输入/输出装置102接收使用者讲的源语言,且输出已翻译为目标语言的语音。图像输出装置103显示该翻译设备要翻译的抽样。图像指令装置105与按键106用于使使用者能够选择一个显示在图像输出装置103上的抽样。计算控制装置101对经由语音输入/输出装置102、图像指令装置105与按键106输入的源语言数据进行语音与语言转换,转换为目标语言的,且将转换结果送到语音输入/输出装置102与图像输出装置103。外部的大型非易失性存储器装置104保存着指示计算控制装置101处理过程的程序以及数据。外部数据输入/输出终端107用于在计算控制装置101与外部设备之间交换程序与数据。电源装置108提供驱动计算控制装置101工作的电源。
本发明语音输入装置相应于语音输入/输出装置102,而本发明第一与第二析取/显示装置相应于包括图像输出装置103、计算控制装置101等等在内的构造。本发明屏幕显示指定装置相应于图像指令装置105与按键106。本发明第一语言相应于该实施例中的源语言,而本发明第二语言相应于该实施例中的目标语言。
图2显示一个详细准确的构造例子,其中在计算控制装置101中使用PC/AT兼容主板。语音输入/输出装置203利用该主板的USB连接器连接到主板201。图像输出装置204利用该主板的RGB接口端点连接到主板201。将2.5英寸硬磁盘机202用作外部的大型非易失性存储器装置104,且通过IDE接口将其连接到主板201。可以用瞬时存储磁盘替代硬磁盘机。将锂离子二次电池208用作电源装置108,以提供+5V与+12V的电压给主板201。在主板201的输入/输出终端中,模拟显示输出终端、局域网终端、与键盘终端引出构成外部数据输入/输出终端207。
图3显示图像输出装置204的详细构造。VGA分辨率的LCD部件301具有4英寸显示区。在LCD部件的背面装有一个冷阴极射线管发出背面光。主板302的18位的RGB接口用于连接该LCD部件。视频同步信号与背面光控制信号也连接到主板。
图4显示了图像指令装置205以及按键206的详尽构造。将3.8英寸压敏触板402连接到触板控制器401,以便将触压点的X坐标与Y坐标转换成符合RS232标准的串行数据,将触板控制器401连接到主板405的串行口COM1。将按键403与404连接到触板控制器401,以便将按键ON或OFF的指示信息添加给触压点信息。通过安装在主板405上的触板控制器401设备驱动程序软件对接收到的串行数据进行译码。在鼠标连接到主板的情况下,点击按键403相当于点击鼠标左键,点击按键404相当于点击鼠标右键。
图5显示了语音输入/输出装置203的详尽构造。USB声频接口504将输入的模拟语音转换成数字数据,以将该数字数据传送到主板505(相当于图2中的201),且将主板505发送的数字数据转换成模拟语音。USB声频接口用于发送与接收数字数据。麦克风503用于收集模拟信号。USB声频接口504的输出通过声频放大器502放大,然后通过扩音器501输出。安装在主板505上的声频接口可以替代USB声频接口504。
图6是一个实施例的透视图,其中安装有图2的结构,使用者可以用一只手掌控,而图7(a)至7(c)是该实施例的三视图。图像指令装置205、图像输出装置204、和按键206安装在主框架601上。附图标记603和604分别相当于按键403与404。语音输入/输出装置203安装在辅助框架602上。当不使用该翻译设备的时候,辅助框架602覆盖在图像输出装置204的显示屏上以保护该屏幕。
当使用该翻译设备的时候,如图8所示,将辅助框架802移动到预设位置,在该位置处语音输入/输出装置203(麦克风803)的位置定向正好面对使用者。图9(a)至9(c)是说明这种位置情况的三视图。特别地,抬升起安装在辅助框架802上的扩音器804以便方向朝向使用者,而且麦克风803也类似地抬升起来。在这种情况下,可以使用触板/LCD805。
图10(a)至10(c)显示部件在主框架601上的安装方式。4英寸VGA LCD部件301和触板402相互交搭安装作为触板/LCD1005。图11(a)至11(c)显示在辅助框架602上安装部件的方式。
图12显示作为本发明程序和数据具体体现的软件结构。在图12中,1201标示控制部分,其指令各部件且控制来自各部件的数据流,1202标示GUI(图形用户界面)部分,其显示由控制部分1201发送来的信息且将使用者输入发送到控制部分1201,1203标示语音输入部分,其响应来自控制部分1201的指令收集使用者的语音,1204标示语音识别部分,其连续不断地识别发送自语音输入部分的使用者语音,1205标示抽样数据库,其在源语言和目标语言的抽样之间保持对应,1206标示字类词典,其将分类的字保存进抽样数据库1205,1207标示抽样选择部分,其指抽样数据库1205在发送自控制部分1201的语音识别结果的基础上选择一个抽样,1208标示字选择部分,其根据来自控制部分1201的指令,从抽样选择部分1207选择的抽样中选择分类的字,1209标示选项字选择部分,其指字类词典1206选择选项字,该字可用由控制部分1201指定的分类的字替代,1210标示语言转换部分,其指抽样数据库1205和字类词典1206将由控制部分1201指定的抽样转换成目标语言的句子,而1211标示语音合成部分,其对目标语言的且由控制部分指定的抽样句子进行语音合成。
在本发明中语音识别装置相应于语音识别部分1204,而在本发明中转换目标选择装置相应于抽样选择部分1207及其他。在本发明中屏幕显示规定装置相应于字选择部分1208及其他,而在本发明中候选选择装置相应于选项字选择部分1209及其他。在本发明中转换装置相应于包括语言转换部分1210、语音合成部分1211在内的构造及其他。
图14显示抽样数据库1205的一个特定示例。每个示例相应于一个句子转换,且在源语言和目标语言之间存有对应关系和预先确定的信息(源语言的组元,以及组元之间的依赖关系)。源语言括在<>中的字是分类的字。每个分类的字都可以用同类的字替换。
图15显示字类词典1206的一个特定示例。术语“类”指诸如“果物(kudamonofruit)”这样的高度概括的字词。属于类的字词是该类的专题的表示,诸如“りんご(ringoapple)”和“みかん(mikanorange)”。分类概括可根据语音识别部分1204的运行而改变,以便有效地执行抽样选择。可配置字类词典1206按等级排列类。
图16详细表示了在触板/LCD805上显示的GUI部分1202。附图标记1601标示翻译方向指明区域在其中指定翻译方向,1603标示语音识别结果显示区域,其中显示语音识别部分1204的语音识别结果,1604标示抽样候选显示区域,其中显示抽样选择部分1207的抽样句子,1605标示抽样选择结果显示区域,其中显示使用者指定的抽样,而1606标示翻译结果显示区域,其中显示已由语言转换部分翻译成目标语言的抽样。附图标记1607和1608分别相应于按键806和807,其使使用者能够执行输入操作。使用者可在触板/LCD805上执行点输入。
图13是本发明的软件工作流程图。附图标记1301标示选择翻译方向的步骤,1302标示通过麦克风803输入语音和执行语音识别的步骤,1303标示根据语音识别结果从抽样数据库1205中检索抽样的步骤,1304标示由使用者从检索得到抽样中选择抽样的步骤,1305标示判断在1304步骤中选择的抽样是否要进行修正或翻译的步骤,1306标示在1304步骤中选择的抽样中的要被修正的字词的选择步骤,1307标示输出一个字词列表的步骤,该字词可替换在步骤1306中选定的要被修正的字词,1308标示由使用者从步骤1307字词列表中选定一个需要的字词的步骤,而1309标示改动抽样以用步骤1308中选定的字词替换要修正的字词的步骤。附图标记1310标示将在步骤1305中确定的抽样句子转换为目标语言的步骤,而1311标示对在步骤1309中转换为目标语言的抽样进行语音合成且通过扩音器804输出合成的抽样的步骤。
在下文中,将参照图13的流程图和显示在触板/LCD805上的GUI部分1202(表示在图17-25中)的显示内容来描述本发明的软件操作。将描述一个例子,其中使用者希望翻译句子“アスピリンはありますか(Asupirin wa arimasukaIs there Aspirin?)”。特别地,使用者首先输入“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”,然后执行用“アスピリン(asupirinaspirin)”替换“薬(kusurimedicine)”的操作。在本发明中,可使用触板和按键两种输入操作。在下文中,将按照次序描述触板输入和按键输入。
图17表示在触板输入的情况下GUI部分1202从步骤1301至1303的显示内容。在步骤1301,使用者借助于触板输入点触翻译方向指明区域1701指定为日文译作英文。同时,GUI部分1202将翻译方向传送给控制部分1201,且控制部分1201指令语音输入部分1203执行语音输入。使用者利用麦克风803发音“何か薬はありますか(Nanika kusuri wa arimasukaAny medicine?)”。语音输入部分1203将输入的语音传送到语音识别部分1204。在步骤1302,语音识别部分1204相应于指定翻译方向执行语音识别。假设传送到控制部分1201的识别结果“七日薬はありますか(Nanoka kusuri wa arimasukaSeventh day,medicine?)”包含错误识别。控制部分1201将语音识别结果传送到GUI部分1202和抽样选择部分1207。GUI部分1202在语音识别结果显示区域1702显示传送过来的语音识别结果。相反,在步骤1303,抽样选择部分1207利用上文描述过的方法根据语音识别结果来检索抽样,且将检索得到的抽样传送到控制部分1201。抽样选择部分1207由语音识别结果“七日薬はありますか(Nanoka kusuri wa arimasukaSeventh day,medicine?)”析取一组关键字“七日(NanokaSeventh day)”、“薬(kusurimedicine)”、以及“あり(arithere is)”,这些关键字在抽样数据库1205中有定义。“七日(NanokaSeventh day)”属于分类的字<日数(nissunumber of days)>,而“薬(kusurimedicine)”属于分类的字<薬(kusurimedicine)>,“あり(arithere is)”不属于任何分类的字。
抽样选择部分1207顺序地检查图14中所示的组元的依赖关系,而且,从建立了一个或多个依赖关系的抽样中,按依赖关系建立的数目由大到小的次序选择抽样。例如,参照示例编号1的抽样,“かかり(kakariit takes)”不存在于关键词组中。因此,建立的依赖关系的数目为0。参照示例编号2的抽样,“何か(nanika;any)”不存在于关键词组中,且因此,不能建立(①→②)组元的依赖关系,但建立了(②→③)组元的依赖关系。因此,建立的依赖关系的数目为1。
当抽样选择部分1207设计为能够从抽样数据库1205中选择建立依赖关系数目为1或更大的抽样时,不选择图14中示例编号1的抽样,而选择图14中示例编号2的抽样。“何か(nanika;any)”不存在于关键词组中。因此,参照选定的示例编号2的抽样,输出显示“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”。在下面的描述中,假设在抽样数据库1205中以上述同样的方式选定其他的抽样“薬ですか(Kusuri desukaDo you need medicine?)”和“薬です(Kusuri desuYes,medicine)”。控制部分1201将发自抽样选择部分1207的抽样句子传送到GUI部分1202。GUI部分1202在抽样候选显示区域1703显示选定的抽样句子。
图18表示在步骤1304时GUI部分1202的显示内容。在步骤1304,从在抽样候选显示区域1703显示的抽样候选中,通过借助于触板点击区带1801输入,使用者选择与使用者说出的句子含义一样的抽样“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”。同时,GUI部分1202将选定的抽样句子传送到控制部分1201。
图19表示在步骤1305时GUI部分1202的显示内容。在步骤1305,GUI部分1202在抽样选择结果显示区域1901显示选定的抽样句子,且清除抽样候选显示区域1902。此后,选择是决定对抽样进行翻译,还是修正抽样用可替换的字词替换分类的字。此时,使用者可以通过在触板上点击抽样选择结果显示区域1901来决定抽样。将决定了的抽样传送到控制部分1201。当使用者在触板上双击抽样选择结果显示区域1901时,控制转切到替换抽样中字词的模式。
图20表示在步骤1305中决定抽样的情况下GUI部分1202显示的内容。在步骤1310,控制部分1201将由使用者决定的抽样“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”传送到语言转换部分1210。语言转换部分1210利用抽样数据库1205将传送来的抽样转换为目标语言的“Any medicine”,且将转换结果传送到控制部分1201。控制部分1201将转换结果传送到GUI部分1202和语音合成部分1211。在步骤1311,GUI部分1202在翻译结果显示区域2001显示转换结果。另一方面,语音合成部分1211对转换结果进行语音合成然后通过扩音器804输出合成的语音。
图21表示在步骤1306时GUI部分1202显示的内容。在步骤1306,使用者在步骤1305中选择字词选择模式的情况下选择要改动的字词。此时,控制部分1201指令字选择部分1208执行选择字词的操作。字选择部分1208从抽样中析取分类的字“薬(kusurimedicine)”,然后将析取得到的字词传送到控制部分1201。控制部分1201将该字词传送到GUI部分1202。GUI部分1202对“薬(kusurimedicine)”划下划线,其显示在抽样选择结果显示区域2101以提示使用者该字词是可替换的字词。然后使用者借助于触板输入点击要修改的字词“薬(kusurimedicine)”。GUI部分1202将选定的字词传送到控制部分1201。
图22表示在步骤1307时GUI部分1202显示的内容。在步骤1307,显示使用者在步骤1306指定的字词“薬(kusurimedicine)”的可选择的字词列表。控制部分1201将使用者指定的字词“薬(kusurimedicine)”传送到选项字选择部分1209。选项字选择部分1209指图15所示的字类词典1206选取同类的字词作为使用者指定的字词“薬(kusurimedicine)”“アスピリン(asupirinaspirin)”“かぜ薬(kazegusuricold medicine)”“トロ一チ(torochitroche)”“胃腸薬(ichoyakumedicine for the digestion)”并且将选取的字词传送到控制部分1201。控制部分1201将可选择的字词列表传送到GUI部分1202。GUI部分1202在列表窗口2201显示可选择的字词列表。
图23表示在步骤1308时GUI部分1202显示的内容。在步骤1308,从显示在列表窗口2201的可选择的字词列表中选择所需要的字词。使用者执行触板输入,点击使用者所需要的可选择的字词2301,因此使GUI部分1202获得了选项字词“アスピリン(asupirinaspirin)”。GUI部分1202将该选项字词传送到控制部分1201。
图24表示在步骤1309时GUI部分1202显示的内容。在步骤1309,通过指定选项字词“アスピリン(asupirinaspirin)”将抽样改为“アスピリンはありますか(Asupirin wa arimasukaIs there Aspirin?)”。然后,GUI部分1202将显示在抽样选择结果显示区域2401的抽样改变为“アスピリンはありますか(Asupirin wa arimasukaIs there Aspirin?)”,并且显示改动后的抽样。然后控制返回步骤1305。
图25表示在重复步骤1305至1308的情况下GUI部分1202显示的内容,使用者选择在步骤1305中决定的抽样,将“アスピリンはありますか(Asupirin waarimasukaIs there Aspirin?)”转换成目标语言“Any aspirin”,且输出合成语音。
下面,将描述按键输入的情况。在下文的描述中,SW1和SW2分别实物对应于按键806和807。
图17表示GUI部分1202在步骤1301至1303的显示内容。在步骤1301,通过点击SW1指定翻译方向为日文译作英文,而通过点击SW2指定翻译方向为英文译作日文。在这个例子中,通过点击SW1指定翻译方向为日文译作英文。同时,GUI部分1202将翻译方向传送给控制部分1201,且控制部分1201指令语音输入部分1203执行语音输入。使用者利用麦克风803发音“何か薬はありますか(Nanika kusuri wa arimasukaAny medicine?)”。语音输入部分1203将输入的语音传送到语音识别部分1204。在步骤1302,语音识别部分1204根据指定翻译方向执行语音识别。假设传送到控制部分1201的识别结果“七日薬はありますか(Nanoka kusuri wa arimasukaSeventh day,medicine?)”包含错误识别。控制部分1201将语音识别结果传送到GUI部分1202和抽样选择部分1207。GUI部分1202在语音识别结果显示区域1702显示传送过来的语音识别结果。相反,在步骤1303,抽样选择部分1207利用上文描述过的方法根据语音识别结果来检索抽样,且将检索得到的抽样传送到控制部分1201。抽样选择部分1207由语音识别结果“七日薬はありますか(Nanoka kusuri wa arimasukaSeventh day,medicine?)”析取一组关键字“七日(NanokaSeventh day)”、“薬(kusurimedicine)”、以及“あり(arithere is)”,这些关键字在抽样数据库1205中有定义。“七日(NanokaSeventh day)”属于分类的字<日数(nissunumber ofdays)>,而“薬(kusurimedicine)”属于分类的字<薬(kusurimedicine)>,“あり(arithere is)”不属于任何分类的字。
抽样选择部分1207顺序地检查图14中所示的组元的依赖关系,而且,从建立了一个或多个依赖关系的抽样中,按依赖关系建立的数目由大到小的次序选择抽样。例如,参照示例编号1的抽样,“かかり(kakariit takes)”不存在于关键词组中。因此,建立的依赖关系的数目为0。参照示例编号2的抽样,“何か(nanika;any)”不存在于关键词组中,且因此,不能建立(①→②)组元的依赖关系,但建立了(②→③)组元的依赖关系。因此,建立的依赖关的数目为1。
当抽样选择部分1207设计为能够从抽样数据库1205中选择建立依赖关系数目为1或更大的抽样时,不选择图14中示例编号1的抽样,而选择图14中示例编号2的抽样。“何か(nanika;any)”不存在于关键词组中。因此,参照选定的示例编号2的抽样,输出显示“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”。在下面的描述中,假设在抽样数据库1205中以上述同样的方式选定其他的抽样“薬ですか(Kusuri desukaDo you need medicine?)”和“薬です(Kusuri desuYes,medicine)”。控制部分1201将发自抽样选择部分1207的抽样句子传送到GUI部分1202。GUI部分1202在抽样候选显示区域1703显示选定的抽样句子。
图18表示在步骤1304时GUI部分1202的显示内容。在步骤1304,从在抽样候选显示区域1604显示的抽样候选中,借助于按键输入,使用者选择与使用者说出的句子含义一样的抽样“薬はありますか(Kusuri wa arimasukaIs thereMedicine?)”。在该选择方法中,通过点击SW1将指定行向上移动一行,而通过点击SW2将指定行向下移动一行。同时,GUI部分1202将选定的抽样句子传送到控制部分1201。
图19表示在步骤1305时GUI部分1202的显示内容。在步骤1305,GUI部分1202在抽样选择结果显示区域1901显示选定的抽样句子,且清除抽样候选显示区域1902。此后,选择是决定对抽样进行翻译,还是修正抽样用可替换的字词替换分类的字。此时,使用者可以通过点击SW2来决定抽样。将决定了的抽样传送到控制部分1201。当借助于按键输入点击SW1时,控制转切到替换抽样中字词的模式。点击SW1引发的一个信号传送到控制部分1201。
图20表示在步骤1305中决定抽样的情况下GUI部分1202显示的内容。在步骤1310,控制部分1201将由使用者决定的抽样“薬はありますか(Kusuri wa arimasukaIs there Medicine?)”传送到语言转换部分1210。语言转换部分1210利用抽样数据库1205将传送来的抽样转换为目标语言的“Any medicine”,且将转换结果传送到控制部分1201。控制部分1201将转换结果传送到GUI部分1202和语音合成部分1211。在步骤1311,GUI部分1202在翻译结果显示区域2001显示转换结果。另一方面,语音合成部分1211对转换结果进行语音合成然后通过扩音器804输出合成的语音。
图21表示在步骤1306时GUI部分1202显示的内容。在步骤1306,使用者在步骤1305中选择字词选择模式的情况下选择要改动的字词。此时,控制部分1201指令字选择部分1208执行选择字词的操作。字选择部分1208从抽样中析取分类的字“薬(kusurimedicine)”,然后将析取得到的字词传送到控制部分1201。控制部分1201将该字词传送到GUI部分1202。GUI部分1202对“薬(kusurimedicine)”划下划线,其显示在抽样选择结果显示区域2101以提示使用者该字词是可替换的字词。使用者借助于按键输入选择要修改的字词“薬(kusurimedicine)”。明确的讲,通过点击SW1将光标左移一个字词,且通过点击SW2将光标右移一个字词。可通过双击SW1选定要修改的字词。GUI部分1202将选定的字词传送到控制部分1201。
图22表示在步骤1307时GUI部分1202显示的内容。在步骤1307,显示使用者在步骤1306指定的字词“薬(kusurimedicine)”的选项字词列表。控制部分1201将使用者指定的字词“薬(kusurimedicine)”传送到选项字选择部分1209。选项字选择部分1209指图15所示的字类词典1206选取同类的字词作为使用者指定的字词“薬(kusurimedicine)”“アスピリン(asupirinaspirin)”“かぜ薬(kazegusuricold medicine)”“トロ一チ(torochitroche)”“胃腸薬(ichoyakumedicine for the digestion)”并且将选取的字词传送到控制部分1201。控制部分1201将选项字词列表传送到GUI部分1202。GUI部分1202在列表窗口2201显示选项字词列表。
图23表示在步骤1308时GUI部分1202显示的内容。在步骤1308,从显示在列表窗口2201的选项字词列表中选择所需要的字词。此时,作为使用者按键输入的结果,GUI部分1202获得了选项字词“アスピリン(asupirinaspirin)”,且将该选定的字词传送到控制部分1201。以下述方式执行输入。通过点击SW1将光标移到当前字词的上一个字词,而通过点击SW2将光标移到当前字词的下一个字词。当光标所在字词是要选择的字词时,通过双击SW1可选定。
图24表示在步骤1309时GUI部分1202显示的内容。在步骤1309,通过指定选项字词“アスピリン(asupirinaspirin)”将抽样改为“アスピリンはありますか(Asupirin wa arimasukaIs there Aspirin?)”。然后,GUI部分1202将显示在抽样选择结果显示区域2401的抽样改变为“アスピリンはありますか(Asupirin wa arimasukaIs there Aspirin?)”,并且显示改动后的抽样。然后控制返回步骤1305。
图25表示在重复步骤1305至1308的情况下GUI部分1202显示的内容,使用者选择在步骤1305中决定的抽样,将“アスピリンはありますか(Asupirin waarimasukaIs there Aspirin?)”转换成目标语言“Any aspirin”,且输出合成语音。
在上面的描述中,使用者对GUI部分1202执行输入操作的方式限定于触板输入和按键输入。作为选择,字词和抽样的选择和决定可以借助于语音利用语音识别过程来实现。可以联合使用各种不同的输入形式触板、按键以及语音来操作该设备。在上文中,已经示例描述了日文和英文的翻译。本发明同样还可应用于其他语言诸如中文,且本发明不依赖于语言。
在实施例中,本发明中的每个字串都典型表述为由多个字词构成的句子。本发明不局限于此。例如,每个字串都可以由一个字词构成,例如“こんにちは(konnichiwaHello)”。
在实施例中,已经描述了通过单个显示装置实现本发明的第一和第二析取/显示装置的情况。本发明不局限于此。例如,可以通过各自独立的显示装置实现本发明的第一和第二析取/显示装置。
如上所述,本发明实施例的语音翻译设备是选择一个抽样且根据语音输入进行翻译,其中语音翻译设备的硬件构成包括计算控制装置,其包括作为语音模态的语音输入/输出装置、作为图像模态的图像输出装置、以及作为联系模态的一个或多个按键和图像指令装置,且其将由使用者通过语音输入/输出装置、图像指令装置以及按键输入的源语言数据进行语音和语言转换为目标语言的数据,且其将转换得到的数据供给语音输入/输出装置和图像输出装置;外部的大型非易失性存储器装置,其保存着指示计算控制装置处理过程的程序以及数据;外部数据输入/输出终端,其用于在计算控制装置与外部设备之间交换程序与数据;以及电源装置,其提供驱动计算控制装置工作的电源。
在另一个实施例中,语音翻译设备的特征在于在计算控制装置中使用PC/AT兼容主板。
在另一个实施例中,语音翻译设备的特征在于将2.5英寸或更小的硬磁盘机用作外部的大型非易失性存储器装置。
在另一个实施例中,语音翻译设备的特征在于将瞬时存储磁盘用作外部的大型非易失性存储器装置。
在另一个实施例中,语音翻译设备的特征在于将具有240点或更多点垂直分辨率和240点或更多点横向分辨率的液晶显示装置用作图像输出装置。
在另一个实施例中,语音翻译设备的特征在于两个机械按键用作按键,且其功能分别对应于将一个鼠标连接到主板情况下的鼠标按键。
在另一个实施例中,语音翻译设备的特征在于触板的大小等于液晶显示装置显示屏,或者包含显示屏用作图像指令装置。
在另一个实施例中,语音翻译设备的特征在于,在主板的输入/输出终端中,模拟显示输出终端、局域网终端、与键盘终端用作外部数据输入/输出终端。
在另一个实施例中,语音翻译设备的特征在于语音输入/输出装置包括USB声频接口,其通过主板的USB接口接受且提供模拟语音数据和数字语音数据;麦克风,其用于收集使用者的语音且将语音提供给USB声频接口;声频放大器,其放大USB声频接口的输出;以及扩音器,其连接到声频放大器。
在另一个实施例中,语音翻译设备的特征在于语音输入/输出装置包括主板的声频接口;麦克风,其用于收集使用者的语音且将语音提供给USB声频接口;声频放大器,其放大USB声频接口的输出;以及扩音器,其连接到声频放大器。
在另一个实施例中,语音翻译设备的特征在于电源装置由锂离子二次电池配置而成。
在另一个实施例中,语音翻译设备的特征在于该设备的设计结构使得使用者能够用一只手掌控该设备,一只手的拇指能够方便地操控按键,图像指令装置便于用另一只手操作,且图像显示装置显示屏的常态方向和语音输入/输出装置定向的常态方向都易于朝向使用者。
在另一个实施例中,语音翻译设备的特征在于该设备由主框架和辅助框架构成,按键、图像指令装置和图像显示装置安装在主框架上,语音输入/输出装置安装在辅助框架上,当不使用该语音翻译设备的时候辅助框架覆盖在图像显示装置的显示屏上以保护该屏幕,且在将辅助框架移动到预设位置之后使用该语音翻译设备,在该位置语音输入/输出装置的位置定向正好面对使用者。
本发明的一个实施例是语音翻译设备,其中根据语音输入选择一个抽样然后进行翻译,其中语音翻译设备的软件构成包括GUI部分,其实现有关使用者的输入和输出操作;源语言输入部分,其收集语音且对语音进行语音识别;翻译部分,其将输入到源语言输入部分的源语言翻译为目标语言;语音合成部分,其对翻译部分翻译得到的目标语言进行语音合成,且输出合成语音;以及控制部分,其控制源语言输入部分、GUI部分、翻译部分和语音合成部分。
在另一个实施例中,语音翻译设备的特征在于一个会话语句用作抽样单元。
在另一个实施例中,语音翻译设备的特征在于将频繁用于旅游会话中的语句型式作为抽样。
在另一个实施例中,语音翻译设备的特征在于抽样中的字词与可替换的相关字词归为一类。
在另一个实施例中,语音翻译设备的特征在于源语言输入部分构成包括语音输入部分,其根据控制部分的指令执行语音输入;以及语音识别部分,其对通过语音输入部分输入的语音执行连续语音识别,以将语音转换为字串。
在另一个实施例中,语音翻译设备的特征在于翻译部分构成包括抽样数据库,其在源语言和目标语言抽样之间建立对应关系;字类词典,其将字的分类信息保存进抽样数据库;抽样选择部分,其根据通过源语言输入部分的输入从抽样数据库选择一个相应抽样;字选择部分,其从抽样选择部分选定的抽样中选择要修改的字词;选项字选择部分,其从字类词典中选择可替换字选择部分选定的字词的选项字词;以及语言转换部分,其通过抽样数据库根据决定的抽样执行转换转换为目标语言。
在另一个实施例中,语音翻译设备的特征在于GUI部分在显示屏部分配置为翻译方向指明区域,在其中指定翻译方向;语音识别结果显示区域,其中显示由源语言输入部分提供的语音识别部分的语音识别结果;抽样候选显示区域,其中显示通过抽样选择部分从抽样数据库中选定的抽样句子;抽样选择结果显示区域,其中显示使用者指定的抽样;翻译结果显示区域,其中输出由语言转换部分提供的目标语言的抽样。
在另一个实施例中,语音翻译设备的特征在于,在GUI部分,当使用者从显示在抽样候选显示区域的抽样中选择一个抽样时,使用者通过触板操作或按键操作选定抽样。
在另一个实施例中,语音翻译设备的特征在于,当展现给使用者一个或多个可修改的字词时,字选择部分在GUI部分的抽样候选显示区域标记可修改的字词。
在另一个实施例中,语音翻译设备的特征在于用下划线字词、高亮显示字词、用粗体字显示字词或闪烁字词来标记可修改的字词。
在另一个实施例中,语音翻译设备的特征在于,在字选择部分,使用者通过对GUI部分执行触板操作或按键操作或者通过基于语音识别的语音操作选择要修改的字词。
在另一个实施例中,语音翻译设备的特征在于,当选择选项字词时,选项字词选择部分通过使用字类词典获得选项候选列表,且GUI部分以类似列表的形式显示候选列表。
在另一个实施例中,语音翻译设备的特征在于通过对GUI部分执行触板操作或按键操作或者通过基于语音识别的语音操作从选项候选列表中选择选项候选。
在另一个实施例中,语音翻译设备的特征在于,当使用者认为需要改动抽样时,使用者通过对GUI部分执行触板操作或按键操作确定抽样,语言转换部分将确定的抽样转换为目标语言,且通过语音合成部分合成输出的抽样语音。
由上述描述清楚可知,小型硬件用作语音翻译设备便于国外旅游携带。由于用户界面可用一只手简单地操作,该设备可方便地应用于各种不同的场合诸如商店和饭店。当通过用字词代表类来输入语音且决定抽样之后,而且,该字词可用同一类的相关字词替换。因此,语音翻译设备的功用即使在使用小量识别词汇量的情况下也不会降低。
本发明提供了一种程序,其使计算机执行全部或部分的上述本发明语音转换设备的装置(或部件、电路、部分等)的功能,并且该程序和计算机协作运行。
本发明还提供了一种程序,其使计算机在全部或部分的上述本发明语音转换方法的步骤(或过程、操作、作用等)中执行操作,且该程序和计算机协作运行。
本发明还提供了一种媒介,其上记录有程序,该程序用于使计算机执行全部或某些上述本发明语音转换设备的装置的全部或某些功能,其中该程序可用计算机读出且和计算机协作执行功能。
本发明还提供了一种媒介,其上记录有程序,该程序用于使计算机在全部或某些上述本发明语音转换方法的步骤中执行全部或某些操作,其中该程序可用计算机读出且和计算机协作执行功能。
这里,本发明的部分装置(或设备、部件、电路、部分等)和本发明的部分步骤(或过程、操作、作用等)指多个装置或步骤中的若干,或者指在一个装置或步骤中的若干功能或操作。
而且,本发明的若干设备(或部件、电路、部分等)指多个设备中的若干,或者指在一个设备中的若干装置(或设备、部件、电路、部分等),或者指在一个装置中的若干功能。
在本发明程序的一个应用模式中,程序记录在记录媒介上,可用计算机读出,且和计算机协作运行。
在本发明程序的另一个应用模式中,程序通过传输介质传送,用计算机读出,且和计算机协作运行。
记录媒介包括ROM或类似物体,而传送介质包括诸如Internat、光波、无线电波或声波这样的传送介质。
上述本发明计算机不局限于诸如CPU这样的单纯硬件,而可以包括固件、操作系统、乃至外围设备。
本发明的配置构成可用软件或硬件实现。
由上述描述清楚可知,本发明具有优点在于该设备与传统设备相比可进一步小型化,且该设备操作简便。
附图参考标记说明101 计算控制装置102 语音输入/输出装置103 图像输出装置104 外部的大型非易失性存储器装置105 图像指令装置106 按键107 外部数据输入/输出终端108 电源装置201 主板202 2.5英寸硬磁盘机203 语音输入/输出装置204 图像输出装置205 图像指令装置206 按键207 外部数据输入/输出终端208 锂离子二次电池301 具有背面光的4英寸VGA LCD部件302 主板401 触板控制器402 3.8英寸压敏触板403 按键404 按键405 主板501 扩音器502 声频放大器503 麦克风504 USB声频接口505 主板601 主框架602 辅助框架603 按键604 按键701 正视图702 右侧视图703 俯视图801 主框架802 辅助框架803 麦克风804 扩音器805 触板/LCD901 正视图902 右侧视图903 俯视图1001 正视图1002 右侧视图1003 俯视图1004 主板1005 触板/LCD1006 2.5英寸硬磁盘机1007 按键1008 按键1101 正视图1102 右侧视图1103 俯视图1104 麦克风1105 扩音器1106 USB声频接口1107 声频放大器1201 控制部分1202 GUI(图形用户界面)部分1203 语音输入部分1204 语音识别部分1205 抽样数据库1206 字类词典1207 抽样选择部分1208 字选择部分1209 选项字选择部分1210 语言转换部分1211 语音合成部分1301 确定翻译方向的步骤1302进行语音识别的步骤1303从抽样数据库中检索示例的步骤1304选择示例的步骤1305判定示例是否经过校正或进行校正的步骤1306确定要校正的字的步骤1307得到可供选择的字的列表的步骤1308确定可供选择的字的步骤1309校正示例的步骤1310执行语言转换的步骤1311执行语音合成的步骤1601 翻译方向指明区域1602 翻译方向指明区域1603 识别结果显示区域1604 抽样候选显示区域1605 抽样选择结果显示区域1606 翻译结果显示区域1607 按键SW11608 按键SW21701 翻译方向指明区域1702 识别结果显示区域1703 抽样候选显示区域1801 选择的示例1901 抽样选择结果显示区域1902 抽样候选显示区域2001 翻译结果显示区域2101 抽样选择结果显示区域2201 列表窗口2301 选定的可供选择的字2401 抽样选择结果显示区域
权利要求
1.一种语音转换设备包括语音输入装置,其用于输入第一语言的语音;语音识别装置,其用于识别所述输入的语音;第一析取/显示装置,其析取和显示一个或多个所述第一语言的字串,所述字串与所述语音识别的结果一致;转换目标选择装置,其从所述显示的字串中,选择期望成为转换为第二语言的目标的字串;第二析取/显示装置,当指定全部或部分所述选择的字串的时候,其根据所述指定的全部或部分所述选择的字串的内容来析取和显示候选项;候选选择装置,其从所述候选中选择一个;以及转换装置,其根据所述选择的字串和所述选择的候选来确定转换为所述第二语言的所述目标,且其将所述确定的转换目标转换为所述第二语言的语音语言。
2.依照权利要求1的一种语音转换设备,其中所述第一析取/显示装置具有包括显示屏的显示部分,该显示屏在各自预先确定的区域显示作为所述选择目标的所述多个字串以及所述选择的字词,且所述第二析取/显示装置在所述显示屏的部分区域以窗口的形式重叠显示所述候选项。
3.依照权利要求2的一种语音转换设备,其中,当所述选择的字串显示在所述显示屏上的时候,所述第一析取/显示装置还显示附加信息指出,可显示与部分所述字串相关的相应候选项。
4.依照权利要求3的一种语音转换设备,其中所述语音转换设备还包括屏显示指定装置,其在所述显示屏上指定所述部分所述字串,显示的所述附加信息与所述部分所述字串相关。
5.依照权利要求1的一种语音转换设备,其中所述转换装置将所述字串的所述指定部分用所述选择的候选项替换的结果确定作为所述转换目标。
6.一种语音转换方法包括语音输入步骤,其输入第一语言的语音;语音识别步骤,其识别所述输入的语音;第一析取/显示步骤,其析取和显示一个或多个所述第一语言的字串,所述字串与所述语音识别结果一致;转换目标选择步骤,其从所述显示的字串中,选择期望成为转换为第二语言的目标的字串;第二析取/显示步骤,当指定全部或部分所述选择的字串的时候,其根据所述指定的全部或部分所述选择的字串的内容来析取和显示候选项;候选选择步骤,其从所述候选中选择一个;以及转换步骤,其根据所述选择的字串和所述选择的候选来确定转换为所述第二语言的所述目标,且其将所述确定的转换目标转换为所述第二语言的语音语言。
7.一种程序,用于使计算机用作依据权利要求1至5中任一项的所述语音转换设备的所述语音识别装置、所述第一析取/显示装置、所述转换目标选择装置、所述第二析取/显示装置、所述候选选择装置、以及所述转换装置的全部或部分。
8.一种程序,用于使计算机用作依据权利要求6的所述语音转换方法的所述语音识别步骤、所述第一析取/显示步骤、所述转换目标选择步骤、所述第二析取/显示步骤、所述候选选择步骤、以及所述转换步骤的全部或部分。
9.一种媒介,其载有依照权利要求7的所述程序,且其适合用计算机处理。
10.一种媒介,其载有依照权利要求8的所述程序,且其适合用计算机处理。
全文摘要
一种语音翻译设备,其便于携带与操作,由以下构成:语音输入/输出装置102;图像输出装置103;一个或多个按键106;图像指令装置105;计算控制装置101,其在语音和语言上对使用者输入的源语言数据进行转换,且将转换过的数据提供给语音输入/输出装置102和图像输出装置103;外部的大型非易失性存储器装置104,其保存着指示计算控制装置101处理过程的程序以及数据;外部数据输入/输出终端107,计算控制装置101通过它与外部设备之间交换程序与数据;以及电源装置108,其提供必要的电源。
文档编号G10L15/00GK1369834SQ02106838
公开日2002年9月18日 申请日期2002年1月24日 优先权日2001年1月24日
发明者水谷研治, 广濑良文, 前川英嗣, 胁田由实, 芳泽伸一 申请人:松下电器产业株式会社

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:加强面板组合对位的结构及其方法加强面板组合对位的结构及其方法技术领域:本发明是有关一种半导体基板组合的技术,特别是指一种加强面板组合对位的结构及其方法。背景技术:在TFT-LCD产业的液晶滴入面板的对组制程(One Drop Fi

    专利发布时间:2025-05-15阅读:(67)

    专利名称:变色烟雾火焰灯的制作方法技术领域:本实用新型设计舞台灯光设备技术领域,特指一种变色烟雾火焰灯。为达到上述目的,本实用新型包括外壳、火焰布、鼓风机、闪光灯,火焰布活动设置在外壳的上端面上,鼓风机固定在外壳之内,并通过开设在外壳上端面

    专利发布时间:2025-05-15阅读:(65)

    专利名称:偏振结构及其制造方法和有机发光显示器的制作方法技术领域:所描述的技术总体上涉及一种偏振结构、一种制造该偏振结构的方法以及一种具有该结构的有机发光显不器。背景技术:有机发光二极管(OLED)显示器可以利用通过使阳极提供的空穴与阴极提

    专利发布时间:2025-05-15阅读:(70)

    专利名称:目镜光学系统和成像装置的制作方法技术领域:其中,实现在径向方向上的小型化,并且抑制有害光的发生,而不提闻制造成本。背景技术:诸如数字静止照相机、数字摄像机等的成像装置近来也普及用于家庭使用。用作用于观看被摄体的取景器的目镜光学系统

    专利发布时间:2025-05-15阅读:(88)

    专利名称:一体式led射灯的制作方法技术领域:一体式LED射灯技术领域[0001]本实用新型涉及到一种照明灯具,尤其是一种LED射灯。背景技术:[0002]LED射灯主要由灯罩、发光二极管、散热器和控制电路等组成。LED射灯的主要优 点有节

    专利发布时间:2025-05-15阅读:(71)

    专利名称:可拆卸镜腿的眼镜的制作方法技术领域:本实用新型涉及眼镜领域,尤其涉及一种可拆卸镜腿的眼镜。背景技术:眼镜是以矫正视力或保护眼睛而制作的简单光学器件。由镜片和镜架组成。矫正视力用的眼镜有近视眼镜和远视眼镜、老花眼镜以及散光眼镜四种。

    专利发布时间:2025-05-15阅读:(69)