文本生成器和文本生成方法
【专利摘要】根据一个实施例,文本生成器包括识别器、选择器和生成单元。识别器被配置为识别所拾取的声音,并获取识别单元中识别的字符串和所识别的字符串的可信度。选择器被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个,选择至少一个所识别的字符串用于转录的句子。生成单元被配置为使用所选的识别字符串生成转录的句子。
【专利说明】文本生成器和文本生成方法
[0001] 相关申请的交叉引用
[0002] 本申请基于并要求以下申请的优先权:2013年4月3日提交的日本专利申请 No. 2013-077576 ;其全部内容通过引用并入本文。
【技术领域】
[0003] 本文描述的实施例大体上涉及一种文本生成器,以及一种文本生成方法。
【背景技术】
[0004] 在转录(transcription)工作中,例如在收听记录的声音数据的同时,将语音的内 容转录为句子(文本)。为了减小转录工作中的负担,用于帮助转录工作的装置已经采用语 首识别系统。
[0005] 然而,该已知的装置不能获得操作者期望的适当的语音识别结果,并且因此不能 减小转录工作中的负担。
【发明内容】
[0006] 实施例的目的是提供一种能够减小转录工作中的负担的文本生成器。
[0007] 根据一实施例,文本生成器包括识别器、选择器以及生成单元。该识别器被配置为 识别所拾取的声音,并获取识别单元中识别的字符串和所识别的字符串的可信度。该选择 器被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个,选择 至少一个所识别的字符串用于转录的句子。生成单元被配置为使用所选的所识别的字符串 生成转录的句子。
[0008] 根据上述文本生成器,可减小转录工作中的负担。
【专利附图】
【附图说明】
[0009] 图1是示例性示意图,示出了根据第一实施例的文本生成器的使用;
[0010] 图2是示例性示意图,示出了根据第一实施例的文本生成器的功能结构;
[0011] 图3是示例性流程图,示出了根据第一实施例的用于生成文本的基本处理;
[0012] 图4是示例性示意图,示出了根据第一实施例的语音识别结果的数据;
[0013] 图5是第一示例性流程图,示出了根据第一实施例的用于选择识别的字符串的处 理;
[0014] 图6是示例性示意图,示出了根据第一实施例的转录精确度的容许值的设定;
[0015] 图7是第一示例性示意图,示出了根据第一实施例的所识别的字符串的选择结果 的数据;
[0016] 图8是第二示例性流程图,示出了根据第一实施例的用于选择所识别字符串的处 理;
[0017] 图9是示例性示意图,示出了根据第一实施例的转录工作时间的容许值的设定;
[0018] 图10是第二示例性示意图,示出了根据第一实施例的所识别的字符串的选择结 果的数据;
[0019] 图11是第三示例性流程图,示出了根据第一实施例的用于选择所识别字符串的 处理;
[0020] 图12是示例性示意图,示出了根据第一实施例的转录工作成本的容许值的设定;
[0021] 图13是第三示例性示意图,示出了根据第一实施例的所识别的字符串的选择结 果的数据;
[0022] 图14是示例性流程图,示出了根据第一实施例的用于生成转录句子的处理;
[0023] 图15是示例性示意图,示出了根据第一实施例的转录句子的数据格式;
[0024] 图16是示例性示意图,示出了根据第一实施例的转录句子的显示;
[0025] 图17是示例性流程图,示出了根据第一实施例的用于设定字符插入位置的处理;
[0026] 图18是示例性流程图,示出了根据第一实施例的用于搜索声音位置的处理;
[0027] 图19是示例性示意图,示出了根据第二实施例的文本生成器的功能结构;
[0028] 图20是示例性流程图,示出了根据第二实施例的用于生成文本的基本处理;
[0029] 图21是示例性流程图,示出了根据第二实施例的用于结合识别结果的处理;
[0030] 图22是示例性示意图,示出了根据第三实施例的文本生成器的功能结构;
[0031] 图23是示例性流程图,示出了根据第三实施例的用于生成文本的基本处理;
[0032] 图24是示例性示意图,示出了根据第三实施例的发声周期信息的数据;
[0033] 图25是示例性流程图,示出了根据第三实施例的用于选择所识别字符串的处理;
[0034] 图26是示例性示意图,示出了根据第三实施例的转录精确度的容许值的设定;以 及
[0035] 图27是示例性示意图,示出了根据第一至第三实施例的文本生成器的功能结构。
【具体实施方式】
[0036] 下面将参照附图详细描述文本生成器、文本生成方法以及计算机程序的实施例。 [0037] 第一实施例
[0038] 概述
[0039] 下面描述根据第一实施例的文本生成器的功能(在下文中称为"文本生成功能")。 根据第一实施例的文本生成器基于计算的识别字符串的可信度,选择所识别的字符串用于 转录的句子,识别字符串的计算是基于语音识别结果和关于转录精确度的参数。可替换地, 根据本实施例的文本生成器基于计算的识别字符串的可信度,选择所识别的字符串用于转 录的句子,字符串的计算是基于语音识别结果和关于转录所需的工作量的参数。作为结果, 根据本实施例的文本生成器根据所选择的识别字符串生成转录的句子。因此,根据本实施 例的文本生成器使能了使用适当的语音识别结果的转录工作。根据本实施例的文本生成器 具有如此的文本生成功能。
[0040] 常规装置的例子忽略了基于声音数据的语音识别结果。这种装置基于识别单词的 可信度和重要级别来获取语音识别结果的优先级,并根据优先级将关于语音识别结果的输 出信息格式化。然而,这种常规装置只允许操作者通过指定显示目标范围来调节输出。常 规装置根据转录精确度或转录所需的工作量未充分地输出操作者期望的适当的语音识别 结果,从而增加了转录工作中强加于操作者的负担。如上所述,常规装置不会减小转录工作 中强加于操作者的负担。
[0041] 根据本实施例的文本生成器根据由操作者指定的工作条件(转录精确度或转录所 需的工作量)来调节语音识别结果的输出。当操作者对调节的输出执行增加或校正时,本实 施例中的文本生成器允许操作者通过使用语音识别结果使输入字符与声音同步,来执行转 录工作。
[0042] 作为结果,根据本实施例的文本生成器使能了在转录工作中根据工作条件(例如 是转录精确度或转录所需的工作量)使用适当的语音识别结果,从而能够容易地将字符添 加到语音识别结果或校正语音识别结果的字符。因此,根据该实施例的文本生成器可减小 转录工作中强加于操作者的负担。
[0043] 例如,根据本实施例的文本生成器可以提供以下服务。图1是示意图,示出了根据 该实施例的文本生成器的使用示例。图1示出一个例子,其中根据该实施例的文本生成器 被用于一种服务。该服务识别多个发声者的语音,将他们的发声的内容转录到发声者的相 应发声的文本中,并将为各个发声来源的发声者的名字添加到相应的文本中。
[0044] 下面描述了根据该实施例的文本生成器的结构和功能的操作。
[0045] 结构
[0046] 图2为示意图,示出了根据该实施例的文本生成器的功能结构的示例。如图2所 示,根据该实施例的文本生成器1〇〇包括拾取单元11、识别器12、选择器13、生成单元14、 设定单元15、搜索器16、播放器17、以及识别结果保存单元18。
[0047] 拾取单元11通过从某一输入单元接收声音输入以拾取声音。识别器12识别由拾 取单元11拾取的声音,至少计算在识别单元中所识别的字符串,以及所识别的字符串的可 信度,并且将计算结果存储在识别结果保存单元18中。例如,该识别单元是词素。例如,所 述识别结果保存单元18是文本生成器100中设置的存储设备中的特定存储区域。
[0048] 选择器13基于关于转录工作的工作条件的各种参数和存储在识别结果保存单元 18中的所识别字符串的可信度来选择至少一个所识别的字符串用于转录的句子。例如,通 过经由用户界面(UI)接收操作者U的操作,来指定关于工作条件的各种参数值。生成单元 14使用由选择器13选择的所识别的字符串,生成转录的句子。设定单元15设定在转录句 子中对应于未被选择器13选择的识别字符串的用于由操作者U执行的字符输入的起始位 置(在下文中称为"字符插入位置")。例如,未被选择的识别字符串是通过经由Π 接收来自 操作者U的操作来指定的。
[0049] 当操作者U在由设定单元15设定的字符插入位置处开始字符输入时,搜索器16 搜索与输入字符对应的声音的位置(在下文中称为"声音位置"),其。例如,搜索的开始是通 过经由Π 接收来自的操作者U的操作而被指示的。播放器17从搜索到的声音位置播放声 音。
[0050] 下面描述由根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0051] 处理
[0052] 图3是流程图,示出了根据本实施例的用于生成文本的基本处理的示例。如图3 所示,拾取单元11拾取声音(步骤S101)。识别器12识别由拾取单元11拾取的声音,并计 算识别单元中所识别的字符串,以及所识别的字符串的可信度(步骤S102)。作为结果,所识 别的字符串和所识别的字符串的可信度被存储在所述识别结果保存单元18中。
[0053] 选择器13基于关于转录工作的工作条件的各种参数(工作条件参数)和存储在识 别结果保存单元18中的所识别字符串的可信度,来选择至少一个所识别的字符串用于转 录的句子(步骤S103)。选择器13基于关于转录精确度的参数和识别字符串的可信度的组 合或者是关于转录所需的工作量的参数和识别字符串的可信度的组合,来选择识别的字符 串用于转录的句子。生成单元14使用由选择器13选择的识别字符串和不是由选择器13 选择的识别字符串生成转录句子(步骤S104)。
[0054] 设定单元15根据从操作者U接收的设定,在转录句子中对应于不是由选择器13 选择的识别字符串的位置处设定用于操作者U的字符插入位置(步骤S105)。搜索器16基 于识别结果搜索对应于由设定单元15设定的字符插入位置的声音位置(步骤S106)。
[0055] 播放器17根据从操作者U接收的指令,从由搜索器16搜索的声音位置播放声音 (步骤S107)。此后,文本生成器100从操作者U接收字符输入(添加或校正)(步骤S108)。
[0056] 从操作者U接收到结束转录的指令时(S109的是),根据本实施例的文本生成器 100结束该处理。与此相反,文本生成器100重复从S106到S108的处理(S109的否),直到 操作者U执行结束转录的指令。
[0057] 细节
[0058] 在下面描述该功能单元的细节。
[0059] 各个功能单元的细节
[0060] 拾取单元11
[0061] 拾取单元11拾取声音作为目标,根据该目标转录字符。
[0062] 识别器12
[0063] 识别器12识别由拾取单元11拾取的声音,并至少获得识别单元中所识别的字符 串以及所识别的字符串的可信度作为识别结果。
[0064] 图4是示意图,示出了根据实施例的语音识别结果D1的数据的示例。图4示出了 当识别器 12 识别发声"konnichiwa,ABC kaisha no taro desu"(英语,"Hello,this is Taro from ABC Company")时获得的示例性结果。识别器12获得语音识别结果Dl,其包括 例如识别ID、识别的字符串,以及识别字符串的可信度。识别器12将获得的语音识别结果 D1存储在识别结果保存单元18中。
[0065] 选择器13
[0066] 选择器13基于关于转录精确度的参数和识别字符串的可信度的组合或者是关于 转录所需的工作量的参数和识别字符串的可信度的组合来选择至少一个识别的字符串用 于转录的句子。
[0067] 下面描述转录精确度和转录所需的工作量。转录精确度为表示在转录的字符串和 当语音被正确地转录为字符时的字符串(正确答案字符串)之间的一致程度的值。该值越 大,转录的字符串和正确答案字符串之间的一致程度越高,表示转录是正确的。转录所需 的工作量是将语音转录为字符所需的工作量,并且对应于转录工作花费的时间或所需的成 本。
[0068] 下面描述由选择器13执行的用于选择所识别字符串的处理。图5是流程图,示出 了根据实施例的用于选择所识别字符串的处理的第一示例。图5示出了当选择器13使用 转录精确度的容许值作为关于转录精确度的参数时的处理的示例。
[0069] 如图5所示,选择器13首先从操作者U接收转录精确度的容许值P的设定(步骤 S201)。
[0070] 图6是示意图,示出了根据本实施例的转录精确度的容许值P的设定的示例。如 图6所示,操作者U通过滑块UI (滑动条)设定转录精确度容许值P,例如该容许值P允许 从N个阶层(图6中N=5)中指定出一个可允许的阶层。选择器13在屏幕上以这种方式显 示该UI,并且接收来自操作者U的设定。
[0071] 再参考图5,随后选择器13在由识别器12所获得的识别结果(该识别结果存储在 识别结果保存单元18中)中设定第一识别字符串作为目标字符串w (步骤S202),然后根据 目标字符串w的可信度,计算目标字符串w的转录精确度wp (步骤S203)。例如,当从1到 N的正整数被用作各自的转录精确度时,选择器13使用以下表达式(1)计算目标字符串w 的转录精确度wp。
[0072] wp=NX (w的可信度/可信度最大值)(1)
[0073] 然后,选择器13比较计算的目标字符串w的转录精确度wp和转录精确度的容许 值P,并确定转录精确度wp是否等于或大于容许值P (步骤S204)。如果确定wp等于或大 于允许值P (S204的是),则选择器13选择目标字符串w (步骤S205)。如果确定转录精确 度wp小于容许值P (S204的否),则选择器13不选择目标字符串w。
[0074] 然后,选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符 串(步骤S206)。如果确定下一个识别的字符串存在(S206的是),选择器13设定下一个识 别字符串作为目标字符串w (步骤S207),并且随后重复从S203到S206的处理。如果确定 不存在下一个识别的字符串(S206的否),选择器13结束该处理。
[0075] 图7是示意图,示出了根据本实施例的识别的字符串选择结果D2的数据的第一示 例。图7示出了选择结果,其中所识别的字符串是基于通过表达式(1)计算的转录精确度 wp来选择的,其中N=5,容许值P=4,最大可信度=100。选择器13获取识别的字符串选择结 果D2,其例如包括识别ID、所识别的字符串、所识别字符串的可信度、转录准确度wp和选择 结果。选择器13可以基于转录所需的工作量(例如,"工作时间"和"工作成本")选择所识 别的字符串。
[0076] 图8是流程图,示出了根据本实施例的用于选择所识别字符串的处理的第二示 例。图8示出了当选择器13使用转录所需的工作时间的容许值作为关于转录所需工作量 的参数时的示例性处理。
[0077] 如图8所示,选择器13首先从操作者U接收转录所需的工作时间的容许值T的设 定(步骤S301)。
[0078] 图9是示意图,示出了根据本实施例的转录所需的工作时间的容许值T的设定示 例。如图9所示,操作者U通过滑块Π (滑动条)设定转录所需的工作时间的容许值T,该 滑块Π 例如使得可指定从00:00:00到HH:丽:SS的时间。选择器13以这种方式在屏幕上 显示该Π ,并从操作者U接收设定。对于可以指定的最大时间,例如使用预定值。以下述方 式计算的数值可以用作可指定的最大时间。例如,预先确定每个字符的工作时间;每个字符 的工作时间乘以由识别器12获取的识别字符串中的所有字符的数量,以计算乘积;并且可 以使用所计算的值。当识别器12输出各个识别字符串的起始时间和结束时间作为识别结 果时,输出的起始时间被从每个识别字符串的输出的结束时间中减去,以计算时间(发声时 间)。可以使用所有识别字符串的各自发声时间的总和。
[0079] 再参考图8,然后,选择器13以识别字符串可信度的递减次序对识别器12获取的 识别结果进行排序(步骤S302)。然后,选择器13初始化累积工作时间st,其表示转录所需 工作时间的积累量(步骤S303)。
[0080] 然后,选择器13将以递减次序排序的识别结果中的第一识别字符串设定为目标 字符串w (步骤S304),然后计算目标字符串w的转录所需的工作时间t (步骤S305)。例 如,选择器13使用目标字符串w的字符数量,通过以下表达式(2)计算目标字符串w的转 录所需的工作时间t。
[0081] t=a X (目标字符串w的字符数量)(2)
[0082] 例如,使用每个字符的转录所需的平均时间作为a。
[0083] 例如,当识别器12输出各个识别字符串的起始时间和结束时间作为识别结果时, 选择器13可以通过以下表达式(3)计算目标字符串w的转录所需的工作时间t。
[0084] t= β X (目标字符串w的结束时间-目标字符串w的起始时间)(3 )
[0085] 例如,(识别单元中)每个词素的转录所需的平均时间被用作β。
[0086] 然后,选择器13根据目标字符串w的转录所需的工作时间t,计算转录所需的累积 工作时间st (步骤S306)。例如,选择器13将通过使用表达式(2)或(3)计算的目标字符 串w的转录所需的工作时间t累加到转录所需的累积工作时间st。
[0087] 然后,选择器13比较计算的转录所需的累积工作时间st和转录所需的工作时间 的容许值T,并确定累积工作时间st是否等于或小于容许值T(步骤S307)。如果确定累积 工作时间st等于或小于容许值T(S307的是),则选择器13选择目标字符串w(步骤S308)。 如果确定累积工作时间st大于容许值T (S307的否),则选择器13不选择目标字符串w。
[0088] 然后,选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符 串(步骤S309)。如果确定存在下一个识别的字符串(S309的是),选择器13设定下一识别 的字符串作为目标字符串w (步骤S310),并且重复从S305到S309的处理。如果确定不存 在下一个识别的字符串(S309的否),则选择器13结束该处理。
[0089] 图10是示意图,示出了根据本实施例的识别的字符串选择结果D2的数据的第二 示例。图10示出了选择结果,其中所识别的字符串是基于通过使用表达式(3)计算的转录 所需的工作时间t来选择的。选择器13获取识别的字符串选择结果D2,其例如包括识别 ID、所识别的字符串、所识别字符串的可信度、转录所需的工作时间t、累积工作时间st和 选择结果。
[0090] 图11是流程图,示出了根据本实施例的用于选择所识别字符串的处理的第三示 例。图11示出了当选择器13使用转录所需的工作成本的容许值作为关于转录所需工作量 的参数时的示例性处理。
[0091] 如图11所示,选择器13首先从操作者U接收转录所需的工作成本的容许值C的 设定(步骤S401)。
[0092] 图12是示意图,示出了本实施例的转录所需的工作成本的容许值C的设定的示 例。如图12所示,操作者U通过滑块Π (滑动条)设定转录所需的工作成本的容许值C,该 滑块Π 例如使得能够指定从零到最大值的数值。选择器13以这种方式在屏幕上显示Π , 并从操作者U接收设定。对于可以指定的最大数值,例如使用预定值。以下述方式计算的 数值可以用作可指定的最大数值。例如,预先确定每个字符的工作时间;每个字符的工作时 间乘以由识别器12获取的识别字符串中的所有字符的数量,以计算乘积;并且可以使用所 计算的值。当识别器12输出各个识别字符串的发声时间(从起始时间减去结束时间后的时 间)作为识别结果时,各个识别字符串的输出发声时间的总和乘以每一单元时间的工作成 本,以计算乘积,并且可以使用所计算的值。
[0093] 再参考图11,然后,选择器13以识别字符串可信度的递减次序对识别器12获取 的识别结果进行排序(步骤S402)。然后,选择器13初始化累积工作成本sc,累积工作成本 SC表示转录所需工作成本的积累量(步骤S403)。
[0094] 然后,选择器13将以递减次序排序的识别结果中的第一识别字符串设定为目标 字符串w (步骤S404),然后计算目标字符串w的转录所需的工作成本c (步骤S405)。例 如,选择器13使用目标字符串w的字符数量,通过以下表达式(4)计算目标字符串w的转 录所需的工作成本c。
[0095] c=YX (目标字符串w的字符数量)(4)
[0096] 例如,每个字符的转录所需的平均成本被用作Y。
[0097] 例如,当识别器12输出各个识别字符串的起始时间和结束时间作为识别结果时, 选择器13可以通过以下表达式(5)计算目标字符串w的转录所需的工作成本c。
[0098] c= ζ X (目标字符串w的结束时间-目标字符串w的起始时间)(5 )
[0099] 例如,(识别单元中)每个词素的转录所需的平均成本被用作ζ。
[0100] 然后,选择器13根据目标字符串w的转录所需的工作成本c,计算转录所需的累积 工作成本sc (步骤S406)。例如,选择器13将通过使用表达式(4)或(5)计算的目标字符 串w的转录所需的工作成本c累积地加到转录所需的累积工作成本sc。
[0101] 然后,选择器13比较计算的转录所需的累积工作成本sc和转录所需的工作成本 的容许值C,并确定累积工作成本sc是否等于或小于容许值C(步骤S407)。如果确定累积 工作成本sc等于或小于容许值C(S407的是),则选择器13选择目标字符串w(步骤S408)。 如果确定累积工作成本sc大于容许值C (S407的否),则选择器13不选择目标字符串w。
[0102] 然后,选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符 串(步骤S409)。如果确定存在下一个识别的字符串(S409的是),选择器13设定下一识别 的字符串作为目标字符串w (步骤S410),并且重复从S405到S409的处理。如果确定不存 在下一个识别的字符串(S409的否),则选择器13结束该处理。
[0103] 图13是示意图,示出了根据本实施例的识别的字符串选择结果D2的数据的第三 示例。图13示出了选择结果,其中所识别的字符串是基于通过使用表达式(5)计算的转录 所需的工作成本c来选择的。选择器13获取识别的字符串选择结果D2,其例如包括识别 ID、所识别的字符串、所识别字符串的可信度、转录所需的工作成本c、累积工作成本sc和 选择结果。
[0104] 生成单元14
[0105] 生成单元14使用选择器13选择的识别字符串和没有选择的识别字符串,生成转 录句子。
[0106] 下面描述了生成单元14执行的生成转录句子的处理。图14是流程图,示出了根 据本实施例的生成转录句子的处理的示例。图15是示意图,示出了根据本实施例的转录句 子的数据格式的示例。
[0107] 如图14所示,生成单元14首先初始化转录句子k (步骤S501)。如图15所示,例 如当数据格式是超文本标记语言(HTML)时,转录句子k是被生成用作division (DIV)元 素。
[0108] 然后,生成单元14将识别器12获取的识别结果中的第一识别字符串设定为目标 字符串w (步骤S502),然后判断目标字符串w是否被选择器13选择(步骤S503)。如果确 定目标字符串w被选择(S503的是),生成单元14从目标字符串w生成选择的元素 s (步骤 S504),然后再将这些生成的选择的元素 s添加到转录句子k(步骤S505)。例如,如图15所 示,选择的元素 s被生成作为span元素,该span元素具有目标字符串w的识别ID的ID属 性和表示选择的元素 s的字符串的类别属性(例如"选择的")。如果确定目标字符串w没有 被选择(S503的否),则生成单元14从目标字符串w生成未选择元素 ns (步骤S506),然后 再将生成的未选择元素 ns添加到转录句子k (步骤S507)。例如,如图15所示,未选择元 素 ns被生成作为span元素,该span元素具有目标字符串w的识别ID的ID属性和表示未 选择元素 ns的字符串的类别属性(例如"未选择的")。
[0109] 然后,生成单元14确定识别器12获取的识别结果中是否存在下一个识别的字符 串(步骤S508)。如果确定存在下一个识别的字符串(S508的是),生成单元14设定下一个 识别的字符串作为目标字符串w (步骤S509),并且重复从S503到S508的处理。如果确定 不存在下一个识别的字符串(S508的否),生成单元14结束该处理。
[0110] 图16是示意图,示出了根据本实施例的转录句子k的显示的示例。如图16所示, 生成单元14可以生成转录句子k,该转录句子k可以显示为不同的形式,该不同的形式明确 地将选择的元素 s的字符串与未选择的元素 ns的字符串区分开。图16的部分(A)示出了 显示的示例,其中未选择的元素 ns的字符串是有下划线的。图16的部分(B)示出了另一 显示的示例,其中未选择的元素 ns的字符串中的字符的尺寸小于选择的元素 s的字符串中 的字符的尺寸。图16的部分(C)还示出了另一显示的示例,其中未选择的元素 ns的字符 串被加阴影。图16的部分(D)还示出了另一显示的示例,其中未选择的元素 ns的字符串 中的字符被替换为特定字符(图16的部分(D)中的实心圆)。除了这些显示示例之外,其他 显示示例可通过改变字符的密度、颜色、或字体或背景颜色来获得。当识别器12在识别单 元中以可信度的递减次序输出直到第N个候选者的识别字符串时(N是等于或大于1的整 数),可以生成转录句子k,在该转录句子k中直到第N个候选者的识别的字符串被显示用于 未选择的字符串,使得它们可被操作者U选择。
[0111] 设定单元15
[0112] 设定单元15基于由生成单元14生成的转录句子k的未选择元素 ns,设定字符插 入位置(用于开始字符输入的位置)。设定单元15基于检测的当前字符插入位置以及选择 元素和未选择元素之间的位置关系,来设定字符插入位置,该选择元素对应于由选择器13 选择的识别字符串,未选择元素对应于转录句子中没有被选择器13选择的识别字符串。
[0113] 下面描述设定单元15执行的设定字符插入位置的处理。图17是流程图,示出了 根据本实施例的设定字符插入位置的处理的示例。
[0114] 如图17所示,设定单元15首先从操作者U接收移动到未选择元素 ns的字符的指 令(步骤S601)。例如,当检测到显示的转录句子中的某一按键(例如,"Tab键")被压下时, 设定单元15确定移动被指示,并接收该指示。然后设定单元15检测转录句子中的当前字 符插入位置cp (步骤S602)。当前字符插入位置cp是此时转录句子中的字符串中的字符 插入位置cp。例如,当前字符插入位置cp对应于转录句子被显示所在的屏幕上的光标位置 (例如,"坚线闪烁的位置")。
[0115] 然后,设定单元15确定检测的当前字符插入位置cp是否在选择的元素中(步骤 S603)。如果确定当前字符插入位置cp是在选择的元素中(S603的是),则设定单元15在最 接近于当前字符插入位置cp并且在当前字符插入位置cp后面的位置处检测未选择的元素 ns (步骤S604)。如果确定当前字符插入位置cp不在选择的元素中(S603的否),则设定单 元15在最接近于当前字符插入位置cp并且在当前字符插入位置cp后面的位置处检测选 择的元素 s (步骤S605)。然后设定单元15在最接近于检测的选择的元素 s并且在检测的 选择元素 s后面的位置处检测未选择的元素 ns (步骤S606)。然后,设定单元15将字符插 入位置cp移动到检测的未选择元素 ns的头位置nsp (步骤S607)。
[0116] 当在未选择的元素后面存在其他连续的未选择的元素时,其中当前字符插入位置 cp被移动至未选择的元素的头位置nsp,设定单元15可以彼此不同的形式显示未选择的元 素 ns的字符串以及其他未选择的元素的字符串。设定单元15可使用彼此不同的背景颜色 来突出未选择的元素 ns的字符串以及其它未选择的元素的字符串。
[0117] 搜索器16
[0118] 当操作者U在字符插入位置cp处开始字符输入时,搜索器16搜索对应于输入字 符的声音位置。
[0119] 下面描述搜索器16执行的用于搜索声音位置的处理。图18是流程图,示出了根 据本实施例的用于搜索声音位置的处理的示例。
[0120] 如图18所示,设定单元15首先从操作者U接收搜索对应于当前字符插入位置cp 的声音位置的指令(步骤S701)。例如,当检测到显示的转录句子中的输入键被压下时,搜索 器16确定搜索被指示,并接收该指示。
[0121] 然后,搜索器16检测转录句子中的当前字符插入位置cp (步骤S702)。然后,搜 索器16确定检测的当前字符插入位置cp是否在选择的元素中(步骤S703)。
[0122] 如果确定当前字符插入位置cp在选择的元素中时(S703的是),则搜索器16设定 选择的元素 s的起始时间作为声音位置P (步骤S704)。如果确定当前字符插入位置cp不 在选择的元素中时(S703的否),搜索器16使用某一语音识别技术(例如,"强制对准方法 forced alignment method")估计声音位置p (步骤S705)。例如,搜索器16使用语音识别 技术,基于转录句子k、对应于其中存在字符插入位置cp的未选择元素 ns的识别字符串的 起始时间、以及当前声音播放位置,来估计声音位置P。
[0123] 播放器17
[0124] 播放器17从由搜索器16搜索的声音位置p播放声音。
[0125] 如上所述,根据本实施例的文本生成器100基于根据语音识别结果和关于由操作 者U指定的转录工作的工作条件的各种参数(关于转录精确度和转录所需的工作量的参数 中的至少一个)计算的识别字符串的可信度,选择从声音识别的识别字符串,并生成转录句 子。
[0126] 因此,本实施例中构造的文本生成器100根据操作者U指定的工作条件来调节语 音识别结果的输出。当操作者U执行在调节后的输出上执行增加或校正时,实施例中的文 本生成器100提供了允许操作者U通过使用语音识别结果使输入的字符与声音同步来执行 转录工作的环境。
[0127] 作为结果,该实施例中的文本生成器100使能了适当的语音识别结果根据转录的 工作条件被用于转录工作中,从而能够容易地将字符添加到语音识别结果中,或校正语音 识别结果的字符。因此,该实施例中的文本生成器100可减小转录工作中强加于操作者U 的负担。
[0128] 第二实施例
[0129] 概述
[0130] 下面描述了根据第二实施例的文本生成器的功能(文本生成功能)。根据第二实施 例的文本生成器与第一实施例不同在于,识别器获取的识别结果是基于句子或者基于时间 来连接的,而且将连接的结果用于转录的句子。更具体地,根据第二实施例的文本生成器将 如下连接的结果用于转录的句子,在该连接的结果中,识别结果是基于句子,根据各个识别 的字符串的句子结尾的表达来连接的。可替代地,根据第二实施例的文本生成器将如下的 连接的结果用于转录的句子,在该连接的结果中,识别结果是基于特定时间,根据各个识别 的字符串的起始时间和结束时间来连接的。
[0131] 下面描述了根据该实施例的文本生成器的结构和功能操作。在下面的描述中,描 述了与第一个实施例的那些项不同的项,而相同的项被标以相同的附图标记,并且省略对 其重复的描述。
[0132] 结构
[0133] 图19是示意图,示出了根据本实施例的文本生成器100的功能结构。如图19所 示,除了第一实施例的结构之外,根据该实施例的文本生成器100还包括:连接单元21和识 别连接结果保存单元22。
[0134] 连接单元21基于句子或基于时间来连接由识别器12获取的识别结果(存储在识 别结果保存单元18中的识别结果),并将连接的结果存储在识别连接结果保存单元22中。 例如,识别连接结果保存单元22是文本生成器100中设置的存储装置中的特定存储区域。 选择器13和搜索器16使用存储在识别连接结果保存单元22中的识别连接结果。
[0135] 下面描述了根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0136] 处理
[0137] 图20是流程图,示出了根据本实施例的用于生成文本的基本处理的示例。如图20 所示,拾取单元11拾取声音(步骤S801)。识别器12识别由拾取单元11拾取的声音,并计 算识别单元中识别的字符串,以及识别的字符串的可信度(步骤S802)。作为结果,识别的字 符串和识别的字符串的可信度被存储在识别结果保存单元18中。
[0138] 连接单元21基于特定句子或基于特定时间,来连接识别器12的识别结果(步骤 S803)。连接的识别字符串和连接的识别字符串的可信度被存储在识别连接结果保存单元 22作为识别连接结果。选择器13基于关于转录工作的工作条件的各种参数(工作条件参 数)和存储在识别连接结果保存单元22中的识别连接结果的可信度(连接之后的识别字符 串的可信度)来选择至少一个识别的字符串用于转录的句子(步骤S804)。选择器13基于 关于转录精确度的参数和识别的字符串的可信度的组合或者关于转录所需的工作量的参 数和识别的字符串的可信度的组合,来选择识别的字符串用于转录的句子。
[0139] 生成单元14使用由选择器13选择的识别字符串和选择器13未选择的识别字符 串,生成转录的句子(步骤S805)。设定单元15根据从操作者U接收的设定,设定转录句子 中对应于没有被选择器13选择的识别字符串的用于操作者U的字符插入位置(步骤S806)。 搜索器16基于识别结果来搜索与设定单元15设定的字符插入位置对应的声音位置(步骤 S807)。
[0140] 播放器17根据从操作者U接收的指令,从搜索器16搜索的声音位置播放声音(步 骤S808)。此后,文本生成器100从操作者U接收字符输入(添加或校正)(步骤S809)。
[0141] 当从操作者U接收到结束转录的指令时(S810的是),根据本实施例的文本生成器 100结束该处理。相反,文本生成器100重复从S807到S809的处理(S810的否),直到操作 者U执行结束转录的指令。
[0142] 细节
[0143] 下面主要描述了连接单元21和选择器13的细节。
[0144] 各个功能单元的细节
[0145] 连接单元21
[0146] 连接单元21基于句子,根据各个识别的字符串的句子结尾表达,来连接识别结 果,并获取识别连接结果。或者,连接单元21基于特定时间,根据各个识别的字符串的起始 时间和结束时间,来连接识别结果,并获取识别连接结果,该识别连接结果包括连接的字符 串(连接之后的识别字符串)和连接结果的可信度。
[0147] 下面描述了连接单元21执行的用于连接识别结果的处理。图21是流程图,示出 了根据该实施例的用于连接识别连接结果的处理的示例。
[0148] 如图21所示,连接单元21首先初始化由识别器12获取的识别结果的临时连接结 果cr (存储在识别结果保存单元18中的识别结果)获得(步骤S901)。连接单元21设定由 识别器12获取的识别结果的第一识别结果作为目标识别结果r (步骤S902)。然后,连接 单元21将目标识别结果r添加到临时连接结果cr (步骤S903)。
[0149] 然后,连接单元21确定是否需要结束连接(步骤S904)。当基于句子完成连接和基 于时间完成连接时,连接单元21不同地执行确定处理。
[0150] A.当基于句子完成连接时的确定处理
[0151] 连接单元21基于目标识别结果r的识别字符串是否是句子结尾的确定结果,来确 定是否需要结束连接。如果目标识别结果r的识别字符串是句子结尾(S904的是),则连接 单元21确定连接结束。如果目标识别结果r的识别字符串不是句子结尾(S904的否),则 连接单元21确定不结束该连接。例如,句子结尾的确定是基于表示句子结尾的字符或符 号(例如日文的标点符号" ° "、句号"或"问号"?)是否被包括在识别的字符串中来做出 的。当这样的字符或符号未被包括时,则该确定可以基于句子结尾的特定表达(如日文的 "desu"或"masu")是否被包括在识别的字符串中来做出。
[0152] B.当基于时间完成连接时的确定处理
[0153] 连接单元21基于被获取作为识别结果的识别字符串的起始时间和结束时间,来 确定是否需要结束连接。如果从与目标识别结果r对应的识别字符串的起始时间到与在目 标识别结果r被添加之前被添加到临时连接结果cr的识别结果对应的识别字符串的结束 时间经过的时间段等于或大于特定时间,则连接单元21确定连接结束(S904的是)。如果 经过的时间段小于特定时间,连接单元21确定不结束该连接(S904的否)。当从与目标识 别结果r对应的起始时间到与被添加到临时连接结果cr的第一识别结果对应的识别字符 串的起始时间经过的时间段等于或大于特定时间时,连接单元21可以确定连接结束。
[0154] 如果确定连接结束(S904的是),连接单元21计算临时连接结果cr的可信度(步 骤S905)。临时连接结果cr的可信度是基于与添加到临时连接结果cr的识别结果对应的 识别字符串的可信度来计算的。例如,计算与添加到临时连接结果cr的识别结果对应的识 别字符串的可信度的平均值,而且将该计算的值设定为临时连接结果cr的可信度。如果确 定该连接没有结束(S904的否),则连接单元21进行到S908处的处理(其将在后面描述),同 时跳过从S905到S907的处理。
[0155] 然后,连接单元21将连接识别的字符串并对应于临时连接结果cr(连接之后的识 别字符串)的字符串和临时连接结果cr的计算可信度存储在识别连接结果保存单元22中 (步骤S906),然后初始化临时连接结果cr (步骤S907)。
[0156] 然后,连接单元21确定由识别器12获取的识别结果中是否存在下一个识别结果 (步骤S908)。如果确定存在下一识别结果(S908的是),连接单元21设定下一识别结果作 为目标识别结果r (步骤S909),然后重复从S903到S908的处理。如果确定不存在识别结 果(S908的否),则连接单元21确定识别结果是否保持在临时连接结果cr中(步骤S910)。 如果确定识别结果保持在临时连接结果cr中(S910的是),连接单元21进行到S905处的 处理。如果确定识别结果没有保持在临时连接结果中(S910的否),则连接单元21结束该 处理。
[0157] 选择器13
[0158] 选择器13基于关于转录精确度的参数和识别连接结果的可信度(连接之后的识 别字符串的可信度)的组合或者是关于转录所需的工作量的参数和识别连接结果的可信度 的组合,来选择至少一个识别的字符串用于转录的句子。
[0159] 如上所述,根据第二实施例的文本生成器100基于在句子的基础上或在特定时间 的基础上连接的识别字符串的可信度和由操作者U指定的关于转录工作的工作条件的各 种参数(关于转录精确度和转录所需的工作量中的至少一个参数),来选择根据声音识别的 识别字符串,并生成转录的句子。
[0160] 作为结果,本实施例中的文本生成器100以与第一实施例相同方式,使得字符的 添加或校正能够被容易地做出,并且转录工作中强加于操作者U的负担能够被减小。
[0161] 第三实施例
[0162] 下面描述了根据第三实施例的文本生成器的功能(文本生成功能)。根据第三实施 例的文本生成器与第一和第二实施例不同在于,文本生成器针对每个发声者或每个发声周 期,基于识别字符串的可信度和关于转录工作的工作条件(转录精确度或转录所需的工作 量)的各种参数,来选择从声音识别的识别字符串,并生成转录句子。
[0163] 下面描述了根据该实施例的文本生成器的结构和功能操作。在下面的描述中,描 述了与第一和第二实施例的那些项不同的项,而相同的项被标以相同的附图标记,并且省 略对其重复的描述。
[0164] 结构
[0165] 图22是示意图,示出了根据本实施例的文本生成器100的功能结构。如图22所 示,除了第一实施例的结构之外,根据该实施例的文本生成器100还包括:发声周期信息生 成单元31和发声周期信息保存单元32。
[0166] 关于拾取单兀11拾取的声音,发声周期信息生成单兀31生成发声周期信息,发声 周期信息包括识别相应发声的发声ID、发声开始的时间(以下称为"发声起始时间")以及识 别发声的发声者的发声者ID,并且发声周期信息生成单元31将生成的发声周期信息存储 在发声周期信息保存单元32中。例如,发声周期信息保存单元32是文本生成器100中设 置的存储装置中的特定存储区域。选择器13和搜索器16使用存储在发声周期信息保存单 元32中的发声周期信息。
[0167] 下面描述了根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0168] 处理
[0169] 图23是流程图,示出了根据本实施例的用于生成文本的基本处理的示例。如图23 所示,拾取单元11拾取声音(步骤S1001)。识别器12识别由拾取单元11拾取的声音,并计 算识别单元中识别的字符串,以及识别的字符串的可信度(步骤S1002)。作为结果,识别的 字符串和识别的字符串的可信度被存储在识别结果保存单元18中。
[0170] 关于拾取单兀11拾取的声音,发声周期信息生成单兀31生成每个发声的发声周 期信息(包括发声ID、发声起始时间以及发声者ID)(步骤S1003)。作为结果,发声周期信 息被存储在发声周期信息保存单元32中。
[0171] 选择器13基于存储在发声周期信息保存单元32中的发声周期信息、关于转录工 作的工作条件的各种参数(工作条件参数)、以及存储在识别结果保存单元18中的识别字符 串的可信度,针对每个发声者或每一个发声周期,来选择至少一个识别的字符串用于转录 的句子(步骤S1004)。选择器13基于关于转录精确度的参数和识别字符串的可信度的组合 或者关于转录所需的工作量的参数和识别字符串的可信度的组合,来选择识别的字符串用 于转录的句子。生成单元14使用由选择器13选择的识别字符串和选择器13未选择的识 别字符串,生成转录句子(步骤S1005)。
[0172] 设定单元15根据从操作者U接收的设定,设定转录句子中对应于未被选择器13 选择的识别字符串的用于操作者U的字符插入位置(步骤S1006)。搜索器16基于识别结果 搜索对应于设定单元15设定的字符插入位置的声音位置(步骤S1007)。
[0173] 播放器17根据从操作者U接收的指示,从搜索器16搜索的声音位置播放声音(步 骤S1008)。此后,文本生成器100从操作者U接收字符输入(添加或校正)(步骤S1009)。
[0174] 当从操作者U接收到结束转录的指令时,根据本实施例的文本生成器100结束该 处理(S1010的是)。文本生成器100重复从S1007到S1009的处理(S1010的否),直到操作 者U执行结束转录的指令。
[0175] 细节
[0176] 下面主要描述了发声周期信息生成单元31和选择器13的细节。
[0177] 各个功能单元的细节
[0178] 发声周期信息生成单元31
[0179] 发声周期信息生成单元31以下列方式识别发声者和发声周期,并生成发声周期 信息。例如,发声周期信息生成单元31接收当操作者U听到声音时识别各个声音的发声者 和声音起始时间的识别结果并根据接收的识别结果生成发声周期信息。发声周期信息生成 单元31可以使用发声者识别技术基于声学特征量来估计发声者和发声周期,并根据估计 结果生成发声周期信息。
[0180] 图24是示意图,示出了根据本实施例的发声周期信息D3的数据的示例。图24示 出了当发声周期信息生成单元31从由拾取单元11拾取的声音识别(估计)多个发声者和相 应发声周期时生成的示例性数据。例如,发声周期信息生成单元31以这种方式生成包括发 声ID、发声起始时间以及发声者ID的发声周期信息D3。发声周期信息生成单元31将生成 的发声周期信息D3存储在发声周期信息保存单元32中。
[0181] 选择器13
[0182] 选择器13针对每个发声者或每一个发声周期,基于发声周期信息生成单元31生 成的发声周期信息D3、识别字符串的可信度和关于转录工作的工作条件的各种参数,来选 择从声音识别的识别字符串。更具体地,选择器13针对每个发声者或发声周期,基于关 于转录精确度的参数和识别字符串的可信度,来选择至少一个识别的字符串用于转录的句 子。此外,选择器13针对每个发声者或发声周期,基于关于转录所需的工作量的参数和识 别字符串的可信度,来选择至少一个识别的字符串用于转录的句子。
[0183] 下面描述了由选择器13执行的用于选择识别字符串的处理。图25为流程图,其 示出了根据本实施例的用于选择识别字符串的处理的示例。图25示出了当选择器13使用 转录精确度的容许值作为针对每个发声者的关于转录精确度的参数时的示例性处理。
[0184] 如图25所示,选择器13首先从操作者U接收针对发声者i (i=l至M,Μ是发声者 的数量)的转录精确度的容许值P (i)的设定(步骤S1101)。
[0185] 图26是示意图,示出了根据本实施例的转录精确度的允许值P(i)的设定的示例。 如图26所示,操作者U通过相应的滑块UI(滑动条),设定针对发声者的转录精确度的容许 值P (i ),例如每个滑块Π 允许从N个阶层(图26中N=5)中指定出一个可允许的阶层。选 择器13以这种方式在屏幕上显示UI,并从操作者U接收设定。
[0186] 再参考图25,选择器13随后设定由识别器12获取的识别结果(存储在识别结果保 存单元18中的该识别结果)中的第一识别字符串作为目标字符串w (步骤S1102),然后根 据目标字符串w的可信度,计算目标字符串w的转录精确度wp (步骤S1103)。例如,选择 器13通过第一实施例中所描述的表达式(1),计算目标字符串w的转录精确度wp。
[0187] 然后,选择器13基于存储在发声周期信息保存单元32中的发声周期信息D3,识别 目标字符串w的发声者wi (步骤S1104)。例如,选择器13提取发声周期n,并且根据发声 周期信息D3中的发声周期的发声者ID识别发声者wi,在该发声周期η中识别字符串的起 始时间存在于发声周期η的起始时间和下一发声周期η+1的起始时间之间。
[0188] 然后,选择器13比较目标字符串w的计算的转录精确度wp和识别的发声者wi的 转录精确度的容许值P (wi),并确定转录精确度wp是否等于或大于容许值P (wi)(步骤 S1105)。如果确定转录精确度wp等于或大于容许值P (wi) (S1105的是),选择器13选择 目标字符串w (步骤S1106)。如果确定转录精确度wp小于容许值P (wi) (S1105的否), 则选择器13不选择目标字符串w。
[0189] 然后,选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符 串(步骤S1107)。如果确定存在下一个识别的字符串(S1107的是),选择器13设定下一识 别的字符串作为目标字符串w (步骤S1108),并重复从S1103到S1107的处理。如果确定 不存在下一个识别的字符串(S1107的否),选择器13结束该处理。
[0190] 选择器13可以与上述方式相同的方式,使用每个发声者的关于转录所需工作量 的参数,选择识别的字符串。可替代地,选择器13可使用关于每个发声周期的转录精确度 的参数或者每个发声周期的转录所需工作量的参数,来选择识别的字符串。
[0191] 如上所述,根据本实施例的文本生成器100基于识别字符串的可信度和关于操作 者U指定的转录工作的工作条件的各种参数(转录精确度和转录所需工作量中的至少一 个参数),针对每个发声者或每个发声周期选择根据声音识别的识别字符串,并生成转录句 子。
[0192] 作为结果,本实施例中的文本生成器100以与第一实施例相同的方式使得能够容 易地进行字符的添加或校正,并且减小转录工作中的强加于操作者U的负担。
[0193] 文本生成器
[0194] 图27为示意图,示出了根据本实施例的文本生成器100的结构的示例。如图27 所示,根据本实施例的文本生成器100包括中央处理单元(CPU) 101和主存储设备102。文 本生成器100还包括辅助存储设备103、通信接口(IF)104、外部IF105、以及驱动设备107。 在文本生成器100中,各个设备通过总线B相互连接。因此,根据本实施例的文本生成器 100对应于典型的信息处理装置。
[0195] CPU101是算术处理单元,其总体控制文本生成器100并实现文本生成器100的相 应功能。主存储设备102是在其特定存储区域中存储程序和数据的存储设备(存储器)。例 如,主存储设备102是只读存储器(ROM)或随机存取存储器(RAM)。辅助存储设备103是具 有比主存储设备102更大容量的存储区域的存储设备。例如,辅助存储设备103是非易失性 存储装置,例如硬盘驱动器(HDD)或者存储卡。CPU101从辅助存储设备103读出程序和数 据至主存储装置102中,并执行它们,以便总体控制文本生成器100并实现文本生成器100 的相应功能。
[0196] 通信IF104是一种接口,其连接文本生成器100至数据传输线N。因此,通信IF104 使文本生成器100能够执行与其他外部装置(其他通信处理装置)的数据通信,该其他外部 装置通过数据传输线N耦合到文本生成器100。外部IF105是使能文本生成器100和外部 设备106之间的数据交换的接口。例如,外部设备106是显示各种类型的信息(例如处理结 果)的显示器(例如,"液晶显示器"),或者是接收处理输入的输入装置(例如,"数字键盘"、 "键盘"、或"触摸面板")。驱动设备107是将数据写入和读出存储介质108的控制器。例如, 该存储介质108是软盘(FD)、紧致盘(⑶)、或数字多功能盘(DVD)。
[0197] 例如,本实施例中的文本生成功能是由执行计算机程序的文本生成器100和上述 各功能单元产生的协同操作来实现的。在这种情况下,程序作为可安装或可执行的格式的 文件被记录在执行环境中可由文本生成器100 (计算机)读取的记录介质中,并且被提供。 例如,在文本生成器100中,程序具有包括上述各个功能单元的单元结构,一旦CPU101从存 储介质108读出程序并执行程序,各个单元就生成于主存储装置102的RAM上。提供程序 的方式并不局限于该方式。例如,该程序可以存储在连接到互联网的外部装置,并可通过数 据传输线N下载。该程序可以预先存储在主存储装置102的ROM上或者辅助存储装置103 的HDD上,并被提供。描述了其中文本生成功能通过软件实施来实现的例子。然而,文本生 成功能的实现并不局限于这种方式。文本生成功能的各个功能单元的一部分或全部可以通 过硬件实施来实现。
[0198] 在实施例中,文本生成器100包括拾取单元11、识别器12、选择器13、生成单元 14、设定单元15、搜索器16、播放器17、识别结果保存单元18、连接单元21、识别连接结果保 存单元22、发声周期信息生成单元31、以及发声周期信息保存单元32中的一部分或全部。 然而,文本生成器100的结构不局限于此结构。文本生成器100可以通过通信IF104耦合 到具有那些功能单元的一部分功能的外部装置,并通过与所耦合的外部装置的数据通信和 各个功能单元产生的协同操作,提供文本生成功能。例如,这种结构使得该实施例中的文本 生成器100还能够应用于云环境。
[0199] 根据上述至少一个实施例中的文本生成器,文本生成器包括识别器、选择器、以及 生成单元。识别器被配置为识别拾取的声音,并获取识别单元中识别的字符串以及识别字 符串的可信度。选择器被配置为基于关于转录精确度的参数和关于转录所需的工作量的参 数中的至少一个来选择至少一个识别的字符串用于转录句子。生成单元被配置为使用所选 的识别字符串生成转录句子。因此,可以减小转录工作中的负担。
[0200] 虽然已经介绍了一些实施例,但是这些实施例只是作为示例来呈现的,而不是用 来限制本发明的范围。实际上,在此描述的新颖实施例可以以各种其它形式实施;此外,在 不脱离本发明的精神的情况下可以做出在此所述的实施例的形式中的各种省略、替换和改 变。所附的权利要求及其等同方案旨在覆盖将落入本发明的范围和精神的如此形式或修 改。
【权利要求】
1. 一种文本生成器,包括: 识别器,其被配置为识别所拾取的声音,并获取识别单元中所识别的字符串和所识别 的字符串的可信度; 选择器,其被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至 少一个,选择至少一个所识别的字符串用于转录的句子;以及 生成单元,其被配置为使用所选的识别字符串生成所述转录的句子。
2. 根据权利要求1所述的文本生成器,其中,所述选择器基于所述关于转录精确度的 参数与所述所识别的字符串的可信度的组合和所述关于转录所需工作量的参数与所述所 识别的字符串的可信度的组合中的至少一个组合,来选择所识别的字符串。
3. 根据权利要求2所述的文本生成器,其中,所述选择器基于每个所识别的字符串的 可信度来计算每个所识别的字符串的转录精确度,比较所计算的转录精确度和所述转录精 确度的容许值,并且当所述转录精确度等于或大于所述容许值时选择所述所识别的字符 串。
4. 根据权利要求2所述的文本生成器,其中,所述选择器使用转录工作时间作为所述 关于转录所需工作量的参数,基于所识别的字符串的字符数量来计算每个所识别的字符串 的所述转录工作时间,比较累积的工作时间和所述转录工作时间的容许值,并且当所述累 积的工作时间等于或小于所述容许值时选择所述所识别的字符串,所述累积的工作时间以 所识别的字符串的可信度的递减次序累积地示出了所识别的字符串的所计算的转录工作 时间。
5. 根据权利要求2所述的文本生成器,其中 所述识别器还获取每个所识别的字符串的起始时间和结束时间,并且 所述选择器使用转录工作时间作为所述关于转录所需工作量的参数,基于每个所识别 的字符串的起始时间和结束时间计算每个所识别的字符串的转录工作时间,比较累积的工 作时间和转录工作时间的容许值,并且当所述累积的工作时间等于或小于所述容许值时选 择所述所识别的字符串,所述累积的工作时间累积地示出了以所识别的字符串的可信度的 递减次序的所识别的字符串的所计算的转录工作时间。
6. 根据权利要求2所述的文本生成器,其中,所述选择器使用转录工作成本作为所述 关于转录所需工作量的参数,基于所识别的字符串的字符数量计算每个所识别的字符串的 转录工作时间,基于所计算的转录工作时间和每一单位时间的工作成本来计算每个所识别 的字符串的转录工作成本,比较累积的工作成本和所述转录工作成本的容许值,并且当所 述累积的工作成本等于或小于所述容许值时选择所述所识别的字符串,所述累积的工作成 本累积地示出了以所识别的字符串的可信度的递减次序的所识别的字符串的所计算的转 录工作成本。
7. 根据权利要求2所述的文本生成器,其中 所述识别器还获取每个所识别的字符串的起始时间和结束时间,并且 所述选择器使用转录工作成本作为所述关于转录所需工作量的参数,基于所识别的字 符串的起始时间和结束时间来计算每个所识别的字符串的转录工作时间,基于所计算的转 录工作时间和每一单位时间的工作成本来计算每个所识别的字符串的转录工作成本,比较 累积的工作成本和所述转录工作成本的容许值,并且当所述累积的工作成本等于或小于所 述容许值时选择所述所识别的字符串,所述累积的工作成本累积地示出了以所识别的字符 串的可信度的递减次序的所识别的字符串的所计算的转录工作成本。
8. 根据权利要求2所述的文本生成器,其中,所述生成单元生成所述转录的句子,在所 述转录的句子中,所述所识别的字符串中没有被所述选择器选择的所识别的字符串的N个 候选者(N是等于或大于1的整数)以所识别的字符串的可信度的递减次序被显示,使得所 述N个候选者能够被操作者选择。
9. 根据权利要求1所述的文本生成器,还包括设定单元,所述设定单元被配置为在所 述转录的句子中的一位置处设定字符插入位置,所述位置对应于没有被所述选择器选择的 所识别的字符串,所述字符插入位置对应于操作者开始字符输入的位置,其中 所述设定单元基于所检测的当前字符插入位置并基于所选择的元素和未选择的元素 之间的位置关系,来设定字符插入位置,所述所选择的元素对应于由所述选择器选择的所 识别的字符串,所述未选择的元素对应于所述转录的句子中没有被所述选择器选择的所识 别的字符串。
10. 根据权利要求9所述的文本生成器,其中 所述设定单元确定所检测的当前字符插入位置是否是在所述所选择的元素中,并且 当所述字符插入位置是在所述所选择的元素中时,所述设定单元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置处检测所述未选择的元素,并且将所述字符 插入位置移动到所检测的未选择的元素的开头位置。
11. 根据权利要求9所述的文本生成器,其中 所述设定单元确定所检测的当前字符插入位置是否是在所选择的元素中,并且 当所述字符插入位置不在所述所选择的元素中时,所述设定单元在最接近于所述字符 插入位置并且在所述字符插入位置后面的位置处检测所选择的元素,在最接近于所检测的 所选择的元素并且在所检测的所选择的元素后面的位置处检测未选择的元素,并且将所述 字符插入位置移动到所检测的未选择的元素的开头位置。
12. 根据权利要求9所述的文本生成器,还包括: 搜索器,其被配置为当操作者开始在由所述设定单元设定的所述字符插入位置输入字 符时,搜索对应于输入字符的声音位置;以及 播放器,其被配置为从所述搜索器搜索的所述声音位置播放声音,其中 所述搜索器基于由所述设定单元检测的所述当前字符插入位置以及所选择的元素和 未选择的元素之间的位置关系,搜索所述声音位置,所述所选择的元素对应于被所述选择 器选择的所识别的字符串,所述未选择的元素对应于所述转录的句子中没有被所述选择器 选择的所识别的字符串。
13. 根据权利要求12所述的文本生成器,其中 所述搜索器确定所检测的当前字符插入位置是否是在所述所选择的元素中,并且 当所述字符插入位置是在所述所选择的元素中时,所述搜索器设定与所选择的元素对 应的所识别的字符串的起始时间作为声音位置。
14. 根据权利要求1所述的文本生成器,还包括连接单元,所述连接单元被配置为基于 句子或基于特定时间,来连接由所述识别器获取的所识别的字符串,并且获取所连接的所 识别的字符串和所连接的所识别的字符串的可信度,其中 所述选择器选择基于句子或基于时间连接的所连接的所识别的字符串。
15. 根据权利要求14所述的文本生成器,其中,所述选择器基于关于所述转录精确度 的参数和所连接的所识别的字符串的可信度,或基于关于转录所需的工作量的参数和所连 接的所识别的字符串的可信度,来选择基于句子或基于时间连接的所连接的所识别的字符 串。
16. 根据权利要求1所述的文本生成器,还包括生成单元,所述生成单元被配置为生成 关于所述声音的发声周期信息,所述发声周期信息包括标识每个发声的信息、每个发声的 发声起始时间、和标识每个发声的发声者的信息,其中 所述选择器针对每个发声者或每个发声来选择所识别的字符串。
17. 根据权利要求16所述的文本生成器,其中,所述选择器基于关于转录精确度的参 数和所识别的字符串的可信度,或者基于关于转录所需的工作量的参数和所识别的字符串 的可信度,针对每个发声者或每个发声,来选择所识别的字符串。
18. -种文本生成方法,包括: 识别所拾取的声音,并获取识别单元中识别的字符串和所识别的字符串的可信度; 基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个,来选择至少 一个所识别的字符串用于转录的句子;以及 使用所选择的所识别的字符串生成所述转录的句子。
【文档编号】G10L15/26GK104103273SQ201410090288
【公开日】2014年10月15日 申请日期:2014年3月12日 优先权日:2013年4月3日
【发明者】芦川平, 西山修, 池田朋男, 上野晃嗣, 中田康太 申请人:株式会社东芝
文本生成器和文本生成方法
相关推荐
专利名称:模块化的led吸顶灯的制作方法技术领域:本实用新型属于照明灯具,特别涉及一种模块化的LED吸顶灯。背景技术:LED吸顶灯在室内应用十分广泛,是家居必备的常用灯具。目前的LED吸顶灯大多数是采用一个圆形的线路板或者是一个环形的线路板
专利名称:实现三维像机多视角数据采集及对齐复位的方法技术领域:本发明涉及一种在单个视角三维像机的基础上进行物体表面三维数据多视角采集,以及将各个视角所采集的数据对齐复位于同一空间坐标系中的方法。背景技术: 自然物体表面三维数据的采集,往往需
专利名称:一种led生物灯的制作方法技术领域:本实用新型涉及一种LED生物灯,主要用于植物,动物的生长照明,促进生物缩短生广周期,提闻效率。背景技术:目前市场上有荧光灯,日光灯,LED植物灯,但是利用亚克力作为外壳和外形来生产制造的却没有,
一种大型led探照灯支座的制作方法【专利摘要】本发明公开了一种大型LED探照灯支座,其特征在于包括:探照灯主体、旋转装置一、支杆一、转轴、支杆二、支杆三、固定板、固定孔、旋转装置二、底座和平衡杆;底座上设有旋转装置二和平衡杆;旋转装置二上设
专利名称:成像设备的制作方法技术领域:本发明涉及一种具有模糊校正功能以校正在拍摄时由于相机或者人手 抖动所致的模糊的成像设备,例如数码相机、数码摄像机(在此及后,称为 数码相机)。背景技术:数码相机根据来自图像传感器(CCD或者类似物)的图
废钢分拣生产线降噪装置制造方法【专利摘要】本实用新型公开了一种废钢分拣生产线降噪装置,包括上料输送线及分拣输送线,上料输送线的输出端高于分拣输送线的输入端,在上料输送线与分拣输送线之间设有降噪箱,降噪箱包括第一降噪箱和第二降噪箱,第一降噪箱