文本生成器和文本生成方法-品牌商务网

文本生成器和文本生成方法
【专利摘要】根据一个实施例，文本生成器包括识别器、选择器和生成单元。识别器被配置为识别所拾取的声音，并获取识别单元中识别的字符串和所识别的字符串的可信度。选择器被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个，选择至少一个所识别的字符串用于转录的句子。生成单元被配置为使用所选的识别字符串生成转录的句子。
【专利说明】文本生成器和文本生成方法
[0001] 相关申请的交叉引用
[0002] 本申请基于并要求以下申请的优先权：2013年4月3日提交的日本专利申请 No. 2013-077576 ;其全部内容通过引用并入本文。

【技术领域】
[0003] 本文描述的实施例大体上涉及一种文本生成器，以及一种文本生成方法。

【背景技术】
[0004] 在转录（transcription)工作中，例如在收听记录的声音数据的同时，将语音的内容转录为句子(文本)。为了减小转录工作中的负担，用于帮助转录工作的装置已经采用语首识别系统。
[0005] 然而，该已知的装置不能获得操作者期望的适当的语音识别结果，并且因此不能减小转录工作中的负担。

【发明内容】

[0006] 实施例的目的是提供一种能够减小转录工作中的负担的文本生成器。
[0007] 根据一实施例，文本生成器包括识别器、选择器以及生成单元。该识别器被配置为识别所拾取的声音，并获取识别单元中识别的字符串和所识别的字符串的可信度。该选择器被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个，选择至少一个所识别的字符串用于转录的句子。生成单元被配置为使用所选的所识别的字符串生成转录的句子。
[0008] 根据上述文本生成器，可减小转录工作中的负担。

【专利附图】

【附图说明】
[0009] 图1是示例性示意图，示出了根据第一实施例的文本生成器的使用；
[0010] 图2是示例性示意图，示出了根据第一实施例的文本生成器的功能结构；
[0011] 图3是示例性流程图，示出了根据第一实施例的用于生成文本的基本处理；
[0012] 图4是示例性示意图，示出了根据第一实施例的语音识别结果的数据；
[0013] 图5是第一示例性流程图，示出了根据第一实施例的用于选择识别的字符串的处理；
[0014] 图6是示例性示意图，示出了根据第一实施例的转录精确度的容许值的设定；
[0015] 图7是第一示例性示意图，示出了根据第一实施例的所识别的字符串的选择结果的数据；
[0016] 图8是第二示例性流程图，示出了根据第一实施例的用于选择所识别字符串的处理；
[0017] 图9是示例性示意图，示出了根据第一实施例的转录工作时间的容许值的设定；
[0018] 图10是第二示例性示意图，示出了根据第一实施例的所识别的字符串的选择结果的数据；
[0019] 图11是第三示例性流程图，示出了根据第一实施例的用于选择所识别字符串的处理；
[0020] 图12是示例性示意图，示出了根据第一实施例的转录工作成本的容许值的设定；
[0021] 图13是第三示例性示意图，示出了根据第一实施例的所识别的字符串的选择结果的数据；
[0022] 图14是示例性流程图，示出了根据第一实施例的用于生成转录句子的处理；
[0023] 图15是示例性示意图，示出了根据第一实施例的转录句子的数据格式；
[0024] 图16是示例性示意图，示出了根据第一实施例的转录句子的显示；
[0025] 图17是示例性流程图，示出了根据第一实施例的用于设定字符插入位置的处理；
[0026] 图18是示例性流程图，示出了根据第一实施例的用于搜索声音位置的处理；
[0027] 图19是示例性示意图，示出了根据第二实施例的文本生成器的功能结构；
[0028] 图20是示例性流程图，示出了根据第二实施例的用于生成文本的基本处理；
[0029] 图21是示例性流程图，示出了根据第二实施例的用于结合识别结果的处理；
[0030] 图22是示例性示意图，示出了根据第三实施例的文本生成器的功能结构；
[0031] 图23是示例性流程图，示出了根据第三实施例的用于生成文本的基本处理；
[0032] 图24是示例性示意图，示出了根据第三实施例的发声周期信息的数据；
[0033] 图25是示例性流程图，示出了根据第三实施例的用于选择所识别字符串的处理；
[0034] 图26是示例性示意图，示出了根据第三实施例的转录精确度的容许值的设定；以及
[0035] 图27是示例性示意图，示出了根据第一至第三实施例的文本生成器的功能结构。

【具体实施方式】
[0036] 下面将参照附图详细描述文本生成器、文本生成方法以及计算机程序的实施例。 [0037] 第一实施例
[0038] 概述
[0039] 下面描述根据第一实施例的文本生成器的功能(在下文中称为"文本生成功能")。根据第一实施例的文本生成器基于计算的识别字符串的可信度，选择所识别的字符串用于转录的句子，识别字符串的计算是基于语音识别结果和关于转录精确度的参数。可替换地，根据本实施例的文本生成器基于计算的识别字符串的可信度，选择所识别的字符串用于转录的句子，字符串的计算是基于语音识别结果和关于转录所需的工作量的参数。作为结果，根据本实施例的文本生成器根据所选择的识别字符串生成转录的句子。因此，根据本实施例的文本生成器使能了使用适当的语音识别结果的转录工作。根据本实施例的文本生成器具有如此的文本生成功能。
[0040] 常规装置的例子忽略了基于声音数据的语音识别结果。这种装置基于识别单词的可信度和重要级别来获取语音识别结果的优先级，并根据优先级将关于语音识别结果的输出信息格式化。然而，这种常规装置只允许操作者通过指定显示目标范围来调节输出。常规装置根据转录精确度或转录所需的工作量未充分地输出操作者期望的适当的语音识别结果，从而增加了转录工作中强加于操作者的负担。如上所述，常规装置不会减小转录工作中强加于操作者的负担。
[0041] 根据本实施例的文本生成器根据由操作者指定的工作条件(转录精确度或转录所需的工作量)来调节语音识别结果的输出。当操作者对调节的输出执行增加或校正时，本实施例中的文本生成器允许操作者通过使用语音识别结果使输入字符与声音同步，来执行转录工作。
[0042] 作为结果，根据本实施例的文本生成器使能了在转录工作中根据工作条件(例如是转录精确度或转录所需的工作量）使用适当的语音识别结果，从而能够容易地将字符添加到语音识别结果或校正语音识别结果的字符。因此，根据该实施例的文本生成器可减小转录工作中强加于操作者的负担。
[0043] 例如，根据本实施例的文本生成器可以提供以下服务。图1是示意图，示出了根据该实施例的文本生成器的使用示例。图1示出一个例子，其中根据该实施例的文本生成器被用于一种服务。该服务识别多个发声者的语音，将他们的发声的内容转录到发声者的相应发声的文本中，并将为各个发声来源的发声者的名字添加到相应的文本中。
[0044] 下面描述了根据该实施例的文本生成器的结构和功能的操作。
[0045] 结构
[0046] 图2为示意图，示出了根据该实施例的文本生成器的功能结构的示例。如图2所示，根据该实施例的文本生成器1〇〇包括拾取单元11、识别器12、选择器13、生成单元14、设定单元15、搜索器16、播放器17、以及识别结果保存单元18。
[0047] 拾取单元11通过从某一输入单元接收声音输入以拾取声音。识别器12识别由拾取单元11拾取的声音，至少计算在识别单元中所识别的字符串，以及所识别的字符串的可信度，并且将计算结果存储在识别结果保存单元18中。例如，该识别单元是词素。例如，所述识别结果保存单元18是文本生成器100中设置的存储设备中的特定存储区域。
[0048] 选择器13基于关于转录工作的工作条件的各种参数和存储在识别结果保存单元 18中的所识别字符串的可信度来选择至少一个所识别的字符串用于转录的句子。例如，通过经由用户界面（UI)接收操作者U的操作，来指定关于工作条件的各种参数值。生成单元 14使用由选择器13选择的所识别的字符串，生成转录的句子。设定单元15设定在转录句子中对应于未被选择器13选择的识别字符串的用于由操作者U执行的字符输入的起始位置(在下文中称为"字符插入位置")。例如，未被选择的识别字符串是通过经由Π 接收来自操作者U的操作来指定的。
[0049] 当操作者U在由设定单元15设定的字符插入位置处开始字符输入时，搜索器16 搜索与输入字符对应的声音的位置(在下文中称为"声音位置")，其。例如，搜索的开始是通过经由Π 接收来自的操作者U的操作而被指示的。播放器17从搜索到的声音位置播放声音。
[0050] 下面描述由根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0051] 处理
[0052] 图3是流程图，示出了根据本实施例的用于生成文本的基本处理的示例。如图3 所示，拾取单元11拾取声音(步骤S101)。识别器12识别由拾取单元11拾取的声音，并计算识别单元中所识别的字符串，以及所识别的字符串的可信度(步骤S102)。作为结果，所识别的字符串和所识别的字符串的可信度被存储在所述识别结果保存单元18中。
[0053] 选择器13基于关于转录工作的工作条件的各种参数(工作条件参数）和存储在识别结果保存单元18中的所识别字符串的可信度，来选择至少一个所识别的字符串用于转录的句子(步骤S103)。选择器13基于关于转录精确度的参数和识别字符串的可信度的组合或者是关于转录所需的工作量的参数和识别字符串的可信度的组合，来选择识别的字符串用于转录的句子。生成单元14使用由选择器13选择的识别字符串和不是由选择器13 选择的识别字符串生成转录句子(步骤S104)。
[0054] 设定单元15根据从操作者U接收的设定，在转录句子中对应于不是由选择器13 选择的识别字符串的位置处设定用于操作者U的字符插入位置(步骤S105)。搜索器16基于识别结果搜索对应于由设定单元15设定的字符插入位置的声音位置(步骤S106)。
[0055] 播放器17根据从操作者U接收的指令，从由搜索器16搜索的声音位置播放声音 (步骤S107)。此后，文本生成器100从操作者U接收字符输入(添加或校正）（步骤S108)。
[0056] 从操作者U接收到结束转录的指令时（S109的是)，根据本实施例的文本生成器 100结束该处理。与此相反，文本生成器100重复从S106到S108的处理（S109的否)，直到操作者U执行结束转录的指令。
[0057] 细节
[0058] 在下面描述该功能单元的细节。
[0059] 各个功能单元的细节
[0060] 拾取单元11
[0061] 拾取单元11拾取声音作为目标，根据该目标转录字符。
[0062] 识别器12
[0063] 识别器12识别由拾取单元11拾取的声音，并至少获得识别单元中所识别的字符串以及所识别的字符串的可信度作为识别结果。
[0064] 图4是示意图，示出了根据实施例的语音识别结果D1的数据的示例。图4示出了当识别器 12 识别发声"konnichiwa，ABC kaisha no taro desu"（英语，"Hello，this is Taro from ABC Company")时获得的示例性结果。识别器12获得语音识别结果Dl，其包括例如识别ID、识别的字符串，以及识别字符串的可信度。识别器12将获得的语音识别结果 D1存储在识别结果保存单元18中。
[0065] 选择器13
[0066] 选择器13基于关于转录精确度的参数和识别字符串的可信度的组合或者是关于转录所需的工作量的参数和识别字符串的可信度的组合来选择至少一个识别的字符串用于转录的句子。
[0067] 下面描述转录精确度和转录所需的工作量。转录精确度为表示在转录的字符串和当语音被正确地转录为字符时的字符串（正确答案字符串）之间的一致程度的值。该值越大，转录的字符串和正确答案字符串之间的一致程度越高，表示转录是正确的。转录所需的工作量是将语音转录为字符所需的工作量，并且对应于转录工作花费的时间或所需的成本。
[0068] 下面描述由选择器13执行的用于选择所识别字符串的处理。图5是流程图，示出了根据实施例的用于选择所识别字符串的处理的第一示例。图5示出了当选择器13使用转录精确度的容许值作为关于转录精确度的参数时的处理的示例。
[0069] 如图5所示，选择器13首先从操作者U接收转录精确度的容许值P的设定(步骤 S201)。
[0070] 图6是示意图，示出了根据本实施例的转录精确度的容许值P的设定的示例。如图6所示，操作者U通过滑块UI (滑动条）设定转录精确度容许值P，例如该容许值P允许从N个阶层（图6中N=5)中指定出一个可允许的阶层。选择器13在屏幕上以这种方式显示该UI，并且接收来自操作者U的设定。
[0071] 再参考图5,随后选择器13在由识别器12所获得的识别结果(该识别结果存储在识别结果保存单元18中)中设定第一识别字符串作为目标字符串w (步骤S202)，然后根据目标字符串w的可信度，计算目标字符串w的转录精确度wp (步骤S203)。例如，当从1到 N的正整数被用作各自的转录精确度时，选择器13使用以下表达式（1)计算目标字符串w 的转录精确度wp。
[0072] wp=NX (w的可信度/可信度最大值）（1)
[0073] 然后，选择器13比较计算的目标字符串w的转录精确度wp和转录精确度的容许值P，并确定转录精确度wp是否等于或大于容许值P (步骤S204)。如果确定wp等于或大于允许值P (S204的是)，则选择器13选择目标字符串w (步骤S205)。如果确定转录精确度wp小于容许值P (S204的否)，则选择器13不选择目标字符串w。
[0074] 然后，选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符串（步骤S206)。如果确定下一个识别的字符串存在（S206的是)，选择器13设定下一个识别字符串作为目标字符串w (步骤S207)，并且随后重复从S203到S206的处理。如果确定不存在下一个识别的字符串（S206的否)，选择器13结束该处理。
[0075] 图7是示意图，示出了根据本实施例的识别的字符串选择结果D2的数据的第一示例。图7示出了选择结果，其中所识别的字符串是基于通过表达式（1)计算的转录精确度 wp来选择的，其中N=5,容许值P=4,最大可信度=100。选择器13获取识别的字符串选择结果D2,其例如包括识别ID、所识别的字符串、所识别字符串的可信度、转录准确度wp和选择结果。选择器13可以基于转录所需的工作量(例如，"工作时间"和"工作成本"）选择所识别的字符串。
[0076] 图8是流程图，示出了根据本实施例的用于选择所识别字符串的处理的第二示例。图8示出了当选择器13使用转录所需的工作时间的容许值作为关于转录所需工作量的参数时的示例性处理。
[0077] 如图8所示，选择器13首先从操作者U接收转录所需的工作时间的容许值T的设定(步骤S301)。
[0078] 图9是示意图，示出了根据本实施例的转录所需的工作时间的容许值T的设定示例。如图9所示，操作者U通过滑块Π (滑动条）设定转录所需的工作时间的容许值T，该滑块Π 例如使得可指定从00:00:00到HH:丽:SS的时间。选择器13以这种方式在屏幕上显示该Π ，并从操作者U接收设定。对于可以指定的最大时间，例如使用预定值。以下述方式计算的数值可以用作可指定的最大时间。例如，预先确定每个字符的工作时间；每个字符的工作时间乘以由识别器12获取的识别字符串中的所有字符的数量，以计算乘积；并且可以使用所计算的值。当识别器12输出各个识别字符串的起始时间和结束时间作为识别结果时，输出的起始时间被从每个识别字符串的输出的结束时间中减去，以计算时间（发声时间）。可以使用所有识别字符串的各自发声时间的总和。
[0079] 再参考图8,然后，选择器13以识别字符串可信度的递减次序对识别器12获取的识别结果进行排序(步骤S302)。然后，选择器13初始化累积工作时间st，其表示转录所需工作时间的积累量(步骤S303)。
[0080] 然后，选择器13将以递减次序排序的识别结果中的第一识别字符串设定为目标字符串w (步骤S304)，然后计算目标字符串w的转录所需的工作时间t (步骤S305)。例如，选择器13使用目标字符串w的字符数量，通过以下表达式（2)计算目标字符串w的转录所需的工作时间t。
[0081] t=a X (目标字符串w的字符数量）（2)
[0082] 例如，使用每个字符的转录所需的平均时间作为a。
[0083] 例如，当识别器12输出各个识别字符串的起始时间和结束时间作为识别结果时，选择器13可以通过以下表达式（3)计算目标字符串w的转录所需的工作时间t。
[0084] t= β X (目标字符串w的结束时间-目标字符串w的起始时间）（3 )
[0085] 例如，（识别单元中）每个词素的转录所需的平均时间被用作β。
[0086] 然后，选择器13根据目标字符串w的转录所需的工作时间t，计算转录所需的累积工作时间st (步骤S306)。例如，选择器13将通过使用表达式（2)或（3)计算的目标字符串w的转录所需的工作时间t累加到转录所需的累积工作时间st。
[0087] 然后，选择器13比较计算的转录所需的累积工作时间st和转录所需的工作时间的容许值T，并确定累积工作时间st是否等于或小于容许值T(步骤S307)。如果确定累积工作时间st等于或小于容许值T(S307的是)，则选择器13选择目标字符串w(步骤S308)。如果确定累积工作时间st大于容许值T (S307的否)，则选择器13不选择目标字符串w。
[0088] 然后，选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符串（步骤S309)。如果确定存在下一个识别的字符串（S309的是)，选择器13设定下一识别的字符串作为目标字符串w (步骤S310)，并且重复从S305到S309的处理。如果确定不存在下一个识别的字符串（S309的否)，则选择器13结束该处理。
[0089] 图10是示意图，示出了根据本实施例的识别的字符串选择结果D2的数据的第二示例。图10示出了选择结果，其中所识别的字符串是基于通过使用表达式（3)计算的转录所需的工作时间t来选择的。选择器13获取识别的字符串选择结果D2,其例如包括识别 ID、所识别的字符串、所识别字符串的可信度、转录所需的工作时间t、累积工作时间st和选择结果。
[0090] 图11是流程图，示出了根据本实施例的用于选择所识别字符串的处理的第三示例。图11示出了当选择器13使用转录所需的工作成本的容许值作为关于转录所需工作量的参数时的示例性处理。
[0091] 如图11所示，选择器13首先从操作者U接收转录所需的工作成本的容许值C的设定（步骤S401)。
[0092] 图12是示意图，示出了本实施例的转录所需的工作成本的容许值C的设定的示例。如图12所示，操作者U通过滑块Π (滑动条)设定转录所需的工作成本的容许值C，该滑块Π 例如使得能够指定从零到最大值的数值。选择器13以这种方式在屏幕上显示Π ，并从操作者U接收设定。对于可以指定的最大数值，例如使用预定值。以下述方式计算的数值可以用作可指定的最大数值。例如，预先确定每个字符的工作时间；每个字符的工作时间乘以由识别器12获取的识别字符串中的所有字符的数量，以计算乘积；并且可以使用所计算的值。当识别器12输出各个识别字符串的发声时间(从起始时间减去结束时间后的时间）作为识别结果时，各个识别字符串的输出发声时间的总和乘以每一单元时间的工作成本，以计算乘积，并且可以使用所计算的值。
[0093] 再参考图11，然后，选择器13以识别字符串可信度的递减次序对识别器12获取的识别结果进行排序(步骤S402)。然后，选择器13初始化累积工作成本sc，累积工作成本 SC表示转录所需工作成本的积累量(步骤S403)。
[0094] 然后，选择器13将以递减次序排序的识别结果中的第一识别字符串设定为目标字符串w (步骤S404)，然后计算目标字符串w的转录所需的工作成本c (步骤S405)。例如，选择器13使用目标字符串w的字符数量，通过以下表达式（4)计算目标字符串w的转录所需的工作成本c。
[0095] c=YX (目标字符串w的字符数量）（4)
[0096] 例如，每个字符的转录所需的平均成本被用作Y。
[0097] 例如，当识别器12输出各个识别字符串的起始时间和结束时间作为识别结果时，选择器13可以通过以下表达式（5)计算目标字符串w的转录所需的工作成本c。
[0098] c= ζ X (目标字符串w的结束时间-目标字符串w的起始时间）（5 )
[0099] 例如，（识别单元中）每个词素的转录所需的平均成本被用作ζ。
[0100] 然后，选择器13根据目标字符串w的转录所需的工作成本c，计算转录所需的累积工作成本sc (步骤S406)。例如，选择器13将通过使用表达式（4)或（5)计算的目标字符串w的转录所需的工作成本c累积地加到转录所需的累积工作成本sc。
[0101] 然后，选择器13比较计算的转录所需的累积工作成本sc和转录所需的工作成本的容许值C，并确定累积工作成本sc是否等于或小于容许值C(步骤S407)。如果确定累积工作成本sc等于或小于容许值C(S407的是)，则选择器13选择目标字符串w(步骤S408)。如果确定累积工作成本sc大于容许值C (S407的否)，则选择器13不选择目标字符串w。
[0102] 然后，选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符串（步骤S409)。如果确定存在下一个识别的字符串（S409的是)，选择器13设定下一识别的字符串作为目标字符串w (步骤S410)，并且重复从S405到S409的处理。如果确定不存在下一个识别的字符串（S409的否)，则选择器13结束该处理。
[0103] 图13是示意图，示出了根据本实施例的识别的字符串选择结果D2的数据的第三示例。图13示出了选择结果，其中所识别的字符串是基于通过使用表达式（5)计算的转录所需的工作成本c来选择的。选择器13获取识别的字符串选择结果D2,其例如包括识别 ID、所识别的字符串、所识别字符串的可信度、转录所需的工作成本c、累积工作成本sc和选择结果。
[0104] 生成单元14
[0105] 生成单元14使用选择器13选择的识别字符串和没有选择的识别字符串，生成转录句子。
[0106] 下面描述了生成单元14执行的生成转录句子的处理。图14是流程图，示出了根据本实施例的生成转录句子的处理的示例。图15是示意图，示出了根据本实施例的转录句子的数据格式的示例。
[0107] 如图14所示，生成单元14首先初始化转录句子k (步骤S501)。如图15所示，例如当数据格式是超文本标记语言（HTML)时，转录句子k是被生成用作division (DIV)元素。
[0108] 然后，生成单元14将识别器12获取的识别结果中的第一识别字符串设定为目标字符串w (步骤S502)，然后判断目标字符串w是否被选择器13选择(步骤S503)。如果确定目标字符串w被选择（S503的是)，生成单元14从目标字符串w生成选择的元素 s (步骤 S504)，然后再将这些生成的选择的元素 s添加到转录句子k(步骤S505)。例如，如图15所示，选择的元素 s被生成作为span元素，该span元素具有目标字符串w的识别ID的ID属性和表示选择的元素 s的字符串的类别属性(例如"选择的")。如果确定目标字符串w没有被选择（S503的否)，则生成单元14从目标字符串w生成未选择元素 ns (步骤S506)，然后再将生成的未选择元素 ns添加到转录句子k (步骤S507)。例如，如图15所示，未选择元素 ns被生成作为span元素，该span元素具有目标字符串w的识别ID的ID属性和表示未选择元素 ns的字符串的类别属性(例如"未选择的")。
[0109] 然后，生成单元14确定识别器12获取的识别结果中是否存在下一个识别的字符串（步骤S508)。如果确定存在下一个识别的字符串（S508的是)，生成单元14设定下一个识别的字符串作为目标字符串w (步骤S509)，并且重复从S503到S508的处理。如果确定不存在下一个识别的字符串（S508的否)，生成单元14结束该处理。
[0110] 图16是示意图，示出了根据本实施例的转录句子k的显示的示例。如图16所示，生成单元14可以生成转录句子k，该转录句子k可以显示为不同的形式，该不同的形式明确地将选择的元素 s的字符串与未选择的元素 ns的字符串区分开。图16的部分（A)示出了显示的示例，其中未选择的元素 ns的字符串是有下划线的。图16的部分（B)示出了另一显示的示例，其中未选择的元素 ns的字符串中的字符的尺寸小于选择的元素 s的字符串中的字符的尺寸。图16的部分（C)还示出了另一显示的示例，其中未选择的元素 ns的字符串被加阴影。图16的部分（D)还示出了另一显示的示例，其中未选择的元素 ns的字符串中的字符被替换为特定字符（图16的部分（D)中的实心圆)。除了这些显示示例之外，其他显示示例可通过改变字符的密度、颜色、或字体或背景颜色来获得。当识别器12在识别单元中以可信度的递减次序输出直到第N个候选者的识别字符串时（N是等于或大于1的整数)，可以生成转录句子k，在该转录句子k中直到第N个候选者的识别的字符串被显示用于未选择的字符串，使得它们可被操作者U选择。
[0111] 设定单元15
[0112] 设定单元15基于由生成单元14生成的转录句子k的未选择元素 ns，设定字符插入位置(用于开始字符输入的位置)。设定单元15基于检测的当前字符插入位置以及选择元素和未选择元素之间的位置关系，来设定字符插入位置，该选择元素对应于由选择器13 选择的识别字符串，未选择元素对应于转录句子中没有被选择器13选择的识别字符串。
[0113] 下面描述设定单元15执行的设定字符插入位置的处理。图17是流程图，示出了根据本实施例的设定字符插入位置的处理的示例。
[0114] 如图17所示，设定单元15首先从操作者U接收移动到未选择元素 ns的字符的指令(步骤S601)。例如，当检测到显示的转录句子中的某一按键(例如，"Tab键"）被压下时，设定单元15确定移动被指示，并接收该指示。然后设定单元15检测转录句子中的当前字符插入位置cp (步骤S602)。当前字符插入位置cp是此时转录句子中的字符串中的字符插入位置cp。例如，当前字符插入位置cp对应于转录句子被显示所在的屏幕上的光标位置 (例如，"坚线闪烁的位置")。
[0115] 然后，设定单元15确定检测的当前字符插入位置cp是否在选择的元素中（步骤 S603)。如果确定当前字符插入位置cp是在选择的元素中（S603的是)，则设定单元15在最接近于当前字符插入位置cp并且在当前字符插入位置cp后面的位置处检测未选择的元素 ns (步骤S604)。如果确定当前字符插入位置cp不在选择的元素中（S603的否)，则设定单元15在最接近于当前字符插入位置cp并且在当前字符插入位置cp后面的位置处检测选择的元素 s (步骤S605)。然后设定单元15在最接近于检测的选择的元素 s并且在检测的选择元素 s后面的位置处检测未选择的元素 ns (步骤S606)。然后，设定单元15将字符插入位置cp移动到检测的未选择元素 ns的头位置nsp (步骤S607)。
[0116] 当在未选择的元素后面存在其他连续的未选择的元素时，其中当前字符插入位置 cp被移动至未选择的元素的头位置nsp，设定单元15可以彼此不同的形式显示未选择的元素 ns的字符串以及其他未选择的元素的字符串。设定单元15可使用彼此不同的背景颜色来突出未选择的元素 ns的字符串以及其它未选择的元素的字符串。
[0117] 搜索器16
[0118] 当操作者U在字符插入位置cp处开始字符输入时，搜索器16搜索对应于输入字符的声音位置。
[0119] 下面描述搜索器16执行的用于搜索声音位置的处理。图18是流程图，示出了根据本实施例的用于搜索声音位置的处理的示例。
[0120] 如图18所示，设定单元15首先从操作者U接收搜索对应于当前字符插入位置cp 的声音位置的指令(步骤S701)。例如，当检测到显示的转录句子中的输入键被压下时，搜索器16确定搜索被指示，并接收该指示。
[0121] 然后，搜索器16检测转录句子中的当前字符插入位置cp (步骤S702)。然后，搜索器16确定检测的当前字符插入位置cp是否在选择的元素中（步骤S703)。
[0122] 如果确定当前字符插入位置cp在选择的元素中时（S703的是)，则搜索器16设定选择的元素 s的起始时间作为声音位置P (步骤S704)。如果确定当前字符插入位置cp不在选择的元素中时（S703的否)，搜索器16使用某一语音识别技术(例如，"强制对准方法 forced alignment method")估计声音位置p (步骤S705)。例如，搜索器16使用语音识别技术，基于转录句子k、对应于其中存在字符插入位置cp的未选择元素 ns的识别字符串的起始时间、以及当前声音播放位置，来估计声音位置P。
[0123] 播放器17
[0124] 播放器17从由搜索器16搜索的声音位置p播放声音。
[0125] 如上所述，根据本实施例的文本生成器100基于根据语音识别结果和关于由操作者U指定的转录工作的工作条件的各种参数(关于转录精确度和转录所需的工作量的参数中的至少一个）计算的识别字符串的可信度，选择从声音识别的识别字符串，并生成转录句子。
[0126] 因此，本实施例中构造的文本生成器100根据操作者U指定的工作条件来调节语音识别结果的输出。当操作者U执行在调节后的输出上执行增加或校正时，实施例中的文本生成器100提供了允许操作者U通过使用语音识别结果使输入的字符与声音同步来执行转录工作的环境。
[0127] 作为结果，该实施例中的文本生成器100使能了适当的语音识别结果根据转录的工作条件被用于转录工作中，从而能够容易地将字符添加到语音识别结果中，或校正语音识别结果的字符。因此，该实施例中的文本生成器100可减小转录工作中强加于操作者U 的负担。
[0128] 第二实施例
[0129] 概述
[0130] 下面描述了根据第二实施例的文本生成器的功能(文本生成功能)。根据第二实施例的文本生成器与第一实施例不同在于，识别器获取的识别结果是基于句子或者基于时间来连接的，而且将连接的结果用于转录的句子。更具体地，根据第二实施例的文本生成器将如下连接的结果用于转录的句子，在该连接的结果中，识别结果是基于句子，根据各个识别的字符串的句子结尾的表达来连接的。可替代地，根据第二实施例的文本生成器将如下的连接的结果用于转录的句子，在该连接的结果中，识别结果是基于特定时间，根据各个识别的字符串的起始时间和结束时间来连接的。
[0131] 下面描述了根据该实施例的文本生成器的结构和功能操作。在下面的描述中，描述了与第一个实施例的那些项不同的项，而相同的项被标以相同的附图标记，并且省略对其重复的描述。
[0132] 结构
[0133] 图19是示意图，示出了根据本实施例的文本生成器100的功能结构。如图19所示，除了第一实施例的结构之外，根据该实施例的文本生成器100还包括：连接单元21和识别连接结果保存单元22。
[0134] 连接单元21基于句子或基于时间来连接由识别器12获取的识别结果(存储在识别结果保存单元18中的识别结果)，并将连接的结果存储在识别连接结果保存单元22中。例如，识别连接结果保存单元22是文本生成器100中设置的存储装置中的特定存储区域。选择器13和搜索器16使用存储在识别连接结果保存单元22中的识别连接结果。
[0135] 下面描述了根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0136] 处理
[0137] 图20是流程图，示出了根据本实施例的用于生成文本的基本处理的示例。如图20 所示，拾取单元11拾取声音(步骤S801)。识别器12识别由拾取单元11拾取的声音，并计算识别单元中识别的字符串，以及识别的字符串的可信度(步骤S802)。作为结果，识别的字符串和识别的字符串的可信度被存储在识别结果保存单元18中。
[0138] 连接单元21基于特定句子或基于特定时间，来连接识别器12的识别结果(步骤 S803)。连接的识别字符串和连接的识别字符串的可信度被存储在识别连接结果保存单元 22作为识别连接结果。选择器13基于关于转录工作的工作条件的各种参数(工作条件参数）和存储在识别连接结果保存单元22中的识别连接结果的可信度(连接之后的识别字符串的可信度）来选择至少一个识别的字符串用于转录的句子(步骤S804)。选择器13基于关于转录精确度的参数和识别的字符串的可信度的组合或者关于转录所需的工作量的参数和识别的字符串的可信度的组合，来选择识别的字符串用于转录的句子。
[0139] 生成单元14使用由选择器13选择的识别字符串和选择器13未选择的识别字符串，生成转录的句子(步骤S805)。设定单元15根据从操作者U接收的设定，设定转录句子中对应于没有被选择器13选择的识别字符串的用于操作者U的字符插入位置(步骤S806)。搜索器16基于识别结果来搜索与设定单元15设定的字符插入位置对应的声音位置(步骤 S807)。
[0140] 播放器17根据从操作者U接收的指令，从搜索器16搜索的声音位置播放声音(步骤S808)。此后，文本生成器100从操作者U接收字符输入(添加或校正）（步骤S809)。
[0141] 当从操作者U接收到结束转录的指令时（S810的是)，根据本实施例的文本生成器 100结束该处理。相反，文本生成器100重复从S807到S809的处理（S810的否)，直到操作者U执行结束转录的指令。
[0142] 细节
[0143] 下面主要描述了连接单元21和选择器13的细节。
[0144] 各个功能单元的细节
[0145] 连接单元21
[0146] 连接单元21基于句子，根据各个识别的字符串的句子结尾表达，来连接识别结果，并获取识别连接结果。或者，连接单元21基于特定时间，根据各个识别的字符串的起始时间和结束时间，来连接识别结果，并获取识别连接结果，该识别连接结果包括连接的字符串（连接之后的识别字符串）和连接结果的可信度。
[0147] 下面描述了连接单元21执行的用于连接识别结果的处理。图21是流程图，示出了根据该实施例的用于连接识别连接结果的处理的示例。
[0148] 如图21所示，连接单元21首先初始化由识别器12获取的识别结果的临时连接结果cr (存储在识别结果保存单元18中的识别结果)获得(步骤S901)。连接单元21设定由识别器12获取的识别结果的第一识别结果作为目标识别结果r (步骤S902)。然后，连接单元21将目标识别结果r添加到临时连接结果cr (步骤S903)。
[0149] 然后，连接单元21确定是否需要结束连接(步骤S904)。当基于句子完成连接和基于时间完成连接时，连接单元21不同地执行确定处理。
[0150] A.当基于句子完成连接时的确定处理
[0151] 连接单元21基于目标识别结果r的识别字符串是否是句子结尾的确定结果，来确定是否需要结束连接。如果目标识别结果r的识别字符串是句子结尾（S904的是)，则连接单元21确定连接结束。如果目标识别结果r的识别字符串不是句子结尾（S904的否)，则连接单元21确定不结束该连接。例如，句子结尾的确定是基于表示句子结尾的字符或符号(例如日文的标点符号" ° "、句号"或"问号"？）是否被包括在识别的字符串中来做出的。当这样的字符或符号未被包括时，则该确定可以基于句子结尾的特定表达(如日文的 "desu"或"masu"）是否被包括在识别的字符串中来做出。
[0152] B.当基于时间完成连接时的确定处理
[0153] 连接单元21基于被获取作为识别结果的识别字符串的起始时间和结束时间，来确定是否需要结束连接。如果从与目标识别结果r对应的识别字符串的起始时间到与在目标识别结果r被添加之前被添加到临时连接结果cr的识别结果对应的识别字符串的结束时间经过的时间段等于或大于特定时间，则连接单元21确定连接结束（S904的是)。如果经过的时间段小于特定时间，连接单元21确定不结束该连接（S904的否）。当从与目标识别结果r对应的起始时间到与被添加到临时连接结果cr的第一识别结果对应的识别字符串的起始时间经过的时间段等于或大于特定时间时，连接单元21可以确定连接结束。
[0154] 如果确定连接结束（S904的是)，连接单元21计算临时连接结果cr的可信度(步骤S905)。临时连接结果cr的可信度是基于与添加到临时连接结果cr的识别结果对应的识别字符串的可信度来计算的。例如，计算与添加到临时连接结果cr的识别结果对应的识别字符串的可信度的平均值，而且将该计算的值设定为临时连接结果cr的可信度。如果确定该连接没有结束（S904的否)，则连接单元21进行到S908处的处理(其将在后面描述)，同时跳过从S905到S907的处理。
[0155] 然后，连接单元21将连接识别的字符串并对应于临时连接结果cr(连接之后的识别字符串）的字符串和临时连接结果cr的计算可信度存储在识别连接结果保存单元22中 (步骤S906)，然后初始化临时连接结果cr (步骤S907)。
[0156] 然后，连接单元21确定由识别器12获取的识别结果中是否存在下一个识别结果 (步骤S908)。如果确定存在下一识别结果（S908的是)，连接单元21设定下一识别结果作为目标识别结果r (步骤S909)，然后重复从S903到S908的处理。如果确定不存在识别结果（S908的否)，则连接单元21确定识别结果是否保持在临时连接结果cr中（步骤S910)。如果确定识别结果保持在临时连接结果cr中（S910的是)，连接单元21进行到S905处的处理。如果确定识别结果没有保持在临时连接结果中（S910的否)，则连接单元21结束该处理。
[0157] 选择器13
[0158] 选择器13基于关于转录精确度的参数和识别连接结果的可信度(连接之后的识别字符串的可信度）的组合或者是关于转录所需的工作量的参数和识别连接结果的可信度的组合，来选择至少一个识别的字符串用于转录的句子。
[0159] 如上所述，根据第二实施例的文本生成器100基于在句子的基础上或在特定时间的基础上连接的识别字符串的可信度和由操作者U指定的关于转录工作的工作条件的各种参数(关于转录精确度和转录所需的工作量中的至少一个参数)，来选择根据声音识别的识别字符串，并生成转录的句子。
[0160] 作为结果，本实施例中的文本生成器100以与第一实施例相同方式，使得字符的添加或校正能够被容易地做出，并且转录工作中强加于操作者U的负担能够被减小。
[0161] 第三实施例
[0162] 下面描述了根据第三实施例的文本生成器的功能(文本生成功能)。根据第三实施例的文本生成器与第一和第二实施例不同在于，文本生成器针对每个发声者或每个发声周期，基于识别字符串的可信度和关于转录工作的工作条件(转录精确度或转录所需的工作量）的各种参数，来选择从声音识别的识别字符串，并生成转录句子。
[0163] 下面描述了根据该实施例的文本生成器的结构和功能操作。在下面的描述中，描述了与第一和第二实施例的那些项不同的项，而相同的项被标以相同的附图标记，并且省略对其重复的描述。
[0164] 结构
[0165] 图22是示意图，示出了根据本实施例的文本生成器100的功能结构。如图22所示，除了第一实施例的结构之外，根据该实施例的文本生成器100还包括：发声周期信息生成单元31和发声周期信息保存单元32。
[0166] 关于拾取单兀11拾取的声音，发声周期信息生成单兀31生成发声周期信息，发声周期信息包括识别相应发声的发声ID、发声开始的时间（以下称为"发声起始时间")以及识别发声的发声者的发声者ID，并且发声周期信息生成单元31将生成的发声周期信息存储在发声周期信息保存单元32中。例如，发声周期信息保存单元32是文本生成器100中设置的存储装置中的特定存储区域。选择器13和搜索器16使用存储在发声周期信息保存单元32中的发声周期信息。
[0167] 下面描述了根据本实施例的文本生成器100执行的用于生成文本的基本处理。
[0168] 处理
[0169] 图23是流程图，示出了根据本实施例的用于生成文本的基本处理的示例。如图23 所示，拾取单元11拾取声音(步骤S1001)。识别器12识别由拾取单元11拾取的声音，并计算识别单元中识别的字符串，以及识别的字符串的可信度(步骤S1002)。作为结果，识别的字符串和识别的字符串的可信度被存储在识别结果保存单元18中。
[0170] 关于拾取单兀11拾取的声音，发声周期信息生成单兀31生成每个发声的发声周期信息(包括发声ID、发声起始时间以及发声者ID)(步骤S1003)。作为结果，发声周期信息被存储在发声周期信息保存单元32中。
[0171] 选择器13基于存储在发声周期信息保存单元32中的发声周期信息、关于转录工作的工作条件的各种参数(工作条件参数)、以及存储在识别结果保存单元18中的识别字符串的可信度，针对每个发声者或每一个发声周期，来选择至少一个识别的字符串用于转录的句子(步骤S1004)。选择器13基于关于转录精确度的参数和识别字符串的可信度的组合或者关于转录所需的工作量的参数和识别字符串的可信度的组合，来选择识别的字符串用于转录的句子。生成单元14使用由选择器13选择的识别字符串和选择器13未选择的识别字符串，生成转录句子(步骤S1005)。
[0172] 设定单元15根据从操作者U接收的设定，设定转录句子中对应于未被选择器13 选择的识别字符串的用于操作者U的字符插入位置(步骤S1006)。搜索器16基于识别结果搜索对应于设定单元15设定的字符插入位置的声音位置(步骤S1007)。
[0173] 播放器17根据从操作者U接收的指示，从搜索器16搜索的声音位置播放声音(步骤S1008)。此后，文本生成器100从操作者U接收字符输入(添加或校正）（步骤S1009)。
[0174] 当从操作者U接收到结束转录的指令时，根据本实施例的文本生成器100结束该处理（S1010的是)。文本生成器100重复从S1007到S1009的处理（S1010的否)，直到操作者U执行结束转录的指令。
[0175] 细节
[0176] 下面主要描述了发声周期信息生成单元31和选择器13的细节。
[0177] 各个功能单元的细节
[0178] 发声周期信息生成单元31
[0179] 发声周期信息生成单元31以下列方式识别发声者和发声周期，并生成发声周期信息。例如，发声周期信息生成单元31接收当操作者U听到声音时识别各个声音的发声者和声音起始时间的识别结果并根据接收的识别结果生成发声周期信息。发声周期信息生成单元31可以使用发声者识别技术基于声学特征量来估计发声者和发声周期，并根据估计结果生成发声周期信息。
[0180] 图24是示意图，示出了根据本实施例的发声周期信息D3的数据的示例。图24示出了当发声周期信息生成单元31从由拾取单元11拾取的声音识别(估计)多个发声者和相应发声周期时生成的示例性数据。例如，发声周期信息生成单元31以这种方式生成包括发声ID、发声起始时间以及发声者ID的发声周期信息D3。发声周期信息生成单元31将生成的发声周期信息D3存储在发声周期信息保存单元32中。
[0181] 选择器13
[0182] 选择器13针对每个发声者或每一个发声周期，基于发声周期信息生成单元31生成的发声周期信息D3、识别字符串的可信度和关于转录工作的工作条件的各种参数，来选择从声音识别的识别字符串。更具体地，选择器13针对每个发声者或发声周期，基于关于转录精确度的参数和识别字符串的可信度，来选择至少一个识别的字符串用于转录的句子。此外，选择器13针对每个发声者或发声周期，基于关于转录所需的工作量的参数和识别字符串的可信度，来选择至少一个识别的字符串用于转录的句子。
[0183] 下面描述了由选择器13执行的用于选择识别字符串的处理。图25为流程图，其示出了根据本实施例的用于选择识别字符串的处理的示例。图25示出了当选择器13使用转录精确度的容许值作为针对每个发声者的关于转录精确度的参数时的示例性处理。
[0184] 如图25所示，选择器13首先从操作者U接收针对发声者i (i=l至M，Μ是发声者的数量）的转录精确度的容许值P (i)的设定(步骤S1101)。
[0185] 图26是示意图，示出了根据本实施例的转录精确度的允许值P(i)的设定的示例。如图26所示，操作者U通过相应的滑块UI(滑动条)，设定针对发声者的转录精确度的容许值P (i )，例如每个滑块Π 允许从N个阶层（图26中N=5)中指定出一个可允许的阶层。选择器13以这种方式在屏幕上显示UI，并从操作者U接收设定。
[0186] 再参考图25,选择器13随后设定由识别器12获取的识别结果(存储在识别结果保存单元18中的该识别结果）中的第一识别字符串作为目标字符串w (步骤S1102)，然后根据目标字符串w的可信度，计算目标字符串w的转录精确度wp (步骤S1103)。例如，选择器13通过第一实施例中所描述的表达式（1)，计算目标字符串w的转录精确度wp。
[0187] 然后，选择器13基于存储在发声周期信息保存单元32中的发声周期信息D3,识别目标字符串w的发声者wi (步骤S1104)。例如，选择器13提取发声周期n，并且根据发声周期信息D3中的发声周期的发声者ID识别发声者wi，在该发声周期η中识别字符串的起始时间存在于发声周期η的起始时间和下一发声周期η+1的起始时间之间。
[0188] 然后，选择器13比较目标字符串w的计算的转录精确度wp和识别的发声者wi的转录精确度的容许值P (wi)，并确定转录精确度wp是否等于或大于容许值P (wi)(步骤 S1105)。如果确定转录精确度wp等于或大于容许值P (wi) (S1105的是)，选择器13选择目标字符串w (步骤S1106)。如果确定转录精确度wp小于容许值P (wi) (S1105的否)，则选择器13不选择目标字符串w。
[0189] 然后，选择器13确定由识别器12获取的识别结果中是否存在下一个识别的字符串（步骤S1107)。如果确定存在下一个识别的字符串（S1107的是)，选择器13设定下一识别的字符串作为目标字符串w (步骤S1108)，并重复从S1103到S1107的处理。如果确定不存在下一个识别的字符串（S1107的否)，选择器13结束该处理。
[0190] 选择器13可以与上述方式相同的方式，使用每个发声者的关于转录所需工作量的参数，选择识别的字符串。可替代地，选择器13可使用关于每个发声周期的转录精确度的参数或者每个发声周期的转录所需工作量的参数，来选择识别的字符串。
[0191] 如上所述，根据本实施例的文本生成器100基于识别字符串的可信度和关于操作者U指定的转录工作的工作条件的各种参数(转录精确度和转录所需工作量中的至少一个参数)，针对每个发声者或每个发声周期选择根据声音识别的识别字符串，并生成转录句子。
[0192] 作为结果，本实施例中的文本生成器100以与第一实施例相同的方式使得能够容易地进行字符的添加或校正，并且减小转录工作中的强加于操作者U的负担。
[0193] 文本生成器
[0194] 图27为示意图，示出了根据本实施例的文本生成器100的结构的示例。如图27 所示，根据本实施例的文本生成器100包括中央处理单元（CPU) 101和主存储设备102。文本生成器100还包括辅助存储设备103、通信接口（IF)104、外部IF105、以及驱动设备107。在文本生成器100中，各个设备通过总线B相互连接。因此，根据本实施例的文本生成器 100对应于典型的信息处理装置。
[0195] CPU101是算术处理单元，其总体控制文本生成器100并实现文本生成器100的相应功能。主存储设备102是在其特定存储区域中存储程序和数据的存储设备(存储器)。例如，主存储设备102是只读存储器（ROM)或随机存取存储器（RAM)。辅助存储设备103是具有比主存储设备102更大容量的存储区域的存储设备。例如，辅助存储设备103是非易失性存储装置，例如硬盘驱动器（HDD)或者存储卡。CPU101从辅助存储设备103读出程序和数据至主存储装置102中，并执行它们，以便总体控制文本生成器100并实现文本生成器100 的相应功能。
[0196] 通信IF104是一种接口，其连接文本生成器100至数据传输线N。因此，通信IF104 使文本生成器100能够执行与其他外部装置(其他通信处理装置）的数据通信，该其他外部装置通过数据传输线N耦合到文本生成器100。外部IF105是使能文本生成器100和外部设备106之间的数据交换的接口。例如，外部设备106是显示各种类型的信息(例如处理结果）的显示器(例如，"液晶显示器")，或者是接收处理输入的输入装置(例如，"数字键盘"、 "键盘"、或"触摸面板")。驱动设备107是将数据写入和读出存储介质108的控制器。例如，该存储介质108是软盘（FD)、紧致盘（⑶）、或数字多功能盘（DVD)。
[0197] 例如，本实施例中的文本生成功能是由执行计算机程序的文本生成器100和上述各功能单元产生的协同操作来实现的。在这种情况下，程序作为可安装或可执行的格式的文件被记录在执行环境中可由文本生成器100 (计算机）读取的记录介质中，并且被提供。例如，在文本生成器100中，程序具有包括上述各个功能单元的单元结构，一旦CPU101从存储介质108读出程序并执行程序，各个单元就生成于主存储装置102的RAM上。提供程序的方式并不局限于该方式。例如，该程序可以存储在连接到互联网的外部装置，并可通过数据传输线N下载。该程序可以预先存储在主存储装置102的ROM上或者辅助存储装置103 的HDD上，并被提供。描述了其中文本生成功能通过软件实施来实现的例子。然而，文本生成功能的实现并不局限于这种方式。文本生成功能的各个功能单元的一部分或全部可以通过硬件实施来实现。
[0198] 在实施例中，文本生成器100包括拾取单元11、识别器12、选择器13、生成单元 14、设定单元15、搜索器16、播放器17、识别结果保存单元18、连接单元21、识别连接结果保存单元22、发声周期信息生成单元31、以及发声周期信息保存单元32中的一部分或全部。然而，文本生成器100的结构不局限于此结构。文本生成器100可以通过通信IF104耦合到具有那些功能单元的一部分功能的外部装置，并通过与所耦合的外部装置的数据通信和各个功能单元产生的协同操作，提供文本生成功能。例如，这种结构使得该实施例中的文本生成器100还能够应用于云环境。
[0199] 根据上述至少一个实施例中的文本生成器，文本生成器包括识别器、选择器、以及生成单元。识别器被配置为识别拾取的声音，并获取识别单元中识别的字符串以及识别字符串的可信度。选择器被配置为基于关于转录精确度的参数和关于转录所需的工作量的参数中的至少一个来选择至少一个识别的字符串用于转录句子。生成单元被配置为使用所选的识别字符串生成转录句子。因此，可以减小转录工作中的负担。
[0200] 虽然已经介绍了一些实施例，但是这些实施例只是作为示例来呈现的，而不是用来限制本发明的范围。实际上，在此描述的新颖实施例可以以各种其它形式实施；此外，在不脱离本发明的精神的情况下可以做出在此所述的实施例的形式中的各种省略、替换和改变。所附的权利要求及其等同方案旨在覆盖将落入本发明的范围和精神的如此形式或修改。
【权利要求】
1. 一种文本生成器，包括：识别器，其被配置为识别所拾取的声音，并获取识别单元中所识别的字符串和所识别的字符串的可信度；选择器，其被配置为基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个，选择至少一个所识别的字符串用于转录的句子；以及生成单元，其被配置为使用所选的识别字符串生成所述转录的句子。
2. 根据权利要求1所述的文本生成器，其中，所述选择器基于所述关于转录精确度的参数与所述所识别的字符串的可信度的组合和所述关于转录所需工作量的参数与所述所识别的字符串的可信度的组合中的至少一个组合，来选择所识别的字符串。
3. 根据权利要求2所述的文本生成器，其中，所述选择器基于每个所识别的字符串的可信度来计算每个所识别的字符串的转录精确度，比较所计算的转录精确度和所述转录精确度的容许值，并且当所述转录精确度等于或大于所述容许值时选择所述所识别的字符串。
4. 根据权利要求2所述的文本生成器，其中，所述选择器使用转录工作时间作为所述关于转录所需工作量的参数，基于所识别的字符串的字符数量来计算每个所识别的字符串的所述转录工作时间，比较累积的工作时间和所述转录工作时间的容许值，并且当所述累积的工作时间等于或小于所述容许值时选择所述所识别的字符串，所述累积的工作时间以所识别的字符串的可信度的递减次序累积地示出了所识别的字符串的所计算的转录工作时间。
5. 根据权利要求2所述的文本生成器，其中所述识别器还获取每个所识别的字符串的起始时间和结束时间，并且所述选择器使用转录工作时间作为所述关于转录所需工作量的参数，基于每个所识别的字符串的起始时间和结束时间计算每个所识别的字符串的转录工作时间，比较累积的工作时间和转录工作时间的容许值，并且当所述累积的工作时间等于或小于所述容许值时选择所述所识别的字符串，所述累积的工作时间累积地示出了以所识别的字符串的可信度的递减次序的所识别的字符串的所计算的转录工作时间。
6. 根据权利要求2所述的文本生成器，其中，所述选择器使用转录工作成本作为所述关于转录所需工作量的参数，基于所识别的字符串的字符数量计算每个所识别的字符串的转录工作时间，基于所计算的转录工作时间和每一单位时间的工作成本来计算每个所识别的字符串的转录工作成本，比较累积的工作成本和所述转录工作成本的容许值，并且当所述累积的工作成本等于或小于所述容许值时选择所述所识别的字符串，所述累积的工作成本累积地示出了以所识别的字符串的可信度的递减次序的所识别的字符串的所计算的转录工作成本。
7. 根据权利要求2所述的文本生成器，其中所述识别器还获取每个所识别的字符串的起始时间和结束时间，并且所述选择器使用转录工作成本作为所述关于转录所需工作量的参数，基于所识别的字符串的起始时间和结束时间来计算每个所识别的字符串的转录工作时间，基于所计算的转录工作时间和每一单位时间的工作成本来计算每个所识别的字符串的转录工作成本，比较累积的工作成本和所述转录工作成本的容许值，并且当所述累积的工作成本等于或小于所述容许值时选择所述所识别的字符串，所述累积的工作成本累积地示出了以所识别的字符串的可信度的递减次序的所识别的字符串的所计算的转录工作成本。
8. 根据权利要求2所述的文本生成器，其中，所述生成单元生成所述转录的句子，在所述转录的句子中，所述所识别的字符串中没有被所述选择器选择的所识别的字符串的N个候选者（N是等于或大于1的整数）以所识别的字符串的可信度的递减次序被显示，使得所述N个候选者能够被操作者选择。
9. 根据权利要求1所述的文本生成器，还包括设定单元，所述设定单元被配置为在所述转录的句子中的一位置处设定字符插入位置，所述位置对应于没有被所述选择器选择的所识别的字符串，所述字符插入位置对应于操作者开始字符输入的位置，其中所述设定单元基于所检测的当前字符插入位置并基于所选择的元素和未选择的元素之间的位置关系，来设定字符插入位置，所述所选择的元素对应于由所述选择器选择的所识别的字符串，所述未选择的元素对应于所述转录的句子中没有被所述选择器选择的所识别的字符串。
10. 根据权利要求9所述的文本生成器，其中所述设定单元确定所检测的当前字符插入位置是否是在所述所选择的元素中，并且当所述字符插入位置是在所述所选择的元素中时，所述设定单元在最接近于所述字符插入位置并且在所述字符插入位置后面的位置处检测所述未选择的元素，并且将所述字符插入位置移动到所检测的未选择的元素的开头位置。
11. 根据权利要求9所述的文本生成器，其中所述设定单元确定所检测的当前字符插入位置是否是在所选择的元素中，并且当所述字符插入位置不在所述所选择的元素中时，所述设定单元在最接近于所述字符插入位置并且在所述字符插入位置后面的位置处检测所选择的元素，在最接近于所检测的所选择的元素并且在所检测的所选择的元素后面的位置处检测未选择的元素，并且将所述字符插入位置移动到所检测的未选择的元素的开头位置。
12. 根据权利要求9所述的文本生成器，还包括：搜索器，其被配置为当操作者开始在由所述设定单元设定的所述字符插入位置输入字符时，搜索对应于输入字符的声音位置；以及播放器，其被配置为从所述搜索器搜索的所述声音位置播放声音，其中所述搜索器基于由所述设定单元检测的所述当前字符插入位置以及所选择的元素和未选择的元素之间的位置关系，搜索所述声音位置，所述所选择的元素对应于被所述选择器选择的所识别的字符串，所述未选择的元素对应于所述转录的句子中没有被所述选择器选择的所识别的字符串。
13. 根据权利要求12所述的文本生成器，其中所述搜索器确定所检测的当前字符插入位置是否是在所述所选择的元素中，并且当所述字符插入位置是在所述所选择的元素中时，所述搜索器设定与所选择的元素对应的所识别的字符串的起始时间作为声音位置。
14. 根据权利要求1所述的文本生成器，还包括连接单元，所述连接单元被配置为基于句子或基于特定时间，来连接由所述识别器获取的所识别的字符串，并且获取所连接的所识别的字符串和所连接的所识别的字符串的可信度，其中所述选择器选择基于句子或基于时间连接的所连接的所识别的字符串。
15. 根据权利要求14所述的文本生成器，其中，所述选择器基于关于所述转录精确度的参数和所连接的所识别的字符串的可信度，或基于关于转录所需的工作量的参数和所连接的所识别的字符串的可信度，来选择基于句子或基于时间连接的所连接的所识别的字符串。
16. 根据权利要求1所述的文本生成器，还包括生成单元，所述生成单元被配置为生成关于所述声音的发声周期信息，所述发声周期信息包括标识每个发声的信息、每个发声的发声起始时间、和标识每个发声的发声者的信息，其中所述选择器针对每个发声者或每个发声来选择所识别的字符串。
17. 根据权利要求16所述的文本生成器，其中，所述选择器基于关于转录精确度的参数和所识别的字符串的可信度，或者基于关于转录所需的工作量的参数和所识别的字符串的可信度，针对每个发声者或每个发声，来选择所识别的字符串。
18. -种文本生成方法，包括：识别所拾取的声音，并获取识别单元中识别的字符串和所识别的字符串的可信度；基于关于转录精确度的参数和关于转录所需工作量的参数中的至少一个，来选择至少一个所识别的字符串用于转录的句子；以及使用所选择的所识别的字符串生成所述转录的句子。
【文档编号】G10L15/26GK104103273SQ201410090288
【公开日】2014年10月15日申请日期:2014年3月12日优先权日:2013年4月3日
【发明者】芦川平, 西山修, 池田朋男, 上野晃嗣, 中田康太申请人:株式会社东芝

本文推荐文本生成器和文本生成方法仅代表作者观点，不代表本网站立场。本站对作者上传的所有内容将尽可能审核来源及出处，但对内容不作任何保证或承诺。请读者仅作参考并自行核实其真实性及合法性。如您发现图文视频内容来源标注有误或侵犯了您的权益请告知，本站将及时予以修改或删除。未经允许不得转载：http://www.pinpai35.com/1656351632.html

当前位置：网站首页>专利 >正文

文本生成器和文本生成方法

相关推荐