当前位置:网站首页>专利 >正文

语音可视化系统及语音可视化方法

专利名称:语音可视化系统及语音可视化方法
技术领域
本发明涉及一种语音可视化系统及语音可视化方法。
背景技术
目前,生物模拟技术主要是对生物的外观行为特征的模拟,对生物体内部
器官的模拟仅限于再现其静态状态。其不足之处在于不能模拟说话人内部发 音器官的真实动作。

发明内容
有鉴于此,有必要针对生物模拟技术不能模拟说话人内部发音器官的真实 动作的问题,提供一种能模拟说话人内部发音器官的真实动作的语音可视化系统。
一种语音可视化系统,包括说话人运动数据采集模块、至少一语音数据采 集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像 静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续 发音运动模拟模块和显示模块;所述说话人运动数据采集模块用于采集说话人 的说话人运动数据;所述至少一语音数据采集模块用于同步采集说话人的语音 数据;所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时 间长度信息、连续协同发音信息和连续音素音频数据;所述发音器官运动数据 采集模块用于根据各音素的时间长度对说话人运动数据进行处理,建立与音素 对应的发音器官运动数据库;所述三维说话人头像静态建模模块用于根据生理 解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像 静态三维模型,提供可观测发音器官所有三维说话人头像静态三维模型数据, 以及所定义运动控制特征点的静态三维数据;所述运动控制参数变换模块将发 音器官运动数据库与三维说话人头像静态三维模型进行配准,获得校准后的发音器官运动数据库;所述单音素发音器官运动^t拟^^莫块利用三维动态变形^^莫拟 算法,加载从校准后的发音器官运动数据库中得到的运动控制参数,实现各个 单音素的所有发音器官协同变形模拟;所述连续发音运动模拟模块用于接收音 素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步 算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音 运动;所述显示模块用于显示三维说话人头像发音运动的三维可视化信息。
优选的,所述至少一语音数据采集模块的个数为一个,所述至少一语音识 别模块的个数为一个,该语音数据采集模块与该语音识别模块连接,该语音识 别模块与发音器官运动数据釆集模块连接。
优选的,所述至少一语音数据采集模块包括第一语音数据采集模块和第二 语音数据采集模块,所述至少 一语音识别模块包括第 一语音识别模块和第二语 音识别模块;该第一语音数据采集模块与该第一语音识别模块连接,该第一语 音识别模块与发音器官运动数据采集模块连接;该第二语音数据采集模块与该 第二语音识别模块连接,该第二语音识别模块与连续发音运动模拟模块连接。
优选的,所述语音识别模块包括声学特征参数提取模块、声学模型数据库 存储模块、语言模型数据库存储模块和解码模块;所述声学模型数据库存储模 块用于存储声学模型数据库;所述语言模型数据库存储模块用于存储语言模型 数据库;所述声学特征参数提取模块用于从语音数据中提取语音信号特征参 数;所述解码模块根据声学模型数据库和语言模型数据库,运用广度优先的搜 索算法对语音信号特征参数进行解码识别,输出音素序列文本、音素时间长度 信息、连续协同发音信息和连续音素音频数据。
此外,还提供一种语音可视化方法。
一种语音可视化方法,包括同步采集说话人的说话人运动数据和语音数 据;对语音数据进行处理;建立发音器官运动数据库;建立三维说话人头像静 态三维模型;建立校准后的发音器官运动数据库;实现各个单音素的所有发音 器官协同变形模拟;接收说话人的语音信息;模拟三维说话人头像发音运动; 显示三维说话人头像发音运动的三维可视化信息。
优选的,所述建立发音器官运动数据库包括定义控制各发音器官变形运动的特征点;提取面部特征点二维参数;提取口腔内部特征点二维参数;建立 发音器官运动数据库。
优选的,所述建立校准后的发音器官运动数据库包括获取各特征点的静 态数据;获得特征参数变换矩阵;获得校准后的发音器官运动数据库。
优选的,所述实现各个单音素的所有发音器官协同变形模拟包括对发音 器官进行分类;对各类发音器官分别进行运动^t拟;实现发音器官协同变形模 拟。
优选的,所述对发音器官进行分类包括根据三维说话人头像模型和发音 器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固 定类发音器官。
优选的,所述对各类发音器官分别进行运动模拟包括对软组织类发音器 官采用基于位移的算法进行运动模拟或者采用基于物理的算法进行运动模拟; 对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据库进 行转开合运动模拟;对固定类发音器官,保持运动不变。
上述语音可视化系统利用语音可视化技术,采用计算机图形学的变形运动 模拟方法和高识别准确率的自动语音识别技术,能模拟说话人内部发音器官的 真实动作。通过视觉和听觉两类信息的有机融合,全面模拟人类语言发音的过 程,可以真实地反映发音器官的运动情况,有效地提升语言感知的程度。


图l是语音可视化系统的示意图。
图2是第一语音识别模块的示意图。
图3是发音器官运动数据采集模块的工作流程图。
图4是运动控制参数变换模块的工作流程图。
图5是单音素发音器官运动模拟模块的工作流程图。
具体实施例方式
图1是语音可视化系统的示意图。语音可视化系统100包括说话人运动数据采集模块101、第一语音数据采集模块102、第一语音识别模块103、发音器 官运动数据采集模块104、三维说话人头像静态建模模块105、运动控制参数变 换模块106、单音素发音器官运动模拟模块107、第二语音识别模块109、连续 发音运动模拟模块110和显示模块111。
说话人运动数据采集模块101用于采集说话人运动数据。说话人运动凄t据 可以是二维数据或三维数据。说话人运动数据可以通过对i兌话人的正面和正交 侧面进行录像,以及对说话人进行X光透像(或者进行核》兹共振成像)的方法 获得。或者利用运动捕捉技术对说话人面部和唇部的特征点进行运动跟踪,直 接获取说话人运动数据。或者利用三维电磁发音记录仪(Electromagnetic Articulography)对说话人进行采样,直接获取说话人运动数据。
第一语音数据采集模块102用于采集说话人的语音数据(自然连续语音)。 说话人的语音数据可以通过对说话人的语音进行录音的方法获得。
上述说话人运动数据采集和语音数据采集是同步进行的。
第一语音识別模块103用于从语音数据中提取音素序列文本、音素时间长 度信息、连续协同发音信息和连续音素音频数据。
发音器官运动数据采集模块104用于根据各音素的时间长度对说话人运动 数据进行处理,建立与音素对应的发音器官运动数据库。
三维说话人头像静态建模模块105用于根据生理解剖学结构数据建立可观 测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型,提供可观 测发音器官所有三维说话人头像静态三维模型数据,以及所定义运动控制特征 点的静态三维数据。发音器官包括上下唇、上下齿、齿龈、下颚、软颚、小 舌、舌尖、舌面和舌根。其中上齿、齿龈、软颚和舌根为发音动作中不变形的 器官,而上下唇、下齿、下颚、舌尖、舌面和小舌为运动变形器官。
运动控制参数变换模块106将发音器官运动数据库与三维说话人头像静态 三维模型进行配准,获得校准后的发音器官运动数据库。
单音素发音器官运动模拟模块107利用三维动态变形模拟算法,加载从校 准后的发音器官运动数据库中得到的运动控制参数,实现各个单音素的所有发 音器官协同变形模拟。
8第二语音数据采集^:莫块108用于采集说话人的语音数据(自然连续语音)。 说话人的语音数据可以通过对说话人的语音进行录音的方法获得。第二语音数
据采集模块108和第一语音数据采集模块102完全相同,因此,第二语音数据 采集模块108也可由笫一语音数据采集模块102代替。
第二语音识别模块109用于接收第二语音数据采集模块108采集的语音数 据,从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息 和连续音素音频数据。第二语音识别模块109和第一语音识别模块103完全相 同,因此,第二语音识别模块109也可由第一语音识别模块103代替。
连续发音运动模拟模块110用于接收从第二语音识别模块109中提取的音 素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步 算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音 运动。
显示模块111用于显示三维说话人头像发音运动的三维可视化信息。显示 模块lll可以是显示器、电视机等显示设备。
图2是第一语音识别模块103的示意图。第一语音识别模块103包括声学 特征参数提取模块302、声学模型数据库存储模块304、语言模型数据库存储模 块306和解码模块308。声学模型数据库存储模块304所存储的声学模型数据库 是从大规模新闻类和访谈类语音数据中提取的声学特征参数建立基于隐马尔科 夫模型(HMM )的上下文相关的三音素^f莫型,利用最大似然估计算法(Maximum Likelihood)和区别性训练算法(Discriminative Training)对聚类的三音素模型 进行参数估计和更新。语言模型数据库存储模块306所存储的语言模型数据库 是根据大规模新闻类数据以及网络上收集的大量语音数据标注文本进行统计训 练得到。声学特征参数提取模块302用于从语音数据中提取语音信号特征参 数。解码模块308根据声学模型数据库和语言模型数据库,运用广度优先的搜 索算法对语音信号特征参数进行解码识别,并可同时采用设置适当的宽度值来 提升解码的效率。语音信号特征参数经解码识别后可得到音素序列文本、音素 时间长度信息、连续协同发音信息和连续音素音频数据。测试表明,语音识别 模块针对朗读方式的大词汇量非特定人连续语音识别的音素识别准确率能够达到卯。/o以上。
语音识别的具体方法详细说明如下首先对自然连续语音进行语音信号特 征提取,例如采用感知线性预测(PLP)特征参数,包括能量以及差分特征等。 声学模型采用基于HMM的统计模型。每个HMM可以表征语音信号的基本音 素单元,多个音素的HMM串行起来构成一个词的HMM。采用词典(Lexicon) 来表征每个单词对应的发音和音素序列。在大量语音数据的基础上训练声学模 型各个三音素模型的均值、方差、权值、转移概率等参数。利用大量文本信息 建立语言模型,通过估计相连词汇的出现概率提供语言模型分数,并结合声学
模型分数在识别网络中搜索最优音素序列,最终识别出语音所对应的文本信 旮
第一语音识别;f莫块103除了可以识别中文和英文的语音之外,同时也为增 加其他语种的声学模型和语言模型提供了接口 ,可根据需要增加或更新相应的 声学模型数据库和语言模型数据库。
图3是发音器官运动数据采集模块104的工作流程图。发音器官运动数据 采集模块104的具体工作过程如下
S401:定义控制各发音器官变形运动的特征点。
根据生理解剖学结构数据对正面视频图像、正交侧面视频图像和X-光透一见 图像进行分析,定义出控制各个发音器官变形运动的特征点。其中,面部的特 征点有唇部6个特征点、鼻尖、下颚等,口腔内部的特征点有舌部6个特征点等。
S402:提取面部特征点二维参数。
根据音素序列文本与音素时间长度信息确定所有音素对应的正面视频图像 和正交侧面视频图像,提取面部特征点二维参数,然后利用立体视觉恢复三维 坐标。
S403:提取口腔内部特征点二维参数。
根据音素序列文本与音素时间长度信息确定所有音素对应的口腔X光透视 图像,并提取口腔内部二维参数。 S404:建立发音器官运动凝:据库。根据说话人实际头部数据对面部特征点二维参数和口腔内部特征点二维参 数进行配准,建立发音器官运动数据库。
图4是运动控制参数变换模块106的工作流程图。运动控制参数变换模块 106的具体工作过程如下
S501:获取各特征点的静态数据。
根据外部和内部发音器官不发音时的静态图像获取各特征点的静态数据。 各特征点的静态数据包括口腔内部静态二维数据和面部三维重建后特征点静态数据。
S502:获得特征参数变换矩阵。
根据口腔内部静态二维数据、面部三维重建后特征点静态数据和三维说话 人头像模型特征点静态数据,对说话人实际头部数据进行配准,获得特征参数 变换矩阵。
S503:获得校准后的发音器官运动数据库。
根据特征参数变换矩阵对发音器官运动数据库进行变换,得到校准后的发 音器官运动数据库。该数据库为单音素发音器官运动模拟模块107提供所有音 素的发音器官运动控制特征点的动态变形运动控制参数,在该参数的控制下可 以模拟出所有单个和多个连续中文和英文音素的发音变形,并为新语言音素发 音变形模拟提供加载参数的接口 ,可根据需要增加或更新相应音素的发声变形 模拟。
图5是单音素发音器官运动模拟模块107的工作流程图。单音素发音器官 运动模拟模块107的具体工作流程包括如下步骤 S601:对发音器官进行分类。
根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组 织类发音器官(唇部和舌部)、开合类发音器官(下齿和下颚)和固定类发音 器官(上齿和口腔上部)。
S602:对各类发音器官分别进行运动模拟。
对软组织类发音器官采用基于位移的算法(Displacement-based )模拟变形, 根据软组织类发音器官特征点进行广度优先搜索得到各特征点的邻域,在该邻域内构造以特征点为中心的椭球面,设置椭球面上的点的位移为零,以特征点 的位移和邻域内各点与椭球面的距离为参数,构造正弦或余弦函数对影响范围 内的点进行变形,实现发音器官特征点变形的真实扩散。或者采用基于物理的
算法(Physics-based)模拟舌部和面部的变形,构造弹簧质点模型或有限元模 型,同时标注口轮匝肌和舌部肌肉群(包括颏舌肌、舌骨舌肌、茎突舌肌、舌 上纵肌、舌下纵肌、舌直肌和舌横肌)的走向,根据发音器官特征点的运动控 制参数设计相应的边界条件,并且沿肌肉纤维走向设置收缩系数模拟肌肉收 缩,模拟软组织的生理物理变形。
对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据 库进行转开合运动模拟。
对固定类发音器官,保持运动不变。
S603:实现发音器官协同变形模拟。
对每一音素建立发音时的各发音器官运动的逻辑关系,根据联合时序逻辑 控制算法,共同实现各个单音素的所有发音器官协同变形模拟。
上述语音可视化系统可将外部模型设置为透视状态或线框模式,从而可以 观察到口腔内部发音器官发音变形的位置和状态。并且上述语音可视化系统中 所有内部和外部模型可实现在三维空间的任意角度旋转和任意大小缩放。
上述语音可视化系统是根据生理解剖学构建三维发音器官静态建模的基础 之上,应用生物力学原理模拟发音器官运动变形状态和速度,同时利用高识别 准确率的自动语音识别技术,对实时、自然连续语音进行音素识别和协同发音 音素时间长度信息获取,构建并实现了三维说话人头像发音器官协同运动模拟 和说话人表情系统。上述语音可视化系统模拟出的发音器官运动不仅具有高真 实感和高准确度,而且能够自动模拟出连续发音时对应多个发音器官运动的形 状、速度和力度。
上述语音可视化系统100利用语音可视化技术,采用计算机图形学的变形 运动模拟方法和高识别准确率的自动语音识别技术,构建三维说话人头像连续 发音运动模拟系统。该发明通过视觉和听觉两类信息的有机融合,全面模拟人 类语言发音的过程,可以真实地反映发音器官的运动情况,有效地提升语言感知的程度。上述语音可视化系统可以推广到三维动漫的人物运动设计中,从而 大幅度提高设计三维动漫人物对话的效率和真实感。
此外,当外界输入的是语音数据中已包含音素时间长度信息和连续音素音
频数据时,上述语音可视化系统100可以没有第二语音识别模块109,此时,外 界语音数据直接输入至连续发音运动模拟模块110。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详 细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本 领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变 形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以 所附权利要求为准。
权利要求
1、一种语音可视化系统,其特征在于包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块;所述说话人运动数据采集模块用于采集说话人的说话人运动数据;所述至少一语音数据采集模块用于同步采集说话人的语音数据;所述至少一语音识别模块用于从语音数据中提取音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据;所述发音器官运动数据采集模块用于根据各音素的时间长度对说话人运动数据进行处理,建立与音素对应的发音器官运动数据库;所述三维说话人头像静态建模模块用于根据生理解剖学结构数据建立可观测发音器官的各个软组织和硬组织的三维说话人头像静态三维模型,提供可观测发音器官所有三维说话人头像静态三维模型数据,以及所定义运动控制特征点的静态三维数据;所述运动控制参数变换模块将发音器官运动数据库与三维说话人头像静态三维模型进行配准,获得校准后的发音器官运动数据库;所述单音素发音器官运动模拟模块利用三维动态变形模拟算法,加载从校准后的发音器官运动数据库中得到的运动控制参数,实现各个单音素的所有发音器官协同变形模拟;所述连续发音运动模拟模块用于接收音素时间长度信息和连续音素音频数据,采用发音器官协同运动与音素音频同步算法实现三维说话人头像发音同步,结合说话人表情模拟三维说话人头像发音运动;所述显示模块用于显示三维说话人头像发音运动的三维可视化信息。
2、 根据权利要求l所述的语音可视化系统,其特征在于所述至少一语音 数据采集模块的个数为一个,所述至少一语音识别模块的个数为一个,该语音 数据采集模块与该语音识别模块连接,该语音识别模块与发音器官运动数据采 集模块连接。
3、 根据权利要求l所述的语音可视化系统,其特征在于所述至少一语音 数据采集模块包括第 一语音数据采集模块和第二语音数据采集模块,所述至少 一语音识别模块包括第一语音识别模块和第二语音识别模块;该第一语音数据采集模块与该第一语音识别模块连接,该第一语音识别模块与发音器官运动数据釆集模块连接;该第二语音数据采集模块与该第二语音识别模块连接,该第二语音识别模块与连续发音运动模拟模块连接。
4、 根据权利要求l所述的语音可视化系统,其特征在于所述语音识别模块包括声学特征参数提取模块、声学模型数据库存储模块、语言模型数据库存储模块和解码模块;所述声学模型数据库存储模块用于存储声学模型数据库;所述语言模型数据库存储模块用于存储语言模型数据库;所述声学特征参数提取模块用于从语音数据中提取语音信号特征参数;所述解码模块根据声学模型数据库和语言模型数据库,运用广度优先的搜索算法对语音信号特征参数进行解码识别,输出音素序列文本、音素时间长度信息、连续协同发音信息和连续音素音频数据。
5、 一种语音可一见化方法,包括同步采集说话人的说话人运动数据和语音数据;对语音数据进行处理;建立发音器官运动数据库;建立三维说话人头像静态三维模型;建立校准后的发音器官运动数据库;实现各个单音素的所有发音器官协同变形^t拟;接收说话人的语音信息;模拟三维说话人头像发音运动;显示三维说话人头像发音运动的三维可视化信息。
6、 根据权利要求5所述的语音可视化方法,其特征在于所述建立发音器官运动数据库包括定义控制各发音器官变形运动的特征点;提取面部特征点二维参数;提取口腔内部特征点二维参数;建立发音器官运动数据库。
7、 根据权利要求5所述的语音可视化方法,其特征在于所述建立校准后的发音器官运动数据库包括获取各特征点的静态数据;获得特征参数变换矩阵;获得校准后的发音器官运动数据库。
8、 根据权利要求5所述的语音可视化方法,其特征在于所述实现各个单音素的所有发音器官协同变形模拟包括对发音器官进行分类;对各类发音器官分别进行运动模拟;实现发音器官协同变形模拟。
9、 根据权利要求8所述的语音可视化方法,其特征在于所述对发音器官进行分类包括根据三维说话人头像模型和发音器官的生理物理属性将发音器官分为软组织类发音器官、开合类发音器官和固定类发音器官。
10、 根据权利要求9所述的语音可视化方法,其特征在于所述对各类发音器官分别进行运动^f莫拟包括对软组织类发音器官采用基于位移的算法进行运动模拟或者采用基于物理的算法进行运动模拟;对开合类发音器官建立局部旋转坐标系,根据校准后的发音器官运动数据库进行转开合运动模拟;对固定类发音器官,保持运动不变。
全文摘要
本发明涉及一种语音可视化系统及语音可视化方法,该语音可视化系统包括说话人运动数据采集模块、至少一语音数据采集模块、至少一语音识别模块、发音器官运动数据采集模块、三维说话人头像静态建模模块、运动控制参数变换模块、单音素发音器官运动模拟模块、连续发音运动模拟模块和显示模块。该语音可视化方法包括同步采集说话人的说话人运动数据和语音数据;对语音数据进行处理;建立发音器官运动数据库;建立三维说话人头像静态三维模型;建立校准后的发音器官运动数据库;实现各个单音素的所有发音器官协同变形模拟;接收说话人的语音信息;模拟三维说话人头像发音运动;显示三维说话人头像发音运动的三维可视化信息。
文档编号G10L21/06GK101488346SQ200910105558
公开日2009年7月22日 申请日期2009年2月24日 优先权日2009年2月24日
发明者欧阳建军, 岚 王, 辉 陈 申请人:深圳先进技术研究院

喜欢就赞一下

上一篇
下一篇

相关推荐

    专利名称:光学模块及设置有光学模块的线缆单元的制作方法技术领域:本发明涉及光学模块和设置有光学模块的线缆单元,该光学模 块和该线缆单元用于将信号例如从个人计算机发送到显示装置。背景技术:公开的日本专利申请No.2007-25272披露了一种

    专利发布时间:2025-05-15阅读:(84)

    专利名称:图像显示设备的制作方法技术领域:本发明涉及用于使观测者能够观测由图像形成装置等形成的 二维图像的图像显示设备。背景技术:存在一些虚像显示设备(图像显示设备),每种都以由虚拟光 学系统放大的虚像的形式使观测者能够观测由图像形成装置形

    专利发布时间:2025-05-15阅读:(73)

    专利名称:一种一体式提琴音响系统的制作方法技术领域:本发明涉及一种音响设备。背景技术:提琴的出现已有300多年的历史,是自17世纪以来西方音乐中最为重要的乐器之一,被誉为乐器皇后,其制作本身是ー门极为精致的艺术。提琴音色优美,接近人声,音域

    专利发布时间:2025-05-15阅读:(67)

    专利名称:一种共点三维分光组合光学系统的制作方法技术领域:本实用新型涉及一种共点三维分光组合光学系统。 背景技术:激光投线仪是目前在建筑、装饰及各类工程安装行业广泛使用的一种激光仪器, 其功能主要是利用线束激光对三维空间进行水平和垂直定位、

    专利发布时间:2025-05-15阅读:(79)

    专利名称:一种智能综合加固路灯的制作方法技术领域:本发明提供一种智能综合加固路灯。背景技术:现有公共照明的路灯,一般是由路灯管理机构在设定的时间段内直接打开,但由于自然条件的随机性,每天的固定时间段内光照强度不一定相同,而目前的路灯并不存在

    专利发布时间:2025-05-15阅读:(102)

    专利名称:一种多用户依时序观测的液晶电视系统的制作方法技术领域:本实用新型涉及液晶电视显示技术,尤其涉及一种多用户依时序观测的液晶电视系统。背景技术:在当前的电视使用环境中,通常电视都是放在客厅中供家庭成员共同使用,这就使得当多个用户需要观

    专利发布时间:2025-05-15阅读:(95)