一种智能视频监控方法
【专利摘要】本发明提供了一种智能视频监控方法,包括:a)采集和保存共计T秒的视频数据信号和音频数据信号,b)将图像数据划分为训练图像数据和测试图像数据以及将音频数据划分为训练音频数据和测试音频数据;c)判断音频数据中是否包含异常音频数据;d)对全部图像数据以及全部音频数据分别进行预处理;e)对经预处理的全部训练图像数据建立全局背景模型;f)对经预处理后的全部音频数据中的异常音频数据建立新的高斯混合模型;g)将步骤e得到的全局背景模型参数和步骤f得到的高斯混合模型参数融合构建一个联合决策模型,用该联合决策模型对预处理后的全部测试数据进行异常状态判别。
【专利说明】一种智能视频监控方法
【技术领域】
[0001] 本发明属于视频监控领域,具体涉及一种智能视频监控方法。
【背景技术】
[0002] 随着计算机网络与通信技术、多媒体技术的快速发展,很多犯罪活动的预谋和策 划都是靠网络来联系和实现的,对网络通信的监控是安防监控的重要组成部分。视频监控 以直观、方便、可记录、可查询等特点日益受到重视,越来越多的视频监控系统应用于安全 领域。
[0003] 现有的视频监控系统存在一个很重要的缺陷:对视频监控内容只能靠人来判断。 视频监控工作劳动强度很大,它对工作人员的注意力、警惕性、特别对异常的反应能力要求 很高,一般监控过程中发生的失物都是由注意力不集中造成的。现有的视频监控多用于事 后处理,即调查取证,并没有充分发挥视频监控系统的主动性。
[0004] 伴随着网络技术数字视频技术的飞速发展,监控技术正向智能化方向不断前进。 人们希望监控以计算机为核心,融合多媒体技术、计算机技术和网络技术,实现自动监控和 异常报警,能够替代人工值守,成为真正意义上的智能监控。
[0005] 智能视频监控技术是计算机视觉和模式识别技术在视频监控领域的应用,是网络 化视频监控领域的最前沿的应用模式之一。以数字视频监控系统为基础,借助于计算机的 强大的数据处理功能,对海量视频数据进行分析,过滤用户不关心的信息,仅为监控者提供 有用的关键信息。智能视频监控系统以普通的网络视频监控为基础,除了具备普通监控系 统的功能外,最大的优势是能自动地全天候进行实时分析报警,彻底改变了以往完全由安 保人员对监控画面进行监视和分析的模式。智能视频监控主要用在高级住宅小区、银行、超 市、仓库、博物馆、监狱等需要进行长期监控的地点。
[0006] 智能视频监控技术的核心内容是对特定目标的自动检测、跟踪与行为识别,包括 运动目标检测、目标跟踪、目标分类、行为识别等4个方面内容。例如对人体的跟踪:首先 从实时图像序列(即视频)中检测出运动物体,再判定运动物体中的人体,然后跟踪人体的 运动轨迹,并分析和选定有异常行为的人,如在车站,机场等遗留包裹的人,最后对行为异 常的人进行持续跟踪。
[0007] 其中运动目标检测和目标跟踪属于视觉低级处理部分,而目标分类和行为识别则 属于中级和高级处理。对于视觉低级处理部分,运动目标检测与目标跟踪的视频智能分析 技术已经取得了一定的成果,目前市场上已经有相应的产品,已经在实际中得到较为广泛 的应用。而对于目标分类和行为识别的技术研究发展相对缓慢。
[0008] 现有的行为识别方法包括模板匹配方法和状态空间方法。
[0009] 模板匹配方法采用模板匹配技术的行为识别方法,首先将图像序列转换为一组静 态形状模式,然后在识别过程中,和预先存储的行为标本相比较。模板匹配技术的优点是计 算复杂度低、实现简单,然而其缺点是:对于噪声和运动时间间隔的变化是敏感的。
[0010] 状态空间方法基于状态空间模型的方法定义每个静态姿势作为一个状态,这些状 态之间通过某种概率联系起来。任何运动序列可以看作为这些静态姿势的不同状态之间的 一次遍历过程,在这些遍历期间计算联合概率,其最大值被选择作为分类行为的标准。目 前,状态空间模型已经被广泛地应用于时间序列的预测、估计和检测,最有代表性的是HMM 模型。每个状态中可用于识别的特征包括点、线或二维小区域。状态空间方法虽然能克服 模板匹配的缺点,但通常会涉及到复杂的迭代运算,运算数据量大。
【发明内容】
[0011] 为了解决现有技术的缺点,本发明提供了一种智能视频监控方法,其包括:
[0012] a)同步采集共计T秒的视频数据信号和音频数据信号,并将视频数据信号按照连 续多帧图像数据的形式保存,将音频数据信号按照wav的形式保存;
[0013] b)将图像数据划分为训练图像数据和测试图像数据以及将音频数据划分为训练 音频数据和测试音频数据;
[0014] c)判断训练音频数据和测试音频数据中是否包含异常音频数据,如果有,提取出 异常音频数据并另行保存,否则进行下一步;
[0015] d)对全部训练图像数据和测试图像数据以及包括异常音频数据在内的全部训练 音频数据和测试音频数据分别进行预处理,并且对预处理后的全部训练图像数据和测试图 像数据进行检测和提取所有运动目标帧像素,对预处理后的音频数据提取音频特征;
[0016] e)对经预处理后及运动目标帧像素提取后的全部训练图像数据建立全局背景模 型;
[0017] f)对经预处理后及音频特征提取后的全部训练音频数据中的异常音频数据建立 新的高斯混合模型;
[0018] g)将步骤e得到的全局背景模型参数和步骤f得到的高斯混合模型参数融合构建 一个联合决策模型,用该联合决策模型对预处理后的全部测试数据进行异常状态判别。
[0019] 本发明的方法解决了【背景技术】中列出的现有技术的缺点,即对于噪声和运动时间 间隔的变化敏感和运算数据量大等问题,自动分析视频监控系统中的连续视频数据并识别 异常目标,视频监控异常行为分析的效率和准确率高,实现自动监控和异常报警,该方法不 局限于任何已知的视频监控系统,也可以是任何基于视频的目标行为识别系统,通用性强。
【专利附图】
【附图说明】
[0020] 图1是本发明的智能视频监控方法的流程图。
【具体实施方式】
[0021] 本发明提供了一种智能视频监控方法,其包括步骤:
[0022] 步骤1 :同步采集共计T秒的视频数据信号和音频数据信号,并将视频数据信号按 照连续多帧图像数据的形式保存,将音频数据信号按照wav的形式保存。
[0023] 其中,假如采集到的视频数据信号为多帧RGB彩色图像信号,则利用如下公式:灰 度值=0. 30R+0. 59G+0. 11B,将全部彩色图像信号转换为灰度图像信号,其中R表示彩色图 像的红色分量,G表示彩色图像的绿色分量,B表示彩色图像的蓝色分量。
[0024] 这里所述的T秒,可以根据实际应用情况来确定,例如T为100秒。
[0025] 步骤2 :将图像数据划分为训练图像数据和测试图像数据以及将音频数据划分为 训练音频数据和测试音频数据。
[0026] 对于T秒连续的图像数据,选取从头开始共计?\秒的连续图像数据作为训练图像 数据,共计N tMin帧,其中0 < ?\ < Τ/2,其它图像数据作为测试图像数据,共计Ntest帧。同 样的,对于T秒连续的音频数据,选取从头开始也为?\秒的连续音频数据作为训练音频数 据,共计N train帧,其中〇 < ?\ < Τ/2,其它音频数据作为测试音频数据,共计Ntest帧。
[0027] 步骤3 :判断训练音频数据和测试音频数据中是否包含异常音频数据,如果有,提 取出异常音频数据并另行保存,否则进行下一步。
[0028] 具体的,通过人主观测听所有训练音频数据和测试音频数据,当训练音频数据和/ 或测试音频数据中包含异常音频数据,例如突发枪声、人尖叫声、汽车报警声等,需要将训 练音频数据中的异常音频数据提取出来并另行保存,其总帧数为Ν' train ;将测试音频数据中 的异常音频数据提取出来并另行保存,其总帧数为Ν' test。
[0029] 步骤4 :对全部训练图像数据和测试图像数据以及包括异常音频数据在内的全部 训练音频数据和测试音频数据分别进行预处理,并且对预处理后的全部训练图像数据和测 试图像数据进行检测和提取所有运动目标帧像素,对预处理后的音频数据提取音频特征。
[0030] 其中,对图像数据的预处理主要包括降噪处理。
[0031] 降噪处理采用基于空间域的中值滤波方法,将每帧灰度图像的每个像素对应的灰 度值用该像素邻域中的所有像素的中值替换,此处邻域定义为以某个像素为中心点的方形 邻域,其尺寸为3,即此像素为中心的9个像素点组成该邻域,对9个像素的灰度值进行排序 并获得中值,将中心像素的灰度用中值替换。
[0032] 对预处理之后的所有训练图像数据和测试图像数据,检测每个图像是否存在运动 目标帧,主要采用背景减法,将当前帧之前的连续1〇〇帧灰度图像(若不够1〇〇帧,则按照 实际帧数)的平均值作为当前帧的背景图像,将当前帧和其背景图像相减,得到背景减后 的帧间差灰度矩阵,如果此矩阵的全部数值的绝对值的和小于某个自行设定的阈值,则认 为当前帧中无运动目标;如果此矩阵的全部数值的绝对值的和大于所述设定的阈值,则认 为当前帧中有运动目标。此处自行设定的阈值可以是0.01*当前帧像素个数之和。
[0033] 如果图像数据中存在运动目标帧,则提取该运动目标帧的像素,方法是将上述运 动目标帧对应的背景减后的帧间差灰度矩阵中其数值大于所述设定的阈值的值用1替代, 将其他小于所述设定的阈值的值用〇替代,从而获得一个二值的帧间差矩阵,每个帧间差 矩阵作为对应图像的运动目标帧像素。
[0034] 对音频数据的预处理主要包括预加重、分帧加窗、和端点检测。
[0035] 预加重的目的是提升高频部分,使得信号变得平坦,一般采用一阶滤波器X (η)= X'(η)_μ*χ'(η-1)实现,其中X'(η)为输入的音频时域信号,η为时间序列,μ =0.99, X (η)为预加重后输出的音频时域信号。
[0036] 分帧是将预加重后的音频信号按照一定的帧长进行提取,一般帧长为20ms,帧移 为10ms,这里加窗采用矩形窗。
[0037] 端点检测主要用来判断音频数据信号是否是语音信号,利用短时能量和短时过零 率两个特征进行计算来判断,其计算方法为:
[0038] 设音频时域信号为x(n),其中η为离散时间序列,加窗进行分帧处理后得到的 第η巾贞语音信号表示为xn(m),其中m为离散时间序列,且有xn(m) = w(m)*x(n+m),其中
【权利要求】
1. 一种智能视频监控方法,其包括: a) 同步采集共计T秒的视频数据信号和音频数据信号,并将视频数据信号按照连续多 帧图像数据的形式保存,将音频数据信号按照wav的形式保存; b) 将图像数据划分为训练图像数据和测试图像数据以及将音频数据划分为训练音频 数据和测试音频数据; c) 判断训练音频数据和测试音频数据中是否包含异常音频数据,如果有,提取出异常 音频数据并另行保存,否则进行下一步; d) 对全部训练图像数据和测试图像数据以及包括异常音频数据在内的全部训练音频 数据和测试音频数据分别进行预处理,并且对预处理后的全部训练图像数据和测试图像数 据进行检测和提取所有运动目标帧像素,对预处理后的音频数据提取音频特征; e) 对经预处理后及运动目标帧像素提取后的全部训练图像数据建立全局背景模型; f) 对经预处理后及音频特征提取后的全部训练音频数据中的异常音频数据建立新的 高斯混合模型; g) 将步骤e得到的全局背景模型参数和步骤f得到的高斯混合模型参数融合构建一个 联合决策模型,用该联合决策模型对预处理后的全部测试数据进行异常状态判别。
2. 根据权利要求1所述的智能视频监控方法,其中在步骤a)中,T = 100秒。
3. 根据权利要求1所述的智能视频监控方法,其中在步骤b)中,对于T秒连续的图像 数据,选取从头开始共计1\秒的连续图像数据作为训练图像数据,其它图像数据作为测试 图像数据,其中(ΚΚΤ/%同样的,对于T秒连续的音频数据,选取从头开始也为?\秒的连 续音频数据作为训练音频数据,其它音频数据作为测试音频数据,其中(ΚΚΤΛ。
4. 根据权利要求1所述的智能视频监控方法,其中在步骤c)中,所述异常音频数据是 指突发枪声、人尖叫声、或汽车报警声。
5. 根据权利要求1所述的智能视频监控方法,其中在步骤d)中,所述对图像数据的预 处理包括降噪处理,所述对音频数据的预处理包括预加重、分帧加窗、和端点检测。
6. 根据权利要求1所述的智能视频监控方法,其中在步骤d)中所述检测和提取所有运 动目标帧像素的方法如下: 检测每个图像是否存在运动目标帧的方法为:将当前帧之前的连续100帧灰度图像的 平均值作为当前帧的背景图像,其中若不够100帧则按照实际帧数的灰度图像的平均值作 为当前帧的背景图像,将当前帧和其背景图像相减,得到背景减后的帧间差灰度矩阵,如果 此矩阵的全部数值的绝对值的和小于设定的阈值,则认为当前帧中无运动目标;如果此矩 阵的全部数值的绝对值的和大于所述设定的阈值,则认为当前帧中有运动目标; 提取运动目标帧像素的方法是:将运动目标帧对应的背景减后的帧间差灰度矩阵中其 数值大于所述设定的阈值的值用1替代,将其他小于所述设定的阈值的值用〇替代,从而获 得一个二值的帧间差矩阵,每个帧间差矩阵作为对应图像的运动目标帧像素; 所述提取音频特征是提取梅尔频率倒谱系数。
7. 根据权利要求6所述的智能视频监控方法,其中所述设定的阈值是0. 01*当前帧像 素个数之和。
8. 根据权利要求1所述的智能视频监控方法,其中在步骤e)中,建立全局背景模型的 方法为:通过对全部训练图像数据的运动目标帧像素进行训练得到一个多混合分量的高斯 混合模型来实现,具有Μ个多混合分量的全局背景模型用如下公式表示:
其中
代表每个预处理后及运动目标帧像素提取后的训 练图像数据构成的矢量;λ为高斯混合模型的分布参数,Μ为高斯混合模型 的混合分量个数,wm(m = 1,...,Μ)为每个混合分量对应的权值且
代表xt对应的第m个高斯分量,其 中参数λ m = {Wm,μ π,Σ J,μ m为第m个高斯分量的均值矢量,Σ m为第m个高斯分量的 协方差矩阵,T代表转置,P(xt| λ)为每个高斯分量加权求和得到的预处理后及运动目标帧 像素提取后的训练图像构成的矢量xt的概率分布,参数λ π= Iwm,μπ,Σπ}的值采用公知 的期望最大化算法求得,参数的初始值为随机数。
9.根据权利要求1所述的智能视频监控方法,其中在步骤f)中,建立新的高斯混合模 型的方法为: 首先对包括异常音频数据在内的全部训练音频数据建立一个高斯混合模型,其方法是 将具有Μ个混合分量的高斯混合模型用如下公式表示:
其中
代表每个预处理后及音频特征提取后的训练音频数据构成的矢 量,λ为高斯混合模型的分布参数,Μ为高斯混合模型的混合分量个数,
为 每个混合分量对应的权值且
代表xt对应的第m个高斯分量,其中
为第m个高斯分量的均值 矢量,
为第m个高斯分量的协方差矩阵,T代表转置,
为每个高斯分量加权 求和得到的预处理后及音频特征提取后的训练音频数据构成的矢量足的概率分布,参数
的值采用公知的期望最大化算法求得,参数的初始值为随机数; 随后将预处理后及音频特征提取后的全部训练音频数据中的异常音频数据作为特征 矢量,以上述参数
为初始值,用已有的参数以及新的训练样本来进行参数 更新,构建一个新的高斯混合模型,其方法为:具有Μ个混合分量的高斯混合模型可以用如 下公式表示:
其中的参数
的值采用学习方法求得:设该参数的初始值为上述参数
随后用如下迭代公式计算:
其中me [1,M],
代表每个预处理后及音频特征提取后的全部训练音 频数据中的异常音频数据构成的矢量,
是高斯混合模型的第m个混合分量的后 验概率且
将
作为初始值代入上述迭代公式循 环计算得到.,令
并代入似然函数
中,L的值呈现单调递增,不断
循环计算
并代入似然函数中,直到似然函数L出现最大值时停止,此时的参数即为新的 高斯混合模型中参数
的值。
10.根据权利要求1所述的智能视频监控方法,其中在步骤g)中,所述构建联合决策模 型是采用贝叶斯公式来进行的: 首先定义测试数据为Y= [AY1],其中Y°代表步骤d)中得到的预处理后的全部测试 图像数据,Y1代表步骤d)中得到的预处理后的包括异常音频数据在内的全部测试音频数 据; 接着由如下贝叶斯公式判断测试数据Y的类别: P (Modeli | Y) = P (Y | Model) P (Model) /P (Y) 其中i e {(^lhModeh表示非异常状态模型,Model表示异常状态模型,P (Model」Y) 为测试数据Υ属于Υ°和属于Υ1的概率,
,wm和λ m为步骤e) 中得到的参数,
和
为步骤f)中得到的参数,PWodeli) 为模型 Model 的先验概率,P (Model。)= 1-P (Model^,P(Y) = 1 ; 所述异常状态判别的方法为:当PWodel^YDPWodelilY)时判定Υ属于非异常状态, 反之则判定Υ属于异常状态。
【文档编号】G10L15/06GK104144328SQ201410372651
【公开日】2014年11月12日 申请日期:2014年7月31日 优先权日:2014年7月31日
【发明者】陈国顺, 杨毅, 夏明飞, 牛刚, 吕贵州, 张东, 韩宁, 牛满科 申请人:中国人民解放军63908部队
一种智能视频监控方法
相关推荐
专利名称:有机发光材料薄膜晶体管液晶显示器的结构及其制造方法技术领域:本发明涉及薄膜晶体管液晶显示器,特别是有关于一种有机发光材料薄膜晶体管液晶显示器的结构及其制造方法。随着发光材料的不断发展,利用发光材料来作为薄膜晶体管液晶显示器的发光源
专利名称:一种光电子琴的制作方法技术领域:本实用新型涉及一种光电子琴,属电子琴技术领域。背景技术:随着科技的发展,乐器制作这一古老的行业已经与电子领域相融合。由于电子产品生产周期短、生产成本低、质量优良等优势,电子与乐器制作实现了结合,使这
防爆手提灯的制作方法【专利摘要】一种防爆手提灯,包括:电池盒底壳,为塑料壳体结构,电池盒底壳设有一电池收容腔及与电池收容腔连通的第一开口,第一开口的外侧壁上开设有围绕第一开口一周的外密封槽,其中从第一开口的端面朝内延伸的尺寸为外密封槽的深度
专利名称:一种基于磁致伸缩的啁啾光栅调谐装置的制作方法技术领域:本发明涉及一种基于磁致伸縮的啁啾光栅调谐装置,属于光通信领域。 背景技术:近年来,随着光通信得发展,网络容量也在不断扩大。实用化光通信网络的单波传输速率已达到10Gbits量级
专利名称:金属线材树型装饰灯的树枝弹性结构的制作方法技术领域:本实用新型涉及一种金属线材树型装饰灯,尤指一种利于压缩包装后可自动恢复原状的树枝弹性结构。背景技术:金属线材树型装饰灯,因其制造简便、品种变化较多,已成为时下流行的节日装饰灯(参
专利名称:等距光栅式聚光器的制作方法技术领域:本实用新型涉及一种等距光栅式聚光器,具体地说是用于光学结构系统替代柱面透镜,属于光学部件。背景技术:本实用新型作出以前,在已有技术中,用于光学结构系统中的光栅式聚光器通常是采用柱面透镜,柱面透镜