您好,欢迎来到筏尚旅游网。
搜索
您的当前位置:首页技术交底书

技术交底书

来源:筏尚旅游网
技术交底书

一、发明名称

一种ptz监控视频实时融合系统及方法一种ptz监控视频的快速姿态估算方法一种ptz监控视频的快速标定方法二、发明人及所在单位

北京天睿空间科技有限公司三、本发明所属技术领域。

视频监控

四、本发明所属技术领域的现有技术和背景技术

PTZ摄像机在监控领域的广泛应用,对AVE监控系统带来了新的挑战。因为使用者可以任意的进行摄像机的PTZ和变焦操作,这就要求对处于任意姿态的摄像机进行快速标定。传统方法中需要一定的人工干预的交互操作以确定2D-3D间的对应关系,该方法在监控系统中难以满足实时响应的要求。

以下两种方法分别从不同的角度解决PTZ摄像机实时标定的问题:方法1:H. S. Sawhney, A. Arpa, R. Kumar等在《VideoFlashlights – Real Time Rendering of Multiple Videos forImmersive Model Visualization》中提出一种新的解决模式,系统首先用摄像机前一帧的姿态作为初始姿态,通过连续跟踪视频中的多边形平面特征实现摄像机的实时姿态估计,系统根据摄像机姿态估计结果,将模型中的多边形平面投影到视频帧中,形成局部边缘增强的图像,并计算图像的方向能量,通过迭代的方式选择方向能量最小的姿态参数作为摄像机的最佳姿态估计,最后将对应的内参数和外参数关联到模型中的虚拟摄像机上,从而实现固定摄像机的视频投影。

方法2:Lu Wang, Suya You, Ulrich Neumann等在《PTZ CAMERA

CALIBRATION FOR AUGMENTED VIRTUAL ENVIRONMENTS》提出用图像特征匹配的方法实现PTZ摄像机的实时姿态计算。首先为每个摄像机建立不同焦距和云台参数模式下的全景图,将全景图视为一张虚拟摄像机的拍摄画面,并计算出这些全景图的投影参数。对于任意姿态下的新图像,使用特征匹配的方法在数据库中查找最佳匹配的图像,计算两张图像之间的单应性,并通过单应关系,计算出新图像对应的摄像机内外参数。采用该方法计算摄像机实时姿态,处理延时在3秒左右。五、现有技术的缺点是什么

在实际使用中,以上提出的两种方法都存在一定的缺点:

方法1:采用投影方法,迭代寻优,该方法对图像的颜色特征依赖度低,并且在大角度改变摄像机PTZ参数时,仍能保证较好的准确率。但是也存在一些问题,即PTZ参数改变越大,需要迭代搜索的时间也会越长,从而影响算法的实时性。

方法2:采用在相邻PTZ空间内搜索多张图像,寻找最优匹配,即一次配准,多次匹配。相比较而言,该方法在匹配成功的情况下具有更高的配准精度,但是基于图像匹配技术普遍存在的问题,图像的特征稳定性对光照、角度等因素有很大依赖性,难以保证一次完成的配准参考图在不同环境条件下都能匹配成功,同时,提高匹配的效率也是一个有待优化的问题。

六、针对现有技术的缺点,说明本发明的目的和要解决的技术问题

本发明的目的是在综合分析当前经典方法的基础上,提出基于场景结构索引的全景图快速匹配方法(Matching on Scene StructureIndexing,MSSI),解决实时估算摄像机姿态的问题。

MSSI方法大大提高了摄像机姿态实时估算的效率。实验表明,MSSI方法的处理效率较方法1和方法2都有大幅度提升,平均处理速率可达15-20fps,且平均投影误差在可接受范围内。七、本发明技术方案的详细阐述

MSSI在图像特征计算上采用单张全景图作为视频配准的参考,使用上下文相关法和结构特征索引法实现实时视频的快速匹配,在确定单应矩阵后,新的投影矩阵直接使用单应矩阵与原投影矩阵相乘得到。1、场景结构索引

全景图中包含了大量的场景信息,并且对于每一个图像点,它在三维模型中的映射关系也是已知的,所以可以将全景图视为一张高分辨率的纹理图像,可以被精确的映射到三维模型中的对应位置。同理,若已知图像与全景图的单应关系,也就能将新的图像映射到三维模型的对应位置上去。可以看出,只要知道实时图像与参考图像的单应关系,就能计算出实时图像所对应摄像机的姿态参数。下面将详细介绍如何快速计算实时图像与参考图像的单应关系。

(1)场景结构全景图

场景结构全景图包含了较为完全的场景结构信息,由摄像机 PTZ操作下产生的多个不同 FOV 图像构成的全景图,能够唯一确定某个FOV 状态下摄像机的姿态参数。本方法采用预先建立场景结构全景索引图的方法实时估算可控摄像机的投影参数,实现监控视频与三维场景的实时融合。

图1 场景结构全景索引图创建流程

(2)场景结构索引

场景结构全景图记录了摄像机在几乎所有有效视域内的场景结构特征,为实时估算任意摄像机的姿态提供了详细的参考信息,但是它所带来的问题是庞大的时间复杂度,难以满足实时计算的要求。

针对这一问题本节提出场景结构特征索引方法,将所有显著特征放在一张结构特征索引表(Structure Indexing Table,SIT)中,实质上是一张有限分辨率的图像中,供算法实时查找。图2为场景结构索引图以及对应的存储结构示意图。

图2 场景结构索引图以及对应的存储结构

本文假设基于以下前提:场景中角点特征并不是绝对均匀分布的,场景中的固有对象,即建筑物、灯杆、路面、雕塑、花坛等在相当长时间内是不变的。这也符合绝大多数场景的实际情况,换句话说,在场景结构全景图中有相当大的区域是缺少有效角点的,本节的工作正是在场景结构全景图中提取显著而有效的特征区域,并将这些特征区域与全景图关联,建立全景图特征索引,在需要进行全景匹配时,采用特征索引替代全景图进行特征运算,从而减小特征运算区域。场景结构索引分为特征点聚类、子图关联两个步骤。

特征点聚类。设全景图中的特征点集为points,对points进行 K-means聚类分析,将聚类结果按照所包含的特征点数量从高到低的排序,找到排序前 K 个特征聚类,为每个聚类中心点Centerk建立一个m*n大小的矩形区域Rectk,对聚类中的所有特征点做矩形包围盒,将该矩形包围盒内的子图缩放到Rectk

规格,记矩形包围盒到Rectk的缩放因子分别为SBR_Wk和SBR_Hk。

子图关联。将每个Rectk区域内的图像单独提取出来,按8*8排列构成512*512 图像,并记录每个Rectk的聚类中心点坐标。

我们称这张512*512图像为“索引图”(Indexing Picture),它是一张真正意义上的索引图,包含了场景中绝大多数的重要特征区域。

2、MSSI姿态计算监控视频实时融合的关键部分是将多种视频实时精确的渲染到3D模型上,这里所说的多种视频是指不同类型、不同分辨率的摄像机获取的不同场景下的视频。视频和三维模型存在于两个不同的空间。虽然三维模型的纹理贴图是从多张静态图像获得的,但使用视频进行实时的三维模型纹理映射却与之有较大的区别,为了实现视频无缝渲染,系统需要通过特定的姿态跟踪技术自动求解摄像机的 3D姿态。本节针对这一问题,提出MSSI姿态跟踪算法。

(1) 特征搜索策略

基于单摄像机场景结构全景图以及场景结构索引,本节提出适用于可控摄像机实时投影姿态估计的结构特征搜索策略。摄像机姿态实时投影姿态估计的核心是识别摄像机 FOV 下的真实场景在三维场景模型中的对应位置,难点在于如何保证较高的正确识别率和实时性要求。

根据建立场景结构索引的假设(场景中角点特征并不是绝对均匀分布的,场景中的固有对象,即建筑物、灯杆、路面、雕塑、花坛等在相当长时间内是不变的。),当在结构全景图中的特征搜索区域足够大时,总能找到与当前FOV 对应的区域,而对于一张分辨率在 1080高清级别以上的全景图,其特征点检测效率很难控制在40ms以内,为了提高搜索的效率,必将缩小每帧视频的搜索范围。本节提出的结构特征实时搜索策略通过引入匹配上下文和结构索引图的概念,解决搜索范围和实时性之间的矛盾。

本节对结构特征实时搜索的前提做如下假定:

假定1:绝大部分情况下,摄像机PTZ及Zoom操作带来视频内容改变是连续的。

假定2:在所有情况下,前一帧视频所对应的摄像机姿态参数是已知的。

对于假定1,目前摄像机的硬件结构和控制方式决定了对摄像机的操作控制过程是一个渐变的过程,在网络及设备正常的情况下,云台及变焦运动不会出现画面跳跃现象。但是不排除因操作不当、网络及设备

异常造成的画面跳跃,出现前后两帧视频内容发生根本性改变。

对于假定2,可以通过在处理过程中实时记录摄像头的姿态参数来保证其始终成立。本文称这些已知的姿态信息为匹配上下文,实时搜索时,利用匹配上下文限定特征匹配算法在结构全景图中的搜索范围。

在本文中,匹配上下文包括视频投影区域(Video Rect)、搜索区域(Searching Rect)、水平偏移(Horizontal Moving)、垂直偏移(Vertical Moving)、缩放倍数(Scale)以及水平速度(Horizontal Speed)、垂直速度(Vertical Speed)、缩放速度(Zoom Speed)8 个参数。

视频投影区域(Video Rect):用于描述视频内容映射到结构全景图中的精确区域,记为vr (center,width,height) ;

搜索区域(Searching Rect):用于限定本次特征搜索范围的参数,记为

sr(center,width,height) ,sr= S*Rect(vr),其中S为比例因子,Rect()为取最小包围盒矩形操作;

水平偏移(Horizontal Moving):记录摄像机在水平方向的偏移量,记为hm,偏移参考点为结构全景图中心点,水平向右为正向,水平向左为负向;

垂直偏移(Vertical Moving):记录摄像机在垂直方向的偏移量,记为

vm,偏移参考点为结构全景图中心点,垂直向上为正向,垂直向下为负向;

缩放倍数(Scale): 用于描述视频中单位目标大小在结构全景图中的缩放比例,记为s,

公式1

其中,i,j为特征点编号,frame_point和pano_point分别代表视频帧中的特征点集和与之对应的结构全景图中的特征点集;

水平速度(Horizontal Speed): 用于描述摄像机在水平方向的运动方向和速率,记为hs,

公式2

其中,i为帧编号,Time为时间常数,代表前后两帧之间的时间间隔;

垂直速度(Vertical Speed):用于描述摄像机在垂直方向的运动方向和速率,记为vs,

公式3

缩放速度(Zoom Speed):用于描述摄像机镜头焦距的缩放方向和速率,记为zs,

公式4

对于搜索策略的具体执行过程,每一次视频帧的匹配结果存在三种可能情况:可能情况一,在匹配上下文约束下与结构全景图匹配成功,这是最理想的情况;可能情况二,上下文约束匹配失败,与索引图匹配成功,此时需根据索引图重新定位搜索区域,在此区域约束下再次进行结构全景图匹配;可能情况三,最糟糕的情况,此时结构全景图匹配失败,结构索引图匹配失败,出现这种情况最可能的原因就是当摄像机镜头焦距拉到最大时,整个画面的内容主要是人、车等运动目标,此时很难通过特征匹配的方法估算出摄像机参数。在这种情况下,本文提出的处理策略是根据hm,vm,s,hs,vs,zs等历史信息,直接推算视频的投影区域vr,相较前两种情况,本策略得到的参数结果精度最低。根据我们的测试结果,当摄像机镜头焦距拉回到合理范围时,匹配结果将向一、二两种情况倾斜。

与一般的上下文依赖的搜索策略不同,本节提出的搜索策略并不要求在首次执行时摄像机必须处于特定的姿态上,通过引入结构索引图,算法就能自动识别摄像机的初始姿态,这在工程实施和实际应用中非常

有用。

(2)实时姿态跟踪

基于 MSSI 的摄像机姿态实时跟踪方法,可以快速在全景结构图中找到视频 FOV 的对应区域,从而确定视频与结构全景图的单应关系H。本小节介绍在H已知的情况下,求取视频实时投影矩阵的方法。

1)实时投影矩阵

记输入图像为Is’,与之最佳匹配的全景图记为Ip,Is’与Ip的单应关系记为H。以全景图Ip为参考坐标系,图像上点的投影关系可表示为:x=KX。其中,x为 2D点坐标,X为x对应的3D点坐标,K为全景图Ip对应的摄像机内参数矩阵。则对于图像Is’中的点x’,有如下对应关系成立:

公式5其中,为图像Is’的内参矩阵,R为图像Is’相对于全景图Ip的旋转矩阵。通过上面两式,可以建立x与x’之间的关系:

公式6

即建立了x与x’之间的单应关系。在上一节中,我们使用图像匹配的方法,通过图像间的特征点对应关系,可以计算出单应矩阵。所以新图像的内参矩阵和旋转矩阵够成的参数方程可用矩阵的形式表示如下: 公式7

式中H、K为已知,为上三角矩阵。可以使用 QR分解分别计算出和R。记全景图b在三维模型中的旋转和平移矩阵分别为R0和T0,R0和T0在对全景图Ip进行标定的时候已经计算得到。那么新图像Is’在三维模型中的旋转分量R’和平移分量T’可由下式计算得到:

= 公式8

所以对 PTZ 摄像头在任意姿态下的新图像Is’,其在三维模型中的投影矩阵P'可用下式表示:

公式92)效率优化算法

MSSI摄像机姿态跟踪方法利用实时视频帧与结构全景图的单应关系实现摄像机姿态的实时更新,在执行效率上,MSSI需要在与之间进行特诊匹配,其中, S1为尺度因子。理论而言,S越大,区域内特征点数量越多,匹配成功的概率越大,同时计算量也越大,当S=1时,近似于前一帧图像,在特征数量上,考虑到进行结构全景图拼接时的质量损失,较与有更高的相似度,因此本节讨论使用替代进行特征匹配的效率优化算法。

在中,图像坐标与三维坐标存在关系式,

公式10与之间的单应矩阵用 系:

H表示,在中的图像点与中的图像点存在如下关

公式11

将公式10带入公式11中,有

公式12

即的投影矩阵。

八、本发明技术方案的相关附图附图1:

图1 场景结构全景索引图创建流程

附图2:

图2 场景结构索引图以及对应的存储结构

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务