•
YOLO算法在目标姿态检测中的应用
本文提出了一种在较少规模摘 数据集的情况下对目标的位置和 要姿态进行判断的方法。在训练之前对数据集增添随机的扰动因子来增加数据集的鲁棒性,从而降低过拟合的风险。在训练的过程中,通过对损失函数进行设置,使得模型具有判断物体方向的功能。实验结果表明,改造过后的YOLO算法对物体的姿态具有较好的识别能力。 【关键词】深度学习 目标检测 机器学习 YOLO
目标检测的目的是从不同复杂程度的背景中辨识出运动目标, 并分离背景, 从而完成跟踪、识别等后续任务。
20 世纪 80 年代, Rumelhart、Hinton 和Williams 三位科学家完整而系统地提出了基于反向传播算法 (Back propagation, BP) 的神经网络,开启了深度学习在学术界和工业界的浪潮。深度学习自从其诞生之初,便一次又一次地在它所涉及的领域取得巨大的成功,其核心原因在于它具有强大的特征表示和学习能力。一个强有力的特征表达, 对于多媒体内容识别和分析的效果是事半功倍的。
通常而言,目标检测是针对多目标进行的,而我们要做的是对同一目标的不同姿态进行识别。相对而言,对同一物体的姿态进行分类会有几个突出的技术难点:
(1)由于是对同一物体进行特征提取,因此解决过拟合问题比较困难;
(2)由于同一物体不同姿态的差别往往很细微,因此要求我们的分类器需要有更高的灵敏度。本文充分利用了YOLO算法实时检测,一次读取的特点,设计了一种可以识别特定场景下目标方向的方法。
1 方法提出
1.1 目标检测的研究现状
文/徐昆 朱国华 刘文凤 范超
图1:YOLO中的检测原理
图2:数据集示例
图3:图2增加随机扰动因子后的效果
2015年,Redmon J提出了YOLO检测算10种,假定每张图片中只有一个需要识别的法。YOLO属于CNN,由卷积层,池化层和目标,每个目标只有简单的4个姿态(上下左全连接层组成。与CNN不同的是,YOLO的右),那么使用传统的one-hot编码方式,最输出层不再是Softmax函数,而是张量。目前后网络的输出向量的维度应该为10+4+4。
基于深度学习应用比较广泛的目标检测算法可以看到,即便是一个功能如此简单的可以分为两类:第一类是双步 (two stage)目标模型,它最后的输出维度也到达了18*1,如检测算法,如 Fast R-CNN,Faster R-CNN,果在此之前对图像进行7*7的区域划分,则模Mask R-CNN等,这些算法都是将目标检测分型最后的输出维度至少应有7*7*18。但是在为两个阶段,首先使用区域候选网络(RPN)来某些特定的场景下,相应的损失函数可以写为提取候选目标信息,然后再经过检测网络完成如下公式:
对候选目标的位置和类别的预测和识别;第二类是单步(one stage)目标检测算法,如 SSD,YOLO,如图1所示。 1.2 损失函数设置
(1)
对目标的姿态进行识别是计算机视觉领
域的一个难点,如果要识别的目标的种类有
2 数据集及数据处理
Electronic Technology & Software Engineering 电子技术与软件工程• 181
数据库技术
• Data Base Technique
图4:测试样例
2.1 数据集制作与处理
位置可以用一个三元组(cx,cy,RelativeW,和单纯的目标检测相比,如果想要使得RelativeH),分别表示相对水平位置,相对竖直位置,相对宽度,相对高度,计算方式为:
模型具有识别目标姿态(上下左右)的功能,那么我们使用的数据集至少是原始数据集的4 倍。在实际的操作中,我们制作了一个简单的
只有300多张图片的数据集。每张图片对应的标签有5个维度,(cx,cy,width,height,classification),分别表示目标中心点坐标(cx,3.2 实验结果及分析
cy),宽度,长度(width,height),和类别在训练过程中,我们最终定下了一个10(classification),如图2所示。
层的卷积神经网络,它在规模相对较小的条件为防止网络过拟合,通常而言我们需要尽下能够得到较高的精确度。在训练1000次之可能多的训练数据,然而,通过人工进行图像后,我们的模型的均方误差已经降到了0.004,采集的方式获取数据的效率很低,想获得足够如图4所示。
多的数据需要很长时间。对于图像识别问题来说,使用数据增强来扩大数据量是一 种效率4 结束语
很高且行之有效的办法。图像识别问题中常用 本文根据YOLO算法,提出了一种改进的数据增强方法有:平移、旋转、翻转、缩放、算法,通过对损失函数进行设置使得模型具有色彩 偏移等。
判别目标方向的功能。在实验的过程中,为了从图3我们可以看到,对图片增加均值0,提高模型的泛化能力,我们使用了不同方法对方差40的随机扰动之后,可以有效的屏蔽光数据集进行增强,使得模型在较少数据集的情线,明暗等局部无关特征。由于我们要做的是况下,完成了在特定场景下对特定目标进行定对目标的角度进行识别,因此我们可以对图像位和姿态检测的功能。
进行180°的翻转操作,这样可以有效屏蔽由于角度差异而带来的误差。
参考文献
3 检测方法
[1]尹宏鹏,陈波,柴毅,刘兆栋.基于视
觉的目标检测与跟踪综述[J].自动化学
3.1 设置相对坐标
报,2016,42(10):1466-14.
[2]Rumelhart D E, Hinton G E, Williams R
为了能够在不同尺度的照片上进行检J. Learning representations by back-测,我们用相对坐标来标识物品。如下图所propagating errors[J]. Nature, 1986, 示,设图像的水平长度为width,竖直长度为height,以图像的左上角为原点,向下,向右323(6088): 533-536.
[3]尹宏鹏,陈波,柴毅,刘兆栋.基于视
为正方向。如果预测框的左上角坐标为(x1, y觉的目标检测与跟踪综述[J].自动化学
1),右下角坐标为(x2,y2),那么预测框的
182 •电子技术与软件工程 Electronic Technology & Software Engineering
报,2016,42(10):1466-14.
[4]王宇宁,庞智恒,袁德明.基于YOLO算
法的车辆实时检测[J].武汉理工大学学报,2016,38(10):41-46.
[5]Girshick R. Fast R-CNN[C]//IEEE
International Conference on Computer Vision and Pattern Recognition, 2015: 1440-1448.
[6]Ren S, He K, Girshick R B, et al.
Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.
[7]Kaiming He, Georgia Gkioxari, Piotr
Dollár, et al. Mask R-CNN[C]//IEEE Conference on Computer Vision and
Pattern Recognition, 2018, PP(99):1-1.
[8]Liu W, Anguelov D, Erhan D, et
al. SSD: single shot multibox detector[C]//European Conference on Computer Vision, 2016: 21-37.
[9]Redmon J, Divvala S, Girshick R, et
al. You only look once: unified, real-time object detection[C]//IEEE Conference on Computer Vision and Pattern Recognition, 2016: 779-788.[10]董秋成,吴爱国,董娜,冯伟.用于
卷积神经网络图像预处理的目标中心化算法[J].中南大学学报(自然科学版),2019(03):579-586.
作者简介
徐昆(1997-),男,湖北省黄冈市人。本科生。主要研究领域为机器学习,数据挖掘与计算机视觉。
朱国华(1969-),男,山东省胶州市人。博士学历,副教授。主要研究领域为分布式仿真与软件工程。
作者单位
江汉大学数学与计算机科学学院 湖北省武汉市 430056
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- efsc.cn 版权所有 赣ICP备2024042792号-1
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务