您好,欢迎来到飒榕旅游知识分享网。
搜索
您的当前位置:首页基于深度学习的行人和骑行者目标检测及跟踪算法研究

基于深度学习的行人和骑行者目标检测及跟踪算法研究

来源:飒榕旅游知识分享网
汽车技术·AutomobileTechnology

基于深度学习的行人和骑行者目标检测

及跟踪算法研究*

胡超超

刘军

张凯

高雪婷

(江苏大学,镇江212013)

【摘要】以YOLOv2网络作为目标检测的基础模型,为提高模型检测群簇小目标的准确率,在YOLOv2中加入残差网络,

构成YOLO-R网络,通过构建行人和骑行者样本库,以及修改anchorboxes尺寸等网络参数,训练出更适合检测行人和骑行者目标的网络模型,并通过匹配算法完成行人、骑行者分类,进一步运用Kalman滤波实现多目标跟踪。试验结果表明:在训练样本、网络参数相同的情况下,YOLO-R比YOLOv2网络的平均精度均值(mAP)提高了3.4%,在满足速度要求的前提下,YOLO-R网络检测效果更优。

主题词:YOLO-R网络中图分类号:U461.91

卡尔曼滤波目标检测深度学习

DOI:10.19620/j.cnki.1000-3703.20180628

文献标识码:A

ResearchonTargetDetectionandTrackingofPedestrianandCyclistBasedonDeepLearning

HuChaochao,LiuJun,ZhangKai,GaoXueting(JiangsuUniversity,Zhenjiang212013)

【Abstract】Inthisresearch,YOLOv2networkisusedasthebasicmodeloftargetdetection.Inordertoimprovethedetectionaccuracyofclustersmalltargets,residualnetworkisaddedtoYOLOv2toformanewmodelcalledYOLO-R.Thenthesampledatabaseofpedestrianandcyclistisconstructed.Thesizeofanchorboxesandothernetworkparametersaremodified.Afterthis,thenetworkmodelwhichismoresuitableforpedestrianandcyclistdetectionistrained.Thematchingalgorithmisusedtoclassifypedestrianandcyclist,andKalmanfilterisutilizedtoachievemulti-targettracking.

Theexperimentshowsthat,whenthetrainingsamplesandnetworkparametersarethesame,YOLO-Ris3.4%higherthanthemeanofaverageprecision(mAP)oftheYOLOv2network,onthepremiseofmeetingthespeedrequirement,thedetectionresultofYOLO-Risbetter.

Keywords:YOLO-Rnetwork,Kalmanfilter,Targetdetection,Deeplearning

网络,在检测率和检测速度上均有大幅提高,为使网络模型更适合检测行人和骑行者目标,本文进一步优化了YOLOv2网络:

a.

使用K-means聚类的方法对样本集中标注的

1前言

行人、骑行者作为道路交通环境中的弱势群体,其安全问题不容小觑,建立完善的行人和骑行者检测系统已成为研究热点。另外,深度神经网络在机器视觉领域表现出优异的性能,已获得学者们广泛的关注,将深度学习用于驾驶辅助系统正成为发展趋势。本文以车辆前方行人、自行车作为研究对象,开展了基于深度学习的目标检测及跟踪算法的研究。

目标矩形框进行维度聚类,确定anchorboxes的初始规格和数量。YOLOv2中anchor参数是通过在PascalVOC数据集中聚类得到的,涉及种类众多,不适合用于训练检测行人和骑行者的模型,因此本文在自制的行人和骑行者样本库中重新聚类,获得anchor参数。

不同通道数进行重组,再与深层特征结合,得到细粒度

b.

YOLOv2网络通过Passthrough层将浅层特征按

2YOLOv2网络改进

YOLO(YouOnlyLookOnce)v2网络相比于YOLO2019年

*基金项目:国家自然科学基金项目(51275212)。

第7期

-19-

胡超超,等:基于深度学习的行人和骑行者目标检测及跟踪算法研究

特征。但当小目标成群出现时,即使使用了细粒度特征,检测效果仍然不佳[1]。为了解决该问题,在原有YOLOv2残差网络网络结构的基础上,(ResidualNetwork,ResNet去掉Passthrough),构成YOLO-R层,增加网

络。修改后的网络结构不仅实现了浅层外观信息与深层语义信息的进一步融合,提高了网络对群簇小目标的检测性能,而且降低了网络的训练难度,防止出现梯度消失现象。2.1

聚类选取anchorboxes

为了加快收敛速度,提高目标检测的位置精度,YOLOv2框进行聚类分析,中使用K-means得到适合样本集的最优方法对样本集中的目标真实anchor的尺寸

和个数。

准则函数,K-means但本文需对候选框的尺寸进行聚类,聚类通常将欧式距离作为评价相似性的

如果采用距离评价指标,大框会比小框产生更大的误差,因此改用预测框与真实框的交并比(IntersectionOverUnion,IOU高。聚类的准则函数为:

)来反映两者的差异,IOU越大,两者的相似度越k

ni

d=∑centroidi))(1)

i=1∑(1-IOU(box,j=1

式中,k、ni分别为聚类数和第i个聚类中心的样本集数;box、centroidi分别为真实框和聚类得到的矩形框;IOU(box,centroidi)为box、centroidi面积的交并比。

聚类数k对聚类效果影响较大,不合理的k值会导致K-means解决该问题,算法最终输出局部最优而非全局最优解。为了本文根据聚类算法中类内相似度最大差异度最小和类间差异度最大相似度最小的基本原则[2],提出了基于IOU的评价函数F。F越小,说明聚类效果越好,其定义为:

F=

∑k

ni

box,centroidi

))i=1j=1

k

∑(1-IOU((2)

i

i

i=1

,abox))∑∑n∑n(1-IOU(centroidki

式中,(1-IOU(box,centroidi))表示类内方差;

i=1j=1

kni(1-IOU(centroidii=1

,abox))表示类间方差;

矩形框abox的长、宽分别为所有真实框长、宽的均值。

同时,k值也影响模型复杂度,其值越大,模型越复杂。因此,k值的选择必须综合考虑模型复杂度S和评价函数F。本文用416像素×416像素的图片需要预测的候选框数目表示模型复杂度S,S=13×13×k。由于这两个评价指标具有不同的量纲,因此先使用min-

-20-

max标准化方法归一化数据,再作出S、F与k的关系图,结果如图1所示,在平衡了模型复杂度和聚类效果后,本文将k=5的聚类结果作为最终选取的anchorboxes的尺寸。

1.00.81.0模型复杂度S

0.8F0.60.4评价函数F

0.6

S0.20.400.22

3

4

聚类数56k/7个

8

910

0

图1评价函数及模型复杂度变化曲线

2.2

结合残差网络搭建YOLO-R网络

残差网络可在网络层数较多时防止梯度消失,减

轻深层网络训练的负担,其基本模块如图2所示。假设网络的输入为x,要学习的函数映射为H(x),定义残差映射F(x)为H(x)~x,则原始的函数映射H(x)变为F(x)+x,即H(x)由线性映射x→x和非线性映射F(x)组成。试验证明,学习残差映射F(x)较学习原始映射H(x)容易得多[3]。

x卷积层F(x)

激活函数

x

卷积层

捷径

H(x)=F(x)+x

激活函数

图2

残差网络基本模块

本文在YOLOv2网络结构的基础上,利用残差学习思想,引入跨层捷径,构成了如图3所示的YOLO-R网络结构,其中C层表示卷积层,步长为1,S层表示池化

层,方式为最大池化,步长为2。去除YOLOv2网络原有的Passthrough层后,增加了4条捷径。为减少训练过程中的资源空间和计算量,所有捷径的输入都选择原网络中池化操作后的特征图。第1条捷径连接第2个池化层与第5个卷积层后的特征图,第2条连接第3个池化层与第8个卷积层后的特征图,第3条连接第4个池化层与第13个卷积层后的特征图,最后一条连接第5上增加一个个池化层与第1×120的卷积层,个卷积层后的特征图。在所有捷径使捷径与主径保持相同的维度。捷径与主径汇合使浅层特征与深层特征深入融合,更加充分地利用浅层特征,提高了群簇小目标的检测性能。

∑胡超超,等:基于深度学习的行人和骑行者目标检测及跟踪算法研究

C层:1×1×128

C层:1×1×256

CS层:层:3×3×32

2×2CS层:层:3×3×

2×2

C层:3×3×128

1×1×3×3×128

S层:2×2

C层:3×3×256

1×1×1283×3×256

C层:1×1×512C层:1×1×1024C层:3×3×512

C层:3×3×1S层:2×21×1×2561×1×512024

3×3×512S层:2×2

3×3×11×1×2561×1×512024C3×3×512

3×3×1C层:层:3×3×11×1×35

024

3×3×10243×3×1024024

图3YOLO-R网络结构

3目标检测

3.1

目标检测过程

YOLO中,图像被划分为a.

将图像及标签信息输入到训练好的网络模型

网络检测过程如下:13×13个单元格,每个单元格预测5个候选框,共预测13×13×5=845个候选框,然后利用网络前向算法预测每个候选框的相对位置、置信度以及所属类别的后验概率P。

得到与b.anchor对预测的相对位置以及置信度进行映射变换,

box更接近的窗口作为检测框。检测框位置预测如图4所示。

cx

cpwy

bw

ph

bσ(ty)bx=σ(tx)+cx

h

by=σ(ty)+cy

σ(tx)

bt

wb=pwe

w

h=phe

th

图4检测框位置预测

较小的检测框。具体做法是:c.通过设定阈值T(本文取将σ(tT=0.25),去除可能性

0检测框属于某类别的置信度。如果结果大于阈值)与max(p)相乘,T得到,保留该检测框,否则去除。

除冗余窗口,d.对每个类别分别进行非极大值抑制[4]处理,去

具体步骤为:对每个类别的检测框按置信度[5]大小排列;找出置信度最高的检测框,依次与其他框计算IOU,当IOU大于阀值0.4时删除此框,否则保留此框;从未处理的检测框中选出置信度最高的,重复上述步骤,直到所有窗口处理完毕;输出留下的检测框的位置、类别和置信度。3.2

行人和骑行者分类

图像中的骑行者经过网络模型检测后,会输出行人

2019年

第7期

和自行车2个矩形框。因此本文利用匹配算法对检测算法输出结果进一步融合,完成行人、骑行者分类。

匹配算法的过程如图5所示,其中vector容器中包含检测框的左上角点坐标(x,y)和宽、高(w,h),检测出的目标类别obj_id=0表示自行车,obj_id=1表示行人,匹配计算的具体过程为:计算rect_c和rect_p容器中所有目标的中心坐标,设自行车、行人检测框的位置坐标分别为(x1别为,(y1x,w1,h1)、(x2,y2,w2,h2),则自行车、h行人的中心坐标分1+w1/2,y1+h1/2)、(x2+w2/2,y2+2/2)。比较自行车与行

人的中心坐标,当x1-x2+

w1-2w2|

||≤ε且y1-y2+

h1-车与行人矩形框的并集,2h2≤h22时,自行车与行人匹配成功,取自行更新自行车矩形框,并删除rect_p述过程,容器中与自行车配对的行人矩形框信息,直到所有自行车匹配成功。

循环上YOLO-Robj_id=0?

N

信号保存至rect_p

检测一帧图像模型

Y

结果保存至result_vec信号保存至rect_c

Y

result_vec为空?

Nrect_c为空?

Y

遍历result_vec

匹配计算

N跟踪算法

图5匹配算法

4基于Kalman滤波的多目标跟踪

本文基于Kalman滤波设计了多目标跟踪算法,流程如图6所示,该算法包含预测、匹配和更新过程,具体步骤如下:

器预测目标在当前帧的位置,a.

根据前一帧的目标跟踪结果,获得目标的预测结果利用Kalman滤波Kt。

配情况。通常将欧氏距离作为损失函数b.

在当前帧中,根据检测结果和预测结果判断匹

[6],但其无法很好地表达两个矩形框之间的匹配程度,因此本文使用预测框和检测框的IOU来衡量匹配度,定义损失函数为:

d=1-IOU(pred,det)(3)

利用匈牙利匹配算法[7]将检测结果与预测结果进行最优相似度匹配,匹配过程通过最小化损失函数之和实现。

当前帧的预测及检测结果得到目标位置的最优估计值。

c.

处理匹配结果。对于匹配成功的检测目标,用5试验验证

d.

显示跟踪结果并进行下一帧的预测。

5.1

试验平台搭建

系统所用的硬件包括1个前视摄像头、1个视频采

-21-

胡超超,等:基于深度学习的行人和骑行者目标检测及跟踪算法研究

集卡、1个GPS模块和1台计算机(英特尔酷睿i7-7700K@3.0GHz,NVIDIAGTX1060)如图7所示。

预测结果K检测结果A匹配

计算损失函数

匈牙利匹配算法

预测

更新

Kalman滤波器动态

预测

未匹配的预测

未匹配的检测

匹配

最优估计值

目标遮挡目标消失创建新的跟踪

R=K停止跟踪

结果显示

图6基于Kalman滤波的多目标跟踪流程

图7硬件安装

在VisualStudio2015的编程环境下,采用GPU并行计算架构CUDA8.0、深度学习加速库cuDNN以及OpenCV过微软基础类2.4.10(计算机视觉库实现系统软件编写。并通MicrosoftFoundationClasses,MFC)应用程序进行图形用户界面设计。5.2

试验结果分析

为了评估本文开发的前方行人和骑行者检测算法的检测性能,在不同背景环境下进行行人和骑行者检测测试,结果如图8所示。从图8可以看出,本文开发的检测算法对不同背景下的目标检测效果良好,并且算法的鲁棒性较好,对于不同姿态以及群簇目标的检测情况,效果也较理想。但当目标与背景颜色过于相近或目标被遮挡严重时,也会出现一些漏检。

(a)光线充足、背景相对单一环境

(b)光线灰暗或含复杂背景环境

(c)多种姿态检测

-22-

(d)多目标群簇检测

图8前方行人和骑行者检测试验结果

对本文检测算法的检测性能进行定量分析,一般用精度(Precision)和召回率(Recall)评价分类器的性能。精度是指检测结果中正例的数量与检测结果总数的比值,召回率是指检测结果中正例的数量与样本集中标注的目标总数的比值。以精度为纵坐标,以召回率为横坐标,绘制PR曲线后,曲线下的面积即为平均正确率AveragePrecision,AP),所有类别AP的均值为(meanAveragePrecision,mAP):

AP=∫01p(r)dr

(4)CmAP=

∑AP(c)c=1

(5)

C式中,C为类别数;p为精度;r为召回率。

图9、图10所示为在测试集上分别利用YOLOv2和YOLO-R模型获得的行人和自行车的PR曲线。使用的YOLOv2和YOLO-R网络,除结构及anchorboxes参数相同。

尺寸不同外,训练样本、迭代次数及其他网络1.0

0.9优化初始

0.8度0.7精0.60.50.40.30.20

0.2

0.4召回率

0.60.81.0

图9行人的PR曲线对比

1.000.95优化初始

度0.90精0.850.800.750.70

0

0.2

0.4召回率

0.6

0.8

1.0

图10

自行车的PR曲线对比

从图9、图10中可以看出,优化后的网络在对行人、自行车的检测上,明显优于原YOLOv2网络。对比原YOLOv2结果如表网络和1所示,YOLO-R其中平均检测时间是指网络模型检测

网络的mAP和平均检测时间,测试集中4500张图片所用时间的平均值。

(胡超超,等:基于深度学习的行人和骑行者目标检测及跟踪算法研究

表1

网络模型YOLO-RYOLOv2mAP和平均检测时间的比较结果

mAP/%76.980.3平均检测时间/ms

22.225.0[C]//

MechatronicsEngineeringConference(ITOEC).IEEE,2017:1216-1220.

2017IEEE3rdInformationTechnologyand

[2]韩凌波.一种新的K-means最佳聚类数确定方法[J].现代计算机,2013(20):12-15.

[3]HeK,ZhangX,RenS,etal.DeepResidualLear-NingforImageRecognition[C]//ComputerVisionandPatternRecognition.IEEE,2016:770-778.

从表1可以看出:在训练样本、网络参数都相同的情况下,YOLO-R网络的mAP提高了3.4%,这表明YOLO-R网络不仅保留了原YOLOv2网络的优势,其增加的残差网络结构还提升了行人、自行车群簇出现时的目标检测性能;同时,YOLO-R的平均检测时间略高于YOLOv2,主要原因是YOLO-R在结构上比YOLOv2多了4个卷积层,但YOLO-R网络完全可以满足实时性的要求。

[4]GlorotX,BordesA,BengioY,etal.DeepSparseRectifierNeuralNetworks[C]//InternationalConferenceonArtificialIntelligenceandStatistics,2012:315-323.

[5]MaasAL,HannunAY,NgAY.RectifierNonlinearities

ImproveNeuralNetworkAcousticModels[C]//ICMLLanguageProcessing,2013.

6结束语

本文对YOLOv2结构进行改进,构建了YOLO-R网络,通过训练模型进行目标检测。为了进一步区分行人和骑行者,在目标检测中添加了匹配算法,并利用Kalman滤波完成了对多个目标的跟踪。试验结果表建的YOLO-R网络检测效果更优,YOLO-R网络的mAP提高了3.4%。

文献

[1]WangL,LiW,ZhangY,etal.PedestrianDetectionBased

WorkshoponDeepLearningforAudio,Speech,and[6]IoffeS,SzegedyC.BatchNormalization:AcceleratingDeep

NetworkTrainingbyRedu-cingInternalCovariateShiftLearning,Lille,France,2015.2015:448-456.

[C]//.the32ndInternationalConferenceonMachine[7]NeubeckA,GoolLV.EfficientNon-MaximumSuppression[C]//InternationalConferenceonPatternRecognition.IEEE,2006:850-855.

(责任编辑

修改稿收到日期为2018年6月10日。

畔)

明,与YOLOv2相比,在满足速度要求的前提下,本文构

onYOLOv2withSkipStructureinUndergroundCoalMine

《汽车技术》杂志征稿启事

《汽车技术》杂志是长春汽车研究所主办的国内外公开发行的汽车前瞻与应用技术类月刊,为中国科学引文数

据库(CSCD)来源期刊、中文核心期刊、中国科技核心期刊、RCCSE中国核心学术期刊(A)、俄罗斯《文摘杂志》(AJ)收录期刊。

《汽车技术》杂志以报道汽车整车及其零部件设计、研究、试验等方面的前瞻与应用技术为主,并兼有理论研究内容,是中国汽车行业核心学术和知识传播与共享的平台。

2018年,《汽车技术》将在国家“十三五”规划“创新、协调、绿色、开放、共享”发展理念的指引下,把握《节能与新能源汽车技术路线图》和“低碳化、信息化、智能化”的汽车技术主流发展趋势,努力在传统内燃机汽车高效动力系统、轻量化、低阻力领域,新能源汽车和互联智能汽车技术领域,大力吸收优质稿源,为广大科研和工程技术人员服务,为我国汽车工程技术创新能力提升贡献力量。

2018年,《汽车技术》继续欢迎高等院校师生、研发工程技术人员、技术管理人员及相关人员不吝赐稿,反映国家重点扶持项目、自然科学基金项目和其他重点项目等研究成果的稿件将被优先选择刊登。

投稿要求:

1.文章字数最好控制在6000~8000字范围之内;2.请按科技论文要求撰写文章摘要,摘要中文字数控制在180字左右;3.文章必须附有公开发表的、体现本领域最新研究成果的参考文献,且在文中应标注文献引用处;4.文章主要作者应提供其简介,包括出生年、性别、职称、学历、研究方向及技术成果等;5.来稿的保密审查工作由作者单位负责,确保署名无争议,文责自负;6.请勿一稿多投;

7.本刊使用网站投稿,请先登陆网站注册成功后投稿,详细投稿要求见本刊网站中“下载中心”栏的“作者指南”,网址:http://qcjs.cbpt.cnki.net。

《汽车技术》杂志编辑部

2019年

第7期

-23-

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- sarr.cn 版权所有 赣ICP备2024042794号-1

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务