您的当前位置：首页基于改进YOLOv3的快速车辆检测方法

基于改进YOLOv3的快速车辆检测方法

来源：飒榕旅游知识分享网

122019，55（2）ComputerEngineeringandApplications计算机工程与应用

基于改进YOLOv3的快速车辆检测方法

张富凯，杨

峰，李

策

中国矿业大学（北京）机电与信息工程学院，北京100083

摘

要：对图像或视频数据中的车辆进行检测是城市交通监控中非常重要并且具有挑战性的任务。该任务的难度

在于对复杂场景中相对较小的车辆进行精准地定位和分类。针对这些问题，提出了一个单阶段的深度神经网络（DF-YOLOv3），实现城市交通监控中不同类型车辆的实时检测。DF-YOLOv3对传统的YOLOv3算法进行改进，首先增强深度残差网络提取车辆特征，然后设计6个不同尺度的卷积特征图，并与残差网络中相应尺度的特征图进行融合，形成最终的特征金字塔执行车辆预测任务。在KITTI数据集上的实验表明，提出的DF-YOLOv3方法在精度和速度上均能获得较高的检测性能。具体地，对于512×512分辨率的输入模型，基于英伟达1080TiGPU，DF-YOLOv3获得93.61%的mAP（均值平均精度），速度达到45.48f/s（每秒传输帧数）。特别地，对于精度，DF-YOLOv3比FastR-CNN、FasterR-CNN、DAVE、YOLO、SSD、YOLOv2、YOLOv3与SINet表现更好。关键词：车辆检测；特征融合；卷积神经网络；实时检测；YOLOv3文献标志码：A

中图分类号：TP391.4

doi：10.3778/j.issn.1002-8331.1810-0333

张富凯，杨峰，李策.基于改进YOLOv3的快速车辆检测方法.计算机工程与应用，2019，55（2）：12-20.

ZHANGFukai,YANGFeng,LICe.FastvehicledetectionmethodbasedonimprovedYOLOv3.ComputerEngineeringandApplications,2019,55（2）：12-20.

FastVehicleDetectionMethodBasedonImprovedYOLOv3

ZHANGFukai,YANGFeng,LICe

SchoolofMechanicalElectronicandInformationEngineering,ChinaUniversityofMiningandTechnology（Beijing）,Beijing100083,China

Abstract：Vehicledetectiononimageorvideodataisanimportantbutchallengingtaskforurbantrafficsurveillance.Thedifficultyofthistaskistoaccuratelylocateandclassifyrelativelysmallvehiclesincomplexscenes.Inresponsetotheseproblems,thispaperpresentsasingledeepneuralnetwork（DF-YOLOv3）forfastdetectingvehicleswithdifferenttypesinurbantrafficsurveillance.DF-YOLOv3improvestheconventionalYOLOv3byfirstenhancingtheresidualnetworktoextractvehiclefeatures,thendesigning6differentscaleconvolutionfeaturemapsandmergingwiththecorrespondingfea-turemapsinthepreviousresidualnetwork,toformthefinalfeaturepyramidforperformingvehicleprediction.Experi-mentalresultsontheKITTIdatasetdemonstratethattheproposedDF-YOLOv3canachieveefficientdetectionperfor-manceintermsofaccuracyandspeed.Specifically,forthe512×512inputmodel,usingNVIDIAGTX1080TiGPU,DF-YOLOv3achieves93.61%mAP（meanaverageprecision）atthespeedof45.48f/s（framespersecond）.Especially,asforaccuracy,DF-YOLOv3performancesbetterthanthoseofFastR-CNN,FasterR-CNN,DAVE,YOLO,SSD,YOLOv2,YOLOv3andSINet.

Keywords：vehicledetection;featurefusion;convolutionalneuralnetwork;real-timedetection;YOLOv3

基金项目：国家自然科学基金（No.61601466）；煤炭资源与安全开采国家重点实验室项目（No.SKLCRSM16KFD04）；中央大学基

础研究基金（No.2016QJ04）。

作者简介：张富凯（1986—），男，博士研究生，研究领域为深度学习，E-mail：zhangfukaidream@163.com；杨峰（1968—），男，博士，

教授，研究领域为信息采集、计算机图形图像、并行计算；李策（1988—），女，博士，副教授，研究领域为计算机视觉、机器学习。

收稿日期：2018-10-25

修回日期：2018-12-10

文章编号：1002-8331（2019）02-0012-09

张富凯，等：基于改进YOLOv3的快速车辆检测方法2019，55（2）13

1引言

检测方法被提出。这类方法可以直接回归得到检测物随着车辆违规行为的不断增加，对交通图像或视频

体的坐标位置和分类得分，主要包括YOLO[17]、SSD[18]、中的车辆进行快速检测成为城市交通管理的一项重要YOLOv2[19]与YOLOv3[20]。其中，YOLO最先使用回归工作。在大量的车辆检测算法中，基于深度学习的方法的方法直接从一张图像中预测物体的边界框坐标与分引起了学者极大的关注并被广泛使用，特别是对于复杂类，检测速度达到45f/s，但是YOLO存在严重的定位错场景中不同尺度和类型的车辆，进行准确并实时的检测误问题，从而检测精度并不高。SSD基于VGG网络[7]融是最具挑战性的任务[1-2]。

合不同卷积层的特征图来增强系统的特征表征能力，在在过去几年中，一些具有挑战性的车辆数据集基准保证实时的同时，大幅度提升检测精度，但是SSD融合被提出，如KITTI数据集[3]、UA-DETRAC数据集[4-5]等，多个卷积特征时没有考虑卷积层之间的相互关系。用于评价各种检测算法的性能。特别是深度学习在图YOLOv2采用一系列方法优化YOLO的模型结构，显著像分类任务[6-8]中取得广泛成功后，大量基于卷积神经网地提升了检测速度，同时检测精度与SSD持平，但是络的方法

[9-10]

被用于检测任务，并且这些方法可以分成

YOLOv2的基础网络比较简单，并没有提升检测精度。基于区域的方法和基于回归的方法两大类。基于区域YOLOv3利用深度残差网络提取图像特征，并实现多尺的方法主要有R-CNN[11]、SPP-Net[12]、FastR-CNN[13]、度预测，获得了目前最好的检测精度与速度的平衡，但FasterR-CNN[14]和R-FCN[15]。详细地，R-CNN采用卷积是YOLOv3用于提取特征的最小特征图尺寸为13×13，神经网络提取图像特征，使用选择性搜索方法[16]

提取建相对于SSD中的1×1仍然偏大，造成YOLOv3对于一些议框，相对传统的机器学习方法有了大幅提升，但是R-中等或较大尺寸的物体检测效果不好，会产生误检、漏CNN输入图像尺寸固定、训练步骤繁琐、测试速度较检或重复检测的问题，如图1所示。

慢。SPP-Net提出金字塔池化层，解决深度网络固定输入层尺寸的问题，但在微调阶段SPP-Net只更新金字塔池化层后面的全连接层，无法反向传播误差，且训练的特征需要存储在磁盘中，限制了检测精度与速度的提升。FastR-CNN在集成R-CNN的同时，吸取了SPP-Net的特点，解决了训练与测试速度慢、训练空间大等问（a）误检

题，但FastR-CNN仍然采用选择性搜索方法提取建议框，无法满足实时应用，没有真正实现端到端训练与测

试。FasterR-CNN提出使用区域建议网络（RPN）[14]提

取检测区域，并且和整个检测网络共享卷积部分的特（b）漏检

征，相对于FastR-CNN提高了检测精度和速度，真正实现端到端的目标检测，但是实时检测仍然是一个问题。R-FCN选取101层的深度残差网络并进行改进，解决了图像分类任务中平移不变性和物体检测任务中平移变换性的矛盾，性能有显著的提升，并且比FasterR-CNN（c）重复检测

更快，然而R-FCN还是无法达到实时检测的目标。基图1YOLOv3在KITTI数据集上的检测效果

于区域的目标检测方法受到建议框提取阶段计算复杂本文对YOLOv3进行改进，提出了特征图深度融合度的限制，想要实现实时检测仍面临着巨大的挑战。

的快速车辆检测方法，称为DF-YOLOv3。如图2所示，为了解决检测速度与精度平衡的问题，基于回归的

DF-YOLOv3是一个直接预测城市交通监控车辆位置和

深度残差网络提取特征

融合多尺度特征预测车辆

残

残残残残残卷

差差积非块

6432差16差块8差块块块4差块

2层2卷级联8

积

级联极层4卷16大输入

（×8）

（×8）（×4）（×4）（×4）（×4）

积

层8卷级联32级联值积

抑层16卷64积

级联制

层32卷积

层64

输出

图2提出的快速车辆检测方法结构图

142019，55（2）ComputerEngineeringandApplications计算机工程与应用

类别的多目标检测算法，主网络结构是深度残差网络。YOLOv2[19]）与车辆分类算法（如AlexNet[6]，InceptionV3[26]，针对YOLOv3特征图尺度偏大，预测不准确的问题，ResNet-50[27]，VGG-19[7]，Xception[28]和DenseNet[29]），并表DF-YOLOv3在主网络之后又增加了3个卷积层，与现出卓越的性能。为解决卷积特征在车辆检测任务中YOLOv3原有的3个卷积层共同构建成含有6个不同尺尺度敏感的问题，XiaoweiHu等[30]提出一种尺度不敏感度卷积层的特征金字塔，即：64×64，32×32，16×16，8×8，的卷积神经网络（SINet），用于快速检测具有较大尺度4×4和2×2分辨率；同时，以2倍步长对该特征金字塔变化的车辆。SINet在KITTI数据集和新的高速公路数执行上采样操作，与前面的深度残差网络进行融合，据集上实现了最先进的精度和速度，并且可以应用在任形成深度融合的快速车辆检测模型。这样，提出的何深度网络架构中，由于实际应用场景中存在大量高度DF-YOLOv3可以防止复杂场景中车辆的错误检测，显重叠、模糊与极小尺度的车辆，SINet对小尺度拥挤车辆著提高城市交通监控车辆的检测精度。

的检测性能仍然有待提升。

2相关工作

3提出的快速车辆检测方法

深度学习目标检测算法已经广泛地应用于城市交

本文提出的快速车辆检测方法（即DF-YOLOv3）实

通监控车辆检测，同时针对特定问题的改进算法不断提现框架如图2所示。该方法基于YOLOv3并对其进行出，并取得显著的效果。本文简要介绍利用深度卷积神改进，它将整个图像作为输入，同时输出检测到所有车经网络进行车辆检测的最新研究。

辆的位置及其相应的类别，如Car，Van，Truck和Tram。基于区域的车辆检测算法首先在图像中产生候选首先，DF-YOLOv3使用深度残差网络提取车辆特征；然框，然后对候选框中的车辆进行分类。YiZhou等[21]提后在残差网络之后添加多个卷积层，并将其分成6个分出统一的快速车辆检测框架（DAVE），有效地结合了车支，形成多尺度预测网络；为了获得更有意义的语义信辆检测与属性标记。DAVE由两个卷积神经网络组成：息，DF-YOLOv3将预测网络中的特征图与深度残差网快速车辆建议框提取网络和验证建议框并推断车辆视络中相对应的特征图进行融合；最后，利用非极大值抑角、颜色与类型的属性学习网络，这两个网络联合优化，制的方法剔除重复的边界框，得到最终的车辆检测结可以有效地检测交通监控车辆并识别车辆属性，但果。与传统的YOLOv3比较，DF-YOLOv3被证明易于DAVE对于具有遮挡的小型车辆处理效果不佳，同时验训练并且表现良好。

证与属性识别阶段速度较慢。XueYuan等[22]提出一种3.1深度残差网络提取车辆特征

基于图的算法定位车辆建议区域，用来估计车辆包含在受到残差学习[27]的启发，DF-YOLOv3通过构建深

边界框中的可能性，解决不同尺寸与形状的车辆定位不度残差网络提取车辆特征。残差网络由一系列残差块准确的问题。在KITTI数据集与PASCALVOC2007组成，每个残差块包含两个分支：恒等映射与残差分数据集上的实验表明，该方法对具有尺度变化和相机视支。如图3所示，两个残差块之间按照顺序堆叠，图中角变化的车辆图像具有较好的检测性能，由于过度依赖带加号的实心圆圈表示跳过连接，其相应的公式定义图像分割的效果，该方法检测精度低于FasterR-CNN，如下：

同时难以区分颜色相近彼此有重叠的车辆。Weidongxt+1=Ft(xt)+xt

（1）

Min等[23]提出一种改进的ViBe算法，用于多个车辆的鲁其中，xt和xt+1分别是第t个残差块的输入与输出向棒性与准确性检测。该算法采用良好的后处理方法抑量，Ft(xt)表示转换函数，对应于由堆叠层组成的残差

制动态噪声，同时使用两个分类器进一步解决无法跟踪具有遮挡和干扰车辆的问题，但是实验中对比的方法不卷积层00

是目前最好的方法，不能完全说明该方法的优越性。WenmingCao等[24]提出具有知识引导训练和预测感兴卷积层01趣区域的快速深度神经网络，在显著降低整体计算复杂卷积层02

度的同时提高车辆检测性能，与传统SSD算法相比，该方法的检测速度显著提高，但是检测精度却没有明显提升。

卷积层03基于回归的车辆检测算法使用单阶段的神经网络，卷积层04

直接预测图像中车辆的位置和类别，并且实现了实时检测。ZhimingLuo等[25]提出一个交通摄像头数据集（MIO-TCD），包括11个交通对象类，用于评估交通车辆检测算法（如FasterR-CNN[14]，SSD[18]，YOLO[17]与

图3残差块结构示意图

张富凯，等：基于改进YOLOv3的快速车辆检测方法2019，55（2）15

分支。这样组成的深度残差网络易于信息流动，并且容上方的卷积层中执行，步长为两个像素；同时，该网络的易训练。

所有卷积层上均添加批量标准化层（batchnormalization

DF-YOLOv3提出的深度残差网络结构如表1所layer）[31]

以帮助规范网络。另外，DF-YOLOv3选取分辨

示。第一个卷积层用16个大小为3×3的卷积核（滤波率为64×64，32×32，16×16，8×8，4×4，2×2的特征图与下器）过滤512×512分辨率的输入图像；然后，将先前卷积一节提出的上采样特征图进行融合，构成特征金字塔[32]层的输出作为输入，使用32个尺寸为3×3的卷积核以及进行车辆预测。

两个像素的步长对它们滤波，实现下采样操作，同时添3.2多尺度网络预测车辆

加类似于YOLOv3的残差块增加网络的深度，该残差块DF-YOLOv3直接在多个尺度的特征图上回归预测

由1×1卷积层和3×3卷积层组成，此时得到的特征图尺车辆形状和车辆类别。如图2右侧部分所示，将不同分寸为256×256；接下来，执行包含2×，8×，8×，4×，4×，4×，辨率的卷积层分成6个分支（即，分别为特征图2×2，4×4，4×残差块的7组网络，分别获取128×128，64×64，32×32，8×8，16×16，32×32，64×64），每个分支独立执行车辆预16×16，8×8，4×4，2×2分辨率的特征图。在这7组残差块测。具体地，每个分支都配备多个卷积层，对于分辨率组成的网络中，除了卷积核数与特征图的尺度不同之为4×4，8×8，16×16，32×32，64×64的分支，以2倍大小执外，每一个残差块都相似。具体地，下采样在每个矩形框

行上采样。为增强特征金字塔的表征能力，将上采样特表1

提出的用于提取车辆特征的深度残差网络结构

征与上一节深度残差网络提供的相应尺寸的特征图进类型滤波器尺度输出行级联。因此，可以在每个分支中利用上下文语义信息卷积层163×3512×512×16执行车辆检测，同时6个检测分支共享从残差网络提取卷积层323×3/2256×256×32

的特征。

卷积层

161×1在预测阶段，对于输入的车辆图像，预测一个三维1×

卷积层32

3×3

张量，包括车辆边界框、车辆对象和车辆类别。DF-残差层256×256×32卷积层643×3/2128×128×64

YOLOv3将特征图划分成N×N的网格（不同尺度的特卷积层

321×1征图，N大小不同），为每个网格预测3个不同的边界2×

卷积层64

3×3

框，并且张量可以表示为N×N×[3×(4+1+4)]，即4个残差层128×128×64边界框偏移量，1个车辆对象和4个车辆类型。

卷积层1283×3/264×64×128

3.3利用锚点机制预测车辆边界框

卷积层

641×18×

卷积层128

3×3

为高效地预测不同尺度与宽高比的物体边界框，

残差层64×64×128FasterR-CNN[14]最早提出使用锚点框作为选取物体边卷积层2563×3/232×32×256

界框的参照物，代替传统的图像金字塔与特征金字塔的卷积层

1281×1方法，同时降低了模型训练的复杂度，提高了运行速8×

卷积层256

3×3

度。随后SSD[18]、YOLOv2[19]与YOLOv3[20]均采用了锚点残差层32×32×256卷积层5123×3/216×16×512

机制并取得了良好效果，因此，本文延用YOLOv3中的卷积层

2561×1锚点机制预测车辆边界框。如前所述，将用于预测的特4×

卷积层512

3×3

征图划分为N×N的网格，每个网格预测3个锚点框，残差层16×16×512因此，每一个输入图像，将产生16983个预测框，可以显卷积层10243×3/28×8×1024

著地提升车辆定位精度。

卷积层

5121×1FasterR-CNN通过在每个滑动位置采用3个尺度4×

卷积层1024

3×3

残差层8×8×1024和3个纵横比的框产生9个锚点，SSD使用6个纵横比卷积层20483×3/24×4×2048

表示不同形状的锚点。这些方法的共性是根据经验、使卷积层

10241×1用手工方式获取锚点的尺度，然后在模型训练过程中调4×

卷积层2048

3×3

整锚点框的尺寸。受到YOLOv2[19]的启发，DF-YOLOv3残差层4×4×2048使用k-means维度聚类的方法对训练数据集的边界框做卷积层40963×3/22×2×4096

聚类，选取最合适的边界框先验，对车辆进行更好的预卷积层

20481×14×

卷积层4096

3×3

测，其中聚类方法中距离公式定义如下：

残差层2×2×4096

d(box,centroid)=1-IOU(box,centroid)

（2）

平均池化全局选取适当的IOU分数，可以在模型复杂度和召回率连接数4

之间取得好的平衡。

分类

DF-YOLOv3通过直接预测相对于网格的坐标位置

162019，55（2）ComputerEngineeringandApplications计算机工程与应用

获得车辆的边界框坐标，每个边界框预测4个坐标：tx,截断。本文对KITTI数据集原有的8类标签信息进行处ty,tw,th,其定义如下：

理，保留实验需要的4个类别标签，即：Car，Van，Truckbx=σ(tx)+cx（3）和Tram，同时选取该数据集中7481张图像作为实验数by=σ(ty)+cy（4）据，并分成两部分：4000张图像用于训练验证数据集，bw=pwet

w（5）3481张图像用于测试数据集。表2显示了KITTI数据bh=pheth

（6）

集中每个车辆类型真实值的数量。

其中，

cx和cy表示一个网格与图像左上角的横纵距离，表2

KITTI数据集中每个车辆类型

p真实值的数量

w和ph表示边界框的宽和高。

3.4深度网络训练

车辆类别CarVanTruckTram训练集152091567575283本文提出的快速车辆识别方法DF-YOLOv3通过随

测试集

13533

1347

519

228

机梯度下降算法[33]

端到端地进行训练。为了使训练快速收敛，使用在COCO数据集上对80类物体预训练的4.2执行细节

模型Darknet-53[20]初始化残差网络中的共享卷积层。在本文在相同尺度的图像上训练和测试提出的DF-

训练时，需要匹配锚点预测的边界框与真实框，从而建YOLOv3网络。训练过程如图2所示，输入图像被缩放立它们的对应关系。如果预测的边界框先验与真实框到512像素×512像素，由多个残差块堆叠的深度残差网具有最高重叠率，则标记该车辆为正样本，同时忽略不络提取车辆特征，并使用6个不同尺度的卷积特征图预是最佳的边界框；值得注意的是，对于每个真实框，只分测车辆的位置坐标和类型。对于锚点框的选取，通过运配一个边界框以减少车辆对象的重复。

行k-means聚类自动产生。在KITTI数据集上，DF-为了使模型对于不同尺寸的输入图像更加鲁棒，YOLOv3使用6个尺度18个锚点，分别为：（10×29），DF-YOLOv3采用多种数据增强策略，如调整图像的曝（16×43），（22×62），（22×23），（24×36），（31×81），（34×49），光度、色调与饱和度，利用数据抖动以及水平翻策略生（43×106），（48×65），（58×139），（61×250），（64×88），成更多的训练数据，提高模型的泛化能力。通过数据增（83×180），（87×117），（110×242），（119×157），（152×451），强，DF-YOLOv3能够提升对车辆的检测能力。

（153×254）。

整个训练过程中，DF-YOLOv3进行50000次迭代，4实验与结果

其中动量和权重衰减分别配置为0.9和0.0005，批量大本文在公开数据集KITTI[3]上评估提出的DF-

小设置为64，学习率初始为10－3，并依次降低为10－4与YOLOv3方法的性能。实验基于Darknet神经网络框10－5。相对应每个阶段的学习率，网络分别迭代25000，架[34]实现，在配置有英特尔酷睿i7-7700KCPU和英伟15000和10000次。

达1080TiGPU的PC机上运行。

4.3实验结果

4.1数据集描述

本文使用均值平均精度（mAP）与传输速率两项指

KITTI数据集由德国卡尔斯鲁厄理工学院和丰田

标对提出的DF-YOLOv3模型进行评价。

美国技术研究院联合创办，是目前国际上最大的自动驾表3显示了FastR-CNN[13]、FasterR-CNN[14]、DAVE[21]、驶场景下的计算机视觉算法评测数据集。KITTI数据YOLO[17]、YOLOv2[19]、YOLOv3[20]、SSD300[18]、SSD512[18]、集包含市区、乡村和高速公路等场景采集的真实图像数SINet[30]与本文提出的DF-YOLOv3方法的实验结果。据，每张图像中最多达15辆车，还有各种程度的遮挡与

这些方法均使用本文选取的KITTI数据集进行训练与

表3

不同方法在KITTI测试集上的检测结果

方法

输入

传输速率/(f⋅s-1)

mAP/%CarVanTruckTramFastR-CNN（VGG16）[13]

600×—0.5662.7364.7857.9462.8465.35FasterR-CNN（VGG16）

[14]600×—11.6376.9077.1872.1779.4878.77DAVE

[21]60×60/224×2243.8679.1483.5671.4481.3280.25YOLO

[17]

448×44868.3758.5458.7549.3660.8165.24YOLOv2[19]416×416114.2669.4866.4560.8169.5781.07YOLOv3[20]416×41648.6091.5890.2192.9295.3987.79SSD300[18]300×30058.3281.0082.0474.5986.4280.94SSD512

[18]

512×512

27.6979.7084.7769.9683.8880.17SINet（VGG）[30]

384×128031.3286.0290.3985.5682.3285.81本文方法（DF-YOLOv3）

512×512

45.48

93.61

92.57

93.90

95.08

92.87

张富凯，等：基于改进YOLOv3的快速车辆检测方法2019，55（2）17

图4提出的DF-YOLOv3方法在KITTI测试集上检测车辆的效果

测试。从表中可以看到，本文提出的DF-YOLOv3获得5讨论

了93.61%的mAP，在精度方面优于所有其他方法，并且5.1

DF-YOLOv3方法的性能

以45.48f/s的速度实现了实时检测。

图5显示了在KITTI数据集上十种不同方法（Fast

表3上面部分显示了基于区域的目标检测算法在KITTI数据集上的测试结果。经典的目标检测算法R-CNN、FasterR-CNN、DAVE、YOLO、YOLOv2、YOLOv3、FastR-CNN与FasterR-CNN获得了62.73%与76.90%SSD300、SSD512、SINet和DF-YOLOv3）的PR曲线，特的mAP，分别比DF-YOLOv3低30.88%与16.71%。别地，此处的精度（垂直轴）是四种车辆类型的平均值。DAVE以79.14%的mAP超越了经典的算法，但仍与DF-从图中可以看到，通过比较曲线下面积（AUC），DF-YOLOv3（93.61%的mAP）有比较大的差距。检测速度YOLOv3获得了最佳的性能。与YOLOv3相比，DF-方面，三种方法中最快的速度为11.63f/s，但仍然没有达YOLOv3的检测效果有明显提升，说明本文改进的多尺到实时检测的要求，这是由于两阶段网络训练过程中，区度网络结构是有效的。从表3中看到，虽然DF-YOLOv3域建议网络提取建议框的步骤增加了网络的计算复杂度。

的速度不是最高的，但是45.48f/s的速度已经远超过实表3中间部分显示了基于回归思想的目标检测算时的要求。

法在KITTI数据集上的测试结果。YOLO系列的算法1.0

均实现了实时性能，其中YOLOv2以114.26f/s获得了0.90.8最高的检测速度。YOLO、YOLOv2和YOLOv3分别0.7Fast获得了58.54%、69.48%和91.58%的mAP，性能比DF-noi0.6FasterR-CNNDAVER-CNNsiYOLOv3分别低35.07%、24.13%和2.03%。在该系列算ce0.5YOLOrP0.4YOLOv2法中，YOLOv3效果最好，这是因为YOLOv3采用深度0.3YOLOv3SSD300残差网络提取特征以及多尺度预测等算法。

0.2SSD512SSD检测算法，对于300×300输入的模型，检测精0.1SINetDF-YOLOv30

度比DF-YOLOv3低12.61%的mAP，速度为58.32f/s；对0.10.20.30.40.50.60.70.80.91.0

Recall

于512×512输入的模型，由于增大的输入图像增加了计图5不同方法在KITTI数据集上的PR曲线

算复杂度，检测速度为27.69f/s刚好达到实时。值得注意的是，512×512输入的模型获得了79.70的mAP，比5.2数据增强的作用

300×300输入的模型低1.3%，本文猜测这是由于输入图为了提高模型的泛化能力，参照YOLOv3数据增强

像的尺度与纵横比变化很大，影响了检测结果。

策略，DF-YOLOv3利用曝光度、色调与饱和度对图像进SINet基于VGG网络提取特征，获得86.02%的行增强，其参数分别设置为：1.5、1与1.5；同时利用数据mAP，比DF-YOLOv3低7.59%，同时速度达到31.32f/s，抖动策略产生附加数据处理不平衡的车辆数量，例如一实现了实时检测。

种车辆类型具有比其他车辆类型更多的数据；此外，以图4显示了DF-YOLOv3方法在KITTI数据集上检0.5的概率水平翻转每个训练样本。

测的效果。可以看到，本文提出的模型对城市交通监控表4显示了不同数据增强策略在KITTI数据集上对车辆的检测以及车辆细粒度的分类具有较好的鲁棒性。

DF-YOLOv3的影响。可以看到，色彩增强（曝光度、色

182019，55（2）

ComputerEngineeringandApplications计算机工程与应用表5

DF-YOLOv3使用不同特征金字塔在KITTI数据集上的实验结果

方法特征图数量

特征金字塔输入传输速率/(f⋅s-1)

mAP/%YOLOv3352×52，26×26，13×13416×41648.6091.58DF-YOLOv3-4scales464×64，32×32，16×16，8×8512×51248.0491.88DF-YOLOv3-5scales564×64，32×32，16×16，8×8，4×4512×51246.8992.76DF-YOLOv3-6scales

64×64，32×32，16×16，8×8，4×4，2×2

512×512

45.48

93.61

调、饱和度）、数据抖动与水平翻转分别为模型检测精度用于训练的图像中车辆的尺寸偏小（参照4.2节聚类产带来了3.27%、3.41%与2.26%的提升，并且同时使用这生的锚点尺寸），因此，本文猜测舍弃1×1卷积层对模型些策略，DF-YOLOv3的检测精度有7.94%的提高。其最终的检测精度不会有明显的影响，同时因为降低了计中，数据抖动策略对DF-YOLOv3的影响最大，这是由于算复杂度，反而会一定程度上提高检测速度。

该策略将训练图像进行不同程度的裁剪，不仅将一些完表5显示了本文改进的DF-YOLOv3使用不同尺度整的车辆裁剪为截断的车辆，同时产生了更多的数据，的特征金字塔在KITTI数据集上的检测结果。对于显著提高了模型的泛化能力。如表4中，相对于YOLOv3，512×512输入的模型，具有4个、5个与6个特征图的DF-YOLOv3对Car、Van、Truck和Tram四种类型车辆的DF-YOLOv3分别获得91.88%、92.76%与93.61%的mAP，检测能力相对平衡。

比传统的YOLOv3分别提高了0.3%、1.18%与2.03%。表4

数据增强策略对DF-YOLOv3的影响

同时，增加特征图数量对模型的检测速度有一定的影DF-YOLOv3

响，以上3种尺度DF-YOLOv3的检测速度分别为48.04f/s、曝光度、色调、饱和度

46.89f/s与45.48f/s，比传统的YOLOv3均有略微降低，数据抖动√√但影响不大，仍然远超过实时检测的要求。

水平翻转√KITTI测试集mAP/%

85.67

90.34√90.20

√√√√91.35

93.61√5.4输入图像分辨率对模型性能的影响

由于DF-YOLOv3采用全卷积网络，没有全连接层，

5.3多尺度预测分析

对输入图像的尺寸没有固定要求，因此，本文评估输入图1显示了传统YOLOv3在KITTI数据集上的检测

图像分辨率对模型性能的影响。

效果，可以看到传统YOLOv3仍然存在一些问题，如错如表6中间部分所示，固定每个网格预测锚点的数误地检测到未知物体、部分车辆未被检测到、同一车辆量，改变输入图像的分辨率，分别为：608×608、768×768被标记多个边界框。本文猜测存在这些问题的原因在和1216×352。与512×512输入图像的模型结果相比，于特征图提取阶段。传统的YOLOv3受到FPN[32]的608×608、768×768和1216×352输入图像的模型分别提启发，使用多尺度特征图执行预测任务，然而传统升0.35%、0.64%和1.28%的mAP，可以看到增加输入图YOLOv3用于提取特征的最小特征图尺寸为13×13，对像分辨率可以提高模型的检测精度；当输入图像分辨率于中等或较大的车辆目标，该尺度所对应的感受野十分与实际图像尺寸匹配时（1216×352分辨率），模型取得有限。因此，在原始YOLOv3的基础上，有必要利用更了最好的检测效果。由于增加输入图像尺度，增加了模高层特征的高语义信息，同时与低层具有相同尺度的残型的计算复杂度，这三个模型的检测速度均有所下降，差网络层融合，实现更好的预测效果。

特别地，1216×352分辨率输入的模型检测速度为9.73f/s，在原始YOLOv3最小卷积层13×13的基础上可以远没有实现实时检测的性能。

再增加4个尺度，分别为：7×7、4×4、2×2与1×1，本文在设计网络结构时考虑两个因素：（1）增加的卷积层以2表6

DF-YOLOv3在KITTI测试集上的消融实验结果

倍步长执行上采样操作，然后与残差网络中的特征图融输入每个网格预测传输速率/锚点的数量

(f⋅s-1)

mAP/%合，为统一融合特征图的尺寸，将输入图像尺寸变更为512×512345.4893.61512×512，从而新增卷积层尺寸调整为8×8、4×4、2×2与608×608337.8693.961×1。（2）残差网络的设计原则为特征图的大小减半时，768×768324.4994.25特征图的数目加倍，与4个新增卷积层对应的残差网络1216×35239.7394.89层的数目分别为：1024、2048、4096与8192。考虑到512×512643.7592.34网络复杂度的急剧增加，与GPU显存容量的限制，本文512×512942.2891.76512×512

38.62

91.18

舍弃具有8192通道数的1×1卷积层，最终选取执行预测操作的特征金字塔为：64×64，32×32，16×16，8×8，4×45.5使用更多的锚点模型性能分析

和2×2特征图。需要说明的是，1×1卷积层的感受野最为了验证锚点数量对模型的影响，本文固定输入图

大，其映射在输入图像上的区域接近整个图像大小，而

像的分辨率为512×512，分别改变特征图中每个网格预

张富凯，等：基于改进YOLOv3的快速车辆检测方法

2019，55（2）19

表7

不同方法在PASCALVOC2012测试集上的检测结果

类别FasterR-CNN[14]SSD300[18]

SSD512[18]

YOLOv3[20]

DF-YOLOv3

aeroplane84.984.284.985.386.2bicycle79.876.382.684.684.8bird74.369.674.472.276.3boat53.953.255.868.770.5bottle49.840.850.067.369.2bus77.578.580.385.287.9car75.973.678.983.987.3cat88.588.088.884.689.4chair45.650.553.766.268.2cow77.173.576.883.985.7diningtable

55.361.759.474.274.5dog86.985.887.684.882.1horse81.780.683.783.988.4motorbike80.981.282.684.389.7person79.677.581.482.883.1pottedplant40.144.347.256.260.2sheep72.673.275.576.777.3sofa60.966.765.678.179.2train81.281.184.384.482.8tvmonitor61.565.868.176.879.3mAP

70.4

70.3

73.1

78.2

80.1

测锚点的数量为6、9和18，然后对网络进行训练。与预辆快速检测方法：DF-YOLOv3。该方法将深度残差网期不同的是，增加锚点数量，虽然可以增加网络提取建络与多尺度的卷积特征图进行融合，利用k-means聚类议框的数量，但是同时也显著地增加了网络的计算复杂方法自动生成锚点区域，增强了特征图的表征能力，同度，造成模型的检测精度与速度均出现不同程度的下时提高了模型的定位精度。DF-YOLOv3同时预测每个降，如表6下面部分所示。

车辆的边界框并推断车辆的类别，如Car、Van、Truck与5.6DF-YOLOv3在PASCALVOC数据集上Tram。在KITTI数据集上的实验表明，DF-YOLOv3实的检测效果

现了实时性能，在车辆检测精度方面优于现有的目标检为了验证DF-YOLOv3在通用场景中针对不同物体测方法。在后续工作中，将实现车辆的多属性识别，如的目标检测性能，本文在PASCALVOC数据集[35]上对车辆颜色、型号、品牌等，并研究城市交通监控车辆特征DF-YOLOv3进行训练与测试，该数据集包括20个不同重建的任务。

的对象类别。实验选取VOC2012训练验证集、VOC2007训练验证集及VOC2007测试集作为训练数据（21503张图片），VOC2012测试集作为测试数据（10991参考文献：

张图片）。

[1]刘博艺，程杰仁，唐湘滟，等.复杂动态环境下运动车辆的

表7显示了不同方法在PASCALVOC2012测试识别方法[J].计算机科学与探索，2017，11（1）：134-143.集上的实验结果。其中，FasterR-CNN、SSD300与[2]LiH，FuK，YanML，etal.Vehicledetectioninremote

SSD512实验结果来源于文献SSD[18]，YOLOv3与DF-sensingimagesusingdenoizing-basedconvolutionalneuralYOLOv3实验结果由本文提供。从表中可以看到，本文networks[J].RemoteSensingLetters，2017，8（3）：262-270.[3]GeigerA，LenzP，UrtasunR.Arewereadyforautono-提出的DF-YOLOv3对20个不同物体类别的平均检测mousdriving?TheKITTIvisionbenchmarksuite[C]//精度为80.1%mAP，表明DF-YOLOv3适用于一般物体CVPR，2012.

的目标检测问题。通过与FasterR-CNN（70.4%mAP）、[4]WenLY，DuDW，CaiZW，etal.UA-DETRAC：a

SSD300（70.3%mAP）、SSD512（73.1%mAP）、YOLOv3newbenchmarkandprotocolformulti-objectdetection（78.2%mAP）检测结果比较，DF-YOLOv3的检测性能分andtracking[J].arXiv：1511.04136v3，2015.

别提升了9.7%、9.8%、7.0%与1.9%。

[5]LyuSW，ChangMC，DuDW，etal.UA-DETRAC2017：

reportofAVSS2017&IWT4Schallengeonadvanced6结束语

trafficmonitoring[C]//AVSS，2017：1-7.

本文提出了基于改进YOLOv3的城市交通监控车

[6]KrizhevskyA，SutskeverI，HintonGE.ImageNetclassifi-

202019，55（2）ComputerEngineeringandApplications计算机工程与应用

cationwithdeepconvolutionalneuralnetworks[C]//NIPS，locationanddetectionalgorithm[J].IEEETransactionson2012.

IntelligentTransportationSystems，2017，18（12）：3282-3289.[7]SimonyanK，ZissermanA.Verydeepconvolutionalnetworks

[23]MinWD，FanMD，GuoXG，etal.Anewapproach

forlarge-scaleimagerecognition[C]//NIPS，2015.totrackmultiplevehicleswiththecombinationofrobust[8]SzegedyC，LiuW，JiaYQ，etal.Goingdeeperwithcon-detectionandtwoclassifiers[J].IEEETransactionsonvolutions[J].arXiv：1409.4842v1，2014.

IntelligentTransportationSystems，2018，19（1）：174-186.[9]姚群力，胡显，雷宏.深度卷积神经网络在目标检测中的研

[24]CaoWM，YuanJH，HeZH，etal.Fastdeepneural

究进展[J].计算机工程与应用，2018，54（17）：1-9.

networkswithknowledgeguidedtrainingandpredicted[10]谢林江，季桂树，彭清，等.改进的卷积神经网络在行人检

regionsofinterestsforreal-timevideoobjectdetection[J].测中的应用[J].计算机科学与探索，2018，12（5）：708-718.IEEEAccess，2018，6：8990-8999.

[11]GirshickR，DonahueJ，DarrellT，etal.Richfeaturehier-[25]LuoZM，CharronFB，LemaireC，etal.MIO-TCD：a

archiesforaccurateobjectdetectionandsemanticseg-newbenchmarkdatasetforvehicleclassificationandmentation[C]//CVPR，2014：580-587.

localization[J].IEEETransactionsonImageProcessing，[12]HeKM，ZhangXY，RenSQ，etal.Spatialpyramid

poolingindeepconvolutionalnetworksforvisualrec-2018，27（10）：5129-5141.

ognition[J].arXiv：1406.4729v4，2015.

[26]SzegedyC，VanhouckeV，IoffeS，etal.Rethinkingthe

[13]GirshickR.FastR-CNN[C]//ICCV，2015：1440-1448.inceptionarchitectureforcomputervision[J].arXiv：1512.[14]RenSQ，HeKM，GirshickR，etal.FasterR-CNN：

00567v3，2015.

towardsreal-timeobjectdetectionwithregionproposal[27]HeKM，ZhangXY，RenSQ，etal.Deepresidual

networks[J].IEEETransactionsonPatternAnalysisandlearningforimagerecognition[C]//CVPR，2016.MachineIntelligence，2017，39（6）：1137-1149.

[28]CholletF.Xception：deeplearningwithdepthwisesepa-[15]DaiJF，HeKM，SunJ.R-FCN：objectdetectionvia

rableconvolutions[J].arXiv：1610.02357v3，2017.region-basedfullyconvolutionalnetworks[J].arXiv：1605.[29]HuangG，LiuZ，MaatenLVD，etal.Denselyconnected

06409，2016.

convolutionalnetworks[C]//CVPR，2017.

[16]UijlingsJRR，SandeKEAVD，GeversT，etal.Selec-[30]HuXW，XuXM，XiaoYJ，etal.SINet：ascale-insensitive

tivesearchforobjectrecognition[J].InternationalJournalconvolutionalneuralnetworkforfastvehicledetection[J].ofComputerVision，2013，104（2）：154-171.

arXiv：1804.00433v1，2018.

[17]RedmonJ，DivvalaS，GirshickR，etal.Youonlylook

[31]IoffeS，SzegedyC.Batchnormalization：acceleratingdeep

once：unified，real-timeobjectdetection[C]//CVPR，2016.networktrainingbyreducinginternalcovariateshift[J].[18]LiuW，AnguelovD，ErhanD.SSD：singleshotmulti-arXiv：1502.03167v3，2015.

boxdetector[C]//ECCV，2016：21-37.

[32]LinTY，DollárP，GirshickR，etal.Featurepyramidnet-[19]RedmonJ，FarhadiA.YOLO9000：better，faster，stronger[J].

worksforobjectdetection[J].arXiv：1612.03144v2，2017.arXiv：1612.08242v1，2016.

[33]LeCunY，BoserB，DenkerJS，etal.Backpropagation

[20]RedmonJ，FarhadiA.YOLOv3：anincrementalimprove-appliedtohandwrittenzipcoderecognition[J].Neuralment[J].arXiv：1804.02767v1，2018.

Computation，1989，1（4）：541-551.

[21]ZhouY，LiuL，ShaoL，etal.Fastautomaticvehicleanno-[34]RedmonJ.Darknet：opensourceneuralnetworksinC[DB/

tationforurbantrafficsurveillance[J].IEEETransac-OL].http：//pjreddie.com/darknet/.

tionsonIntelligentTransportationSystems，2018，19（6）：[35]EveringhamM，EslamiMA，GoolLV，etal.Thepascal

1973-1984.

visualobjectclasseschallenge：aretrospective[J].Interna-[22]YuanX，SuS，ChenHJ.Agraph-basedvehicleproposal

tionalJournalofComputerVision，2015，111（1）：98-136.

因篇幅问题不能全部显示，请点此查看更多更全内容

查看全文