融合深度卷积网络与点云网络的三维车辆检测方法分析

来源:期刊VIP网所属分类:计算机网络发布时间:2020-05-27浏览:

  摘 要:在常规的车辆目标检测中,YOLO,SSD,RCNN等深度模型都获得了较好的检测效果,但是在无人驾驶系统中,车辆的速度、方向、相对距离等因素对于系统来说十分重要,所以采用二维车辆检测对于驾驶场景的理解还远远不够。激光点云数据蕴含着丰富的三维环境信息,融合点云数据和深度网络的三维车辆检测已成為未来的发展方向。文章给出了一种基于点云网络与卷积神经网络的三维车辆检测方法,首先,使用CRC和输入尺寸有关的SDP技术来提高车辆检测的准确性;其次,采用点云网络结构(Pointnet)来处理点云数据,实现三维目标检测,研究表明设计网络结构在检测精度上有着较大的优势。

  关键词:车辆检测;点云网络;卷积神经网络;拒绝分类器

车辆工程师论文


  车辆工程类控制策略仿真类论文

  1 车辆检测的相关算法

  近年来,由于深度学习技术的兴起,机器视觉与人工智能有了快速的发展,特别是智能汽车领域,通过在车辆中安装视觉传感器使驾驶变得越来越安全以及智能化,而无人驾驶技术更是得到了工业界与学术界的高度关注。

  车辆检测是无人驾驶感知系统的关键环节,大多数的交通事故发生在车车之间,传统的二维车辆识别技术仅能提供方位信息,并不能满足无人驾驶系统对车辆检测的需求,车辆的空间位置、速度等因素对后期的控制决策起到极为重要的作用。

  因此,需要激光雷达等传感器提供三维点云信息、融合处理三维点云信息以及二维图像信息成为车辆检测的关键技术。目前,深度学习已被证明是目标检测中最为有效的方法,卷积神经网络(Convolutional Neural Networks,CNN)[1-2]更是在图像处理领域中得到了广泛的应用,例如图像的分类、检测、分割等。

  但是CNN也存在一些明显的问题,最为突出的就是要对海量数据进行大量卷积运算需要消耗较大的计算量,为了提高目标检测的速度,近些年部分学者又提出了Fast RCNN[3]和空间金字塔网络(Spatial Pyramid Pooling Net)[4],在Fast RCNN中,仅在整幅图像中进行一次卷积操作,其比R-CNN[5]通过共享卷积层来说提高了运算效率。Fast RCNN已经实现了分别在训练和测试阶段的加速。

  为了进一步提升速度,其他的深度神经网络模型也被提出,SSD[6]采用了一个CNN网络来检测,不过其使用了多尺度特征图,并设置了先验框。SSD借鉴了Fast R-CNN的锚点方法,对每一个候选单元设置不同大小的检测框,取得了较好的检测效果。YOLO[7]是另外一种快速单阶段目标检测方法,与R-CNN类型的模型有着明显的不同,不再是将目标检测视为分类问题,而是作为一种回归问题,可以直接从图像得到目标边界框以及类别的判断。

  YOLO拥有非常快的速度优势,并且是直接在图像中进行训练,这使得其自然包含有目标的上下文信息。YOLO模型相比于R-CNN模型有着较大的速度优势,但是精度上则不及大多主流的深度网络模型。

  三维车辆检测可以提供更多的目标信息,目前已有少量研究成果发表,把这些方法分为3类:(1)基于前景视角图像的方法,通过单幅RGB图像和形状或遮挡样式来推断目标三维边界框[8]。利用深度数据集合CNN网络来对二维目标检测的结果三维化[9]。(2)基于鸟瞰图的方法,MV3D[10]将LIDAR点云投射到鸟瞰图并采用RPN[11]网络来预测目标三维边界框,但是该方法在检测小物体时存在较大误差,例如行人以及自行车都不是很准确。(3)基于3D点云的方法,通过支持向量机(Support Vector Machine,SVM)从点云数据中提取几何特征,最后使用滑动窗口实现三维目标检测[12]。将整个场景的点云转换为体积网格,并使用3D-CNN网络进行目标特征提取和检测。该方法使用到了3D卷积,其计算量十分庞大[13]。

  本文采用了直接处理点云数据的PointNet网络[14],该网络结构简单,但是却可以高效处理点云数据。同时,本文设计了一种基于深度点云网络的目标检测方法,先采用卷积神经网络快速、准确地检测车辆候选区域,再采用PointNet网络实现三维实例分割,利用逐层级联的拒绝分类器(Cascaded Rejection Classifiers,CRC)和与输入大小有关的池化层(Scale Dependent Pooling,SDP)来提高目标车辆的检测结果。

  2 激光雷达与点云数据

  激光雷达属于光电技术,会向周围物体发射激光束,再接受反射的光,通过反射的时间差得到物体的距离信息。激光雷达得到距离信息后再结合发射的角度,由空间几何原理来推测到物体的位置与形状。这个过程中,激光几乎不受到环境因素的干扰,激光雷达的工作范围可达100 m以上。

  激光雷达采用激光射线而非无线电雷达的电磁波,因此拥有更短的波长,对于获取目标的距离以及形状都会有更大的优势,精度可以达到厘米级。激光雷达通常包括3部分:(1)激光发射器。(2)扫描与光学部件,可感知距离、时间以及角度信息。(3)感光部件,用来检测反射光的光强。

  现有的无人驾驶车辆中已广泛安装了激光雷达,在车辆行驶的过程中,激光雷达会按照恒定的角速度进行匀速转动并发射激光,会获得360°全角度的环境信息,继而可由距离、时间以及角度三者信息再加上激光雷达的位置信息,推导出反射点的三维坐标。激光雷达旋转360°获得的反射点坐标集合就叫点云,工作原理如图1所示。激光雷达距离传感器可以比普通摄像机更直接地得到三维信息,可以在识别分类的过程中提供三维形状的信息。

  但是激光雷达所形成的三维点云一般都比较稀疏,空间的分辨率有限,所以缺乏目标的外观与纹理信息。本文结合二维视觉目标检测以及三维空间定位的各自优势,先利用RGB图像检测网络对目标进行候选估计,再利用点云网络对候选区域处理,最终完成三维车辆检测任务。

  作者:王鹏 叶子豪 孙锐

期刊VIP网,您身边的高端学术顾问

文章名称: 融合深度卷积网络与点云网络的三维车辆检测方法分析

文章地址: http://www.qikanvip.com/jisuanjiwangluo/51774.html