Posts AVOD论文解读
Post
Cancel

AVOD论文解读

目录

  1. 前言
  2. 论文基本信息
  3. 动机和思路
  4. 算法基本流程
  5. 具体实验分析
  6. 个人总结

前言

AVOD作为基于Camera信息和Lidar信息融合的3D detection算法,是目前为数不多的开源的SOTA算法之一,相关资料如下:

KITTI榜单

AVOD论文

AVOD源码

AVOD源码解读

论文基本信息

一作信息:

Jason Ku 多伦多大学在校研究生,从事无人驾驶感知算法研究

其他相关工作:

IROS 2019

Improving 3D Object Detection for Pedestrians with Virtual Multi-View Synthesis Orientation Estimation

Kitti行人检测中排名第5 Lidar+Camera前融合方案

CVPR 2019

Monocular 3D Object Detection Leveraging Accurate Proposals and Shape Reconstruction

单目3D目标检测 KITTI当前SOTA: Car 排名112 Pedestrain 排名44 Cyclist 排名38

引用:175

通讯作者:

Steven L. Waslander 多伦多大学副教授,研究领域:Unmanned Aerial VehiclesSLAMObject DetectionMotion Planning

引用:4741

动机和思路

  • 无人驾驶Preception当前Fusion的三种思路:
    • Image based: 以 F-PointNet 为代表的先用Camera做2D检测,再投影到3D空间内对视锥进行特征提取,再进行检测。特征是级联结构,性能受2D检测制约。Deep Manta ,Camera预测深度,3D定位性能差。
    • BEV (Bird’s eye view)based: 以MV3D 为代表的将点云投射在BEV 上生成proposal ,再通过ROI crop 出Camera的相应区域做Fusion去修正预测框。特征是对高度信息运用较少,可能损失了一部分3D信息。
    • 3D based: 直接在3D空间中做融合,因为这个方向上融合比较困难,所以目前相关文章较少。特征是相对计算量较大。
  • BEV based代表作—MV3D : MV3D 的基本思路是先通过BEV 视角下得到3D Proposal ,然后分别投影到FV视角和camera视角得到各自图像上的ROI 然后进行三类feature的融合,最后在融合的feature上进行最终Box的分类和回归操作。 img

  • 不足之处:
    • backbone 特征提取的过程中,下采样会导致小物体的信息不可获取:比如行人在BEV 图上为8\*6pixel ,经过三次downsampling 后,pixel<1,信息丢失,所以小物体检测不好
    • 采用的八个顶点Encoding 方式,缺少长方体的Constraint ,未具体说明orientation 的回归,(AVOD 中提到MV3D 采用的方向判定为与长方体平面的长边方向一致),容易上下颠倒: img

算法基本流程

  • 流程图: img

  • 主要改进:
    • feature extractor 借鉴FPN 结构,融合浅层和深层feature,形成 high-resolution feature map
    • crop and resize :将生成的3D proposal 投影到各自plane 后通过bilinearly resizedn\*n feature map : img

    • 采用约束的box coding 方式:缩小了参数维度:24d->10d ,回归了平面旋转向量: img
  • 其他细节:
    • BEV 为6维feature:5 heights(5 equal slices on Z axis)+ density information
    • 1\*1ConvRPN 网络输出anchors 数量很多,输出feature map维度过高,需要大量显存,通过1X1网络进行降维
    • 3D Proposal Generatiuonbackground box 不作为regression的loss计算。car的iou阈值略高于其他两类(0.5→0.45)。NMS阈值为0.8。Training proposal数目1024,Infereance 300
    • Second Stage Detection Network :取与回归得到向量最接近的向量为orientation(预先选定了4个方向,根据corner位置)

具体实验分析

  • 评价指标:
    • 3D AP : 3D IOU :摄像机坐标系下两3d长方体相交的体积占两长方体总体积的比例
    • BEV AP : 2D IOU :摄像机坐标系下的物体投影到地面上的overlap ,即bird eye view 下两box交集占两box总面积比例
    • AHS (Average Heading Similarity): 3D IOU and global orientation angle
  • KITTI :测试集性能(无法复现)上看,AVOD 在Cyclist性能略差于F-PointNet ,Pedestrian各有胜负,car性能更好,但是速度更快:

img

  • RPN Recall :验证集性能,RPN Recall高于其他同类算法,对于car一类提升不明显,可能因为本身car尺寸大,特征也比较比较明显,性能本身处于一个较高的level。另外MV3D没有对照数据:

img

  • AHS :验证集性能(3D AP),朝向性能明显更好: img

  • Ablation Study (消融实验):Base Network为参照网络:采用vgg-net作为backbone的VOD网络。验证集性能(3D AP),BEV Image 融合和Feature Pyramid Extractor 在car类上提升不明显,在Pedestrian和Cyclist上提升明显。但是这一点在复现过程中由于只能利用train-split集的小样本(Pedestrian和Cyclist本身数目不足)以及path drop的使用,可能会导致抖动较大,论文中也提到目前没有论文公开在验证集上的Pedestrian和Cyclist类的性能。

img

个人总结

  • 优点:相对于前作MV3D,做得更加精细,主要体现在:
    • FPN 多层特征的融合
    • 3D Box orientation 的回归策略
    • Crop and Resize 的采用
  • 不足之处:
    • plane平面的提取(用于生成BEV图),性能依赖于点云的密集成都
    • 生成Proposal的过程中Image和Lidar数据是分离的,基于ROI Fusion 已处于高层feature的fusion,参考MMFMulti-Task Multi-Sensor Fusion for 3D Object Detection )实现了roi-wisepoint-wise 上的fusion,性能更好(代码未开源)
    • ROI-Fusion 的过程中存在Image featureBEV feature 不对齐的问题
    • 基于BEV视图下能够得到第一阶段较高的Recall,但是后期3D位置的refinement,通过原始3d的点云信息更准确(但是要解决原始点云数据稀疏分布的问题,如通过采样,聚类等方式实现key area的融合)
This post is licensed under CC BY 4.0 by the author.