基于鸟瞰图的点云目标检测:Birdnet+

简介

自动驾驶汽车中的车载3D对象检测通常依赖于LiDAR设备捕获的几何信息。尽管通常优选使用图像特征进行检测,但是许多方法仅将空间数据作为输入。利用这些信息进行推理通常涉及使用紧凑的表示形式,例如鸟瞰图(BEV)投影,这会导致信息丢失,从而阻碍了对象3D框的所有参数的联合推理。在本文中,作者提出了一个完整的端到端3D对象检测框架,该框架可以通过使用两阶段对象检测器和临时回归分支仅从BEV图像中推断出定向3D框,从而无需进行后处理阶段。该方法在很大程度上优于其前身(BirdNet),并在KITTI 3D对象检测基准测试中获得了评估中所有类别的最新结果。

核心思想:

通过将点云数据投影为BEV表示将3D目标检测任务转化为2D图像检测问题,然后采用两阶段的Faster RCNN模型实现检测任务。

技术细节:

  • BEV 表示:

  • 将LIDAR点云数据编码成3个通道的2D结构,这三个通道为: 最大高度(< 3m),平均强度和单元格中的归一化点密度。

  • 编码不包括每个单元的最低点信息(groud truth)

  • ROI 区域:前左右35m范围

  • 单元网格的大小:每个单元网格的大小为5cm

  • 特征提取:

  • 采用ResNet-50网络,为了解决BEV视图下行人难以检测的问题,作者对ResNet-50做了一些修改:
    (i)采用conv3 layer, 下采样因子设为8
    (ii) 利用特征金字塔网络(FPN)一边从每个ResNet块的输出中提取每个对象对应的特征

  • Region Proposal:

  • anchor尺寸:1616, 4848, 80*80

  • anchor长宽比: 1:1, 1:2, 2:1

  • anchor是轴对齐的

  • Feature pooling分辨率: 7*7

  • Classfication & Bounding box regression

  • RPN的第一阶段的proposals采用BEV图上的2D bounding box来表示,第二阶段负责对这些proposals进行分类。

  • 预测步骤由两个全连接层完成, 每个层具有1024个元素,这些元素最终被馈送到一组individual heads中, 每个head由FC层组成并负责不同的任务,这些heads有三个分支,分别负责分类,轴对齐的框回归和离散的yaw的分类