论文概述F-PointNet (2018)

文章目录

    • 论文信息
    • 问题导入
    • 总体思路
    • 论文效果
    • 总结

论文信息

题目:Frustum PointNets for 3D Object Detection from RGB-D Data

论文链接

代码链接

问题导入

2D 检测模型近年来趋于成熟,但自动驾驶和增强现实领域更多依赖 3D 感知。此前的 3D 检测框架把 3D 点云转换为 images 或者体素化再采用 CNN,这类方案影响了原始 3D 数据的不变性;PointNet 的出现提出了直接处理点云数据的方案,但这种方式应用到 3D 检测领域还面临着一些挑战,比如如何有效地在三维空间中定位目标的可能位置,即如何产生 3D 候选框,假如全局搜索将会耗费大量算力与时间。

总体思路

在这里插入图片描述
如上图所示,首先,采用一个 2D 检测器生成 2D 候选框和类别信息,将 2D 候选框结合深度信息生成 3D 的视锥体 frustum;其次,利用 n 个点及其 c 个通道的数据进行二分类操作,进而对目标进行了实例分割;最后,基于分割出来的目标点(mxc),利用 T-Net 将分割点集中心与目标框中心对齐,再利用 PointNet 相关组件预测目标的 3D 框。

论文效果

在这里插入图片描述
如上图所示,这是定性分析,采用 KITTI benchmark。基于 PointNet++ 骨干网络,帧率为 5,汽车、行人及骑行者的 AP 分别是 70.39,44.89和56.77。其中,绿框表示 TP,红框表示 FP,蓝框表示 GT,‘v’ 表示汽车,‘p’ 表示行人,‘c’ 表示骑行者。

在这里插入图片描述
如上图所示,这是定量分析,基于 KITTI 的测试集,与 DoBEM 以及 MV3D 做对比,汽车IOU 取 0.7,其余取 0.5。

在这里插入图片描述
如上图所示,针对 mask 做了对比实验,分别对应 2D 和 3D mask。

总结

本文基于 RGB 与 Point Cloud 数据进行 3D 检测,并没有采取 MV3D 的数据级融合,而是进行了决策级融合,即做了串行处理,先利用成熟的 2D 检测器生成候选区域,进而指导后续基于点云的 3D 框回归网络。因此,这大大提高了检测效率;但是,这个框架过于依赖 2D 检测器的检测结果。