# 【财富密码】ICRA 2024 | DeFlow：自动驾驶中场景流网络的解码器

By [VICOINDAO](https://paragraph.com/@vicoindao) · 2024-06-04

---

![](https://storage.googleapis.com/papyrus_images/992552d25e352dcc7983f31fb7ae48ca10b5b17f7ddb62f893684aeff053f2d0.png)

**论文思路：**
---------

场景流估计通过预测场景中点的运动来确定场景的3D运动场，尤其是为自动驾驶任务提供帮助。许多以大规模点云作为输入的网络使用体素化(voxelization)来创建伪图像，以实现实时运行。然而，体素化过程经常导致点特定特征(point-specific features)的丢失。这就带来了一个挑战，即如何恢复那些用于场景流任务的特征。本文提出了 DeFlow，它利用门控循环单元（GRU）细化技术，实现了从体素特征到点特征的转换。为了进一步提高场景流估计的性能，本文制定了一种新颖的损失函数，该函数考虑了静态点和动态点之间的数据不平衡。在 Argoverse 2 场景流任务上的评估显示，DeFlow 在大规模点云数据上实现了最先进的结果，证明了本文的网络与其他网络相比具有更好的性能和效率。

**主要贡献：**
---------

引入了一种新颖的实时网络，在解码器设计中将GRU与迭代细化(iterative refinement)相结合，有效地实现了从体素特征到点特征的转换。

提出了一种新的损失函数类型，专为静态点和动态点上的不平衡数据分布进行了优化。

在大规模点云数据集 Argoverse 2 在线排行榜上取得了最先进的成果。

**网络设计：**
---------

场景流估计用于确定场景的三维运动场，在自动驾驶领域至关重要。通过模仿人在复杂场景中利用运动线索进行导航的行为，准确的场景流预测使自动驾驶车辆（AVs）能够理解和导航动态环境。这种精确的估计进一步增强了自动驾驶车辆中的下游任务，包括检测、分割、跟踪和占用流。

最近的进展\[1\]、\[2\]、\[3\]突显了类别不可知运动估计的价值，这些估计直接从点云中获得。如果能保证在点级别上的满意性能，那么场景流的结果可以轻松地作为后续任务（如预测和检测\[2\]）的先验知识被整合进来。这项技术可能有助于提升自动驾驶系统在动态场景中的效率和适应性。

大多数方法\[4\]、\[5\]、\[6\]在物体配准场景流中关注的是相对较小规模的点云数据，如合成数据集 Shapenet \[7\] 和 FlyingThing3D \[8\] 。当它们在自动驾驶\[9\]、\[10\]中使用点云数据时，点的数量会被下采样到 8192点或更少。这些方法由于在现代驾驶数据集上使用全部点数作为输入时会导致内存溢出而失败。像 Argoverse2 \[11\] 和 Waymo \[9\] 这样的数据集更接近真实自动驾驶车辆的传感器设置，其中一个帧中的点数大约在8万到17.7万之间。最近，一些方法\[12\]、\[13\]采用多层感知器（MLPs）来优化提出的自监督目标函数，这些函数可以成功地运行在不同大小的数据集上。然而，它们的运行时间从每帧26秒延长到35秒\[14\]。在自动驾驶领域，实时性能非常重要。因此，这些基于优化的方法在实用性方面不足。

鉴于需要实时处理并估计完整的大规模点云数据集上的场景流，FastFlow3D \[9\] 成为了一个实用的解决方案。实现实时要求的一个关键策略是体素化。它是一种流行的点云处理技术，特别是用于检测任务\[15\]、\[16\]、\[17\]。然而，检测和场景流任务之间存在明显的区别：后者需要点级别的结果。基于体素化的方法常常未能意识到解码器设计在场景流任务中的重要性，导致它们无法区分同一体素内各点的特征。这是因为同一体素内的所有点都继承了来自卷积网络的相同特征。

为了应对这些挑战，本文提出了 DeFlow，它采用了门控循环单元（GRU）细化模块来重构同一体素内各点的不同特征，显著提高了最终结果。本文使用 Argoverse 2 场景流任务评估了本文的方法，并在在线排行榜上实现了最先进的结果，利用了一个包含10万个标注帧的训练集。图1展示了一个示例。

![](https://storage.googleapis.com/papyrus_images/30d24d16279687651f146d61e8ad964fa7eb7eae3d3338ce72fa0632f94702d6.png)

图1：使用本文的 DeFlow 方法在 Argoverse 2 上进行的激光雷达场景流估计。每个点的预测场景流根据方向进行颜色编码，颜色轮以世界坐标系为基准。(a) 仅用于可视化目的的相机视图。(b)(c) 估计的激光雷达点云流。不同的颜色代表不同的方向，颜色越饱和表示速度越高。(b) 正视图。(c) 鸟瞰图。

![](https://storage.googleapis.com/papyrus_images/48cd7d8ae71956197b1ae914ac8928dbdc3822331eb9240bbb56a3d375c59c2c.png)

图2：Argoverse 2 验证数据集中所有场景所有动态点在0.1秒内的移动距离直方图（10 Hz）。横轴代表距离，以米为单位，范围从0.05米到2.0米。纵轴表示每个距离范围的点数。动态点主要分布在0.2米以内。

![](https://storage.googleapis.com/papyrus_images/d5c6d3d8e9597068d775e4b97ab8a7e7aef89542ca53082f2ae87358f691e4ef.png)

图3：DeFlow 架构。特征提取步骤源自 PointPillars，它将两个连续的点云作为输入，并将它们转换为体素。编码器使用卷积 U-Net 主干网络。本文新颖的解码器将编码器输出与 PointPillars 的点偏移结合起来，采用GRU进行精细化处理。这一过程重建了体素到点的信息，最终产生流结果。

**实验结果：**
---------

![](https://storage.googleapis.com/papyrus_images/4208f4e459a7fcd8e9970b71d931fbaa3cc7f1bd6d84024a1c8617961c794093.png)

图4：来自验证数据集的定性结果。顶部行展示了真实场景流，中间行展示了 FastFlow3D 的结果，底部行展示了 DeFlow 的结果。DeFlow 的估计在速度和角度上都与真实场景流非常接近。如两个绿色圆圈中突出显示的，与 FastFlow3D 相比，本文的 DeFlow 方法在预测运动角度（由颜色变化指示）和速度（由颜色强度表示）方面表现出更好的性能。颜色轮已调整以与自车的前进方向对齐。

![](https://storage.googleapis.com/papyrus_images/229d034f2ae357e28eb468c97cdeadf5ce9fc038f8039c3cfd09984f17b823a4.png)

![](https://storage.googleapis.com/papyrus_images/206dcf8cc1cc921960edc18460eb94aaca20fb45ac9ac547e68b02d1902d89d1.png)

![](https://storage.googleapis.com/papyrus_images/f71d7e752b85187fb3ea55845d7f45d5f1c4d761295b6f852454ad99f2cff901.png)

![](https://storage.googleapis.com/papyrus_images/a126218294868cec440147359c40fe6f3ac9871c0e27eede47c4af1359aae5fc.png)

**总结：**
-------

本文介绍了 DeFlow，这是一种针对大规模点云中自动驾驶的高效和高性能方法。本文的主要贡献包括引入 DeFlow 网络，该网络在点级别上增强了 point-voxel-point 网络特征的提取和重建。此外，本文提出了一种新颖的损失函数来应对点之间数据分布不平衡的挑战。本文的实验结果凸显了本文方法的有效性。

未来的工作可以集中在 DeFlow 的自监督探索以及与多模态传感器（如相机和雷达）的融合上。本文在场景流估计中主要关注动态物体的流动，因此如果我们可以首先对静态和动态物体进行分割\[36\]，那么对于基于神经优化的方法来说，这可能是一个可行的解决方案，它可以大幅减少计算负担。

  

**​好的，今天就分享到这里了，感兴趣的朋友请关注我们！**

**微信1：victeam005**

**微信2：shijie20170405**

Twitter：[https://twitter.com/VICOINDAO](https://weibo.cn/sinaurl?u=https%3A%2F%2Ftwitter.com%2FVICOINDAO)

---

*Originally published on [VICOINDAO](https://paragraph.com/@vicoindao/icra-2024-deflow)*