基于全景相机的深度学习综述

文章：Deep Learning for Omnidirectional Vision: A Survey and New Perspectives

作者：Hao Ai˚, Zidong Cao˚, Jinjing Zhu, Haotian Bai, Yucheng Chen, and Lin Wang

编辑：点云PCL

来源：arXiv 2022

欢迎各位加入免费知识星球，获取PDF论文，欢迎转发朋友圈。文章仅做学术分享，如有侵权联系删文。未经博主同意请勿擅自转载。

公众号致力于分享点云处理，SLAM，三维视觉，高精地图相关的文章与技术，欢迎各位加入我们，一起交流一起进步,有兴趣的可联系微信：920177957。本文来自点云PCL博主的分享，未经作者允许请勿转载，欢迎各位同学积极分享和交流。

摘要

全景图像（ODI）数据是用360° *180°视场相机拍摄的，比针孔相机宽得多，比传统平面图像包含更丰富的空间信息。因此，全景视觉由于其在许多应用中的更优越性能而引起了广泛的关注，例如自动驾驶和虚拟现实。本文对用于全景视觉的DL方法的最新进展进行了系统和全面的回顾和分析。我们的工作包括四个主要内容：

（i）介绍全景成像的原理、ODI上的卷积方法和数据集，以突出与2D平面图像数据相比的差异和困难；

（ii）全方位视觉DL方法的结构和层次分类；

（iii）最新的新型学习策略和应用概述；

（iv）通过突出潜在的研究方向，对挑战和开放性问题进行深入的讨论。

主要贡献

本文对用于全景视觉的DL方法的最新进展进行了系统和全面的回顾和分析，强调了DL的重要性，并系统全面地探讨了全景视觉的最新进展。本研究中提出的结构和层次分类如图1所示。

图1：具有深度学习的全景视觉的层次和结构分类

图2：具有代表性的360°摄像机示例

总之，本研究的主要贡献可概括如下：

（I）这是第一次全面回顾和分析用于全景视觉的DL方法的调查，包括全方位成像原理、表示学习、数据集、分类、，以突出与2D图像数据的差异和困难。

（2）总结了过去五年中发表的大多数顶级会议/期刊作品（超过200篇论文），并对全方位视觉DL的最新趋势进行了分析研究，包括层次和结构。此外，我们还为每个类别的讨论和挑战提供见解。

（3）总结了全向视觉的最新新学习策略和潜在应用。

（4）由于全景视觉的DL是一个活跃而复杂的研究领域，我们对有待解决的挑战和开放问题进行了深入的讨论，并提出了未来的潜在方向，以推动社区进行更深入的研究。

（5）我们创建了一个开源存储库，提供所有提到的作品和代码链接的分类，将继续用这方面的新作品更新我们的开源存储库，并希望它能为未来的研究提供线索。仓库链接是https://github.com/VLISLAB/360-DL-Survey.

主要内容

全景图像模型

普通相机的FoV小于180度，因此最多只能拍摄一个半球。然而，理想的360°摄像机可以捕捉从各个方向落在焦点上的光线，使投影平面成为一个完整的球面。

图3：Equirectangular Projection (ERP)、 Cubemap Projection (CP)和 Tangent Projection表示类型的图示。

ODI的卷积方法

由于ODI的自然投影表面是一个球体，因此当将球形图像投影回平面时，标准的CNN不太能够处理固有的失真。已经提出了许多基于神经网络的方法来增强从球形图像中提取“无偏”信息。这些方法可分为两大类：

（i）在平面投影上应用2D卷积滤波器；

（ii）直接利用球面域中的球面卷积滤波器。

基于平面投影的卷积

图4：ODI上基于ERP的卷积滤波器的图示

球形卷积

图5：两种代表性的球面卷积方法

数据集

ODI语义分割的代表性方法

全景相机的深度估计

房间布局重建

总结

全面回顾和分析了用于全景视觉的DL方法的最新进展，首先介绍了全向成像的原理、卷积方法和数据集。然后，我们提供了DL方法的层次和结构分类。对于分类学中的每一项任务，我们总结了当前的研究现状，并指出了机遇和挑战。然后进一步回顾了新的学习策略和应用。在构建了现有方法之间的联系之后，我们讨论了需要解决的关键问题，并指出了未来有前景的研究方向，希望这项工作能为研究人员提供一些见解，并促进社区的进步。

更多详细内容请加入知识星球查看原文。

资源

自动驾驶及定位相关分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

自动驾驶中基于光流的运动物体检测

基于语义分割的相机外参标定

综述：用于自动驾驶的全景鱼眼相机的理论模型和感知介绍

高速场景下自动驾驶车辆定位方法综述

Patchwork++：基于点云的快速、稳健的地面分割方法

PaGO-LOAM:基于地面优化的激光雷达里程计

多模态路沿检测与滤波方法

多个激光雷达同时校准、定位和建图的框架