社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

英国团队推出适用于XR应用的单目深度学习框架NimbleD

映维网Nweon • 1 月前 • 60 次点击  

对于需要低延迟推理的虚拟现实和增强现实应用特别有益

映维网Nweon 2025年02月11日)在一项研究中,英国雷丁大学团队介绍了一个有效的自监督单目深度估计学习框架NimbleD。它结合了由大视觉模型生成的伪标签的监督,不需要camera内参,可在公开可用的视频进行大规模的预训练。

团队指出:“这个简单而有效的学习策略显著提高了快速和轻量级模型的性能,不会引入任何开销,使得它们能够达到与最先进的自监督单目深度估计模型相当的性能。这一进步对于需要低延迟推理的虚拟现实和增强现实应用特别有益。”

单目深度估计(MDE)是从单个图像输入预测对象相对于camera的距离。低延迟深度估计对于XR应用至关重要,因为它可以确保实时,准确的空间感知以及与虚拟现实和现实世界对象的沉浸式交互,增强用户体验和舒适度。

Vision Transformer、大视觉模型和生成式模型的最新进展显著推进了MDE。通常用于MDE的两种主要训练范式是监督学习和自监督学习(SSL)。监督式MDE依赖于从激光雷达或RGB-D摄像头获得的ground truth深度标签,而SSL MDE则利用单眼视频或立体设置的几何约束。

一方面,仅在单目视频上训练的SSL MDE模型代表了最容易获得的方法,因为它们只需要单目视频进行训练,不需要立体设置和ground truth深度,潜在地允许在大规模未标记数据进行训练。

另一方面,最近使用大规模训练或生成式方法的监督模型显示出优越的zero shot深度估计能力。然而,相关模型的推理速度通常相对较慢,这限制了它们在对低延迟至关重要的XR应序中的使用。

在研究中,英国雷丁大学团队通过引入NimbleD来解决相关挑战,NimbleD是一个简单而有效的SSL MDE学习框架,由大型视觉模型和大规模视频预训练生成的伪标签增强。这个框架显著提高了快速和轻量级模型的深度估计质量,不引入任何开销,使得它们能够达到更先进的SSL MDE方法的性能。

团队用KITTI进行了对比评估,NimbleD明显增强了所有基线模型的性能。这一方法重振Monodepth2-R18,而SwiftDepth和LiteMono的性能与FGTO相当。同时,LiteMono-S和SwiftDepth-S提供了最好的速度和精度权衡,与DaCCN b和GasMono相差不远。另外,LiteMono-8M展示了与SQLdepth类似的最先进性能。

通过与基线模型比较,研究人员评估了所述方法在NYUv2和Make3D的zero-shot泛化。结果显示,NimbleD在NYUv2(室内)上显著提高了模型的泛化能力,而在Make3D(室外)则不明显。

相关论文:NimbleD: Enhancing Self-supervised Monocular Depth Estimation with Pseudo-labels and Large-scale Video Pre-training

https://paper.nweon.com/16182

总的来说,团队提出的NimbleD是一个高效的MDE学习框架,它使用由大视觉模型生成的伪标签来增强SSL。这种方法使得他们能够利用大规模的视频预训练,提高了快速和轻量级模型的深度估计性能,以匹配最先进的SSL MDE方法,不会引入任何开销,这对于实时XR应用十分有利。尽管有人可能会认为使用大型模型的伪监督并不公平,但研究人员相信大型视觉模型是当前深度学习领域的重要组成,应该得到充分利用。


---
原文链接:https://news.nweon.com/127629


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/178988
 
60 次点击