跳转至

VGGT

353 个字 预计阅读时间 1 分钟

Introduction

问题导向

之前的 dust3r 等工作,需要使用视觉几何优化技术进行后处理的方法,并且耗时。

解决方案

VGGT 一次输入数百张图片,1s 之内预测所有图片的三维属性(相机的内参外参、pointmap、深度图、3D 点跟踪,且不需要额外的后端优化。和 dust3r 不同(各个结果是额外推理得到,训练的是一个针对 4 task 的统一 loss

Method

Feature Backbone

  • 每张图像首先通过 DINO 被分割成一组 K token \(t_I\),然后,所有帧的 token 通过主网络结构进行处理,内部交替使用帧内和全局的 self-attention
  • Alternating-Attention,AA:每一层有两个注意力层:全局、帧间注意力。

Prediction Head

  • camera parameters:4 self-attention layers + 一个全连接层
  • dense map,point map track feature:DPT layer
  • tracking:采用 CoTracker2 结构

Training

  • 使用一个多任务损失,前三个 loss 近似,tracking loss 需要尺度。
\[ \mathcal{L} = \mathcal{L}_{camera} + \mathcal{L}_{depth} + \mathcal{L}_{pmap} + \lambda \mathcal{L}_{track} \]
  • 真实坐标归一化:没有对输出的预测进行归一化,反而迫使从训练数据中学习归一化。

Experiments

Reference


最后更新: 2025年8月12日 15:58:16
创建日期: 2025年8月12日 15:58:16
回到页面顶部