我要投稿

Seed Research￨Depth Anything 3：单一Transformer架构实现任意视角空间重建

发布日期：2025-11-27 11:55:27 浏览次数： 1522

作者：字节跳动Seed

微信搜一搜，关注“字节跳动Seed”

人类能够通过一张照片、一段视频，迅速在脑海中构建出一个空间的立体样貌。这种能力源于我们对不同视角空间几何关系的理解与推理，而机器想要理解、参与物理世界，就需要提升空间智能，对场景精准重建。

当前的视觉空间重建模型大多依赖复杂的架构和多任务学习方法，通过不同的网络模块分别处理深度估计、相机姿态估计和多视图几何重建等任务。然而，这些方法常常面临架构过于庞大、任务间耦合性强等问题，导致模型难以灵活应对多任务场景。

近日，字节跳动 Seed 团队发布视觉空间重建模型 Depth Anything 3（DA3）。

作为 Depth Anything 系列最新开源续作，它突破性地将单目深度估计的能力扩展至任意视角。与传统的多视图几何重建方法相比，DA3 不再依赖复杂的专用架构，通过一个简洁高效的 Transformer 模型，即可精准实现不同视角下的空间感知。

DA3 两大关键特征如下：

（1）架构简洁：仅需一个 Transformer，无需额外的定制化架构，模型即具备强大的视觉预训练能力，因架构轻量，训练与部署更高效。

（2）表征统一：采用单一的 “深度-射线” 表征法，无需引入额外的多任务训练方式，统一表征让模型专注于核心空间几何关系的学习，并在多个任务上获得更稳定的表现，实现精度与效率的双重优化。

DA3 能够快速完成不同场景的 3D 重建任务

通过采用“简洁设计 + 精准聚焦”的思路，DA3 刷新了业界视觉空间重建 SOTA 水平：在相机姿态精度任务中，DA3 较此前主流模型 VGGT 提升 35.7%；在几何重建精度上，DA3 较 VGGT 提升 23.6%；在单目深度估计任务上，DA2 此前已经达到 SOTA 性能，DA3 则在其基础上进一步提升。

Depth Anything 3 技术报告和模型代码已对外公开：

技术报告：

https://arxiv.org/abs/2511.10647

代码链接：

https://github.com/ByteDance-Seed/depth-anything-3

GitHub 主页：

https://depth-anything-3.github.io

HF Demo：

https://huggingface.co/spaces/depth-anything/depth-anything-3

1. 去繁从简，提炼空间重建底层机制

在空间智能领域，3D 感知重建技术是连接二维视觉信息与三维物理世界的关键桥梁，广泛应用于自动驾驶、机器人、虚拟现实、建筑测绘等领域。不过，当前主流模型面临架构冗杂与输出表征耦合低效两大挑战，阻碍了 3D 感知重建技术的进一步发展。

DA3 回到空间几何建模的本质，以“最小建模方式”作为核心设计原则，重新界定了模型应具备的关键基础能力。

DA3 使用单一 Transformer，并引入输入自适应的跨视图自注意力机制，通过双 DPT 头，从视觉特征中预测深度图和射线图。

用单一架构聚焦几何本质

传统方法中，视觉空间重建模型应对不同任务时，需要分别搭建网络模块和接口，导致架构复杂，对计算资源要求极高。DA3 团队判断，几何空间重建在本质上都依赖跨视图特征关联和全局空间建模，这些可以在同一套建模机制中统一处理，无需为各任务额外设计专用模块。

基于任务抽象，团队回到模型能力的底层机制进行了推导：Transformer 的自注意力机制天然支持长距离依赖捕捉，能灵活处理任意数量输入视图，动态交换跨视图信息。它无需额外设计特征融合模块，即能匹配空间几何建模的核心需求。

实验结果也进一步表明，复杂的定制化架构虽可能在特定任务上带来微小的性能提升，但整体收益有限，训练与部署成本显著提高，且限制了在移动端和嵌入式场景的应用。

基于上述推导，DA3 采用单一 Transformer 作为基础结构，实现了简洁的模型设计，且可在不同 3D 任务上保持稳定、高效的推理表现。

打造视觉空间重建的最小完备输出

在 3D 重建任务中，输出形式与特定任务强绑定，不同形式之间缺乏统一逻辑关联，导致信息难以复用和共享。同时，冗余输出也增加了训练负担，干扰了核心几何信息的学习和推理效率。

DA3 团队回到几何建模的本质问题：一个模型到底需要输出什么，才能完整描述 3D 空间？团队最终提出以 “深度-射线” 作为统一表征，深度能给出像素到相机的距离，射线能给出像素在三维空间中的投影方向。这种表征法能够完整且简洁地涵盖 3D 重建所需的核心几何信息，无需额外输出冗余的任务专用表征。

现有主流方法通常采用 3D 点云作为核心表征，并在同一坐标系下预测不同视角的点云，以约束空间几何一致性。然而点云将空间几何结构与相机运动绑定，使模型必须同时学习两类信息，增加了优化难度。为缓解这一耦合，现有主流方法被迫添加额外的预测头来分别输出深度、相机运动信息、图片坐标下的点云，进一步加大了系统复杂度。

相比之下，“深度-射线”表征则将几何与运动自然解耦。通过这种方式，模型能更轻易地获取高精度的几何信息和相机运动信息，还能快速恢复 3D 点云，实现了输出表征的极简与高效。

2. 一步完成高精度输出，无需迭代优化

采用上述策略，DA3 通过一次前馈即可生成高精度输出，避免了传统方法中需多次迭代优化的复杂过程。这种设计显著提升了推理速度，简化了训练与部署，同时确保了 3D 重建任务的精确和高效。

在“跑酷”难度级别的任务中，DA3 表现出优良的空间感知能力。如下图所示，给模型输入长度 28 秒的视频，相机镜头快速移动，运动视角与场景处于高速变化中，DA3 能够在单次反馈中捕捉到相机运动、人物运动轨迹和场景的细节变化。

在大范围的环境中，精确的视觉几何估计对 SLAM（同步定位与地图构建）至关重要。如下所示，DA3 在处理 10 公里超大场景 SLAM 重建任务中维持了优良性能。这一优势表明，DA3 的架构思路不仅适用于小规模、静态的场景，也能在大规模动态环境中，提供可靠的几何重建结果。

实验表明，DA3 在任意图像的前馈 3D 高斯重建和新视角渲染任务中，也可快速恢复 3D 空间结构，并在新视角合成上具备极强的泛化性。

车辆拍摄到多个不同视角的图像时，DA3 能够无缝地估计稳定且可融合的深度图。通过这种方式，DA3 可帮助自动驾驶系统更精确地理解周围环境的三维结构，提升车辆在复杂场景中的感知能力和决策能力。

3. 团队展望：实现人类水平的视觉识别能力

在认知神经科学中，人类大脑皮层通过两条视觉通路处理信息：一条通路负责理解语义信息，如物体身份和颜色，另一条通路则负责理解空间几何信息，如物体位置、运动和空间关系。人类能够通过这两条通路的协作，高效地完成视觉识别任务。Depth Anything 系列研究的初心，便是让 AI 具备类人的空间感知能力。

目前，视觉语言模型已在语义理解方面取得显著突破，部分任务的表现已接近甚至超越人类水平。然而，空间几何感知依然是一个核心挑战，AI 在此领域尚处于初步阶段，需要进一步的技术突破。

DA3 的进展为视觉空间重建提供了新的可能性，它突破了单目深度估计和多视角重建的技术瓶颈，向精准的空间几何感知又迈进一步。团队期望，随着空间智能的发展，AI 不仅能理解图像中的语义信息，还将融合语义识别与空间感知，最终实现完整的视觉识别能力。