免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

Seed Research│Depth Anything 3:单一Transformer架构实现任意视角空间重建

发布日期:2025-11-27 11:55:27 浏览次数: 1522
作者:字节跳动Seed

微信搜一搜,关注“字节跳动Seed”

推荐语

字节跳动Seed团队最新力作Depth Anything 3,用单一Transformer架构实现任意视角空间重建,刷新多项SOTA记录!

核心内容:
1. DA3突破性采用简洁Transformer架构,统一"深度-射线"表征法
2. 在相机姿态精度和几何重建任务上性能大幅提升35.7%和23.6%
3. 开源模型代码和技术报告,推动3D感知重建技术发展

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

人类能够通过一张照片、一段视频,迅速在脑海中构建出一个空间的立体样貌。这种能力源于我们对不同视角空间几何关系的理解与推理,而机器想要理解、参与物理世界,就需要提升空间智能,对场景精准重建。

当前的视觉空间重建模型大多依赖复杂的架构和多任务学习方法,通过不同的网络模块分别处理深度估计、相机姿态估计和多视图几何重建等任务。然而,这些方法常常面临架构过于庞大、任务间耦合性强等问题,导致模型难以灵活应对多任务场景。

近日,字节跳动 Seed 团队发布视觉空间重建模型 Depth Anything 3(DA3)

作为 Depth Anything 系列最新开源续作,它突破性地将单目深度估计的能力扩展至任意视角。与传统的多视图几何重建方法相比,DA3 不再依赖复杂的专用架构,通过一个简洁高效的 Transformer 模型,即可精准实现不同视角下的空间感知。

DA3 两大关键特征如下:

(1)架构简洁仅需一个 Transformer,无需额外的定制化架构,模型即具备强大的视觉预训练能力,因架构轻量,训练与部署更高效。

(2)表征统一:采用单一的 “深度-射线” 表征法,无需引入额外的多任务训练方式,统一表征让模型专注于核心空间几何关系的学习,并在多个任务上获得更稳定的表现,实现精度与效率的双重优化。

DA3 能够快速完成不同场景的 3D 重建任务

通过采用“简洁设计 + 精准聚焦”思路,DA3 刷新了业界视觉空间重建 SOTA 水平:在相机姿态精度任务中,DA3 较此前主流模型 VGGT 提升 35.7%;在几何重建精度上,DA3 较 VGGT 提升 23.6%;在单目深度估计任务上,DA2 此前已经达到 SOTA 性能,DA3 则在其基础上进一步提升。

Depth Anything 3 技术报告模型代码已对外公开

技术报告:

https://arxiv.org/abs/2511.10647

代码链接:

https://github.com/ByteDance-Seed/depth-anything-3

GitHub 主页:

https://depth-anything-3.github.io

HF Demo:

https://huggingface.co/spaces/depth-anything/depth-anything-3


 1. 去繁从简,提炼空间重建底层机制 

在空间智能领域,3D 感知重建技术是连接二维视觉信息与三维物理世界的关键桥梁,广泛应用于自动驾驶、机器人、虚拟现实、建筑测绘等领域。不过,当前主流模型面临架构冗杂与输出表征耦合低效两大挑战,阻碍了 3D 感知重建技术的进一步发展。

DA3 回到空间几何建模的本质,以“最小建模方式”作为核心设计原则,重新界定了模型应具备的关键基础能力。

DA3 使用单一 Transformer,并引入输入自适应的跨视图自注意力机制,通过双 DPT 头,从视觉特征中预测深度图和射线图。

  • 用单一架构聚焦几何本质

传统方法中,视觉空间重建模型应对不同任务时,需要分别搭建网络模块和接口,导致架构复杂,对计算资源要求极高。DA3 团队判断,几何空间重建在本质上都依赖跨视图特征关联和全局空间建模,这些可以在同一套建模机制中统一处理,无需为各任务额外设计专用模块。

基于任务抽象,团队回到模型能力的底层机制进行了推导:Transformer 的自注意力机制天然支持长距离依赖捕捉,能灵活处理任意数量输入视图,动态交换跨视图信息。它无需额外设计特征融合模块,即能匹配空间几何建模的核心需求。

实验结果也进一步表明,复杂的定制化架构虽可能在特定任务上带来微小的性能提升,但整体收益有限,训练与部署成本显著提高,且限制了在移动端和嵌入式场景的应用。

基于上述推导,DA3 采用单一 Transformer 作为基础结构,实现了简洁的模型设计,且可在不同 3D 任务上保持稳定、高效的推理表现。

  • 打造视觉空间重建最小完备输出

在 3D 重建任务中,输出形式与特定任务强绑定,不同形式之间缺乏统一逻辑关联,导致信息难以复用和共享。同时,冗余输出也增加了训练负担,干扰了核心几何信息的学习和推理效率。

DA3 团队回到几何建模的本质问题:一个模型到底需要输出什么,才能完整描述 3D 空间?团队最终提出以 “深度-射线” 作为统一表征深度能给出像素到相机的距离,射线能给出像素在三维空间中的投影方向。这种表征法能够完整且简洁地涵盖 3D 重建所需的核心几何信息,无需额外输出冗余的任务专用表征。

现有主流方法通常采用 3D 点云作为核心表征,并在同一坐标系下预测不同视角的点云,以约束空间几何一致性。然而点云将空间几何结构与相机运动绑定,使模型必须同时学习两类信息,增加了优化难度。为缓解这一耦合,现有主流方法被迫添加额外的预测头来分别输出深度、相机运动信息、图片坐标下的点云,进一步加大了系统复杂度。

相比之下,“深度-射线”表征则将几何与运动自然解耦。通过这种方式,模型能更轻易地获取高精度的几何信息和相机运动信息,还能快速恢复 3D 点云,实现了输出表征的极简与高效。


 2. 一步完成高精度输出,无需迭代优化 

采用上述策略,DA3 通过一次前馈即可生成高精度输出,避免了传统方法中需多次迭代优化的复杂过程。这种设计显著提升了推理速度,简化了训练与部署,同时确保了 3D 重建任务的精确和高效。

在“跑酷”难度级别的任务中,DA3 表现出优良的空间感知能力。如下图所示,给模型输入长度 28 秒的视频,相机镜头快速移动,运动视角与场景处于高速变化中,DA3 能够在单次反馈中捕捉到相机运动、人物运动轨迹和场景的细节变化。

在大范围的环境中,精确的视觉几何估计对 SLAM(同步定位与地图构建)至关重要。如下所示,DA3 在处理 10 公里超大场景 SLAM 重建任务中维持了优良性能。这一优势表明,DA3 的架构思路不仅适用于小规模、静态的场景,也能在大规模动态环境中,提供可靠的几何重建结果。

实验表明,DA3 在任意图像的前馈 3D 高斯重建和新视角渲染任务中,也可快速恢复 3D 空间结构,并在新视角合成上具备极强的泛化性。

车辆拍摄到多个不同视角的图像时,DA3 能够无缝地估计稳定且可融合的深度图。通过这种方式,DA3 可帮助自动驾驶系统更精确地理解周围环境的三维结构,提升车辆在复杂场景中的感知能力和决策能力。


 3. 团队展望:实现人类水平的视觉识别能力 

在认知神经科学中,人类大脑皮层通过两条视觉通路处理信息:一条通路负责理解语义信息,如物体身份和颜色,另一条通路则负责理解空间几何信息,如物体位置、运动和空间关系。人类能够通过这两条通路的协作,高效地完成视觉识别任务。Depth Anything 系列研究的初心,便是让 AI 具备类人的空间感知能力。

目前,视觉语言模型已在语义理解方面取得显著突破,部分任务的表现已接近甚至超越人类水平。然而,空间几何感知依然是一个核心挑战,AI 在此领域尚处于初步阶段,需要进一步的技术突破。

DA3 的进展为视觉空间重建提供了新的可能性,它突破了单目深度估计和多视角重建的技术瓶颈,向精准的空间几何感知又迈进一步。团队期望,随着空间智能的发展,AI 不仅能理解图像中的语义信息,还将融合语义识别与空间感知,最终实现完整的视觉识别能力。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询