微信扫码
添加专属顾问
我要投稿
字节跳动Seed团队最新力作Depth Anything 3,用单一Transformer架构实现任意视角空间重建,刷新多项SOTA记录!核心内容:1. DA3突破性采用简洁Transformer架构,统一"深度-射线"表征法2. 在相机姿态精度和几何重建任务上性能大幅提升35.7%和23.6%3. 开源模型代码和技术报告,推动3D感知重建技术发展
人类能够通过一张照片、一段视频,迅速在脑海中构建出一个空间的立体样貌。这种能力源于我们对不同视角空间几何关系的理解与推理,而机器想要理解、参与物理世界,就需要提升空间智能,对场景精准重建。
当前的视觉空间重建模型大多依赖复杂的架构和多任务学习方法,通过不同的网络模块分别处理深度估计、相机姿态估计和多视图几何重建等任务。然而,这些方法常常面临架构过于庞大、任务间耦合性强等问题,导致模型难以灵活应对多任务场景。
近日,字节跳动 Seed 团队发布视觉空间重建模型 Depth Anything 3(DA3)。
作为 Depth Anything 系列最新开源续作,它突破性地将单目深度估计的能力扩展至任意视角。与传统的多视图几何重建方法相比,DA3 不再依赖复杂的专用架构,通过一个简洁高效的 Transformer 模型,即可精准实现不同视角下的空间感知。
DA3 两大关键特征如下:
(1)架构简洁:仅需一个 Transformer,无需额外的定制化架构,模型即具备强大的视觉预训练能力,因架构轻量,训练与部署更高效。
(2)表征统一:采用单一的 “深度-射线” 表征法,无需引入额外的多任务训练方式,统一表征让模型专注于核心空间几何关系的学习,并在多个任务上获得更稳定的表现,实现精度与效率的双重优化。
DA3 能够快速完成不同场景的 3D 重建任务
通过采用“简洁设计 + 精准聚焦”的思路,DA3 刷新了业界视觉空间重建 SOTA 水平:在相机姿态精度任务中,DA3 较此前主流模型 VGGT 提升 35.7%;在几何重建精度上,DA3 较 VGGT 提升 23.6%;在单目深度估计任务上,DA2 此前已经达到 SOTA 性能,DA3 则在其基础上进一步提升。
Depth Anything 3 技术报告和模型代码已对外公开:
技术报告:
https://arxiv.org/abs/2511.10647
代码链接:
https://github.com/ByteDance-Seed/depth-anything-3
GitHub 主页:
https://depth-anything-3.github.io
HF Demo:
https://huggingface.co/spaces/depth-anything/depth-anything-3
在空间智能领域,3D 感知重建技术是连接二维视觉信息与三维物理世界的关键桥梁,广泛应用于自动驾驶、机器人、虚拟现实、建筑测绘等领域。不过,当前主流模型面临架构冗杂与输出表征耦合低效两大挑战,阻碍了 3D 感知重建技术的进一步发展。
DA3 回到空间几何建模的本质,以“最小建模方式”作为核心设计原则,重新界定了模型应具备的关键基础能力。
DA3 使用单一 Transformer,并引入输入自适应的跨视图自注意力机制,通过双 DPT 头,从视觉特征中预测深度图和射线图。
用单一架构聚焦几何本质
传统方法中,视觉空间重建模型应对不同任务时,需要分别搭建网络模块和接口,导致架构复杂,对计算资源要求极高。DA3 团队判断,几何空间重建在本质上都依赖跨视图特征关联和全局空间建模,这些可以在同一套建模机制中统一处理,无需为各任务额外设计专用模块。
基于任务抽象,团队回到模型能力的底层机制进行了推导:Transformer 的自注意力机制天然支持长距离依赖捕捉,能灵活处理任意数量输入视图,动态交换跨视图信息。它无需额外设计特征融合模块,即能匹配空间几何建模的核心需求。
实验结果也进一步表明,复杂的定制化架构虽可能在特定任务上带来微小的性能提升,但整体收益有限,训练与部署成本显著提高,且限制了在移动端和嵌入式场景的应用。
基于上述推导,DA3 采用单一 Transformer 作为基础结构,实现了简洁的模型设计,且可在不同 3D 任务上保持稳定、高效的推理表现。
打造视觉空间重建的最小完备输出
在 3D 重建任务中,输出形式与特定任务强绑定,不同形式之间缺乏统一逻辑关联,导致信息难以复用和共享。同时,冗余输出也增加了训练负担,干扰了核心几何信息的学习和推理效率。
DA3 团队回到几何建模的本质问题:一个模型到底需要输出什么,才能完整描述 3D 空间?团队最终提出以 “深度-射线” 作为统一表征,深度能给出像素到相机的距离,射线能给出像素在三维空间中的投影方向。这种表征法能够完整且简洁地涵盖 3D 重建所需的核心几何信息,无需额外输出冗余的任务专用表征。
现有主流方法通常采用 3D 点云作为核心表征,并在同一坐标系下预测不同视角的点云,以约束空间几何一致性。然而点云将空间几何结构与相机运动绑定,使模型必须同时学习两类信息,增加了优化难度。为缓解这一耦合,现有主流方法被迫添加额外的预测头来分别输出深度、相机运动信息、图片坐标下的点云,进一步加大了系统复杂度。
相比之下,“深度-射线”表征则将几何与运动自然解耦。通过这种方式,模型能更轻易地获取高精度的几何信息和相机运动信息,还能快速恢复 3D 点云,实现了输出表征的极简与高效。
采用上述策略,DA3 通过一次前馈即可生成高精度输出,避免了传统方法中需多次迭代优化的复杂过程。这种设计显著提升了推理速度,简化了训练与部署,同时确保了 3D 重建任务的精确和高效。
在“跑酷”难度级别的任务中,DA3 表现出优良的空间感知能力。如下图所示,给模型输入长度 28 秒的视频,相机镜头快速移动,运动视角与场景处于高速变化中,DA3 能够在单次反馈中捕捉到相机运动、人物运动轨迹和场景的细节变化。
在大范围的环境中,精确的视觉几何估计对 SLAM(同步定位与地图构建)至关重要。如下所示,DA3 在处理 10 公里超大场景 SLAM 重建任务中维持了优良性能。这一优势表明,DA3 的架构思路不仅适用于小规模、静态的场景,也能在大规模动态环境中,提供可靠的几何重建结果。
实验表明,DA3 在任意图像的前馈 3D 高斯重建和新视角渲染任务中,也可快速恢复 3D 空间结构,并在新视角合成上具备极强的泛化性。
车辆拍摄到多个不同视角的图像时,DA3 能够无缝地估计稳定且可融合的深度图。通过这种方式,DA3 可帮助自动驾驶系统更精确地理解周围环境的三维结构,提升车辆在复杂场景中的感知能力和决策能力。
3. 团队展望:实现人类水平的视觉识别能力
在认知神经科学中,人类大脑皮层通过两条视觉通路处理信息:一条通路负责理解语义信息,如物体身份和颜色,另一条通路则负责理解空间几何信息,如物体位置、运动和空间关系。人类能够通过这两条通路的协作,高效地完成视觉识别任务。Depth Anything 系列研究的初心,便是让 AI 具备类人的空间感知能力。
目前,视觉语言模型已在语义理解方面取得显著突破,部分任务的表现已接近甚至超越人类水平。然而,空间几何感知依然是一个核心挑战,AI 在此领域尚处于初步阶段,需要进一步的技术突破。
DA3 的进展为视觉空间重建提供了新的可能性,它突破了单目深度估计和多视角重建的技术瓶颈,向精准的空间几何感知又迈进一步。团队期望,随着空间智能的发展,AI 不仅能理解图像中的语义信息,还将融合语义识别与空间感知,最终实现完整的视觉识别能力。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-27
200 美元,一天干完半年活:这个新出的AI科学家,是来砸博士生饭碗的吗?
2025-11-27
Nano Banana Pro又出10种邪修玩法,写字海报已经落后N个版本了
2025-11-27
从 Tool 到 Skill:Deep Agents 正在重新定义通用 AI Agent 的“工作方式”
2025-11-27
哪里不对点哪里!Nano Banana Pro 和 Lovart 的进阶玩法,4 个落地场景(附prompt)
2025-11-27
如何通俗的理解AI Agent的工作流?
2025-11-27
开源书分享:RAG实践手册:构建知识库和问答系统的实战指南(可下载)
2025-11-27
Ilya重磅发声:Scaling时代终结!自曝不再感受AGI
2025-11-27
覆盖430家权威机构数据源,Skywork专业数据模式赋能高效AI生产力平台
2025-09-19
2025-10-02
2025-10-26
2025-09-16
2025-09-08
2025-09-17
2025-09-29
2025-09-14
2025-10-07
2025-09-30
2025-11-27
2025-11-27
2025-11-25
2025-11-25
2025-11-25
2025-11-23
2025-11-19
2025-11-19