2026年6月4日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

Qwen-VLA:迈向通用具身智能的统一动作框架

发布日期:2026-05-30 07:27:20 浏览次数: 1526
作者:通义实验室

微信搜一搜,关注“通义实验室”

推荐语

从“各司其职”到“一脑多用”,通义实验室的Qwen-VLA让机器人真正拥有了统一行动的大脑,迈向通用具身智能。

核心内容:
1. 打破传统模型割裂现状,提出统一动作轨迹预测框架
2. 通过本体感知提示条件化,实现跨11种机器人平台的通用控制
3. 结合Qwen3.5-4B与DiT解码器,构建视觉-语言-动作统一模型

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
RAGraph">
在现有具身智能研究中,操作、导航、轨迹预测这些本应协同工作的能力,却被拆分成独立的模型,各自为战,以至于机器人换个物体、环境、甚至换一个机械臂就不会动了。


这让我们不禁思考:既然大语言模型能用一个大脑统一翻译、写作、问答等千百种文本任务,那机器人的"看、动、走"是不是也能装进同一个大脑?


基于这一思路,通义实验室研究团队最新论文提出了Qwen-VLA


团队以 Qwen3.5-4B 为底座,搭配基于 DiT 的动作解码器,通过统一动作轨迹预测框架本体感知提示条件化文本到动作 DiT 预训练(T2A)等技术路径,构建了通用的视觉-语言-动作模型



Qwen-VLA 理解语言-感知环境-精细操作


在多项基准测试中,该通用模型不仅超越最佳专用模型,展现出强劲性能,更11种机器人平台上实现了操作导航跨本体控制的统一,让具身智能正从“技能专家”走向“通用行动者”。


论文:https://arxiv.org/pdf/2605.30280

Blog:https://qwen.ai/blog?id=qwenvla

Github:https://github.com/QwenLM/Qwen-VLA


统一动作轨迹预测框架

视觉-语言模型已经"看懂了世界",但机器人控制仍然是割裂的。


  • 操作模型:通常针对桌面场景或灵巧手设计;

  • 导航模型:围绕室内航路点或动作预测构建;

  • 轨迹预测模型:只在特定坐标系中做规划。


这些模型针对单一任务设计,碎片化的能力限制了跨任务迁移、跨环境适应和跨本体部署。但研究团队观察到一个关键事实,尽管这些任务表面上差异巨大,它们在计算结构上是同构的:


观察场景 + 理解指令 → 预测未来的动作序列


这一洞察直接催生了统一建模的可能性。Qwen-VLA 将 Qwen 多模态模型的理解能力延伸到动作生成领域,将操作、导航和运动轨迹统一到同一个 VLA 框架下。


Qwen-VLA模型架构


该模型将 Qwen3.5-4B 的视觉语言主干网络(负责感知和推理功能)与 1.15B 参数的 DiT 动作解码器相结合。不同任务数据可以在同一个训练过程中共同提供监督,模型从中习得的视觉定位和空间推理能力也因此可以跨任务迁移。


本体感知提示条件化

真实世界中的机器人硬件差异巨大:自由度数量、控制频率、运动学约束、接口协议各不相同。传统方案通常为每种机器人本体定制独立的模型分支或输出头。


Qwen-VLA 选择了一条更轻量的路径:将硬件差异转化为语言理解问题,用一段结构化文本提示作为唯一的平台特定接口


在每个训练样本的输入前端,拼接一段描述当前机器人的文本提示:


The robot is {robot_tag} with {single arm / dual arms}[, waist][, and mobile base]. The control frequency is {FPS} Hz. Please predict the next {chunk_size} control actions to execute the following task: {ori_instruction}.


这段提示将机器人型号、机械臂数量、是否有腰部关节和移动底座、控制频率和预测时域等关键信息全部编码为自然语言,交由 VLM 骨干网络处理。骨干网络输出的隐藏状态随后与噪声动作块拼接,一起送入 DiT 动作专家。


整个过程不需要对模型架构做任何修改。这一机制使得同一个动作解码器可以在训练时同时接受来自十余种机器人平台的数据,在推理时只需替换提示中的平台描述即可切换控制约定。


image.png

Qwen-VLA支持机器人平台类型



文本到动作 DiT 预训练(T2A)

训练 Qwen-VLA 模型,本质上是要让两个模块协同工作:一个是已经训练好的视觉语言模型(VLM),负责看图和理解语言;一个是全新的 DiT 动作解码器,负责把理解结果转化成机器人的具体动作。


这样会面临结构性的问题,就是VLM 骨干网络已经充分预训练,而 DiT 动作解码器从随机初始化开始。如果直接启动多模态联合训练,可能会浪费计算资源在视觉无关的解码器学习上,并且干扰预训练的成果。


我们的解决方案是:


先把 VLM 冻住,单独训练 DiT,而且故意不给图像,只给文字。


目的是让 DiT 先学会"动作是什么"——理解不同指令对应什么样的动作模式,学会根据机器人类型调整控制方式。这一步完成后,DiT 虽然还不会看图,但已经具备了基本的动作生成能力。由于省去了图像编码,T2A 每步的计算代价约为多模态训练的1/10



消融实验成果


  • 数据构成:20%合成 + 80%真实混合达到最佳(71.1%),比纯真实提升+20百分点,比纯合成提升+7百分点。

  • 视觉输入对比:不带图像达到60.4%,带图像反而只有57.6%(下降-2.8百分点)——验证了T2A无视觉设计的合理性。

  • 训练时:性能在2,000步达峰值(71.1%),40,000步观察到退化(60.4%)。


在文本到动作 DiT 预训练之后,我们解冻所有参数以进行持续的多模态预训练→监督微调 → 强化学习,逐步调整异构数据中的视觉,语言和动作。



四阶段训练

  • 文本到动作预训练T2A冻结 VLM,纯文本训练 DiT。解码器学会动作分布、文本-动作对齐、本体条件化、flow-matching 动力学。

  • 持续预训练(CPT)解锁 VLM 和 DiT 全部参数,在大规模异构数据混合上联合训练。这一阶段专注于解决 T2A 无法解决的问题:将动作落地到视觉观测,让骨干网络适应具身感知。

  • 监督微调(SFT)从 CPT 检查点出发,分两条并行分支。第一条在多种仿真环境采集的异构任务上联合微调,验证一个通用模型在多任务联合训练下能够匹配甚至超越单任务专用模型。第二条针对真机遥操作数据微调,验证预训练表征向真实场景的迁移能力

  • 强化学习(RL)从多任务 SFT 检查点出发,在 SimplerEnv 中用稀疏二值成功奖励做强化学习。这一阶段直接优化闭环任务成功率。


四个阶段构成一条清晰的能力递进链条,让VLM和DiT更好的协同工作。


实验结果


通用模型超越专用模型

单一 Qwen-VLA 通用模型在 5 个仿真基准中的 3 个超越了最佳专用模型:



这些专用模型是针对每个基准独立微调的,而 Qwen-VLA 是在所有数据上统一训练的单一模型,通过本体感知提示即可部署到任何平台。这证明了联合多本体训练不仅不会牺牲任务级性能,在多个场景中还能带来正向收益。



预训练模型开放世界泛化性测试

我们在ALOHA 双臂机器人上对 QwenVLA-Base 进行了零样本评估,结果显示模型在5种分布外维度均表现卓越:



不仅能精准区分仅颜色不同的目标物体,成功抓取或清理训练集中未见的日常物品(如西兰花、玩具鸭、雨伞),还能正确理解"接近"等罕见动作指令以与新类别物体(如太阳镜、毛绒娃娃)交互,并在未见过的黄色背景下完成拧笔帽等精细操作。


充分证明了预训练赋予模型强大的视觉-语言-动作联合表征与泛化能力。


真实世界的OOD泛化能力

在 ALOHA 双臂真机平台上,Qwen-VLA 在 6 类 in-domain 任务上达到 83.6% 平均成功率。更令人印象深刻的是分布外(OOD)泛化表现——在颜色、实例、位置、背景、指令五个泛化维度上:



凭借预训练带来的强泛化能力,其平均 OOD 成功率达 76.9%,超越 π₀.₅(+35.4 个百分点)及无预训练变体(+40.7 个百分点),尤其在背景与指令泛化上分别达到 80.8% 和 84.6%。


这体现了Qwen-VLA的核心价值:模型不是只记住某个固定环境下的动作模板,而是在真实环境变化中理解目标并执行动作。



没有动态训练数据也能操作运动物体

DOMINO 是一个评估动态操作能力的基准,能评估物体在运动中,机器人需要实时追踪并完成操作。



Qwen-VLA在DOMINO基准下测试


这对 VLA 模型是一个极端的分布外测试,因为绝大多数训练数据都是静态场景。


Qwen-VLA 在完全零样本的条件下(没有使用任何 DOMINO 训练数据)达到 26.6% 成功率——不仅大幅超越零样本的 π₀.₅(7.46%)和 OpenVLA-OFT(6.7%),甚至超越了专门在 DOMINO 数据上微调的 PUMA(17.2%)。



这一能力归因于两个因素:flow-matching 动作解码器产生连贯的动作块,减少了犹豫和迟疑,帮助策略在窄时间窗口内精准动作;大规模联合预训练(操作+导航+轨迹预测+视觉-语言数据)提供了可迁移的视觉定位、空间推理和连续控制先验。



通用模型超越导航专家

Qwen-VLA 在视觉-语言导航连续环境(VLN-CE)基准上达到最佳成功率——R2R(57.5%)和 RxR(59.6%)均超越专用导航模型 StreamVLN。作为一个同时兼顾操作、导航和追踪的通用模型,这一结果尤为有意义。




Qwen-VLA导航与跟踪能力


Qwen-VLA 的任务自适应 token 分配机制是导航性能的关键:它为长时程指令跟随分配更大的视觉 token 预算,使模型能保留比固定均匀采样(NavFoM)或滑动窗口上下文(ABot-N0)更丰富的 episode 历史。


结语

Qwen-VLA 的核心贡献不在于任何单一的数字突破,而在于系统性地证明了一个假设:操作、导航和轨迹预测确实可以被视为同一个"条件动作预测问题"的不同实例化,而跨本体泛化可以通过将硬件差异编码为自然语言来优雅地实现。


如果说过去两年 VLA 模型还在"做一个机器人、做一个任务、训一个模型"的阶段挣扎,那么 Qwen-VLA 是把整个领域往"做一个通用具身大脑"这条路推了实质性的一步。剩下的,是数据、硬件和工程的共同努力。


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询