2026年6月11日 周四晚上19:30,报名腾讯会议了解“业务抓夹如何成为前线部署工程师(FDE)”(限30人)
免费POC, 零成本试错
FDE知识库

FDE知识库

学习大模型的前沿技术与行业落地应用


我要投稿

小鹏集团发布X-Foresight:学习世界知识赋能智驾,开创预测模型新范式

发布日期:2026-06-08 12:52:25 浏览次数: 1537
作者:小鹏汽车

微信搜一搜,关注“小鹏汽车”

推荐语

小鹏发布X-Foresight系统,通过预测式世界模型从视频中学习物理规律,实现驾驶决策的本质跃升。

核心内容:
1. 自动驾驶世界知识为何必须从驾驶视频中学习
2. X-Foresight如何通过联合预测未来画面与动作内化世界知识
3. 该系统相比传统反应式VLA模型的核心优势与突破

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
  • 继 2026 年 3 月发布 X-World、4 月发布 X-Cache 之后,近日,小鹏集团正式发布 X-Foresight,一套基于预测式世界模型(Predictive World Modeling)的视觉-动作因果预测网络。

  • X-Foresight 把世界建模直接嵌入自动驾驶的 VLA架构,通过联合预测未来画面与驾驶动作,从海量真实驾驶视频中习得物理世界的运行规律,更好执行控车决策,实现驾驶能力的本质跃升。



物理世界知识 核心承载于视频

大语言模型在编程、数学领域的能力突破,源于文本模态承载了对应领域的全部知识,模型通过海量文本训练即可完成知识学习。知识的承载模态,决定了模型的学习与建模方式。

基于这一核心逻辑,小鹏提出物理 AI 领域的关键判断:自动驾驶所需的世界知识,并非存在于纯文本或图文对中,而是密集编码于驾驶视频内。没有一本书会记录在突发行人鬼探头场景中行人如何反应、自车如何决策。相反,海量驾驶视频会存储静态场景、交通控制、自车行为、周围物体行为等多维度世界信息。如同大语言模型依托文本习得数理编程知识,自动驾驶系统需通过世界模型从视频中萃取物理世界知识,X-Foresight 正是小鹏打造的专属物理世界知识学习引擎。

闭环推演(Closed-loop rollout):

七路环视摄像头以 4 Hz 的频率进行自回归预测;每一帧画面均由大型驾驶模型(LDM)预测的摄像头 Token 渲染生成



X-Foresight:以预测式建模内化世界知识

X-Foresight 的核心,是把预测式世界模型直接融入 VLA,在统一的 token 空间内联合预测未来的多视角画面(video)与自车动作(action)。这样做的核心价值是,车辆行驶轨迹是世界环境演化的组成部分,同步预测未来画面,可以让模型依托单一数据集获取更密集的监督信号,将视频中的物理动力学规律、长时因果关系转化为模型固有认知,为 VLA 架构控车决策提供核心支撑。

这也是 X-Foresight 与传统 VLA 模型的本质区别。传统 VLA 属于反应式决策逻辑,仅学习 “当前观测对应执行动作” 的关联,不关注环境演化规律与因果逻辑;X-Foresight 采用预测式决策逻辑,输出动作的同时需完成未来世界状态预测,倒逼模型掌握车辆、行人运动规律与场景因果链条。凭借更扎实的世界知识储备,X-Foresight 在驾驶决策层面全面超越传统反应式 VLA 基线模型。

围绕 “从视频高效学习世界知识” 的核心目标,X-Foresight 针对性破解时序两难、长程漂移、采样失衡、渲染失真等一系列核心技术难题,构建完整的技术实现路径。

(A) X-Foresight 的推理流程

(B) 在 t=2 s、t=4 s、t=6 s 时刻预测未来帧的闭环推理可视化结果

(C) X-Foresight 在多项基准测试中均优于基线方法


拉长预测视界 捕捉长时因果知识

驾驶行为的长时因果关系,是世界知识的核心组成部分。例如变道超车的操作,可能引发数百米后错过导航出口的结果,此类关联仅通过短时序预测无法习得。

X-Foresight 主动拓展训练预测视界,实测数据验证:当训练视界从 1 个时间块扩展至 21 个时间块时,安全、合规等与长时世界因果强相关的指标实现持续提升,印证长时序预测是习得世界知识的核心前提。

多出口环岛下,X-Foresight根据实际情况追踪目标出口

夜间十字路口下,X-Foresight预测信号灯转换


长时域分块自回归 破解预测退化与时序困境

长时预测面临两大核心难题:一是预测退化,视频帧冗余度高,传统逐帧预测易退化为像素外推,无法学习物理规律;二是时序困境,瞬时动态知识需高帧率稠密预测,长时因果学习需跨时长稀疏预测,二者难以兼顾。

X-Foresight 采用长时域分块自回归策略,将时间序列划分为多个模块:块内保留稠密帧,精准捕捉车辆转弯、行人移动等瞬时动态;块间采用稀疏长跨度过渡,高效学习长时因果关系。模型由此掌握运动惯性、转弯弧度等物理常识,而非简单完成像素外推。


课程学习策略 实现长时序稳定训练

直接开展长时序训练,存在收敛不稳定、算力成本过高的问题。一方面模型预测能力需循序渐进培养,另一方面序列长度增加会导致算力消耗呈指数级上升。

X-Foresight 采用课程学习配合扩展视界策略,训练初期以短视界、紧密相接的时间块起步,模型稳定后逐步将块间时间步长从 1 秒扩展至 3 秒。在不增加算力预算的前提下,平稳提升模型长时预测能力,兼顾训练稳定性与落地可行性。


时序重要性采样 聚焦安全关键场景学习

驾驶视频中,平稳巡航片段占比极高,急刹、变道、加塞等安全关键场景仅为少数。均匀采样会浪费监督信号,稀释核心知识学习效果。

X-Foresight 创新应用时序重要性采样技术,依据车辆纵向、横向加速度识别并加权安全关键片段,将算力与监督资源集中投向核心场景。实测数据显示,该技术进一步降低碰撞率,实现最优安全指标,验证了精准学习的有效性。


半因果块稀疏注意力 提升长序列训练效率

注意力机制是长序列训练的核心算力瓶颈,内存占用和计算成本随着序列长度的增加而呈二次方增长,大幅提升训练成本。

X-Foresight 采用半因果块稀疏注意力机制,保留模块内双向注意力与全局指令访问权限,对跨块冗余交互施加块级稀疏约束,按时间偏移奇偶性分组注意力头,让关注块数随序列长度线性增长。最终训练吞吐量较传统方案提升 1.59 倍,保障长时序世界建模的工程化落地。

用于长序列训练的半因果块稀疏注意力掩码

两个面板展示了分配给不同注意力头组的互补稀疏模式


双核心架构 实现预测 - 渲染 - 控车一体化

X-Foresight 依托两大核心模块,构建 “世界预测 + 高清渲染 + 实时控车” 的完整闭环:

  • Large Drive Model(LDM,大型驾驶模型):一个自回归 Transformer,同步预测未来控车动作、鸟瞰图(BEV,Bird's-Eye-View)与多视角 latent tokens,将世界建模与动作控制统一于同一框架。

  • 视觉渲染器(Vision Renderer):基于 X-World 优化的扩散式多视角渲染器与 3D 因果 VAE(Variational Auto-Encoder,变分自编码器),将抽象预测转化为高清、几何一致的 7 路环视摄像头画面并闭环反馈。1 秒预测视界 FID 值低至 1.51,6 秒长时预测仍保持极低漂移,支撑持续稳定的长时预测。

训练流程示意



海量实景数据 筑牢世界知识学习基础

世界知识的学习质量,依赖数据的规模与多样性。X-Foresight 基于小鹏 28 万小时自有驾驶数据训练,涵盖 3400 万条视频片段,token 规模达 13.8 万亿,采用 7 目环视摄像头(前鱼眼、前长焦、左右前、左右后、后)实现 360 度无死角覆盖。

数据覆盖城市道路(86.8%)、高速(13.2%),并保留环岛、匝道、收费站、弱势道路使用者交互等长尾安全场景,为世界建模提供了广覆盖、高质量的真实样本。



实测性能验证 世界知识转化为控车实力

经实测,X-Foresight 在规划安全与生成保真度上全面领先传统基线:

  • 碰撞率相对下降 16.2%,安全(Safety)指标提升 9.1%,合规(Compliance)指标提升 8.2%

  • 轨迹横向、纵向 ADE(Average Displacement Error,平均位移误差)的表现分别提升 6.4%、3.6%,FDE(Final Displacement Error,终点位移误差)的表现分别提升 8.8%、4.1%;

  • 依据小鹏的CCES(合规性-Compliance、舒适性-Comfort、效率-Efficiency、安全性-Safety)测评指标体系,X-Foresight在四个指标上的综合表现提升了4.6%。

在实际场景中,X-Foresight 展现出前瞻性决策能力:多出口环岛场景下,精准锚定导航目标出口,不受近处出口干扰;夜间路口场景中,预判信号灯切换趋势,平稳通过路口而非盲目制动。对比传统VLA模型的车道偏离、盲目制动问题,充分印证预测式建模与世界知识习得对驾驶决策的核心赋能。

X-Foresight与基线模型进行的实测数据对比



全栈协同:构筑小鹏世界模型自动驾驶生态

X-Foresight 与此前发布的 X-World(多视角世界仿真)、X-Cache(世界模型推理加速)形成完整技术闭环:

  • X-World 负责虚实映射与场景推演,提供可供策略训练的仿真环境;

  • X-Cache 提供无损推理加速;

  • X-Foresight 从海量视频中习得世界知识,实现更优驾驶决策。

三者协同构建 “知识学习 - 场景仿真 - 推理加速” 全栈体系,为小鹏自动驾驶模型训练、仿真验证、持续迭代提供全链路技术支撑。



以科技突破定义智能辅助驾驶新高度

作为第二代VLA的核心技术,X-Foresight 将持续迭代,深度融入小鹏下一代智驾系统。随着更多来源、更大规模视频的纳入,模型所能习得的物理世界知识也将不断扩展,推动高阶自动驾驶从“能用”走向“好用、敢用”。

近日,小鹏 GX 正式上市,首发搭载小鹏第二代VLA XOS 6.2.0版本,首次向用户提供无导航下的园区及地库漫游,带来更多场景下的智能辅助驾驶体验。逐步丰富的智驾场景与优秀的智驾体验背后,是小鹏在物理 AI 底层技术上的持续投入。

北京时间6月4日,全球计算机视觉顶级学术会议CVPR 2026将在美国科罗拉多州丹佛开幕。作为唯一受邀演讲的中国企业,小鹏集团通用智能中心负责人刘先明将出席CVPR首届具身智能基座模型部署研讨会,与特斯拉、Waymo、英伟达等国际头部科技企业同台交流。这也是小鹏集团第三次受邀在这一国际顶会登台演讲,届时,刘先明将向全球同行分享小鹏物理AI的最新研发进展。

小鹏汽车将持续深耕世界模型核心技术,以科技突破定义智能辅助驾驶新高度,为用户带来全场景、超安心的智能出行体验。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询