支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


理想汽车AI新技术曝光,人工智能企业真不是李想说说而已。

发布日期:2025-04-28 13:11:39 浏览次数: 1558 作者:AcademicDaily
推荐语

理想汽车引领AI技术革新,打破传统汽车行业边界。

核心内容:
1. 理想汽车AI技术突破,构建汽车行业新基因
2. MCAF技术:自动驾驶的“第三只眼”,提升长视频理解效率
3. 理想汽车AD Max 3.0系统处理海量驾驶数据,优化视频流处理

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家

从 BEV 大模型到端到端自动驾驶,从 Mind GPT-3o 到 VLA 模型,理想正以每周两次的迭代速度重构汽车的 AI 基因。
但在这场智能革命的背后,一个核心难题始终困扰着工程师:如何让汽车在海量视频数据中精准捕捉关键信息?
今天,我们揭秘理想汽车最新技术突破——MCAF(多模态粗到细注意力聚焦框架)
这项被内部称为 “自动驾驶第三只眼” 的黑科技,将彻底改写长视频理解的效率规则。

你知道吗?理想汽车的 AD Max 3.0 系统每天处理超过29 亿公里的驾驶数据,其中80%是视频流。但传统方法面临三大痛点:

  • 冗余信息过载:1 小时视频包含 10 万帧画面,其中仅0.3%与决策相关;

  • 算力消耗爆炸:端到端模型处理 1 小时视频需8.1EFLOPS算力,相当于 10 万台家用电脑;

  • 紧急场景漏检:高速弯道、加塞车辆等场景,系统接管率高达5%(理想用户实测数据)。

MCAF 的破局之道:

  • 像人类一样 “扫描-聚焦”:先快速过滤 99.7% 的冗余帧,再对关键片段进行毫秒级分析;

  • 自我反思机制:通过置信度反馈动态调整注意力,让系统越用越 “聪明”;

  • 即插即用架构:兼容理想自研的 Mind GPT-3o 与 BEV 大模型,无需重新训练。







【论文链接】https://arxiv.org/pdf/2504.17213v1



1


摘要


即使在大模型快速发展的时代,视频理解,尤其是长视频理解,仍然极具挑战性。
与基于文本或图像的信息相比,视频通常包含更多冗余信息,这要求大模型在全局层面战略性地分配注意力以实现准确理解。
为此提出了 MCAF,这是一种基于智能体的、无需训练的框架,通过多模态粗到细注意力聚焦来进行视频理解。
其关键创新在于能够感知视频中与理解任务高度相关的片段,并对其进行优先级排序。
首先,MCAF 通过多模态信息分层聚焦于高度相关的帧,增强了获取的上下文信息与查询之间的相关性。
其次,它采用扩张时间扩展机制,以降低从这些聚焦帧中提取信息时遗漏关键细节的风险。
此外,本框架结合了一种自我反思机制,利用模型响应的置信度作为反馈。通过迭代应用这两种创新的聚焦策略,它自适应地调整注意力,以捕捉与查询高度相关的上下文,从而提高响应准确性。
MCAF 平均性能优于同类最先进的方法。在 EgoSchema 数据集上,它比领先方法的性能提升了 5%,表现显著。
同时,在 Next-QA 和 IntentQA 数据集上,它分别比当前最先进的标准高出 0.2% 和 0.3%。
在视频平均时长近一小时的 Video-MME 数据集上,MCAF 也优于其他基于智能体的方法。




2


背景


近年来,视频在各领域应用愈发广泛,视频理解任务成为多模态研究热点。
但与文本和图像数据相比,视频数据时空跨度大、语义内容复杂、冗余度高,给视频分析方法带来巨大挑战。
大语言模型在自然语言处理领域成果显著,基于此的多模态大语言模型在图像理解任务中表现出色,但应用于视频理解时存在困难。
一方面,视频数据量大、信息密度高、冗余度高,处理难度大。
另一方面,基于视频-多模态大语言模型的方法通常架构复杂,需大量训练和数据标注,监督微调会削弱模型泛化能力,数据压缩操作易丢失细节,且缺乏自主探索能力。
基于智能体的框架利用预训练语言模型的理解和决策能力构建多智能体协作系统,在动态任务分配和自动化工具使用方面具有优势,无需训练,对高质量标注数据依赖小。
因此,本文提出 MCAF,模仿人类认知策略进行视频理解。



3


贡献


  1. 多模态分层相关性检索及时空增强:开发了一种新颖的基于多模态的分层相关性过滤模块,并结合高效的语义提取策略,为大语言模型检索最相关的上下文,增强长视频理解的有效性和全面性。

  2. 高效的自我反思机制:使用单个大语言模型实现了自适应自我反思机制。通过响应置信度反馈引导的迭代注意力聚焦调整,系统自主获取高相关性的上下文信息,显著提高了准确性。在主要视频问答基准测试中的对比实验证明了基于单个大语言模型的自我反思模块的优越性。

  3. 即插即用架构:MCAF 与主流大语言模型和多模态大语言模型兼容。其架构确保了该解决方案的性能能从这些模型未来的进步中自动受益。


4


技术方案


MCAF 模仿人类推理过程,主要包含以下步骤(见上图):

视频片段聚类:对输入视频进行帧采样,基于视觉特征聚类,得到聚类中心帧和视频片段。

多模态粗到细相关性感知(MCRS):粗选阶段,初始化时因缺乏目标视频先验知识,将所有聚类中心帧作为高度相关帧。

后续轮次中,大语言模型依据上下文进行粗选。

精选阶段,针对粗选结果可能遗漏关键细节的问题,引入基于视觉特征的相关性筛选机制,通过基于令牌的相似性匹配,将聚焦粒度细化到帧级别。

扩张时间扩展(DTE):对精选出的相关帧进行时间上的扩张,以扩大时间感受野,获取更全面信息(见图 4)。

基于迭代响应置信度的自我反思:大语言模型不仅基于获取的上下文生成响应,还评估提取信息的相关性并给出置信度分数。

若置信度分数不满足要求,则重复相关步骤调整注意力聚焦,直至生成高置信度的响应。


5


实验结果


本文在多个视频理解基准数据集上进行实验(相关表格见文中 Table I - Table VIII):

结果分析:MCAF 在三个数据集上平均性能优于其他方法。在 EgoSchema 数据集上,比之前的领先方法性能提升 5%。

在 Next-QA 数据集上,总体性能比其他方法高 0.2%;在 IntentQA 数据集上,比第二名高出 0.2%。

在 Video-MME 的长视频部分,其响应准确率达 57.1%,优于其他基于智能体的解决方案和一些开源视频模型。

自我反思机制实验表明,MCAF 通过多轮自我反思显著提高响应准确率,优于 DrVideo 和 VideoAgent。

消融实验:在 EgoSchema 数据集上进行消融实验,验证了自我反思机制、MCRS 模块和 DTE 模块的重要性,同时探究了不同视觉编码器、VLM、LLM 以及相关超参数对性能的影响。

END

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询