我要投稿

理想汽车AI新技术曝光，人工智能企业真不是李想说说而已。

发布日期：2025-04-28 13:11:39 浏览次数： 1748

作者：AcademicDaily

微信搜一搜，关注“AcademicDaily”

从 BEV 大模型到端到端自动驾驶，从 Mind GPT-3o 到 VLA 模型，理想正以每周两次的迭代速度重构汽车的 AI 基因。

但在这场智能革命的背后，一个核心难题始终困扰着工程师：如何让汽车在海量视频数据中精准捕捉关键信息？

今天，我们揭秘理想汽车最新技术突破——MCAF（多模态粗到细注意力聚焦框架）

这项被内部称为 “自动驾驶第三只眼” 的黑科技，将彻底改写长视频理解的效率规则。

你知道吗？理想汽车的 AD Max 3.0 系统每天处理超过29 亿公里的驾驶数据，其中80%是视频流。但传统方法面临三大痛点：

MCAF 的破局之道：

【论文链接】https://arxiv.org/pdf/2504.17213v1

摘要

即使在大模型快速发展的时代，视频理解，尤其是长视频理解，仍然极具挑战性。

与基于文本或图像的信息相比，视频通常包含更多冗余信息，这要求大模型在全局层面战略性地分配注意力以实现准确理解。

为此提出了 MCAF，这是一种基于智能体的、无需训练的框架，通过多模态粗到细注意力聚焦来进行视频理解。

其关键创新在于能够感知视频中与理解任务高度相关的片段，并对其进行优先级排序。

首先，MCAF 通过多模态信息分层聚焦于高度相关的帧，增强了获取的上下文信息与查询之间的相关性。

其次，它采用扩张时间扩展机制，以降低从这些聚焦帧中提取信息时遗漏关键细节的风险。

此外，本框架结合了一种自我反思机制，利用模型响应的置信度作为反馈。通过迭代应用这两种创新的聚焦策略，它自适应地调整注意力，以捕捉与查询高度相关的上下文，从而提高响应准确性。

MCAF 平均性能优于同类最先进的方法。在 EgoSchema 数据集上，它比领先方法的性能提升了 5%，表现显著。

同时，在 Next-QA 和 IntentQA 数据集上，它分别比当前最先进的标准高出 0.2% 和 0.3%。

在视频平均时长近一小时的 Video-MME 数据集上，MCAF 也优于其他基于智能体的方法。

背景

近年来，视频在各领域应用愈发广泛，视频理解任务成为多模态研究热点。

但与文本和图像数据相比，视频数据时空跨度大、语义内容复杂、冗余度高，给视频分析方法带来巨大挑战。

大语言模型在自然语言处理领域成果显著，基于此的多模态大语言模型在图像理解任务中表现出色，但应用于视频理解时存在困难。

一方面，视频数据量大、信息密度高、冗余度高，处理难度大。

另一方面，基于视频-多模态大语言模型的方法通常架构复杂，需大量训练和数据标注，监督微调会削弱模型泛化能力，数据压缩操作易丢失细节，且缺乏自主探索能力。

基于智能体的框架利用预训练语言模型的理解和决策能力构建多智能体协作系统，在动态任务分配和自动化工具使用方面具有优势，无需训练，对高质量标注数据依赖小。

因此，本文提出 MCAF，模仿人类认知策略进行视频理解。

贡献

多模态分层相关性检索及时空增强：开发了一种新颖的基于多模态的分层相关性过滤模块，并结合高效的语义提取策略，为大语言模型检索最相关的上下文，增强长视频理解的有效性和全面性。
高效的自我反思机制：使用单个大语言模型实现了自适应自我反思机制。通过响应置信度反馈引导的迭代注意力聚焦调整，系统自主获取高相关性的上下文信息，显著提高了准确性。在主要视频问答基准测试中的对比实验证明了基于单个大语言模型的自我反思模块的优越性。
即插即用架构：MCAF 与主流大语言模型和多模态大语言模型兼容。其架构确保了该解决方案的性能能从这些模型未来的进步中自动受益。