微信扫码
添加专属顾问
我要投稿
理想汽车引领AI技术革新,打破传统汽车行业边界。 核心内容: 1. 理想汽车AI技术突破,构建汽车行业新基因 2. MCAF技术:自动驾驶的“第三只眼”,提升长视频理解效率 3. 理想汽车AD Max 3.0系统处理海量驾驶数据,优化视频流处理
你知道吗?理想汽车的 AD Max 3.0 系统每天处理超过29 亿公里的驾驶数据,其中80%是视频流。但传统方法面临三大痛点:
冗余信息过载:1 小时视频包含 10 万帧画面,其中仅0.3%与决策相关;
算力消耗爆炸:端到端模型处理 1 小时视频需8.1EFLOPS算力,相当于 10 万台家用电脑;
紧急场景漏检:高速弯道、加塞车辆等场景,系统接管率高达5%(理想用户实测数据)。
MCAF 的破局之道:
像人类一样 “扫描-聚焦”:先快速过滤 99.7% 的冗余帧,再对关键片段进行毫秒级分析;
自我反思机制:通过置信度反馈动态调整注意力,让系统越用越 “聪明”;
即插即用架构:兼容理想自研的 Mind GPT-3o 与 BEV 大模型,无需重新训练。
【论文链接】https://arxiv.org/pdf/2504.17213v1
摘要
背景
贡献
多模态分层相关性检索及时空增强:开发了一种新颖的基于多模态的分层相关性过滤模块,并结合高效的语义提取策略,为大语言模型检索最相关的上下文,增强长视频理解的有效性和全面性。
高效的自我反思机制:使用单个大语言模型实现了自适应自我反思机制。通过响应置信度反馈引导的迭代注意力聚焦调整,系统自主获取高相关性的上下文信息,显著提高了准确性。在主要视频问答基准测试中的对比实验证明了基于单个大语言模型的自我反思模块的优越性。
即插即用架构:MCAF 与主流大语言模型和多模态大语言模型兼容。其架构确保了该解决方案的性能能从这些模型未来的进步中自动受益。
技术方案
MCAF 模仿人类推理过程,主要包含以下步骤(见上图):
视频片段聚类:对输入视频进行帧采样,基于视觉特征聚类,得到聚类中心帧和视频片段。
多模态粗到细相关性感知(MCRS):粗选阶段,初始化时因缺乏目标视频先验知识,将所有聚类中心帧作为高度相关帧。
后续轮次中,大语言模型依据上下文进行粗选。
精选阶段,针对粗选结果可能遗漏关键细节的问题,引入基于视觉特征的相关性筛选机制,通过基于令牌的相似性匹配,将聚焦粒度细化到帧级别。
扩张时间扩展(DTE):对精选出的相关帧进行时间上的扩张,以扩大时间感受野,获取更全面信息(见图 4)。
基于迭代响应置信度的自我反思:大语言模型不仅基于获取的上下文生成响应,还评估提取信息的相关性并给出置信度分数。
若置信度分数不满足要求,则重复相关步骤调整注意力聚焦,直至生成高置信度的响应。
实验结果
本文在多个视频理解基准数据集上进行实验(相关表格见文中 Table I - Table VIII):
结果分析:MCAF 在三个数据集上平均性能优于其他方法。在 EgoSchema 数据集上,比之前的领先方法性能提升 5%。
在 Next-QA 数据集上,总体性能比其他方法高 0.2%;在 IntentQA 数据集上,比第二名高出 0.2%。
在 Video-MME 的长视频部分,其响应准确率达 57.1%,优于其他基于智能体的解决方案和一些开源视频模型。
自我反思机制实验表明,MCAF 通过多轮自我反思显著提高响应准确率,优于 DrVideo 和 VideoAgent。
消融实验:在 EgoSchema 数据集上进行消融实验,验证了自我反思机制、MCRS 模块和 DTE 模块的重要性,同时探究了不同视觉编码器、VLM、LLM 以及相关超参数对性能的影响。
END
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-04-30
Browser Use - 让AI能够控制你的浏览器
2025-04-30
手搓完字节AI硬件,我做了个五一智能旅行小装置(附万字沉浸式教程)
2025-04-30
Deepseek时代,智能硬件能带来新的“GPT时刻”吗?
2025-04-30
什么?动动嘴就能让大模型帮你整理电脑桌面?!
2025-04-28
EdgeLLM:数据并行、端到端编译器与混合精度的 CPU-FPGA 加速架构
2025-04-28
Nacos 3.0 正式发布:MCP Registry、安全零信任、链接更多生态
2025-04-28
我见过最聪明的浏览器 Dia,别争论什么是AI Native产品了,这个就是!
2025-04-28
实测通过!这款云电脑 MCP,真的可以平替 Manus
2024-03-30
2024-05-09
2024-07-23
2024-07-07
2025-02-12
2024-07-01
2024-06-24
2024-06-23
2024-10-20
2024-06-08