我要投稿

仅3B激活参数，更强的多模态理解与推理能力，百度文心 ERNIE-4.5-VL-28B-A3B-Thinking正式开源！

发布日期：2025-11-11 21:14:10 浏览次数： 2483

作者：魔搭ModelScope社区

微信搜一搜，关注“魔搭ModelScope社区”

11月11日，百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数，媲美顶级大模型性能！

ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型，在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力，在理科与文科综合推理、通用视觉推理等任务中表现优异，展现出更强的跨模态推理与问题解决能力。同时，结合空间定位与工具调用，该模型推出“图像思考”等创新功能，为多模态思维与交互应用带来更丰富的可能。

文心4.5系列开源模型全景

ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源，允许商业使用。该模型的预训练权重、推理代码和项目均已开源发布，FastDeploy、vLLM、Transformers等开源工具已经实现了对该模型的支持，可以直接加载模型并使用。

Github：

https://github.com/PaddlePaddle/ERNIE
https://github.com/PaddlePaddle/FastDeploy

Model：

https://www.modelscope.cn/models/PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Thinking

飞桨星河社区：
https://aistudio.baidu.com/modelsdetail/39280/intro

文心大模型技术Blog：
https://yiyan.baidu.com/blog/ernie4.5

01

核心亮点速递

基于强大的ERNIE-4.5-VL-28B-A3B架构，全新升级的ERNIE-4.5-VL-28B-A3B-Thinking在大规模多模态学习领域实现了实质性跃升。在中期训练（Mid-Training）阶段，模型引入了海量高质量视觉-语言数据，这显著增强了模型的表征能力与跨模态语义对齐能力，从而显著提升了视觉文本推理性能。

同时，ERNIE-4.5-VL-28B-A3B-Thinking在可验证的任务上采用大规模多模态强化学习，它利用GSPO和IcePop策略来稳定基于MoE的RL训练，结合了动态难度采样机制，提升强化学习的有效率。

研究团队注意到，社区开发者对模型的定位能力有着显著需求。为此，进一步强化了该能力，并提升了模型的指令遵循性。当用户需要时，可更便捷地触发视觉定位功能。

此外，研究团队引入了“图像思考”创新能力，让本模型兼备图片放大和图片搜索等工具调用能力，因此本模型与环境交互的能力显著提升，能够有效帮助开发者们构建多模态智能体。

ERNIE-4.5-VL-28B-A3B-Thinking作为激活仅3B的轻量级模型，在各项测试中的表现紧咬业界顶级旗舰模型，以轻量级规模实现了接近SOTA的视觉表现。

小模型，大能量

（左右滑动查看大图）

视觉推理

通过大规模强化学习策略，模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。

复杂图表解析，避开高峰时段

（上下滑动查看）

学科计算

凭借强大视觉能力，模型在拍照解题等学科推理中实现飞跃式提升，复杂题目也能轻松搞定！

解决物理学科电阻问题 📝

（上下滑动查看）

视觉定位（Grounding）

定位更精准，指令执行更灵活，轻松触发复杂工业场景下的定位功能，效率直线上升！

快速识别穿西服戴礼帽人物数量及定位🎩

模型Grounding输出结果的可视化——图中边界框对应模型生成的 “穿西装的人” 的bbox_2d坐标。

（上下滑动查看）

图像思考（Thinking with Images）

如同真人般思考，模型可对图片自由放大缩小，把控每个细节，洞察每一处信息！

支持图片自由放大，识别图片细节信息 🔍

（上下滑动查看）

工具调用

具备强大的工具调用能力，模型可即时调用图片搜索等功能，轻松识别长尾知识，实现全方位信息获取！

工具调用认识更多热门IP🙌

（上下滑动查看）

视频理解

模型具备卓越的时间感知与事件定位能力，能够精准识别视频中不同时间段的内容变化，让视频分析更智能、更高效！

卓越定位广告片不同时段内容变化、分析更智能📹

（上下滑动查看）

同时，为方便社区开发者适配和拓展应用场景，官方提供了涵盖Transformers、vLLM、大模型高效部署套件FastDeploy、文心大模型开发套件ERNIEKit等开箱即用的工具和全流程的支持。共邀广大开发者即刻启动，反馈真实需求和使用体验。接下来官方将陆续推出详尽、实用的技术教程与最佳实践，与全球开发者携手共进，推动大模型技术在更多领域落地。