微信扫码
添加专属顾问
我要投稿
百度文心ERNIE-4.5-VL-28B-A3B-Thinking以仅3B激活参数实现顶级性能,开源助力多模态AI发展!核心内容: 1. 模型在视觉语言多模态理解与推理能力的突破性提升 2. 创新功能"图像思考"与强化定位能力带来的交互新可能 3. 全面开源支持,包括预训练权重与主流工具链适配
11月11日,百度文心多模态思考模型ERNIE-4.5-VL-28B-A3B-Thinking正式开源。本模型仅3B激活参数,媲美顶级大模型性能!
ERNIE-4.5-VL-28B-A3B-Thinking是在ERNIE-4.5-VL-28B-A3B基础上训练的深度思考模型,在视觉语言多模态理解能力上实现了显著提升。模型具备领先的文档与图表理解能力,在理科与文科综合推理、通用视觉推理等任务中表现优异,展现出更强的跨模态推理与问题解决能力。同时,结合空间定位与工具调用,该模型推出“图像思考”等创新功能,为多模态思维与交互应用带来更丰富的可能。
文心4.5系列开源模型全景
ERNIE-4.5-VL-28B-A3B-Thinking模型以Apache License 2.0协议开源,允许商业使用。该模型的预训练权重、推理代码和项目均已开源发布,FastDeploy、vLLM、Transformers等开源工具已经实现了对该模型的支持,可以直接加载模型并使用。
Github:
https://github.com/PaddlePaddle/ERNIE
https://github.com/PaddlePaddle/FastDeploy
Model:
https://www.modelscope.cn/models/PaddlePaddle/ERNIE-4.5-VL-28B-A3B-Thinking
飞桨星河社区:
https://aistudio.baidu.com/modelsdetail/39280/intro
https://yiyan.baidu.com/blog/ernie4.5
基于强大的ERNIE-4.5-VL-28B-A3B架构,全新升级的ERNIE-4.5-VL-28B-A3B-Thinking在大规模多模态学习领域实现了实质性跃升。在中期训练(Mid-Training)阶段,模型引入了海量高质量视觉-语言数据,这显著增强了模型的表征能力与跨模态语义对齐能力,从而显著提升了视觉文本推理性能。
同时,ERNIE-4.5-VL-28B-A3B-Thinking在可验证的任务上采用大规模多模态强化学习,它利用GSPO和IcePop策略来稳定基于MoE的RL训练,结合了动态难度采样机制,提升强化学习的有效率。
研究团队注意到,社区开发者对模型的定位能力有着显著需求。为此,进一步强化了该能力,并提升了模型的指令遵循性。当用户需要时,可更便捷地触发视觉定位功能。
此外,研究团队引入了“图像思考”创新能力,让本模型兼备图片放大和图片搜索等工具调用能力,因此本模型与环境交互的能力显著提升,能够有效帮助开发者们构建多模态智能体。
ERNIE-4.5-VL-28B-A3B-Thinking作为激活仅3B的轻量级模型,在各项测试中的表现紧咬业界顶级旗舰模型,以轻量级规模实现了接近SOTA的视觉表现。
(左右滑动查看大图)
视觉推理
通过大规模强化学习策略,模型在复杂视觉任务中展现卓越的多步推理、图表解析与因果推理能力。
复杂图表解析,避开高峰时段
学科计算
凭借强大视觉能力,模型在拍照解题等学科推理中实现飞跃式提升,复杂题目也能轻松搞定!
解决物理学科电阻问题 📝
视觉定位(Grounding)
定位更精准,指令执行更灵活,轻松触发复杂工业场景下的定位功能,效率直线上升!
快速识别穿西服戴礼帽人物数量及定位🎩
模型Grounding输出结果的可视化——图中边界框对应模型生成的 “穿西装的人” 的bbox_2d坐标。
图像思考(Thinking with Images)
如同真人般思考,模型可对图片自由放大缩小,把控每个细节,洞察每一处信息!
支持图片自由放大,识别图片细节信息 🔍
工具调用
具备强大的工具调用能力,模型可即时调用图片搜索等功能,轻松识别长尾知识,实现全方位信息获取!
工具调用认识更多热门IP🙌
视频理解
模型具备卓越的时间感知与事件定位能力,能够精准识别视频中不同时间段的内容变化,让视频分析更智能、更高效!
卓越定位广告片不同时段内容变化、分析更智能📹
同时,为方便社区开发者适配和拓展应用场景,官方提供了涵盖Transformers、vLLM、大模型高效部署套件FastDeploy、文心大模型开发套件ERNIEKit等开箱即用的工具和全流程的支持。共邀广大开发者即刻启动,反馈真实需求和使用体验。接下来官方将陆续推出详尽、实用的技术教程与最佳实践,与全球开发者携手共进,推动大模型技术在更多领域落地。
👇点击关注ModelScope公众号获取 更多技术信息~
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-11
用AI写文档,又害怕隐私泄露?不慌,Libra拯救你!
2025-11-11
Aiops探索:基于 Dify + Kubernetes MCP Server 的智能运维实践
2025-11-11
Vibe Coding 何必只在桌面 IDE,多端智能体协同的思考与设计
2025-11-11
只用 Claude Skills,打造专属 AI 伴侣|附完整教程
2025-11-11
Step-Audio-EditX:用大语言模型“雕琢”声音,开启音频编辑新视界!
2025-11-10
开源安全审核模型终极PK:Qwen3Guard、OpenAI-SafeGuard、Llama4-Guard谁才是王者?
2025-11-10
代码采纳率如何提升至50%?AI 自动编写单元测试实践总结
2025-11-10
成本降到 2% 的 Agent 方案:把工具调用搬进执行环境
2025-08-20
2025-09-07
2025-08-20
2025-08-26
2025-08-22
2025-09-06
2025-10-20
2025-08-22
2025-09-08
2025-10-27
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17
2025-09-09