支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


打脸李彦宏,文心4.5技术报告详解来了!

发布日期:2025-07-01 07:30:45 浏览次数: 1566
作者:机智流

微信搜一搜,关注“机智流”

推荐语

百度文心4.5技术报告重磅解析,揭秘其创新的异构混合专家架构如何实现多模态突破。

核心内容:
1. 文心4.5采用创新的异构混合专家架构,实现跨模态知识融合
2. 自适应分辨率视觉编码器突破传统ViT模型限制
3. 精密的多阶段预训练策略确保模型全面性能表现

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家

李彦宏在2024年WAIC的发言

不知道还有小伙伴们记得去年李彦宏去年是怎么评价开源大模型的吗?

今年2月百步旗下文心官号的文章

大模型领域的变化就是这么快,不到半年,百度文心团队就在官号宣布在6月30日开源文心(ERNIE)4.5[1]系列。

ERNIE 4.5模型家族

虽然百度在国内大模型的竞争上似乎一直处于跟随状态,但好在这次没有食言。在今天准时上线了4.5,还在稍晚同步开源了开发工具和技术报告[2],我们也在第一时间推送了 ERNIE 4.5 上线的新闻,按照承诺,小编也第一时间和大家一起解析 ERNIE 4.5 的技术报告吧。

异构混合专家(Heterogeneous MoE)架构

此次开源的 ERNIE 4.5 模型家族涵盖了从 0.3B 到 424B 的众多模型,包含基础模型和视觉多模态模型(VLM)。除最小的0.3B 模型外,其余模型都采用了MOE架构。

这次 ERNIE 4.5 采用的是其创新的异构混合专家(Heterogeneous MoE)架构。与传统单模态 MoE 模型不同,ERNIE 4.5 采用了跨模态参数共享与专用专家相结合的策略,在文本和视觉模态之间构建了灵活的知识融合机制。这种设计允许模型在处理多模态任务时,既能够通过共享专家实现跨领域知识迁移,又能利用专用专家针对特定模态进行深度优化,从而在提升多模态理解能力的同时,进一步强化了文本相关任务的性能。

ERNIE 4.5的异构模态结构。

从技术实现来看,ERNIE 4.5 的异构 MoE 架构包含文本专家、视觉专家和共享专家三类 FFN 专家。文本和视觉 tokens 分别由各自的专用专家处理,同时通过共享专家实现跨模态信息整合。这种精细的设计不仅解决了传统多模态模型中模态干扰的难题,还通过视觉专家参数规模的优化(仅为文本专家的三分之一),显著提升了计算效率。实验数据显示,这种架构设计使得 ERNIE 4.5 在多模态任务中实现了性能与效率的双重突破。

在视觉处理模块,ERNIE 4.5 引入了自适应分辨率视觉编码器,打破了传统 ViT 模型对固定分辨率输入的限制。该编码器通过 2D 旋转位置嵌入(RoPE)技术,能够高效处理任意尺寸的图像输入,同时保留原始图像的宽高比例,避免了固定尺寸调整带来的信息失真。对于视频数据,模型采用动态帧分辨率采样策略,根据视频时长和可用序列长度自动调整帧数量和空间分辨率,结合时间戳渲染技术,实现了对视频内容的精准时序理解。

ERNIE Transformer各层专家使用情况。左图:文本模态专家组;右图:视觉模态专家组。

多阶段预训练(Pre-Training)策略

百度AI团队设计了一套精密的多阶段训练策略来确保ERNIE模型在不同任务场景中都能表现出色。

这一过程分为三个主要阶段,每一阶段都有明确的目标和方法。

ERNIE-4.5-VL-424B-A47B-Base 和 ERNIE-4.5-VL-28B-A3B-Base 模型的训练阶段。

第一阶段:文本专精训练

在训练的起点,ERNIE 4.5首先聚焦于文本数据。通过大规模的文本语料,模型学习语言的基本语义和结构,为后续的多模态任务奠定坚实基础。这一阶段可以看作是模型的“语言启蒙期”,旨在让它掌握扎实的语言建模能力。

第二阶段:联合训练的过渡

进入第二阶段,模型开始接触多模态数据,但仍以文本为主导。这一阶段的作用是让模型逐步适应多模态输入,同时保持其在文本任务上的优异表现。通过精心设计的训练目标,ERNIE 4.5在这一阶段实现了从单一模态到多模态的平稳过渡。

第三阶段:多模态深度融合

在训练的最后阶段,ERNIE 4.5全面迎接多模态挑战,学习如何处理文本和视觉输入的组合。

为了解决多模态模型由于输入长度变化导致专家负载不平衡和梯度不稳定,预训练过程还引入了新的损失函数,Router Orthogonalization LossToken-Balanced Loss,以优化模型在多模态任务中的稳定性和准确性。此外,团队还采用了Exponential Moving Average(EMA)技术,通过平滑参数更新,进一步提升模型的泛化能力。

不同 α 下 EMA 的学习率衰减。

后训练(Post-Training)

ERNIE 4.5 团队为后训练构建了一套精细的工作流,通过分模态优化策略与动态奖励系统,实现了从基础预训练到任务适配的平滑过渡。在预训练阶段完成后,模型通过 REEAO(Record Everything Everywhere All at Once)数据管理器实现了位级确定性的数据处理,确保训练过程可复现且无冗余,这为后训练的稳定性奠定了基础。

LLM 后训练:分层强化语言理解与推理能力

ERNIE-4.5 的 LLM 后训练流程图

针对纯语言模型(LLM)的后训练,ERNIE 4.5 采用 “监督微调 - 奖励建模 - 强化学习” 的三级优化链路。在监督微调(SFT)阶段,模型基于 230 万条多领域标注数据进行训练,数据覆盖科学数学、代码生成、逻辑推理等十大领域,并特别将推理任务分为 “思考型” 与 “非思考型” 两类 —— 前者要求模型生成链式思维(CoT)过程,后者侧重结果准确性。这种分类训练使模型在 BBH 逻辑推理基准中实现 77.5% 的准确率,较基线提升 4.8%。

在奖励模型构建上,ERNIE 4.5 创新性地设计了 “统一奖励系统( Unified Rewarding System)”,融合规则验证与 LLM 评判双重机制。对于数学推理等精确任务,采用 RLLM(参考引导的 LLM 评判)与 Sandbox 代码执行环境进行结果验证;而对于创意写作等开放任务,则通过 GRM(生成式奖励模型)与 DRM(判别式奖励模型)结合的方式,从内容连贯性与语义相关性双重维度打分。这种混合奖励机制使模型在 MATH 数学问题求解中达到 69.1 分,超越 Qwen3 等模型 5.3 分。

强化学习阶段引入 “渐进式强化学习(Progressive Reinforcement Learning )” 策略,分逻辑推理、数学编程、通用任务三阶段逐步扩展能力边界。其中 Unified Preference Optimization(UPO)算法将 DPO(直接偏好优化)损失融入 PPO 框架,通过在线拒绝采样生成偏好对,有效避免奖励博弈问题。在 HumanEval + 代码生成基准中,该策略使模型通过率提升至 84.8%,较传统 RL 方法提升 3.2%。

VLM 后训练

Illustration of VLM Post-Training for ERNIE-4.5-VL

视觉—语言模型(VLM)的后训练聚焦于视觉感知与语义推理的协同增强。ERNIE 4.5 采用 “感知数据合成 - 思考模式融合 - 验证性 RL” 的训练范式:首先通过程序生成几何图形、数学函数等合成数据,解决自然图像中视觉 - 文本对齐数据稀缺的问题,这类数据使模型在 CountBench 计数任务中准确率提升至 89.0%。

在思考模式训练中,模型通过 “文本推理冷启动 - 多模态拒绝采样 - 双模式融合” 三阶段实现能力跃升。第一阶段利用纯文本推理数据(如 GSM8K 数学题)构建逻辑基础,即使未接触视觉输入,模型也能生成 “让我再看一下图像” 等反思性语句;第二阶段通过 RLVR(可验证奖励强化学习)在视觉 STEM 任务中引入 OCRBench 文档解析、MathVista 公式理解等场景,使模型在 TableVQA 表格问答中达到 86.7% 的准确率。最终通过专家合并技术,将思考模式与非思考模式的专家参数融合,在保持视觉感知能力的同时,使多模态推理任务性能提升 12.3%。

ERNIE 4.5 多模式异构并行策略概述。

百度 ERNIE 团队还在技术报告中详细介绍了其训练框架和并行策略,干货很多,值得阅读原文学习。

性能验证

ERNIE 4.5 的纸面数据看起来还是很能打的,其在语言理解、知识问答、逻辑推理等多个领域的测试集中均实现了对现有模型的超越。

语言理解任务中,ERNIE-4.5-300B-A47B 模型在 C-Eval 基准测试中取得了 91.5 分的优异成绩,在 CMMLU 中文多任务理解测试中得分更是高达 91.2 分,这两项成绩均领先于 Qwen3、DeepSeek-V3 等同类模型。

数学推理任务中,模型在 GSM8K 数学问题求解中达到 91.8 分,在 MATH 高等数学问题测试中得分 69.1 分,展现出不错的数学逻辑推理能力。

多模态任务的测试结果同样靠前。ERNIE-4.5-VL-424B-A47B 模型在 OCRBench 文档解析任务中获得 872 分,在 TableVQA 表格理解任务中得分 86.7 分,在 MathVista 数学视觉推理任务中更是达到 78.9 分的高分,超越了 OpenAI-o1、Qwen2.5-VL 等知名模型,在多个维度上也刷新了多模态模型的性能上限。

值得注意的是,ERNIE 4.5 在保持高性能的同时,还实现了模型效率的优化。其轻量化版本 ERNIE-4.5-21B-A3B 模型在参数规模比 Qwen3-30B-A3B 小 30% 的情况下,在多个数学和推理基准测试中实现了性能反超,展现出卓越的参数效率。这种高效的模型设计使得 ERNIE 4.5 成为了国内开源大模型端侧部署的有力竞争者。

非思考模式下的 VLM 在多模态基准测试中的性能比较。

全链路工具链助力开发者创新

不知道是不是因为准备时间充足(开源的晚),百度 ERNIE 团队这次开源可以说开的很彻底,在发布 ERNIE 4.5 模型的同时,还开源了完整的开发工具链,包括 ERNIEKit[3] 训练工具和 FastDeploy[4] 推理部署工具,旨在降低开发者使用大模型的门槛,推动多模态 AI 技术的广泛应用。

ERNIEKit 是一个工业级的开发工具包,提供了从预训练、监督微调、低秩适应(LoRA)到量化感知训练(QAT)和后训练量化(PTQ)的全流程支持。其创新的 FP8-QAT 解决方案能够在大幅降低微调资源需求的同时,保持模型性能与 BF16 微调相当,将最大模型的 GPU 需求从 96 块减少到 16 块,显著降低了大模型开发的算力成本。

FastDeploy 推理部署工具则专注于模型的高效落地,支持 W8A8、W4A8、W2A16 等多种量化精度,甚至提供 2 位权重量化模型,使得 ERNIE 4.5 最大模型能够在单块 141GB H20 GPU 上运行。该工具还支持 Prefill-Decode 分离部署和多级负载均衡策略,在 H800 节点上实现了 56k 输入 TPS 和 18k 输出 TPS 的高性能推理,为大规模应用提供了坚实的技术支撑。

此次 ERNIE 4.5 家族开源的的所有模型均基于 Apache 2.0 许可证开源,这意味着开发者可以自由地使用、修改和分发这些模型。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询