我要投稿

AReaL v1.0 正式发布：面向 Agent 的全异步强化学习训练框架

发布日期：2026-03-05 19:06:58 浏览次数： 2098

作者：蚂蚁开源

微信搜一搜，关注“蚂蚁开源”

我们很高兴宣布 AReaL v1.0 正式发布。AReaL 是一个面向 Agent 的开源全异步强化学习训练框架。在 Agentic RL 算法系统协同创新的加持下，AReaL v1.0 可以兼容任意 Agent 框架，仅需修改一个接口地址即可无缝接入 RL 训练，包括最近流行的 OpenClaw，极大降低了强化学习的训练门槛。不仅如此，AReaL v1.0 还引入了系统化的 AI 辅助开发体系，并基于深度定制开发的 PyTorch 原生训练引擎 Archon 实现了千亿 MoE 模型的端到端训练。

📦 GitHub：
https://github.com/inclusionAI/AReaL

📄 论文：
https://arxiv.org/abs/2505.24298

🦞 OpenClaw 接入案例：

https://github.com/inclusionAI/AReaL/tree/main/examples/openclaw

背景：Agent 强化学习的工程挑战

OpenClaw、LangChain、Claude Code 等 Agent 运行时框架让 Agent 能够胜任越来越复杂的任务。强化学习（RL）是支撑 Agent 在真实环境中持续自我进化的重要手段，但在工程落地上面临多重挑战：

同步训练的效率瓶颈：传统同步 RL 系统需要等待批次中最长输出完成后才能进行模型更新，导致 GPU 利用率低下
Agent 接入成本高：不同 Agent 框架接入 RL 训练通常需要深入理解底层框架并修改运行时代码
工程复杂度高：大规模 RL 训练涉及生成与训练的协同、数据一致性保障等挑战

AReaL v1.0 通过完全解耦生成与训练的异步架构，以及针对 Agent 场景设计的代理网关，为上述挑战提供了一种工程解决方案。

全异步架构，提升训练效率

传统的强化学习训练系统多为同步模式，在每一轮训练中需要等待所有推理任务完成后再更新模型，这不仅限制了训练吞吐，也造成了 GPU 资源的浪费。AReaL 提出了全新的全异步训练架构，将推理（rollout）与训练（training）完全解耦，使两者可以并行进行，从而大幅提升资源利用率。

在 AReaL 系统中：

推理工作节点可不间断地生成推理轨迹，无需等待模型更新；
训练工作节点在收集到足够数据后即可触发模型更新；
通过工作负载均衡与基于数据陈旧度增强的 PPO 算法，系统在保持训练稳定性的同时，实现了高达 2.77 倍的训练加速。

一键接入，

降低 Agent 强化学习门槛

为了让开发者更便捷地为智能体接入强化学习能力，AReaL 提供了高度兼容的接入方式。例如，在与热门智能体框架 OpenClaw 的集成中，开发者只需修改一个配置项，即可实现 RL 训练的无缝接入，无需修改原有 Agent 代码。训练过程中，AReaL 会自动记录交互数据，并通过奖励反馈机制完成模型的持续优化。

这种“零代码”接入能力，不仅适用于 OpenClaw，也可扩展至其他 Agent 框架，标志着“任意 Agent 可训”在工程实践中的初步实现。

高效训练引擎 Archon，

支撑千亿 MoE 模型训练

除了框架层面的创新，AReaL 还包含一个由团队深度定制开发的训练引擎 Archon。该引擎基于 PyTorch 原生 API 构建，支持完整的 5D 并行（数据并行 DP、张量并行 TP、流水线并行 PP、上下文并行 CP、专家并行 EP），可高效支撑千亿级 MoE 模型的训练任务。

值得一提的是，Archon 的完整实现仅耗时约 32 人天，这得益于 AReaL 内置的一套 AI 辅助开发体系。该体系通过引入领域专家 Agent、命令驱动的开发工作流以及自动化 PR 生成流程，将复杂的系统开发任务高度自动化，显著提升了开发效率。

结语

AReaL 的发布，是我们在智能体自主进化方向上的重要一步。我们相信，随着训练框架的持续优化与普及，智能体将逐步跨越“能跑通 Demo”的初级阶段，迈向“持续自主进化”的新阶段。未来，AReaL 团队将持续在系统可用性、训练引擎效率、AI 辅助开发与多模态智能体训练等方向发力，致力于打造面向 Agentic AI 时代的高性能 RL 基础设施。