我要投稿

快手发布SeamlessFlow框架：完全解耦Trainer与Agent，时空复用实现无空泡的工业级RL训练！

发布日期：2025-08-21 19:36:38 浏览次数： 1929

作者：快手技术

微信搜一搜，关注“快手技术”

近日，快手 Kwaipilot 团队发布了 SeamlessFlow 技术报告，这是对团队所使用的工业级规模强化学习（RL）训练框架的详细介绍。该框架通过创新的数据平面架构，对RL的训练逻辑和Agent做了彻底解耦，用以支持多智能体、在线强化学习训练等复杂场景；更进一步，针对RL计算资源分配问题，团队提出了“标签分配机制”，统一了该领域最广泛的两种设计模式（训推共卡、训推分离）。以标签分配的思路为出发点，在业界首个提出“时空复用pipeline”，实现了在训推分离的异构集群上彻底消除Pipeline Bubble的效果。在实际测试中，SeamlessFlow的端到端token吞吐量相比基线提升100%，整体训练时间减少62%。

技术报告：https://arxiv.org/abs/2508.11553

一、大模型RL训练的两大难题

随着OpenAI o系列和DeepSeek-R1的成功，强化学习已成为提升大模型推理能力的关键路径。然而在工业级部署中，RL训练面临着两大难题：其一是训练与Agent执行流程的强耦合。不同Agent往往具有复杂的内部逻辑，如记忆机制、多分支推理或测试时扩展，这使得RL训练必须依赖各自的实现，不仅维护成本高，还容易造成轨迹记录不完整、数据不一致。其二是算力利用率与系统稳定性的矛盾。业界对于RL模型训练和数据采样这两者的算力分配上有两种流派：训练与推理服务同机部署（Colocated: 训推共卡），可以减少空转保持高利用率，但弊端在于无法利用异构算力资源，且服务崩溃会牵连整个训练流程；另一种是将这二者分在两个集群上部署（Disaggregated: 训推分离），这种方式能提升稳定性，且能灵活利用异构算力，却会因训练和采样之间的时序依赖而产生流水线空泡（pipeline bubbles），导致大量GPU闲置。如何在大规模集群中同时实现高效与稳定，成为大模型RL必须突破的核心挑战。

这种矛盾在基于实际生产环境进行RL训练的场景中（即Online RL）尤为突出，一个LLM服务层需要同时支撑多个产品线的不同智能体，这些智能体可能涉及代码生成、文档理解、多轮对话等各种复杂任务。在这种情况下，如何设计RL系统，以保证这些在线产生的数据能无缝高效地进入RL的训练管线中、以及在不影响线上产品的情况下，最大化利用异构的计算资源，成为了一个极具挑战的问题。

图1：从标签视角看三种架构。Disaggregated架构存在明显的Pipeline Bubble；Colocated架构虽无bubble但缺乏灵活性；SeamlessFlow的时空复用通过动态标签切换彻底消除了bubble。除此之外，标签层的存在还提供了一层冗余：部分机器宕机不会影响整体训练流程

二、用数据平面破解Trainer-Agent耦合难题

SeamlessFlow的第一个关键创新是引入了独立的数据平面层，彻底解耦了RL训练和智能体实现。这个设计的巧妙之处在于，它不要求每个智能体去适配训练框架，而是在LLM服务和智能体之间插入了一个透明的代理层。

数据平面的核心是Trajectory Manager（轨迹管理器），它像一个"隐形记录员"，静默地捕获所有经过的token级别输入输出。当智能体向LLM发送请求时，Trajectory Manager会记录完整的输入；当LLM返回响应时，它同样会保存所有输出token，然后再转发给智能体。这个过程对智能体完全透明，智能体甚至感知不到Trajectory Manager的存在。

更重要的是，Trajectory Manager能够处理复杂的会话分支情况。通过最长前缀匹配算法，它可以将属于同一会话但可能有不同分支的多轮对话重建成完整的轨迹树。这不仅节省了存储空间，还避免了共享前缀的重复计算，显著提升了训练效率。每个token还会被标注生成它的模型版本，使得精确的on-policy/off-policy区分成为可能。

图2：数据平面的序列图，展示Trajectory Manager如何让智能体对模型更新无感知，以及Rollout Manager如何控制训练与推理阶段的切换。

数据平面的另一个关键组件是Rollout Manager（推理管理器），它负责协调整个系统的运行节奏。当收集到足够的训练样本、需要更新模型权重或者资源需要重新分配时，Rollout Manager会触发推理暂停。这里的巧妙设计是实现了partial rollout等服务端中断操作对下游Agent测的无感。从智能体的视角看，它只是收到了一个稍长的等待时间，完全感知不到背后发生的模型更新或资源调度。

这种设计带来的好处是革命性的。训练工程师不再需要深入了解每个智能体的实现细节，只需要从数据平面获取标准化的轨迹数据即可。新的智能体可以随时加入系统，无需修改RL训练pipeline。即使是数万token的长文本生成任务，也能在任意时刻优雅地暂停和恢复，不浪费任何已完成的计算。

三、标签驱动调度：统一Colocated和Disaggregated的巧妙抽象

SeamlessFlow的第二个创新是提出了标签驱动的资源调度范式。这个设计的精妙之处在于，它没有在Colocated和Disaggregated之间做非此即彼的选择，而是将两者统一在了统一的抽象框架下。

在SeamlessFlow中，每个计算资源都被赋予一个或多个能力标签（capability tags），比如rollout表示可以执行推理任务，train表示可以执行训练任务。调度器不再关心物理机器的身份，而是根据标签来分配任务。从这个视角看，纯Colocated架构就是所有机器都拥有全部标签的特例，纯Disaggregated架构则是每台机器只有单一标签的特例，而SeamlessFlow支持的是更灵活的混合模式。

图3：不同Pipeline实现方式的对比。Naive Pipeline存在大量空闲时间；Micro-batch和Off-policy filling部分缓解但无法消除bubble；SeamlessFlow的时空复用Pipeline实现了近乎零空闲。

这种抽象带来的最大好处是实现了时空复用（Spatiotemporal Multiplexing）。具体运作过程为：系统初始化时，一部分机器被赋予rollout和train双重标签，其余机器只有rollout标签。第一阶段，所有机器都在执行推理任务，最大化数据生成速度。当Rollout Manager判断已收集足够数据需要训练时，拥有train标签的机器会被立即抢占并切换到训练任务，而只有rollout标签的机器继续生成数据，保持推理服务不中断。训练完成后，这些机器又会切换回推理模式。

这种设计彻底解决了Pipeline Bubble问题。在传统的Disaggregated架构中，训练集群在等待推理数据时会大量空闲。而在SeamlessFlow中，这些"训练机器"在空闲时会立即被调度去做推理任务，将空闲时间压缩到几乎为零。实验数据显示，通过这种时空复用，系统的GPU的闲置率可以降低到5%以下。

对于异构集群，SeamlessFlow还引入了train_priority标签。通过roofline模型分析不同硬件的内存带宽和计算峰值性能，系统可以智能地判断哪些设备更适合训练任务，哪些更适合推理任务，哪些都适合，从而在保持高利用率的同时充分发挥各类硬件的特长。

四、工业级验证：从理论到实践的完美落地

SeamlessFlow不仅在理论上最优，在实际部署中也展现出了卓越的性能。在使用32张H800 GPU进行的对比测试显示，相比主流的VERL框架，SeamlessFlow在单轮RL任务（8k token上下文）中实现了100%的吞吐量提升，整体训练时间减少62%。这个提升主要来自于数据平面的流式设计和Pipeline Bubble的彻底消除。

图4：SeamlessFlow与VERL的吞吐量对比。左图展示了不同模型规模下的样本吞吐量，右图展示了20k token场景下的token吞吐量，SeamlessFlow均实现了显著提升。

在更复杂的智能体RL场景中，SeamlessFlow的优势更加明显。使用SWE-agent作为智能体scaffold，在最大生成长度64K token的代码任务中，SeamlessFlow实现了平均1.55倍的吞吐量提升。特别值得注意的是，当集群规模从32块GPU扩展到64块时，SeamlessFlow的性能优势进一步扩大，展现出了优秀的可扩展性。

图5：智能体训练场景的吞吐量对比，SeamlessFlow在不同集群规模下都保持明显优势。

为了验证端到端的效果，团队在软件工程任务上进行了大规模RL训练。使用包含10K个GitHub真实issue的训练集，覆盖3500个不同代码仓库，通过测试用例通过率作为奖励信号进行训练。结果显示，Qwen3-8B模型在SWE-Bench Verified上的性能从12.2%提升到27.4%，Qwen3-32B更是从23%提升到45.8%，充分证明了SeamlessFlow在实际任务中的有效性。

图6：Qwen3-32B在SeamlessFlow训练过程中的奖励曲线，展示了稳定的性能提升趋势。

五、架构创新背后的深度思考

SeamlessFlow的成功不仅仅是技术实现的胜利，更体现了对工业级RL训练深刻的理解。它认识到在真实的生产环境中，简单地追求某个单一指标的最优是不够的，必须在多个维度上达到平衡。

数据平面的设计体现了"关注点分离"的架构思想。通过将轨迹管理从智能体实现中剥离出来，不仅降低了系统的复杂度，还大大提升了可维护性。这种设计使得算法工程师可以专注于RL算法的优化，而不需要关心各种智能体的实现细节；同时产品工程师可以自由地迭代智能体功能，而不用担心破坏训练流程。

SeamlessFlow还体现了对细节的极致追求。比如在处理模型更新时，系统不是简单地中断所有推理请求，而是通过长轮询机制让请求"悬停"，等待新模型加载完成后继续生成。这种设计虽然增加了实现复杂度，但确保了智能体体验的连续性。

标签驱动调度则展现了"统一抽象"的威力。通过将资源能力抽象为标签，SeamlessFlow将看似对立的Colocated和Disaggregated架构统一在了同一个框架下。这不仅在理论上优雅，在实践中也带来了巨大的灵活性——系统可以根据实际负载动态调整资源分配策略，在稳定性和效率之间找到最佳平衡点。与Areal等其他框架通过引入落后多步off-polcy数据的做法不同，SeamlessFlow的时空复用pipeline，将off-polcy数据的落后程度控制在了1步以内，在实现无空泡的同时，尽可能减小了其对RL算法侧的负面影响。

只有在异构集群上将以上几点结合，才能实现真正意义上的Online RL：产品线上实时的数据要能轻松地被RL训练模块所使用、RL训练不能影响线上服务、集群的算力资源得到充分利用。

六、展望：工业级RL训练的新范式

SeamlessFlow的发布标志着工业级RL训练进入了一个新阶段。它不再是在现有架构间做取舍，而是从实际算法需求触发，通过以更高观点对Infra中各架构进行抽象，实现了新的架构方案，打破了长期存在的效率与稳定性矛盾。随着大模型能力的不断提升和智能体应用的日益普及，高效、稳定、灵活的RL训练框架将成为AI基础设施的关键组成部分。

SeamlessFlow的设计理念和技术创新为社区提供了宝贵的参考，它证明了通过深入理解问题本质、巧妙设计系统架构，可以在看似矛盾的需求之间找到完美的平衡点。这种思路不仅适用于RL训练，对其他大规模机器学习系统的设计也具有重要的借鉴意义。Kwaipilot团队将继续在大模型训练和智能体技术领域深耕，努力为社区带来更多实用的技术创新。感谢大家对我们工作的关注和支持，也欢迎持续关注我们后续的技术分享。

【END】

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费POC验证，效果达标后再合作。零风险落地应用大模型，已交付160+中大型企业