免费POC, 零成本试错
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


我要投稿

字节跳动开源RL框架verl:让大模型强化学习效率提升20倍,已支持671B参数模型训练

发布日期:2025-11-24 22:07:25 浏览次数: 1533
作者:东哥说AI

微信搜一搜,关注“东哥说AI”

推荐语

字节跳动开源RL框架verl,让大模型强化学习效率提升20倍,支持671B参数模型训练,大幅降低RL算法部署门槛。

核心内容:
1. verl框架解决了传统RLHF流程的三大痛点:效率瓶颈、算法壁垒和资源限制
2. 集成15+主流强化学习算法,提供完整训练脚本,简化分布式训练流程
3. 支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型

杨芳贤
53AI创始人/腾讯云(TVP)最具价值专家
点击蓝字
 
关注东哥

欢迎关注东哥,一起探索AI,在AI时代掌握更多的技能,创造更多的可能!

Image

当大模型进入「后训练时代」,如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日,字节跳动Seed团队开源了强化学习框架verl,不仅实现了吞吐量20倍的突破,更让复杂RL算法的部署门槛大幅降低。

从HybridFlow到verl:工业级RLHF框架的开源之路

verl的前身是字节跳动内部研发的HybridFlow框架,其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具,它解决了传统RLHF流程中的三大痛点:

  • 效率瓶颈:通过3D-HybridEngine实现模型动态重分片,消除训练与生成阶段的内存冗余,通信开销降低60%
  • 算法壁垒:独创混合控制器编程模型,让GRPO、PPO等算法的实现只需数十行代码
  • 资源限制:支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型
Image

五大核心特性,重新定义大模型RL训练

1. 算法生态:从经典到前沿的全支持

verl已集成15+主流强化学习算法,涵盖:

  • 经典方案:PPO、DPO、RLOO
  • 推理优化:DAPO(AIME基准达60.4分)、VAPO
  • 多轮交互:SPPO、ReTool(工具调用场景)

每个算法都提供完整的训练脚本,以GRPO为例,仅需配置模型路径和数据集即可启动分布式训练:

# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
    algorithm.adv_estimator=grpo \
    data.train_files=/data/gsm8k/train.parquet \
    data.val_files=/data/gsm8k/test.parquet \
    data.train_batch_size=1024 \
    data.max_prompt_length=512 \
    data.max_response_length=1024 \
    data.filter_overlong_prompts=True \
    data.truncation='error' \
    actor_rollout_ref.model.path=Qwen/Qwen3-8B \
    actor_rollout_ref.actor.optim.lr=1e-6 \
    actor_rollout_ref.model.use_remove_padding=True \
    actor_rollout_ref.actor.ppo_mini_batch_size=256 \
    actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.actor.use_kl_loss=True \
    actor_rollout_ref.actor.kl_loss_coef=0.001 \
    actor_rollout_ref.actor.kl_loss_type=low_var_kl \
    actor_rollout_ref.actor.entropy_coeff=0 \
    actor_rollout_ref.actor.strategy=fsdp2 \
    actor_rollout_ref.model.enable_gradient_checkpointing=False \
    actor_rollout_ref.actor.fsdp_config.param_offload=True \
    actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
    actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
    actor_rollout_ref.rollout.name=vllm \
    actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
    actor_rollout_ref.rollout.n=5 \
    actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
    actor_rollout_ref.ref.fsdp_config.param_offload=True \
    actor_rollout_ref.ref.strategy=fsdp2 \
    algorithm.use_kl_in_reward=False \
    trainer.critic_warmup=0 \
    trainer.logger=['console','tensorboard'] \
    trainer.project_name='verl_grpo_example_gsm8k_record' \
    trainer.experiment_name='qwen2_7b_function_rm_re' \
    trainer.n_gpus_per_node=8 \
    trainer.nnodes=1 \
    trainer.save_freq=20 \
    trainer.test_freq=5 \
    trainer.total_epochs=15

2. 硬件适配:从单卡到超大规模集群

框架支持多维度硬件优化:

  • 计算引擎:兼容vLLM、SGLang等推理加速库,生成吞吐量提升3倍
  • 设备调度:灵活的GPU映射策略,支持训练/推理分离部署
  • 极致性能:采用FlashAttention2和Liger-kernel,显存占用降低40%

3. 工程化设计:工业级训练保障

  • 断点续训:支持训练状态全量保存,故障恢复无需重跑
  • 监控体系:集成wandb、mlflow等实验跟踪工具,实时可视化训练曲线
  • 弹性扩展:通过Ray实现资源动态调度,支持数百GPU集群

4. 多模态能力:不止于文本

verl已原生支持视觉-语言模型训练,通过Qwen2.5-VL等模型实现:

  • 图文混合指令跟随
  • 视觉推理任务优化
  • 多模态工具调用(如OCR+搜索组合)

5. 社区生态:从学术研究到产业落地

超过20个机构基于verl开展研究,包括:

  • 清华大学:多轮对话RLHF优化
  • 香港大学:代码生成领域的PPO改进
  • 微软:Agent-Lightning代理框架

快速上手:从零开始的RL训练

环境准备

# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt

典型工作流

  1. 1. 监督微调(SFT):使用HuggingFace数据集初始化模型
  2. 2. 奖励模型训练:构建偏好数据训练评分模型
  3. 3. RL优化:选择合适算法进行策略迭代
  4. 4. 评估部署:集成vLLM实现高效推理服务
Image

未来路线图:更开放的强化学习生态

根据官方规划,verl将在Q3重点推进:

  • 异步离线策略架构
  • 多智能体训练支持
  • 更大规模MoE模型优化
  • 强化学习与工具使用深度融合

字节跳动Seed团队表示,verl的开源不仅是技术输出,更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家,共同完善这一生态。

项目地址:https://github.com/volcengine/verl

文档中心:https://verl.readthedocs.io


我是东哥,大模型算法工程师,职场努力搬砖,业余时间寻找第二曲线、探索更多人生可能,聚焦AI编程、AI智能体、大模型私有化方向。

如果你想加入我的免费AI编程交流群,直接扫码下方左边二维码、备注【AI编程】,还可以领取一份见面礼🎁

如果你想关注并跟随AI的最新动态,可以扫下方中间二维码关注公众号【东哥说AI】、不再错过最新AI资讯和实用干货内容📚

如果你也对AI编程和独立开发感兴趣,想用AI编程工具实现自己的想法创意,或者想学习用AI编程进行变现、早日实现收入自由,不妨考虑扫码下方右边二维码加入IDO老徐的AI编程商业化实战营星球,已经帮大家争取到了88元超额优惠券、抢到就是赚到!

东哥微信:发送暗号【AI编程】加入专属交流群 东哥说AI公众号:实时获取最新AI工具动态 老徐的AI编程商业化星球(限时优惠)
Image
Image
Image


最后,记得点赞、在看、推荐,你的每一次互动,都是我持续更新的最大动力!



图片
找到东哥
AI智能体 | AI编程
大模型部署 | RPA


53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询