微信扫码
添加专属顾问
我要投稿
字节跳动开源RL框架verl,让大模型强化学习效率提升20倍,支持671B参数模型训练,大幅降低RL算法部署门槛。核心内容: 1. verl框架解决了传统RLHF流程的三大痛点:效率瓶颈、算法壁垒和资源限制 2. 集成15+主流强化学习算法,提供完整训练脚本,简化分布式训练流程 3. 支持FSDP、Megatron-LM等分布式训练方案,已成功训练671B参数的DeepSeek模型
欢迎关注东哥,一起探索AI,在AI时代掌握更多的技能,创造更多的可能!
当大模型进入「后训练时代」,如何高效对齐人类偏好、提升推理与工具使用能力成为核心课题。近日,字节跳动Seed团队开源了强化学习框架verl,不仅实现了吞吐量20倍的突破,更让复杂RL算法的部署门槛大幅降低。
verl的前身是字节跳动内部研发的HybridFlow框架,其核心论文已被顶会EuroSys 2025收录。作为生产级别的大模型强化学习工具,它解决了传统RLHF流程中的三大痛点:
verl已集成15+主流强化学习算法,涵盖:
每个算法都提供完整的训练脚本,以GRPO为例,仅需配置模型路径和数据集即可启动分布式训练:
# 以Qwen3-8B为例的GRPO训练命令
python -m verl.trainer.main_ppo \
algorithm.adv_estimator=grpo \
data.train_files=/data/gsm8k/train.parquet \
data.val_files=/data/gsm8k/test.parquet \
data.train_batch_size=1024 \
data.max_prompt_length=512 \
data.max_response_length=1024 \
data.filter_overlong_prompts=True \
data.truncation='error' \
actor_rollout_ref.model.path=Qwen/Qwen3-8B \
actor_rollout_ref.actor.optim.lr=1e-6 \
actor_rollout_ref.model.use_remove_padding=True \
actor_rollout_ref.actor.ppo_mini_batch_size=256 \
actor_rollout_ref.actor.ppo_micro_batch_size_per_gpu=40 \
actor_rollout_ref.actor.use_kl_loss=True \
actor_rollout_ref.actor.kl_loss_coef=0.001 \
actor_rollout_ref.actor.kl_loss_type=low_var_kl \
actor_rollout_ref.actor.entropy_coeff=0 \
actor_rollout_ref.actor.strategy=fsdp2 \
actor_rollout_ref.model.enable_gradient_checkpointing=False \
actor_rollout_ref.actor.fsdp_config.param_offload=True \
actor_rollout_ref.actor.fsdp_config.optimizer_offload=True \
actor_rollout_ref.rollout.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.rollout.tensor_model_parallel_size=2 \
actor_rollout_ref.rollout.name=vllm \
actor_rollout_ref.rollout.gpu_memory_utilization=0.6 \
actor_rollout_ref.rollout.n=5 \
actor_rollout_ref.ref.log_prob_micro_batch_size_per_gpu=40 \
actor_rollout_ref.ref.fsdp_config.param_offload=True \
actor_rollout_ref.ref.strategy=fsdp2 \
algorithm.use_kl_in_reward=False \
trainer.critic_warmup=0 \
trainer.logger=['console','tensorboard'] \
trainer.project_name='verl_grpo_example_gsm8k_record' \
trainer.experiment_name='qwen2_7b_function_rm_re' \
trainer.n_gpus_per_node=8 \
trainer.nnodes=1 \
trainer.save_freq=20 \
trainer.test_freq=5 \
trainer.total_epochs=15框架支持多维度硬件优化:
verl已原生支持视觉-语言模型训练,通过Qwen2.5-VL等模型实现:
超过20个机构基于verl开展研究,包括:
# 基础依赖安装
pip install -r requirements.txt
# 如需CUDA加速
pip install -r requirements-cuda.txt根据官方规划,verl将在Q3重点推进:
字节跳动Seed团队表示,verl的开源不仅是技术输出,更希望推动强化学习在大模型领域的标准化。目前团队正招募RL算法与工程专家,共同完善这一生态。
项目地址:https://github.com/volcengine/verl
文档中心:https://verl.readthedocs.io
我是东哥,大模型算法工程师,职场努力搬砖,业余时间寻找第二曲线、探索更多人生可能,聚焦AI编程、AI智能体、大模型私有化方向。
如果你想加入我的免费AI编程交流群,直接扫码下方左边二维码、备注【AI编程】,还可以领取一份见面礼🎁
如果你想关注并跟随AI的最新动态,可以扫下方中间二维码关注公众号【东哥说AI】、不再错过最新AI资讯和实用干货内容📚
如果你也对AI编程和独立开发感兴趣,想用AI编程工具实现自己的想法创意,或者想学习用AI编程进行变现、早日实现收入自由,不妨考虑扫码下方右边二维码加入IDO老徐的AI编程商业化实战营星球,已经帮大家争取到了88元超额优惠券、抢到就是赚到!
| 东哥微信:发送暗号【AI编程】加入专属交流群 | 东哥说AI公众号:实时获取最新AI工具动态 | 老徐的AI编程商业化星球(限时优惠) |
最后,记得点赞、在看、推荐,你的每一次互动,都是我持续更新的最大动力!
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-11-24
GPUStack v2:推理加速释放算力潜能,开源重塑大模型推理下半场
2025-11-23
一行代码,让你的 AI 拥有永久记忆!告别昂贵的向量数据库
2025-11-23
Andrej Karpathy 推出 LLM Council:让多个大模型"开会"讨论你的问题
2025-11-23
开源项目推荐:Langchain-Chatchat——让大模型本地部署与知识库问答更简单
2025-11-22
ollama v0.13.0 发布:DeepSeek-OCR、Cogito-V2.1 全新支持,性能工具 Bench 正式上线
2025-11-19
腾讯云开源DeepSeek量化部署方案:性能最高提升3.9X!
2025-11-19
全新AI编程工具 Google Antigravity 实测,特别适合产品经理
2025-11-19
20M小模型的数学公式OCR,复杂公式截图秒转LaTeX代码!
2025-09-07
2025-09-06
2025-10-20
2025-09-08
2025-10-27
2025-10-27
2025-10-03
2025-11-19
2025-09-17
2025-08-28
2025-11-12
2025-11-10
2025-11-03
2025-10-29
2025-10-28
2025-10-13
2025-09-29
2025-09-17