微信扫码
添加专属顾问
我要投稿
大幅降低显存需求,提升模型上下文长度,Unsloth优化让古董GPU焕发新生。 核心内容: 1. Unsloth优化DeepSeek-R1同款GRPO算法,显存需求降至5GB 2. 推理模型训练显存大幅下降,上下文长度增加10倍 3. 与Flash Attention 2结合,Unsloth大幅降低VRAM使用,提高效率
开源微调神器Unsloth带着黑科技又来了:上次更新把GRPO需要的内存见到了7GB,这次只需要5GB的VRAM,就能训练自己的推理模型Qwen2.5(1.5B),比上次要少2GB。
减少长上下文90%VRAM
和使用Flash Attention 2的标准实现相比,Unsloth使用多种技巧,巧妙地把GRPO的VRAM使用量减少了90%多!
数学原理
分组相对策略优化(Group Relative Policy Optimization,GRPO),出自DeepSeek去年发表的论文。
torch.exp(q-q.detach()) * advantages.unsqueeze(1)
使用参考实现的常规GRPO(红线)
移除detach代码(蓝线)
按照之前讨论的完整反向KL,添加额外项(黄线)
Unsloth高效GRPO算法
其他功能
from unsloth import PatchFastRLPatchFastRL("GRPO", FastLanguageModel)model, tokenizer = FastLanguageModel.from_pretrained(model_name = "meta-llama/meta-Llama-3.1-8B-Instruct",max_seq_length = max_seq_length,load_in_4bit = True, fast_inference = True, max_lora_rank = lora_rank,gpu_memory_utilization = 0.6, float8_kv_cache = True, )
如果想在vLLM中使用min_p=0.1或其他采样参数,也支持传递vLLM的SamplingParams参数中的任何内容!
max_prompt_length = 256from trl import GRPOConfig, GRPOTrainerfrom unsloth import vLLMSamplingParamsvllm_sampling_params = vLLMSamplingParams(min_p = 0.1,seed = 3407,...)training_args = GRPOConfig(...vllm_sampling_params = vllm_sampling_params,temperature = 1.5,)
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费POC验证,效果达标后再合作。零风险落地应用大模型,已交付160+中大型企业
2025-12-14
我微调了一个LangChain专家模型,离Vibe Agent又近了一步
2025-12-11
左脚踩右脚:大模型的有趣且简单的微调方式“SHADOW-FT”
2025-12-11
大模型训练的高效内存解决方案:流水线感知的细粒度激活卸载,实现显存开销与吞吐性能的联合最优
2025-12-08
一杯咖啡成本搞定多模态微调:FC DevPod + Llama-Factory 极速实战
2025-12-04
OpenAI公开新的模型训练方法:或许能解决模型撒谎问题,已在GPT-5 thiking验证
2025-11-23
微调Rerank模型完整指南
2025-11-22
大模型微调全流程实战指南:基于IPO框架的深度解析与优化
2025-11-21
AI基础 | Qwen3 0.6B 微调实现轻量级意图识别
2025-10-12
2025-10-14
2025-10-21
2025-09-24
2025-09-20
2025-09-25
2025-11-05
2025-11-05
2025-11-21
2025-12-04